Eksploracja Danych. podstawy

Podobne dokumenty
Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Proces odkrywania wiedzy z baz danych

Określanie ważności atrybutów. RapidMiner

Odkrywanie reguł asocjacyjnych. Rapid Miner

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

Analiza danych i data mining.

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Eksploracja danych TADEUSZ MORZY


Prof. Stanisław Jankowski

Specjalizacja magisterska Bazy danych

Metody Inżynierii Wiedzy

Analiza danych. TEMATYKA PRZEDMIOTU

Eksploracja danych (data mining)

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Wprowadzenie do technologii informacyjnej.

Odkrywanie asocjacji

Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz

data mining machine learning data science

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Relacja zakresu nauk humanistyczno-społecznych z Krajową Inteligentną Specjalizacją

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Implementacja metod eksploracji danych - Oracle Data Mining

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

Wprowadzenie do technologii Business Intelligence i hurtowni danych

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Matematyka kodem nowoczesności. Zaproszenie do składania ofert

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

Dr inż. Andrzej KAMIŃSKI Instytut Informatyki i Gospodarki Cyfrowej Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie

Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy

INŻYNIERIA OPROGRAMOWANIA

Uniwersytet Śląski w Katowicach str. 1 Wydział Informatyki i Nauki o Materiałach

Ewelina Dziura Krzysztof Maryański

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

TOPWEB Microsoft Excel 2013 i PowerBI Przygotowanie danych, analiza i efektowna prezentacja wyników raportów

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Hurtownie danych - opis przedmiotu

Wykaz tematów prac dyplomowych w roku akademickim 2011/2012 kierunek: informatyka, studia niestacjonarne

Rola analityki danych w transformacji cyfrowej firmy

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

FREE ARTICLE. Kosmetyk produkt pierwszej potrzeby jak produkty spożywcze. Autor: Monika Grzywa

Analiza danych tekstowych i języka naturalnego

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Efekt kształcenia. Wiedza

INŻYNIERIA OPROGRAMOWANIA

Moduł ankiet. Kompleksowe rozwiązanie marketingowe

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Bazy danych na co dzień

ROZWÓJ SYSTEMÓW SZTUCZNEJ INTELIGENCJI W PERSPEKTYWIE "PRZEMYSŁ 4.0"

MINIMALNY ZAKRES PROGRAMU STAŻU dla studentów kierunku Informatyka

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Technologie cyfrowe i użytkowanie internetu przez firmy kanadyjskie w 2012 r :36:34

Efekty kształcenia dla: nazwa kierunku

Eksploracja danych. Plan prezentacji. Problemy eksploracji danych. Wielkie bazy danych SCHEMATY. zakresie baz danych, uczenia maszynowego i statystyki

Security Master Class

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Etapy przygotowań do przeprowadzenia badań marketingowych. dr Grzegorz Kotliński, Katedra Bankowości AE w Poznaniu

Business Intelligence narzędziem wsparcia sprzedaży

Informatyka wspomaga przedmioty ścisłe w szkole

Zakładane efekty kształcenia dla kierunku Wydział Telekomunikacji, Informatyki i Elektrotechniki

Problemy i wyzwania analizy obszaru ICT

Analiza i wizualizacja danych Data analysis and visualization

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Szczegółowy opis przedmiotu zamówienia

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Wielowymiarowy model danych

Zasady przeprowadzania egzaminu magisterskiego Kierunek Zarządzanie Studia II stopnia

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

Zastosowanie technologii Semantic Web w regionalnej sieci telemedycznej

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Ekonomiczny Uniwersytet Dziecięcy. Marketing internetowy

Hurtownie danych - przegląd technologii

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Semantyczny Monitoring Cyberprzestrzeni

KIERUNKOWE EFEKTY KSZTAŁCENIA

Analityka i BigData w służbie cyberbezpieczeństa

Hurtownie danych. 31 stycznia 2017

Integracja przykładowej hurtowni z serwisem aukcyjnym Allegro.

Funkcje analityczne w SAP CRM

Personalizowane rekomendacje w e-commerce, czyli jak skutecznie zwiększyć przychody w sklepie on-line

Transkrypt:

Eksploracja Danych podstawy

Bazy danych (1) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 2/633

Bazy danych (2) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 3/633

Bazy danych (3) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 4/633

Bazy danych (4) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 5/633

Największe bazy danych na świecie Choicepoint: 250 terabajtów danych osobowych Sprint: 2,85 bilionów rekordów dot. rozmów telefonicznych. AT&T: 323 terabajty danych, 1,9 biliona rekordów dot. rozmów. National Energy Research Scientific Computing Center: 2.8 petabajtów danych World Data Centre for Climate: 6 petabajtów danych na taśmach i 220 terabajtów danych sieciowych. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 6/633

Zalew danych Źródła danych Rozwój technologii baz danych, hurtowni danych, automatycznych narzędzi do gromadzenia danych Upowszechnienie systemów informatycznych i wzrost świadomości użytkowników systemów IT Spadek cen sprzętu komputerowego Toniemy w danych, ale brakuje nam wiedzy jaka jest w nich zawarta! Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 7/633

Problem odkrywania wiedzy TS ID_KLIENTA Koszyk 12:57 1123 {mleko, pieluszki, piwo} 13:12 1412 {mleko, piwo, bułki, masło} 13:55 1425 {piwo, wódka, wino, paracetamol} 14:09 1123 {mleko, pieluszki, smoczek}... Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 8/633

Problem odkrywania wiedzy ID_PACJENTA TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 1 36.6 T BRAK NORMA NIESTRAWNOŚĆ 2 37.5 N MAŁA PRZEKR. ALERGIA 3 36.0 N BRAK NORMA PRZECHŁODZENIE 4 39.5 T DUŻA PRZEKR. CZARNA OSPA. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 9/633

Problem odkrywania wiedzy TS T1 T2 T3 12:01 12.3 64.33 224 12:02 34.1 33.21 234 12:03 5.43 15.65 234 12:04 20.01 1.02 112. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 10/633

Problem odkrywania wiedzy ID_PACJENTA TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 1 36.6 T BRAK NORMA NIESTRAWNOŚĆ 2 37.5 N MAŁA PRZEKR. ALERGIA 3 36.0 N BRAK NORMA PRZECHŁODZENIE 4 39.5 T DUŻA PRZEKR. CZARNA OSPA. TEMP>37 BÓL=N WYSYPKA>MAŁA NIESTRAWNOŚĆ PRZECHŁODZENIE ALERGIA CZARNA OSPA Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 11/633

Problem odkrywania wiedzy TS T1 T2 T3 12:01 12.3 64.33 224 12:02 34.1 33.21 234 12:03 5.43 15.65 234 12:04 20.01 1.02 112. y 4 3 2 1 0-4 -2 0 2 4-1 -2-3 x y 7 6 5 4 3 2 1 0-4 -2-1 0 2 4 6-2 -3-4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 12/633

Problem odkrywania wiedzy TS ID_KLIENTA Koszyk 12:57 1123 {mleko, pieluszki, piwo} 13:12 1412 {mleko, piwo, bułki, masło} 13:55 1425 {piwo, wódka, wino, paracetamol} 14:09 1123 {mleko, pieluszki, smoczek}... pieluszki mleko Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 13/633

Eksploracja danych Tylko niewielka część danych jest wykorzystywana w praktyce. Niezbędna jest analiza przechowywanych danych! Zbiór metod automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów (ang. patterns) w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) to Eksploracja Danych Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 14/633

OLTP i OLAP Zapytanie operacyjne: Ile butelek wina sprzedano w I kwartale 2006 w sklepie Auchan w Poznaniu? Zapytanie analityczne: Ile sprzedano butelek wina w sieci Auchan na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 5 lat? Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 15/633

ED zaawansowany rodzaj zapytań Zapytania eksploracyjne: W jaki sposób można scharakteryzować klientów kupujących wino? Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? Czy można dokonać predykcji, że dany klient kupi wino? Jakie oddziały supermarketu miały 'anormalną' sprzedaż w pierwszym kwartale 2004 r.? Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 16/633

Odkrywanie wiedzy Integracja, selekcja i czyszczenie danych Wybór metody i algorytmu, oraz właściwa eksploracja danych Interpretacja, analiza i ocena wyników wizualizacja, transformacja, usuwanie redundantnych wzorców, etc. Wykorzystanie pozyskanej wiedzy Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 17/633

Metody eksploracji danych klasyfikacja/regresja grupowanie odkrywanie asocjacji odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych wykrywanie zmian i odchyleń eksploracja WWW eksploracja tekstów Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 18/633

Dane wejściowe TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 36.6 T BRAK NORMA NIESTRAWNOŚĆ 37.5 N MAŁA PRZEKR. ALERGIA 36.0 N BRAK NORMA PRZECHŁODZENIE 39.5 T DUŻA PRZEKR. CZARNA OSPA Ciągłe Wartości ze zbioru liczb rzeczywistych Porządkowe Dyskretne Zdefiniowana relacja porządku Nominalne Skończone Brak relacji porządku Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 19/633

Odkrywanie asocjacji Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 20/633

Zastosowania asocjacji Planowanie kampanii promocyjnych Rozmieszczenie stoisk sprzedaży w sklepie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 21/633

Odkrywanie wzorców sekwencji t t t Index.html Search.php Torent.php Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 22/633

Zastosowania wzorców sekwencji Zastosowania odkrytych wzorców sekwencji: planowanie inwestycji giełdowych przewidywanie sprzedaży znajdowanie skutecznej terapii znajdowanie profili klientów serwisu webowego Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 23/633

Klasyfikacja (1/2) TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 36.6 T BRAK NORMA NIESTRAWNOŚĆ 37.5 N MAŁA PRZEKR. ALERGIA 36.0 N BRAK NORMA PRZECHŁODZENIE 39.5 T DUŻA PRZEKR. CZARNA OSPA Klasyfikator TEMP BÓL WYSYPKA GARDŁO 38.0 N BRAK NORMA DIAGNOZA ALERGIA Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 24/633

gardlo = przekrwione temp > 37 ból = N 5 4 3 2 1? Klasyfikacja (2/2) P(BÓL ALERGIA)=0,3 P(TEMP>37 ANGINA)=0,5 angina przechlodzenie 0 1 3 5 TEMP>37 BÓL=N WYSYPKA>MAŁA NIESTRAWNOŚĆ PRZECHŁODZENIE ALERGIA CZARNA OSPA Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 25/633

Zastosowania klasyfikacji Zastosowania klasyfikacji: diagnostyka medyczna rozpoznawanie trendów na rynkach finansowych przydział kredytów bankowych Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 26/633

Grupowanie 7 6 5 4 y a 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x a Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 27/633

Grupowanie przykłady grupowania: automatyczne grupowanie dokumentów tekstowych (np. maili) grupowanie klientów serwisu grupowanie konsumentów energii elektrycznej zastosowania grupowania: systemy rekomendacyjne (grupowanie klientów) wyszukiwanie informacji w sieci web (np. grupowanie stron www) astronomia handel elektroniczny Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 28/633

Odkrywaniecharakterystyk 7 6 5 4 Mężczyźni 3 y a 2 1 0-4 -2 0-1 2 4 6-2 -3 Kobiety -4 x a Haki na posłów Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 29/633

Odkrywanie charakterystyk przykład odkrywania charakterystyk: opis pacjentów chorujących na anginę: pacjenci chorujący na anginę cechują się temperaturą ciała większą niż 37.5 C, bólem gardła, osłabieniem organizmu automatyczne tworzenie streszczeń dokumentów automatyczne tworzenie charakterystyk produktów na podstawie informacji z blogów i forów internetowych zastosowania odkrywania charakterystyk: znajdowanie zależności funkcyjnych pomiędzy zmiennymi określanie profilu klienta -zbioru cech charakterystycznych Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 30/633

Odkrywaniepunktów osobliwych 7 6 5 y a 4 3 2? Mężczyźni 1 0-3 -2-1 0 1 2 3 4 5-1 -2 Kobiety -3-4 x a Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 31/633

Odkrywaniepunktów osobliwych przykład odkrywania punktów osobliwych znajdowanie klientów, których konsumpcja energii odbiega znacząco od innych klientów o podobnej charakterystyce znajdowanie pacjentów, których wyniki odbiegają znacząco od wyników analiz innych pacjentów chorujących na ta samą chorobę zastosowania odkrywania punktów osobliwych: wykrywanie oszustw podatkowych, kradzieży prądu, itp.. astronomia, fizyka odkrywanie obiektów o nieznanej dotychczas charakterystyce Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 32/633

Eksploracja sieci WWW znajdowanie typowych wzorców zachowań użytkowników sieci znajdowanie powiazań stron w sieci web w celu określenia ważności i koncentratywności stron (w celu poprawy efektywności procesu wyszukiwania stron) grupowanie i klasyfikacja stron WWW na podstawie ich zawartości i schematu zewnętrznego znajdowanie ukrytych stron lustrzanych i wewnętrznych środowisk (ang. communities) oraz analiza ich ewolucji w czasie analiza reklam internetowych (ich efektywności, rozliczania i propagacji). Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 33/633

Eksploracja danych multimedialnych 0 200 m B1 A2 C1 C3 B3 A4 A1 A3 Collocation pattern instances B4 A5 C2 B2 Neighborhood relationship dist(a1,b1)<=200m Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 34/633

Eksploracja struktur grafowych Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 35/633

Metody analizy struktur grafowych grupowanie i klasyfikacja struktur grafowych, odkrywanie częstych podstruktur (podgrafów) w bazie danych, klasyfikacja struktur grafowych umożliwiająca znajdowanie zależności pomiędzy pewną charakterystyką struktury grafowej a jej budową (np. analiza i klasyfikacja sekwencji DNA) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 36/633

Eksploracja sieci społecznościowych algorytmy analizy sieci społecznościowe wspomagające: procesy wykrywania oszustów uczestniczących w aukcjach internetowych, wykrywanie przestępstw w kryminalistyce, analizę dużych sieci elektrycznych i telekomunikacyjnych itp. powiazania pomiędzy uczestnikami gier i aukcji internetowych wykrywanie środowisk w sieciach społecznościowych rozpowszechnianie się epidemii, itp. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 37/633