Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7
Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8
Przykład Teleskop Hubble a Dane Zdjęcia Widmo Informacje Jasność obiektów Przesunięcie ku czerwieni Wiedza Korelacja pomiędzy jasnością a przesunięciem ku czerwieni Zrozumienie Wszechświat się rozszerza! * Źródło przykładu: http://www.slideserve.com/thad/data-mining-umuc-csmn-667 9
Etapy procesu odkrywania Dane wiedzy Filtrowanie Wybrany podzbiór Wstępne przetwarzanie Wyczyszczone dane Transformacja Dane do analizy Eksploracja danych Wzorce/ modele Interpretacja / ocena Wiedza 10
Czym jest data mining? 0 Efektywne znajdowanie nieznanych dotychczas zależności i związków pomiędzy danymi. 0 Czerpie z takich dziedzin jak: 0 systemy baz danych 0 hurtownie danych 0 statystyka 0 odkrywanie wzorców 0 uczenie maszynowe 0 wizualizacja danych 0 optymalizacja 11
Zastosowania 0 Planowanie promocji, rozmieszczanie produktów 0 Wspomaganie diagnostyki medycznej 0 Kierowanie reklam 0 Odkrywanie wzorców w DNA 0 Analiza sieci terrorystycznych 0 Ocena zdolności kredytowej 12
Typy danych 0 Dane relacyjne 0 Tekst 0 Dane semistrukturalne (np. XML) 0 Zdjęcia 0 Pliki video 0 Modele 3D 0 Współrzędne geograficzne 0 Grafy 0 Przebiegi czasowe 0 Strumienie danych 13
Źródła danych 0 Firmy 0 WWW 0 Sieci społecznościowe 0 Aukcje internetowe 0 Fora internetowe 0 Czujniki urządzeń, pomieszczeń, itp. 0 Komunikacja miejska 14
Gdzie można przechowywać dane? 15
Ogólny podział metod eksploracja danych 0 Nienadzorowane Dane Algorytm Grupy, reguły, wzorce 0 Nadzorowane Dane treningowe Algorytm Model Dane Model Klasy 16
Przykładowe metody eksploracji danych 0 Odkrywanie reguł asocjacyjnych 0 Grupowanie 0 Klasyfikacja 17
Odkrywanie reguł asocjacyjnych 0 Nienadzorowane 0 Odkrywanie zależności pomiędzy atrybutami 0 Market Basket Analysis 0 hello, world 0 Jakie inne produkty kupują osoby, które mają w koszyku piwo? 18
Odkrywanie reguł asocjacyjnych 0 Postać reguł X Y 0 Ocena jakości reguł 0 Wsparcie: 0 Ufność: sup(x) = transakcje zawierające X wszystkie transakcje sup (X Y) conf(r) = sup (X) 19
Grupowanie Łączenie obiektów w grupy w taki sposób, aby obiekty wewnątrz grup miały jak największe podobieństwo, a obiekty z różnych grup jak najbardziej się od siebie różniły. 20
Grupowanie przykład 21
Grupowanie przykład 22
Grupowanie przykład P1 P2 P3 P4 P1-2 0 0 P2 2-1 0 P3 0 1-2 P4 0 0 2 - P1, P2 P1, P2 P3 P4-1 0 P3 1-2 P4 0 2 - P1, P2 P3, P4 P1, P2 P3, P4-1 1-23 P1,P2 P3,P4 D(a) 2 0 D(b) 2 0 D(c) 1 0 D(d) 1 2 D(e) 0 2
Klasyfikacja 0 Nadzorowane 0 Identyfikacja klasy, do której należy obiekt 0 Udzielić kredytu, czy nie? 24
Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Samochód Słuchawki Utwór 8:00 Tak Nie Bonamassa Happier Times 7:30 Nie Tak Timmons Electric Gypsy 14:00 Nie Tak Dvorak 9th Symphony 18:00 Tak Nie Beck Seasons 23:00 Nie Tak Mahler 2nd Symphony 24:00 Nie Tak Beethoven 5th Symphony 25
Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Samochód Słuchawki Utwór Gatunek 8:00 Tak Nie Bonamassa Happier Times Rock 7:30 Nie Tak Timmons Electric Gypsy Rock 14:00 Nie Tak Dvorak 9th Symphony Klasyczna 18:00 Tak Nie Beck Seasons Rock 23:00 Nie Tak Mahler 2nd Symphony Klasyczna 24:00 Nie Tak Beethoven 5th Symphony Klasyczna 26
Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Samochód Słuchawki Gatunek 8:00 Tak Nie Rock 7:30 Nie Tak Rock 14:00 Nie Tak Klasyczna 18:00 Tak Nie Rock 23:00 Nie Tak Klasyczna 24:00 Nie Tak Klasyczna 27
Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Godzina Samochód Gatunek 8:00 Tak Rock 7:30 Nie Rock 14:00 Nie Klasyczna 18:00 Tak Rock 23:00 Nie Klasyczna 24:00 Nie Klasyczna Przed 8 Po 8 Rock 28
Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Godzina Samochód Gatunek 8:00 Tak Rock 7:30 Nie Rock 18:00 Tak Rock 14:00 Nie Klasyczna 23:00 Nie Klasyczna 24:00 Nie Klasyczna Przed 8 Po 8 Rock Samochód Tak Nie Rock Klasyczna 29
Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Przed 8 Po 8 Rock Samochód Tak Nie Rock Klasyczna 30
Podejście do prawdziwych problemów 31
Podejście do prawdziwych problemów 32
Podejście do prawdziwych problemów 33
Podejście do prawdziwych problemów 34
Wiedza dziedzinowa 0 Oczywiste zależności 0 Dobór parametrów 0 Czego właściwie szukać 35
Inne zagadnienia 0 Preprocessing 0 Reprezentacja 0 Wartości odstające 0 Ocena jakości 0 Wizualizacja: http://www.ted.com/talks/david_mccandless_the_be auty_of_data_visualization.html 36
Przyszłość 37
Big Data 38
Big Data 39
Big Data 0 200 milionów $ zainwestowane przez rząd USA 0 3xV 0 Volume 0 Velocity 0 Variety 40
Big Data 0 YouTube 0 Godzina filmów/sekundę 0 700 filmów udostępnionych na Twittera/minutę 0 Facebook 0 250 milionów zdjęć/dzień 0 2,7 miliarda lajków/dzień 41
Big Data 0 1986-2007: 295 EB 0 2011: 800 EB 0 2,5 EB/dzień 0 90% - ostatnie 2 lata 0 10% - dane ustrukturalizowane 0 2020: 35 ZB 42
Ile to jest 35 ZB? 43
44
45
46
47
48
Podsumowanie 0 Wieloetapowy proces pozwalający pozyskać wiedzę z danych 0 Bardzo wiele zastosowań 0 Bardzo wiele metod (reguły asocjacyjne, grupowanie, klasyfikacja) 0 Niezbędna jest wiedza dziedzinowa 0 Wyzwanie na teraz oraz na przyszłość Big Data 49
Dziękuję za uwagę