Techniki i algorytmy eksploracji danych Tadeusz Morzy Instytut Informatyki Politechnika Poznańska str. 1 Geneza (1) Dostępność danych Rozwój nowoczesnych technologii przechowywania i przetwarzania danych (systemy baz danych, hurtownie danych, repozytoria danych) Upowszechnienie systemów informatycznych we wszystkich praktycznie dziedzinach życia ( bankowość, ubezpieczenia, administracja, medycyna, nauka, sport, handel, produkcja, marketing itd. Spadek cen sprzętu komputerowego Geneza (2) Jaka jest wartość nagromadzonych danych z punktu widzenia przedsiębiorstwa? służą one do obsługi i wspomagania bieżącej działalności przedsiębiorstw zawierają bardzo często istotną wiedzę o otaczającym nas świecie nagromadzone mogą zawierać istotną wiedzę o prawidłowościach i regułach procesów biznesowych, zachowaniach klientów, o zależnościach występujących pomiędzy danymi generowanymi przez różne procesy Dylemat przedsiębiorstw: w jaki sposób efektywnie i racjonalnie wykorzystać nagromadzoną w danych wiedzę dla celów wspomagania swojej działalności? str. 3
Przyrost danych (1) How much information 2003: podwojenie danychco dwa lata (prawo Moore a) Extracting Value from Chaos (Wydobywanie wartości z chaosu) (EMC Corporation) -wyniki badania IDC Digital Universe, według którego ilość informacji na świecie wzrasta przeszło dwukrotnie co dwa lata. W 2011 r. utworzono i zreplikowano 1,8 zetabajtów jest to wzrost szybszy, niżby to wynikało z prawa Moore a. Serwery światowe przetworzyły 9,57 zetabajtów (rok 2008) str. 4 Przyrost danych (2) Tylko niewielka część danych jest analizowana, a efekty tej analizy wykorzystywane w praktyce!!! Niezbędna jest analiza przechowywanych danych inaczej przechowywanie takich wolumenów danych nie ma najmniejszego sensu Technologią, która zajmuje się analizą i odkrywaniem zależności, reguł, wzorców w bazach i hurtowniach danych jest eksploracja danych(ang. data mining) str. 5 Czym jest eksploracja danych (1) Eksploracja danych: zbiór metod automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów (ang. patterns) w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) Celem eksploracji danych jest analiza danych i procesów w celu lepszego ich rozumienia DANE DATA MINING WZORCE str. 6
Czym jest eksploracja danych (2) Alternatywne określenia technologii eksploracji danych: odkrywanie wiedzy w bazach danych (KDD - SIGKDD), ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie wiedzy Ciekawe określenia: archeologia danych, kopanie w danych, eksploatacja złóż danych Czym nie jest eksploracja danych: systemy eksperckie OLAP str. 7 Eksploracja danych: proces odkrywania wiedzy(1) Odkrywanie wiedzy a eksploracja danych Eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy Etapy procesu odkrywania wiedzy (ang. KDD process): Zapoznanie się z wiedzą dziedzinową aplikacji - aktualna wiedza i cele aplikacji Integracja danych z różnych źródeł danych Selekcja danych (ekstrakcja cech) Czyszczenie danych: (około60% czasu) str. 8 Eksploracja danych: proces odkrywania wiedzy(2) Etapy procesu odkrywania wiedzy cd.: Konsolidacja i transformacja danych Wybór metody (metod) eksploracji danych Wybór algorytmu eksploracji danych Eksploracja danych Interpretacja, analiza i ocena wyników wizualizacja, transformacja, usuwanie redundantnych wzorców, etc. Wykorzystanie pozyskanej wiedzy str. 9
Typy zapytań do repozytoriów danych Eksploracja danych = złożone zapytania Zapytanie operacyjne do bazy danych: Ile butelek wina sprzedano w I kwartale 20013 roku w sklepie Auchan w Poznaniu? Jaki procent klientów zakupił wino I kwartale 20013 roku w sklepie Auchan w Poznaniu? Zapytanie analityczne do hurtowni danych: Ile sprzedano butelek wina w sieci Auchan na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 5 lat? Jak rozkłada się sprzedaż poszczególnych marek wina w sieci Auchan na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 5 lat? str. 10 Zapytania eksploracyjne (1) Przykłady zapytań eksploracyjnych: Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? W jaki sposób można scharakteryzować klientów kupujących wino? W jaki sposób pogrupować klientów kupujących wino? Czy można dokonać predykcji, że dany klient kupi wino? str. 11 Zapytania eksploracyjne (2) Przykłady zapytań eksploracyjnych (c.d.): Jakie czynniki kształtują popyt na określone produkty? Czym różnią się klienci supermarketu w Poznaniu i Warszawie? Jakie oddziały supermarketu miały anormalną sprzedaż w pierwszym kwartale 2013 r.? Czy można przewidzieć popyt klientów na określone produkty? Czy istnieje korelacja pomiędzy lokalizacja oddziału supermarketu a asortymentem produktów, których sprzedaż jest wyższa od średniej sprzedaży produktów? str. 12
Zapytania eksploracyjne (3) Dany jest zbiór danych opisujących pacjentów szpitala.czy potrafimy w oparciu o ten zbiór danych: Poprawnie zdiagnozować pacjenta (określić chorobę)? Przewidzieć poprawnie wynik terapii? Zaproponować najlepszą terapię? str. 13 Eksploracja danych: mieszanka dyscyplin Systemy baz danych, hurtownie danych, OLAP Statystyka, probabilistyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny: Sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, systemy reputacyjne, etc. str. 14 Eksploracja danych: co można eksplorować? Bazy danych Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne WWW etc. str. 15
Metody eksploracji danych odkrywanie asocjacji klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych wykrywanie zmian i odchyleń eksploracja WWW eksploracja dokumentów tekstowych itd. str. 16 Metody eksploracji: odkrywanie asocjacji odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych przykłady asocjacji: klienci, którzy kupują pieluszki, kupują również piwo klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup klienci (ubezpieczaln)i, którzy mają poniżej 25 lat często powodują wypadki drogowe zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzedaży w supermarketach str. 17 Metody eksploracji: odkrywanie wzorców sekwencji odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji zdarzeń lub elementów przykłady wzorców sekwencji: klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski klienci, którzy realizowali dostęp do strony A, w kolejnym kroku przejdą na stronę C, a następnie, na stronę D zastosowania odkrytych wzorców sekwencji: planowanie inwestycji giełdowych przewidywanie sprzedaży znajdowanie skutecznej terapii znajdowanie profili klientów serwisu web-owego str. 18
Metody eksploracji: klasyfikacja klasyfikacja: predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących wypadki drogowe: kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe kierowcy, którzy posiadają prawo jazdy ponad 7 lat lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych zastosowania klasyfikacji: diagnostyka medyczna rozpoznawanie trendów na rynkach finansowych przydział kredytów bankowych str. 19 Metody eksploracji: grupowanie grupowanie: znajdowanie naturalnego pogrupowania (podziału) obiektów w oparciu o ich wartości przykłady grupowania: automatyczne grupowanie dokumentów tekstowych (np. maili) grupowanie klientów serwisu grupowanie konsumentów energii elektrycznej zastosowania grupowania: systemy rekomendacyjne (grupowanie klientów) wyszukiwanie informacji w sieci web (np. grupowanie stron www) astronomia handel elektroniczny str. 20 Metody eksploracji: odkrywanie charakterystyk odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych przykład odkrywania charakterystyk: opis pacjentów chorujących na anginę: pacjenci chorujący na anginę cechują się temperaturą ciała większą niż 37.5 C, bólem gardła, osłabieniem organizmu automatyczne tworzenie streszczeń dokumentów automatyczne tworzenie charakterystyk produktów na podstawie informacji z blogów i forów internetowych zastosowania odkrywania charakterystyk: znajdowanie zależności funkcyjnych pomiędzy zmiennymi określanie profilu klienta - zbioru cech charakterystycznych str. 21
Metody eksploracji: odkrywanie punktów osobliwych odkrywanie punktów osobliwych: znajdowanie obiektów (zdarzeń) odbiegających znacząco od modelu pozostałych obiektów (zdarzeń) analizowanego zbioru danych przykład odkrywania punktów osobliwych: znajdowanie klientów, których konsumpcja energii odbiega znacząco od innych klientów o podobnej charakterystyce znajdowanie pacjentów, których wyniki odbiegają znacząco od wyników analiz innych pacjentów chorujących na ta samą chorobę zastosowania odkrywania punktów osobliwych: wykrywanie oszustw podatkowych, kradzieży prądu, itp.. astronomia, fizyka odkrywanie obiektów o nieznanej dotychczas charakterystyce str. 22 Metody eksploracji: eksploracja sieci www eksploracja sieci www: metody analizy korzystania z sieci web w celu : znajdowania typowych wzorców zachowań użytkowników sieci znajdowania powiazań stron w sieci web w celu określenia ważności i koncentratywności stron (w celu poprawy efektywności procesu wyszukiwania stron) grupowania i klasyfikacji stron WWW na podstawie ich zawartości i schematu zewnętrznego znajdowania ukrytych stron lustrzanych i wewnętrznych środowisk (ang. communities) oraz analiza ich ewolucji w czasie analizy reklam internetowych (ich efektywności, rozliczania i propagacji). str. 23 Metody eksploracji: eksploracja danych multimedialnych i przestrzennych metody analizy i eksploracji baz danych przechowujących obrazy, mapy, dźwięki, wideo itp. celem jest wspomaganie procesów wyszukiwania danych (wyszukiwanie na podstawie zawartości, wideo na żądanie itd.) metody służące do grupowania i klasyfikacji danych multimedialnych są najczęściej silnie powiązane z mechanizmami systemu zarządzania bazą danych (indeksowanie i buforowanie danych) str. 24
Metody eksploracji: eksploracja struktur grafowych struktury grafowe są szeroko stosowane do modelowania złożonych obiektów, takich jak: obwody elektroniczne, związki chemiczne, struktury białkowe, sieci biologiczne, sieci społecznościowe, procedury obiegu dokumentów, dokumenty XML metody analizy struktur grafowych: grupowanie i klasyfikacja struktur grafowych, odkrywanie częstych podstruktur (podgrafów) w bazie danych struktur grafowych, klasyfikacja struktur grafowych umożliwiająca znajdowanie zależności pomiędzy pewną charakterystyką struktury grafowej a jej budową (np. analiza i klasyfikacja sekwencji DNA) str. 25 Metody eksploracji: eksploracja sieci społecznościowych algorytmy analizy sieci społecznościowe wspomagające: procesy wykrywania oszustów uczestniczących w aukcjach internetowych, wykrywanie przestępstw w kryminalistyce, analizę dużych sieci elektrycznych i telekomunikacyjnych itp. powiazania pomiędzy uczestnikami gier i aukcji internetowych wykrywanie środowisk w sieciach społecznościowych rozpowszechnianie się epidemii, itp. str. 26 Problemy odkrywania wiedzy (1) Dane zawarte w bazach i hurtowniach danych nie zawsze są reprezentatywne i nie opisują wszystkich możliwych kombinacji wartości danych klasyczny konflikt empiryzm vs racjonalizm W dużych bazach danych mogą zostać odkryte tysiące reguł Różni użytkownicy systemu eksploracji danych są zainteresowani różnymi typami reguł Odkrywanie wiedzy jest procesem bardzo złożonym obliczeniowo str. 27
Problemy odkrywania wiedzy (2) Istotny problem etyczny: jak zagwarantować poufność i ochronę danych osobistych w przypadku eksploracji danych? (rozwój metod eksploracji danych zapewniających ochronę prywatności ang. privacy-preserving data mining) Rozwiązanie: odkrywanie tylko części wszystkich możliwych reguł -wskazanej przez użytkownika przy pomocy kryteriów tylko użytkownik potrafi ocenić poprawnie wartość odkrytej wiedzy anonimizacja i randomizacja analizowanych danych str. 28 Dziedziny zastosowań (1) Handel i marketing identyfikacja profilu klienta dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny, wykrywanie schematów zakupów i planowanie lokalizacji artykułów Finanse i bankowość identyfikacja schematów wykorzystywania kradzionych kart kredytowych przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych Nauka i technologia odkrywanie nowych obiektów (astronomia, fizyka) wykrywanie schematów alarmowych w sieciach telekomunikacyjnych str. 29 Dziedziny zastosowań (2) Nauka astronomia, bioinformatyka, przemysł farmaceutyczny, Biznes reklama, CRM (Customer Relationship management), inwestycje, finanse, ubezpieczenia, telekomunikacja, medycyna, Web: Przeglądarki (Google), handel elektroniczny Amazon, ebay, Allegro Administracja wykrywanie przestępstw, wykrywanie nadużyć podatkowych, etc. str. 30
Podsumowanie Systemy baz danych narzędzie do przechowywania danych Hurtownie danych narzędzie wspomagania podejmowania decyzji Eksploracja danych narzędzie do analizy zgromadzonych danych str. 31