Problemy eksploracji danych dr inż. Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Wielkie bazy danych Wielkie bazy danych (Very Large atabases) i hurtownie danych (ata Warehouses) Rozmiary współczesnych systemów baz danych sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad 20 milionów transakcji koncern Mobil Oil rozwija hurtownię danych pozwalający na przechowywanie ponad 100 terabajtów danych o wydobyciu ropy naftowej system satelitarnej obserwacji EOS zbudowany przez NS generuje w każdej godzinie dziesiątki gigabajtów danych niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy artykułów Wielkie wolumeny danych są trudne w analizowaniu Informacje o dotychczasowej działalności przedsiębiorstwa, poziomie i strukturze sprzedaży oraz cechach klientów mogą posłużyć do wspomagania podejmowania decyzji Plan prezentacji Motywacje Eksploracja danych: odkrywanie schematów, zależności i korelacji w bardzo dużych bazach danych Przegląd praktycznych zastosowań eksploracji danych Perspektywy badawcze Eksploracja danych Eksploracja danych (ang. ata Mining) jest nową dziedziną badawczą, której celem jest opracowanie metod: odkrywania interesujących i wcześniej nieznanych trendów, korelacji i schematów w bardzo dużych bazach danych Eksploracja danych korzysta z dotychczasowych osiągnięć w zakresie baz danych, uczenia maszynowego i statystyki NE EKSPLO- RJ SHEMTY
Schematy w bazach danych (1) wiek lat prawo kolor poj. moc razem kierowcy jazdy pojazdu silnika szkody ------------- ------------- -------------- ------------- ------ ------- 42 24 biały 1610 100 0 19 1 czerwony 650 24 2500 28 4 czerwony 1100 40 0 41 20 czarny 1800 130 0 21 3 czerwony 650 24 1300 20 1 niebieski 650 24 0 kierowcy, którzy jeżdżą czerwonymi samochodami o pojemności 650 ccm, powodują wypadki drogowe kierowcy w wieku powyżej 40 lat jeżdżą samochodami o pojemności większej niż 1600 ccm kierowcy, którzy posiadają prawo jazdy dłużej niż 3 lata, nie powodują wypadków kierowcy w wieku poniżej 30 lat jeżdżą samochodami koloru czerwonego ziedziny zastosowań (1) Handel i marketing identyfikacja profilu klienta dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny segmentacja klientów w celu opracowania strategii promocji wykrywanie schematów zakupów i planowanie lokalizacji artykułów inanse i bankowość identyfikacja schematów wykorzystywania kradzionych kart kredytowych przewidywanie ryzyka udzielenia kredytu lub pożyczki przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych Schematy w bazach danych (2) transakcja produkt dzień cena ------------ ------------- ------------- -------------- 1 pizza sobota 48,40 1 mleko sobota 2,80 1 chleb sobota 1,50 2 piwo wtorek 16,20 2 orzeszki wtorek 8,50 3 chleb sobota 1,50 3 orzeszki sobota 25,50 3 piwo sobota 32,40 piwoi orzeszki są zawsze kupowane wspólnie chleb uczestniczy w transakcjach na kwotę większą niż 50 złotych ziedziny zastosowań (2) Nauka i technologia wykrywanie powiązań pomiędzy skutecznością leczenia a zastosowaną terapia medyczną przewidywanie wzrostów obszarów leśnych wykrywanie schematów alarmowych w sieciach telekomunikacyjnych Internet grupowanie i określanie ważności dokumentów znajdowanych przez wyszukiwarki internetowe automatyczne dostosowywanie struktury i zawartości serwisu internetowego do przewidywanych oczekiwań użytkownika
Techniki eksploracji danych Odkrywanie klasyfikatorów Grupowanie obiektów Odkrywanie wzorców sekwencji Odkrywanie asocjacji Metody eksploracji: odkrywanie asocjacji odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych przykłady asocjacji: klienci, którzy kupują piwo, kupują również orzeszki klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzedaży w supermarketach Metody eksploracji: odkrywanie klasyfikatorów odkrywanie klasyfikatorów: znajdowanie sposobu odwzorowywania danych w zbiór predefiniowanych klas (podzbiorów) przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących wypadków drogowych: kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych zastosowania klasyfikacji: diagnostyka medyczna rozpoznawanie trendów na rynkach finansowych automatyczne rozpoznawanie obrazów przydział kredytów bankowych Metody eksploracji: grupowanie obiektów grupowanie obiektów: znajdowanie skończonego zbioru klas (podzbiorów) w bazie danych 10 y klasa 1: x<5 klasa 2: 5<x<10 i y>5 klasa 3: y<5 5 5 10 x zastosowania klastrowania: określanie segmentów rynku na podstawie cech klientów
Metody eksploracji: odkrywanie wzorców sekwencji odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji elementów przykład odkrywania sekwencji: klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o 0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5% zastosowania odkrytych sekwencji: planowanie inwestycji giełdowych przewidywanie sprzedaży Wiedza uzupełniająca wiedza uzupełniająca jest reprezentowana przy pomocy: atrybutów wirtualnych - dodatkowych atrybutów, których wartości nie są trwale przechowywane w relacji, lecz każdorazowo wyliczane przez zdefiniowany kod programowy hierarchii generalizacji - struktury drzewiastej dostarczającej informacji o podziale wartości atrybutów na wielopoziomowe kategorie NE EKSPLO- RJ SHEMTY WIEZ UZUPEŁNIJĄ Wiedza uzupełniająca transakcja produkt dzień cena kategoria produktu ------------ ------------- ------------- ------ ------------------- 1 pizza sobota 48,40 potrawy got. 1 mleko sobota 2,80 napoje 1 chleb sobota 1,50 pieczywo 2 piwo wtorek 16,20 napoje 2 orzeszki wtorek 8,50 dodatki 3 chleb sobota 1,50 pieczywo 3 orzeszki sobota 25,50 dodatki 3 piwo sobota 32,40 napoje dodatkowa wiedza dostarczona przez eksperta pozwala na znajdowanie nowych, silniejszych i prostszych zależności i schematów Hierarchia generalizacji Spożywcze Pieczywo Nabiał Wędliny hleb Jajka Szynka Bułka Mle ko Parówki Rogalik Śmietana wartościami uogólnionymi dla HLEB są: PIEZYWO i SPOŻYWZE
ormy reprezentacji odkrytych schematów znane w dziedzinach uczenia maszynowego i sztucznej inteligencji: sieci neuronowe drzewa decyzyjne listy decyzyjne sieci semantyczne proste i złożone reguły logiczne wiedza powinna być reprezentowana w prostej i czytelnej dla człowieka postaci eksploracja danych najczęściej wykorzystuje: reguły logiczne drzewa decyzyjne Reguły logiczne (2/2) każda reguła posiada najczęściej wskaźniki statystycznej ważności i siły: wsparcie (support) i ufność (confidence) wsparcie reguły odpowiada liczbie krotek potwierdzających daną regułę ufność reguły odpowiada jej wiarygodności, tj. poprawności reguły w zbiorze krotek Temperat ura Ból _gł owy Ból _gardł a i agnoza wysoka tak nie zatrucie wysoka tak nie zdrowy wysoka t ak t ak angi na wysoka ni e t ak angi na Ból _gardł a = t ak i agnoza = angi na (S=50% =100%) Temperat ura= wysoka Ból _gł owy= t ak Ból _gardł a= ni e i agnoza= zat ruci e (S=25% =100%) Temperat ura= wysoka Ból _gł owy= t ak Ból _gardł a= ni e i agnoza= zdr owy ( S=25% =100%) Reguły logiczne (1/2) przykład prostej reguły logicznej: kolor_poj=czerwony N pojemnosc=650 -> szkoda=tk definicja reguły logicznej: r1(a1, v1) N r2(a2, v2)... rj(aj, vj) -> -> rk(ak, vk) N rl(al, vl)... rn(an, vn) ai jest atrybutem, vi jest wartością prostą (np. liczba, ciąg znaków) lub złożoną (np. zbiór), ri jest predykatem (np. równość, zawieranie) lewa strona reguły nazywa się poprzednikiem reguły (ang. body), prawa strona nazywa się następnikiem reguły (ang. head) rzewa decyzyjne drzewo decyzyjne jest formą opisu wiedzy klasyfikującej węzłom drzewa odpowiadają atrybuty eksplorowanej tabeli krawędzie opisują wartości atrybutów liśćmi drzewa są wartości atrybutu klasyfikującego dres ochód Samochód Warszawa 4000 BMW Poznań 2900 ord Poznań 1400 Toyota adres Warszawa 1000 iat Poznań 1600 ord Warszawa P oznań Poznań 3500 ord dochód dochód >1000 <=1000 >1400 <=1400 SMOHÓ BMW iat ord Toyota
Eksploracja danych - Success Stories atabase Marketing w merican Express atabase Marketing polega na analizie danych o klientach w celu znajdowania schematów ich preferencji i następnie wykorzystywania tych schematów dla precyzyjnej selekcji kolejnych klientów. atabase Marketing w merican Express doprowadził do 10-15% wzrostu zakupów z wykorzystaniem kart kredytowych. Weryfikacja poprawności danych w Reuters Reuters stosuje techniki eksploracji danych dla weryfikacji poprawności i wykrywania prawdopodobnych przekłamań w wysokości publikowanych kursów wymiany walut. Profil słuchacza w BB BB przy pomocy systemu eksploracji danych przewiduje profil widowni programów telewizyjnych w celu wyboru optymalnych pór ich nadawania. Skład zespołu w Orlando Magic trener Orlando Magic wykorzystuje data-mining do ustalania składu zespołu rozgrywającego mecze - rezultat likwidacja trendu spadkowego (2 wygrane mecze) Przykład - adaptatywne serwery WWW (1/3) daptatywne serwery WWW automatycznie ulepszają swoją zawartość i strukturę na podstawie obserwacji ścieżek dostępów użytkowników Technika "szwedzkich osiedli mieszkaniowych" otychczasowa zawartość dokumentu ynamicznie dodane łączniki do dokumentów, którymi najprawdopodobniej jest zainteresowany użytkownik Przykład - eksploracja bazy danych firmy ubezpieczeniowej Narzędzie analityczne wspomagające ocenę ryzyka ubezpieczeń Przykład - adaptatywne serwery WWW (2/3) serwer WWW E plik logu B segmentacja behawioralna segmenty zachowań
Przykład - adaptatywne serwery WWW (3/3)? historia: ->-> dynamiczne rekomendacje: News Products Przykład - eksploracja medycznej bazy danych (KBN 8T11 00915) Baza danych zawierająca informacje o pacjentach poddanych operacjom z powodu zmian ogniskowych w wątrobie ane zebrane podczas praktyk lekarskich w dwóch ośrodkach: Montpellier we rancji i w Poznaniu elem przeprowadzonej analizy było wspomaganie lekarzy w procesie hospitalizacji pacjenta Odkryte korelacje między danymi mogą pozwolić ograniczyć liczbę koniecznych do wykonania badań, czy wybrać najodpowiedniejszy zabieg Odkryte zależności mogą pomóc określać prawdopodobny czas rekonwalescencji pacjenta po operacji Przykład - wspomaganie pracy all enter Wnioskowanie marketingowe w oparciu o charakterystykę klienta Podsumowanie: perspektywy badawcze Ścisła integracja algorytmów eksploracji danych z systemami zarządzania bazami danych Eksploracja danych multimedialnych i wielowymiarowych Opracowanie technik optymalizacji w celu skrócenia czasów odpowiedzi