Eksploracja danych (data mining)

Eksploracja (data mining) Tadeusz Pankowski www.put.poznan.pl/~pankowsk Czym jest eksploracja? Eksploracja oznacza wydobywanie wiedzy z dużych zbiorów. Eksploracja badanie, przeszukiwanie; np. dziewiczych obszarów Afryki (Słownik poprawnej polszczyzny PWN 1976). Eksplorować przemierzać jakiś teren w celach badawczych; eksplorować dziewiczą puszczę (jak wyżej) Cel eksploracji wydobycie wiedzy z (ang. knowledge mining from data). Jeden z istotnych etapów w procesie odkrywania wiedzy w bazach Knowledge Discovery in Databases (KDD) niekiedy rozumiany jest jako synonim KDD. 1 2 Eksploracja w procesie odkrywania wiedzy w bazach (KDD) Eksploracja jako etap w procesie odkrywania wiedzy 1. Czyszczenie (data cleaning) usuwanie zanieczyszczeń i niespójności w. 2. Integracja (data integration) łączenie pochodzących z różnorodnych źródeł. 3. Selekcja (data selection) wybieranie tych z bazy, które są istotne dla zadań analizy. 4. Transformacja (data transformation) przekształcanie i konsolidowanie do postaci przydatnej dla eksploracji, na przykład ich sumowanie i/lub agregowanie (np. w hurtowni ). 5. Eksploracja (data mining) stosowanie inteligentnych metod w celu odkrycia istotnych zależności zwanych wzorcami (patterns). 6. Ocena wzorców (pattern evaluation) identyfikacja naprawdę interesujących wzorców w oparciu o pewne miary ważności. 7. Reprezentacja wiedzy (knowledge presentation) przedstawienie odkrytej wiedzy użytkownikowi za pomocą technik wizualizacji i reprezentacji wiedzy. 3 Użytkownik Bazy Hurtownia Czyszczenie i integracja Wiedza Selekcja i transformacja Pliki Ocena i prezentacja Wzorce Eksploracja 4

Metody techniki eksploracji Eksploracja obejmuje szereg technik z różnych dyscyplin, takich jak: technologie baz statystyka uczenie maszynowe techniki obliczeń wielkiej skali rozpoznawanie wzorców sieci neuronowe wizualizacja wyszukiwanie informacji przetwarzanie obrazów i dźwięku analiza przestrzennych 5 Znaczenie eksploracji 1. Wynikiem eksploracji powinno być odkrycie interesującej wiedzy, regularności i uzyskanie informacji na wysokim poziomie ogólności, która może być prezentowana z różnych punktów widzenia. 2. Odkryta wiedza powinna być użyteczna dla podejmowania decyzji, sterowania procesami, zarządzania informacją a także do udzielania odpowiedzi na różne zapytania. 3. Eksploracja może być przeprowadzana na każdym rodzaju repozytorium : relacyjnych bazach, hurtowniach, bazach transakcji, plikach, sieci WWW, przestrzennych bazach, bazach multimedialnych, arkuszach kalkulacyjnych, strumieniach, itp. 6 Funkcjonalność eksploracji - rodzaje odkrywanych wzorców 1. Ogólny podział poszukiwanych wzorców w zadaniach eksploracji : wzorce opisujące (deskrypcyjne) charakteryzują ogólne właściwości w bazie, wzorce przewidujące (predykcyjne) na podstawie analizy aktualnych właściwości określają ich przyszłe właściwości. 2. Użytkownik często nie wie, jaki rodzaj wzorców w zbiorze jego może być interesujący i może żądać jednoczesnego odkrywania różnych rodzajów wzorców. 3. System eksploracji powinien być w stanie odkrywać wzorce różnego rodzaju i na różnych poziomach granulacji (tj. na różnych poziomach ogólności). 4. System eksploracji powinien być w stanie wykorzystać wskazówki i wiedzę użytkownika co do rodzaju wzorców. Opis klas: charakteryzacja a dyskryminacja 1. Dane są zwykle grupowane w klasy, np. komputery i drukarki (dla towarów), dobryklient i słabyklient (dla klientów), TAK i NIE dla grup uczniów chcących studiować i nie mających takich planów. 2. Często może być interesujący opis klas. Opis taki może być zrealizowany jako: charakteryzacja klasy opis wspólnych właściwości elementów tworzących klasę. Na przykład: wspólna charakterystyka klientów kupujących za więcej niż 20 000 PLN rocznie tworzy profil tej klasy klientów. Opis tego profilu maże być: osoba w wieku 40-50 lat, o stałym zatrudnieniu, posługująca się kartą kredytową. dyskryminacja klas polega na porównaniu rozróżniającym elementy klasy od innych klas. Koncentrujemy się na cechach wyróżniających opisywaną klasę. Przykład: 80 % osób z klasy dobryklient jest w wieku 30-40 lat i ma wyższe wykształcenie, a 60% osób z klasy słabyklien to emeryci lub osoby poniżej 25 lat i nie mają wyższego wykształcenia. 7 8

Analiza asocjacji (związków) (association analysis) 1. Analizą asocjacji nazywamy odkrywanie reguł asocjacyjnych (association rules) obrazujących wspólne i częste występowanie określonych kombinacji par atrybut-wartość w zbiorze. 2. Analiza asocjacji jest szeroko używana w analizie koszyka zakupów zwanej też analizą transakcji. 3. Reguła asocjacyjna ma postać: X Y, tzn: A 1... A n B 1... B m, gdzie każde A i i każde B j jest parą atrybut-wartość. 4. Reguła asocjacyjna X Y interpretowana jest następująco: krotki w bazie spełniające warunek X wystarczająco często spełniają również warunek Y. Reguły asocjacyjna - przykład 1. W sklepie Elektronika odkryto następującą regułę asocjacyjną: wiek(x, 30...39 ) dochód(x, 1500...2900 ) kupuje(x, CD-RW ) [wsparcie = 2%, ufność = 60%] x oznacza klienta. 2. Reguła mówi, że 2% (wsparcie, support) transakcji zakupów w Elektronice dotyczyło klientów w wieku od 30 do 39 lat o dochodach od 1500 do 2900 PLN i kupujących CD-RW. 60% (ufność, confidence) transakcji dokonanych przez osoby w wieku 30 do 39 lat i o dochodach z przedziału 1500-2900 dotyczyło zakupu CD-RW. 3. Jest to przykład wielowymiarowej reguły asocjacyjnej (występują trzy predykaty: wiek, dochód, kupuje). 9 10 Reguły asocjacyjna przykład 2 1. Reguła określająca, jakie artykuły sprzedawane są łącznie w tej samej transakcji: zawiera(t, monitor ) zawiera(t, CD-RW ) [wsparcie = 1%, ufność = 50%] T oznacza transakcję. 2. Reguła stwierdza, że jeśli transakcja dotyczy zakupu monitora, to istnieje 50% szansy, iż dotyczy ona także zakupu CD-RW. Ponadto 1% wszystkich transakcji dotyczy sprzedaży obydwu tych artykułów łącznie. 3. Jest to przykład jednowymiarowej reguły asocjacyjnej, bo występuje w niej tylko jeden predykat - zawiera. 4. Reguły jednowymiarowe zapisujemy podając tylko wartości atrybutów oraz wsparcie i ufność, na przykład: monitor CD-RW [1%, 50%] 11 Klasyfikacja i predykcja 1. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania modeli (lub funkcji) klasyfikacji umożliwiających określenie klasy, do której powinien należeć wskazany obiekt. 2. Model klasyfikacji budowany jest w wyniku analizy zbioru treningowych, tj. zbioru obiektów o znanej przynależności klasowej. 3. Model klasyfikacji może być reprezentowany za pomocą: reguł o postaci IF_THEN, drzew decyzyjnych, sieci neuronowych, innych metod. 12

Klasyfikacja i predykcja drzewa decyzyjne i sieci neuronowe 1. Drzewo decyzyjne (ang. decision tree) jest strukturą drzewiastą, w której: każdy wierzchołek (z wyjątkiem liści) oznacza testowanie wartości pewnego atrybutu analizowanego obiektu, każda krawędź wychodząca z wierzchołka reprezentuje wynik testu, każdy liść oznacza klasę, do której należy obiekt. 2. Sieć neuronowa (ang. neural network), w zastosowaniach do problemów klasyfikacji, składa się ze współpracujących ze sobą jednostek przetwarzania zwanych neuronami, między którymi istnieją połączenia o określonych wagach (będących wartościami liczbowymi). 13 Klasyfikacja z predykcja drzewa decyzyjne i sieci neuronowe 1. Model klasyfikacji jest przede wszystkim używany do określenia klasy, do której obiekt należy. 2. Metoda ta może być jednak również stosowana do przewidywania nieznanych wartości atrybutów mówimy wtedy o predykcji. 3. Predykcja może dotyczyć w szczególności określenia trendów rozwoju na podstawie dostępnych. 4. Odkrywanie modeli klasyfikacja i predykcji może być poprzedzone analizą istotności (ang. relevance analysis), w trakcie której identyfikujemy atrybuty nie mające znaczenia (nieistotne) dla procesów klasyfikacji i predykcji. Atrybuty te są następnie wyłączane z dalszych rozważań. 14 Klasyfikacja i predykcja przykład Analiza skupień (cluster analysis) 1. Przypuśćmy, że naszym zadaniem jest klasyfikacja artykułów w hipermarkecie do jednej z trzech klas odpowiadających reakcji sprzedaży artykułu w odpowiedzi na kampanię reklamową: duża reakcja, średnia reakcja, brak reakcji. 2. Należy zbudować model klasyfikacji na podstawie takich atrybutów opisowych artykułów jak: cena, branża, producent, typ, kategoria. 3. Zbudowany model klasyfikacji może mieć postać drzewa decyzyjnego. 4. Może się okazać, że tylko niektóre z atrybutów opisowych były istotne dla klasyfikacji (np. tylko cena) może to być wskazówką odnośnie do dalszych kampanii reklamowych. 1. Analiza skupień ma na celu utworzenie skupień (grup, klastrów, klas) obiektów, przy czym a priori może nie być znana ani liczba skupień, ani zasady przynależności obiektu do skupienia. 2. Obiekty są skupiane (grupowane) z wykorzystaniem zasady maksymalizacji podobieństw wewnątrz klas oraz minimalizacji podobieństwa między klasami. Obiekty należące do jednego skupienia charakteryzują się wysokim podobieństwem do siebie, natomiast bardzo się różnią od obiektów z innych skupień. 3. Analiza skupień może być przeprowadzona na klientach firmy w celu identyfikacji jednorodnych grup klientów. Grupy te mogą stanowić obiekty zainteresowań dla dedykowanych akcji marketingowych. 15 16

Analiza skupień -przykład Analiza odchyleń (outlier analysis) 1. W bazie mogą być zawarte obiekty, które nie spełniają wymagań ogólnego modelu zachowań. Te obiekty nazywamy odchyleniami. W większości przypadków obiekty takie są odrzucane jako zakłócenia, śmieci lub wyjątki. 2. Niekiedy jednak identyfikacja takich odchyleń może być bardzo interesująca, na przykład w systemach wykrywania oszustw (fraud detection). 3. Odchylenia mogą być wykrywane z wykorzystaniem testów statystycznych, w których przyjmowany jest określony rozkład prawdopodobieństwa dla. Można też stosować miary odległości, a obiekty, których odległość od utworzonych skupień jest duża traktowane są jako odchylenia. Utworzone skupienia mogą odpowiadać miejscu zamieszkania klientów, np. w obrębie miasta. 17 18 Analiza odchyleń -przykład 1. Analiza odchyleń może wykryć nieuczciwe korzystanie z kart płatniczych wtedy, gdy stwierdzi zakupy na wyjątkowo dużą kwotę w porównaniu ze zwykle dokonywanymi zakupami z wykorzystaniem analizowanej karty. 2. Odchylenia mogą być również wykryte poprzez analizę lokalizacji lub typu dokonywanych zakupów. Analiza ewolucji (evolution analysis) 1. Analiza ewolucji opisuje i modeluje regularności lub trendy dla obiektów, których zachowanie zmienia się w czasie. 2. Analiza ewolucji obejmuje: analizę szeregów czasowych, odkrywanie sekwencji lub periodyczności, analiza podobieństwa. 19 20

Analiza ewolucji - przykład Podsumowanie etapy odkrywania wiedzy w bazach 1. Przypuśćmy, że dysponujemy danymi z Warszawskiej Giełdy w postaci szeregów czasowych z okresu ostatnich siedmiu lat i chcemy zainwestować w akcje firm branży budowlanej. 2. Analiza zmian na giełdzie może wykazać istnienie pewnych regularności w ewolucji zmian wartości akcji w ogóle i akcji pewnych firm. 3. Regularności te mogą pomóc przewidzieć przyszłe trendy cen akcji i tym samym mogą pomóc nam w podjęciu decyzji inwestycyjnych. 21 Increasing potential to support business decisions Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP End User Business Analyst Data Analyst DBA Podsumowanie funkcjonalność metody odkrywania wiedzy 1. Charakteryzacja i dyskryminacja uogólnia i kontrastuje dane, np. klienci dobrzy kontra klienci słabi. 2. Asocjacje pozwala wykryć istotne i/lub przypadkowe współwystępowanie, np. monitor CD-RW [1%, 50%] 3. Klasyfikacja i predykcja pozwala przypisywać obiekty do klas, przewiduje nieznane wartości w tym przyszłe trendy. 4. Analiza skupień grupuje obiekty tworząc nowe klasy. 23 Podsumowanie funkcjonalność metody odkrywania wiedzy (c.d.) 5. Analiza odchyleń odchylenia są często traktowane jako wyjątki lub śmieci, często jednak mogą być istotne, np. w wykrywaniu oszustw. 6. Analiza ewolucji i trendów pozwala analizować i przewidywać zachowanie się zależnych od czasu. 7. Inne np. analiza statystyczna oraz metody zorientowane na odkrywanie wiedzy w multimedialnych (w obrazach, dźwięku,...) 8. Ocena przydatności odkrytych zależności. 24