Analiza i eksploracja danych biznesowych

Transkrypt

1 Analiza i eksploracja danych biznesowych Business Intelligence systemy wspomagania decyzji Dr inż. Marcin Blachnik

2 Plan zajęć 1. Dane czym są i jak je reprezentować 2. Metody analizy statystycznej (małe przypomnienie) 1. Podstawy statystyki 2. Regresja/korelacja 3. Analiza OLAP 3. Drążenie i eksploracja danych 1. Wstęp (podział zagadnień) 2. Metody grupowania danych 3. Metody klasyfikacji i regresji 4. Metody analizy asocjacyjnej 5. Wyodrębnianie reguł 6. Selekcja cech 7. Wstępne przetwarzanie danych (normalizacja, dyskretyzacja, uzupełnianie wartości brakujących itp)

3 O co chodzi Problem jesteśmy społeczeństwem informacji lecz nie wiedzy!!! Nadmiar informacji prowadzi do chaosu Cel z dużego zbioru danych opisujących zagadnienia biznesowe wydobyć jak najwięcej wiedzy czyli: Drążenie danych (ang. data mining)

4 Drążenie danych czyli czego? Co to są dane i jak je wydobyć? Dane zbiór informacji opisujących obiekty i relacje pomiędzy obiektami Różne sposoby reprezentacji informacji o obiektach i relacjach między nimi: Metoda grafowa Tabela danych metoda graficzna -wykres, rysunek techniczny Koszty 100zł 200zł 132zł Przychody 200zł 450zł 322zl Formuła matematyczna Opis słowny: Jacek ma 182 cm wzrostu, 83kg wagi, jest młodym meżczyzną mieszkającym w Katowicach Wykres

5 Zmienna Cecha atrybut Zaawansowana Analiza Danych Forma tabelaryczna reprezentacji informacji Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

6 Typy zmiennych Jakościowe (symboliczne/nominalne) Ilościowe Rzeczywiste Porządkowe Dyskretyzacja Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna ciepło wysoka brak nie słoneczna ciepło wysoka obecny nie pochmurna ciepło wysoka brak tak deszczowa normalnie wysoka brak tak deszczowa zimno normalna brak tak deszczowa zimno normalna obecny nie pochmurna zimno normalna obecny tak słoneczna normalnie wysoka brak nie słoneczna zimno normalna brak tak deszczowa normalnie normalna brak tak słoneczna normalnie normalna obecny tak pochmurna normalnie wysoka obecny tak pochmurna ciepło normalna brak tak deszczowa normalnie wysoka obecny nie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

7 Charakterystyka problemu Uczenie Nadzorowane Uczenie nienadzorowane/analiza koszykowa Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna ciepło wysoka brak nie słoneczna ciepło wysoka obecny nie pochmurna ciepło wysoka brak tak deszczowa normalnie wysoka brak tak deszczowa zimno normalna brak tak deszczowa zimno normalna obecny nie pochmurna zimno normalna obecny tak słoneczna normalnie wysoka brak nie słoneczna zimno normalna brak tak deszczowa normalnie normalna brak tak słoneczna normalnie normalna obecny tak pochmurna normalnie wysoka obecny tak pochmurna ciepło normalna brak tak deszczowa normalnie wysoka obecny nie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna ciepło wysoka brak nie słoneczna ciepło wysoka obecny nie pochmurna ciepło wysoka brak tak deszczowa normalnie wysoka brak tak deszczowa zimno normalna brak tak deszczowa zimno normalna obecny nie pochmurna zimno normalna obecny tak słoneczna normalnie wysoka brak nie słoneczna zimno normalna brak tak deszczowa normalnie normalna brak tak słoneczna normalnie normalna obecny tak pochmurna normalnie wysoka obecny tak pochmurna ciepło normalna brak tak deszczowa normalnie wysoka obecny nie

8 Podział metod analizy danych Analiza jednowymiarowa Statystyka opisowa Współczynniki statystyczne: średnia, mediana, odchylenie standardowe i wariancja, kwartyle, współczynnik skośności, wsp. asymetrii, kurtoza Wykresy: histogram, wykres pudełkowy (ramka, wąsy) Analiza wielowymiarowa i drążenie danych

9 Statystyka opisowa

10 Wybieramy wartość środkową m=0.35 Próba: Zaawansowana Analiza Danych Współczynniki statystyczne Lp Wartość Średnia arytmetyczna (zmienne ilościowe) Gdzie: n liczba prób, x i wartości próby Mediana m (zmienne ilościowe) Wartość środkowa, tzn. taka, że po uporządkowaniu (posortowaniu) wartości powyżej i poniżej niej znajduje się tyle samo prób: Sortujemy dane Lp Wartość

11 Proste współczynniki statystyczne Średnia arytmetyczna CD. Uwaga: jest czuła na wartości odstające (patrz przykład), nie daje się obliczyć dla wartości symbolicznych Można też powiedzieć, że wartość średnia jest to taka wartość dla której μ = argmin x i μ 2 uzyskuje min. Ponadto małe zmiany w danych mogą istotnie wpłynąć na wartość estymowanej średniej Mediana CD. Uwaga: jest nieczuła na wartości odstające Można też powiedzieć, że mediana jest to taka wartość m dla której m = argmin x i m osiąga minimum Statystyka jest odporna małe zmiany w danych nie wpływają na estymowaną wartość, można ją wyznaczyć dla

12 Proste współczynniki statystyczne Dominanta (zmienne jakościowe) Oznacza symbol występujący najczęściej dla danej zmiennej Pogoda słoneczna słoneczna pochmurna deszczowa deszczowa deszczowa pochmurna słoneczna słoneczna deszczowa słoneczna pochmurna Pogoda Częstość słoneczna 5 pochmurna 3 deszczowa D = słoneczna D = 0.9 Dla zmiennej ilościowej (o ciągłym rozkładzie prawdopodobieństwa) dominanta oznacza wartość o największej wartości prawdopodobieństwa

13 Proste współczynniki statystyczne Odchylenie standardowe i wariancja Lp Wartość Intuicyjnie odchylenie standardowe informuje o szerokości rozkładu, czyli jak wygląda rozkład punktów wokół średniej. Im większe tym większy rozrzut punktów, im mniejsze tzn. że rozkład jest bardziej skoncentrowany war=2 war=1 war=

14 Proste współczynniki statystyczne Po co podział na odchylenie standardowe i wariancję Odchylenie standardowe wariancja Wariancja lepsza jeśli chcemy porównywać między sobą różne wariancje ponieważ uwypuklone są różnice między wartościami Odchylenie standardowe umożliwia porównywanie i interpretację wartości, gdyż wariancja nie zapewnia zgodności jednostek wariancja => (jednostki) 2 np. dla zmiennej zarobki wariancja ma jednostkę (zł) 2 odchyl std. zł

15 Proste współczynniki statystyczne Kwartyle i rozstęp ćwiartkowy Kwartyl - parametr opisujący rozkład, przykładem kwartyla jest mediana (kwartyl 1/2), kwartyl (1/4) oznacza, że 25% przypadków w próbie ma mniejszą wartość i 75% przypadków ma wartość większą od niego. kwartyl (3/4) oznacza, że 75% przypadków w próbie ma mniejszą wartość od niego i 25% przypadków ma wartość większą od niego. Rozstęp ćwiartkowy parametr o podobnym znaczeniu jak odchylenie standardowe, obliczany jako IQR = Q(3/4) Q(1/4) Przedział wartości pomiędzy którym znajduje się 50% wartości próby

16 Proste współczynniki statystyczne Jak wyznaczyć poszczególne kwartyle: Posortować wartości od najmniejszej do największej Policzyć medianę Q(1/4) Wybrać dolną połówkę i policzyć medianę Q(3/4) Wybrać górną połówkę i policzyć medianę Lp Lp Wartość Wartość Lp Q(1/4) =M( ) = Wartość Lp Q(3/4) =M( ) = Wartość IQR=Q(3/4)-Q(1/4) = =0.15

17 Proste współczynniki statystyczne współczynnik skośności umożliwia określenie asymetrii rozkładu, tzn. chcemy wiedzieć czy rozkład jest w którąś stronę rozciągnięty przyjmuje wartości A= 0 jeśli rozkład jest symetryczny, A<0 jeśli występuje lewostronna asymetria (wydłużone lewe ramię rozkładu) i A>0 jeśli występuje prawostronna asymetria (wydłużone prawe ramię rozkładu) = D = = A D = = M = = A M =

18 Kurtoza miara koncentracji lub spłaszczenia rozkładu, informuje na ile rozkład wartości jest skoncentrowany wokół wartości średniej Typy kurtozy: mezokurtyczne K=0, spłaszczenie rozkładu podobne do spłaszczenia rozkładu normalnego leptokurtyczne K>0, rozkład jest bardziej skoncentrowany niż rozkład normalnym platokurtyczne K<0, rozkład jest bardziej spłaszczony niż rozkład normalny

19 Kurtoza CD Żródło: Jeżeli w przedsiębiorstwie większość osób ma podobne zarobki to K > 0, czyli większość zarabia porównywalnie ze średnią Jeżeli K=0 to oznacza to że w przedsiębiorstwie zarobki mają rozkład normalny Jeżeli K<0 to oznacza to że mamy duży rozrzut zarobków

20 Współczynnik korelacji Bada liniową zależność między zmiennymi Źródło: Pozwala dokonać analizy czy dwie zmienne oddziaływają na siebie : Czy istnieje zależność między sprzedażą a wiekiem klienta. (np. wykorzystując karty lojalnościowe) Czy wielkość udzielanego kredytu zależy od wartości miesięcznych przychodów UWAGA: Założenie że zależność jest liniowa!!!, Gdy zależność jest nieliniowa ale monotoniczna to przechodzimy na rangi np. wsp. korelacji Spearmana

21 Regresja liniowa Pozwala przewidywać y na podstawie x. Czyli jeśli x i y są skorelowane (patrz korelacja) to na podstawie x możemy przewidywać y y = m i x i + b Problem znaleźć m i oraz b Gdy mamy tylko dwie zmienne x i y to parametry regresji liniowej y = mx + b wyraża się zależnością

22 OLAP OLAP - Online Analytical Processing Najbardziej podstawową metodą analizy danych jest analiza manualna, tzn. taka, w której my sami ręcznie dokonujemy analizy danych np. próbując zweryfikować różne zależności jakie występują pomiędzy różnymi atrybutami tabeli danych.

23 Narzędzie kostka OLAP - wielowymiarowym sześcianem, gdzie każda z krawędzi sześcianu odpowiada pojedynczym zmiennym, a dokładnej reprezentuje zbiór wartości danej zmiennej. >10000 Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Okres kredytu

24 Zaawansowana Różne poziomy szczegółowości Analiza Danych 20 >10000 >10000 Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Okres kredytu Okres kredytu Ogółem ilość kredytów udzielanych na okres 12 miesięcy, niezależnie od wartości i wykształcenia Wartość = 436 Całkowita ilość kredytów udzielanych na okres 12 miesięcy, w wysokości 5000 do , niezależnie od wykształcenia Wartość = 137 >10000 >10000 Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Wartość kredytu 5000 do do do do mies 3 mies 6 mies 12 mies 24 mies 36 mies Zawodowe Średnie Wyższe Wykształcenie kredytobiorcy Okres kredytu Okres kredytu

25 Kostka OLAP Kostka OLAP pozwala na analizę zależności między atrybutami, na różnym poziomie szczegółowości dzięki agregacji wartości (średnia, suma, mediana, liczba itp) Prosta kostka OLAP => Excel tabela przestawna

26 Prosta kostka OLAP => Excel tabela przestawna Lista atrybutów Etykiety kolumn Etykiety wierszy Widok tabeli przestawnej Atrybuty poddane agregacji

27

28

29 Drążenie danych

30 Drążenie danych lub eksploracja danych Wykorzystanie metod i narzędzi przetwarzania danych do wydobycia wiedzy o przedmiocie badanym: Analiza zmiennych Wizualizacja wielowymiarowych danych Rozwiązywanie problemów klasyfikacyjnych i regresyjnych Techniki analizy asocjacji Grupowanie danych (klasteryzacja/analiza skupień)

31 Logika rozmyta Algorytmy genetyczne Metody statystyczne Sieci neuronowe Wizualizacja Drążenie danych Rachunek prawdopodo bieństwa Rozpoznawa nie wzorców Systemy ekspertowe Uczenie maszynowe

32 Podział metod DM Grupowanie danych (uczenie nienadzorowane) poszukiwanie charakterystycznych skupień w danych Uczenie nadzorowane przewidywanie wartości zmiennych: Problemy klasyfikacyjne gdy zmienna wyjściowa (opisywana) jest zmienną jakościową Problemy regresyjne gdy zmienna wyjściowa (opisywana) jest zmienna ilościową Analiza koszykowa - analiza pod kątem asocjacji (skojarzeń) Selekcja cech Wyodrębnianie reguł Redukcja wymiarowości i wizualizacja

33 Zagadnienia analizy danych: grupowanie danych Alternatywne nazwy: analiza skupień, klasteryzacja, grupowanie danych (tzw. uczenie nienadzorowane) Znaleźć w danych grupy elementów podobnych Problem: Nadmiar danych to chaos więc naszym celem jest znalezienie charakterystycznych wzorców/grup w zgromadzonych danych Dane przed klasteryzacją Po klasteryzacji

34 Narzędzia: Zaawansowana Analiza Danych Grupowanie danych Algorytm kwantyzacji wektorów Kochonena, dendrogramy, algorytm Expectation maximization, dendrogramy Przykład: Określenie grup klientów korzystających z naszych usług, np. w celu określenia grup docelowych procesu reklamowego ( targetowania reklamy ), odgadnięcia oczekiwań poszczególnych grup w celu rozszerzenia oferty

35 Zagadnienia analizy danych: Analiza regresji Tzw. uczenie nadzorowane Wydobycie na podstawie danych informacji o zależności wejście / wyjście, gdzie wyjście jest funkcją ciągłą. Zastosowanie do przewidywanie wartości zmiennych ciągłych na podstawie danych historycznych Uczenie Wykorzystanie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

36 Zagadnienia analizy danych: Analiza regresji Tzw. uczenie nadzorowane Wydobycie na podstawie danych informacji o zależności wejście / wyjście, gdzie wyjście jest funkcją ciągłą. Zastosowanie do przewidywanie wartości zmiennych ciągłych na podstawie danych historycznych Uczenie Wykorzystanie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

37 Zagadnienia analizy danych: problemy klasyfikacyjne Tzw. uczenie nadzorowane Wydobycie na podstawie danych informacji o zależności wejście / wyjście, gdzie wyjście jest zmienną symboliczną. Zastosowanie do przewidywania wartości zmiennych symbolicznych na podstawie danych historycznych Uczenie Wykorzystanie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

38 Zagadnienia analizy danych: problemy klasyfikacyjne Tzw. uczenie nadzorowane Wydobycie na podstawie danych informacji o zależności wejście / wyjście, gdzie wyjście jest zmienną symboliczną. Zastosowanie do przewidywanie wartości zmiennych symbolicznych na podstawie danych historycznych Uczenie Wykorzystanie Pogoda Temp. Wilgotnieść Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie

39 Zagadnienia analizy danych: analiza koszykowa Wyznaczenie reguł opisujących asocjacje, czyli charakterystyczne elementy występujące wspólnie co zwykle wrzucamy do koszyka na zakupach: np. kupując chleb zwykle kupujemy masło i mleko

40 Zagadnienia analizy danych: analiza koszykowa Wyznaczenie reguł opisujących asocjacje, czyli charakterystyczne elementy występujące wspólnie co zwykle wrzucamy do koszyka na zakupach: np. kupując chleb zwykle kupujemy masło i mleko

41 Zagadnienia analizy danych: wydobywanie reguł Uczenie nadzorowane Bazuje na reprezentacji wiedzy w postaci prostych i zrozumiałych reguł logicznych Umożliwia rozwiązywanie problemów regresyjnych i klasyfikacyjnych Jeżeli pogoda = słoneczna i wilgotność < 77.5 to grać w golfa = tak W odróżnieniu od innych metod obok wartości predykcji mamy możliwość zrozumienia sposobu podjęcia decyzji Np.. Urządzenie często ulega awarii cel znalezienie powodu jego awarii

42 Zagadnienia analizy danych: selekcja cech Ograniczenie zbioru danych poddanych analizie Wyznaczenie zbioru zmiennych, które są istotne z perspektywy analizowanego (opisu) problemu czyli: wyselekcjonowanie tych parametrów mierzonych danych biznesowych od których istotnie zależy zmienna predykowana Np. Szukamy pracownika do działu sprzedaży i interesują nas, jakie czynniki istotnie wpływają na wielkość sprzedaży

43 Zagadnienia analizy danych: wizualizacja danych Pozwala na podgląd i wyznaczenie obszarów zainteresowań, czasem również wstępne wyznaczenie parametrów metod stosowanych w dalszej analizie danych, czasem wstępny wybór narzędzi analizy danych 1 PCA Przykładowe wykorzystanie wizualizacji do analizy Procesu produkcyjnego

44 Opis narzędzi

45 Co to jest grupowanie Szukanie grup, obszarów stanowiących lokalne gromady punktów

46 Co to jest grupowanie 1 Może tak? Szukanie grup, obszarów stanowiących lokalne gromady punktów

47 Co to jest grupowanie A może tak?

48 Narzędzia i metody grupowania danych: podział Metody bazujące na minimalizacji skalarnego współczynnika jakości Algorytm k-średnich, vq itp.. Metody oparte na teorii grafów, Algorytm hierarchiczny

49 Grupowanie hierarchiczne

50 Grupowanie hierarchiczne 1. Jeżeli liczba obiektów > 1 2. Szuka najbliżej siebie leżących obiektów i łączy je razem w jeden nowy super obiekt 3. Idź do 1

54 Odległości pomiędzy skupiskami Minimum minimalna odległość pomiędzy elementami zbiorów x i x Maksimum - maksymalna odległość pomiędzy elementami zbiorów x i x d min (, ) i min x x' x x' j Norma różnicy wartości średnich d max d m (, ) i j j i max x i x' (, ) m m' i j j x x' x i d x j

55 Metody minimalizacji skalarnego współczynnika jakości

56 Narzędzia i metody grupowania danych: Minimalizacja skalarnego współczynnika jakości Sprowadzenie problemu grupowania do zagadnienia optymalizacji Problem: zdefiniowanie funkcji celu Funkcja celu - funkcja opisująca jakość grupowania Metody MSWJ działają iteracyjnie, tzn powoli od stanu losowego podziału na grupy (chaosu) dokonują reorganizacji w celu wyznaczenia coraz lepszego podziału danych na klastry

57 Oznaczenia K liczba wektorów, obiektów C liczba klasterów na które chcemy dokonać podziału x(k); k=1..k k-aty element z wektora obiektów X i ; i=1..c i-ty element wektora klastrów v i centrum klastra = centrum grupy (grupy wektorów)

58 Algorytm k-średnich Współczynnik jakości uczenia: K C gdzie: J(U) k 1i 1 u ik d ik d x( k) v ik i v i zbiór (wektor) prototypów. 2

59 Przykład

60 Założenia grupowania Zbudować macierz podziału U=[u ik ],dim(u)=c K) Warunki: 1 o każdy element macierzy u ik należy do zbioru u ik {0,1} 2 o w każdej kolumnie suma elementów równa C jest 1 u ik i o suma w wierszach należy K - obrazów C - Klastrów C - k do przedziału K k 1 u ik 0, K

61 Algorytm k-średnich 1. Przyjmujemy macierz podziału U spełniającą trzy przedstawione uprzednio warunki K 2. Wyznacza się położenie prototypów: uikx( k) 3. zwiększa się licznik iteracji z=z+1, 4. szukamy macierzy U tak, by wyznaczyć dla każdego elementu wektora danych x minimalną odległość od wzorców 1 ik 1 i C 1 k K 0 x( k) v pozostaych 5. Sprawdzamy czy spełniony jest warunek u U w 1 i C 6. Jeśli różnica pomiędzy macierzami U w kolejnych iteracjach jest mniejsza od założonego to kończymy proces iteracji, jeśli nie to idź do 2 min j U ( z) ( z 1) j v i x( k) v przypadkach i k 1 K k 1 u ik

62 Narzędzia i metody grupowania danych: Algorytm kwantyzacji wektorów (VQ) 1. Zainicjuj położenie wektorów kodujących 2. Iteracyjnie l-razy 1. Dla każdego wektora treningowego 1. Znajdź najbliższy wektor kodujący (dla danej metryki) 2. Dokonaj aktualizacji położenia (wag) neuronu zgodnie z zależnością (1) 2. Dokonaj aktualizacji wsp. wg. zależności v = v x v i i j i v i x j wektor kodujący podlegający aktualizacji (wektor kodujący leżący najbliżej wektora x j ) Współczynnik uczenia maleje z każdą iteracją programu j-ty wektory uczący

63 Narzędzia i metody grupowania danych: Przykład

64 Metody oraz narzędzia klasyfikacji i regresji

65 Narzędzia klasyfikacji i regresji: problem klasyfikacyjny - separowalność Problem separowalny

66 Narzędzia klasyfikacji i regresji: problem klasyfikacyjny - separowalność 4 Problem nie separowalny

67 Narzędzia klasyfikacji i regresji: problem klasyfikacyjny - separowalność Problem liniowo separowalny

68 Narzędzia klasyfikacji i regresji: Problem liniowo nie separowalny 8 Problem liniowo nie separowalny

69 Narzędzia klasyfikacji i regresji: Jaka hiperpłaszczyzna jest lepsza?

72 Narzędzia klasyfikacji i regresji: Klasyfikator Fishera prosta prosta x j

73 Narzędzia klasyfikacji i regresji: Klasyfikator Fishera Duża odległość między średnimi Duża wariancja Mała wariancja Mała odległość między średnimi

74 Narzędzia klasyfikacji i regresji: Klasyfikator Fishera Założenie mamy problem dwuklasowy (klasę 0 i 1) o rozkładzie Gaussa, szukamy optymalnej hierpłaszczyzny separującej. Wyznaczamy średnie dla obydwu klas Wyznaczamy macierze kowariancji danych: C Fisher funkcję kosztu zdefiniował jako stosunek wariancji pomiędzy klasami w stosunku do wariancji wewnątrz klas Gdzie Ostatecznie Gdzie: 2 2 mięięd _ klasowe w y 1 w y 1 w y 1 y 1 w S 2 T T T wewnąewn _ klasowe w Cw w Cw 2w Cw, y 1 y 1 wektor normalny do hiperpłaszczyzny separującej klasy. w C 1 y 1 y y 1 sign wx b 2 b 2 y 1 y 1 w

75 Narzędzia klasyfikacji i regresji: Regresja liniowa Problem: Znaleźć parametry w funkcji liniowej y wx b d i 1 x i w i b y

76 Zapisując: Zaawansowana Analiza Danych Narzędzia klasyfikacji i regresji: Regresja liniowa x1,1 x1,2 x1, n w1 y1 x x x w y Xw y 2,1 2,2 2, n 2 2 xm,1 xm,2 x m, n w n y n Gdzie X jest macierzą reprezentującą cały zbiór uczący o m wektorach, każdy n elementowy Zapisując błąd jako e=xw-y wówczas funkcja kosztu przyjmuje postać: Stąd pochodna: I ostatecznie: J T T x w x y w x y 2 T 1 m i 1 m T 2 w xi yi xi i 1 T w X X X d T X Xw Y J 2

77 Klasyfikacja i regresja Metody nieliniowe

78 Narzędzia klasyfikacji i regresji: algorytm knn Podstawowa zasada: Elementy podobne powinny być rozwiązywane w podobny sposób -> inspiracja kognitywistyczna Problem: co to znaczy podobne i jak zdefiniować podobieństwo? W.Duch Similarity based methods a general framework for classification approximation and association. Control and Cybernetics, 2000 Podobieństwo to różne miary odległości lub ich odwrotności (miary podobieństwa)

79 Narzędzia klasyfikacji i regresji: algorytm 1NN Klasyfikator 1NN (najbliższego sąsiada) Uczenie: Zapamiętaj położenie wszystkich przypadków zbioru treningowego Testowanie/Wykorzystanie klasyfikatora: Dla każdego wektora testowego wyznacz jego odległość do wszystkich wektorów zbioru treningowego. Wybierz spośród wszystkich odległości wektor najbliższy (najbardziej podobny) danego wektora testowego W zależności od problemu: Klasyfikacja -> Przypisz etykietę wektorowi klasyfikowanemu równą etykiecie najbliższego sąsiada. Regresja -> Przypisz wektorowi klasyfikowanemu wartość wyjściową równą wartości wyjściowej najbliższego sąsiada

80 Narzędzia klasyfikacji i regresji: algorytm knn Klasyfikator knn (k najbliższych sąsiadów) Uczenie: Zapamiętaj położenie wszystkich przypadków zbioru treningowego Testowanie/Wykorzystanie klasyfikatora: Wyznacz odległości wektora testowego x do wszystkich przypadków zbioru treningowego. Znajdź k najbliższych sąsiadów W zależności od problemu: Klasyfikacja: przeprowadź głosowanie etykiety wektora testowego pomiędzy k najbliższymi sąsiadami, wybierz klasę najczęściej występującą Regresja: wyznacz średnią arytmetyczną k najbliższych sąsiadów

81 Narzędzia klasyfikacji i regresji: algorytm knn Dokładność klasyfikatora 1NN na zbiorze treningowym zawsze = 100%!!! Gorzej działa w rzeczywistości, choć i tak dobrze W problemach klasyfikacyjnych nigdy nie używaj 2NN, bo w pobliżu granicy decyzji zawsze będzie konflikt podczas głosowania (jeden za, jeden przeciw) knn duży nakład obliczeniowy w przypadku dużych zbiorów treningowych (duża złożoność przy testowaniu)

82 Obszary Voronoi

83 Obszary Voronoi / Przykład 1NN

84 Wada 1NN

85 Narzędzia klasyfikacji i regresji: model liniowy i nieliniowy Co lepsze model liniowy czy nieliniowy? Liniowy nie wszystkie problemy można za jego pomocą rozwiązać Nieliniowy często uczy się za dużo!!!

86 Narzędzia klasyfikacji i regresji: model liniowy i nieliniowy Co lepsze model liniowy czy nieliniowy? Liniowy nie wszystkie problemy można za jego pomocą rozwiązać Nieliniowy często uczy się za dużo!!! 2 y vs. x Linera

87 Narzędzia klasyfikacji i regresji: model liniowy i nieliniowy Co lepsze model liniowy czy nieliniowy? Liniowy nie wszystkie problemy można za jego pomocą rozwiązać Nieliniowy często uczy się za dużo!!! 2 y vs. x Nieliniowa

88 Sieci neuronowe

89 Sieci neuronowe - biologia

90 Sieci neuronowe - biologia

91 Wg. McCullocha i Pittsa: Sieci neuronowe - historia Gdzie: w i i-ta waga x i i-te neuronu (dendryt) z wyjście neuronu (akson) b wolny dendryt do niczego nie podłączony

92 Budowa neuronu neuron nieliniowy typu perceptron Gdzie: w i i-ta waga x i i-te neuronu (dendryt) z wyjście neuronu (akson) b wolny dendryt do niczego nie podłączony f nieliniowa funkcja aktywacji neuronu

93 Budowa neuronu neuron nieliniowy funkcje aktywacji Binarna: unipolarna i bipolarna (Perceptron Rosenblatta) Ciągła: Sigmoidalny również nazywany perceptronem

94 Budowa neuronu neuron nieliniowy funkcje aktywacji - cd Neurony radialne (lokalnym charakter działania) Gaussowski 2 z f( z) exp 2 2 Wielomianowy 2 2 f () z z 2 2 f () z z Hardyego Gdzie f() z z = x - t z np. z xi ti i

95 Sieci jednokierunkowe

96 Analiza koszykowa

97 Analiza koszykowa i zbiory częste Poszukiwanie zdarzeń często występujących wspólnie stąd analiza koszykowa, czyli jakie produkty zwykle wrzucamy do kszyka razem np. Jak jest chleb to wrzucamy zwykle masło i mleko. Przykład algorytm: Apriori, FP-Growth

98 Analiza koszykowa => Relacja wielu do wielu Zbiór produktów Koszyk (transakcje) W najprostszej wersji relację: koszyk => zbiór produktów można zapisać wykorzystując atrybuty binarne Lista transakcji Asortyment mleko masło chleb bułka parówka musztarda sok Transakcja Transakcja Transakcja Transakcja

99 Algorytm Apriori Najprostszy algorytm do analizy zbiorów częstych bazujący na właściwości Apriori: Zbiór częsty L i zbiór składający się z i- elementów/produktów Właściwość Apriori każdy podzbiór częsty zbioru częstego musi być częsty Operacja łączenia (JOIN) aby znaleźć kandydatów do stworzenia zbioru L k należy przeprowadzić łączenia (JOIN) zbiorów L k-1

100 Pseudo kod: Oznaczenia: Zaawansowana Analiza Danych Algorytm Apriori C k -zbiór kandydujący składający się z k elementów C k zbiór częsty składający się z k-emenetnów Algorytm: L 1 <- generuj wszystkie zbiory jednoelementowe For (k=1; L k!= ; k++) End C k+1 =generuj zbiory kandydujące na podstawie L k Foreach (Transakcja t : Zbiór transakcji) End Zwiększ częstość kandydatom z C k+1 zawartym w transakcji t L k+1 = Z C k+1 wybierz zbiory częstsze niż min_support Return wszystkie zbiory L 1.. L k

101 Warunek Apriori min_support = 2 TID Item 1 ab 2 ad 3 ac 4 acd 5 cd Zaawansowana Analiza Danych Szukamy kombinacji 3 elementowych, więc AB i CD nie możemy połączyć, bo powstanie ABCD Algorytm Apriori Zestaw wygenerowanych zbiorów 3 elementowych L 1 L 2 a b c d ab ac ad bc bd cd abc abd acd 6 bc 7 ac 8 abd 9 ad 10 cd Odpada przez regułę APRIORI. ABC powstało z AB i AC, ale ABC można też stworzyć z BC, a support BC=1 więc ABC nie spełnia warunku APRIORI L 3 acd 1 Odpada przez regułę APRIORI. ABD powstało z AB i AD, ale ABD można też stworzyć z BD, a support BD=1 więc ABD nie spełnia warunku APRIORI

102 Proce działania Zaawansowana Analiza Danych Algorytm FP-Growth Budowa struktury drzewa zwane FP-tree (budowa dwukrotnie przechodząc po zbiorze danych) Wydobycie zbiorów częstych trawersując drzewo Korzyści: Jedynie dwukrotne przejście przez elementy zbioru danych Bez generacji kandydatów Znacznie szybszy niż algorytm Apriori Wady: Rozmiar drzewa Budowa drzewa jest złożona

103 Wczytano transakcje TID=1 Struktura i budowa drzewa FP-tree Wczytano transakcje TID=1i2 Wczytano transakcje TID=1..10 Wczytano transakcje TID=1,2,3 Węzły odpowiadają produktom (items) i posiadają licznik Algorytm jednorazowo czyta jedną transakcję i rzutuje ja na drzewo Dzięki wykorzystaniu sortowania produktów ścieżki mogą się pokrywać Jeśli ścieżki się pokrywają powoduje to inkrementacje ich licznika Drzewo utrzymuje linki między węzłami zabierającymi ten sam produkt (linia kreskowa) Im więcej ścieżek pokrywa się wzajemnie tym większa kompresja drzewa

104 Struktura algorytmu: Przejście nr 1 Zaawansowana Analiza Danych Algorytm FP-Growth Obliczenie częstości każdego z przypadków Odrzucenie przypadków małolicznych Sortowanie przypadków w kolejności malejącej na podstawie ich częstości Przejście nr 2 Wczytanie transakcji i naniesienie ich na drzewo Wydobywanie zbiorów częstych Strategia z dołu do góry zacznij od liści i idź w górę szukając zbiorów częstych, wykorzystaj linki do przechodzenia po sąsiadach z tym samym produktem

105 Narzędzia i metody indukcji reguł

106 Narzędzia i metody indukcji reguł Podział metod indukcji reguł Bezpośrednia indukcja reguł indukcja reguł na podstawie przypadków Indukcja reguł z nauczonych modeli np. sieci neuronowych, modeli statystycznych itp. Transformacja wiedzy zawartej w różnych modelach nie regułowych (w których zgromadzona wiedza dla człowieka nieczytelna)

107 Narzędzia i metody indukcji reguł: algorytm sekwencyjnego pokrywania Najczęściej stosowana strategia metody przeszukiwania połączone z sekwencyjnym pokrywaniem przestrzeni wejściowej. Tworzenie reguł - Od najbardziej ogólnej do najbardziej szczegółowej Gdzie: Najbardziej ogólna reguła - taka która pokrywa maksymalną liczbę przypadków przestrzeni wejściowej X, dla których odpowiedzą systemu jest ta sama wartość Y, oraz jest to reguła o prostszej budowie swojej części warunkowej (mniej warunków) Reguła szczegółowa - pokrywająca małą liczbę wektorów przestrzeni X oraz ma bardziej złożoną część warunkową X Y K L M N A B C D X=(A X=(A lub B lub B) i lub C) Y = i (K lub L) Y=K Y=N

108 Narzędzia i metody indukcji reguł: drzewa decyzji

109 Narzędzia i metody indukcji reguł: drzewa decyzji Korzeń Gałęzie/Krawędzie Węzeł Liście

110 Narzędzia i metody indukcji reguł: drzewa decyzji zapis reguł Forma 1 If (Outlook = rain ) & (windy= False ) then Play = Yes If (Outlook = rain ) & (windy= True ) then Play = No If (Outlook = overcast ) then Play = Yes If (Outlook = sunny ) & (humidity>75) then Play = No If (Outlook = sunny ) & (humidity<=75) then Play = Yes Forma 2 If (Outlook = rain ) then chk_wind = Yes If (Outlook = overcast ) then play = Yes If (Outlook = sunny ) then chk_humidity = Yes If (chk_wind = Yes) & (windy= False ) then Play = Yes If (chk_wind = Yes) & (windy= True ) then Play = No If (chk_humidity = Yes) & (humidity>75) then Play = No If (chk_humidity = Yes) & (humidity<=75) then Play = Yes

117 Narzędzia i metody indukcji reguł: drzewo CART Drzewo binarne Indeks Gini Przycinanie w oparciu o Wsparcie dla danych niekompletnych Wykorzystanie alternatywnych atrybutów w węźle

118 Narzędzia i metody indukcji reguł: drzewo ID3 Indeks zysku informacyjnego Działa jedynie dla atrybutów dyskretnych/symbolicznych Drzewo o zmiennej liczbie potomstwa wychodzącego z jednego węzła Liczba potomków wychodzących z węzła równa jest liczbie wartości unikatowych dla wybranej, najlepszej cechy Problem z liczebnością wartości unikatowych (niestabilność indeksu)

119 Narzędzia i metody indukcji reguł: drzewo C4.5 i C5.0 Rozwinięcie drzewa ID3 Nowe kryterium względny zysk informacyjny Wsparcie dla cech ciągłych Wsparcie dla brakujących wartości (j.w.) Zmodyfikowana metoda oczyszczania C5.0 drzewo komercyjne.

120 Narzędzia i metody indukcji reguł: drzewo SSV Podobne do CART Drzewo binarne Indeks SSV Przycinanie drzewa - test krzyżowy (ang. crosswalidaition)

121 Selekcja cech

122 Narzędzia i metody selekcji cech Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy, które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną informację jak istniejące już cechy Cel wybranie ze zbioru dostępnych cech tych, które nas interesują Interesujące cechy to takie, których kombinacja pozwala na możliwie najlepszą klasyfikację lub regresję!

123 8 7 6 Zaawansowana Analiza Danych Przykład z danymi iris

124 Narzędzia i metody selekcji cech: podział Ze względu na charakter problemu Nadzorowane Nienadzorowame Ze względu na relację z innymi algorytmami nadrzędnymi Filtry Wrappery (opakowane) Frapery kombinacja filtrów i Wrapperów Metody wbudowane

125 Narzędzia i metody selekcji cech: filtry cech Filtry cech to taka grupa metod, która autonomicznie podejmuje decyzję, które z cech będą istotne dla późniejszego procesu uczenia. Decyzja ta podejmowana jest na podstawie niezależnego od klasyfikatora współczynnika takiego jak informacja wzajemna lub dywergencja Kullbacka Leiblera lub inne wskaźniki statystyczne

126 Narzędzia i metody selekcji cech: filtry cech Strategia przeszukiwania Przygotowanie danych i ich preprocessing Filtr Wewnętrzna funkcja oceny Model klasyfikacyjny lub regresyjny

127 Narzędzia i metody selekcji cech: metody opakowane Metody opakowane to grupa metod w której występuje sprzężenie zwrotne pomiędzy elementem decyzyjnym (np.. Siecią neuronową) a algorytmem selekcji cech. Dzięki temu podzbiór cech optymalizowany jest pod kątem konkretnego klasyfikatora

128 Narzędzia i metody selekcji cech: metody opakowane Model klasyfikacyjny lub regresyjny Strategia przeszukiwania Przygotowanie danych i ich preprocesing Metoda opakowana Funkcja oceny Model klasyfikacyjny lub regresyjny

129 Narzędzia i metody selekcji cech: metody filtrów Zalety Uniwersalność uzyskany podzbiór cech jest niezależny od klasyfikatora, dzięki czemu teoretycznie możemy użyć dowolny klasyfikator W problemach medycznych jak analiza DNA zależy nam na znalezieniu genów odpowiedzialnych za pewne cechy, nie chcemy by wynik był zależny od użytej sieci neuronowej Szybkość jesteśmy niezależni od metody klasyfikacyjnej dzięki czemu złożoność obliczeniowa nie wpływa na szybkość i wydajność tego algorytmu Uniwersalność - algorytm tego typu może być wykorzystany do każdego problemu klasyfikacyjnego Wady Konieczność estymacji wielowymiarowych rozkładów prawdopodobieństwa

130 Narzędzia i metody selekcji cech: metody opakowane Zalety Wybrany podzbiór cech jest dostosowany do wymagań lub charakteru algorytmu decyzyjnego (sieci neuronowej itp) Większa dokładność niż metod filtrów Uniwersalność - algorytm tego typu może być wykorzystany do każdego problemu klasyfikacyjnego Wady Często większa złożoność obliczeniowa

131 Narzędzia i metody selekcji cech: kombinacje filtrów i metod opakowanych - Frappery Wykorzystuje się algorytm filtrów do selekcji cech, jednakże parametry filtru dostraja się na podstawie metody opakowującej. Właściwości Szybkość Często większa dokładność niż metod filtrów, lecz mniejsza niż metod opakowanych Uniwersalność - algorytm tego typu może być wykorzystany do każdego problemu klasyfikacyjnego

132 Narzędzia i metody selekcji cech: frappery Strategia przeszukiwania Filtr Model klasyfikacyjny lub regresyjny Wewnętrzna funkcja oceny Przygotowanie danych i ich preprocesing Funkcja oceny Model klasyfikacyjny lub regresyjny

133 Narzędzia i metody selekcji cech: metody wbudowane Metody wbudowane to taka grupa algorytmów, które wykorzystują pewne cechy algorytmów uczenia dokonując automatycznej selekcji cech na etapie uczenia sieci neuronowej lub innego algorytmu decyzyjnego Właściwości Szybkość selekcja cech realizowana jest podczas procesu uczenia, dzięki czemu nie musimy dokonywać żadnych dodatkowych obliczeń Dokładność metody te są zaprojektowane pod kątem konkretnego algorytmu Brak uniwersalności metody te można wykorzystywać jedynie dla danego algorytmu

134 Inne przydatne zagadnienia

135 Narzędzia i metody wstępnego przetwarzania danych Proces przygotowania danych do analizy: Normalizacja / standaryzacja danych Usunięcie wartości brakujących Transformacja pomiędzy różnymi typami cech

136 Narzędzia i metody wstępnego przetwarzania danych: normalizacja / standaryzacja Często analizie poddawane są różne zmienne opisujące różne dane o różnym przedziale wartości np.: Opis zmiennej Wynagrodzenie pracownika Obrót za okres 1 roku Wiek pracownika Przedział zmienności Od 1000 do zł Od do zł Od 20 do 65 lat Uwaga: zmiana wynagrodzenia o 500 zł może stanowić 50% minimalnego wynagrodzenia, podczas gdy zmiana obrotu o 500zł jest zupełnie nie istotna Jak uwzględnić wiek przy budowie modelu?

137 Narzędzia i metody wstępnego przetwarzania danych: normalizacja / standaryzacja Rozwiązanie normalizacja lub standaryzacja danych Opis zmiennej Przedział zmienności Po przeksztalceniu Wynagrodzenie pracownika Od 1000 do zł Od 0 ( ) do 1 (10000) Obrót za okres 1 roku Od do zł Od 0 ( ) do 1 ( ) Wiek pracownika Od 20 do 65 lat Od 0 (20) do 1 (65) Normalizacja: Przekształcenie wszystkich zmiennych tak by ich przedział zmienności był z zakresu od 0 do 1 Wada: bardzo czułe na wartości odstające Zaleta: W normalnej sytuacji zwykle lepiej działa Standaryzacja: Przekształcenie danych tak by ich wartość średnia była równa 0, oraz by odchylenie standardowe było równe 1 Wada: Zwykle nieco gorzej działa niż normalizacja Zaleta: Nie tak bardzo czułe na wartości odstające

138 Narzędzia i metody wstępnego przetwarzania danych: usuwanie wartości brakujących Problem: Często mając dane które chcemy poddać analizie nie dysponujemy pewnymi wartościami poszczególnych zmiennych np. Lp. Wiek Zarobki Obroty Zyski Płeć 1? M K ? ? M

139 Narzędzia i metody wstępnego przetwarzania danych: usuwanie wartości brakujących Rozwiązania: 1. Zastąpienie wartości brakujących średnią, medianą, dominantą etc. 2. Uzupełnienie wartości brakujących poprzez stworzenie pośrednich problemów klasyfikacyjnych (dla zmiennych jakościowych) lub regresyjnych (dla zmiennych ilościowych) 3. Wykorzystanie metod odpornych na wartości brakujące

140 Narzędzia i metody wstępnego przetwarzania danych: transformacje typów zmiennych/cech Niektóre typy metod analizy danych są zależne od typów zmiennych np.. Drzewo decyzji ID3 umożliwia pracę jedynie ze zmiennymi jakościowymi Sieci neuronowe i metody linowe wymagają wejść ciągłych czyli zmiennych ilościowych Rozwiązania: 1. Zastosowanie modeli niezależnych od typów danych 2. Konwersja danych do odpowiedniego typu

141 Narzędzia i metody wstępnego przetwarzania danych: transformacje typów zmiennych/cech Konwersja zmiennych jakościowych na ilościowe: Zamiana wartości symboli na ciągi wartości binarnych. Ciąg binarny składa się z tylu bitów ile występuje symboli w zmiennej jakościowej. Efekt: zwiększenie liczby zmiennych- np. Pogoda (j) słoneczna pochmurna Deszczowa Pogoda (i)

142 Narzędzia i metody wstępnego przetwarzania danych: transformacje typów zmiennych/cech Pogoda Temp. Wilgotność Wiatr Grać słoneczna brak nie słoneczna obecny nie pochmurna brak tak deszczowa brak tak deszczowa brak tak deszczowa obecny nie pochmurna obecny tak słoneczna brak nie słoneczna brak tak deszczowa brak tak słoneczna obecny tak pochmurna obecny tak pochmurna brak tak deszczowa obecny nie Pogoda Temp. Wilgotność Wiatr Grać brak nie obecny nie brak tak brak tak brak tak obecny nie obecny tak brak nie brak tak brak tak obecny tak obecny tak brak tak obecny nie

143 Narzędzia i metody wstępnego przetwarzania danych: transformacje typów zmiennych/cech Konwersja zmiennych ilościowe na jakościowe Wykorzystanie metod dyskretyzacji w celu zamiany wartości ciągłych na skończony zbiór wartości, możliwy do analizy przez algorytmy pracujące na zmiennych jakościowych Dyskretyzacja podział przedziału zmienności zmiennej ilościowej na podobszary np. Przedział zmienności: od 64 do 85 Podział na 3 wartości: 1. od 64 do od 71 do od 78 do 85 Przed dyskretyzacją Temp Po dyskretyzacji Temp

144 Zastosowania narzędzi analizy danych

145 Text Mining Text Mining analiza i rozumienie tekstów Przykłady: Przeszukiwanie baz tekstów (wyszukiwarka) Wyszukiwanie z uzględnieniem błędów - literówek Grupowanie dokumentów automatyczne odnajdywanie grup dokumentów podobnych Automatyczne odnajdywanie kategorii w dużych kolekcjach dokumentów Klasyfikacja dokumentów przydzielanie dokumentów do z góry określonych grup np. odnajdywanie i klasyfikacja spamu, klasyfikacja maili ze względu na treść z przeznaczeniem do odpowiedniego konsultanta

146 Text Mining Problem reprezentacji dokumentów algorytmy wymagają zapisu treści w postaci wektorów. Jeden wektor = jeden dokument (wektory mają stałą długość = stały zestaw atrybutów) Jak zdefiniować reprezentację dokumentu?

147 Typowa reprezentacja Text Mining jedno słowo = jeden atrybut Zbiór atrybutów = zbiór wszystkich słów we wszystkich dokumentach Przykład Dok1: Ala ma kota Dok2: Janek ma psa Dok3: Ala i Janek to para Uwaga: Tekst trzeba podzielić na słowa ten proces to tokenizacja. Zwykle realizowane przez podział dla znaków nie alfanumerycznych Ala ma kota Janek psa i to para Dok Dok Dok

148 Text Mining Inne problemy i wymogi preprocessingu (wstępnego przetwarzania danych) Dok1: Ala ma kota Dok2: Janek ma psa Dok3: Ala i Janek to para Dok4: Kot ali to Burek Problem wielkości liter i końcówek Ala i ali oraz Kot i kota Rozwiązanie: ujednolicenie rozmiaru liter!!! lematyzacja Ala ma kota Janek psa i to para Kot ali Burek Dok Dok Dok Dok

149 Text Mining Lematyzacja redukcja słowa do formy podstawowej czasownik => bezokolicznik, rzeczownik => mianownik liczba pojedyncza Ang. stemming lub redukcja wyrazu do korpusu Język polski => Morfeusz, Dawid Weiss - Stemming engine for Polish, Stempel Język angielski => Snowball, Porter, Lovins, np. usunięcie końcówek ed, usunięcie ing, usunięcie s z końca wyrazów

150 Text Mining Różne formy tworzenia wektorów Postać binarna zapisujemy jedynie 0/1 czy dany wyraz wystąpił czy nie wystąpił w treści dokumentu dobre dla krótkich tekstów, problem przy długich dokumentach Liczba wystąpień słowa w kolumnach zapisujemy liczbę wystąpień danego wyrazu problem jeśli jedne dokumenty są długie a inne krótkie konieczność stosowania odpowiednich miar odległości np. odległość kosinusowa Częstość względna liczba wystąpień unormowana przez liczbę słów w dokumencie TF-IDF miara bazująca na częstości z uwzględnieniem porównania kategorii

151 Text Mining TF-IDF Term Frequency Inverse document frequency. koncepcja miary polegająca na nieliniowym przeskalowaniu częstości poprzez uwzględnienie wag rozróżnialności słów pomiędzy kategoriami Obliczamy częstość występowania wektorów (Term Frequency), Obliczamy odwrotność częstości występowania słów w całej bazie dokumentów z uwzględnieniem kategorii

152 TF-IDF Text Mining gdzie: liczba wystąpień danego termu t i w dokumencie liczba wszystkich termów w dokumencie lub gdzie: - zbiór wszystkich dokumentów - zbiór dokumentów w których wystąpił term t i

153 Text Mining Porównywanie dokumentów zastosowanie odpowiedniej miary odległości przy reprezentacji dokumentów jako wektory. Obliczamy odległości między parą dokumentów i szukamy dwóch najbardziej podobnych Typy miar Odległość Hamminga Odległość Jaccarda Odległość kosinusowa Odległość Euklidesa

154 Text Mining miary odległości między dokumentami Odległość Hamminga do zastosowań dla danych binarnych lub symbolicznych postać binarna reprezentacji dokumentów n x D x, y = i y i 1 x i = y i 0 i=1 W zastosowaniu do analizy podobieństwa dokumentów liczy liczbę zgodnych (niezgodnych) danych suma w ilu przypadkach dany wyraz wystąpił w dokumencie A a nie wystąpił w dokumencie B UWAGA: Uwaga na normalizację długości, wynik zależny od liczby wyrazów w dokumentach!!!

155 Odległość Hamminga przykład Dok1: Ala ma kota Dok2: Janek ma psa Dok3: Pies Janka to Burek Dok4: Kot Ali to Ciapek Reprezentacja po stemmingu ala ma kot janek pies to ciapek burek Dok Dok Dok Dok D(dok1,dok4) = = 3 D(dok2,dok3) = D(dok1,dok2) =

156 Text Mining miary odległości między dokumentami Odległość/podobieństwo Jackarda D x, y = n i=1 n i=1 x i =1 & y i =1 x i =1 y i =1 ala ma kot janek pies to ciapek burek Dok Dok Dok Dok D(dok1,dok4) = = 2 5 D(dok2,dok3) = D(dok1,dok2) =

157 Text Mining miary odległości między dokumentami Odległość kosinusowa do zastosowań jeśli mamy reprezentację dokumentów w postaci liczby występowania słów. Mierzy cos. kąta między wyrazami: Można ją zastąpić miarą euklidesową po uprzedniej normalizacji: Odległość Euclidesa

158 Text Mining miary odległości między dokumentami Odległość Euklidesa Można stosować tylko dla reprezentacji typu: częstość i TF-IDF (wektory muszą być odpowiednio unormowane) Inne opcje: odległość Minkowskiego

159 Jak uwzględniać literówki!!! Nie szukając dokładnego dopasowania słów, a szukając słów najbardziej podobnych Słowa najbardziej podobne szukamy przez miary odległości/podobieństwa między słowami Typy miar odległosci między słowami: Odległość Hamminga Odległość Levensteina

160 Text Mining miary odległości między wyrazami Odległość Hamminga W zastosowaniu do porównywania słów suma w ilu przypadkach litery w słowie A były zgodne z literami w słowie B D x, y = n i=1 x i y i x i = y i 1 0 D( pieczywo, pieczeń ) = Problem jeśli wyrazy o różnej długości konieczna normalizacja długości

161 Odległość Levenstaina Odległość edycyjna podaje ile operacji należy wykonać aby przekształcić jeden napis w drugi Przykład: D(pies ; pies) = 0 D(granat ; granit) = 1 D(orczyk ; oracz) = 3 D(marka ; ariada) = 4

162

163 Odległość Levenstaina Krok 1 Krok 2 Krok 3 Krok 4 Krok 5 Krok 6 Krok 7 Krok 8 Krok 9 Krok 10 Ustalamy długość łańcuchów znaków (dlugoscp długość łańcucha pierwszego, dlugoscd długość łańcucha drugiego), Tworzymy macierz o rozmiarze dlugoscp x dlugoscd Inicjalizujemy pierwszy wiersz wartościami od 0 do dlugoscp Inicjalizujemy pierwszą kolumnę wartościami od 0 do dlugoscd Sprawdzamy każdy znak z łańcucha pierwszego (indeks i od 1 do dlugoscp) Sprawdzamy każdy znak z łańcucha drugiego (indeksy j od 1 do dlugoscd) Jeżeli znak na pozycji i równa się znakowi na pozycji j to koszt jest równy zero Jeżeli znak na pozycji i jest różny od znaku na pozycji j to koszt wynosi 1 Ustawiamy wartość komórki i,j jako minimum: komórka powyżej + 1 komórka z lewej + 1 komórka po skosie (góra, lewo) + koszt Algorytm powtarzamy dla wszystkich znaków, całkowity koszt otrzymamy w komórce o indeksie dlugoscp, dlugoscd

164

165 Problemy: Zaawansowana Analiza Danych Text Mining Wyszukiwanie dokumentów Odnajdywanie w bazie dokumentów tych dokumentów które są najbardziej podobne do wzorcowego (np. zwykła wyszukiwarka lub wyszukiwanie plagiatów) Grupowanie dokumentów Odnalezienie w zbiorze dokumentów, takich dokumentów które pod względem treści są do siebie podobne np. lub Klasyfikacja dokumentów Automatyczna przydzielenie dokumentów do odpowiedniej predefiniowanej grupy Np.: wykrywanie spamu, automatyczne przekierowywanie dokumentów do odpowiedniego działu na podstawie treści

166 Text Mining: Wyszukiwarka 1. Przygotuj zbiór dokumentów do przeszukiwania 2. Zamień dokumenty w bazie (z pkt 1) na zbiór wektorów (to robimy tylko raz) 3. Przygotuj dokument wzorcowy jeśli szukamy plagiatów lub hasło jeśli wyszukiwarka 4. Zamień dokument wzorcowy na wektor 5. Policz odległość między dokumentem wzorcowym a innymi w bazie danych 6. Posortuj odległości od najmniejszej do największej 7. Wyświetl wyniki wyszukiwania

167 Text Mining: Wyszukiwarka Wczytanie bazy dokumentów Przekształcenie dokumentów na wektory Obliczenie odległości między wektorami Dokument wzorcowy / wyszukiwana fraza Zamiana dokumentu wzorcowego na wektor Sortowanie dokumentów wg. odległości UWAGA: ważny jest dobór reprezentacji dokumentów i miary odległości!!!

168 Text Mining: Grupowanie Wczytanie bazy dokumentów Konwersja na reprezentację wektorową (TF IDF) Dokonanie automatycznego grupowania dokumentów w celu identyfikacji zbioru dokumentów podobnych

169 Wynik grupowania UWAGA: Kolory mogą się różnić Kategorie oryginalne UWAGA: Reprezentacja z dużą liczbą cech uwaga na algorytmy grupowania czułe na dużą liczbę cech (EM itp.)

170 Wczytanie poetykietowanych dokumentów (z podziałem na kategorie) Zaawansowana Analiza Danych Text Mining: Klasyfkacja Uczenie klasyfikaotra Przygotowanie klasyfikatora. Robimy raz i zapamiętujemy klasyfikator i statystykę słów Konwersja dokumentów na wektory wyjście word => TF-IDF dla danych testowych Klasyfikacja dokumentów na podstawie wcześniej przygotowanego klasyfikatora Wczytanie dokumentów do klasyfikacji (np. maili) Konwersja dokumentów do postaci wektorów

Pokazać jeszcze