Drzewa Decyzyjne, cz.1

Podobne dokumenty
Drzewa Decyzyjne, cz.2

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

teoria informacji Kanały komunikacyjne, kody korygujące Mariusz Różycki 25 sierpnia 2015

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Elementy modelowania matematycznego

Klasyfikacja metodą Bayesa

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Testowanie hipotez statystycznych

Pojęcie przestrzeni probabilistycznej

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

166 Wstęp do statystyki matematycznej

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Matematyka i statystyka matematyczna dla rolników w SGGW

Ćwiczenie nr 2: ZaleŜność okresu drgań wahadła od amplitudy

Statystyczna analiza danych

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Testowanie hipotez statystycznych

Statystyka matematyczna i ekonometria

Granica kompresji Kodowanie Shannona Kodowanie Huffmana Kodowanie ciągów Kodowanie arytmetyczne. Kody. Marek Śmieja. Teoria informacji 1 / 35

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Przetwarzanie i transmisja danych multimedialnych. Wykład 6 Metody predykcyjne. Przemysław Sękalski.

Rozpoznawanie obrazów

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Teoretyczne podstawy informatyki

Metody klasyfikacji danych - część 1 p.1/24

Wykład 5. Cel wykładu. Korespondencja seryjna. WyŜsza Szkoła MenedŜerska w Legnicy. Informatyka w zarządzaniu Zarządzanie, zaoczne, sem.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Analiza głównych składowych- redukcja wymiaru, wykł. 12

ALGORYTM RANDOM FOREST

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Prawdopodobieństwo i statystyka

Co to jest algorytm? przepis prowadzący do rozwiązania zadania, problemu,

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Testowanie hipotez statystycznych.

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Przetwarzanie i transmisja danych multimedialnych. Wykład 2 Podstawy kompresji. Przemysław Sękalski.

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

1.5. Sygnały. Sygnał- jest modelem zmian w czasie pewnej wielkości fizycznej lub stanu obiektu fizycznego

przedmiot podstawowy obowiązkowy polski drugi

Rozkłady zmiennych losowych

Wykresy i własności funkcji

wiadomość komunikat - informacja Caius Julius Cesar Człowiek zasztyletowany przez senatorów na forum Romanum w Idy Marcowe roku DCCIX ab urbe condita

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

WYKORZYSTANIE NARZĘDZIA Solver DO ROZWIĄZYWANIA ZAGADNIENIA Problem przydziału

Analiza danych. TEMATYKA PRZEDMIOTU

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Jednostki informacji. Bajt moŝna podzielić na dwie połówki 4-bitowe nazywane tetradami (ang. nibbles).

0 + 0 = 0, = 1, = 1, = 0.

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej

Data Mining podstawy analizy danych Część druga

Wykład 11 Testowanie jednorodności

Temat: Algorytm kompresji plików metodą Huffmana

Przetwarzanie i transmisja danych multimedialnych. Wykład 5 Kodowanie słownikowe. Przemysław Sękalski.

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Testowanie hipotez statystycznych

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Agnieszka Nowak Brzezińska Wykład III

Prawdopodobieństwo i statystyka

Kody Tunstalla. Kodowanie arytmetyczne

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Systemy uczące się wykład 2

Test dwustronny: H 0 : p= 1 2

Statystyka i eksploracja danych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka w pracy badawczej nauczyciela

Przetwarzanie i transmisja danych multimedialnych. Wykład 7 Transformaty i kodowanie. Przemysław Sękalski.

Agnieszka Nowak Brzezińska Wykład III

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Generowanie liczb o zadanym rozkładzie. ln(1 F (y) λ

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Estymacja punktowa i przedziałowa

Definicje. Algorytm to:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Wykład 9 Wnioskowanie o średnich

Weryfikacja hipotez statystycznych

Transkrypt:

Drzewa Decyzyjne, cz.1 Inteligentne Systemy Decyzyjne Katedra Systemów Multimedialnych WETI, PG Opracowanie: dr inŝ. Piotr Szczuko

Zadanie klasyfikacji NajwaŜniejsza operacja w drąŝeniu danych (ang. Data Mining) Próba przewidywania wyniku (określania kategorii, klasyfikowania) na podstawie posiadanych parametrów opisujących obiekt Kategoria: atrybut symboliczny, przyjmuje dyskretne wartości, np. opis słowny. Przeciwieństwo to atrybut liczbowy, przyjmuje wartości ciągłe, to np. dowolne wielkości fizyczne

Zbiór danych Przykładowe dane ankiet oceny stopy Ŝyciowej (48,000 rekordów, 16 atrybutów opublikowane [Kohavi 1995]) Age employmen education edun marital job relation race gender hours country wealth 39 State_gov Bachelors 13 Never_mar Adm_cleric Not_in_fam White Male 40 United_Sta poor 51 Self_emp_ Bachelors 13 Married Exec_man Husband White Male 13 United_Sta poor 39 Private HS_grad 9 Divorced Handlers_c Not_in_fam White Male 40 United_Sta poor 54 Private 11th 7 Married Handlers_c Husband Black Male 40 United_Sta poor... 52 Self_emp_ HS_grad 9 Married Exec_man Husband White Male 45 United_Sta rich 31 Private Masters 14 Never_mar Prof_speci Not_in_fam White Female 50 United_Sta rich 32...

Histogram? Analiza danych

Tablice kontyngencji Kontyngencja współzaleŝność statystyczna między cechami, z których przynajmniej jedna jest cechą jakościową Histogram to jednowymiarowa tablica kontyngencji k-wymiarowa tablica: Wybierz k atrybutów ze zbioru danych: a 1, a 2,..., a k Dla kaŝdej moŝliwej kombinacji wartości... a 1 =x 1, a 2 =x 2,, a k =x k...określ jak często pojawia się ona w zbiorze danych

Przykład tablicy kontyngencji Dla kaŝdej moŝliwej pary wartości atrybutów (wiek, zamoŝność) określamy liczbę wystąpień w zbiorze danych:

Przykład tablicy kontyngencji Dla kaŝdej moŝliwej pary wartości atrybutów (wiek, zamoŝność) określamy liczbę wystąpień w zbiorze danych:

Przykład tablicy kontyngencji... Tablica 2-wymiarowa, c.d.

Przykład tablicy kontyngencji...tablica 3-wymiarowa

Analiza danych, c.d. Oprogramowanie typu OLAP (On-line Analytical Processing): Klikalne kreatory tablic, Podgląd przekrojów, histogramów, Np. wykres 100% skumulowany w arkuszach kalkulacyjnych 7 6 5 4 3 Serie1 Serie2 2 1 0% 20% 40% 60% 80% 100%

Tablice kontyngencji Wady? Dla 16 atrybutów w zbiorze danych: Ile jest tablic 1-wymiarowych? Ile jest tablic 2-wymiarowych? Ile jest tablic 3-wymiarowych? Ile jest tablic 3-wymiarowych dla 100 atrybutów?

Tablice kontyngencji Wady? Dla 16 atrybutów w zbiorze danych: Ile jest tablic 1-wymiarowych? 16 Ile jest tablic 2-wymiarowych? 16*15/2=120 Ile jest tablic 3-wymiarowych? 560 Ile jest tablic 3-wymiarowych dla 100 atrybutów? 161700

DrąŜenie danych Automatyczne poszukiwanie związków i zaleŝności zawartych w zbiorach danych. Jakie zaleŝności są interesujące? Jakie są znaczące tylko pozornie? Jak je wykorzystywać?

Istotność informacji Z teorii informacji jakość informacji (nie-)nadmiarowa? (nie-)uporządkowana? (nie-)istotna? Wartość ENTROPII - najmniejsza średnia ilość informacji potrzebna do zakodowania faktu zajścia pewnego zdarzenia (ze zbioru zdarzeń o danych prawdopodobieństwach)

Entropia Przykład prawdopodobieństw zdarzeń: P(X=A) = 1/4 P(X=B) = 1/4 P(X=C) = 1/4 P(X=D) = 1/4 Ciąg zdarzeń ABBDCADC przesyłamy zakodowany binarnie, kaŝde na 2 bitach, np. A = 00, B = 01, C = 10, D = 11 0001011110001110

Entropia Niech prawdopodobieństwa będą róŝne: P(X=A) = 1/2 P(X=B) = 1/4 P(X=C) = 1/8 P(X=D) = 1/8 MoŜliwe jest takie zakodowanie binarne zdarzeń, Ŝe średnio potrzebne będzie tylko 1.75 bita na zdarzenie! A = 0, B = 10, C = 110, D = 111

Entropia Przypadek ogólny: Zmienna losowa X przyjmuje wartości V 1, V 2,..., V m z P równymi p 1, p 2,..., p m. Najmniejsza moŝliwa średnia liczba bitów na symbol potrzebnych do przetransmitowania ciągu symboli o dystrybucji losowej X: H(X) = p 1 log 2 p 1 p 2 log 2 p 2... p m log 2 p m = Ɖ j=1...m p j log 2 p j H(X) to ENTROPIA X

Entropia Policzmy dla: P(X=A) = 1/2 P(X=B) = 1/4 P(X=C) = 1/8 P(X=D) = 1/8 H(X) = p 1 log 2 p 1 p 2 log 2 p 2... p m log 2 p m =?

Entropia DuŜa entropia oznacza równomierną dystrybucję, płaski histogram, rozrzucenie wartości w całym przedziale, trudniejsze do przewidzenia Mała entropia oznacza zmienną dystrybucję, pofalowany histogram, skupiska i luki w przedziale wartości, łatwiejsze do przewidzenia

Entropia warunkowa Próba przewidywania wartości wyjściowej Y pod warunkiem znania wartości wejściowej X: Prawdopodobieństwa i p. warunkowe: P(Y = Yes) = 0.5 P(X = Math & Y = No) = 0.25 P(X = Math) = 0.5 P(Y = Yes X = History) = 0 ZauwaŜmy: H(X) = 1.5 H(Y) = 1 (dlaczego?) Entropia warunkowa H(Y X=v) entropia liczona po tych tylko Y dla których X=v. Ile wynoszą H(Y X=Math), H(Y X=CS), H(Y X=History)?

Entropia warunkowa H(Y X) = średnia entropia warunkowa Y-ka = jeŝeli wybiorę wiersz ze zbioru danych losowo, to jaka będzie entropia warunkowa Y-ka, jeŝeli poznam w tym wierszu wartość X = oczekiwana liczba bitów do przesłania Y, pod warunkiem, Ŝe nadawca i odbiorca znają X y = Σ j P(X=v j ) H(Y X = v j )

Entropia warunkowa H(Y X) = Σ j P(X=v j ) H(Y X = v j ) H(Y X) = 0.5*1 + 0.25*0 + 0.25*0 = 0.5

Zysk informacyjny IG(ang. Information Gain) IG(Y X) = JeŜeli muszę przesłać Y, ile oszczędzę bitów średnio, jeŝeli obie strony znać będą X? IG(Y X) = H(Y) - H(Y X) Przykład: H(Y) = 1 H(Y X) = 0.5 IG(Y X) = 1 0.5 = 0.5

Przykłady IG(Y X) = H(Y) - H(Y X)

Przykłady

Przydatność Zysku Informacyjnego Przypuśćmy, Ŝe chcemy określić, czy ktoś zaliczy ISD: IG(Zaliczenie KolorWłosów) = 0.01 IG(Zaliczenie Obecność na wykładach) = 0.55 IG(Zaliczenie Czas nauki) = 0.25 IG(Zaliczenie OstatniaCyfraNrIndeksu) = 0.00001 IG mówi jak interesująca będzie wybrana 2-wymiarowa tablica kontyngencji

Drzewo Decyzyjne drzewiasta struktura opisująca zbiór atrybutów, których wartości naleŝy testować w zadanej kolejności w celu przewidzenia wartości wyjściowej. Aby określić, które z nich testować na początku, naleŝy znaleźć atrybut nieprzetestowany o najwyŝszej wartości IG......następnie proces powtórzyć, budując tak całe drzewo

Zbiór danych Przykład motoryzacyjny :)

Wartości IG Aby określić, które z nich testować na początku, naleŝy znaleźć atrybut nieprzetestowany o najwyŝszej wartości IG......następnie proces powtórzyć, budując tak całe drzewo

Gotowe Drzewo Decyzyjne

Błąd zbioru danych (treningowy) Dla kaŝdego rekordu w tablicy przejdź kolejne etapy drzewa i sprawdź, czy wskazana w liściu wartość zgadza się z daną wartością wyjściową w tabeli Jaka liczba tych wartości się nie zgadza? Jest ona nazywana błędem treningowym (im jest mniejszy tym lepiej)

Gotowe Drzewo Decyzyjne Liczba błędów Liczba obiektów Procent błędnych decyzji 1 40 2,5% (zbiór treningowy)

Klasyfikacja nieznanych obiektów Naszym celem nie jest klasyfikacja obiektów juŝ występujących w tabeli (i testowanie skuteczności tej klasyfikacji) Drzewa decyzyjne stosowane są do klasyfikacji obiektów nieznanych. Stworzenie aparatu decyzyjnego, który w przyszłości podejmie właściwe decyzje.

Zbiór testowy Zbiór danych dane treningowe = dane testowe Wydzielenie przed tworzeniem drzewa danych, które posłuŝą do przetestowania trafności klasyfikacji Sposób zasymulowania tego, co moŝe się wydarzyć w przyszłości

Gotowe Drzewo Decyzyjne Liczba błędów Liczba obiektów Procent błędnych decyzji 1 40 2,5% (zbiór treningowy) 74 352 21,02% (zbiór testowy) Procent błędnych decyzji 2,5% (zbiór treningowy) 21,02% (zbiór testowy) Skąd wynika tak duŝa róŝnica? Czy moŝna poprawić efektywność klasyfikacji?