Analiza danych Drzewa decyzyjne. Enropia. Jakub Wróblewski jakubw@pjwsk.edu.pl hp://zajecia.jakubw.pl/ DRZEWA DECYZYJNE Meoda reprezenacji wiedzy (modelowania ablic decyzyjnych). Pozwala na przejrzysy opis regularności zawarych w danych, a akże na prose przedsawienie algorymu klasyfikacji. ablica danych Przykład: drzewo binarne. Węzły odpowiadają zbiorom danych, krawędzie warunkom (esom). es dopełnienie esu podablica spełniająca es podablica niespełniająca esu
ZSTĘPUJĄCY ALGORYTM BUDOWY DRZEWA Korzeń: cały zbiór danych. Pojedynczy krok budowy drzewa: - wybieramy węzeł do podziału - wybieramy es i dokonujemy podziału - sprawdzamy kryerium sopu Kryerium sopu: Najprossze gdy nie ma już więcej liści wymagających podziału, zn. akich, kóre zawierają więcej niż jedną klasę decyzyjną. Wybór esu: najczęściej meodą zachłanną, zn. wybieramy aki es, kóry najlepiej podzieli rozparywany węzeł. RODZAJE TESTÓW W zależności od rodzaju danych, najczęssze rodzaje esów o: - większościowy: a i v a i < v sosowany głównie w przypadku danych ciągłych, - równościowy: a i = v a i = v 2 a i = v 3... a i = v k sosowany w przypadku danych dyskrenych (np. symbolicznych). Wówczas drzewo nie jes binarne. 2
PRZYKŁAD DYSKRETNY Oulook Temp. Humid. Wind Spor? Sunny Ho High Weak No 2 Sunny Ho High Srong No 3 Overcas Ho High Weak Yes 4 Rain Mild High Weak Yes 5 Rain Cold Normal Weak Yes 6 Rain Cold Normal Srong No 7 Overcas Cold Normal Srong Yes 8 Sunny Mild High Weak No 9 Sunny Cold Normal Weak Yes 0 Rain Mild Normal Weak Yes Sunny Mild Normal Srong Yes 2 Overcas Mild High Srong Yes 3 Overcas Ho Normal Weak Yes 4 Rain Mild High Srong No Oulook Sunny Rain Overcas Humidiy Wind High Normal Srong Weak Spor=No Spor=Yes PRZYKŁAD CIĄGŁY (całe dane) a 2 2 a 2 < 2 a < 7 a 7 a < 6 a 6 2 a < 8 a 8 Jeśli przyjmiemy poziom dokładności 90%, osani krok będzie nieporzebny. a 2 a 6 7 8 3
KLASYFIKACJA ( 7, 5 ) a 2 2 a 2 < 2 a < 7 a 7 a < 6 a 6 2 a < 8 a 8 odpowiedź: czerwony * a 2 a 6 7 8 CEL OPTYMALIZACJI Dążymy do zbudowania drzewa jak najlepiej sprawdzającego się na nowych danych. Opymalizacja może być ylko pośrednia, gdyż nie znamy jeszcze nowych danych. Dobre drzewo powinno być: - poprawne przynajmniej w sosunku do danych reningowych; - ogólne, czyli akie, kóre wychwyuje pewne prawa ukrye w danych, co pozwala na prawidłową klasyfikacje przypadków niewidzianych wcześniej. Ogólność możemy oszacować zgodnie z zasadą minimalnego opisu: dobry model danych o aki, kóry jes jak najmniejszy. Typowa sraegia: minimalizujemy wielkość drzewa przy sałym progu poprawności (00% lub mniej). 4
ENTROPIA Kryerium wyboru esu: Dory es powinien zmniejszać głębokość drzewa, zn. zbliżać nas do liści jednoliych pod względem decyzji. Jednoliość ę można mierzyć za pomocą enropii (ozn. H): H ( P) = k p i log p i gdzie P=(p,... p k ) o pewien rozkład prawdopodobieńswa. W naszym przypadku P będzie rozkładem decyzji w węźle drzewa. Im enropia mniejsza, ym rozkład decyzji jes bardziej nierównomierny. WŁASNOŚCI ENTROPII Enropia jes równa zero ww. gdy rozkład jes skupiony na jednej warości. Enropia jes największa dla rozkładu równomiernego. H(P) = 2 Jeśli logarym ma podsawę 2, o wynik podany jes w biach. 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, 0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, 0 dec = dec = 2 dec = 3 dec = 4 dec = dec = 2 dec = 3 dec = 4 5
KRYTERIUM WYBORU TESTU Mając dany pewien przykładowy es dzielący ablicę danych na podablic, jego jakość liczymy nasępująco: Q( ) = P H ( P i i ) gdzie P o wielkość podablicy spełniającej warunek, H(P ) o enropia rozkładu decyzji w odpowiedniej podablicy. Wyrażenie Q powinniśmy sarać się zminimalizować. WSPÓŁCZYNNIK PRZYROSTU INFORMACJI W przypadku porównywania warunków generujących różną liczbę węzłów poomnych, porzebujemy miary, kóra jes mało (w porównaniu z innymi meodami) wrażliwa na liczbę klas: ϑ( ) = P i H H ( P ) ( P) i gdzie P o wielkość podablicy spełniającej warunek, H(P) o enropia podziału ablicy na podablice, czyli: H ( P) = P P i i log n n 6
ALGORYTM WYBORU TESTU Dla każdego arybuu a i Dla każdej warości esu ij policz jego jakość Q( ij ). Zapamięaj najlepszy es. Wybierz arybu i es najlepszy dla danego węzła. INNE RODZAJE TESTÓW Tesy na gałęziach drzewa nie muszą mieć posaci a i < v. Mogą o być np.: - warunki opisane kombinacjami liniowymi arybuów (prose, hiperpłaszczyzny) - warunki określające odległość obieku od pewnego punku - warunki ypu a i {v, v 2, v 3,...} Poszerzony język opisu danych może znacznie zmniejszyć wielkość drzewa, jednak znalezienie opymalnego warunku jes bardzo koszowne. 7