Eksploracja danych KLASYFIKACJA I REGRESJA cz. 1 Wojciech Waloszek wowal@ei.pg.gda.pl Teresa Zawadzka egra@ei.pg.gda.pl Kaedra Inżyrii Oprogramowania Wydział Elekroniki, Telekomunikacji i Informayki Poliechnika Gdańska - 1 - W.Waloszek
Budowa drzew decyzyjnych Drzewa decyzyjne o najpopularjsza forma klasyfikaorów, Najczęściej budowane są meodą zsępującą, na zasadzie podejścia nauralnego dla drzew podejścia divide-and-conquer - 2 - W.Waloszek
Przykład drzewa decyzyjnego wyższe Wykszałce śred podsawowe D.O.R. <=800 >800 Sam. ak Wiek ak <=45 ak >45-3 - W.Waloszek
Budowa drzewa S.C. D.O.R. Wiek Wykszałce Sam. Z.K. S 800 32 wyższe ak ak S 1200 35 śred ak ak S 700 26 podsawowe M 600 45 wyższe ak M 650 38 śred ak ak S 900 28 wyższe S 1100 65 śred ak M 500 22 śred S 800 43 podsawowe ak 1. Mamy wyróżniony arybu decyzyjny, wyznaczający klasy 2. Na każdym poziomie drzewa wybieramy jeden z pozosałych arybuów, najlepszy pod kąem dyskryminowania klas 3. Rozpoczynamy od pusego drzewa wyznaczając korzeń - 4 - W.Waloszek
Dobór arybuu 4 x ak 5 x S.C. S M 2 x ak 4 x 2 x ak 1 x Czy podział pod względem warości arybuu S.C. jes korzysny? I w jakiej mierze? - 5 - W.Waloszek
Miara jakości podziału Jedną z miar jakości podziału jes przyros zawarości informacji Przyros zawarości informacji jes określony jako różnica zawarości informacji w dzielonym zbiorze przykładów a enropią zasosowanego podziału (esu). - 6 - W.Waloszek
Miara jakości podziału wzory d P IP ( ) log 2 P dc P d P I(P) zawarość informacyjna zbioru przykładów P C zbiór klas wyznaczony przez arybu decyzyjny P d podzbiór ych przykładów ze zbioru P, kóre należą do klasy d Pr E ( P) I( Pr ) P rr E (P) enropia esu dla zbioru przykładów P R zbiór możliwych wyników esu P r podzbiór ych przykładów ze zbioru P, kóre dają dla esu wynik r - 7 - W.Waloszek
Dobór arybuu - przykład 4 x ak 5 x 4 4 5 5 IP ( ) log 2 log 2 0,99 9 9 9 9 S S.C. M " S. C.?" R S, M 2 x ak 4 x 2 x ak 1 x 2 2 4 4 6 6 6 6 2 2 1 1 IP ( ) log log 0,92 3 3 3 3 IP ( S. C. S ) log 2 log 2 0,92 S. C. M 2 2 6 3 E ( P) 0,92 0,92 0,92 9 9 g ( P) 0,99 0,92 0, 07-8 - W.Waloszek
Dobór arybuu przykład (2) 4 4 5 5 4 x ak 5 x IP ( ) log 2 log 2 0,99 9 9 9 9 wyższe Wykszałce śred R podsawowe " Wykszace?" wyższe, śred, podsawowe 2 x ak 1 x 2 x ak 2 x 0 x ak 2 x IP ( Wykszałce wyższe ) 0,92 IP ( Wykszałce śred ) 1 IP ( Wykszałce podsawowe ) 0 3 4 2 E ( P) 0,92 1 0 0, 75 9 9 9 g ( P) 0,99 0, 75 0, 24-9 - W.Waloszek
Dobór arybuu przykład (3) 4 x ak 5 x 4 4 5 5 IP ( ) log 2 log 2 0,99 9 9 9 9 ak Sam. " Sam.?" R ak, 3 x ak 2 x 1 x ak 3 x IP ( ) 0,97 Sam. ak IP ( ) 0,81 Sam. 5 4 E ( P) 0,97 0,81 0,90 9 9 g ( P) 0,99 0,90 0,1-10 - W.Waloszek
Dobór arybuu przykład (4) Najwyższy zysk informacji (0,24) osiągnął arybu Wykszałce i on zosaje zapisany w korzeniu drzewa decyzyjnego wyższe Wykszałce śred podsawowe 2 x ak 1 x 2 x ak 2 x 0 x ak 2 x - 11 - W.Waloszek
Divide-and-conquer S.C. D.O.R. Wiek Wykszałce Sam. Z.K. S 800 32 wyższe ak ak S 1200 35 śred ak ak S 700 26 podsawowe M 600 45 wyższe ak M 650 38 śred ak ak S 900 28 wyższe S 1100 65 śred ak M 500 22 śred S 800 43 podsawowe ak 1. Zbiór przykładów zosał podzielony na rzy części 2. Dla każdej z części może zosać zasosowany en sam algorym dalszego działania - 12 - W.Waloszek
Dalsza budowa drzewa Wzdłuż prawej gałęzi drzewa rzeba już rozbudowywać wyższe Wykszałce śred podsawowe 2 x ak 1 x 2 x ak 2 x 0 x ak 2 x - 13 - W.Waloszek
Dalsza budowa drzewa (2) śred 2 x ak 2 x IP ( ) 1 ak Sam. " Sam.?" R ak, 2 x ak 1 x 0 x ak 1 x IP ( ) 0,92 Sam. ak IP ( ) 0 Sam. 3 1 E ( P) 0,92 0 0, 69 4 4 g ( P) 10, 69 0,31-14 - W.Waloszek
Arybuy numeryczne Do ej pory zakładaliśmy użycie ylko arybuów nominalnych, W rakcie budowy drzewa wykorzysywane mogą być eż arybuy numeryczne, Tuaj przedsawimy zasadę podziału binarnego minimalizującego enropię - 15 - W.Waloszek
Arybuy numeryczne (2) S.C. D.O.R. Wiek Wykszałce Sam. Z.K. S 800 32 wyższe ak ak S 1200 35 śred ak ak S 700 26 podsawowe M 600 45 wyższe ak M 650 38 śred ak ak S 900 28 wyższe S 1100 65 śred ak M 500 22 śred S 800 43 podsawowe ak 1. W rakcie budowy drzewa doszliśmy do wydzielenia 3 przykładów 2. W ym miejscu drzewa najlepiej zasosować podział względem warości arybuu numerycznego (wcześj oczywiście akie podziały eż były rozważane ale odrzucane) - 16 - W.Waloszek
Dalsza budowa drzewa (2) ak 2 x ak 1 x IP ( ) 0,92 Wiek: 35 38 65 Z.K.: ak ak " Wiek x" R x, x IP ( ) 0 Wiek x IP ( Wiek x) 1 1 2 E ( P) 0 1 0,67 3 3 g ( P) 0,92 0, 67 0, 25-17 - W.Waloszek
Dalsza budowa drzewa (3) ak 2 x ak 1 x IP ( ) 0,92 Wiek: 35 38 65 Z.K.: ak ak " Wiek x" R x, x IP ( ) 0 Wiek x IP ( Wiek x) 0 1 2 E ( P) 0 0 0 3 3 g ( P) 0,92 0 0,92-18 - W.Waloszek
Algorym budowy drzew decyzyjnych Budowa drzewa polega na doborze najlepszego arybuu nominalnego lub najlepszego podziału binarnego arybuu numerycznego, powarzanym ieracyj, Rozszerzenia: Obsługa brakujących warości arybuów, Przycina drzew generalizacja. - 19 - W.Waloszek
Brakujące warości arybuów S.C. D.O.R. Wiek Wykszałce Sam. Z.K. S 800 32 wyższe ak ak S 1200 35 śred ak ak S 700 26 podsawowe M 600 45 wyższe ak M 650 38 śred ak ak S 900 28 wyższe S 1100 65 śred ak M 500 22 śred S 800 43 podsawowe ak M 750 47? Zakładamy, że mamy dodakowy przykład o znanej warości arybuu Wykszałce - 20 - W.Waloszek
Brakujące warości arybuów (2) 4 x ak 6 x IP ( ) 0,92 wyższe Wykszałce śred R podsawowe " Wykszace?" wyższe, śred, podsawowe 2 x ak (1 + 3/9) x 2 x ak (2 + 4/9) x 0 x ak (2 + 2/9) x IP ( Wykszałce wyższe ) 0,97 IP ( Wykszałce śred ) 0,99 IP ( Wykszałce podsawowe ) 0 3 3 9 4 4 9 2 2 9 E ( P) 0,97 0,99 0 0, 76 10 10 10 g ( P) 0,92 0, 76 0,16-21 - W.Waloszek
Przycina drzewa decyzyjnego wyższe Wykszałce śred podsawowe D.O.R. ak <=800 >800 Sam. ak Wiek ak <=45 ak >45-22 - W.Waloszek
Przycina Przycina polega na zasąpieniu poddrzewa liściem, Przycina ma na celu uogól wyników i zapobieże błędowi nadmiernego dopasowania, Sosuje się różne kryeria przycinania: przycina apriori (w rakcie pracy zasadniczego algorymu), gdy węzeł drzewa pokrywa zby małą liczbę przykładów, przycina aposeriori (po pracy zasadniczego algorymu), najczęściej wsępująca w wyniku badania rezulaów klasyfikacji na zbiorze esującym, W wyniku przycinania liście sają się węzłami probabilisycznymi - 23 - W.Waloszek
Redukcjonisyczne podejście do opisu algorymów Algorym budowy drzew decyzyjnych (~C4.5): 1. Zada: predykcja (klasyfikacja) 2. Srukura modelu: drzewo 3. Funkcja oceny jakości: przyros zawarości informacyjnej 4. Meody przeszukiwania: zachłanna, divide-and-conquer 5. Dodakowe założenia: Obsługa brakujących warości arybuów meodą podziału przykładu Obsługa arybuów numerycznych meodą podziału binarnego minimalizującego enropię Przycina drzewa meodą wsępującą aposeriori (walidacja krzyżowa) - 24 - W.Waloszek
Dziękujemy za uwagę Zapraszamy na wykład: KLASYFIKACJA I REGRESJA cz. 2-25 - W.Waloszek