Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Transkrypt

1 Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r.

2 Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody wyznaczania wartości informacyjnej Analiza uzyskanych wyników Podsumowanie

3 Wstęp opis problemu Problem decyzyjny Decyzja (d) Opisanie problemu Analiza problemu Atrybuty a 0 a 1 a 2 a 3 a 4 a 5 a n

4 Wstęp atrybuty a 0 a 1 a 2 a 3 a 4 a 5 a n analiza Klasyfikator decyzja d

5 Wstęp atrybuty a 0 a 1 a 2 a 3 a 4 a 5 a n analiza Klasyfikator decyzja d Atrybuty posiadające małą wartość informacyjną

6 Wstęp atrybuty a 0 a 1 a 2 a 3 a 4 a 5 a n analiza Klasyfikator decyzja d

7 Wstęp Korzyści płynące z wiedzy o wartości informacyjnej atrybutu: pozwala lepiej zrozumieć proces podejmowania decyzji pozwala przeprowadzić selekcję atrybutów (ang. feature selection) Zalety selekcji atrybutów: nauka klasyfikatora przebiega szybciej (redukcja złożoności obliczeniowej) lepsza generalizacja problemu

8 Wprowadzenie Jak zidentyfikować atrybuty, które posiadają małą wartość informacyjną? Selekcja atrybutów Filtry Metody embedded Metody wrapper

9 Wprowadzenie Selekcja atrybutów Metody embedded Filtry Filtry to metody statystyczne (m.in. korelacja) pozwalające określić podobieństwo pomiędzy atrybutami Metody wrapper Zalety działają bez użycia klasyfikatora szybkie w działaniu Wady wykorzystują proste miary podobieństwa między atrybutami bez uwzględnienia specyfiki klasyfikatora

10 Wprowadzenie Selekcja atrybutów Metody embedded dokonują selekcji atrybutów na etapie uczenia klasyfikatora Filtry Metody embedded Metody wrapper Zalety ocena wartości informacyjnej atrybutu uwzględnia specyfikę klasyfikatora Wady metody te są ściśle związane z procesem uczenia konkretnego typu klasyfikatora (nie są uniwersalne)

11 Wprowadzenie Selekcja atrybutów Metody wrapper dokonują selekcji atrybutów wykorzystując Filtry klasyfikator oraz traktując go jak czarną skrzynkę (ang. black box) Metody embedded Metody wrapper Zalety metody z tej grupy można stosować z dowolnym typem klasyfikatora (uniwersalność) ocena wartości informacyjnej atrybutu uwzględnia specyfikę klasyfikatora dzięki pętli sprzężenia zwrotnego z udziałem próby testującej Wady zwykle metody z tej grupy są bardziej kosztowne obliczeniowo od filtrów i metod embedded

12 Metody typu wrapper Główna wada koszt obliczeniowy! Jak zmniejszyć ten koszt? stosując filtr jako pierwszy etap stosując podejścia zachłanne wyznaczające podzbiór najbardziej wartościowych atrybutów Popularne zachłanne podejścia: backward elimination forward selection

13 Backward elimination Model zawiera wszystkie atrybuty Ocena poszczególnych atrybutów w modelu (np. metodą typu wrapper) Usunięcie z modelu najgorzej ocenionego atrybutu Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2 Warunki stopu: osiągnięcie z góry założonej trafność klasyfikatora osiągnięcie z góry określonej liczby atrybutów

14 Forward selection 1 2 Model nie zawiera atrybutów Ocena poszczególnych atrybutów. Ocena odbywa się poprzez tymczasowe załączenie ocenianego atrybutu do aktualnego modelu 3 4 Dodanie do modelu najlepiej ocenionego atrybutu Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2 Warunki stopu: osiągnięcie z góry założonej trafność klasyfikatora osiągnięcie z góry określonej liczby atrybutów

15 Metody wrapper koncepcja Breimana Breiman opracował metodę analizy wartości informacyjnej dla Random Forest. Metoda ta, była później stosowana również dla innych klasyfikatorów. Działanie polega na zamianie wartości na analizowanym atrybucie poprzez permutowanie wartości tego atrybutu w przykładach testowych Wartość informacyjna jest obliczana jako stosunek błędu na zbiorze testowanym z permutowanymi wartościami na analizowanym atrybucie do błędu na zbiorze testowym z oryginalnymi wartościami. Im wyższy wskaźnik B, tym atrybut posiada większą wartość informacyjną

16 Metoda na obecność (PP) Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, a nie wnosi, gdy bez udziału atrybutu i też jest poprawna H klasa decyzyjna y (hipoteza poprawnej klasy) H klasa decyzyjna y E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y E odpowiedź klasyfikatora bez udziału atrybutu i jest: f(p i (x)) = y Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji Pr y f x = y Pr y f p i x = y

17 Metoda na niezbędność (PN) H Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, podczas gdy bez udziału i jest niepoprawna, a nie wnosi, w przeciwnym razie klasa decyzyjna y (hipoteza poprawnej klasy) H klasa decyzyjna y E E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast odpowiedź klasyfikatora bez udziału atrybutu i jest: f(p i (x)) = y odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast odpowiedź klasyfikatora bez udziału atrybutu i jest: f(p i (x)) = y, albo f(x) = y, natomiast f(p i (x)) = y lub f(p i (x)) = y, Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna bez udziału atrybutu i Pr y f x f p i x i f x = y Pr y f x = f p i x lub f x f p i x i f x = y

18 Nowe metody wyznaczania wartości informacyjnej PP : Pr y f x = y Pr y f p i x = y PN: Pr y f x f p i x i f x = y Pr y f x = f p i x lub f x f p i x i f x = y Porównanie tych prawdopodobieństw: jest pytaniem o Bayesowską konfirmację:

19 Nowe metody wyznaczania wartości informacyjnej Różnica tych prawdopodobieństw jest Bayesowską miarą konfirmacji S: Breiman badał stosunek tych prawdopodobieństw (zgodnie z metodą PP): jest równoważny

20 Nowe metody wyznaczania wartości informacyjnej (metoda na obecność PP) a to liczba przykładów z klasy y poprawnie* klasyfikowanych z udziałem atrybutu i, b to liczba przykładów z klasy y poprawnie klasyfikowanych bez udziału atrybutu i, c to liczba przykładów nie należących do klasy y i niepoprawnie klasyfikowanych do y z udziałem atrybutu i, d to liczba przykładów nie należących do klasy y i niepoprawnie klasyfikowanych do y bez udziału atrybutu i. * poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub H)

21 Nowe metody wyznaczania wartości informacyjnej (metoda na niezbędność PN) a to liczba przykładów z klasy y poprawnie klasyfikowanych z udziałem atrybutu i ale niepoprawnie klasyfikowanych bez jego udziału, b to liczba przykładów z klasy y klasyfikowanych tak samo z udziałem czy bez udziału atrybutu i, lub niepoprawnie z udziałem ale poprawnie bez udziału, c to liczba przykładów nie należących do klasy y i niepoprawnie klasyfikowanych z udziałem atrybutu i ale poprawnie klasyfikowanych bez jego udziału, d to liczba przykładów nie należących do klasy y i klasyfikowanych tak samo z udziałem czy bez udziału atrybutu i, lub poprawnie z udziałem ale niepoprawnie bez udziału. * poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub H)

22 Nowe metody wyznaczania wartości informacyjnej Metoda Breimana daje taki sam porządek atrybutów jak PP Miara c1 tak samo, ale wniosek nie jest tak oczywisty

23 Nowe metody wyznaczania wartości informacyjnej

24 Analiza uzyskanych wyników Proces CV: 100 razy Procesu baggingu: 30 razy Wykorzystywane klasyfikatory: J48, JRip, Logistic, PART, RBF z wykorzystaniem biblioteki WEKA Analizowane zbiory z UCI Machine Learning Repository breast-w diabetes heart-statlog ionosphere lymph mushroom parkinsons promoters spectf vote

25 Analiza uzyskanych wyników Zbiór l. atrybutów l. klas l. obiektów breast-w diabetes heart-statlog ionosphere lymph mushroom parkinsons promoters spectf vote

26 Analiza uzyskanych wyników - metoda PP Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe podobieństwo) (~0.43) z porządkami otrzymanymi dla klasyfikatorów regułowych. Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla klasyfikatora Logistic Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest uzależniona od analizowanego klasyfikatora

27 Analiza uzyskanych wyników - metoda PN Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe podobieństwo) z porządkami otrzymanymi dla klasyfikatorów regułowych. Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla klasyfikatora Logistic Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest uzależniona od analizowanego klasyfikatora Większy wpływ na otrzymywane wyniki ma rodzaj badanego klasyfikatora, niż w metodzie PP

28 Analiza uzyskanych wyników metodami PP oraz PN Otrzymane porządki atrybutów dla tych samych typów klasyfikatorów metodami PP oraz PN są podobne (~0.7)

29 Analiza uzyskanych wyników Parkinsons S(PN) Ujemne wartości Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną

30 Analiza uzyskanych wyników Parkinsons S(PP) Dodatnie wartości Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną

31 Analiza uzyskanych wyników Vote

32 Analiza uzyskanych wyników Mushroom

33 Analiza uzyskanych wyników MC LC MC<ORG MC<LC Połowa atrybutów posiadających największą wartość informacyjną Połowa atrybutów posiadających najmniejszą wartość informacyjną W ilu przypadkach trafność klasyfikacji pogorszyła się po usunięciu połowy atrybutów posiadających najmniejszą wartość informacyjną w stosunku do trafności klasyfikatora posiadającego wszystkie atrybuty W ilu przypadkach trafność klasyfikatora wykorzystującego tylko MC jest gorsza od trafności klasyfikatora wykorzystującego LC

34 Analiza uzyskanych wyników

35 Analiza uzyskanych wyników MC<LC w naszych analizowanych przypadkach powinno być 0/10, gdyż jest to potwierdzeniem, że atrybuty dobrze zostały podzielone ze względu na wartość informacyjną

36 Analiza uzyskanych wyników Kilka przypadków w których MC<LC

39 Podsumowanie Zaproponowane metody są typu wrapper i z powodzeniem mogą być stosowane z dowolnym rodzajem klasyfikatora, w tym z klasyfikatorem typu czarnej skrzynki Stosowanie permutacji w celu wyłączenia atrybutu z procesu klasyfikacji Wykorzystanie miar konfirmacji Bayesowskiej do szacowania wartości informacyjnej atrybutów, gdzie hipoteza jest potwierdzana przez przesłankę Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna z udziałem atrybutu i

40 Podsumowanie Poprawność działania została przetestowana z wykorzystaniem 5 różnych klasyfikatorów oraz 10 zbiorów danych z UCI Machine Learning Repository Trafność klasyfikatora z najbardziej wartościowymi atrybutami jest lepsza od trafność klasyfikatora z najmniej wartościowymi atrybutami (dla metody PN z kilkoma wyjątkami) Uzyskiwane wyniki są zależne od wykorzystywanego klasyfikatora w procesie szacowania wartości informacyjnej Otrzymane porządki atrybutów dla klasyfikatorów bazujących na regułach są podobne.

41 Dziękuję za uwagę