Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji



Podobne dokumenty
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Elementy modelowania matematycznego

Drzewa decyzyjne i lasy losowe

Metody selekcji cech

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

ALGORYTM RANDOM FOREST

Agnieszka Nowak Brzezińska Wykład III

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Sztuczna inteligencja : Algorytm KNN

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

9. Praktyczna ocena jakości klasyfikacji

Systemy uczące się Lab 4

Metody klasyfikacji danych - część 1 p.1/24

Systemy uczące się wykład 2

Metody probabilistyczne klasyfikatory bayesowskie

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Agnieszka Nowak Brzezińska

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

METODY INŻYNIERII WIEDZY

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Testowanie modeli predykcyjnych

Mail: Pokój 214, II piętro

Wprowadzenie do uczenia maszynowego

Drzewa Decyzyjne, cz.2

SZTUCZNA INTELIGENCJA

Wprowadzenie do uczenia maszynowego

Projekt Sieci neuronowe

PDF created with FinePrint pdffactory Pro trial version

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Maciej Oleksy Zenon Matuszyk

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

Testowanie hipotez statystycznych

Algorytmy klasyfikacji

POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Wnioskowanie bayesowskie

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Prawdopodobieństwo czerwonych = = 0.33

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Wprowadzenie do klasyfikacji

Zastosowania funkcji jądrowych do rozpoznawania ręcznie pisanych cyfr.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA MATEMATYCZNA

Klasyfikacja i regresja Wstęp do środowiska Weka

15. PODSUMOWANIE ZAJĘĆ

Metodologia badań psychologicznych. Wykład 12. Korelacje

Data Mining Wykład 4. Plan wykładu

dr Adam Salomon Wykład 5 (z ): Statyczne metody oceny projektów gospodarczych rachunek stóp zwrotu i prosty okres zwrotu.

Multiklasyfikatory z funkcją kompetencji

Zmienne zależne i niezależne

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Jakość uczenia i generalizacja

Ewaluacja w polityce społecznej

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

TEORETYCZNE PODSTAWY INFORMATYKI

TEMATY DYPLOMÓW 2017/18 STUDIA STACJONARNE MAGISTERSKIE II STOPNIA

Projektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Studium wykonalności

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

Projektowanie systemów informatycznych

Wprowadzenie. Data Science Uczenie się pod nadzorem

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Optymalizacja systemów

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Algorytm. a programowanie -

Regresja logistyczna (LOGISTIC)

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Analiza danych. TEMATYKA PRZEDMIOTU

Aproksymacja funkcji a regresja symboliczna

Trafność egzaminów w kontekście metody EWD

Metody systemowe i decyzyjne w informatyce

Typy algorytmów losowych. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Wprowadzenie do algorytmiki

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Meta-uczenie co to jest?

Prognozowanie zanieczyszczeń atmosferycznych przy użyciu sieci neuronowych

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Automatyczne wyodrębnianie reguł

Kognitywne hierarchiczne aktywne podziały. Arkadiusz Tomczyk.

Pattern Classification

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Transkrypt:

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r.

Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody wyznaczania wartości informacyjnej Analiza uzyskanych wyników Podsumowanie

Wstęp opis problemu Problem decyzyjny Decyzja (d) Opisanie problemu Analiza problemu Atrybuty a 0 a 1 a 2 a 3 a 4 a 5 a n

Wstęp atrybuty a 0 a 1 a 2 a 3 a 4 a 5 a n analiza Klasyfikator decyzja d

Wstęp atrybuty a 0 a 1 a 2 a 3 a 4 a 5 a n analiza Klasyfikator decyzja d Atrybuty posiadające małą wartość informacyjną

Wstęp atrybuty a 0 a 1 a 2 a 3 a 4 a 5 a n analiza Klasyfikator decyzja d

Wstęp Korzyści płynące z wiedzy o wartości informacyjnej atrybutu: pozwala lepiej zrozumieć proces podejmowania decyzji pozwala przeprowadzić selekcję atrybutów (ang. feature selection) Zalety selekcji atrybutów: nauka klasyfikatora przebiega szybciej (redukcja złożoności obliczeniowej) lepsza generalizacja problemu

Wprowadzenie Jak zidentyfikować atrybuty, które posiadają małą wartość informacyjną? Selekcja atrybutów Filtry Metody embedded Metody wrapper

Wprowadzenie Selekcja atrybutów Metody embedded Filtry Filtry to metody statystyczne (m.in. korelacja) pozwalające określić podobieństwo pomiędzy atrybutami Metody wrapper Zalety działają bez użycia klasyfikatora szybkie w działaniu Wady wykorzystują proste miary podobieństwa między atrybutami bez uwzględnienia specyfiki klasyfikatora

Wprowadzenie Selekcja atrybutów Metody embedded dokonują selekcji atrybutów na etapie uczenia klasyfikatora Filtry Metody embedded Metody wrapper Zalety ocena wartości informacyjnej atrybutu uwzględnia specyfikę klasyfikatora Wady metody te są ściśle związane z procesem uczenia konkretnego typu klasyfikatora (nie są uniwersalne)

Wprowadzenie Selekcja atrybutów Metody wrapper dokonują selekcji atrybutów wykorzystując Filtry klasyfikator oraz traktując go jak czarną skrzynkę (ang. black box) Metody embedded Metody wrapper Zalety metody z tej grupy można stosować z dowolnym typem klasyfikatora (uniwersalność) ocena wartości informacyjnej atrybutu uwzględnia specyfikę klasyfikatora dzięki pętli sprzężenia zwrotnego z udziałem próby testującej Wady zwykle metody z tej grupy są bardziej kosztowne obliczeniowo od filtrów i metod embedded

Metody typu wrapper Główna wada koszt obliczeniowy! Jak zmniejszyć ten koszt? stosując filtr jako pierwszy etap stosując podejścia zachłanne wyznaczające podzbiór najbardziej wartościowych atrybutów Popularne zachłanne podejścia: backward elimination forward selection

Backward elimination 1 2 3 4 Model zawiera wszystkie atrybuty Ocena poszczególnych atrybutów w modelu (np. metodą typu wrapper) Usunięcie z modelu najgorzej ocenionego atrybutu Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2 Warunki stopu: osiągnięcie z góry założonej trafność klasyfikatora osiągnięcie z góry określonej liczby atrybutów

Forward selection 1 2 Model nie zawiera atrybutów Ocena poszczególnych atrybutów. Ocena odbywa się poprzez tymczasowe załączenie ocenianego atrybutu do aktualnego modelu 3 4 Dodanie do modelu najlepiej ocenionego atrybutu Jeśli nie osiągnięto warunku stopu, to przejdź do kroku 2 Warunki stopu: osiągnięcie z góry założonej trafność klasyfikatora osiągnięcie z góry określonej liczby atrybutów

Metody wrapper koncepcja Breimana Breiman opracował metodę analizy wartości informacyjnej dla Random Forest. Metoda ta, była później stosowana również dla innych klasyfikatorów. Działanie polega na zamianie wartości na analizowanym atrybucie poprzez permutowanie wartości tego atrybutu w przykładach testowych Wartość informacyjna jest obliczana jako stosunek błędu na zbiorze testowanym z permutowanymi wartościami na analizowanym atrybucie do błędu na zbiorze testowym z oryginalnymi wartościami. Im wyższy wskaźnik B, tym atrybut posiada większą wartość informacyjną

Metoda na obecność (PP) Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, a nie wnosi, gdy bez udziału atrybutu i też jest poprawna H klasa decyzyjna y (hipoteza poprawnej klasy) H klasa decyzyjna y E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y E odpowiedź klasyfikatora bez udziału atrybutu i jest: f(p i (x)) = y Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji Pr y f x = y Pr y f p i x = y

Metoda na niezbędność (PN) H Atrybut i wnosi pozytywną wiedzę, jeśli klasyfikacja z udziałem atrybutu i jest poprawna, podczas gdy bez udziału i jest niepoprawna, a nie wnosi, w przeciwnym razie klasa decyzyjna y (hipoteza poprawnej klasy) H klasa decyzyjna y E E odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast odpowiedź klasyfikatora bez udziału atrybutu i jest: f(p i (x)) = y odpowiedź klasyfikatora z udziałem atrybutu i jest: f(x) = y, natomiast odpowiedź klasyfikatora bez udziału atrybutu i jest: f(p i (x)) = y, albo f(x) = y, natomiast f(p i (x)) = y lub f(p i (x)) = y, Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna bez udziału atrybutu i Pr y f x f p i x i f x = y Pr y f x = f p i x lub f x f p i x i f x = y

Nowe metody wyznaczania wartości informacyjnej PP : Pr y f x = y Pr y f p i x = y PN: Pr y f x f p i x i f x = y Pr y f x = f p i x lub f x f p i x i f x = y Porównanie tych prawdopodobieństw: jest pytaniem o Bayesowską konfirmację:

Nowe metody wyznaczania wartości informacyjnej Różnica tych prawdopodobieństw jest Bayesowską miarą konfirmacji S: Breiman badał stosunek tych prawdopodobieństw (zgodnie z metodą PP): jest równoważny

Nowe metody wyznaczania wartości informacyjnej (metoda na obecność PP) a to liczba przykładów z klasy y poprawnie* klasyfikowanych z udziałem atrybutu i, b to liczba przykładów z klasy y poprawnie klasyfikowanych bez udziału atrybutu i, c to liczba przykładów nie należących do klasy y i niepoprawnie klasyfikowanych do y z udziałem atrybutu i, d to liczba przykładów nie należących do klasy y i niepoprawnie klasyfikowanych do y bez udziału atrybutu i. * poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub H)

Nowe metody wyznaczania wartości informacyjnej (metoda na niezbędność PN) a to liczba przykładów z klasy y poprawnie klasyfikowanych z udziałem atrybutu i ale niepoprawnie klasyfikowanych bez jego udziału, b to liczba przykładów z klasy y klasyfikowanych tak samo z udziałem czy bez udziału atrybutu i, lub niepoprawnie z udziałem ale poprawnie bez udziału, c to liczba przykładów nie należących do klasy y i niepoprawnie klasyfikowanych z udziałem atrybutu i ale poprawnie klasyfikowanych bez jego udziału, d to liczba przykładów nie należących do klasy y i klasyfikowanych tak samo z udziałem czy bez udziału atrybutu i, lub poprawnie z udziałem ale niepoprawnie bez udziału. * poprawna klasyfikacja to taka, która jest zgodna z przyjętą hipotezą (H lub H)

Nowe metody wyznaczania wartości informacyjnej Metoda Breimana daje taki sam porządek atrybutów jak PP Miara c1 tak samo, ale wniosek nie jest tak oczywisty

Nowe metody wyznaczania wartości informacyjnej

Analiza uzyskanych wyników Proces CV: 100 razy Procesu baggingu: 30 razy Wykorzystywane klasyfikatory: J48, JRip, Logistic, PART, RBF z wykorzystaniem biblioteki WEKA Analizowane zbiory z UCI Machine Learning Repository breast-w diabetes heart-statlog ionosphere lymph mushroom parkinsons promoters spectf vote

Analiza uzyskanych wyników Zbiór l. atrybutów l. klas l. obiektów breast-w 10 2 699 diabetes 8 2 768 heart-statlog 13 2 270 ionosphere 34 2 351 lymph 19 4 148 mushroom 22 2 8124 parkinsons 23 2 197 promoters 59 2 106 spectf 44 2 267 vote 16 2 435

Analiza uzyskanych wyników - metoda PP Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe podobieństwo) (~0.43) z porządkami otrzymanymi dla klasyfikatorów regułowych. Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla klasyfikatora Logistic Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest uzależniona od analizowanego klasyfikatora

Analiza uzyskanych wyników - metoda PN Porządki utworzone dla Logistic oraz RBF są słabo skorelowane (słabe podobieństwo) z porządkami otrzymanymi dla klasyfikatorów regułowych. Porządek dla RBF jest słabo skorelowany z porządkiem utworzonym dla klasyfikatora Logistic Otrzymywana wartość informacyjna dla atrybutów (czy też porządek) jest uzależniona od analizowanego klasyfikatora Większy wpływ na otrzymywane wyniki ma rodzaj badanego klasyfikatora, niż w metodzie PP

Analiza uzyskanych wyników metodami PP oraz PN Otrzymane porządki atrybutów dla tych samych typów klasyfikatorów metodami PP oraz PN są podobne (~0.7)

Analiza uzyskanych wyników Parkinsons S(PN) Ujemne wartości Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną

Analiza uzyskanych wyników Parkinsons S(PP) Dodatnie wartości Atrybuty PPE oraz spread1 posiadają największą wartość informacyjną

Analiza uzyskanych wyników Vote

Analiza uzyskanych wyników Mushroom

Analiza uzyskanych wyników MC LC MC<ORG MC<LC Połowa atrybutów posiadających największą wartość informacyjną Połowa atrybutów posiadających najmniejszą wartość informacyjną W ilu przypadkach trafność klasyfikacji pogorszyła się po usunięciu połowy atrybutów posiadających najmniejszą wartość informacyjną w stosunku do trafności klasyfikatora posiadającego wszystkie atrybuty W ilu przypadkach trafność klasyfikatora wykorzystującego tylko MC jest gorsza od trafności klasyfikatora wykorzystującego LC

Analiza uzyskanych wyników

Analiza uzyskanych wyników MC<LC w naszych analizowanych przypadkach powinno być 0/10, gdyż jest to potwierdzeniem, że atrybuty dobrze zostały podzielone ze względu na wartość informacyjną

Analiza uzyskanych wyników Kilka przypadków w których MC<LC

Analiza uzyskanych wyników

Analiza uzyskanych wyników

Podsumowanie Zaproponowane metody są typu wrapper i z powodzeniem mogą być stosowane z dowolnym rodzajem klasyfikatora, w tym z klasyfikatorem typu czarnej skrzynki Stosowanie permutacji w celu wyłączenia atrybutu z procesu klasyfikacji Wykorzystanie miar konfirmacji Bayesowskiej do szacowania wartości informacyjnej atrybutów, gdzie hipoteza jest potwierdzana przez przesłankę Metoda PP bada czy klasyfikacja jest poprawna częściej, gdy atrybut i bierze udział w klasyfikacji, niż gdy atrybut i nie bierze udziału w klasyfikacji Metoda PN bada czy klasyfikacja jest poprawna częściej, gdy odpowiedź klasyfikatora z udziałem atrybutu i jest poprawna a bez udziału błędna, niż gdy odpowiedź klasyfikatora jest taka sama niezależnie od udziału atrybutu i, lub niepoprawna z udziałem a poprawna z udziałem atrybutu i

Podsumowanie Poprawność działania została przetestowana z wykorzystaniem 5 różnych klasyfikatorów oraz 10 zbiorów danych z UCI Machine Learning Repository Trafność klasyfikatora z najbardziej wartościowymi atrybutami jest lepsza od trafność klasyfikatora z najmniej wartościowymi atrybutami (dla metody PN z kilkoma wyjątkami) Uzyskiwane wyniki są zależne od wykorzystywanego klasyfikatora w procesie szacowania wartości informacyjnej Otrzymane porządki atrybutów dla klasyfikatorów bazujących na regułach są podobne.

Dziękuję za uwagę