Regresyjne metody łączenia klasyfikatorów

Podobne dokumenty
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. Data Science Uczenie się pod nadzorem

Jądrowe klasyfikatory liniowe

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Agnieszka Nowak Brzezińska Wykład III

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska

Wnioskowanie bayesowskie

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Analiza składowych głównych. Wprowadzenie

Podstawowe modele probabilistyczne

Stosowana Analiza Regresji

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Metody systemowe i decyzyjne w informatyce

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Metoda największej wiarygodności

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Analiza składowych głównych

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

2. Empiryczna wersja klasyfikatora bayesowskiego

ALGORYTM RANDOM FOREST

Elementy statystyki wielowymiarowej

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

5. Analiza dyskryminacyjna: FLD, LDA, QDA

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Analiza danych. TEMATYKA PRZEDMIOTU

Rozpoznawanie obrazów

Testowanie hipotez statystycznych.

Regresja nieparametryczna series estimator

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Mail: Pokój 214, II piętro

Statystyka i Analiza Danych

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Elementy modelowania matematycznego

Zmienne zależne i niezależne

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Optymalizacja ciągła

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Prawdopodobieństwo i statystyka r.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Multiklasyfikatory z funkcją kompetencji

1.1 Wstęp Literatura... 1

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych

Wykład 10 Skalowanie wielowymiarowe

WYKŁAD 2. Problem regresji - modele liniowe

Estymacja w regresji nieparametrycznej

SPOTKANIE 3: Regresja: Regresja liniowa

Indukowane Reguły Decyzyjne I. Wykład 8

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

1 Klasyfikator bayesowski

Prawdopodobieństwo czerwonych = = 0.33

PDF created with FinePrint pdffactory Pro trial version

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Zagadnienie klasyfikacji (dyskryminacji)

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Metody systemowe i decyzyjne w informatyce

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

7. Maszyny wektorów podpierajacych SVMs

Własności statystyczne regresji liniowej. Wykład 4

Testowanie hipotez statystycznych

Analiza regresji - weryfikacja założeń

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metody probabilistyczne klasyfikatory bayesowskie

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Stosowana Analiza Regresji

Estymacja parametrów rozkładu cechy

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Klasyfikacja metodą Bayesa

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

METODY INŻYNIERII WIEDZY

Komputerowa analiza danych doświadczalnych

Metoda najmniejszych kwadratów

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Transkrypt:

Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009 T. Górecki, M. Krzyśko (UAM) 8.12.2009 1 / 21

Wprowadzenie (1) Załóżmy, że dysponujemy c różnymi klasyfikatorami ˆd 1, ˆd 2,..., ˆd c skonstruowanymi z próby uczącej L n = {(x 1, y 1 ),..., (x n, y n )}, gdzie x i jest wartością wektora X = (X 1,..., X p ) obserwowanych p cech obiektu, a y i {1, 2,..., K} etykietą skalarną jednej z ustalonych K klas klasyfikowanych obiektów. Ponieważ każdy z nich może być oparty na innej koncepcji, to może się zdarzyć, że żaden z nich nie jest jednoznacznie lepszy od pozostałych oraz, że poszczególne klasyfikatory mogą błędnie klasyfikować inne obserwacje. T. Górecki, M. Krzyśko (UAM) 8.12.2009 2 / 21

Wprowadzenie (2) LeBlanc i Tibshirani (1996) zaproponowali, by ostateczną decyzję klasyfikacyjną podejmować za pomocą metaklasyfikatora (klasyfikatora łączonego), wykorzystującego informację płynącą ze wszystkich c klasyfikatorów. Klasyfikator łączony otrzymany tą metodą jest kombinacją liniową ocen prawdopodobieństw a posteriori K klas uzyskanych przez c różnych klasyfikatorów. Współczynniki tej kombinacji liniowej znajdowane są metodą najmniejszych kwadratów w modelu liniowej regresji wielokrotnej. Metoda ta została nazwana regresją stosową. T. Górecki, M. Krzyśko (UAM) 8.12.2009 3 / 21

Wprowadzenie (3) W prezentowanym referacie proponujemy w charakterze metaklasyfikatorów wykorzystać, obok regresji stosowej, następujące modele regresyjne: regresję grzbietową, regresję składowych głównych, regresją logistyczną, regresję nieparametryczną. T. Górecki, M. Krzyśko (UAM) 8.12.2009 4 / 21

Klasyfikacja jako regresja (1) Załóżmy, że każdej wartości x wektora obserwowanych cech X, obok etykiety skalarnej y {1, 2,..., K}, przypisana jest etykieta wektorowa Y = (Y 1, Y 2,..., Y K ), gdzie Y k = 1, jeżeli obserwacja x pochodzi z klasy k, k = 1, 2,..., K. Niech rozkład prawdopodobieństwa pary losowej (X, Y ) opisuje para (µ, r), gdzie µ jest miarą probabilistyczną wektora losowego X, a r jest funkcją regresji Y względem X. Dokładniej, dla dowolnego zbioru borelowskiego B R p, µ(b) = P(X B) oraz dla każdego x R p r(x) = (r 1 (x),..., r K (x)) = E(Y X = x) = = (E(Y 1 X = x),..., E(Y K X = x)). T. Górecki, M. Krzyśko (UAM) 8.12.2009 5 / 21

Klasyfikacja jako regresja (2) Ponieważ Y k przyjmuje tylko dwie wartości 1 lub 0, to r k (x) = E(Y k X = x) = P(Y k = 1 X = x), k = 1, 2,..., K. Jest to zatem prawdopodobieństwo a posteriori przynależności obserwacji x do klasy o etykiecie k, gdzie k = 1, 2,..., K. Uzyskaliśmy zatem klasyfikator postaci ˆd(x) = arg max 1 k K ˆr k(x), gdzie ˆr k (x) jest oceną z próby uczącej L n = {(x 1, y 1 ),..., (x n, y n )} funkcji regresji r k (x), k = 1, 2,..., K. Funkcje regresji E(Y k X = x) możemy estymować na wiele sposobów. T. Górecki, M. Krzyśko (UAM) 8.12.2009 6 / 21

Regresja stosowa (1) Dysponujemy c różnymi klasyfikatorami oraz K klasami. Mamy zatem ck ocen prawdopodobieństw a posteriori odpowiadających obserwacji x i, i = 1, 2,..., n. Oceny te zapisujemy w postaci wektorów wierszowych ˆp (x i ) = (ˆp 1 (1 x i ),..., ˆp 1 (K x i ),..., ˆp c (1 x i ),..., ˆp c (K x i )) i układamy w stos jako wiersze macierzy ˆp (x 1 ) P = rozmiaru n ck.. ˆp (x n ) T. Górecki, M. Krzyśko (UAM) 8.12.2009 7 / 21

Regresja stosowa (2) Wielowymiarowy model regresji liniowej ma postać Y = PB + E, gdzie Y = Y 11 Y 12... Y 1K Y 21 Y 22... Y 2K.... Y n1 Y n2... Y nk jest macierzą rozmiaru n K wartości etykiety wektorowej Y = (Y 1, Y 2,..., Y K ) przypisanej obserwacjom x 1, x 2,..., x n, B jest macierzą rozmiaru ck K współczynników regresji, natomiast E jest macierzą rozmiaru n ck błędów losowych. T. Górecki, M. Krzyśko (UAM) 8.12.2009 8 / 21

Regresja stosowa (3) Ponieważ kolumny macierzy P podlegają c ograniczeniom liniowym, to P nie jest pełnego rzędu kolumnowego i P P jest macierzą osobliwą. Stąd za estymator macierzy B, uzyskany metodą najmniejszych kwadratów, przyjmujemy ˆB = (P P) + P Y, gdzie (P P) + jest uogólnioną odwrotnością Moore a Penrose a macierzy P P. Niech Wówczas û(x) = (û 1 (x), û 2 (x),..., û K (x)) = ˆp (x) ˆB. ˆd stos (x) = arg max 1 k K ûk(x). T. Górecki, M. Krzyśko (UAM) 8.12.2009 9 / 21

Regresja grzbietowa Ponieważ problemy w metodzie regresji stosowej pojawiają się w związku z niemożnością odwrócenia macierzy P P, to do jej przekątnej można dodać pewną stałą λ 0. Dla takiego zagadnienia otrzymuje się następujące rozwiązanie: ˆB = (P P + λi ) 1 P Y, które nazywane jest regresją grzbietową. Optymalna wartość parametru λ wybierana jest za pomocą metody sprawdzania krzyżowego. T. Górecki, M. Krzyśko (UAM) 8.12.2009 10 / 21

Regresja PCR Próbą uniknięcia problemu zależności zmiennych objaśniających (a co za tym idzie problemów z odwracaniem macierzy) jest regresja składowych głównych (regresja PCR). Zamiast oryginalnych zmiennych objaśniających (prawdopodobieństw) używamy składowych głównych, które są nieskorelowane. W praktyce używamy jedynie kilku pierwszych składowych, które w zadowalający sposób odzwierciedlają zmienność oryginalnych danych. T. Górecki, M. Krzyśko (UAM) 8.12.2009 11 / 21

Regresja logistyczna Funkcję regresji p k = r k (x) = E(Y k X = x) = P(Y k = 1 X = x) modelujemy za pomocą funkcji logistycznej gdzie oraz β k = exp(β 0k + β k p k = ˆp(x)) 1 + K 1 k=1 exp(β 0k + β k ˆp(x)), 1 p K = 1 + K 1 k=1 exp(β 0k + β k ˆp(x)) ( β (1) 1k,..., β(1) Kk,..., β(c) 1k,..., β(c) Kk ), k = 1, 2,... K 1 p 1 + p 2 +... + p K = 1. Parametry β 0k i β k estymujemy metodą największej wiarogodności. T. Górecki, M. Krzyśko (UAM) 8.12.2009 12 / 21

Regresja nieparametryczna Nieparametryczny estymator Nadarayi Watsona funkcji regresji r k (x) ma postać: ( ) n ˆp(x i=1 K ) ˆp(x i ) h I (y i = k) ˆr k (x) = ( ), k = 1, 2,... K, n ˆp(x i=1 K ) ˆp(x i ) h gdzie K( ) jest funkcją jądrową zależną od parametru gładkości h. Optymalną wartość parametru gładkości h dobieramy metodą sprawdzania krzyżowego. T. Górecki, M. Krzyśko (UAM) 8.12.2009 13 / 21

Metoda najbliższego sąsiada Jedna z najpopularniejszych metod klasyfikacji. Idea jej działania jest prosta i intuicyjna. Nowy obiekt otrzymuje etykietę klasy obiektu, który jest najbliżej (w uogólnieniu tej metody, czyli metodzie k najbliższych sąsiadów, etykietę klasy, która występuje najczęściej pośród jego k sąsiadów). W tym miejscu należy podkreślić, że do oceny odległości może zostać wykorzystana bardzo szeroka klasa funkcji. Jest to metoda nieparametryczna, nie wymaga zatem żadnych założeń co do rozkładów danych w klasach. T. Górecki, M. Krzyśko (UAM) 8.12.2009 14 / 21

Naiwna metoda bayesowska Jest to prosty klasyfikator probabilistyczny oparty na założeniu, że cechy opisujące obiekty są wzajemnie niezależne. Założenie to nie ma raczej nic wspólnego z rzeczywistością i właśnie z tego powodu metoda nazywana jest naiwną. Pomimo tego klasyfikator ten często działa lepiej niż można się po nim było spodziewać (zwłaszcza jeśli jest dużo cech). W praktyce estymuje się gęstość każdej cechy w każdej klasie, a następnie bada iloczyn takich gęstości dla każdej klasy. Obserwacja klasyfikowana jest do klasy, dla której ten iloczyn jest największy. Najczęściej zakłada się, że cechy mają rozkłady normalne. T. Górecki, M. Krzyśko (UAM) 8.12.2009 15 / 21

Binarne drzewa klasyfikacyjne Jest to klasyfikator oparty na sekwencyjnym dzieleniu podzbiorów przestrzeni próby. W każdym kroku podział dokonywany jest tak, aby uzyskane części były jak najbardziej jednorodne. Cały proces przedstawiany jest za pomocą drzewa binarnego (stąd nazwa). Drzewo składa się z korzenia oraz gałęzi prowadzących z korzenia do kolejnych węzłów. W każdym węźle sprawdzany jest pewien warunek dotyczący danej obserwacji, i na jego podstawie wybierana jest jedna z gałęzi prowadząca do kolejnego węzła poniżej. Na dole znajdują się liście, z których odczytujemy do której z klas należy przypisać daną obserwację. T. Górecki, M. Krzyśko (UAM) 8.12.2009 16 / 21

Zbiory danych Liczba przypadków Liczba cech C D Liczba klas Balance 625 4 0 3 Breast-W 699 0 9 2 Car 1728 0 6 4 Diabets 768 8 0 2 Echo 132 5 1 2 German 1000 7 13 2 Glass 214 9 0 6 Heart-C 303 6 7 5 Heart-H 294 6 7 5 Heart 270 7 6 2 Hepatisis 155 6 13 2 Ionosphere 351 34 0 2 Iris 150 4 0 3 Sonar 208 60 0 2 Wine 178 13 0 3 T. Górecki, M. Krzyśko (UAM) 8.12.2009 17 / 21

Optymalne wartości parametrów k h λ Balance 10 0.6 0.09 Breast-W 5 0.6 0.01 Car 7 0.4 0.01 Diabets 20 0.6 0.01 Echo 9 1.2 0.01 German 14 0.8 0.01 Glass 1 0.2 0.02 Heart-C 35 0.4 0.21 Heart-H 17 0.6 0.01 Heart 24 0.8 0.01 Hepatisis 9 0.4 0.01 Ionosphere 2 0.8 0.01 Iris 10 0.4 0.01 Sonar 2 0.6 0.01 Wine 1 0.4 0.09 T. Górecki, M. Krzyśko (UAM) 8.12.2009 18 / 21

Porównanie regresji (% błędnej klasyfikacji) R R Grzb. R PCR R Logist. R NParam. Balance 22.26 22.26 22.66 22.26 14.93 Breast-W 4.95 4.95 4.95 4.93 3.97 Car 5.21 5.21 5.46 5.39 5.43 Diabets 34.90 34.90 34.90 34.90 33.22 Echo 37.61 37.61 37.61 37.61 34.99 German 32.66 32.66 32.66 32.66 31.94 Glass 36.29 36.24 36.48 38.15 37.14 Heart-C 53.28 51.83 51.08 53.82 41.54 Heart-H 53.96 54.00 47.32 54.00 35.59 Heart 36.63 36.63 36.63 36.63 28.59 Hepatisis 19.78 19.78 19.78 19.78 18.47 Ionosphere 12.94 12.94 12.94 12.91 12.19 Iris 7.67 7.67 7.73 9.27 6.13 Sonar 30.60 30.60 30.60 29.55 25.35 Wine 4.94 4.82 4.88 6.46 3.65 Średnia 19.78 19.72 19.64 20.47 16.80 T. Górecki, M. Krzyśko (UAM) 8.12.2009 19 / 21

Podsumowanie Jak widać najlepiej wypada metoda oparta o regresję nieparametryczną, która okazuje się najskuteczniejsza dla wszystkich zbiorów z wyjątkiem dwóch. Na tych dwóch zbiorach ustępuje jednak innym metodom minimalnie. Najgorsza wydaje się metoda oparta o regresję logistyczną. Natomiast klasyczna regresja stosowa oraz jej wersja grzbietowa oraz regresja składowych głównych wypadają bardzo podobnie. T. Górecki, M. Krzyśko (UAM) 8.12.2009 20 / 21

Krzyśko M., Wołyński W., Górecki T., Skorzybut M. (2008). Systemy uczące się. WNT. LeBlanc M., Tibshirani R. (1996), Combining Estimates in Regression and Classification. JASA 91:641 1650. Merz C.J., Murphy P.M. (1998). UCI repository of machine learning databases. Machine readable data repository http://www.ics.uci.edu/ mlearn/mlrepository.html. Irvine, CA: University of California, Department of Information and Computer Science. T. Górecki, M. Krzyśko (UAM) 8.12.2009 21 / 21