Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl
Metody Bayesa
Niepewnośd wiedzy Wiedza uzyskana od ekspertów jest często niepewna niekompletna niespójna niedoskonała
Niepewnośd wiedzy Eksperci są w stanie podejmowad decyzje w oparciu o swoją często niedoskonałą wiedzę. Systemy ekspertowe również muszą byd w stanie radzid sobie z wiedzą tego typu.
Czym jest niepewnośd? Niepewnośd można zdefiniowad jako brak dokładnej wiedzy, tzn. takiej, która umożliwia podejmowanie w pełni uzasadnionych decyzji i w pełni wiarygodnych wniosków.
Źródła niepewności Nieprecyzyjnośd języka naturalnego Trudności ze sformułowaniem zależności w postaci reguł Łączenie wiedzy kilku ekspertów Niekompletnośd danych, na których system ma operowad Specyfika problemu Przyjęta forma reprezentacji (atrybuty) Rozkład danych z klas
Nieprecyzyjnośd języka naturalnego Always 99 Very often 88 Usually 85 Sometimes 20 Usualluy not 10 Never 0 (Ray Simpson 1944) Always 100 Very often 87 Usually 79 Sometimes 29 Usualluy not 16 Never 0 (Milton Hakel 1968)
Teoria prawdopodobieostwa Prawdopodobieostwo zdarzenia A to proporcja przypadków, kiedy dane zdarzenie zachodzi. p(a) = 0 całkowita niemożliwośd p(a) = 1 całkowita pewnośd Jeśli wynikiem może byd sukces lub porażka: p(sukces) = liczba_sukcesów / liczba_prób p(porażka) = liczba_porażek / liczba_prób
Prawdopodobieostwo warunkowe Załóżmy, że zdarzenia A i B nie są wzajemnie wykluczające się. Prawdopodobieostwo zdarzenia A może zależed od tego, czy miało miejsce zdarzenie B. p(a B) = liczba_wystąpieo_a_oraz_b / liczba_wystąpieo_b
Prawdopodobieostwo warunkowe Prawdopodobieostwo tego, że wystąpi A i B nazywamy prawdopodobieostwem łącznym tych zdarzeo. Zatem prawdopodobieostwo warunkowe definiujemy jako:
Prawdopodobieostwo warunkowe Analogicznie prawdopodobieostwo B pod warunkiem A: Prawdopodobieostwo łączne jest przemienne:
Twierdzenie Bayesa Analogicznie prawdopodobieostwo B pod warunkiem A: Wzór Bayesa p(a) prawdopodobieostwo zdarzenia A p(b) prawdopodobieostwo zdarzenia B p(a B) prawdopodobieostwo zdarzenia A pod warunkiem, że zaszło zdarzenie B p(b A) prawdopodobieostwo zdarzenia B pod warunkiem, że zaszło zdarzenie A
Prawdopodobieostwo warunkowe W przypadku, gdy A zależy od zdarzeo B1, B2,...,Bn wzajemnie się wykluczających: wtedy
Prawdopodobieostwo całkowite Jeśli Bi i=1...n wyczerpują wszystkie możliwe zdarzenia: B1 A B4 B2 S zbiór wszystkich możliwych zdarzeń; wtedy prawdopodobieństwo całkowite p(a): B3
Prawdopodobieostwo całkowite Jeśli A zależy jedynie od dwóch wykluczających się zdarzeo, np. B oraz NOT B:
Reguła Bayesa Analogicznie dla B: Korzystając z reguły Bayesa otrzymamy:
Reguła Bayesa
Systemy ekspertowe i wiedza niepewna Załóżmy, że mamy regułę w postaci: IF E is TRUE THEN H is TRUE {z prawd. p} Reguła ta mówi, że jeśli wystąpi E to H wystąpi z prawdopodobieośtwem p.
Systemy ekspertowe IF E is TRUE THEN H is TRUE {p} Wiemy, że E wystąpiło. i wiedza niepewna Jak policzyd prawdopodobieostwo, że wystąpiło H? Odpowiedź:
Systemy ekspertowe i wiedza niepewna p(h) prawdopodobieostwo a priori wystąpienia H p(e H) prawdopodobieostwo, że jeśli wystąpi H, to wystąpiło też E p(~h) prawdopodobieostwo a priori nie wystąpienia H p(e ~H) prawdopodobieostwo, że jeśli nie wystąpi H, to mimo wszystko wystąpiło E p(h E) prawdopodobieostwo a posteriori wystąpienia H, jeśli wystąpiło E
Systemy ekspertowe i wiedza niepewna Prawdopodobieostwa p(h), p(e H), p(~h) oraz p(e ~H) są określane przez eksperta bądź też szacowane statystycznie.
Systemy ekspertowe i wiedza niepewna Co w przypadku wystąpienia wielu hipotez? (Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).
Systemy ekspertowe i wiedza niepewna Co w przypadku wystąpienia wielu przesłanek Ei? (Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).
Systemy ekspertowe i wiedza niepewna Co w przypadku wystąpienia wielu przesłanek Ei? (Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące). Powyższy wzór wymaga od nas pliczenia wszystkich prawdopodobieństw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi.
Systemy ekspertowe i wiedza niepewna Powyższy wzór wymaga od nas pliczenia wszystkich prawdopodobieostw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi. W praktyce jest to często niemożliwe. W przypadku szacowania na podstawie danych pojawiają się watpliwości o jakość uzyskanych szacowań, jeśli np. przykładowych danych pokrywających dany przypadek jest mało.
Systemy ekspertowe i wiedza niepewna Często zakłada się zatem, że E1, E2,..., En są wzajemnie niezależne. Dwa zdarzenia A oraz B są określane jako niezależne wtedy i tylko wtedy, gdy:
Systemy ekspertowe i wiedza niepewna Zamiast: otrzymujemy zatem: Założenie takie nie jest zawsze uzasadnione i może przyczynić się do błędnego działania systemu.
Przykład Warunki E1, E2 oraz E3 są wzajemnie warunkowo niezależne. Trzy hipotezy H1, H2 oraz H3 są wzajemnie wykluczające się oraz wyczerpujące. Ekspert dostarcza prawdopodobieostw a priori p(h1), p(h2), p(h3) oraz prawdopodobieostwa warunkowe p(ei Hj) Hipoteza Prawdopodobieostwo i=1 i=2 i=3 p(hi) 0.4 0.35 0.25 p(e1 Hi) 0.3 0.8 0.5 p(e2 Hi) 0.9 0.0 0.7 p(e3 Hi) 0.6 0.7 0.9
Przykład Zakładamy, że jako pierwszy zaobserwowane jest E3 :
Przykład Następnie zaobserwowano E1 : Powinno byd: Ale E1, E2, E3 są warunkowo niezależne, zatem:
Przykład Następnie zaobserwowano E2 : Ostatecznie zatem najbardziej prawdopodobna jest hipoteza H3.
Zalety reguły Bayesa Dobrze rozwinięta teoria matematyczna. Decyzje oparte na metodzie Bayesa są optymalne (pod warunkiem, że znamy odpowiednie rozkłady prawdopodobieostw). Wszystkie inne metody podejmowania decyzji mogą byd co najwyżej zbieżne do metody Bayesa.
Wady reguły Bayesa Czasami trzeba czynid nieuprawnione założenia upraszczające problem (np. założenie o niezależności bądź warunkowej niezależności między zmiennymi). Badania psychologiczne dowodzą, iż ludziom cieżko jest szacowad prawdopodobieostwa często prawd. a priori są niespójne z prawd. warunkowymi.
Wady reguły Bayesa Samochód nie chce zapalid. Jaka jest przyczyna? IF oznaką są dziwne odgłosy THEN rozrusznik jest zepsuty {p=0.7}
Wady reguły Bayesa p(rozrusznik nie jest zly są dziwne odgłosy) = p(rozrusznik jest dobry są dziwne odgłosy) = 1 0.7 = 0.3 IF oznaką są dziwne odgłosy THEN rozrusznik jest dobry {p=0.3} Jest to reguła w pewnym sensie ukryta, której istnienie może wprowadzad niejasności.
Wady reguły Bayesa Spójrzmy od innej strony na sytuację: IF rozrusznik jest zepsuty THEN są dziwne odgłosy {p=0.85} IF rozrusznik jest zepsuty THEN nie ma dziwnych odgłosów {p=0.15} Aby użyd reguły Bayesa potrzebujemy jeszcze prawd. a priori, że rozrusznik jest zły jeśli samochód nie chce zapalid. Załóżmy, że ekspert szacuje je na 5%.
Wady reguły Bayesa Z reguły Bayesa otrzymamy: Jest to wartość dużo mniejsza niż wcześniej oszacowane przez eksperta prawd. = 0.7.
Wady reguły Bayesa Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych. p(h) = p(rozrusznik jest zepsuty) p(h E) = p(rozrusznik jest zepsuty są dziwne odgłosy) p(e H) = p(są dziwne odgłosy rozrusznik jest zepsuty) p(e ~H) = p(są dziwne odgłosy rozrusznik jest dobry)
Wady reguły Bayesa Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych. Jest to dużo większa wartość niż 0.05 podana wcześniej przez eksperta.
Optymalność reguły Bayesa
Klasyfikator bayesowski Naturalnym sposobem konstrukcji klasyfikatora jest oparcie się na rozkładach prawdopodobieostwa obserwacji w klasach. Załóżmy, że rozkład obserwacji x z klasy k, k=1,..,g, jest dany dyskretnym rozkładem prawdopodobieostwa lub gęstością prawdopodobieostwa p(x k) Prawdopodobieostwo a priori, że obserwacja pochodzi z klasy k wynosi π k, k = 1,,g (np. oszacowane na podstawie procentu ludzi cierpiących na daną chorobę i nie cierpiących na nią)
Klasyfikator bayesowski Na podstawie twierdzenia Bayesa, prawdopodobieostwo a posteriori, że obserwacja x pochodzi z klasy k, wynosi p( k x) g k p( x k) r1 r p( x r)
Klasyfikator bayesowski Załóżmy, że znamy prawdopodobieostwa π k oraz rozkłady p(x k). KLASYFIKATOR BAYESOWSKI (reguła Bayesa) Zaobserwowany wektor x klasyfikujemy jako pochodzący z tej klasy k, dla której wartośd jest największa. p( k x) g p( x k) r1 k p( x r) r
Klasyfikator bayesowski Równoważnie możemy wybrad tę klasę, dla której wartośd k jest największa p( x k W praktyce rozkłady te są szacowane na podstawie próby uczącej. )
Klasyfikator bayesowski π 1 = 1/3 π 2 = 1/3 π 3 = 1/3
Klasyfikator bayesowski π 1 = 1/4 π 2 = 1/2 π 3 = 1/4
Klasyfikator bayesowski Przykład: p( x Dwie klasy g = 2 Wielowymiarowy rozkład normalny k) (2 ) 1 exp T 1 p / 2 1/ 2 k k 1 ( x m 2 ) ( x m ) Gęstości obserwacji w klasach mają taką samą macierz kowariancji Σ
Klasyfikator bayesowski Szukanie maksimum p(x k) można zastąpid szukaniem maksimum logarytmu naturalnego: ln p( x k k) ln k ln p( x k) Biorąc pod uwagę postad gęstości normalnej zadanie sprowadza się do znalezienia maksimum względem k wielkości T 1 ( x mk ) 1 2 ( x m k ) ln k stala _ niezalezna _ od _ k
Klasyfikator bayesowski Po przekształceniu otrzymujemy funkcje dyskryminacyjne postaci: ( x) k Warto zauważyd, że są one liniowe x T 1 m k Jeżeli prawdopodobieostwa a priori są równe (π 1 = π 2 ) i jeżeli macierz Σ zastąpid macierzą próbkową oraz wektory wartości oczekiwanych próbkowymi wartościami średnimi, to otrzymana granica decyzyjna jest równoważna tej otrzymanej z liniowej analizy dyskryminacyjnej Fishera (LDA Linear Discriminant Analysis) 1 2 m T k 1 m k ln k
Klasyfikator bayesowski Przy założeniu w klasach rozkładów normalnych, ale o różnych macierzach kowariancji, otrzymujemy kwadratowe powierzchnie rozdzielające klasy { x : ( x) ( x)} k l
Klasyfikator bayesowski Jeśli prawdopodobieostwa a priori są równe lub są pomijane, wtedy reguła bayesowska jest równoważna maksymalizacji względem k wartości prawdopodobieostw p( x k) Takie zadanie klasyfikacji nazywamy dyskryminacją metodą największej wiarygodności (NW)
Klasyfikator bayesowski Jeśli: Obserwacje pochodzą z rozkładów normalnych Takie same macierze kowariancji Równośd π 1 = π 2 = = π g Wtedy reguła Bayesa jest równoważna następującej: Zaklasyfikuj obserwację x do tej klasy k, dla której kwadrat odległości Mahalanobisa ( x m osiąga wartośd minimalną. k ) T 1 ( x m k )
Optymalnośd reguły Bayesa Klasyfikator d: d : X {1,2,..., g} wygodnie przedstawid jako wektor (c 1, c 2,, c g ), na który składa się g funkcji wskaźnikowych 1 gdy d( x) c ( x) k 0 gdy d( x) k k
Optymalnośd reguły Bayesa Chcemy wiedzied, na ile dobry jest dany klasyfikator, czy istnieje inny, lepszy od niego. Punktem wyjścia jest wprowadzenie pojęcia funkcji straty związanej z zaklasyfikowaniem obserwacji z klasy i do klasy j : L( i, j) 0 1 gdy gdy i i j j
Optymalnośd reguły Bayesa L( i, j) 0 1 gdy gdy Funkcja ta implikuje zerowy koszt podjęcia dobrej decyzji oraz jednostkowy koszt błędnej decyzji. Błędna decyzja nie zawsze musi byd tak samo oceniana (np. koszt błędnej diagnozy lekarskiej jest inny jeśli lekarz zdiagnozuje chorobę, której pacjent nie ma, a inny, jeśli nie wykryje choroby, którą pacjent ma) i i j j
Optymalnośd reguły Bayesa Ryzyko klasyfikatora d : R(d,k) oczekiwany koszt, gdy prawdziwą klasą jest klasa k (oczekiwana wartośd funkcji straty przy założeniu prawdziwości klasy k ) R( d, k) E [ L( k, d( x)) klasa k] x g L( k, r) P[ d( x) r1 r klasa k] P[ d( x) k klasa k]
Optymalnośd reguły Bayesa Ryzyko całkowite (bayesowskie) klasyfikatora d : Otrzymujemy je uznawszy także klasę obserwacji (a nie tylko wartośd tej obserwacji) za losową. R( d) E [ R( d, k)] P[ d( x) k g k1 k k klasa k]
Optymalnośd reguły Bayesa Statystyczna teoria decyzji każe szukad klasyfikatorów i estymatorów minimalizujących odpowiednio określone ryzyko całkowite będące wartością oczekiwaną przyjętej funkcji straty.
Optymalnośd reguły Bayesa Twierdzenie Reguła Bayesa minimalizuje ryzyko całkowite g k k k k klasa k x P d k d R E d R 1 ] ) ( [ )], ( [ ) ( ) ( max ) ( 0 ) ( max ) ( 1 ) ( * k x p i x p gdy k x p i x p gdy x c k k i k k i i
Optymalnośd reguły Bayesa Funkcja straty II L( i, j) 0 1 b gdy gdy gdy j i j i j brak _ decyzji b(0,1)
Optymalnośd reguły Bayesa Uogólnienie reguły Bayesa d( x) brak _ k decyzji gdy gdy p( k x) max max lg lg p( l p( l x) x) 1b 1b Twierdzenie: Tak uogólniona reguła Bayesa, uwzględniająca możliwośd braku decyzji, minimalizuje ryzyko całkowite przy funkcji straty II.
Optymalnośd reguły Bayesa Funkcja straty III L( i, j) 0 lij b gdy gdy gdy j i j i j brak _ decyzji b(0,1)
Optymalnośd reguły Bayesa Uogólnienie (kolejne) reguły Bayesa Twierdzenie: Tak uogólniona reguła Bayesa, uwzględniająca możliwośd braku decyzji, minimalizuje ryzyko całkowite przy funkcji straty III. b x i p l i L gdy decyzji brak b x i p l i L x i p k i L gdy k x d g i G l g i G l g i 1 1 1 ) ( ), ( min _ ) ( ), ( min ) ( ), ( ) (
Optymalnośd reguły Bayesa Jeśli rozkłady są znane to problem klasyfikacji jest rozwiązany. W praktyce rozkłady są szacowane na podstawie danych uczących i niekoniecznie dostatecznie dobrze przybliżają prawdziwy rozkład stąd otrzymany klasyfikator nie jest optymalny.
Klasyfikator bayesowski Przykład Jeżeli rozkłady π k nie są znane, ale próba ucząca jest reprezentatywna, wtedy rozkłady te szacujemy jako równe stosunkowi liczności podpróbki elementów k-tej klasy, n k, do liczności całej próbki uczącej, n=n 1 +n 2 + +n g. ˆk n k n
Klasyfikator bayesowski Jeśli zakładamy, że macierze kowariancji w klasach są identyczne, za estymator tej macierzy można przyjąd macierze kowariancji wewnątrzgrupowej W: ˆ W n 1 g g n k k1 i1 ( x ki mˆ k )( x ki mˆ k ) T
Klasyfikator bayesowski Jeśli zakładamy, że macierze kowariancji w klasach są różne, za estymator tych macierzy w każdej z klas można przyjąd macierze próbkowe S k : ˆ k S k n k 1 1 n k l1 ( x kl mˆ k )( x kl mˆ k ) T
Klasyfikator bayesowski Uwaga! Jeśli próba ucząca nie jest wystarczająco liczna estymatory mogą byd niedokładne. Możemy otrzymad estymatory o dużej wariancji, chod nieobciążone, czyli nieprecyzyjne lub obarczone dużym błędem losowym.
Klasyfikator bayesowski Był to przykład estymacji parametrycznej gęstości prawdopodobieostwa zakładana była znana postad rozkładu (np. normalny) lecz nieznane były jego parametry Innym przypadkiem są metody estymacji nieparametrycznej, w których nie zakłada się żadnej postaci funkcji gęstości rozkładu, a jedynie to, że jest to funkcja odpowiednio gładka, np. ma pochodne trzeciego rzędu. Przykładem są estymatory jądrowe.
Klasyfikator bayesowski Przypadek estymacji parametrycznego rozkładu normalnego można uogólnid na estymację danego rozkładu za pomocą mieszaniny rozkładów normalnych o znanej liczbie rozkładów składowych (liczba ta w praktyce jest dobierana eksperymentalnie). Np. dla k-tej klasy mamy mieszaninę s k rozkładów normalnych, gdzie p kr to tzw. współczynniki mieszania s k p( x k) p ( x; r1 kr m kr, kr )
Klasyfikator bayesowski Mieszaniny tego typu są modelami bardzo ogólnymi mogącymi oddad kształt dowolnej gęstości. Można udowodnid, że dla każdej ciągłej i ograniczonej gęstości istnieje mieszanina gęstości normalnych przybliżająca tę gęstośd z dowolnie dużą dokładnością. W celu oszacowania wartości parametrów stosuje się algorytm EM (ang. Expectation Maximization) estymacja największej wiarygodności.
Klasyfikator bayesowski Naiwny Klasyfikator Bayesa Naiwny klasyfikator Bayesa zakłada, że wartości poszczególnych atrybutów są od siebie warunkowo (względem kategorii) niezależne, czyli zachodzi następująca równośd: ) ) ( ) (... ) ( ) ( ( 2 2 1 1 k x d v x a v x a v x a p n n n i i i i i n i k x d v x a p k x d v x a p 1 1 ) ) ( ) ( ( ) ) ( ) ( (
Wybór i ocena klasyfikatora Dysponując kilkoma klasyfikatorami bayesowskimi lub innymi musimy je porównad i wybrad najlepszy z nich. Naturalnym sposobem wyboru jest przeanalizowanie prawdopodobieostw dokonania przez klasyfikatory błędnej klasyfikacji nowej, losowej obserwacji. Prawdopodobieostwo błędnej klasyfikacji jest równe oczekiwanemu ułamkowi błędnych klasyfikacji i jest równe ryzyku całkowitemu klasyfikatora przy zero-jedynkowej funkcji straty.
Wybór i ocena klasyfikatora Prawdopodobieostwo to szacujemy eksperymentalnie Dane, którymi dysponujemy = Dane uczące + Dane walidacyjne + Dane testowe
Wybór i ocena klasyfikatora Dane uczące służą do stworzenia klasyfikatorów Dane walidacyjne służą do wybrania spośród wszystkich klasyfikatorów tego, który ma najmniejszy błąd na tym zbiorze danych walidacyjnych Dane testowe służą do ostatecznego oszacowania błędu wybranego klasyfikatora Aby takie oszacowanie były wiarygodne, próby te muszą byd od siebie niezależne.
Wybór i ocena klasyfikatora Przykład: Jeśli do oszacowania błędu klasyfikatora wykorzystamy ten sam zbiór uczący, to oszacowanie będzie obciążone, tzn. w tym przypadku systematycznie zaniżone (zbyt optymistyczny poziom błędu). Estymator jest nieobciążony, jeśli wartośd oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru.
Wybór i ocena klasyfikatora Wydzielenie próby walidacyjnej nie jest potrzebne, jeśli trenujemy jedynie jeden klasyfikator. Próba walidacyjna może byd użyta w momencie podejmowania decyzji o zakooczeniu nauki np. sieci neuronowej. Jeśli błąd przestaje się zmniejszad na próbie walidacyjnej, uczenie zostaje zatrzymane.
Wybór i ocena klasyfikatora Proporcje podziału dostępnych danych na uczące, walidacyjne i testowe: np. 50% + 25% + 25% lub 60% + 20% + 20%
Wybór i ocena klasyfikatora Czasami (np. jeśli próba jest zbyt mała) nie można sobie pozwolid na podział danych na trzy części. Należy wtedy wielokrotnie wykorzystad zbiór uczący, lecz w odpowiedni sposób, tak by obciążenie oszacowania było jak najmniejsze.
Wybór i ocena klasyfikatora KROSWALIDACJA (sprawdzanie krzyżowe) Próba ucząca zostaje podzielona na K (np. 5) możliwie równych części (K-krotna kroswalidacja). Tworzy się K różnych pseudoprób poprzez usuwanie z próby oryginalnej kolejno części 1,,K Klasyfikator jest konstruowany K-krotnie, za każdym razem na podstawie innej pseudopróby Każda wersja klasyfikatora jest oceniana przez sprawdzenie liczby błędnych klasyfikacji na tej części oryginalnych danych, która nie weszła do pseudopróby uczącej tego klasyfikatora
Wybór i ocena klasyfikatora KROSWALIDACJA (sprawdzanie krzyżowe) Sumaryczna liczba błędów klasyfikacji dla wszystkich K wersji klasyfikatora podzielona przez licznośd oryginalnej próby uczącej, daje kroswalidacyjne oszacowanie prawdopodobieostwa dokonania błędnej klasyfikacji przez dany klasyfikator (dany typ klasyfikatora np. sied neuronową o zadanej liczbie warstw i neuronów).
Wybór i ocena klasyfikatora Kroswalidacja jest kosztowna obliczeniowo. Po wybraniu klasyfikatora metodą kroswalidacji, konstruuje się go raz jeszcze ale tym razem na podstawie całej próby uczącej. Zwykle przyjmuje się K równe 5 lub 10. Jeśli przyjmiemy n-krotną kroswalidację (n rozmiar danych) to mówimy o metodzie leave-one-out crossvalidation każda pseudopróba powstaje przez usunięcie tylko jednego przykładu uczącego.
Wybór i ocena klasyfikatora Powstałe oszacowanie kroswalidacyjne jest prawie nieobciążone tzn. jest nieobciążone, ale dla klasyfikatora powstałego na podstawie próby o liczności mniejszej niż interesująca nas licznośd n. (Obciążenie to jest najmniejsze dla kroswalidacji n-krotnej.) Można wykazad, że jest to jednocześnie estymator o największej wariancji Wariancja estymatora jest tym mniejsza im mniejsze jest K
Wybór i ocena klasyfikatora Wymaganie jednoczesnej minimalizacji obciążenia oraz wariancji jest niemożliwe do spełnienia.
Wybór i ocena klasyfikatora Metoda BOOTSTRAP Jest to inna metoda wielokrotnego wykorzystania elementów tej samej próby uczącej do konstrukcji wielu wersji tego samego klasyfikatora Polega na dokonaniu wielokrotnego repróbkowania elementów z tej samej oryginalnej próby uczącej Repróbkowanie oznacza losowanie ze zwracaniem z oryginalnej próby uczącej (o liczności n).
Wybór i ocena klasyfikatora Metoda BOOTSTRAP Średnio 1/3 (dokładniej 0.368) próby oryginalnej nie zostanie wylosowana do danej pseudopróby (1 1/n) n to w przybliżeniu e -1 = 0.368 Na podstawie kolejnych n-elementowych pseudoprób konstruuje się kolejne wersje klasyfikatora Dla każdego elementu oryginalnej próby uczącej oblicza się ułamek błędnych zaklasyfikowao tego elementu przez te wersje klasyfikatora, w których budowie nie brał udziału ów element
Wybór i ocena klasyfikatora Metoda BOOTSTRAP Oblicza się średnią wartośd ułamków otrzymanych dla wszystkich n elementów oryginalnej próby uczącej. Ta średnia wartośd jest przybliżeniem szukanego estymatora prawdopodobieostwa błędnego zaklasyfikowania nowej obserwacji. Oznaczenie: error boot
Wybór i ocena klasyfikatora Metoda BOOTSTRAP Estymator ten jest zbyt pesymistyczny jego obciążenie systematycznie zawyża otrzymywane oszacowanie prawdopodobieostwa błędnej klasyfikacji.
KOREKCJA Wybór i ocena klasyfikatora Konstruujemy kolejny estymator oparty na uśrednieniu ułamka błędnych klasyfikacji otrzymanych dla wszystkich (bootstrapowych) wersji danego klasyfikatora, gdy dla każdej wersji jej zdolnośd poprawnej klasyfikacji sprawdzana jest na wszystkich elementach oryginalnej próby uczącej. Jest to estymator zbyt optymistyczny jego obciążenie jest ujemne. Oznaczenie: error boot-opt
Wybór i ocena klasyfikatora Ostatecznie można stworzyd estymator postaci: 0.632 error boot + 0.368 error boot-opt Estymator ten jest zwany estymatorem boostrap 0.632
Wybór i ocena klasyfikatora Ocena klasyfikatora przez powtórne podstawienie ma sens jeśli metoda dyskryminacji z góry zakłada prostą (np. liniową) postad hiperpowierzchni dyskryminacyjnej, dając pewnośd, że nie powstanie nadmierne dopasowanie się tej hiperpowierzchni do losowej próby uczącej.
Wybór i ocena klasyfikatora Wszystkie powyższe uwagi odnoszą się do sytuacji, gdy rozkłady danych w klasach nie są znane. Jeśli rozkłady są znane (z dokładnością do pewnej liczby nieznanych parametrów) problem sprowadza się do estymacji tych rozkładów i zastosowania dyskryminacji bayesowskiej. Jednak czasami warto nieznane parametry rozkładów szacowad z wykorzystaniem opisanych metod.
Przykład testy medyczne Koszt błędnej klasyfikacji czasami zależy od tego, do jakiej klasy naprawdę należy dana obserwacja. Tak jest w przypadku diagnozowania chorób. Test diagnostyczny daje wynik dodatni (pozytywny) choroba jest zdiagnozowana Test diagnostyczny daje wynik ujemny (negatywny) choroba nie jest zdiagnozowana
Przykład testy medyczne Lepiej jest fałszywie wykryd nieistniejącą chorobę niż błędnie zdiagnozowad brak choroby. Test diagnostyczny jest w tym przypadku rodzajem klasyfikatora w problemie klasyfikacji z dwoma klasami.
Przykład testy medyczne Osoba klasyfikowana jako zdrowa Osoba klasyfikowana jako chora Osoba zdrowa TN FP Osoba chora FN TP TN true negatives liczba przypadków, w których test dał poprawnie wyniki ujemny TP true positives - liczba przypadków, w których test dał poprawnie wyniki dodatni FP false positives - liczba przypadków, w których test dał niepoprawnie wyniki dodatni FN false negatives - liczba przypadków, w których test dał niepoprawnie wyniki ujemny
Przykład testy medyczne Osoba klasyfikowana jako zdrowa Osoba klasyfikowana jako chora Osoba zdrowa 176 24 Osoba chora 3 97 TN true negatives liczba przypadków, w których test dał poprawnie wyniki ujemny TP true positives - liczba przypadków, w których test dał poprawnie wyniki dodatni FP false positives - liczba przypadków, w których test dał niepoprawnie wyniki dodatni FN false negatives - liczba przypadków, w których test dał niepoprawnie wyniki ujemny
Przykład testy medyczne Osoba klasyfikowana jako zdrowa Osoba klasyfikowana jako chora Osoba zdrowa 176 24 Osoba chora 3 97 Oszacowanie prawdopodobieostwa błędnej klasyfikacji: FP FN TN FP FN TP
Przykład testy medyczne To oszacowanie odnosi się do sumy błędów, a nie oddzielnie do każdego z dwóch typów błędów. Dlatego wprowadza się pojęcia czułości i specyficzności testu. TP TP FN Czułośd oszacowanie prawdopodobieostwa przewidzenia przez test choroby po warunkiem, że pacjent jest na nią chory. TN TN FP 1 FP TN FP Specyficznośd oszacowanie prawdopodobieostwa przewidzenia przez test braku choroby po warunkiem, że pacjent jest zdrowy. 1 - Specyficznośd oszacowanie prawdopodobieostwa błędu przewidzenia przez test choroby po warunkiem, że pacjent jest zdrowy (fałszywy wynik dodatni).
Przykład testy medyczne Podobna sytuacja ma miejsce gdy klasyfikator ma za zadanie stwierdzid, czy dany moduł urządzenia działa poprawnie, czy też nie. Chcemy by klasyfikator był czuły a jednocześnie nie wywoływał fałszywych alarmów (duża specyficznośd) Podobnie jest w problemie uznawania kredytobiorcy za godnego zaufania lub nie.
Czułośd a specyficznośd Czułośd i specyficznośd są wymaganiami przeciwstawnymi - zwiększenie jednego prowadzi do zmniejszenia drugiego. Dlatego często konstruuje się nie jeden klasyfikator, ale wiele klasyfikatorów, z których każdy odpowiada innej parze kosztów błędnej klasyfikacji Następnie, na podstawie analizy czułości i specyficzności, wybieramy spośród nich klasyfikator zapewniający najlepszy kompromis między obydwoma wymaganiami.
Przykład testy medyczne Przykład W danym problemie z dwoma klasami porównamy dwie rodziny klasyfikatorów bayesowskich. Np. zakładamy rozkład normalny, ale w pierwszym przypadku zakładamy równośd macierzy kowariancji w obu klasach, w drugim przypadku nie ma tego założenia. Oznaczamy: 1 klasa osób zdrowych 2 klasa osób chorych
Przykład testy medyczne Przykład Zakładamy l 21 koszt błędu stały równy 1 l 12 > 0 koszt błędu zmienny w celu porównania czułości i specyficzności Zmieniając wartośd kosztu l 12, otrzymujemy rodzinę klasyfikatorów wybranego typu.
Przykład testy medyczne Przykład W przypadku dwóch klas klasyfikator bayesowski klasyfikuje obserwację x do klasy 2, gdy l21p( 2 x) l12(1 p(2 x)) czyli gdy p(2 x) l 12 l 12 l 21
Przykład testy medyczne Bliski zera koszt l 12 sprawia, że obserwacje są klasyfikowane do klasy 2 już dla bliskich zera wartości prawdopodobieostwa p(2 x). Taki klasyfikator jest bardzo czuły, jednak jego specyficznośd musi byd bliska zeru.
Przykład testy medyczne Sumarycznej informacji o zachowaniu się danego typu klasyfikatora przy zmiennych kosztach błędnych decyzji daje krzywa operacyjno-charakterystyczna odbiornika (krzywa ROC ang. receiver operating characteristic curve) Krzywa ROC to miejsce geometryczne punktów na płaszczyźnie o współrzędnych (1-specyficznośd, czułośd)
Przykład testy medyczne Który typ klasyfikatora jest lepszy (czerwony czy zielony)?
Przykład testy medyczne Który typ klasyfikatora jest lepszy (czerwony czy zielony)? Typ klasyfikatora czerwony jest lepszy w tym sensie, że podczas zwiększania specyficzności, czułośd dłużej utrzymuje się na wysokim poziomie.
Przykład testy medyczne Sytuacja idealna czułośd 1 dla specyficzności 1
Przykład testy medyczne AUC Area under Curve Pole powierzchni pod krzywą ROC może służyc jako kryterium do porównania typów klasyfikatorów (ich rodzin), bez ustalania wartości pewnych ich parametrów. - Preferowane są klasyfikatory o jak największym AUC - Maksymalna wartośd AUC to 1 (klasyfikator idealny: maksymalna czułośd i zero fałszywych alarmów) - Wartośd AUC poniżej 0.5 wskazuje na bardzo słaby klasyfikator (dany typ klasyfikatora nie radzi sobie z problemem). Lepsze wyniki dostajemy wtedy odwracając decyzje tego klasyfikatora, wtedy, jeśli AUC < 0.5 to AUC = 1 AUC > 0.5
Przykład testy medyczne Koniec