Klasyfikacja i dyskrymiancja - Statystyka w SAS Agnieszka Gołota, Paweł Grabowski Dariusz Bełczowski, Paweł Cejrowski Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej
Pojęcie klasyfikacji i dyskryminacji Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Definicja Dyskryminacja i klasyfikacja są wielowymiarowymi metodami zajmującymi się rozdzieleniem odrębnych zbiorów obiektów (lub obserwacji) oraz przydzieleniem nowych obiektów (obserwacji) do wcześniej zdefiniowanych zbiorów (grup). Analiza dyskryminacyjna (jako procedura rozdzielająca) jest często wykorzystywana w celu zbadania obserwowanych różnic (kiedy zwyczajne relacje nie są dobrze znane). Procedury klasyfikacji prowadzą natomiast do dobrze zdefiniowanych reguł, które mogą być wykorzystywane do przydzielenia nowego obiektu do danego zbioru.
Cele użycia dyskryminacji klasyfikacji Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Główne cele wykorzystania dyskryminacji i klasyfikacji: 1. (dyskriminacja) Do opisu zarówno graficznego (w trzech lub mniej wymiarach) jak i algebraicznego, różniących cech obiektów (obserwacji) z kilku znanych zbiorów (populacji). Staramy się znaleźć wyróżniki, których wartości liczbowe pozwalają rozdzielić zbiory tak bardzo jak to jest możliwe. 2. (klasyfikacja) Aby posortować obiekty (obserwacje) na dwie lub więcej klas. Nacisk kładzie się na uzyskiwanie reguły, która może być używana do optymalnego przypisania nowego obiektu do poszczególnej klasy. Uwaga: Funkcja która rozdziela obiekty może czasami posłużyć jako rozdzielnik (allocator) i odwrotnie, zasada, która przydziela obiekty może sugerować procedurę dyskryminacji. W praktyce cele 1 i 2 często się pokrywają, a różnica między rozdzieleniem i przydzieleniem staje się niewyraźna.
Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Klasyfikacja i dyskryminacja dla dwóch populacji Zajmiemy się teraz rozdzieleniem dwóch klas obiektów albo przydzieleniem nowego obiektu do jeden z dwóch klas. Oznaczmy nasze dwie klasy (inaczej populacje) przez π 1 i π 2. Obiekty są zwykle rozdzielone lub sklasyfikowane na podstawie pomiarów, na przykład: p powiązanych między sobą zmiennych losowych X = [X 1, X 2,..., X p]. Zaobserwowane wartości X różnią się w pewnym stopniu między klasami. Wszystkie wartości pochodzące z pierwszej klasy możemy traktować jako populację π 1 o wartościach x, a dla tych pochodzących z klasy drugiej, jako populację dla π 2 o wartościach x. Te dwie populacje mogą być opisane przez funkcję gęstości prawdopodobieństwa f 1 (x) i f 2 (x), a tym samym możemy mówić o przypisywaniu obserwacji do populacji (albo równoważnie: obiektów do klas).
Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Przykłady populacji i badanych dla nich zmiennych. Populacje π 1 i π 2 Zmienne pomiarowe X 1. Wypłacalne i źle prosperujące aktywa ogółem, cena akcji i obligacji, firmy ubezpieczeniowe wartość rynkowa akcji i obligacji, (o złym stanie finansowym) wysokość strat, nadwyżki 2. Dwa gatunki gwiazdnicy długość kielicha kwiatowego i płatka, długość rysy na płatku, długość przykwiatku, średnica pyłku 3. Nabywcy nowego produktu wykształcenie, dochód, wielkość rodziny, i opieszali ludzie ilość poprzednich zmian marek (którzy powoli kupują) danego produktu 4. Osoby które dostaną się wyniki egzaminu wstępnego, średnia ocen i nie dostaną na studia z liceum, liczba zajęć w liceum 5. Mężczyźni i kobiety pomiary antropologiczne taki jak np. obwód i objętość wykonane na starożytnych czaszkach 6. Pozytywne lub negatywne dochody, wiek, ilość kart kredytowych, ryzyko kredytowe wielkość rodziny 7. Alkoholicy i osoby aktywność enzymu oksydazy monoaminowej, nie będące alkoholikami aktywność enzymu cyklazy adenylanowej
Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Przykłady populacji i badanych dla nich zmiennych. Uwaga: Weźmy pod uwagę, na przykład punkt 6. Widzimy, że obiekt ( klienci banku starający się o kredyt ) został rozdzieleny na dwie klasy ( pozytywne ryzyko kredytowe i negatywne ryzyko kredytowe ) na podstawie zaobserwowanych wartości (dochody, wiek, ilość kart kredytowych, wielkość rodziny). Używając terminologii obserwacji i populacji, chcieliśmy zidentyfikować obserwacje postaci x =[x 1 (dochody), x 2 (wiek), x 3 (ilość kart kredytowych), x 4 (wielkość rodziny)] jako populacje π 1 ( pozytywne ryzyko kredytowe ) lub populację π 2 ( negatywne ryzyko kredytowe ).
Klasyfikacja dla dwóch populacji Przedstawimy teraz metodę klasyfikacji dla dwóch populacji (wracając do rozdzielenia w dalszej części naszej prezentacji). Zmierzone właściwości losowo wybranych obiektów pochodzących z każdej z dwóch populacji są analizowane ze względu na różnice. Zazwyczaj zbiór wszystkich wyników dzieli się na dwa regiony R 1 i R 2, takie że, jeżeli nowa obserwacja wpadnie do R 1 to jest przypisywana do populacji π 1, a jeżeli do R 2 to jest przypisywana do populacji π 2. Tak więc, jeden zbiór obserwowanych wartości opowiada populacji π 1, a drugi zbiór wartości odpowiada populacji π 2.
Problemy w metodzie klasyfikacji Zastanówmy się teraz dlaczego pewne obserwacje możemy łatwo sklasyfikować, a o innych nie jesteśmy pewni co powiedzieć. Przedstawimy teraz wybrane sytuacje, które powodują, że klasyfikacja jest problematyczna: 1. Niepełna wiedza o przyszłych wynikach. Przykład: Biuro rekrutacyjne pewnej medycznej uczelni chce sklasyfikować aplikantów na tych co mają duże prawdopodobieństwo zostania doktorem oraz na tych których prawdopodobieństwo zostania doktorem jest małe. Chcą to wywnioskować na podstawie wyników testów podczas studiów lekarskich oraz innych uczelnianych dokumentów. Natomiast w tym przypadku rzeczywiste ustalenia mogą zostać wykonane na koniec kilkuletniej pracy.
Problemy w metodzie klasyfikacji 2. Niedostępne lub drogie informacje. Przykład: Zakłada się, że niektóre z Federalist Papers zostały napisane przez Jamesa Madisona i Alexandra Hamiltona, ponieważ podpisali je. Jednakże niektóre akrtykuły i eseje były niepodpisane. Przedmiotem zainteresowania jest, który z dwóch mężczyzn napisał niepodpisane dokumenty. Oczywiście, nie możemy ich zapytać. Częstotliwości słów i długości zdań mogą pomóc klasyfikować sporne dokumenty. Uwaga: Zasady klasyfikacji nie mogą zazwyczaj zapewnić bezbłędnej metody przydziału. Wynika to z tego, że nie może być wyraźnych różnic między mierzonymi cechami populacji, to znaczy, że grupy mogą się pokrywać. Jest więc możliwe, na przykład, nieprawidłowe klasyfikowanie obiektu z π 2 jako należące do π 1 lub obiektu z π 1 jako należące π 2.
Treść Wprowadzenie Przykład 1 - problem wyodrębnienia posiadaczy kosiarek samojezdnych. Rozważmy dwie grupy w pewnym mieście: π 1 - posiadacze kosiarek samojezdnych i π 2 - nie posiadacze kosiarek samojezdnych. W celu wyznaczenia najlepszej perspektywy sprzedaży w zbliżającej się kampanii, firma produkująca kosiarki samojezdne jest zainteresowana klasyfikacją rodzin, jako: potencjalnych posiadaczy i nie posiadaczy na podstawie x 1 =przychody i x 2 =powierzchnia działki. Wielkości losowych próbek dla każdej z populacji wynoszą: n 1 = 12 (obecni posiadacze) i n 2 = 12 (obecni nie posiadacze).
Dane Wprowadzenie Uzyskane wartości przedstawia tabela: π 1 : posiadacze π 2 : nie posiadacze x 1 (przychody x 2 (powierzchnia działki x 1 (przychody x 2 (powierzchnia działki w $1000s) w 1000ft 2 ) w $1000s) w 1000ft 2 ) 90.0 18.4 105.0 19.6 115.5 16.8 82.8 20.8 94.8 21.6 94.8 17.2 91.5 20.8 73.2 20.4 117.0 23.6 114.0 17.6 140.1 19.2 79.2 17.6 138.0 17.6 89.4 16.0 112.8 22.4 96.0 18.4 99.0 20.0 77.4 16.4 123.0 20.8 63.0 18.8 81.0 22.0 81.0 14.0 111.0 20.0 93.0 14.8
Wprowadzenie Wykres Uwaga: Dobra procedura klasyfikacji powinna spowodować dosłownie kilka błędnych klasyfikacji. Innymi słowy, szansa lub prawdopodobieństwo błędnej klasyfikacji powinno być małe. Agnieszka Gołota, Paweł Grabowski Dariusz Bełczowski, Paweł Cejrowski Klasyfikacja i dyskrymiancja - Statystyka w SAS
Optymalna reguła klasyfikacji Cechy jakie optymalna reguła klasyfikacji powinna posiadać: bierze pod uwagę prawdopodobieństwa apriori uwzględnia (w miarę możliwości) koszty związane z błędną klasyfikacją
Prawdopodobieństwo Niech: f 1 (x), f 2 (x) - funkcje gęstości prawdopodobieństwa związane z wektorem p 1 zmiennej losowej X dla populacji, odpowiednio: π 1 i π 2 Ω - przestrzeń próby czyli zbiór wszystkich możliwych obserwacji x R 1 - zbiór wartości x dla których klasyfikujemy obiekty jako populacje π 1 R 2 = Ω R 1 - zbiór wartości x, dla których klasyfikujemy obiekty jako π 2. Każdy obiekt musi być przypisany jednej i tylko jednej z dwóch populacji. Zbiory R 1 i R 2 wykluczają sie wzajemnie i wyczerpują. Prawdopodobieństwo warunkowe P(2 1) czyli klasyfikacji obiektu jako π 2, kiedy w rzeczywistości należy do π 1 dane jest wzorem: P(2 1) = P(X R 2 π 1 ) = R 2=Ω R 1 f 1 (x)dx podobnie definiujemy prawdopodobieństwo warunkowe P(1 2) czyli klasyfikacje obiektu jako π 1 kiedy w rzeczywistości pochodzi z π 2 : P(1 2) = P(X R 1 π 2 ) = R 1 f 2 (x)dx
Wprowadzenie Prawdopodobieństwo Uwaga: Znak całki we wzorach oznacza objętość utworzoną przez funkcję gęstości f1 (x) na regionie R2 oraz objętość utworzoną przez funkcję gęstości f2 (x) na regionie R1. Ilustruje to wykres poniżej (dla p=1). Agnieszka Gołota, Paweł Grabowski Dariusz Bełczowski, Paweł Cejrowski Klasyfikacja i dyskrymiancja - Statystyka w SAS
Prawdopodobieństwo Niech p 1 będzie prawdopodobieństwem apriori dla π 1 oraz p 2 będzie prawdopodobieństwem apriori dla π 2, gdzie p 1 + p 2 = 1. Następnie całkowite prawdopodobieństwa poprawnie lub niepoprawnie klasyfikowanych obiektów można uzyskać jako produkt wcześniejszych i warunkowych prawdopodobieństw klasyfikacyjnych: P(obserwacja jest poprawnie sklasyfikowana jako π 1 )=P(obserwacja pochodzi z π 1 i jest poprawnie sklasyfikowana jako π 1 )=P(X R 1 π 1 )P(π 1 ) = P(1 1)p 1 P(obserwacja jest poprawnie sklasyfikowana jako π 2 )=P(obserwacja pochodzi z π 2 i jest poprawnie sklasyfikowana jako π 2 )=P(X R 2 π 2 )P(π 2 ) = P(2 2)p 2 P(obserwacja jest błędnie sklasyfikowana jako π 1 )=P(obserwacja pochodzi z π 2 i jest błędnie sklasyfikowana jako π 1 )=P(X R 1 π 2 )P(π 2 ) = P(1 2)p 2 P(obserwacja jest błędnie sklasyfikowana jako π 2 )=P(obserwacja pochodzi z π 1 i jest błędnie sklasyfikowana jako π 2 )=P(X R 2 π 1 )P(π 1 ) = P(2 1)p 2
Koszty błędnej klasyfikacji Koszt błędnej klasyfikacji może być zdefiniowany przez macierz kosztów : Klasyfikujemy jako: π 1 π 2 Prawdziwa populacja: π 1 0 c(2 1) π 2 c(1 2) 0 Analiza macierzy: Koszty wynoszą 0 dla poprawnej klasyfikacji, c(1 2) kiedy obserwacja z π 2 jest niepoprawnie sklasyfikowana jako π 1 oraz c(2 1) kiedy obserwacja z π 1 jest niepoprawnie sklasyfikowana jako π 2.
Oczekiwany koszt błędnej klasyfikacji (ECM) Dla jakiejkolwiek zasady, oczekiwany koszty błędnej klasyfikacji (ECM) jest wyznaczony poprzez pomnożenie anty-diagonalnych wyrazów (z macierzy kosztów ) przez ich prawdopodobieństwa (ze zdarzeń przedstawionych na slajdzie 16). W konsekwencji otrzymujemy: ECM = c(2 1)P(2 1)p 1 + c(1 2)P(1 2)p 2 Uwaga: Wiarygodna reguła klasyfikacji powinna mieć ECM tak małe jak to możliwe. Regiony R 1 i R 2, które minimalizują ECM są zdefiniowane przez następujące nierówności: R 1 : f 1(x) f 2 (x) ( c(1 2) c(2 1) )( p 2 ) p 1 (współczynnik gęstości) (współczynnik kosztu)(współczynnik prawdop. apriori) R 2 : f 1(x) f 2 (x) < ( c(1 2) c(2 1) )( p 2 ) p 1 (współczynnik gęstości) < (współczynnik kosztu)(współczynnik prawdop. apriori)
Oczekiwany koszt błędnej klasyfikacji (ECM) Wyznaczanie regionów R 1 i R 2 dla szczególnych przypadków: a) p 2 = 1 (prawdopodobieństwa apriori są równe) p 1 R 1 : f 1(x) f 2 (x) c(1 2) c(2 1) R 2 : f 1(x) f 2 (x) < c(1 2) c(2 1) b) c(1 2) (koszty błędnych klasyfikacji są równe) c(2 1) R 1 : f 1(x) f 2 (x) p 2 p 1 c) c(1 2) c(2 1) = p 2 =1 p 1 R 1 : f 1(x) f 2 (x) 1 Uwaga: R 2 : f 1(x) f 2 (x) < p 2 p 1 R 2 : f 1(x) f 2 (x) < 1 Kiedy prawdopodobieństwa apriori są nieznane, wtedy często są brane jako równe sobie. Jeżeli koszty błędnej klasyfikacji są nieokreślone, to są tak dobierane aby ich stosunek wyniósł 1.
Oczekiwany koszt błędnej klasyfikacji (ECM) Rozpatrzmy przypadek c) (czyli współczynnik prawdopodobieństw apriori i współczynnik błędnych klasyfikacji są sobie równe i wynoszą 1). Zauważmy, że optymalne regiony klasyfikacji wyznacza się bardzo proste, przez porównanie tylko wartości funkcji gęstości oraz jeżeli x 0 jest nową obserwacją to: a) przypisujemy x 0 do π 1 jeżeli: f 1 (x 0 ) f 2 (x 0 ) 1 czyli f 1(x 0 ) f 2 (x 0 ) b) przypisujemy x 0 do π 2 jeżeli: f 1 (x 0 ) f 2 (x 0 ) < 1 czyli f 1(x 0 ) < f 2 (x 0 ). Uwaga: Sens tej zasady jest równoznaczny przy równych prawdopodobieństwach apriori i równych kosztach błędnych klasyfikacji.
Treść Wprowadzenie Przykład 2 - Klasyfikowanie nowej obserwacji do jednej z dwóch populacji. Badacz ma wystarczająco dużo danych aby oszacować funkcje gęstości f 1 (x) i f 2 (x) związanych odpowiednio z populacjami π 1 i π 2. Załóżmy, że c(2 1) = 5 i c(1 2) = 10. Ponadto, dane te są znane od 20% obiektów z całej populacji (dla których pomiaru x były spisane) należącej do π 2. A zatem, nasze prawdopodobieństwa apriori wynoszą odpowiednio: p 1 = 0.8 i p 2 = 0.2. Znając apriori prawdopodobieństwa i koszty błędnej klasyfikacji, możemy korzystając z odpowiednich wzorów (slajd 18) wyznaczyć regiony klasyfikacji R 1 i R 2. Otrzymujemy: R 1 : f 1(x) f 2 (x) ( 10 0.2 )( 5 0.8) ) = 0.5 R 2 : f 1(x) f 2 (x) < ( 10 0.2 )( 5 0.8) ) = 0.5 Załóżmy również, że dla nowej obserwacji x 0 funkcje gęstości wynoszą odpowiednio: f 1 (x 0 ) = 0.3 i f 2 (x 0 ) = 0.4.
Pytanie Czy sklasyfikowałbyś nową obserwacje x 0 do populacji π 1 czy do populacji π 2?
Odpowiedź Wyliczamy wskaźnik funkcji gęstości: f 1 (x) f 2 (x) = 0.3 0.4 = 0.75 i porównujemy to z wynikami otrzymanymi wcześniej, czyli: f 1 (x) c(1 2) f 2 (x) = 0.75 > ( c(2 1) )( p 2 p 1 ) = 0.5 Wniosek Otrzymujemy, że x 0 R 1 i klasyfikujemy nową obserwacje x 0 do populacji π 1
Całkowite prawdopodobieństwo błędnej klasyfikacji - TPM Kryteria inne niż oczekiwany koszt błędnej klasyfikacji (ECM) mogą być również wykorzystywane do uzyskania optymalnej reguły klasyfikacji. Ignorując koszty błędnej klasyfikacji i wybierając R 1 i R 2 do minimalizacji całkowitego prawdopodobieństwa błędnej klasyfikacji (TCM) otrzymujemy wzór: TCM=P(błędna klasyfikacja obserwacji z π 1 lub błędna klasyfikacja obserwacji π 2 )=P(obserwacja pochodząca z populacji π 1 i błędnie sklasyfikowana)+p(obserwacja pochodząca z populacji π 2 i błędnie sklasyfikowana) = p 1 f R 1 (x)dx + p 2 f 2 R 2 (x)dx 1 Uwaga Matematycznie problem ten jest równoważny do minimalizacji oczekiwanego kosztu błędnej klasyfikacji (ECM) kiedy koszty błędnej klasyfikacji są równe. W związku z tym, optymalne regiony w tym przypadku są dane wzorami ze slajdu 19 - przypadek b).
Klasyfikacja dla dwóch wielowymiarowych normalnych populacji Procedury klasyfikacji bazują na populacjach o normalnym rozkładzie przeważających w praktyce statystycznej (z uwagi na swoją prostotę i dużą efektywność w różnych modelach populacji). Zakładamy, ze funkcję f 1 (x) i f 2 (x) są wielowymiarowymi funkcjami gęstości rozkładu normalnego. Pierwsza z wektorem średniej µ 1 i macierzą kowariancji Σ 1, a druga z wektorem średniej µ 2 i macierzą kowariancji Σ 2.
Klasyfikacja normalnych populacji kiedy Σ 1 = Σ 2 = Σ. Załóżmy, że gęstości dla populacji π 1 i π 2 dane są wzorem: f i (x) = 1 (2π) p/2 Σ 1/2 exp[ 1 2 (x µ i ) Σ 1 (x µ i )] dla i=1,2 Przypuśćmy teraz, że parametry µ 1,µ 2 i Σ są znane. Następnie po skreśleniu wyrażenia (2π) p/2 Σ 1/2 minimalne regiony ECM wyglądają następująco: R 1 : exp[ 1 2 (x µ 1) Σ 1 (x µ 1 ) + 1 2 (x µ 2) Σ 1 (x µ 2 )] ( c(1 2) c(2 1) )( p 2 ) p 1 R 2 : exp[ 1 2 (x µ 1) Σ 1 (x µ 1 ) + 1 2 (x µ 2) Σ 1 (x µ 2 )] < ( c(1 2) c(2 1) )( p 2 ) p 1 Znając regiony R 1 i R 2 możemy skonstruować zasadę klasyfikacji podaną w rezultacie: Rzeultat: Niech populacje π 1 i π 2 będą opisane przez wielowymiarowe gęstości rozkładu prawdopodobieństwa. Zasada przydziału, która minimalizuje ECM wygląda następująco: a) przypisujemy x 0 do π 1 jeżeli: (µ 1 µ 2 ) Σ 1 x 0 1 2 (µ 1 µ 2 ) Σ 1 (µ 1 + µ 2 ) ln[( c(1 2) c(2 1) )( p 2 )] p 1 b) przypisujemy x 0 do π 2 jeżeli: (µ 1 µ 2 ) Σ 1 x 0 1 2 (µ 1 µ 2 ) Σ 1 (µ 1 + µ 2 ) < ln[( c(1 2) c(2 1) )( p 2 )] p 1
Klasyfikacja normalnych populacji kiedy Σ 1 = Σ 2 = Σ. W większości sytuacji parametry µ 1, µ 2 i Σ są nieznane więc zasadę (którą przedstawiliśmy w rezultacie) trzeba było zmodyfikować. Zasugerowano zastąpienie parametrów populacji przez odpowiedniki próbkowe. Załóżmy, że mamy n 1 obserwacji wielowymiarowej zmiennej losowej X = [X 1, X 2,..., X p] z π 1 i n 2 pomiarów z π 2, gdzie n 1 + n 2 2 p. Następnie, otrzymujemy następujące macierze: x 11 x X 1 = 12... x 1(n 1 ) x 21 x X 2 = 22... x 2(n 2 ) (n 1 p) (n 2 p)
Klasyfikacja normalnych populacji kiedy Σ 1 = Σ 2 = Σ. Z uzyskanych macierzy, próbkowowe wektory średnich i macierzy kowariancji są określone przez: x 1 = 1 n1 n 1 j=1 x 1j (wymiar p 1), S 1 = 1 n1 n 1 1 x 2 = 1 n 2 n2 j=1 x 2j (wymiar p 1), S 2 = 1 n 2 1 n2 j=1 (x 2j x 2 )(x 2j x 2 ) (p p) j=1 (x 1j x 1 )(x 1j x 1 ) (p p) Ponieważ, przyjmujemy, że populacje mają taką samą macierz kowariancji Σ, próbkowe macierze kowariancji S 1 i S 2 łączy się w celu uzyskania pojedyńczego, nieobciążonego estymatora Σ. n 1 1 n 2 1 S pooled = [ (n 1 1)+(n 2 1) ]S 1 + [ (n 1 1)+(n 2 1) ]S 2 jest obiektywnym estymatorem Σ jeżeli macierze X 1 i X 2 zawierają losowe próbki, odpowiednio z populacji π 1 i π 2.
Estymacyjna zasada minimalizacji ECM dla dwóch normalnych populacji. Podstawiając x 1 za µ 1, x 2 za µ 2 i S pooled za Σ we wzory otrzymane w rezultacie (slajd 26) otrzymujemy próbkową zasadę klasyfikacji: a) przypisujemy x 0 do π 1 jeżeli: (x 1 x 2 ) S 1 pooled x 0 1 2 (x 1 x 2 ) S 1 pooled (x 1 + x 2 ) ln[( c(1 2) c(2 1) )( p 2 )] p 1 b) przypisujemy x 0 do π 2 jeżeli: (x 1 x 2 ) S 1 pooled x 0 1 2 (x 1 x 2 ) S 1 pooled (x 1 + x 2 ) < ln[( c(1 2) c(2 1) )( p 2 )] p 1 Zauważmy, że jeżeli w powyższym wzorze: c(1 2) c(2 1) )( p 2 ) = 1 p 1 wtedy ln(1) = 0 i estymacyjna zasada minimalizacji ECM dla dwóch normalnych populacji sprowadza się do porównania zmiennej skalarnej: ŷ = (x 1 x 2 ) S 1 pooled x = â x oszacowanej w x 0, z liczbą: m = 1 2 (x 1 x 2 ) S 1 pooled (x 1 + x 2 ) = 1 2 (y 1 + y 2 )
Estymacyjna zasada minimalizacji ECM dla dwóch normalnych populacji. gdzie: y 1 = (x 1 x 2 ) S 1 pooled x 1 = â x 1 y 2 = (x 1 x 2 ) S 1 pooled x 2 = â x 2 Oznacza to, że estymacyjna metoda minimalizacji ECM dla dwóch normalnych populacji jest równoznaczna z tworzeniem dwóch jednowymiarowych populacji dla wartości y poprzez wzięcie odpowiedniej kombinacji liniowej obserwacji pochodzących z populacji π 1 i π 2, a następnie przypisaniu nowej obserwacji x 0 : a) do populacji π 1 jeżeli: ŷ 0 = â x 0 m (punkt środkowy między dwoma jednowymiarowymi średnimi y 1 i y 2.) b) do populacji π 2 jeżeli: ŷ 0 = â x 0 < m
Klasyfikacja dla dwóch normalnych populacji ze wspólną Σ i równymi kosztami. Przykład ten jest związany z wykrywaniem nosicieli hemofilii typu A. Do konstruowania procedury wykrywania potencjalnych nosicieli hemofilii typu A, próbki krwi pobrano od dwóch grup kobiet i zmierzono następujące dwie zmienne: X 1 = log 10 (AHFactivity) X 2 = log 10 (AHF likeantigen) (AHF - czynnik przeciwhemofilowy) Pierwsza grupa n 1 = 30 kobiet została wybrana z populacji kobiet, które nie są nosicielkami gena hemofilii typu A. Grupe tę będziemy nazywać jako normalni. Druga grupa n 2 = 22 kobiet była wybrana z populacji kobiet z rozpoznaną hemofilią typu A. Tą grupę będziemy nazywać jako nosiciele. Ich wspólna macierz kowariancji zostanie wzięta jako połączone próbkowe macierze kowariancji S pooled.
...
Otrzymujemy następujące wyniki: x 1 = [ ] 0.135 0.078 x 2 = [ ] 0.308 0.006 [ ] S 1 114.794 84.476 pooled = 84.476 122.164 ŷ = 25.959x 1 23.415x 2 m = 4.764
Pomiary AHF activity oraz AHF-like antigen u kobiety, u której chcemy zbadać czy jest nosicielką [ ] hemofilii typu A wyniosły odpowiednio x 1 = 0.21 i x 2 = 0.044 (czyli 0.21 x 0 = ). 0.044 Czy kobieta ta powinna być sklasyfikowana do populacji π 1 (normalna) czy π 2 (nosiciele)? Powinniśmy wyliczyć ŷ(x 0 ) = ŷ 0, a następnie posłużyć się regułą (dla przypomnienia): a) przypisujemy x 0 do π 1 jeżeli: ŷ 0 = â x 0 m = 4.764 b) przypisujemy x 0 do π 2 jeżeli: ŷ 0 = â x 0 < m = 4.764 Uwaga: Po odpowiednich wyliczeniach otrzymamy, że ŷ 0 = 4, 421 i jest większy od m, czyli przypisujemy kobietę do populacji π 1 ( normalni ).
x 0 = [ ] 0.21 0.044 x 0 = [ ] 0.28 0.044
Klasyfikacja populacji o rozkładzie normalnym kiedy Σ 1 Σ 2 Jak można by przypuszczać, reguły klasyfikacji są bardziej skomplikowane w przypadku kiedy macierze kowariancji populacji nie są sobie równe. Rozważmy wielowymiarowe gęstości normalne z Σ i, i = 1, 2, zastępujące Σ. Wówczas macierze kowariancji tak samo jak wektory wartości oczekiwanych są różne dla każdej z dwóch populacji. Tak jak wcześniej zauważyliśmy obszary minimum ECM oraz minimum całkowitego prawdopodobieństwa błędnej klasyfikacji TPM zależą od stosunku dwóch gęstości f 1 (x)/f 2 (x) lub równoważnie logarytmu naturalnego tej proporcji ln[f 1 (x)/f 2 (x)] = ln[f 1 (x)] ln[f 2 (x)]. Kiedy gęstości wielowymiarowego rozkładu normalnego mają różne struktury kowariancji, wtedy to wyrażenia w stosunku gęstości dotyczące Σ i 1/2 nie kasują się jak ma to miejsce gdy Σ 1 = Σ 2.
Regiony klasyfikacji Zastępując gęstości wielowymiarowego rozkładu normalnego innymi macierzami kowariancji w : R 1 : f ( ) ( ) 1(x) c(1 2) f 2 (x) p2, R 2 : f ( ) ( ) 1(x) c(1 2) c(2 1) p 1 f 2 (x) < p2 c(2 1) p 1 oraz po zlogarytmowaniu i uproszczeniu otrzymujemy regiony klasyfikacji: R 1 : 1 [( ) ( )] 2 x (Σ 1 1 Σ 1 c(1 2) 2 )x + (µ 1 Σ 1 1 µ 2 Σ 1 2 )x k ln p2 c(2 1) p 1 R 2 : 1 [( ) ( )] 2 x (Σ 1 1 Σ 1 c(1 2) 2 )x + (µ 1 Σ 1 1 µ 2 Σ 1 2 )x k < ln p2 c(2 1) p 1 (43) gdzie k = 1 ( ) 2 ln Σ1 + 1 Σ 2 2 (µ 1 Σ 1 1 µ 1 µ 2 Σ 1 2 µ 2 ) (44) Uwaga: Regiony klasyfikacji są zdefiniowane za pomocą funkcji kwadratowej zmiennej x.
Reguła klasyfikacji Rezultat 11.4 Niech populacje π 1 i π 2 będą opisane wielowymiarowymi gęstościami normalnymi z wektorami wartości oczekiwanych i macierzami kowariancji odpowiednio µ 1, Σ 1 i µ 2, Σ 2. Reguła klasyfikacji, która minimalizuje oczekiwane koszty błędnej klasyfikacji podana jest wzorem, przydziel x 0 do π 1 jeżeli 1 [( ) ( )] 2 x 0 (Σ 1 1 Σ 1 c(1 2) 2 )x 0 + (µ 1 Σ 1 1 µ 2 Σ 1 2 )x p2 0 k ln c(2 1) p 1 przydziel x 0 do π 2 w innym przypadku. Zmienna k jest określona tak samo jak w (44).
Reguła kwadratowej klasyfikacji (Populacje o rozkładzie normalnym z nierównymi macierzami kowariancji) Przydziel x 0 do π 1 jeżeli 1 [( ) ( )] 2 x 0 (S 1 1 S 1 c(1 2) 2 )x 0 + (x 1 S 1 1 x 2 S 1 2 )x p2 0 k ln (45) c(2 1) p 1 przydziel x 0 do π 2 w innym przypadku. Uwaga: Klasyfikacja przy użyciu funkcji kwadratowych jest raczej niefortunnym wyborem w przypadku ilości wymiarów większej niż dwa i może ona prowadzić do trochę niezwykłych rezultatów. W szczególności jest to prawdziwe, gdy dane nie pochodzą (zasadniczo) z wielowymiarowego rozkładu normalnego. Dzieje się, tak dlatego, że poważną słabością reguły kwadratowej jest fakt, że jest ona wrażliwa na odstąpienia od normalności.
Opcje działania w przypadku nienormalności danych Jeżeli dane nie pochodzą z wielowymiarowego rozkładu normalnego dostępne są dwie opcje działania. Opcja 1 Dane nie z rozkładu normalnego można przekształcić na dane bliższe rozkładowi normalnemu i następnie przeprowadzić test na równość macierzy kowariancji, aby sprawdzić, czy odpowiedniejsza jest reguła liniowa czy kwadratowa. Uwaga: Nienormalność ma duży wpływ na wynik zwykłych testów na jednorodność kowariancji. Dlatego zamiana danych z rozkładu nienormalnego na normalny musi się odbyć przed przeprowadzeniem tych testów.
Opcje działania w przypadku nienormalności danych Opcja 2 Można skorzystać z liniowej lub kwadratowej reguły bez martwienia się o kształt populacji macierzystej i mieć nadzieję, że będzie to działać w miarę dobrze. Uwaga: Badania jednakże pokazały, że są nienormalne przypadki gdzie liniowa funkcja klasyfikacyjna wypada słabo, pomimo, ze macierze kowariancji populacji są te same. Morał: Zawsze warto sprawdzać wyniki każdej z metod klasyfikacji, a przynajmniej to powinno mieć miejsce ze zbiorami danych stosowanymi do tworzenia klasyfikatorów.
W idealnym przypadku, byłoby wystarczająco dużo dostępnych danych do zapewnienia próbek uczących oraz walidacyjnych. Próbki uczące mogą być stosowane to opracowania funkcji klasyfikacyjnej, a próbki testowe do oceny jej skuteczności.
Jednym z najważniejszych sposobów oceniania wyników jakiejkolwiek metody klasyfikacyjnej jest obliczenie jej wskaźnika błędów lub prawdopodobieństwa błędnej klasyfikacji. Kiedy postacie populacji macierzystych są całkowicie znane, prawdopodobieństwa błędnej klasyfikacji mogą być obliczone stosunkowo łatwo. Ponieważ jednakże populacje macierzyste rzadko są znane, będziemy koncentrować się na wskaźnikach błędów powiązanych z próbkową funkcją klasyfikacyjną. Gdy już skonstruowana jest funkcja klasyfikacyjna, ocena jej skuteczności dla przyszłych próbek jest dla nas najważniejsza.
Miary oceny skuteczności funkcji klasyfikacyjnych Całkowite prawdopodobieństwo błędnej klasyfikacji (TPM) TPM = p 1 f 1 (x)dx + p 2 f 2 (x)dx R 2 R 1 Najmniejsza wartość wielkości TPM uzyskana przez rozsądny wybór między R 1 i R 2 jest nazywana najlepszym wskaźnikiem błędów (OER).
Miary oceny skuteczności funkcji klasyfikacyjnych Najlepszy wskaźników błędów (OER) OER = p 1 f 1 (x)dx + p 2 f 2 (x)dx R 2 R 1 gdzie R 1 oraz R 2 są ograniczone następująco: R 1 : f 1 (x) f 2 (x) p 2 p 1 R 2 : f 1 (x) f 2 (x) < p 2 p 1 Stąd OER jest wskaźnikiem błędów dla minimum całkowitego prawdopodobieństwa błędnej klasyfikacji (TPM) dla reguły klasyfikacji.
Miary oceny skuteczności funkcji klasyfikacyjnych Najlepszy wskaźników błędów (OER) Oznacza on jaki procent składników będzie niepoprawnie przydzielony po zastosowaniu najlepszej reguły klasyfikacji. Na przykład, jeśli mamy dwie populacje i ich parametry oraz po obliczeniu OER (minimum TPM) = 0.2119 oznacza to, że najlepsza reguła klasyfikacji niepoprawnie przydzieli około 21% składników do pierwszej lub drugiej populacji.
Miary oceny skuteczności funkcji klasyfikacyjnych Najlepszy wskaźników błędów (OER) najłatwiej może być obliczony, gdy funkcje gęstości populacji są znane. Jeżeli jednakże, jak to zwykle bywa, niektóre parametry populacji ukazujące się w regułach klasyfikacji muszą być oszacowane z próbki, wtedy to ocena wskaźników błędów już nie jest tak prosta.
Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych Rzeczywisty wskaźnik błędów (AER) Skuteczność próbkowych funkcji klasyfikacyjnych zasadniczo może być poddana ocenie przez obliczenie rzeczywistego wskaźnika błędów (AER), AER = p 1 ˆR 2 f 1 (x)dx + p 2 ˆR 1 f 2 (x)dx gdzie ˆR 1 i ˆR 2 reprezentują obszary klasyfikacyjne wyznaczone przez odpowiednio n 1 i n 2.
Uwaga: AER ukazuje jak próbkowa funkcja klasyfikacyjna będzie się zachowywała dla przyszłych próbek. Podobnie jak najlepszy wskaźnik błędów (OER), na ogół nie może być on obliczony, ponieważ zależy on od nieznanych funkcji gęstości f 1 (x) i f 2 (x).
Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych Wskaźnik błędów pozornych (APER) Istnieje miara skuteczności, która nie zależy od postaci populacji macierzystej i może być ona obliczona jakąkolwiek procedurą klasyfikacyjną. Nazywa się ona wskaźnikiem błędów pozornych (APER) i jest zdefiniowana jako ułamek obserwacji z próbki uczącej, które są błędnie sklasyfikowane przez próbkową funkcje klasyfikacyjną. Wskaźnik błędów pozornych może być łatwo obliczony z macierzy pomyłek, która pokazuje rzeczywiste i przewidywane przynależności do grup.
Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych Macierz pomyłek Dla n 1 obserwacji z π 1 i n 2 obserwacji z π 2 macierz pomyłek ma następująca postać: Przewidywana przynależność π 1 π 2 Rzeczywista π 1 n 1C n 1M = n 1 n 1C n 1 przynależność π 2 n 2M = n 1 n 2C n 2C n 2 gdzie n 1C = liczba pozycji z π 1 poprawnie sklasyfikowanych jako pozycje z π 1 n 1M = liczba pozycji z π 1 błędnie sklasyfikowanych jako pozycje z π 2 n 2C = liczba pozycji z π 2 poprawnie sklasyfikowanych jako pozycje z π 2 n 2M = liczba pozycji z π 2 błędnie sklasyfikowanych jako pozycje z π 1
Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych Obliczenie wskaźnika APER na podstawie macierzy pomyłek Wskaźnik błędów pozornych wtedy ma postać: APER = n 1M + n 2M n 1 + n 2 który jest rozumiany jako udział pozycji ze zbioru uczącego, które są błędnie sklasyfikowane.
Przykład 11.6 (Obliczanie wskaźnika błędów pozornych) Rozważmy obszary klasyfikacyjne R 1 i R 2 pokazane poniższym wykresie przedstawiające dane dotyczące kosiarek samojezdnych. W tym przypadku obserwacje na północny-wschód od linii ciągłej są sklasyfikowane jako π 1, czyli posiadacze kosiarek samojezdnych. Natomiast obserwacje na południowy-zachód od linii ciągłej są sklasyfikowane jako π 2, czyli osoby ich nie posiadające. Zauważmy, że niektóre obserwacje są błędnie sklasyfikowane.
Przykład 11.6 (Obliczanie wskaźnika błędów pozornych) Macierz pomyłek wygląda następująco: Przewidywana przynależność π 1 : właściciele π 2 : nie posiadacze Rzeczywista właściciele π 1 : kosiarek n 1C = 10 n 1M = 2 n 1 = 12 przynależność samojezdnych π 2 : nie posiadacze n 2M = 2 n 2C = 10 n 2 = 12 Wskaźnik błędów pozornych, wyrażony jako procent, to: ( ) ( ) 2 + 2 4 APER = 100% = 100% = 16.7% 12 + 12 24
Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych APER jest bardzo intuicyjny i łatwy do obliczenia. Niestety ma on skłonność do niedoszacowania AER i problem nie znika dopóki wielkości próbek n 1 i n 2 są bardzo duże. W zasadzie, te optymistyczne szacowanie występuje, ponieważ dane, które służą do budowy funkcji klasyfikacyjnych również są stosowane do jej ocenienia. Szacunki dotyczące wskaźników błędów mogą być lepiej skonstruowane niż wskaźnik błędów pozornych i dodatkowo pozostać dość łatwe do obliczenia i nie wymagać założeń odnośnie rozkładu.
Pierwszym ze sposobów jest rozdzielenie całej próbki na próbkę uczącą i próbkę testową. Próbka ucząca jest stosowana do skonstruowania funkcji klasyfikacyjnej, próbka testowa do oceny jej wyników. Wskaźnik błędów jest określony jako udział błędnie sklasyfikowanych danych w próbce testowej. Pomimo, że ta metoda radzi sobie z problemem stronniczości, nie stosując tych samych danych do określenia i oceny funkcji klasyfikacyjnej, to posiada dwie zasadnicze wady: (i) Wymaga dużych próbek. (ii) Funkcja, która jest poddawana ocenie nie jest funkcją, która nas interesuje. Ostatecznie prawie wszystkie dane musiałyby zostać użyte aby skonstruować funkcje klasyfikacyjną. Jeśli nie, to ważne informację mogą zostać utracone.
Drugie podejście, nazywa się metodą wydzielania holdout Lachenbruch a (inaczej nazywane metodą jackknifing lub cross-validation, czyli sprawdzianu krzyżowego) 1. Rozpocznij z grupą obserwacji π 1. Pomiń jedną obserwację z tej grupy i opracuj funkcje klasyfikacyjną opartą na pozostałych n 1 1, n 2 obserwacjach. 2. Sklasyfikuj obserwacje wydzieloną używając funkcji skonstruowanej w kroku 1. 3. Powtarzaj kroki 1 i 2 dopóki wszystkie obserwacje z π 1 są sklasyfikowane. Niech n (H) 1M będzie liczbą obserwacji wydzielonych (H) błędnie sklasyfikowanych w tej grupie. 4. Powtarzaj kroki 1 do 3 dla obserwacji z π 2. Niech n (H) 2M będzie liczbą obserwacji dzielących błędnie sklasyfikowanych w tej grupie.
Tą metodą otrzymujemy nieobciążony estymator wartości oczekiwanej rzeczywistych wskaźników błędów, E(AER). Ê(AER) = n(h) 1M + n(h) 2M n 1 + n 2 Metoda wydzielenia Lachenbruch a jest obliczeniowo wykonalna kiedy jest stosowana w połączeniu z liniową statystyką klasyfikacyjną.
Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Zilustrujemy procedurę wydzielenia Lachenbruch a i wyliczenie wskaźników błędów dla równych kosztów i prawdopodobieństw a priori. Rozważmy następujące macierze danych i statystyki. (Zakładamy, że n 1 = n 2 = 3 dwuwymiarowe obserwacje zostały wybrane losowo z dwóch populacji π 1 i π 2 o wspólnej macierzy kowariancji.) ] X 1 = X 2 = [ 2 12 4 10 3 8 [ 5 7 3 9 4 5 Sumaryczna macierz kowariancji to ] ; x 1 = [ ] 3, S 10 1 = 1 2 [ 4 ; x 2 =, S 7] 2 = 1 2 S pooled = 1 2 (S 1 + S 2 ) = [ 2 ] 2 2 8 [ 2 ] 2 2 8 [ 1 ] 1 1 4
Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Dana w przykładzie macierz pomyłek to: Klasyfikuj jako: π 1 π 2 zatem, Prawdziwa populacja: π 1 2 1 π 2 1 2 APER = 2 6 = 0.33 Lecz chcemy zobaczyć jaka jest różnica między APER, a estymatorem wartości oczekiwanej AER, czyli Ê(AER). Dlatego przeprowadzamy procedurę wydzielenia Lachenbrucha.
Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) [ ] Wydzielając pierwszą obserwację x H = 2, 12 z X 1 obliczamy [ ] [ ] [ ] 4 10 3.5 0.5 1 X 1H =, x 3 8 1H = i S 9 1H = 1 2 Nowa sumaryczna macierz kowariancji S H,pooled to z odwrotną S H,pooled = 1 3 (S 1H + 2S 2 ) = 1 3 S 1 H,pooled = 1 [ ] 10 1 8 1 2.5 [ 2.5 ] 1 1 10 Jest obliczeniowo szybciej sklasyfikować obserwację wydzielenia x 1H na podstawie jej kwadratu odległości od średniej grupy x 1H i x 2 niż od obliczenia wartości funkcji liniowej ŷ = â H x H = (x 1H x 2 ) S 1 H,pooled x H i porównania jej do punktu środkowego ˆm H = 1 2 (x 1H x 2 ) S 1 H,pooled (x 1H + x 2 )
Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Tak więc dla x H = [ 2, 12 ] mamy: kwadrat odległości z x 1H = (x H x 1H ) S 1 H,pooled (x H x 1H ) = [ 1.5 3 ] [ [ ] 1 10 1 1.5 = 4.5 8 1 2.5] 3 kwadrat odległości z x 2 = (x H x 2 ) S 1 H,pooled (x H x 2 ) = [ 2 5 ] [ [ ] 1 10 1 2 = 10.3 8 1 2.5] 5 Ponieważ odległość od x H do x 1H jest mniejsza niż od x H do x 2, klasyfikujemy x H jako obserwację z populacji π 1. W tym przypadku klasyfikacja jest poprawna.
Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Analogicznie przeprowadzamy procedurę dla 2 i 3 obserwacji z 1 populacji. Obliczymy, że dla x H = [4, 10] tak samo jak dla x H = [3, 8] procedura prowadzi do niepoprawnego przydzielenia tych obserwacji do π 2. Tak więc n (H) 1M = 2.
Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Przechodząc do drugiej grupy, przypuśćmy, że x H = [5, 7] jest wydzielone. Wtedy [ ] [ ] [ ] 3 9 3.5 0.5 2 X 2H =, x 4 5 2H = i S 7 2H = 2 8 Nowa sumaryczna macierz kowariancji to S H,pooled = 1 3 (2S 1 + 1S 2H ) = 1 [ ] 2.5 4 3 4 16 z odwrotną S 1 H,pooled = 3 [ ] 16 4 24 4 2.5
Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Obliczamy, że (x H x 1 ) S 1 H,pooled (x H x 1 ) = [ 2 3 ] [ ] [ ] 3 16 4 2 = 4.8 24 4 2.5 3 (x H x 2H ) S 1 H,pooled (x H x 2H ) = [ 1.5 0 ] [ ] [ ] 3 16 4 1.5 = 4.5 24 4 2.5 0 i x H = [5, 7] jest poprawnie przydzielona do π 2.
Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Analogicznie przeprowadzamy procedurę dla 2 i 3 obserwacji z 2 populacji. Obliczymy, że kiedy x H = [3, 9] jest wydzielone procedura prowadzi do niepoprawnego przydzielenia tej obserwacji do π 1. Na koniec wydzielenie x H = [4, 5] prowadzi do poprawnego sklasyfikowania tej obserwacji jako π 2. Zatem n (H) 2M = 1.
Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Mając już ilości błędnie sklasyfikowanych obserwacji dla każdej populacji możemy policzyć wartość estymatora Ê(AER): Ê(AER) = n(h) 1M + n(h) 2M = 2 + 1 n 1 + n 2 3 + 3 = 0.5 Stąd widzimy, że wskaźnik błędów pozornych APER = 0.33 jest optymistyczną miarą skuteczności. Oczywiście w praktyce, wielkości próbek są większe niż te, które rozpatrywaliśmy w tym przykładzie, zatem różnice między APER i Ê(AER) mogą nie być tak duże.
W teorii, uogólnienie procedur klasyfikacyjnych od 2 do g 2 grup jest całkiem proste. Jednakże, nie wiele jest znane o własnościach odpowiadającym próbkowym funkcjom klasyfikacyjnym, a zwłaszcza ich wskaźniki błędów nie są do końca poznane. Odporność statystyk dwu-grupowej liniowej klasyfikacji, na przykład, na nierówne kowariancje lub nienormalność rozkładu może być zbadana za pomocą eksperymentów przeprowadzonych z komputerowymi generatorami próbek. Dla więcej niż dwie populacje to podejście nie prowadzi do ogólnych wniosków. Dzieje się tak, ponieważ własności populacji zależą od jej lokalizacji i tym samym jest zbyt dużo możliwość konfiguracji, aby można je dogodnie zbadać.
Metoda Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji Metoda Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji Niech f i (x) będzie gęstością powiązaną z populacją π i, i = 1, 2,..., g. [Dla większości przypadków, będziemy zakładali, że f i (x) jest funkcją gęstości wielowymiarowego rozkładu normalnego, lecz to założenie nie jest potrzebne dla wprowadzenia ogólnej teorii.] Niech p i = prawdopodobieństwa a priori populacji π i i = 1, 2,..., g c(k i) = koszt przydziału pozycji do π k, jeśli ona naprawdę należy do π i dla k, i = 1, 2,..., g Dla k = i, c(i i) = 0. Ostatecznie niech R k będzie zbiorem x-ów sklasyfikowanych jako π k i P(k i) = P(klasyfikacja pozycji jako π k π i ) = f R i (x)dx k g dla k, i = 1, 2,..., g, gdzie P(i i) = 1 P(k i) k=1 k i
Warunkowy oczekiwany koszt błędnej klasyfikacji Warunkowy oczekiwany koszt błędnej klasyfikacji x z π 1 do π 2 lub π 3,..., lub π g to ECM(1) = P(2 1)c(2 1) + P(3 1)c(3 1) +... + P(g 1)c(g 1) g = P(k i)c(k i) k=2 Ten warunkowy oczekiwany koszt pojawia się z prawdopodobieństwem a priori p i, prawdopodobieństwem π 1.
Oczekiwany koszt błędnej klasyfikacji W podobnym sposób można uzyskać warunkowe oczekiwane koszty błędnej klasyfikacji ECM(2),..., ECM(g). Wymnożenie każdego warunkowego ECM przez jego prawdopodobieństwo a priori i zsumowanie daje całkowity ECM: ECM = p 1 ECM(1) + p 2 ECM(2) +... + p g ECM(g) ( g ) g = p 1 P(k 1)c(k 1) + p 2 P(k 2)c(k 2) k=2 k=1 k 2 ( g 1 ) + + p g P(k g)c(k g) = g i=1 p i k=1 g P(k i)c(k i) k=1 k i
Wyznaczenie najlepszej procedury klasyfikacyjnej sprowadza się do wybrania wzajemnie rozłącznych obszarów klasyfikacji R 1, R 2,..., R g tak aby ECM było minimum. Rezultat 11.5 Obszary klasyfikujące, które minimalizują ECM są zdefiniowane przez przydzielenie x do tej populacji π k, k = 1, 2,..., g dla której g p i f i (x)c(k i) i=1 i k jest najmniejsze. Jeżeli istnieje więcej niż jedno rozwiązanie, x może być przydzielony do jakiejkolwiek populacji ze zbioru rozwiązań.
Reguła Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji (ECM) przy równych kosztach błędnej klasyfikacji Przydziel x 0 do π 1 jeżeli lub odpowiednio Przydziel x 0 do π 1 jeżeli p k f k (x) > p i f i (x) dla wszystkich i k ln p k f k (x) > ln p i f i (x) dla wszystkich i k
Interesującym faktem wartym odnotowania jest to, że reguła klasyfikacji z poprzedniego slajdu jest identyczna do tej, która maksymalizuje prawdopodobieństwa a posteriori P(π k x) = P(x pochodzi z π k pod warunkiem, że x było zaobserwowane), gdzie P(π k x) = p kf k (x) (prior) (likelihood) = g [(prior) (likelihood)] p i f i (x) i=1 dla k = 1, 2,..., g Uwaga : Należy pamiętać, że ogólnie reguły minimum ECM mają trzy składniki: prawdopodobieństwa a priori, koszty błędnej klasyfikacji i funkcje gęstości prawdopodobieństwa. Te elementy muszą być określone lub oszacowane przed możliwością realizacji reguł.
Przykład 11.9 (Klasyfikowanie nowej obserwacji do jednej z trzech znanych populacji) Przyporządkujmy obserwację x 0 do jednej z g = 3 populacji π 1, π 2 lub π 3 mając następujące hipotetyczne prawdopodobieństwa a priori, koszta błędnej klasyfikacji i wartości gęstości prawdopodobieństwa: Prawdziwa Populacja π 1 π 2 π 3 π 1 c(1 1) = 0 c(1 2) = 500 c(1 3) = 100 Klasyfikuj jako: π 2 c(2 1) = 10 c(2 2) = 0 c(2 3) = 50 π 3 c(3 1) = 50 c(3 2) = 200 c(3 3) = 0 Prawdopodobieństwa a priori: p 1 = 0.05 p 2 = 0.60 p 3 = 0.35 Wartość funkcji gęstości w x 0 : f 1 (x 0 ) = 0.01 f 2 (x 0 ) = 0.85 f 3 (x 0 ) = 2 Użyjemy procedur minimum ECM.
Przykład 11.9 (Klasyfikowanie nowej obserwacji do jednej z trzech znanych populacji) 3 Wartościami i=1 i k p i f i (x 0 )c(k i) są k = 1 : k = 2 : k = 3 : p 2 f 2 (x 0 )c(1 2) + p 3 f 3 (x 0 )c(1 3) = (0.60)(0.85)(500) + (0.35)(2)(100) = 325 p 1 f 1 (x 0 )c(2 1) + p 3 f 3 (x 0 )c(2 3) = (0.05)(0.01)(10) + (0.35)(2)(50) = 35.055 p 1 f 1 (x 0 )c(3 1) + p 2 f 2 (x 0 )c(3 2) = (0.05)(0.01)(50) + (0.60)(0.85)(200) = 102.025 Skoro 3 p i f i (x 0 )c(k i) jest najmniejsze dla k = 2, to przyporządkujemy x 0 do π 2. i=1 i k
Przykład 11.9 (Klasyfikowanie nowej obserwacji do jednej z trzech znanych populacji) Jeżeli wszystkie koszta błędnej klasyfikacji byłyby takie same, to przyporządkujemy x 0 posługując się zasadą minimum ECM przy równych kosztach, która wymaga tylko następujących iloczynów p 1 f 1 (x 0 ) = (0.05)(0.01) = 0.0005 p 2 f 2 (x 0 ) = (0.60)(0.85) = 0.510 p 3 f 3 (x 0 ) = (0.35)(2) = 0.700 Ponieważ p 3 f 3 (x 0 ) = 0.700 p i f i (x 0 ), i = 1, 2 powinniśmy przyporządkować x 0 do π 3.
Przykład 11.9 (Klasyfikowanie nowej obserwacji do jednej z trzech znanych populacji) Równoważnie moglibyśmy obliczyć prawdopodobieństwa a posteriori, uzyskujemy P(π 1 x 0 ) = p 1f 1 (x 0 ) (0.05)(0.01) = 3 (0.05)(0.01) + (0.60)(0.85) + (0.35)(2) = 0.0005 1.2105 = 0.0004 p i f i (x 0 ) i=1 P(π 2 x 0 ) = p 2f 2 (x 0 ) 3 p i f i (x 0 ) i=1 P(π 3 x 0 ) = p 3f 3 (x 0 ) 3 p i f i (x 0 ) i=1 = (0.60)(0.85) 1.2105 = 0.510 1.2105 = 0.421 = (0.35)(2) 1.2105 = 0.700 1.2105 = 0.578 Widzimy, że x 0 jest przydzielone do π 3 do populacji z największym prawdopodobieństwem a posterior.
Klasyfikacja populacji normalnych Ważny przypadek następuje wówczas gdy f i (x) = gdzie i = 1,..., g. 1 (2π) p/2 Σ i 1/2 exp[ 1 2 (x µ i ) Σ i 1 (x µ i )] (46) są wielowymiarowymi gęstościami normalnymi z wektorami średnich µ i i macierzami kowariancji Σ i. Jeśli, ponadto c(i i) = 0, c(k i) = 1, k i (lub, równoważnie koszty błędnych klasyfikacji są równe), wówczas następuje (41) Przydziel x 0 do π k jeżeli: lnp k f k (x) > lnp i f i (x) dla i k
Kwadratowy wynik dyskryminacji Przydziel x do π k jeżeli lnp k f k (x) = lnp k ( p 2 )ln(2π) ln Σ k 1 2 (x µ k) Σ k 1 (x µ k ) = maxlnp i f i (x) (47) Stała (p/2)ln(2π) może zostać pominięta w (44), ponieważ jest ona taka sama dla wszystkich populacji. W związku z tym zdefiniujmy kwadratowy wynik dyskryminacji dla i-tej populacji jako
Kwadratowy wynik dyskryminacji d Q i (x) = ln Σ i 1 2 (x µ i ) Σ i 1 (x µ i ) + lnp i (48) gdzie i = 1,..., g. d Q i (x) składa się z wkładów uogólnionej wariancji Σ i, prawdopodobieństwa priori, oraz z kwadratu odległości x od średniej populacji µ i.
Używając kwadratowych wyników dyskryminacji, dostajemy, że zasada klasyfikacji (44) przedstawia się następująco: Zasada minimalnego całkowitego prawdopodobieństwa błędnej klasyfikacji (TPM) dla populacji normalnych - nierówne Σ i Przydziel x do π k jeżeli: d Q k (x) = największy z d Q 1 (x), d Q 2 (x),..., d Q g (x) (49) gdzie d Q k (x) jest dany wzorem (45) W praktyce, µ i i Σ i są nieznane, ale zbiór uczący poprawnie sklasyfikowanych obserwacji jest często dostępny do budowy oszacowań. Odpowiednie ilości prób dla populacji π i są: x i - próbka wektora średniej S i - próbka macierzy kowariancji n i - rozmiar próbki
Wtedy estymacja (oszacowanie) kwadratowego wyniku dyskryminacyjnego d Q i (x) to: ˆ d Q i (x) = ln S i 1 2 (x x i) S i 1 (x x i ) + lnp i (50) gdzie i = 1,..., g. i zasada klasyfikacji oparta na próbie jest następująca:
Zasada szacowania minimum (TPM) dla kilku populacji normalnych nierówne Σ i Przydziel x do π k jeżeli d ˆ Q k (x) = największy z d ˆ Q 1 (x), d ˆQ 2 (x),..., d ˆ g Q (x) (51) gdzie d ˆQ k (x) jest dany wzorem (47) Uproszczenie jest możliwe, gdy macierze kowariancji populacji Σ i są równe. Gdy Σ i =Σ, dla i=1,2,...,g wynik dyskryminacji w (45) staje się: d Q i (x) = 1 ln Σ 1 2 2 x Σ 1 x + µ i Σ 1 x 1 2 µ i Σ 1 µ i + lnp i Pierwsze dwa składniki są takie same dla d Q 1 (x), d Q 2 (x),..., d Q g (x) i, konsekwentnie mogą zostać zignorowane dla celów alokacyjnych. Pozostałe składniki składają się ze stałej c i = lnp i 1 2 µ i Σ 1 µ i oraz liniowej kombinacji składników x.
Następnie, zdefiniujmy liniowy wynik dyskryminacji gdzie i = 1,..., g d Q i (x) = µ i Σ 1 x 1 2 µ i Σ 1 µ i + lnp i (52) Oszacowanie ˆd i (x) liniowego dyskryminantu d i (x) oparte jest na sumarycznym oszacowaniu Σ. S pooled = 1 n 1 + n 2 +... + n g g ((n1 1)S 1 +(n 2 1)S 2 +...+(n g 1)S g ) (53) i dany jest wzorem Liniowy wynik dyskryminacji ˆd i (x) = x i S 1 pooled x 1 2 x i S 1 pooled x i + lnp i (54)
W konsekwencji, mamy następująco: Zasada szacowania minimum (TPM) dla równych kowariancji populacji normalnych. Przydziel x do π k jeżeli: d ˆ Q k (x) = największy z d ˆ Q 1 (x), d ˆQ 2 (x),..., d ˆ g Q (x) (55) z ˆ d Q i (x) dany jest wzorem (51). Równoważny klasyfikator w przypadku równej kowariancji można uzyskać z (45) ignorując stałą, 1 2ln Σ. W rezultacie, oszacowania próbki umiejscowione dla nieznanej ilości populacji, mogą być interpretowane w przypadkach kwadratów odległości D i 2 (x) = (x x i ) S 1 pooled (x x i) (56) x do próbki wektora średniej x i.
Zasada przydziału jest wtedy następująca: Przydział x do populacji π i dla której 1 2 D i 2 (x) + lnp i jest największe (57) Widzimy, że ta zasada, lub równoważnie (52) przypisuje x do najbliższej populacji. Jeżeli prawdopodobieństwa priori są nieznane, najczęstszą procedurą jest przypisanie p 1 = p 2 =... = p g = 1 g. Obserwacja jest wtedy przypisana do najbliższej populacji.
Przykład Obliczenie przykładowych dyskryminantów, zakładając wspólną macierz kowariancji. Policzmy liniowe dyskryminanty oparte na 3 populacjach zakładając, że pochodzą one z dwuwymiarowego rozkładu normalnego ze wspólną macierzą kowariancji. Losowe próbki z populacji π 1, π 2,π 3 wraz ze próbką wektorów średnich i macierzy kowariancji są następujące: [ 2 5 π 1 : X 1 = 0 3 1 1 [ 0 6 π 2 : X 2 = 2 4 1 2 π 3 : X 3 = ] ] [ 1 2 0 0 1 4 [ 1 więc n1 = 3 x 1 = 3 [ 1 więc n2 = 3 x 2 = 4 ] ] ] [ 0 więc n3 = 3 x 3 = 4 [ 1 1 oraz S1 = 1 4 [ 1 1 oraz S2 = 1 4 ] [ 1 1 oraz S3 = 1 4 ] ] ]
Mając p 2 = p 2 = 0.25 oraz p 3 = 0.50 sklasyfikujmy obserwacje x 0 = [x 01, x 02 ] = [ 2 1] nawiązując do (52). Z (50) [ ] [ ] [ S pooled = 3 1 1 1 + 3 1 1 1 + 3 1 1 1 9 3 1 4 9 3 1 4 9 3 1 4 [ ] [ ] = 2 1 + 1 + 1 1 1 + 1 1 1 = 3 6 1 1 + 1 4 + 4 + 4 1 4 3 ] więc Następnie i [ S 1 pooled = 9 36 3 35 3 9 ] [ = 1 35 [ 1 x 1 S pooled = [-1 3] 1 36 3 35 3 9 x 1 S 1 pooled x 1 = 1 35 [-27 24] [ 1 3 ] 1 4 3 1 1 3 ] = 1 [-27 24] 35 ] = 99 25 więc 1 Agnieszka ˆd 1 (x Gołota, 0 ) = Paweł lnp 1 Grabowski + x 1 S pooled Dariusz x 0 Bełczowski, 1 2 x 1 S 1 pooled Paweł x Cejrowski 1 = Klasyfikacja ln(0.25) i dyskrymiancja + ( 27 35 )x 01 -+ Statystyka ( 24 35 )x 02w SAS 1 2 ( 99 35 )
Zauważmy liniową formę ˆd i (x) =stała +(stała)x 1 +(stała)x 2. W prostszej postaci: [ 1 x 2 S pooled = [1 4] 1 36 3 35 3 9 x 2 S 1 pooled x 2 = 1 35 [48 39] [ 1 4 ] = 1 [48 39] 35 ] = 204 35 i Ostatecznie ˆd 2 (x 0 ) = ln(0.25) + ( 48 35 )x 01 + ( 39 35 )x 02 1 2 ( 204 35 ) [ 1 x 3 S pooled = [0-2] 1 36 3 35 3 9 x 3 S 1 pooled x 3 = 1 35 [-6-18] [ 0 2 ] = 1 [-6-18] 35 ] = 36 35 i ˆd 3 (x 0 ) = ln(0.50) + ( 6 35 )x 01 + ( 18 35 )x 02 1 2 ( 36 35 )
Podstawiając numeryczne wartości x 01 = 2 oraz x 02 = 1 otrzymujemy: ˆd 1 (x 0 ) = 1.386 + ( 27 35 ˆd 2 (x 0 ) = 1.386 + ( 48 35 ˆd 3 (x 0 ) = 0.693 + ( 6 35 )( 2) + ( 24 35 )( 2) + ( 39 35 )( 2) + ( 18 35 99 )( 1) = 17 1.943 204 )( 1) = 70 8.158 36 )( 1) = 70 0.350 Ponieważ ˆd 3 (x 0 ) = 0.350 jest największe, przydzielamy x 0 do π 3.
Klasyfikowanie potencjalnych absolwentów szkoły biznesowej Pracownik szkoły biznesowej użył indeksu zawierającego średnią z uzyskanych ocen (GPA) oraz wyniki testu końcowego (GMAT), które miały mu pomóc w podjęciu decyzji którzy studenci mogą zostać dopuszczeni do studiów podyplomowych. Dane przedstawiają pary wartości GPA oraz GMAT dla grup ostatnich aplikujących którzy zostali podzieleni na trzy grupy: A-dopuszczeni, B - graniczący, C-niedopuszczeni.
Próbka testowa - kod Rysunek: Kod dla próbki testowej
Wyniki procedury proc surveyselect Wyniki dla procedury surveyselect, w której określiliśmy wielkość próbki testowej: Rysunek: Procedura proc surveyselect
Wyniki procedury proc sql Rysunek: Procedura proc sql gdzie pierwsza pozycja podaje liczebność próbki testowej, druga liczebność zbioru wejściowego a trzecia liczebność różnicy między zbiorami.
Kod procedury proc discrim Rysunek: Kod proc discrim
Procedura proc discrim - opis danych Rysunek: Opis danych
Opcja WCOV Opcja WCOV wyświetla macierze kowariancji osobno dla admit,bordline,noadmit. Rysunek: Macierze kowariancji
Opcja VCOV Opcja VCOW wyświetla sumaryczną macierz kowariancji. Rysunek: Sumaryczna macierz kowariancji
Opcja MANOVA Rysunek: MANOVA
Liniowa funkcja rozpoznawcza Liniowa funkcja rozpoznawcza, gdzie: stała = 1 2 x j S 1 pooled x j + lnpj wartość współczynnika = S 1 pooled x j Rysunek: Liniowa funkcja rozpoznawcza Liniowe funkcje rozpoznawcze dla: d admit ˆ (x) = 102.08088gpa + 0.22345gmat 236.46420 d noadmit ˆ (x) = 75.16753gpa + 0.17541gmat 133.35522 d bordline ˆ (x) = 89.74515gpa + 0.18142gmat 176.06287
Uogólniona odległość kwadratowa Uogólniona odległość kwadratowa: Dj 2(x) = (x x j ) S 1 pooled (x x j ) Prawdopodobieństwo a posteriori uczestnictwa w grupie Status: p(j x) = exp( 1 2 D2 j (x))/ k = 1 n ( 1 2 D2 k (x)) Rysunek: Uogólniona odległość kwadratowa
Opcja LISTERR Opcja listerr pokazuje błędnie sklasyfikowane obserwacje
Wyniki - próbka testowa Rysunek: Wyniki dla próbki testowej
Liniowe wyniki dyskryminacyjne (49) mogą zostać porównane. Możemy zauważyć, że jeżeli d k (x) jest największym dyskryminantem liniowym spośród d 1(x), d 2(x),..., d g (x) to jest to równoważne dla 0 d k (x) d i (x) = (µ k µ i ) Σ 1 x 1 2 (µ k µ i ) Σ 1 (µ k + µ i ) + ln( p k p i ) dla każdego i = 1, 2,..., g. Dodanie ln(p k /p i ) = ln(p i /p k ) do obydwu stron poprzedniej nierówności daje alternatywną formę zasady klasyfikacji, która minimalizuje całkowite prawdopodobieństwo błędnej klasyfikacji. Tak więc przydzielamy x do π k jeżeli (µ k µ i ) Σ 1 x 1 2 (µ k µ i ) Σ 1 (µ k + µ i ) ln( p i p k ) (58) dla każdego i = 1, 2,..., g.