2018
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Wstęp Definicja klasyfikacji i dyskryminacji Dyskriminacja i klasyfikacja są wielowymiarowymi metodami zajmującymi się rozdzielaniem na zbiory obiektów(obserwacji) i przyporządkowywaniem nowych obiektów(obserwacji) do wcześniej zdefiniowanych zbiorów. Dyskryminacja Dyskryminacja jest procedurą rozpoznawczą, służącą do zbadania zaobserwowanych różnic w obiektach, kiedy prawdziwe zależności nie są jeszcze do końca znane. Klasyfikacja Klasyfikacja jest natomiast procedurą tworzącą zdefiniowane reguły za pomocą których można przydzielać obiekty do zbiorów. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Cele dyskryminacji Opisanie graficzne (w przypadku 3 lub mniej wymiarowym) bądź algebraiczne, cech różniących poszczególne obiekty z kilku znanych zbiorów. Cele klasyfikacji Przydzielenie obiektów do kilku określonych klas oraz uzyskanie dzięki temu reguły, które pozwoli optymalnie przypisywać nowe obiekty do poszczególnych klas. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Dyskryminacja i klasyfikacja dla dwóch populacji Aby pokazać jak działają te metody, omówimy sytuację, w której chcemy rozdzielić zbiór na dwie klasy obiektów albo przyporządować nowy obiekt do jednej z dwóch klas (lub obydwu). Oznaczymy klasy jako π 1 i π 2. Pierwotnie obiekty (obserwacje) są zwykle rozdzielane lub klasyfikowane na podstawie pomiarów, np. na podstawie p zmiennych losowych, powiązanych ze sobą X = [X1, X2,..., Xp]. Zaobserwowane wartości X różnią się w pewnym stopniu między klasami. Wszystkie wartości pochodzące z pierwszej klasy możemy traktować jako populację π 1 o wartościach x, a dla tych pochodzących z klasy drugiej, jako populację pi 2 o wartościach x P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Te dwie populacje mogą być opisane przez funkcje gęstości f 1 (x) oraz f 2 (x), a tym samym, możemy mówić o przypisywaniu obserwacji do populacji (albo równoważnie obiektów do klas). P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Analizując przykład 7, zauważamy, że obiekt (klienci banku starający się o kredyt) został rozdzielony na dwie klasy (pozytywne ryzyko kredytowe i negatywne ryzyko kredytowe) na podstawie cech (dochody, wiek, ilość kart kredytowych, wielkość rodziny). Używając terminologii obserwacji i populacji, chcieliśmy podzielić obserwacje postaci: x 0 = [x 1 (dochody), x 2 (wiek), x 3 (ilość kart kredytowych), x 4 (wielkość rodziny)] na π 1 (pozytywne ryzyko kredytowe) i populację π 2 (negatywne ryzyko kredytowe). P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Zazwyczaj zbiór wszystkich wyników dzieli się na dwa regiony R 1 i R 2, takie że, jeżeli nowa obserwacja wpadnie do R 1 to jest przypisywana do populacji π 1, a jeżeli do R 2 to jest przypisywana do populacji π 2. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Problemy w klasyfikacji Klasyfikacja stwarza kilka komplikacji, jako że aby ją wykonać musza być spełnione pewne warunki: Niepewność w prawidłowości przyszłych wyników Sytuacja w której, ktoś chciałby ocenić jaką szansę mają dani studenci na zostanie architektami, po egzaminach wstępnych na kierunek, podczas gdy na studiach sytuacja, może ulec wielkiej zmianie Całkowicie pewna informacja sprawia, że obiekt jej dotyczący ulega zniszczeniu Bateria w kalkulatorze, o której wiemy kiedy się zużyje dopiero, gdy dojdzie do faktu, czyli kalkulator będzie niezdatny do użytku, lub klocek drewna, który wiemy po ilu ciosach siekierą da się przeciąć, dopiero gdy to zrobimy P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Niedostępne lub drogie informacje Zakłada się, ze niektóre artykuły i eseje z tzw. Federalist Papers zostały napisane przez Jamesa Madisona i Alexandra Hamiltona, ponieważ podpisali je. Jednakże niektóre artykuły i eseje były niepodpisane. Przedmiotem zainteresowania jest, który z dwóch autorów napisał niepodpisane dokumenty. Oczywiście, nie możemy ich zapytać. Częstotliwość słów i długości zdań mogą pomóc klasyfikować sporne dokumenty. Uwaga Zasady klasyfikacji nie mogą zazwyczaj zapewnić bezbłędnej metody przydziału. Wynika to z tego, że nie może być wyraźnych różnic między mierzonymi cechami populacji, to znaczy, że grupy mogą się pokrywać. Jest więc możliwe, na przykład, nieprawidłowe klasyfikowanie obiektu z π 2 jako należące do π 1 lub obiektu z π 1 jako należące do π 2. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Przykład - kosiarki Rozpatrzymy dwie grupy mieszkanców pewnego miasta. Jedną z tych grup są mieszkańcy posiadający kosiarki, a drugą mieszkańcy, którzy nie posiadają kosiarek. Aby wyznaczyć perspektywy sprzedaży, firma produkująca kosiarki jest zainteresowana podziałem mieszkańcow na potencjalnych klientów oraz tych, którzy nie będą zainteresowani zakupem. W tym celu weźmiemy pod uwage dwie zmienne: x1 -przychód x2 -wielkość działki. Próba losowa zawiera 12 obserwacji dla pierwszej populacji oraz 12 dla drugiej. Dane zostały przedstawione w tabeli oraz na wykresie. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Tak więc próbkowa funkcja klasyfikacji podzieliła obserwacje na następujące regiony: Uwaga Procedura klasyfikacji powinna spowodować dosłownie kilka błędnych klasyfikacji (prawdopodobieństwo błędnej klasyfikacji powinno być małe.) P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Miara oceny skuteczności próbkowej funkcji klasyfikacyjnej Macierz pomyłek Dla n 1 obserwacji z π 1 oraz n 2 z π 2, macierz pomyłek ma postać: gdzie: n 1C, n 2C - liczba obserwacji poprawnie sklasyfikowanych odpowiednio z populacji π 1 i π 2 n 1M, n 2M - liczba obserwacji niepoprawnie sklasyfikowanych odpowiednio z populacji π 1 i π 2 P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Wskaźnik błędów pozornych - APER (Apparent Error Rate) APER zdefiniowany jest jako procent obserwacji z próbki uczącej, które są błędnie sklasyfikowane przez próbkową funkcję klasyfikującą i może być policzony z macierzy pomyłek: AP ER = n 1M +n 2M n 1 +n 2 APER nie zależy od postaci populacji jest możliwy do obliczenia dla wszystkich procedur klasyfikacyjnych P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Miara oceny skuteczności próbkowej funkcji klasyfikacyjnej Macierz pomyłek - przykład Kosiarki Dla przykładu z kosiarkami, macierz pomyłek ma postać: APER AP ER = n 1M +n 2M n 1 +n 2 100% = 2+2 12+12 100% = 16, 7% P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Optymalna reguła klasyfikacji Optymalna reguła klasyfikacji powinna posiadać następujące cechy: bierze pod uwagę prawdopodobieństwa a priori uwzględnia (w miarę możliwości) koszty związane z błędną klasyfikacją P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Prawdopodobieństwo Niech: f 1 (x), f 2 (x) funkcje gęstości prawdopodobieństwa związane z wektorem px1 zmiennej losowe X dla populacji, odpowiednio: π 1, π 2. ω przestrzeń próby czyli zbiór wszystkich możliwych obserwacji x R 1 zbiór wartości x dla których klasyfikujemy obiekty jako populacje π 1 R 2 = ωr 1 zbiór wartości x, da których klasyfikujemy obiekty jako π 2. Każdy obiekt musi być przypisany jednej i tylko jednej z dwóch populacji. Zbiory R 1 i R 2 wykluczają się wzajemnie i wyczerpują. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Prawdopodobieństwo warunkowe P (2 1), czyli klasyfikacji obiektu jako π 2, kiedy w rzeczywistości należy do π1 dane jest wzorem: P (2 1) = P (X R 2 π 1 ) = f 1 (x)dx R+2=ω R 1 podobnie definiujemy prawdopodobieństwo warunkowe P (1 2), czyli klasyfikacje obiektu jako π 1 kiedy w rzeczywistości pochodzi z π 2 : P (1 2) = P (X R 1 π 2 ) = f 2 (x)dx R 1 P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Znak całki we wzorach oznacza objętość utworzoną przez funkcję gęstości f 1 (x) na regionie R 2 oraz objętość utworzoną przez funkcję gęstości f 2 (x), na regionie R 1. Ilustruje to wykres poniżej (dla p = 1). P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Nasze p 1 to będzie prawdopodobieństwo a priori dla π 2 oraz p 2 będzie prawdopodobieństwem a priori dla π 1, gdzie p 1 + p 2 = 1. Następnie całkowite prawdopodobieństwa poprawnie lub niepoprawnie klasyfikowanych obiektów można uzyskać jako produkt wcześniejszych i warunkowych prawdopodobieństw klasyfikacyjnych: P(obserwacja pochodzi z π 1, i jest poprawnie sklasyfikowana jako π 1 ) == P (X R 1 π 1 )P (π 1 ) = P (1 1)p 1 P(obserwacja pochodzi z π 2, i jest poprawnie sklasyfikowana jako π 2 ) == P (X R 2 π 2 )P (π 2 ) = P (2 2)p 2 P(obserwacja pochodzi z π 2, i jest błędnie sklasyfikowana jako π 1 ) == P (X R 1 π 2 )P (π 2 ) = P (1 2)p 2 P(obserwacja pochodzi z π 1, i jest błędnie sklasyfikowana jako π 2 ) == P (X R 2 π 1 )P (π 1 ) = P (2 1)p 1 P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Koszt błędnej klasyfikacji Koszt błędnej klasyfikacji może być zdefiniowany przez macierz kosztów : Analiza macierzy koszty wynoszą 0 dla poprawnej klasyfikacji koszt wynosi c(1 2), gdy obserwacja z π 2 jest niepoprawnie sklasyfikowana jako π 1 koszt wynosi c(2 1), gdy obserwacja z π 1 jest niepoprawnie sklasyfikowana jako π 2 P. Kowalik, D. Jóźwicki
Oczekiwany koszty błędnej klasyfikacji (ECM) jest wyznaczony poprzez pomnożenie anty-diagonalnych wyrazów (z macierzy kosztów ) przez ich prawdopodobieństwa klasyfikacyjne. W konsekwencji otrzymujemy: ECM = c(2 1)P (2 1)p 1 + c(1 2)P (1 2)p 2 Regiony R 1 i R 2, które minimalizują ECM są zdefiniowane przez następujące nierówności: R 1 : f 1(x) f 2 (x) c(1 2) c(2 1) (współczynnik gęstości) (współczynnik kosztu)(współczynnik prawdop. a priori) R 2 : f 1(x) f 2 (x) < c(1 2) c(2 1) p 2 p 1 p 2 p 1 D. Jóźwicki, P. Kowalik
Wyznaczenie regionów R 1 oraz R 2 dla szczególnych przypadków: p 2 p 1 = 1 (prawdopodobieństwa a priori są równe) R 1 : f 1(x) c(1 2) f 2 (x) c(2 1) R 2 : f 1(x) f 2 (x) < c(1 2) c(2 1) c(1 2) c(2 1) = 1 (koszty błędnych klasyfikacji są równe) R 1 : f 1(x) f 2 c(1 2) c(2 1) = p 2 p 1 = 1 c(1 2) c(2 1) R 2 : f 1(x) f 2 (x) < p 2 p 1 R 1 : f 1(x) f 2 (x) 1 R 2 : f 1(x) f 2 (x) < 1 D. Jóźwicki, P. Kowalik
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Klasyfikowanie nowego obiektu do jednej z dwóch populacji Załóżmy również, że dla nowej obserwacji x0 funkcje gęstości P. Kowalik, D. Jóźwicki Przykład Załóżmy, że badacz ma wystarczająco dużo danych, aby oszacować funkcję gęstości f 1 (x) i f 2 (x) związanych odpowiednio z populacjami π 1 i π 2. Załóżmy, ze c(2 1) = 5 i c(1 2) = 10. Ponadto, wiadomo, że ok. 20% obiektów z całej populacji (dla których pomiary x były odnotowane) należy do π 2. A zatem, nasze prawdopodobieństwa a priori wynoszą odpowiednio: p 1 = 0.8 i p 2 = 0.2. Znając prawdopodobieństwa a priori i koszty błędnej klasyfikacji, możemy wyznaczyć regiony klasyfikacji R 1 i R 2. R 1 : f 1(x) f 2 (x) 10 5 0.2 0.8 = 0.5 R 2 : f 1(x) f 2 (x) < 10 0.2 5 0.8 = 0.5
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Pytanie: Czy sklasyfikowałbyś nową obserwację x 0 do populacji π 1, czy do populacji π 1? Odpowiedź Wyliczamy współczynnik gęstości f 1 (x) f 2 (x) = 0.3 0.4 = 0.75 i porównujemy to z wynikami otrzymanymi wcześniej, czyli: f 1 (x) f 2 (x) = 0.3 0.4 c(1 2) p 2 = 0.75 > = 0.5 c(2 1) p 1 Wniosek: Otrzymujemy, że x 0 R 1 i klasyfikujemy nową obserwację x 0 do populacji π 1. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Całkowite prawdopodobieństwo błędnej klasyfikacji - TPM Rozważmy inne kryterium uzyskania optymalnej reguły klasyfikacji, niż oczekiwany koszt błędnej klasyfikacji (ECM). Ignorując koszty błędnej klasyfikacji i wybierając regiony R 1 i R 2, tak aby zminimalizować, tzw. całkowite prawdopodobieństwo błędnej klasyfikacji (TPM Total Probability of Misclassification), otrzymamy wzór: Uwaga T P M = P (obs. z π 1, błędnie sklasyfikowana) + + P (obs. z π 2, błędnie sklasyfikowana) = = p 1 f 1 (x)dx + p 2 f 2 (x)dx R 2 R 1 Matematycznie problem ten jest równoważny minimalizacji oczekiwanego kosztu błędnej klasyfikacji (ECM) kiedy koszty błędnej klasyfikacji są równe. W związku z tym, optymalne P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Ocena funkcji klasyfikacyjnych Jednym z ważniejszych sposobów oceny metod klasyfikacyjnych jest obliczenie ich wskaźnika błędów bądź prawdopodobieństwa błędnej klasyfikacji. Prawdopodobieństwo błędnej klasyfikacji jest proste do wyznaczenia, gdy postacie populacji macierzystych są całkowicie znane, jest to niestety rzadko spotykane, dlatego zazwyczaj większą wagą przywiązuje się do znalezienia wskaźnika błędów powiązanego z próbkową funkcją klasyfikującą. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Najmniejszą wartość całkowitego prawdopodobieństwa błędnej klasyfikacji (TPM), uzyskaną poprzez odpowiedni dobór obszarów R 1 oraz R 2 nazywamy najlepszym wskaźnikiem błędów (OER). Najlepszy wskaźnik błędów (OER Optimum Error Rate) OER = (minimum TPM) = p 1 R 2 f 1 (x)dx + p 2 R 1 f 2 (x)dx gdzie, jest on uzyskany poprzez odpowiedni dobór obszarów R 1 oraz R 2. Wskaźnik ten wskazuje jaki procent składników będzie niepoprawnie przydzielonych, po zastosowaniu najlepszej reguły klasyfikacji. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Przykład Jeśli mamy dwie populacje i znamy ich parametry to możemy policzyć OER, załóżmy, że wyniósł on: OER = (minimum TPM) = 0.2119 oznacza to, że najlepsza reguła klasyfikacji niepoprawnie przydzieli ok. 21% obserwacji. Wskaźnik ten jest łatwy do policzenia, gdy funkcje gęstości są znane. Jednak zwykle, niektóre parametry populacji muszą być oszacowane z próbki, wtedy ocena wskaźnika błędów nie jest już tak prosta. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Wskaźnikiem który nie zależy od postaci populacji jest wskaźnik błędów pozornych (APER), który był przedstawiony w przykładzie 1. Wskaźnik błędów pozornych (APER) jest dość łatwy do wyznaczenia, jednakże posiada także niestety swoje wady. Mianowicie ten sposób oceny funkcji klasyfikacyjnych posiada skłonność do niedoszacowywania innego wskaźnika, jakim jest tzw. wskaźnik błędów rzeczywistych (AER). Wadę tą możemy obejść dopiero biorąc bardzo duże wielkości próbek n 1 i n 2. Jednak, to optymistyczne szacowanie występuje, ponieważ dane, które służą do budowy funkcji klasyfikacyjnych również są stosowane do jej ocenienia. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Szacunki dotyczące wskaźników błędów mogą być lepiej skonstruowane niż wskaźnik błedów pozornych (APER) i dodatkowo mogą pozostać dość łatwe do obliczenia i nie wymagać założeń odnośnie rozkładu. Pierwszym ze sposobów jest rozdzielenie całej próbki na próbkę uczącą i próbką testową. Próbka ucząca służy do skonstruowania funkcji klasyfikacyjnej, próbka testowa służy do oceny jej wyników. Wskaźnik błędów jest określony jako udział błędnie sklasyfikowanych danych w próbce testowej. Pomimo, że ta metoda radzi sobie z problemem stronniczości, nie stosując tych samych danych do konstruowania i oceny funkcji klasyfikacyjnej, to posiada dwie zasadnicze wady: wymaga dużych próbek jeśli do konstrukcji funkcji klasyfikacyjnej nie zostaną użyte wszystkie dane, to ważne informacje mogą zostać utracone. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Metoda wydzielania Algorytm działania tzw. sprawdzania krzyżowego jest następujący: 1 Rozpocznij z grupą obserwacji z π 1. Pomiń jedną obserwację z tej grupy i opracuj funkcję klasyfikacyjną opartą na pozostałych n 1 1 oraz n 2 obserwacjach. 2 Sklasyfikuj wydzieloną obserwację, używając funkcji skonstruowanej w kroku 1. 3 Powtarzaj kroki 1 i 2 dla pozostałych obserwacji z π 1. (Niech n H 1M będzie liczbą tych obserwacji wydzielonych (ozn. H), które błędnie sklasyfikowano w tej grupie (π 1 ). 4 Powtarzaj kroki 1 do 3 dla obserwacji z π 2. (Niech n H będzie liczbą tych obserwacji wydzielonych, które błędnie sklasyfikowano w tej grupie π 2. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Drugie podejście, to tzw. metoda (algorytm) sprawdzania krzyżowego (metoda wydzielania Lachenbruch a), dzięki której możemy oszacować tzw. rzeczywisty wskaźnik błędów (AER). Skuteczność próbkowych funkcji klasyfikacyjnych zasadniczo może być poddana ocenie przez obliczenie rzeczywistego wskaźnika błędów (AER): Wskaźnik błędów rzeczywistych (AER Actual Error Rate) AER = p 1 f 1 (x)dx + p 2 f 2 (x)dx R 2 R 1 gdzie, R 1 oraz R 2 reprezentują obszary klasyfikacyjne wyznaczone odpowiednio przez próby o rozmiarach n 1 i n 2. Wskaźnik ten wskazuje jak próbkowa funkcja klasyfikacyjna będzie zmieniała się dla przyszłych próbek. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Wskaźnik błędów rzeczywistych Dzięki metodzie wydzielania możemy otrzymać estymator AER: Wartość oczekiwana wskaźnika błędów rzeczywistych (E(AER) Expected Actual Error Rate) Nieobciążony estymator wartości oczekiwanej wskaźnika błędów rzeczywistych (AER), wynosi: Ê(AER) = Ĥ1M + n H 2M n 1 + n 2 Aby można było ten wskaźnik policzyć, metoda ta musi występować gdy wykorzystywana jest liniowa funkcja klasyfikacyjna. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Przykład Załóżmy, że n 1 = n 2 = 3, dwuwymiarowe obserwacje zostały wybrane losowo z dwóch populacji π 1 oraz π 2 o wspólnej macierzy kowariancji. x 1 = 2 12 4 10 3 8 x 1 = [ ] x 2 = 4 7 [ 3 10 S 1 = S 2 = ] x 2 = [ 1 1 1 4 5 7 3 9 4 5 Zilustrujemy procedurę wydzielania oraz wyznaczymy wskaźnik błędów dla równych kosztów i prawdopodobieństw a priori. ] P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Procedura Wydzielania Wydzielamy pierwszą obserwację: x H = [ 2 12 ] Następnie liczymy statystyki dla macierzy bez tej obserwacji: X 1H = [ 4 10 3 8 ] [ x 1H = 3, 5 9 ] S 1H = [ 0, 5 1 1 2 ] P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Nowa połączona macierz kowariancji: S H,pooled = 1 3 (S 1H + 2S 2 ) = 1 3 [ 2, 5 1 1 10 ] Macierz do niej odwrotna jest postaci: 1 8 S 1 H,pooled = [ 10 1 1 2, 5 ] Zadaniem jest przydzielenie wydzielonej obserwacji x H do populacji π1 albo π2. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Procedura wydzielania Wydzieloną obserwację x H najłatwiej sklasyfikować na podstawie jej kwadratu odległości od średniej grup x 1H oraz x 2 kwadrat odległości od x 1H : (x H x 1H S 1 H,pooled (x H x 1H ) = [ 1, 5 3 ] 1 8 [ 10 1 1 2, 5 ] [ 1, 5 3 ] = 4, 5 kwadrat odległości od x 2 : (x H x 2H ) S 1 H,pooled (x H x 2H ) = [ 2 5 ] 1 8 [ 10 1 1 2, 5 ] [ 2 5 ] = 10, 3 P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Zauważmy, że odległość od x 1H jest mniejsza niż odległość od x 2, zatem klasyfikujemy x H jako obserwację z populacji π 1. Tak więc w tym przypadku klasyfikacja jest poprawna. P. Kowalik, D. Jóźwicki
Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Analogicznie przeprowadzamy procedurę dla 2 i 3 obserwacji z populacji π 1. Dla obserwacji x H = [ 4 10 ] oraz dla x H = [ 3 8 ] procedura prowadzi do niepoprawnego przydzielenia tych obserwacji do populacji π 2. Zatem n H 1M = 2 Podobnie robimy dla drugiej grupy, w tej grupie tylko dla obserwacji drugiej x H = [ 3 9 ] procedura prowadzi do niepoprawnego przydzielenia tej obserwacji do populacji π 1. P. Kowalik, D. Jóźwicki
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Klasyfikacja dla dwóch populacji o rozkładzie normalnym Procedury klasyfikacji oparte na populacjach o rozkładzie normalnym przeważają w praktyce statystycznej z uwagi na swoją prostotę oraz efektywnosc w różnych modelach. Zakładamy, że funkcje f 1 (x) i f 2 (x) są wielowymiarowymi funkcjami gęstosci z rozkładu normalnego z wektorach srednich i macierzy kowariancji odpowiednio: µ 1, Σ 1 oraz µ 2, Σ 2. Gęstosć Zakładamy, że gęstosć łączna X = [X 1, X 2,..., X p ] dla populacji π 1 i π 2 jest dana wzorem [ 1 f i (x) = (2π) p/2 exp 1 ] Σ 1/2 2 (x µ i) Σ 1 i (x µ i ) dla i = 1, Piotr 2. Kowalik, Dominik Jóźwicki
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Klasyfikacja normalych populacji gdy Σ 1 = Σ 2 = Σ Założmy, że µ 1, µ 2, Σ są znane. Wtedy po skróceniu wyrażeń (2π) p/2 Σ 1/2 otrzymujemy minimalne regiony klasyfikacji (ECM): [ R 1 : exp 1 2 (x µ 1) Σ 1 (x µ 1 ) + 1 ] 2 (x µ 2) Σ 1 (x µ 2 ) ( ) ( ) c(1 2) p2 c(2 1) p 1 R 2 : [ exp 1 2 (x µ 1) Σ 1 (x µ 1 ) + 1 ] 2 (x µ 2) Σ 1 (x µ 2 ) < ( c(1 2) c(2 1) ) ( p2 p 1 ).
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Pozwala to na skonstruowanie następującej reguły klasyfikacji minimalizującej ECM. Reguła klasyfikacji dla rozkładu normalnego Przypisujemy x 0 do π 1, jesli (µ 1 µ 2 ) Σ 1 x 0 1 2 (µ 1 µ 2 ) Σ 1 (µ 1 + µ 2 ) [( ) ( )] c(1 2) p2 ln. c(2 1) W przeciwnym przypadku przypisujemy x 0 do π 2. p 1
Próbka Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 W większosci sytuacji parametry populacji µ 1, µ 2 i Σ są nieznane, więc powyższą regułę należy zmodyfikować. Dokonano tego poprzez zastąpienie parametrów populacji przez odpowiedniki próbkowe. Załóżmy, że mamy n 1 obserwacji wielowymiarowej zmiennej losowej X = [X 1, X 2,..., X p ] z π 1 oraz n 2 obserwacji z π 2, gdzie n 1 + n 2 2 p. Z obserwacji otrzymujemy następujące macierze: X 1 = (n 1 p) x 11 x 12., X 2 = (n 2 p) x 21 x 22.. x 1n 1 x 2n 2
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Próbkowe wektory srednich oraz macierze kowariancji są okreslone następująco: x 1 p 1 x 2 p 1 = 1 n 1 n 1 j=1 = 1 n 2 n 2 j=1 x 1j, S 1 = 1 p p n 1 1 x 2j, S 2 = 1 p p n 2 1 n 1 (x 1j x 1 )(x 1j x 1 ) j=1 n 2 (x 2j x 2 )(x 2j x 2 ) j=1 Następnie łącząc S 1 i S 1 otrzymujemy nieobciążony estymator nieznanej macierzy kowariancji Σ Nieobciążony estymator macierzy kowariancji [ S pooled = n 1 1 (n 1 1) + (n 2 1) ] [ S 1 + n 2 1 (n 1 1) + (n 2 1) ] S 2.
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Biorąc x 1 za µ 1, x 2 za µ 2 oraz S pooled za Σ otrzymujemy następującą próbkową regułę klasyfikacji. Reguła klasyfikacji dla próbki Przypisujemy x 0 do π 1, jesli (x 1 x 2 ) Spooled 1 x 0 1 2 (x 1 + x 2 ) Spooled 1 (x 1 + x 2 ) [( ) ( )] c(1 2) p2 ln. c(2 1) p 1 W przeciwnym przypadku przypisujemy x 0 do π 2.
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 ( ) ( ) c(1 2) p2 Jeżeli = 1, to ln(1) = 0 i estymacyjna reguła c(2 1) p 1 minimalizacji ECM dla dwóch normalnych populacji sprowadza się do porównania zmiennej skalarnej: oszacowanej w x 0, z liczbą ŷ = (x 1 x 2 ) S 1 pooled x = â x ˆm = 1 2 (x 1 x 2 ) S 1 pooled (x 1 + x 2 ) = 1 2 (ŷ 1 + ŷ 2 ), gdzie ŷ 1 = (x 1 x 2 ) S 1 pooled x 1 = â x 1, ŷ 2 = (x 1 x 2 ) S 1 pooled x 2 = â x 2.
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Oznacza to, ze estymacyjna metoda minimalizacji ECM dla dwóch normalnych populacji jest równoznaczna z tworzeniem dwóch jednowymiarowych populacji dla wartosci y poprzez wziecie odpowiedniej kombinacji liniowej obserwacji pochodzacych z populacji π 1 i π 2 a nastepnie przypisaniu nowej obserwacji x 0 : do populacji π 1, jesli ŷ 0 = â x 0 ˆm (punkt srodkowy miedzy dwoma jednowymiarowymi srednimi y 1, y 2, do populacji π 2, jesli ŷ 0 = â x 0 < ˆm.
Przykład 1 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Bankructwo Dane opisują firmy, które zbankrutowały (0:populacja π 1 ) w przybliżeniu 2 lata przed bankructwem oraz firmy stabilne finansowo (1:populacja π 2 ) mniej więcej w tym samym okresie czasu. Zbiór zawiera 4 zmienne: x1 = (przepływy pięniężne)/(całkowite zadłużenie), x2 =(dochód netto)/(aktywa ogółem), x3 =(aktywa obrotowe)/(zobowiązania krótkoterminowe), x4 = (aktywa obrotowe)/(sprzedaż netto).
Wykres (x1, x2) Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2
Wykres (x1, x3) Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2
Wykres (x1, x4) Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2
Rezultaty SAS Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Wektory srednich, macierz odwrotna do S pooled. Załóżmy, że mamy obserwację x 0 = (0.17, 0.04, 2.45, 0.14) dotyczącą jakiejs nowej, innej firmy. Dzięki klasyfikacji możemy próbować Piotr przewidywać Kowalik, Dominikjej Jóźwicki przyszły Klasyfikacja los. i dyskryminacja
Rezultaty SAS Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Obserwacja x 0 = (0.17, 0.04, 2.45, 0.14) została przypisana do ( populacji ) ( π 2 na ) podstawie reguły klasyfikacji dla próbki, gdy c(1 2) p2 = 1, czyli firma której dotyczy ta obserwacja c(2 1) p 1 prawodopodobnie Piotr Kowalik, nie Dominik zbankrutuje. Jóźwicki
Przykład 2 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Hemofilia Przykład jest związany z wykrywaniem nosicieli hemofilii typu A. Do stworzenia procedury wykrywania potencjalnych nosicieli, próbki krwi pobrano od dwóch grup kobiet i zmierzono następujące dwie zmienne: X1 = log 1 0(AHF activity), X2 = log 1 0(AHF likeantigen), AHF - czynnik przeciwhemofilowy. Pierwsza grupa o licznosci n 1 = 30 kobiet została wybrana z populacji kobiet, które nie są nosicielkami genu hemofilii typu A (populacja π 1 ). Grupę tę będziemy nazywać normalni. Druga grupa licznosci n 2 = 22 kobiet została wybrana z populacji kobiet z rozpoznaną hemofilią typu A (populacja π 2 ). Tę grupę będziemy nazywać nosiciele. Sprawdzimy jak zaklasyfikwana zostanie nowa osoba x 0 = ( 0.21, 0.044).
Wykres Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2
Rezultaty SAS Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Czyli obserwacja Piotr Kowalik, xdominik 0 = ( 0.21, Jóźwicki 0.044) Klasyfikacja dotyczy i dyskryminacja prawodpodobnie
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Klasyfikacja normalych populacji gdy Σ 1 Σ 2 W przypadku kiedy macierze kowariancji nie są równe, reguły klasyfikacji okazują się bardziej skomplikowane. Rozważmy wielowymiarowe gęstosci normalne z σ i, i = 1, 2. Wtedy macierze kowariancji tak samo jak wektory wartosci oczekiwanych są różne dla każdej z dwóch populacji. Tak jak zauważylismy wczesniej, obszary minimum ECM oraz minimum całkowitego prawodpodobienstwa błędnej klasyfikacji TPM zależą od stosunku dwóch gęstosci f 1 (x)/f 2 (x) lub równoważnie logarytmu naturalnego ln[f 1 (x)/f 2 (x)] = ln[f 1 (x)] ln[f 2 (x)]. Jesli gęstosci wielowymiarowego rozkładu normalnego mają różne struktury kowariancji, to odpowiednie składniki w rozważanym stosunku gęstosci zawierające Σ i 1/2 nie skracają się tak jak ma to miejsce, gdy Σ 1 = Σ 2.
Regiony klasyfikacji Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Zastępując gęstosci wielowymiarowego rozkładu normalnego macierzami kowariancji w R 1 : R 2 : ( f 1 (x) c(1 2) f 2 (x) c(2 1) ( f 1 (x) c(1 2) f 2 (x) < c(2 1) ) ( p2 p 1 ) ( p2 p 1 ), ), po zlogarytmowaniu i uproszczeniu otrzymujemy regiony klasyfikacji:
Regiony klasyfikacji Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 R 1 : 1 2 x (Σ 1 1 Σ 1 2 )x + (µ 1Σ 1 1 µ 2Σ 1 2 )x k [( ) ( )] c(1 2) p2 ln c(2 1) p 1 R 2 : 1 2 x (Σ 1 1 Σ 1 2 )x + (µ 1Σ 1 1 µ 2Σ 1 2 )x k [( ) ( )] c(1 2) p2 < ln, c(2 1) p 1 gdzie k = 1 ( ) 2 ln Σ1 + 1 Σ 2 2 (µ 1Σ 1 1 µ 1 µ 2Σ 1 2 µ 2).
Reguła klasyfikacji Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Niech populacje π 1, π 2 beda opisane wielowymiarowymi gestosciami normalnymi z wektorami wartosci oczekiwanych i macierzami kowariancji odpowiednio µ 1, Σ 1 oraz µ 2, Σ 2 Regula klasyfikacji, która minimalizuje oczekiwane koszty blednej klasyfikacji podana jest wzorem: Reguła klasyfikacji dla Σ 1 Σ 2 Przypisujemy x 0 do π 1, jesli 1 2 x 0 (Σ 1 1 Σ 1 2 )x 0 + x 0 (µ 1Σ 1 1 (µ 2Σ 1 2 ) k [( ) ( )] c(1 2) p2 ln. c(2 1) p 1 W przeciwnym przypadku przypisujemy x 0 do π 2.
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Regula kwadratowej klasyfikacji (Σ 1 Σ 2 ) W praktyce powyższa reguła jest stosowana poprzez zastąpienie µ 1, µ 2, Σ 1, Σ 2 przez odpowiedniki próbkowe x 1,x 2, S 1, S 2 : Regula kwadratowej klasyfikacji Przypisujemy x 0 do π 1, jesli 1 2 x 0 (S1 1 S2 1 )x 0 + x 0 (x 1S1 1 x 2S2 1 ) k [( ) ( )] c(1 2) p2 ln. c(2 1) p 1 W przeciwnym przypadku przypisujemy x 0 do π 2.
Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Klasyfikacja przy użyciu funkcji kwadratowych jest raczej niefortunnym wyborem w przypadku ilosci wymiarów wiekszej niz dwa i może ona prowadzic do nieco niezwykłych rezultatów. W szczególnosci jest to prawdziwe, gdy dane nie pochodza (zasadniczo) z wielowymiarowego rozkladu normalnego. Dzieje się, tak dlatego, że poważną slaboscią reguły kwadratowej jest fakt, ze jest ona wrazliwa na odstąpienia od normalnosci.
Klasyfikacja dla dwóch populacji według Fishera Podejscie Fishera opiera się na przekształceniu wielowymiarowych obserwacji x do jednowymiarowych obserwacji y w taki sposób, żeby obserwacje pochodzące z populacji π 1 i π 2 były rodzielone najbardziej jak to możliwe. W tym celu zasugerowano wzięcie liniowych kombinacji x w celu utworzenia y. Metoda Fishera nie zakłada normalnosci populacji. Jednak zakłada równosć macierzy kowariancji Σ 1 = Σ 2.
Kombinacja liniowa x bierze wartosci y 11, y 12,... y n1 za obserwacje z pierwszej populacji oraz wartosci y 21, y 22,..., y n2 za obserwacje z drugiej populacji. Separacja tych dwóch zbiorów jednowymiarowych y-ków jest oszacowana poprzez różnice między y 1, y 2 i wyrażona w standardowych jednostach odchylenia, czyli separacja = y n1 1 y 2, gdzie s 2 j=1 y = (y 1j y 1 ) 2 + n 2 j=1 (y 2j y 2 ) 2, s y n 1 + n 2 2 jest łącznym estymatorem wariancji. Celem jest wybór takiej kombinacji liniowej x, dla której osiągana jest maksymalna separacja srednich próbkowych y 1, y 2.
Maksymalizacja separacji Kombinacja liniowa ŷ = â x = (x 1 x 2 ) S 1 pooled maksymalizuje stosunek (y 1 y 2 ) 2 s 2 y = (â x 1 â x 2 ) 2 â S 1 pooledâ = (â d) 2 â S 1 pooledâ po wszystkich wektorach współczynników â, gdzie d = (x 1 x 2 ). Maksymalna wartosć tego stosunku to D 2 = (x 1 x 2 ) S 1 pooled (x 1 x 2 ).
Reguła klasyfikacji Podejscie Fishera może być także użyte do klasyfikowania nowych obserwacji. Reguła klasyfikacji oparta na wyróżniku Fishera Przypisujemy x 0 do π 1, jesli ŷ 0 = (x 1 x 2 ) S 1 pooled x 0 ˆm = 1 2 (x 1 x 2 ) S 1 pooled (x 1 + x 2 ). W przeciwnym przypadku przypisujemy x 0 do π 2.
Przykład 1 Przykład w SAS W teorii uogólnienie klasyfikacji do g 2 populacji jest całkiem proste. Jednakże niewiele wiadomo o własnosciach próbkowych funkcji klasyfikacyjnych, a zwłaszcza ich wskaźniki błędów nie są do końca poznane. Odpornosć statystyk liniowej klasyfikacji dla dwóch populacji, na przykład na nierówne kowariancje lub nienormalnosć rozkładu, może być zbadana za pomocą eksperymentów przeprowadzonych z komputerowymi generatorami próbek. Dla więcej niż dwóch populacji to podejscie nie prowadzi do ogólnych wniosków. Dzieje się tak, ponieważ własnosci populacji zależą od jej lokalizacji i tym samym jest zbyt dużo możliwosci konfiguracji, aby możliwe było ich dogodne zbadanie.
Przykład 1 Przykład w SAS Metoda Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji Niech f i będzie funkcją gęstosci związaną z populacją π i, i = 1, 2,..., g. Niech p i = prawdopodobieństwo a priori dla populacji π i, c(k i) = koszt klasyfikacji obserwacji do π k, gdy w rzeczywistosci należy ona do π i. Dla k = i, c(k i) = 0. Niech R k oznacza zbiór x zaklasyfikowanych do π k oraz P (k i) = P (zaklasyfikowanie obserwacji do π k π i ) = f i (x)dx, R k P (i i) = 1 g P (k i). k=1 k i
Przykład 1 Przykład w SAS Warunkowy oczekiwany koszt błędnej klasyfikacji Warunkowy oczekiwany koszt błędnej klasyfikacji x z populacji π 1 do π 2 lub π 3... lub π g wynosi ECM(1) = P (2 1)c(2 1) + P (3 1)c(3 1) +... + P (g 1)c(g 1) g = P (k 1)c(k 1). k=2 Ten koszt występuje z prawodopodobieństwem a priori p 1 związanym z populacją π 1.
Przykład 1 Przykład w SAS Oczekiwany koszt błędnej klasyfikacji W podobny sposób uzyskujemy warunkowe oczekiwane koszty błędnej klasyfikacji dla pozostałych populacji. Wymnożenie każdego warunkowego ECM(expected cost of misclassification) przez jego prawdopodobieństwo a priori, a następnie zsumowanie, daje nam całkowity ECM.
Przykład 1 Przykład w SAS Całkowity oczekiwany koszt błędnej klasyfikacji ECM ECM = p 1 ECM(1) + p 2 ECM(2) +... + p g ECM(g) ( g ) g = p 1 P (k 1)c(k 1) + P (k 2)c(k 2) k=2 k=1 k 2 g 1 g g +... + p g P (k g)c(k g) = p i P (k i)c(k i) k=1 i=1 k=1 k i
Przykład 1 Przykład w SAS Wyznaczenie najlepszej procedury klasyfikacyjnej sprowadza się do wybrania wzajemnie rozłącznych obszarów klasyfikacji R 1, R 2,..., R g, tak aby ECM był jak najmniejszy. Wynik 11.5 (Obszary minimalizujące ECM) Obszary klasyfikacji, które minimalizują ECM są okreslone przez przydzielenie x do tej populacji π k, k = 1, 2,..., g dla której suma g p i f i (x)c(k i) i=1 i k jest najmniejsza. Jeżeli istnieje więcej niż jedno rozwiązanie, x może zostać przydzielony do jakiejkolwiek z możliwych populacji.
Przykład 1 Przykład w SAS Załóżmy, że wszystkie koszty błędnej klasyfikacji są równe. Bez straty ogólnosci możemy założyć, że wynoszą one 1. Możemy w takim przypadku sformułować regułę klasyfikacji. Reguła minimum ECM przy równych kosztach błędnej klasyfikacji Przypisujemy x 0 do π k, jesli p k f k (x) > p i f i (x) dla wszystkich i k lub równoważnie, przypisujemy x 0 do π k, jesli ln p k f k (x) > ln p i f i (x) dla wszystkich i k.
Przykład 1 Przykład w SAS Uwaga Należy pamiętać, że ogólnie reguły minimum ECM mają trzy składniki: prawdopodobieństwa a priori, koszty błędnej klasyfikacji oraz funkcje gęstosci prawdopodobieństwa. Te elementy muszą zostać okreslone lub oszacowane przed zastosowaniem reguły.
Przykład 1 Przykład w SAS Przykład (Klasyfikacja nowej obserwacji do jednej z trzech znanych populacji) Przyporządkujmy obserwację x 0 do jednej z 3 populacji π 1, π 2, π 3 mając następujące hipotetyczne prawdopodobieństwa a priori, koszty błędnej klasyfikacji oraz wartosci gęstosci prawodpodobieństwa. Użyjemy metod minimum ECM.
Przykład 1 Przykład w SAS Obliczamy wartosci populacji. 3 p i f i (x 0 )c(k i) dla wszystkich trzech i=1 i k k = 1 : k = 2 : k = 3 : p 2 f 2 (x 0 )c(1 2) + p 3 f 3 (x 0 )c(1 3) = 0.60 0.85 500 + 0.35 2 100 = 325 p 1 f 1 (x 0 )c(2 1) + p 3 f 3 (x 0 )c(2 3) = 0.05 0.01 10 + 0.35 2 50 = 35.055 p 1 f 1 x 0 )c(3 1) + p 2 f 2 (x 0 )c(3 2) = 0.05 0.01 50 + 0.60 0.85 200 = 102.025 Najmniejsza wartosc sumy jest dla k = 2, więc
Przykład 1 Przykład w SAS Jeżeli kolei wszystkie koszty błędnej klasyfikacji byłyby takie same, to przyporządkowujemy x 0 posługując się zasadą minimum ECM przy równych kosztach, która wymaga obliczenia następujących iloczynów p 1 f 1 (x 0 ) = 0.05 0.01 = 0.0005 p 2 f 2 (x 0 ) = 0.60 0.85 = 0.510 p 3 f 3 (x 0 ) = 0.35 2 = 0.700. Ponieważ p 3 f 3 (x 0 ) = 0.700 p i f i (x 0 ) dla i = 1, 2, powinnismy przyporządkować x 0 do π 3.
Przykład 1 Przykład w SAS Klasyfikacja populacji normalnych z Σ i, µ i Gęstosć f i (x) = gdzie i = 1, 2,..., g. ( 1 (2π) p/2 exp 1 ) Σ i 1/2 2 (x µ i) Σ 1 i (x µ i ), Jesli ponadto c(i i) = 0, c(k i) = 1, k i (lub równoważnie koszty błędnych klasyfikacji są równe), wówczas otrzymujemy regułę:
Przykład 1 Przykład w SAS Reguła dla normalnych populacji Przydziel x do π k jeżeli ln p k f k (x) = ln p k = max ln p i f i (x). i ( 1 2) ln(2π) ln Σ 1 2 (x µ k) Σ 1 k (x µ k) Stała (p/2) ln(2π) może zostać pominięta, ponieważ jest ona taka sama dla wszystkich populacji. Zdefiniujemy więc kwadratowy wynik dyskryminacji dla i-tej populacji jako:
Przykład 1 Przykład w SAS Kwadratowy wynik dyskryminacji Kwadratowy wynik dyskryminacji d Q i (x) = ln Σ i 1 2 (x µ i) Σ 1 i (x µ i ) + ln p i, gdzie i = 1, 2,..., g. d Q i (x) składa się z uogólnionej wariancji Σ i, prawdopodobieństw a priori p i oraz kwadratu odległosci x od sredniej populacji µ i.
Przykład 1 Przykład w SAS Używając kwadratowych wyników dyskryminacji, otrzymujemy następującą zasadę klasyfikacji: Zasada minimalnego całkowitego prawodpodobieństwa błędnej klasyfikacji (TPM) dla populacji normalnych - nierówne Σ i Przydziel x do π k, jeżeli: d Q k (x) = największy sposród dq 1 (x), dq 2 (x),..., dq g (x).
Przykład 1 Przykład w SAS W praktyce µ i, Σ i są nieznane, ale zbiór uczący poprawnie zaklasyfiowanych obserwacji jest często dostępny do budowy estymatorów. Dla populacji π okreslamy: x i = wektor srednich próbkowych S i = próbkowa macierz kowariancji n i = wielkosc próbki.
Przykład 1 Przykład w SAS Estymator kwadratowego wyniku dyskryminacji Wtedy otrzymujemy estymator kwadratowego wyniku dyskryminacji Estymator KWD ˆd Q i (x) = ln S i 1 2 (x x i) S 1 i (x x i ) + ln p i, gdzie i = 1, 2,..., g i zasada klasyfikacji oparta na próbie jest następująca.
Przykład 1 Przykład w SAS Estymacyjna zasada minimum (TMP) dla kilku populacji normalnych - nierówne Σ i Przydziel x do π k, jeżeli: ˆd Q k (x) = największy sposród ˆd Q 1 (x), ˆd Q 2 (x),..., ˆd Q g (x). Uproszczenie jest możliwe, gdy macierze kowariancji populacji Σ i są równe. Kiedy Σ i = Σ dla i = 1,..., g, wynik dyskryminacji przyjmuje postać d Q i (x) = ln Σ 1 2 x Σ 1 x + µ iσ 1 x 1 2 µ iσ 1 µ i + ln p i. Pierwsze dwa składniki są takie same dla d Q 1 (x), dq 2 (x),..., dq g (x), mogą więc zostać zignorowane. Pozostałe składniki składają się ze stałej c i = ln p i 1 2 µ iσ 1 µ i oraz liniowej kombinacji elementów x.
Liniowy wynik dyskryminacji Przykład 1 Przykład w SAS Następnie zdefiniujemy liniowy wynik dyskryminacji d i (x). Liniowy wynik dyskryminacji d i (x) = µ iσ 1 x 1 2 µ iσ 1 µ i + ln p i, dla i = 1,..., g. Estymator ˆd i (x) jest oparty na łącznym estymatorze macierzy kowariancji Σ, S pooled, S pooled = 1 n 1 +... + n g g ((n 1 1)S 1 +(n 2 1)S 2 +...+(n g 1)S g )
Przykład 1 Przykład w SAS i jest dany wzorem Estymator dla i = 1, 2,..., g. ˆd i (x) = x is 1 pooled x 1 2 x is 1 pooled x i + ln p i, W konsekwencji możemy sformułować regułę klasyfikacji. Estymacyjna zasada minimum (TMP) dla równych kowariancji populacji normalnych Przydziel x do π k jeżeli ˆd k (x) = największy sposród ˆd 1 (x), ˆd 2 (x),..., ˆd g (x).
Przykład 1 Przykład w SAS Wyrażenie d i (x) = µ iσ 1 x 1 2 µ iσ 1 µ i + ln p i jest wygodna funkcją liniową x. Równoważny klasyfikator dla przypadku równych macierzy kowariancji otrzymujemy z d Q i (x) = ln Σ i 1 2 (x µ i) Σ 1 i (x µ i ) + ln p i, poprzez zignorowanie stałego wyrazu 1 ln Σ. Wynik 2 wykorzystujący estymatory próbkowe zamiast nieznanych parametrów populacji, może być wyrażony przy pomocy kwadratowych odległosci D 2 i (x) = (x x i ) S 1 pooled (x x i) od x do wektora srednich z próbki x i. Reguła klasyfikacji jest następująca. Przypisz x do populacji π i, dla której wartosc 1 2 D2 i (x) + ln p i jest największa.
Przykład 1 Przykład w SAS Przykład - obliczanie wyników dyskryminacji mając wspólną macierz kowariancji Obliczymy liniowe wyniki dyskryminacji oparte na 3 populacjach zakładając, że pochodzą one z dwuwymiarowego rozkładu normalnego ze wspólna macierzą kowariancji. Losowe próbki z populacji oraz ich wektory srednich i macierze kowariancji są następujące.
Przykład 1 Przykład w SAS 2 5 π 1 : X 1 = 0 3, więc n 1 = 3, x 1 = 1 1 0 6 π 2 : X 2 = 2 4, więc n 2 = 3, x 2 = 1 2 1 2 π 3 : X 3 = 0 0, więc n 3 = 3, x 3 = 1 4 [ ] 1, S 3 1 = [ ] 1, S 4 2 = [ ] 0, S 4 3 = [ ] 1 1, 1 4 [ ] 1 1, 1 4 [ ] 1 1. 1 4
Przykład 1 Przykład w SAS Mając p 1 = p 2 = 0.25 oraz p 3 = 0.50, zaklasyfikujemy obserwacje x 0 = [x 01, x 02 ] = [ 2, 1]. S pooled = 3 1 9 3 = 2 6 [ ] 1 1 + 3 1 1 4 9 3 [ ] 1 + 1 + 1 1 1 + 1 = 1 1 + 1 4 + 4 + 4 [ ] 1 1 + 3 1 1 4 9 3 1 1 3 1, 4 3 [ ] 1 1 1 4 stąd S 1 pooled = 9 35 [ ] 36 3 = 1 3 9 35 4 1 3 1 3. 1
Przykład 1 Przykład w SAS Następnie x 1S 1 pooled = [ 1 3] 1 35 [ ] 36 3 = 1 [ ] 27 24 3 9 35 oraz więc x 1S 1 pooled x 1 == 1 [ ] [ ] 1 27 24 35 3 = 99 35 ˆd 1 (x 0 ) = ln p 1 + x 1S 1 pooled x 0 1 2 x 1S 1 pooled x 1 = ln(0.25) + 27 35 x 01 + 24 35 x 02 1 2 99 35.
Przykład 1 Przykład w SAS Zauważmy, że liniowa forma ˆd i (x 0 ) = const + const x 01 + const x 02. Następnie obliczamy w podobny sposób [ ] 1 x 2S 1 36 3 pooled [1 4] = 35 3 9 x 2S 1 pooled x 2 = 1 [ ] [ ] 1 48 39 35 4 = 1 [ ] 48 39 35 = 204 35 ˆd 2 (x 0 ) = ln(0.25) + 48 35 x 01 + 39 35 x 02 1 2 204 35
Przykład 1 Przykład w SAS Ostatecznie x 3S 1 pooled = [0 2] 1 35 x 3S 1 pooled x 3 = 1 [ 6 35 [ ] 36 3 = 1 [ 6 3 9 35 ] ] [ 0 18 2 = 36 35 ] 18 ˆd 3 (x 0 ) = ln(0.50) + 6 35 x 01 + 18 35 x 02 1 2 36 35. Podstawiamy wartosci x 01 = 2, x 02 = 1 i otrzymujemy ˆd 1 (x 0 ) = 1.386 + 27 35 ˆd 2 (x 0 ) = 1.386 + 48 35 ˆd 3 (x 0 ) = 0.693 + 6 35 24 ( 2) + ( 1) = 99 35 17 1.943 39 ( 2) + ( 1) = 204 35 70 8.158 18 ( 2) + ( 1) = 36 35 70 0.350
Przykład 1 Przykład w SAS Ponieważ ˆd 3 (x 0 ) = 0.350 jest największe, przydzielamy x 0 do populacji π 3.
Przykład 1 Przykład w SAS Przykład 2 z wykorzystaniem SAS Klasyfikacja potencjalnych absolwentów szkoły biznesowej Pracownik szkoły biznesowej wykorzystał indeks zawierający srednią z uzyskanych ocen (GPA) oraz wyniki testu końcowego (GMAT), które miały mu pomóc w podjęciu decyzji, którzy studenci mogą zostać dopuszczeni do egzaminów dyplomowych. Dane przedstawiają pary wartosci GPA oraz GMAT dla ostatnich aplikujących, którzy zostali podzieleni na trzy grupy: A (1) - dopuszczeni, B (2) - niedopuszczeni, C (3) - graniczący.
Wykres Przykład 1 Przykład w SAS
Przykład 1 Przykład w SAS
Przykład 1 Przykład w SAS Rozważmy nowego studenta o sredniej GPA=3.21 oraz wyniku GMAT=497. Zaklasyfikujemy go do jednej z trzech populacji przy założeniu równych prawdopodobieństw a priori. W tym celu obliczamy próbkowe odległosci kwadratowe D 2 i (x 0 ). Ponieważ odległosc od x 0 = [3.21, 497] do sredniej x 3 jest najmniejsza, przypisujemy tą osobę do populacji π 3 - graniczący.
Podsumowanie danych Przykład 1 Przykład w SAS
Macierze kowariancji Przykład 1 Przykład w SAS
Przykład 1 Przykład w SAS Macierz S pooled
Przykład 1 Przykład w SAS Liniowa funkcja rozróżniająca (liniowy wynik dyskryminacji) Liniowe funkcje rozróżniające ˆd i (x), gdzie stała = 1 2 x js 1 pooled x j + ln p j wektor współczynników = S 1 pooled x j
Przykład 1 Przykład w SAS Liniowe funkcje rozróżniające dla 3 populacji: ˆd admit = 106.25 gpa + 0.212 gmat 241.470 ˆd noadmit = 78.086 gpa + 0.165 gmat 134.998 ˆd borderline = 92.670 gpa + 0.173 gmat 178.414
Przykład 1 Przykład w SAS Uogólniona odległosc kwadratowa Uogólniona odległosc kwadratowa: D 2 j (x) = (x x j ) S 1 pooled (x x j) Prawdopodobieństwo a posteriori: ( ) p(j x) = exp 1 2 D2 j (x) ) exp ( 1 2 D2 k (x) k
LISTERR Przykład 1 Przykład w SAS Opcja LISTERR pokazuje błędnie sklasyfikowane obserwacje
Przykład 1 Przykład w SAS
Często bywa, że zmienna objaśniana jest również zmienną dychotomiczną, czyli zmienną dwóch wartościach. Wykorzystywana jest ona do opisu na przykład członkostwa w dwóch grupach. W najprostszym przypadku zmienna zależna Y przyjmuje dwie wartości np. płeć człowieka (mężczyzna/kobieta).w przypadku opisowych zmiennych objaśnianych możemy zakodować te zmienne w postaci 0 1. Na przykład zdał= 1, nie zdał= 0.
Prawdopodobieństwo p uzyskania 1 jest parametrem korzyści. Reprezentuje on proporcję w populacji, która reprezentuje zakodowanych jako 1. Średnia rozkładu 0 1 również wynosi p, gdyż: srednia = 0 (1 p) + 1 p = p Proporcja zakodowanych jako 0 to 1 p. Wariancja tego rozkładu wynosi: wariancja = 0 2 (1 p) + 1 2 p p 2 = p(1 p)
Przyjmijmy, że zmienną dychotomiczną o wartościach 0 albo 1. Modelując prawdopodobieństwo uzyskania 1, używając modelu liniowego pojedynczej zmiennej objaśniającej możemy zapisać to w postaci: p = E(Y z) = β 0 + β 1 z i dodać wyrażenie błędu ɛ. Musimy pamiętać o niedogodnościach tego modelu Przewidywana wartość zmiennej zależnej Y nie musi przyjmować wartości oczekiwanej jest nieograniczone. Przy dokonywaniu analizy regresji zakładamy, że wariancja Y jest stała dla wszystkich wartości zmiennej objaśniającej Z, a w tym przypadku tak nie jest.
Logarytm naturalny ilorazu szans Zamiast modelowania prawdopodobieństwo p bezpośrednio modelem liniowym, wprowadzimy iloraz szans odds = p 1 p Jest on ilorazem prawdopodobieństwa uzyskania 1 albo 0. W przeciwieństwie do zwykłego prawdopodobieństwa, ilość szans może być większa niż 1. Na przykład jeżeli 8 na 10 osób spośród pasażerów nie ma sprawdzonego biletu, to p = 0.8, ale iloraz szans bycia nie sprawdzonym wynosi 0.8/0.2 = 3 lub 4 do 1, że nie jest sprawdzony. Jako, że bycie sprawdzonym to 0.2/0.8 = 1/4 widzimy tu brak symetrii. Jednak używając logarytmu naturalnego ln(4) = 1.386 oraz ln(1/4) = 1.386 widzimy, że wartości są dokładnymi przeciwieństwami.
Rozważmy teraz funkcję logarytmu naturalnego z rysunku. Kiedy odds x wynosi 1, czyli uzyskanie 0 i 1 jest równie prawdopodobne, logarytm naturalny x jest równy 0. Kiedy odds x jest większe od 1, logarytm naturalny wzrasta powoli tak jak wzrasta x. Jednakże, gdy odds x jest mniejsze od 1, logarytm naturalny maleje gwałtownie, zgodnie z x malejącym do zera.
W regresji naturalnej dla zmiennej binarnej modelujemy logarytm naturalny ilorazu szans, który nazywamy logit(p): p logit(p) = ln(odds) = ln( 1 p ) Funkcja logit jest funkcją prawdopodobieństwa p. W najprostszym modelu zakładamy, że logit reprezentuje prostą w zależności od zmiennej objaśniającej Z, czyli p logit(p) = ln(odds) = ln( 1 p ) = β 0 + β 1 z Innymi słowy, logarytm szans jest liniowo zależny od zmiennej objaśniającej.
Można zamienić logit lub logarytm szans na prawdopodobieństwo p. Używając funkcji eksponencjalnej dla p ln( 1 p ) = β 0 + β 1 z uzyskujemy odds(z) = p(z) 1 p(z) = exp(β 0 + β 1 z) Następnie otrzymujemy p(z) = exp(β 0 + β 1 z) 1 + exp(β 0 + β 1 z)
Relacja pomiędzy zmienną p a zmienną objaśniającą z nie jest liniowa, ale posiada S-kształtny wykres jak pokazuje powyższy rysunek dla przypadku β 0 = 1orazβ 1 = 2. Wartość β 0 daje wartość Piotr Kowalik, exp(β Dominik 0 )/(1 Jóźwicki + Exp(β Klasyfikacja 0 )) dlai dyskryminacja p kiedy z = 0.
Parametr β 1 dla krzywej logistycznej determinuje szybkość zmian p w zależności od z, ale jego interpretacja nie jest tak prosta jak dla zwykłej regresji liniowej, ponieważ relacja jest nieliniowa, zarówno dla z jak i dla β 1. Jednakże możemy wykorzystać relację liniową dla ilorazu szans. Krzywa logistyczna może być zapisana jako: exp(β 0 + β 1 z) 1 + exp(β 0 + β 1 z) lub p(z) = 1 1 + exp( β 0 β 1 z)
Analiza regresji logistycznej Rozważmy model z kilkoma zmiennymi objaśniającymi. Niech z j1, z j2,, z jr będą wartościami r predyktorów dla j-tej obserwacji. Zwykle, tak jak w normalnej regresji liniowej, ustawiamy pierwszą pozycję na 1 oraz z j = [1, z j1, z j2,, z jr ]. Warunkując na tych wartościach zakładamy, że Y j pochodzi z rozkładu Bernoulliego o prawdopodobieństwie sukcesu p(z j ), zależnym od wartości kowariancji. Wówczas: więc P (Y j = y j ) = p y j (z j )(1 p(z j )) 1 y j y j = 0, 1 E(Y j ) = p(z j ) V ar(y j ) = p(z j )(1 p(z j ))
Nie jest to średnia pochodząca z modelu liniowego, a z logarytmu naturalnego ilorazu szans. Dokładniej zakładamy model p(z) ln( 1 p(z) ) = β 0 + β 1 z 1 + + β r z r = β z j gdzie β = [β 0, β 1,, β r ].
Estymacja β możliwa jest do uzyskania przy pomocy metody największej wiarygodności. Wiarygodność L jest dana prawdopodobieństwem łącznym oszacowanego poprzez obserwowane wartości v j. Stąd n n L(b 0, b 1,, b r) = p yj (z j )(1 p(z j )) 1 yj j=1 eyj (b 0 + b 1 z j1 + + b rz jr ) = n j=1 j=1 (1 + eb 0 + b 1 z j1 + + b rz jr )
Wartości parametrów, które maksymalizują wiarygodność nie mogą być wyrażane prościej. Zamiast tego muszą być obliczane numerycznie startując od początkowego trafu poprzez iterację do maksimum funkcji wiarygodności. Technicznie, ta procedura nazywa się iteracyjnie przeważaną metodą najmniejszych kwadratów (Iteratively Re weighted Least Squares Method). Oznaczamy numerycznie uzyskane wartości estymatorami największej wiarygodności i oznaczamy przez wektor β
Przedziały Piotr Kowalik, ufności Dominik mogą Jóźwicki być używane Klasyfikacja doi dyskryminacja osądzenia istotności Kiedy rozmiar próbki jest duży, β jest przybliżane rozkładem normalnym ze średnią β, wartościami dominującymi parametrów i aproksymowaną macierzą kowariancji: Ĉov( β) [ n p(z j )(1 p(z j ))z j z j] 1 j=1 Pierwiastki kwadratowe elementów na przekątnej macierzy są oszacowaniami odchylenia standardowego lub błędami standardowymi (SE)(standard errors) estymatorów odpowiednio β 0, β 1,, β r dla próbki dużej. 95 % przedziały ufności dla próbki dużej to: β k ± 1.96SE( β k ) k = 0, 1,, r
2ln( L max,reduced Klasyfikacja ) i dyskryminacja Dla modelu z r zmiennymi objaśniającymi i stałą, oznaczamy maksymalną wiarygodność przez L max = L( β 0, β 1,, β r Jeżeli hipoteza zerowa to H 0 : β k = 0, obliczenia numeryczne znowu dają estymację największej wiarygodności zredukowanego modelu a maksymalna wartość wiarygodności to: L max,reduced = L( β 0, β 1,, β k 1, 0, β k+1,, β r ) Przy regresji logistycznej zwykle testuje się H 0 używając minus dwukrotnego logharytmu z ilorazu wiarygodności: