i dyskryminacja Nina Stulich Kazimierz Najmajer Statystyka II i dyskryminacja
Definicja Cel Definicja i dyskryminacja - pod tymi pojęciami rozumie się wielowymiarowe metody zajmujące się rozdzielaniem odrębnych zbiorów obserwacji, które następnie przydziela się do wcześniej zdefiniowanych zbiorów (grup). W celu zbadania obserwowanych różnic wykorzystuje się analizę dyskryminacyjną, jako procedurę rozdzielającą. Z kolei procedury klasyfikacji wykorzystywane są do przydzielania nowych obserwacji do danych zbiorów. i dyskryminacja
Definicja Cel Cele wykorzystywania klasyfikacji i dyskryminacji Możemy wyszczególnić dwa najważniejsze cele: 1 - wykorzystujemy ją do posortowania obserwacji na co najmniej dwie klasy (może być ich więcej). W szczególności ustalamy reguły pozwalające na przypisanie nowych obiektów do poszczególnych klas. 2 Dyskryminacja - wykorzystujemy ją do opisu graficznego jak i algebraicznego różniących cech obserwacji z kilku znanych zbiorów (populacji). Z jej pomocą znajdujemy wyróżniki i odpowiadające im wartości liczbowe, które pozwalają nam odpowiednio rozdzielić zbiory. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Przejdziemy za chwilę do pierwszego przykładu. Oznaczmy zatem nasze dwie klasy jako π 1 oraz π 2. Obserwacje są zazwyczaj rozdzielone na podstawie pommiarów, przykładowo p powiązanych między sobą zmiennych losowych X = [X 1, X 2,..., X p ], przy czym obserwowane wartości X różnią się pomiędzy klasami. Wartości pochodzące z pierwszej klasy możemy traktować jako populację π 1 o wartościach x, natomiast wartości pochodzące z drugiej klasy traktujemy jako populację π 2 o wartościach x. Obie populacje mogą być opisane przez funkcje gęstości prawdopodobieństwa f 1 (x) oraz f 2 (x). Zatem możemy mówić o przypisywaniu obserwacji do populacji. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Przeanalizujmy teraz przykład 2. Widzimy, że badana jest tu grupa przyszłych studentów, która zostanie rozdzielona na dwie klasy: osoby, które dostaną się na studia oraz osoby, które nie dostaną się na studia. Podział ten nastąpi na podstawie zaobserwowanych wartości z drugiej kolumny tabeli, a mianowicie wyniki egzaminu wstępnego, średnia ocen z liceum oraz liczba zajęć w liceum. Na podstawie tych danych można zidentyfikować obserwacje postaci x = [x 1 (wyniki egzaminu wstępnego), x 2 (średnia ocen z liceum), x 3 (liczba zajęć w liceum)] jako populację π 1 ( osoby, które dostaną się na studia ) oraz populację π 2 ( osoby, które nie dostaną się na studia ). i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Problemy w metodzie klasyfikacji nie zawsze może zapewnić bezbłędne metody przydziału, ponieważ nie może być wyraźnych różnic między mierzonymi cechami populacji, a zatem grupy mogą się pokrywać. Zdarza się to w przypadku gdy błędnie zaklasyfikujemy obiekt z π 2 do π 1 albo odwrotnie. Przykładowe problemy klasyfikacji: Niepełna wiedza o przyszłych wynikach. Perfekcyjne informacje wymagają zniszczenia obiektu. Niedostępne lub drogie informacje. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Optymalna reguła klasyfikacji Optymalna reguła klasyfikacji przedstawia się następująco: bierze pod uwagę prawdopodobieństwa a priori uwzględnia koszty związane z błędną klasyfikacją i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Prawdopodobieństwo P(2 1) - oznacza klasyfikację obiektu należącego do π 1 jako należący do π 2 i wyraża się wzorem: P(2 1) = P(X R 2 π 1 ) = R 2 =Ω R 1 f 1 (x)dx P(1 2) - oznacza klasyfikację obiektu należącego do π 2 jako należący do π 1 i wyraża się wzorem: P(1 2) = P(X R 1 π 2 ) = R 1 f 2 (x)dx gdzie: f 1 (x), f 2 (x) - funkcje gęstości prawdopodobieństwa dla π 1, π 2 Ω - zbiór wszystkich możliwych obserwacji R 1 - zbiór wartości x, dla których klasyfikujemy obiekty jako populacje π 1 R 2 = Ω R 1 - analogicznie i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Prawdopodobieństwo i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Prawdopodobieństwo Niech: p 1 - prawdopodobieństwo a priori dla π 1 p 2 - prawdopodobieństwo a priori dla π 2 Wtedy: P(obserwacja poprawnie sklasyfikowana jako π 1 ) = P(X R 1 π 1 )P(π 1 ) = P(1 1)p 1 P(obserwacja poprawnie sklasyfikowana jako π 2 ) = P(X R 2 π 2 )P(π 2 ) = P(2 2)p 2 P(obserwacja błędnie sklasyfikowana jako π 1 ) = P(X R 1 π 2 )P(π 2 ) = P(1 2)p 2 P(obserwacja błędnie sklasyfikowana jako π 2 ) = P(X R 2 π 1 )P(π 1 ) = P(2 1)p 1 i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Koszty błędnej klasyfikacji MACIERZ KOSZTÓW i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Oczekiwany koszt błędnej klasyfikacji - ECM Oczekiwany koszt błędnej klasyfikacji (ECM) wyznaczamy poprzez pomnożenie anty-diagonalnych wyrazów z macierzy kosztów przez ich prawdopodobieństwa. Otrzymujemy wtedy: ECM = c(2 1)P(2 1)p 1 + c(1 2)P(1 2)p 2 Regiony R 1 i R 2, które minimallizują ECM są zdefiniowane przez następujące nierówności: R 1 : f 1(x) c(1 2) f 2 (x) ( c(2 1) )( p 2 p 1 ) R 1 : f 1(x) f 2 (x) < ( c(1 2) c(2 1) )( p 2 p 1 ) i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Klasyfikowanie nowej obserwacji do jednej z dwóch populacji Mamy wystarczającą ilość danych aby oszacować funkcje gęstości. Załóżmy, że c(2 1) = 5 i c(1 2) = 10. Ponadto dane są znane od 20% obiektów z całej populacji należącej do π 2. Stąd prawdopodobieństwa apriori wynoszą odpowiednio π 1 = 0.8 oraz π 2 = 0.2. Wyznaczyć regiony klasyfikacji. R 1 : f 1(x) f 2 (x) ( 10 0.2 5 )( R 2 : f 1(x) f 2 (x) < ( 10 5 0.8 ) = 0.5 0.2 )( 0.8 ) = 0.5 i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Gdzie sklasyfikowałbyś nową obserwację? Załóżmy, że dla nowej obserwacji x 0 funkcje gęstości wynoszą odpowiednio f 1 (x 0 ) = 0.3 oraz f 2 (x 0 ) = 0.4. Otrzymujemy zatem f 1(x) f 2 (x) = 0.3 0.4 = 0.75 Stąd mamy f 1(x) f 2 (x) Wynik = 0.75 > ( c(1 2) c(2 1) )( p 2 p 1 ) = 0.5 Na podstawie otrzymanej nierówności wnioskujemy, że x 0 R 1 i klasyfikujemy nową obserwację x 0 jako należącą do populacji π 1. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Σ 1 = Σ 2 = Σ Rozważamy przypadek, gdy macierze kowariancji dla obu populacji są równe. Zakładamy, że gęstości f i (x) są wielowymiarowymi funkcjami gęstości rozkładu normalnego i wyrażają się wzorem: f i (x) = 1 (2π) p/2 Σ 1/2 exp[ 1 2 (x µ i) Σ 1 (x µ i )], i = 1, 2 Możemy zatem wyznaczyć regiony R 1 oraz R 2 oraz skonstruować zasadę przydziału, która minimalizuje ECM: i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Σ 1 = Σ 2 = Σ W większości przypadków niestety parametry µ 1, µ 2, Σ są nieznane, więc zasadę trzeba było zmodyfikować. Zastąpiono parametry populacji przez odpowiedniki próbkowe. Załóżmy, że mamy n 1 obserwacji z π 1 oraz n 2 obserwacji z π 2. Otrzymujemy następujące macierze: i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Σ 1 = Σ 2 = Σ Z uzyskanych macierzy tworzymy próbkowe wektory średnich i macierzy kowariancji: Próbkowe macierze kowariancji S 1 i S 2 łączy się w celu uzyskania pojedyńczego estymatora Σ: i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Estymacyjna zasada minimalizacji ECM dla dwóch normalnych populacji (Σ 1 = Σ 2 = Σ) Podstawiając x 1, x 2, S pooled odpowiednio za µ 1, µ 2, Σ otrzymujemy nową (próbkową) zasadę klasyfikacji. Przypisujemy x 0 do π 1 gdy oraz postępujemy analogicznie, gdy przypisujemy x 0 do π 2. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Σ 1 Σ 2 W przypadku, gdy macierze kowariancji nie są sobie równe, reguły klasyfikacji są bardziej skomplikowane. Zastępując gęstości wielowymiarowego rozkładu normalnego innymi macierzami kowariancji otrzymujemy (po uproszczeniu) regiony klasyfikacji: gdzie i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami W celu oceny wyników dowolnej metody klasyfikacyjnej obliczamy jej wskaźnik błędów lub prawdopodobieństwo błędnej klasyfikacji. Ze względu na to iż wyjściowe populacje rzadko są znane, skupimy się na wskaźnikach błędów powiązanych z próbkową funkcją klasyfikacyjną. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności funkcji klasyfikacyjnych Całkowite prawdopodobieństwo błędnej klasyfikacji (TPM) TPM = p 1 R 2 f 1 (x)dx + p 2 R 1 f 2 (x)dx Najmniejszą wartość TPM nazywamy najlepszym wskaźnikiem błędów (OER). Najlepszy wskaźnik błędów (OER) gdzie: OER = p 1 R 2 f 1 (x)dx + p 2 R 1 f 2 (x)dx R 1 : f 1(x) f 2 (x) p 2 p 1 R 2 : f 1(x) f 2 (x) < p 2 p 1 i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności funkcji klasyfikacyjnych OER oznacza jaki procent składników będzie niepoprawnie przydzielony po zastosowaniu najlepszej reguły klasyfikacji, np. OER = 13% oznacza, że reguła klasyfikacji niepoprawnie przydzieli około 13% składników do pierwszej lub drugiej populacji. Najlepszy wskaźnik błędów (OER) najłatwiej obliczyć, gdy funkcje gęstości populacji są znane. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności próbkowch funkcji klasyfikacyjnych Rzeczywisty wskaźnik błędów (AER) AER = p 1 ˆR 2 f 1 (x)dx + p 2 ˆR 1 f 2 (x)dx gdzie ˆR 1 i ˆR2 - obszary klasyfikacyjne. AER ukazuje jak próbkowa funkcja klasyfikacyjna będzie zachowywała się dla przyszłych próbek. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności próbkowch funkcji klasyfikacyjnych Wskaźnik błędów pozornych (APER) APER jest zdefiniowany jako ułamek obserwacji, który został błędnie sklasyfikowany przez próbkową funkcje klasyfikacyjną. Może być on łatwo obliczony z macierzy pomyłek, która przedstawia rzeczywistą i przewidywaną przynależność do grup. Jest to miara skuteczności, która nie zależy od postaci populacji macierzystej. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności próbkowch funkcji klasyfikacyjnych Mamy n 1 obserwacji z π 1 oraz n 2 obserwacji z π 2. Macierz pomyłek wygląda następująco: gdzie n 1C - liczba pozycji z π 1 poprawnie sklasyfikowanych jako π 1 n 1M - liczba pozycji z π 1 błędnie sklasyfikowanych jako π 2 n 2C - liczba pozycji z π 2 poprawnie sklasyfikowanych jako π 2 n 2M - liczba pozycji z π 2 błędnie sklasyfikowanych jako π 1 i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności próbkowch funkcji klasyfikacyjnych Obliczenie wskaźnika APER: APER = n 1M+n 2M n 1 +n 2 Wskaźnik ten rozumiemy jako udział pozycji ze zbioru uczącego, które są błędnie sklasyfikowane. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Dla podanej poniżej macierzy pomyłek obliczono wskaźnik APER: Wynik ten oznacza, że 16, 7% pozycji ze zbioru uczącego jest błędnie sklasyfikowane. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami z kilkoma populacjami Uogólnijmy procedury klasyfikacyjne dla g 2 grup. Metoda Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji Niech f i (x) będzie gęstością powiązaną z populacją π 1. Niech: p i - prawdopodobieństwa a priori populacji π i c(k i) - koszty przydziału pozycji do π k, jeśli naprawdę należy ona do π i dla k, i = 1, 2,..., g Dla k = i, c(i i) = 0. R k - zbiór x-ów sklasyfikowanych jako π k P(k i) = R k f i (x)dx dla k, i = 1, 2,..., g, gdzie P(i i) = 1 g k=1,k i P(k i) i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Warunkowy oczekiwany koszt błędnej klasyfikacji W podobny sposów można uzyskać warunkowe oczekiwane koszty błędnej klasyfikacji ECM(2),...,ECM(g). Po wymnożeniu każdego warunkowego ECM przez jego prawdopodobieństwo a priori i zsumowanie daje całkowity ECM. Wzór przedstawiono na kolejnym slajdzie prezentacji. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Oczekiwany koszt błędnej klasyfikacji i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Analogicznie do klasyfikacji dla dwóch populacji wybranie najlepszej reguły klasyfikacyjnej sprowadza się do wyboru wzajemnie rozłącznych obszarów klasyfikacji R 1, R 2,..., R g tak aby ECM było minimum. Obszary klasyfikujące, które minimalizują ECM są zdefiniowane przez przydzielenie x do tej populacji π k, k = 1, 2,..., g, dla której g i=1,1 k p if i (x)c(k i) jest najmniejsze. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Reguła Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji (ECM) przy równych kosztach błędnej klasyfikacji: Przydzielamy x 0 do π 1 jeżeli p k f k (x) > p i f i (x) dla wszystkich i k lub lnp k f k (x) > lnp i f i (x) dla wszystkich i k Należy pamiętać, że do realizacji powyższych reguł konieczne jest wcześniejsze oszacowanie prawdopodobieństw a priori, kosztów błędnej klasyfikacji oraz funkcji gęstości. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład nowej obserwacji do jednej z trzech znanych populacji: Przyporządkujemy obserwację x 0 do π 1, π 2 lub π 3 znając prawdopodobieństwa a priori, koszta błędnej klasyfikacji oraz wartości gęstości prawdopodobieństwa. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Wartościami dla 3 i=1,i k p i f i (x 0 )c(k i) są Najmniejszą wartość otrzymujemy dla k = 2, a zatem przyporządkowujemy x 0 do π 2. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład W przypadku gdy koszta błędnej klasyfikacji są takie same, to posługujemy się zasadą minimum ECM przy równych kosztach. Zatem potrzebujemy tylko następujących iloczynów: p 1 f 1 (x 0 ) = (0.05)(0.01) = 0.0005 p 2 f 2 (x 0 ) = (0.60)(0.85) = 0.510 p 3 f 3 (x 0 ) = (0.35)(2) = 0.700 Widzimy, że p 3 f 3 (x 0 ) osiąga największą wartość i stąd przyporządkowujemy x 0 do π 3. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami kilku populacji normalnych W przypadku, gdy f i (x) są wielowymiarowymi gęstościami rozkładu normalnego z wektorami średnich µ i i macierzami kowariancji i oraz c(i i) = 0, c(k i) = 1, k i (lub równoważnie koszty błędnych klasyfikacji są równe) następuje reguła: Przydziel x do π k jeżeli i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Ponieważ stała ( p 2 )ln(2π) jest taka sama dla wszystkich populacji, to może zostać pominięta. Otrzymujemy w ten sposób kwadratowy wynik dyskryminacji dla i-tej populacji jako Kwadratowy wynik dyskryminacji i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami W przypadku korzystania z kwadratowych wyników dyskryminacji zasada klasyfikacji przedstawia się następująco: Zasada minimalnego całkowitego prawdopodobieństwa błędnej klasyfikacji (TPM) dla populacji normalnych - nierówne i Przydziel x do π k jeżeli d Q k (x) = największy z d Q 1 (x), d Q 2 (x),..., d Q g (x). i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami W rzeczywistości µ i oraz i są nieznane. Wtedy korzystamy z zasady klasyfikacji opartej na próbie. Oszacowany kwadratowy wynik dyskryminacji wygląda następująco: gdzie x i - próbka wektora średniej S i - próbka macierzy kowariancji n i - rozmiar próbki i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Zasada szacowania minimum (TPM) dla kilku populacji normalnych - nierówne i Przydziel x do π k jeżeli ˆ d Q ˆ k (x) = największy z d1 Q (x),..., ˆ d Q 2 (x) i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami W przypadku, gdy macierze kowariancji populacji są równe, wynik dyskryminacji obliczamy za pomocą poniższego wzoru: Pierwsze dwa składniki są takie same dla d Q i (x), a zatem możemy je pominąć. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Oszacowanie liniowego dyskryminantu d ˆQ i (x) oparte jest na oszacowaniu : i wyraża się wzorem: i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Zasada szacowania minimum (TPM) dla równych kowariancji populacji normalnych Przydziel x do π k jeżeli ˆ d Q ˆ k (x) = największy z d1 Q (x),..., ˆ d Q g (x). i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Absolwenci szkoły biznesowej - KLASYFIKACJA Za pomocą danych zawierających GPA (średnia uzyskanych ocen) oraz GMAT (wyniki testu końcowego) zadecydujemy, którzy studenci mogą zostać dopuszczeni do studiów podyplomowych. Dane zawierają wyniki potencjalnych kandydatów, którzy zostali podzieleni na trzy grupy: admit - dopuszczeni, border - graniczący, notadmit - niedopuszczeni. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Próbka testowa Procedura SURVEYSELECT zapewnia różne metody wybierania losowych próbek opartych na prawdopodobieństwie. Procedura może wybrać prostą losową próbkę lub próbkę zgodnie ze złożonym wieloetapowym projektem próbki, który obejmuje stratyfikację, grupowanie i nierówne prawdopodobieństwo selekcji. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (opcja WCOV) Opcja WCOV wyświetla kowariancję wewnątrz każdej klasy. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (opcja PCOV) Opcja PCOV wyświetla połączoną międzyklasową macierz kowariancji. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (opcja MANOVA) Opcja MANOVA wyświetla wielowymiarowe statystyki do testowania hipotezy, że średnie w klasie są równe w populacji. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (liniowa funkacja rozpoznawcza) Liniowe funkcje rozpoznawcze odpowiednio dla każdej klasy: d admit ˆ (x) = 108.61130GPA + 0.19205GMAT 239.83859 d borde ˆ (x) = 95.06514GPA + 0.15603GMAT 178.35976 d notadmit ˆ (x) = 79.89778GPA + 0.14927GMAT 133.72029 i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (opcja LISTERR) Opcja LISTERR wyświetla wyniki klasyfikacji resubstytucyjnej tylko dla błędnie sklasyfikowanych obserwacji. i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Podsumowanie klasyfikacji dla danych testowych i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Analiza dyskryminacyjna - sposób II i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Analiza dyskryminacyjna - sposób II i dyskryminacja
dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Analiza dyskryminacyjna - sposób II i dyskryminacja
Fishera dla dwóch populacji Fisher doszedł do statystki liniowej klasyfikacji, używając zupełnie innego argumentu. Jego pomysłem byłoa transformacja wielowymiarowych obserwacji do jednowymiarowych obserwacji y, takich, że y pochodzące z obserwacji π 1 i π 2 były oddzielone od siebie tak bardzo jak to możliwe. Fisher zasugerował wzięcie liniowych kombinacji x aby stworzyć y ponieważ są one wystarczająco proste aby można było się nimi łatwo posługiwać i dyskryminacja
Fishera, dwie populacje-ciąg dalszy Kombinacja liniowa xów przybiera wartości y 11, y 12,..., y 1π1 dla obserwacji z pierwszej populacji i wartości y 21, y 22,..., y 2π2 dla obserwacji z drugiej populacji. Rozdział tych dwóch zbiorów jednowymiarowych ygreków jest oceniana różnicą między ȳ 1 i ȳ 2 wyrażonych w jednostkach odchylenia standardowego i dyskryminacja
Fishera, dwie populacje, ciąg dalszy II Separacja ta wyraża się następującym wzorem,gdzie s 2 y = separacja = ȳ1 ȳ 2 s y (1) n1 j=1 (y 1j ȳ 1 ) 2 + n 2 j=1 (y 2j ȳ 2 ) 2 n 1 + n 2 2 jest estymacją wariancji, natomiast celem jest wybranie kombinacji liniowej xów, aby osiągnąć maksymalny rozdział próbkowych średnich ȳ 1 i ȳ 2 (2) i dyskryminacja
Rozwiązanie Kombinacja liniowa ŷ = â x = ( x 1 x 2 )S 1 pooled x maksymalizuję rozdział. i dyskryminacja
Zasada klasyfikacji Fishera Alokuj x 0 do π 1 jeśli ŷ 0 = ( x 1 x 2 ) S 1 pooled x 0 ˆm = 1 2 ( x 1 x 2 ) S 1 pooled ( x 1 + x 2 ) (3) Alokuj x 0 do pi 2 jeśli ŷ 0 < ˆm (4) i dyskryminacja
Dyskryminacja Fishera-obrazek i dyskryminacja
Metoda Fishera dla dyskryminacji pomiędzy wieloma populacjami Fisher zaproponował także rozszerzenie swojej metody, do kilku populacji. Motywacją idącą za analizą dyskryminacyjną Fishera jest potrzeba uzyskania rozsądnej reprezentacji populacji za pomocą jedynie kilku liniowych kombinacji obserwacji takich jaka 1,a 2,a 3 i dyskryminacja
Zalety dyskryminacji Fishera 1 Wygodna reprezentacja g populacji, która redukuje wymiar, z wielkiej liczby charakterystyk to relatywnie niewielu kombinacji liniowych. Oczywiście część informacji może zostać stracona 2 Pozwala na wykreślenie średnich pierwszych dwóch lub trzech kombinacji liniowych, co pozwala na zobaczenie relacji i możliwych podziałów populacji i dyskryminacja
Założenia W dyskryminacji Fishera nie musimy koniecznie zakładać, że g populacji mają wielowymiarowy rozkład normalny. Musimy jednak założyć, że macierze kowariancji populacji są sobie równe, czyli Σ 1 = Σ 2 =... = Σ g = Σ (5) i dyskryminacja
Dyskryminacja Fishera Przyjmujemy następujące oznaczenia B µ = g i=1 (µ i µ)(µ i µ) oraz ˆµ = 1 g g i=1 µ i Rozważamy kombinację liniową Y = a X o wartości oczekiwanej dla populacji π i : i wariancji dla wszystkich populacji E(Y ) = a E(X π i ) = a µ i (6) Var(Y ) = a Cov(X )a = a Σa (7) i dyskryminacja
Dyskryminacja Fishera wartość oczekiwana µ iy = a µ i zmienia się wraz ze zmianą populacji z której jest wybrany X. Definiujemy ogólną średnia jako ū Y = 1 g g a µ i = a ( 1 g i=1 g µ i ) = a ˆµ (8) i=1 i tworzymy stosunek sumy dystansów podniesionych do kwadratu od populacji od ogólnej średniej Y do wariancji i dyskryminacja
Dyskryminacja Fishera Stosunek ten wyraża się wzorem g i=1 (µ iy µ Y ) 2 ) σ 2 Y = a B µ a a σa (9) Szukamy a który zmaksymalizuje ten stosunek i dyskryminacja
Dyskryminacja Fishera Ponieważ zwykle Σ i µ są niedostępne, korzystamy zazwyczaj ze zbioru treningowego poprawnie zaklasyfikowanych obserwacji. Zakładamy, że zbiór treningowy składa się z prób losowych rozmiaru n i z populacji π i, i=1,2...g. i dyskryminacja
Dyskryminacja Fishera Tworzymy wektor średnich z próby n j x i = 1 x ij (10) n i j=1 i macierzy kowariancji S i Definiujemy wektor ogólnej średniej x = 1 g x i (11) g i=1 Następnie analogicznie do B µ, definiujemy macierz B g B = ( x i x)( x i x) (12) i=1 i dyskryminacja
Dyskryminacja Fishera Następnie estymacja Σ opiera się na W g n i W = ( x i x)( x i x) (13) i=1 j=1 Estymacja Σ,wyraża sie wzorem S pooled = W n 1 + n 2 +.. + n g g (14) i dyskryminacja
Dyskryminacja Fishera Niech ˆλ 1, ˆλ 2,...ˆλ s oznaczają s min(g 1, p) niezerowych wartości własnych W 1 B i ê 1, ê 2,...ê s będą odpowiadającym nim wartością własnym przeskalowanym aby ês pooled ê = 1 Wektor â musi zmaksymalizować stosunek â Bâ â W â = â ( g i=1 ( x i x)( x i x) â) â [ g ni i=1 j=1 ( x i x)( x i x) ]â (15) I tym wektorem jest â 1 = ê 1.Liniowa kombinacja â 1 x jest nazywana pierwsza próbkową dyskryminantą. Analogicznie â k x nazywamy k-tą liniową dyskryminantą i dyskryminacja
Dyskryminanty Fishera powstały w celu uzyskania niskowymiarowej reprezentacji danych, która separuje populacje tak mocno jak to możliwe. Chociaż dyskryminanty powstały w celu separacji, dają także podstawy dla zasady klasyfikacyjnej. Najpierw wyjaśnimy ten związek korzystając z dyskryminant populacji a i X i dyskryminacja
Ustalając Y k = a k X =k-ta dyskryminanta, k s Mamy,które posiada wektor średnich Y = [Y 1 Y 2... Y s ] µ iy = [a 1µ i... a sµ i ] i dyskryminacja
Ponieważ elementy Y mają jednostkowe wariancje i zerową kowariancję odpowiednia miarą kwadratu odległości pomiędzy Y = y do µ iy jest (y µ iy ) (y µ iy ) = g (y j µ iyj ) 2 (16) Rozsądną reguła klasyfikacji jest taka,która przyporządkowuje y do populacji π k jeśli kwadrat odległości między y a µ ky jest mniejszy od kwadratu odległości od y do µ iy, dla i różnych od k j=1 i dyskryminacja
Dla r dyskryminant zasada alokacji prezentuje się następująco. Alokuj x do π k jeśli: r (y j µ kyj ) 2 = j=1 r [a j(x µ k )] 2 j=1 jest spełnione dla wszystkich i k r [a j(x µ i )] 2 (17) j=1 i dyskryminacja
Kiedy używamy regresji logistycznej? Podstawowymi przypadkami w którzy można użyć regresji logistycznej są te gdy mamy zmienną objaśnianą dychotomiczną, czyli taką, która przyjmuje dwie wartości. Na przykład weźmy zmienną objaśnianą- firma zbankrutuje. Zmienna ta będzie posiadała 2 wartości- bankructwo(1) i brak bankructwa(0). Będzie ona miała rozkład zerojedynkowy, czyli Bernoulliego z parametrami B(1,p). Parametr p to szukane przez na prawdopodobieństwo bankructwa. i dyskryminacja
Szansa i logit Model regresji logistycznej posługuje się terminem szansy. Wyraża się ona wzorem: szansa = p (18) 1 p Z kolei funkcja logit wyraża się wzorem p logit(p) = ln(szansa) = ln( 1 p ) i dyskryminacja
Model W najprostszym modelu z jedną zmienną objaśniającą zakładamy, że logarytm szans jest liniowo zależny od zmiennej objaśniającej eksponencjując θ(z) = p ln( 1 p ) = β 0 + β 1 z (19) p(z) 1 p(z) = exp(β 0 + β 1 z) (20) i dyskryminacja
Model cz.2 Rozwiązując równanie(numer), ze względu na θ(x) otrzymujemy równanie krzywej logistycznej p(z) = exp(β 0 + β 1 z) 1 + exp(β 0 + β 1 z) (21) Krzywa logistyczna pokazuje nam jak zmienia się prawdopodobieństwo wraz ze zmianą w z. i dyskryminacja
Analiza regresji logistycznej Rozważamy model z wieloma zmiennymi objaśniającymi. Niech z j1, z j2,..., z jr, będą wartościami r zmiennych objaśniających dla jtej obserwacji.wektor z j = [1, z j1, z j2,..., z jr ].Przypuszczamy że obserwacja Y j jest próbą Bernoulliego z prawdopodobieństwem sukcesu p(z j ).Wtedy dla y j = 0, 1 P(Y j = y j ) = p y j (z j )(1 p(z j )) 1 y j (22) i dyskryminacja
Analiza regresji logistycznej-ciąg dalszy Z równania (numer), wynika, że E(Y j ) = p(z j ) (23) oraz Var(Y j ) = p(z j )(1 p(z j )) (24) i dyskryminacja
Model regresji logistycznej dla wielu predyktorów Równanie modelu regresji logistycznej przedstawia się następującym wzorem p(z) ln( 1 p(z) = β 0 + r β i z i (25) i=1 i dyskryminacja
Estymacja metodą największej wiarygodności Oszacowania bet mogą być uzyskane dzięki metodzie największej wiarygodności. Wiarygodność L jest dana wspólnym rozkładem prawdopodobieństwa ewaluowanym dla obserwowanych zliczeń y j. A więc: L(b 0, b 1...b r ) = n p y j (z j )(1 p(z j )) 1 y j = j=1 = nj=1 e y j (b 0 +b 1 z j1 +...+b r z jr ) nj=1 (1 + e b 0+b 1 z j1 +...+b r z jr ) (26) i dyskryminacja
Przedziały ufności Uzyskane estymacje będziemy reprezentowali przez ˆβ, który przy założeniu duzej próbki pochodzi z rozkładu normalnego o średniej β. Wtedy: ˆ Cov( ˆβ) [ n ˆp(z j )(1 hatp(z j )z j z j ] 1 (27) j=1 Pierwiastki kwadratowe elementów powyższej macierzy są błędami standardowymi estymatorów ˆβ 0, ˆβ 1,..., ˆβ r i dyskryminacja
Przedziały ufności cz.2 Dużopróbkowy 95% przedział ufności dla β k wyraża się następującym wzorem: ˆβ k ± 1, 96SE(ˆ(β k )) (28) i dyskryminacja
Test ilrazu wiarygodności Aby sprawdzić istotność zmiennej objaśniającej w modelu używamy testy stosunku wiarygodności.hipotezą zerową jest H 0 : β k = 0 Statystyka testowa, która nazywamy dewiancją ma formę: L( 2ln( ˆβ 0, ˆβ 1,..., ˆβ k 1, ˆβ k+1,... ˆβ r ) L( ˆβ 0, ˆβ 1,..., ˆβ k 1, ˆβ k, ˆβ k+1,... ˆβ r ) ) (29) W przypadku podanym powyżej statystyka testowa dla hipotezy zerowej ma rozkład chi kwadrat z 1 stopniem swobody. i dyskryminacja
Niech zmienna objaśniana Y będzie równa jeden jeśli obserwowany przypadek należy do populacji 1, natomiast równa 0, jeśli przypadek należy do populacji 2. Za zasadę klasyfikująca możemy przyjąć Zasada klasyfikacyjna Przyporządkuj z do populacji 1 jeśli szacunkowa szansa jest większa niż 1, czyli ˆp(z) 1 ˆp(z) = exp( ˆβ 0 + ˆβ 1 z 1 +... + ˆβ r z r ) > 1 (30) i dyskryminacja
Przykład z łososiem Chcemy zaklasyfikować łososie jako alaskańskie bądź kanadyjskie. Użyjemy w tym celu regresji logistycznej, korzystając z sasowej proc logistic. i dyskryminacja
Przykład i dyskryminacja
Przykład i dyskryminacja
Przykład i dyskryminacja
Przykład i dyskryminacja
Odmienna od przedstawionych wcześniej metod jest metoda drzew klasyfikacyjnych. Na początku wszystkie obiekty znajdują się w jednej grupie, następnie dzielimy je na dwie podgrupy według wartości jednej zmiennej, potem dzielimy te podgrupy według wartości kolejnej zmiennej i tak dalej, aż do osiągniecia odpowiedniego punktu zatrzymania. i dyskryminacja
Przykładowe drzewo klasyfikacyjne i dyskryminacja
Przykład drzewa klasyfikacyjnego w SAS Używając proc hpsplit SAS wykonamy drzewo klasyfikacyjne w celu zbadania prawdopodobieństwa, że kredyt hipoteczny będzie złym kredytem, zależnie od tego kto o niego występuje. i dyskryminacja
są alogorytmicznymi procedurami służącymi przekształceniu wejść w oczekiwane wyjścia, używając wysoko połączonych sieci relatywnie prostych jednostek przetwarzających(nazywanych neuronami). Ich trzema koniecznymi cechami są: podstawowe jednostki obliczeniowe(neurony), architektura sieci opisująca połączenia miedzy jednostkami obliczeniowymi i algorytm treningowy używany do znalezienia parametrów sieci(wag) służących wykonaniu określonego zadania. i dyskryminacja
Przykładowa sięć neuronowa i dyskryminacja
Dodatek Bibliografia I Johnson, R. A., Wichern, D. W.. Applied multivariate statistical analysis. Prentice Hall i dyskryminacja