Klasyfikacja i dyskryminacja

Podobne dokumenty
Klasyfikacja i dyskrymiancja - Statystyka w SAS

Klasyfikacja i dyskryminacja

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Elementy statystyki wielowymiarowej

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Własności statystyczne regresji liniowej. Wykład 4

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Natalia Neherbecka. 11 czerwca 2010

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Metoda największej wiarygodności

Testowanie hipotez statystycznych.

PDF created with FinePrint pdffactory Pro trial version

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Testowanie hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Rozpoznawanie obrazów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Wnioskowanie bayesowskie

Ważne rozkłady i twierdzenia c.d.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Testowanie hipotez statystycznych

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Testowanie hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

KORELACJE I REGRESJA LINIOWA

Metody systemowe i decyzyjne w informatyce

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Testowanie hipotez statystycznych.

Metody systemowe i decyzyjne w informatyce

Hierarchiczna analiza skupień

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Klasyfikacja metodą Bayesa

1 Gaussowskie zmienne losowe

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Kolokwium ze statystyki matematycznej

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyczna analiza danych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Testowanie hipotez statystycznych

Metoda największej wiarogodności

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Estymacja parametrów rozkładu cechy

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Analiza wariancji. dr Janusz Górczyński

Testowanie hipotez statystycznych

Metody systemowe i decyzyjne w informatyce

Rozkłady statystyk z próby

Testowanie hipotez statystycznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Statystyka matematyczna i ekonometria

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Wnioskowanie statystyczne. Statystyka w 5

WYKŁAD 8 ANALIZA REGRESJI

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Regresja logistyczna (LOGISTIC)

Estymacja parametrów w modelu normalnym

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26


Metoda największej wiarygodności

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

1.1 Wstęp Literatura... 1

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

STATYSTYKA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Transkrypt:

i dyskryminacja Nina Stulich Kazimierz Najmajer Statystyka II i dyskryminacja

Definicja Cel Definicja i dyskryminacja - pod tymi pojęciami rozumie się wielowymiarowe metody zajmujące się rozdzielaniem odrębnych zbiorów obserwacji, które następnie przydziela się do wcześniej zdefiniowanych zbiorów (grup). W celu zbadania obserwowanych różnic wykorzystuje się analizę dyskryminacyjną, jako procedurę rozdzielającą. Z kolei procedury klasyfikacji wykorzystywane są do przydzielania nowych obserwacji do danych zbiorów. i dyskryminacja

Definicja Cel Cele wykorzystywania klasyfikacji i dyskryminacji Możemy wyszczególnić dwa najważniejsze cele: 1 - wykorzystujemy ją do posortowania obserwacji na co najmniej dwie klasy (może być ich więcej). W szczególności ustalamy reguły pozwalające na przypisanie nowych obiektów do poszczególnych klas. 2 Dyskryminacja - wykorzystujemy ją do opisu graficznego jak i algebraicznego różniących cech obserwacji z kilku znanych zbiorów (populacji). Z jej pomocą znajdujemy wyróżniki i odpowiadające im wartości liczbowe, które pozwalają nam odpowiednio rozdzielić zbiory. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Przejdziemy za chwilę do pierwszego przykładu. Oznaczmy zatem nasze dwie klasy jako π 1 oraz π 2. Obserwacje są zazwyczaj rozdzielone na podstawie pommiarów, przykładowo p powiązanych między sobą zmiennych losowych X = [X 1, X 2,..., X p ], przy czym obserwowane wartości X różnią się pomiędzy klasami. Wartości pochodzące z pierwszej klasy możemy traktować jako populację π 1 o wartościach x, natomiast wartości pochodzące z drugiej klasy traktujemy jako populację π 2 o wartościach x. Obie populacje mogą być opisane przez funkcje gęstości prawdopodobieństwa f 1 (x) oraz f 2 (x). Zatem możemy mówić o przypisywaniu obserwacji do populacji. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Przeanalizujmy teraz przykład 2. Widzimy, że badana jest tu grupa przyszłych studentów, która zostanie rozdzielona na dwie klasy: osoby, które dostaną się na studia oraz osoby, które nie dostaną się na studia. Podział ten nastąpi na podstawie zaobserwowanych wartości z drugiej kolumny tabeli, a mianowicie wyniki egzaminu wstępnego, średnia ocen z liceum oraz liczba zajęć w liceum. Na podstawie tych danych można zidentyfikować obserwacje postaci x = [x 1 (wyniki egzaminu wstępnego), x 2 (średnia ocen z liceum), x 3 (liczba zajęć w liceum)] jako populację π 1 ( osoby, które dostaną się na studia ) oraz populację π 2 ( osoby, które nie dostaną się na studia ). i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Problemy w metodzie klasyfikacji nie zawsze może zapewnić bezbłędne metody przydziału, ponieważ nie może być wyraźnych różnic między mierzonymi cechami populacji, a zatem grupy mogą się pokrywać. Zdarza się to w przypadku gdy błędnie zaklasyfikujemy obiekt z π 2 do π 1 albo odwrotnie. Przykładowe problemy klasyfikacji: Niepełna wiedza o przyszłych wynikach. Perfekcyjne informacje wymagają zniszczenia obiektu. Niedostępne lub drogie informacje. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Optymalna reguła klasyfikacji Optymalna reguła klasyfikacji przedstawia się następująco: bierze pod uwagę prawdopodobieństwa a priori uwzględnia koszty związane z błędną klasyfikacją i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Prawdopodobieństwo P(2 1) - oznacza klasyfikację obiektu należącego do π 1 jako należący do π 2 i wyraża się wzorem: P(2 1) = P(X R 2 π 1 ) = R 2 =Ω R 1 f 1 (x)dx P(1 2) - oznacza klasyfikację obiektu należącego do π 2 jako należący do π 1 i wyraża się wzorem: P(1 2) = P(X R 1 π 2 ) = R 1 f 2 (x)dx gdzie: f 1 (x), f 2 (x) - funkcje gęstości prawdopodobieństwa dla π 1, π 2 Ω - zbiór wszystkich możliwych obserwacji R 1 - zbiór wartości x, dla których klasyfikujemy obiekty jako populacje π 1 R 2 = Ω R 1 - analogicznie i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Prawdopodobieństwo i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Prawdopodobieństwo Niech: p 1 - prawdopodobieństwo a priori dla π 1 p 2 - prawdopodobieństwo a priori dla π 2 Wtedy: P(obserwacja poprawnie sklasyfikowana jako π 1 ) = P(X R 1 π 1 )P(π 1 ) = P(1 1)p 1 P(obserwacja poprawnie sklasyfikowana jako π 2 ) = P(X R 2 π 2 )P(π 2 ) = P(2 2)p 2 P(obserwacja błędnie sklasyfikowana jako π 1 ) = P(X R 1 π 2 )P(π 2 ) = P(1 2)p 2 P(obserwacja błędnie sklasyfikowana jako π 2 ) = P(X R 2 π 1 )P(π 1 ) = P(2 1)p 1 i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Koszty błędnej klasyfikacji MACIERZ KOSZTÓW i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Oczekiwany koszt błędnej klasyfikacji - ECM Oczekiwany koszt błędnej klasyfikacji (ECM) wyznaczamy poprzez pomnożenie anty-diagonalnych wyrazów z macierzy kosztów przez ich prawdopodobieństwa. Otrzymujemy wtedy: ECM = c(2 1)P(2 1)p 1 + c(1 2)P(1 2)p 2 Regiony R 1 i R 2, które minimallizują ECM są zdefiniowane przez następujące nierówności: R 1 : f 1(x) c(1 2) f 2 (x) ( c(2 1) )( p 2 p 1 ) R 1 : f 1(x) f 2 (x) < ( c(1 2) c(2 1) )( p 2 p 1 ) i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Klasyfikowanie nowej obserwacji do jednej z dwóch populacji Mamy wystarczającą ilość danych aby oszacować funkcje gęstości. Załóżmy, że c(2 1) = 5 i c(1 2) = 10. Ponadto dane są znane od 20% obiektów z całej populacji należącej do π 2. Stąd prawdopodobieństwa apriori wynoszą odpowiednio π 1 = 0.8 oraz π 2 = 0.2. Wyznaczyć regiony klasyfikacji. R 1 : f 1(x) f 2 (x) ( 10 0.2 5 )( R 2 : f 1(x) f 2 (x) < ( 10 5 0.8 ) = 0.5 0.2 )( 0.8 ) = 0.5 i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Gdzie sklasyfikowałbyś nową obserwację? Załóżmy, że dla nowej obserwacji x 0 funkcje gęstości wynoszą odpowiednio f 1 (x 0 ) = 0.3 oraz f 2 (x 0 ) = 0.4. Otrzymujemy zatem f 1(x) f 2 (x) = 0.3 0.4 = 0.75 Stąd mamy f 1(x) f 2 (x) Wynik = 0.75 > ( c(1 2) c(2 1) )( p 2 p 1 ) = 0.5 Na podstawie otrzymanej nierówności wnioskujemy, że x 0 R 1 i klasyfikujemy nową obserwację x 0 jako należącą do populacji π 1. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Σ 1 = Σ 2 = Σ Rozważamy przypadek, gdy macierze kowariancji dla obu populacji są równe. Zakładamy, że gęstości f i (x) są wielowymiarowymi funkcjami gęstości rozkładu normalnego i wyrażają się wzorem: f i (x) = 1 (2π) p/2 Σ 1/2 exp[ 1 2 (x µ i) Σ 1 (x µ i )], i = 1, 2 Możemy zatem wyznaczyć regiony R 1 oraz R 2 oraz skonstruować zasadę przydziału, która minimalizuje ECM: i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Σ 1 = Σ 2 = Σ W większości przypadków niestety parametry µ 1, µ 2, Σ są nieznane, więc zasadę trzeba było zmodyfikować. Zastąpiono parametry populacji przez odpowiedniki próbkowe. Załóżmy, że mamy n 1 obserwacji z π 1 oraz n 2 obserwacji z π 2. Otrzymujemy następujące macierze: i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Σ 1 = Σ 2 = Σ Z uzyskanych macierzy tworzymy próbkowe wektory średnich i macierzy kowariancji: Próbkowe macierze kowariancji S 1 i S 2 łączy się w celu uzyskania pojedyńczego estymatora Σ: i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Estymacyjna zasada minimalizacji ECM dla dwóch normalnych populacji (Σ 1 = Σ 2 = Σ) Podstawiając x 1, x 2, S pooled odpowiednio za µ 1, µ 2, Σ otrzymujemy nową (próbkową) zasadę klasyfikacji. Przypisujemy x 0 do π 1 gdy oraz postępujemy analogicznie, gdy przypisujemy x 0 do π 2. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Σ 1 Σ 2 W przypadku, gdy macierze kowariancji nie są sobie równe, reguły klasyfikacji są bardziej skomplikowane. Zastępując gęstości wielowymiarowego rozkładu normalnego innymi macierzami kowariancji otrzymujemy (po uproszczeniu) regiony klasyfikacji: gdzie i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami W celu oceny wyników dowolnej metody klasyfikacyjnej obliczamy jej wskaźnik błędów lub prawdopodobieństwo błędnej klasyfikacji. Ze względu na to iż wyjściowe populacje rzadko są znane, skupimy się na wskaźnikach błędów powiązanych z próbkową funkcją klasyfikacyjną. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności funkcji klasyfikacyjnych Całkowite prawdopodobieństwo błędnej klasyfikacji (TPM) TPM = p 1 R 2 f 1 (x)dx + p 2 R 1 f 2 (x)dx Najmniejszą wartość TPM nazywamy najlepszym wskaźnikiem błędów (OER). Najlepszy wskaźnik błędów (OER) gdzie: OER = p 1 R 2 f 1 (x)dx + p 2 R 1 f 2 (x)dx R 1 : f 1(x) f 2 (x) p 2 p 1 R 2 : f 1(x) f 2 (x) < p 2 p 1 i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności funkcji klasyfikacyjnych OER oznacza jaki procent składników będzie niepoprawnie przydzielony po zastosowaniu najlepszej reguły klasyfikacji, np. OER = 13% oznacza, że reguła klasyfikacji niepoprawnie przydzieli około 13% składników do pierwszej lub drugiej populacji. Najlepszy wskaźnik błędów (OER) najłatwiej obliczyć, gdy funkcje gęstości populacji są znane. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności próbkowch funkcji klasyfikacyjnych Rzeczywisty wskaźnik błędów (AER) AER = p 1 ˆR 2 f 1 (x)dx + p 2 ˆR 1 f 2 (x)dx gdzie ˆR 1 i ˆR2 - obszary klasyfikacyjne. AER ukazuje jak próbkowa funkcja klasyfikacyjna będzie zachowywała się dla przyszłych próbek. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności próbkowch funkcji klasyfikacyjnych Wskaźnik błędów pozornych (APER) APER jest zdefiniowany jako ułamek obserwacji, który został błędnie sklasyfikowany przez próbkową funkcje klasyfikacyjną. Może być on łatwo obliczony z macierzy pomyłek, która przedstawia rzeczywistą i przewidywaną przynależność do grup. Jest to miara skuteczności, która nie zależy od postaci populacji macierzystej. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności próbkowch funkcji klasyfikacyjnych Mamy n 1 obserwacji z π 1 oraz n 2 obserwacji z π 2. Macierz pomyłek wygląda następująco: gdzie n 1C - liczba pozycji z π 1 poprawnie sklasyfikowanych jako π 1 n 1M - liczba pozycji z π 1 błędnie sklasyfikowanych jako π 2 n 2C - liczba pozycji z π 2 poprawnie sklasyfikowanych jako π 2 n 2M - liczba pozycji z π 2 błędnie sklasyfikowanych jako π 1 i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Miary oceny skuteczności próbkowch funkcji klasyfikacyjnych Obliczenie wskaźnika APER: APER = n 1M+n 2M n 1 +n 2 Wskaźnik ten rozumiemy jako udział pozycji ze zbioru uczącego, które są błędnie sklasyfikowane. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Dla podanej poniżej macierzy pomyłek obliczono wskaźnik APER: Wynik ten oznacza, że 16, 7% pozycji ze zbioru uczącego jest błędnie sklasyfikowane. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami z kilkoma populacjami Uogólnijmy procedury klasyfikacyjne dla g 2 grup. Metoda Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji Niech f i (x) będzie gęstością powiązaną z populacją π 1. Niech: p i - prawdopodobieństwa a priori populacji π i c(k i) - koszty przydziału pozycji do π k, jeśli naprawdę należy ona do π i dla k, i = 1, 2,..., g Dla k = i, c(i i) = 0. R k - zbiór x-ów sklasyfikowanych jako π k P(k i) = R k f i (x)dx dla k, i = 1, 2,..., g, gdzie P(i i) = 1 g k=1,k i P(k i) i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Warunkowy oczekiwany koszt błędnej klasyfikacji W podobny sposów można uzyskać warunkowe oczekiwane koszty błędnej klasyfikacji ECM(2),...,ECM(g). Po wymnożeniu każdego warunkowego ECM przez jego prawdopodobieństwo a priori i zsumowanie daje całkowity ECM. Wzór przedstawiono na kolejnym slajdzie prezentacji. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Oczekiwany koszt błędnej klasyfikacji i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Analogicznie do klasyfikacji dla dwóch populacji wybranie najlepszej reguły klasyfikacyjnej sprowadza się do wyboru wzajemnie rozłącznych obszarów klasyfikacji R 1, R 2,..., R g tak aby ECM było minimum. Obszary klasyfikujące, które minimalizują ECM są zdefiniowane przez przydzielenie x do tej populacji π k, k = 1, 2,..., g, dla której g i=1,1 k p if i (x)c(k i) jest najmniejsze. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Reguła Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji (ECM) przy równych kosztach błędnej klasyfikacji: Przydzielamy x 0 do π 1 jeżeli p k f k (x) > p i f i (x) dla wszystkich i k lub lnp k f k (x) > lnp i f i (x) dla wszystkich i k Należy pamiętać, że do realizacji powyższych reguł konieczne jest wcześniejsze oszacowanie prawdopodobieństw a priori, kosztów błędnej klasyfikacji oraz funkcji gęstości. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład nowej obserwacji do jednej z trzech znanych populacji: Przyporządkujemy obserwację x 0 do π 1, π 2 lub π 3 znając prawdopodobieństwa a priori, koszta błędnej klasyfikacji oraz wartości gęstości prawdopodobieństwa. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład Wartościami dla 3 i=1,i k p i f i (x 0 )c(k i) są Najmniejszą wartość otrzymujemy dla k = 2, a zatem przyporządkowujemy x 0 do π 2. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Przykład W przypadku gdy koszta błędnej klasyfikacji są takie same, to posługujemy się zasadą minimum ECM przy równych kosztach. Zatem potrzebujemy tylko następujących iloczynów: p 1 f 1 (x 0 ) = (0.05)(0.01) = 0.0005 p 2 f 2 (x 0 ) = (0.60)(0.85) = 0.510 p 3 f 3 (x 0 ) = (0.35)(2) = 0.700 Widzimy, że p 3 f 3 (x 0 ) osiąga największą wartość i stąd przyporządkowujemy x 0 do π 3. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami kilku populacji normalnych W przypadku, gdy f i (x) są wielowymiarowymi gęstościami rozkładu normalnego z wektorami średnich µ i i macierzami kowariancji i oraz c(i i) = 0, c(k i) = 1, k i (lub równoważnie koszty błędnych klasyfikacji są równe) następuje reguła: Przydziel x do π k jeżeli i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Ponieważ stała ( p 2 )ln(2π) jest taka sama dla wszystkich populacji, to może zostać pominięta. Otrzymujemy w ten sposób kwadratowy wynik dyskryminacji dla i-tej populacji jako Kwadratowy wynik dyskryminacji i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami W przypadku korzystania z kwadratowych wyników dyskryminacji zasada klasyfikacji przedstawia się następująco: Zasada minimalnego całkowitego prawdopodobieństwa błędnej klasyfikacji (TPM) dla populacji normalnych - nierówne i Przydziel x do π k jeżeli d Q k (x) = największy z d Q 1 (x), d Q 2 (x),..., d Q g (x). i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami W rzeczywistości µ i oraz i są nieznane. Wtedy korzystamy z zasady klasyfikacji opartej na próbie. Oszacowany kwadratowy wynik dyskryminacji wygląda następująco: gdzie x i - próbka wektora średniej S i - próbka macierzy kowariancji n i - rozmiar próbki i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Zasada szacowania minimum (TPM) dla kilku populacji normalnych - nierówne i Przydziel x do π k jeżeli ˆ d Q ˆ k (x) = największy z d1 Q (x),..., ˆ d Q 2 (x) i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami W przypadku, gdy macierze kowariancji populacji są równe, wynik dyskryminacji obliczamy za pomocą poniższego wzoru: Pierwsze dwa składniki są takie same dla d Q i (x), a zatem możemy je pominąć. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Oszacowanie liniowego dyskryminantu d ˆQ i (x) oparte jest na oszacowaniu : i wyraża się wzorem: i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Zasada szacowania minimum (TPM) dla równych kowariancji populacji normalnych Przydziel x do π k jeżeli ˆ d Q ˆ k (x) = największy z d1 Q (x),..., ˆ d Q g (x). i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Absolwenci szkoły biznesowej - KLASYFIKACJA Za pomocą danych zawierających GPA (średnia uzyskanych ocen) oraz GMAT (wyniki testu końcowego) zadecydujemy, którzy studenci mogą zostać dopuszczeni do studiów podyplomowych. Dane zawierają wyniki potencjalnych kandydatów, którzy zostali podzieleni na trzy grupy: admit - dopuszczeni, border - graniczący, notadmit - niedopuszczeni. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Próbka testowa Procedura SURVEYSELECT zapewnia różne metody wybierania losowych próbek opartych na prawdopodobieństwie. Procedura może wybrać prostą losową próbkę lub próbkę zgodnie ze złożonym wieloetapowym projektem próbki, który obejmuje stratyfikację, grupowanie i nierówne prawdopodobieństwo selekcji. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (opcja WCOV) Opcja WCOV wyświetla kowariancję wewnątrz każdej klasy. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (opcja PCOV) Opcja PCOV wyświetla połączoną międzyklasową macierz kowariancji. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (opcja MANOVA) Opcja MANOVA wyświetla wielowymiarowe statystyki do testowania hipotezy, że średnie w klasie są równe w populacji. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (liniowa funkacja rozpoznawcza) Liniowe funkcje rozpoznawcze odpowiednio dla każdej klasy: d admit ˆ (x) = 108.61130GPA + 0.19205GMAT 239.83859 d borde ˆ (x) = 95.06514GPA + 0.15603GMAT 178.35976 d notadmit ˆ (x) = 79.89778GPA + 0.14927GMAT 133.72029 i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami PROC DISCRIM (opcja LISTERR) Opcja LISTERR wyświetla wyniki klasyfikacji resubstytucyjnej tylko dla błędnie sklasyfikowanych obserwacji. i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Podsumowanie klasyfikacji dla danych testowych i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Analiza dyskryminacyjna - sposób II i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Analiza dyskryminacyjna - sposób II i dyskryminacja

dla dwóch wielowymiarowych normalnych populacji z kilkoma populacjami Analiza dyskryminacyjna - sposób II i dyskryminacja

Fishera dla dwóch populacji Fisher doszedł do statystki liniowej klasyfikacji, używając zupełnie innego argumentu. Jego pomysłem byłoa transformacja wielowymiarowych obserwacji do jednowymiarowych obserwacji y, takich, że y pochodzące z obserwacji π 1 i π 2 były oddzielone od siebie tak bardzo jak to możliwe. Fisher zasugerował wzięcie liniowych kombinacji x aby stworzyć y ponieważ są one wystarczająco proste aby można było się nimi łatwo posługiwać i dyskryminacja

Fishera, dwie populacje-ciąg dalszy Kombinacja liniowa xów przybiera wartości y 11, y 12,..., y 1π1 dla obserwacji z pierwszej populacji i wartości y 21, y 22,..., y 2π2 dla obserwacji z drugiej populacji. Rozdział tych dwóch zbiorów jednowymiarowych ygreków jest oceniana różnicą między ȳ 1 i ȳ 2 wyrażonych w jednostkach odchylenia standardowego i dyskryminacja

Fishera, dwie populacje, ciąg dalszy II Separacja ta wyraża się następującym wzorem,gdzie s 2 y = separacja = ȳ1 ȳ 2 s y (1) n1 j=1 (y 1j ȳ 1 ) 2 + n 2 j=1 (y 2j ȳ 2 ) 2 n 1 + n 2 2 jest estymacją wariancji, natomiast celem jest wybranie kombinacji liniowej xów, aby osiągnąć maksymalny rozdział próbkowych średnich ȳ 1 i ȳ 2 (2) i dyskryminacja

Rozwiązanie Kombinacja liniowa ŷ = â x = ( x 1 x 2 )S 1 pooled x maksymalizuję rozdział. i dyskryminacja

Zasada klasyfikacji Fishera Alokuj x 0 do π 1 jeśli ŷ 0 = ( x 1 x 2 ) S 1 pooled x 0 ˆm = 1 2 ( x 1 x 2 ) S 1 pooled ( x 1 + x 2 ) (3) Alokuj x 0 do pi 2 jeśli ŷ 0 < ˆm (4) i dyskryminacja

Dyskryminacja Fishera-obrazek i dyskryminacja

Metoda Fishera dla dyskryminacji pomiędzy wieloma populacjami Fisher zaproponował także rozszerzenie swojej metody, do kilku populacji. Motywacją idącą za analizą dyskryminacyjną Fishera jest potrzeba uzyskania rozsądnej reprezentacji populacji za pomocą jedynie kilku liniowych kombinacji obserwacji takich jaka 1,a 2,a 3 i dyskryminacja

Zalety dyskryminacji Fishera 1 Wygodna reprezentacja g populacji, która redukuje wymiar, z wielkiej liczby charakterystyk to relatywnie niewielu kombinacji liniowych. Oczywiście część informacji może zostać stracona 2 Pozwala na wykreślenie średnich pierwszych dwóch lub trzech kombinacji liniowych, co pozwala na zobaczenie relacji i możliwych podziałów populacji i dyskryminacja

Założenia W dyskryminacji Fishera nie musimy koniecznie zakładać, że g populacji mają wielowymiarowy rozkład normalny. Musimy jednak założyć, że macierze kowariancji populacji są sobie równe, czyli Σ 1 = Σ 2 =... = Σ g = Σ (5) i dyskryminacja

Dyskryminacja Fishera Przyjmujemy następujące oznaczenia B µ = g i=1 (µ i µ)(µ i µ) oraz ˆµ = 1 g g i=1 µ i Rozważamy kombinację liniową Y = a X o wartości oczekiwanej dla populacji π i : i wariancji dla wszystkich populacji E(Y ) = a E(X π i ) = a µ i (6) Var(Y ) = a Cov(X )a = a Σa (7) i dyskryminacja

Dyskryminacja Fishera wartość oczekiwana µ iy = a µ i zmienia się wraz ze zmianą populacji z której jest wybrany X. Definiujemy ogólną średnia jako ū Y = 1 g g a µ i = a ( 1 g i=1 g µ i ) = a ˆµ (8) i=1 i tworzymy stosunek sumy dystansów podniesionych do kwadratu od populacji od ogólnej średniej Y do wariancji i dyskryminacja

Dyskryminacja Fishera Stosunek ten wyraża się wzorem g i=1 (µ iy µ Y ) 2 ) σ 2 Y = a B µ a a σa (9) Szukamy a który zmaksymalizuje ten stosunek i dyskryminacja

Dyskryminacja Fishera Ponieważ zwykle Σ i µ są niedostępne, korzystamy zazwyczaj ze zbioru treningowego poprawnie zaklasyfikowanych obserwacji. Zakładamy, że zbiór treningowy składa się z prób losowych rozmiaru n i z populacji π i, i=1,2...g. i dyskryminacja

Dyskryminacja Fishera Tworzymy wektor średnich z próby n j x i = 1 x ij (10) n i j=1 i macierzy kowariancji S i Definiujemy wektor ogólnej średniej x = 1 g x i (11) g i=1 Następnie analogicznie do B µ, definiujemy macierz B g B = ( x i x)( x i x) (12) i=1 i dyskryminacja

Dyskryminacja Fishera Następnie estymacja Σ opiera się na W g n i W = ( x i x)( x i x) (13) i=1 j=1 Estymacja Σ,wyraża sie wzorem S pooled = W n 1 + n 2 +.. + n g g (14) i dyskryminacja

Dyskryminacja Fishera Niech ˆλ 1, ˆλ 2,...ˆλ s oznaczają s min(g 1, p) niezerowych wartości własnych W 1 B i ê 1, ê 2,...ê s będą odpowiadającym nim wartością własnym przeskalowanym aby ês pooled ê = 1 Wektor â musi zmaksymalizować stosunek â Bâ â W â = â ( g i=1 ( x i x)( x i x) â) â [ g ni i=1 j=1 ( x i x)( x i x) ]â (15) I tym wektorem jest â 1 = ê 1.Liniowa kombinacja â 1 x jest nazywana pierwsza próbkową dyskryminantą. Analogicznie â k x nazywamy k-tą liniową dyskryminantą i dyskryminacja

Dyskryminanty Fishera powstały w celu uzyskania niskowymiarowej reprezentacji danych, która separuje populacje tak mocno jak to możliwe. Chociaż dyskryminanty powstały w celu separacji, dają także podstawy dla zasady klasyfikacyjnej. Najpierw wyjaśnimy ten związek korzystając z dyskryminant populacji a i X i dyskryminacja

Ustalając Y k = a k X =k-ta dyskryminanta, k s Mamy,które posiada wektor średnich Y = [Y 1 Y 2... Y s ] µ iy = [a 1µ i... a sµ i ] i dyskryminacja

Ponieważ elementy Y mają jednostkowe wariancje i zerową kowariancję odpowiednia miarą kwadratu odległości pomiędzy Y = y do µ iy jest (y µ iy ) (y µ iy ) = g (y j µ iyj ) 2 (16) Rozsądną reguła klasyfikacji jest taka,która przyporządkowuje y do populacji π k jeśli kwadrat odległości między y a µ ky jest mniejszy od kwadratu odległości od y do µ iy, dla i różnych od k j=1 i dyskryminacja

Dla r dyskryminant zasada alokacji prezentuje się następująco. Alokuj x do π k jeśli: r (y j µ kyj ) 2 = j=1 r [a j(x µ k )] 2 j=1 jest spełnione dla wszystkich i k r [a j(x µ i )] 2 (17) j=1 i dyskryminacja

Kiedy używamy regresji logistycznej? Podstawowymi przypadkami w którzy można użyć regresji logistycznej są te gdy mamy zmienną objaśnianą dychotomiczną, czyli taką, która przyjmuje dwie wartości. Na przykład weźmy zmienną objaśnianą- firma zbankrutuje. Zmienna ta będzie posiadała 2 wartości- bankructwo(1) i brak bankructwa(0). Będzie ona miała rozkład zerojedynkowy, czyli Bernoulliego z parametrami B(1,p). Parametr p to szukane przez na prawdopodobieństwo bankructwa. i dyskryminacja

Szansa i logit Model regresji logistycznej posługuje się terminem szansy. Wyraża się ona wzorem: szansa = p (18) 1 p Z kolei funkcja logit wyraża się wzorem p logit(p) = ln(szansa) = ln( 1 p ) i dyskryminacja

Model W najprostszym modelu z jedną zmienną objaśniającą zakładamy, że logarytm szans jest liniowo zależny od zmiennej objaśniającej eksponencjując θ(z) = p ln( 1 p ) = β 0 + β 1 z (19) p(z) 1 p(z) = exp(β 0 + β 1 z) (20) i dyskryminacja

Model cz.2 Rozwiązując równanie(numer), ze względu na θ(x) otrzymujemy równanie krzywej logistycznej p(z) = exp(β 0 + β 1 z) 1 + exp(β 0 + β 1 z) (21) Krzywa logistyczna pokazuje nam jak zmienia się prawdopodobieństwo wraz ze zmianą w z. i dyskryminacja

Analiza regresji logistycznej Rozważamy model z wieloma zmiennymi objaśniającymi. Niech z j1, z j2,..., z jr, będą wartościami r zmiennych objaśniających dla jtej obserwacji.wektor z j = [1, z j1, z j2,..., z jr ].Przypuszczamy że obserwacja Y j jest próbą Bernoulliego z prawdopodobieństwem sukcesu p(z j ).Wtedy dla y j = 0, 1 P(Y j = y j ) = p y j (z j )(1 p(z j )) 1 y j (22) i dyskryminacja

Analiza regresji logistycznej-ciąg dalszy Z równania (numer), wynika, że E(Y j ) = p(z j ) (23) oraz Var(Y j ) = p(z j )(1 p(z j )) (24) i dyskryminacja

Model regresji logistycznej dla wielu predyktorów Równanie modelu regresji logistycznej przedstawia się następującym wzorem p(z) ln( 1 p(z) = β 0 + r β i z i (25) i=1 i dyskryminacja

Estymacja metodą największej wiarygodności Oszacowania bet mogą być uzyskane dzięki metodzie największej wiarygodności. Wiarygodność L jest dana wspólnym rozkładem prawdopodobieństwa ewaluowanym dla obserwowanych zliczeń y j. A więc: L(b 0, b 1...b r ) = n p y j (z j )(1 p(z j )) 1 y j = j=1 = nj=1 e y j (b 0 +b 1 z j1 +...+b r z jr ) nj=1 (1 + e b 0+b 1 z j1 +...+b r z jr ) (26) i dyskryminacja

Przedziały ufności Uzyskane estymacje będziemy reprezentowali przez ˆβ, który przy założeniu duzej próbki pochodzi z rozkładu normalnego o średniej β. Wtedy: ˆ Cov( ˆβ) [ n ˆp(z j )(1 hatp(z j )z j z j ] 1 (27) j=1 Pierwiastki kwadratowe elementów powyższej macierzy są błędami standardowymi estymatorów ˆβ 0, ˆβ 1,..., ˆβ r i dyskryminacja

Przedziały ufności cz.2 Dużopróbkowy 95% przedział ufności dla β k wyraża się następującym wzorem: ˆβ k ± 1, 96SE(ˆ(β k )) (28) i dyskryminacja

Test ilrazu wiarygodności Aby sprawdzić istotność zmiennej objaśniającej w modelu używamy testy stosunku wiarygodności.hipotezą zerową jest H 0 : β k = 0 Statystyka testowa, która nazywamy dewiancją ma formę: L( 2ln( ˆβ 0, ˆβ 1,..., ˆβ k 1, ˆβ k+1,... ˆβ r ) L( ˆβ 0, ˆβ 1,..., ˆβ k 1, ˆβ k, ˆβ k+1,... ˆβ r ) ) (29) W przypadku podanym powyżej statystyka testowa dla hipotezy zerowej ma rozkład chi kwadrat z 1 stopniem swobody. i dyskryminacja

Niech zmienna objaśniana Y będzie równa jeden jeśli obserwowany przypadek należy do populacji 1, natomiast równa 0, jeśli przypadek należy do populacji 2. Za zasadę klasyfikująca możemy przyjąć Zasada klasyfikacyjna Przyporządkuj z do populacji 1 jeśli szacunkowa szansa jest większa niż 1, czyli ˆp(z) 1 ˆp(z) = exp( ˆβ 0 + ˆβ 1 z 1 +... + ˆβ r z r ) > 1 (30) i dyskryminacja

Przykład z łososiem Chcemy zaklasyfikować łososie jako alaskańskie bądź kanadyjskie. Użyjemy w tym celu regresji logistycznej, korzystając z sasowej proc logistic. i dyskryminacja

Przykład i dyskryminacja

Przykład i dyskryminacja

Przykład i dyskryminacja

Przykład i dyskryminacja

Odmienna od przedstawionych wcześniej metod jest metoda drzew klasyfikacyjnych. Na początku wszystkie obiekty znajdują się w jednej grupie, następnie dzielimy je na dwie podgrupy według wartości jednej zmiennej, potem dzielimy te podgrupy według wartości kolejnej zmiennej i tak dalej, aż do osiągniecia odpowiedniego punktu zatrzymania. i dyskryminacja

Przykładowe drzewo klasyfikacyjne i dyskryminacja

Przykład drzewa klasyfikacyjnego w SAS Używając proc hpsplit SAS wykonamy drzewo klasyfikacyjne w celu zbadania prawdopodobieństwa, że kredyt hipoteczny będzie złym kredytem, zależnie od tego kto o niego występuje. i dyskryminacja

są alogorytmicznymi procedurami służącymi przekształceniu wejść w oczekiwane wyjścia, używając wysoko połączonych sieci relatywnie prostych jednostek przetwarzających(nazywanych neuronami). Ich trzema koniecznymi cechami są: podstawowe jednostki obliczeniowe(neurony), architektura sieci opisująca połączenia miedzy jednostkami obliczeniowymi i algorytm treningowy używany do znalezienia parametrów sieci(wag) służących wykonaniu określonego zadania. i dyskryminacja

Przykładowa sięć neuronowa i dyskryminacja

Dodatek Bibliografia I Johnson, R. A., Wichern, D. W.. Applied multivariate statistical analysis. Prentice Hall i dyskryminacja