Ekonometria Analiza dyskryminacyjna

Ekonometria Analiza dyskryminacyjna Paweł Cibis pawel@cibis.pl 11 maja 2007

A dlaczego Power Point? a tak dla odmiany ;-);

Wielowymiarowa analiza porównawcza Dyscyplina naukowa zajmująca się porównywaniem obiektów w określonych za pomocą wielu cech Jeden z jej działów w to metody grupowania, słuŝące do badania podobieństw obiektów w pod względem poziomu zjawiska złoŝonegoz onego Metody grupowania moŝna podzielić na dyskryminacyjne i klasyfikacyjne

Dyskryminacja a klasyfikacja Dyskryminacja przydział obiektów w do znanych wcześniej klas Klasyfikacja podział obiektów w na nieznane wcześniej klasy Często proces podziału u obiektów w na klasy jest nazywany klasyfikacją,, niezaleŝnie od tego, czy klasy te zostały y wcześniej ustalone, czy nie

Czym jest analiza dyskryminacyjna? Zbiór r metod pozwalający na znalezienie kombinacji cech, które najlepiej rozróŝniaj niają dwie lub więcej klas obiektów lub zdarzeń Zbiór,, bo istnieje kilka wariantów w analizy dyskryminacyjnej zaleŝnych od posiadanych informacji na temat badanej populacji i przyjętych załoŝeń

ZawęŜ ęŝenie zakresu Analiza dyskryminacyjna pozwala na stworzenie klasyfikatora zaliczającego cego dany obiekt (opisany wieloma cechami) do jednej z wielu znanych wcześniej klas Będziemy się zajmować wyłą łącznie przypadkami, gdy obiekt moŝe e naleŝeć wyłą łącznie do jednej z dwóch klas

Ogólnie i nieco formalnie Mamy dany wektor X,, który zawiera wartości pewnych cech danego obiektu (jest więc obserwacją) Chcemy odgadnąć ąć,, czy obserwacja ta naleŝy y do jednej z dwóch populacji KaŜda z tych populacji charakteryzuje się pewnym (wielowymiarowym) rozkładem analizowanych cech Oznaczmy gęstog stość pierwszej populacji jako f 1 (x,ө 1 ), a drugiej jako f 2 (x,ө 2 ), gdzie ө i oznacza wektor parametrów w i-tego i rozkładu Wobec tego zagadnienie dyskryminacyjne sprowadza się do odgadnięcia, z którego rozkładu pochodzi analizowany obiekt Stworzona zostanie funkcja dyskryminacyjna, której wartość dla danego obiektu, określi, z którego rozkładu ten obiekt pochodzi z większym prawdopodobieństwem

Kilka przypadków Znamy rozkłady cech Przypadek ogólny Rozkład normalny o wspólnej macierzy kowariancji Rozkład normalny o róŝnych r macierzach kowariancji Nie znamy rozkład adów w cech

Znany rozkład przypadek ogólny Kryterium klasyfikacyjne jeŝeli eli dla danego obiektu: f f ( x, θ ) 1 > ( x, θ ) 2 1 to klasyfikowany jest on jako naleŝą Ŝący do pierwszej populacji, a w przeciwnym wypadku do drugiej Kryterium jest więc c wyŝsza wartość funkcji gęstog stości w danym punkcie (czyli dla danych wartości cech obiektu)

O co chodzi z tymi gęstog stościami? 0,3 0,25 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 f1(x,ө1) f2(x,ө2) ZałóŜmy, Ŝe e obiekt charakteryzuje tylko jedna ciągła cecha, a jej rozkłady w kaŝdej z populacji sąs takie jak na powyŝszym rysunku ZałóŜmy teŝ, Ŝe e obiekt ten musi pochodzić z jednej tych populacji Wysokość krzywej obrazuje natęŝ ęŝenie, z jakim powinny pojawiać się obserwacje o danej wartości w populacji o danym rozkładzie

O co chodzi z tymi gęstog stościami? 0,3 0,25 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 f1(x,ө1) f2(x,ө2) Nie moŝemy tu mówim wić o prawdopodobieństwie wystąpienia obserwacji o danej wartości cechy, gdyŝ dla rozkład adów w ciągłych wynosi ono zero MoŜemy jednak problem odwróci cić jeŝeli eli pojawiała a się obserwacja o danej wartości, to o pochodzenie z którego rozkładu będziemy b bardziej skłonni jąj podejrzewać

O co chodzi z tymi gęstog stościami? 0,3 0,25 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 f1(x,ө1) f2(x,ө2) Przykład 1: x=25 Widzimy, Ŝe e w populacji pierwszej nie występuj pują wartości większe od 21, natomiast w drugiej tak Wobec tego juŝ na tej podstawie moŝemy przypisać obserwację do drugiej populacji Jest to jednak przypadek skrajny, gdyŝ zakłada, ada, Ŝe e dla x=25 wartość pierwszej funkcji gęstog stości wynosi zero

O co chodzi z tymi gęstog stościami? 0,3 0,25 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 f1(x,ө1) f2(x,ө2) Przykład 2: x=7 Pierwsza funkcja gęstog stości w punkcie x=7 przyjmuje wartość między 0,25 a 0,3 Druga funkcja gęstog stości w punkcie x=7 przyjmuje wartość między 0,1 a 0,15 Wobec tego obserwacja ta pochodzi raczej z pierwszej populacji

A co, gdy mamy więcej niŝ 1 cechę? W przypadku wielu cech, analizujemy rozkład wielowymiarowy KaŜda cecha to zmienna losowa o pewnym rozkładzie charakteryzującym cym się pewnymi parametrami Istotne sąs teŝ zaleŝno ności pomiędzy cechami (macierz kowariancji) Ogólna postać kryterium się jednak nie zmienia

Rozkłady normalne o tej samej macierzy kowariancji i-ta funkcja gęstog stości wyraŝa a się wzorem: 1 1 f ( x, µ i ) = exp p i µ / 2 i (2π ) det Σ 2 T 1 ( x µ ) Σ ( x ) µ i to wartość oczekiwana, a to macierz kowariancji Iloraz funkcji gęstog stości ma postać: 1 exp 1 2 1 2 1 µ 2 2 ( ) T 1 ( ) T 1( ) µ µ Σ x µ µ Σ µ +

Rozkłady normalne o tej samej macierzy kowariancji Iloraz funkcji gęstog stości jest wiekszy od 1 gdy: ( ) T 1 1 ( ) T 1 KD = µ ( ) 1 µ 2 Σ x µ 1 µ 2 Σ µ 1 + µ 2 > 0 2 KD to kryterium dyskryminacyjne, otrzymane poprzez obustronne logarytmowanie przy podstawie naturalnej nierówno wności dla ilorazu funkcji gęstog stości Widać więc, choć moŝe e nie na pierwszy rzut oka;-), Ŝe KD jest wielowymiarową funkcją liniową zmiennej x Stąd d metodę tą nazywa się liniową analizą dyskryminacyjną (LDA linear discriminant analysis)

Rozkłady normalne o róŝnych r macierzach kowariancji W tym przypadku zamiast,, dla kaŝdego rozkładu pojawi się osobna macierz kowariancji 1 oraz 2 Ilorazowe kryterium dyskryminacyjne moŝna znów łatwo przekształci cić za pomocą logarytmowania do funkcji KD, której postać tym razem będzie b kwadratowa (wzory sobie na razie darujmy) Stąd d taki przypadek nazywamy kwadratową analizą dyskryminacyjną (QDA quadratic discriminant analysis)

Nieznane parametry rozkład adów cech JeŜeli eli znamy funkcje gęstog stości (rodzaj rozkładu), ale nie znamy pewnych jego parametrów, to posługujemy się w miejscu ich rzeczywistych wartości odpowiednimi estymatorami obliczonymi na podstawie próby W tej sytuacji oczywiście cie pojawia się problem dokładno adności estymacji

Nieznane parametry rozkład adów cech Pojawić się teŝ moŝe e konflikt pomiędzy dokładno adnością metoda, a dokładno adnością estymacji QDA jest zwykle nieco dokładniejsza od LDA, gdyŝ umoŝliwia lepsze dopasowanie funkcji dyskryminacyjnej do danych Z drugiej strony QDA wymaga estymacji dwóch macierzy kowariancji, a LDA tylko jednej, więc estymacja na potrzeby QDA opatrzona jest większym błęb łędem W większo kszości przypadków w lepiej jest zastosować w takiej sytuacji metodę LDA, zamiast QDA

Nieznane postaci funkcji gęstog stości Jest to najczęstszy przypadek nie znamy lub nie mamy pewności co do postaci funkcji gęstog stości rozkład adów w rozpatrywanych cech Przypomnijmy, iŝi QDA wymagała wielowymiarowego rozkładu normalnego, a LDA dodatkowo wspólnej macierzy kowariancji

Nieznane postaci funkcji gęstog stości Okazuje się jednak, iŝi analiza dyskryminacyjna jest dosyć odporna na niespełnienie nienie załoŝeń Wobec tego moŝliwe jest podejście niezaleŝne ne od rozkładu zmiennych MoŜna zbudować funkcję dyskryminacyjną opartą wyłą łącznie na estymatorach wartości oczekiwanych cech i ich kowariancji

Funkcja dyskryminacyjna JeŜeli eli obiekt opisany jest za pomocą n cech (a dokładnie n istotnych wg nas cech), to liniową funkcję dyskryminacyjną moŝna zapisać jako: Y=α 1 x 1 + α 2 x 2 + α n x n, gdzie α i to estymowany parametr przy i-tej i zmiennej

Estymator parametrów Wektor współczynnik czynników w przy zmiennych: a 1 = S ( x x ) 2 Wektory w nawiasie to średnie wartości cech w obu grupach obliczone na podstawie próby 1

Kryterium dyskryminacyjne Macierzowa postać funkcji dyskryminacyjnej: y=a T x MoŜemy dzięki temu obliczyć wartość funkcji dyskryminacyjnej dla danej niesklasyfikowanej jeszcze obserwacji Sama wartość o niczym nam jednak nie mówi m potrzebujemy kryterium decyzyjnego Jeśli podstawimy do funkcji dyskryminacyjnej średnie wartości cech dla kaŝdej grupy, otrzymamy średnie wartości funkcji dyskryminacyjnej dla kaŝdej z grup Średnia arytmetyczna z tych wartości będzie b punktem odniesienia dla funkcji dyskryminacyjnej obserwacje o wartości funkcji większej od punktu odniesienia będąb klasyfikowane do pierwszej grupy, a pozostałe e do drugiej

Kryterium dyskryminacyjne Łatwo pokazać, Ŝe e punkt odniesienia wyraŝa a się wzorem: 1 2 T 1 ( x1 x2) S ( x1 + x Wobec tego kryterium dyskryminacyjne zapiszemy jako: KD = a T x 1 2 T 1 ( x1 x2) S ( x1 + x 2 ) 2 )

Reguła a decyzyjna Podobnie, jak w przypadku znanego rozkładu, gdy KD>0 klasyfikujemy obiekt do pierwszej grupy, a w przeciwnym przypadku do drugiej NaleŜy y zaznaczyć,, iŝi jest to przypadek, w którym zakładamy adamy wspóln lną macierz kowariancji, a jej estymator jest obliczany na podstawie próby składaj adającej się z obserwacji z obu grup

W razie uwag PoniewaŜ w pewien sposób debiutuję z tym tematem będęb wdzięczny za wszelkie poprawki oraz uwagi Najlepiej ustnie lub mailowo na: pawel@cibis.pl Z góry g dziękuj kuję ;-)

Dodatek Coś,, co pozwoli lepiej zrozumieć laborki

Irysy Kosaciec, irys (Iris L., Cryptobasis Nevski) - rodzaj roślin cebulowych i kłąk łączowych naleŝą Ŝący do rodziny kosaćcowatych cowatych.. Kosaćce występuj pują w stanie dzikim na półkuli p północnej. p W Polsce rosną dziko kosaciec bezlistny, kosaciec trawolistny, kosaciec Ŝółty i kosaciec syberyjski. To była a definicja z polskiej Wikipedii Iris to takŝe e popularny zestaw danych do analizy dyskryminacyjnej Składa się ze 150 obserwacji 3 gatunków w irysów (po 50 kaŝdego rodzaju)

Setosa, versicolor i virginica Iris Setosa Iris Versicolor Iris Virginica 3 gatunki irysów w róŝnir nią się kształtem tem i kolorem płatków Zestaw danych zawiera długod ugości i szerokości 2 rodzajów w płatkp atków petali i sepali

Petale i sepale Sepale to zewnętrzne, najczęś ęściej zielone płatki spełniaj niające funkcję ochronną w przypadku irysów w sąs barwy fioletowej i odznaczają się większymi rozmiarami od petali Petale to kolorowe, wewnętrzne płatki p stanowiące rodzaj wabika dla zapylających kwiaty owadów

Petale i sepale Petale i sepale w ogólnym modelu kwiatka ;-);

To juŝ naprawdę koniec Dziękuj kuję za uwagę!!!