Ekonometria Analiza dyskryminacyjna

Podobne dokumenty
5. Analiza dyskryminacyjna: FLD, LDA, QDA

Metody systemowe i decyzyjne w informatyce

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Układy równań liniowych. Ax = b (1)

STATYSTYKA INDUKCYJNA. O sondaŝach ach i nie tylko

Wprowadzenie do analizy dyskryminacyjnej

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Zagadnienie klasyfikacji (dyskryminacji)

Inteligentna analiza danych

Metody systemowe i decyzyjne w informatyce

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Metody systemowe i decyzyjne w informatyce

Zestaw 12- Macierz odwrotna, układy równań liniowych

Testowanie hipotez statystycznych.

Statystyka matematyczna dla leśników

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Weryfikacja hipotez statystycznych

Agnieszka Nowak Brzezińska Wykład III

Ważne rozkłady i twierdzenia c.d.

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Matematyka i statystyka matematyczna dla rolników w SGGW

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Modele zapisane w przestrzeni stanów

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Testowanie hipotez statystycznych

Agnieszka Nowak Brzezińska Wykład III

Metody systemowe i decyzyjne w informatyce

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Metody probabilistyczne

Estymacja parametrów rozkładu cechy

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

1.1 Wstęp Literatura... 1

Elementy statystyki wielowymiarowej

1 Klasyfikator bayesowski

Agnieszka Nowak Brzezińska

Analiza danych. TEMATYKA PRZEDMIOTU

Rozpoznawanie obrazów

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Komputerowa analiza danych doświadczalnych

Wnioskowanie bayesowskie

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WYKŁAD 5 TEORIA ESTYMACJI II

Komputerowa analiza danych doświadczalnych

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Metody systemowe i decyzyjne w informatyce

Testowanie hipotez cz. I

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA MATEMATYCZNA

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

POLITECHNIKA OPOLSKA

Rozpoznawanie obrazów

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Jądrowe klasyfikatory liniowe

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

jest rozwiązaniem równania jednorodnego oraz dla pewnego to jest toŝsamościowo równe zeru.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

PDF created with FinePrint pdffactory Pro trial version

Statystyka w analizie i planowaniu eksperymentu

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW

166 Wstęp do statystyki matematycznej

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Teoria błędów pomiarów geodezyjnych

Statystyka w analizie i planowaniu eksperymentu

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Macierze. Rozdział Działania na macierzach

Prawdopodobieństwo i statystyka

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

KURS ACCESS 2003 Wiadomości wstępne

ANALIZA JEDNOZMIENNOWA. podstawowe pojęcia

STATYSTYKA OPISOWA. Znaczenie podstawowych miar

Komputerowa Analiza Danych Doświadczalnych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Systemy rozgrywek sportowych OGÓLNE ZASADY ORGANIZOWANIA ROZGRYWEK SPORTOWYCH

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Metoda największej wiarygodności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Estymacja punktowa i przedziałowa

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Transkrypt:

Ekonometria Analiza dyskryminacyjna Paweł Cibis pawel@cibis.pl 11 maja 2007

A dlaczego Power Point? a tak dla odmiany ;-);

Wielowymiarowa analiza porównawcza Dyscyplina naukowa zajmująca się porównywaniem obiektów w określonych za pomocą wielu cech Jeden z jej działów w to metody grupowania, słuŝące do badania podobieństw obiektów w pod względem poziomu zjawiska złoŝonegoz onego Metody grupowania moŝna podzielić na dyskryminacyjne i klasyfikacyjne

Dyskryminacja a klasyfikacja Dyskryminacja przydział obiektów w do znanych wcześniej klas Klasyfikacja podział obiektów w na nieznane wcześniej klasy Często proces podziału u obiektów w na klasy jest nazywany klasyfikacją,, niezaleŝnie od tego, czy klasy te zostały y wcześniej ustalone, czy nie

Czym jest analiza dyskryminacyjna? Zbiór r metod pozwalający na znalezienie kombinacji cech, które najlepiej rozróŝniaj niają dwie lub więcej klas obiektów lub zdarzeń Zbiór,, bo istnieje kilka wariantów w analizy dyskryminacyjnej zaleŝnych od posiadanych informacji na temat badanej populacji i przyjętych załoŝeń

ZawęŜ ęŝenie zakresu Analiza dyskryminacyjna pozwala na stworzenie klasyfikatora zaliczającego cego dany obiekt (opisany wieloma cechami) do jednej z wielu znanych wcześniej klas Będziemy się zajmować wyłą łącznie przypadkami, gdy obiekt moŝe e naleŝeć wyłą łącznie do jednej z dwóch klas

Ogólnie i nieco formalnie Mamy dany wektor X,, który zawiera wartości pewnych cech danego obiektu (jest więc obserwacją) Chcemy odgadnąć ąć,, czy obserwacja ta naleŝy y do jednej z dwóch populacji KaŜda z tych populacji charakteryzuje się pewnym (wielowymiarowym) rozkładem analizowanych cech Oznaczmy gęstog stość pierwszej populacji jako f 1 (x,ө 1 ), a drugiej jako f 2 (x,ө 2 ), gdzie ө i oznacza wektor parametrów w i-tego i rozkładu Wobec tego zagadnienie dyskryminacyjne sprowadza się do odgadnięcia, z którego rozkładu pochodzi analizowany obiekt Stworzona zostanie funkcja dyskryminacyjna, której wartość dla danego obiektu, określi, z którego rozkładu ten obiekt pochodzi z większym prawdopodobieństwem

Kilka przypadków Znamy rozkłady cech Przypadek ogólny Rozkład normalny o wspólnej macierzy kowariancji Rozkład normalny o róŝnych r macierzach kowariancji Nie znamy rozkład adów w cech

Znany rozkład przypadek ogólny Kryterium klasyfikacyjne jeŝeli eli dla danego obiektu: f f ( x, θ ) 1 > ( x, θ ) 2 1 to klasyfikowany jest on jako naleŝą Ŝący do pierwszej populacji, a w przeciwnym wypadku do drugiej Kryterium jest więc c wyŝsza wartość funkcji gęstog stości w danym punkcie (czyli dla danych wartości cech obiektu)

O co chodzi z tymi gęstog stościami? 0,3 0,25 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 f1(x,ө1) f2(x,ө2) ZałóŜmy, Ŝe e obiekt charakteryzuje tylko jedna ciągła cecha, a jej rozkłady w kaŝdej z populacji sąs takie jak na powyŝszym rysunku ZałóŜmy teŝ, Ŝe e obiekt ten musi pochodzić z jednej tych populacji Wysokość krzywej obrazuje natęŝ ęŝenie, z jakim powinny pojawiać się obserwacje o danej wartości w populacji o danym rozkładzie

O co chodzi z tymi gęstog stościami? 0,3 0,25 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 f1(x,ө1) f2(x,ө2) Nie moŝemy tu mówim wić o prawdopodobieństwie wystąpienia obserwacji o danej wartości cechy, gdyŝ dla rozkład adów w ciągłych wynosi ono zero MoŜemy jednak problem odwróci cić jeŝeli eli pojawiała a się obserwacja o danej wartości, to o pochodzenie z którego rozkładu będziemy b bardziej skłonni jąj podejrzewać

O co chodzi z tymi gęstog stościami? 0,3 0,25 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 f1(x,ө1) f2(x,ө2) Przykład 1: x=25 Widzimy, Ŝe e w populacji pierwszej nie występuj pują wartości większe od 21, natomiast w drugiej tak Wobec tego juŝ na tej podstawie moŝemy przypisać obserwację do drugiej populacji Jest to jednak przypadek skrajny, gdyŝ zakłada, ada, Ŝe e dla x=25 wartość pierwszej funkcji gęstog stości wynosi zero

O co chodzi z tymi gęstog stościami? 0,3 0,25 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 f1(x,ө1) f2(x,ө2) Przykład 2: x=7 Pierwsza funkcja gęstog stości w punkcie x=7 przyjmuje wartość między 0,25 a 0,3 Druga funkcja gęstog stości w punkcie x=7 przyjmuje wartość między 0,1 a 0,15 Wobec tego obserwacja ta pochodzi raczej z pierwszej populacji

A co, gdy mamy więcej niŝ 1 cechę? W przypadku wielu cech, analizujemy rozkład wielowymiarowy KaŜda cecha to zmienna losowa o pewnym rozkładzie charakteryzującym cym się pewnymi parametrami Istotne sąs teŝ zaleŝno ności pomiędzy cechami (macierz kowariancji) Ogólna postać kryterium się jednak nie zmienia

Rozkłady normalne o tej samej macierzy kowariancji i-ta funkcja gęstog stości wyraŝa a się wzorem: 1 1 f ( x, µ i ) = exp p i µ / 2 i (2π ) det Σ 2 T 1 ( x µ ) Σ ( x ) µ i to wartość oczekiwana, a to macierz kowariancji Iloraz funkcji gęstog stości ma postać: 1 exp 1 2 1 2 1 µ 2 2 ( ) T 1 ( ) T 1( ) µ µ Σ x µ µ Σ µ +

Rozkłady normalne o tej samej macierzy kowariancji Iloraz funkcji gęstog stości jest wiekszy od 1 gdy: ( ) T 1 1 ( ) T 1 KD = µ ( ) 1 µ 2 Σ x µ 1 µ 2 Σ µ 1 + µ 2 > 0 2 KD to kryterium dyskryminacyjne, otrzymane poprzez obustronne logarytmowanie przy podstawie naturalnej nierówno wności dla ilorazu funkcji gęstog stości Widać więc, choć moŝe e nie na pierwszy rzut oka;-), Ŝe KD jest wielowymiarową funkcją liniową zmiennej x Stąd d metodę tą nazywa się liniową analizą dyskryminacyjną (LDA linear discriminant analysis)

Rozkłady normalne o róŝnych r macierzach kowariancji W tym przypadku zamiast,, dla kaŝdego rozkładu pojawi się osobna macierz kowariancji 1 oraz 2 Ilorazowe kryterium dyskryminacyjne moŝna znów łatwo przekształci cić za pomocą logarytmowania do funkcji KD, której postać tym razem będzie b kwadratowa (wzory sobie na razie darujmy) Stąd d taki przypadek nazywamy kwadratową analizą dyskryminacyjną (QDA quadratic discriminant analysis)

Nieznane parametry rozkład adów cech JeŜeli eli znamy funkcje gęstog stości (rodzaj rozkładu), ale nie znamy pewnych jego parametrów, to posługujemy się w miejscu ich rzeczywistych wartości odpowiednimi estymatorami obliczonymi na podstawie próby W tej sytuacji oczywiście cie pojawia się problem dokładno adności estymacji

Nieznane parametry rozkład adów cech Pojawić się teŝ moŝe e konflikt pomiędzy dokładno adnością metoda, a dokładno adnością estymacji QDA jest zwykle nieco dokładniejsza od LDA, gdyŝ umoŝliwia lepsze dopasowanie funkcji dyskryminacyjnej do danych Z drugiej strony QDA wymaga estymacji dwóch macierzy kowariancji, a LDA tylko jednej, więc estymacja na potrzeby QDA opatrzona jest większym błęb łędem W większo kszości przypadków w lepiej jest zastosować w takiej sytuacji metodę LDA, zamiast QDA

Nieznane postaci funkcji gęstog stości Jest to najczęstszy przypadek nie znamy lub nie mamy pewności co do postaci funkcji gęstog stości rozkład adów w rozpatrywanych cech Przypomnijmy, iŝi QDA wymagała wielowymiarowego rozkładu normalnego, a LDA dodatkowo wspólnej macierzy kowariancji

Nieznane postaci funkcji gęstog stości Okazuje się jednak, iŝi analiza dyskryminacyjna jest dosyć odporna na niespełnienie nienie załoŝeń Wobec tego moŝliwe jest podejście niezaleŝne ne od rozkładu zmiennych MoŜna zbudować funkcję dyskryminacyjną opartą wyłą łącznie na estymatorach wartości oczekiwanych cech i ich kowariancji

Funkcja dyskryminacyjna JeŜeli eli obiekt opisany jest za pomocą n cech (a dokładnie n istotnych wg nas cech), to liniową funkcję dyskryminacyjną moŝna zapisać jako: Y=α 1 x 1 + α 2 x 2 + α n x n, gdzie α i to estymowany parametr przy i-tej i zmiennej

Estymator parametrów Wektor współczynnik czynników w przy zmiennych: a 1 = S ( x x ) 2 Wektory w nawiasie to średnie wartości cech w obu grupach obliczone na podstawie próby 1

Kryterium dyskryminacyjne Macierzowa postać funkcji dyskryminacyjnej: y=a T x MoŜemy dzięki temu obliczyć wartość funkcji dyskryminacyjnej dla danej niesklasyfikowanej jeszcze obserwacji Sama wartość o niczym nam jednak nie mówi m potrzebujemy kryterium decyzyjnego Jeśli podstawimy do funkcji dyskryminacyjnej średnie wartości cech dla kaŝdej grupy, otrzymamy średnie wartości funkcji dyskryminacyjnej dla kaŝdej z grup Średnia arytmetyczna z tych wartości będzie b punktem odniesienia dla funkcji dyskryminacyjnej obserwacje o wartości funkcji większej od punktu odniesienia będąb klasyfikowane do pierwszej grupy, a pozostałe e do drugiej

Kryterium dyskryminacyjne Łatwo pokazać, Ŝe e punkt odniesienia wyraŝa a się wzorem: 1 2 T 1 ( x1 x2) S ( x1 + x Wobec tego kryterium dyskryminacyjne zapiszemy jako: KD = a T x 1 2 T 1 ( x1 x2) S ( x1 + x 2 ) 2 )

Reguła a decyzyjna Podobnie, jak w przypadku znanego rozkładu, gdy KD>0 klasyfikujemy obiekt do pierwszej grupy, a w przeciwnym przypadku do drugiej NaleŜy y zaznaczyć,, iŝi jest to przypadek, w którym zakładamy adamy wspóln lną macierz kowariancji, a jej estymator jest obliczany na podstawie próby składaj adającej się z obserwacji z obu grup

W razie uwag PoniewaŜ w pewien sposób debiutuję z tym tematem będęb wdzięczny za wszelkie poprawki oraz uwagi Najlepiej ustnie lub mailowo na: pawel@cibis.pl Z góry g dziękuj kuję ;-)

Dodatek Coś,, co pozwoli lepiej zrozumieć laborki

Irysy Kosaciec, irys (Iris L., Cryptobasis Nevski) - rodzaj roślin cebulowych i kłąk łączowych naleŝą Ŝący do rodziny kosaćcowatych cowatych.. Kosaćce występuj pują w stanie dzikim na półkuli p północnej. p W Polsce rosną dziko kosaciec bezlistny, kosaciec trawolistny, kosaciec Ŝółty i kosaciec syberyjski. To była a definicja z polskiej Wikipedii Iris to takŝe e popularny zestaw danych do analizy dyskryminacyjnej Składa się ze 150 obserwacji 3 gatunków w irysów (po 50 kaŝdego rodzaju)

Setosa, versicolor i virginica Iris Setosa Iris Versicolor Iris Virginica 3 gatunki irysów w róŝnir nią się kształtem tem i kolorem płatków Zestaw danych zawiera długod ugości i szerokości 2 rodzajów w płatkp atków petali i sepali

Petale i sepale Sepale to zewnętrzne, najczęś ęściej zielone płatki spełniaj niające funkcję ochronną w przypadku irysów w sąs barwy fioletowej i odznaczają się większymi rozmiarami od petali Petale to kolorowe, wewnętrzne płatki p stanowiące rodzaj wabika dla zapylających kwiaty owadów

Petale i sepale Petale i sepale w ogólnym modelu kwiatka ;-);

To juŝ naprawdę koniec Dziękuj kuję za uwagę!!!