Andrzej D browski. Analiza danych jako±ciowych

Podobne dokumenty
Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

In»ynierskie zastosowania statystyki wiczenia

Biostatystyka, # 5 /Weterynaria I/

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Metody probablistyczne i statystyka stosowana

Rozwini cia asymptotyczne dla mocy testów przybli»onych

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka

Biostatystyka, # 4 /Weterynaria I/

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Statystyka matematyczna - ZSTA LMO

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Rozdziaª 5. Modele wektorowej autoregresji

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Statystyka matematyczna - ZSTA LMO

MODELE LINIOWE i MIESZANE

Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Matematyka z elementami statystyki

Testowanie hipotez statystycznych.

Pakiety statystyczne Wykªad 14

Wykªad 6: Model logitowy

Ekonometria Bayesowska

Ekonometria. wiczenia 5 i 6 Modelowanie szeregów czasowych. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Modele wielorównaniowe. Estymacja parametrów

Zadanie 1. (8 punktów) Dana jest nast puj ca macierz: M =

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

Wykªad 1+2: Klasyczny model regresji liniowej. Podstawy R

STATYSTYKA

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

1 Metody iteracyjne rozwi zywania równania f(x)=0

Pakiety statystyczne - Wykªad 8

Elementarna statystyka Test Istotno±ci (Tests of Signicance)

Podstawy statystycznego modelowania danych - Wykªad 7

Materiaªy do Repetytorium z matematyki

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Ekonometria Bayesowska

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach. a) (6 pkt.) oblicz intensywno± pªaconych skªadek;

Spis treści 3 SPIS TREŚCI

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci

Na podstawie dokonanych obserwacji:

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Ekonometria. wiczenia 3 Autokorelacja, heteroskedastyczno±, wspóªliniowo± Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Wykład 8 Dane kategoryczne

Interpolacja Lagrange'a, bazy wielomianów

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Rachunek ró»niczkowy funkcji jednej zmiennej

2 Liczby rzeczywiste - cz. 2

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Rozdziaª 4. Jednowymiarowe modele szeregów czasowych

Przeksztaªcenia liniowe

Wst p do ekonometrii II

Modele wielorównaniowe. Problem identykacji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Funkcje, wielomiany. Informacje pomocnicze

I Rok LOGISTYKI: wykªad 2 Pochodna funkcji. iloraz ró»nicowy x y x

Rozkªady i warto± oczekiwana

Własności statystyczne regresji liniowej. Wykład 4

Metody numeryczne i statystyka dla in»ynierów

Wykład 12 Testowanie hipotez dla współczynnika korelacji

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Ekonometria - wykªad 8

Podstawy statystycznego modelowania danych Analiza prze»ycia

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

Lab. 02: Algorytm Schrage

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Metoda największej wiarogodności

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Elementarna statystyka Test Istotno±ci

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Statystyczna analiza danych

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Ekonometria Bayesowska

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Wybrane poj cia i twierdzenia z wykªadu z teorii liczb

Porównywanie wielowymiarowych wektorów warto±ci ±rednic

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Statystyka Matematyczna Anna Janicka

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Funkcje wielu zmiennych

Stacjonarne szeregi czasowe

Ekonometria Przestrzenna

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

1 Poj cia pomocnicze. Przykªad 1. A A d

Transkrypt:

Andrzej D browski Analiza danych jako±ciowych

1 0.1. Wst p Table 1. Typy analizy wielowymiarowej statystycznej typ argumentu kategoryczny ilo±ciowy mieszany odpowiedzi kategoryczny tablice kontyngencji, logliniowy logit logit ilo±ciowy ANOVA regresja ANCOVA Kategoryczne: nominalne porz dkowe Ilo±ciowe: przedziaªowe ilorazowe dyskretne The Framingham Heart Study is a long-term, ongoing cardiovascular study on residents of the town of Framingham, Massachusetts. The study began in 1948 with 5,209 adult subjects from Framingham, and is now on its third generation of participants.[1] Prior to it almost nothing was known about the "epidemiology of hypertensive or arteriosclerotic cardiovascular disease".[2] Much of the now-common knowledge concerning heart disease, such as the eects of diet, exercise, and common medications such as aspirin, is based on this longitudinal study. It is a project of the National Heart, Lung, and Blood Institute, in collaboration with (since 1971) Boston University.[3] Various health professionals from the hospitals and universities of Greater Boston sta the project.(patrz tab.2) Table 2. Framingham Longitudinal Study of Coronary Heart Disease Choroba wie«cowa Cholesterol mg/cm 3 Ci±nienie skurczowe mm Hg <127 127-146 147-166 167+ < 200 2 3 3 4 obecna 200-219 3 2 0 3 220-259 8 1 6 6 260 7 12 11 11 < 200 117 121 47 22 brak 200-219 85 98 43 20 220-259 119 209 68 43 260 67 99 46 33 0.2. Rozkªady zmiennych kategorycznych Rozkªad Bernouilliego P (Y = 1) = π, P (Y = 0) = 1 π E (Y ) = π, V (Y ) = π (1 π) Rozkªad dwumianowy Y 1, Y 2,..., Y n s niezale»ne i o identycznym rozkªadzie Bernouilliego. Y = n i=1 Y i jest liczb sukcesów. ( n P (Y = y) = y ) π y (1 π) n y Rozkªad wielomianowy E (Y ) = nπ, V (Y ) = nπ (1 π)

Uogólnienie rozkªadu dwumianowego Ka»de z n niezale»nych, identycznych do±wiadcze«ko«czy si jednym z c mo»liwych wyników. Niech A ij zdarzenie,»e i-te do±wiadczenie zako«czy sie j-tym typem wyniku. Y ij = { 1 0 A ij A ij P (Y ij = 1) = π j. Zmienne N j = n i=1 Y ij dla ij = 1, 2,..., c maj rozkªad wielomianowy. P (N 1 = n 1, N 2 = n 2,..., N c = n c ) = N j maj rozkªad dwumianowy, st d n! n 1!n 2!... n c! πn1 1 πn2 2... πnc c E (N j ) = nπ j, V (N j ) = nπ j (1 π j ), Cov (N j, N k ) = nπ j π k Rozkªad Poissona µ µy P (Y = y) = e y! E (Y ) = V (Y ) = µ 2 Aproksymacja rozkªadu dwumianowego za pomoc rozkªadu Poissona Zwi zek mi dzy rozkªadem wielomianowym a rozkªadem Poissona Niech Y 1, Y 2,... b d niezale»nymi zmiennymi o rozkªadzie Poissona, E (Y i ) = µ i. gdzie π i = µ i µi Jest to wi c rozkªad wielomianowy.

Chapter 1 Wnioskowanie statystyczne dla danych kategorycznych 1.1. Funkcje wiarygodno±ci i estymacja najwi kszej wiarygodno±ci Metoda estymacji - najwi kszej wiarygodno±ci. Przy bardzo sªabych za- ªo»eniach (???) np takich»e zbiór parametrów jest sko«czenie wymiarowy, prawdziwa warto± parametru le»y wewn trz obszaru dopuszczalnego, estymatory maj wªasno±ci s asymptotycznie normalne s asymptotycznie zgodne s asymptotycznie efektywne (minimalny bª d standardowy) Funkcja wiarygodno±ci... Oznaczenia: β - parametr ˆβ - estymator ML l (β)- funkcja wiarygodno±ci L (β) = lg (l (β)) - logarytm funkcji wiarygodno±ci Dla wielu modeli L (β) jest wkl sªa i minimum jest rozwi zaniem równania Przy zaªo»eniach L (β) β = 0 ( ) cov ˆβ jest asymptytycznie odwrotno±ci macierzy informacyjnej, postaci

Chapter 1. Wnioskowanie statystyczne dla danych kategorycznych 4 1.1.1. Estymacja dla rozkªadu dwumianowego ˆπ = y n St d π (1 π) SE (π) = n co daje si wyliczy bezpo±rednio 1.2. Trójka: testy Walda - ilorazu wariancji - punktowy (score test) Testowana jest hipoteza H 1 : β β 0, H 0 : β = β 0 Statystyka testowa gdy β = β 0 ma asymptotycznie standardowy rozkªad normalny z 2 ma rozkªad χ 2 z jednym stopniem swobody (jest to statystyka Walda) Wielowymiarowy wariant statystyki Walda: W ma wielowymiarowy ( ) rozkªad χ 2 z liczb stopni swobody, równ rz dowi macierzy cov ˆβ. Statystyka testu ilorazu wiarygodno±ci : gdzie l 0 = max (l (β) : β H 0 ), l 1 = max (l (β) : β H 0 H 1 ), Wilks pokazaª,»e statystyka testu ilorazu wiarygodno±ci ma asymptotycznie rozkªad χ 2 z liczb stopni swobody, równ ró»nicy wymiaru przestrzeni H 0 H 1 i wymiaru przestrzeni H 0. Statystyka punktowa (Fisher,Rao) Funkcja punktowa Wtedy Postas normalna jest pier- ma rozkªad χ 2 z jednym stopniem swobody. wiastkiem z tej statystyki. Jest wielowymiarowa wersja tego testu.

Chapter 1. Wnioskowanie statystyczne dla danych kategorycznych 5 Wykres funkcji L w przypadku jednowymiarowym. Test Walda bada iloraz estymatora ˆβ i zakrzywienia funkcji L. Test punktowy bada nachylenie i krzywizn L (β) w punkcie 0. Test ilorazu wariancji jest ró»nic 2 (L 0 L 1 ). Jest on najbardziej elastyczny, gdy» uwzgl dnia zachowanie dwóch wymienionych wcze±niej statystyk. Dla umiarkowanych warto±ci n statystyka ilorazu wiarygodno±ci jest bardziej stabilna niz statystyka Walda. 1.3. Przedziaªy ufno±ci Przedziaªy ufno±ci s zazwyczaj bardziej czytelne dla odbiorcy ni» testowanie hipotez. Mo»na je otrzyma przez zastowanie odpowiednio±ci: test na poziomie α odpowiada przedziaªowi ufno±ci na poziomie 1 α, otrzymanemu przez rozwi zanie nierówno±ci ze statystyk testow i warto±ci krytyczn testu. Przedziaª ufno±ci Walda powstaje z rozwi zania nierówno±ci ˆβ β 0 /SE < z α/2 czyli ma posta ˆβ ± z α/2 SE. [ ( ) ] Przedziaª ufno±ci ilorazu wiarygodno±ci speªnia nierówno± 2 L (β 0 ) L ˆβ < χ 2 1 (α). Ten przedziaª jest zalecany dla maªych i umiarkowanych warto±ci n. 1.4. Wnioskowanie statystyczne dla parametru w rozkªadzie dwumianowym Statystyka Walda Statystyka punktowa posta normalna

Chapter 1. Wnioskowanie statystyczne dla danych kategorycznych 6 Statystyka ilorazu wiarygodno±ci L 0 = y log π 0 + (n y) log (1 π 0 ) L 1 = y log ˆπ + (n y) log (1 ˆπ) Równowa»nie Mo»na to wyrazi formuª ( 2 sukcesy log sukcesy porazki + porazki log E (sukcesy) ) E (porazki) 1.4.1. Przedziaªy ufno±ci dla rozkªadu dwumianowego Odwrócenie testu Walda Przedziaª ten byª jednym z pierwszych w historii (Laplace 1812) przedziaªów ufno±ci. Ma on jednak zªe wªasno±ci i mo»e by poprawiony (Wilson, Agresti i Coull - patrz zadania na wiczenia) Odwrócenie testu ilorazu wiarygodno±ci Przykªad W±ród losowo wybranych 25 osób nikt nie okazaª si wegetarianinem. Jakie jest prawdopodobi«stwo spotkania wegetarianina w populacji? Stosuj c przedziaª Walda mamy ˆπ = 0 a wi c przedziaª b dzie miaª posta (0, 0)!!! 95% przedziaª ufno±ci powstaªy z odwrócenia testu ilorazu wiarygodno±ci: gdzie L (π) = 25 ln (1 π) Przedziaª ufno±ci ma wi c posta, (0, 1 exp ( 3.84/50)) = (0, 0.074) 1.5. Wnioskowanie statystyczne dla parametrów rozkªadu wielomianowego Logarytm funkcji wiarygodno±ci dla j dra rozkªadu: L (π) = c n j ln (π j ), j=1

Chapter 1. Wnioskowanie statystyczne dla danych kategorycznych 7 Rozwi zanie jest postaci c π j = 1 j=1 ˆπ j = n j n, n = c j=1 n j 1.5.1. Statystyka χ 2 Pearsona (Pearson, 1900) Rozwa»a si problem Statystyka testowa χ 2 = H 0 : π = π 0 H 1 : π π 0 c j=1 (n j µ j ) 2 µ j gdzie µ j = nπ j0. Niech χ 2 0 b dzie zaobserwowan wartosci próbki. p-warto± testu jest równe prawdopodobie«stwu P ( χ 2 χ0) 2, które mo»na obliczy jako sum prawdopodobie«stw w rozkªadzie wielomianowym, odpowiadaj cym wszystkim ukªadom n 1, n 2,..., n c»e n j = noraz speªniony jest warunek χ 2 χ 2 0. Prawdopodobie«stwo to mo»na w przybli»eniu obliczy, dla du»ych n j z rozkªadu χ 2 z c 1 stopniami swobody : p = P ( χ 2 c 1 χ0) 2. Fisher pokazaª,»e χ 2 = c rj 2, j=1 gdzie wielko±ci, zwane resztami Pearsona r j = n j µ j µj maj asymptotycznie standardowy rozkªad normalny. 1.5.2. Test χ 2 ilorazu wiarygodno±ci Uwzgl dniaj c estymatory NW dla hipotez H 0 : β = β 0 przeciwko hipotezie H 1 : β β 0 iloraz wiarygodno±ci jest postaci: j Λ = πnj j0 j (n j/n) nj

Chapter 1. Wnioskowanie statystyczne dla danych kategorycznych 8 Statystyka ilorazu wiarygodno±ci wyra»a si wzorem: G 2 = 2 log Λ = 2 n j log (n j /nπ j0 ) Przestrze«parametryczna zawiera wektorπ = [π 1, π 2,..., π c ] z warunkiem πj = 1 a wi c jest wymiaru c 1. W przypadku hipotezy H 0 zawiera ona pojedynczy wektor π 0 a wi c ma wymiar 0. Asymptotycznie,w przypadku hipotezy H 0,G 2 ma rozkªad χ 2 z c 1 stopniami swobody. Podobnie asymptotycznie,w przypadku hipotezy H 0, test Pearsona χ 2 ma rozkªad χ 2 z c 1 stopniami swobody. Co wi cej, mozna pokaza,»e w tym przypadku, χ 2 G 2 zbiega wedªug prawdopodobie«stwa do 0. Gdy zachodzi hipoteza H 1, obie statystyki rosn proporcjonalnie do n (!!!) i nawet dla du»ych wartosci n nie osi gaja podobnych warto±ci. Dla ustalonego c statystyka χ 2 Pearsona zbiega do rozkªadu χ 2 szybciej, ni» statystyka G 2. Przybli»enie przez rozkªad χ 2 rozkªadu statystyki G 2 jest sªabe, gdy zachodzi nierówno± n < 5c. 1.5.3. Testy z prawdopodobie«stwami, zale»nymi od parametru W estymacji prawdopodobie«stwa π mog by zale»ne od parametru θ, π = π (θ).w takim przypadku estymacja NW polega na znalezieniu estymatora ) ˆθ parametru θ, wyznaczaj cego estymator NW parametru π: ˆπ = π (ˆθ. Wpªywa to na liczb stopni swobody testu χ 2 Pearsona 1 : je»eli dim (θ) = p to liczba stopni swobody t4estu jest równa df = (c 1) p. Przykªad Ciel ta mleczne byªy obserwowane, czy w ci gu pierwszych 60 dni»ycia przeszªy zapalenie pªuc, a nast pnie czy w±ród tych, które zachorowaªy, wyst piªo w ci gu kolejnych dwóch tygodni wtórne zapalenie pªuc. Pytanie: czy prawdopodobie«stwo wtórnego zachorowanie jest inne od prawdopodobie«stwa zachorowania pierwotnego. Uwaga na zero strukturalne!! Niech π ij oznacza prawdopodobie«stwo konguracji zdarze«w tabeli. Wtedy H 1 : π 1+ π 11 π 1+ przeciwko H 0 : π 1+ = π 11 π 1+ Oznaczmy przez θ = π 1+. Wtedy, przy zaªo»eniu H 0 rozkªad prawdopodobie«stwa w tabeli zale»y wyª cznie od parametru θ: Infekcja pierwotna Infekcja wtórna Tak Nie Razem Tak θ 2 θ (1 θ) θ Nie - 1-θ 1-θ 1 Pearson nie zdawaª sobie z tego sprawy! Poprawne rozwi zanie tego problemu nale»y do Fishera.

Chapter 1. Wnioskowanie statystyczne dla danych kategorycznych 9 J dro funkcji wiarygodno±ci ma posta : ( θ 2 ) n 11 (θ (1 θ)) n 12 (1 θ) n22. Logarytm tego j dra L (θ) = (2n 11 + n 12 ) log (θ)+(n 12 + n 22 ) log (1 θ) = (n 11 + n 1+ ) log (θ)+n +2 log (1 θ). Po przyrównaniu pochodnej do 0 otrzymamy ˆθ = Tabela warto±ci oczekiwanych n 11 + n 1+ 30 + 93 = n 11 + n 1+ + n +2 30 + 93 + 126 = 0.49 Infekcja pierwotna Infekcja wtórna Tak Nie Razem Tak 0.49 2 156 0.49 0.51 156 0.49 156 Nie - 0.51*156 0.51*156 Reszty Pearsona Infekcja pierwotna Infekcja wtórna Tak Nie Razem Tak 38.1 39.0 77.1 Nie - 78.9 78.9 Infekcja pierwotna Infekcja wtórna Tak Nie Tak 1.31 3.84 Nie - 1.79 χ 2 = 19.7 z df = 3 1 1 = 1 stopni swobody. Warto± p tego testu jest równa 0.000009 co w zdecydowanym stopniu potwierdza podejrzenie, ze prawdopodobie«stwa pierwotnego i wtórnego zaka»enia s istotnie ró»ne. Jedyna istotna ró»nica Pearsona (3.84) wskazuje co jest tego przyczyn. Istotnie wi cej jest ciel t, które przeszªy pierwotne zaka»enie i nie zakaziªy si powtórnie, prawdopodobnie na skutek uodpornienia si.