Testy statystyczne teoria

Tety tatytyczne teoria przygotowanie: dr A Goroncy, dr J Karłowka-Pik Niech X,, X n będzie próbą loową protą z rozkładu P θ, θ Θ oraz niech α (0, ) będzie poziomem itotności (najczęściej 0,, 0,05, czy 0,0) Oznaczenia: Φ dytrybuanta rozkładu N(0, ), t α = Φ ( α), F t(n ) dytrybuanta rozkładu t-studenta z n topniami wobody, z α n = F t(n ) ( α), n i, n ij liczebności empiryczne (zaoberwowane), n 0 i, n 0 ij liczebności teoretyczne, F χ (k ) dytrybuanta rozkładu χ z k topniami wobody, u k α = F χ (k )( α), Jeżeli tatytyka tetowa należy do obzaru krytycznego, to hipotezę zerową odrzucamy i przyjmujemy hipotezę alternatywną Jeżeli tatytyka tetowa nie należy do obzaru krytycznego, to nie ma podtaw do odrzucenia hipotezy zerowej W programie PASW Statitic zadeklarowany poziom itotności należy porównać z itotnością wyliczaną przez program (tzw p-wartość) Jet to minimalny próg odrzucenia bądź nie hipotezy zerowej W związku z tym hipotezę zerową odrzucamy, gdy p-wartość jet mniejza niż deklarowany przez na poziom itotności, a nie mamy podtaw do odrzucenia, gdy jet więkza Tet Studenta dla jednej średniej Hipoteza zerowa: Średnia wartość zmiennej jet równa określonej wartości a 0 (a = a 0 ) Hipoteza alternatywna : Średnia wartość zmiennej jet różna od określonej wartości a 0 (a a 0 ) Hipoteza alternatywna : Średnia wartość zmiennej jet mniejza od określonej wartości a 0 (a < a 0 ) Hipoteza alternatywna 3: Średnia wartość zmiennej jet więkza od określonej wartości a 0 (a > a 0 ) a) X ma rozkład normalny o znanej wariancji σ Statytyka tetowa: T n = n x a 0 σ Obzar krytyczny : K = (, t α/ ) (t α/, + ), Obzar krytyczny : K = (, t α ), K = (t α, + ) b) X ma rozkład normalny o nieznanej wariancji σ Statytyka tetowa: T n = n x a 0 Obzar krytyczny : K = (, z n α/ ) (zn α/, + ) dla n 30, K = (, t α/ ) (t α/, + ) dla n > 30, Obzar krytyczny : K = (, z n α) dla n 30, K = (, t α ) dla n > 30, K = (z n α, + ) dla n 30, K = (t α, + ) dla n > 30

c) X ma rozkład dowolny, itnieje D X, n > 30 Statytyka tetowa: T n = n x a 0 lub T n = n x a 0, lub T n = n x a 0, σ 0 ŝ gdzie σ 0 jet odchyleniem tandardowym rozkładu przy założeniu prawdziwości hipotezy zerowej, o ile wariancja rozważanego rozkładu jet funkcją jego wartości oczekiwanej (np w rozkładzie 0-, dwumianowym, Poiona, geometrycznym itp) Obzar krytyczny : K = (, t α/ ) (t α/, + ), Obzar krytyczny : K = (, t α ), K = (t α, + ) Tet dla dwóch średnich i prób niezależnych Hipoteza zerowa: Średnie wartości zmiennej ą takie ame w dwóch różnych populacjach (a = a ) Hipoteza alternatywna : Średnie wartości zmiennej ą różne w badanych populacjach (a a ) Hipoteza alternatywna : Średnia wartość zmiennej w pierwzej populacji jet mniejza od średniej wartości zmiennej w drugiej populacji (a < a ) Hipoteza alternatywna 3: Średnia wartość zmiennej w pierwzej populacji jet więkza od średniej wartości zmiennej w drugiej populacji (a > a ) a) X ma w obu populacjach rozkład normalny o znanych wariancjach σ i σ Statytyka tetowa: T n = x x σ + σ n n Obzar krytyczny : K = (, t α/ ) (t α/, + ), Obzar krytyczny : K = (, t α ), K = (t α, + ) b) X ma w obu populacjach rozkład normalny o nieznanych, ale równych wariancjach σ i σ x x Statytyka tetowa: T n = (n ) + (n ) n + n n + n n n Obzar krytyczny : K = (, z n +n α/ ) (z n +n α/, + ), Obzar krytyczny : K = (, z n +n α ), K = (z n +n α, + ) c) X ma w obu populacjach rozkład normalny o nieznanych wariancjach σ i σ Statytyka tetowa: C n = x x (tatytyka Cochrana i Coxa) + n n Obzar krytyczny : K = (, c n,n α/ ) (cn,n α/, + ), Obzar krytyczny : K = (, c n,n α ), K = (c n,n α, + ),

gdzie c n,n α ( ) ( ) z n α + z n α : + n n n n d) X ma w obu populacjach rozkład o nieznanych wariancjach σ i σ, próby mają liczebności więkze bądź równe 00 Statytyka tetowa: T n = x x + n n Obzar krytyczny : K = (, t α/ ) (t α/, + ), Obzar krytyczny : K = (, t α ), K = (t α, + ) 3 Tet dla dwóch średnich i prób zależnych Hipoteza zerowa: Dwie zmienne zależne (o rozkładach normalnych) mają jednakowe średnie (inaczej: różnica D = X Y odpowiadających obie wartości zmiennych ma średnią równą 0) Hipoteza alternatywna : Zmienne zależne mają różne średnie (inaczej: różnica D = X Y odpowiadających obie wartości zmiennych ma średnią różną od 0) Hipoteza alternatywna : Pierwza ze zmiennych ma średnią mniejzą niż druga (inaczej: różnica D = X Y odpowiadających obie wartości zmiennych ma średnią ujemną) Hipoteza alternatywna 3: Pierwza ze zmiennych ma średnią więkzą niż druga (inaczej: różnica D = X Y odpowiadających obie wartości zmiennych ma średnią dodatnią) Statytyka tetowa: T n = d n d Obzar krytyczny : K = (, z n α/ ) (zn α/, + ) dla n 30, K = (, t α/ ) (t α/, + ) dla n > 30, Obzar krytyczny : K = (, z n α) dla n 30, K = (, t α ) dla n > 30, K = (z n α, + ) dla n 30, K = (t α, + ) dla n > 30 4 Tet chi-kwadrat zgodności Założenia tetu: Zmienna ma rozkład dykretny, przyjmuje tylko wartości l,, l k z prawdopodobieńtwami odpowiednio p 0,, p 0 k, które nie ą znane Hipoteza zerowa: Zmienna ma rozkład dykretny z określonymi prawdopodobieńtwami p 0,, p 0 k Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodobieńtwami niż zadane Statytyka tetowa: χ = k i= (n i n 0 i ) Obzar krytyczny: K = (u k α, + ) Uwagi: n 0 i = k (n i np 0 i ) i= np 0 i Jeżeli rozkład teoretyczny zależy od d nieznanych parametrów, to parametry te wyznaczamy metodą najwiękzej wiarogodności, a liczbę topni wobody zmniejzamy o d Przybliżenie rozkładem chi-kwadrat uznajemy za dopuzczalne, gdy np 0 i 5, i =,, k, a za dobre, gdy np 0 i 0, i =,, k Jeśli liczba kategorii jet duża (> 6), to zgadzamy ię toować przybliżenie rozkładem chi-kwadrat także wtedy, gdy dla jednej lub dwóch kategorii 3

np 0 i < 5 Mało liczne kategorie można również łączyć z kategoriami ąiednimi, redukując wówcza odpowiednio liczbę topni wobody W przypadku zmiennej o rozkładzie z ciągłą dytrybuantą dane grupujemy w k (0k n) kla Prawdopodobieńtwa teoretyczne wyliczamy z dytrybuanty Klay taramy ię dobrać tak, aby prawdopodobieńtwa znalezienia ię w klaie były równe /k, a liczebności teoretyczne były co najmniej równe 5 Tetujemy wówcza hipotezę zerową: Zmienna ma rozkład o podanej dytrybuancie 5 Tet Kołmogorowa Hipoteza zerowa: Zmienna ma rozkład o zadanej dytrybuancie F Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dytrybuancie Wymagania tetu: Ciągłość dytrybuanty a) n 00 Statytyka tetu: D n = max{d n +, Dn }, gdzie D n + i = max i n n F (x (i)), D n = max i n F (x (i) ) i n Obzar krytyczny: (d n ( α), ] (odczytujemy z tablic Kołmogorowa -Smirnowa, jet to taka wartość, dla której P (D n d n ( α)) = α) b) n > 00 Statytyka tetu: nd n = n max{d n +, Dn } (czaem ( n + 0, + 0, / n)d n ), gdzie D n + i = max i n n F (x (i)), D n = max i n F (x (i) ) i n Obzar krytyczny: (λ α, + ), gdzie λ α jet kwantylem rzędu α granicznego rozkładu Kołmogorowa Uwaga: W przypadku danych zgrupowanych w klay bierzemy pod uwagę prawy koniec każdej z kla i zamiat podanych tatytyk wyznaczamy wartość makymalną tatytyki F n (x i ) F (x i ), gdzie F n jet dytrybuantą empiryczną 6 Tet chi-kwadrat niezależności Założenia tetu: Cechy X, Y ą jakościowe (nominalne lub o wartościach uporządkowanych) Hipoteza zerowa: X, Y ą zmiennymi niezależnymi Hipoteza alternatywna: X, Y ą zależne Statytyka tetowa: χ = k r j= i= (n ij n 0 ij), gdzie n 0 ij r liczba kategorii zmiennej X (liczba wierzy w tablicy kontyngencji), k liczba kategorii zmiennej Y (liczba kolumn w tablicy kontyngencji), n ij liczba wytąpień w próbie par oberwacji (x i, y j ), k r n ij n ij n 0 j= i= ij =, n r k n = n ij i= j= Obzar krytyczny: K = (u (r )(k ) α, + ) Uwagi: 4

Podobnie jak w teście chi-kwadrat zgodności, przybliżenie tatytyki tetowej rozkładem chikwadrat toujemy, gdy liczebności teoretyczne prób w wierzach (kolumnach) ą tounkowo duże (n 0 ij 5) Gdy tablica kontyngencji ma rozmiar i liczebności próby w wierzach (kolumnach) ą zbyt małe, można oprzeć ię na tzw dokładnym teście Fihera (którego tu nie będziemy omawiać) W przypadku pary cech o uporządkowanych kategoriach tet niezależności może okazać ię zwodniczy Może wówcza zajść potrzeba wprowadzenia odpowiedniej miary zależności między cechami (tego nie będziemy tu omawiać) 7 Tet znakowanych rang Wilcoxona Model: Dyponujemy ciągiem par oberwacji: (X, Y ),, (X n, Y n ) Można obie wyobrazić, że pary te reprezentują oberwacje przed kuracją i po kuracji Założenia: Pary zmiennych loowych ą niezależne, natomiat X i, Y i mogą być zależne Definiujemy niezależne różnice Z i = Y i X i, i =, n Każda zmienna Z i, i =,, n pochodzi z tego amego rozkładu ciągłego o dytrybuancie F i, ymetrycznego względem wpólnej mediany θ (może być ona interpretowana jako efekt kuracji ), tzn t R F i (θ + t) + F i (θ t) =, i =,, n Hipoteza zerowa: θ = 0 (brak efektu kuracji, tzn każdy rozkład F i, i =,, n jet ymetryczny względem 0, czyli t R F i (t) = F i ( t), i =,, n) Hipoteza alternatywna : θ 0 (jet jakiś efekt kuracji ) Hipoteza alternatywna : θ > 0 ( efekt kuracji jet dodatni) Hipoteza alternatywna 3: θ < 0 ( efekt kuracji jet ujemny) Statytyka tetowa: Jet to tatytyka znakowanych rang Wilcoxona, czyli uma rang wartości bezwzględnych różnic odpowiadających różnicom dodatnim: T + = Z i >0 r( Z i ), gdzie r( Z i ) ranga Z i, i =,, n, (r(x i ) = j {,, n} X i = X j:n ) Obzar krytyczny : K = (, n(n + ) Obzar krytyczny : K = [w α, + ) ( n(n + ) Obzar krytyczny 3: K =, w α ] w α/ ] [ w α/, ), gdzie w a jet kwantylem rozkładu tatytyki znakowanych rang Wilcoxona (przy założeniu prawdziwości hipotezy zerowej) rzędu a (w tablicach) Uwagi: Tet znakowanych rang Wilcoxona jet nieparametryczną alternatywą dla tetu t-studenta w przypadku dwóch próbek dających ię połączyć w pary Różnica między tymi tetami jet taka, że tet t-studenta tetuje równość średnich arytmetycznych, a tet Wilcoxona tetuje 5

mediany Tet Wilcoxona nie wymaga założeń dotyczących rozkładu próby, może być więc używany, gdy założenia tetu t-studenta nie ą pełnione W praktyce (w wyniku zaokrąglania) mogą pojawić ię tzw węzły, czyli grupy oberwacji o jednakowej wartości bezwzględnej Potępowanie w przypadku, gdy (a) n < 5 - odrzucamy wzytkie Z i takie, że Z i = 0 i odpowiednio zmniejzamy n, - uśredniamy rangi dla pozotałych węzłów (mogą być one niecałkowite), - toujemy tet dokładny ze zmodyfikowanymi rangami; (b) n 5 - odrzucamy wzytkie Z i takie, że Z i = 0 i odpowiednio zmniejzamy n, - uśredniamy rangi dla pozotałych węzłów (mogą być one niecałkowite), - toujemy tet aymptotyczny ze modyfikowaną tatytyką tetową T : T = T = T + n(n+) 4, n(n + )(n + )/4 N (t j )t j j= gdzie: N liczba grup węzłów (również jednoelementowych), t j liczba węzłów w j-tej grupie, j =,, N Tet aymptotyczny Jeżeli n jet duże (w praktyce dla n 5), używa ię tatytyki tetowej potaci T T + n(n+) 4 = n(n + )(n + )/4, i wówcza obzary krytyczne ą potaci: Obzar krytyczny : K = (, t α/ ] [ t α/, ) Obzar krytyczny : K = [t α, + ) Obzar krytyczny 3: K = (, t α ] 6