166 Wstȩp do statystyki matematycznej



Podobne dokumenty
166 Wstęp do statystyki matematycznej

176 Wstȩp do statystyki matematycznej = 0, 346. uczelni zdaje wszystkie egzaminy w pierwszym terminie.

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład 3 Hipotezy statystyczne

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka matematyczna dla leśników

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Statystyka w analizie i planowaniu eksperymentu

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Rozdzia l 6. Wstȩp do statystyki matematycznej. 6.1 Cecha populacji generalnej

Statystyka w analizie i planowaniu eksperymentu

Testowanie hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA. Spis pojȩċ teoretycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Statystyka w analizie i planowaniu eksperymentu

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

1 Estymacja przedziałowa

STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA

Testowanie hipotez statystycznych.

Statystyka matematyczna

STATYSTYKA

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Testowanie hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wydział Matematyki. Testy zgodności. Wykład 03

STATYSTYKA MATEMATYCZNA

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Metoda Simplex bez użycia tabel simplex 29 kwietnia 2010

STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1

Hipotezy statystyczne

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Hipotezy statystyczne

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Spis treści 3 SPIS TREŚCI

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Niech X bȩdzie dowolnym zbiorem. Dobry porz adek to relacja P X X (bȩdziemy pisać x y zamiast x, y P ) o w lasnościach:

Wnioskowanie statystyczne. Statystyka w 5

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Zawartość. Zawartość

Testowanie hipotez statystycznych

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez statystycznych cd.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyka w analizie i planowaniu eksperymentu

Testowanie hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Testowanie hipotez statystycznych.

PDF created with FinePrint pdffactory Pro trial version

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Weryfikacja hipotez statystycznych

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

6.4 Podstawowe metody statystyczne

Wprowadzenie do analizy korelacji i regresji

Rozkłady statystyk z próby. Statystyka

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Transkrypt:

166 Wstȩp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwi azać nasz zasadniczy problem zwi azany z identyfikacj a cechy populacji generalnej w jȩzyku teorii prawdopodobieństwa. Powinniśmy wiedzieć, jakiego typu jest to rozk lad i dysponować oszacowaniem jego parametrów. Statystyka dysponuje jednak jeszcze jednym narzȩdziem, którego rola polega miȩdzy innymi na weryfikacji wiedzy, jak a pozyskaliśmy stosuj ac zaprezentowane wyżej metody 2 i 3. Narzȩdziem tym jest teoria testów statystycznych. Niech dane bȩdzie populacja generalna bȩd aca przedmiotem obserwacji z punktu widzenia cechy X. Przez hipotezȩ statystyczn a bȩdziemy rozumieli każde przypuszczenie odnosz ace siȩ do rozk ladu tej cechy formu lowane w kategoriach b adź jakościowych dotycz acych postaci tego rozk ladu, b adź ilościowych zwi azanych z jego parametrami. Bȩdziemy wtedy mówili, że mamy do czynienia odpowiednio z hipotez a nieparametryczn a albo hipotez a parametryczn a. Podstaw a do formu lowania przypuszczeń na temat cechy populacji generalnej jest próba prosta. Proces weryfikacji sformu lowanej hipotezy nazywamy testem statystycznym. St ad też procedura testowania hipotez dzieli siȩ na:testy parametryczne i nieparametryczne. U podstawkażdego testu znajduje siȩza lożenie, że obok hipotezy weryfikowanej, zwanej też hipotez a zerow a i oznaczan a przez H o,formu luje siȩ hipotezȩ bȩd ac a w swojej treści wynikiem zaprzeczenia hipotezy H o,któr a nazywamy z tego powodu hipotez a alternatywn a i oznaczamy przez H 1. Wtedy, w przypadku odrzucenia hipotezy H o w wyniku przeprowadzonego testu, za prawdziw a uznajesiȩ hipotezȩ H 1. Jak zaznaczyliśmy wyżej, podstaw a do przeprowadzenia weryfikacji hipotezy H o przeciwko hipotezie H 1 jest próba prosta. Z teoretycznego punktu widzenia istnieje wiȩc możliwość pope lnienia b lȩdu. Mog a zdarzyćsiȩconajmniejdwie sytuacje: H o jest prawdziwa albo H o jest fa lszywa. Jeśli w sytuacji pierwszej odrzucimy H o (a wiȩc przyjmiemy H 1 ), to mówimy wtedy o pope lnionym b lȩdzie I rodzaju, a jego miar a jest wtedy pewna liczba α. W sytuacji drugiej, jeśli H o przyjmujemy (a wiȩc odrzucamy H 1 ), to mówimy o b lȩdzie II rodzaju ijegomiarȩ oznaczamy przez β. Abyzrozumieć znaczenie obu zdefiniowanych b lȩdów musimy dok ladniej opisać przebieg procesu testowania hipotez. Niech (x 1,...,x n )=(X 1,...,X n )(ω o ) dla pewnego zdarzenia elementarnego ω o oznacza próbȩ prost a naszej populacji generalnej. Wtedy (x 1,...,x n ) W =(X 1,...,X n )(Ω) R n, co oznacza, że próba prosta jest jedn a z wielu realizacji procesu obserwacji populacji generalnej, któr a opisuje tutaj mnogość W. Zadaniem testu statystycznego jest skonstruowanie takiego podzbioru Q W,że jeśli (x 1,...,x n ) Q, tohipotezȩ H o odrzucimy na korzyść hipotezy H 1 oraz w przypadku gdy (x 1,...,x n )

6.4 Podstawowe metody statystyczne 167 W \ Q, toh o przyjmujemy. Z tego wzglȩdu zbiór Q nazywamy obszarem krytycznym (mówimy też o obszarze odrzucenia), w przeciwieństwie do zbioru W \ Q zwanego obszarem przyjȩcia hipotezy H o. Wtedy znaczenie ilościowe zdefiniowanych wyżej b lȩdów α i β jest nastȩpuj ace: α = P ((x 1,...,x n ) Q H o ),β= P ((x 1,...,x n ) W \ Q H 1 ). Z metodologicznego punktu widzenia pierwsz a zpowyższych równości traktuje siȩ jako równanie z niewiadom a Q, przyjmuj ac, że α jest ma l a liczb a równ a zazwyczaj 0, 1 albo 0, 05. Nazywamy j a wtedy poziomem istotności (wtedy 1 α nazywa siȩ poziomem ufności). Testy statystyczne, które kontroluj a tylko b l ad I rodzaju nazywamy testami istotności. Można zapytać, co dzieje siȩ z b lȩdem II rodzaju, jeśli b l ad I rodzaju zosta l zminimalizowany. Czy on również przyjmuje minimaln a wartość? Okazuje siȩ, że tak nie jest. Jest akurat na odwrót, czyli wartości β rosn a, jeśli wartości α malej a (patrz np. [19]). Wobec tego testy istotności jako metoda ignoruj aca z za lożenia kontrolȩ b lȩdu II-rodzaju z jednej strony kontroluj a na poziomie α odrzucenie hipotezy H o (gdy (x 1,x 2,...,x n ) Q), ale nie wypowiadaj a siȩna temat jej przyjȩcia. Dlatego wnioskowanie w przypadku przeprowadzenia takiego testu sprowadza siȩ do nastȩpuj acej konkluzji: 1. odrzucenia hipotezy H o iprzyjȩcia H 1 albo 2. braku podstaw do odrzucenia hipotezy H o. Zaczniemy od omówienia podstaw zwi azanych z tzw. testami parametrycznymi (patrz też [4], [19]). Przypuśćmy, że na podstawie próby prostej (x 1...x n )=(X 1...X n )(ω o ) oraz metod opartych na pojȩciu dystrybuanty empirycznej (histogramu) i teorii estymacji otrzymaliśmy nastȩpuj ace wyniki: 1. poznaliśmy typ rozk ladu cechy X, czyli jej dystrybuantȩ F, ewentualnie dysponujemy wiedz a na temat istnienia momentów tego rozk ladu i parametrów, od których rozk lad ten zależy, 2. zak ladaj ac, celem uproszczenia sytuacji, że rozk lad F zależy od jednego parametru, powiedzmy τ, określiliśmy metod a estymacji przedzia lowej jego przedzia l na zadanym poziomie ufności 1 α. Pojawia siȩ problem wyboru wartości tego parametru. Faza wstȩpna testu parametrycznego polega na zdefiniowaniu dwóch hipotez: hipotezy zerowej H o przeciwko hipotezie alternatywnej H 1,

168 Wstȩp do statystyki matematycznej gdzie gdzie τrτ o H o : τ = τ o, H 1 : τrτ o, na ogó l oznacza jedn a z trzech relacji: τ τ o, τ < τ o, τ > τ o. Rola testu statystycznego, jak pisaliśmy wyżej, polega na tym, aby zweryfikować hipotezȩ zerow a przeciwko hipotezie alternatywnej. Pozytywna weryfikacja kończy siȩ na ogó l stwierdzeniem, że nie ma powodów do jej odrzucenia, co nie musi oznaczać, że hipotezȩ zerow a przyjmuje siȩ. Zazwyczaj w tej sytuacji ca ly proces analizy statystycznej zaczyna siȩ od pocz atku, a wiȩc od pobrania nowej próby prostej. W przypadku negatywnej weryfikacji hipotezy zerowej albo przy aktualnych wynikach zmienia siȩ jej treść i powtarza weryfikacjȩ albo przyjmuje siȩ hipotezȩ alternatywn a. Podstaw a procesu weryfikacji jest, jak pisaliśmy wyżej, obszar krytyczny Q, który w praktyce definiuje siȩjakopodzbiór prostej rzeczywistej, a nie przestrzeni R n. Aby go wyznaczyć potrzebna jest odpowiednia statystyka Z, czyli gdzie Z = f(x 1...X n ), (x 1...x n )=(X 1...X n )(ω o ) jest prób a prost a cechy X populacji generalnej. Wtedy obszar Q wyznaczony jest przez warunek (patrz definicja b lȩdu I rodzaju) P ({ω Ω : Z(ω) Q}) =α, przy za lożeniu, że zasz la hipoteza H o. Jeśli teraz z obs = Z(ω o ) Q, gdzie z obs jest wartości a zaobserwowan a statystyki Z, to hipotezȩ H o należy odrzucić nakorzyść hipotezy H 1. W przeciwnym razie mówimy, że nie ma podstaw do jej odrzucenia. Dalej w kolejnych przyk ladach pokażemy sposoby konstruowania statystyki Z i odpowiadaj acych jej obszarów krytycznych (patrz też [10]).

6.4 Podstawowe metody statystyczne 169 Przyk lad 6.4.6 Cecha X populacji generalnej ma rozk lad typu N (m, σ 2 ), gdzie parametr σ jest znany. Wtedy dla zweryfikowania hipotezy zerowej H o : m = m o pos lugujemy siȩ styatystyk a Natomiast hipoteza alternatywna H 1 1. Z = X n m n. σ i obszar krytyczny maj a wtedypostać: H 1 : m m o, Q =(, n α ) (n α, + ), gdzie n α,przyza lożeniu hipotezy H o określone jest równaniem P ({ω Ω : Z o (ω) n α })=2(1 Φ(n α )) = α, 2. bowiem statystyka Z o = X n m o n σ ma przy za lożeniu hipotezy zerowej rozk lad standardowy normalny. H 1 : m>m o, Q =(n + α, + ) gdzie n + α,przyza lożeniu hipotezy H o określone jest równaniem P ({ω Ω: Z o (ω) >n + α }) =1 Φ(n + α )=α, 3. gdzie statystyka Z o jest identyczna, jak w sytuacji poprzedniej. H 1 : m<m o, Q =(, n + α ) gdzie n + α i statystyka Z o s a jakwyżej. Przeprowadźmy teraz symulacjȩ liczbow a. W tym celu odwo lamy siȩ dowyników z przyk ladu 6.4.1. Dostaliśmy tam Postawmy hipotezȩ zerow a m (1,838, 2,328), x 4 =2,083, σ =0,25, α =0,05. H o : m =2przeciwko H 1 : m 2.

170 Wstȩp do statystyki matematycznej Wtedy, przy za lożeniu hipotezy zerowej n α =1,96, i przedzia l krytyczny ma postać Q =(, 1,96) (1,96, + ). Tymczasem z obs = 2,083 2 0,25 =0,684 / Q, co oznacza, że nie ma powodu do odrzucenia hipotezy zerowej. Z drugiej strony bior ac dostalibyśmy H o : m =1,9 przeciwko H 1 : m<1,9 Φ(n + α )=1 α =0,95, sk ad Q =(, 1,65). Ponieważ terazz obs = 1,46, zatem również nie ma podstaw, aby nie przyj ać m =1,9. Okazuje siȩ, że dopiero H o : m =2,3 przeciwko H 1 : m<2,3 daje z obs = 1,736 Q = (, 1,65), co oznacza, że hipotezȩ tȩnależy odrzucić. Jeśli pobrana próba by la reprezentatywna, to oznacza to, że najprawdopodobnie wartość średnia cechy X jest mniejsza od 2,3. Przyk lad 6.4.7 Cecha X populacji generalnej ma rozk lad typu N (m, σ 2 ), gdzie oba parametry s a nieznane. Wtedy dla zweryfikowania hipotezy zerowej H o : m = m o wykorzystamy styatystykȩ t = X n m n 1. S Natomiast hipoteza alternatywna H 1 i obszar krytyczny maj a wtedypostać: 1. H 1 : m m o, Q =(, t α ) (t α, + ), gdzie t α,przyza lożeniu hipotezy H o określone jest równaniem P ({ω Ω : t o (ω) t α })=α, bowiem statystyka t o = X n m o n 1 S ma przy za lożeniu hipotezy zerowej rozk lad t Studenta o n 1 stopniach swobody.

6.4 Podstawowe metody statystyczne 171 2. H 1 : m>m o, Q =(t + α, + ) gdzie t + α,przyza lożeniu hipotezy H o określone jest równaniem P ({ω Ω : t o (ω) t + α }) =α, gdzie statystyka t o jest identyczna, jak w sytuacji poprzedniej. Dla przeprowadzenia symulacji odwo lamy siȩ dowyników z przyk ladu 6.4.2. Przypomnijmy, że wtedy m (1,899, 2,267), x 4 =2,083, s =0,1. Ponieważ z tabeli rozk ladu t Studenta dla trzech stopni swobody t α =3,182, wiȩc bior ac H 1 : m =2przeciwko H 1 : m 2 obszar krytyczny bȩdzie mia l postać Q =(, 3,182) (3,182, + ). Tymczasem t obs = 2,083 2 1,73 = 1,4359 / Q, 0,1 co oznacza, że nie ma powodu, aby odrzucić hipotezȩzerow a. Sprawdźmy, czy dla tej próby prostej można przyj ać, że m =1,9. Wtymceluweźmy H o : m =1,9 przeciwko H 1 : m>1,9. Ponieważ terazt + α =2,4, to Q =(2,4, + ). Ale t obs = 2,083 1,9 0,1 1,73 = 3,1659 Q, co oznacza, że hipotezȩ zerow anależy odrzucić. Zauważmy, że wartość 1,9teżnależy do przedzia lu wartości średniej wyznaczonego metod a estymacji. Na koniec pokażemy przyk ladowy test dla wariancji. Przyk lad 6.4.8 Cecha X populacji generalnej ma rozk lad typu N (m, σ 2 ), gdzie oba parametry s a nieznane. Wtedy dla zweryfikowania hipotezy zerowej H o : σ = σ o

172 Wstȩp do statystyki matematycznej wykorzystamy styatystykȩ Natomiast hipoteza alternatywna H 1 χ 2 = ns2 σ 2. i obszar krytyczny maj a wtedypostać: H 1 : σ>σ o, (ponieważ σ>0), Q =(χ 2 α, + ), gdzie przy za lożeniu hipotezy zerowej statystyka χ 2 o = ns2 σ 2 o ma rozk lad chi kwadrat o n 1 stopniach swobody, a χ 2 α równania P ({ω Ω : χ 2 o (ω) >χ2 α })=α. jest rozwi azaniem Stosown a symulacjȩ przeprowadzimy, wykorzystuj ac wyniki z Przyk ladu 6.4.4. Dostaliśmy tam wówczas σ 2 (0,0002, 0,267), s 2 =0,1, α =0,1. Przeprowadźmy test dla środka tego przedzia lu, tzn. niech H o : σ =0,366 przeciwko H 1 : σ>0,366. Ponieważ χ 2 α =1,0636, wiȩc Q =(1,0636, + ). Ale χ 2 obs = 50,0377 =0,515 / Q, 0,366 co pokazuje, że nie ma powodów odrzucać takiegowyboru. Bardzo czȩsto spotykamy siȩ z problemem potrzeby porównania ze sob a dwóch różnych populacji generalnych. Możemy na przyk lad mieć do czynienia z populacj a ludzi chorych i zdrowych, ludzi czynnych zawodowo i emerytów itd. Chcielibyśmy takie populacje ze sob a porównaćpodk atem wyróżnionej cechy, na przyk lad w drugiej sytuacji może ni a być preferencja wyborcza, któr a oznaczymy przez X. Zbudujemy model statystyczny dla takiej sytuacji. W modelu tym zak lada siȩ, że na przestrzeni probabilistycznej (Ω, Σ,P) mamy dwie zmienne losowe X i Y,których rozk lady opisuj a cechȩ X dla populacji pierwszej i drugiej. Pobieramy materia l statystyczny z obu populacji w ten sposób, że otrzymane próby proste s a stochastycznie niezależne i maj a postać: (x 1,x 2,...,x n )=(X 1,X 2,...,X n )(ω o )

6.4 Podstawowe metody statystyczne 173 dla pierwszej populacji i dla populacji drugiej, gdzie (y 1,y 2,...,y m )=(Y 1,Y 2,...,Y m )(ω o ) d(x j )=d(x), d(y i )=d(y ) dla wszystkich i oraz j. Dla uproszczenia za lóżmy, że obie populacje maj a rozk lad normalny, czyli X, Y N(m k,σk 2 ), k = 1, 2. Interesuje nas kwestia czy ich średnie s a sobierówne, czyli czy m 1 = m 2? Stawiamy wiȩc hipotezȩ zerow a H o : m 1 = m 2 przeciwko hipotezie alternatywnej H 1 : m 1 m 2. Aby wyznaczyć obszar krytyczny Q ustalamy poziom istotności α i bierzemy statystykȩ testow a określon a wzorem Z = X Y, σ1 2 n + σ2 2 m o ile obie wariancje s a znane. Można pokazać, że przy za lożeniu hipotezy zerowej statystyka Z ma standardowy rozk lad normalny (patrz np. [4]). Wtedy obszar krytyczny jest obszarem dwustronnym opisanym równaniem P ({ω Ω: Z(ω) Q}) =α. W sytuacji kiedy wariancje nie s a znane i różne, oraz d lugości obu prób s a duże (co najmnie równe 30), to statystyka testowa ma postać Z = X Y, S1 2 n + S2 2 m gdzie S1 2 i S2 2 s a wariancjami teoretycznymi z próby prostej dla obu populacji generalnych. Wtedy przy za lożeniu hipotezy zerowej statystyka Z ma standardowy rozk lad normalny i na tej podstawie możemy wyznaczyć obszar krytyczny. W przypadku kiedy 2 n, m < 30 i wariancje nie s a znane oraz s a różne, to korzystamy ze statystyki bȩd acej modyfikacj a statystyki zdefiniowanej powyżej i wygl adaj acej nastȩpuj aco X Y Z =, S 2 1 n 1 + S2 2 m 1 która przy za lożeniu hipotezy zerowej ma rozk lad t Studenta o s stopniach swobody, gdzie s = ( ( ) S 2 2 1 + S2 2 n 1 m 1 ) 2 ( ) 2 S 1 2 S 2 2 n 1 m 1 + n 1 m 1.

174 Wstȩp do statystyki matematycznej Wreszcie możemy mieć do czynienia z sytuacj a kiedy wariancje s a jednakowe i nie s a znane. Jeśli obie próby proste s a duże (co najmnie licz a po30elementów), to dla wyznaczenia obszaru krytycznego używamy statystyki Z = X Y ns 2 1 + ms 2 2 nm, która przy za lożeniu hipotezy zerowej też ma standardowy rozk lad normalny albo w przypadku kiedy próby s a krótkie ( 30) bierzemy Z = X Y ns 2 1 +ms2 2 n+m 2 ( 1 n + 1 m ), która przyza lożeniu hipotezy zerowej ma rozk lad t Studenta o n+m 2 stopniach swobody. Przyk lad 6.4.9 Wdwóch losowo wybranych firmach zbadano efektywny czas pracy jej pracowników, a wiȩc ten czas, który poświȩcaj a na wykonywanie tylko swoich czynności przewidzianych zakresem uprawnień. W obu z badanych firm rozk lad efektywnie wykorzystywanego czasu jest normalny z odchyleniem standardowym równym 1, 1 godzinȩ. Z badań wynika,że średni efektywny czas pracy w 25 elementowej próbie pracowników zatrudnionych w pierwszej firmie wyniós l 6, 5 godzin, a w 20 elementowej próbie wśród zatrudnionych w drugiej 5, 9 godzin. Na poziomie istotności α =0, 05 należy zweryfikować hipotezȩ, że średnie efektywne czasy pracy w obu firmach s a jednakowe. Zza lożenia rozk lady X i Y dla obu populacji generalnych s a normalne,o wartoścach oczekiwanych równych odpowiednio m 1 i m 2 oraz o jednakowych dyspersjach σ 1 = σ 2 =1, 1. Ponadto mamy dwie niezależne próby proste o liczebności n =25i m =20mniejsze od 30. Wykorzystamy statystykȩ testow apostaci Z = X Y ns 2 1 +ms2 2 n+m 2 ( 1 n + 1 m ), która przy za lożeniu hipotezy zerowej ma rozk lad t Studenta o n + m 2=43 stopniach swobody. Z tabeli rozk ladu t Studenta wynika, że dla przyjȩtego stopnia poziomu istotności α =0, 05 P ({ω Ω: t(ω) t α,m+n 2 })=α daje wartość krytyczn a t α,m+n 2 =2, 042 i Q =(, 2, 042) (2, 042, + ). Z drugiej strony wartość zaobserwowana przyjȩtej statystyki t obs przy za lożeniu

6.4 Podstawowe metody statystyczne 175 hipotezy zerowej H o : m 1 = m 2 wynosi t obs = 6, 5 5, 9 = 1, 777. 25 (1,1) 2 +20 (1,1) 2 (0, 04 + 0, 05) 43 Ponieważ H 1 : m 1 m 2 oraz t obs / Q, hipoteza zweryfikowana zosta la negatywnie, co oznacza, że nie mamy powodów do jej odrzucenia. Parametryczne testy istotności, jak pewnie zauważyliśmy na ogó l odnosz a siȩ do populacji normalnych. W sytuacji kiedy rozk lad cechy X populacji generalnej jest dwumianowy, to bȩdziemy mówili o testach dla frekwencji. W tym przypadku bȩdziemy weryfikowali hipotezȩ zerow a H o : p = p o przeciwko hipotezie alternatywnej H 1,która może mieć jedn a z trzech postaci: p p o, p>p o, p<p o. Oczywiście parametr p oznacza tutaj prawdopodobieństwo teoretyczne pojawienia siȩ sukcesu, zwane też frekwencj a. Ponieważ w metodzie stosuje siȩ CTG, bȩdziemy też zak ladali, że pobrana próba prosta jest dostatecznie duża, czyli że n 100. W tym przypadku statystyka testowa ma postać Z = X n p S n. Przy za lożeniu hipotezy zerowej, z CTG jest rozk lad jest asyptotycznie standardowym rozk ladem normalnym. Wtedy wartość zaobserwowan a dlapróby prostej obliczymy ze wzoru gdzie z obs = Z(ω o )= m poqo n p n o, p o + q o =1,moznacza liczbȩ sukcesów. W takim razie narzȩdzie to pozwala nam analizować zagadnienia zasygnalizowane w przyk ladzie 6.2.1. Prześledzimy to na nastȩpuj acym przyk ladzie Przyk lad 6.4.10 Na jednej z uczelni zrobiono badania na temat stopnia przygotowania studentów do sesji egzaminacyjnej. W tym celu wylosowano próbȩ prost a z lożon a ze 150 studentów i stwierdzono, że 45 spośród nich zda lo wszystkie egzaminy w pierwszym terminie. Na poziomie istotności 0, 05 należy zweryfikować hipotezȩ, że mniej aniżeli trzecia czȩść studentów zdaje na tej uczelni wszystkie egzaminy w pierwszym terminie. Niech X oznacza cechȩ naszej populacji generalnej określaj ac a liczbȩzdaj acych wszystkie egzaminy. Z za lożenia X B(m, p), gdzien = 150 i p jest nieznane. Z

176 Wstȩp do statystyki matematycznej trści wynika, że H o : p = 1 przeciwko hipotezie H 3 1: p< 1. Aby zweryfikować tȩ 3 hipotezȩ zastsujemy test dla frekwencji. Wtedy z obs = 45 1 150 3 1 3 2 3 150 = 0, 346. Tymczasem lewostronny obszar krytyczny Q = (, n α ), gdzie n α jest rozwi azaniem równania P ({ω Ω: X (ω n α )}) =α równoważnego równaniu 2(1 Φ(n α )) = α dla α =0, 05 ma postać Q =(, 2, 23). Ponieważ z obs / Q, wiȩc wnosimy, że nie ma powodów do odrzucenia hipotesy zerowej. Należy wiȩ przyj ać, że co najmniej trzecia czȩść studentów badanej uczelni zdaje wszystkie egzaminy w pierwszym terminie. Zaprezentujemy teraz podstawowe metody nieparametrycznych testów istotności. Na ogó l testy te dotycz a trzech kwestii: 1. rozstrzygniȩcia hipotezy czy rozk lad cechy X populacji generalnej jest określonego typu F.Mówimy wtedy o tzw. teście zgodności, 2. zbadania, czy pobrany materia l statystyczny spe lnia wymogi określone przez definicjȩ próby prostej. Takie testy nazywamy testami losowości, 3. zbadanie wspó lzależności dwóch i wiȩcej cech tej samej populacji. Mówimy wtedy o testach niezależności. Test zgodności chi kwadrat (χ 2 ) Pearsona. Niech (x 1,...,x n )=(X 1,...,X n )(ω o )bȩdzie prób a prost a cechy X populacji generalnej. Stawiamy hipotezȩ na temat nieznanego rozk ladu F cechy X w postaci H o : F = F o,dlapewnegorozk ladu F o o k parametrach. Wtedy hipoteza alternatywna H 1 oznacza, że dystrybuanta F jest inna aniżeli F o, czyli H 1 : F F o. Dla celów weryfikacji hipotezy H o ustalamy poziom istotności α (na ogó l α =0, 05) oraz za statystykȩ testow a bierzemy statystykȩ χ 2 Pearsona, o której wiȩcej powiemy za chwilȩ. Najpierw musimy zwrócić uwagȩ na kilka faktów zwi azanych ze struktur a próby prostej. Przede wszystkim należy podkreślić, że test zgodności χ 2 pearsona ma zastosowanie zarówno dla rozk ladów ci ag lych jak i dyskretnych. Poniżej