Testowanie hipotez statystycznych.

Podobne dokumenty
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Kolokwium ze statystyki matematycznej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

Estymacja parametrów rozkładu cechy

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Własności statystyczne regresji liniowej. Wykład 4

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 11 Testowanie jednorodności

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Wykład 10 Testy jednorodności rozkładów

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Wykład 3 Hipotezy statystyczne

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Statystyka Matematyczna Anna Janicka

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Testowanie hipotez statystycznych.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 8 Dane kategoryczne

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

STATYSTYKA

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wnioskowanie statystyczne. Statystyka w 5

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Test t-studenta dla jednej średniej

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Hipotezy statystyczne

Wydział Matematyki. Testy zgodności. Wykład 03

Estymacja punktowa i przedziałowa

1 Estymacja przedziałowa

Wykład 9 Testy rangowe w problemie dwóch prób

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Hipotezy statystyczne

Statystyka matematyczna dla leśników

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Rozkłady statystyk z próby

Testowanie hipotez statystycznych

Spis treści 3 SPIS TREŚCI

Statystyka matematyczna Test χ 2. Wrocław, r

Testowanie hipotez statystycznych

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Prawdopodobieństwo i statystyka r.

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Komputerowa Analiza Danych Doświadczalnych

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

EGZAMIN DYPLOMOWY, część II, Biomatematyka

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

1.1 Wstęp Literatura... 1

Statystyczna analiza danych

Wykład 7 Testowanie zgodności z rozkładem normalnym

Centralne twierdzenie graniczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych

Testy post-hoc. Wrocław, 6 czerwca 2016

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Analiza niepewności pomiarów

Transkrypt:

Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011

Temat. Test zgodności χ 2 Pearsona.

Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie P{X 1 = x i } = p i, i = 1,..., k. Oznaczmy przez O i liczbę tych zmiennych spośród X 1,..., X n, które przyjęły wartość x i a przez E i = np i oczekiwaną liczbę wartości x i. Wektor losowy (O 1, O 2,..., O k ) ma rozkład wielomianowy z parametrami n i (p 1,..., p k ) natomiast zmienna losowa χ 2 P = k i=1 (O i E i ) 2 E i, ma asymptotyczny rozkład chi kwadrat z (k 1) stopniami swobody χ 2 k 1.

Test zgodności χ 2 dla hipotezy prostej Rozważmy dyskretną zmienną losową X o nieznanym rozkładzie P{X = x i } = q i, i = 1,..., k, q i są nieznane. Stawiamy hipotezę H 0 : q i = p i dla każdego i = 1,..., k. Statystyka testowa to statystyka Pearsona χ 2 P χ 2 P = k i=1 która w tym przypadku ma postać (O i E i ) 2 E i, χ 2 P = k i=1 (O i np i ) 2 np i.

Test zgodności χ 2 dla hipotezy prostej Rozważmy dyskretną zmienną losową X o nieznanym rozkładzie P{X = x i } = q i, i = 1,..., k, q i są nieznane. Stawiamy hipotezę H 0 : q i = p i dla każdego i = 1,..., k. Statystyka testowa to statystyka Pearsona χ 2 P χ 2 P = k i=1 która w tym przypadku ma postać (O i E i ) 2 E i, χ 2 P = k i=1 (O i np i ) 2 np i.

Przykład Sprawdzamy, że cyfry z tabeli i 0 1 2 3 4 5 6 7 8 9 O i 33 32 29 31 37 34 34 26 32 32 są wygenerowane z rozkładu jednostajnego. Przetestujemy hipotezę H 0 : P{X = i} = 1, dla każdego i = 0,..., 9, 10 na poziomie istotności α = 0, 01.

Przykład Sprawdzamy, że cyfry z tabeli i 0 1 2 3 4 5 6 7 8 9 O i 33 32 29 31 37 34 34 26 32 32 są wygenerowane z rozkładu jednostajnego. Przetestujemy hipotezę H 0 : P{X = i} = 1, dla każdego i = 0,..., 9, 10 na poziomie istotności α = 0, 01.

Przykład Sprawdzamy, że cyfry z tabeli i 0 1 2 3 4 5 6 7 8 9 O i 33 32 29 31 37 34 34 26 32 32 są wygenerowane z rozkładu jednostajnego. Przetestujemy hipotezę H 0 : P{X = i} = 1, dla każdego i = 0,..., 9, 10 na poziomie istotności α = 0, 01.

Przykład cd. W tabeli jest 320 cyfr a więc n = 320. Wszystkie częstości oczekiwane są takie same E i = n 10 = 320 10 = 32. Statystyka testowa ma wartość χ 2 P = 2, 5, natomiast kwantyl rzędu 0, 99 dla rozkładu χ 2 z 9 stopniami swobody jest równy χ 2 9:0,01 = 21, 67. Tak więc nie ma podstaw do odrzucenia hipotezy zerowej i przyjmujemy H 0, (p wartość jest w tym przypadku równa p = 0, 981.)

Test zgodności χ 2 dla rozkładu ciągłego. Test χ 2 możemy także stosować do sprawdzania hipotez o postaci rozkładu ciągłego. W tym celu należy wyznaczyć rozłączne klasy A 1,..., A k (podobnie jak przy konstrukcji histogramu) i obliczyć, przy założeniu hipotezy zerowej H 0, prawdopodobieństwa p 1 = P{X A 1 }, p 2 = P{X A 2 },..., p k = P{X A k }. Niech n oznacza wielkość próby, a O i liczbę obserwacji w i tej klasie. Za pomocą testu χ 2 Pearsona możemy sprawdzić, czy zaobserwowane częstości O 1, O 2,..., O k podlegają rozkładowi z gęstością {p i, i = 1,..., k}.

Test zgodności χ 2 dla rozkładu ciągłego. Test χ 2 możemy także stosować do sprawdzania hipotez o postaci rozkładu ciągłego. W tym celu należy wyznaczyć rozłączne klasy A 1,..., A k (podobnie jak przy konstrukcji histogramu) i obliczyć, przy założeniu hipotezy zerowej H 0, prawdopodobieństwa p 1 = P{X A 1 }, p 2 = P{X A 2 },..., p k = P{X A k }. Niech n oznacza wielkość próby, a O i liczbę obserwacji w i tej klasie. Za pomocą testu χ 2 Pearsona możemy sprawdzić, czy zaobserwowane częstości O 1, O 2,..., O k podlegają rozkładowi z gęstością {p i, i = 1,..., k}.

Test zgodności χ 2 dla rozkładu ciągłego. Test χ 2 możemy także stosować do sprawdzania hipotez o postaci rozkładu ciągłego. W tym celu należy wyznaczyć rozłączne klasy A 1,..., A k (podobnie jak przy konstrukcji histogramu) i obliczyć, przy założeniu hipotezy zerowej H 0, prawdopodobieństwa p 1 = P{X A 1 }, p 2 = P{X A 2 },..., p k = P{X A k }. Niech n oznacza wielkość próby, a O i liczbę obserwacji w i tej klasie. Za pomocą testu χ 2 Pearsona możemy sprawdzić, czy zaobserwowane częstości O 1, O 2,..., O k podlegają rozkładowi z gęstością {p i, i = 1,..., k}.

Test zgodności χ 2 dla rozkładu ciągłego. Test χ 2 możemy także stosować do sprawdzania hipotez o postaci rozkładu ciągłego. W tym celu należy wyznaczyć rozłączne klasy A 1,..., A k (podobnie jak przy konstrukcji histogramu) i obliczyć, przy założeniu hipotezy zerowej H 0, prawdopodobieństwa p 1 = P{X A 1 }, p 2 = P{X A 2 },..., p k = P{X A k }. Niech n oznacza wielkość próby, a O i liczbę obserwacji w i tej klasie. Za pomocą testu χ 2 Pearsona możemy sprawdzić, czy zaobserwowane częstości O 1, O 2,..., O k podlegają rozkładowi z gęstością {p i, i = 1,..., k}.

Test zgodności χ 2 dla rozkładu ciągłego. Test χ 2 możemy także stosować do sprawdzania hipotez o postaci rozkładu ciągłego. W tym celu należy wyznaczyć rozłączne klasy A 1,..., A k (podobnie jak przy konstrukcji histogramu) i obliczyć, przy założeniu hipotezy zerowej H 0, prawdopodobieństwa p 1 = P{X A 1 }, p 2 = P{X A 2 },..., p k = P{X A k }. Niech n oznacza wielkość próby, a O i liczbę obserwacji w i tej klasie. Za pomocą testu χ 2 Pearsona możemy sprawdzić, czy zaobserwowane częstości O 1, O 2,..., O k podlegają rozkładowi z gęstością {p i, i = 1,..., k}.

Test zgodności χ 2 dla rozkładu ciągłego. Test χ 2 możemy także stosować do sprawdzania hipotez o postaci rozkładu ciągłego. W tym celu należy wyznaczyć rozłączne klasy A 1,..., A k (podobnie jak przy konstrukcji histogramu) i obliczyć, przy założeniu hipotezy zerowej H 0, prawdopodobieństwa p 1 = P{X A 1 }, p 2 = P{X A 2 },..., p k = P{X A k }. Niech n oznacza wielkość próby, a O i liczbę obserwacji w i tej klasie. Za pomocą testu χ 2 Pearsona możemy sprawdzić, czy zaobserwowane częstości O 1, O 2,..., O k podlegają rozkładowi z gęstością {p i, i = 1,..., k}.

Test zgodności χ 2 dla rozkładu ciągłego cd. Metodę tę zilustrujemy następującym przykładem. Przykład Według producenta pojemność jego naczynie miareczkowego ma rozkład normalny z wartością średnią równą nominalnej pojemności oraz odchyleniu standardowym równym 0, 01 mm 3. Aby to sprawdzić, przebadano pojemność 200 naczyń o nominalnej pojemności równej 30 mm 3. Wyznaczono k = 10 rozłącznych klas A 1,..., A 10. Ich granice z zaobserwowanymi liczebnościami są podane w tabeli

Test zgodności χ 2 dla rozkładu ciągłego cd. Metodę tę zilustrujemy następującym przykładem. Przykład Według producenta pojemność jego naczynie miareczkowego ma rozkład normalny z wartością średnią równą nominalnej pojemności oraz odchyleniu standardowym równym 0, 01 mm 3. Aby to sprawdzić, przebadano pojemność 200 naczyń o nominalnej pojemności równej 30 mm 3. Wyznaczono k = 10 rozłącznych klas A 1,..., A 10. Ich granice z zaobserwowanymi liczebnościami są podane w tabeli

Przykład cd. i Klasa O i E i 1 (, 29, 980] 2 4, 55 2 (29, 980, 29, 985] 13 8, 81 3 (29, 985, 29, 990] 20 18, 37 4 (29, 990, 29, 995] 26 29, 98 5 (29, 995, 30, 000] 40 38, 29 6 (30, 000, 30, 005] 42 38, 29 7 (30, 005, 30, 010] 26 29, 98 8 (30, 010, 30, 015] 21 18, 37 9 (30, 015, 30, 020] 10 8, 81 10 (30, 020, + ) 0 4, 55

Przykład cd. Niech X oznacza pomiar pojemności oraz niech q i = P{X A i }. W zapewnienia producenta oznaczają, że X ma rozkład normalny N(30, 00, 0, 0001). My sprawdzamy hipotezę H 0 : q i = p i, w której p i = Φ ( ) ai 30 Φ 0, 01 gdzie A i = (a i 1, a i ] jest i tą klasą. ( ai 1 30 0, 01 Na podstawie danych z tablicy, w których łączymy w jedną dwie dolne i dwie górne klasy otrzymujemy następującą wartość statystyki testowej χ 2 P = 3, 06. Ponieważ przy 7 stopniach swobody p wartość wynosi 0,879, nie ma podstaw do odrzucenia hipotezy zerowej H 0, a w takim razie także hipotezy o rozkładzie normalnym N(0, 1) pojemności naczyń miareczkowych. ),

Przykład cd. Niech X oznacza pomiar pojemności oraz niech q i = P{X A i }. W zapewnienia producenta oznaczają, że X ma rozkład normalny N(30, 00, 0, 0001). My sprawdzamy hipotezę H 0 : q i = p i, w której p i = Φ ( ) ai 30 Φ 0, 01 gdzie A i = (a i 1, a i ] jest i tą klasą. ( ai 1 30 0, 01 Na podstawie danych z tablicy, w których łączymy w jedną dwie dolne i dwie górne klasy otrzymujemy następującą wartość statystyki testowej χ 2 P = 3, 06. Ponieważ przy 7 stopniach swobody p wartość wynosi 0,879, nie ma podstaw do odrzucenia hipotezy zerowej H 0, a w takim razie także hipotezy o rozkładzie normalnym N(0, 1) pojemności naczyń miareczkowych. ),

Test zgodności χ 2 dla rozkładu ciągłego cd. Uwaga Przybliżenie rozkładem χ 2 można uznać za dopuszczalne, gdy np i 5 dla każdego i = 1,..., k.

Test zgodności χ 2 dla hipotezy złożonej. Omówiliśmy przypadek, w którym sformułowana hipoteza H 0 określała całkowicie rozkład zmiennej losowej. W wielu zagadnieniach praktycznych stawia się również hipotezy, które nie określają całkowicie rozkładu. Możemy mieć na przykład do czynienia z hipotezą, która orzeka, że zmienna losowa X ma rozkład dyskretny o znanej postaci ogólnej {p i (θ), i = 1,..., k}, a parametr θ pozostaje nieokreślony.

W tej sytuacji nie możemy bezpośrednio skorzystać ze statystyki χ 2 P gdyż nie możemy obliczyć, E i = E i (θ) = np i (θ), teoretycznych oczekiwanych liczebności klas. Zależą one bowiem od wartości nieznanego parametru θ. Okazuje się, że jeśli nieznany parametr θ jest oszacowany za pomocą metody największej wiarogodności, to statystyka k χ 2 P = (O i E i (ˆθ)) 2, E i (ˆθ) i=1 gdzie ˆθ oznacza estymator największej wiarogodności parametru θ, ma nadal asymptotyczny rozkład χ 2 ale już nie z k 1 stopniami swobody ale z k 2 stopniami swobody.

Test zgodności χ 2 dla hipotezy złożonej cd. Przykład W diploidalnej populacji z losowym kojarzeniem częstość allelu A jest równa θ. Jeśli populacja znajduje się w równowadze Hardyego-Weinberga to częstości genotypów AA, Aa i aa są równe odpowiednio θ 2, 2θ(1 θ) i (1 θ) 2.

Przykład cd. Załóżmy, że w populacji stwierdzono 110 osobników o genotypie AA, 235 osobników o genotypie Aa oraz 155 osobników o genotypie aa. Czy istnieje podstawa do odrzucenia hipotezy o znajdowaniu się tej populacji w warunkach równowagi Hardyego-Wainberga.

Przykład cd. W tym przypadku hipoteza zerowa ma postać H 0 : p 1 (θ) = θ 2, p 2 (θ) = 2θ(1 θ), p 3 (θ) = (1 θ) 2. Estymator parametru θ wyznaczony metodą największej wiarogodności jest postaci ˆθ = 2n 1 + n 2, 2n gdzie n = n 1 + n 2 + n 3. Ponieważ Genotyp AA Aa aa n i 110 235 155 więc ˆθ = 0, 455.

Przykład cd. W tym przypadku hipoteza zerowa ma postać H 0 : p 1 (θ) = θ 2, p 2 (θ) = 2θ(1 θ), p 3 (θ) = (1 θ) 2. Estymator parametru θ wyznaczony metodą największej wiarogodności jest postaci ˆθ = 2n 1 + n 2, 2n gdzie n = n 1 + n 2 + n 3. Ponieważ Genotyp AA Aa aa n i 110 235 155 więc ˆθ = 0, 455.

Przykład cd. W tym przypadku hipoteza zerowa ma postać H 0 : p 1 (θ) = θ 2, p 2 (θ) = 2θ(1 θ), p 3 (θ) = (1 θ) 2. Estymator parametru θ wyznaczony metodą największej wiarogodności jest postaci ˆθ = 2n 1 + n 2, 2n gdzie n = n 1 + n 2 + n 3. Ponieważ Genotyp AA Aa aa n i 110 235 155 więc ˆθ = 0, 455.

Przykład cd. Statystyka testowa jest więc równa χ 2 P (110 103, 51)2 (235 247, 97)2 (155 148, 51)2 = + + 103, 51 247, 97 148, 51 = 1, 369. Dla tej wartości statystyki testowej p wartość jest równa 0,24, czyli nie ma podstaw do odrzucenia hipotezy zerowej.

Przykład cd. Statystyka testowa jest więc równa χ 2 P (110 103, 51)2 (235 247, 97)2 (155 148, 51)2 = + + 103, 51 247, 97 148, 51 = 1, 369. Dla tej wartości statystyki testowej p wartość jest równa 0,24, czyli nie ma podstaw do odrzucenia hipotezy zerowej.

Testowanie hipotezy o niezależności Za pomocą testu χ 2 możemy przetestować hipotezę o niezależności dwóch zmiennych losowych. Niech (X, Y ) będzie dwuwymiarowym wektorem losowym o rozkładzie dyskretnym r ij = P{X = x i, Y = y j }, i = 1,..., a, j = 1,..., b. Rozkład {r ij } możemy wygodnie zapisać w tablicy X/Y y 1 y 2... y b x 1 r 11 r 12... r 1b x 2 r 21 r 22... r 2b............. x a r a1 r a2... r ab

Testowanie hipotezy o niezależności Za pomocą testu χ 2 możemy przetestować hipotezę o niezależności dwóch zmiennych losowych. Niech (X, Y ) będzie dwuwymiarowym wektorem losowym o rozkładzie dyskretnym r ij = P{X = x i, Y = y j }, i = 1,..., a, j = 1,..., b. Rozkład {r ij } możemy wygodnie zapisać w tablicy X/Y y 1 y 2... y b x 1 r 11 r 12... r 1b x 2 r 21 r 22... r 2b............. x a r a1 r a2... r ab

Testowanie hipotezy o niezależności Stawiamy hipotezę zerową H 0, że zmienne losowe X i Y są niezależne. H 0 : P {(X, Y ) = (x i, y j )} = P {X = x i } P {Y = y j }, dla wszystkich i, j Jeśli wprowadzimy oznaczenia p i = P{X = x i } oraz q j = P{Y = y j } to możemy hipotezę H 0 zapisać w postaci H 0 : r ij = p i q j, dla wszystkich i, j.

Testowanie hipotezy o niezależności Hipoteza zerowa jest hipotezą złożoną. Nie określamy ani prawdopodobieństw r ij ani prawdopodobieństw p i oraz q j. Orzekamy jedynie, że prawdopodobieństwo r ij jest równe iloczynowi pewnych liczb p i oraz q j, które będziemy traktować jako parametry. Ponieważ p 1 + p 2 +... + p a = 1 oraz q 1 + q 2 +... + q b = 1 więc mamy a + b 2 niezależnych parametrów, które musimy estymować na podstawie danych. Dwa pozostałe parametry, p a oraz q b, określamy za pomocą równości a 1 b 1 p a = 1 p i oraz q b = 1 q j. i=1 j=1

Testowanie hipotezy o niezależności Estymacji dokonujemy na podstawie n elementowej próby prostej (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ). Oznaczmy przez O ij liczbę par (X k, Y k ) równych (x i, y j ). Wygodnie jest zapisać dane w tabeli X/Y y 1 y 2... y b Suma x 1 O 11 O 12... O 1b O 1 x 2 O 21 O 22... O 2b O 2............. O 1. x a O a1 O a2... O ab O a Suma O 1 O 2... O b n gdzie O i O j oznacza sumę liczb w i tym wierszu, oznacza sumę liczb w j tej kolumnie.

Testowanie hipotezy o niezależności Estymatorami wyznaczonymi metoda największej wiarogodności nieznanych parametrów p 1,..., p a oraz q 1,..., q b są odpowiednio oraz ˆp i = O i, i = 1,..., a, n ˆq j = O j, j = 1,..., b. n

Procedurę testowania opieramy na statystyce testowej Po przekształceniu χ 2 P = b a j=1 i=1 χ 2 P = n b j=1 i=1 ( O ij n O i n n O i n O j n ( a O ij O i O j n ) O 2 j n ) 2 O i O j. Statystyka χ 2 P ma asymptotyczny rozkład chi kwadrat z (a 1)(b 1) stopniami swobody..

Procedurę testowania opieramy na statystyce testowej Po przekształceniu χ 2 P = b a j=1 i=1 χ 2 P = n b j=1 i=1 ( O ij n O i n n O i n O j n ( a O ij O i O j n ) O 2 j n ) 2 O i O j. Statystyka χ 2 P ma asymptotyczny rozkład chi kwadrat z (a 1)(b 1) stopniami swobody..

Procedurę testowania opieramy na statystyce testowej Po przekształceniu χ 2 P = b a j=1 i=1 χ 2 P = n b j=1 i=1 ( O ij n O i n n O i n O j n ( a O ij O i O j n ) O 2 j n ) 2 O i O j. Statystyka χ 2 P ma asymptotyczny rozkład chi kwadrat z (a 1)(b 1) stopniami swobody..

Stopnie swobody Liczba stopni swobody wynika z faktu, że mamy k = ab klatek oraz szacujemy a + b 2 niezależnych parametrów, a więc liczba swobody rozkładu statystyki testowej jest równa ν = ab 1 (a + b 2) = (a 1)(b 1).

Stopnie swobody Liczba stopni swobody wynika z faktu, że mamy k = ab klatek oraz szacujemy a + b 2 niezależnych parametrów, a więc liczba swobody rozkładu statystyki testowej jest równa ν = ab 1 (a + b 2) = (a 1)(b 1).

Przykład W fabryce telewizorów sądzi się, że jakość obrazu wyprodukowanego telewizora nie zależy od jakości dźwięku. Aby sprawdzić to przypuszczenie, zbadano 100 wybranych losowo telewizorów i otrzymano wynik podany w tablicy: Obraz/Dźwięk zła dobra wysoka Suma zła 11 17 6 34 dobra 15 18 7 40 wysoka 8 8 10 26 Suma 34 43 23 100

Przykład W fabryce telewizorów sądzi się, że jakość obrazu wyprodukowanego telewizora nie zależy od jakości dźwięku. Aby sprawdzić to przypuszczenie, zbadano 100 wybranych losowo telewizorów i otrzymano wynik podany w tablicy: Obraz/Dźwięk zła dobra wysoka Suma zła 11 17 6 34 dobra 15 18 7 40 wysoka 8 8 10 26 Suma 34 43 23 100

Przykład cd. Należy postawić i przetestować hipotezę, przyjmując poziom istotności 1 α = 0, 9. Hipoteza zerowa orzeka, że jakość dźwięku jest niezależna od jakości obrazu.

Przykład cd. Należy postawić i przetestować hipotezę, przyjmując poziom istotności 1 α = 0, 9. Hipoteza zerowa orzeka, że jakość dźwięku jest niezależna od jakości obrazu.

Przykład cd. Należy postawić i przetestować hipotezę, przyjmując poziom istotności 1 α = 0, 9. Hipoteza zerowa orzeka, że jakość dźwięku jest niezależna od jakości obrazu.

Przykład cd. Oczekiwana częstość w poszczególnych klatkach. Jakość obrazu/dźwięku zła dobra wysoka Suma zła 11, 56 14, 62 7, 82 34 dobra 13, 60 17, 20 9, 20 40 wysoka 8, 84 11, 18 5, 98 26 Suma 34, 00 43, 00 23, 00 100 Otrzymujemy wartość statystyki χ 2 P = 5, 23 dla rozkładu χ2 z 4 stopniami swobody daje to p wartość równą 0,26. Tak więc nie ma podstaw do odrzucenia hipotezy zerowej. Jakość dźwięku jest niezależna od jakości obrazu.

Przykład cd. Oczekiwana częstość w poszczególnych klatkach. Jakość obrazu/dźwięku zła dobra wysoka Suma zła 11, 56 14, 62 7, 82 34 dobra 13, 60 17, 20 9, 20 40 wysoka 8, 84 11, 18 5, 98 26 Suma 34, 00 43, 00 23, 00 100 Otrzymujemy wartość statystyki χ 2 P = 5, 23 dla rozkładu χ2 z 4 stopniami swobody daje to p wartość równą 0,26. Tak więc nie ma podstaw do odrzucenia hipotezy zerowej. Jakość dźwięku jest niezależna od jakości obrazu.

Przykład cd. Oczekiwana częstość w poszczególnych klatkach. Jakość obrazu/dźwięku zła dobra wysoka Suma zła 11, 56 14, 62 7, 82 34 dobra 13, 60 17, 20 9, 20 40 wysoka 8, 84 11, 18 5, 98 26 Suma 34, 00 43, 00 23, 00 100 Otrzymujemy wartość statystyki χ 2 P = 5, 23 dla rozkładu χ2 z 4 stopniami swobody daje to p wartość równą 0,26. Tak więc nie ma podstaw do odrzucenia hipotezy zerowej. Jakość dźwięku jest niezależna od jakości obrazu.

Tablice kontyngencji Dla danych, które możemy przedstawić w tablicy dwudzielczej X/Y 0 1 Suma 0 a b a + b 1 c d c + d Suma a + c b + d n statystyka χ 2 P przyjmuje postać χ 2 P = n(ad bc) 2 (a + b)(c + d)(a + c)(b + d).

Tablice kontyngencji Dla danych, które możemy przedstawić w tablicy dwudzielczej X/Y 0 1 Suma 0 a b a + b 1 c d c + d Suma a + c b + d n statystyka χ 2 P przyjmuje postać χ 2 P = n(ad bc) 2 (a + b)(c + d)(a + c)(b + d).