Weryfikacja hipotez statystycznych

Podobne dokumenty
Komputerowa analiza danych doświadczalnych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka matematyczna dla leśników

Ważne rozkłady i twierdzenia

Rozkłady statystyk z próby

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wykład 3 Hipotezy statystyczne

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez statystycznych.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Metoda największej wiarygodności

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Ważne rozkłady i twierdzenia c.d.

Testowanie hipotez statystycznych.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Testowanie hipotez statystycznych

WYKŁAD 8 ANALIZA REGRESJI

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Hipotezy statystyczne

Testowanie hipotez statystycznych

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Hipotezy statystyczne

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

1 Estymacja przedziałowa

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Testowanie hipotez statystycznych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

166 Wstęp do statystyki matematycznej

Estymacja parametrów rozkładu cechy

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Komputerowa Analiza Danych Doświadczalnych

Kolokwium ze statystyki matematycznej

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Testowanie hipotez statystycznych

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Zawartość. Zawartość

Testowanie hipotez statystycznych

Dokładne i graniczne rozkłady statystyk z próby

Weryfikacja hipotez statystycznych testy t Studenta

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Analiza niepewności pomiarów

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Testowanie hipotez statystycznych cd.

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Statystyka matematyczna. Wykład VI. Zesty zgodności

Testowanie hipotez statystycznych.

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Statystyka matematyczna i ekonometria

STATYSTYKA

Prawdopodobieństwo i rozkład normalny cd.

Estymacja punktowa i przedziałowa

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Komputerowa Analiza Danych Doświadczalnych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

1 Podstawy rachunku prawdopodobieństwa

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Własności statystyczne regresji liniowej. Wykład 4

Wnioskowanie statystyczne. Statystyka w 5

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Centralne twierdzenie graniczne

Transkrypt:

Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta Test χ dobroci dopasowania Tabele wkładów test niezależności zmiennych

Hipoteza Często w analizie poszukiwana wielkość nie jest całkowicie nieznana. Można przewidzieć jej wartość na podstawie innych pomiarów lub teorii. W takich wypadkach stawiamy pewną hipotezę a następnie ją weryfikujemy. Przykład: Stawiamy hipotezę, że zmienna losowa X pochodzi z rozkładu normalnego. Przeprowadzamy 0 pomiarów i uzyskujemy średnią X=0.54. Zmienna X ma wartość oczekiwaną 0 i odchylenie standardowe / 0. Jednak jak łatwo policzyć: P X 0.54 = { 0 0.54 0 }=0,66 Czyli nie można jednoznacznie stwierdzić, że hipoteza jest prawdziwa lub fałszywa

Poziom istotności W pomiarach uzyskujemy jedynie liczby losowe, więc nigdy nie będziemy mieli pewności. Należy wprowadzić poziom istotności czyli pewne prawdopodobieństwo α. Następnie sprawdzamy, czy: P X 0.54 Jeśli tak, to odrzucamy hipotezę. W przeciwnym przypadku, możemy jedynie stwierdzić, że hipoteza nie jest sprzeczna z danymi. 0,05 = { 0,96 }= { 0 0.6 0 } 0,0 = { 0,58 }= { 0 0.8 0 } 0,00 = { 0 3,9 }= { 0,04 0 } 3

Testy jednostronne / X X / X ' Czasem ważny jest również znak wielkości. Wtedy wykonujemy test jednostronny: P X x ' Ogólnie definiujemy statystykę testową T, szukamy podzbioru U obszaru zmienności T takiego, żeby P H T U = i jeśli wartość testowa T' jest w U, to hipotezę odrzucamy 4

Równoważność wariancji Porównujemy wariancję dwóch populacji o takich samych wartościach średnich. Zakładamy, że populacje mają rozkład normalny i liczność N i N. Wyznaczamy wariancje i liczymy: F =S /S Ten iloczyn powinien być bliski jedności. Tworzymy statystyki o rozkładzie χ : X = N S = f S X = N S = f S Nasza hipoteza mówi, że σ = σ, więc: F = f / f X / X Korzystając z postaci rozkładu χ liczymy prawd.: W Q =P X X Q 5

Pełna postać funkcji W to: / f W Q = / f / f 0 Rozkład F-Fishera Q t f t f dt gdzie f = f +f. Powracając do F definiujemy: i otrzymujemy dystrybuantę: oraz gęstość prawdopodobieństwa: f F = f f / f F =Q f / f W F =P S S F Jest to rozkład F-Fishera / f f / f / f F f f F f f f 6

Rozkład F-Fishera rysunek F = 4 6 8 0 4 6 8 0 F =5 F =0 F =5 F =0 7

Rozkład F-Fishera interpretacja Granicę F' α wyznaczamy z warunku: P S S F ' = P S S F ' =P S S F = Jeżeli w wyniku testu uzyskamy wartość ilorazu wariancji powyżej F' α, to hipoteza jest prawdziwa z poziomem ufności α. Często stosujemy test dwustronny: P S S F ' ' f, f = P S S F ' ' ' f, f =P S S F ' ' f, f Test można jeszcze uprościć, zauważając, że = F -α/ > dla rozsądnych α. Stąd mając σ g >σ k wystarczy zweryfikować jedynie: S g /S k F / f g, f k 8

Numer pomiaru Przyrząd Przyrząd 00 97 0, 0,04 -,86 8,6 0 0,,44,4,3 3 0 0, 4,84,4 4,59 4 00 99 0, 0,04-0,86 0,73 5 98 0 -,8 3,4,4,3 6 97 98 -,8 7,84 -,86 3,45 7 00 0 0, 0,04,4,3 8 0,,44 9 99-0,8 0,64 0 00 0, 0,04 Średnia 99,8 99,86 Stopnie swobody 9 6 S^ 9,6 0,86 S^/f,8 3,48 F,6 Rozkład F-Fishera przykład Korzystamy z kwantyli funkcji F ' ' F 0, ' ' F 0, ' ' F 0,0 7, 9 =F 0,9 7, 9 =.5 7, 9 =F 0,95 7, 9 =3.9 7, 9 =F 0,99 7, 9 =5.6 ' ' F 0,0 7, 9 =F 0,995 7, 9 =6.89 9

Równość wartości średnich Mamy zmienną losową X o rozkładzie normalnym. Pobieramy próbę o liczności N i wartości średniej X X = X / N s x = N N x j= j x s X = Pytamy jakie skutki będzie miało zastąpienie wariancji σ przez estymator S. Badamy zmienną T: po zauważeniu, że (N-)σ X = fs X ma rozkład χ o liczbie stopni swobody f=n-. Dostajemy: F t =P T t =P X N f T = X / s X= X N /S X = X N f / co daje gęstość prawdopodobieństwa: f t = N N N x j= j x / f = t / f f t t f / f / f f t f / f / f 0

Rozkład t-studenta f= 3 4 5 6 7 8 9 0 Jest to rozkład t- Studenta. Dąży on do rozkładu Gaussa Z symetrii wokół 0 mamy związek: Wyznaczamy wartości graniczne ±t' α : P t t = F t 0 t ' f t dt=/, gdzie t ' =t / Jest to test dwustronny, w analogiczny sposób można przeprowadzać także testy jednostronne

Testowanie hipotez r. t-studenta Hipotezą jest to, że wartość λ 0 jest wartością średnią pewnego rozkładu normalnego. Pobieramy z niego próbę o liczności N i wartości średniej X i wariancji σ. Testujemy jedną z nierówności: X t = X 0 N S X t ' =t / lub t= X ± 0 N Jeśli jest spełniona, hipotezę odrzucamy Test można uogólnić do porównywania wartości średnich z dwóch prób o liczności N i N. Hipotezą jest równość wartości średnich: Mają one rozkład normalny z wariancjami: X = N X x= y t ' S =t X [ test ] jednostronny Y = N Y

Testowanie równości wart. średnich Wariancje są estymowane przez: S X = N N N j= X X S Y Różnica wartości średnich ma również rozkład zbliżony do normalnego, stąd: Oczywiście wartość średnia Δ powinna wynosić 0, a Δ/σ(Δ) powinna być opisana rozkładem Gaussa. Zwykle zakłada się, że X i Y pochodzą z tej samej populacji, więc σ = X σ, więc można je estymować Y przez średnią ważoną: = N N N j= Y Y = X Y = X Y S = N S X N S Y N N 3

Można wtedy zdefiniować: S X = S N i teraz można już podać wzór: Test różnic Studenta S Y = S N S =S X S Y = N N S N N Można udowodnić, że iloraz Δ/σ(Δ) podlega rozkładowi t-studenta z liczbą stopni swobody f=n + N -. Możemy więc zaproponować test różnic studenta z kwantylami rozkładu Studenta: t = = X Y t ' s =t / Jeśli nierówność jest spełniona, to odrzucamy hipotezę o równości wartości średnich S 4

Numer pomiaru Przyrząd Przyrząd 00 97-0, 0,04 -,3 5,9 0 0 0,79 0,6,7,89 3 0 0,79 3,,7 7,9 4 00 99-0, 0,04-0,3 0,09 5 98 0 -, 4,89,7,89 6 97 98-3, 0,3 -,3,69 7 00 0-0, 0,04,7,89 8 0 97 0,79 0,6 -,3 5,9 9 99 96 -,,47-3,3 0,89 0 00 0-0, 0,04,7,89 98 -, 4,89 0 0,79 0,6 3 00-0, 0,04 4 0,79 3, 5 03,79 7,78 6 0 0,79 0,6 7 99 -,,47 8 00-0, 0,04 9 0,79 3, Ilość pomiarów Średnia 9 0 00, 99,3 0,9 8 9 Stopnie swobod S^ 43,6 4, S^/f,4 4,68 S^ 47, S^ Delta 7,85 Test różnic studenta przykład Mamy kwantyle: ' t 0, 7 =t 0,9 7 =.7 ' t 0, 7 =t 0,95 7 =,05 ' t 0,0 7 =t 0,99 7 =,77 ' t 0,0 7 =t 0,995 7 =3,05 ' t 0,004 7 =t 0,998 7 =3,43 ' t 0,00 7 =t 0,999 7 =3,69 Hipotezy nie można odrzucić 5

Test χ dobroci dopasowania Mamy N pomiarów g i, i=,,...,n oraz ich błędy s i. Wynik pomiaru to suma wielkości prawdziwej h i i błędu ε i, który ma r. normalny o odchyleniu stand. σ i. Weryfikujemy hipotezę określającą wartości h i : h i = f i, i=,,, N Jeśli jest ona prawdziwa, to wielkości: u i = g i f i i mają rozkład Gaussa, więc wielkość: T = i= N ui = N i= podlega rozkładowi χ o N stopniach swobody. Hipotezę f i odrzucamy, gdy dla poziomu istotności α spełniona jest nierówność:, i=,,, N g i f i i T 6

Ilość stopni swobody Często zarówno pomiary g i, wartości prawdziwe h i i hipoteza f i są funkcjami zmiennej kontrolnej t, której wartości znamy dokładnie: g i =g t i, h i =h t i, Prostą hipotezą jest, że h(t) jest funkcją liniową: f t =h t =at b f i = f t i Gdy wartości a i b są znane skądinąd, to problem ma N stopni swobody. Jednak gdy parametry liczbowe a i b są nieznane, jedyną hipotezą pozostaje liniowość zależności h(t). Wtedy każdy nieznany parametr, który estymujemy na podstawie pomiarów obniża liczbę stopni swobody o, np. dla h i =h t i = f i = a t i b wynosi N-. 7

Test χ i rozkład częstości Każdy ciągły rozkład prawdopodobieństwa f(x) można zamienić na dyskretny poprzez podział zakresu zmienności x na r przedziałów:,,, i,, r Całkując w przedziałach otrzymujemy prawd. p i : p i =P x i = i f x dx ; i= Z pobranej próby o liczności n oznaczamy przez n i elementy leżące w przedziale ξ i. Oczekujemy, że r p i = n i =np i. Jak wiemy, dla dużych n wariancja n i wynosi n i a rozkład u i = n i n p i dąży do rozkładu Gaussa n i, lub u i = n i n p i np i 8

Test χ i doświadczenie Obliczamy teraz sumę kwadratów: i na podstawie naszej hipotezy oczekujemy, że statystyka X ma asymptotycznie rozkład χ. Ponieważ zmienne u nie są niezależne, więc liczba stopni swobody tego rozkładu równa się r-. Jeżeli dodatkowo p parametrów rozkładu estymujemy z pomiarów, to liczba stopni swobody wynosi r--p. Wartość X porównujemy, tak jak w poprzednich przypadkach, z kwantylami rozkładu χ dla zadanego poziomu ufności α. Jeśli nierówność jest spełniona, odrzucamy hipotezę f. r X = i= u i 9

Test χ przykład Numer binu n_i p_i n p_i (n_i np_i)^/np_i 8 0,649 9,0 0,0360 34 0,37 4,5 4,00 3 9 0,48 0, 0,078 4 0,0959 6,88,0065 5 6 0,080 4, 0,567 6 8 0,0669,77 3,97 7 0,0559 9,84 0,37 8 6 0,0467 8, 0,599 9 0 0,0390 6,86,438 0 4 0,036 5,74 0,56 3 0,073 4,8 0,6779 6 0,08 4,0 0,984 n=sum(n_i) 76 X^ 3,04 t 0,9 =7,74 t 0,95 =9,674 t 0,99 =4,76 t 0,995 =6,758 t 0,998 =9,354 t 0,999 =3,66 Badamy stałą rozpadu promieniotwórczego. Estymatorem τ jest wartość średnia t Porównując kwantyle χ widać, że nawet dla α=0. nie możemy odrzucić hipotezy f t = e t / t = 0 e t / = p i = xmin x max e t / 0

Tabele wkładów Wykonano n pomiarów. Każdy pomiar jest kombinacją dwóch zmiennych losowych X i Y. Załóżmy, że są one typu skokowego: a n ij to liczba pomiarów takich, że X=x i, Y=y i Otrzymujemy macierz zwaną tabelą wkładów. Oznaczmy P(x i )=p i i P(y j )=q j. Naszą hipotezą jest, że zmienne są niezależne. Wtedy P(x i,y i )=p i q j. Estymatorami p i q są: X x, x,, x k, Y y, y,, y l p i = n j= l n ij q j = n i= k n ij

Test niezależności zmiennych Warunki normalizacyjne ograniczają p i q: l j= k q j = i= p i = n j= stąd mamy tylko k+l- niezależnych estymatorów. Wykonujemy test χ : l k i= n ij = X = j= l k i= A następnie porównujemy go do kwantyla rozkładu χ o zadanym poziomie ufności i ilości stopni swobody równej (k-)(l-). Jeżeli spełniona jest zależność: X n ij n ij n p i q j n p i q j to odrzucamy o hipotezę niezależności zmiennych