Komputerowa analiza danych doświadczalnych

Podobne dokumenty
Weryfikacja hipotez statystycznych

Statystyka matematyczna dla leśników

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Metoda największej wiarygodności

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych.

Komputerowa Analiza Danych Doświadczalnych

166 Wstęp do statystyki matematycznej

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wykład 3 Hipotezy statystyczne

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Rozkłady statystyk z próby

Komputerowa analiza danych doświadczalnych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Komputerowa analiza danych doświadczalnych

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Kolokwium ze statystyki matematycznej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka matematyczna i ekonometria

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Ważne rozkłady i twierdzenia c.d.

Komputerowa Analiza Danych Doświadczalnych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Prawdopodobieństwo i statystyka

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

STATYSTYKA

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Hipotezy statystyczne

Komputerowa analiza danych doświadczalnych

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Hipotezy statystyczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Statystyka matematyczna i ekonometria

Prawdopodobieństwo i rozkład normalny cd.

WYKŁAD 8 ANALIZA REGRESJI

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Estymacja parametrów w modelu normalnym

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

STATYSTYKA MATEMATYCZNA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Testowanie hipotez statystycznych

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Testowanie hipotez statystycznych

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Statystyka matematyczna. Wykład VI. Zesty zgodności

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Testowanie hipotez statystycznych

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

1 Estymacja przedziałowa

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wnioskowanie statystyczne. Statystyka w 5

Statystyka Matematyczna Anna Janicka

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Testowanie hipotez statystycznych

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Estymacja punktowa i przedziałowa

Ważne rozkłady i twierdzenia

Zadania ze statystyki cz.8. Zadanie 1.

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Dokładne i graniczne rozkłady statystyk z próby

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Testowanie hipotez statystycznych

Metody Statystyczne. Metody Statystyczne.

Transkrypt:

Komputerowa analiza danych doświadczalnych Wykład 5.05.07 dr inż. Łukasz Graczykowski lgraczyk@if.pw.edu.pl Semestr letni 06/07

Jednoczesna estymacja kilku parametrów - przykład Weryfikacja hipotez statystycznych Test F-Fischera Test t-studenta Test χ

Jednoczesna estymacja kilku parametrów - przykład

Jednoczesna estymacja kilku parametrów Przykład: badamy zasięg cząstek α w materii powstałych w wyniku rozpadu promieniotwórczego. Zasięg podlega rozkładowi normalnemu wokół wartości średniej Innymi słowy, w wyniku eksperymentu mamy próbę losową o liczebności N z rozkładu normalnego Funkcja wiarygodności w tym przypadku: N L= j= Układ równań wiarygodności: Rozwiązanie: KADD 07, Wykład λ π exp ( ( X j) λ ) λ l=ln L= j= l λ = j= N ( X ( j) λ ) N X ( j) λ =0 λ N ~ λ = N j= λ N ln λ const N l = λ 3 λ j= X ( j) ~ λ = (x ( j) λ ) N λ =0 N j= ( X ( j) λ ) N 4 / 35

Jednoczesna estymacja kilku parametrów KADD 07, Wykład 5 / 35 Wyznaczamy macierz A, a następnie B i macierz C poprzez policzenie drugich pochodnych i w granicy N zastąpienie ich wartościami oczekiwanymi: l λ = N λ B=( N /~ λ 0 0 N / ~ λ ) l = X ( j) λ λ λ 3 λ =( ~ C=B λ / N 0 ) ~ 0 λ / N ( l λ = 3 (X j) λ ) 4 + N λ λ Elementy diagonalne macierzy C to odchylenia standardowe estymowanych parametrów A=( Elementy pozadiagonalne wynoszą 0, zatem brak jest korelacji między estymowanymi parametrami (l(λ ) l( ~ λ))=/(λ ~ λ ) T A(λ ~ λ )+ L=k exp ( /(λ ~ λ ) T B(λ ~ λ)) B=E( A), dla N,λ= ~ λ C=B l λ l λ λ l λ p λ l λ λ l λ l λ p λ l λ λ p l λ λ p ) l λ p

Weryfikacja hipotez statystycznych

KADD 07, Wykład 7 / 35 Weryfikacja hipotez statystycznych Podstawowe pojęcia: poziom istotności α określa prawdopodobieństwo popełnienia błędu I rodzaju (błąd polegający na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa). Zwykle maksymalne prawdopodobieństwo (odrzucenia) ustalamy na 0,0, 0,03 lub 0,05 poziom ufności p= α określa prawdopodobieństwo wyznaczenia takiego przedziału ufności, że rzeczywista wartość parametru znajduje się w tym przedziale ufności (czyli jak bardzo ufamy naszemu wynikowi). Jest prawdopodobieństwem dopełniającym poziom istotności χ =X = ( X a) +( X a) + +( X n a) W (χ )= F (χ ) p= α σ rozkład χ

Weryfikacja hipotez statystycznych KADD 07, Wykład 8 / 35 Co to jest i po co wykorzystujemy weryfikację hipotez statystycznych? wyznaczamy wartości parametrów, które nie są całkowicie nieznane mamy pewne przypuszczenia (przewidywania, hipotezę) co do ich wartości (np. z dotychczasowych badań czy z modeli teoretycznych) zadaniem próby losowej (naszego pomiaru) jest weryfikacja (test) tej hipotezy (naszych przypuszczeń) innymi słowy procedura weryfikacji hipotez statystycznych to test statystyczny Przykład: pobrano 0-elementową próbę, uzyskaliśmy średnią arytmetyczną (jest ona zmienną losową) X =0,54 Założenie (hipoteza): zmienna losowa X pochodzi z populacji opisanej rozkładem normalnym ze średnią 0 i odchyleniem / 0

Weryfikacja hipotez statystycznych KADD 07, Wykład 9 / 35 Przykład: pobrano 0-elementową próbę, uzyskaliśmy średnią arytmetyczną (jest ona zmienną losową) X =0,54 Założenie (hipoteza): zmienna losowa X pochodzi z populacji opisanej std. rozkładem normalnym ze średnią 0 i odchyleniem Jakie jest prawdopodobieństwo zaobserwowania wartości X 0,54? Można skorzystać z tabel dystrybuanty rozkładu normalnego oraz wprowadzonego kilka wykładów wcześniej wzoru: P( X a n σ)= Φ 0 ( nb b ) = Φ 0(n) / 0 Wtedy: P( X 0.54)={ Φ 0 (0.54 0)}=0.6 Czyli, jeżeli hipoteza jest prawdziwa, istnieje prawdopodobieństwo 6%, że próba o liczebności 0 może mieć wartość średnią różniącą się więcej niż o 0,54 od wartości średniej 0 z populacji Hipoteza jest prawdziwa czy nie? Tak nie odpowiemy na to pytanie Źródłem trudności jest probabilistyczny charakter wyników (próby)

Weryfikacja hipotez statystycznych KADD 07, Wykład 0 / 35 Źródłem trudności jest probabilistyczny charakter wyników (próby) Postępujemy zatem inaczej: przed przystąpieniem do analizy pobranej próby ustalamy określoną wartość prawdopodobieństwa α mastępnie, zakładając, że hipoteza jest prawdziwa, pytamy czy prawdopodobieństwo zaobserwowania określonych wartości próby jest mniejsze niż α? W naszym przykładzie: P( X 0.54)<α? nierówność spełniona jest mało prawdopodobne, aby próba pochodziła z rozkładu określonego przez testowaną hipotezę możemy ją odrzucić nierówność niespełniona omawiane prawdopodobieństwo przewyższa wartość α nie ma podstaw do odrzucenia hipotezy na zadanym poziomie ufności (to nie znaczy, że hipoteza na pewno jest prawdziwa! Hipoteza nie jest sprzeczna z wynikiem uzyskanym w skutek pobrania próby)

Weryfikacja hipotez statystycznych KADD 07, Wykład / 35 Jak dobrać wartość prawdopodobieństwa (posiom istotności) α? Wszystko zależy od rozpatrywanego problemu (wybór jest subiektywny): przy kontroli jakości ołówków wystarczy % (0,0) w firmach ubezpieczeniowych może to być wartość za duża w analizie danych empirycznych najczęściej przyjmuje się 5%, % lub 0,% W naszym przykładzie na podstawie tablic dystrybuanty rozkładu normalnego można okreslić granice X odpowiadające wyżej wymienionym poziomom istotności: α=0,05= { Φ 0 (,96)}={ Φ 0 (0,6 0)} α=0.0= { Φ 0 (,58)}={ Φ 0 (0,8 0)} α=0.00={ Φ 0 (3,9)}={ Φ 0 (,04 0)} Do odrzucenia hipotezy wymagane jest, aby wartość X przekraczała 0,6, 0,8,,04 dla powyższych poziomów istotności

Weryfikacja hipotez statystycznych W niektórych przypadkach ważny jest również znak rozpatrywanej wielkości X W wielu procesach produkcji odstępstwa w jedną lub drugą stronę od założonych w projekcie parametrów wyrobu mogą powodować różne skutki. Na przykład piekarz produkujące zbyt duże bochenki zmniejsza swój zysk, natomiast produkując zbyt małe może narazić się na kary. Możemy zatem testować odchylenia w jednym kieurnku i zapytać, czy spełniony jest warunek: P( X x α ' )<α Jest to tzw. test jednostrony, w przeciwieństwie do testu dwustronnego KADD 07, Wykład / X α / X X ' / 35

Weryfikacja hipotez statystycznych KADD 07, Wykład 3 / 35 Jak dobrać wartość prawdopodobieństwa (posiom istotności) α? Wszystko zależy od rozpatrywanego problemu (wybór jest subiektywny): przy kontroli jakości ołówków wystarczy % (0,0) w firmach ubezpieczeniowych może to być wartość za duża w analizie danych empirycznych najczęściej przyjmuje się 5%, % lub 0,% W naszym przykładzie na podstawie tablic dystrybuanty rozkładu normalnego można okreslić granice X odpowiadające wyżej wymienionym poziomom istotności: α=0,05= { Φ 0 (,96)}={ Φ 0 (0,6 0)} α=0.0= { Φ 0 (,58)}={ Φ 0 (0,8 0)} α=0.00={ Φ 0 (3,9)}={ Φ 0 (,04 0)} Do odrzucenia hipotezy wymagane jest, aby wartość X przekraczała 0,6, 0,8,,04 dla powyższych poziomów istotności

Weryfikacja hipotez statystycznych KADD 07, Wykład 4 / 35 W ogólnym przypadku weryfikację możemy przeprowadzać na podstawie innych wielkości niż wartość średnia Postępujemy najpierw w sposób następujący: definiujemy funkcję próby najwygodniejszą dla prowadzenia testu, nazywamy ją statystyką T ustalamy poziom istotności α i wyznaczamy taki podzbiór U z obszarami zmienności T, tak aby: P H (T U )=α wskaźnik H oznacza, że prawdopodobieństwo to obliczane jest przy założeniu, że hipoteza H jest prawdziwa następnie pobieramy próbę i określamy wartość statystyki testowej T' jeżeli T' znajduje się wewnątrz obszaru krytycznego U, to hipotezę H można odrzucić Przedyskutujemy teraz kilka specyficznych testów

Test równości wariancji (test F-Fischera)

Test równości wariancji (F-Fischera) KADD 07, Wykład 6 / 35 Częsty problem: porównywanie wariancji populacji o jednakowych wartościach średnich Przykład: pomiar tej samej wielkości dwoma przyrządami pomiarowymi (zakładamy brak niepewności systematycznych typu B) Pytanie (hipoteza): czy pomiary będą miały jednakowe wariancje (czy dokładność pomiaru jest jednakowa dla obu przyrządów)? Załóżmy, że rozważane populacje mają rozkład normalny Pobieramy próby o liczebności N i N Dla każdej z pobranych prób wyznaczamy wariancję i liczymy iloraz F=s / s s (X )= N N i= ( X i X ) s ( X )= Jeśli hipoteza o równości wariancji jest prawdziwa, to iloraz F powinien być bliski jedności F N N (N ) i= ( X i X ) =s (X )/ N

Test równości wariancji (F-Fischera) KADD 07, Wykład 7 / 35 Jak pamiętamy, dla każdej próby losowej możemy również skonstruować statystykę o rozkładzie χ : χ = (N )s = f s χ = (N )s = f s σ σ σ σ f =N ; f =N - liczba stopni swobody Przy równych wariancjach iloraz F: F= f χ f χ Jak już wiemy, gęstość prawdopodobieństwa rozkładu χ o liczbie stopni swobody f dana jest wzorem: f (χ )=k (χ ) λ e / χ f (χ )= Możemy obliczyć prawdopodobieństwo W że wartość ilorazu χ /χ jest mniejsza niż pewna wartość Q: Γ ( f ) (χ ) (f ) e χ f W (Q)=P( χ χ <Q ) = Γ ( f ) Q Γ ( f ) Γ ( f ) 0 t f (t +) f df f =f +f

Test równości wariancji (F-Fischera) KADD 07, Wykład 8 / 35 Jeśli teraz wrócimy do ilorazu F, możemy go zapisać jako: F= f f Q Prawdopodobieństwo W zaś przyjmie postać: W (F)=P( s s < F ) Ta forma jest tzw. dystrybuantą rozkładu F-Fischera Rozkład F-Fischera dany jest następującym wzorem: f (F)=( f ) f f Γ ( (f +f ) ) Γ ( f ) Γ ( f ) F f ( + f f F) (f +f )

Test równości wariancji (F-Fischera) KADD 07, Wykład 9 / 35 f =5 f = 4 f =0 6 8 0 4 6 8 0 f =5 f =0

Test równości wariancji (F-Fischera) KADD 07, Wykład 0 / 35 Rozkład przypomina kształtem rozkład χ, jest różny od 0 jedynie dla dodatnich wartości F, ponadto jest asymetryczny i szybko malejący z rosnącym F Można udowodnić, że wartość oczekiwana dla : Szukamy teraz takiej granicznej wartości prawdopodobieństwa: P( s s > F ) ' α =α Wielkość ' to kwantyl ' F α F α rozkładu F: =F α P( s f > E(F)= f f s < F α Jeżeli przy weryfikacji hipotezy uzyskamy wartość wariancji wyższą ' niż F α =F α, to mówimy wówczas, że hipoteza σ >σ jest prawdziwa z poziomem istotności (na poziomie istotności) α F α ' =F α Wartości rozkładu F-Fischera są stabelaryzowane Pokazany wyżej test jest testem jednostronnym, możemy też zastosować test dwustronny ' ) =P ( s s < F α) = α

Test równości wariancji (F-Fischera) KADD 07, Wykład / 35 W teście dwustronnym sprawdzamy wartości graniczne: P( S S >F α )) ' ' (f, f P ( S = S <F α α ' ' ' (f, f )) =P ( S )) S > F ' ' α(f, f = α Relacja ta pozwala na psługiwanie się stabelaryzowanymi wartościami w obydwu przypadkach (dla testów jedno i dwustronnych) Dla wszystkich rozsądnych (zwykle używanych) wartości α spełniony jest warunek: F α/ > Czyli w praktyce musimy zweryfikować jedynie hipotezę: Indeksy g i k oznaczają większą i mniejszą wariancję z próby, czyli: s g > s k Jeżeli nierówność jest spełniona, to hipotezę o równości wariancji można odrzucić s g s k >F α/ (f g,f k )

KADD 07, Wykład / 35 Test równości wariancji przykład Numer pomiaru Przyrząd Przyrząd 00 97 0, 0,04 -,86 8,6 0 0,,44,4,3 3 0 0, 4,84,4 4,59 4 00 99 0, 0,04-0,86 0,73 5 98 0 -,8 3,4,4,3 6 97 98 -,8 7,84 -,86 3,45 7 00 0 0, 0,04,4,3 8 0,,44 9 99-0,8 0,64 0 00 0, 0,04 Średnia 99,8 99,86 Stopnie swobody 9 6 S^ 9,6 0,86 S^/f,8 3,48 F,6 Korzystamy z kwantyli funkcji F ' ' F 0, ' ' F 0, ' ' F 0,0 ' ' F 0,0 (6,9)=F 0,9 (6,9)=.5 (6,9)=F 0,95 (6, 9)=3.9 (6,9)=F 0,99 (6,9)=5.6 (6,9)=F 0,995 (6,9)=6.89.6<3.9 nie ma podstaw do odrzucenia hipotezy na poziomie istotności 0% Poziom istotności

Porównanie wartości średnich (test t-studenta)

KADD 07, Wykład Test t-studenta 4 / 35 Mamy zmienną losową X o rozkładzie normalnym. Pobieramy próbę losową o liczebności N i wartości średniej X Wariancja wartości średniej: Dla dostatecznie dużych prób wartość średnia z próby (na mocy centralnego twierdzenia granicznego) ma rozkład normalny y= X ^x σ( X ) σ ( X )=σ ( X )/ N Zmienna ma standardowy rozkład normalny Na ogół nie znamy jednak odchylenia standardowego Posługujemy się estymatorem wariancji: s X = N N ( X j ^x) s X = j= (x N (N ) j x) j= σ ( X ) Pytanie: jak bardzo będziemy odbiegać od rozkładu Gaussa, jeżeli we wzorze na y zastąpimy odchylenie estymatorem? Dla uproszczenia, przyjmiemy, że ^x=0 (każdy rozkład Gaussa możemy przesunąć o wartość średnią) N ( ^x,σ( X ))

KADD 07, Wykład Test t-studenta 5 / 35 Rozpatrzmy zmienną losową T zdefiniowaną następująco: T = X / s X= X N /S X Wielkość ( N ) s ma rozkład χ X = fs X o liczbie stopni swobody f =N Wzór na zmienną T zmieni się nam zatem następująco: T = X / s X= X N f /χ Dystrybuanta zmiennej T będzie określona wzorem: F (t)=p (T <t)=p ( X N f χ <t)= Γ ( ( f +) ) Γ ( f ) π f t ( t ) + ( f +) dt f A odpowiadająca jej funkcja gęstości, nosząca nazwę rozkładu t- Studenta: f (t)= Γ ( ( f +) ) Γ ( f ) π f (+ t f ) ( f +)

KADD 07, Wykład Rozkład t-studenta 6 / 35 f= 3 4 5 6 7 8 9 0 Jak widać, rozkład t- Studenta jest symetryczny względem 0 Rozkład dąży do rozkładu Gaussa gdy f Z symetrii względem 0 mamy związek (analogicznie jak dla Gaussa): P ( t t)= F ( t ) ' Możemy wyznaczyć graniczne wartości ±t α odpowiadające poziomowi istotności α poprzez całkę: t ' α 0 f (t)dt= ( α), gdzie t ' α=t α t ' α =t Kwantyle są stablicowane dla różnych poziomów istotności α α oraz liczby stopni swobody f Jest to dwustronny test t-studenta (jednostronny analogicznie)

KADD 07, Wykład Zastosowanie testu t-studenta 7 / 35 Hipoteza: zakładamy, że nasza populacja przewiduje wartość oczekiwaną z populacji mającej rozkład normalny równą λ 0 Pobieramy próbę o liczebności N i wyznaczamy wartość średnią oraz wariancję s X Jeżeli przy założonym poziomie istotności α zachodzi nierówność: t = X λ 0 N s X >t α ' =t α Wtedy odrzucamy naszą hipotezę W przypadku testu jednostronnego X t= ( X±λ 0 ) N s X ' >t α =t α

KADD 07, Wykład Zastosowanie testu t-studenta 8 / 35 Powyższe rozważania możemy uogólnić na porównanie wartości średnich dwóch prób losowych z populacji X oraz Y o liczebnościach N i N Hipoteza: równość wartości średnich z obu populacji: Zakładamy (z centralnego twierdzenia granicznego), że wartości średnie z prób mają rozkład normalny z wariancjami: σ ( X )=σ ( X )/ N, σ (Ȳ )=σ (Y )/ N Wariancje są estymowane przez estymatory: s X = N ( X X ) sȳ = N (Y Ȳ ) N (N ) j= N (N ) j= Różnica wartości średnich z próby również ma rozkład zbliżony do normalnego: Δ= X Ȳ σ (Δ)=σ ( X)+σ (Ȳ ) Jeśli hipoteza jest prawdziwa, wówczas oczywiste jest, że oraz iloraz Δ /σ(δ) powinien podlegać rozkładowi Gaussa Tak postawiona hipoteza cicho zakłada, że X i Y to te same populacje ^x= ^y ^Δ=0

Test różnic t-studenta Tak postawiona hipoteza cicho zakłada, że X i Y to te same populacje Skoro tak, to oczywiście σ (X )=σ (Y ), zatem można je estymować za pomocą jednego estymatora jako średnią ważoną z dwóch prób: s = (N )s X +(N )s Y (N )+(N ) Wtedy możemy zdefiniować estymatory: s X =s / N, sȳ =s / N, s Δ =s X + sȳ = N +N s N N Można udowodnić, że zmienna Δ /s(δ) podlega rozkładowi t-studenta z liczbą stopni swobody f =N + N Równość wartości średnich można więc weryfikować posługując się testem różnic Studenta Δ /s(δ) obliczana jest na podstawie wyników dwóch prób. Jej wartość bezwzględną porównujemy z kwantylem rozkładu Studenta o liczbie stopni swobody f dla ustalonego poziomu istotności α. Sprawdzamy nierówność (spełniona odrzucamy hipotezę): KADD 07, Wykład t = Δ s Δ = X Ȳ S Δ >t ' α =t α 9 / 35

KADD 07, Wykład 30 / 35 Test różnic t-studenta - przykład Numer pomiaru Przyrząd Przyrząd 00 97-0, 0,04-3,8 4,44 0 0 0,79 0,6 0, 0,04 3 0 0,79 3,,,44 4 00 99-0, 0,04 -,8 3,4 5 98 0 -, 4,89 0, 0,04 6 97 08-3, 0,3 7, 5,84 7 00 0-0, 0,04 0, 0,04 8 0 0 0,79 0,6,,44 9 99 96 -,,47-4,8 3,04 0 00 0-0, 0,04 0, 0,04 98 -, 4,89 0 0,79 0,6 3 00-0, 0,04 4 0,79 3, 5 03,79 7,78 6 0 0,79 0,6 7 99 -,,47 8 00-0, 0,04 9 0,79 3, Ilość pomiarów 9 0 Średnia 00, 00,8-0,59 Stopnie swobody 8 9 S^ 43,6 95,6 S^/f,4 0,6 S^ 49, S^ Delta 8,8 Mamy kwantyle: ' t 0, 7 =t 0,9 7 =.7 ' t 0, 7 =t 0,95 7 =,05 7 =t 0,99 7 =,77 ' t 0,0 ' t 0,0 7 =t 0,995 7 =3,05 7 =t 0,998 7 =3,43 ' t 0,004 ' t 0,00 7 =t 0,999 7 =3,69 Hipotezy nie można odrzucić

Test dobroci χ dopasowania

KADD 07, Wykład Test χ dobroci dopasowania 3 / 35 Mamy N pomiarów gi, i=,,, N oraz ich niepewności σ i Wartość gi jest wynikiem pomiaru wielkości prawdziwej (lecz nieznanej) h i, spełniony jest zatem warunek: Wielkość ϵ i jest zmienną losową o rozkładzie normalnym o wartości średniej równej 0 i odchyleniu standardowym równym Weryfikujemy hipotezę taką, że: Tym samym rozkład χ o N stopniach swobody będzie miała wielkość: N T= i= N u i = i= ( g i f i ) σ i h i =f i, i=,,..., N u i = g i f i σ i g i =h i +ϵ i, i=,,..., N, i=,,..., N Gdy hipoteza jest fałszywa, wówczas poszczególne różnice wielkości mierzonych g i oraz wielkości f i (których dotyczy nasza hipoteza), dzielone przez niepewności przyjmują duże wartości Hipotezę odrzucamy, gdy dla danego α jest spełnione: σ i σ i mają rozkład standardowy normalny T >χ α

KADD 07, Wykład Liczba stopni swobody 33 / 35 Często zarówno pomiary gi, wartości prawdziwe h i, jak i nasza hipoteza f i wiążąca h i z g i, są funkcjami zmiennej kontrolnej t, której wartośći znamy dokładnie: g i =g i (t i ), h i =h i (t i ), f i =f i (t i ) Prosta hipoteza mówi, że jest liniowa zależność: f (t)=h(t )=at+b Czyli mamy jakąś teorię, która mówi np. jak jakaś wielkość fizyczna zmienia się dajmy na to w czasie Często hipoteza (nasza teoria) określa wartości parametrów a i b i wtedy nasz problem ma N stopni swobody (wyniki pomiaru), jednak gdy parametry nie są znane, jedynym założeniem jest liniowość h(t) W takim przypadku każdy nieznany parametr, który estymujemy na podstawie pomiarów obniża liczbę stopni swobody o Tworzymy więc estymatory parametrów a i b będące funkcjami pomiarów g i oraz ich niepewności σ i, wtedy nasza hipoteza przyjmuje postać: h i =h(t i )=f i = ~ a t i + ~ b i liczba stopni swobody wynosi N- (w praktyce mamy równania więzów między wielkościami u i )

Test χ i doświadczalny rozkład częstości KADD 07, Wykład 34 / 35 Każdy ciągły rozkład prawdopodobieństwa f(x) można zamienić na dyskretny poprzez podział zakresu zmienności zmiennej losowej X na r przedziałów: Całkując f(x) w przedziałach otrzymujemy prawdopodobieńśtwo zaobserwowania zmiennej X w danym przedziale (binie) p i : p i =P(x ξ i )= ξ i Z pobranej próby o liczebności n oznaczamy przez ni elementy leżące w przedziale ξ, ξ,, ξ i,,ξ r f (x)dx ; i= Oczywiście zachodzi relacja: Hipoteza: zakładamy, że dla dużych wartości liczb ni ich wariancja równa się n i (patrz dyskusja o rozkładzie Poissona) i że rozkład wielkości u i : dąży do rozkładu Gaussa ξ i u i = (n i n p i ) n i r p i = r n= i= n i, lub u i = (n i n p i ) np i n i =np i

KADD 07, Wykład 35 / 35 Test χ i doświadczalny rozkład częstości Obliczamy teraz sumę kwadratów: Na podstawie naszej hipotezy oczekujemy, że suma kwadratów (statystyka X ) ma asymptotycznie rozkład χ Ponieważ zmienne ui są niezależne, więc liczba stopni swobody tego rozkładu równa się r- r χ =X = i= Oczywiście, jeżeli dodatkowo estymujemy p parametrów rozkładu na podstawie pomiarów, to liczba stopni swobody wynosi r--p Wartość X porównujemy, tak jak do tej pory, z kwantylami rozkładu χ dla zadanego poziomu istotności α. Jeśli nierówność jest spełniona odrzucamy hipotezę X >χ α u i

Test χ - przykład Numer binu n_i p_i n p_i (n_i np_i)^/np_i 8 0,649 9,0 0,0360 34 0,37 4,5 4,00 3 9 0,48 0, 0,078 4 0,0959 6,88,0065 5 6 0,080 4, 0,567 6 8 0,0669,77 3,97 7 0,0559 9,84 0,37 8 6 0,0467 8, 0,599 9 0 0,0390 6,86,438 0 4 0,036 5,74 0,56 3 0,073 4,8 0,6779 6 0,08 4,0 0,984 n=sum(n_i) 76 X^ 3,04 KADD 07, Wykład t 0,9 =7,74 t 0,95 =9,674 t 0,99 =4,76 t 0,995 =6,758 t 0,998 =9,354 t 0,999 =3,66 f t = Badamy stałą rozpadu promieniotwórczego. e t / t = τ e t / τ =τ Estymatorem τ jest wartość średnia t Porównując kwantyle χ widać, że nawet dla α=0. nie możemy odrzucić hipotezy 0 x max p = i x min τ e t / τ 36 / 35

KONIEC