Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Podobne dokumenty
SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Statystyka matematyczna dla leśników

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Testowanie hipotez statystycznych

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Wykład 3 Hipotezy statystyczne

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Statystyka matematyczna i ekonometria

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Statystyka matematyczna i ekonometria

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Hipotezy statystyczne

Hipotezy statystyczne

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

166 Wstęp do statystyki matematycznej

Zadania ze statystyki, cz.6

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Testowanie hipotez statystycznych.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Kolokwium ze statystyki matematycznej

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wydział Matematyki. Testy zgodności. Wykład 03

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Prawdopodobieństwo i rozkład normalny cd.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Weryfikacja hipotez statystycznych testy t Studenta

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

WNIOSKOWANIE STATYSTYCZNE

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Testowanie hipotez statystycznych. Wprowadzenie

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Pobieranie prób i rozkład z próby

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Testowanie hipotez statystycznych.

Wykład 9 Wnioskowanie o średnich

Zawartość. Zawartość

Estymacja przedziałowa. Przedział ufności

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Weryfikacja hipotez statystycznych

Estymacja parametrów rozkładu cechy

Testowanie hipotez statystycznych cd.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Test lewostronny dla hipotezy zerowej:

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Wykład 8: Testy istotności

Testowanie hipotez statystycznych.

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyka matematyczna

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wnioskowanie statystyczne. Statystyka w 5

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Statystyka Matematyczna Anna Janicka

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Weryfikacja hipotez statystycznych

Może faktycznie ceny na Opolszczyźnie są wyższe niż w Polsce. Ceny na Opolszczyźnie są podobne, a akurat trafiliśmy na próbę droższych piekarni.

Transkrypt:

Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału ufności dla średniej, wtedy gdy: 1. Populacja, z której pobrano próby ma w przybliżeniu rozkład normalny 2. Rozmiar próby jest mały, tzn. n < 30 3. Odchylenie standardowe dla populacji jest nieznane 1

Rozkład t-studenta Rozkład t-studenta Zdefiniowany w roku 1908 przez W.S. Gosseta, pracownika browarów Guinnessa w Dublinie. Jest stosowany do badania małych próbek. Rozkład t-studenta zależy tylko od jednego parametru zwanego liczbą stopnii swobody, lub df (degree of freedom). Krzywa rozkładu T jest podobna do N(0,1), jest symetryczna, lecz bardziej spłaszczona. Dla dużej liczby stopni swobody jest nierozróżnialna od standaryzowanego rozkładu normalnego. N t Rozkład t-studenta Liczba stopni swobody () określa ile danych ze zbioru można zmienić bez zagrożenia zmianą wyznaczanego parametru. Przy obliczeniu wartości średniej: n 1 Rozkład T dla 7 elementowej próby, tzn. przy 6 stopniach swobody vs. N(0,1) 0.4 0.35 0.3 0.25 N(0,1) t dla = 6 Wartość oczekiwana rozkładu T: E( ) 0 a odchylenie standardowe: V ( ) /( 2) T T 0.2 0.15 0.1 0.05 0-4 -3-2 -1 0 1 2 3 4 Dla n=7: =7-1=6 odchylenie: 6 /(6 2) 1.225 2

Przedziały ufności dla małej próby Przedziałem ufności nazywamy taki przedział liczbowy, który z zadanym z góry prawdopodobieństwem (1-), pokrywa nieznaną wartość parametru t w populacji generalnej. Przedział ufności służy do estymacji (oszacowania) wartości średniej populacji. P(L t P) 1 gdzie L i P to wartości krytyczne (krańcowe) dla przedziału ufności; to poziom istotności. Na poziomie ufności (1-) wartość średniej dla populacji zawiera się w przedziale: t s s gdzie s n Wartość t odczytujemy z tablicy rozkładu T przy stopniach swobody i przy zadanym poziomie istotności. Tabela rozkładu t-studenta Tablice zmiennej losowej t-studenta (T ) o stopniach swobody są opracowane tak, że podają przy założonym poziomie istotności taką wartość krytyczną (t, ) zmiennej losowej T dla której zachodzi zależność: P ( T, t ) 2 t, 1 0 t, 2 Powierzchnia pod krzywą rozkładu T / 3

Rozkład t-studenta, przykłady Przykład: Dla 18 obserwacji wyznacz wartość krytyczną (t, ) zmiennej losowej na poziomie ufności 90%. / Poziom ufności: 90% =0.9=(1-) Poziom istotności: = 0.1 n = 18, = n 1 = 17 t 0.1,17 1.740 Rozkład t-studenta, przykłady Przykład: Jaka jest wartość zmiennej losowej t-studenta o 4 stopniach swobody, która spełnia warunek: P t ) 0.05? ( T 0.05, 4 / Liczba 2.776 spełnia warunek: P( T 4 2.776) 0.05 0.025 0.025 0 2.776 2.776 t 4

Rozkład t-studenta, przykłady Przykład: Dr Kowalski chciał oszacować średni poziom cholesterolu mieszkańców swojej miejscowości. Wykonał badanie na próbie 25 osób. Średni poziom cholesterolu w tej grupie wyniósł 186 z odchyleniem standardowym 12. Przy założeniu, że rozkład poziomu cholesterolu mieszkańców miejscowości jest rozkładem normalnym wyznaczyć 95% przedział ufności średniej zawartości cholesterolu dla wszystkich mieszkańców. Dane: n=25, =186, s=12, (1-)=0.95 = 25-1=24 = 0.05 t s? Rozkład t-studenta, przykłady Przykład, cd. Wartość t krytyczne z tablic: t 0.05,24 = 2.064 s s n 0.025 0.025 0 2.064 2.064 t 12 2.4 25 t 0.05,24 s 186 2.064 2.4 186 4.95 Z 95% zaufaniem można stwierdzić, że średni poziom cholesterolu mieszkańców miejscowości zawiera się w granicach: [181.05 190.95] W tym przypadku wartość średnia dla próby 186 punktowym wartości średniej badanej populacji. jest estymatorem 5

Testowanie hipotez Testy statystyczne W przypadku każdego testu statystycznego można popełnić dwa rodzaje błędów: Błąd pierwszego rodzaju odrzucenie prawdziwej hipotezy Błąd drugiego rodzaju przyjęcie hipotezy fałszywej Trzecia opcja nie istnieje! Podział testów: Parametryczne stosowanie ich wymaga przyjęcia założeń o postaci rozkładu testowanej zmiennej losowej oraz znajomości wybranych statystyk Nieparametryczne nie wymagają powyższych założeń, ale nie są tak mocne jak testy parametryczne 6

Hipotezy Weryfikacja hipotezy przebiega według pewnego schematu postępowania zwanego testem statystycznym. Weryfikując hipotezę parametryczną mówimy o teście parametrycznym, w innym przypadku testy nazywamy nieparametrycznymi. Testy na podstawie wyników z próby losowej pozwalają podjąć decyzję o przyjęciu bądź odrzuceniu postawionej hipotezy. Weryfikacja hipotez rozpoczyna się od postawienia i sprawdzenia tzw. hipotezy zerowej, H 0. Następnie formułuje się hipotezę konkurencyjną, którą przyjmuje się w przypadku odrzucenia hipotezy zerowej. Taką hipotezę nazywamy hipotezą alternatywną, H 1. Hipotezy Przykład W zarządzaniu jakością często stawiane jest pytanie: czy wartość określonej statystyki uzyskanej z próby losowej (szczególnie gdy próbka ma małą liczebność) pozwala sądzić, że odpowiada ona wartości wymaganej (spodziewanej) lub też czy poprawa uzyskana w wyniku działań doskanalających jest tylko pozorna (wynika z małej liczby pomiarów sprawdzających), czy jest poprawą rzeczywistą Odpowiedzi na tak stawiane pytania uzyskuje się w tzw. testach statystycznych. 7

Wnioskowanie statystyczne Wnioskowanie statystyczne sprowadza się do weryfikowania hipotez formułowanych na podstawie założonego modelu teoretycznego. Jednym z rodzajów takiego wnioskowania jest wnioskowanie oparte na przedziałach ufności. Przykład Interesuje nas populacja studentów I roku chemii i na podstawie pewnych przesłanek spodziewamy się, że średnia ocen z egzaminów w tej populacji wyniesie 0 = 3.18. W takim przypadku należy na podstawie wybranej próby sprawdzić czy rzeczywiście wartość średnia populacji jest równa 3.18. Przyjęcie hipotezy zerowej H 0 : = 3.18 oznacza, że =3.18 Można sformułować wiele hipotez alternatywnych, ale sens mają tylko trzy: H 1A : <3.18 H 1B : >3.18 H 1C : 3.18 Wnioskowanie statystyczne Poziom ufności (1-) jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej znajduje się wewnątrz przedziału ufności. Przedział ufności jest to przedział liczbowy, w którym z prawdopodobieństwem (1- ) znajduje się nieznana wartość zmiennej losowej. Poziom istotności () jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej nie znajduje się wewnątrz przedziału ufności. Wielkość parametru ustala statystyk. Jest to kluczowy parametr w statystyce matematycznej. 8

Wnioskowanie statystyczne Poziom ufności (1-) (1-)=0.9 pole niebieskiej powierzchni wynosi 0.9, czyli stanowi 90% całkowitej powierzchni pod krzywą rozkładu normalnego 0.45 0.45 Przedział ufności 1.28 0 1.28 z Poziom istotności =0.1 Suma niebieskich pól wynosi 0.1, czyli stanowi 10% całkowitej powierzchni pod krzywą rozkładu normalnego /2 = 0.05 /2 = 0.05 1.28 0 1.28 z Wnioskowanie statystyczne Hipoteza typu: < 0,lub > 0 nazywa się hipotezą jednostronną, a test związany z jej weryfikacją - testem jednostronnym. Analogicznie, testem dwustronnym nazywa się test użyty do weryfikowania hipotezy dwustronnej, tzn. hipotezy postaci: 0. Może się zdarzyć, że formułując hipotezę jednostronną test statystyczny da podstawy do jej przyjęcia (bo odrzucona zostanie H 0 ), natomiast nie będzie można przyjąć hipotezy alternatywnej w przypadku hipotezy dwustronnej. Przed przystąpieniem do testowania muszą być sformułowane obie hipotezy: zerowa i alternatywna. 9

Test dwustronny zacieniowany obszar wynosi /2 zacieniowany obszar wynosi /2 odrzucenia =3.18 przyjęcia odrzucenia C 1 C 2 wartości krytyczne Test lewostronny zacieniowany obszar wynosi odrzucenia =3.18 przyjęcia C Wartość krytyczna 10

Test prawostronny zacieniowany obszar wynosi =3.18 odrzucenia przyjęcia C Wartość krytyczna Testy Podsumowanie zależności między znakiem hipotezy zerowej H 0 i alternatywnej H 1, a obszarem wykluczenia Test dwustronny Test lewostronny Test prawostronny Znak dla hipotezy zerowej H = = lub = lub 0 Znak dla hipotezy alternatywnej H 1 < > wykluczenia Skrajne wartości z obu stron Skrajne wartości z lewej strony Skrajne wartości z prawej strony 11

Testowanie - etapy Etapy testowania statystycznego: 1.Definicja hipotezy zerowej i alternatywnej 2.Wybór typu rozkładu 3.Wyznaczenie obszarów odrzucenia 4.Obliczenie wartości statystyki testującej 5.Podjęcie decyzji Testowanie Przykład W roku akad. 2007/2008 student poświęcał dziennie średnio 12.44 minuty na sport. W roku 2008/2009, na podstawie ankiety przeprowadzonej na grupie 150 osób otrzymano, że średni czas przeznaczony na zajęcia sportowe wynosił 13.71 a odchylenie standardowe 2.65 min. Na poziomie ufności 95% sprawdzić czy średni czas poświęcony na sport w roku 2008/2009 jest różny od wartości z roku 2007/2008. Dane: Rozmiar próby n=150, średnia z próby 13.71 min odchylenie std dla próby s=2.65 min Etap 1. Definicja hipotezy zerowej i alternatywnej Hipoteza zerowa H 0 : = 12.44 tzn. średni czas przeznaczony na sport w roku 2007/2008 i 2008/2009 jest taki sam. Hipoteza alternatywna H 1 : 12.44, tzn. średni czas przeznaczony na sport w roku 2008/2009 jest różny od 12.44 min. 12

Testowanie Etap 2. Wybór typu rozkładu Ponieważ rozmiar próby n>30, to można założyć, że rozkład wartości średnich z próby podlega rozkładowi normalnemu. Etap 3. Wyznaczenie obszarów odrzucenia Założony 95% poziom ufności (czyli =0.05) oznacza, że całkowita powierzchnia do odrzucenia ze standaryzowanego rozkładu normalnego wynosi 0.05. Wybór hipotezy alternatywnej (znak ) oznacza, że tę powierzchnię dzielimy na dwie części z obu stron należy odrzucić powierzchnie o wartości /2 = 0.05/2 = 0.025. W celu znalezienia wartości krytycznej, rozdzielającej obszar odrzucenia od obszaru przyjęcia, korzystamy z tablic rozkładu normalnego i odczytujemy wartości z, które odpowiadają polu powierzchni o wartości 0.025 oraz 0.975 (=1-0.025). Testowanie 13

Testowanie Wartości krytyczne wynoszą 1.96 i -1.96. Jeżeli wartość leżywprzedziale ufności, to należy przyjąć hipotezę zerową H 0,w innym przypadku hipoteza ta powinna zostać odrzucona. W tym celu dla wartości. dla próby (wartość obserwowalna) należy obliczyć wartość z, nazywana statystyką testującą. Jeśli statystyka testująca leży w przedziale [-1.96 1.96] to hipoteza zerowa H 0 nie powinna być odrzucona. Testowanie Etap 4. Obliczenie statystyki testującej Dla dużej próby statystyka z dla wartości średniej z próby wyznaczana jest następująco: - z jeżeli jest znane gdzie - z s jeżeli jest nieznane / n i s s / n. Wartość z obliczona dla wartości nosi nazwę obserwowalnej wartości z. Ponieważ nie jest znane, wartość z obliczana jest na podstawie : s s n 2.65 150 0.2163 Wartość z wyznaczona na podstawie wartości statystyki testującej. - 13.7112.44 z 5.87 s 0.2163 nazywana jest obliczoną wartością 14

Testowanie Poziom istotności =0.05 /2=0.025 /2=0.025 0.475 0.475 odrzucenia H 0 =12.44 akceptacji 1.96 1.96 odrzucenia H 0 5.87 z wartości krytyczne Testowanie Etap 5. Podjęcie decyzji Ponieważ wartość z przekracza górne granice przedziału [-1.96 1.96], należy więc odrzucić hipotezę zerową. Oznacza to, że średni dzienny czas przeznaczony na sport w roku akad. 2008/2009 różni się od 12.44 min. Z 95% prawdopodobieństwem można stwierdzić, że w roku akad. 2008/2009 studenci w ciągu dnia nie przeznaczyli średnio na sport 12.44 min. Z 5% prawdopodobieństwem można stwierdzić, że w roku 2008/2009 studenci przeznaczyli na sport tyle samo czasu co w roku 2007/2008. 15