LEKCJA 3 ostatnia lekcja statystyki :) (część 1/3)



Podobne dokumenty
Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Zadania ze statystyki cz.8. Zadanie 1.

Wykład 3 Hipotezy statystyczne

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Statystyka matematyczna dla leśników

166 Wstęp do statystyki matematycznej

Metody Statystyczne. Metody Statystyczne

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Analiza wariancji. dr Janusz Górczyński

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Weryfikacja hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka i Analiza Danych

Testowanie hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Statystyka matematyczna i ekonometria

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

PDF created with FinePrint pdffactory Pro trial version

Statystyka Matematyczna Anna Janicka

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Testowanie hipotez statystycznych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Weryfikacja hipotez statystycznych

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Weryfikacja hipotez statystycznych

TABELKA ANOVA (jednoczynnikowa)

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Kolokwium ze statystyki matematycznej

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Analiza wariancji i kowariancji

Statystyka matematyczna i ekonometria

WNIOSKOWANIE STATYSTYCZNE

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

LEKCJA 3 ostatnia lekcja statystyki :) (część 2/3)

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Przykład 1. (A. Łomnicki)

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Testowanie hipotez statystycznych

Matematyka i statystyka matematyczna dla rolników w SGGW

LEKCJA 3 ostatnia lekcja statystyki :) (część 3/3 ostatnia :) )

Elementy statystyki STA - Wykład 5

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Analizy wariancji ANOVA (analysis of variance)

Testy nieparametryczne

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Rozkłady statystyk z próby

Testowanie hipotez statystycznych. Wprowadzenie

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Statystyka matematyczna

Test lewostronny dla hipotezy zerowej:

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Ekonometria. Zajęcia

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Testowanie hipotez statystycznych cd.

Prawdopodobieństwo i rozkład normalny cd.

STATYSTYKA

Testowanie hipotez statystycznych.

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

laboratoria 24 zaliczenie z oceną

Może faktycznie ceny na Opolszczyźnie są wyższe niż w Polsce. Ceny na Opolszczyźnie są podobne, a akurat trafiliśmy na próbę droższych piekarni.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Transkrypt:

LEKCJA 3 ostatnia lekcja statystyki :) (część 1/3) Gdy umiemy już (z grubsza) wszystkie wykresy i wzory z poprzednich lekcji, możemy przystąpić do ostatniej lekcji nauczyć się testów (kiedy jaki się stosuje), założeń testów, hipotez zerowych i... tego co to jest estymator łączny ;). Do dzieła! :) Testy i zagadnienia poukładane są w porządku losowym, ponieważ tutaj nie ma jasnego klucza według którego mogą być dobrane pytania. Na początek jednak coś innego: ESTYMATOR ŁĄCZNY Wiele osób o to pytało :) Jeśli chodzi o estymator łączny, to: - po pierwsze pamiętamy, że jest to dół wzoru Fishera Estymator łączny (wariancja wewnątrzgrupowa) powinna być jak najmniejsza. W statystyce przyjmuje się, że jest ona miarą błędu, natomiast wariancja międzygrupowa jest miarą tego, jaki efekt dały zabiegi, które robiliśmy. Jednym z założeń analizy wariancji jest to, że wariancja wewnątrz grup ma być homogeniczna (taka sama). W rzeczywistości trudno to spełnić, ale się staramy. Obrazując: Jeśli mamy 5 grup dzieci i chcemy zbadać, jak dzieci tyją: - pierwszą grupę karmimy ryżem - drugą czekoladą - trzecią kamieniami - czwartą pierożkami - a piątej wcale Teraz w naszym eksperymencie chcemy wykazać, na jakiej diecie dzieci tyją najszybciej. Musimy więc mieć 5 identycznych grup dzieci. Czyli nie może być w jednej grupie 10 grubasów, a w drugiej same niejadki. Wszędzie mają być takie same dzieci - to oznacza homogeniczność wariancji wewnątrzgrupowych. Im bardziej homogeniczne te wariancje, tym lepiej i tym mniejszy błąd. Z punktu widzenia naukowego, estymator łączny to "średnia ważona wariancji, gdzie wagą są stopnie swobody" :). Szczerze mówiąc jest to po prostu przeczytany wzór, ale jeśli nauczycie się tej definicji, na pewno powinna starczyć CZĘŚĆ 1 ZAŁOŻENIA TESTÓW Każdy test ma swoją nazwę i tak samo każdy test ma swoje założenia na szczęście główne założenia są takie same, więc łatwiej będzie się ich nauczyć. Zacznijmy jednak od początku po co nam test? Testy statystyczne służą do badania tego, czy istnieje istotność statystyczna naszych badań czy wynik, który osiągnęliśmy jest ważny, czy przypadkowy. Czy to, że nasza klasa ma średnie IQ=104 a populacja = 100 to coś oznacza, czy nie? Czy dzieci nagradzane lepiej rozwiązują zadania, czy nie? Itd. W teorii do każdego z takich pytań można przeprowadzić eksperyment, zapisać sobie wyniki i policzyć test. Robi się to według wzorów, które zostały opisane w poprzedniej lekcji :) I teraz gdy podstawimy już wszystkie dane do wzoru i uzyskamy jakiś wynik przykładowo t=1,24 co to nam daje? Do tego momentu jeszcze nic gdy mamy już wynik, odnajdujemy w odpowiednich tablicach właściwą wartość krytyczną (na egzaminie nie trzeba tego robić) i porównujemy tę wartość z 1 / 5

naszym wynikiem. Załóżmy, że nasze t=1,24 natomiast t z tablic (wartość krytyczna)=1,01 1=1,24 > t kr =1,01 W takiej sytuacji, gdy nasz wynik testu jest większy, oznacza to, że test był istotny statystycznie, a więc, że całych wieloletnich badań nie robiliśmy bez sensu ;). Czyli jest istotna różnica przy nagradzaniu dzieci, kurczaczki są bardziej żółte od innych kurczaczków, itd. Wszystko się udało :) Gdyby jednak w tablicach wartości krytycznych udało nam się odczytać tkr=2,08 mielibyśmy taką sytuację: t=1,24 < t kr =2,08 W takiej sytuacji oznaczałoby to, że nasz test (badania) nie są istotne statystycznie, czyli nic nie wykazaliśmy. Gdyby nasze t wyszło ujemne np. t = -1,2 wtedy do testu używamy jego wartości bezwzględnej (czyli po prostu kasujemy minus). Fachowo zapisuje się tak: t > t kr lub t > t α,df Ten zabieg porównywanie naszego wyniku testu z wartością krytyczną znalezioną w tablicach nazywa się kryterium decyzyjnym. Jeśli zostaniecie zapytani o kryterium decyzyjne każdego testu t-studenta (dla jednej próby, dla grup zależnych, niezależnych), F-Fishera, albo Chi kwadrat, wystarczy powiedzieć, że jeśli wynik naszego testu jest większy od wartości krytycznej, wtedy test jest istotny statystycznie. Nie ma w tym większej filozofii, chociaż nieźle się nazywa ;) Kolejna sprawa to jedno z podstawowych założeń, które powtarza się w każdym teście. Zapytani o założenia na początku zawsze możemy powiedzieć: Co to oznacza? Poziom istotności alfa określamy (zakładamy) subiektywnie W tym wypadku chodzi o to, jak istotne są nasze badania na przykład: Jeśli założymy sobie poziom alfa = 0,05, przeprowadzimy nasz test i okaże się, że test wyszedł, wtedy mówi nam to o tym, że istnieje mniej niż 5% (bo 0,05 to inaczej 5%) szans na to, że nasze badania były przypadkowe. Gdybyśmy założyli sobie poziom istotności alfa = 0,01, wtedy istniałoby mniej niż 1% szansy na to, że nasz wynik jest przypadkowy. I tak w nieskończoność. Moglibyśmy założyć sobie nawet alfa = 0,178 (czyli byłoby mniej niż 17,8% szansy na to, że wynik jest przypadkowy), tylko byłoby to bez sensu ;). Jednym słowem wymyślamy sobie jakąś alfę i to pierwsze założenie. Dodatkowo możesz powiedzieć, że w psychologii najczęściej używa się alfa=0,05 albo 0,01. Dlaczego wszystkim badaniom nie daje się poziomu istotności alfa=0,01? Bo nie ;). A tak na serio im mniejszą wartość ma alfa, tym trudniej przeprowadzić test, bo wartość krytyczna rośnie. W praktyce możemy sobie najpierw założyć poziom istotności alfa 0,05, a gdy się okaże, że nasz wynik wyszedł super-duży, wtedy możemy sprawdzić wartość w tablicach i zmienić sobie alfę na 0,01, albo jeszcze mniej. Ale to tak na marginesie. Podsumowując: Poziom istotności zakładamy subiektywnie :) 2 / 5

Hipoteza zerowa/hipoteza alternatywna? Częstym pytaniem jest pytanie o hipotezę zerową i alternatywną. Jeśli chwilowo nie pamiętamy, co to i po co nam to, to mamy dobrą okazję aby to powtórzyć :) W życiu możemy postawić sobie dowolną teorię wymyślić hipotezę i z dumą ją udowodnić znajdując mnóstwo faktów. W ten sposób powstało wiele teorii spiskowych (nic do nich nie mam, to tylko taki przykład). A teraz mała bajka: Wyobraźmy sobie, że zakładamy, iż światem rządzą Smurfy. A potem szukamy i znajdujemy w internecie (i na Wikipedii ;) ) dużo faktów, które za tym przemawiają. Okazuje się, że prezes Banku Światowego ma breloczek z Papą Smurfem, a prezydent jakiegoś kraju czytał swoim dzieciom bajkę o Smurfach. Szukamy dalej i znajdujemy mnóstwo innych newsów, okazuje się, że Smurfy są najczęściej emitowaną dobranocką na świecie, że są w godzinach najlepszej oglądalności itd. Mijają kolejne dni i całkiem zaczynamy w to wierzyć zupełnie bezkrytycznie. I tak dalej. Mimo tego, że nasz pomysł był totalnie od czapy, zaczyna być dla nas wiarygodny. To właśnie przykład czegoś, czego nie wolno robić w nauce i właśnie po to wymyślono w metodologii hipotezę zerową. Hipoteza zerowa zakłada (zawsze!) brak wpływu, brak różnic itd. W powyższym przykładzie hipoteza zerowa byłaby taka, że świata nie kontrolują Smurfy. Zgodnie z metodologią badań, powinniśmy postawić hipotezę zerową i znajdywać istotne statystycznie dane, które mogły by ją sfalsyfikować (czyli odrzucić) :). Hipoteza alternatywna to coś przeciwnego, co przyjmiemy po obaleniu hipotezy zerowej. Dla badania, czy świat kontrolują Smurfy hipotezy wyglądałyby następująco: H 0 : Świat nie jest kontrolowany przez Smurfy H 1 : Świat jest kontrolowany przez Smurfy Podczas wnioskowania statystycznego możemy popełnić 2 poważne błędy (i trzeci mało istotny, który na końcu podam jako ciekawostkę): Błąd pierwszego rodzaju (alfa): Polega na odrzuceniu hipotezy zerowej, gdy tak naprawdę jest ona prawdziwa. Czyli gdy tak strasznie nam się spieszy do hipotezy alternatywnej, że nie patrząc na dane odrzucamy H 0 Błąd drugiego rodzaju (beta): Jest odwrotny, czyli gdy przyjmujemy na przekór wszystkiemu H0. Jako ciekawostkę można dodać, że istnieje też błąd trzeciego rodzaju (gamma), który występuje gdy postawimy złą hipotezę kierunkową... Hipoteza kierunkowa/bezkierunkowa W statystyce używamy hipotez kierunkowych i bezkierunkowych. Hipotezy bezkierunkowe wyglądają np. tak: H 0 : Kolor włosów nie ma wpływu na tempo nauki H 1 : Kolor włosów ma wpływ na tempo nauki Gdybyśmy przeprowadzili test o takich hipotezach i udałoby nam się odrzucić H0, wtedy wynik po prostu mówiłby nam, że ktoś się uczy szybciej. Nie byłoby jednak wiadomo kto. 3 / 5

Profesjonalnie zapisuje się to tak: H 0 : μ 1 = μ 2 albo H 0 : μ 1 μ 2 = 0 H 1 : μ 1 μ 2 H 1 : μ 1 μ 2 0 Hipoteza kierunkowa ujawnia większy rąbek tajemnicy: H 0 : Żółte żółwie biegają równo lub szybciej niż zielone H 1 : Zielone żółwie biegają szybciej niż żółte Czyli mamy już zakreślony jakiś kierunek badań wiemy, że coś jest bardziej ;) W przypadku naukowym wyglądałoby to poważniej: H 0 : Nie ma istotnych statystycznie różnic w zapamiętywaniu książki telefonicznej przez pacjentów z chorobą Parkinsona H 1 : Pacjenci z chorobą Parkinsona zapamiętują książkę telefoniczną wolniej niż osoby zdrowe Profesjonalnie zapisuje się to tak: H 0 : μ 1 μ 2 albo H 0 : μ 1 μ 2 0 H 1 : μ 1 > μ 2 H 1 : μ 1 μ 2 > 0 Teraz zajmijmy się tym, co trzeba umieć dla każdego testu jeśli p.aranowska zapyta Cię np. jaka jest hipoteza zerowa dla testu r-pearsona albo jaka jest hipoteza zerowa dla testu t-studenta dla grup niezależnych z homogenicznymi wariancjami. Startujemy: Test t-studenta dla jednej populacji: Czytamy to tak: Hipoteza zerowa: nie ma istotnych statystycznie różnic między badaną próbą a populacją Hipoteza alternatywna: są różnice (znaczek ~ oznacza negację, tak jak w logice) Nie musisz się uczyć wszystkich tych zawijasów na pamięć. Wystarczy, że będziesz z grubsza wiedzieć, że H 0 oznacza brak różnic :) Test t-studenta dla dwóch prób niezależnych: Test t-studenta dla dwóch populacji niezależnych : wariancje homogeniczne: wariancje heterogeniczne: W tych wszystkich przypadkach H 0 znów wygląda tak: I czytamy to podobnie H 0 : nie ma różnic między próbami/populacjami 4 / 5

Test t-studenta dla dwóch prób zależnych: H 0 mówi nam o tym, że nie było istotnych różnic między wynikami badań w obu sytuacjach. Ten test służy do badania np. stresu u artystów przed i po występie. Hipoteza zerowa jak zawsze wskazuje na to, że nie było różnic, czyli że stres nie wpłynął na artystów :) Test Fishera (Anova, Analiza wariancji jednoczynnikowa): Hipoteza zerowa mówi nam tutaj o tym, że nie ma różnicy między wariancją międzygrupową i wewnątrzgrupową, czyli, że nie było wpływu naszego eksperymentu na żadną z grup (wszystkie badane grupy dzieci tyły w ten sam sposób ;) ). Hipoteza alternatywna wskazuje na to, że były różnice nasz eksperyment spowodował istotną statystycznie różnicę w którejś z grup. Test r-pearsona (Korelacja): Hipoteza zerowa mówi nam o braku związku między zmiennymi, które badaliśmy. Ten dziwny znaczek to grecka litera ro. W fizyce oznacza gęstość materiału, w statystyce to to samo co r- Pearsona (wzór w poprzedniej lekcji) :) Test Chi kwadrat: Hipoteza zerowa mówi nam o tym, że nie ma różnic pomiędzy tym co zaobserwowaliśmy, a tym czego oczekiwaliśmy. Np. jeśli oczekiwaliśmy, że zgodnie z prawdopodobieństwem przy 100 rzutach monetą wypadnie 50 orłów i 50 reszek, to... tyle wypadło :) 5 / 5