dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Podobne dokumenty
Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Badanie zależności skala nominalna

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Analiza danych jakościowych

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Wykład 3 Hipotezy statystyczne

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 8 Dane kategoryczne

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Statystyka w analizie i planowaniu eksperymentu

Statystyka matematyczna dla leśników

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Testowanie hipotez statystycznych.

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Wydział Matematyki. Testy zgodności. Wykład 03

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Statystyka matematyczna Test χ 2. Wrocław, r

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności.

Badanie zależności pomiędzy zmiennymi

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Testy nieparametryczne

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

TABELE WIELODZIELCZE

Wykład 11 Testowanie jednorodności

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Badanie normalności rozkładu

Analiza wariancji. dr Janusz Górczyński

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

1 Estymacja przedziałowa

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Analiza korespondencji

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Test t-studenta dla jednej średniej

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Metody Statystyczne. Metody Statystyczne

Korelacja krzywoliniowa i współzależność cech niemierzalnych

TABLICE PODSTAWOWYCH ROZKŁADÓW PRAWDOPODOBIEŃSTWA. T4. Tablica kwantyli rozkładu chi-kwadrat (I część - poziomy kwantyli 0,5)

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Zadania ze statystyki, cz.6

Ćwiczenie: Weryfikacja hipotez statystycznych dla jednej i dwóch średnich.

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Ćwiczenie: Test chi 2 i miary na nim oparte.

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

WNIOSKOWANIE STATYSTYCZNE

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Hipoteza: Dziewczynki częściej niż chłopcy mają sprecyzowane plany dotyczące dalszego kształcenia (dlaczego?)

Testy post-hoc. Wrocław, 6 czerwca 2016

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Zawartość. Zawartość

Statystyka matematyczna. Wykład VI. Zesty zgodności

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Wprowadzenie do analizy korelacji i regresji

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Elementarne metody statystyczne 9

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Metodologia badań psychologicznych. Wykład 12. Korelacje

Transkrypt:

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Cechy jakościowe są to cechy, których jednoznaczne i oczywiste scharakteryzowanie za pomocą liczb jest niemożliwe lub bardzo utrudnione.

nominalna porządek właściwie dowolny, np. forma spędzania wolnego czasu nominalna dychotomiczna: płeć osób kobieta, mężczyzna, stan zdrowia: chory, zdrowy porządkowa dokładniejsza, można przypisać rangi interwałowa (możemy przyporządkować poszczególnym obiektom wartość mierzoną w ściśle określonych jednostkach)

1. Tablice liczebności Wykształcenie Liczność Procent Liczność Skumulowana Procent Skumulowany Podstawowe 13 5,10 13 5,10 Zawodowe 111 43,53 124 48,63 Średnie 91 35,69 215 84,31 Pomaturalne 5 1,96 220 86,27 Wyższe 35 13,73 255 100,00

Tabele kontyngencji asocjacje

Konkluzja: CHYBA JEST!!! Asocjacja między dwiema zmiennymi nominalnymi istnieje, jeżeli rozkład jednej zmiennej ulega zmianie, gdy zmienia się poziom drugiej cechy (lub wartość ulega zmianie).

Konkluzja: Szef jest jak skała!!! Asocjacje nie występują, gdy rozkład pierwszej zmiennej nie zależy od rozkładu drugiej zmiennej!

Tabele liczebności H 0 : Rozkład badanej cechy jest zgodny z teoretycznym H 1 : Rozkład badanej cechy nie jest zgodny z teoretycznym Test 2 test zgodności (Liczebności rzeczywiste są zgodne z oczekiwanymi!) f o wartość otrzymana; f e wartość oczekiwana 2 emp. f o f e f e 2

Obliczone 2 emp. porównujemy z 2 tab (wartość krytyczna) odczytanym z tabel statystycznych dla określonej liczby stopni swobody (df) i poziomu istotności (α, np. 0,05 lub 0,01). Jeżeli otrzymane 2 emp jest większe lub równe wartości krytycznej, to mamy podstawę do odrzucenie hipotezy zerowej. Oznacza to, że analizowany rozkład nie jest zgodny z rozkładem teoretycznym.

df = (liczba grup 1). Przy 3 grupach df = 2, ponieważ różnice między f o i f e mogą się swobodnie kształtować tylko w dwóch grupach, trzecia grupa zdeterminowana jest przez sumę obserwacji dla wszystkich grup).

wartość oczekiwana w każdej klasie nie powinna być mniejsza niż 5. Przy większej liczbie klas i tak niskiej wartości oczekiwanej, pewne klasy można ze sobą połączyć. Dzięki temu istnieje szansa na zwiększenie tej wartości. Przy dwóch grupach, df = 1, stosujemy tzw. poprawkę Yates a na nieciągłość. Wynika to z tego, iż rozkład 2 jest rozkładem ciągłym, zaś frekwencje przyjmują liczby naturalne. Przy małych liczebnościach może to spowodować odrzucenie hipotezy zerowej z większym prawdopodobieństwem aniżeli założony poziom istotności.

2 emp. f o f f e e 0,5 2

Czy struktura płci studiujących osób na Wydziale Hodowli i Biologii Zwierząt jest zgodna z teoretycznym rozkładem płci w populacji ludzkiej, tj. 1:1?

2 emp. f o f e f e 2 2 2 f f 226 157,5 89 157,5 2 2. o e emp fe 157,5 157,5 59,89

Obliczona wartość statystyki 2 emp. jest większa niż wartość odczytana z tabel (wartość krytyczna), co pozwala odrzucić hipotezę zerową i stwierdzić, że rozkład płci studiujących osób nie jest zgodny z rozkładem 1:1.

H 0 : Nie istnieje zależność między badanymi cechami H 1 : Istnieje zależność między badanymi cechami

Czy istnieje związek między wiekiem ślimaków a skłonnością do przebywania w określonym siedlisku? f o (otrzymane) odkryty grunt (G) roślinność zielona (R) pnie drzew (D) wieku Młode (M) 52 43 17 112 Dorosłe (D) 108 15 74 197 siedlisk 160 58 91 309

2 emp. f o f f o wartość otrzymana; f e wartość oczekiwana e f e 2

Wartość oczekiwaną (f e ) obliczamy z proporcji: W naszym zadaniu wartość oczekiwaną liczby ślimaków młodych na odkrytym gruncie obliczamy następująco: Oczekiwana liczebność osobników na gruncie odkrytym wynosi 57,99. W sposób analogiczny obliczamy pozostałe wartości oczekiwane.

2 emp = 49,163 Wartość krytyczną statystyki 2 odczytujemy z tabel statystycznych w zależności od ustalonego poziomu istotności i liczby stopni swobody. Liczba stopni swobody obliczana jest następująco: df = (k 1) (w 1), gdzie: k liczba kolumn (3 odkryty grunt, roślinność zielona, pnie drzew) w liczba wierszy (2 młode, dorosłe). W naszym przykładzie df = 2 ((3 1) (2 1))

2 0,05 = 5,991 Ze względu na fakt, iż obliczona przez nas wartość statystyki 2 emp jest większa niż wartość krytyczna odrzucamy hipotezę zerową.

Badamy zależność między rodzajem zakładu przemysłowego a obecnością w próbach wybranych gatunków mechowców.

C_sch_r Chamobates schuetzi

Badamy zależność między płcią, typem urodzenia a śmiertelnością jagniąt do okresu odsadzenia, tj. ok. 100 dni.

0.10416

Niestety, wcześniej musimy sami obliczyć wartości oczekiwane

Sprawdź czy istnieje zależność między płcią a udzielonymi w ankiecie odpowiedziami (kwiek, papierosy, miejsce). H 0 : nie istnieje zależność między płcią osób a treścią udzielanych odpowiedzi H 1 : istnieje zależność między płcią osób a treścią udzielanych odpowiedzi

Prawdopodobieństwo, jakie wynika z przeprowadzonego testu 2 (0,6558) nie pozwala odrzucić hipotezy zerowej i stwierdzić, że istnieje zależność istotna między płcią osób a odpowiedzią na pytanie: czy palisz papierosy? Zestawione w tabeli wyniki pozwala stwierdzić, że wśród kobiet udział palących wyniósł 21,546% i był około 2 j. p. niższy niż wśród mężczyzn (19,42%).

W celu weryfikacji hipotezy zerowej służącej do badania zależności między zmiennymi jakościowymi wykorzystujemy na ogół test 2, ale nie zawsze...

Liczebności Rodzaj testu: N > 40 i wszystkie liczebności oczekiwane > 10 2 N > 40 i którakolwiek liczebność oczekiwana < 5 20 < N =< 40 i wszystkie liczebności oczekiwane> 5 20 < N =< 40 i którakolwiek liczebność oczekiwana< 5 N =< 20 i którakolwiek liczebność oczekiwana < 5 test 2 z poprawką Yatesa test 2 z poprawką Yatesa dokładny Fisher dokładny Fisher test test

2 z poprawką Yatesa współczynnik 2 z poprawką Yatesa ze względu na niską liczebność w podgrupie. Powyższa poprawka powoduje bardziej ostrożną ocenę. Test Mantel-Haenszel przeznaczony jest do badania zależności między cechami wyrażonymi skalami porządkowymi. H 0 : Brak porządkowej zależności między zmiennymi wierszy i kolumn H 1 : Istnieje porządkowa zależność między zmiennymi wierszy i kolumn

Współczynnik Fi ( ) = pierwiastek kwadratowy ( 2 /n). Stosowany w odniesieniu do tabel 2 x 2. Przyjmuje wartości od 0 do 1. 0 - brak zależności, 1 całkowita zależność. Stosowany w odniesieniu do zmiennych jakościowych.

Statystyka V Cramera jest miarą siły zależności między badanymi cechami. Jej wartość zawiera się w przedziale od -1 do 1 w przypadku tabel dwudzielczych, zaś dla tabel większych przyjmuje wartości od 0 do 1.

W ramach testu Fishera obliczane jest prawdopodobieństwo otrzymania danego rozkładu z tablicy. Rozpatrywane są wszelkie możliwe kombinacje liczebności komórek w oparciu o liczebności brzegowe. Prawdopodobieństwo związane z dokładnym testem Fishera wykazuje tendencję do przyjmowania wyższych wartości, aniżeli asymptotyczny test 2, ponieważ jest testem bardziej konserwatywnym.

Poprawka uciągl. chi-kwadrat = test 2 z poprawką Yates a

Pojawiło się ostrzeżenie ze strony programu SAS o niewystarczających liczebnościach oczekiwanych. Decyzję o odrzuceniu hipotezy zerowej odczytujemy zatem w oparciu o test z poprawką Yates a (Poprawka uciągl. chi-kwadrat), a w skrajnych przypadkach o dokładny test Fishera.

Wykorzystywany do analizy tabel 2x2, gdy doświadczenie zorganizowane jest w układzie zależnym. Przykładem niech będzie wpływ prowadzonej kuracji na stan zdrowia pacjentów. 1 pacjent zdrowy; 0 pacjent chory.

H 0 : p 1 = p 2 H 1 : p 1 p 2 p 1 proporcja pacjentów, którzy wykazują objawy choroby przed leczeniem p 2 proporcja pacjentów, którzy wykazują objawy choroby po leczeniu

χ 2 = A D 2 A + D A Liczba osób wśród których doszło do zmiany wyniku z dodatniego na ujemny D Liczba osób wśród których doszło do zmiany wyniku z ujemnego na dodatni

0 pacjent bez objawów choroby; 1 pacjent z objawami choroby Przeprowadzony test zgodności McNemara pozwala wnioskować, że przeprowadzona kuracja wpłynęła statystycznie na stan zdrowia pacjentów.