Testy nieparametryczne

Podobne dokumenty
Statystyczna analiza danych

Testy parametryczne 1

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

STATYSTYKA MATEMATYCZNA

Badania eksperymentalne

Testy nieparametryczne

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Testowanie hipotez statystycznych.

1 Estymacja przedziałowa

Przykład 1. (A. Łomnicki)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Wykład 11 Testowanie jednorodności

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Testowanie hipotez statystycznych.

Wykład 8 Dane kategoryczne

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Test t-studenta dla jednej średniej

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Estymacja parametrów rozkładu cechy

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Wykład 9 Testy rangowe w problemie dwóch prób

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Elementarne metody statystyczne 9

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Zadania ze statystyki cz.8. Zadanie 1.

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Statystyka matematyczna dla leśników

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Wykład 5 Teoria eksperymentu

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Spis treści 3 SPIS TREŚCI

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Porównanie dwóch rozkładów normalnych

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Rozkłady statystyk z próby. Statystyka

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych. Laboratorium VI: Testy nieparametryczne

Testowanie hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

STATYSTYKA MATEMATYCZNA

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Weryfikacja hipotez statystycznych

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Rozkłady statystyk z próby

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Testowanie hipotez statystycznych

Estymacja przedziałowa

Zawartość. Zawartość

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Statystyka matematyczna i ekonometria

Zadanie 1. Analiza Analiza rozkładu

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Wnioskowanie statystyczne. Statystyka w 5

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

STATYSTYKA MATEMATYCZNA

S t a t y s t y k a, część 3. Michał Żmihorski

Transkrypt:

Testy nieparametryczne 1

Wybrane testy nieparametryczne 1. Test chi-kwadrat zgodności z rozkładem oczekiwanym 2. Test chi-kwadrat niezależności dwóch zmiennych kategoryzujących 3. Test U Manna-Whitney a 4. Test Kruskala-Wallisa 2

Test chi-kwadrat zgodności z rozkładem oczekiwanym Eksperyment składa się z n identycznych i niezależnych prób Każda z prób kończy się jednym z k zdarzeń Prawdopodobieństwo, że pojedyncze zdarzenie kończy się wynikiem i wynosi π i, i=1,,k Interesuje nas, czy obserwujemy rozkład zgodny z pewnym oczekiwanym rozkładem π i, i=1,,k 3

Wieloletnia standardowa terapia nadciśnienia daje następujące wyniki w 4 kategoriach 1. Znaczące obniżenie ciśnienia 50% pacjentów 2. Umiarkowane obniżenie ciśnienia 25% 3. Nieznaczne obniżenie ciśnienia 10% 4. Bez zmian lub podwyższenie ciśnienia 15% Przygotowano nową terapię i przeprowadzono próbę kliniczną na 200 pacjentach. Wyniki: 1. Znaczące obniżenie ciśnienia 120 pacjentów 2. Umiarkowane obniżenie ciśnienia 60 3. Nieznaczne obniżenie ciśnienia 10 4. Bez zmian lub podwyższenie ciśnienia 10 Czy wyniki próby klinicznej wskazują na wyższość nowej terapii? 4

H0: π 1 = 0.50, π 2 = 0.25, π 3 = 0.10, π 4 = 0.15 HA: Przynajmniej jedno z prawdopodobieństw jest inne od wartości hipotetycznej 5

Karl Pearson 1900: Χ 2 = Σ [ ( n i E i ) 2 / E i ] n obserwowana liczba obserwacji E oczekiwana liczba obserwacji i = 1,,k Odrzuć H0, jeżeli Χ 2 przekracza tabelaryczną wartość krytyczną dla poziomu istotności α oraz liczby stopni swobody k-1. 6

Pamiętaj, test chi-kwadrat jest przybliżony (ale b. praktyczny) Wymagania wg. Cochrana: dla każdej kategorii liczba oczekiwana E wynosi co najmniej 1, dla nie więcej niż 20% kategorii E<5. 7

Test chi-kwadrat niezależności dwóch zmiennych kategoryzujących Podejrzewa się, że pewien wariant genu DIO2 zwiększa ryzyko nadciśnienia. Zbadano polimorfizm A/T i obserwowano 200 osób. Czy dane potwierdzają takie przypuszczenia. Tablica kontyngencji Genotyp wysokie podwyższone normalne Razem AA 30 15 15 60 AT 40 10 50 100 TT 10 5 25 40 Razem 80 30 90 200 8

Jeżeli zmienne są niezależne, to w populacji spodziewamy się 12% osób z genotypem AA i wysokim nadciśnieniem: P(AA) = 60 / 200 = 0.3 P(wysokie) = 80 / 200 = 0.4 P(AA i wysokie) = 0.3 * 0.4 = 0.12 (niezależność zdarzeń) Wśród 200 przebadanych osób powinno ich być ok. 24. 9

H0: Zmienne są niezależne HA: Zmienne są zależne Χ 2 = Σ [ ( n ij E ij ) 2 / E ij ] i = 1,,k j = 1,,w Odrzuć H0, jeżeli Χ 2 przekracza tabelaryczną wartość krytyczną dla poziomu istotności α oraz liczby stopni swobody (k-1)(w-1). 10

Wymagania Cochrana są ważne. Ale stwierdzono, że jeżeli E w każdej komórce jest podobnej wielkości, a liczba kolumn i wierszy duża, to E ij może być tylko 1 i jest OK! (duża elastyczność testu) W innych przypadkach możesz stosować dokładny test Fishera (Fisher s exact test). 11

R # wpisujemy dane sumaryczne mytable = rbind( c(30,15,15), c(40,10,50), c(10,5,25) ) # lub wczytujemy z pliku z surowymi obserwacjami mydata <-read.table( ) attach( mydata ) # i uzyskujemy tabele kontyngencji mytable <- table( A, B ) # A will be rows, B will be columns # testujemy chisq.test( mytable ) 12

Test U Manna-Whitney a Mann Whitney U test, Mann Whitney Wilcoxon, Wilcoxon rank-sum test Czy niezależne próby z jednej z dwóch populacji są wyższe niż z drugiej? Odpowiednik testu t (porównanie średnich) Często stosowany, gdy rozkład w populacji znacznie odbiega od normalnego. skala jest porządkowa, ale nie przedziałowa (większe lub mniejsze, ale nie wiadomo o ile, np. dst, dst+) Moc 95% testu t, jeżeli rozkład normalny (stosuj test t) Jeżeli rozkład znacznie odbiega od normalnego, moc dużo większa od testu t (duża skośność, obserwacje odstające) 13

Sprawdzano skuteczność zabiegu oczyszczania jeziora przy fermie. Badano ilość rozpuszczonego tlenu (w ppm (ang. parts per million) ) 12 prób przed oczyszczaniem 11.0 11.2 11.2 11.2 11.4 11.5 11.6 11.7 11.8 11.9 11.9 12.1 12 prób po oczyszczeniu 10.2 10.3 10.4 10.6 10.6 10.7 10.8 10.8 10.9 11.1 11.1 11.3 H0: Rozkład pomiarów przed i po oczyszczaniu jest taki sam HA: Pomiary po oczyszczeniu mają tendencję do niższych wartości niż przed oczyszczeniem (zabiegi skuteczne) 14

Wartości rank 12 prób przed oczyszczeniem 11.0 11.2 11.2 11.2 11.4 11.5 10 14 14 14 17 18 11.6 11.7 11.8 11.9 11.9 12.1 19 20 21 22.5 22.5 24 12 prób po oczyszczeniu 10.2 10.3 10.4 10.6 10.6 10.7 1 2 3 4.5 4.5 6 10.8 10.8 10.9 11.1 11.1 11.3 7.5 7.5 9 11.5 11.5 16 Jeżeli oczyszczanie jest skuteczne, suma wartości rank dla próby 1 (T) powinna być wyższa. 15

rank grupa t j 1 1 1 2 2 1 3 3 1 4.5 4.5 4 2 6 5 1 7.5 7.5 6 2 9 7 1 10 8 1 11.5 11.5 9 2 14 14 14 10 3 16 11 1 17 12 1 18 13 1 19 14 1 20 15 1 21 16 1 22.5 22.5 17 2 24 18 1 16

Suma rank (T) ma rozkład normalny z wartością oczekiwaną i wariancją: π = n 1(n 1 + n 2 + 1) 2 σ 2 = n 1n 2 12 n 1 + n 2 + 1 t j t j t j 1 n 1 + n 2 n 1 + n 2 1 Wymagania: n 1 i n 2 co najmniej po 10 obserwacji Statystyka testowa: z = T π σ 17

H0: Dwie populacje są identyczne HA: 1. Populacja 1 ma przeciętnie wyższe wartości 2. Populacja 1 ma przeciętnie niższe wartości 3. Populacja 1 ma przeciętnie inne wartości od populacji 2 Dla przyjętego poziomu istotności odrzuć H0, jeżeli 1. z > z α 2. z < -z α 3. z > z α/2 18

R # independent 2-group Mann-Whitney U Test wilcox.test( y ~ A ) # where y is numeric and A is A binary factor # independent 2-group Mann-Whitney U Test wilcox.test( y, x ) # where y and x are numeric # dependent 2-group Wilcoxon Signed Rank Test wilcox.test( y1, y2, paired=true ) # where y1 and y2 are numeric 19

Zadanie Testy nieparametryczne Testy parametryczne Porównanie 2 populacji Porównanie 2 populacji-obserwacje sparowane Porównanie wielu populacji Test U Wilcoxon s signed-rank test Test Kruskala-Wallisa; Test t Test t dla sparowanych obserwacji Analiza wariancji (ANOVA) 20

Test Kruskala-Wallisa H0: Rozkłady dla k populacji są takie same HA: Nie wszystkie rozkłady są takie same H = 12 n n + 1 T i T i n i 3(n + 1) Odrzuć H0, jeżeli H przekracza wartość krytyczną chi-kwadrat dla ustalonego poziomu istotności i liczby stopni swobody k-1 21

Trzy grupy studentów weterynarii ankietowano pod kątem wiedzy o chorobach zakaźnych. Czy miejsce studiów ma znaczenie? Poznań Warszawa Wrocław 32 32 28 30 32 21 30 26 15 29 26 15 26 22 14 23 20 14 20 19 14 19 16 11 18 14 9 12 14 8 22

R # Kruskal Wallis Test One Way Anova by Ranks kruskal.test( y ~ A ) # where y1 is numeric and A is a factor 23