Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Podobne dokumenty
12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Wykład 8 Dane kategoryczne

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

STATYSTYKA MATEMATYCZNA

Wykład 12: Tablice wielodzielcze

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

METODY STATYSTYCZNE W BIOLOGII

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wnioskowanie statystyczne. Statystyka w 5

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Weryfikacja hipotez statystycznych

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyczna analiza danych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

PONIEDZIAŁEK WTOREK

Badanie zależności zmiennych kolumnowej i wierszowej:

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Uogólniony model liniowy

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Estymacja parametrów rozkładu cechy

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Weryfikacja hipotez statystycznych

Boisko piłkarskie: stycznia

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Rozkłady statystyk z próby. Statystyka

Rozkłady statystyk z próby

Pobieranie prób i rozkład z próby

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Własności statystyczne regresji liniowej. Wykład 4

Regresja logistyczna (LOGISTIC)

Regresja liniowa wprowadzenie

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Przykład 1. (A. Łomnicki)

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka matematyczna dla leśników

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Metody Statystyczne. Metody Statystyczne.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Teoria Estymacji. Do Powyżej

1 Estymacja przedziałowa

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Komputerowa Analiza Danych Doświadczalnych

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Badania obserwacyjne 1

Statystyka matematyczna i ekonometria

Testowanie hipotez statystycznych.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

KARTA KURSU. Kod Punktacja ECTS* 1

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka matematyczna

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

STATYSTYKA MATEMATYCZNA

Zadanie Punkty Ocena

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

STATYSTYKA wykład 5-6

Wykład 11 Testowanie jednorodności

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Prawdopodobieństwo i rozkład normalny cd.

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Spis treści 3 SPIS TREŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Oszacowanie i rozkład t

statystyka badania epidemiologiczne

Porównanie dwóch rozkładów normalnych

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Statystyka matematyczna i ekonometria

STATYSTYKA MATEMATYCZNA

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Komputerowa analiza danych doświadczalnych

STATYSTYKA MATEMATYCZNA

Transkrypt:

Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie Test dwumianowy χ 2 test dobroci dopasowania Analiza tabeli kontygencji ( tabeli krzyżywej) P k sukcesów = n k pk (1 p) n k Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach H0: prawdopodobieństwo sukcesu w populacji jest p 0 H1: prawdopodobieństwo sukcesu w populacji jest inne niż p 0 lub jednostronny: H1: prawdopodobieństwo sukcesu w populacji jest > /< p 0 D.Makowiec: Biostatystka (177) 1

Przykład: w danym gatunku os, prawdopodobieństwo osy_pana jest 0.3. Zebraliśmy 12 os z tego gatunku. 5 z nich okazało się panami. Czy nasza próba potwierdza stwierdzenie, że 30% os tego gatunku to panowie? Czy zaobserwowana proporcja 5/12 (=41.67%) jest zgodna z przeświadczeniem, że w populacji tych os samce stanowią 30% rozkład NULL testu to pmf dla problemu P-value = p(x>=5)= 1- binom.cdf( 4, 12, 0.3)= 0.276 Osy_test_dwymianowy.py D.Makowiec: Biostatystka (178) Błąd standardowy w teście dwumianowym SE p = p (1 p ) n Odchylenie standardowe rozkładu próby dla prawdopodobieństwa sukcesu. Przedział ufności w teście dwumianowym metodą Walda (tylko dla 0.2< p <0.8) p Z 0.025 SE p < p < p + Z 0.025 SE p D.Makowiec: Biostatystka (179) 2

Estymator parametru p p = X n = 5 12 = 0.417 Odchylenie standardowe rozkładu próby dla prawdopodobieństwa sukcesu. SE p = p (1 p ) = n 0.417 (1 0.417) = 0.142 12 Przedział ufności w teście dwumianowym wyznaczony metodą Walda p Z 0.025 SE p < p < p + Z 0.025 SE p 0.417 1.96 0.142 < p < 0.417 + 1.96 0.142 p = 0. 417 ± 0. 278 Wniosek: Wyznaczona p-value =0.276 jest dużo większa niż =0.05, by odrzucić hipotezęh0. Nasza estymacja dla sukcesu to 0.417 z błędem SE=0.142 oraz 95%CI wyznaczonym metodą Walda daje 0.417 ± 0.278 D.Makowiec: Biostatystka (180) Test czy obserwowane proporcje są identyczne z proporcjami rozkładu NULL χ 2 df = liczba kategorii 1 Osy_test_ch2_0.py D.Makowiec: Biostatystka (181) 3

χ 2 Przykład: czy częstość narodzin dzieci w każdym dniu tygodnia jest taka sama? Dane z 1999 roku: Niedziela 33 Poniedziałek 41 Wtorek 63 Środa 63 Czwartek 47 Piątek 56 Sobota 47 H0: prawdopodobieństwo narodzin jest takie samo w każdym dniu tygodnia w 1999 H1: prawdopodobieństwo narodzin nie jest takie samo w każdym dniu tygodnia w 1999 D.Makowiec: Biostatystka (182) χ 2 Statystyka testu χ 2 = i (#obserwacje(i) #oczekiwane(i)) 2 #oczekiwane(i) Dane z 1999 roku: obserwacje(i) #dni w 1999 oczekiwana #oczekiwane proporcja narodziny Niedziela 33 52 52/365=0.142 0.142*52= Poniedziałek 41 52 0.142 Wtorek 63 52 0.142 Środa 63 52 0.142 Czwartek 47 52 0.142 Piątek 56 53 0.145 50.822 Sobota 47 52 0.142 TOTAL 350 365 1 350.0 χ 2 = (33 )2 + (41 )2 + (63 )2 + (63 )2 + (47 )2 + (56 50.822)2 + (47 )2 = 15.05 50.822 df = #liczba kategorii -1 = 7-1 =6 Kategorie to dni tygodnia D.Makowiec: Biostatystka (183) 4

Rozkład NULL testu p_value= 1- stats.chi2.cdf(15.05, 6) P-value jest 0.020 zatem odrzucamy hipotezę, że urodzenia są równo rozłożone w dniach tygodnia w 1999roku. Nasze dane świadczą, że częstość jest różna w różnych dniach tygodnia. D.Makowiec: Biostatystka (184) Ogólne założenia dowolnego testu χ2 Dane są losowo wybierane z populacji Mamy dwie lub więcej zmiennych kategorycznych Oczekiwana częstość w każdej kategorii musi być 1 Nie więcej niż 20% oczekiwanych częstości jest mniejsza niż 5 D.Makowiec: Biostatystka (185) 5

Obliczenia bezpośrednio w Pythonie: obserwacje = [33,41,63,63,47,56,47] oczekiwane = [52,52,52,52,52,53,52] proporcja =sum(obserwacje)/sum(oczekiwane) oczekiwane = [oczekiwane[i] * proporcja for i in range (7)] chisq, p = stats.chisquare(obserwacje, oczekiwane) print("wyniki z testu Pythona", chisq, p) Osy_test_ch2_1.py Osy_test_binom_vs_chi2_0.py D.Makowiec: Biostatystka (186) 2 zmienne: atak serca ( był lub nie) przyjmuje aspirynę ( tak lub nie) Przykład tabeli kontyngencji przyjmuje codziennie aspirynę nie przyjmuje codziennie aspiryny stwierdzono atak serca nie stwierdzono ataku serca 75 62 108 71 T esty: χ 2 niezależności: chi2_contigency() Fishera: fisher_exact() D.Makowiec: Biostatystka (187) 6

Zdrowa żaba żaba chora TOTAL Zjedzona przez ptaka 1 17.02 47 30.98 48 Niezjedzona przez ptaka 49 32.96 44 60.02 93 Total 50 91 141 H0: infekcja i bycie zjedzonym są niezależne H1: infekcja i bycie zjedzonym nie są niezależne Statystyka Chi2 dla tabeli χ 2 = k,w (#obserwacje(w, k) #oczekiwane(w, k)) 2 #oczekiwane(w, k) Przy prawdziwości H0 infekcja i bycie zjedzonym są niezależne. Zatem P(infekcja, zjedzony)= P(infekcja) * P(zjedzony) Oczekiwana wartość zliczenia dla (infekcja, zjedzony) to P(infekcja) *P(zjedzony) * Total D.Makowiec: Biostatystka (188) χ 2 = (1 17.02)2 + 17.02 (49 32.96)2 + 32.96 df = #(w-1) *#(c-1) = (2-1)* (2-1)=1 (44 30.98)2 + 30.98 (47 60.02)2 = 31.16 60.02 P_value=1 chi2.cdf(31.16,1) = 2.37442375761e-08 Zatem odrzucamy H0 (p_value << 0.05) iż infekcja i bycie zjedzonym są niezależne. W pythonie mamy : tabela = [[1, 44],[49, 47]] chi2, p, df, oczekiwane = stats.chi2_contingency(tabela) D.Makowiec: Biostatystka (189) 7

χ 2 = k,w ( #obserwacje w, k #oczekiwane w, k 0.5) 2 #oczekiwane(w, k) Zmniejsza statystyke testu a zatem podnosi p_value. D.Makowiec: Biostatystka (190) O = p 1 p zjedzona niezjedzona Zdrowa Chora 1 47 49 44 Total 50 91 141 TOTAL 48 93 Szansa bycia zjedzonym, jeśli się jest chorym O = P(zjedzona i chora) 1 P(zjedzona i chora) = 47/91 1 47/91 = 1.07 O chora = P(zjedzona i chora) P(niezjedzona i chora) = 47 44 = 1.07 O zdrowa = P(zjedzona i zdrowa) P(niezjedzona i zdrowa) = 1 49 = 0.02 D.Makowiec: Biostatystka (191) 8

Iloraz szans to stosunek szansy na sukces w jednej grupie do szansy na sukces w drugiej grupie OR = p 1/(1 p 1 ) p 2 /(1 p 2 ) Iloraz szans ocenia odchylenie od rozkładu NULL dla tabel kontyngencji 2x2 Interpretacja: OR = 1 : szansa na sukces jest taka sama w obu grupach OR < 1 : szansa na sukces w grupie 2 jest wyższa niż w grupie 1 OR > 1 : szansa na sukces w grupie 1 jest wyższa niż w grupie 2 zjedzona niezjedzona Zdrowa Chora 1 47 49 44 Total 50 91 141 TOTAL 48 93 P(zjedzona i chora) O1 = P(niezjedzona i chora) = 47 44 = 1.07 P(zjedzona i zdrowa) O2 = P(niezjedzona i zdrowa) = 1 49 = 0.02 OR = 1.07 0.02 = 52.3 Chora żaba ma 52.3 razy więcej szansy bycia zjedzoną niż żaba zdrowa D.Makowiec: Biostatystka (192) P(zjedzona i chora) O1 = P(niezjedzona i chora) = 47/44 P(zjedzona i zdrowa) O2 = P(niezjedzona i zdrowa) = 1/49 P(zjedzona i chora) O1 = P(zjedzona i zdrowa) = 47/1 P(niezjedzona i chora) O2 = P(niezjedzona i zdrowa) = 44/49 zjedzona niezjedzona Zdrowa Chora 1 47 49 44 Total 50 91 141 TOTAL 48 93 zjedzona niezjedzona Zdrowa Chora 1 47 49 44 Total 50 91 141 TOTAL 48 93 Chora żaba ma 52.3 szans bycia zjedzoną w porównaniu do zdrowej żaby Zjedzona żaba ma 52.3 szans bycia chorą w porównaniu do niezjedzonej żaby D.Makowiec: Biostatystka (193) 9

Zwyczajowo podaje się OR jako ln(or) Błąd standardowy OR: W naszym przykładzie log(52.3) = 3.956996 SE OR = SE ln OR = 1 a + 1 b + 1 c + 1 d SE ln OR = 1 1 + 1 49 + 1 44 + 1 47 = 1.03 95%CI dla log (OR) ln OR Z 0.025 SE OR < ln OR < ln OR + Z 0.025 SE OR 3.96 1.96 1.03 < ln OR < 3.96 + 1.96 1.03 95%CI(log OR): 3.96 ± 2.02 Konkluzja: Odrzucamy hipotezę H0 ( P<< ), że choroba żaby i bycie zjedzonym są niezależne. Mamy dane wskazujące, ze stan żaby jest związany z tym czy jest zjedzona. Ponadto żaby chore są jedzone częściej w porównaniu do żab zdrowych. Logarytm ilorazu szans to ln(or)=3.96 przy 95%CI dla logartmu szans jako (1.94, 5.98) D.Makowiec: Biostatystka (194) P(rak palacz) 525/(525 + 450) RR = = P(rak niepalacz) 32/(32 + 621) = 10.99 Palacze mają 10.99 razy wyższe ryzyko zachorowania na raka płuc w porównaniu do niepalaczy P(rak i palacz) O1 = P(rak i niepalacz) = 525 32 P(brak raka i palacz) O2 = P(brak raka i niepalacz) = 450 621 OR = O1 O2 = 525/32 450/621 = 22.64 Palacze mają 22.64 razy więcej szansy zachorowania na raka płuc w porównaniu do niepalaczy D.Makowiec: Biostatystka (195) 10

06_testing_proportions.pdf D.Makowiec: Biostatystka (196) t-test jednej próby dane Ile próbek scipy.stats.ttest_1samp() Dane sparowane czy niezależne? t-test sparowany scipy.stats.ttest_rel() t-test dwóch prób scipy.stats.ttest_ind() Ile zmiennych Ile poziomów Binomial test scipy.stats.binom_test() χ2- test dobroci χ2-tabela kontyngencji scipy.stats.chisquare () scipy.stats.chi2_contingency () D.Makowiec: Biostatystka (197) 11