NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Podobne dokumenty
Powtórzenie do kolokwium

Statystyka matematyczna Test χ 2. Wrocław, r

Wykład 8 Dane kategoryczne

Testowanie hipotez statystycznych.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Testowanie hipotez statystycznych.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Wydział Matematyki. Testy zgodności. Wykład 03

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Wykład 11 Testowanie jednorodności

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Estymacja punktowa i przedziałowa

Estymacja parametrów rozkładu cechy

Własności statystyczne regresji liniowej. Wykład 4

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Kolokwium ze statystyki matematycznej

Wykład 12: Tablice wielodzielcze

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

1 Estymacja przedziałowa

Badania obserwacyjne 1

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

statystyka badania epidemiologiczne

Wnioskowanie statystyczne. Statystyka w 5

Statystyka matematyczna. Wykład VI. Zesty zgodności

Badanie zależności skala nominalna

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Testowanie hipotez statystycznych.

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Testowanie hipotez statystycznych

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

STATYSTYKA MATEMATYCZNA

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Wykład 9 Wnioskowanie o średnich

Badanie zależności zmiennych kolumnowej i wierszowej:

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Testowanie hipotez statystycznych.

Statystyka Matematyczna Anna Janicka

Analiza wariancji - ANOVA

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Rozdział 8. Regresja. Definiowanie modelu

Zapadalność (epidemiologia)

Testowanie hipotez statystycznych

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Statystyka matematyczna dla leśników

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

STATYSTYKA MATEMATYCZNA

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Wykład 10 Testy jednorodności rozkładów

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Testowanie hipotez statystycznych

WNIOSKOWANIE STATYSTYCZNE

1.1 Wstęp Literatura... 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Zawartość. Zawartość

Badanie zależności pomiędzy zmiennymi

Statystyczna analiza danych

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Statystyka w analizie i planowaniu eksperymentu

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Metody Statystyczne. Metody Statystyczne

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Testowanie hipotez statystycznych

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Wykład 3 Hipotezy statystyczne

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

STATYSTYKA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Transkrypt:

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR M Zalewska Zakład Profilaktyki ZagrożeńŚrodowiskowych i Alergologii Analiza niezależności zmiennych jakościowych (test niezależności Chi-kwadrat) Rozważmy parę jakościowych zmiennych losowych X i Y Zmienna X przyjmuje k kategorii Zmienna Y przyjmuje l kategorii UWAGA: W ten sposób można również analizować niezależność dla zmiennych ilościowych dyskretnych i ciągłych po ich kategoryzacji

Wyniki n elementowej próby zapisujemy w tabeli kontyngencji: X Y 1 2 l 1 n 11 n 12 n 1l 2 n 21 n 22 n 2l k n k1 n k2 n kl Zauważmy, że obserwujemy pary zmiennych (X,Y), więc n ij oznacza ilość współwystąpienia elementów cechy X o kategorii i oraz elementów cechy Y o kategorii j suma wszystkich elementów w tabeli kontyngencji wynosi n tyle ile wynosi rozmiar próby

Liczebności brzegowe Dla wierszy: n i liczebności brzegowe i-tego wiersza (suma elementów w i-tym wierszu) Dla kolumn: n j liczebności brzegowe j-tej kolumny (suma elementów w j-tej kolumnie) Przykład Obserwowano 4 metody leczenia oraz stan poprawy zdrowia pacjentów. Informacje zestawiono w tablicy kontyngencji (łącznie leczonych było 400 pacjentów) Stan poprawy zdrowia (X) metoda leczenia (Y) A B C D mierny 30 40 40 20 130 dostateczny 30 40 20 40 130 dobry 40 20 40 40 140 n j 100 100 100 100 400 n i

Pytanie badawcze: Czy stan poprawy zdrowia pacjentów zależy od metody leczenia? Możemy wykorzystać : Test Chi-kwadrat niezależności Hipoteza zerowa i alternatywna H 0 : brak zależności między cechami X i Y przeciw hipotezie alternatywnej H 1 : cechy są zależne Statystyka testowa jest postaci: 2 χ = k l ( nij ni n j / n) n n i= 1 j= 1 i j / n 2

Dla dużych prób: Rozkład statystyki chi-kwadrat przy prawdziwej hipotezie zerowej jest zbliżony do rozkładu Chi-kwadrat o (k-1)(l-1) stopniach swobody 2 χ Statystyka testowa = k l ( nij ni n j / n) n n i= 1 j= 1 i j / n 2 chi _ kw. = ( liczeb. empiryczne liczeb. teoretyczne) liczeb. teoretyczne 2 Przyjmujemy poziom istotności 0.05

Odrzucamy H 0 gdy statystyka testowa Chi-kw przekracza odpowiedni kwantyl z rozkładu chi-kwadrat qchisq((1-alfa),(k-1)*(l-1)) Wartości statystyki Chi-kw >qchisq(0.95,(k-1)*(l-1)) świadczą przeciw hipotezie zerowej Uwaga W tablicach rozkładu Chi-kwadrat zazwyczaj są podane prawe ogony a nie kwantyle.

Przykład c.d. Obliczanie liczebności teoretycznych wyznaczamy tabelę liczebności teoretycznych n n n i j / Stan poprawy zdrowia (X) metoda leczenia (X) A B C D n i mierny 32,5 32,5 32,5 32,5 130 dostatec zny 32,5 32,5 32,5 32,5 130 dobry 35,0 35,0 35,0 35,0 140 n j 100 100 100 100 400 n Wyznaczamy tabelę wartości ( ij i j )2 (30-32.5)^2/32.5 n n n n i j / n / n Stan poprawy zdrowia (X) metoda leczenia (X) A B C D Σ mierny 0,19 1,73 1,73 4,81 8,46 dostatec zny 0,19 1,73 4,81 1,73 8,46 dobry 0,71 6,43 0,71 0,71 8,56 n j 1,09 9,89 7,25 7,25 25,48 Wartość statystyki Chi kwadrat jest sumą elementów tabeli

Obliczamy wartość statystyki testowej Chi-kwadrat 2 χ = k l ( nij ni n j / n) n n i= 1 j= 1 i j / n 2 = 25,49 Podjęcie decyzji odnośnie hipotezy zerowej W naszym przykładzie obliczona statystyka Chi-kw =25.49 a kwantyl rzędu 0.95 z rozkładu chi-kwadrat o (3-1)*(4-1) = 6 stopniach swobody wynosi : wartość krytyczna = 12.59, Zatem na poziomie istotności α = 0,05 odrzucamy hipotezę zerową o niezależności stanu poprawy zdrowia od zastosowanej metody leczenia.

Test chi-kwadrat niezależności przykłady Czy istnieje zależność między wykształceniem (W) i zarobkami (Z)? Czy istnieje zależność między rozkładem stężenia białka a rodzajem stosowanej diety? Czy jest zależność miedzy leczeniem astmy a wiekiem pacjenta? Czy istnieje zależność miedzy wiekiem i objawami astmy? Przykład W trzech szpitalach zastosowano nowa metodę leczenia pewnej choroby. W szpitalu A na n 1 =100 leczonych zaobserwowano 80 przypadków poprawy, w szpitalu B na n 2 =50 leczonych - 30 przypadków poprawy, a w szpitalu C na n 3 =80 leczonych - 60. Czy szansa wyleczenia zależy od szpitala? Przyjąć poziom istotności równy 0.05.

1 2 3 obserwowane (empiryczne) niepopr 20 20 20 60 tabelka wyjściowa popr 80 30 60 170 suma 100 50 80 230 obliczamy wartości brzegowe obliczamy wartości oczekiwane niepopr popr 26,08696 73,91304 13,04348 36,95652 kwadraty reszt jako składniki Chi kwadrat niepopr popr 1,42029 0,501279 3,710145 1,309463 20,86957 59,13043 0,036232 0,012788 60*100/230 26.08696 ((20-26.08696)^2)/26.08696 1.420291 chi-kwadrat oblicz 6,990196 Suma kwadratów reszt

chi-kwadrat tablic 5.99 df= (w-1)*(k-1)=(2-1)*(3-1)=2 alfa=0.05 obszar krytyczny (5.99,+niesk) Ho: wiersze i kolumny niezależne (nie ma zależności miedzy stanem pacjenta a szpitalami) Decyzja: statystyka obliczona (6.99) wpada w obszar krytyczny (5.99,+niesk) odrzucamy Ho na korzyść H1: wykryto zależność miedzy szpitalami a stanem pacjenta na poziomie istotności 0.05 (szanse wyzdrowienia zależą od szpitala) Pearson's Chi-squared test data: rbind(niepopr, popr) X-squared = 6.9902, df = 2, p-value = 0.03035 p-value <0.05 Decyzja: p-value <0.05 odrzucamy H 0 Przykład Wiek Objawy astmy nie tak do 30 21 9 31-50 33 21 51-23 8

Pearson's Chi-squared test data: astmalecz1 X-squared = 1.6934, df = 2, p-value = 0.4288

Typy badań pozwalające oceniać powiązanie zmiennych Badania prospektywne kohortowe Ustalone liczności dla grup narażonych i nie narażonych na badany czynnik Obserwacje wystąpienia choroby w obu grupach Badania retrospektywne przypadekkontrola (case-control) Ustalona liczba przypadków i kontroli Określić kto był narażony na czynnik Schemat kohortowych badań prospektywnych Ch Nie chorujący Rozwój choroby (a) Narażeni Nie chorujący (c) Nie chorujący Rozwój choroby (b) Nie narażeni Nie chorujący (d) Teraz Przyszłość

Tabela 2 x 2 Szczepiony Nie szczepiony Polio (+) 82 162 Polio (-) 200663 201067 200745 201229 2 x 2 Y Badana choroba Choroba - Tak Nie X Narażeni na czynnik (szczepieni) a c Nie narażeni (nie szczepieni) b d n=a+b+c+d

Badania prospektywne Możemy oszacować ryzyko zachorowania liczba zachorowań w okresie badania całkowita liczba w kohorcie a + b ryzyko zachorowan ia = n 6/10000 Ryzyko względne (RR) RR = a a + c b b + d Ryzyko w grupie1 (narażonych) / ryzyko w grupie 2 (nie narażonych)

RR Ogólna interpretacja (RR) RR > 1 dodatnia zależność (pozytywny wpływ) czynnika ryzyka na rozwój choroby RR = 1 brak związku RR < 1 ujemna zależność (negatywny wpływ) The grupa referencyjna w mianowniku Grupa referencyjna wybierana jako nie narażeni Typ badań: Prospektywne badanie kohortowe Związek między antykoncepcją ustną (OC) a chorobami krążenia Plan badań: Identyfikacja 23000 (tych co stosują) oraz 23000 (nie stosują) Ustalić czy wystąpiło zachorowanie na choroby krążenia

C h o r o b a Wyniki tabela 2 x 2 Narażeni (Czynnik ryzyka) OC Nie stosują Tak 24 5 Nie 22976 22995 p <.001 (Fisher s Exact Test) 23000 23000 Ryzyko względne RR Estymator ryzyka względnego w przykładzie OC/choroby krążenia ˆ pˆ OC 24/23000 RR = = 4.8 pˆ 5/23000 = Nie OC Interpretacja U stosujących OC blisko 5 razy bardziej prawdopodobne jest wystąpienie chorób układu krążenia niż u nie stosujących

RR Uwaga: Można także estymować RR chorób krążenia dla nie stosujących ustnej antykoncepcji w stosunku do stosujących ˆ pˆ Nie 5/23000 OC RR* = = 0.21 ˆ 24/23000 = p OC RR ˆ * = 1 RR ˆ = 1 4.8 95% przedział ufności dla RR [ln RR 1.96* b d + ; a( a + b) c( c + d) ln RR + 1.96* b d + ] a( a + b) c( c + d) The 95% CI dla ryzyka względnego wystąpienia chorób układu krążenia u stosujących OC w porównaniu do nie stosujących wynosi 1.8 12.6 Warto zauważyć, że wyznaczony przedział nie zawiera 1

Pamiętać o próbkowym estymatorze vs parametr populacji Przypomnienie: H o : p 1 = p 2 H o : RR = 1 H 1 : p 1 p 2 H 1 : RR 1 p =.0004 z testu Chi-kwadrat RR vs poziom krytyczny (p-value) Duży RR nie znaczy że p-value jest małe Duży RR może wystąpić jeśli próbka jest mała Poziom krytyczny (p-value) zależy od zarówno od wielkości RR jak i rozmiaru próbki.

OR iloraz szans Szansa wystąpienia choroby jest zdefiniowana jako Pr awdopodobienstwo _ wystapienia _ choroby Pr awdopodobienstwo _ nie _ wystapienia _ choroby lub: Pr awdopodobienstwo _ wystapienia _ choroby 1 (Pr awdopodobienstwo _ wystapienia _ choroby) Dane w tabeli 2 x 2 OR C h o r o b a OC Tak Nie Tak 24 5 Nie 22976 22995 23000 23000

Iloraz szans OR Szansa wystąpienia choroby w grupie OC pˆ 1 pˆ 1 24 = 23000 22976 23000 1 = 24 22976 Szansa wystąpienia choroby w grupie nie -OC pˆ 2 1 pˆ 2 = 5 23000 22995 23000 = 5 22995 OR OR = 24 22976 5 22995 = 24 22995 5 22976 = 4.8

Dla dowolnej tabeli 2 x 2 Choroba OR = T N ad bc OR Czynnik narażenia T N a b c d > 1 Iloraz szans = 1 < 1 OR Ma podobną interpretację co RR: + powiazane nie są powiazane - powiazane H o : p 1 = p 2 H o : RR = 1 H o : OR = 1 H 1 : p 1 p 2 H 1 : RR 1 H 1 : OR 1 W poszukiwaniu związku występowania chorób i czynnika ryzyka 3 modele są równoznaczne

Schemat badań przypadek-kontrola Narażeni (a) Ch Niechorujący Nie narażeni (b) Chorzy przypadki Narażeni (c) Zdrowi Kontrola Nie narażeni (d) Przeszłość Teraźniejszość RR i OR w badaniach przypadekkontrola Nie możemy obliczać RR z badań typu przypadek kontrola Możemy obliczać iloraz szans OR

Przykład badań przypadekkontrola Związek między alkoholem i nowotworem przełyku Grupa 200 przypadków (case) and 775 (kontrolna) Pytamy o spożywanie alkoholu Ważne pytanie Czy możemy obliczyć prawdopodobieństwo wystąpienia nowotworu przy spożywaniu więcej niż 80 g alkoholu dziennie na podstawie badań przypadek-kontrola (case-control)? Wyniki tabela 2 x 2 Alkohol (g/dzień) > 80 < = 80 Przypadek 96 104 200 grupa kontr. 109 666 775 205 770

OR w badaniach przypadekkontrola W przykładzie alkohol/nowotwór przełyku: 96 666 Estymator ilorazu szans (ÔR) = = 5.64 109 104 Interpretacja U osobników z wysokim spożyciem alkoholu (> 80 gram/dzień) szansa wystąpienie nowotworu przełyku jest ponad pięciokrotnie wyższa niż szansa wystąpienia nowotworu przełyku u osobników z niższym spożyciem alkoholu OR W jaki sposób sprawdzić, czy OR w populacji jest równe 1, czy też nie jest równe 1? Dokładny test Fisher a χ 2 chi-kwadrat (test przybliżony) Obliczamy 95% przedział ufności dla OR w populacji.

Przedział ufności dla OR 95% CI dla ilorazu szans: [ OR ˆ exp( 1.96 1/ a + 1/ b + 1/ c + 1/ d OR ˆ exp(1.96 1/ a + 1/ b + 1/ c + 1/ d )] ); 95% przedział ufności i poziom krtytczny (p-value) 95% CI dla ilorazu szans wystąpienia nowotworu przełyku u osobników spożywających > 80 gramów alkoholu dziennie w porównaniu do spożywających 80 gramów lub mniej wynosi od 4 do 8 Poziom krytyczny (p-value) dla OR = 1 jest <0.0001

Y OR Tabela 2. Liczności obserwowane w badaniu złamań Źródło: Patrie 2006 str 43 X leczone HRT nie leczone HRT łącznie ----------------------------------------------------------------------------------------- z złamaniem (chore) 40(a) 1287(b) 1327 bez zlamania (kontrola) 239(c) 3023(d) 3262 ------------------------------------------------------------------------------------------ razem 279 4310 4589 O1=(40/1327)/(1- (40/1327)) # 0.031 O2=(239/3262)/(1- (239/3262)) #0.079 OR=O1/O2 # 0.39 (40/1287)/(239/3023) #0.39 (40*3023)/ (239*1287) #0.39 OR iloraz szans O i = p i /(1-p i ) OR = O O 1 2 1 1 1 1 1 1 1 1 [ OR *exp(1.96* + + + ) ; OR *exp(1.96* + + )] a b c d a b c + d

Interpretacja OR=1 brak zależności miedzy czynnikiem (HRT X) a zmienną objaśnianą (złamania Y) OR>1 szkodliwy wpływ związany z narażeniem na czynnik OR<1 protekcyjny charakter badanego czynnika względem wystąpienie zmiennej objaśnianej