Wykład 11: Analiza danych w tablicach dwudzielczych

Podobne dokumenty
Wykład 12: Tablice wielodzielcze

Badanie zależności zmiennych kolumnowej i wierszowej:

Jednoczynnikowa analiza wariancji. Wnioskowanie dla jednoczynnikowej ANOV-y. Porównywanie poszczególnych średnich

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

PODSTAWY STATYSTYKI SEMINARIUM 3 ! UWAGA! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE

STATYSTYKA MATEMATYCZNA

Stanisław Cichocki. Natalia Nehrebecka

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wykład 8 Dane kategoryczne

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

STATYSTYKA MATEMATYCZNA

Proporcja. Wykład 3. Wnioskowanie o proporcjach. Klasyczne przedziały ufności

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Stanisław Cichocki. Natalia Nehrebecka

STATYSTYKA MATEMATYCZNA

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Matematyka i statystyka matematyczna dla rolników w SGGW

Statystyka matematyczna Test χ 2. Wrocław, r

Statystyczna analiza danych

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

STATYSTYKA MATEMATYCZNA

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Wykład 11 Testowanie jednorodności

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Testowanie hipotez statystycznych.

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Statystyka w analizie i planowaniu eksperymentu

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Własności statystyczne regresji liniowej. Wykład 4

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

(LMP-Liniowy model prawdopodobieństwa)

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Heteroskedastyczość w szeregach czasowyh

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Testowanie hipotez statystycznych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Testowanie hipotez statystycznych.

STATYSTYKA MATEMATYCZNA WYKŁAD 1

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

SAS 4GL ODS, przykładowe procedury.

Wydział Matematyki. Testy zgodności. Wykład 03

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Przykład 1. (A. Łomnicki)

Testowanie hipotez statystycznych

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Wykład 9 Wnioskowanie o średnich

Egzamin z ekonometrii - wersja ogólna

Regresja logistyczna (LOGISTIC)

Statystyka matematyczna i ekonometria

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Przedziały ufności i testy parametrów. Przedziały ufności dla średniej odpowiedzi. Interwały prognoz (dla przyszłych obserwacji)

Testowanie hipotez statystycznych

CYFROWE PRZETWARZANIE SYGNAŁÓW

S t a t y s t y k a, część 3. Michał Żmihorski

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Wykład 3 Hipotezy statystyczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Diagnostyka w Pakiecie Stata

Modele warunkowej heteroscedastyczności

Wykład 8: Testy istotności

Wprowadzenie do estymacji rozkładów w SAS.

STATYSTYKA MATEMATYCZNA WYKŁAD 5 TEST T

Prawdopodobieństwo i rozkład normalny cd.

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Uwaga! Test studenta dla pojedynczej próby, niekierunkowy. Wykład 9: Testy Studenta. Test Studenta dla jednej próby, kierunkowy

Rozkład prędkości statków na torze wodnym Szczecin - Świnoujście

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Metody Statystyczne. Metody Statystyczne

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testy post-hoc. Wrocław, 6 czerwca 2016

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Diagnostyka w Pakiecie Stata

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

Transkrypt:

Wykład 11: Analiza danych w tablicach dwudzielczych opisywanie relacji w tablicach dwudzielczych rozkłady łączne, brzegowe i warunkowe test chi-kwadrat dla niezależności paradoks Simpsona

Przykład 1: Czy mężczyźni i kobiety uprawiają sport z tych samych powodów? Przebadano 67 mężczyzn i 67 kobiet. Wyniki: HSC-HM: kobiety 14, mężczyźni 31 HSC-LM: kobiety 7, mężczyźni 18 LSC-HM: kobiety 21, mężczyźni 5 LSC-LM: kobiety 25, mężczyźni 13 Legenda: HSC (LSC)=high (low) social comparison; HM (LM)=high (low) mastery

Table of goal by sex (a Two-Way table) goal sex Frequency Percent % female male Total HSC-HM 14 31 10.45 HSC-LM 7 18 LSC-HM 21 5 LSC-LM 25 13 Total 134 Here: goal -row variable, sex -column variable Exercise: complete Percent=the joint distribution of goal and sex

goal sex Frequency Percent % Row Pct % Col Pct % female male Total HSC-HM 14 31 45 10.45 23.13 33.58 HSC-LM 7 18 28.00 72.00 10.45 26.87 LSC-HM 21 5 15.67 3.73 LSC-LM 25 13 18.66 9.70 Total 134 100.00 Exercise: Find the marginal distribution of goal. Find the marginal distribution of sex.

MARGINAL distribution of goal in this study: Cumulative Cumulative goal Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ HSC-HM 45 33.58 45 33.58 HSC-LM 25 18.66 70 52.24 LSC-HM 26 19.40 96 71.64 LSC-LM 38 28.36 134 100.00 Percentage ***** ***** ***** ***** 30 ˆ ***** ***** 25 ˆ ***** ***** 20 ˆ ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** 15 ˆ ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** 10 ˆ ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** 5 ˆ ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ HSC-HM HSC-LM LSC-HM LSC-LM

MARGINAL distribution of sex in this study: Cumulative Cumulative sex Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ female 67 50.00 67 50.00 male 67 50.00 134 100.00 Percentage 50 ˆ ***** ***** 40 ˆ ***** ***** 30 ˆ ***** ***** 20 ˆ ***** ***** 10 ˆ ***** ***** Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ female male

Conditional distribution (of goal given sex): goal sex Frequency Percent Col Pct female male Total HSC-HM 14 31 45 10.45 23.13 33.58 20.90 HSC-LM 7 18 25 5.22 13.43 18.66 LSC-HM 21 5 26 15.67 3.73 19.40 LSC-LM 25 13 38 18.66 9.70 28.36 Total 67 67 134 50.00 50.00 100.00 Exercise: Find the distribution of goals among females= conditional distribution of goal given that sex=female.

A Summary of the calculations: goal sex Frequency Percent Row Pct Col Pct female male Total HSC-HM 14 31 45 10.45 23.13 33.58 31.11 68.89 20.90 46.27 HSC-LM 7 18 25 5.22 13.43 18.66 28.00 72.00 10.45 26.87 LSC-HM 21 5 26 15.67 3.73 19.40 80.77 19.23 31.34 7.46 LSC-LM 25 13 38 18.66 9.70 28.36 65.79 34.21 37.31 19.40 Total 67 67 134 50.00 50.00 100.00

Notacja matematyczna Pr(cel=HSC&HM płeć=kobieta)=20.90 Pr(cel=LSC&HM płeć=kobieta)= Pr(cel=HSC&HM płeć=mężczyzna)= Pr(cel=LSC&HM płeć=mężczyzna)= Ogólnie: Pr(A B):=Pr(A B)/P(B) Pr(cel=HM płeć=kobieta)= Pr(cel=HM płeć=kobieta)=

Wnioskowanie statystyczne dla tablic dwudzielczych Testowanie hipotez za pomocą tabel dwudz. H 0 : nie ma zależności między zmiennymi wierszową i kolumnową H a : istnieje zależność Aby przetestować te hipotezy, porównaj obserwowaną liczbę komórek z oczekiwaną liczbą komórek. Oczekiwana = obliczona przy założeniu, że hipoteza zerowa jest prawdziwa.

Expected count := row total column total n Tutaj n = łączna liczb obserwacji dla tabeli.

Exercise: Calculate EXPECTED counts. goal sex Frequency Expected Percent Row Pct Col Pct female male Total HSC-HM 14 31 45 22.5 10.45 23.13 33.58 31.11 68.89 20.90 46.27 HSC-LM 7 18 25 5.22 13.43 18.66 28.00 72.00 10.45 26.87 LSC-HM 21 5 26 15.67 3.73 19.40 80.77 19.23 31.34 7.46 LSC-LM 25 13 38 18.66 9.70 28.36 65.79 34.21 37.31 19.40 Total 67 67 134 50.00 50.00 100.00

Statystyka testowa: Statystyka Chi-kwadrat X 2 observed count - expected count 2 expected count

If Z 1, Z 2,..., then X Z 2 1 Z k Definition : areindependen t N(0,1) variables, Z 2 2... Z 2 k has the 2 k distributi on. Statystyka X 2 ma w przybliżeniu rozkład chi-kwadrat z stopniami swobody df= (r-1)(c-1). W naszym przykładzie, df=(4-1)(2-1)=3.

Rozkłady Chi-kwadrat z df = 2 i 4:

P-wartość P dla testu chi-kwadrat: To prawy ogon rozkładu. P 2 2 ( X )

Finale: Czy mężczyźni i kobiety uczestniczą w sporcie z tych samych powodów? Frequency Expected Percent Row Pct Col Pct female male Total HSC-HM 14 31 45 22.5 22.5 10.45 23.13 33.58 31.11 68.89 20.90 46.27 HSC-LM 7 18 25 12.5 12.5 5.22 13.43 18.66 28.00 72.00 10.45 26.87 LSC-HM 21 5 26 13 13 15.67 3.73 19.40 80.77 19.23 31.34 7.46 LSC-LM 25 13 38 19 19 18.66 9.70 28.36 65.79 34.21 37.31 19.40 Total 67 67 134 50.00 50.00 100.00

Rozwiązanie: 2 2 observed count - expected count X expected count

Typowy wydruk z oprogramowania (SAS, procedura FREQ): Statistics for Table of goal by sex Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 3 24.8978 <.0001 Likelihood Ratio Chi-Square 3 26.0362 <.0001 Mantel-Haenszel Chi-Square 1 16.2249 <.0001 Phi Coefficient 0.4311 Contingency Coefficient 0.3958 Cramer's V 0.4311 Sample Size = 134

Zasady korzystania z testu: Test chi-kwadrat staje się dokładniejszy, gdy liczba obserwacji w komórce jest znaczna. W przypadku tabel większych niż 2x2: użyj testu chikwadrat, gdy: średnia oczekiwanych wartości wynosi 5 lub więcej najmniejsza oczekiwana wartość to 1 lub więcej <20% komórek ma oczekiwane wartości mniejsze niż 5. Dla tabel 2x2: użyj testu chi-kwadrat gdy wszystkie 4 oczekiwane wartości wynoszą 5 lub więcej

Przykład 2: 356 volunteers classified according socioeconomic status (SES) and smoking habits. Czy palenie jest związane z SES? smoking SES Frequency Percent Row Pct Col Pct high low middle Total ƒƒƒƒƒƒƒƒˆ current 51 43 22 116 14.33 12.08 6.18 32.58 43.97 37.07 18.97 24.17 46.24 42.31 ƒƒƒƒƒƒƒƒˆ former 92 28 21 141 25.84 7.87 5.90 39.61 65.25 19.86 14.89 43.60 30.11 40.38 ƒƒƒƒƒƒƒƒˆ never 68 22 9 99 19.10 6.18 2.53 27.81 68.69 22.22 9.09 32.23 23.66 17.31 ƒƒƒƒƒƒƒƒˆ Total 211 93 52 356 59.27 26.12 14.61 100.00

Palenie jest związane z SES: smoking SES Frequency Expected Percent Row Pct Col Pct high low middle Total ƒƒƒƒƒƒƒƒˆ current 51 43 22 116 68.753 30.303 16.944 14.33 12.08 6.18 32.58 43.97 37.07 18.97 24.17 46.24 42.31 ƒƒƒƒƒƒƒƒˆ former 92 28 21 141 83.57 36.834 20.596 25.84 7.87 5.90 39.61 65.25 19.86 14.89 43.60 30.11 40.38 ƒƒƒƒƒƒƒƒˆ never 68 22 9 99 58.677 25.862 14.461 19.10 6.18 2.53 27.81 68.69 22.22 9.09 32.23 23.66 17.31 ƒƒƒƒƒƒƒƒˆ Total 211 93 52 356 59.27 26.12 14.61 100.00 Statistics for Table of smoking by SES Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 4 18.5097 0.0010 Likelihood Ratio Chi-Square 4 18.6635 0.0009 Mantel-Haenszel Chi-Square 1 12.2003 0.0005 Phi Coefficient 0.2280 Contingency Coefficient 0.2223 Cramer's V 0.1612 Sample Size = 356

Przykład 3 (ponownie aspiryna): 21 996 amerykańskich lekarzy. Połowa z nich zażywała aspirynę. Po 3 latach 139 osób, które zażywały aspirynę i 239 osób przyjmujących placebo, miało zawał serca. Ustal, czy istnieje związek ASA i zawał serca.

Table of treatment by fate SAS: The FREQ Procedure treatment fate Statistics for Table of treatment by fate Frequency Expected Percent Row Pct Col Pct heart_at no_heart Total aspirin 139 10859 10998 189 10809 0.63 49.37 50.00 1.26 98.74 36.77 50.23 placebo 239 10759 10998 189 10809 1.09 48.91 50.00 2.17 97.83 63.23 49.77 Total 378 21618 21996 1.72 98.28 100.00 Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 1 26.9176 <.0001 Likelihood Ratio Chi-Square 1 27.2352 <.0001 Continuity Adj. Chi-Square 1 26.3819 <.0001 Mantel-Haenszel Chi-Square 1 26.9164 <.0001 Phi Coefficient -0.0350 Contingency Coefficient 0.0350 Cramer's V -0.0350 Fisher's Exact Test ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Cell (1,1) Frequency (F) 139 Left-sided Pr <= F 1.203E-07 Right-sided Pr >= F 1.0000 Table Probability (P) Two-sided Pr <= P Sample Size = 21996 5.228E-08 2.407E-07 Uwaga: Test na niezależności w tabelach dwudzielczych jest równoważny z testem (dwustronnym) dla równości dwóch proporcji.

Paradoks Simpsona: Skojarzenie lub porównanie dla wszystkich grup może odwrócić kierunek, gdy dane zostaną połączone w jedną grupę. Może to być spowodowane zmienną ukrytą.

Przykład 4: Oto liczba lotów na czas i opóźniona dla 2 linii lotniczych na 5 lotniskach. Ogólnie % lotów na czas dla każdej linii lotniczej są często zgłaszane w wiadomościach. Zmienne ukryte mogą sprawić, że takie raporty będą mylące. Alaska Airlines America West On time Delayed Total On Time Delayed Total L.A. 497 62 559 694 117 811 Phoenix 221 12 233 4840 415 5255 San Diego 212 20 232 383 65 448 San Francisco 503 102 605 320 129 449 Seattle 1841 305 2146 201 61 262 Total 501 3775 787 7225

a) Znajdź % opóźnionych lotów Alaska Airlines na każdym z 5 lotnisk, a następnie wykonaj to samo dla America West. (Uwaga: nie są to prawdopodobieństwa z jednego rozkładu.) Alaska Airlines America West L.A. Phoenix San Diego San Francisco Seattle b) Jaki % wszystkich lotów Alaska Airlines był opóźniony? Jaki % wszystkich lotów America West był opóźniony? (Są to najczęściej podawane dane.) c) Ameryka West ma gorsze wyniki na każdym z 5 lotnisk, ale ogólnie jest lepsza. Niemożliwe?? Wyjaśnij ostrożnie, odnosząc się do danych, w jaki sposób może się to zdarzyć.

Perils of aggregation This example was essentially a Three-Way table with variables: airline, timing, airport. Such tables are often reported as several twoway tables (think a book, rather than a page). Adding entries of such elementary tables to get the overall summary is aggregation and leads to ignoring the third variable (here: airport). This may lead to false general conclusions.