Bioiformatyka - rozwój oferty edukacyjej Uiwersytetu Przyrodiczego we Wrocławiu projekt realizoway w ramach Programu Operacyjego Kapitał Ludzki współfiasowaego ze środków Europejskiego Fuduszu Społeczego Wykład 3 Wioskowaie o proporcjach: test istotości dla pojedyczej proporcji test chi-kwadrat zgodości test chi-kwadrat iezależości Proporcja p - p-stwo sukcesu w pojedyczej próbie (proporcja osobików o ustaloej charakterystyce w całej populacji). Pobieramy próbę rozmiaru. X - liczba sukcesów w próbie. Jeżeli jest małe w stosuku do rozmiaru populacji, to X ma w przybliżeiu rozkład dwumiaowy z parametrami µ = p ad σ = p(1 p) Wioskowaie o proporcjach p ˆ = X/ Używamy próbkowej proporcji jako estymatora proporcji w całej populacji. jest ieobciążoym estymatorem p, o średiej i SD: p ad p(1 p) Gdy jest duże, ma w przybliżeiu rozkład ormaly. Tak więc z = p p(1 p)/ ma w przybliżeiu stadardowy rozkład ormaly. Klasycze przedziały ufości Stadardowy błąd wyosi (1 ) SE( ) = Przybliżoy przedział ufości a poziomie ufości C : p± z SE( ) = ± z gdzie P(Z z*) = (1 C)/2. (1 ) * * ˆ
Przykład: Program telewizyjy ogłosił akietę a temat propoowaego zakazu posiadaia broi palej. Do programu zadzwoiło 2372 ludzi. Spośród ich, 1921 było przeciwko zakazowi. Skostruuj 95% przedział ufości opisujący preferecje całej populacji. Czy to badaie jest wiarygode? SAS data fractio; iput ba $ cout; cards; yes 451 o 1921 ; proc freq order=freq; weight cout; tables ba/ biomial alpha=0.01; The FREQ Procedure Cumulative Cumulative ba Frequecy Percet Frequecy Percet o 1921 80.99 1921 80.99 yes 451 19.01 2372 100.00 Biomial Proportio for ba = o Proportio 0.8099 ASE 0.0081 99% Lower Cof Limit 0.7891 99% Upper Cof Limit 0.8306 Exact Cof Limits 99% Lower Cof Limit 0.7883 99% Upper Cof Limit 0.8302 Testowaie Gdy jest duże, ma w przybliżeiu rozkład ormaly, więc p z = p(1 p) / ma w przybliżeiu stadardowy rozkład ormaly. Możemy testować H 0 : p = p 0 przeciwko alteratywom: H a : p > p 0 H a : p < p 0 H a : p p 0 Testowaie Testowaie w dużych próbach Hipoteza zerowa H 0 : p = p 0 Statystyka testowa p0 z = p (1 p ) / Alteratywa P-wartość 0 0 Jak duża musi być próba aby korzystać z przybliżeia rozkładem ormalym? Praktycze wskazaie p 10, (1 p ) 10 0 0 H a : p > p 0 P(Z z) H a : p < p 0 P(Z z) H a : p p 0 2P(Z z )
Przykład: Władze uczeli twierdzą, że tylko 34% studetów pracuje. Przeprowadzoo eksperymet aby obalić tę tezę (powszechie się sądzi, że więcej studetów pracuje.) Przepytao 100 losowo wybraych studetów i okazało się, że 47 z ich pracuje. Czy a poziomie istotości α = 0.05 mamy wystarczające przesłaki aby twierdzić, że poad 34% studetów pracuje. SAS data work; iput work $ cout; cards; yes 47 o 53 ; proc freq; weight cout; tables work/ biomial (p=0.34 level='yes'); Biomial Proportio for work = yes Proportio 0.4700 ASE 0.0499 95% Lower Cof Limit 0.3722 95% Upper Cof Limit 0.5678 Exact Cof Limits 95% Lower Cof Limit 0.3694 95% Upper Cof Limit 0.5724 Test of H0: Proportio = 0.34 ASE uder H0 0.0474 Z 2.7443 Oe-sided Pr > Z 0.0030 Two-sided Pr > Z 0.0061 Test rówoważości ods graphics o; proc freq; weight cout; tables work/ biomial (equiv p=.34 margi=.05); SAS Czy frakcja ludzi z wyższym wykształceiem (magister lub wyżej) w amerykańskiej populacji przekracza 10 %? data idividuals; ifile 'c:/users/mbogda/ecmi/data/idividuals. dat'; iput id age edu ge icome class; proc freq; tables edu/ biomial (p=0.10 level=6);
Biomial Proportio for edu = 6 Proportio 0.1002 ASE 0.0013 95% Lower Cof Limit 0.0977 95% Upper Cof Limit 0.1027 Exact Cof Limits 95% Lower Cof Limit 0.0977 95% Upper Cof Limit 0.1027 Test zgodości chi-kwadrat Dae jakościowe; próba losowa rozmiaru. Dyspoujemy hipotetyczymi wartościami proporcji π w każdej z klas. Test of H0: Proportio = 0.1 ASE uder H0 0.0013 Z 0.1565 Oe-sided Pr > Z 0.4378 Two-sided Pr > Z 0.8756 Najprostszy przykład- dwie klasy Przykład: Mamy dwie liie homozygotycze muszki owocówki: jeda ma czerwoe oczy, a druga fioletowe. Chcemy przetestować hipotezę, że allel czerwoych oczu jest domiujący. W tym celu wychodowaliśmy 43 muszki z populacji F2 : 29 ma oczy czerwoe a 14 fioletowe. Klasy: Oczy czerwoe; hipotetycze p-stwo π = 3/(3+1) = 0.75 oczekiwaa liczba: E1 = (43)(0.75) = 32.25 Oczy fioletowe; hipotetycze p-stwo 1 π = 1/(3+1) = 0.25 oczekiwaa" liczba: E2 = (43)(0.25) = 10.75 Czy allel oczu czerwoych jest domiujący? Test zgodości chi-kwadrat π - p-stwo, że muszka z populacji F2 ma czerwoe oczy H0: π = 0.75; HA: π 0.75; Χ 2 = Σ(obserwowaa - oczekiwaa) 2 / oczekiwaa = Σ(O-E) 2 /E Jeżeli zachodzi HO to Χ 2 ma w przybliżeiu rozkład chi-kwadrat z df = #klas - 1 = 1. Test a poziomie α = 0.05 ; Wartość krytycza = 3.84
Rozkład chi-kwadrat z df=2 i 4: 2 2 P-wartość: P( χ X ) Zawsze po prawej stroie rozkładu. SAS data flies; iput eyes $ cout; cards; purple 14 red 29 ; proc freq; weight cout; tables eyes/ chisq testp=(0.25 0.75); exact chisq; Cumulative Cumulative eyes Frequecy Percet Percet Frequecy Percet purple 14 32.56 25.00 14 32.56 red 29 67.44 75.00 43 100.00 Chi-Square Test for Specified Proportios --------------------------------------- Chi-Square 1.3101 DF 1 Asymptotic Pr > ChiSq 0.2524 Exact Pr >= ChiSq 0.2894 Sample Size = 43 proc freq; weight cout; tables eyes/ biomial (p=0.25); Test of H0: Proportio = 0.25 ASE uder H0 0.0660 Z 1.1446 Oe-sided Pr > Z 0.1262 Two-sided Pr > Z 0.2524 Więcej iż dwie kategorie Przykład: U groszków, allel odpowiedzialy za fioletowy kolor kwiatów (F) domiuje a allelem koloru czerwoego (f), a allel wydłużoych ziare pyłku (D) domiuje ad allelem okrągłych ziare (d). Dyspoujemy dwiema homozygotyczymi populacjam: P1, gdzie oba allele są domiujące (FFDD) i P2, gdzie oba allele są recesywe. W populacji F1 wszystkie osobiki mają geotypy FfDd i mają fioletowe kwiaty i wydłużoe ziara pyłku. Te osobiki astępie się krzyżuje aby uzyskać populację F2. Spodziewamy się, że gey kotrolujące obie cechy leżą a jedym chromosomie w odległości 20 cm. Jeżeli tak rzeczywiście jest to cechy feotypowe osobików w populacji F2 powiy dzielić się w proporcjach 66:9:9:16
66% fioletowe/wydłużoe : FFDD lub FfDD lub FFDd lub FfDd, 9% fioletowe/okrągłe : FFdd lub Ffdd, 9% czerwoe/wydłużoe : ffdd lub ffdd, 16% czerwoe/okrągłe : ffldd Wyhodowao 381 osobików z populacji F2 i zaobserwowao 284 fioletowe/wydłużoe 21 fioletowe/okrągłe 21 czerwoe/wydłużoe 55 czerwoe/okrągłe Czy dae są zgode z założoym modelem geetyczym? π1, π2, π3, π4 p-stwa odpowiedio fioletowe/wydłużoe, fioletowe/okrągłe, czerwoe/wydłużoe, czerwoe/okrągłe. H0: π1=0.66, π2 = 0.09, π3=0.09, π4=0.16 ; p-stwa wyliczoe w oparciu o założoy model geetyczy HA: specyfikacja p-stw w H0 ie odpowiada rzeczywistości Stosujemy test chi-kwadrat z df = #klas - 1 = 4-1 = 3 Χ 2 = Σ(O-E) 2 /E ma w przybliżeiu rozkład χ 2 3 przy H0. data peas; iput colour $ shape $ cout; cards; purple log 284 purple roud 21 red log 21 red roud 55 ; data peas; set peas; if ((colour eq 'purple')*(shape eq 'log')) the cs='pl'; if ((colour eq 'purple')*(shape eq 'roud')) the cs='pr'; if ((colour eq 'red')*(shape eq 'log')) the cs='rl'; if ((colour eq 'red')*(shape eq 'roud')) the cs='rr'; odds graphics o; proc freq data=peas; weight cout; tables cs/ chisq testp=(0.66 0.09 0.09 0.16); exact chisq; The FREQ Procedure Test Cumulative Cumulative cs Frequecy Percet Percet Frequecy Percet pl 284 74.54 66.00 284 74.54 pr 21 5.51 9.00 305 80.05 rl 21 5.51 9.00 326 85.56 rr 55 14.44 16.00 381 100.00 Chi-Square Test for Specified Proportios --------------------------------------- Chi-Square 15.0953 DF 3 Asymptotic Pr > ChiSq 0.0017 Exact Pr >= ChiSq 0.0019 Sample Size = 381 Test iezależości Przykład: Czy kobiety i mężczyźi ćwiczą z tych samych powodów? Przepytao 67 kobiet i mężczyz 67. Wyiki: Warukowe rozkłady dla kobiet i mężczyz. HSC-HM kobiety 14 HSC-HM mężczyźi 31 HSC-LM kobiety 7 HSC-LM mężczyźi 18 LSC-HM kobiety 21 LSC-HM mężczyźi 5 LSC-LM kobiety 25 LSC-LM mężczyźi 13 Opis: HSC (LSC)-high (low) social compariso ; HM (LM)-high (low) mastery
Testowaie w tabelach dwu-dzielczych H 0 : ie ma związku między zmieą opisującą wiersze a zmieą opisującą kolumy (zmiee te są iezależe) H a : zmiee opisujące wiersze i kolumy są zależe. Aby przetestować hipotezę zerową, porówujemy zaobserwowae liczby w komórkach tabeli z ich wartościami oczekiwaymi, wyliczoymi przy założeiu,że hipoteza zerowa jest prawdziwa. oczekiwaa liczba w komórce (i,j) = (liczba obserwacji w i tym rzędzie) x (liczba obserwacji w j tej kolumie)/ Tutaj = całkowita liczba obserwacji X = Statystyka testowa ( ) 2 2 observed cout - expected cout expected cout Rozkład chi-kwadrat Statystyka X 2 ma w przybliżeiu rozkład chikwadrat. df=(r-1)(c-1)=(#rzędów-1)(#kolum-1). W aszym przykładzie (4-1)(2-1)=3 df. proc freq see SAS file: 9-1.sas proc freq data=sport; tables goal*sex/expected chisq; weight cout; exact chisq fisher; ru; The FREQ Procedure (output): Statistics for Table of goal by sex Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 3 24.8978 <.0001 Likelihood Ratio Chi-Square 3 26.0362 <.0001 Matel-Haeszel Chi-Square 1 16.2249 <.0001 Phi Coefficiet 0.4311 Cotigecy Coefficiet 0.3958 Cramer's V 0.4311 Sample Size = 134 Fisher's Exact Test ---------------------------------- Table Probability (P) 1.907E-08 Pr <= P 1.288E-05 Sample Size = 134
Paradoks Simpsoa: Reguła, która zachodzi w każdej z kilku klas może zmieić się a przeciwą jeżeli dae zgrupujemy. Przykład : Liczby puktualych i spóźioych lotów dla dwóch liii loticzych i 5 lotisk. Zwykle w podsumowaiach pojawiają się zbiorcze wyiki dla każdej z liii. Nasz przykład pokaże, że takie podsumowaia mogą być zwodicze/iesprawiedliwe. Alaska Airlies America West Puk. Spóź. Suma Puk. Spóź. Suma L.A. 497 62 559 694 117 811 Phoeix 221 12 233 4840 415 5255 Sa Diego 212 20 232 383 65 448 Sa 503 102 605 320 129 449 Fracisco Seattle 1841 305 2146 201 61 262 Total 501 3775 787 7225 Procet spóźień Niebezpieczeństwo uproszczeń Lotisko L.A. Phoeix Sa Diego Sa Fracisco Seattle Alaska Airlies 11% 5% 8.6% 17% 14.2% America West 14.4% 7.9% 14.5% 28.8% 23.2% W tym przykładzie występowały trzy zmiee: liia loticza, puktualość i lotisko. Takie dae często reprezetuje się w postaci kilku tabel dwu-dzielczych. Takie uproszczeia igorujące trzecią zmieą (tutaj lotisko) mogą prowadzić do błędych wiosków. Łączie 13.3% 10.9% Kiedy moża stosować rozkład chi-kwadrat: Przykład: Rozkład chi-kwadrat tym lepiej przybliża rozkład statystyki testowej im więcej jest obserwacji w poszczególych komórkach i im więcej jest komórek. Dla tabel większych iż 2x2: moża stosować przybliżeie rozkładem chikwadrat jeżeli: średia z oczekiwaej liczby obserwacji w pojedyczych komórkach jest ie miejsza iż 5 ajmiejsza oczekiwaa licza obserwacji w pojedyczej komórce jest ie miejsza iż 1 <20% komórek ma oczekiwaą liczbę obserwacji miejszą iż 5. Dla tabel 2x2: moża stosować przybliżeie rozkładem chi-kwadrat jeżeli oczekiwaa liczba obserwacji w każdej z czterech komórek jest ie miejsza od 5. 356 ochotików sklasyfikowao pod względem statusu socio-ekoomiczego (SES) i awyku paleia. Czy paleie ma związek z SES? smokig SES Frequecy Percet Row Pct Col Pct high low middle Total curret 51 43 22 116 14.33 12.08 6.18 32.58 43.97 37.07 18.97 24.17 46.24 42.31 former 92 28 21 141 25.84 7.87 5.90 39.61 65.25 19.86 14.89 43.60 30.11 40.38 ever 68 22 9 99 19.10 6.18 2.53 27.81 68.69 22.22 9.09 32.23 23.66 17.31 Total 211 93 52 356 59.27 26.12 14.61 100.00
Paleie ma związek z SES: Statistics for Table of smokig by SES smokig SES Frequecy Expected Percet Row Pct Col Pct high low middle Total curret 51 43 22 116 68.753 30.303 16.944 14.33 12.08 6.18 32.58 43.97 37.07 18.97 24.17 46.24 42.31 former 92 28 21 141 83.57 36.834 20.596 25.84 7.87 5.90 39.61 65.25 19.86 14.89 43.60 30.11 40.38 ever 68 22 9 99 58.677 25.862 14.461 19.10 6.18 2.53 27.81 68.69 22.22 9.09 32.23 23.66 17.31 Total 211 93 52 356 59.27 26.12 14.61 100.00 Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 4 18.5097 0.0010 Likelihood Ratio Chi-Square 4 18.6635 0.0009 Matel-Haeszel Chi-Square 1 12.2003 0.0005 Phi Coefficiet 0.2280 Cotigecy Coefficiet 0.2223 Cramer's V 0.1612 Sample Size = 356 Przykład (Wpływ aspiryy): 21,996 amerykańskich lekarzy (mężczyz). Połowa z ich brała regularie aspiryę. Po 3 latach, 139 z tych którzy brali aspiryę i 239 z tych którzy brali placebo mieli atak serca. Ustal czy jest związek między braiem aspiryy a ryzykiem ataku serca. fate treatmet Frequecy Expected Percet Row Pct Col Pct aspiri placebo Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ heart_at 139 239 378 189 189 0.63 1.09 1.72 36.77 63.23 1.26 2.17 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ o_heart 10859 10759 21618 10809 10809 49.37 48.91 98.28 50.23 49.77 98.74 97.83 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 10998 10998 21996 50.00 50.00 100.00 Statistics for Table of fate by treatmet Statistic DF Value Prob ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Chi-Square 1 26.9176 <.0001 Likelihood Ratio Chi-Square 1 27.2352 <.0001 Cotiuity Adj. Chi-Square 1 26.3819 <.0001 Matel-Haeszel Chi-Square 1 26.9164 <.0001 Phi Coefficiet -0.0350 Cotigecy Coefficiet 0.0350 Cramer's V -0.0350 Fisher's Exact Test ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Cell (1,1) Frequecy (F) 139 Left-sided Pr <= F 1.203E-07 Right-sided Pr >= F 1.0000 Table Probability (P) Two-sided Pr <= P 5.228E-08 2.407E-07 Sample Size = 21996 Coclusio: Aspiri reduces chace of heart attack (P<.0001).