STATYSTYKA MATEMATYCZA 1. Wykład wstępny. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. ajczęściej wykorzystywane testy statystyczne I 6. ajczęściej wykorzystywane testy statystyczne II 7. Regresja liniowa 8. Regresja nieliniowa 9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej 10. Korelacja 11. Elementy statystycznego modelowania danych 1. Porównywanie modeli 13. Analiza wariancji 14. Analiza kowariancji 15. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja
WSTĘP 1. Test F. Test Kruskala-Wallisa 3. Test c Zakres stosowania Definicja Przykład Copyright 018, Joanna Szyda
WSTĘP TEST HIPOTEZY PRÓBA DAYCH Copyright 018, Joanna Szyda
TEST F
TEST F - ZAKRES STOSOWAIA 1. Porównanie zmienności. Dane ciągłe 3. Rozkład normalny 4. Warianty testu: Analiza wariancji one-way AOVA Regresja H : 0 A e Copyright 018, Joanna Szyda
TEST F - AALIZA WARIACJI PRÓBA DAYCH 1. Zawartość azotu w trzcinie (% suchej masy). 3 lokalizacje (A, B, C), pomiar w 1996 r. 3. Flowermere, hrabstwo Cambridge A B C 3.06 3.41.9.60 3.3.88.55 3.93 3.5.4 3.74.64.35 3.18 3.8 Copyright 018, Joanna Szyda
TEST F - AALIZA WARIACJI 1. Określenie hipotez H 0 i H 1 H 0 : lokalizacje nie mają wpływu na zawartość azotu H 1 : lokalizacje wpływają na zawartość azotu H 0 : i, j μ i = μ j H 1 : i, j μ j μ j. Ustalenie poziomu istotności lok lok e e MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego: F i1 g i i1 g n n i j1 y g y i 1 ij g y y i Copyright 018, Joanna Szyda
TEST F - AALIZA WARIACJI 3. Wybór i obliczenie wartości testu statystycznego F i1 g n i i1 g n i j1 y g y i 1 ij g y y i.04 31 1.03 15 3 11.95 ~ F 4. Określenie rozkładu testu: g 1, g 5. Obliczenie wartości t : t 0. 00139 Excel: przykład 6. Decyzja: t < max H 0 H 1 lokalizacje wpływają na zawartość azotu w suchej masie trzciny Copyright 018, Joanna Szyda
TEST F - ZAKRES STOSOWAIA 1. Porównanie zmienności. Dane ciągłe 3. Rozkład normalny 4. Warianty testu: Analiza wariancji Regresja regression H 0 : = 0 Copyright 018, Joanna Szyda
TEST F - REGRESJA MASA CIAŁA ZAW. TŁUSZCZU 89 8 88 7 PRÓBA DAYCH 1. Masa ciała [kg] i grubość tkanki tłuszczowej [mm]. 10 osób dorosłych, różnej płci, tej samej rasy 66 4 59 3 93 9 73 5 8 9 77 5 100 30 67 3 Copyright 018, Joanna Szyda
TEST F - REGRESJA 1. Określenie hipotez H 0 i H 1 H 0 : grubość tkanki tłuszczowej nie zależy od masy ciała H 1 : grubość tkanki tłuszczowej zależy od masy ciała H 0 : 1 = 0 H 1 : 1 0. Ustalenie poziomu istotności MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego: F i1 i1 yˆ yˆ i i y 1 y i Copyright 018, Joanna Szyda
TEST F - REGRESJA 3. Wybór i obliczenie wartości testu statystycznego F i1 i1 yˆ yˆ i i 1 y y i 58. 5 9.08 1 10 51.3 4. Określenie rozkładu testu: ~ F 1, 5. Obliczenie wartości t : t 0. 000096 Excel: przykład 6. Decyzja: t < max H 0 H 1 grubość tkanki tłuszczowej zależy od masy ciała Copyright 018, Joanna Szyda
TEST KRUSKALA-WALLISA
TEST KRUSKALA-WALLISA - ZAKRES STOSOWAIA 1. Porównanie zmienności. Dane ciągłe lub porządkowe (rangi) 3. Dane nie pochodzą z rozkładu normalnego 4. Analiza wariancji Copyright 018, Joanna Szyda
TEST KRUSKALA-WALLISA PRÓBA DAYCH 1. Wzrost dorosłych kobiet w USA. 3 przedziały wiekowe 0-9 30-39 40-49 161.95 164.465 173.990 173.355 171.450 175.60 158.115 173.355 167.640 170.815 175.60 166.370 179.705 164.465 168.910 Copyright 018, Joanna Szyda
TEST KRUSKALA-WALLISA 1. Określenie hipotez H 0 i H 1 H 0 : wzrost kobiet jest jednakowy w każdym p. wiekowym H 1 : wzrost kobiet różni się w zależności od p. wiekowego H 0 : i, j μ i = μ j H 1 : i, j μ j μ j wiek e wiek e. Ustalenie poziomu istotności MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego: H Copyright 018, Joanna Szyda A 1 ni Ri R ~ c A 1 i1 1 R R i A liczba obserwacji liczba grup średni ranking obserwacji w grupie i średni ranking wszystkich obs.
TEST KRUSKALA-WALLISA 3. Wybór i obliczenie wartości testu statystycznego H A 1 1 5 7. 8 1 15 15 5 8 8 5 8 8 ni Ri R i1 1 45 6. 4. Określenie rozkładu testu: ~ c3 1 5. Obliczenie wartości t : t 0. 0398 Excel: przykład 6. Decyzja: t < max H 0 H 1 wzrost dorosłych kobiet różni się w poszczególnych przedziałach wiekowych Copyright 018, Joanna Szyda
TEST c
TEST c - ZAKRES STOSOWAIA 1. Testowanie liczebności poszczególnych kategorii. Dane w formie liczebności liczba obserwacji w danej kategorii %, średnia, prawdopodobieństwo 3. Dane podzielone na kategorie nominalne, porządkowe ciągłe 4. ie należy stosować testu c gdy oczekiwana liczebność dla kategorii jest mała (<5) 5. Warianty testu: Klasyfikacja jednoczynnikowa One-way classification Klasyfikacja dwuczynnikowa Copyright 018, Joanna Szyda
TEST c KLASYFIKACJA JEDOCZYIKOWA KOLOR Biały CZĘSTOŚĆ Żółty Żółty 8 Żółty Czerwony Czerwony 5 Żółty Biały Żółty 4 Żółty Żółty SUMA Czerwony 17 Biały Czerwony Żółty Czerwony Czerwony Biały Żółty Biały PRÓBA DAYCH 1. Klasyfikacja danych wg pojedynczego kryterium. Kolor kwiatów krokusa Copyright 018, Joanna Szyda
TEST c KLASYFIKACJA JEDOCZYIKOWA 1. Określenie hipotez H 0 i H 1 H 0 : liczebności wystąpienia kolorów są jednakowe H 1 : liczebności wystąpienia kolorów są różne H 0 : n B = n Ż = n C H 1 : n B n Ż n C. Ustalenie poziomu istotności MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego c i i bi bi żó żó cz cz n n n n n n n n K obs exp obs exp obs exp obs exp i bi żó cz i1 nexp nexp nexp nexp Copyright 018, Joanna Szyda
TEST c KLASYFIKACJA JEDOCZYIKOWA 3. Wybór i obliczenie wartości testu statystycznego c K bi bi żó żó cz cz n n n n n n n n obs n i1 exp 4 5.7 8 5.7 5 5.7 5.7 exp 5.7 obs n exp bi exp 5.7 obs n exp żó exp 1.53 obs n exp cz exp 4. Określenie rozkładu testu: ~ c K 1 5. Obliczenie wartości t : 0. 47 t Excel: przykład 6. Decyzja: t > max H 0 H 1 liczebności wystąpienia kolorów są jednakowe Copyright 018, Joanna Szyda
TEST c - ZAKRES STOSOWAIA 1. Testowanie liczebności poszczególnych kategorii. Dane w formie liczebności liczba obserwacji w danej kategorii %, średnia, prawdopodobieństwo 3. Dane podzielone na kategorie nominalne, porządkowe ciągłe 4. ie należy stosować testu c gdy oczekiwana liczebność dla kategorii jest mała (<5) 5. Warianty testu: Klasyfikacja jednoczynnikowa One-way classification Klasyfikacja dwuczynnikowa Copyright 018, Joanna Szyda
TEST c KLASYFIKACJA DWUCZYIKOWA PRÓBA DAYCH 1. Klasyfikacja danych wg dwu kryteriów. Liczebność słoni w Parku arodowym Mikumi, Tanzania Pora samotny samiec grupa samców kategoria grupa rodzinna grupa rodzinna + samiec sucha 43 4 196 7 deszczowa 9 17 195 8 Copyright 018, Joanna Szyda
TEST c KLASYFIKACJA DWUCZYIKOWA 1. Określenie hipotez H 0 i H 1 H 0 : pora roku nie wpływa na zmiany liczebności słoni w poszczególnych kategoriach (oba kryteria są niezależne) H 1 : pora roku wpływa na zmiany liczebności słoni w poszczególnych kategoriach (oba kryteria są zależne) H 0 : n Di = n Si dla i=1 4 H 1 : n Di n Si. Ustalenie poziomu istotności MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego χ = σ K i=1 σ M j=1 ij ij n obs nexp ij n exp = n D1 obs nexp D1 nd1 exp + + n S4 obs nexp S4 ns4 exp Copyright 018, Joanna Szyda
TEST c KLASYFIKACJA DWUCZYIKOWA c n ij ij obs exp i1 j1 ij nexp K M n liczebność klasy oczekiwana dla H 0 n ij exp K i1 n i. obs M j1 n. j obs K M i. n obs i1 j1 n. j obs samot ny samie c grupa samc ów grupa rodzin na grupa rodzin na + samie c suma sucha 43 4 196 7 50 deszc zowa 9 17 195 8 31 suma 135 1 391 15 56 sucha deszczo deszczo wa samotn y samiec grupa samców grupa rodzinn a grupa rodzinn a + samiec 135*50 1*50 56 56? sucha 60.5 9.34 173.93 6.67 wa 74.95 11.66 17.07 8.33 Copyright 018, Joanna Szyda
TEST c KLASYFIKACJA DWUCZYIKOWA 3. Wybór i obliczenie wartości testu statystycznego c 43 60.05 9 74.95 4 9.34 17 11.66 196 173.93 195 17.07 7 6.67 8 8.33 19.30 K M i1 j1 exp 60.05 173.93 n ij obs n n ij exp 74.95 17.07 9.34 6.67 11.66 8.33 ~ 3 4. Określenie rozkładu testu: ck 1 M 1 5. Obliczenie wartości t : 0. 000 t Excel: przykład Copyright 018, Joanna Szyda
TEST c KLASYFIKACJA DWUCZYIKOWA 6. Decyzja: t < max H 0 H 1 liczebność poszczególnych grup słoni różni się w zależności od pory roku Copyright 018, Joanna Szyda
WYBÓR TESTU
PORÓWAIE ZMIEOŚCI ROZKŁAD ORMALY TEST F Copyright 018, Joanna Szyda
PORÓWAIE ZMIEOŚCI ROZKŁAD IY IŻ ORMALY TEST KRUSKALA-WALLISA Copyright 018, Joanna Szyda
PORÓWAIE LICZEBOŚCI TEST c Copyright 018, Joanna Szyda
PORÓWAIE LICZEBOŚCI QUIZ KTÓREGO WERSJI TESTU UŻYĆ? Eyres et al. BMC Biology (015) 13:90 5 Badanie dotyczy horyzontalnego przepływu genów pomiędzy gatunkami Wrotków (Rotifera) Genomy Wrotków zawierają znacznie więcej genów wprowadzonych do genomu na drodze transferu horyzontalnego niż inne gatunki Materiał to sekwencje DA całych genomów osobników reprezentujących 4 gatunki rodzaju Rotaria: R. socialis 50 osobników 78.6 mln odczytów R. magnacalcarata 50 osobników 75.6 mln odczytów R. sordida 300 osobników 8.7 mln odczytów R. tardigrada 140 osobników 9.1 mln odczytów Copyright 018, Joanna Szyda
PORÓWAIE LICZEBOŚCI Liczba genów pochodzących z transferu horyzontalnego w genomie poszczególnych gatunków Copyright 018, Joanna Szyda
PORÓWAIE LICZEBOŚCI Jakie hipotezy testowano? 1. c Klasyfikacja pojedyncza. c Klasyfikacja podwójna 3. Test F regresja 4. Test F analiza wariancji Copyright 018, Joanna Szyda
PORÓWAIE LICZEBOŚCI QUIZ KTÓREJ WERSJI TESTU c UŻYĆ? Poszukiwanie mutacji odpowiedzialnej za zamieranie embrionów 47 878 buhajów rasy francuskiej Holsztyńsko-Fryzyjskiej 54 001 genotypów SP Copyright 018, Joanna Szyda
PORÓWAIE LICZEBOŚCI QUIZ KTÓREJ WERSJI TESTU c UŻYĆ? METODYKA For each haplotype with a frequency of >1%, the number of observed homozygous progeny (O) was compared to the number of homozygous progeny (E) expect under neutrality. WYIK 30 homozygous progeny were expected, whereas none were observed (c test P value of 4.6 10 6). Copyright 018, Joanna Szyda
PORÓWAIE LICZEBOŚCI 1. Klasyfikacja pojedyncza. Klasyfikacja podwójna Copyright 018, Joanna Szyda
1. Test F. Test Kruskala-Wallisa 3. Test c