METODY STATYSTYCZE W BIOLOGII 1. Wykład wstępny. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. ajczęściej wykorzystywane testy statystyczne I 6. ajczęściej wykorzystywane testy statystyczne II 7. Regresja liniowa 8. Regresja nieliniowa 9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej 10. Korelacja 11. Elementy statystycznego modelowania danych 1. Porównywanie modeli 13. Analiza wariancji 14. Analiza kowariancji 15. Podsumowanie materiału, wspólna analiza przykładów, dyskusja
WSTĘP 1. Test F. Test Kruskala-Wallisa 3. Test c Zakres stosowania Definicja Przykład
WSTĘP TEST HIPOTEZY PRÓBA DAYCH
TEST F
TEST F - ZAKRES STOSOWAIA 1. Porównanie zmienności. Dane ciągłe 3. Rozkład normalny 4. Warianty testu: Analiza wariancji one-way AOVA Regresja H : 0 A e
TEST F - AALIZA WARIACJI PRÓBA DAYCH 1. Zawartość azotu w trzcinie (% suchej masy). 3 lokalizacje (A, B, C), pomiar w 1996 r. 3. Flowermere, hrabstwo Cambridge A B C 3.06 3.41.9.60 3.3.88.55 3.93 3.5.4 3.74.64.35 3.18 3.8
TEST F - AALIZA WARIACJI 1. Określenie hipotez H 0 i H 1 H 0 : lokalizacje nie mają wpływu na zawartość azotu H 1 : lokalizacje wpływają na zawartość azotu H 0 : lok e H 1 : lok e. Ustalenie poziomu istotności MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego: F i1 g i i1 g n n i j1 y g y i 1 ij g y y i
TEST F - AALIZA WARIACJI 3. Wybór i obliczenie wartości testu statystycznego F i1 g n i i1 g n i j1 y g y i 1 ij g y y i.04 31 1.03 15 3 11.95 ~ F 4. Określenie rozkładu testu: g 1, g 5. Obliczenie wartości t : t 0. 00139 Excel: przykład 6. Decyzja: t < max H 0 H 1 lokalizacje wpływają na zawartość azotu w suchej masie trzciny
TEST F - ZAKRES STOSOWAIA 1. Porównanie zmienności. Dane ciągłe 3. Rozkład normalny 4. Warianty testu: Analiza wariancji Regresja regression H 0 : = 0
TEST F - REGRESJA MASA CIAŁA ZAW. TŁUSZCZU 89 8 88 7 PRÓBA DAYCH 1. Masa ciała [kg] i grubość tkanki tłuszczowej [mm]. 10 osób dorosłych, różnej płci, tej samej rasy 66 4 59 3 93 9 73 5 8 9 77 5 100 30 67 3
TEST F - REGRESJA 1. Określenie hipotez H 0 i H 1 H 0 : grubość tkanki tłuszczowej nie zależy od masy ciała H 1 : grubość tkanki tłuszczowej zależy od masy ciała H 0 : 1 = 0 H 1 : 1 0. Ustalenie poziomu istotności MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego: F i1 i1 yˆ yˆ i i y 1 y i
TEST F - REGRESJA 3. Wybór i obliczenie wartości testu statystycznego F i1 i1 yˆ yˆ i i 1 y y i 58. 5 9.08 1 10 51.3 4. Określenie rozkładu testu: ~ F 1, 5. Obliczenie wartości t : t 0. 000096 Excel: przykład 6. Decyzja: t < max H 0 H 1 grubość tkanki tłuszczowej zależy od masy ciała
TEST KRUSKALA-WALLISA
TEST KRUSKALA-WALLISA - ZAKRES STOSOWAIA 1. Porównanie zmienności. Dane ciągłe lub porządkowe (rangi) 3. Dane nie pochodzą z rozkładu normalnego 4. Analiza wariancji
TEST KRUSKALA-WALLISA PRÓBA DAYCH 1. Wzrost dorosłych kobiet w USA. 3 przedziały wiekowe 0-9 30-39 40-49 161.95 164.465 173.990 173.355 171.450 175.60 158.115 173.355 167.640 170.815 175.60 166.370 179.705 164.465 168.910
TEST KRUSKALA-WALLISA 1. Określenie hipotez H 0 i H 1 H 0 : wzrost kobiet jest jednakowy w każdym p. wiekowym H 1 : wzrost kobiet różni się w zależności od p. wiekowego H 0 : wiek e H 1 : wiek e. Ustalenie poziomu istotności MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego: H A 1 ni Ri R ~ c A 1 i1 1 R R i A liczba obserwacji liczba grup śr. ranking obserwacji w grupie i śr. ranking wszystkich obs.
TEST KRUSKALA-WALLISA 3. Wybór i obliczenie wartości testu statystycznego H A 1 1 5 7. 8 1 15 15 5 8 8 5 8 8 ni Ri R i1 1 45 6. 4. Określenie rozkładu testu: ~ c3 1 5. Obliczenie wartości t : t 0. 0398 Excel: przykład 6. Decyzja: t < max H 0 H 1 wzrost dorosłych kobiet różni się w poszczególnych przedziałach wiekowych
TEST c
TEST c - ZAKRES STOSOWAIA 1. Testowanie liczebności poszczególnych kategorii. Dane w formie liczebności liczba obserwacji w danej kategorii %, średnia, prawdopodobieństwo 3. Dane podzielone na kategorie nominalne, porządkowe ciągłe 4. ie należy stosować testu c gdy oczekiwana liczebność dla kategorii jest mała (<5) 5. Warianty testu: Klasyfikacja jednoczynnikowa One-way classification Klasyfikacja dwuczynnikowa Copyright 018, Joanna Szyda
TEST c KLASYFIKACJA JEDOCZYIKOWA KOLOR Biały CZĘSTOŚĆ Żółty Żółty 8 Żółty Czerwony Czerwony 5 Żółty Biały Żółty 4 Żółty Żółty SUMA Czerwony 17 Biały Czerwony Żółty Czerwony Czerwony Biały Żółty Biały PRÓBA DAYCH 1. Klasyfikacja danych wg pojedynczego kryterium. Kolor kwiatów krokusa
TEST c KLASYFIKACJA JEDOCZYIKOWA 1. Określenie hipotez H 0 i H 1 H 0 : liczebności wystąpienia kolorów są jednakowe H 1 : liczebności wystąpienia kolorów są różne H 0 : n B = n Ż = n C H 1 : n B n Ż n C. Ustalenie poziomu istotności MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego c i i bi bi żó żó cz cz n n n n n n n n K obs exp obs exp obs exp obs exp i bi żó cz i1 nexp nexp nexp nexp
TEST c KLASYFIKACJA JEDOCZYIKOWA 3. Wybór i obliczenie wartości testu statystycznego c K bi bi żó żó cz cz n n n n n n n n obs n i1 exp 4 5.7 8 5.7 5 5.7 5.7 exp 5.7 obs n exp bi exp 5.7 obs n exp żó exp 1.53 obs n exp cz exp 4. Określenie rozkładu testu: ~ c K 1 5. Obliczenie wartości t : 0. 47 t Excel: przykład 6. Decyzja: t > max H 0 H 1 liczebności wystąpienia kolorów są jednakowe
TEST c - ZAKRES STOSOWAIA 1. Testowanie liczebności poszczególnych kategorii. Dane w formie liczebności liczba obserwacji w danej kategorii %, średnia, prawdopodobieństwo 3. Dane podzielone na kategorie nominalne, porządkowe ciągłe 4. ie należy stosować testu c gdy oczekiwana liczebność dla kategorii jest mała (<5) 5. Warianty testu: Klasyfikacja jednoczynnikowa Klasyfikacja dwuczynnikowa Two-way classification
TEST c KLASYFIKACJA DWUCZYIKOWA PRÓBA DAYCH 1. Klasyfikacja danych wg dwu kryteriów. Liczebność słoni w Parku arodowym Mikumi, Tanzania Pora samotny samiec grupa samców kategoria grupa rodzinna grupa rodzinna + samiec sucha 43 4 196 7 deszczowa 9 17 195 8
TEST c KLASYFIKACJA DWUCZYIKOWA 1. Określenie hipotez H 0 i H 1 H 0 : pora roku nie wpływa na zmiany liczebności słoni w poszczególnych kategoriach (oba kryteria są niezależne) H 1 : pora roku wpływa na zmiany liczebności słoni w poszczególnych kategoriach (oba kryteria są zależne) H 0 : n Di = n Si dla i=1 4 H 1 : n Di n Si. Ustalenie poziomu istotności MAX = 0.05 3. Wybór i obliczenie wartości testu statystycznego c K M i1 ij ij D _1 D _1 S _ 4 S _ 4 n n n n n n obs exp ij j1 nexp obs n exp D _1 exp obs n exp S _ 4 exp
TEST c KLASYFIKACJA DWUCZYIKOWA c n ij ij obs exp i1 j1 ij nexp K M n liczebność klasy oczekiwana dla H 0 n ij exp K i1 n i. obs M j1 n. j obs K M i. n obs i1 j1 n. j obs samot ny samie c grupa samc ów grupa rodzin na grupa rodzin na + samie c suma sucha 43 4 196 7 50 deszc zowa 9 17 195 8 31 suma 135 1 391 15 56 sucha deszczo deszczo wa samotn y samiec grupa samców grupa rodzinn a grupa rodzinn a + samiec 135*50 1*50 56 56? sucha 60.5 9.34 173.93 6.67 wa 74.95 11.66 17.07 8.33
TEST c KLASYFIKACJA DWUCZYIKOWA 3. Wybór i obliczenie wartości testu statystycznego c 43 60.05 9 74.95 4 9.34 17 11.66 196 173.93 195 17.07 7 6.67 8 8.33 19.30 K M i1 j1 exp 60.05 173.93 n ij obs n n ij exp 74.95 17.07 9.34 6.67 11.66 8.33 ~ 3 4. Określenie rozkładu testu: ck 1 M 1 5. Obliczenie wartości t : 0. 000 t Excel: przykład
TEST c KLASYFIKACJA DWUCZYIKOWA 6. Decyzja: t < max H 0 H 1 liczebność poszczególnych grup słoni różni się w zależności od pory roku
WYBÓR TESTU
PORÓWAIE ZMIEOŚCI ROZKŁAD ORMALY TEST F
PORÓWAIE ZMIEOŚCI ROZKŁAD IY IŻ ORMALY TEST KRUSKALA-WALLISA
PORÓWAIE LICZEBOŚCI TEST c
QUIZ KTÓREGO TESTU UŻYĆ? Eyres et al. BMC Biology (015) 13:90 5 Badanie dotyczy horyzontalnego przepływu genów pomiędzy gatunkami Wrotków (Rotifera) Genomy Wrotków zawierają znacznie więcej genów wprowadzonych do genomu na drodze transferu horyzontalnego niż inne gatunki Materiał to sekwencje DA całych genomów osobników reprezentujących 4 gatunki rodzaju Rotaria: R. socialis 50 osobników 78.6 mln odczytów R. magnacalcarata 50 osobników 75.6 mln odczytów R. sordida 300 osobników 8.7 mln odczytów R. tardigrada 140 osobników 9.1 mln odczytów Copyright 018, Joanna Szyda
QUIZ KTÓREGO TESTU UŻYĆ? Liczba genów pochodzących z transferu horyzontalnego w genomie poszczególnych gatunków Copyright 018, Joanna Szyda
QUIZ KTÓREGO TESTU UŻYĆ? Jakie hipotezy testowano? 1. c Klasyfikacja pojedyncza. c Klasyfikacja podwójna 3. Test F regresja 4. Test F analiza wariancji Copyright 018, Joanna Szyda
QUIZ KTÓREGO TESTU UŻYĆ? Badanie wpływu ćwiczeń po urodzeniu dziecka na ból miednicy 75 ciężarnych kobiet przydzielonych losowo do 3 grup: ćwiczenia z urządzeniem, ćwiczenia bez urządzenia, brak ćwiczeń Wyniki klasyfikacja bólu po urodzeniu, brak rozkładu normalnego Copyright 018, Joanna Szyda
QUIZ KTÓREGO TESTU UŻYĆ? Copyright 018, Joanna Szyda
QUIZ KTÓREGO TESTU UŻYĆ? Jakie hipotezy testowano? 1. c Klasyfikacja pojedyncza. c Klasyfikacja podwójna 3. Test F regresja 4. Test Kruskalla-Wallisa Copyright 018, Joanna Szyda
1. Test F. Test Kruskala-Wallisa 3. Test c