STATYSTYKA MATEMATYCZNA WYKŁAD 3 Populacje i próby danych
POPULACJA I PRÓBA DANYCH POPULACJA population Obserwacje dla wszystkich osobników danego gatunku / rasy PRÓBA DANYCH sample Obserwacje dotyczące wycinka populacji Copyright 2010, Joanna Szyda
PARAMETR POPULACJI I ESTYMATOR 2 POPULACJA Parametr parameter nieznany dotyczy całej populacji np. rzeczywista średnia masa ciała i jej odchylenie standardowe w populacji ryjówek x s 2 PRÓBA DANYCH Estymator estimator znany wartość obliczona dla danej próby np. obliczona średnia masa ciała i jej odchylenie standardowe w próbie danych Copyright 2010, Joanna Szyda
WAŻNE ASPEKTY ZWIĄZANE Z TWORZENIEM PRÓB DANYCH I ESTYMACJĄ PARAMETRÓW WYBÓR PRÓBY DANYCH Z POPULACJI 1. Liczebność próby danych 2. Replikacje 3. Wybór osobników z populacji do próby danych Copyright 2010, Joanna Szyda
WAŻNE ASPEKTY ZWIĄZANE Z TWORZENIEM PRÓB DANYCH I ESTYMACJĄ PARAMETRÓW LICZEBNOŚĆ PRÓBY DANYCH 1. Liczba obserwacji w próbie 2. Im większa próba danych tym dokładniej można oszacować wartości parametrów populacji 3. Wielkość próby danych zależy od: łatwości zdobywania obserwacji, kosztów, dostępności obserwacji 4. Czynniki wpływające na wymaganą wielkość próby danych zmienność obserwacji = odchylenie standardowe, dokładność pomiarów, hipoteza badawcza Copyright 2013, Joanna Szyda
WAŻNE ASPEKTY ZWIĄZANE Z TWORZENIEM PRÓB DANYCH I ESTYMACJĄ PARAMETRÓW WYBÓR PRÓBY DANYCH Z POPULACJI 1. Liczebność próby danych 2. Replikacje 3. Wybór osobników z populacji do próby danych Copyright 2010, Joanna Szyda
WAŻNE ASPEKTY ZWIĄZANE Z TWORZENIEM PRÓB DANYCH I ESTYMACJĄ PARAMETRÓW x 23 REPLIKACJE estymacja parametrów w kilku próbach danych x 23 23 x 22 x 24 Copyright 2010, Joanna Szyda
WAŻNE ASPEKTY ZWIĄZANE Z TWORZENIEM PRÓB DANYCH I ESTYMACJĄ PARAMETRÓW REPLIKACJE 1. Stosowanie replikacji znacznie zwiększa wiarogodność wyciągniętych wniosków 2. Wybór osobników do każdej replikacji powinien być losowy 3. Idealnie każda próba danych powinna zawierać różne osobniki 4. Jeżeli technicznie trudno pobrać osobniki do replikacji i niektóre powtarzają się w poszczególnych próbach danych pseudoreplikacje Copyright 2010, Joanna Szyda
PRZYKŁAD
PRZYKŁAD
WAŻNE ASPEKTY ZWIĄZANE Z TWORZENIEM PRÓB DANYCH I ESTYMACJĄ PARAMETRÓW WYBÓR PRÓBY DANYCH Z POPULACJI 1. Liczebność próby danych 2. Replikacje 3. Wybór osobników z populacji do próby danych Copyright 2010, Joanna Szyda
WAŻNE ASPEKTY ZWIĄZANE Z TWORZENIEM PRÓB DANYCH I ESTYMACJĄ PARAMETRÓW TWORZENIE PRÓBY DANYCH WYBÓR LOSOWY NIELOSOWY Osobniki wybierane są bez stosowania selekcji Osobniki muszą reprezentować wszystkie warianty efektów działających na populację np. lokalizacja, wiek, płeć, ekspozycja na warunki środowiskowe, spokrewnienie Wybór wg spokrewnienia Wybór wg wartości cechy Eksperyment Copyright 2010, Joanna Szyda
POPULACJA I PRÓBA DANYCH NIELOSOWY WYBÓR OSOBNIKÓW Z POPULACJI DO PRÓBY DANYCH Wybór wg spokrewnienia Małe rodziny jednopokoleniowe (nuclear families) populacje ludzkie Copyright 2010, Joanna Szyda
POPULACJA I PRÓBA DANYCH NIELOSOWY WYBÓR OSOBNIKÓW Z POPULACJI DO PRÓBY DANYCH Wybór wg spokrewnienia Duże rodziny jednopokoleniowe Populacje zwierząt Copyright 2010, Joanna Szyda
POPULACJA I PRÓBA DANYCH NIELOSOWY WYBÓR OSOBNIKÓW Z POPULACJI DO PRÓBY DANYCH Wybór wg wartości cechy grupa doświadczalna grupa kontrolna (case-control) Copyright 2010, Joanna Szyda
POPULACJA I PRÓBA DANYCH NIELOSOWY WYBÓR OSOBNIKÓW Z POPULACJI DO PRÓBY DANYCH Wybór wg spokrewnienia oraz case-control Duże rodziny jednopokoleniowe
POPULACJA I PRÓBA DANYCH NIELOSOWY WYBÓR OSOBNIKÓW Z POPULACJI DO PRÓBY DANYCH Eksperyment P: A x B Zaplanowane: -warunki środowiskowe, -struktura genetyczna, -spokrewnienie -itp. F1: AB x AB Wysoki koszt Wykorzystanie wszystkich osobników F2: Copyright 2010, Joanna Szyda
BŁĄD PRÓBKOWANIA x 21 x 23 23 x 21 x 26 Copyright 2010, Joanna Szyda
BŁĄD PRÓBKOWANIA 1. Nie możemy precyzyjnie określić wielkości błędu próbkowania 2. Możemy w przybliżeniu określić dokładność estymatora Błąd standardowy estymatora Przedziały ufności estymatora Copyright 2010, Joanna Szyda
DYSKUSJA OSZACOWAĆ ŚREDNI WZROST MIESZKAŃCÓW WROCŁAWIA Jak zebrać próbę danych? Copyright 2010, Joanna Szyda
ZMIENNE JAKOŚCIOWE nr ID, płeć ILOŚCIOWE dyskretne pomiar w skali nominalnej grupa krwi, maść konia pomiar w skali porządkowej liczba urodzonych prosiąt w miocie X { 1, 2, 3, 4, 5, 6, 7, 8, 9 } ciągłe wysokość konia w kłębie W [ 150, 190 ]
FUNKCJA (GĘSTOŚCI) PRAWDOPODOBIEŃSTWA probability (density) function P(X=x) f (w) ZMIENNA LOSOWA DYSKRETNA ZMIENNA LOSOWA CIĄGŁA 0,25 0,20 9 i 1 P X 1 x i f w dw 1 0,15 0,10 0,05 0,00 1 2 3 4 5 6 7 8 9 liczba szczeniąt x wysokość w kłębie w
STATYSTYKI OPISOWE średnia wariancja STATYSTYKI OPISOWE modalna mediana
x M,m,x STATYSTYKI OPISOWE Średnia arytmetyczna liczba, wokół której skupiają się poszczególne wartości zmiennej തX = 1 n X i i=1 Wariancja miara zmienności liczba określająca rozproszenie wartości zmiennej wokół wartości oczekiwanej odchylenie standardowe n S x 2 = X i തX 2 n 1 S x = S x 2
PRZYKŁAD WYDAJNOŚĆ MLEKA W DWÓCH STADACH W jednym stadzie krów (stado A) stwierdzono następującą wydajność dobową mleka: 20, 21, 20, 19, 20, 20 kg, a w drugim (stado B): 25, 18, 23, 17, 20 i 17 kg.
PRZYKŁAD WYDAJNOŚĆ MLEKA W DWÓCH STADACH W jednym stadzie krów (stado A) stwierdzono następującą wydajność dobową mleka: 20, 21, 20, 19, 20, 20 kg, a w drugim (stado B): 25, 18, 23, 17, 20 i 17 kg. n x ҧ = 1 n i=1 x i = 120 6 = 20 s 2 x = x i xҧ 2 n 1 = 20 20 2 + 21 20 2 + + 21 20 2 5 = 0,4 s x = 0,4 = 0,63
PRZYKŁAD WYDAJNOŚĆ MLEKA W DWÓCH STADACH W jednym stadzie krów (stado A) stwierdzono następującą wydajność dobową mleka: 20, 21, 20, 19, 20, 20 kg, a w drugim (stado B): 25, 18, 23, 17, 20 i 17 kg. n x ҧ = 1 n i=1 x i = 120 6 = 20 s 2 x = x i xҧ 2 n 1 = 11,2 s x = 11,2 = 3,35
PRZYKŁAD WYDAJNOŚĆ MLEKA W DWÓCH STADACH W jednym stadzie krów (stado A) stwierdzono następującą wydajność dobową mleka: 20, 21, 20, 19, 20, 20 kg, a w drugim (stado B): 25, 18, 23, 17, 20 i 17 kg.
x M,m,x STATYSTYKI OPISOWE Mediana wartość środkowa nieparzysta / parzysta liczba obserwacji mniej zależna od odstających obserwacji niż średnia Modalna (dominanta) liczba, która występuje najczęściej może nie być wartości modalnej W jednym stadzie krów (stado A) stwierdzono następującą wydajność dobową mleka: 20, 21, 20, 19, 20, 20 kg, a w drugim (stado B): 25, 18, 23, 17, 20 i 17 kg. Mediana i modalna dla stada A i B?
STATYSTYKI OPISOWE średnia modalna mediana rozkład symetryczny 1 2 3 4 5 6 7 modalna mediana średnia 1 2 3 4 5 6 7 rozkład skośny Copyright 2011, Joanna Szyda
STATYSTYKI OPISOWE 1 2 3 4 5 6 7 duża wariancja 1 2 3 4 5 6 7 mała wariancja Copyright 2009, Joanna Szyda
STATYSTYKI OPISOWE 5 number data summary a set of descriptive statistics that provide information about a dataset. five most important sample percentiles: the sample minimum (smallest observation) the lower quartile or first quartile the median (middle value) the upper quartile or third quartile the sample maximum (largest observation) Copyright 2013, Joanna Szyda
STATYSTYKI OPISOWE wykres pudełkowy box plot maksimum 3 kwartyl: 75% danych mediana: 50% danych 1 kwartyl: 25% danych minimum obserwacja odstająca Copyright 2013, Joanna Szyda
PRZYKŁAD WYDAJNOŚĆ MLEKA W DWÓCH STADACH 19.0 19.5 20.0 20.5 21.0 18 20 22 24 W jednym stadzie krów (stado A) stwierdzono następującą wydajność dobową mleka: 20, 21, 20, 19, 20, 20 kg, a w drugim (stado B): 25, 18, 23, 17, 20 i 17 kg.
STATYSTYKI OPISOWE Jak będzie wyglądał box plot dla wartości 11, 9, 8, 10, 7, 10, 9, 8, 9, 8, 9? narysuj na tablicy narysuj w programie R
PRZYKŁADOWE ROZKŁADY
ROZKŁAD NORMALNY Średnia = mediana = modalna 2.1% 2.1% 0.1% 0.1% - 3s -2s -1s 0 1s 2s 3s Bardzo często spotykany w danych biologicznych Np. wydajność mleka Np. masa ciała prosięcia w 4 tygodniu życia
ROZKŁAD t Studenta William Gosset - pseudonim student Kształt zależny od stopni swobody Dla wielu stopni swobody zbliżony do rozkładu normalnego Stosujemy gdy odchylenie standardowe populacji jest nieznane n 30
ROZKŁAD 2 Skośny Brak wartości ujemnych Kształt zależny od liczby stopni swobody