WSTĘP DO STATYSTYKI MATEMATYCZNEJ D r h a b. i n ż. D a r i u s z P i w c z y ń s k i, p r o f. n a d z w. U T P W Y D Z I A Ł H O D O W L I I B I O L O G I I Z W I E R Z Ą T
STATYSTYKA Nauka poświęcona metodom badania zjawisk masowych. Polega na systematyzowaniu, obserwowaniu cech ilościowych i jakościowych oraz przedstawieniu wyników w postaci zestawień tabelarycznych, wykresów, posługuje się rachunkiem prawdopodobieństwa.
PO CO NAM STATYSTYKA? Z ilu pomiarów należy obliczyć średnią? Ilu pomiarów należy użyć, aby mieć do tej średniej zaufanie? Ile krów powinniśmy poddać kontroli wydajności laktacyjnej mleka?
PO CO NAM STATYSTYKA? DOŚWIADCZENIA DWUGRUPOWE Czy istnieje różnica między grubością rogówki przed założeniem szkieł kontaktowych a w 4. tygodniu ich noszenia? Przykład doświadczenia wiązanego (zależnego, sparowanego) http://www.zdrowie.med.pl/oczy/anat_i_fizjo/a_oczy.html
PORÓWNANIE METOD ŻYWIENIA (A, B) W ZAKRESIE POZIOMU GLUKOZY WE KRWI
PORÓWNANIE METOD ŻYWIENIA W ZAKRESIE POZIOMU GLUKOZY (MMOL/L), TEST T-STUDENTA
CZY SAMCE RÓŻNIĄ SIĘ OD SAMIC W ZAKRESIE DŁUGOŚCI (D) I WYSOKOŚCI (W) KARAPAKSU (MM)? PRZYKŁAD DOŚWIADCZENIA NIEZALEŻNEGO Gatunek Samica Samiec Samce + Samice D W D W D W Żółw grecki złoty 207.7 103.5 201.3 97.2 204.6 100.5 Żółw iberyjski 200.5 96.9 181.3 86.3 190.7 91.5 Σ 202.2 98.5 185.5 88.6 193.8 93.5
ANALIZY PORÓWNAWCZE, DOŚWIADCZENIA PRZY LICZBIE GRUP > 2 ANALIZA WARIANCJI (ZMIENNOŚCI) Badamy wpływ systemu doju (konwencjonalny, automatyczny) na wydajność mleka pierwiastek standaryzowaną na 305. dniową laktację
ANALIZY PORÓWNAWCZE ANALIZA WARIANCJI (ZMIENNOŚCI) Badamy wpływ systemu doju (konwencjonalny, automatyczny) na wydajność mleka pierwiastek standaryzowaną na 3005 dniową laktację
PO CO NAM STATYSTYKA? Czy kobiety i mężczyźni w równym stopniu mają poczucie szczęścia?
tys. Szeregi czasowe liczba urodzeń w latach 1955-2017 900 800 700 600 500 400 300 200 100 0 793.8 Ogółem 695.8 Miasta Wieś 547.7 413.3 378.3 364.4 369.3 382.3 402 1955 1980 1990 2000 2005 2010 2015 2016 2017 Lata
ROK 2018 LICZBA URODZEŃ 388 TYS., ZGONÓW 414 TYS., tys. 900.0 Ruch naturalny ludności w latach 1955-2018 800.0 700.0 600.0 500.0 400.0 300.0 200.0 100.0 0.0 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 2016 2017 2018 urodzenia 763.1 793.8 669.5 547.4 547.8 646.4 695.8 680.1 547.7 433.1 378.3 364.4 413.3 369.3 382.3 402.0 388 zgony 288.7 261.6 224.2 233.4 268.6 299.5 353.2 384.0 390.3 D R 386.1 H A B. 368.0 I N Ż. 368.3 D A R I U378.5 S Z P394.9 I W C Z388.0 Y Ń S K402.9 I 414
Liczba urodzonych dzieci przez kobietę Dzietność kobiet w latach 1960-2012, spadek z 3,61 do 1,45 dziecka na matkę 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 3.61 Ogółem Miasta Wieś 2.28 1.99 1.49 1.37 1.24 1.38 1.29 1.36 1.45 1.42 1955 1980 1990 2000 2005 2010 2015 2016 2017 Lata
STRUKTURA WIEKOWA LUDNOŚCI 100% 90% 80% 70% 60% 57.8 56.7 54.6 54.1 56.1 58.4 59.4 58.3 58.2 59.6 50% 60.8 64.0 64.4 62.4 61.9 61.2 40% 30% 20% 10% 0% poprodukcyjnym (60/65 lat i więcej) produkcyjnym (18-59/64 lata) przedprodukcyjnym (0-17 lat) 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 2016 2017
HTTPS://STAT.GOV.PL/OBSZARY-TEMATYCZNE/LUDNOSC/LUDNOSC/LUDNOSC- PIRAMIDA/
CZY ISTNIEJE ZALEŻNOŚĆ MIĘDZY MASĄ NOWORODKÓW A OCENĄ W SKALI APGAR?
KORELACJE
ANALIZA REGRESJI PROGNOZOWANIE WARTOŚCI ZMIENNEJ Y NA PODSTAWIE ZMIENNEJ LUB ZMIENNYCH X 1, X 2,.. X I
STATYSTYKA MATEMATYCZNA Dział matematyki zajmujący się metodami wnioskowania o prawach prawdopodobieństwa rządzących danym zjawiskiem na podstawie obserwacji tego zjawiska. Statystyka matematyczna zajmuje się badaniem własności zbiorów na podstawie znajomości własności ich części.
POPULACJA GENERALNA Zbiorowość statystyczna, zbiór dowolnych elementów, nieidentycznych z punktu widzenia badanej cech. Z reguły jest ona dla nas niedostępna w całości do badań, jednak nas interesuje. Przykład: zbiór wszystkich osobników gatunku ślimak winniczek, kret europejski, koni rasy wielkopolskiej.
CZY WIECIE, ŻE
83,9% GOSPODARSTW MA KOTY
POPULACJA PRÓBNA Podzbiór populacji generalnej, który podlega bezpośrednio badaniu ze względu na rozpatrywaną cechę, co pozwala na wyciągnięcie wniosków o kształtowaniu się wartości cechy w całej populacji generalnej.
PRÓBA POWINNA BYĆ REPREZENTATYWNA! tzn. powinna w jak najlepszy sposób oddawać strukturę populacji. Najprostszym przykładem takiej próby jest próba losowa prosta, otrzymywana jest wtedy, gdy każdy element populacji ma taką samą szansę dostania się do próby.
ZMIENNA LOSOWA Zmienna losowa = cecha = zmienna Właściwość jednostki doświadczalnej, podlega obserwacjom, badaniu Zmienna losowa może przyjmować z określonym prawdopodobieństwem każdą z wartości należących do wyszczególnionego zbioru, np. żywotność noworodków w skali APGAR zmienna losowa przyjmuje wartości liczbowe z zakresu 0-10.
CECHY Ilościowe Jakościowe
CECHA ILOŚCIOWA Wynik zjawiska lub procesu, który daje się wyrazić ilościowo (za pomocą liczb). Cechy ilościowe oznaczane są za pomocą liter: X, Y, Z.
CECHY ILOŚCIOWE, SKOKOWE tzw. dyskretne. W badaniach biologicznych cechy skokowe wyrażane są za pomocą liczb naturalnych. Na ogół przyjmują one kilka lub kilkanaście wartości liczbowych. Przykład liczba urodzonego potomstwa.
CECHY ILOŚCIOWE, CIĄGŁE Przyjmują wszystkie wartości z pewnego przedziału liczbowego liczb rzeczywistych. Często ich rozkład prawdopodobieństwa jest zbliżony do rozkładu normalnego. Przykład: wysokość w kłębie, masa ciała, wzrost, tętno, ciśnienie krwi, poziom cholesterolu we krwi, wydajność rzeźna
CECHA JAKOŚCIOWA Cechy, których nie możemy zapisać w postaci liczby, np. kolor oczu, barwa włosów
Zanim rozpoczniemy analizę statystyczną konieczne jest ustalenie skali, w jakiej wyrażana jest nasza cecha!!!
SKALE POMIARU, NOMINALNA Nominalna porządek właściwie dowolny, np.: rasa zwierzęcia, siedlisko, forma spędzania wolnego czasu Nominalna dychotomiczna, np. płeć, stan zdrowia ( CHORY, ZDROWY )
SKALE POMIARU PORZĄDKOWA Wartościom cechy można przypisać rangi. Musi zatem istnieć możliwość logicznego uporządkowania wartości zmiennej. Przykład: wykształcenie osoby (podstawowe, zawodowe, średnie, wyższe), stan finansów (zły, średni, dobry, bardzo dobry)
SKALE POMIARU, PRZEDZIAŁOWA pozwala uporządkować wartości zmiennej, zakłada się, że dotyczy zbioru liczb rzeczywistych, np. wzrost, wydajność mleka, temperatura ciała konia Maria Fassnauer, ur 1879, 218 cm-240 cm
ROZKŁAD ZMIENNEJ LOSOWEJ Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.
DOŚWIADCZENIE Postępowanie, które służy weryfikacji istniejącego stanu wiedzy lub pozyskaniu nowych informacji. Polega ono na rozpoczęciu i obserwowaniu pewnego zjawiska w warunkach kontrolowanych.
JEDNOSTKA DOŚWIADCZALNA, Roślina lub zwierzę poddane działaniu danego poziomu czynnika doświadczalnego i w odniesieniu, do której prowadzimy obserwację cechy ilościowej, będącej odpowiedzią na działanie czynnika.
CZYNNIK DOŚWIADCZALNY Rodzaj zmiennej, która jest kontrolowana w doświadczeniu i która jest przyczyną kształtowania się cech zjawisk dotyczących głównie zwierząt, roślin czy środowiska, w którym bytują.
POZIOM CZYNNIKA DOŚWIADCZALNEGO Określone przez badacza warianty czynnika, w ramach których zamierza się prowadzić obserwacje nad kształtowaniem się interesujących nas cech. Płeć: ogier, klacz Rasa bydła: polska holsztyńsko-fryzyjska, jersey, polska czerwona
DOŚWIADCZENIA Jednoczynnikowe w jednym czasie analizujemy wpływ jednego czynnika na cechy ilościowe roślin lub zwierząt. Wieloczynnikowe w jednym czasie badamy wpływ wielu czynników na cechy ilościowe roślin lub zwierząt.
STATYSTYCZNY OPIS ZMIENNEJ LOSOWEJ
STATYSTYKI Pewne funkcje wartości pomiarowych służące do wyznaczenia przybliżonych wartości parametrów statystycznych. Należy do nich, m. in.: mediana, średnia arytmetyczna. Statystyki dotyczą populacji próbnej. Oznaczane są literami łacińskimi. Statystyka elementarna zajmuje się obliczaniem statystyk.
PARAMETRY Parametry charakteryzują rozkład badanej cechy w populacji generalnej. Dotyczą populacji generalnej! Oznaczane są literami greckimi, Parametry Statystyki Średnia x Wariancja 2 s 2 Odchylenie standardowe s
CECHY JAKOŚCIOWE Tabele liczebności Wykształcenie Liczebność Procent Liczebność skumulowana Procent skumulowany Podstawowe 13 5,10 13 5,10 Zawodowe 111 43,53 124 48,63 Średnie 91 35,69 215 84,31 Pomaturalne 5 1,96 220 86,27 Wyższe 35 13,73 255 100,00
RASY BYDŁA MLECZNEGO POD OCENĄ UŻYTKOWOŚCI, 2017 Rasa N % PHF - czarno-biała 672549.5 92.61% PHF - czerwonobiała 28834.4 3.97% simental 10453.8 1.44% polska czerwona 2773.2 0.38% jersey 1019.2 0.14% montbeliarde 3117.6 0.43% białogrzbieta 653.3 0.09% polska czerwono-biała 3981.4 0.55% polska czarno biała 2002.7 0.28% brown swiss 294.8 0.04% szwedzka czerwona 295.3 0.04% norweska czerwona 257.5 0.04%
Miary położenia i zmienności, podział (zmienne ilościowe)
MIARY POŁOŻENIA KLASYCZNE pozwalają określić, gdzie w zbiorze wartości liczbowych znajdują się wartości badanej cechy, tym samym pozwalają na umiejscowienie rozkładu cechy.
ŚREDNIA ARYTMETYCZNA x 1 N N i1 x i x x... 1 2 N x N gdzie: N liczba wszystkich jednostek, x i wartość cechy u i-tej jednostki.
ŚREDNIA ARYTMETYCZNA WAŻONA Stosowana wtedy, gdy poszczególnym obserwacjom przypisujemy wagi związane z ich znaczeniem. w i wagi przypisane poszczególnym obserwacjom. x n i1 n i1 w x Przykład (Dobek, Szwaczkowski). Student biologii uzyskał 16 punktów z I kolokwium, 14 punktów z II kolokwium i 18 punktów z egzaminu. Przypiszmy egzaminowi wagę 3, a kolokwium wagę 1. i w i i x 1614 318 5 16,8
WŁASNOŚCI ŚREDNIEJ ARYTMETYCZNEJ Jest to taka wartość zmiennej, która podstawiona na miejsce wszystkich poszczególnych wartości nie zmieni ich sumy Suma odchyleń poszczególnych wartości od średniej arytmetycznej jest równa zero. Suma kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej jest najmniejsza w porównaniu z sumami kwadratów odchyleń od jakiejkolwiek innej liczby w szeregu.
ŚREDNIA WAŻONA LICZEBNOŚCIAMI (DANE PRZEDSTAWIONE W FORMIE SZEREGU ROZDZIELCZEGO) x 1 N k i1 x i n i x 1 n 1 x 2 n 2 N... x k n k gdzie: N liczba wszystkich jednostek, n i - liczba jednostek posiadających i-tą wartość cechy, k liczba klas, x i i-ta wartość cechy
ŚREDNIA WAŻONA
SZEREG ROZDZIELCZY Zawiera pomiary pogrupowane na klasy. W ramach szeregu rozdzielczego tworzone są przedziały klasowe oraz zliczana jest liczba pomiarów w każdym przedziale klasowym.
SZEREG ROZDZIELCZY
ŚREDNIA HARMONICZNA gdzie: x i wartość cechy, N liczebność odnosząca się do wartości cechy x i. Średnia harmoniczna jest odwrotnością średniej arytmetycznej z odwrotności elementów próby! Stosowana m.in. w analizie wariancji układów N nieortogonalnych (nieproporcjonalnych - przy nierównej ilości osobników w grupach). Nie można jej obliczyć, gdy jakaś wartość cechy równa się 0 lub jest ujemna. W badaniach, w których obserwowana jest wydajność w czasie rozkład cechy odbiega od symetrycznego, ma przebieg hiperboliczny. x H i1 N 1 x i
ŚREDNIA HARMONICZNA. PRZYKŁAD (DOBEK, SZWACZKOWSKI) W gospodarstwie produkującym jaja stwierdzono, że pierwsze 1000 jaj pozyskiwano z prędkością 120 jaj/tydzień, drugi 1000 z prędkością 150 jaj/tydzień, a ostatni 1000 z prędkością 100 jaj/tydzień. Jaka była średnia wydajność tygodniowa w okresie, w którym uzyskano 3000 jaj? x H 1000 120 3000 1000 150 1000 100 120
ŚREDNIA GEOMETRYCZNA x G N x 1 x 2... x N Stosowana, gdy jedna z wartości skrajnych zmiennej bardzo różni się od pozostałych (duże rozproszenie wartości skrajnych), w takim przypadku średnia geometryczna bardziej prawidłowo scharakteryzuje położenie danej cechy w szeregu liczbowym niż średnia arytmetyczna. Miara popularna w badaniach mikrobiologicznych, zmienne posiadają rozkłady prawostronne.
ARYTMETYCZNA, GEOMETRYCZNA I HARMONICZNA x H x G x
OBLICZENIE ŚREDNIEJ GEOMETRYCZNEJ jest równoznaczne z obliczeniem średniej arytmetycznej: x 1 l N x i i1 l ln a następnie powrót do oryginalnej skali pomiaru poprzez transformację: e x l co jest równoznaczne z obliczeniem średniej geometrycznej
MIARY POŁOŻENIA POZYCYJNE wskazują wartość cechy, która odgrywa w szeregu szczególną rolę, np. dzieli szereg na dwie połowy. Punktem wyjścia do ich określenia jest uporządkowanie szeregu liczbowego, konieczna jest przy tym znajomość liczebności.
DOMINANTA (MO) Zwana wartością szczytowa, modą, wartością modalną. Jest to taka wartość zmiennej, która występuje w populacji największą ilość razy. Jest najbardziej typowa dla danego zjawiska. Jednak nie należy jej obliczać, gdy rozkład danej cechy nie posiada jednego, wyraźnie zaznaczonego maksimum liczebności. Wartość modalna wyznacza szczyt krzywej liczebności. Pozwala scharakteryzować populację pod względem jej typowości.
KWARTYLE (KWANTYLE) (Q 1,Q 2,Q 3 ) Są to takie wartości cechy, które pozwalają podzielić uporządkowany szereg liczbowy na 4 części. Kwartyl drugi dzieli szereg na połowy, zwany jest też medianą. Jeśli liczebności ćwiartek są liczbami parzystymi, to wartość kwartyli obliczamy jako średnią arytmetyczną z wartości kończących i rozpoczynających kolejne ćwiartki. W szeregu nieparzystym medianę stanowi środkowy wyraz szeregu.
ZASTOSOWANIE KWARTYLI Kwartyle stosujemy w odniesieniu do cech ilościowych trudno mierzalnych, w badaniach mikrobiologicznych, np. przy określaniu średniej liczby drobnoustrojów
KWARTYLE
MIARY ZMIENNOŚCI (DYSPERSJI) Problem, jaki wiąże się z powyższym zagadnieniem, to odpowiedź na pytanie: jak bardzo poszczególne wartości cechy różnią się od siebie?
ROZSTĘP Najprostsza miara zmienności. Jest to tzw. obszar zmienności, określa on całkowitą zmienność cechy. Obliczany jest z poniższego wzoru: O x =x max -x min Rozstęp jest traktowany jedynie jako wstępna miara zmienności z oczywistych względów (opieramy się jedynie o wartości skrajne).
MIARY ZMIENNOŚCI OPARTE O KWARTYLE Odchylenie ćwiartkowe: Q Q Q 3 1 2 Odstęp międzykwartylowy: IQR = Q 3 Q 1
ŚREDNIE ODCHYLENIE przeciętne odchylenie poszczególnych wartości zmiennej (x i ) od średniej arytmetycznej. md N i1 x i N x
WARIANCJA Wariancja jest średnią z kwadratów różnic średniej arytmetycznej od poszczególnych wartości cechy. W przypadku małych prób (poniżej 30) suma kwadratów dzielona jest przez N-1, w przeciwnym zaś przypadku przez N. Wariancja jest miarą, która nie posiada interpretacji. 1 N x x s N 1 i 2 i 2 1 N N x x s N 1 i 2 N 1 i i 2 2 N N x x s N 1 i 2 N 1 i i 2 2
ODCHYLENIE STANDARDOWE s 2 s Jest to liczba mianowana. Pozwala ona określić typowy obszar zmienności wartości cechy. Wskazuje ono, o jaką wartość poszczególne wartości cechy odbiegają przeciętnie od średniej arytmetycznej. Im większe odchylenie standardowe, tym poszczególne obserwacje są bardziej oddalone od średniej arytmetycznej, tym większe jest rozproszenie próby. Mówi się, że próba jest mało wyrównana.
WSKAŹNIK ZMIENNOŚCI PEARSONA V x s x 100 Miary względnego zróżnicowania Stosowana w sytuacji, gdy badane zjawisko mierzone jest w różnych jednostkach miary lub kształtuje się na niejednakowym poziomie przeciętnym.
PRZYKŁAD Badano stężenie jonów żelaza (mg/l) w dopływie do stawu wodnego. W tym celu wykonano 30 prób (tab. ). Oblicz podstawowe miary położenia klasyczne i pozycyjne oraz miary zmienności w zakresie badanej cechy.
Szereg nieuporządkowany Szereg uporządkowany Kwartyle lp x x2 lp lp' x 1 0,10 0,01 12 1 0,08 2 0,40 0,16 13 2 0,09 3 0,14 0,02 23 3 0,09 4 0,10 0,01 1 4 0,10 5 0,47 0,22 4 5 0,10 6 0,10 0,01 6 6 0,10 7 0,10 0,01 7 7 0,10 8 1,10 1,21 9 8 0,10 Q1 = 0,10 9 0,10 0,01 30 9 0,11 10 0,13 0,02 20 10 0,12 11 0,84 0,71 10 11 0,13 12 0,08 0,01 3 12 0,14 13 0,09 0,01 15 13 0,14 14 1,09 1,19 19 14 0,20 15 0,14 0,02 29 15 0,24 Me = (0,24 + 6 0,42 0,18 18 16 0,37 + 0,37) / 2 = 0,305 17 0,63 0,40 27 17 0,37 18 0,37 0,14 2 18 0,40 19 0,20 0,04 16 19 0,42 20 0,12 0,01 5 20 0,47 21 0,60 0,36 22 21 0,50 22 0,50 0,25 21 22 0,60 23 0,09 0,01 17 23 0,63 Q3 = 0,63 24 1,16 1,35 26 24 0,77 25 1,83 3,35 11 25 0,84 26 0,77 0,59 14 26 1,09 27 0,37 0,14 8 27 1,10 28 2,92 8,53 24 28 1,16 29 0,24 0,06 25 29 1,83 30 0,11 0,01 28 30 2,92 Suma 15,3100 19,0083
SKRZYNKA Z WĄSAMI
WYKRES PUDEŁKOWY, OBJAŚNIENIE