Biostatystyka, # 1 /Weterynaria I/

Biostatystyka, # 1 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl materiały: http://kzmi.up.lublin.pl/ zotachel/wet konsultacje: poniedziałek 11.30-13.30, wtorek 10.00-12.00 Lublin, 2019

Zakres materiału Statystyka opisowa Podstawowe pojęcia rachunku prawdopodobieństwa Zmienne losowe i ich rozkłady Estymacja punktowa i przedziałowa Testowanie hipotez statystycznych

Literatura Hanusz Z., Tarasińska J. Statystyka matematyczna, Wyd. AR Lublin 2006. Kala R. Statystyka dla przyrodników, Wyd. AR, Poznań, 2002. Koronacki J., Mielniczuk J. Statystyka dla studentów kierunków technicznych i przyrodniczych, WNT, 2001. Łomnicki A. Wprowadzenie do statystyki dla przyrodników, PWN, W-wa 2002. Parlińska M., Parliński J. Badania statystyczne z Excelem, Wyd. SGGW W-wa 2003. Smolik S. Zadania z rachunku prawdopodobieństwa i statystyki matematycznej dla Akademii Rolniczych. Wyd. SGGW W-wa 1994. Stanisz A. Biostatystyka. Wyd. UJ, 2006. Cezary Watała, Biostatystyka - wykorzystanie metod statystycznych w pracy badawczej w naukach biomedycznych. Wyd. Alfa Medica Press, Bielsko-Biała 2002.

Statystyka opisowa

Podstawowe pojęcia statystyczne Przedmiotem badań statystycznych są populacje - zbiory określonych istot, rzeczy lub zjawisk. Będą one analizowane przez pryzmat cech tj. funkcji, które przyporządkowują każdemu elementowi populacji wartość liczbową, będącą wynikiem pomiaru. Cechy podzielimy na: Skokowe - przyjmujące skończoną lub przeliczalną liczbę wartości np. ocena studenta na zaliczeniu z biostatystyki, ilość szczeniąt w miocie, ilość detekcji cząstek gamma w jednostce czasu - tzw. poziom promieniowania, itp. Ciągłe - przyjmujące dowolne wartości z pewnego przedziału, np. każda wielkość metryczna obiektu biologicznego (waga, długość,pole powierzchni, objętość itp.), czas życia zwierzęcia lub populacji, poziom interesującego związku chemicznego w badanym układzie (np. SO 2 w powietrzu, glukozy we krwi, saturacja krwi tlenem), wielkości meteorologiczne (temperatura, wilgotność, siła wiatru), wielkości fizyczne (prędkość, pęd, masa cząstki), itp, itd.

Całkowite i częściowe badanie populacji Wnioskując o cechach pewnej populacji można wykonać następujące rodzaje badań statystycznych: Badanie całkowite - mierząc wartości interesujących cech dla każdego elementu populacji, Badanie częściowe - oznaczając wartości cech dla wytypowanych na drodze losowania niektórych elementów populacji i uogólniając wyniki, za pomocą technik statystycznych, na całą populację. Ze statystycznego punktu widzenia interesujący jest tylko ten drugi rodzaj badania. Część populacji podlegającą badaniu częściowemu nazywamy próbą. Elementy populacji są kwalifikowane do próby poprzez losowanie. Każdy element populacji musi mieć taką samą szansę wylosowania.

Szereg statystyczny Badanie częściowe określonej cechy prowadzi do uzyskania pierwotnego szeregu statystycznego. Jest to ciąg pomiarów tej samej cechy x na N obiektach populacji, wybranych do badania w sposób losowy, mianowicie: x 1, x 2,..., x N, gdzie x i jest wartością (obserwacją lub pomiarem) cechy x dla i-tego elementu wytypowanego z populacji do badania, a N ilością przebadanych obiektów (rozmiarem, liczebnością, długością szeregu statystycznego). Ciąg pomiarów tej samej cechy nazywa się też próbą liczbową, natomiast (hipotetyczny) zbiór wszystkich pomiarów (na wszystkich elementach populacji) - przestrzenią próby.

Statystyczne szeregi rozdzielcze Rozstęp szeregu statystycznego (R) to różnica: R = x max x min, gdzie x max i x min oznacza odpowiednio największy i najmniejszy zaobserwowany pomiar. Pierwotny szereg statystyczny zawiera nieistotne informacje, dlatego podlega obróbce mającej na celu pominięcie tychże, a przez to zyskanie na przejrzystości. Takie zabiegi prowadzą do otrzymania następujących, przetworzonych danych statystycznych: Szereg szczegółowy - pomiary uporządkowane w kolejności rosnącej lub malejącej, Szereg rozdzielczy - zestawienie uporządkowanych zaobserwowanych wartości lub zakresów (przedziałów klasowych) z odpowiadającymi im liczebnościami. Szeregi rozdzielcze tworzy się z licznych (zawierających więcej niż 30 obserwacji) szeregów statystycznych lub, gdy w szeregu występują powtarzające się wartości.

Rodzaje szeregów rozdzielczych Punktowy szereg rozdzielczy - dla cech skokowych przyjmujących skończoną liczbę wartości; ma on postać zestawienia: (x i, l i ), gdzie x i - i-ta w kolejności wzrostu zaobserwowana wartość, l i - ilość powtórzeń w szeregu statystycznym. Klasowy szereg rozdzielczy - dla cech ciągłych lub skokowych o licznych różnych wartościach (w praktyce, więcej niż 30) i ma on postać zestawienia: (π i, l i ), lub (x i, l i ), gdzie π i - i-ty przedział klasowy o środku x i, l i - ilość obserwacji należących do tego przedziału, tzn. skupiających się wokół x i. Przedziały klasowe na ogół są jednakowej długości, muszą być rozłączne i ich suma ma pokrywać wszystkie wartości szeregu rozdzielczego. Suma liczebności jest zawsze równa długości szeregu statystycznego: l 1 + l 2 + + l r = N.

Zależność liczby klas od ilości pomiarów Liczba pomiarów (N) Liczba klas (k) 30-60 6-8 60-100 7-10 100-200 9-12 200-500 11-17 500-1500 16-25 Liczbę klas można wyznaczyć także na podstawie jednej z zależności: k 5 ln N, k 1 + 3, 332 ln N, k N. Nie stosuje się większej ilości klas niż 30. Długość przedziału klasowego obliczamy dzieląc rozstęp R przez liczbę klas k. Graficzne przedstawienie szeregu rozdzielczego to histogram (dla szeregów klasowych) lub diagram liczebności (dla szeregów punktowych).

Rozkład empiryczny Zastępując w szeregu rozdzielczym liczebności l i przez częstości f i = l i /N otrzymujemy zestawienie zwane empirycznym rozkładem cechy. Zauważmy i zapamiętajmy, że f i = 1. i

Charakterystyki używane do opisu danych statystycznych Zbiór danych statystycznych szereg statystyczny zawiera informację o cesze trudną do przetwarzania. Łatwiej operować częścią tej informacji, którą zawierają charakterystyki (miary) danych liczbowych. Są to funkcje zdefiniowane na elementach szeregu statystycznego. Do takich charakterystyk (miar) najczęściej wykorzystywanych przy opisie struktury zbiorowości liczbowych należą: miary średnie (przeciętne, położenia) podają one tą wartość wokół której skupiają się pozostałe liczby (obserwacje), jeżeli x jest taką miarą, to zawsze x min x x max ; miary zmienności (rozproszenia, zróżnicowania, dyspersji) określają stopień zróżnicowania wartości w analizowanej zbiorowości, jeżeli d jest taką miarą, to d 0,

przypadek d = 0 oznacza brak zmienności, wszystkie wartości są równe swojej średniej; miary asymetrii (skośności) określają kierunek zróżnicowania wartości; miary koncentracji określają stopień skupienia wartości wokół średniej.

Miary średnie (przeciętne) średnia arytmetyczna, dominanta (moda, wartość modalna, najczęstsza), kwartyle Średnia arytmetyczna jest obliczana na podstawie wszystkich wartości szeregu statystycznego, pozostałe miary średnie (tzw. pozycyjne) są wartościami konkretnych wyrazów szeregu wyróżniających się pod pewnym względem.

Średnia arytmetyczna Średnią x cechy x na podstawie szeregu statystycznego x 1, x 2,..., x N najczęściej policzymy posługując się średnią arytmetyczną: x = x 1 + x 2 + + x Ni=1 N x i = N N. Ale ta sama średnia dla szeregu rozdzielczego będzie liczona wg wzoru na średnią ważoną, gdzie wagami są liczebności: ri=1 x i l i ri=1, l i x = x 1l 1 + x 2 l 2 + + x r l r l 1 + l 2 + + l r = gdzie x 1, x 2,..., x r oznaczają tu wartości zaoobserwowane dla szeregu punktowego lub środki przedziałów klasowych dla szeregu klasowego. Średnia arytmetyczna jest miarą wiarygodną tylko dla zbiorowości o niewielkim stopniu zróżnicowania obserwacji. Gdy rośnie asymetria (histogram nie ma osi symetrii) lub zbiorowość jest wielomodalna (histogram ma więcej niż jedno maksimum) stosowalność wzoru traci sens.

Średnie pozycyjne Dominanta (moda) D to taka wartość obserwacji, która w szeregu statystycznym występuje najczęściej, ma sens tylko dla zbiorowości jednomodalnych (o jednej wartości maksymalnej). Kwartyle: Q 1 (dolny),q 2 (środkowy mediana), Q 3 (górny) dzielą szereg na 4 części, równe pod względem liczebności (po 25% obserwacji). Mediana (M e ) wartość znajdująca się dokładnie w środku szeregu uporządkowanego. Liczba obserwacji mniejszych od mediany jest równa ilości obserwacji większych o mediany. Mediana to środkowy kwartyl.

Miary zmienności (dyspersji) wariancja Wariancja pomiarów cechy x (ozn.: S 2 x := S 2 ) średnia arytmetyczna z kwadratów różnic poszczególnych, zaobserwowanych wartości cechy x od średniej arytmetycznej x wszystkich obserwacji. Dla szeregu surowego lub szczegółowego liczymy ją wg wzoru: S 2 = 1 N N (x i x) 2, i=1 Dla szeregów rozdzielczych użyjemy wzoru z wagami: S 2 = 1 N r l i (x i x) 2, N = i=1 r l i. gdzie tutaj x i są wartościami zaobserwowanymi lub środkami przedziałów klasowych, natomiast l i - liczebnościami związanymi z zaobserwowanymi wartościami x i lub ilościami obserwacji należących do kolejnych przedziałów klasowych. i=1

Wariancja - cd. W każdej sytuacji słuszny jest wzór: S 2 = x 2 (x) 2, gdzie x 2 oznacza średnią arytmetyczną kwadratów obserwacji (tzw. średni kwadrat), tj.: x 2 == x 1 2 + x 2 2 + + x N 2 N dla szeregu nieuporządkowanego, lub = Ni=1 x 2 i N x 2 = x 2 1 l 1 + x 2 2 l 2 + + x 2 r l r l 1 + l 2 + + l r = ri=1 x 2 i l i ri=1 l i, dla szeregów rozdzielczych, gdzie x 1, x 2,..., x r oznaczają tu wartości obserwowane (szeregi punktowe) lub środki przedziałów klasowych (szeregi klasowe) związane z liczebnościami l 1, l 2,..., l r. Wariancja jest zawsze liczbą nieujemną, wyrażoną w kwadracie jednostki fizycznej użytej do pomiaru cechy x. Duża jej wartość świadczy o dużym zróżnicowaniu (zmienności) obserwacji.

Odchylenie standardowe Odchylenie standardowe pomiarów cechy x (ozn.: S x := S) jest pierwiastkiem kwadratowym z wariancji: S = S 2 i określa o ile średnio obserwacje różnią się od średniej arytmetycznej pomiarów badanej cechy. Odchylenie standardowe służy do do konstrukcji typowego przedziału zmienności dla badanej cechy. W tym obszarze mieści się około 2/3 wszystkich wartości obserwowanych dla tej cechy. Typowy przedział zmienności określa wzór: x S x x + S. By porównywać zmienność dwóch zbiorowości użyjemy niemianowanego współczynnika zmienności (ozn. V ): V = S x 100%.

Momenty Niech r będzie liczbą naturalną. Moment zwykły m r rzędu r dla szeregu x 1,..., x N to m r = 1 N xi r. N i=1 Moment centralny M r rzędu r dla szeregu x 1,..., x N to M r = 1 N (x i x) r. N Dla szeregów rozdzielczych i=1 (x i, l i ), i = 1,..., n, l 1 + l 2 + + l n = N : m r = 1 N xi r l i, M r = 1 N (x i x) r l i. N N i=1 i=1 Pierwszy moment zwykły m 1 jest średnią arytmetyczną. Pierwszy moment centralny M 1 jest zawsze równy 0. Drugi moment centralny M 2 jest wariancją.

Miary asymetrii Dla rozkładów symetrycznych - histogram ma oś symetrii przechodzacą przez wspólną wartość średniej arytmetycznej, dominanty i mediany - momenty centralne rzedów nieparzystych są równe 0. Stąd trzeci moment centralny wykorzystano do konstrukcji współczynnika asymetrii (skośności) Wartość A S jest: A s = M 3 S 3. równa zero, dla zbiorowości symetrycznej, dodatnia, dla zbiorowości o asymetrii prawostronnej, ujemna, dla zbiorowości o asymetrii lewostronnej. Im większa wartość bezwzględna współczynnika skośności tym większa asymetria badanej zbiorowości.

Miary koncetracji Czwarty moment centralny służy do pomiaru koncentracji (skupienia) K = M 4 S 4. Współczynnik ten nazywa sie też kurtozą. Inny współczynnik tego rodzaju to eksces (współczynnik spłaszczenia), obliczamy go następujaco: K 3 = M 4 S 4 3. Zachodzi ścisły związek między koncentracją wartości cechy wokół średniej (smukłość histogramu) a ich dyspersją. Im większa jest dyspersja tym mniejsza jest koncentracja i vice versa.