Biostatystyka, # 1 /Weterynaria I/

Podobne dokumenty
Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

1 Podstawy rachunku prawdopodobieństwa

W1. Wprowadzenie. Statystyka opisowa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka. Opisowa analiza zjawisk masowych

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Biostatystyka, # 3 /Weterynaria I/

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyczne metody analizy danych

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Pozyskiwanie wiedzy z danych

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Miary statystyczne w badaniach pedagogicznych

Opisowa analiza struktury zjawisk statystycznych

Statystyka Matematyczna Anna Janicka

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Próba własności i parametry

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Wykład 5: Statystyki opisowe (część 2)

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Parametry statystyczne

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Statystyka matematyczna i ekonometria

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ćwiczenia 1-2 Analiza rozkładu empirycznego

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Przedmiot statystyki. Graficzne przedstawienie danych.

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyka opisowa. Robert Pietrzykowski.

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Matematyka stosowana i metody numeryczne

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Analiza zróżnicowania, asymetrii i koncentracji

Podstawowe pojęcia statystyczne

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Statystyka matematyczna dla leśników

Przedmiot statystyki. Graficzne przedstawienie danych.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Inteligentna analiza danych

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Wykład 4: Statystyki opisowe (część 1)

Wykład ze statystyki. Maciej Wolny

Statystyki opisowe i szeregi rozdzielcze

Wydział Nauki o Zdrowiu. Zakład Profilaktyki Zagrożeń Środowiskowych i Alergologii Marta Zalewska

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

Laboratorium 3 - statystyka opisowa

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Analiza struktury i przeciętnego poziomu cechy

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Xi B ni B

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Estymacja punktowa i przedziałowa

Transkrypt:

Biostatystyka, # 1 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl materiały: http://kzmi.up.lublin.pl/ zotachel/wet konsultacje: poniedziałek 11.30-13.30, wtorek 10.00-12.00 Lublin, 2019

Zakres materiału Statystyka opisowa Podstawowe pojęcia rachunku prawdopodobieństwa Zmienne losowe i ich rozkłady Estymacja punktowa i przedziałowa Testowanie hipotez statystycznych

Literatura Hanusz Z., Tarasińska J. Statystyka matematyczna, Wyd. AR Lublin 2006. Kala R. Statystyka dla przyrodników, Wyd. AR, Poznań, 2002. Koronacki J., Mielniczuk J. Statystyka dla studentów kierunków technicznych i przyrodniczych, WNT, 2001. Łomnicki A. Wprowadzenie do statystyki dla przyrodników, PWN, W-wa 2002. Parlińska M., Parliński J. Badania statystyczne z Excelem, Wyd. SGGW W-wa 2003. Smolik S. Zadania z rachunku prawdopodobieństwa i statystyki matematycznej dla Akademii Rolniczych. Wyd. SGGW W-wa 1994. Stanisz A. Biostatystyka. Wyd. UJ, 2006. Cezary Watała, Biostatystyka - wykorzystanie metod statystycznych w pracy badawczej w naukach biomedycznych. Wyd. Alfa Medica Press, Bielsko-Biała 2002.

Statystyka opisowa

Podstawowe pojęcia statystyczne Przedmiotem badań statystycznych są populacje - zbiory określonych istot, rzeczy lub zjawisk. Będą one analizowane przez pryzmat cech tj. funkcji, które przyporządkowują każdemu elementowi populacji wartość liczbową, będącą wynikiem pomiaru. Cechy podzielimy na: Skokowe - przyjmujące skończoną lub przeliczalną liczbę wartości np. ocena studenta na zaliczeniu z biostatystyki, ilość szczeniąt w miocie, ilość detekcji cząstek gamma w jednostce czasu - tzw. poziom promieniowania, itp. Ciągłe - przyjmujące dowolne wartości z pewnego przedziału, np. każda wielkość metryczna obiektu biologicznego (waga, długość,pole powierzchni, objętość itp.), czas życia zwierzęcia lub populacji, poziom interesującego związku chemicznego w badanym układzie (np. SO 2 w powietrzu, glukozy we krwi, saturacja krwi tlenem), wielkości meteorologiczne (temperatura, wilgotność, siła wiatru), wielkości fizyczne (prędkość, pęd, masa cząstki), itp, itd.

Całkowite i częściowe badanie populacji Wnioskując o cechach pewnej populacji można wykonać następujące rodzaje badań statystycznych: Badanie całkowite - mierząc wartości interesujących cech dla każdego elementu populacji, Badanie częściowe - oznaczając wartości cech dla wytypowanych na drodze losowania niektórych elementów populacji i uogólniając wyniki, za pomocą technik statystycznych, na całą populację. Ze statystycznego punktu widzenia interesujący jest tylko ten drugi rodzaj badania. Część populacji podlegającą badaniu częściowemu nazywamy próbą. Elementy populacji są kwalifikowane do próby poprzez losowanie. Każdy element populacji musi mieć taką samą szansę wylosowania.

Szereg statystyczny Badanie częściowe określonej cechy prowadzi do uzyskania pierwotnego szeregu statystycznego. Jest to ciąg pomiarów tej samej cechy x na N obiektach populacji, wybranych do badania w sposób losowy, mianowicie: x 1, x 2,..., x N, gdzie x i jest wartością (obserwacją lub pomiarem) cechy x dla i-tego elementu wytypowanego z populacji do badania, a N ilością przebadanych obiektów (rozmiarem, liczebnością, długością szeregu statystycznego). Ciąg pomiarów tej samej cechy nazywa się też próbą liczbową, natomiast (hipotetyczny) zbiór wszystkich pomiarów (na wszystkich elementach populacji) - przestrzenią próby.

Statystyczne szeregi rozdzielcze Rozstęp szeregu statystycznego (R) to różnica: R = x max x min, gdzie x max i x min oznacza odpowiednio największy i najmniejszy zaobserwowany pomiar. Pierwotny szereg statystyczny zawiera nieistotne informacje, dlatego podlega obróbce mającej na celu pominięcie tychże, a przez to zyskanie na przejrzystości. Takie zabiegi prowadzą do otrzymania następujących, przetworzonych danych statystycznych: Szereg szczegółowy - pomiary uporządkowane w kolejności rosnącej lub malejącej, Szereg rozdzielczy - zestawienie uporządkowanych zaobserwowanych wartości lub zakresów (przedziałów klasowych) z odpowiadającymi im liczebnościami. Szeregi rozdzielcze tworzy się z licznych (zawierających więcej niż 30 obserwacji) szeregów statystycznych lub, gdy w szeregu występują powtarzające się wartości.

Rodzaje szeregów rozdzielczych Punktowy szereg rozdzielczy - dla cech skokowych przyjmujących skończoną liczbę wartości; ma on postać zestawienia: (x i, l i ), gdzie x i - i-ta w kolejności wzrostu zaobserwowana wartość, l i - ilość powtórzeń w szeregu statystycznym. Klasowy szereg rozdzielczy - dla cech ciągłych lub skokowych o licznych różnych wartościach (w praktyce, więcej niż 30) i ma on postać zestawienia: (π i, l i ), lub (x i, l i ), gdzie π i - i-ty przedział klasowy o środku x i, l i - ilość obserwacji należących do tego przedziału, tzn. skupiających się wokół x i. Przedziały klasowe na ogół są jednakowej długości, muszą być rozłączne i ich suma ma pokrywać wszystkie wartości szeregu rozdzielczego. Suma liczebności jest zawsze równa długości szeregu statystycznego: l 1 + l 2 + + l r = N.

Zależność liczby klas od ilości pomiarów Liczba pomiarów (N) Liczba klas (k) 30-60 6-8 60-100 7-10 100-200 9-12 200-500 11-17 500-1500 16-25 Liczbę klas można wyznaczyć także na podstawie jednej z zależności: k 5 ln N, k 1 + 3, 332 ln N, k N. Nie stosuje się większej ilości klas niż 30. Długość przedziału klasowego obliczamy dzieląc rozstęp R przez liczbę klas k. Graficzne przedstawienie szeregu rozdzielczego to histogram (dla szeregów klasowych) lub diagram liczebności (dla szeregów punktowych).

Rozkład empiryczny Zastępując w szeregu rozdzielczym liczebności l i przez częstości f i = l i /N otrzymujemy zestawienie zwane empirycznym rozkładem cechy. Zauważmy i zapamiętajmy, że f i = 1. i

Charakterystyki używane do opisu danych statystycznych Zbiór danych statystycznych szereg statystyczny zawiera informację o cesze trudną do przetwarzania. Łatwiej operować częścią tej informacji, którą zawierają charakterystyki (miary) danych liczbowych. Są to funkcje zdefiniowane na elementach szeregu statystycznego. Do takich charakterystyk (miar) najczęściej wykorzystywanych przy opisie struktury zbiorowości liczbowych należą: miary średnie (przeciętne, położenia) podają one tą wartość wokół której skupiają się pozostałe liczby (obserwacje), jeżeli x jest taką miarą, to zawsze x min x x max ; miary zmienności (rozproszenia, zróżnicowania, dyspersji) określają stopień zróżnicowania wartości w analizowanej zbiorowości, jeżeli d jest taką miarą, to d 0,

przypadek d = 0 oznacza brak zmienności, wszystkie wartości są równe swojej średniej; miary asymetrii (skośności) określają kierunek zróżnicowania wartości; miary koncentracji określają stopień skupienia wartości wokół średniej.

Miary średnie (przeciętne) średnia arytmetyczna, dominanta (moda, wartość modalna, najczęstsza), kwartyle Średnia arytmetyczna jest obliczana na podstawie wszystkich wartości szeregu statystycznego, pozostałe miary średnie (tzw. pozycyjne) są wartościami konkretnych wyrazów szeregu wyróżniających się pod pewnym względem.

Średnia arytmetyczna Średnią x cechy x na podstawie szeregu statystycznego x 1, x 2,..., x N najczęściej policzymy posługując się średnią arytmetyczną: x = x 1 + x 2 + + x Ni=1 N x i = N N. Ale ta sama średnia dla szeregu rozdzielczego będzie liczona wg wzoru na średnią ważoną, gdzie wagami są liczebności: ri=1 x i l i ri=1, l i x = x 1l 1 + x 2 l 2 + + x r l r l 1 + l 2 + + l r = gdzie x 1, x 2,..., x r oznaczają tu wartości zaoobserwowane dla szeregu punktowego lub środki przedziałów klasowych dla szeregu klasowego. Średnia arytmetyczna jest miarą wiarygodną tylko dla zbiorowości o niewielkim stopniu zróżnicowania obserwacji. Gdy rośnie asymetria (histogram nie ma osi symetrii) lub zbiorowość jest wielomodalna (histogram ma więcej niż jedno maksimum) stosowalność wzoru traci sens.

Średnie pozycyjne Dominanta (moda) D to taka wartość obserwacji, która w szeregu statystycznym występuje najczęściej, ma sens tylko dla zbiorowości jednomodalnych (o jednej wartości maksymalnej). Kwartyle: Q 1 (dolny),q 2 (środkowy mediana), Q 3 (górny) dzielą szereg na 4 części, równe pod względem liczebności (po 25% obserwacji). Mediana (M e ) wartość znajdująca się dokładnie w środku szeregu uporządkowanego. Liczba obserwacji mniejszych od mediany jest równa ilości obserwacji większych o mediany. Mediana to środkowy kwartyl.

Miary zmienności (dyspersji) wariancja Wariancja pomiarów cechy x (ozn.: S 2 x := S 2 ) średnia arytmetyczna z kwadratów różnic poszczególnych, zaobserwowanych wartości cechy x od średniej arytmetycznej x wszystkich obserwacji. Dla szeregu surowego lub szczegółowego liczymy ją wg wzoru: S 2 = 1 N N (x i x) 2, i=1 Dla szeregów rozdzielczych użyjemy wzoru z wagami: S 2 = 1 N r l i (x i x) 2, N = i=1 r l i. gdzie tutaj x i są wartościami zaobserwowanymi lub środkami przedziałów klasowych, natomiast l i - liczebnościami związanymi z zaobserwowanymi wartościami x i lub ilościami obserwacji należących do kolejnych przedziałów klasowych. i=1

Wariancja - cd. W każdej sytuacji słuszny jest wzór: S 2 = x 2 (x) 2, gdzie x 2 oznacza średnią arytmetyczną kwadratów obserwacji (tzw. średni kwadrat), tj.: x 2 == x 1 2 + x 2 2 + + x N 2 N dla szeregu nieuporządkowanego, lub = Ni=1 x 2 i N x 2 = x 2 1 l 1 + x 2 2 l 2 + + x 2 r l r l 1 + l 2 + + l r = ri=1 x 2 i l i ri=1 l i, dla szeregów rozdzielczych, gdzie x 1, x 2,..., x r oznaczają tu wartości obserwowane (szeregi punktowe) lub środki przedziałów klasowych (szeregi klasowe) związane z liczebnościami l 1, l 2,..., l r. Wariancja jest zawsze liczbą nieujemną, wyrażoną w kwadracie jednostki fizycznej użytej do pomiaru cechy x. Duża jej wartość świadczy o dużym zróżnicowaniu (zmienności) obserwacji.

Odchylenie standardowe Odchylenie standardowe pomiarów cechy x (ozn.: S x := S) jest pierwiastkiem kwadratowym z wariancji: S = S 2 i określa o ile średnio obserwacje różnią się od średniej arytmetycznej pomiarów badanej cechy. Odchylenie standardowe służy do do konstrukcji typowego przedziału zmienności dla badanej cechy. W tym obszarze mieści się około 2/3 wszystkich wartości obserwowanych dla tej cechy. Typowy przedział zmienności określa wzór: x S x x + S. By porównywać zmienność dwóch zbiorowości użyjemy niemianowanego współczynnika zmienności (ozn. V ): V = S x 100%.

Momenty Niech r będzie liczbą naturalną. Moment zwykły m r rzędu r dla szeregu x 1,..., x N to m r = 1 N xi r. N i=1 Moment centralny M r rzędu r dla szeregu x 1,..., x N to M r = 1 N (x i x) r. N Dla szeregów rozdzielczych i=1 (x i, l i ), i = 1,..., n, l 1 + l 2 + + l n = N : m r = 1 N xi r l i, M r = 1 N (x i x) r l i. N N i=1 i=1 Pierwszy moment zwykły m 1 jest średnią arytmetyczną. Pierwszy moment centralny M 1 jest zawsze równy 0. Drugi moment centralny M 2 jest wariancją.

Miary asymetrii Dla rozkładów symetrycznych - histogram ma oś symetrii przechodzacą przez wspólną wartość średniej arytmetycznej, dominanty i mediany - momenty centralne rzedów nieparzystych są równe 0. Stąd trzeci moment centralny wykorzystano do konstrukcji współczynnika asymetrii (skośności) Wartość A S jest: A s = M 3 S 3. równa zero, dla zbiorowości symetrycznej, dodatnia, dla zbiorowości o asymetrii prawostronnej, ujemna, dla zbiorowości o asymetrii lewostronnej. Im większa wartość bezwzględna współczynnika skośności tym większa asymetria badanej zbiorowości.

Miary koncetracji Czwarty moment centralny służy do pomiaru koncentracji (skupienia) K = M 4 S 4. Współczynnik ten nazywa sie też kurtozą. Inny współczynnik tego rodzaju to eksces (współczynnik spłaszczenia), obliczamy go następujaco: K 3 = M 4 S 4 3. Zachodzi ścisły związek między koncentracją wartości cechy wokół średniej (smukłość histogramu) a ich dyspersją. Im większa jest dyspersja tym mniejsza jest koncentracja i vice versa.