Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Podobne dokumenty
-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

1 Podstawy rachunku prawdopodobieństwa

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka. Opisowa analiza zjawisk masowych

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Parametry statystyczne

Opisowa analiza struktury zjawisk statystycznych

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Pozyskiwanie wiedzy z danych

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Miary statystyczne w badaniach pedagogicznych

Wykład 5: Statystyki opisowe (część 2)

Statystyczne metody analizy danych

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

W1. Wprowadzenie. Statystyka opisowa

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Biostatystyka, # 1 /Weterynaria I/

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Próba własności i parametry

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Wykład 4: Statystyki opisowe (część 1)

Ćwiczenia 1-2 Analiza rozkładu empirycznego

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Statystyka Matematyczna Anna Janicka

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Analiza struktury i przeciętnego poziomu cechy

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Analiza statystyczna w naukach przyrodniczych

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Miary w szeregach. 1 Miary klasyczne. 1.1 Średnia Średnia arytmetyczna

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Xi B ni B

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

Laboratorium 3 - statystyka opisowa

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Statystyki opisowe i szeregi rozdzielcze

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

Testy nieparametryczne

Zmienne losowe. Statystyka w 3

Wprowadzenie do analizy dyskryminacyjnej

Statystyka opisowa. Robert Pietrzykowski.

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

4.2. Statystyczne opracowanie zebranego materiału

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Zadania ze statystyki, cz.6

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wydział Nauki o Zdrowiu. Zakład Profilaktyki Zagrożeń Środowiskowych i Alergologii Marta Zalewska

Analiza zróżnicowania, asymetrii i koncentracji

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Statystyka matematyczna dla leśników

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

You created this PDF from an application that is not licensed to print to novapdf printer (

Statystyka opisowa. Robert Pietrzykowski.

Transkrypt:

Wykład dla studiów doktoranckich IMDiK PAN Biostatystyka I dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl

Program wykładu w skrócie 1. Wprowadzenie: rozkład empiryczny, parametry. 2. Rozkład normalny jako model cechy rzeczywistej. 3. Estymacja. 4. Hipotezy statystyczne. Porównanie dwóch populacji. testy parametryczne i nieparametryczne. 5. Testowanie zgodności rozkładu empirycznego z teoretycznym. 6. Porównania wielu średnich.testy parametryczne i nieparametryczne. W przykładach zastosowanie pakietu statystycznego STATISTICA, arkusza EXCEL lub CALC. 2

Literatura 1. Łomnicki A., Wprowadzenie do statystyki dla przyrodników, PWN Warszawa 2000, 2007 2. Meissner W., Przewodnik do ćwiczeń z przedmiotu Metody statystyczne w biologii, Wyd. Uniwersytetu Gdańskiego, Gdańsk 2010 3. Stanisz A. (red.), Biostatystyka, Wyd. Uniwersytetu Jagiellońskiego, Kraków 2005 4. Stanisz A., Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny (tomy 1-2), Wyd. Statsoft Polska, Kraków 2006, 2007 5. Watała C., Biostatystyka, Wyd. α-medica press 2002 3

Statystyczny opis danych Dane liczbowe z pomiaru: x 1, x 2,..., x n w badaniu pełnym. Pierwszym etapem analizy danych jest ich opis: rozkład wartości (w postaci tabel, wykresów) charakterystyka za pomocą parametrów (np. średnia arytmetyczna, mediana, odchylenie standardowe) 4

Przykład Wiek chorych na pewną chorobę szereg statystyczny nieuporządkowany. 5

Przykład cd. Wiek chorych na pewną chorobę szereg statystyczny uporządkowany (posortowany rosnąco). 6

Przykład cd. Wiek chorych na pewną chorobę szereg statystyczny uporządkowany (posortowany rosnąco). 7

Przykład cd. Wiek chorych na pewną chorobę szereg statystyczny uporządkowany (posortowany rosnąco). Cały zakres wartości dzielimy na klasy, zliczamy wartości w każdej klasie. Rezultat można przedstawić w tabeli lub na wykresie. 8

Empiryczny rozkład wartości... przedstawiony w postaci szeregu rozdzielczego Klasy wiekowe Liczebność <15; 25) 4 <25; 35) 7 <35; 45) 12 <45; 55) 15 <55; 65) 15 <65; 75) 11 <75; 85) 6 <85; 95> 5 Razem 75 9

Empiryczny rozkład wartości... przedstawiony w postaci histogramu Rozkład symetryczny 10

Empiryczny rozkład wartości cd. Rozkład asymetryczny (prawoskośny, asymetria prawostronna) 11

Empiryczny rozkład wartości cd. Rozkład asymetryczny (lewoskośny, asymetria lewostronna) 12

Empiryczny rozkład wartości cd. Rozkład typu U 13

Empiryczny rozkład wartości cd. Rozkład równomierny 14

Empiryczny rozkład wartości cd. Rozkład dwumodalny 15

Typy rozkładów empirycznych 16

Statystyczny opis danych Dane liczbowe z pomiaru: x 1, x 2,..., x n w badaniu pełnym. Pierwszym etapem analizy danych jest ich opis: rozkład wartości (w postaci tabeli, wykresu) charakterystyka za pomocą parametrów (np. średnia arytmetyczna, mediana, odchylenie standardowe) 17

Do czego potrzebujemy parametrów? 18

Do czego potrzebujemy parametrów? Parametry opisują własności całego zespołu danych liczbowych: Rys. 1 położenie (na osi liczbowej) 19

Do czego potrzebujemy parametrów? Parametry opisują własności całego zespołu danych liczbowych: Rys. 2 rozrzut (względem średniej) 20

Do czego potrzebujemy parametrów? Parametry opisują własności całego zespołu danych liczbowych: Rys. 3 asymetrię (względem średniej) 21

Parametry Parametry opisują własności całego zespołu danych liczbowych: a. położenie (przeciętny poziom, tendencja centralna) b. rozrzut (rozproszenie, dyspersja) i zmienność c. asymetrię (skośność) d. spłaszczenie Parametry klasyczne obliczane na podstawie wszystkich wyników. Parametry pozycyjne - wyznaczane na podstawie pozycji wyników w szeregu statystycznym lub częstości występowania. 22

Parametry położenia Parametry położenia charakteryzują średni lub typowy poziom, wokół którego skupiają się wartości ze zbioru danych: wartość średnia (np. arytmetyczna, geometryczna, harmoniczna) wartość o ustalonej pozycji w rozkładzie (np. mediana i inne kwantyle) wartość najczęściej występująca (dominanta, inaczej: modalna, moda) 23

24 Średnia arytmetyczna Dla danych x1, x2,..., xn: n i i n x n n x x x x 1 2 1 1... *Dla szeregu rozdzielczego; k - liczba klas, ni - liczebność w i-tej klasie: k i i k i i i k k k sz n n x n n n n x n x n x x 1 1 2 1 2 2 1 1......

Przykład W pewnym doświadczeniu medycznym badano czas snu pacjentów leczonych na pewną chorobę. Dla 12 pacjentów otrzymano wyniki (w min.): 435, 389, 533, 324, 561, 395, 416, 500, 499, 397, 356, 398. Średni czas snu w badanej grupie pacjentów wynosi x 435 389 12... 398 5203 12 433,6 minuty 25

Modyfikacje średniej arytmetycznej Na średnią arytmetyczną duży wpływ mają skrajne wartości cechy, zwłaszcza przy małej liczebie danych. Aby go wyeliminować, można stosować inne średnie, które nie uwzględniają wartości skrajnych: średnia przycięta liczona jak arytmetyczna, ale po usunięciu określonego procenta górnych i dolnych wartości (np. po 5%) ze zbioru danych średnia Winsora obliczana po zastąpieniu określonego procenta górnych i dolnych wartości w zbiorze danych wartością minimalną i maksymalną z pozostałej części 26

Przykład Dane uporządkowane rosnąco x(i): 24, 35, 189, 195, 197, 198, 216, 235, 533, 561 Winsoryzacja: 189, 189, 189, 195, 197, 198, 216, 235, 235, 235 W 189 3 195 197 198 10 216 235 3 207,8 Średnia typu Winsor stosowana jest w zagadnieniach medycznych, gdy występują obserwacje odstające. 27

Wzór na średnią typu Winsor Dane uporządkowane rosnąco: x(1), x(2), x(3),..., x(n-2), x(n-1), x(n) p 1 α, β x x n im1 α 0, β 0,5, m αn, p n W 1 i mx m n p p βn gdzie: Symbol [x] oznacza część całkowitą liczby x (np. [2,6] = 2). Średnia typu Winsor jest obliczana z danych, w których (100α)% najmniejszych liczb zostało zastąpione przez (m+1)-szą, a (100β)% największych przez p-tą. 28

Średnia arytmetyczna ważona Średnia arytmetyczna ważona stosowana jest, gdy pewnym obserwacjom w zbiorze wyników chcemy nadać większe znaczenie (aby miały większy wpływ na obliczaną wartość średniej). x w n i1 n i1 gdzie wi oznacza wagę wyniku xi, wi > 0. w i w i x i 29

Przykład W grupie pacjentów przeprowadzono dwa testy psychomotoryczne, oba oceniane w skali 0-100. Psycholog uznał, że wagi wyników testów powinny być w stosunku jak 2:3. Jeśli x 1, x 2 oznaczają wyniki pacjenta z obu testów, to 2 x 3 x 1 2 x 0,4 x 6 w 1 0, x2 2 3 Id_pacjenta Test 1 Test 2 Ocena końcowa 1. 20 85 (20*2+85*3)/(2+3)=59 2. 85 20 (85*2+20*3)/(2+3)=46 Zwykła średnia arytmetyczna wynosi (20+85)/2=52,5. 30

Średnia arytmetyczna ważona cd. Przykład zastosowania: Średnia ze wcześniej obliczonych średnich, gdy nie są one równocenne (bo pochodzą ze zbiorów danych o różnej liczebności lub powierzchni badawczych o różnych rozmiarach lub gdy przy ich obliczaniu stosowano różną dokładność pomiaru). Wówczas wagą może być liczebność zbioru danych, powierzchnia badawcza, odwrotności dokładności pomiarów. 31

Przykład Trzy osoby mierzyły pierśnicę drzew w jednym oddziale leśnym. Liczba zmierzonych drzew Obliczona średnia [cm] Osoba 1 5 120,0 Osoba 2 20 70,0 Osoba 3 50 40,0 Błędne podejście: średnia ze średnic wynosi 76,7 cm nadmierną wagę przyjmujemy dla niewielu pomiarów pierwszej osoby, a zbyt małą do najliczniejszych pomiarów trzeciej osoby. Poprawne podejście: 5120 2070 50 40 5 20 50 53,3 32

Średnia geometryczna Średnia geometryczna jest stosowana do danych, które stanowią ilorazy pewnych wielkości. Oblicza się ją tylko dla liczb nieujemnych. Przykład zastosowania x n x x x x g 1 2 3 n W biologii oblicza się średnią ze współczynników śmiertelności lub przyrostu badanej cechy w kolejnych momentach czasu (w szeregach czasowych). 33

Przykład Przez cztery lata badano rozrodczość i śmiertelność pewnego owada w wybranym siedlisku. Liczebność zaobserwowana Współczynnik reprodukcji netto Rok 1 10 Rok 2 40 R1=40/10=4 Rok 3 40 R2=40/40=1 Rok 4 80 R3=80/40=2 Średni wsp. reprodukcji netto ze wszystkich lat R 3 4 1 2 2 Sprawdzenie: 10 2 2 2=80 34

Przykład cd. Zauważmy, że średnia arytmetyczna wynosi tu 2,33, a więc w ciągu trzech lat populacja motyli wzrosłaby (2,33) 3 ~12,6 raza, co nie miało miejsca. 35

Średnia harmoniczna Średnia harmoniczna jest stosowana do danych wyrażonych w jednostkach względnych, np.: prędkość w km/h, zagęszczenie/zaludnienie w liczbie osób/km 2. x h n i1 n 1 x Średnią harmoniczną stosujemy tylko do liczb dodatnich. Pozwala nadać większe znaczenie mniejszym wartościom w zbiorze danych. i 36

Średnia harmoniczna ważona Średnia harmoniczna ważona pozwala nadać wagi poszczególnym wynikom ze zbioru danych: x hw n i1 n i1 w w x i i i 37

Zależności między średnimi Między średnią arytmetyczną, geometryczną i harmoniczną dla dowolnego zbioru danych występuje zależność: x h x g x 38

Dominanta Dominanta to wartość występująca najczęściej w zbiorze danych (modalna, moda). Dla danych zestawionych w szeregu rozdzielczym wskazuje na nią najliczniejsza klasa, na histogramie najwyższy szczyt. W zależności od liczby szczytów widocznych na histogramie, mamy rozklad jednomodalny (unimodalny), dwumodalny (bimodalny), trójmodalny, itd. Wielomodalność rozkładu świadczy o niejednorodności zbioru danych. 39

Przykład Pacjenci pewnej kliniki pogrupowani według czasu działania leku przeciwbólowego. Czas działania leku Liczba pacjentów [min.] <7,5 ; 12,5) 4 <12,5 ; 17,5) 29 <17,5 ; 22,5) 39 <22,5 ; 27,5) 81 <27,5 ; 32,5) 35 <32,5 ; 37,5) 9 <37,5 ; 42,5> 4 Dominanta należy do przedziału od 22,5 do 27,5. 40

Dominanta w szeregu rozdzielczym Rachunkowe wyznaczenie dominanty: D( x) D x 0 D n n n n D n D D1 n D1 D D1 h nd liczebność w przedziale dominanty nd-1 liczebność w przedziale poprzedzającym przedział dominanty nd+1 liczebność w przedziale następujacym po przedziale dominanty hd długość przedziału dominanty Dx0 początek przedziału dominanty 41

Przykład cd. Dla wartości z przykładu: 81 39 D( x) 22,5 5 81 39 81 35 25,4 Najczęściej spotykanym czasem działania leku przeciwbólowego jest 25,4 min. (przy średniej arytmetycznej 23,9 min.). 42

Mediana Mediana Me to wartość środkowa w zbiorze danych (parametr pozycyjny). Gdy liczba danych jest nieparzysta, medianę stanowi wartość środkowego elementu. W przypadku parzystej liczby pomiarów w próbie, medianę stanowi średnia wartość z dwóch sąsiadujących środkowych elementów uporządkowanego zbioru. Me x n / 2 2 n n / 21 dla n parzystych Me xn 1 / 2 dla n nieparzystych 43

Przykłady Przykład 1. Obliczanie mediany dla n = 9 danych: 35, 40, 36, 35, 39, 37, 38, 36, 38 Po uporządkowaniu: 35, 35, 36, 36, 37, 38, 38, 39, 40; Me=37 Przykład 2. Obliczanie mediany dla n = 8 danych: 35, 35, 36, 36, 37, 38, 38, 39; Me=(36+37)/2=36,5 44

Mediana Dla danych zagregowanych w szereg rozdzielczy przy wyznaczaniu mediany można wykorzystać szereg liczebności skumulowanych. Mediana znajduje się w klasie, w której skumulowane liczebności przekraczają lub co najmniej osiągają numer kolejnej jednostki środkowej. Jeśli dane o charakterze skokowym pogrupowane są w szereg rozdzielczy, to medianę stanowi środek przedziału, w którym się ona znajduje. 45

Przykład Pacjenci pewnej kliniki pogrupowani według czasu działania leku przeciwbólowego. L. pacjentów skumulowana <7,5; 12,5) 4 4 <12,5;17,5) 29 33 <17,5;22,5) 39 72 <22,5;27,5) 81 153 <27,5;32,5) 35 188 <32,5;37,5) 9 197 <37,5;42,5> 4 201 Razem 201 Czas działania leku Liczba pacjentów Mediana należy do przedziału od 22,5 do 27,5. 46

Mediana w szeregu rozdzielczym Jeśli dane o charakterze ciągłym pogrupowane są w szereg rozdzielczy (także, gdy występują rangi wiązane), to do wyznaczania mediany stosuje się wzór interpolacyjny: gdzie: Me hm n Mx0 F0 n 2 Mx0 dolna granica przedziału mediany, hm długość przedziału mediany, nm liczebność w przedziale mediany, n liczba wszystkich danych, F0 liczebność skumul. przedz. przed medianą M 47

Przykład cd. Pacjenci pewnej kliniki pogrupowani według czasu działania leku przeciwbólowego. Me 5 201 22,5 72 81 2 24,2 Mediana wynosi 24,2 min. Oznacza to, że dla połowy pacjentów czas działania leku nie przekracza 24,2 min. i dla takiej samej liczby pacjentów jest nie mniejszy od tej wartości. 48

Kwantyle Mediana jest jednym z kwantyli. Kwantyle to wartości, które dzielą uporządkowany zbiór danych na części o jednakowej liczbie elementów. Kwartyle dzielą zbiór danych na cztery części, decyle na dziesięć i percentyle (centyle) na sto części. 49

Kwartyle 25% danych 25% danych 25% danych 25% danych Q2=Me Q1 Q3 50

Kwartyle Pierwszy kwartyl Q1 dzieli uporządkowany zbiór danych w taki sposób, że 25% elementów zbioru ma wartości nie większe, a 75% nie mniejsze od tego elementu. Drugi kwartyl (mediana) Q2 = Me dzieli uporządkowany zbiór danych na dwie równe części. Wartości skrajne nie mają wpływu na jej wielkość. Trzeci kwartyl Q3 dzieli uporządkowany zbiór danych w taki sposób, że 75% elementów zbioru ma wartości nie większe, a 25% nie mniejsze od tego elementu. 51

Kwartyle Przy wyznaczaniu kwartyli pierwszego i trzeciego stosuje się takie same zasady, jak dla mediany. Dla danych ciągłych wzory interpolacyjne są następujące: h N h 3N Q1 x0 F0, Q3 x0 F n0 4 n0 4 gdzie: 0 x0 dolna granica przedziału pierwszego lub trzeciego kwartyla, h szerokość przedziału pierwszego lub trzeciego kwartyla, n0 liczebność w przedziale pierwszego lub trzeciego kwartyla, N liczba wszystkich danych, F0 liczebność skumul. przedziału poprzedniego 52

Kwartyle w programie STATISTICA Program STATISTICA daje mozliwość wyznaczania kwantyli, ale nie ma wśród nich metody opisanej powyżej. Dlatego w celu wyznaczenia mediany dla danych ciągłych pogrupowanych w przedziały trzeba korzystać z arkusza kalkulacyjnego. 53

Parametry rozrzutu i zmienności Parametry rozrzutu opisują zróżnicowanie w zbiorze danych: wariancja i odchylenie standardowe współczynnik zmienności rozstęp rozstęp kwartylowy odchylenie ćwiartkowe 54

Wariancja Wariancja s 2 pokazuje rozproszenie danych wokół średniej arytmetycznej. 2 2 x x x x x x 2 n i1 2 1 2... s n n x i n x 2 Najmniejsza wartość wariancji wynosi zero, im większe zróżnicowanie, tym większa wartość wariancji. 55

Odchylenie standardowe Odchylenie standardowe s, SD (standard deviation) SD Odchylenie standardowe pokazuje, o ile przeciętnie poszczególne wyniki różnią się od średniej, czyli pokazuje wielkość błędu pojedynczego pomiaru. Im mniejsza wartość odchylenia, tym obserwacje są bardziej skupione wokół średniej. 2 s 56

Parametry pozycyjne 25% danych 25% danych 25% danych 25% danych Q1 Q2=Me Rozstęp kwartylowy Q3 Minimum Rozstęp Maksimum 57

Rozstęp Rozstęp wskazuje na całkowity obszar zmienności badanej cechy. Jest obliczany jako różnica pomiędzy największą i najmniejszą wartością w zbiorze danych. R x x max min Określają go tylko dwie skrajne wartości, pozostałe nie mają żadnego wpływu na wielkość rozstępu. Dlatego zamiast rozstępu czasem podaje się zakres od 5% do 95% wartości, pomijając w ten sposób po 5% wartości skrajnych z każdego końca. 58

Odchylenie ćwiartkowe Rozstęp kwartylowy obliczamy jako różnicę pomiędzy trzecim i pierwszym kwartylem. Pomiędzy tymi kwartylami znajduje się 50% wszystkich obserwacji. Odchylenie ćwiartkowe Q obliczamy jako połowę różnicy pomiędzy trzecim i pierwszym kwartylem. Q Q 3 Q 1 2 Rozstęp kwartylowy i odchylenie ćwiartkowe są obliczane, gdy miarą położenia jest mediana. Wskazują one na rozrzut wyników wokół mediany. 59

Współczynnik zmienności Współczynnik zmienności v, cv (coefficient of variation) oblicza się dzieląc odchylenie standardowe przez średnią arytmetyczną - jest parametrem bezwymiarowym: v SD x SD lub v 100% x Im mniejszą przyjmuje wartość, tym mniejsza zmienność zbioru danych względem średniej. 60

Współczynnik zmienności - pozycyjny Współczynnik zmienności pozycyjny V oblicza się dzieląc odchylenie ćwiartkowe przez medianę: V Q Me Q lub V 100% Me 61

Przykład Współczynnik zmienności umożliwia porównanie zmienności zbiorów danych różniących się znacznie wartością średniej lub zawierających pomiary wykonane w różnych jednostkach. Współczynnik zmienności stosujemy do porównania, która cecha jest bardziej zróżnicowana relatywnie względem swojej średniej. Jeśli oceniamy zróżnicowanie względem mediany, to stosujemy pozycyjny współczynnik zmienności. 62

Parametry asymetrii (skośności) Miarę asymetrii można oprzeć na spostrzeżeniu, że w szeregu statystycznym o rozkładzie symetrycznym średnia arytmetyczna, mediana oraz dominanta są równe x Me W szeregach asymetrycznych wartości tych parametrów odbiegają od siebie tym bardziej, im asymetria jest większa. Wskaźnikiem asymetrii może być różnica Gdy x D 0 x D asymetria D prawostronna x D 0 asymetria lewostronna 63

Współczynnik asymetrii Współczynnik asymetrii (jeden z wielu) jest liczbą niemianowaną, a jego znak mówi o kierunku asymetrii. A 3 x s D A 3 =0 rozkład symetryczny A 3 >0 rozkład prawoskośny, asymetria prawostronna A 3 <0 rozkład lewoskośny, asymetria lewostronna 64

Parametr spłaszczenia Kurtoza (wskaźnik spłaszczenia, wskaźnik smukłości) wskazuje na koncentrację danych wokół średniej. Wartości kurtozy mniejsze od zera świadczą o rozkładzie spłaszczonym (platykurtycznym), zaś wartości większe od zera o rozkładzie wysmukłym (leptokurtycznym) w stosunku do rozkładu normalnego. 65

Podsumowanie Parametry tak charakteryzują zbiór danych, że porównanie różnych zbiorów danych można sprowadzić do porównań parametrów. Przykład W dwóch grupach chorych zmierzono skurczowe ciśnienie krwi. Otrzymano wyniki: grupa I: 145, 125, 130, 155, 140, 150, 135 grupa II: 115, 150, 100, 180, 140, 165, 130 66

Obliczenia w arkuszu kalkulacyjnym 67

Przykład cd. Jeśli położenie zbioru danych określamy używając średniej arytmetycznej (miara klasyczna), to do opisu rozrzutu także użyjemy miary klasycznej (odchylenie standardowe). Natomiast jeśli położenie rozkładu opisujemy używając miar pozycyjnych (mediana, dominanta), to rozrzut opiszemy za pomocą odchylenia ćwiartkowego (miara pozycyjna). 68

Obliczenia w pakiecie STATISTICA Przykład. (plik biegusy.xls) Zebrano dane o pomiarach 25 dorosłych i 38 młodych biegusów płaskodziobych. Należy przedstawić statystyki opisowe dla pomiaru skrzydła (kolumna SKRZ) oddzielnie dla obu grup wiekowych. 69

Obliczenia w pakiecie STATISTICA Uruchamiamy pakiet: Zamykamy okienko powitalne: 70

Obliczenia w pakiecie STATISTICA Zaznaczamy dane w arkuszu, wybieramy Kopiuj z menu podręcznego: 71

Obliczenia w pakiecie STATISTICA Przechodzimy do pakietu, w pierwszej komórce pierwszej kolumny (zmiennej) klikamy prawym przyciskiem myszy, wybieramy Wklej z nagłówkami/wklej z nazwami zmiennych 72

Obliczenia w pakiecie STATISTICA 73

Obliczenia w pakiecie STATISTICA Wybieramy z menu opcję Statystyka/Statystyki podstawowe i tabele/statystyki opisowe/ok 74

Obliczenia w pakiecie STATISTICA W okienku Statystyki opisowe wybieramy przycisk Zmienna i zaznaczamy zmienną SKRZ, przyciskamy OK. 75

Obliczenia w pakiecie STATISTICA W oknie Statystyki opisowe, po prawej stronie przycisk Grupami... umożliwia zdefiniowanie podziału na grupy. Jako zmienną grupującą zaznaczamy WIEK. Zaznaczamy opcję Wyniki w jednym folderze. 76

Obliczenia w pakiecie STATISTICA W razie niejasności, można kliknąć pytajnik, który otwiera pomoc ekranową. 77

Obliczenia w pakiecie STATISTICA 78

Obliczenia w pakiecie STATISTICA W zakładce Więcej zaznaczamy parametry, które mają być obliczone. Po kliknięciu przycisku Podsumowanie wyniki są zestawione w skoroszycie. 79

Obliczenia w pakiecie STATISTICA Można obejrzeć histogramy rozkładu analizowanej zmiennej po kliknięciu na przycisk Wykresy na karcie Więcej lub Histogramy na karcie Normalność. W tym drugim przypadku możemy ustalić liczbę przedziałów. 80

Obliczenia w pakiecie STATISTICA 81

Obliczenia w pakiecie STATISTICA Wykres ramka-wąsy, pudełko z wąsami (box-and-whisker plot) 116 114 112 SKRZ Wiek 1 110 108 106 104 102 100 Mediana = 106 25%-75% = (105, 108) Min-Maks = (102, 115) 82