http://www.cengage.com/resource_uploads/downloads/0538733497_267933.pdf Bernard Rosner Fundamentals of Biostatistics Brooks/Cole CENGAGE Learning, 2011 http://sjspielman.org/bio5312_fall2017/ D.Makowiec: Biostatystka 1 Prof. Danuta Makowiec Instytut Fizyki Teoretycznej i Astrofizyki, UG Kontakt: pok. 353, tel.: 58 523 2466, e-mail danuta.makowiec at gmail.com http://www.fizdm.strony.ug.edu.pl/me/biostatystyka.html 1
natura danych i obraz statystyki Statystyka to badanie zestawu, zbioru, kolekcji. To analiza, interpretacja, prezentacja i organizacja danych Używamy statystyki by przewidywać zjawiska w całym zestawie, chociaż używamy jedynie próby z elementów zestawu. Używamy statystyki, by ocenić niepewność danych. Biostatystyka to gałąź statystyki stosowanej służąca medycznym i biologicznym problemom. D.Makowiec: Biostatystka 3 natura danych i obraz statystyki Populacja statystyczna : zbiorowość ( zestaw elementów) na jakiej prowadzi się badania statystyczne. Zazwyczaj nie znamy prawdziwego składu populacji. Populacje opisujemy poprzez parametry. D.Makowiec: Biostatystka 4 2
natura danych i obraz statystyki Próba to podzbiór elementów populacji. Będziemy testować hipotezy co do parametrów populacji, opierając się na własnościach próby. Próby będą opisywane poprzez oszacowania pobranych danych. D.Makowiec: Biostatystka 5 Idealna próba powinna być bez inklinacji oraz posiadać niski błąd próbkowania inklinacja (bias): systematyczne odchylenie oszacowania (próba) od wartości parametru (populacja) wysoka inklinacja: oszacowanie niecelne duży rozrzut: oszacowanie nieprecyzyjne inklinacja i duży rozrzut Próba powinna być losowa: każdy element populacji ma równą szansę bycia wylosowanym D.Makowiec: Biostatystka 6 3
Badacz wybiera pierwszych 58 studentów - ochotników, którzy zgłosili się do badań. Program komputerowy numeruje wszystkich mieszkańców pewnej społeczności, a następnie wykorzystując generator liczb losowych wybiera 26 mieszkańców. Badacz wstrząsa wielokrotnie pudłem zawierającym identycznego rozmiaru kule, a następnie wybiera pierwsze trzy, które z pudła wypadły. Badacz wybiera do badań wszystkich uczestników, których pierwsza litera imienia zaczyna się na A, B, K, M lub O. D.Makowiec: Biostatystka 7 Badacz wybiera pierwszych 58 studentów - ochotników, którzy zgłosili się do badań. Program komputerowy numeruje wszystkich mieszkańców pewnej społeczności, a następnie wykorzystując generator liczb losowych wybiera 26 mieszkańców. Badacz wstrząsa wielokrotnie pudłem zawierającym identycznego rozmiaru kule, a następnie wybiera pierwsze trzy, które z pudła wypadły. Badacz wybiera do badań wszystkich uczestników, których pierwsza litera imienia zaczyna się na A, B, K, M lub O. D.Makowiec: Biostatystka 8 4
natura danych i obraz statystyki Przetworzenie zebranych w próbie danych to statystyka opisowa. Statystyka opisowa wykorzystuje narzędzia pozwalające na zwięzły opis danych numerycznie i graficznie. Pierwsze kroki eksploracji danych i analizy statystycznej to: Identyfikacja brakujących danych, danych odstających Sprawdzenie założeń zakładanego modelu statystycznego Identyfikacja trendów, które zasługują na dalsze badania D.Makowiec: Biostatystka 9 To jakie metody analizy czy wizualizacji są dostępne zależy od typu danych. Dowolna liczba rzeczywista Dane mogą być: ilościowe: ciągłe dyskretne kategoryczne: nominalne porządkowe binarne Nazwy: kolor oczu, typ genotypu Kategorie z naturalnym porządkiem Dowolna liczba naturalna, wynik zliczenia TAK/NIE PRAWDA/FAŁSZ D.Makowiec: Biostatystka 10 5
Przykład: stan pacjenta po szpitalnej kuracji Stan pacjenta opuszczającego szpital ocenia się w następującej skali : 1 - znacząca poprawa 2- nieznaczna poprawa 3- brak zmian 4- nieznaczne pogorszenie 5-znaczące pogorszenie Te wartości są jedynie znakowaniem zmiany od najlepszej do najgorszej. Przykład: klasyfikacja: przyczyna śmierci pacjenta: dane nominalne 1- niewydolność sercowo-oddechowa 2- rak 3-niewydolnośc nerek 4-inna przyczyna D.Makowiec: Biostatystka 11 Przykład: temperatura ciała a masa ciała Temperatura jest dana typu przedziałowego. Zero skali jest tu umowne Waga ciała jest dana typu ilorazowego. Zero jest dobrze wyznaczone. Ciało A Ciało B różnica stosunek inne jednostki różnica stosunek Waga 55 kg 50 kg 5 kg 1.10 121.25 lbs 110.23 lbs 11.02lbs 1.10 Temperatura 30 C 15C 15C 2 86F 27F 27F 1.46 Różnica ma jednostki! Iloraz jest liczbą bezwymiarową! D.Makowiec: Biostatystka 12 6
Statystyka opisowa Miary lokalizacji: średnia: mediana: przy nieparzystej liczbie obserwacji mediana to (n+1)/2 element uporządkowanych obserwacji moda: najczęściej występująca obserwacja Co wybrać : medianę czy średnią, by opisać lokalizację tych danych Miary rozrzutu: odchylenia standardowe (wariancja) odstęp interkwartylowy zakres D.Makowiec: Biostatystka 13 symetryczny lewoskośny prawoskośny Średnia ulega przeciągnięciu w kierunku skośności Uwaga: jeśli nie umiemy zdecydować co jest lepsze mediana czy średniawybieramy medianę D.Makowiec: Biostatystka (14) 7
Statystyka opisowa pomiar oszacowanie dla próby parametr populacji średnia Odchylenie standardowe σ= 1 n (x i μ) 2 n i=1 wariancja D.Makowiec: Biostatystka 15 Statystyka opisowa Dane ciągłe: Wykres częstości (histogram) Wykres gęstości (density plot) Wykres pudełkowy (box plot) Wykres skrzypcowy (violin plot) Dane dyskretne: Wykres słupkowy (bar plot) Porównanie dwóch zmiennych ciągłych Wykres punktowy (scatter plot) import numpy as np import matplotlib.pyplot as plt fs = 10 # fontsize std = 1 pos = [1] data = [np.random.normal(0, std, size=1000)] plt.figure() plt.hist(data, bins = 21) plt.figure() plt.violinplot(data, pos, points=1000, widths=0.3, showmeans=true, showextrema=true, showmedians=true) plt.title('violinplot', fontsize=fs) plt.figure() plt.boxplot(data) Trendy: Wykres liniowy D.Makowiec: Biostatystka 16 8
Wizualizacja danych Metoda: jądrowy estymator gęstości (KDE) jednostajny dzwonowaty asymetryczny ( skośny) dwumodalny D.Makowiec: Biostatystka 17 natura danych i obraz statystyki Wąs 95 percentyla Jak opiszesz rozkład bazując na poniższym wykresie Jego symetrie? asymmetryczny Skośność? prawoskośny Modalność? nieznana Kwartyl górny: Q 3 Średnia arytmetyczna + Mediana: kwartyl drugi: Q 2 Kwartyl dolny: Q 1 Wąs 5 percentyla Histogram, a także wykres pudełkowy ujawniają symetrie lub jej brak w uzyskanych danych. Jeśli dane są symetryczne to najlepsze miary lokalizacji to średnia arytmetyczna i wariancja (odchylenie standardowe). D.Makowiec: Biostatystka 9
https://www.statystyczny.pl/wykres-skrzypcowy/ Histogram obserwacji i odpowiadający mu wykres gęstości wyznaczony poprzez jądrowy estymator gęstości (KDE) Wykres skrzypcowy: zwierciadlane odbicie położonej krzywej KDE Możliwości: (1) wykres skrzypcowy z rozróżnieniem płci (2) wykres skrzypcowy z rozróżnieniem płci i koloru oczu (3) wykres skrzypcowy porównujący występowanie koloru oczu w różnych płciach D.Makowiec: Biostatystka (19) Miary lokalizacji danych : moda średnia arytmetyczna średnia geometryczna mediana Miary rozproszenia danych: zakres percentyle(v p kwantyle), kwartyle (Q i ) odstęp interkwartylowy (IQR) wariancja ( var= s 2 ) odchylenie standardowe ( s) Techniki graficzne prezentacji danych: rozkład częstości wykres słupkowy wykres pudełkowy wykres skrzypcowy Rodzaj danych Zalecane miary lokalizacji Zalecane miary rozproszenia nominalne moda _ porządkowe interwałowe ilorazowe moda mediana średnia moda mediana średnia moda mediana zakres s, zakres IQR s, zakres, IQR D.Makowiec: Biostatystka 20 10
Podstawowe pojęcia rachunku prawdopodobieństwa przestrzeń próby zdarzenie prawdopodobieństwo wzajemna rozłączność rozkład prawdopodobieństwa niezalezność D.Makowiec: Biostatystka 21 Przestrzeń prób Zbiór możliwych wyników z losowej próby Zdarzenie Dowolny podzbiór przestrzeni próby Prawdopodobieństwo Wzajemna rozłączność Rozkład prawdopodobieństwa Proporcja wystąpień zdarzenia, częstość zdarzenia przy założeniu nieskończonej liczby obserwacji Dwa zdarzenia nazywamy wzajemnie rozłącznymi (wzajemnie wykluczającymi się) jeśli nie mogą występować jednocześnie Lista prawdopodobieństw wzajemnie wykluczających się zdarzeń uzyskanych z losowej próby Niezależność Dwa zdarzenia nazywamy niezależnymi, jeżeli wystąpienie jednego z nich nie wpływa na pojawienie się drugiego. D.Makowiec: Biostatystka 22 11
Estymacja Testowanie hipotez D.Makowiec: Biostatystka 23 D.Makowiec: Biostatystka (24) 12
Dlaczego? Pomiar to taka operacja, której wyniku nie znamy przed jej wykonaniem, ale umiemy go przewidzieć. Probabilistyczne widzenia pomiaru opiera się na założeniach: (a) o istnieniu przestrzeni stanów pomiaru, przestrzeń zdarzeń elementarnych Ω, zbioru wszystkich możliwych wyników pomiaru funkcji prawdopodobieństwa P określonej na tej przestrzeni : (a) dla dowolnego pomiaru (zdarzenia) A, A, [0,1] (b) ) 1 (c) P ( A dla A B i A, B (b) częstościowym ustaleniu funkcji prawdopodobieństwa P wielokrotne powtórzenie pomiaru A, zliczenie jego wyników pozwala na ustalenie lim n n n A D.Makowiec: Biostatystka 25 Przestrzeń stanów pomiaru DBP: Ω ={0,1,2,.,89,90,91,, 500} mmhg Załóżmy, że szerokie pomiary DBP ludności pozwoliły ustalić P{ DBP= k} dla dowolnego k=0,1,2, 500 mmhg Zdarzenia elementarne wzajemnie się wykluczają Zdarzenia elementarne wyczerpują wszystkie możliwości Własności funkcji prawdopodobieństwa pozwalają na następujące obliczenia: P{ } 1 0 DBP 500) 500 500 k 0 { DBP k}) DBP k) k 0 Prawdopodobieństwo zdarzenia A = { 80 DSP 90} D.Makowiec: Biostatystka A:80 DBP 90) 90 90 k 80 { DBP k}) DBP k) k 80 13
Niech A ={ DBP <90} to ciśnienie normatywne B= { 90 DBP < 95} to ciśnienie graniczne Zdarzenia A i B są wzajemnie wykluczające się. Zdarzenia te nie mogą występować jednocześnie Niech =0.7, =0.1 Wówczas A 0. 8 Niech C ={ DBP 90} D= { 75 DBP 100} C i D nie są wzajemnie wykluczające się. C jest zdarzeniem komplementarnym do A, co oznaczamy C = ~A C) ) 0.3 Prawdopodobieństwa zdarzenia D w oparciu o posiadane dane nie umiemy obliczyć. D.Makowiec: Biostatystka 27 Niech: M={ mama ma DBP 95} T={ tata ma DBP 95} M)=0.1 T)=0.2 M T )? Zdarzenia A i B nazywamy niezależnymi jeżeli prawdopodobieństwo wystąpienia jednoczesnego obu zdarzeń jest iloczynem prawdopodobieństw tych zdarzeń: A i = Uogólnienie prawa P ( A lub interakcja Ai B dodawania Jeśli A i B są zdarzeniami z tej samej fizycznie przestrzeni probabilistycznej interakcja A i B A Jeśli przestrzenie zdarzeń A i B są różne to interakcja A i B A, Prawdopodobieństwo przekroju zbiorów Prawdopodobieństwo łączne zdarzeń D.Makowiec: Biostatystka 28 14
Przykład: M)=0.1 T)=0.2 nie M 95 M Ω mama nie T (nie M, nie T) (M, nie T) 95 T (nie M, T) (M, T) M, T ) M )* T ) 0.02 ~ M, T ) ~ M )* T ) 0.18 M,~ T ) M )* ~ T ) 0.08 ~ M,~ T ) ~ M )* ~ T ) 0.72 Ω tata M T) M ) T ) T ) M ) 0.28 D.Makowiec: Biostatystka 29 Definicja Zdarzenia A i B nazywamy niezależnymi, jeśli wiedza o wyniku jednego z nich nie dostarcza nowej informacji o zdarzeniu drugim. Matematycznie własność ta wyraża się jako A,= Konsekwencja: Prawo dodawania obserwacji niezależnych: Jeżeli obserwacje A i B są niezależne to A (1 ) D.Makowiec: Biostatystka 30 15
Prawdopodobieństwo, że chora osoba kaszle kaszle jest chora ) Prawdopodobieństwo, że osoba jest chora i kaszle kaszle i jest chora ) Prawdopodobieństwo, że kaszląca osoba jest chora jest chora kaszle ) Prawdopodobieństwo warunkowe określa prawdopodobieństwo zdarzenia przy założeniu a priori występowanie innego zdarzenia D.Makowiec: Biostatystka 31 Definicja: Prawdopodobieństwem wystąpienia zdarzenia B przy warunku, że wystąpiło zdarzenie A nazywamy wielkość: A A, B A dalej? Ω A1 B A A3 A2 B A1 A2 A3 )? D.Makowiec: Biostatystka 32 16
Równa nie do rozwią zania Nasiono pewnej rośliny może trafić na glebę żyzną, średnią lub słabą. Prawdopodobieństwo, że trafi na glebą żyzną to 0.3, na glebę średnią to 0.2, a słabą 0.5. Ziarno to z prawdopodobieństwem 0.8 wykiełkuje na glebie żyznej, z prawdopodobieństwem 0.3 na glebie średniej i prawdopodobieństwem 0.1 na glebie słabiej. Jakie jest prawdopodobieństwo, że ziarno wykiełkuje? P[gleba żyzna]=0.3 P[gleba średnia]=0.2 P[gleba słaba]=0.5 P[wykiełkuje gleba żyzna]=0.8 P[wykiełkuje gleba średnia] = 0.3 P[wykiełkuje gleba słaba] = 0.1 P[ziarno wykiełkuje] = P[ziarno wykiełkuje i gleba jest żyzna] + P[ziarno wykiełkuje i gleba jest średnia] + P[ziarno wykiełkuje i gleba jest słaba] = P[ziarno wykiełkuje, gleba jest żyzna] + P[ziarno wykiełkuje, gleba jest średnia] + P[ziarno wykiełkuje, gleba jest słaba] = P[ziarno wykiełkuje gleba jest żyzna] *P[gleba jest żyzna] + P[ziarno wykiełkuje gleba jest średnia] *P[gleba jest średnia] + P[ziarno wykiełkuje gleba jest słaba] * P[gleba jest słaba] = 0.8*0.3 +0.3*0.2+ 0.1*0.5= 0.35 A co jeśli z prawdopodobieństwem 0.2 ziarno możne nie trafić do gleby? P[ gleba ]=0.8 P[ nie gleba ]=0.2 P[ ziarno wykiełkuje ]= P[ wykiełkuje gleba] * P[ gleba ]= 0.35 * 0.8 = 0.28 D.Makowiec: Biostatystka (33) Zestaw wyczerpujący zdarzeń wzajemnie wykluczających się : A 1, A 2, A k - jedno ze zdarzeń A 1, A 2, A k musi wystąpić - żadne dwa z nich nie może wystąpić jednocześnie Prawdopodobieństwo całkowite Dla zadanego zestawu wyczerpującego zdarzeń wzajemnie wykluczających się : A 1, A 2, A k, prawdopodobieństwo dowolnego zdarzenia B jest średnią ważoną prawdopodobieństw warunkowych zdarzenia B przy zadanym A i : k i 1 B A ) A ) i i Szczególny przypadek podziału przestrzeni stanów: A i ~A B A ) B ~ A ) ~ D.Makowiec: Biostatystka 34 17
Dwa zdarzenia A i B o następujących zbiorach wartości A,..., : a1, a2 ak B : b1, b2,..., bm przy czym zarówno { A ai} jak i { B bi} są zestawami zdarzeń wzajemnie rozłącznych i wyczerpujących, odpowiadających wartościom A i B, czyli 1 A { a 1 B { b,.. b }) B 1,.. ak}) A a i ) i 1.. K 1 M b i ) i 1.. M Do opisu łącznego( jednoczesnego) obu zdarzeń A i B stosujemy prawdopodobieństwo łączne { A= a i, B=b j } ) określone na iloczynie kartezjańskim wartości poszczególnych zdarzeń. Warto pamiętać, że: i, j i j a, b ) 1 i a, b ) b ) i a, b ) a ) i j j j j j Bo : wyczerpane są wszystkie możliwe wartości wyczerpane są wartości zmiennej A wyczerpane są wartości zmiennej B D.Makowiec: Biostatystka 35 Niech: B pojawienie się raka piersi w przeciągu dwóch lat po mammografii A pozytywny wynik mammografii Wiemy, że spośród 100 000 kobiet z negatywnym wynikiem mammografii u 20 kobiet w przeciągu dwóch lat pojawi się rak piersi a u 1 kobiety spośród 10 z pozytywnym wynikiem mammografii pojawi się rak piersi. 7% populacji kobiet uzyskuje pozytywny wynik mammografii Jakie jest prawdopodobieństwo, pojawienia się raka piersi w przeciągu dwóch lat po mammografii? B ~ =0.0002, B = 0.1, = 0.07 =B * + B ~~ = 0.00719=0.719% zachoruje na raka piersi w przeciągu dwóch lat Zdarzenia A i B są silnie zależne bo RR ( względne ryzyko) jest: def B RR( B 500 B ~ Co czytamy: Kobiety z pozytywnym wynikiem mammografii mają 500 razy większe prawdopodobieństwo zachorowania na raka w przeciągu dwóch lat niż kobiety z negatywnym wynikiem mammografii D.Makowiec: Biostatystka 36 18