ernard Rosner Fundamentals of iostatistics rooks/cole CENGGE Learning, 2011 http://www.cengage.com/resource_uploads/downloads/0538733497_267933.pdf ntoni Lemańczyk UM oznań, oznan, 2008 Geoffry R. Norman i David Streiner, iostatistics: The are Essentials MH US, 3 edition 2007 1 rof. Danuta Makowiec Instytut Fizyki Teoretyczne i strofizyki, UG Kontakt: pok. 353, tel.: 58 523 2466, e-mail danuta.makowiec at gmail.com http://www.fizdm.strony.ug.edu.pl/me/biostatystyka_2016.html 1
opulaca statystyczna : zbiorowość na akie prowadzi się badania statystyczne roektowanie badania : czy będzie to badanie obserwacyne? czy będzie to kontrolowany eksperyment? a może tylko ankieta? akie rodzae zmiennych opisuą cechę: zależne czy niezależne określenie relaci przyczynowo - skutkowe pomiędzy zmiennymi? kategoryczne wartości nie wyznaczaą porządku czy ilościowe wartości można uporządkować? a eśli ilościowe to czy dyskretne czy ciągłe? pozwolą na uzyskanie odpowiedzi? iostatystyka 3 / 2016_10_06 róbkowanie populaci. Konsekwentne zbieranie założonych danych w próbie. iostatystyka 4 / 2016_10_06 2
rzetworzenie zebranych w próbie danych: zestawienia graficzne histogramy, wykresy pudełkowe, itp. i tabele by uzyskać opis dominuących własności oraz dziwnych skraności interpretaca rezultatów iostatystyka 5 / 2016_10_06 Miary lokalizaci danych : moda średnia arytmetyczna średnia geometryczna mediana Miary rozproszenia danych: zakres percentylev p kwantyle, kwartyle Q i odstęp interkwartylowy IQR warianca var= s 2 odchylenie standardowe s Techniki graficzne prezentaci danych: rozkład częstości wykres słupkowy wykres łodyga-liść wykres pudełkowy Rodza danych kategoryczne porządkowe interwałowe ilorazowe Zalecane miary lokalizaci moda moda mediana średnia moda mediana średnia moda mediana Zalecane miary rozprosze-nia zakres _ s, zakres IQR s, zakres, IQR iostatystyka 6 / 2016_10_06 3
Wąs 95 percentyla Kwartyl górny: Q 3 Średnia arytmetyczna + Mediana: kwartyl drugi: Q 2 Kwartyl dolny: Q 1 Wąs 5 percentyla iostatystyka 7 / 2016_10_06 Histogram, a także wykres pudełkowy uawniaą symetrie lub e brak w uzyskanych danych. Jeśli dane są symetryczne to nalepsze miary lokalizaci to średnia arytmetyczna i warianca odchylenie standardowe. odstawowe narzędzie statystyki: rachunek prawdopodobieństwa iostatystyka 8 / 2016_10_06 Zmienna losowa: Zmienna opisywana przez rozkład prawdopodobieństwa: dyskretny np. rozkład dwumianowy ciągły np.rozkład normalny 4
Estymaca Testowanie hipotez iostatystyka 9 / 2016_10_06 elementy rachunku prawdopodobieństwa Dlaczego? omiar to taka operaca, które wyniku nie znamy przed e wykonaniem, ale umiemy go przewidzieć. robabilistyczne widzenia pomiaru opiera się na założeniach: a o istnieniu przestrzeni stanów pomiaru, Ω, zbioru wszystkich możliwych wyników pomiaru funkci prawdopodobieństwa określone na te przestrzeni : a dla dowolnego pomiaru, [0,1] b 1 c dla i, iostatystyka 10 / 2016_10_06 b częstościowym ustaleniu funkci prawdopodobieństwa wielokrotne powtórzenie pomiaru, zliczenie ego wyników pozwala na ustalenie lim n n n 5
elementy rachunku prawdopodobieństwa rzestrzeń stanów pomiaru D: Ω ={0,1,2,.,89,90,91,, 500} mmhg Zdarzenia elementarne wzaemnie się wykluczaą Zdarzenia elementarne wyczerpuą wszystkie możliwości Załóżmy, że szerokie pomiary D ludności pozwoliły ustalić D= k dla każdego k=0,1,2, 500 mmhg Zatem na mocy własności funkci prawdopodobieństwa: rawdopodobieństwo zdarzenia = { 80 DS 90} { } 1 0 D 500 :80 D 90 500 500 k 0 { D k} D k k 0 90 90 k 80 { D k} D k k 80 iostatystyka 11 / 2016_10_06 elementy rachunku prawdopodobieństwa Niech ={ D <90} to ciśnienie normatywne = { 90 D < 95} to ciśnienie graniczne Zdarzenia i są wzaemnie wykluczaące się. Zdarzenia te nie mogą występować ednocześnie Niech =0.7, =0.1 Wówczas 0. 8 Niech C ={ D 90} D= { 75 D 100} C i D nie są wzaemnie wykluczaące się. C est zdarzeniem komplementarnym do, co oznaczamy C = ~ Wówczas C 0.3 rawdopodobieństwa zdarzenia D w oparciu o posiadane dane nie umiemy obliczyć. iostatystyka 12 / 2016_10_06 6
elementy rachunku prawdopodobieństwa Niech: M={ mama ma D 95} T={ tata ma D 95} M=0.1 T=0.2 M T? Zdarzenia i nazywamy niezależnymi eżeli prawdopodobieństwo wystąpienia ednoczesnego obu zdarzeń est iloczynem prawdopodobieństw tych zdarzeń: i = Uogólnienie prawa lub interakca i dodawania Jeśli i są zdarzeniami z te same fizycznie przestrzeni probabilistyczne iostatystyka 13 / 2016_10_06 interakca i Jeśli przestrzenie zdarzeń i są różne to interakca i, rawdopodobieństwo przekrou zbiorów rawdopodobieństwo łączne zdarzeń elementy rachunku prawdopodobieństwa Dwie zmienne i o następuących zbiorach wartości,..., : a1, a2 ak : b1, b2,..., bm przy czym zarówno { ai} ak i { bi} są zestawami zbiorów wzaemnie rozłącznych i wyczerpuących, odpowiadaących wartościom i, czyli 1 { a 1 { b,.. b } 1,.. ak} a i i1.. K 1 M b i i1.. M Do opisu łącznego obu zmiennych i stosue się prawdopodobieństwo łączne { = a i, =b } określone na iloczynie kartezańskim wartości poszczególnych zmiennych. iostatystyka 14 / 2016_10_06 Warto pamiętać, że: i, i a, b 1 i a, b b i a, b a i o : wyczerpane są wszystkie możliwe wartości wyczerpane są wartości zmienne wyczerpane są wartości zmienne 7
Definica Zmienne i nazywamy niezależnymi, eśli wiedza o wyniku edne z nich nie dostarcza nowe informaci o zmienne drugie. Matematycznie własność ta wyraża się ako,= rawo dodawania obserwaci niezależnych: Jeżeli obserwace i są niezależne to 1 iostatystyka 15 / 2016_10_06 elementy rachunku prawdopodobieństwa rzykład: M=0.1 T=0.2 nie M 95 M Ω mama nie T nie M, nie T M, nie T 95 T nie M, T M, T M, T M * T 0.02 ~ M, T ~ M * T 0.18 M,~ T M * ~ T 0.08 ~ M,~ T ~ M * ~ T 0.72 iostatystyka 16 / 2016_10_06 Ω tata M T M T T M 0.28 8
Definica: rawdopodobieństwem wystąpienia zdarzenia przy warunku, że wystąpiło zdarzenie nazywamy wielkość:, Ω 1 3 2 1 2 3? iostatystyka 17 / 2016_10_06 Zestaw wyczerpuący zdarzeń wzaemnie wykluczaących się : 1, 2, k - edno ze zdarzeń 1, 2, k musi wystąpić - żadne dwa z nich nie może wystąpić ednocześnie rawdopodobieństwo całkowite Dla zadanego zestawu wyczerpuącego zdarzeń wzaemnie wykluczaących się : 1, 2, k, prawdopodobieństwo dowolnego zdarzenia est średnią ważoną prawdopodobieństw warunkowych zdarzenia przy zadanym i : k i1 i i iostatystyka 18 / 2016_10_06 Szczególny przypadek podziału przestrzeni stanów: i ~ ~ ~ 9
Niech: poawienie się raka piersi w przeciągu dwóch lat po mammografii pozytywny wynik mammografii Wiemy, że spośród 100 000 kobiet z negatywnym wynikiem mammografii u 20 kobiet w przeciągu dwóch lat poawi się rak piersi. Zatem ~ =0.0002 u 1 kobiety spośród 10 z pozytywnym wynikiem mammografii poawi się rak piersi. Zatem = 0.1 Zdarzenia i są silnie zależne bo RR względne ryzyko est: RR 500 ~ Jeśli 7% populaci kobiet uzyskue pozytywny wynik mammografii, to ~ ~ iostatystyka 19 / 2016_10_06 Co czytamy: Kobiety z pozytywnym wynikiem mammografii maą 500 razy większe prawdopodobieństwo zachorowania na raka w przeciągu dwóch lat niż kobiety z negatywnym wynikiem mammografii = 0.00719=0.719% zachorue na raka piersi w przeciągu dwóch lat Test przesiewowy: rodza strategicznego badania prowadzonego wśród osób nieposiadaących obawów dane choroby w celu e wykrycia i wczesnego leczenia. rzewidywanie w oparciu o wynik testu przesiewowego: Wartością predykcyną dodatnią V+ testu nazywamy prawdopodobieństwo tego, ze osoba est chora, eśli wynik testu est dodatni: V+ = chory test+ Wartością predykcyną uemną V- testu nazywamy prawdopodobieństwo tego, ze osoba nie est chora, eśli wynik testu est uemny: V- = nie chory test- rzykład z mammografii: V+=rak piersi w przeciągu 2 lat mammografia+= =0.1 V-=nie ma raka piersi w przeciągu 2 lat mammografia-= ~ ~= 1- ~ =.9998 iostatystyka 20 / 2016_10_06 Im V- wyższe, test est lepszy!!! 10
Symptom zestaw symptomów może wyznaczać test przesiewowy V+ = est chory est symptom V- = nie est chory brak symptomu Idealne testy: V+ i V- bliskie 1 V+ wyższe, to test est lepszy Czułość symptomu zestawu symptomów to prawdopodobieństwo, że ten symptom est obecny, gdy osoba est chora. Czyli est symptom est chory Swoistość symptomu zestawu symptomów to prawdopodobieństwo, że ten symptom nie est obecny, gdy osoba est nie chora. Czyli brak symptomu nie est chory iostatystyka 21 / 2016_10_06 X, Y Y, X X Y Y Y Y, X X, Y Y X X X X, Y Y, X X Y Y Y X X iostatystyka 22 / 2016_10_06 Reguła ayesa pozwala odwrócić warunek, ale musi być znane Y 11
12 =symptom = choroba ~ ~ ~ ~ Czułość Swoistość V+ V- Reguła ayesa ~ ~ V 1-1 * * specificity sensitivity sensitivity V * 1 *1- *1- sensitivity specificity specificity V iostatystyka 23 / 2016_10_06