Wprowadzenie Wprowadzenie Wnioskowanie podsumowanie Zdefiniuj populację, która będzie przedmiotem badań Zbierz parametry, które będą przedmiotem wnioskowania Wybierz losową próbę z populacji Przeprowadź wnioskowanie statystyczne o parametrach: (a) estymacja i (b) testowanie hipotez Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 1 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 2 / 34 (pivotal variables) Aby móc przeprowadzić wnioskowanie potrzebujemy rozkładu próby statystyki, która estymowowała parametry, np. rozkład normalny czy rozkład χ 2. Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 3 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 4 / 34 (pivotal variables Zmienna bazowa Dotychczas stosowaliśmy zmienne: Z = Ȳ µ σ/ n oraz (n χ2 1)s2 = σ 2 Cechy wspólne powyższych zmiennych 1 Każde z tych wyrażeń zawiera przynajmniej jedną statystykę i jeden parametr szacowany przez statystykę. 2 Rozkład każdej z tych wielkości jest stablicowany. ych wielkości nie zależy od wartości parametru jest rozkładem ustalonym (fixed distribution). 4 Zarówno przedział ufności jak i testy hipotez mają u swojego źródła nierówności zawierające Z lub χ 2 Definicja Zmenna bazowa to funkcja statystyki/statystyk i parametru/parametrów która ma ustalony, stablicowany rozkład dla wszystkich wartości parametru/parametrów. Jednym z celów statystyki teoretycznej jest szukanie zmiennych bazowych dla sytuacji eksperymentalnych, w których już istniejące zmienne nie mogą zostać zastosowane. Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 5 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 6 / 34 Zmienna bazowa zastosowania Zmienna bazowa zastosowania Podstawowa nierówność probabilistyczna (próba wielkości n z populacji o średniej µ i (znanej) wariancji σ 2 0 ). P z α/2 Z z 1 α/2 = 1 α P z α/2 Ȳ µ σ 0/ n z 1 α/2 = 1 α Rozwiązanie tej nierówoście ze wzlgędu na µ daje nam 100(1 α)% przedział ufności, rozwiązanie ze względu na Ȳ dla testu 100(α)% daje obszar akceptacji (dopełnienie obszaru krytycznego). 100(1 α)% przedział ufności dla µ: Ȳ z α/2 σ 0/ n, Ȳ + z 1 α/2σ 0/ n 100(α)% test hipotezy dla µ = µ 0; odrzucić, jeżeli Ȳ nie jest w przedziale µ 0 z α/2 σ o/ n, µ 0 + z 1 α/2 σ 0/ n oczywiście, ponieważ z α/2 = z 1 α/2, można zapisać Ȳ ± z 1 α/2σ 0 n oraz µ 0 ± z 1 α/2σ 0 n Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 7 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 8 / 34
Test t Dla zmiennej losowej o rozkładzie normalnym, ze średnią µ i wariancją σ 2 (znaną) zmienną bazową jest Z. która ma rozkład N(0, 1). Co zrobić w sytuacji, gdy σ 2 nie jest znane i znamy jedynie statystykę? Można skonstruować statystykę Y = ȳ µ s/ n problem tylko w odpowiedzi na pytanie: jaki ta zmienna ma rozkład? Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 9 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 10 / 34 Na to pytanie odpowiedział W.S. Gosset (Student) (1908) Cechy rozkładu t 1 Ma cięższe ogony niż rozkład normalny 2 Dla każdej wielkości próby jest inny rozkład 3 Rozkład jest indeksowany przez (n 1) stopnie swobody indentycznie jak w przypadku rozkładu χ 2 4 jest symetryczny, a przy n osiągany jest rozkład normalny (praktycznie przy n > 30) Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 11 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 12 / 34 stopnie swobody stopnie swobody Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 13 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 14 / 34 Dlaczego t ma cięższe ogony? Zmienna t może się zmieniać zarówno w Ȳ i s, więc będzie zmieniała się, nawet dla ustalonego Ȳ. Percentyle rozkładu t są oznaczone przez t ν,α, gdzie ν jest stopniem swobody a α oznacza 100α percentyl. Średnia i wariancja rozkładu t: E(t) = 0; Var(t) = ν ν 2 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 15 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 16 / 34
Zakładając, że masa urodzeniowa ma rozkład normalny Przykład: 15 przypadków SIDS w King Country urodzonych w 1977 r. Masy urodzeniowe są następujące: t = Ȳ µ s/ n ma rozkład t z 15 1 = 14 stopniami swobody. Dla ν = 14 z tablic rozkładu t odczytujemy, że wartości krytyczne wynoszą ±2.14, czyli: Ȳ = 3199.8 g s = 663.00 g Bez zakładania, że wariancja jest znana postaramy się uzyskać przedział ufności dla średniej populacyjnej lub dla testu hipotezy zerowej (H 0), że średnia masa urodzeniowa przypadków SIDS wynosi 3300 g, czyli tyle samo ile w populacji ogólnej. P 2.14 t 14 2.14 = 0.95 Rozwiązując nierówność ze względu na µ otrzymujemy 3200 ± (2.14)(663.0) 15 = 3200 ± 366 µ (2834 g, 3566 g) Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 17 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 18 / 34 Powyższy przedział zawiera 3300 g, więc nie możemy odrzucić hipotezy zerowej w tym teście. Błąd standardowy 633.0/ 15 jest mnożony przez 2.14 a nie, jak poprzednio przez 1.96, więc jest około 9% szerszy. Jest to cena za brak wiedzy o odchyleniu standardowym w populacji. brak wiedzy = niepewność = większy błąd Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 19 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 20 / 34 Przykład: bezdech senny u wcześniaków Dane sparowane to zazwyczaj dane dotyczące tej samej osoby poziom bólu przed i po podaniu leku poziom bólu po podaniu leku 1 i po podaniu leku 2 Podstawową hipotezą zerową jest brak zmiany, czyli założenie, że różnica pomiędzy pomiarami wynosi 0. Naturanym podejściem jest tutaj test czy średnia różnic w próbie pochodzi z populacji o średniej różnicy równej 0. Zakładamy, że średnie różnice z próby mają rozkład normalny, wariancję populacji σ 2 szacujemy przez wariację próby różnic s 2. Brak spontanicznego oddychania przez ponad 20 sekund lub mniej, jeżeli występuje łącznie z bradykardią lub sinicą. W tabeli podano odpowiedź na leczenie aminofiliną średnia liczba epizodów bezdechu na godzinę 24h przed podaniem i 16h po podaniu leku. Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 21 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 22 / 34 Przykład: bezdech senny u wcześniaków test hipotezy Przykład: bezdech senny u wcześniaków 95%CI Dla ν = 13 1 = 12 P 2.18 t 12 2.18 = 0.95 P 2.18 Ȳ µ 0.524/ 2.18 = 0.95 13 P µ 0.317 Ȳ µ + 0.317 = 0.95 Standardowym podejściem jest tutaj założenie, że nie ma różnic pomiędzy grupami, czyli H 0 : µ = 0-0.317 H 0 : µ = 0 0.317 Konstruujemy przedział ufności: P Ȳ 0.317 µ Ȳ + 0.317 = 0.95 0.450 µ 1.084 95% CI H 0 : µ = 0 0.450 1.084 obserwacja Ȳ = 0.767 obserwacja Ȳ = 0.767 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 23 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 24 / 34
Przykład: bezdech senny u wcześniaków 95%CI 1 Szerokość 95% CI jest taka sama jak szerokość przedziału akceptacji H 0. 2 95%CI nie zawiera zera. Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 25 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 26 / 34 W praktyce biostatystycznej najczęstszym przypadkiem jest porównanie dwóch (lub więcej) grup porównanie dwóch leków (placebo) porównanie dwóch grup wiekowych porównanie populacji (miasto/wieś, rasa1/rasa2, itd.) Jeżeli to W = a 1Y 1 + a 2Y 2 E(W ) = a 1E(Y 1) + a 2E(Y 2) Var(W ) = a 2 1Var(Y 1) + a 2 2Var(Y 2) Ȳ 1 Ȳ2 N(µ1 µ2, σ2 1 n 1 + σ2 2 n 2 ) (Ȳ1 Ȳ2) (Ȳ1 Ȳ2) = Z σ1 2 + σ2 2 n1 n2 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 27 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 28 / 34 Przykład: wiek rozpoczęcia chodzenia (Ȳ1 Ȳ2) (Ȳ1 Ȳ2) = Z σ1 2 + σ2 2 n1 n2 Z jest zmienną bazową Możemy więc skonstruować CI lub przeprowadzić test statystyczny dla d = µ 1 µ 2 bardzo często przyjmować będziemy, że H 0 : d = 0. Zelazo et.al. (1972): if a newborn infant is held under his arms and his bare feet are permitted to touch a flat surface, he will perform well coordinated walking movements similar to those of an adult. This revlex disappears by about eight weeks. Dzieci, które są w ten sposób ćwiczone zaczynają chodzić wcześniej. Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 29 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 30 / 34 Przykład: wiek rozpoczęcia chodzenia test Przykład: wiek rozpoczęcia chodzenia test jednostronny Zakładamy (!), że σ 1 = 1.4470 miesiąca a σ 2 = 0.9618 miesiąca. Hipoteza braku efektu H 0 : µ 1 µ 2 = 0 Przedział akceptacji H 0 (0 ± 1.96(0.7307) obserwacja Ȳ = 2.22-1.43 H 0 : µ = 0 1.43 Możemy odrzućić H 0, na rzecz H A : µ 1 µ 2. Na podstawie danych możemy przyjąć H A : µ 1 < µ 2. P Ȳ 1 Ȳ2 2.225 = = P Z 2.225 0 0.7307 = P Z 3.05 = 0.0011 Wszystkie powyższe obliczenia mają jednak BŁĄD, polegający na wykorzystaniu s jako σ Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 31 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 32 / 34
Przykład: wiek rozpoczęcia chodzenia Twierdzenie Jeżeli Ȳ 1 i Ȳ 2 są oparte na dwóch niezależnych próbach o liczebności n 1 i n 2 z dwóch rozkładów normalnych o średnich µ 1 i µ 2 i takich samych wariancjach σ 2 1 = σ2 2 = σ2, to t = (Ȳ1 Ȳ2) (µ1 µ2) s p 1/n1 + 1/n 2 ma rozkład t z n 1 + n 2 2 stopni swobody, s p to pooled variance s p = 1.2547, t = 0 ± (2.26) 1/6 + 1/5 = 0 ± 1.72 Ȳ = 2.22-1.72 H 0 : µ = 0 1.72 s p = (n1 1)s2 1 + (n2 1)s2 2 n 1 + n 2 2 gdy n 1 = n 2 jest to po prostu średnia arytmetyczna. Ȳ = 2.22-1.43 H 0 : µ = 0 1.43 Przedział akceptacji jest tutaj szerszy niż w przypadku (błędnego) założenia σ = s. Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 33 / 34 Jarosław Piskorski (IF UZ) Podstawy współczesnej biostatystyki 2 34 / 34