STUDIUM DOKTORANCKIE WLK PODSTAWY STATYSTYKI SEMINARIUM 1! UWAGA! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE Jan E. Zejda Katedra Epidemiologii WLK, SUM
TREŚĆ SEMINARIUM 1 Rola biostatystyki w medycznych badaniach naukowych Baza danych Zmienne Statystyka opisowa Szacowanie
TREŚĆ SEMINARIUM 1 Rola biostatystyki w medycznych badaniach naukowych Baza danych Zmienne Statystyka opisowa Szacowanie
NAJCZĘSTSZE PRZYCZYNY PORAŻKI PUBLIKACYJNEJ % 40 35 30 25 20 15 10 5 NIEWŁAŚCIWE METODY STATYSTYCZNE: 11% 0 BŁĄD METODY NIEADEKWATNE WYNIKI NIEWŁAŚCIWA ANALIZA PROBLEMY EDYCYJNE Byrne D.W.: Common reasons for rejecting manuscripts at medical journals: a survey of editors and peer reviewers. Science Editor 2000;23:39-44
STATYSTYKA Dyscyplina nauki zajmująca się formułowaniem metod liczbowego przetwarzania indywidualnych informacji statystycznych w celu opisu i wnioskowania statystycznego Nowa Encyklopedia Powszechna PWN, 1997 Pojęcie statystyka posiada więcej znaczeń 1) Nauka zajmująca się zbieraniem, informacje analizą o zjawiskach i interpretacją biologicznych w/w danych 2) Numeryczne dane dotyczące agregatów złożonych z pewnych jednostek - zagregowaną, charakteryzującą więcej niż 1 jednostkę daną jest np. średnia masa ciała 10 dziewcząt (jedna liczba dla opisu zjawiska pochodzącego z 10 obserwacji), wartość odchylenia standardowego, częstość, różnica pomiędzy dwoma wartościami średnimi Statystyką nazywamy także liczbę reprezentującą wynik testu statystycznej znamienności np. statystyka t lub statystyka chi-kwadrat
STATYSTYKA W PRAKTYCE albo opis albo szacowanie albo testowanie hipotez* * - hipotezy odnośnie różnic lub zależności
BIOSTATYSTYKA Biostatystyka jest to gałąź statystyki uwzględniająca specyfikę zjawisk biologicznych, a w szczególności skutki zmienności biologicznej stanowiącej przejaw zróżnicowania procesów fizjologicznych i patologicznych, charakteryzujących stan zdrowia i choroby.
SPECYFIKA BIOSTATYSTYKI Zmienność biologiczna w zakresie: narażenia; podatności; odpowiedzi biologicznej; wywiadu chorobowego; etc. zidentyfikować i kontrolować źródła zmienności
KLASYFIKACJA ZMIENNOŚCI BIOLOGICZNEJ Zmienność międzyosobnicza: np. skurczowe ciśnienie tętnicze krwi u 10 zdrowych studentów w wieku 24-25 lat Zmienność wewnątrzosobnicza: np. skurczowe ciśnienie tętnicze krwi u 1 zdrowego studenta, zmierzone codziennie o godzinie 8:00 przez 7 dni
SYGNAŁ vs SZUM Gdy istnieje duży sygnał jest on widoczny (ergo: wykrywalny) nawet w obecności dużego szumu Niewielki sygnał tonie w szumie Sposoby kontroli szumu - Model badania (np. restrykcja wieku, płci, narażenia na tzw. czynniki zakłócające) - Analiza danych (stratyfikacja w zakresie czynników zakłócających, statystyczna kontrola szumu) Co jest sygnałem, co jest szumem?
Identyfikacja i pomiar sygnału wymaga wiedzy na temat potencjalnych źródeł szumu, umiejętności wykazania jego obecności, kontroli jego maskującego wpływu Biostatystyka raz jeszcze ale Biostatystyka to nie panaceum to tylko narzędzie Przede wszystkim METODOLOGIA!!
TREŚĆ SEMINARIUM 1 Rola biostatystyki w medycznych badaniach naukowych Baza danych Zmienne Statystyka opisowa Szacowanie
AMATORSKA BAZA DANYCH Nazwisko Płeć Masa Mała masa urodzeniowa Grupa 1 Apgar w 5 i 10 min. Rodzaj Leku USG Głowy Antybiotyk Abeski N. c. 2,78 Nie 5-7 Dexametzaon IVHI Nie Adam Beski C 3500 Nie 8 Deksamet. IVH I Vankomycyna S. Ceski M 4100 Nie 9 Celeston IVH 1 Ampicylin z. Dada D 2 950 Nie 6, 7 Dexaren IVH II Wankomycina Efeska Ż 3,540 Nie IVH I Nie Fafka A. D 3100 Nie 7 Dexametazon - Grupa 2 Goga Anna D 2,58? Nie 4 (7) Dexametazon IVH 2 Ampicylina Hawil D. C 2300 Tak 6 Celeston Ivh I - T. Iwak M 4320 nie 10 Celeston Nie w. Jutul M 2,8 Nie 6 - IVH nie Nie Grupa 3 Celski S. M 3850 + - norma -
PROFESJONALNA BAZA DANYCH NR GRUPA PLEC MASA APGAR5 APGAR10 LEK1 USGGL LEK2 1 1 1 2780 5 7 1 1 0 2 1 1 3500 8 1 1 1 3 1 2 4100 9 2 1 2 4 1 2 2950 6 7 3 2 1 5 1 2 3540 0 1 0 6 1 2 3100 7 1 7 2 2 2580 4 8 1 2 2 8 2 1 2300 6 2 1 9 2 1 4320 10 2 0 10 2 1 2800 6 0 1 0! SŁOWNICZEK! Np. LEK2 Antybiotyk w pierwszych trzech dobach: 0=nie, 1=wankomycyna, 2=ampicylina, = brak danych
PODSTAWOWE ZASADY TWORZENIA BAZY DANYCH* DZIESIĘĆ PRZYKAZAŃ 1. Wprowadź dane jako zmienne liczbowe (np.: tak=1, nie=2; płeć męska=1, płeć żeńska=2). Unikaj liter, skrótów, jednostek pomiaru (np.: b.d.; 15%, <2500). Wszystkim kolumnom (np. w bazie Excel) powinien być nadany format liczbowy. 2. Stosuj proste nazwy zmiennych (np.: kliniczny stopień duszności = KSD; płeć dziecka = PLEC; stężenie bilirubiny = BILIRUB). Unikaj polskich liter i nie przekraczaj 8 znaków w nazwie zmiennej 3. Dla jednej zmiennej przeznacz tylko jedną kolumnę 4. Wprowadź dane każdego pacjenta w tej samej kolejności, z konsekwentnym sposobem zapisu brakujących danych 5. Nadaj każdemu pacjentowi jego własny, niepowtarzalny numer identyfikacyjny. Nie wpisuj informacji identyfikujących (np. nazwisko lub inicjały, numer historii choroby). 6. Wprowadź wszystkich pacjentów, niezależnie do ich grupowej przynależności (np. grupa terapeutyczna lub kontrolna) do jednej bazy danych. Kolejność wprowadzania nie ma znaczenia. Zastosuj zmienną identyfikującą grupę (np. grupa = 1 lub 2). 7. Wprowadzaj źródłowe zmienne ilościowe transformacja do zmiennych jakościowych lub pochodnych nastąpi podczas analizy danych (np. wysokość ciała w cm da się przetłumaczyć na niski, średni lub wysoki wzrost; wartość BMI da się obliczyć na podstawie dwóch oryginalnych danych; obecność hiperglikemii da się zidentyfikować na podstawie wartości ilościowej glikemii) 8. Stwórz kompletny słowniczek zawierający tłumaczenie kodów zmiennych, definicję wartości zmiennych (np. tak=1; nie = 2), informację na temat postępowania z brakującymi danymi 9. Twórz bazę danych mając na uwadze cel i sposób późniejszej ich analizy 10. Skonsultuj pomysł na bazę danych z biostatystykiem i uczyń to ponownie po wprowadzeniu informacji pochodzących od pierwszych 10 pacjentów. *- na podstawie propozycji opracowanej przez D.W. Byrne <Daniel.Byrne@vanderbilt.edu>
TREŚĆ SEMINARIUM 1 Rola biostatystyki w medycznych badaniach naukowych Baza danych Zmienne Statystyka opisowa Szacowanie
TERMINOLOGIA STOSOWANA W OPISIE BAZY DANYCH Obserwacje (1 pacjent=1 obserwacja) Zmienne Nr PLEC WZROST KSD FVC FEV1 1 1 178 2 3200 1800 2 1 169 1 3600 2500 3 2 168 5 3450 2040 4 1 175 3 3750 1750 5 2 163 4 3900 1900 Nazwa Zmiennej Wartość Zmiennej zmienna, albowiem naturalna zmienność wartości
RODZAJE ZMIENNYCH KOMPLETNY PODZIAŁ UWGLĘDNIAJĄCY FORMAT ZMIENNE ILOŚCIOWE JAKOŚCIOWE CIĄGŁE DYSKRETNE NOMINALNE PORZĄDKOWE liczby liczebność kategoria hierarchia (wzrost, masa) (liczba badanych) (płeć, rasa) (klin. st. duszności)
RODZAJE ZMIENNYCH PRAKTYCZNY PODZIAŁ UWGLĘDNIAJĄCY FORMAT ZMIENNE ILOŚCIOWE JAKOŚCIOWE transformacja
RODZAJE ZMIENNYCH PROSTY PODZIAŁ UWGLĘDNIAJĄCY FUNKCJĘ Zmienna zależna (w danej analizie: jedna zmienna) Zmienne niezależne (w danej analizie jedna lub więcej zmiennych) Funkcja zmiennej zależy od celu: np. czy KSD zależy od FEV 1? KSD ~ FEV 1 zmienna zależna zmienna niezależna
TREŚĆ SEMINARIUM 1 Rola biostatystyki w medycznych badaniach naukowych Baza danych Zmienne Statystyka opisowa Szacowanie
STATYSTYKA OPISOWA - CEL Prezentacja danych w postaci tabelarycznej i graficznej (histogramy, wykresy liniowe, itd.) oraz za pomocą zintegrowanej formy matematycznej liczby (przy pomocy tzw. statystyk wartość średnia, częstość, itd.). Częstość (%) poszczególnych klas cholesterolemii w grupie mężczyzn 40 30 (%) 20 10 0 175 205 235 265 295 325 355 Cholesterolemia (mg/dl) Średnie stężenie cholesterolu w badanej grupie mężczyzn 215 mg/dl
DWA OBSZARY STATYSTYKI -1- -2- Statystyka Opisowa Statystyka Analityczna (ile?, jak często?) ( charakterystyka ) Szacowanie Testowanie Hipotez
wzrost bilirubinemia glikemia dochód masa ciała opór dróg oddechowych STATYSTYKA OPISOWA czas karmienia piersią PREZENTACJA ZMIENNYCH ILOŚCIOWYCH stężenie ołowiu w krwi czas hospitalizacji obwód talii ciśnienie tętnicze krwi
JAK OPISAĆ MASĘ CIAŁA NOWORODKÓW W BADANEJ GRUPIE? n = 41 2,2 2,2 2,3 2,3 2,4 2,4 2,4 2,5 2,5 2,5 2,5 2,7 2,7 2,7 2,8 2,8 2,8 2,8 2,9 3,0 3,1 3,1 3,1 3,2 3,2 3,2 3,2 3,2 3,2 3,2 3,5 3,5 3,5 3,6 3,6 3,6 3,6 3,7 3,7 3,8 3,8 3,8 3,8 3,9 3,9 4,0 4,0 4,1 4,2 4,6 3,1 ŚREDNIA ARYTMETYCZNA = 3,1 kg Zmienna Średnia arytmetyczna (kg) Zakres (kg) Mediana (kg) Modalna (kg) Masa 3,1 2,2-4,6 3,2 3,2 matematyczna prezentacja rozkładu zmiennej masa ciała
JAK OPISAĆ MASĘ CIAŁA NOWORODKÓW W BADANEJ GRUPIE? Liściogram (stem&leaf) MASA 2,20 i 2,21 2,30 i 2,33 itd. 2 20 21 2 30 33 2 41 44 48 2 50 51 51 52 2 72 75 78 2 80 80 83 84 2 98 3 05 3 10 15 15 3 22 25 25 25 25 25 28 3 50 53 55 3 62 66 68 68 3 70 75 3 82 85 85 85 3 90 95 4 00 50 4 10 4 25 4 60 UWAGA: brak danych dla klas 2,60-2,69; 3,30 3, 49 i 4,30-4,55
8 6 4 2 0 2,2 2,4 2,6 2,8 3,2 3,4 3,6 3,8 4,2 4,4 4,6 HISTOGRAM n 3 4 wartość średnia Masa (kg) mediana i modalna
JAK OPISAĆ MASĘ CIAŁA NOWORODKÓW W BADANEJ DANEJ GRUPIE? n = 41 2,2 2,2 2,3 2,3 2,4 2,4 2,4 2,5 2,5 2,5 2,5 2,7 2,7 2,7 2,8 2,8 2,8 2,8 2,9 3,0 3,1 3,1 3,1 3,2 3,2 3,2 3,2 3,2 3,2 3,2 3,5 3,5 3,5 3,6 3,6 3,6 3,6 3,7 3,7 3,8 3,8 3,8 3,8 3,9 3,9 4,0 4,0 4,1 4,2 4,6 3,1 ŚREDNIA ARYTMETYCZNA = 3,1 kg Zmienna Średnia arytmetyczna (kg) Zakres (kg) Mediana (kg) Modalna (kg) Masa 3,1 2,2-4,6 3,2 3,2! w konfrontacji z histogramem brakuje jednej ważnej informacji!
MATEMATYCZNY OPIS ROZKŁADU ZMIENNEJ ILOŚCIOWEJ uwaga: x = 5,0, gdy [5,5,5,5,5] lub [5,3,7,8,2] co więcej: w pierwszym przypadku żadna z indywidualnych wartości nie różni się od w. średniej w drugim przypadku większość indywidualnych wartości różni się od w. średniej w populacji wartość średnia w grupie x n X = ( X i ) / N i = 1 odchylenie wartości zmiennych od wartości średniej określa zmienność zmiennej (wariancję) (X i X) = X i - X = X i NX = 0, ponieważ X = X i /N dlatego wprowadzono potęgowanie zmienność (wariancja) = (X i X) 2 / N oczywista niedogodność związana z potęgowaniem, stąd pierwiastkowanie i odchylenie standardowe = (X i X) 2 / N
WARIANCJA I ODCHYLENIE STANDARDOWE Wariancję i odchylenie standardowe rzadko liczymy w całej populacji źródłowej, zwykle dotyczy to próby, a więc nie N, tylko n 1 zapis n-1 oznacza, że tyle niezależnych względem n-tej wartości kombinacji odchyleń ma znaczenie dla wielkości rozproszenia (prymitywne spojrzenie na koncepcję stopni swobody) Po korekcie: x X ; x S, zmienność = wariancja = s 2 = (X i X) 2 / (n 1) odchylenie standardowe = s = (X i X) 2 / (n 1)
WARTOŚĆ ŚREDNIA I ODCHYLENIE STANDARDOWE Wartość średnia i OS opisują rozkład wartości zmiennej ilościowej 35 30 25 20 % 15 10 5 0 min x-2s X x+2s max Rozkład normalny: 68% wszystkich wartości mieści się w przedziale x-1s x+1s 95% wszystkich wartości mieści się w przedziale x-2s x+2s 100% wszystkich wartości mieści się w przedziale x-3s x+3s
ROZKŁAD NORMALNY 35 30 25 20 % 15 10 5 0 min u-2v u u+2v max x x średnia w populacji; X średnia w grupie odchylenie standardowe w populacji; SD odchylenie standardowe w grupie Standardowa zmienna Z odzwierciedla prawdopodobieństwo, z jakim występuje wartość X, gdy jej rozkład ma charakter normalny (całe pole = 100%, reszta w tablicy rozkładu): Z = (X - x ) / x
INNE WAŻNE ROZKŁADY (W NAUKACH MEDYCZNYCH) ROZKŁAD DWUMIANOWY (0/1) NP. ZGON+/ZGON-; KIŁA+/KIŁA- 0 i 1 to wszystkie możliwe wartości zmiennej dwumianowej. Zatem gdy prawdopodobieństwo wystąpienia 0 wynosi p, to prawdopodobieństwo wystąpienia 1 wynosi q=1-p albo q=100%-p. Wartość średnia x = p, odchylenie standardowe x = p(1-p) ROZKŁAD POISSON A (n) NP. LICZBA NAPADÓW ASTMY W TYGODNIU Rozkład Poisson a jest właściwy dla opisu (i analizy) liczby zdarzeń w danym przedziale wiekowym
CHARAKTER ROZKŁADU ZMIENNEJ ILOŚCIOWEJ 40 35 30 25 20 % 15 10 5 0 min max Rozkład prawoskośny (kurtoza >1) Rozkład lewoskośny (kurtoza < - 1) UWAGA: wartość kurtozy zależy też od wysokości wybrzuszenia krzywej dlatego normalność rozkładu ocenia się testami: Kołmogorowa-Smirnowa lub Shapiro-Wilka
TRANSFORMACJA ZMIENNYCH (próba przywrócenia normalności) Gdy wartość średnia <> wartości mediany, lub gdy graficzna prezentacja rozkładu danych ujawnia odstępstwo od krzywej Gauss a, lub gdy statystyczny dowód na takie odstępstwo (np. test Shapiro-Wilk s): 35 30 25 20 % 15 10 5 0 min 2 4 6 8 10 12 14 16 18 20 Prawoskośny rozkład (bakteriologia, hematologia, toksykologia itp.) posiada rytm naśladujący skalę logarytmiczną: 1 2 3 4 5 6 8
REGUŁA TENDENCJI CENTRALNEJ Rozkład średniego wieku w dwuosobowej grupie (n=2) wylosowanej z populacji (N=5) n 6 5 4 3 2 1 0 5 6 7 8 9 10 11 12 13 14 w iek Niezależnie od rozkładu zmiennej w populacji rozkład tej zmiennej w próbie (z tej populacji) będzie zbliżony do normalnego, pod warunkiem, że wielkość próby jest odpowiednio duża n = 30 (konsensus!)
KANON n 30 Liczba obserwacji Próba Komentarz < 30 mała Założenie odstępstwa rozkładu normalnego 30 100 średnia Konieczne testowanie normalności rozkładu >100 duża Wskazane testowanie normalności rozkładu Dostępność programów statystycznych rozwiązuje kwestię szybkiej oceny rozkładu
OPIS ZMIENNEJ ILOŚCIOWEJ MIARY POŁOŻENIA (MIARY TENDECJI CENTRALNEJ) Średnia arytmetyczna, mediana, modalna MIARY ROZPROSZENIA Zakres, zmienność, odchylenie standardowe X ± SD ( tablica rejestracyjna zmiennej ilościowej )
X ± SD Współczynnik Zmienności im mniejsza wartość S tym mniejsza zmienność generalnie TAK, ale rola X, dlatego: Współczynnik Zmienności (WZ) = (s / x) * 100% PRAKTYCZNE ZASTOSOWANIE WZ porównanie rozkładu jednej zmiennej w dwóch różnych grupach porównanie rozkładu kilku zmiennych w jednej grupie odchylenie standardowe błąd standardowy
PREZENTACJA ZMIENNEJ ILOŚCIOWEJ Zmienna Jednostka Pomiaru Wartość Średnia Odchylenie Standardowe Mediana Zakres Normalność rozkładu* Wysokość Ciała cm 168,5 12,7 170,0 143-198 Tak Masa Ciała kg 69,3 8,5 71,4 48-95 Nie * - wynik testu Shapiro-Wilk a Uwaga: liczba miejsc po przecinku może przekraczać o 1 dokładność pomiaru
hiperglikemia obturacja płeć jakość życia nadwaga kliniczny stopień duszności zawód STATYSTYKA OPISOWA wykształcenie PREZENTACJA ZMIENNYCH JAKOŚCIOWYCH cień okrągły w płucach krwotok rodzaj porodu hipercholesterolemia mutacja
ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ (sposób prezentacji tabelarycznej) Wyniki terapii X w grupie 75 chorych Zmienna Remisja Wartość zmiennej Częstość (n) Częstość względna (%) Częstość skumulowana (%) Brak 15 20,0 20,0 Częściowa 40 53,3 73,3 Całkowita 20 26,7 100,0 Razem 75 100,0 Objawy uboczne Brak 10 13,3 13,3 Słabe 25 33,3 46,6 Średnie 20 26,6 73,2 Duże 12 16,4 89,4 B. duże 8 10,6 100,0 Razem 75 100,0
ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ (prosty sposób prezentacji tabelarycznej) Wyniki terapii X w grupie 75 chorych Zmienna Remisja Objawy uboczne Wartość zmiennej Częstość n % Brak 15 20,0 Częściowa 40 53,3 Całkowita 20 26,7 Brak 10 13,3 Słabe 25 33,3 Średnie 20 26,6 Duże 12 16,4 B. duże 8 10,6 gdy zmienna ma tylko dwie wartości można podać częstość jednej np. częstość hiperbilirubinemii
ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ (graficzna prezentacja) Częstość (%) objawów ubocznych terapii X w grupie 75 chorych % 35 30 25 20 15 10 5 0 Brak Słabe Średnie Duże B. Duże Nasilenie Objaw ów Ubocznych
TREŚĆ SEMINARIUM 1 Rola biostatystyki w medycznych badaniach naukowych Baza danych Zmienne Statystyka opisowa Szacowanie
BIOSTATYSTYKA W PRAKTYCE albo opis albo szacowanie albo testowanie hipotez* Statystyka opisowa Statystyka analityczna * - hipotezy odnośnie różnic lub zależności
SZACOWANIE wyniki badania sugerują, że częstość astmy u dzieci w wieku 7-10 lat kształtuje się na poziomie 5% ryzyko względne zachorowania na cukrzycę związane z przebyciem częstych infekcji wirusowych w młodości wynosi 1,27 prawdopodobieństwo uzyskania stopnia doktora nauk medycznych w wyniku ukończenia studiów doktoranckich na Wydziale Lekarskim SUM w Katowicach wynosi 100%
SZACOWANIE (ESTYMACJA) <) x w próbie ESTYMATOR PARAMETR to mierzę, aby o tym się wypowiedzieć aby poznać średnią masę ciała donoszonych noworodków matek palących papierosy nie badam wszystkich dzieci, ale grupę np. 500 dzieci takich matek
BŁĄD W BADANIU EPIDEMIOLOGICZNYM SYTUACJA IDEALNA ESTYMATOR = PARAMETR SYTUACJA REALNA ESTYMATOR = PARAMETR + BŁĄD ESTYMATOR = PARAMETR + BŁĄD SYSTEMATYCZNY + BŁĄD PRZYPADKOWY
BŁĄD PRZYPADKOWY I SYSTEMATYCZNY Duży błąd systematyczny mała trafność Duży błąd przypadkowy mała precyzja Trafność = stopień, w jakim obserwacja jest zdolna do pomiaru zjawiska, które jest przedmiotem obserwacji Precyzja = powtarzalność wyniku obserwacji PRECYZJA TRAFNOŚĆ ale WIARYGODNOŚĆ = PRECYZJA + TRAFNOŚĆ
DETERMINANTY BŁĘDU PRÓBY (BŁĘDU PRZYPADKOWEGO) # 1: Odchylenie Standardowe (SD) # 2: Wielkość próby (n) BŁĄD STANDARDOWY ŚREDNIEJ (STANDARD ERROR OF MEAN: SE) SE = SD / n
SZACOWANIE ESTYMATOR PUNKTOWY + ESTYMATOR ZAKRESU Estymator punktowy = pojedyncza wartość liczbowa (np. średnia arytm., %) obliczona w celu oszacowania wartości korespondującego, populacyjnego parametru (prawdziwej średniej) Estymator zakresu = dwie wartości liczbowe definiujące zakres przedziału zawierającego wartość parametru (przedziału ufności P.U.) Dolna Wartość P.U. Estymator Punktowy Górna Wartość P.U. --------------------------------------- --------------------------------------- margines błędu (dół) margines błędu (góra) wąski Przedział Ufności (Confidence Interval CI) jest sygnałem wysokiej precyzji szacowania Mały Błąd Standardowy = wąski Przedział Ufności, ALE
ILE BŁĘDÓW STANDARDOWYCH W GÓRĘ / DÓŁ? 35 30 25 20 15 10 5 0 1 SE 1SE X 1SE 1.96 SE 35 30 25 20 15 10 5 0 2SE X 2SE Zwykle 1.96 SE szacowanie na poziomie 95%: 95%PU = Estymator ± 1.96 SE Gdy reprezentatywna próba pochodzi z populacji o normalnym rozkładzie parametru wówczas istnieje 95% pewność, że obliczony 95% PU zawiera prawdziwą wartość szacowanego parametru
95% PU
PRZYKŁAD ZMIENNA ILOŚCIOWA Jakie jest rzeczywiste stężenie hemoglobiny u dzieci narażonych na zanieczyszczenia powietrza atmosferycznego związkami ołowiu, gdy w próbie 100 dzieci wylosowanych z tej populacji stwierdzono średnie stężenie hemoglobiny na poziomie 11,5 g/100ml? x = 11,5 g/100 ml (estymator punktowy); SD = 2,1 g/100 ml; n=100 cel - uzyskanie wiarygodności na poziomie 95% SE = SD / n = 2,1 / 10 = 0,21 95% PU = 11,5 +/- 1,96 * 0,21 95%PU: 11,1 11,9 Rzeczywiste stężenie hemoglobiny w tej populacji wynosi od 11,1 do 11,9 g/100 ml
PRZYKŁAD ZMIENNA JAKOŚCIOWA Jaka jest rzeczywista częstość astmy w populacji dzieci w wieku 7-9 lat, gdy w próbie 100 dzieci wylosowanych z tej populacji stwierdzono 5 przypadków astmy? p = 5 / 100 = 0,05 (estymator punktowy); n = 100 cel - uzyskanie wiarygodności na poziomie 95% SE = p (1-p) / n = 0,05 (1-0,05) / 100 = 0,02 95% PU = 0,05 +/- 1,96 * 0,02 95%PU: 0,01 0,09 Rzeczywista częstość astmy w populacji wynosi od 1% do 9%
CO MOŻNA SZACOWAĆ? Wszystko, co pozwala się zmierzyć i przedstawić jako estymator (X, %, mediana, różnica, ryzyko ) i błąd standardowy
WALORY 95%PU PU jest miarą precyzji szacowania efektu i: zawiera informację o statystycznej znamienności efektu ( tę samą, która wynika z p, przy α korespondującym z PU), ujawnia prawdopodobny rozmiar efektu, z opisem jego zakresu (ułatwia interpretację wyniku badania); informuje o mocy badania (identyfikuje m.in. małą moc* badania jako możliwą przyczynę negatywnego wyniku). *- moc badania to praawdopodobienstwo wykrycia rzeczywiscie istniejacego efektu
REKOMENDACJA DLA AUTORÓW* Międzynarodowy Komitet Redaktorów Czasopism Medycznych ( Vancouver Group 1988) Gdzie możliwe, podaj zmierzone wielkości efektów i przedstaw je razem z właściwymi wskaźnikami błędu pomiaru lub niepewności (takimi jak przedział ufności). Unikaj wyłącznego przytaczania wyników testowania hipotez, takich jak wartości p, które nie są w stanie przekazać ważnej informacji o wielkości efektu. *- International Committee of Medicla Journal Editors. Uniform requirements for manuscripts submitted to biomedicla journals. Strona internetowa: www.icmje.org
/ / / /
SZACOWANIE (ESTYMACJA) <) x w próbie to poznajemy poprzez badanie Krytyczne znaczenie reprezentatywności próby, jej wielkości oraz metod pomiaru
Krytyczne znaczenie reprezentatywności próby, jej wielkości oraz metod pomiaru REPREZENTATYWNOŚĆ Zdolność do opisu zjawiska w populacji, w stopniu najlepiej charakteryzującym jego rzeczywistą (prawdziwą) naturę
PODSTAWOWE METODY DOBORU REPREZENTATYWNEJ PRÓBY Losowanie Proste Losowanie Systematyczne Losowanie Warstwowe Losowanie Zespołowe
Krytyczne znaczenie reprezentatywności próby, jej wielkości oraz metod pomiaru MINIMALNA NIEZBĘDNA LICZEBNOŚĆ PRÓBY
OSZACOWANIE WIELKOŚCI PRÓBY ESTYMATOR ILOŚCIOWY (WARTOŚĆ ŚREDNIA) DODATKOWE NIEZBĘDNE USTALENIA WYBÓR ZMIENNEJ DECYDUJĄCEJ Gdy szacowanie dotyczy złożonego parametru (np. niedokrwistość) należy wybrać jedną zmienną sterującą procedurą (np. stężenie hemoglobiny, a nie hematokryt, liczbę erytrocytów itd.) UWGLĘDNIENIE STRUKTURY PRÓBY Gdy szacowanie dotyczy parametru, który może przybierać różną wartość w zależności od danej cechy należy obliczyć pożądaną wielkość próby dla każdej z istotnych warstw, np. dla obliczenia liczby badanych kobiet i mężczyzn w celu oszacowania częstości otyłości trzeba przeprowadzić tę procedurę osobno dla kobiet i osobno dla mężczyzn (ostateczna liczebność to suma dwóch obliczeń)
FILARY DOBREJ PRAKTYKI EPIDEMIOLOGICZNEJ Reprezentatywna i odpowiednio duża próba to warunki koniecznie (chociaż niewystarczające) dla uzyskania wiarygodnych wyników w badaniach epidemiologicznych to minimum minimorum dla spełnienia wymogów poprawności badania epidemiologicznego
Krytyczne znaczenie reprezentatywności próby, jej wielkości oraz metod pomiaru WSZYSTKO JEST POMIAREM Odpowiedź na pytanie w kwestionariuszu (tak/nie ~ 1/0) Obecność cienia okrągłego na zdjęciu rtg płuc (tak/nie ~1/0) Kliniczny stopień duszności (1/2/3/4/5) Glikemia (mg%)
ITP ITD