Pułapki i zagrożenia zbierania i interpretacji danych okiem statystyka Michał Skrzypek SCCS, Zabrze Zakład Biostatystyki Wydział Zdrowia Publicznego SUM w Katowicach MEDTRENDS, Zabrze 27-28.03.2015 1
There are three kinds of lies: lies, damned lies, and statistics Mark Twain, Autobiography Florence 1904 MEDTRENDS, Zabrze 27-28.03.2015 2
Medycyna Informatyka Zasady poprawnej konstrukcji bazy danych (Dekalog) Daniel W. Byrne, Senior Associate in Biostatistics Director of Quality Improvement and Program Evaluation Vanderbilt University School of Medicine Department of Biostatistics (Nashville, USA) MEDTRENDS, Zabrze 27-28.03.2015 3
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 1. Wprowadź dane jako zmienne liczbowe (odpowiedni format w Excelu). Unikaj liter, skrótów, jednostek pomiaru. Zamiast: ID PLEC WIEK ZGON UDAR MASA WZROST po2 K 1 M 53NIE NIE 84 kg 167 cm 90,3 mmhg 5,1 mmol/l 2 M 75TAK TAK 93 kg 176 cm 67,8 mmhg 3,4 mmol/l 3 M 65NIE TAK 92 kg 165 cm 63,1 mmhg 3,5 mmol/l 4 K 49NIE NIE 85,1 kg 1,7 m 79 mmhg 4,4 mmol/l 5 M 57TAK NIE 125 kg 1,8 m 103 mmhg 3,9 mmol/l 6 K 65NIE TAK 69 kg 170 cm 80,7 mmhg 3,8 mmol/l 7 K 70TAK NIE 60 kg 1,58 m 70 mmhg 3,3 mmol/l 8 M 58NIE NIE 78 kg 1,56 m 76,7 mmhg 4,2 mmol/l 9 M 61NIE NIE 94,5 kg 171 cm 73,4 mmhg 3,8 mmol/l wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 4
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 1. Wprowadź dane jako zmienne liczbowe (odpowiedni format w Excelu). Unikaj liter, skrótów, jednostek pomiaru. Zastosuj: ID PLEC WIEK ZGON UDAR MASA WZROST po2 K 1 1 53 0 0 84 167 90,3 5,1 2 1 75 1 1 93 176 67,8 3,4 3 1 65 0 1 92 165 63,1 3,5 4 2 49 0 0 85,1 170 79 4,4 5 1 57 1 0 125 180 103 3,9 6 2 65 0 1 69 170 80,7 3,8 7 2 70 1 0 60 158 70 3,3 8 1 58 0 0 78 156 76,7 4,2 9Zmienna1 61 Opis0 0 94,5 Typ 171 Zakres 73,4 wartości 3,8 ID Numer badanego Liczba nie dotyczy PLEC Płeć Jakościowa 1=M 2=K Wzrost Wysokość ciała Ilościowa 150 190 cm wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 5
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 2. Stosuj proste nazwy zmiennych. Unikaj spacji, znaków narodowych (w języku polskim tzw. ogonków). Zamiast: ETIOLOGIA 0- niedokrwi enna, 1- wada, 2- inne OHT 0-bez kwalifikacj i, 1-grupa obserwacy jna, 2- grupa aktywna, 3-grupa pilna Próba ICD 0-nie 1- tak, skuteczna 2-tak, nieskutecz na 3- odroczona ID 159 0 0 0 325 1 0 1 112 1 0 0 967 0 0 2 wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 6
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 2. Stosuj proste nazwy zmiennych. Unikaj spacji, znaków narodowych (w języku polskim tzw. ogonków). Zastosuj: ID Etiologia OHT Proba_ICD 159 0 0 0 325 1 0 1 112 1 0 0 967 0 0 2 Zmienna Opis Typ Zakres wartości ID Numer badanego Liczba nie dotyczy Etiologia Etiologia Jakościowa 0=niedokrwienna; 1=wada; 2=inne OHT Orthotopic Heart Jakościowa 0=bez kwalifikacji; 1=grupa obserwacyjna; 2= Proba_ICD Próba ICD Jakościowa 0=nie; 1=tak, skuteczna; 2=tak, nieskuteczna; 3 = wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 7
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 3. Jedna kolumna jedna zmienna. Zamiast: ID PLEC WIEK ZGON UDAR MASA SBP/DBP 1 1 53 0 0 84 120/65 2 1 75 1 1 93 140/90 3 1 65 0 1 92 110/60 4 2 49 0 0 85,1 120/80 5 1 57 1 0 125 115/75 6 2 65 0 1 69 150/95 7 2 70 1 0 60 140/75 8 1 58 0 0 78 125/85 9 1 61 0 0 94,5 105/65 wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 8
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 3. Jedna kolumna jedna zmienna. Zastosuj: ID PLEC WIEK ZGON UDAR MASA SBP DBP 1 1 53 0 0 84 120 65 2 1 75 1 1 93 140 90 3 1 65 0 1 92 110 60 4 2 49 0 0 85,1 120 80 5 1 57 1 0 125 115 75 6 2 65 0 1 69 150 95 7 2 70 1 0 60 140 75 8 1 58 0 0 78 125 85 9 1 61 0 0 94,5 105 65 wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 9
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 4. Wprowadź dane każdego pacjenta w tej samej kolejności (wymuszonej kolejnością kolumn), z konsekwentnym zapisem brakujących danych. ID PLEC WIEK ZGON UDAR MASA WZROST po2 K 1 1 53 0 0 84 167 90,3 5,1 2 1 75 1 93 176 67,8 3,4 3 1 65 0 1 92 165 3,5 4 2 49 0 0 85,1 170 79 5 1 57 1 125 180 3,9 6 2 65 0 69 170 80,7 3,8 7 2 70 1 0 60 158 70 8 1 58 0 0 78 156 76,7 3,8 5. Nadaj każdemu pacjentowi numer jednoznacznie go identyfikujący. istotne w przypadku badania wieloetapowego lub gdy protokół badania składa się z kilku elementów, np. kwestionariusz, badania biochemiczne, fizjologiczne, itp. wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 10
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 6. Wprowadź dane wszystkich pacjentów do jednej bazy danych, niezależnie od ich przynależności do grupy badanej/kontrolnej. Zamiast: Grupa badana ID PLEC WIEK ZGON UDAR MASA WZROST 1 1 53 0 0 84 167 2 1 75 1 1 93 176 3 1 65 0 1 92 165 4 2 49 0 0 85,1 170 Grupa kontrolna ID PLEC WIEK ZGON UDAR MASA WZROST 5 1 57 1 0 125 180 6 2 65 0 1 69 170 7 2 70 1 0 60 158 8 1 58 0 0 78 156 9 1 61 0 0 94,5 171 wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 11
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 6. Wprowadź dane wszystkich pacjentów do jednej bazy danych, niezależnie od ich przynależności do grupy badanej/kontrolnej. Zastosuj: ID GRUPA PLEC WIEK ZGON UDAR MASA WZROST po2 K 1 1 1 53 0 0 84 167 90,3 5,1 2 1 1 75 1 1 93 176 67,8 3,4 3 2 1 65 0 1 92 165 63,1 3,5 4 1 2 49 0 0 85,1 170 79 4,4 5 2 1 57 1 0 125 180 103 3,9 6 2 2 65 0 1 69 170 80,7 3,8 7 1 2 70 1 0 60 158 70 3,3 8 1 1 58 0 0 78 156 76,7 4,2 9 Zmienna 2 1 Opis 61 0 Typ 0 94,5 Zakres wartości 171 73,4 3,8 ID Numer badanego Liczba nie dotyczy GRUPA Kwalifikacja do Jakościowa 1=kontrola 2=badanie wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 12
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 7. O ile to możliwe wprowadzaj źródłowe zmienne ilościowe dalsze transformacje można wykonać w trakcie analizy statystycznej. ID PLEC WIEK ZGON UDAR MASA WZROST BMI NADWAGA 1 1 53 0 0 84 167 30,12 1 2 1 75 1 1 93 176 30,02 1 3 1 65 0 1 92 165 33,79 1 4 2 49 0 0 85,1 170 29,45 0 5 1 57 1 0 125 180 38,58 1 6 2 65 0 1 69 170 23,88 0 7 2 70 1 0 60 158 24,03 0 8 1 58 0 0 78 156 32,05 1 9 1 61 0 0 94,5 171 32,32 1 wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 13
Zasady poprawnej konstrukcji bazy danych Dekalog DW Byrne 8. Stwórz kompletny opis/słownik do bazy danych, zawierający tłumaczenie kodów zmiennych, definicję wartości zmiennych, informację na temat postępowania z brakującymi danymi. Zmienna Opis Typ Zakres wartości ID Numer badanego Liczba nie dotyczy PLEC Płeć Jakościowa 1=M 2=K Wzrost Wysokość ciała Ilościowa 150 190 cm Masa Masa ciała Ilościowa 50 120 kg 9. Twórz bazę danych mając na uwadze cel i sposób późniejszej analizy danych w niej zawartych. 10. Skonsultuj projekt bazy danych z biostatystykiem, uczyń to ponownie po wprowadzeniu informacji pochodzących od pierwszych 10 pacjentów. wg: M Kowalska MEDTRENDS, Zabrze 27-28.03.2015 14
Interpretacja wyników Najczęstsze problemy MEDTRENDS, Zabrze 27-28.03.2015 15
Jednostka statystyczna Populacja statystyczna / jednostka statystyczna / cecha statystyczna Jeden pacjent wiele pomiarów a co z założeniem o niezależności pomiarów? wielkość próby sztucznie zwielokrotniona zafałszowany poziom istotności statystycznej zafałszowana wartość współczynnika korelacji Itd... Przykład: pomiar ciśnienia krwi w dwóch, 30 osobowych grupach pacjentów, wykonany na lewym i prawym ramieniu. Zastosowanie testu t-studenta dla 60 obserwacji w każdej grupie prawidłowe? wg: DG Altman, JM Bland. 1997 MEDTRENDS, Zabrze 27-28.03.2015 16
Jednostka statystyczna Zastosowanie ketoprofenu i aspiryny w leczeniu reumatoidalnego zapalenia stawów Badanie randomizowane, podwójnie ślepa próba Uzyskana wartość testu porównującego skuteczność leków: p = 0.00000001 na podstawie analizy 3944 obserwacji ale pochodzących od zaledwie 58 pacjentów. Czy takie błędy są rzadkością? Gøtzsche w przeglądzie 196 randomizowanych badań stosowania niesterydowych środków przeciwzapalnych ujawnił błędny dobór jednostek statystycznych w 63% raportach! Czy można w ten sposób zbierać dane? TAK Zmienność wewnątrz osobnicza / między osobnicza Stosowanie odpowiednich metod analiz statystycznych wg: B Andersen. 1990 PC Gøtzsche. 1989 DG Altman, JM Bland. 1997 MEDTRENDS, Zabrze 27-28.03.2015 17
Poziom statystycznej znamienności p-wartość (ang. p-value) Błąd I i II rodzaju Przyjęcie H 0 Odrzucenie H 0 H 0 prawdziwa H 0 fałszywa Decyzja prawidłowa 1 α Błąd II rodzaju (β) Błąd I rodzaju (α) Decyzja prawidłowa 1 β Poziom statystycznej znamienności α prawdopodobieństwo popełnienia błędu I rodzaju α = 0,05 MEDTRENDS, Zabrze 27-28.03.2015 18
Poziom statystycznej znamienności p-wartość (ang. p-value) Programy komputerowe (pakiety statystyczne, jak R, SAS, SPSS, Statistica, itp.) obliczają p-wartość (ang. p-value): poziom prawdopodobieństwa, będący najniższym poziomem istotności statystycznej, przy którym wyliczona wartość statystyki testującej prowadzi do odrzucenia hipotezy zerowej H 0 Oczekujemy aby: p < α p < 0,05 wówczas analizowana zależność jest statystycznie znamienna bądź statystycznie istotna MEDTRENDS, Zabrze 27-28.03.2015 19
p-wartość vs. Istotność kliniczna Przykład: Leczenie kataru randomizowane badanie kliniczno-kontrolne prowadzone na grupie 1200 pacjentów. Wyniki Średni czas trwania kataru: grupa kontrolna (placebo) 7 dni grupa badana (nowy lek) 6 dni 12 h ale, czy ktoś kupi taki lek? p < 0,001 SUKCES!!! wg: A Stanisz MEDTRENDS, Zabrze 27-28.03.2015 20
Poziom istotności statystycznej (α) vs. błąd II rodzaju (β) α = 0,05 α = 0,01 α = 0,001 Rozkład dla H 0 Rozkład dla H 1 β α Wartość krytyczna = 1,96 dla α = 0,05 MEDTRENDS, Zabrze 27-28.03.2015 21
Optymalizacja błędów I i II rodzaju (α, β) Minimalna niezbędna liczebności próby Wiemy, że gdy α ( ) to β ( ) Aby α ( ) i jednocześnie β ( ), to dla ustalonej wielkości badanego efektu pozostaje jedynie N ( ) Moc testu prawdopodobieństwo odrzucenia fałszywej H 0 P = 1 β Celem optymalizacji błędów I i II rodzaju (α i β) przyjmuje się: P 0,8 ; 0,9 MEDTRENDS, Zabrze 27-28.03.2015 22
Dobór testu (błąd III rodzaju ) Postać zmiennej (jakościowe/ilościowe) Testy parametryczne/nieparametryczne (Rozkłady zmiennych) Pomiary powiązanie/niepowiązane Liczba porównywanych grup Funkcja zmiennej (zależna/niezależna) Itd (patrz: dekalog Byrne a, punkt 10) MEDTRENDS, Zabrze 27-28.03.2015 23
Ocena spersonalizowanego ryzyka zdrowotnego 1. Źródła danych: Dane zbierane przez lekarzy w ośrodku (np. SCCS) Szpitalny system informacyjny Rejestry medyczne / Elektroniczny Rekord Pacjenta / NFZ (dane od płatnika) / ZUS (potencjalnie) dostępne źródła danych Dane wrażliwe ochrona danych osobowych / zgoda komisji bioetycznej Zasady dostępu 2. Hurtownia danych Wraz z oprogramowaniem 3. Wykorzystanie do oceny spersonalizowanego ryzyka, rokowania odległego (nawet w ramach konkretnego ośrodka) Informatyka Medycyna Pacjent MEDTRENDS, Zabrze 27-28.03.2015 24