dr Dominik M. Marciniak Analizy statystyczne w pracach naukowych czego unikać, na co zwracać uwagę. Statistics in academic papers, what to avoid and what to focus on. Uniwersytet Medyczny im. Piastów Śląskich we Wrocławiu Wydział Farmaceutyczny Katedra i Zakład Technologii Postaci Leku
Najczęściej wykonywane analizy statystyczne w naukach medycznych Jednowymiarowe analizy klasyczne: Wyznaczanie statystyk opisowych (średnia, odchylenie standardowe, wariancja, mediana, moda, współczynnik zmienności, błąd standardowy, skośność, kurtoza, przedziały ufności, kwartyle, percentyle, itp.), określanie niepewności pomiarowych. Porównywanie dwóch średnich testy t Porównywanie wielu średnich analiza wariancji ANOVA Testy Chi-kwadrat Regresja linowa i korelacja Testy nieparametryczne
Ogólne modele liniowe i nieliniowe: Regresja liniowa i wieloraka Regresja nieliniowa Regresja logistyczna Wieloczynnikowa i wielowymiarowa analiza wariancji MANOVA. Analiza kowariancji Analiza reszt
Analizy wielowymiarowe i przemysłowe: Analiza kanoniczna Analiza dyskryminacyjna i analiza głównych składowych Analiza czynnikowa Analiza skupień Analiza log-linowa Analiza korespondencji Analiza przeżycia Estymacja nieliniowa
Obecnie wszyscy jesteśmy statystykami dzięki rozbudowanym programom komputerowym, które sprowadzają przeprowadzenie analizy statystycznej do jednego kliknięcia myszką.
Podstawowe pojęcia statystyczne Niepewności pomiarowe, cyfry znaczące: Każdy, nawet najprostszy wynik pomiaru powinien być przedstawiany w następującej formie: x = x np + / - δx. wartość zmierzona = najlepsze przybliżenie + / - niepewność (błąd pomiaru) Najczęściej popełniane błędy dotyczą zapisów: Wartość zmierzona = 9,82 + / - 0,03385 - niepoprawnie Niepewności eksperymentalne powinny być prawie zawsze zaokrąglane do jednej cyfry znaczącej. Jeżeli pierwszą cyfrą znaczącą niepewności δx jest 1 lub 2 to możemy podać dwie cyfry znaczące. Wartość zmierzona = 9,82 + / - 0,03 poprawnie Wartość zmierzona = 6051,78 + / - 30 niepoprawnie Ostatnia cyfra znacząca w każdym wyniku powinna zwykle być tego samego rzędu co niepewność. Wartość zmierzona = 6050 + / - 30 poprawnie Wynik 92,8 z niepewnością 0,3 to 92,8 + / - 0,3 Wynik 92,8 z niepewnością 3 to 93 + / - 3 Wynik 92,8 z niepewnością 30 to 90 + / - 30 Liczby używane w obliczeniach powinny mieć zwykle jedną cyfrę znaczącą więcej niż te podawane ostatecznie.
Brak należytego zrozumienia istoty problemu badawczego, przed przystąpieniem do analizy statystycznej: Na każde zjawisko działają dwa rodzaje przyczyn: Przyczyny główne wynikają z istoty problemu, działają w sposób trwały i dobrze ukierunkowany, jednakowo na wszystkie elementy badanej zbiorowości, to one powodują powstanie prawidłowości (są składnikiem systematycznym). Przyczyny uboczne czyli losowe, oddziałują różnie na poszczególne elementy zbiorowości, działają różnokierunkowo i w sposób nietrwały. One powodują odchylenia od prawidłowości i są źródłem tzw. składnika losowego. Dobre zrozumienie problemu to przede wszystkim poprawna identyfikacja przyczyn głównych i ubocznych. Statystyka to nauka służebna wobec innych nauk. Ma służyć potwierdzaniu hipotez badawczych, a nie ich kreowaniu.
Brak jednorodności i reprezentowalności badanej próby: Statystyka wykazuje dwupoziomowe działanie w oparciu o wyliczone konkretne statystyki na podstawie wyników zebranych z części populacji zwanej próbą, wnioskujemy o całej populacji. Zarówno próba jak populacja powinny być jednorodne. Zbiorowość jest jednorodna wtedy, gdy wszystkie jej elementy pozostają pod wpływem działania tych samych przyczyn głównych. Próba jest reprezentatywna, jeżeli jej struktura jest identyczna lub bardzo zbliżona do zbiorowości ogólnej. Brak losowego doboru próby: Próba jest dobrze wylosowana, jeżeli każdy element zbiorowości ogólnej ma takie samo prawdopodobieństwo wejścia do próby. Najczęściej w badaniach ankietowych dochodzi do nielosowego doboru próby. Przekład błędu: wyników ankiet przeprowadzanych na studentach lub ankiet internetowych nie można uogólniać na całe społeczeństwo.
Cechy statystyczne Mylne określanie i wykorzystywanie skal pomiarowych: Zasadniczo rozróżniamy cztery rodzaje skal pomiarowych: nominalna, porządkowa, przedziałowa i ilorazowa. Od przyjętej skali zależy wybór odpowiedniej analizy statystycznej. Najczęściej mylone są skale przedziałowa bądź ilorazowa (wykorzystywane w większości testów parametrycznych) ze skalą porządkową (na której oparte są z reguły testy nieparametryczne). Rangi, które są efektem pomiaru skali porządkowej, nie pozwalają na liczenie odległości (a więc również różnic) i średnich. Przykład: Wykorzystując nieparametryczne odpowiedniki testu t takie jak: test U Manna-Whitneya, czy test serii Walda- Wolfowitza nie należy przedstawiać wykresów średniabłąd_standardowy-1,96*błędu_standardowego tylko mediana- 25%/75%-minimum/maksimum.:
Szeregi statystyczne Błędy w budowie szeregów rozdzielczych: Szeregi z dziurami: Wiek: 0-4, 5-9, 10-14, 15-19 itd. Szeregi otwarte: Wiek: (0,5), (5,10), (10,15), (15,20) itd. Zgodnie z definicją dystrybuanty poprawnie zdefiniowany szereg rozdzielczy powinien być lewostronnie domknięty, a prawostronnie otwarty: Wiek: <0,5), <5,10), <10,15), <15,20) itd.
Prawdopodobieństwo Definicja prawdopodobieństwa wprowadzona mówi, że jest to funkcja o wartościach z przedziału <0,1>. Częsty błąd to traktowanie prawdopodobieństwa jako liczby z przedziału od 0 do 100.
Liczebność próby Nie ma prostej i uniwersalnej odpowiedzi na pytanie jaka powinna być minimalna liczebność próby. Liczebność próby zależy od wielu czynników i często trudno ją określić na początku badań (konieczne jest często przeprowadzanie wstępnych badań pilotażowych na małej grupie). Liczebność próby zależy między innymi od: Rodzaju analizy statystycznej Rodzaju analizowanego parametru Jaka jest zmienność analizowanego zjawiska Jak dużą różnicę chcemy wykazać Jaki przyjmiemy poziom ufności p
Niczym nieuzasadniony jest strach badaczy przed małą próbą. Większość klasycznych analiz statystycznych można wykonać w oparciu o próby trzyelementowe. Lepiej wykonać analizę statystyczną na małej próbie niż nie wykonywać jej wcale!!! Kluczem jest uświadomienie sobie jaki wpływ ma liczebność próby na wyniki wnioskowania statystycznego: Przy małej próbie trudno udowodnić hipotezy badawcze (szczególnie w przypadku dużej zmienności analizowanej zmiennej i skrajnie małej liczebności próby np. 3), natomiast przy bardzo dużej próbie można wykazać istotność statystyczną dowolnie małej różnicy.
Przykład 1 (porównanie dwóch średnich 1 2 testem t): 1 2 3 4 5 6 1 2 Zmienna grupująca Zmienna zależna a 1 a 2 a 3 b 3 b 4 b 5 1 2 3 4 5 6 7 8 9 10 11 12 Zmienna grupująca Zmienna zależna a 1 a 2 a 3 b 3 b 4 b 5 a 1 a 2 a 3 b 3 b 4 b 5 Testy t; Grupująca:Zmienna grupująca (Temp) Grupa 1: a Grupa 2 b Średnia Średnia t df p N ważnyc N ważnych Odch.std Odch.std Zmienna a b a b a b Zmienna zależna 2,00 4,00-2,4495 4 0,07048 3 3 1,000 1,000 5,5 Testy t; Grupująca:Zmienna grupująca Grupa 1: a Grupa 2 b Średnia Średnia t df p N ważnyc N ważnych Odch.std Odch.std Zmienna a b a b a b Zmienna zależna 2,00 4,00-3,8730 10 0,00309 6 6 0,894 0,894 5,5 5,0 5,0 4,5 4,5 4,0 4,0 Zmienna zależna 3,5 3,0 2,5 Zmienna zależna 3,5 3,0 2,5 2,0 2,0 1,5 1,5 1,0 1,0 0,5 a Zmienna grupująca b Srednia Srednia±Blad std Srednia±1,96*Blad std 0,5 a Zmienna grupująca b Srednia Srednia±Blad std Srednia±1,96*Blad std
Przykład 2 (korelacja linowa): Korelacje Oznaczone wsp. korelacji są istotne z p <,05000 Zmn. X & Zmn. Y Zmienna X Zmienna Y Średnia Odch.st. r(x,y) r2 t p Ważnych Stała zal: Y Nachyle zal: Y Stała zal: X Nachyle zal: X 12,30 3,46 7,23 2,76 0,089 0,0079 1,98 0,04856 495 6,363 0,071 11,494 0,111 20 Y= 6,3631 +,07085 * X Korelacja: r =,08871 18 16 14 12 Zmienna Y 10 8 6 4 2 0-2 4 6 8 10 12 14 16 18 20 22 24 26 28 Zmienna X 0,95 Prz.Ufn.
Testowanie hipotez statystycznych Problemy dotyczące właściwego zrozumienia pojęcia hipoteza statystyczna. Problemy dotyczące właściwego zrozumienia pojęcia poziom istotności α. Problemy dotyczące właściwego doboru testów statystycznych. Problemy dotyczące weryfikacji założeń testów statystycznych. Problemy dotyczące porównań wielokrotnych każdy z każdym. Problem związany korelacji. z istotnością współczynnika
Hipoteza statystyczna i poziom istotności Hipoteza statystyczna to dowolny sąd o populacji sformułowany bez wykonywania pełnego badania całej populacji, tylko przeprowadzany na podstawie analizy danych z próby. W statystyce formułujemy dwie hipotezy: hipotezą zerową H 0 i hipotezę alternatywną H 1. Najczęściej hipoteza badawcza jest wyrażona jako hipoteza alternatywna H 1, a nie jako hipoteza zerowa H 0, która nie pozostawia wyboru. W toku testowania możemy podjąć dwie decyzje: Odrzucić hipotezę zerową H 0 i przyjąć hipotezę alternatywną H 1. Nie mamy podstaw do odrzucenia hipotezy zerowej H 0. W toku testowania możemy popełnić dwa błędy: Błąd pierwszego rodzaju: odrzucenie prawdziwej hipotezy zerowej H 0. Błąd drugiego rodzaju: przyjęcie fałszywej hipotezy zerowej H 0. Poziom istotności α jest to prawdopodobieństwo popełnienia błędu pierwszego rodzaju. Zakłada do sam badacz z góry. Zwykle jest to 0,05 lub 0,01. Hipoteza zerowa Hipoteza zerowa prawdziwa Hipoteza zerowa fałszywa Decyzje Nie ma podstaw do odrzucenia H 0 Decyzja prawidłowa Błąd II rodzaju Odrzucić H 0 Błąd I rodzaju Decyzja prawidłowa
Określanie hipotez statystycznych po przeprowadzeniu doświadczeń. Hipotezy statystyczne należy jasno określić przed badaniem, na etapie jego projektowania. Niedopuszczalne jest formułowanie ich w oparciu o otrzymane wyniki. Nieokreślenie czy hipoteza alternatywna H 1 ma być jednostronna (kierunkowa) czy dwustronna (bezkierunkowa). Dla przykładu porównując testem t dwie średnie hipoteza zerowa H 0 brzmi dwie średnie są sobie równe, hipoteza alternatywna H 1 może brzmieć jedna średnia jest większa od drugiej (kierunkowa), lub jedna średnia jest różna od drugiej (bezkierunkowa). Często wykonując tego typu testy nie zwraca się uwagi co tak naprawdę wykazano. Częsty błąd, który można znaleźć w publikacjach naukowych to stwierdzenie, że przyjmujemy hipotezę zerową H 0. Hipotezy zerowej nie można przyjąć H 0 (nie można udowodnić równości średnich czy braku korelacji między zmiennymi), można nie mieć podstaw do jej odrzucenia co w praktyce oznacza tyle że nie udało nam się wykazać słuszności naszych założeń sformułowanych w hipotezie alternatywnej H 1.
Właściwy dobór i weryfikacja założeń testów statystycznych Niewłaściwy dobór testu statystycznego to najczęściej popełniana grupa błędów przy przeprowadzaniu analiz statystycznych, a najważniejsze z nich to: Stosowanie testów parametrycznych bez sprawdzenia założeń dotyczących wymaganego rozkładu, jednorodności wariancji itp. Testy parametryczne zawsze oparte są na założeniach o typie rozkładu zmiennej losowej, którą badamy (często i innych założeniach). Ich stosowanie narzuca nam konieczność weryfikacji czy badana zmienna losowa spełnia wszystkie wymagane założenia co bardzo często nie jest robione lub ignorowane są wyniki testów sprawdzających założenia. Stosowanie testów dla prób zależnych w sytuacji gdy mamy do czynienia z próbami niezależnymi i na odwrót. Określenie czy mamy do czynienia z próbami zależnymi czy niezależnymi często jest dość trudne. W celu stwierdzenia z jakim powiązaniem zmiennych mamy do czynienia można się kierować jedną bardzo pomocną zasadą: Jeżeli przeprowadzając doświadczenie, porównywane zmienne można teoretycznie pozyskać w jednym i tym samym czasie to zwykle mamy do czynienia ze zmiennymi niezależnymi. Jeżeli natomiast niezbędny jest odstęp czasowy pomiędzy zbieranymi wynikami będącymi następnie analizowanymi zmiennymi losowymi, to z reguły istnieje czynnik uzależniający zmienne od siebie. Przykład: Leki A i B podajemy dwóm niezależnym grupą osób zmienne niezależne. Leki A i B podajemy tej samej grupie osób potrzebny jest czas wymycia jednego z leków zmienne zależne.
Nieprzestrzeganie minimalnej liczebności próby wymaganej dla danego testu. Wiele testów (test chi-kwadrat, niektóre rodzaje testów t, prawie wszystkie wyrafinowane analizy wielowymiarowe) wymaga minimalnej liczebności próby co, często jest ignorowane. Prawie wszystkie testy nie tolerują 0 i 1, a są bardzo mało precyzyjne dla prób o liczebnościach 2-5. Przy różnego typu estymacjach parametrów często stosuje się zasadę minimum: liczebność próby musi być większa od ilości estymowanych parametrów. Nieodpowiednie dobranie testów do skali pomiarowej, z którą mamy do czynienia. Częsty błąd dotyczący analizy regresji liniowej i korelacji to wyznaczanie współczynnik korelacji liniowej Pearsona dla zmiennych o charakterze porządkowym, lub odwrotnie, wyznaczanie korelacji Spearmana dla zmiennych w skali przedziałowej lub ilorazowej.
Porównania wielokrotne każdy z każdym Należy pamiętać, że zakładany poziom istotności α dotyczy pojedynczego testowania, i jeżeli daną procedurę statystyczną wykorzystamy wielokrotnie to zakładane prawdopodobieństwo popełnienia błędu pierwszego rodzaju na poziomie 0,05 dla całej analizy będzie znacznie wyższe, co zwykle jest niedopuszczalne. Tego typu błędy najczęściej są popełniane przy wykonywaniu dwóch typów analiz statystycznych: Porównywanie wielu średnich ze sobą i wykorzystywanie do tego testu t (porównując każdy z każdym ) zamiast analizy wariancji ANOVA wraz z testami post-hoc. Przykład: Przy poziomie istotności α = 0,05 prawdopodobieństwo, że się nie pomylimy dla jednego porównania wynosi 1-0,05 = 0,95. Dla dwóch porównań 0,95 2 = 0,9025. Dla czterech grup mamy sześć porównań, a wówczas wartość ta wynosi 0,95 6 = 0,7351. Prawdopodobieństwo, że pomylimy się co najmniej jeden raz wynosi 1-0,7351 = 0,265. Określanie istotności statystycznej współczynników korelacji liniowej r w macierzach korelacji.
Istotność współczynnika korelacji liniowej r Błąd szczególnie często występujący w pacach medycznych to sugerowanie się wysoką wartością współczynnika korelacji liniowej Pearsona r bez określenia jego istotności statystycznej. 3,2 3,0 2,8 X1a:Y1a: r = 0,9965; p = 0,0529 7 6 X1b:Y1b: r = 0,8186; p = 0,0464 2,6 5 2,4 Zmienna Y 2,2 2,0 Zmienna Y 4 3 1,8 1,6 2 1,4 1,2 1 1,0 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 0 0 1 2 3 4 5 6 7 Zmienna X Zmienna X
Wartość p Mylenie wartości p z poziomem istotności α. Wartość p to najwyższy możliwy poziom istotności, przy którym możemy odrzucić testowaną hipotezę w oparciu o uzyskane dane empiryczne. Jeżeli p < α to odrzucamy hipotezę zerową H 0. Mało eleganckie zapisy wartości p. W publikacjach naukowych można znaleźć zapisy wartości p typu: p = 0,0000 co jest wynikiem bezmyślnego kopiowania tabel z wynikami analiz statystycznych taki zapis jest nieelegancki i lepiej go zastąpić równoważnym zapisem p < 0,0001.