Statystyczna ocena wyników Wstęp Wcześniej zajmowaliśmy się różnymi metodami prezentacji wyników. Przypomnijmy, że na podstawie randomizowanego badania klinicznego z grupa kontrolna (RCT) ocenialiśmy efekty leczenia izolowanego ciśnienia skurczowego (ciśnienie skurczowe >160 mm Hg, ciśnienie rozkurczowe <95 mm Hg) u ludzi starszych (po 65. roku życia). 1 Strategia leczenia polegała na stosowaniu nitrendypiny, a w razie potrzeby także hydrochlorotiazydu i enalaprylu. Punkty końcowe badania to: wysta pienie udaru mózgu albo jednego z czterech powikłań (combined outcome) zgonu, udaru mózgu, zawału serca lub niewydolności kra żenia. Przypomnijmy też, że porównania losu pacjentów w dwóch grupach dokonywaliśmy, stosuja c wskaźniki względne (ryzyko względne lub względne zmniejszenie ryzyka) lub bezwzględne (bezwzględne zmniejszenie ryzyka lub jego odwrotność NNT). Ryzyko wysta pienia udaru mózgu zmniejszyło się z 1,37% na rok w grupie placebo do 0,79% na rok w grupie leczonych farmakologicznie. Odpowiada temu: ryzyko względne (RR) wynosza ce 0,79/1,37 = 58%, względne zmniejszenie ryzyka (RRR) o 42% (100% 58%), bezwzględne zmniejszenie ryzyka (ARR) o 0,58% na rok (1,37% 0,79%) i konieczność leczenia 172 pacjentów przez rok w celu uniknięcia jednego udaru mózgu (NNT = 1/0,0058). Dla zbiorczego punktu końcowego (zgon, udar mózgu, zawał serca lub niewydolność kra żenia) roczne ryzyko w grupie placebo wynosiło 3,39%, a w grupie leczonej farmakologicznie 2,33%. Oznacza to: RR = 0,69, RRR = 0,31, ARR = 1,06%, NNT = 94. Na tym etapie próbowaliśmy odpowiedzieć na pytanie, czy wartości te sa klinicznie istotne, czyli jeżeli sa prawdziwe, czy skłaniałyby nas do stosowania leczenia farmakologicznego. Niezależnie od odpowiedzi na pytanie dotycza ce klinicznej istotności wyników, druga częścia ich analizy jest ocena dokładności (precyzji) obserwacji i zbadanie, czy obserwowane różnice mogły być dziełem przypadku. Szereg pojęć zwia zanych z tym procesem jest tematem tego podrozdziału. Statystyczna analiza wyników Niezależnie od metody przedstawiania wyników badań medycznych (porównanie proporcji lub wartości przeciętnych, jednorazowa obserwacja lub obserwacje powtarzane w czasie, korelacje pomiędzy wynikami obserwacji dokonanych u tych samych pacjentów) autorzy badań naukowych podaja zwykle czytelnikowi prawdopodobieństwo (p-value), z jakim zaobserwowane w eksperymencie różnice (zależności) pomiędzy badanymi grupami moga być dziełem przypadku. Testowanie hipotez Przystępuja c do planowania eksperymentu klinicznego, często się zakłada, że różnica pomiędzy testowanymi interwencjami (lekami, technikami operacyjnymi, strategiami działania itd.) w rzeczywistości będzie równa jakiejś liczbie, na przykład zeru (czyli że różnicy nie ma). Testowana hipotezę zwie się hipotezą zerową. Po przeprowadzeniu eksperymentu autorzy uzyskuja różnicę, która prawie zawsze (nawet gdy dana interwencja jest całkowicie neutralna) jest różna od zera. Zaobserwowana różnica, otrzymana w wyniku zbadania tylko części (próbki) populacji, służy jako oszacowanie rzeczywistej różnicy w populacji. Wnioskowanie statystyczne sprowadza się do odpowiedzi na pytanie, czy wielkość zaobserwowanej różnicy jest do pogodzenia z hipoteza zerowa, według której różnicy między badanymi grupami nie ma. Im bardziej obserwowane efekty interwencji sa różne od zera, tym mniej prawdopodobne, że hipoteza zerowa jest prawdziwa. Przy pewnej wielkości różnicy zaobserwowanej w eksperymencie nie da się pogodzić z hipoteza zerowa mówimy wówczas o odrzuceniu hipotezy zerowej. W naukach przyrodniczych zwykle się przyjmuje, że gdy prawdopodobieństwo zaobserwowania jakiegoś zjawiska jest mniejsze niż 5%, to jego wysta pienia nie da się wytłumaczyć udziałem przypadku. Sta d się bierze spotykany w doniesieniach naukowych, ska dina d całkowicie arbitralny, próg prawdopodobieństwa wynosza cy 0,05. Rola przypadku Rzucaja c wiele razy moneta, spodziewamy się, że za każdym razem prawdopodobieństwo uzyskania orła jest równe 0,5. Niemniej jednak bylibyśmy raczej zaskoczeni, gdyby w 10 kolejnych rzutach orzeł wypadł 5 razy, w 40 rzutach 20 razy itd. Rozkłady: 4:6, 6:4, 7:3 lub 3:7 prawdopodobnie nie wzbudziłyby zdziwienia. Od czasu do czasu, jeśli będziemy wytrwale rzucać, moga się jednak zdarzyć rozkłady bardziej skrajne: 8:2, 9:1 czy nawet 10:0. Rola przypadku jest tu podobna jak w grach losowych: od czasu do czasu spodziewamy się II Ocena artykułów o leczeniu lub zapobieganiu 23
otrzymania podczas gry w pokera karety z ręki lub dwóch szóstek w grze w kości. Rola przypadku nie ogranicza się do rzutów moneta i gier hazardowych. Przy doborze grupy eksperymentalnej (maja cej reprezentować cała populację pacjentów z interesuja cym nas stanem klinicznym) przypadek może sprawić, że znajduja cy się w tej grupie będa się różnić od pacjentów z innej, również losowo dobranej grupy, która można by uzyskać z populacji pacjentów z interesuja cym nas stanem klinicznym. Dziełem przypadku może też być częstsze (lub rzadsze) występowanie danego powikłania w jednej z grup, mimo że porównywane sposoby leczenia w rzeczywistości sa tak samo skuteczne. Istota analizy statystycznej sprowadza się do wnioskowania, czy zaobserwowane różnice moga być dziełem przypadku, czy też należy dla nich szukać innego wyjaśnienia (na przykład wpływu stosowanego leku). Wyniki wnioskowania statystycznego sa w dużym stopniu zdeterminowane wielkościa zaobserwowanej różnicy (im większa, tym mniejsze prawdopodobieństwo przypadkowości) i liczba dokonanych obserwacji (im mniej, tym większe prawdopodobieństwo przypadkowości). Wyobraźmy sobie kilka możliwych rezultatów eksperymentu klinicznego porównuja cego wyniki próby wysiłkowej u pacjentów z choroba wieńcowa leczonych lekiem A lub lekiem B. W pierwszym wypadku trzech losowo dobranych pacjentów otrzymuja cych lek A jest w stanie kontynuować wysiłek średnio przez 60 sekund, a innych trzech otrzymuja cych lek B przez 70 sekund. W drugim wypadku czasy te wynosza odpowiednio 60 sekund i 120 sekund. Pytanie do Czytelnika: w którym wypadku brak różnicy pomiędzy lekami (czyli słuszność hipotezy zerowej) jest bardziej prawdopodobny? Rozważmy następne możliwe wyniki eksperymentu: 30 pacjentów otrzymuja cych lek A jest w stanie kontynuować wysiłek średnio przez 60 sekund, a 30 otrzymuja cych lek B przez 70 sekund. Zatem takie same czasy trwania wysiłku jak we wcześniejszym przykładzie, lecz większa liczebność grup. Jak Państwo sa dza, w którym przypadku zaobserwowana różnica jest z większym prawdopodobieństwem rzeczywista, a nie przypadkowa? Prosimy jeszcze porównać wyniki dwóch eksperymentów każdego z udziałem trzech pacjentów w grupie A i w grupie B i z tymi samymi średnimi wynikami (60 i 70 sek). W pierwszym eksperymencie wyniki w grupie A dla poszczególnych pacjentów wynosza : 35, 70 i 75 sekund, w grupie B 30, 65 i 115 sekund, w drugim zaś w grupie A: 58, 60 i 62 sekund, a w grupie B 68, 70 i 72 sekund. Jak Państwo sa dza, w którym eksperymencie zaobserwowana różnica 10 sekund jest z większym prawdopodobieństwem rzeczywista, a nie przypadkowa? Prawdopodobieństwo, że hipoteza zerowa jest prawdziwa (czyli że w rzeczywistości różnicy nie ma) maleje w miarę wzrostu nie tylko obserwowanej różnicy i liczby obserwacji, ale również jednorodności obserwacji w każdej grupie. Wszystkie testy statystyczne służa do obliczenia prawdopodobieństwa, z jakim obserwowane różnice czy zależności moga być dziełem przypadku. Znajomość ich wzorów i nazw nie jest konieczna dla zrozumienia większości doniesień medycznych. Jeśli wartość p wynosi na przykład 0,04, nie oznacza to, że przypadek nie mógł być odpowiedzialny za zaobserwowane różnice lub zależności, a jedynie że prawdopodobieństwo takiego przypadku wynosi 0,04. Oznacza to również, że odrzucaja c hipotezę, iż przypadek jest odpowiedzialny za zaobserwowane różnice lub zależności (czyli odrzucaja c hipotezę zerowa ), ryzykujemy w pewnym stopniu (4%) popełnienie błędu. Ten rodzaj błędu uznanie, że różnice sa istotne (prawdopodobieństwo ich przypadkowości jest mniejsze niż 0,05), kiedy w rzeczywistości sa one dziełem przypadku (tzn. że w populacji wszystkich pacjentów z interesuja cym nas stanem klinicznym, na których uogólniamy wyniki, różnice nie istnieja ) nazywamy błędem pierwszego rodzaju (type I error). Błąd drugiego rodzaju (type II error) popełnimy, gdy uznamy, że zastosowane leczenie nie ma wpływu na interesuja cy nas stan kliniczny (czyli nie odrzucimy hipotezy zerowej), podczas gdy naprawdę jest ono skuteczne. Planuja cy każde badania kliniczne zakładaja pewne akceptowalne ryzyko popełnienia błędu pierwszego rodzaju (prawdopodobieństwo popełnienia tego błędu zwykle oznacza się symbolem α; najczęściej wynosi 5%), jak również błędu drugiego rodzaju (oznaczone zwykle symbolem β; zwykle wynosi 10 lub 20%). Prawdopodobieństwo niepopełnienia błędu drugiego rodzaju (czyli 100% β; zwykle wynosi 90 lub 80%) nazywa się mocą (power), z jaka planowane badanie będzie w stanie wykryć założona różnicę między grupami. Znaja c najmniejsza wartość różnicy (lub miary zależności) pomiędzy grupami, która chcemy wykryć (jeżeli faktycznie istnieje) i zakładaja c określone wartości α i β (prawdopodobieństwa popełnienia błędu pierwszego i drugiego rodzaju), jakie jesteśmy gotowi zaakceptować, możemy wyliczyć liczbę pacjentów (sample size), jaka zapewni szansę wykrycia założonej różnicy. Jak się Państwo zapewne domyślacie, liczba ta jest wprost propor- 24 WYDANIE SPECJALNE 1/1999
cjonalna do stopnia pewności, jaka chcemy mieć co do prawdziwości wyników (czyli im mniejsze α i β, tym więcej pacjentów), i odwrotnie proporcjonalna do wielkości różnicy, której nie chcemy przeoczyć (wykrycie bardzo dużej różnicy wymaga minimalnej liczby pacjentów [np. jak w przypadku szczepionki badanej przez Pasteura], wykrycie niewielkiej różnicy wymaga bardzo dużej liczby pacjentów [np. w badaniach porównuja cych tpa ze streptokinaza ponad 40 000] 2 ). Jak zwykle w naszych rozważaniach pominiemy wzory, gdyż dla użytkowników literatury medycznej sa one naszym zdaniem zbędne (zainteresowanych odsyłamy do podręczników statystyki; zob. cykl artykułów Podstawy statystyki dla prowadzących badania naukowe, ukazujący się w Med. Prakt. od nru 7-8/98 przyp. red.) Istotność kliniczna czy statystyczna która jest ważniejsza? Powtórzmy: w badaniach przyrodniczych przyjmuje się zwykle 0,05 za próg prawdopodobieństwa, poniżej którego zaobserwowane różnice czy zależności można przypisać czynnikom innym niż przypadek (np. badanemu lekowi). Różnice lub zależności, których prawdopodobieństwo przypadkowości jest mniejsze niż 0,05, nazywamy statystycznie istotnymi lub znamiennymi. Niezależnie od poziomu istotności statystycznej (np. 0,01 czy 0,0005), różnice lub zależności zaobserwowane w eksperymencie moga być klinicznie ważne albo bez znaczenia. Po pierwsze: nawet bardzo mała wartość p nie sprawi, że różnice czy zależności będa miały znaczenie kliniczne, jeśli dotycza klinicznie nieistotnych (czasem nawet myla cych) pomiarów; pisaliśmy o tym we Wprowadzeniu, omawiaja c konstrukcję pytań klinicznych. Po drugie: zaobserwowanie statystycznie istotnej różnicy nawet w ważnym parametrze nie zawsze decyduje o ważności klinicznej danej obserwacji; na przykład obniżenie stężenia cholesterolu w osoczu, poprawa wydolności wysiłkowej lub jakości życia, a nawet zmniejszenie śmiertelności moga być tak małe, że w danych warunkach (np. ekonomicznych) będa klinicznie nieistotne. Posłużymy się tu już użytym przykładem: statystycznie istotne zmniejszenie śmiertelności zwia zane ze stosowaniem tkankowego aktywatora plazminogenu (tpa) w porównaniu ze streptokinaza jest uważane za klinicznie istotne w większości ośrodków w USA, za klinicznie mało istotne w Kanadzie, a za całkowicie nieistotne w wielu krajach z bardziej ograniczonym budżetem służby zdrowia (w Kanadzie tpa jest blisko 10-krotnie droższy od streptokinazy). Natomiast zaobserwowanie nawet dużej różnicy, której ważność kliniczna nie budzi naszej wa tpliwości, nie ma większego znaczenia, jeżeli różnica ta może być dziełem przypadku. Podsumowuja c: istotność statystyczna, która określamy wynikiem testów statystycznych, oraz istotność kliniczna, która oceniaja pacjenci i lekarze w określonych warunkach to dwa odrębne elementy oceny wyników każdego eksperymentu klinicznego. Oba musza być brane pod uwagę, gdyż pominięcie jednego z nich czy to istotności statystycznej, czy klinicznej zawsze prowadzi do niepełnej, a czasami wręcz myla cej interpretacji wyników. Jaka jest dokładność zaobserwowanych wyników? W badaniu Syst-Eur, będa cym podstawa naszych rozważań, zgon wysta pił u 137 spośród 2297 pacjentów w grupie placebo i u 123 z 2398 otrzymuja cych leki hipotensyjne. Wyniki te pozwalaja nam na oszacowanie efektu leczenia (względne zmniejszenie ryzyka [RRR] = 14%) i prawdopodobieństwa, że wyniki te sa skutkiem przypadku (p = 0,22). Jakich wyników spodziewaliby się Państwo, gdyby autorzy Syst-Eur (lub ich konkurencja ) przeprowadzili jeszcze raz identyczny eksperyment? Dokładnie taka sama śmiertelność w grupach (6% i 5,1%; RR 86%, RRR 14%) byłaby raczej zaskoczeniem. Czy względne zmniejszenie ryzyka o 12% lub 16% w powtórzonym eksperymencie wzbudziłoby Państwa zdziwienie? Jaka byłaby Państwa reakcja, gdyby RRR wyniosło 5% lub 23%, albo gdyby ryzyko wzrosło o 2%? Wartości bliskie zaobserwowanej przez autorów pierwotnego badania wydaja się prawdopodobne, natomiast wartości coraz bardziej od niej odbiegaja ce coraz mniej prawdopodobne. Po przekroczeniu pewnego progu dojdziemy do wniosku, że wyniki powtórzonego badania nie daja się pogodzić z pierwotna obserwacja (z pewnym prawdopodobieństwem; zwykle przyjmuje się 95%, ale czasem też 99, 90 lub 80%; dla uproszczenia w dalszej części tekstu pozostaniemy przy 95%). Powyższe rozważania ilustruja alternatywna metodę analizy wyników prób klinicznych. W poprzedniej metodzie, opartej na wartości p, pytanie brzmiało: z jakim prawdopodobieństwem zaobserwowana różnica śmiertelności mogła być dziełem przypadku? Teraz pytanie jest trochę inne: jeśli wzia ć pod uwagę zaobserwowana różnicę śmiertelności pomiędzy grupami w jakim przedziale war- II Ocena artykułów o leczeniu lub zapobieganiu 25
tości znajduje się (oczywiście z pewnym prawdopodobieństwem) prawdziwa różnica spowodowana leczeniem? Innymi słowy jakie wyniki powtórzonego eksperymentu nie byłyby dla nas zaskoczeniem? Jeszcze inaczej w jakim przedziale spodziewalibyśmy się większości (np. 95) wyników kolejnych 100 podobnych badań? Lub jeszcze inaczej w jakim przedziale wyników spodziewamy się (z 95% prawdopodobieństwem) znalezienia wyników powtórzonego eksperymentu. Wreszcie: jak precyzyjne sa podane obserwacje? Odpowiedź na każde z powyższych pytań stanowi tzw. 95% przedział ufności (95% confidence interval 95% CI), a każde z tych pytań to w zasadzie definicja tego przedziału. Przedział ufności oblicza się za pomoca prostych wzorów, ale ich znajomość naszym zdaniem nie jest użytkownikom literatury medycznej potrzebna. Natomiast zrozumienie znaczenia wyliczonych przedziałów ufności jest podobnie jak w przypadku wartości p konieczne do interpretacji wyników. Prawdopodobieństwo, z jakim przypadek może być odpowiedzialny za zaobserwowane wyniki (czyli wartość p), zależy od wielkości różnicy między grupami, liczebności grup i od jednorodności obserwacji wewna trz grup. Od czego zależy precyzja wyników (czyli przedział ufności)? Spróbujmy odejść na chwilę od medycyny i zaja ć się hazardem. Załóżmy, że gramy w kości. Gra polega na tym, że nasz przeciwnik rzuca kostka. Jeżeli wyrzuci szóstkę, płacimy mu 5 złotych, a jeśli jakikolwiek inny numer, to on płaci nam złotówkę. Spodziewamy się, że szansa wyrzucenia szóstki (1 6, czyli 0,167) jest pięciokrotnie mniejsza niż jakiejś innej liczby punktów (5 6, czyli 0,833), czyli że nasze szanse sa równe i gra powinna się sprowadzić do niewinnego hazardu. Po pierwszych 2 rzutach raz wygrywa przeciwnik, raz my. Po 6 rzutach straciliśmy 15 złotych a zyskaliśmy 3 złote (szóstka wypadła 3 razy) trochę jesteśmy zawiedzeni, ale mamy nadzieję, że dalej pojdzie nam lepiej. Po 10 rzutach szóstka wypada 5 razy zaczyna się nam to nie podobać. Po 20 rzutach szóstka wypadła 10 razy podejrzewamy oszustwo i ża damy (bezskutecznie) komisyjnego zbadania kostki. Powyższy przykład ilustruje kilka zasad: po pierwsze hazard jest ryzykowny; po drugie prawdopodobieństwo, że szóstka wypadnie z 50%, a nie ze spodziewanym 17% prawdopodobieństwem, wzrasta w miarę zwiększania się liczby obserwacji; po trzecie za precyzję trzeba płacić, i to jest prawda znana autorom badań klinicznych, w których głównym problemem jest uzyskanie środków finansowych na przebadanie wystarczaja co licznej populacji pacjentów (wystarczaja co licznej dla odpowiedniej precyzji obserwacji). Dla zainteresowanych: 95% przedział ufności dla 50% szansy otrzymania szóstki wynosił po 2 rzutach 1 99% (czyli w naszym przypadku mogło być gorzej lub lepiej); wartość 1% to dolna granica przedziału ufności, 99% górna. Po 6 rzutach dolna granica przedziału ufności wynosi 10%, a górna 90% (czyli dalej mieści się w nim obserwowane 50% i spodziewane 17% częstości wypadania szóstki). Po 10 rzutach i 5 szóstkach 95% przedział ufności wynosił 19 81%, czyli wynik był już nie do pogodzenia z uczciwa gra (spodziewana 17% częstość wypadania szóstki w tym przedziale się nie mieści). Oznaczanie wartości p i przedziału ufności to trochę różne metody oceny wyników, pomiędzy którymi istnieje jednak ścisła zależność. Jeżeli 95% przedział ufności nie zawiera wartości oznaczaja cej brak różnicy pomiędzy badanymi grupami (czyli zera przy analizie różnic lub jedności przy analizie proporcji), to wyniki badania nie daja się pogodzić z hipoteza zerowa (że różnicy nie ma) i wartość p jest mniejsza od 0,05. Jeżeli jedna z granic przedziału ufności dotyka, ale nie przekracza wartości oznaczaja cej braku różnicy, wartość p jest równa 0,05. Jeżeli granice przedziału ufności leża po obu stronach tej wartości, wartość p przekracza 0,05 i wynik jest statystycznie nieistotny. Użycie przedziałów ufności pozwala jednak dodatkowo na bardziej szczegółowa analizę wyników. Rozważmy na wstępie wyniki badania, w którym ponad 500 pacjentów po niedokrwiennym udarze mózgu otrzymywało, w celu zapobieżenia kolejnemu udarowi, aspirynę lub placebo. 3 W grupie placebo 55 z 252 (21,8%) pacjentów doznało kolejnego udaru mózgu lub zmarło w cia gu następnych 2 lat, a w grupie leczonej aspiryna 57 z 253 (22,5%). Wyniki te przemawiaja za neutralnym lub szkodliwym działaniem aspiryny bezwzględne zwiększenie ryzyka o 0,7% (22,5% 21,8%), względne zwiększenie ryzyka o 3% (22,5%/21,8%). Porównanie tych proporcji wykazało, że zaobserwowane różnice mogły być dziełem przypadku (p >0,05). Intuicyjnie badanie takie można uznać za negatywne, czyli wykluczaja ce skuteczność leku. Wprowadźmy druga metodę oceny wyników, oparta na przedziale ufności. I cóż się okazuje: 95% przedział ufności zawiera wartości od 8% bezwzględnego zwiększenia ryzyka do 6,5% zmniejszenia (!) ryzyka. Tak więc na podstawie uzyskanych wyników nie można wykluczyć dość znacznej skuteczności aspiryny: w skrajnym przypadku może to być 6,5% bezwzględnej poprawy (ARR = 6,5%, NNT 15), 26 WYDANIE SPECJALNE 1/1999
a w porównaniu z 22% ryzykiem w grupie placebo RRR może wynosić 29% (6,5%/22%), a RR 71%. Te potencjalne wartości, których badanie nie wykluczyło z wystarczaja ca pewnościa, pacjenci i lekarze uznaliby za klinicznie istotne. Na poparcie takiego rozumowania możemy przytoczyć wyniki zbiorczej analizy badań zajmuja cych się tym problemem klinicznym (metaanaliza będzie przedmiotem rozdz. IV) ła czna analiza wyników kilkunastu wiarygodnych badań pozwoliła na znacznie bardziej precyzyjne ustalenie skutków stosowania aspiryny u chorych po udarze niedokrwiennym mózgu. Względne zmniejszenie ryzyka (RRR) powtórnego udaru oszacowano na około 17%, z 95% przedziałem ufności od około 5% do 29%; podobny stopień zmniejszenia ryzyka stwierdzono, analizuja c wpływ aspiryny na występowanie zawału serca i zgonów z przyczyn sercowo-naczyniowych. 4 Powyższy przykład ilustruje problem interpretacji wyników negatywnego badania: niewykazanie różnicy nie zawsze jest równoznaczne z jej brakiem! Przy analizie wyników negatywnych badań proponujemy, aby zawsze poddać analizie wartości zawarte w przedziale ufności. Jeżeli przedział ufności zawiera wartość, która wydaje się klinicznie istotna (czyli górna granica przedziału ufności jest większa niż ta wartość), to jedynym wnioskiem, jakiego możemy być pewni, jest to, że precyzja naszych wyników była zbyt mała, aby wykluczyć korzystne działanie leku. Ponieważ w naszym przykładzie górna granica przedziału ufności (6,5% bezwzględnego zmniejszenia ryzyka = 15 pacjentów leczonych aspiryna w celu uniknięcia jednego udaru lub zgonu [czyli zdarzeń ła cznie stanowia cych oceniany punkt końcowy badania]) jest intuicyjnie większa niż minimalna klinicznie istotna różnica, powyższe badanie nie pozwoliło na wykluczenie skuteczności leczenia. Analiza przedziałów ufności przydaje się również przy analizie badań pozytywnych, czyli takich, w których analiza statystyczna wykluczyła przypadek jako prawdopodobna przyczynę różnic zaobserwowanych pomiędzy grupami. Posłużymy się przykładem badania RCT (przypominamy, że skrót ten oznacza randomizowane badanie z grupa kontrolna ), w którym chorzy na przewlekła obturacyjna chorobę płuc zostali poddani intensywnej szpitalnej rehabilitacji oddechowej. Chorzy z grupy kontrolnej znajdowali się pod zwykła opieka ambulatoryjna. 5 W wyniku intensywnej rehabilitacji wydolność wysiłkowa, mierzona maksymalnym dystansem, jaki chory mógł pokonać w cia gu 6 minut, wzrosła w porównaniu z grupa kontrolna średnio o 38 metrów. Prawdopodobieństwo, że różnica ta była dziełem przypadku, wyniosło mniej niż 5% (p <0,05) i badanie można by uznać za pozytywne. Zwróćmy jednak i tu uwagę na 95% przedział ufności, który wynosi 11 65 metrów. Jeżeli wszystkie wartości zawarte w tym przedziale wydaja się klinicznie istotne, to dodatni efekt programu rehabilitacyjnego jest dość pewny. Jeżeli jednak część z tych wartości jest klinicznie nieistotna (czyli dolny próg przedziału ufności ma niższa wartość niż ta uznana za najmniejsza istotna klinicznie), to badanie nie potwierdziło korzyści interwencji z całkowita pewnościa. Możliwość przejścia dodatkowych 10 lub 15 metrów w cia gu 6 minut nie wydaje się warta 6-tygodniowego pobytu w szpitalu. Inne badanie, w którym pacjenci stwierdzili, że zysk mniejszy niż 50 metrów nie ma dla nich znaczenia, potwierdza nasze wrażenie. 6 Podsumowanie: w trakcie analizy wyników każdego badania proponujemy się zastanowić, jaka najmniejsza wielkość różnicy między obserwowanymi grupami jest (w danych warunkach) klinicznie istotna. Następnie w badaniach negatywnych trzeba zwrócić uwagę na górna granicę przedziału ufności; jeżeli jest ona poniżej najmniejszej klinicznie istotnej różnicy, to wyniki badania moga być uznane za ostateczne. Natomiast w badaniach pozytywnych proponujemy analizę dolnej granicy przedziału ufności; jeżeli jest ona większa od najmniejszej wartości uznanej za klinicznie istotna, to też mamy do czynienia z wynikami ostatecznie wyjaśniaja cymi badany problem. W przeciwnych przypadkach precyzja badania była zbyt mała, by wycia gać ostateczne wnioski; zwiększenie tej precyzji wymagałoby powtórzenia badania z udziałem większej liczby pacjentów. Na marginesie, jak się Państwu wydaje, w jaki sposób łatwiej uzyskać większa liczbę pacjentów poprzez przeprowadzenie nowego badania z liczniejsza grupa badana czy poprzez poła czenie dwóch lub więcej badań, których wyniki nie były ostateczne? Odpowiedź na to pytanie pozwala zrozumieć popularność metaanaliz (p. dalej). Na razie proponujemy powrót do tabeli przedstawiaja cej wyniki badania Syst-Eur. Na stronie 18 zamieściliśmy część tej tabeli zawieraja ca proporcje pacjentów, u których wysta piły powikłania; teraz dodajemy wyniki analizy statystycznej opartej na RRR. Proponujemy zastanowienie się nad kilkoma obserwacjami. Dlaczego ponad 30% RRR w jednym przypadku uznaje się za statystycznie istotne, a w innym nie? Czy wartość p równa 0,12 (przy analizie częstości występowania zawału serca) oznacza, że badanie wykluczyło korzystny wpływ leków hipotensyjnych na to powikłanie? Dlaczego dodaja c dwa powikłania (zawał II Ocena artykułów o leczeniu lub zapobieganiu 27
serca i niewydolność serca), dla których różnica była statystycznie nieistotna, uzyskujemy istotność statystyczna? Jeżeli umieja Państwo sobie odpowiedzieć na te pytania, możemy iść dalej. W kolejnym podrozdziale zajmiemy się końcowym etapem wykorzystania publikacji medycznych zastanowimy się, czy wyniki tych badań nadaja się do zastosowania w naszych warunkach i u naszego pacjenta. Piśmiennictwo 1. Staessen J.A., Fagard R., Thijs L., et al., for the Systolic Hypertension in Europe (Syst-Eur) Trial Investigators: Randomized double-blind comparison of placebo and active treatment for older patients with isolated systolic hypertension. Lancet, 1997; 350: 757 564 2. An international randomized trial comparing four thrombolytic strategies for acute myocardial infarction. The GUSTO investigators. N. Engl. J. Med., 1993; 329: 673 682 3. High dose salicylic acid after cerebral infarction: A Swedish co-operative study. Stroke, 1987; 18: 325 334 4. Antiplatelet trialists collaboration: Secondary prevention of vascular disease by prolonged antiplatelet treatment. BMJ, 1988; 296: 320 331 5. Goldstein R.S., Gort R.S., Stubbing D., Avendano M.A., Guyatt G.H.: Randomised controlled trial of respiratory rehabilitation. Lancet, 1994: 1394 1397 6. Redelmeier D.A., Bayoumi A.M., Goldstein R.S., Guyatt G.H.: Interpreting a small difference in functional status: the six minute walking test in chronic lung disease patients. Am. J. Resp. Crit. Care Med., 1997; 155: 1278 1282 28 WYDANIE SPECJALNE 1/1999