Metody określania przydatności testu Przedstawiliśmy sytuację, w której naszym celem była odpowiedź na pytanie dotycza ce przyczyny niedokrwistości u pacjenta w średnim wieku. Zajmowaliśmy się głównie badaniem w kierunku niedokrwistości z niedoboru żelaza, wykorzystuja c artykuł, w którym porównano oznaczanie stężenia ferrytyny w surowicy (test oceniany) z obrazem szpiku kostnego ( złoty standard ). 1 Po przeanalizowaniu metody tego porównania uznaliśmy, że wnioskom z niego płyna cym można zaufać. Przyjrzyjmy się teraz wynikom badania. Do naszych dalszych rozważań konieczna jest znajomość pojęć wprowadzonych w poprzednim podrozdziale (prawdopodobieństwa i szanse a priori i a posteriori, próg wykluczenia i próg leczenia). Jak ocenić wartość danego testu diagnostycznego wskaźniki wiarygodności Zdolność wyniku testu do zmiany prawdopodobieństw (szans) obecności danego stanu klinicznego (choroby) określa się za pomoca wskaźników wiarygodności (likelihood ratios). Spróbujmy to wyjaśnić na przykładzie porównania stężenia ferrytyny w surowicy z wynikami badania szpiku kostnego (tab. 1). Przypominamy, że małe stężenie ferrytyny wskazuje na niedokrwistość z niedoboru żelaza. Stężenie ferrytyny u pacjentów z niedokrwistościa z niedoboru żelaza (rozpoznana na podstawie testu referencyjnego, tj. oceny szpiku kostnego) wahało się w znacznym zakresie. W każdym przedziale stężeń ferrytyny część pacjentów miała niedokrwistość z niedoboru żelaza, a pozostali nie. Możemy więc zapytać, jakie jest prawdopodobieństwo uzyskania określonego wyniku u chorego z niedokrwistościa z niedoboru żelaza, a jakie u pacjenta z inna przyczyna niedokrwistości. Na przykład: prawdopodobieństwo, że u pacjenta z niedoborem żelaza (85 pacjentów) stężenie ferrytyny w surowicy wyniesie od 18 do 45 µg/l jest równe 23/85, czyli 0,27. Ten sam wynik ferrytyny można jednak uzyskać również u pacjentów z inna przyczyna niedokrwistości; w naszym przypadku u 13 spośród 150, a więc z prawdopodobieństwem 0,086 (13/150). Iloraz tych prawdopodobieństw (23/85 : 13/150) wynosi około 3,1 i jest określany jako likelihood ratio (LR) (odpowiednik w polskim piśmiennictwie to iloraz wiarygodności, ale trzeba pamiętać, że nie odnosi się on do wiarygodności testu, lecz stanowi Tabela 1. i badania szpiku kostnego i oznaczenia stężenia ferrytyny w surowicy u 235 pacjentów z podejrzeniem niedokrwistości z niedoboru żelaza Stężenie ferrytyny (µg/l) badania szpiku kostnego + 18 47 2 41,5 19 45 23 13 3,1 46 100 7 27 0,5 >100 8 108 0,1 całość 85 150 Wskaźnik wiarygodności (LR) sposób interpretacji jego wyników). Pozostałe wartości LR, podane w tabeli 1., uzyskano w ten sam sposób: najpierw wyliczaja c prawdopodobieństwo otrzymania danego wyniku testu wśród osób cierpia cych na dana chorobę i takie prawdopodobieństwo wśród tych, u których choroba ta nie występuje, a następnie dziela c te wartości. Znaja c prawdopodobieństwo a priori (czyli przed testem) i LR, można obliczyć prawdopodobieństwo a posteriori (po teście) według wzoru: szansa a priori x LR = szansa a posteriori, zamieniaja c wcześniej prawdopodobieństwo (P) na szansę (O): O = P/(1 P). Jeśli ktoś nie lubi matematyki, może się w tym celu posłużyć nomogramem (rys. 1). 2 Do obliczenia wartości LR potrzebowaliśmy wyników testu ocenianego i testu referencyjnego, a zatem wiarygodność LR zależy od wiarygodności przeprowadzonego porównania pomiędzy testami (o czym pisaliśmy w poprzednim podrozdziale). Drugi komponent równania prawdopodobieństwo (lub szansa) a priori budzi sporo kontrowersji. W większości przypadków wartość prawdopodobieństwa a priori (prawdopodobieństwa obecności danej choroby u pacjenta przed wykonaniem danego testu) wynika po prostu z naszego doświadczenia lub nawet intuicji. Klinicyści często używaja sformułowań: mało prawdopodobne, wysoce prawdopodobne, myślę, że jest tak, a nie inaczej itd. Sprowadzenie każdego z tych sformułowań do wspólnej postaci prawdopodobieństwa zmusza nas w pewnym stopniu do zadeklarowania tego, co myślimy, umożliwia bardziej przejrzysta komunikację pomiędzy lekarzami, jak również pomiędzy lekarzami a pacjentami, oraz bardziej precyzyjne przekazanie myśli i opinii nauczycieli klinicznych ich uczniom. V Ocena artykułów na temat testów diagnostycznych 63
0,1 0,2 0,5 1 2 5 10 20 2 30 % 1 % 20 30 0,5 40 50 60 70 80 90 95 99 prawdopodobieñstwo przed testem (a priori) 1000 500 200 100 50 20 10 5 0,2 0,1 0,05 0,02 0,01 0,005 0,002 0,001 wskaÿnik wiarygodnoœci (LR) prawdopodobieñstwo po teœcie (a posteriori) Rys. 1. Nomogram do przeliczania parametrów wiarygodności testów diagnostycznych (na podstawie 2. pozycji piśmiennictwa) Oczywiście opis takiego samego pacjenta może doprowadzić do różnych oszacowań prawdopodobieństwa a priori. (W dalszej części artykułu dla uproszczenia termin prawdopodobieństwo a priori/a posteriori zastępujemy P a priori/a posteriori ). Zależy to od naszego doświadczenia, ale też od rodzaju pacjentów, jakich spotykamy w naszej praktyce klinicznej, czyli od częstości występowania danej choroby w określonej populacji pacjentów (prevalence). Jedna z metod postępowania w przypadku różnych oszacowań P a priori jest szukanie w literaturze danych dotycza cych populacji pacjentów najbardziej zbliżonej do naszej. Na przykład w naszym artykule o diagnozowaniu niedokrwistości z niedoboru żelaza 1 3 pacjentów miało niedokrwistość z niedoboru żelaza, 4% niedokrwistość 99 95 90 80 70 60 50 40 10 5 2 1 0,5 0,2 0,1 megaloblastyczna, 1% niedokrwistość w przebiegu szpiczaka mnogiego, a ponad 1 3 niedokrwistość zwia zana z choroba przewlekła. Liczby te można odnieść tylko do populacji ogólnej pacjentów badanych z powodu niedokrwistości (takiej jak w artykule). Odsetkowy udział różnych przyczyn niedokrwistości będzie prawdopodobnie inny w populacji pacjentów przyjmowanych w specjalistycznej poradni hematologicznej. Coraz częściej publikuje się dane na temat P a priori wysta pienia różnych stanów chorobowych w określonych grupach pacjentów (określonych pod względem wieku, płci, danych z wywiadu lub badania fizykalnego). Zainteresowanym polecamy ksia żkę Panzera 3 oraz cykl artykułów w JAMA 4. Na przykładzie, zaczerpniętym z cytowanej ksia żki, rozważmy częstość występowania (czyli P a priori) choroby wieńcowej w różnych populacjach pacjentów. Prawdopodobieństwo to, w zależności od wieku, płci, i rodzaju objawów, przedstawione jest w tabeli 2. i z tej tabeli można traktować albo jako P a posteriori ( testem jest ustalenie wieku, płci i objawów), albo jako P a priori dla następnych testów diagnostycznych, na przykład dla próby wysiłkowej. Dla tego ostatniego testu wskaźniki wiarygodności (LR) sa zreszta dobrze znane, i wynosza : dla obniżenia odcinka ST ponad 2,5 mm 40, dla obniżenia o 2 2,5 mm 11, dla obniżenia o 1,5 2 mm 4, dla obniżenia o 0,5 1 mm 1, dla obniżenia odcinka ST o mniej niż 0,5 mm 0,2. 5 Znajomość LR umożliwia nam również docenienie znaczenia objawów klinicznych obecność typowych objawów dławicy piersiowej jest zwia zana z LR wynosza cym ponad 100! Z różnymi szacunkami P a priori można sobie też radzić, pytaja c o zdanie kolegów w pracy ( jak myślisz, co mu/jej jest? lub w innej formie: jakie jest prawdopodobieństwo, że ten pacjent choruje na chorobę A, B lub C itd? ). Wreszcie, gdy naprawdę trudno jest sprecyzować P a priori, proponujemy się zastanowić, jakie będa skutki uzyskania określonego wyniku testu, jeśli się przyjmie najmniejsza i największa prawdopodobna wartość P a priori. Proponujemy krótkie ćwiczenie z użyciem nomogramu (rys. 1). Załóżmy, że 55-letnia kobieta zgłasza się do nas z dolegliwościami, które część lekarzy uznałaby za dolegliwości prawdopodobnie niewieńcowe, a część za nietypowe dolegliwości wieńcowe. Szacunkowa wartość P a priori wynosi według różnych doniesień od 10% do 30%. Wykonaliśmy u pacjentki elektrokardiograficzna próbę wysiłkowa i uzyskaliśmy następuja cy wynik: obniżenie odcinka ST o 1,7 mm (LR: 4,2). Spróbujemy teraz oszacować 64 WYDANIE SPECJALNE 1/1999
Tabela 2. Częstość występowania, czyli prawdopodobieństwo a priori choroby wieńcowej w zależności od wieku, płci i rodzaju objawów* Wiek Bez objawów Niewieńcowy ból w klatce piersiowej Nietypowa dławica piersiowa Typowa dławica piersiowa M K M K M K M K lata % 30 39 1,9 0,3 5,2 0,8 21,8 4,2 69,7 25,8 40 49 5,5 1,0 14,1 2,8 46,1 13,3 87,3 55,2 50 59 9,7 3,2 21,5 8,4 58,9 32,4 92,0 79,4 60 69 12,3 7,5 28,1 18,6 67,1 54,4 94,3 90,6 * na podstawie 4. pozycji piśmiennictwa; M mężczyźni, K kobiety P a posteriori: ła czymy odpowiednia wartość P a priori (lewa kolumna nomogramu) z wartościa LR (kolumna środkowa) i odczytujemy P a posteriori (kolumna prawa). Zatem w przypadku, gdy P a priori wynosi 10%, prawdopodobieństwo, że pacjent cierpi na chorobę wieńcowa (czyli P a posteriori) wynosi około 30%, a w przypadku P a priori 30% około 65%. Jakie wartości LR sa użyteczne w procesie diagnostycznym? Uogólniaja c można przyja ć, że wyniki testów diagnostycznych zwia zane z LR około 10 i ponad lub około 0,1 i poniżej sa często decyduja ce, wyniki między 5 a 10 oraz między 0,1 a 0,2 sa zwykle bardzo pożyteczne, a LR między 0,5 a 2 zwykle nie zmienia w istotny sposób prawdopodobieństwa obecności danej choroby. Jedna z metod oceny testu jest stwierdzenie, u jakiego odsetka pacjentów, u których zastosujemy dany test, jego wyniki zwia zane będa z użytecznymi LR. Z tabeli 1. wynika, że u 165 (47 + 2 + 108 + 8) na 235 pacjentów (70% wszystkich badanych) wynik oznaczenia stężenia ferrytyny jest zwia zany z LR około 10 i większym lub około 0,1 i mniejszym. Ten odsetek (70%) jest, w porównaniu z innymi testami, bardzo duży. W przypadku scyntygrafii wentylacyjno-perfuzyjnej wykrywaja cej zator tętnicy płucnej tylko 30% wyników jest zwia zanych z takim LR. 6 Każda wartość LR może być jednak użyteczna, jeżeli tylko przejście od P a priori do P a posteriori pozwoli na przekroczenie progu leczenia lub progu wykluczenia (p. s. 61). Powracaja c jeszcze raz do pytania o potrzebę wykonywania i wykorzystywania tych obliczeń, oczywiście nie proponujemy, aby każdy problem kliniczny rozwia zywać z kalkulatorem w ręku. Nie ma ani takiej potrzeby, ani wystarczaja cej liczby danych. Niemniej jednak znajomość wskaźników wiarygodności (LR, P a posteriori), szczególnie tych często zlecanych, umożliwia nam bardzo precyzyjne określenie klinicznego znaczenia danego wyniku testu w procesie diagnostycznym, ułatwia komunikację pomiędzy lekarzami i pacjentami. Porównanie LR dla różnych testów umożliwia również znacznie szybsze zorientowanie się co do użyteczności danej strategii diagnostycznej. Jak ocenić wartość danego testu diagnostycznego czułość i swoistość Do tego miejsca w naszych rozważaniach omijaliśmy pojęcia często używane przy ocenie wyników testów diagnostycznych: wynik prawidłowy, wynik nieprawidłowy, wynik dodatni, wynik ujemny. Warunkiem bowiem takiego spojrzenia na wynik testu jest określenie granicy między wynikami prawidłowymi i nieprawidłowymi. Spójrzmy jeszcze raz na tabelę 1. Gdzie Państwa zdaniem należałoby wyznaczyć tę granicę (próg)? Jak widać, mamy przynajmniej 3 możliwości. Przedstawiamy je w tabelce (u góry na następnej stronie). Dla każdego z tych progów możemy wyliczyć odsetek pacjentów z niedokrwistościa z niedoboru żelaza, u których wynik testu będzie dodatni. Dla pierwszego progu ( 18) wartość ta wynosi 55% (47/85), dla drugiego ( 45) 82% (70/85), dla trzeciego ( 100) 91% (77/85). Sa to odsetki wyników prawdziwie dodatnich (true positive TP) i określaja czułość (sensitivity) danego testu, czyli jego zdolności do wykrycia pacjentów z dana choroba. Innym atrybutem testu jest jego swoistość (specificity), czyli zdolność do potwierdzenia stanu V Ocena artykułów na temat testów diagnostycznych 65
Stężenie ferrytyny w surowicy Próg (µg/l) badania szpiku Próg badania szpiku Próg badania szpiku LR (µg/l) LR (µg/l) + + + LR nieprawidłowe 18 47 2 41,5 45 70 15 8,2 100 77 42 3,2 prawidłowe >18 38 148 0,5 >45 15 135 0,2 >100 8 108 0,1 razem 85 150 85 150 85 150 prawidłowego (wykrycia pacjentów niecierpia cych na dana chorobę). W przypadku pierwszego progu u 148 spośród 150 pacjentów bez niedokrwistości z niedoboru żelaza wynik testu był ujemny (prawdziwie ujemny [true negative TN]), zatem swoistość testu wynosi 99% (148/150). Dla następnych progów wartość ta wynosi odpowiednio: 90% (135/150) i 72% (108/150). Swoistość i czułość odnosza się do pacjentów, u których wynik testu ocenianego potwierdził wynik testu referencyjnego. W przypadku pierwszego progu ( 18), u 2 spośród 150 pacjentów, u których badanie szpiku kostnego nie wykazało niedokrwistości z niedoboru żelaza, wynik oznaczenia ferrytyny był dodatni. Mamy tu do czynienia z wynikiem fałszywie dodatnim (false positive FP). Natomiast u 38 (45%) spośród 85 pacjentów z niedoborem żelaza wynik testu (>18) był ujemny (fałszywie ujemny [false negative FN]). Odsetki wyników: prawdziwie dodatnich, prawdziwie ujemnych, fałszywie dodatnich i fałszywie ujemnych to atrybuty testu, na podstawie których możemy zdecydować, czy go wykonać. Po jego wykonaniu zadajemy sobie pytanie, jakie jest prawdopodobieństwo występowania choroby. W przypadku pierwszego progu wynik dodatni (stężenie ferrytyny 18) miało 49 pacjentów (47+2), spośród nich 47 miało niedokrwistość z niedoboru żelaza. Stosunek 47/49, czyli 96%, to tzw. wartość predykcji wyników dodatnich (positive predictive value PPV). W przypadku trzeciego progu ( 100) PPV wynosi 77/(77+42), czyli 65%. Analogicznie: stosunek liczby pacjentów z wynikiem ujemnym, u których choroba faktycznie nie występuje, stanowi wartość predykcji wyników ujemnych (negative predictive value NPV). Na przykład: dla progu stężenia ferrytyny wynosza cego 45, NPV wynosi 135/(135+15), czyli 90%. Proszę zauważyć, że w każdej tabelce 2x2 dla każdego wyniku testu możemy też wyliczyć wartość wskaźnika wiarygodności (LR), używaja c tej samej formuły co poprzednio, czyli dziela c odsetek pacjentów chorych z danym wynikiem testu przez odsetek pacjentów zdrowych z tym samym wynikiem. LR dla dodatniego wyniku testu określa się czasem jako LR+ (positive LR); analogicznie dla wyniku ujemnego LR (negative LR). Proponujemy w tym miejscu powtórkę wszystkich powyższych definicji na ogólnym schemacie tabeli 2x2: testu referencyjnego testu ocenianego + + a(tp) b(fp) c(fn) d(tn) gdzie czułość = a/(a+c), swoistość = d/(b+d), wartość predykcji wyników dodatnich (PPV) = a/(a+b), wartość predykcji wyników ujemnych (NPV) = d/(c+d), LR dla wyniku dodatniego (LR+) = [a/(a+c)]/[b/(b+d)], LR dla wyniku ujemnego (LR ) = [c/(a+c)]/[d/(b+d)], częstość występowania choroby = (a+c)/(a+b+c+d). Prosimy o zwrócenie uwagi na wpływ zmiany częstości występowania choroby w populacji pacjentów na wartości powyższych parametrów. Na przykład przy dwukrotnym zwiększeniu liczby pacjentów bez choroby powyższa tabela 2x2 wygla da następuja co: testu referencyjnego testu ocenianego + + a 2b c 2d Sprawdźcie Państwo: wartości czułości, swoistości i LR nie ulegna zmianie, natomiast wartości predykcji się zmienia. a to z faktu, że wartości predykcji zależa w dużym stopniu nie tylko od parametrów samego testu, ale również od częstości występowania danej choroby w populacji. Swoistość, czułość i LR sa od tej częstości niezależne 66 WYDANIE SPECJALNE 1/1999
i przyjmuje się je często za wartości stałe dla danego testu. Ale i tu stałość nie jest jednak absolutna. Proszę sobie wyobrazić czułość elektrokardiograficznej próby wysiłkowej w zależności od średniej ciężkości choroby wieńcowej wśród badanych pacjentów (im większe średnie zaawansowanie choroby w populacji, tym większa czułość próby). Inny przykład: swoistość badania kontrastowego jelita grubego wykonywanego w celu wykrycia nowotworu w zależności od liczby pacjentów w tej populacji z innymi chorobami daja cymi podobny obraz w tym badaniu (im więcej takich chorób, tym mniejsza swoistość badania). Powracamy ta uwaga do omówionego poprzednio kryterium wiarygodności doniesienia na temat badań diagnostycznych otrzymane wyniki są prawdziwe dla badanego zbioru pacjentów oraz dla pacjentów o podobnych cechach. W innych grupach, o innym zaawansowaniu danej choroby i z inna częstościa występowania chorób o podobnym obrazie, nawet tak stałe atrybuty testu, jak swoistość i czułość, moga się różnić. Być może niektórzy z Państwa się zastanawiaja, po co wprowadzać tyle różnych pojęć na opisanie prostej przecież tabelki 2x2. Piszemy o nich wszystkich, ponieważ często pojawiaja się w publikacjach. Zauważmy analogię do obliczania RR, RRR, NNT, OR w przypadku artykułów o leczeniu; wszystkie potrzebne do tego dane sa zawarte w oryginalnych tabelach, reszta to forma ich prezentacji. W przypadku najprostszej tabeli 2x2, wskaźniki LR to na przykład nic innego, jak przekształcenie swoistości i czułości: LR dla wyniku dodatniego = czułość/ (1 swoistość), a LR dla wyniku ujemnego = (1 czułość)/swoistość. Uważny czytelnik może się nawet dopatrzyć analogii między wartościami predykcji i P a posteriori. Zdecydowanie chętniej używamy pojęcia P a posteriori, ponieważ umożliwia to oddzielenie charakterystyki testu (wskaźnika wiarygodności LR) od charakterystyki populacji (częstości występowania choroby w populacji), a w przypadku wartości predykcji zlewaja się one w jedno. Swoistość, czułość, wskaźniki wiarygodności, wartości predykcji czym się kierować? Próbę odpowiedzi na to pytanie zacznijmy od wyliczenia wartości podanych parametrów, zakładaja c przyjęte wcześniej wartości progowe stężenia ferrytyny, poniżej których wynik wskazuje na obecność niedokrwistości z niedoboru żelaza. i przedstawiamy w kolejnej tabelce (u dołu strony); pfp i pfn oznaczaja odsetek wyników fałszywie dodatnich i fałszywie ujemnych (czyli dopełnienie do jedności odpowiednio dla swoistości i czułości): Proponujemy Państwu rozważenie następuja cych spostrzeżeń: 1. Przesuwaja c wartość progowa, która odgranicza wyniki dodatnie i ujemne (prawidłowe i nieprawidłowe), zmieniamy wartości wszystkich rozpatrywanych parametrów. 2. Zwiększenie czułości (wymagane np. w badaniach przesiewowych) można uzyskać, przesuwaja c wartość progowa wyniku testu w kierunku wartości prawidłowych. Zwia zane to jest ze zmniejszeniem odsetka wyników fałszywie ujemnych, ale i też ze zmniejszeniem swoistości i zwiększeniem odsetka wyników fałszywie dodatnich. 3. Zwiększenie swoistości polega na przesunięciu wartości progowej wyniku testu w kierunku wyników nieprawidłowych. Robi się tak zwykle w sytuacjach, w których celem jest zminimalizowanie odsetka wyników fałszywie dodatnich. Zawsze wia że się to jednak ze zmniejszeniem czułości i zwiększeniem odsetka wyników fałszywie ujemnych. W praktyce klinicznej często stosujemy w zwia zku z tym dwa różne testy jeden po drugim pierwszy o dużej czułości (wykrycie potencjalnych przypadków) i drugi o dużej swoistości (potwierdzenie choroby). 4. Wybór najlepszej wartości progowej wyniku testu jest często kompromisem pomiędzy największa czułościa testu (najmniejszym odsetkiem wyników fałszywie ujemnych) i największa swoistościa (najmniejszym odsetkiem wyników fałszywie dodatnich). Wybór takiej wartości progowej ułatwia wykres, w którym na osi rzędnych podana jest czułość (czyli odsetek wyników prawdziwie do- Próg (µg/l) Czułość Swoistość pfp pfn LR+ LR PPV NPV 18 0,55 0,99 0,01 0,45 41,5 0,45 0,96 0,80 45 0,82 0,90 0,10 0,18 8,2 0,20 0,82 0,90 100 0,91 0,72 0,28 0,10 3,2 0,13 0,65 0,93 V Ocena artykułów na temat testów diagnostycznych 67
datnich), a na osi odciętych dopełnienie swoistości do jedności (1 swoistość; czyli odsetek wyników fałszywie dodatnich) (rys. 2). W większości przypadków najlepsza wartość progowa to ta najbardziej zbliżona do lewego górnego rogu rysunku, odpowiadaja cego 100% czułości i swoistości. Krzywa opisuja ca zależność między odsetkami wyników prawdziwie i fałszywie dodatnich, czyli pomiędzy czułościa i dopełnieniem swoistości do 1 (zakładaja c różne wartości progowe testu) nazwana jest krzywą ROC (receiver operating characteristic curve). Pole powierzchni pod ta krzywa (przedział wartości od 0 do 1) odzwierciedla zdolność testu do prawidłowego rozgraniczenia wyników prawidłowych i nieprawidłowych, i może służyć do porównania zdolności rozdzielczej testów. W naszym przykładzie pole pod krzywa ROC wyniosło dla stężenia ferrytyny 0,91, a dla średniej objętości krwinek czerwonych 0,78. 5. Rozpiętość wartości LR (czyli zdolność rozdzielcza testu) dla każdego progu jest mniejsza niż rozpiętość wartości LR w tabeli 1., przed sprowadzeniem wyników tabeli 2x4 do jednej z trzech możliwych tabel 2x2. Jest to wynikiem utraty części informacji, spowodowanej koniecznościa zsumowania poprzednio rozdzielonych wyników. Na przykład: pierwsza wartość progowa testu ( 18) zmusza nas do traktowania wszystkich wyników przekraczaja cych 18 tak samo jako zmniejszaja cych prawdopodobieństwo wysta pienia choroby (LR dla wyniku ujemnego wynosi 0,45). Z tabeli 1. wynika jednak, że część wyników ponad 18 (od 19 do 45) wia że się ze zwiększeniem prawdopodobieństwa obecności niedokrwistości z niedoboru żelaza! W przypadku niskiego progu diagnozowania choroby (wszystkie wartości poniżej 100 uważamy za nieprawidłowe), każda wartość poniżej 100 (zarówno 90, jak i 9) będzie traktowana tak samo jako zwiększaja ca około 3-krotnie prawdopodobieństwo obecności niedokrwistości z niedoboru żelaza (LR dla wyniku dodatniego wynosi 3,2). Patrza c na tabelę 1. widzimy jednak znowu, że w grupie wyników poniżej 100 sa wyniki zmniejszaja ce (46 100), nieco zwiększaja ce (19 45) lub znacznie zwiększaja ce ( 18) to prawdopodobieństwo. Sprowadzenie wartości wyników jakiegokolwiek testu do dychotomicznego podziału na prawidłowe i nieprawidłowe jest w zwia zku z tym zawsze zwia zane z utrata informacji. 6. Rozwijaja c powyższe uwagi, zauważamy, że z klinicznego punktu widzenia pojęcie prawidłowy lub nieprawidłowy ma ograniczone znaczenie. Zgodzimy się, że każdy z poniższych wyników nie jest prawidłowy: stężenie sodu 130 mmol/l odsetek wyników prawdziwie dodatnich 1,0 0,8 0,6 0,4 0,2 0,0 (18) (45) (100) 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 odsetek wyników fa³szywie dodatnich Rys. 2. Krzywa ROC dla oznaczenia stężenia ferrytyny w surowicy i 110 mmol/l, kreatyniny 150 µmol/l i 600 µmol/l, glukozy 190 i 500 mg/dl. Wszyscy zgodzimy się też chyba z tym, że niektóre z nich sa bardziej nieprawidłowe. 7. Rozwia zanie powyższego problemu to odejście od rozgraniczenia prawidłowy nieprawidłowy, dodatni ujemny, a posługiwanie się po prostu opisem wyniku danego testu. Pozwala to zachować zdolność rozdzielcza testu zwia zana z wielostopniowym (nawet cia głym) przedstawieniem jego wyników, unikna ć konieczności posługiwania się pojęciami swoistości i czułości, oraz zachować możliwość poła czenia klinicznego doświadczenia i intuicji (potrzebnej do oszacowania P a priori) z danymi z badań nad użytecznościa testu (mierzona wskaźnikami LR). Zatem naszym zdaniem najbardziej użyteczna klinicznie metoda przedstawiania właściwości testu jest opisanie jego wyników za pomoca LR. Zastosowanie wyników w opiece nad pacjentami Najbardziej imponuja cy opis atrybutów danego testu nie oznacza, że powinniśmy go zacza ć używać. O większości zagadnień już wspomnieliśmy, teraz proponujemy rozważenie kilku pytań. Czy powtarzalność wykonania samego testu i interpretacji jego wyników jest wystarczająca w moich warunkach? Problem ten prawdopodobnie nie ma znaczenia w przypadku oznaczania stężenia ferrytyny, ale jakież moga być różnice zdań przy ocenie wyniku próby wysiłkowej czy tomografii komputerowej. 68 WYDANIE SPECJALNE 1/1999
Tabela 3. Ocena i zastosowanie artykułów opisujących użyteczność testów diagnostycznych Czy ten artykuł jest wiarygodny? kryteria podstawowe Czy wyniki proponowanego testu porównano z niezależnie wykonanym i zinterpretowanym testem referencyjnym? Czy pacjenci poddani badaniu reprezentowali spektrum pacjentów, u których test będzie wykonywany w zwykłej praktyce klinicznej? kryteria dodatkowe Czy wyniki ocenianego testu wpłynęły na wykonanie testu referencyjnego? Czy autorzy artykułu opisali sposób jego przeprowadzania i interpretacji w sposób umożliwiający jego odtworzenie? Jak ocenić wartość danego testu diagnostycznego? Czy wyniki zaprezentowano w formie wskaźników wiarygodności (LR) lub czy podano informacje potrzebne do ich wyliczenia? Czy zastosowanie wyników pomoże mi w opiece nad pacjentami? Czy powtarzalność wykonania samego testu, i powtarzalność jego interpretacji, jest wystarczająca w moich warunkach? Czy charakterystyka danego testu potwierdzi się wśród moich pacjentów? Czy wyniki testu zmienią leczenie pacjenta? Czy wykonanie testu pomoże mojemu pacjentowi? Być może, przynajmniej częściowo, rozwia zaniem jest dodatkowe szkolenie osób, które dany test będa wykonywać lub interpretować. Czy charakterystyka danego testu potwierdzi się wśród moich pacjentów? Jeżeli nasi pacjenci sa podobni do populacji opisanej w artykule oceniaja cym dany test, odniesienie wyników do warunków naszej praktyki jest proste. Jeśli zaś różnia się od opisanych (różny stopień zaawansowania choroby, różny udział chorób wymagaja cych uwzględnienia w różnicowaniu), uogólniać trzeba z ostrożnościa i sceptycyzmem. Czy wynik testu zmieni leczenie pacjenta? testu może wpłyna ć na nasze postępowanie, jeżeli zostanie przekroczony próg wykluczenia lub próg leczenia dla danej choroby. Jeżeli prawdopodobieństwo danej choroby nadal się mieści pomiędzy tymi wartościami, musimy wykonać następny test. W tym wypadku traktujemy P a posteriori (po wykonaniu poprzedniego testu) jako P a priori (przed wykonaniem nowego, niezależnego testu). I dodatkowa uwaga na temat niezależności testów wykonanie kolejnego testu nie ma sensu, jeżeli jego wyniki sa ściśle powia zane z wynikami testów poprzednio wykonanych. Na przykład, wykonanie zdjęcia rentgenowskiego ukazuja cego naciek w dolnym płacie płuca u pacjenta skarża cego się na duszność jest cennym dodatkiem w procesie diagnostycznym. Ten sam obraz ma znacznie mniejsze znaczenie, jeżeli zdjęcie wykonano po stwierdzeniu u pacjenta gora czki i dreszczy, kaszlu, szmeru oskrzelowego i odkrztuszania ropnej plwociny. Radiogram w tym wypadku potwierdzi tylko to, co już wiemy. Czy wykonanie testu pomoże mojemu pacjentowi? Końcowym kryterium użyteczności danego testu jest nie to, czy dostarczy on wiarygodnych informacji niedostępnych w inny sposób, a nawet nie to, czy w wyniku tych informacji zmienimy leczenie. Głównym kryterium użycia nowego testu powinno być to, czy w wyniku jego zastosowania zyska nasz pacjent. Jeżeli wykonanie testu doprowadzi do rozpoznania choroby, i w rezultacie do zastosowania właściwego leczenia czy choćby precyzyjniejszego określenia rokowania wówczas pacjent odniesie z testu korzyść. Zestawienie wszystkich kryteriów opisanych w tym rozdziale zamieszczamy w tabeli 3. Rozwiązanie sytuacji klinicznej Po przeczytaniu artykułu dochodzisz do wniosku, że oznaczanie stężenia ferrytyny daje najwięcej informacji pozwalaja cych odróżnić pacjentów z niedokrwistościa z niedoboru żelaza od tych z niedokrwistościa o innej przyczynie. Według autorów artykułu wykonywanie innych testów nie dostarcza istotnych dodatkowych wskazówek. Jako prawdopodobieństwo a priori przyjmujesz 30%. Stężenie ferrytyny u Twojego pacjenta wynosi 35 µg/l. Wiesz teraz, że taki wynik zwiększa prawdopodobieństwo obecności niedoboru żelaza do około 60%. Masz teraz do wyboru: albo wykonać badanie szpiku, albo przyja ć, że niedokrwistość z powodu braku żelaza jest wystarczaja co prawdopodobna, żeby V Ocena artykułów na temat testów diagnostycznych 69
szukać jej źródła (np. wykonuja c badanie endoskopowe). Decyzja zależy od Ciebie, pacjenta (i oczywiście od stażysty). Piśmiennictwo 1. Guyatt G.H., Patterson C., Ali M., et al.: Diagnosis of iron-deficiency anemia in the elderly. Am. J. Med., 1990; 88: 205 209 2. Fagan T.J.: Nomogram for Bayes s theorem. N. Engl. J. Med., 1975; 293: 257 3. Panzer R.J., Black E.R., Griner P.F., ed.: Diagnostic strategies for common medical problems. Philadelphia, PA: American College of Physicians, 1991 4. Sackett D.L., Rennie D.: The science and art of the clinical examination. JAMA, 1992; 267: 2650 2652 5. Diamond G.A., Forrester J.S.: Analysis of probability as an aid in the clinical diagnosis of coronary artery disease. N. Engl. J. Med., 1979; 300: 1350 1358 6. The PIOPED Investigators: Value of the ventilation/perfusion scan in acute pulmonary embolism: results of the Prospective Investigation of Pulmonary Embolism Diagnosis (PIOPED). JAMA, 1990; 263: 2753 2759 70 WYDANIE SPECJALNE 1/1999