AUTOMATYKA 2005 Tom 9 Zeszyt 3 Joanna Grabska-Chrz¹stowska *, Wies³aw Libuszowski **, Waldemar Tomalak *** Weryfikacja u ytecznoœci neuronowych klasyfikatorów wyników badañ spirometrycznych**** 1. Wprowadzenie Badanie spirometryczne jest jednym z najpowszechniej wykonywanych badañ diagnostycznych w chorobach uk³adu oddechowego. W przypadku astmy i przewlek³ej obturacyjnej choroby p³uc (POChP) stanowi istotny element w procesie stawiania diagnozy. Pomiar i ocena tzw. krzywej przep³yw objêtoœæ (zale noœci pomiêdzy przep³ywem wydechowym i objêtoœci¹ wydychanego powietrza podczas manewru forsownego, czyli maksymalnego wydechu) pozwala na ewentualne stwierdzenie obturacji w uk³adzie oddechowym (ograniczenia przep³ywów wydechowych), b¹dÿ podejrzenie zmian o charakterze restrykcyjnym (obni enia objêtoœci w uk³adzie oddechowym). Wiêcej informacji na temat badania mo na znaleÿæ m.in. w [1] i [6]. W artykule [1] przestawiono wyniki prac maj¹cych na celu ustalenie wp³ywu liczby wejœæ do klasyfikatora opartego na sieciach neuronowych typu MLP (Multi Layered Perception) na jakoœæ klasyfikacji wyników badania spirometrycznego w odniesieniu do klasyfikacji wykonanej przez a. W kolejnym opracowaniu [3] przedstawiono ideê systemu wnioskuj¹cego opartego o zespó³ trzech sieci neuronowych, który zmniejsza³ liczbê wyników fa³szywie ujemnych niewielkim kosztem wzrostu liczby wyników fa³szywie dodatnich, co jest korzystniejsze z medycznego punktu widzenia. Z kolei w artykule [2] porównano wyniki klasyfikacji dotychczas zbadanych sieci i klasycznej metody k-nn. Niniejsza praca ma na celu weryfikacjê dotychczasowych rezultatów poprzez ocenê dzia³ania ró nych klasyfikatorów neuronowych na nowej grupie danych i sprawdzenia czu³oœci i swoistoœci wybranych metod. Dodatkowo do analiz zastosowano równie klasyfikator oparty na metodzie k-nn, czyli metodzie k-najbli szych s¹siadów. * Katedra Automatyki, Akademia Górniczo-Hutnicza, Kraków; asior@agh.edu.pl ** Doktorant Akademii Górniczo-Hutniczej, Kraków; wlibuszowski@plusnet.pl *** Zak³ad Fizjopatologii Uk³adu Oddychania, Rabka-Zdrój; wtomalak@zpigichp.edu.pl **** Pracê sfinansowano z funduszu badañ w³asnych (umowa AGH nr 10.10.120.39) 655
656 Joanna Grabska-Chrz¹stowska, Wies³aw Libuszowski, Waldemar Tomalak Wyniki okaza³y siê zaskakuj¹ce. Wszystkie zastosowane metody charakteryzowa³y siê zwiêkszon¹ czu³oœci¹ przy dramatycznie zmniejszonej swoistoœci, a co za tym idzie równie pogorszonej jakoœci klasyfikacji. Wykazaliœmy, e zarówno metody neuronowe, jak i oparte na klasycznym algorytmie k-nn sprawdzaj¹ siê w podobnym zakresie. Niektóre sieci, wczeœniej nieco gorsze, niespodziewanie znalaz³y w³aœciwsze rozwi¹zania. Badania wykaza³y, e aby uzyskaæ wiarygodny i uniwersalny klasyfikator, konieczne staje siê pozyskanie dodatkowych wyników badañ spirometrycznych z ró nych okresów czasu i ewentualnie ró nych aparatów. Obliczenia wykonano za pomoc¹ pakietu Statistica Neural Network i programu autorstwa A. JóŸwika [4]. 2. Badanie spirometryczne Aby wykonaæ badanie spirometryczne, mo na zastosowaæ urz¹dzenia mierz¹ce przep³yw powietrza w uk³adzie oddechowym i umo liwiaj¹ce okreœlanie objêtoœci lub jej zmiany na zasadzie integracji przep³ywu. Jedn¹ z procedur pomiarowych jest rejestracja manewru natê onego wydechu umo liwiaj¹cego rejestracjê krzywej maksymalny przep³yw objêtoœæ oraz wartoœci z ni¹ zwi¹zanych. Zaburzenia wartoœci charakterystycznych (zw³aszcza FEV1 i FVC) maj¹ wp³yw na klasyfikacjê wyników badania i stanowi¹ podstawê do formu³owania wniosków i ustalania diagnozy. Wartoœci uzyskane na podstawie badania i u yte jako wejœcia do klasyfikatora to: FEV 1 : objêtoœæ powietrza wydmuchniêta w czasie pierwszej sekundy natê onego wydechu; FVC: najwiêksza objêtoœæ powietrza wydmuchniêta przy maksymalnym wysi³ku wydechowym po uprzednim najwiêkszym mo liwe wydechu; PEF: szczytowy przep³yw wydechowy zarejestrowany w trakcie badania maksymalnie natê onego wdechu; MEFx%FVC: maksymalny przep³yw powietrza, gdy x%fvc pozosta³o do wydmuchniêcia; przep³yw zmierzony podczas maksymalnie natê onego wydechu, w punkcie odpowiadaj¹cym x% pozosta³ej do wydmuchniêcia natê onej pojemnoœci yciowej p³uc. Dotychczasowe eksperymenty przeprowadzono w oparciu o 1803 wyniki badañ spirometrycznych wykonanych w Zak³adzie Fizjopatologii Uk³adu Oddychania Instytutu GruŸlicy i Chorób P³uc w Rabce. Jako dane weryfikuj¹ce zastosowano 172 wektory odnosz¹ce siê do wyników samych ch³opców, pozyskanych w powy szym oœrodku w innym czasie. Wybór tylko jednej p³ci zosta³ spowodowany chêci¹ unikniêcia dodatkowych nieznanych elementów wnoszonych przez ró nice w budowie p³uc u dziewczynek i ch³opców. Dodatkowo pokazano rezultat testów dla wszystkich 337 nowych danych obu p³ci.
Weryfikacja u ytecznoœci neuronowych klasyfikatorów... 657 3.Zastosowanie sieci neuronowych do klasyfikacji badañ spirometrycznych 3.1. Sposób przedstawienia wyników W zastosowaniach medycznych zazwyczaj wyniki przedstawia siê w formie tabeli 2 2 (tab. 1), w której wpisuje siê liczbê pacjentów odpowiadaj¹cej jednemu z czterech wymienionych w opisie tabeli przypadków. Tabela 1 Sposób przedstawienia wyników rozpoznania normy od zaburzenia dla wybranej metody a b OBJAŒNIENIA: a liczba przypadków klasyfikowanych w normie przez a i przypadki prawdziwie ujemne b liczba przypadków uznanych przez a za normê, a przez za zaburzenie fa³szywie ujemne c liczba przypadków klasyfikowanych przez a jako zaburzenie a przez jako norma fa³szywie dodatnie d liczba przypadków kwalifikowanych przez a i jako zaburzenie prawdziwie dodatnie c d Jakoœæ rozpoznania, czyli liczbê poprawnych rozpoznañ, oblicza siê za pomoc¹ nastêpuj¹cego wzoru liczba poprawnych rozpoznan = ( a + d ) 100% (1) Oprócz jakoœci rozpoznania wprowadza siê tak e dwa parametry statystyczne charakteryzuj¹ce wartoœæ diagnostyczn¹ zaproponowanego testu. Zdolnoœæ testu do wykrywania choroby u rzeczywiœcie chorych pacjentów nazywamy czu³oœci¹ metody, a umiejêtnoœæ testu wykluczenia choroby u osób rzeczywiœcie zdrowych jej swoistoœci¹. Wyniki podane przez a przyjmuje siê za ca³kowicie pewne i wiarygodne. Wartoœci parametrów czu- ³oœci i swoistoœci oblicza siê wed³ug nastêpuj¹cych wzorów: d czulosc = 100% d + b a swoistosc = 100% a+ c (2) (3)
658 Joanna Grabska-Chrz¹stowska, Wies³aw Libuszowski, Waldemar Tomalak 3.2. Dotychczasowe wyniki zastosowania sieci neuronowych Sieci neuronowe typu feedforward, uczone za pomoc¹ algorytmu ze wsteczn¹ propagacj¹ b³êdów, s¹ chêtnie stosowane do zadañ klasyfikacji [5]. Aby znaleÿæ w³aœciw¹ strukturê sieci, trzeba okreœliæ liczbê jej wejœæ i wyjœæ. W efekcie badania spirometrycznego uzyskujemy 6 wartoœci charakteryzuj¹cych przep³yw w drogach oddechowych: FVC, FEV1, PEV, MEF75%FVC, MEF50%FVC oraz MEF25%FVC. Dodatkowo, pacjenta mog¹ charakteryzowaæ dane antropometryczne: wzrost, waga i wiek. Dotychczasowe eksperymenty przedstawione szczegó³owo w pracy [1] wskaza³y na parametr wzrostu jako najwa niejszy z wszystkich cech antropometrycznych. Sieæ neuronowa z szeœcioma wejœciami bêd¹cymi rezultatem badania spirometrycznego i dodanym parametrem wzrostu okaza³a siê wstêpnie najlepszym klasyfikatorem dla tego typu badañ. Przy próbach redukowania liczby wejœæ dopuszczaj¹cych tak e zmianê liczby parametrów oddechowych otrzymano podobne rezultaty. Nale y dodaæ, e minimalna struktura wejœciowa, któr¹ otrzymano, zawiera³a tylko cztery elementy, oprócz wzrostu równie wagê pacjenta przy dwóch wartoœciach oddechowych: MEF50%FVC i MEF25%FVC. Nastêpne próby uzyskania klasyfikatora o lepszej czu³oœci zaowocowa³y opracowaniem systemu trzech sieci, o nieco lepszych wynikach rozpoznawania i mo liwoœci¹ poprawy tych rezultatów. Dobór optymalnych progów klasyfikacji ka dej z sieci sk³adowych systemu pozosta³ do dalszych badañ. Wyniki jakoœci klasyfikacji, czu³oœci i swoistoœci przedstawiono w tabeli 2. Tabela 2 Wyniki jakoœci poszczególnych metod dla 511 wyników (ch³opców) Liczba prawid³owych rozpoznañ [%] Czu³oœæ Swoistoœæ Sieæ nr 1: 6 wejœæ* (próg = 0,5)** 85,7 72,9 92,5 OBJAŒNIENIA: 1-NN***: 6 wejœæ 79,5 70,6 85 Sieæ nr 2: 6 wejœæ (próg = 0,9) 83,1 59,3 98,9 23-NN: 6 wejœæ 82,8 66,5 93 Sieæ nr 3: 6 wejœæ + wzrost 88,6 82,5 92,3 1-NN: 6 wejœæ + wzrost 82,6 74,1 87,9 23-NN: 6 wejœæ + wzrost 84,7 65,5 96,8 System sieci 90,2 92 87 * 6 parametrów oddechowych: FVC, FEV1, PEV, MEF75%FVC, MEF50%FVC i MEF25%FVC ** próg = n w przypadku jednego wyjœcia binarnego wynik uznaje siê za prawid³owy, gdy dla 0 odpowiedÿ sieci < n, dla 1 odpowiedÿ sieci 0 n *** 1-NN metoda k-nn opieraj¹ca siê na jednym s¹siedzie
Weryfikacja u ytecznoœci neuronowych klasyfikatorów... 659 Dla porównania pokazano rezultaty otrzymane za pomoc¹ metody k-najbli szych s¹siadów dla tych samych elementów na wejœciu. WyraŸnie uwypukla siê tendencja sieci neuronowych, bez parametru wzrostu na wejœciu ( nr 1 i 2), do zwiêkszonej mo liwoœci wykrywania zdrowych pacjentów (pojêcie swoistoœci testu) przy bardzo obni onej zdolnoœci wykrywania chorych osób (czu³oœæ testu). Dla metody k-nn (gdzie k oznacza liczbê s¹siadów) przy zwiêkszonej liczbie s¹siadów (do 23) te mo na zaobserwowaæ podobn¹ tendencjê, czyli zwiêkszanie swoistoœci kosztem wyraÿnego spadku czu³oœci. Ca³y nacisk przy powstawaniu koncepcji i stworzeniu systemu trzech sieci by³ nastawiony na zmianê tej tendencji na przeciwn¹. Wysi³ki op³aci³y siê, system sieci charakteryzuje siê najlepsz¹ czu³oœci¹ przy dopuszczalnej swoistoœci. 3.3. Wyniki testowania sieci neuronowych nowymi danymi Aby przedstawiæ szczegó³owe odpowiedzi poszczególnych klasyfikatorów na nowy zestaw danych, konieczne staje siê pokazanie tabeli z liczbami okreœlaj¹cymi klasyfikacjê a i rezultaty przyjêtej metody badawczej oraz sprawdzenie, czy czu³oœæ i swoistoœæ testu jest wiarygodna. Dla najlepszej pojedynczej sieci o 7 wejœciach, 6 neuronach w warstwie ukrytej i jednym wyjœciu otrzymane rezultaty przedstawiono w tabeli 3. Wyniki w zakresie diagnozowania normy nie s¹ dobre. Sieæ poda³a tylko 2/3 prawid³owych odpowiedzi. Z tego wynika, e 1/3 zdrowych pacjentów trafia³aby bez adnego klinicznego uzasadnienia do dalszych badañ. Natomiast nadspodziewanie dobrze klasyfikator radzi sobie z pacjentami o udokumentowanych nieprawid³owoœciach w uk³adzie oddechowym. A 94% ch³opców z zaburzeniami oddechowymi zosta³oby zdiagnozowanych poprawnie. Z medycznego punktu widzenia taki wynik mo na by uznaæ za zadowalaj¹cy, gdy najwa niejszym celem badañ jest wychwycenie przypadków prawdziwie dodatnich. Interesuj¹cym przypadkiem by³o zastosowanie sieci bez parametru wzrostu (tab. 4), która w poprzednich badaniach ustêpowa³a innym klasyfikatorom zw³aszcza w diagnozowaniu chorych pacjentów. Niespodziewanie okaza³o siê, e zastosowanie tej samej sieci z innym progiem klasyfikacji 0,9 daje najlepsze wyniki. Przyjêcie progu 0,9 oznacza, e odpowiedzi z przedzia³u (0, 0,9) uznano za bêd¹ce w normie, a z przedzia³u <0,9, 1) sklasyfikowano jako zaburzenie (tab. 5). Klasyfikacja zdrowych pacjentów bardzo siê poprawi³a bez znacz¹cego pogorszenia liczby Ÿle zdiagnozowanych chorych ch³opców. Niestety, nie mo na z góry przewidzieæ, e gorsza bêdzie w przypadku innej grupy pacjentów lepszym klasyfikatorem. Tabela 3 Wyniki testowania sieci o 6 parametrach oddechowych i parametrze wzrostu (172 ch³opców) 81 42 3 46
660 Joanna Grabska-Chrz¹stowska, Wies³aw Libuszowski, Waldemar Tomalak Tabela 4 Wyniki testowania sieci o 6 parametrach oddechowych na wejœciu próg 0,5 (172 ch³opców) 95 28 7 42 Tabela 5 Wyniki testowania sieci o 6 parametrach oddechowych na wejœciu próg 0,9 (172 ch³opców) 110 13 8 41 Tabela 6 Wyniki testowania systemu sieci (172 ch³opców) 79 44 0 49 System sieci w przypadku nowych danych wychwyci³ wszystkich chorych pacjentów, ale zupe³nie nie sprawdzi³ w diagnozowaniu normy (tab. 6). 4. Porównanie wyników sieci z metod¹ k-nn Aby stwierdziæ, czy dotychczasowe modele zawiod³y, czy to zbiór nowych danych stanowi problem, porównano wyniki sieci neuronowych z metod¹ k-nn. Zestawienie wszystkich rezultatów testowania kolejnych metod nowym zbiorem pacjentów przedstawiono w tabeli 7. Metoda k-najbli szych s¹siadów w dotychczasowych badaniach ustêpowa³a nieco wszystkim neuronowym klasyfikatorom [2]. Jednak e z trzech metod uznanych poprzednio za najlepsze klasyfikatory (druga czêœæ tabeli), najbardziej stabilna wydaje siê metoda 1-NN. Idea systemu sieci powsta³a z myœl¹
Weryfikacja u ytecznoœci neuronowych klasyfikatorów... 661 o polepszeniu czu³oœci metody kosztem spadku swoistoœci. Dla nowych danych zaowocowa³o to 100% czu³oœci¹, ale niestety z nie do przyjêcia swoistoœci¹ poni ej 70%. Mo na zauwa yæ globaln¹ tendencjê we wszystkich klasyfikatorach: wzrostu czu³oœci i spadku swoistoœci. Najlepiej na tym wysz³y metody z dotychczas niedopuszczalnie nisk¹ wartoœci¹ czu³oœci i wysok¹ swoistoœci¹. Nie mo na w aden sposób stwierdziæ, co w nowym zestawie wektorów spowodowa³o tak¹ tendencjê. Tabela 7 Wyniki jakoœci poszczególnych metod (172 ch³opców) Liczba prawid³owych rozpoznañ [%] Czu³oœæ Swoistoœæ Sieæ nr 1: 6 wejœæ (próg 0,5) 79,7 85,7 77,2 1-NN: 6 wejœæ 74,4 85,7 69,9 Sieæ nr 2: 6 wejœæ (próg 0,9) 87,8 83,7 89,4 23-NN: 6 wejœæ 74,4 85,7 69,9 Sieæ nr 3: 6 wejœæ + wzrost 73,8 93,9 65,9 1-NN: 6 wejœæ + wzrost 79,1 89,8 74,8 System sieci 74,4 100 64,2 Dla ostatecznej weryfikacji wyników dla wszystkich nowych danych (337 dziewcz¹t i ch³opców) pokazano w tabeli 8 wartoœci jakoœci, czu³oœci i swoistoœci sieci z dodanym parametrem wzrostu i wskaÿnikiem p³ci i metody k-nn te o 8 elementach wejœciowych. Tabela 8 Wyniki jakoœci dwóch metod (172 ch³opców + 165 dziewcz¹t) Liczba prawid³owych rozpoznañ [%] Czu³oœæ Swoistoœæ Sieæ: 6 wejœæ + wzrost + p³eæ 72,1 97,3 60 1-NN: 6 wejœæ + wzrost + p³eæ 75,1 91,1 67,1 Podobnie jak w przypadku samych ch³opców, sieci neuronowe prawid³owo sklasyfikowa³y mniej przypadków ni metoda 1-NN, ale wykaza³y siê bardzo dobr¹ czu³oœci¹. Dla obu metod wartoœæ parametru swoistoœci testu jest zbyt niska. 5. Wnioski W pracy skrótowo przypomniano dotychczasowe wyniki badañ nad znalezieniem uniwersalnego klasyfikatora do automatycznego oddzielania normy od zaburzenia w przypadku badañ spirometrycznych. Nastêpnie przedstawiono wyniki testowania wszystkich otrzymanych wczeœniej modeli nowym niezale nym zbiorem danych.
662 Joanna Grabska-Chrz¹stowska, Wies³aw Libuszowski, Waldemar Tomalak Wydaje siê, e metody k-nn daj¹ce dotychczas nieco gorsze wyniki klasyfikacji okaza³y siê bardziej stabilne od wczeœniej preferowanych wybranych sieci neuronowych. Mimo e grupa nowych danych wydaje siê w jakiœ sposób niepodobna do poprzedniej grupy wektorów, to jednak wyniki metody znajdowania najbli szego s¹siada charakteryzuj¹ siê dobr¹ czu³oœci¹, ale przy stosunkowo niskiej swoistoœci. Z kolei zbudowany system sieci neuronowych na razie nie sprawdzi³ siê przy klasyfikacji zdrowych pacjentów, ale zgodnie z przeznaczeniem, w 100% rozpozna³ wszystkich chorych z testowej grupy. Jednak najwa niejsza konkluzja jest nastêpuj¹ca: aby osi¹gn¹æ dalekosiê ny cel zbudowania automatycznego i uniwersalnego klasyfikatora badañ spirometrycznych, konieczne staje siê pozyskanie jeszcze wiêkszej liczby danych najlepiej z ró nych okresów i byæ mo e ró nych aparatów. Literatura [1] Grabska-Chrz¹stowska J., Libuszowski W., Tomalak W.: Analiza wp³ywu parametrów wejœciowych na klasyfikacjê wyników badania spirometrycznego przy pomocy sieci neuronowych. Pó³rocznik AGH Automatyka, t. 8, z. 3, 2004, 469-475, ISNN 1429-3447 [2] Grabska-Chrz¹stowska J., Libuszowski W., Tomalak W.: Porównanie metody knn i techniki sieci neuronowych w klasyfikacji badañ spirometrycznych. Materia³y konferencyjne Modelowanie Cybernetyczne Systemów Biologicznych, Kraków, UJ i AGH 2005 [3] Grabska-Chrz¹stowska J., Tomalak W.: Zastosowanie neuronowego systemu wnioskuj¹cego do klasyfikacji wyników badania spirometrycznego. Materia³y konferencyjne Sztuczna Inteligencja w In ynierii Biomedycznej, Kraków, AGH 2004 [4] JóŸwik A., Serpico S., Roli F.: A parallel network of modified 1-NN and k-nn classifiers - application to remote-sensing image classification. Pattern Recognition Letters, 19, 1998, 57 62, [5] Tadeusiewicz R.: Sieci neuronowe. Warszawa, PWN 1993 [6] Tomalak W.: Badania czynnoœciowe uk³adu oddechowego. Materia³y III Sympozjum Modelowanie i Pomiary w Medycynie, Krynica 2001, 37 49