WYKORZYSTANIE MODELU SKORINGOWEGO DO AUTOMATYCZNEJ DIAGNOSTYKI NA PODSTAWIE ZAPISU WIDEO BRONCHOSKOPII Lucjan Janowski, Akademia Górniczo-Hutnicza Mariusz Duplaga, Uniwersytet Jagielloński Collegium Medicum Krzysztof Suwada, StatSoft Polska Medyczne zbiory zapisów wideo mogą zawierać bardzo wiele sekwencji wideo z bronchoskopii zarchiwizowanych na przestrzeni lat. Odnajdywanie szukanej informacji w takiej bazie danych może zająć dużo czasu i wymaga specjalistycznej wiedzy medycznej. Dedykowany algorytm automatyzacji wyszukiwania mógłby znacząco skrócić czas poświęcony na odnalezienie poszukiwanego zapisu wideo. Do zagadnienia tego można podejść na wiele sposobów, w tym artykule zaprezentowane zostaną modele skoringowe dedykowane odnajdywaniu krwawień oraz bladości śluzówki. Wstęp Zapis wideo bronchoskopii przechowywany w formie cyfrowej jest kodowany w standardzie MPEG-7 i składa się z sekwencji tzw. ramek (ang. frames) podobnie jak zwykły film rejestrowany na taśmie analogowej. Jedynie niewielka ilość ramek z całego zapisu zawiera użyteczne informacje z punktu widzenia wykrywania konkretnej zmiany. Z drugiej strony liczba zapisów rośnie dosyć szybko i odpowiednio wydajny algorytm pozyskiwania ramek jest elementem kluczowym dla działania całego systemu. Do zadania można podejść na dwa sposoby: pierwszy skupia się na redukcji wielkości zapisu wideo poprzez usuwanie ramek niezawierających istotnych informacji, drugi bazuje na rozpoznawaniu elementów obrazu i odpowiedniej klasyfikacji zapisów wideo i prezentowania tylko tych ich fragmentów, które spełniają zadane wcześniej kryteria. Wykrywanie i klasyfikacja obiektów występujących w plikach graficznych i obrazach wideo w dalszym ciągu jest sporym wyzwaniem. Podejście prezentowane w tym artykule wykorzystuje sposób opisu obrazu dostępny w standardzie MPEG-7, tzw. deskryptory MPEG-7. Jest to pewien zestaw liczb opisujących zawartość pliku wideo: dźwięk oraz obraz. Wykorzystanie tych zmiennych w połączeniu z odpowiednimi algorytmami statystycznymi pozwoli zbudować model wykrywający poszukiwane zmiany. 94
Jedną z głównych przeszkód w budowie automatycznego systemu przetwarzania obrazów medycznych są trudności z dostępem do odpowiednio opisanych (przez wykwalifikowany personel medyczny) zbiorów danych. Podczas realizacji projektu BRONCHOVID trudność ta została pokonana dzięki szerokiej współpracy ze specjalistami z dziedziny bronchoskopii, którzy odpowiednio oznaczyli kluczowe ramki z zapisu wideo. Projekt sponsorowany przez Ministerstwo Nauki pozwolił na zbudowanie obszernej bazy danych odpowiednio opisanych zapisów bronchoskopijnych, umożliwiając budowę modelu statystycznego. Dla wybranych zmian zostały zbudowane odpowiednie modele skoringowe i w dwóch przypadkach otrzymane wyniki pozwalają na rozważenie ich stosowania w algorytmie przeszukiwania bazy danych. Zebrane dane i standard MPEG-7 MPEG-7 jest standardem zaproponowanym przez MPEG (MovingPicturesExpertGroup). W przeciwieństwie do standardów MPEG-1, MPEG-2 i MPEG-4 nie opisuje on sposobu kompresji obrazu wideo, lecz definiuje formalny sposób opisu jego zawartości. Pojedynczy deskryptor został tak zaprojektowany, aby wydobywać pewne określone cechy obrazu lub dźwięku. W modelowaniu wykorzystane zostały cztery deskryptory koloru: ColourLayoutDescriptor (CLD) reprezentuje przestrzenny rozkład koloru. Zawiera 192 wartości pogrupowane w trzy klasy reprezentujące odpowiednie składowe koloru ( ). ColourStructureDescriptor (CSD) reprezentuje łącznie rozkład koloru i lokalną strukturę przestrzenną, w modelowaniu wykorzystane zostały 32 wartości ( ). Dominant ColourDescriptor (DCD) opisuje najczęściej występujące kolory w ramce. Ich liczba waha się od jednego do siedmiu. Dla każdego koloru (opisanego przez, gdzie oznacza składową koloru (Y, V lub U), a jest indeksem koloru) dostępne są dodatkowe informacje, np. wariancja koloru. Scalable ColourDescriptor (SCD) transformata Haara histogramu kolorów reprezentowana przez 256 wartości ( ). Wykorzystane zostały także dwa deskryptory tekstury. Edge Histogram Descriptor (EHD) zlicza krawędzie w różnych partiach obrazu i pod różnymi kierunkami. Zawiera 80 wartości ( ). TextureBrowsingDescriptor (TBD) reprezentuje teksturę w taki sposób, w jaki postrzega je człowiek, czyli jej regularność, gładkość i kierunkowość. Reprezentowany jest przez 5 wartości ( ). Ostatnim wykorzystanym deksryptorem był Region ShapeDescriptor (RSD) reprezentujący kształty. Jest on reprezentowany przez 62 wartości ( ). 95
Dysponując takim zestawem każdy blok ramki jest reprezentowany przez 683 wartości liczbowe. Ze względu na fakt, że niektóre z nich okazały się przyjmować stałe wartości, zostały usunięte ze zbioru predyktorów. Metodologia skoringowa Dzięki deskryptorom standardu MPEG-7 każda ramka obrazu jest reprezentowana przez dosyć dużą liczbę zmiennych. Podobnie jak przy modelowaniu innych zjawisk część zmiennych jest, a część nie jest powiązana istotną zależnością z modelowaną zmienną. Ze względu na dużą liczbę zmiennych konieczne było zastosowanie aparatu statystycznego w celu wyłonienia najlepszych kandydatów na zmienne objaśniające. Wiele różnych technik doboru zmiennych można znaleźć zarówno w literaturze, jak i w oprogramowaniu statystycznym. W tym przypadku należy jednak wziąć pod uwagę fakt, że zbiór danych był silnie niezbalansowany znacznie więcej przypadków nie wykazywało zmian patologicznych. Zły wybór zmiennych może skutkować zbudowaniem dobrego modelu dla danych uczących, który dawałby jednak słabe i niestabilne wyniki na zbiorze testowym. Problem prób niezbalansowanych pojawia się nie tylko w medycynie, ale także w analizie ryzyka, wykrywaniu nadużyć (fraud detection), skoringu kredytowym czy analizie lojalności klientów (churn). Można wykorzystać pewne nieliniowe techniki modelowania, jak np. drzewa wzmacniane, jednak zdecydowano się pozostać przy prostszym modelu liniowym. Celem budowy modelu skoringowego jest przewidywanie, czy kredyt zostanie spłacony przez daną osobę czy firmę. Predykcja (skoring - punktacja) bazuje na populacji kredytów, dla których znana jest już informacja, czy zostały spłacone czy nie. Należy zauważyć, że zbiór kredytów, podobnie jak zbiór pacjentów, jest mocno niezbalansowany jedynie mały odsetek osób nie spłaca zaciągniętego zobowiązania. Warto zaznaczyć, że poprawnie zbudowany i dobrze dopasowany model skoringowy jest modelem stabilnym, łatwym we wdrażaniu oraz szybkim w działaniu, a sam proces jego budowy rozwiązuje wiele problemów, które można napotkać przy budowie nie tylko modeli liniowych: braki danych, obserwacje odstające, nietypowe, zależności nieliniowe. Metodologia skoringowa jest dosyć obszerna i znacznie wykracza poza ramy tego artykułu zostanie jednak pokrótce nakreślona 1. 1 Więcej informacji wraz z przykładami zastosowań można znaleźć na stronie http://www.statsoft.pl/industries/scoring_1.htm. 96
Modelowana zmienna jest dwustanowa reprezentowana przez: 1 zły niespłacony kredyt, wystąpiła zmiana chorobowa, śmierć pacjenta, defraudacja, odejście klienta, 0 dobry przeciwieństwo znaczenia zły spłacony kredyt, brak zmian chorobowych, przeżycie pacjenta, lojalny klient. Proces budowy karty skoringowej może zostać podzielony na kroki, każdy z nich jest wykonywany z wykorzystaniem odpowiedniego modułu Zestawu Skoringowego dostępnego jako rozszerzenie programu STATISTICA. Rys. 1. Zarys metodologii skoringowej. Kroki wykorzystane w modelowaniu. Kluczowym elementem budowy modelu skoringowego jest regresja logistyczna i jej skalowanie. Gdy jest gotowy model logistyczny, jest on przekształcany na punktację w taki sposób, aby co N punktów szansa bycia dobrym podwajała się. Dzięki tej operacji punktacja ma bardzo silną interpretację w terminach szans często wykorzystywanych nie tylko w medycynie. W pierwszym kroku naszej analizy należy zidentyfikować, które ze zmiennych objaśniających będą najlepsze do budowy modelu. W tym celu dla każdej z nich zostanie obliczona miara IV Information Value zgodnie ze wzorem: gdzie n-oznacza liczbę przedziałów zmiennej, a Dobryi Zły oznacza odpowiednie liczności przypadków w danej klasie. Otrzymana liczba może być interpretowana jako siła związku danej zmiennej ze zmienną zależną. 97
W drugim kroku należy odrzucić część zmiennych, będziemy kierować się dwoma kryteriami zmienne powinny mieć wysoką wartość IV oraz nie powinny być silnie skorelowane. Krok ten zależy w dużej mierze od analityka, ponieważ nie ma twardych reguł określających, co silna korelacja oznacza. Ostateczny zbiór zmiennych powinien ich zawierać około 10 do 12. Krok trzeci to dyskretyzacja zmiennych ilościowych i ewentualna rekategoryzacja zmiennych jakościowych, ponieważ modele skoringowe budowane są dla danych dyskretnych. Proces ten nazywamy tworzeniem atrybutów, a wynikowe klasy atrybutami. Przejście ze zmiennej ciągłej na wartości dyskretne może być postrzegane jako utrata informacji w praktyce utrata ta jest minimalna. Najlepsze rezultaty przy tworzeniu atrybutów uzyskuje się łącząc wiedzę ekspercką (np. lekarza) i metody statystyczne. W przypadku deskryptorów standardu MPEG-7 bardzo trudno byłoby pulmonologowi wskazać odpowiedni sposób kategoryzacji. Z tego względu wykorzystano wbudowany w Zestaw Skoringowy automatyczny algorytm konstrukcji atrybutów, bazujący na algorytmie CHAID oraz mierze WoE (Weight of Evidence). WoE to miara statystyczna bardzo użyteczna przy ocenie atrybutu bazująca na logarytmie ilorazu szans. Zauważmy, że silna nierównowaga w danym atrybucie, np. 90% przypadków z krwawieniem i tylko 10% bez, oznacza wysokie (co do wartości bezwzględnej) wartości WoE, natomiast jeżeli procent ten wynosiłby około 50% - WoE byłoby bardzo bliskie zeru. Dzięki kategoryzacji oraz WoE, atrybuty mogą być postrzegane jako stymulanty lub destymulanty konkretnego zachowania klienta lub zmiany chorobowej. Estymacja modelu Nagrania zebrane i opisane przez specjalistów w projekcie BRONCHOVID zawierają znaczną liczbę różnych zmian w płucach, które można zaobserwować podczas badania. Niektóre z nich mogą występować pojedynczo, niektóre grupami. Taka struktura bazy danych jest trudniejsza w analizie, ponieważ jeżeli zaobserwowano zmianę a, nie możemy na 100% wykluczyć występowania zmiany b, ponieważ czasem mogą one występować razem. Analiza została ograniczona do zdarzeń, które nigdy nie występują jednocześnie. Problemem, który napotkano, była także nadreprezentacja niektórych ramek. Ze względu na fakt, że baza danych nie została zbudowana tylko do automatycznego wykrywania zmian patologicznych, niektóre - bardziej interesujące lekarza - zmiany mogły występować na kilkudziesięciu, podczas gdy inne zaledwie na kilku ramkach. Wykorzystanie wszystkich ramek dla danej zmiany mogłoby skutkować zbudowaniem modelu bardzo 98
dobrze dopasowanego do danych uczących, ale z nikłymi możliwościami generalizacji. Przyjęte zostało ograniczenie trzech ramek na pojedyncze badanie. Rys. 4. Przykład zmian (ciemna obwódka oznacza wewnątrzoskrzelową masę guza, a jasna wydatną siatkę naczyń). Kolejnym problem był rozmiar rozpoznawanej zmiany. Większość z nich pokrywa zwykle mniej niż połowę ramki (ekranu). Z tego powodu wykorzystanie deskryptorów dla całej ramki owocowałoby bardzo słabym modelem. W zastosowanym rozwiązaniu każda ramka została podzielona na kwadraty o boku 64 pikseli. Z bloków tych zostały wybrane takie, na których pożądana zmiana pokrywa przynajmniej 80% powierzchni. blo- Baza danych, którą wykorzystano w procesie budowy modelu, składała się z ków obrazu. Do modelowania wybrano: poszerzenie ostrogi, zwężenie światła/zamknięcie oskrzela, bladość śluzówki, wewnątrzoskrzelowa masa guza, naciek śluzówki, poszerzenie naczyń, ropna wydzielina, zanik śluzówki, krwawienie, wybroczyny w błonie śluzowej. 99
Zbiór bloków obrazu został podzielony na część uczącą (75%) oraz testową (25%) i dla każdej z rozważanych zmian został zbudowany model. Dla ośmiu z nich nie udało się zbudować satysfakcjonującego modelu. W dwóch przypadkach otrzymane wyniki pozwalają na ewentualne wdrożenie modelu. Krwawienie Model został zbudowany z wykorzystaniem przedstawionej metodologii skoringowej. Wybrano predyktorów. Korelacja między wybranymi zmiennymi jest nie wyższa niż i zwykle nie przekracza. 1,00-0,73-0,74-0,42-0,27-0,38-0,23-0,56-0,27-0,21-0,19 0,01-0,73 1,00 0,71 0,50 0,37 0,40 0,29 0,59 0,46 0,51 0,42-0,36-0,74 0,71 1,00 0,47 0,28 0,43 0,23 0,67 0,13 0,25 0,25-0,16-0,42 0,50 0,47 1,00 0,55 0,27 0,53 0,33 0,27 0,27 0,13-0,12-0,27 0,37 0,28 0,55 1,00 0,18 0,25 0,14 0,29 0,27 0,13-0,10-0,38 0,40 0,43 0,27 0,18 1,00 0,24 0,24 0,22 0,16 0,13-0,08-0,23 0,29 0,23 0,53 0,25 0,24 1,00 0,05 0,27 0,20 0,12-0,05-0,56 0,59 0,67 0,33 0,14 0,24 0,05 1,00-0,06-0,06-0,04-0,16-0,27 0,46 0,13 0,27 0,29 0,22 0,27-0,06 1,00 0,52 0,39-0,41-0,21 0,51 0,25 0,27 0,27 0,16 0,20-0,06 0,52 1,00 0,44-0,42-0,19 0,42 0,25 0,13 0,13 0,13 0,12-0,04 0,39 0,44 1,00-0,30 0,01-0,36-0,16-0,12-0,10-0,08-0,05-0,16-0,41-0,42-0,30 1,00 Należy zauważyć, że skoring jest obliczany dla każdego bloku ramki. Aby zaklasyfikować bloki do danej klasy krwawienie lub brak krwawienia, musi zostać określony tzw. poziom odcięcia (ang. cut-off level), dzięki metodologii skoringowej poziom ten może zostać wybrany przez specjalistę na podstawie wykresu ROC i w razie potrzeby łatwo zmieniony. 100
1,0 0,9 0,8 0,7 Sensitivity 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1-Specificity Rys. 5. Wykres ROC dla zmiany Krwawienie. Bladość śluzówki Model dla bladości śluzówki został zbudowany podobnie jak model dla krwawienia z wykorzystaniem metodologii skoringowej. Tym razem wybrano 11 najlepszych predyktorów, których macierz korelacji znajduje się poniżej. 1,00 0,44 0,25 0,45 0,66 0,06-0,09 0,16-0,09-0,35-0,37 0,44 1,00 0,55 0,27 0,33 0,01-0,12 0,27 0,02-0,17-0,34 0,25 0,55 1,00 0,18 0,14-0,07-0,09 0,27 0,04-0,09-0,24 0,45 0,27 0,18 1,00 0,24-0,03-0,05 0,16-0,06-0,22-0,26 0,66 0,33 0,14 0,24 1,00 0,51-0,22-0,06-0,01-0,39-0,45 0,06 0,01-0,07-0,03 0,51 1,00-0,11-0,07-0,04-0,28-0,28-0,09-0,12-0,09-0,05-0,22-0,11 1,00 0,03-0,28 0,05 0,10 0,16 0,27 0,27 0,16-0,06-0,07 0,03 1,00 0,02 0,11 0,09-0,09 0,02 0,04-0,06-0,01-0,04-0,28 0,02 1,00 0,49 0,05-0,35-0,17-0,09-0,22-0,39-0,28 0,05 0,11 0,49 1,00 0,41-0,37-0,34-0,24-0,26-0,45-0,28 0,10 0,09 0,05 0,41 1,00 101
Podobnie jak poprzednio korelacje są nie wyższe niż i zwykle niższe niż. Analogicznie jak w przypadku krwawienia, poziom odcięcia można łatwo zmienić, a wyboru można dokonać na podstawie krzywej ROC. 1,0 0,9 0,8 0,7 Sensitivity 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1-Specificity Rys. 6. Wykres ROC dla zmiany Bladość śluzówki. Wnioski Pokazano, że korzystając z deskryptorów standard MPEG-7 i modeli skoringowych, można w efektywny sposób rozpoznawać różne rodzaje schorzeń wykrywanych podczas bronchoskopii. Otrzymane modele charakteryzują się wysoką czułością i specyficznością, a poziom odcięcia może zostać łatwo zmieniony. Warto zauważyć prostotę modelu skoringowego oraz łatwość i szybkość wyliczania skoringu. W badaniach tylko dwa modele z ośmiu okazały się dość dobre, aby można je było stosować. W pozostałych przypadkach możliwości poprawy były jednak widoczne, zebranie większej liczby przypadków uczących pozwoliłoby znacznie poprawić skuteczność modelowania. Modele te zostaną zrekalibrowane po zebraniu odpowiedniej ilości danych. Literatura 1. Siddiqi N., Credit Risk Scorecards: Developing And Implementing Intelligent Credit Scoring, Wiley&Sons, 2006. 2. Bausell R.B., Li Y.-F., Power Analysis for Experimental Research. A Practical Guide for the Biological, Medical and Social Sciences, Cambridge University Press, 2002. 102
3. Quinn G.P., Keough M. J., Experimental Design and Data Analysis for Biologists, Cambridge University Press, 2002. 4. Maddala G.S., Ekonometria, Wydawnictwo Naukowe PWN, 2006. 5. Sobczyk M., Statystyka, wyd. 5 uzupełnione, PWN, 2007. 103