WYKORZYSTANIE MODELU SKORINGOWEGO DO AUTOMATYCZNEJ DIAGNOSTYKI NA PODSTAWIE ZAPISU WIDEO BRONCHOSKOPII

Podobne dokumenty
Metody scoringowe w regresji logistycznej

BUDOWA MODELU SCORINGOWEGO DO E-POŻYCZKI Z WYKORZYSTANIEM NARZĘDZI STATISTICA

WSPOMAGANIE ANALIZY DANYCH ZA POMOCĄ NARZĘDZI STATISTICA

Scoring kredytowy w pigułce

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

PRZYKŁAD WYKORZYSTANIA MODELI SKORINGOWYCH W MEDYCYNIE

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Wprowadzenie do analizy korelacji i regresji

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza danych. TEMATYKA PRZEDMIOTU

Statystyka i Analiza Danych

StatSoft profesjonalny partner w zakresie analizy danych

Aproksymacja funkcji a regresja symboliczna

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

DLACZEGO GORSZA METODA JEST CZASEM LEPSZA, CZYLI REGRESJA LOGISTYCZNA W WYKRYWANIU WYŁUDZEŃ ODSZKODOWAŃ

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne.

Analiza składowych głównych. Wprowadzenie

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Modelowanie glikemii w procesie insulinoterapii

KREATOR REGRESJI LOGISTYCZNEJ

MODELE LINIOWE. Dr Wioleta Drobik

Odzyskać pożyczone. Przyjrzyjmy się praktycznym aspektom modelowania ryzyka kredytowego. Grzegorz Migut StatSoft Polska sp. z o.o., Dział Konsultingu

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Widzenie komputerowe (computer vision)

Optymalizacja Automatycznych Testów Regresywnych

Regresja linearyzowalna

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Sposoby prezentacji problemów w statystyce

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Analiza korespondencji

Wykład 4: Statystyki opisowe (część 1)

Wykład 5: Statystyki opisowe (część 2)

Metody Prognozowania

Analiza głównych składowych- redukcja wymiaru, wykł. 12

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Inteligentna analiza danych

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

MODELE SKORINGOWE W BIZNESIE I NAUCE

PLAN SZKOLEŃ Femap. Nasza oferta: Solid Edge najefektywniejszy dostępny obecnie na rynku system CAD klasy mid-range,

Przedmiot statystyki. Graficzne przedstawienie danych.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Przetwarzanie obrazu

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

ALGORYTM RANDOM FOREST

Estymacja parametrów w modelu normalnym

Metody probabilistyczne

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

SKORING JAKO NARZĘDZIE WSPIERAJĄCE SPÓŁDZIELCZE KASY OSZCZĘDNOŚCIOWO-KREDYTOWE W SPEŁNIENIU NOWYCH WYMAGAŃ NADZORCZYCH

W1. Wprowadzenie. Statystyka opisowa

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Wprowadzenie do analizy dyskryminacyjnej

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Metody Ilościowe w Socjologii

Regresja i Korelacja

Niepewności pomiarów

2

Przetwarzanie obrazów rastrowych macierzą konwolucji

Wojciech Skwirz

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Krótki kurs data mining. StatSoft Polska, Kraszewskiego 36, Kraków, tel

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Analiza regresji - weryfikacja założeń

Zmienne zależne i niezależne

STATISTICA DECISIONING PLATFORM, CZYLI JAK PODEJMOWAĆ DECYZJE W EPOCE BIG DATA

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

WYKORZYSTANIE SKORINGU DO PRZEWIDYWANIA WYŁUDZEŃ KREDYTÓW W INVEST-BANKU

Weryfikacja hipotez statystycznych

RAPORT Z POLSKIEGO BADANIA PROJEKTÓW IT 2010

Kilka uwag o testowaniu istotności współczynnika korelacji

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Priorytetyzacja przypadków testowych za pomocą macierzy

Karta (sylabus) modułu/przedmiotu Inżynieria Materiałowa Studia II stopnia Specjalność: Inżynieria Powierzchni

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

WYKORZYSTANIE SKORINGU MARKETINGOWEGO DO OPTYMALIZACJI KAMPANII SPRZEDAŻOWYCH

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Państwowa Wyższa Szkoła Zawodowa w Suwałkach SYLLABUS na rok akademicki 2014/2015

Transkrypt:

WYKORZYSTANIE MODELU SKORINGOWEGO DO AUTOMATYCZNEJ DIAGNOSTYKI NA PODSTAWIE ZAPISU WIDEO BRONCHOSKOPII Lucjan Janowski, Akademia Górniczo-Hutnicza Mariusz Duplaga, Uniwersytet Jagielloński Collegium Medicum Krzysztof Suwada, StatSoft Polska Medyczne zbiory zapisów wideo mogą zawierać bardzo wiele sekwencji wideo z bronchoskopii zarchiwizowanych na przestrzeni lat. Odnajdywanie szukanej informacji w takiej bazie danych może zająć dużo czasu i wymaga specjalistycznej wiedzy medycznej. Dedykowany algorytm automatyzacji wyszukiwania mógłby znacząco skrócić czas poświęcony na odnalezienie poszukiwanego zapisu wideo. Do zagadnienia tego można podejść na wiele sposobów, w tym artykule zaprezentowane zostaną modele skoringowe dedykowane odnajdywaniu krwawień oraz bladości śluzówki. Wstęp Zapis wideo bronchoskopii przechowywany w formie cyfrowej jest kodowany w standardzie MPEG-7 i składa się z sekwencji tzw. ramek (ang. frames) podobnie jak zwykły film rejestrowany na taśmie analogowej. Jedynie niewielka ilość ramek z całego zapisu zawiera użyteczne informacje z punktu widzenia wykrywania konkretnej zmiany. Z drugiej strony liczba zapisów rośnie dosyć szybko i odpowiednio wydajny algorytm pozyskiwania ramek jest elementem kluczowym dla działania całego systemu. Do zadania można podejść na dwa sposoby: pierwszy skupia się na redukcji wielkości zapisu wideo poprzez usuwanie ramek niezawierających istotnych informacji, drugi bazuje na rozpoznawaniu elementów obrazu i odpowiedniej klasyfikacji zapisów wideo i prezentowania tylko tych ich fragmentów, które spełniają zadane wcześniej kryteria. Wykrywanie i klasyfikacja obiektów występujących w plikach graficznych i obrazach wideo w dalszym ciągu jest sporym wyzwaniem. Podejście prezentowane w tym artykule wykorzystuje sposób opisu obrazu dostępny w standardzie MPEG-7, tzw. deskryptory MPEG-7. Jest to pewien zestaw liczb opisujących zawartość pliku wideo: dźwięk oraz obraz. Wykorzystanie tych zmiennych w połączeniu z odpowiednimi algorytmami statystycznymi pozwoli zbudować model wykrywający poszukiwane zmiany. 94

Jedną z głównych przeszkód w budowie automatycznego systemu przetwarzania obrazów medycznych są trudności z dostępem do odpowiednio opisanych (przez wykwalifikowany personel medyczny) zbiorów danych. Podczas realizacji projektu BRONCHOVID trudność ta została pokonana dzięki szerokiej współpracy ze specjalistami z dziedziny bronchoskopii, którzy odpowiednio oznaczyli kluczowe ramki z zapisu wideo. Projekt sponsorowany przez Ministerstwo Nauki pozwolił na zbudowanie obszernej bazy danych odpowiednio opisanych zapisów bronchoskopijnych, umożliwiając budowę modelu statystycznego. Dla wybranych zmian zostały zbudowane odpowiednie modele skoringowe i w dwóch przypadkach otrzymane wyniki pozwalają na rozważenie ich stosowania w algorytmie przeszukiwania bazy danych. Zebrane dane i standard MPEG-7 MPEG-7 jest standardem zaproponowanym przez MPEG (MovingPicturesExpertGroup). W przeciwieństwie do standardów MPEG-1, MPEG-2 i MPEG-4 nie opisuje on sposobu kompresji obrazu wideo, lecz definiuje formalny sposób opisu jego zawartości. Pojedynczy deskryptor został tak zaprojektowany, aby wydobywać pewne określone cechy obrazu lub dźwięku. W modelowaniu wykorzystane zostały cztery deskryptory koloru: ColourLayoutDescriptor (CLD) reprezentuje przestrzenny rozkład koloru. Zawiera 192 wartości pogrupowane w trzy klasy reprezentujące odpowiednie składowe koloru ( ). ColourStructureDescriptor (CSD) reprezentuje łącznie rozkład koloru i lokalną strukturę przestrzenną, w modelowaniu wykorzystane zostały 32 wartości ( ). Dominant ColourDescriptor (DCD) opisuje najczęściej występujące kolory w ramce. Ich liczba waha się od jednego do siedmiu. Dla każdego koloru (opisanego przez, gdzie oznacza składową koloru (Y, V lub U), a jest indeksem koloru) dostępne są dodatkowe informacje, np. wariancja koloru. Scalable ColourDescriptor (SCD) transformata Haara histogramu kolorów reprezentowana przez 256 wartości ( ). Wykorzystane zostały także dwa deskryptory tekstury. Edge Histogram Descriptor (EHD) zlicza krawędzie w różnych partiach obrazu i pod różnymi kierunkami. Zawiera 80 wartości ( ). TextureBrowsingDescriptor (TBD) reprezentuje teksturę w taki sposób, w jaki postrzega je człowiek, czyli jej regularność, gładkość i kierunkowość. Reprezentowany jest przez 5 wartości ( ). Ostatnim wykorzystanym deksryptorem był Region ShapeDescriptor (RSD) reprezentujący kształty. Jest on reprezentowany przez 62 wartości ( ). 95

Dysponując takim zestawem każdy blok ramki jest reprezentowany przez 683 wartości liczbowe. Ze względu na fakt, że niektóre z nich okazały się przyjmować stałe wartości, zostały usunięte ze zbioru predyktorów. Metodologia skoringowa Dzięki deskryptorom standardu MPEG-7 każda ramka obrazu jest reprezentowana przez dosyć dużą liczbę zmiennych. Podobnie jak przy modelowaniu innych zjawisk część zmiennych jest, a część nie jest powiązana istotną zależnością z modelowaną zmienną. Ze względu na dużą liczbę zmiennych konieczne było zastosowanie aparatu statystycznego w celu wyłonienia najlepszych kandydatów na zmienne objaśniające. Wiele różnych technik doboru zmiennych można znaleźć zarówno w literaturze, jak i w oprogramowaniu statystycznym. W tym przypadku należy jednak wziąć pod uwagę fakt, że zbiór danych był silnie niezbalansowany znacznie więcej przypadków nie wykazywało zmian patologicznych. Zły wybór zmiennych może skutkować zbudowaniem dobrego modelu dla danych uczących, który dawałby jednak słabe i niestabilne wyniki na zbiorze testowym. Problem prób niezbalansowanych pojawia się nie tylko w medycynie, ale także w analizie ryzyka, wykrywaniu nadużyć (fraud detection), skoringu kredytowym czy analizie lojalności klientów (churn). Można wykorzystać pewne nieliniowe techniki modelowania, jak np. drzewa wzmacniane, jednak zdecydowano się pozostać przy prostszym modelu liniowym. Celem budowy modelu skoringowego jest przewidywanie, czy kredyt zostanie spłacony przez daną osobę czy firmę. Predykcja (skoring - punktacja) bazuje na populacji kredytów, dla których znana jest już informacja, czy zostały spłacone czy nie. Należy zauważyć, że zbiór kredytów, podobnie jak zbiór pacjentów, jest mocno niezbalansowany jedynie mały odsetek osób nie spłaca zaciągniętego zobowiązania. Warto zaznaczyć, że poprawnie zbudowany i dobrze dopasowany model skoringowy jest modelem stabilnym, łatwym we wdrażaniu oraz szybkim w działaniu, a sam proces jego budowy rozwiązuje wiele problemów, które można napotkać przy budowie nie tylko modeli liniowych: braki danych, obserwacje odstające, nietypowe, zależności nieliniowe. Metodologia skoringowa jest dosyć obszerna i znacznie wykracza poza ramy tego artykułu zostanie jednak pokrótce nakreślona 1. 1 Więcej informacji wraz z przykładami zastosowań można znaleźć na stronie http://www.statsoft.pl/industries/scoring_1.htm. 96

Modelowana zmienna jest dwustanowa reprezentowana przez: 1 zły niespłacony kredyt, wystąpiła zmiana chorobowa, śmierć pacjenta, defraudacja, odejście klienta, 0 dobry przeciwieństwo znaczenia zły spłacony kredyt, brak zmian chorobowych, przeżycie pacjenta, lojalny klient. Proces budowy karty skoringowej może zostać podzielony na kroki, każdy z nich jest wykonywany z wykorzystaniem odpowiedniego modułu Zestawu Skoringowego dostępnego jako rozszerzenie programu STATISTICA. Rys. 1. Zarys metodologii skoringowej. Kroki wykorzystane w modelowaniu. Kluczowym elementem budowy modelu skoringowego jest regresja logistyczna i jej skalowanie. Gdy jest gotowy model logistyczny, jest on przekształcany na punktację w taki sposób, aby co N punktów szansa bycia dobrym podwajała się. Dzięki tej operacji punktacja ma bardzo silną interpretację w terminach szans często wykorzystywanych nie tylko w medycynie. W pierwszym kroku naszej analizy należy zidentyfikować, które ze zmiennych objaśniających będą najlepsze do budowy modelu. W tym celu dla każdej z nich zostanie obliczona miara IV Information Value zgodnie ze wzorem: gdzie n-oznacza liczbę przedziałów zmiennej, a Dobryi Zły oznacza odpowiednie liczności przypadków w danej klasie. Otrzymana liczba może być interpretowana jako siła związku danej zmiennej ze zmienną zależną. 97

W drugim kroku należy odrzucić część zmiennych, będziemy kierować się dwoma kryteriami zmienne powinny mieć wysoką wartość IV oraz nie powinny być silnie skorelowane. Krok ten zależy w dużej mierze od analityka, ponieważ nie ma twardych reguł określających, co silna korelacja oznacza. Ostateczny zbiór zmiennych powinien ich zawierać około 10 do 12. Krok trzeci to dyskretyzacja zmiennych ilościowych i ewentualna rekategoryzacja zmiennych jakościowych, ponieważ modele skoringowe budowane są dla danych dyskretnych. Proces ten nazywamy tworzeniem atrybutów, a wynikowe klasy atrybutami. Przejście ze zmiennej ciągłej na wartości dyskretne może być postrzegane jako utrata informacji w praktyce utrata ta jest minimalna. Najlepsze rezultaty przy tworzeniu atrybutów uzyskuje się łącząc wiedzę ekspercką (np. lekarza) i metody statystyczne. W przypadku deskryptorów standardu MPEG-7 bardzo trudno byłoby pulmonologowi wskazać odpowiedni sposób kategoryzacji. Z tego względu wykorzystano wbudowany w Zestaw Skoringowy automatyczny algorytm konstrukcji atrybutów, bazujący na algorytmie CHAID oraz mierze WoE (Weight of Evidence). WoE to miara statystyczna bardzo użyteczna przy ocenie atrybutu bazująca na logarytmie ilorazu szans. Zauważmy, że silna nierównowaga w danym atrybucie, np. 90% przypadków z krwawieniem i tylko 10% bez, oznacza wysokie (co do wartości bezwzględnej) wartości WoE, natomiast jeżeli procent ten wynosiłby około 50% - WoE byłoby bardzo bliskie zeru. Dzięki kategoryzacji oraz WoE, atrybuty mogą być postrzegane jako stymulanty lub destymulanty konkretnego zachowania klienta lub zmiany chorobowej. Estymacja modelu Nagrania zebrane i opisane przez specjalistów w projekcie BRONCHOVID zawierają znaczną liczbę różnych zmian w płucach, które można zaobserwować podczas badania. Niektóre z nich mogą występować pojedynczo, niektóre grupami. Taka struktura bazy danych jest trudniejsza w analizie, ponieważ jeżeli zaobserwowano zmianę a, nie możemy na 100% wykluczyć występowania zmiany b, ponieważ czasem mogą one występować razem. Analiza została ograniczona do zdarzeń, które nigdy nie występują jednocześnie. Problemem, który napotkano, była także nadreprezentacja niektórych ramek. Ze względu na fakt, że baza danych nie została zbudowana tylko do automatycznego wykrywania zmian patologicznych, niektóre - bardziej interesujące lekarza - zmiany mogły występować na kilkudziesięciu, podczas gdy inne zaledwie na kilku ramkach. Wykorzystanie wszystkich ramek dla danej zmiany mogłoby skutkować zbudowaniem modelu bardzo 98

dobrze dopasowanego do danych uczących, ale z nikłymi możliwościami generalizacji. Przyjęte zostało ograniczenie trzech ramek na pojedyncze badanie. Rys. 4. Przykład zmian (ciemna obwódka oznacza wewnątrzoskrzelową masę guza, a jasna wydatną siatkę naczyń). Kolejnym problem był rozmiar rozpoznawanej zmiany. Większość z nich pokrywa zwykle mniej niż połowę ramki (ekranu). Z tego powodu wykorzystanie deskryptorów dla całej ramki owocowałoby bardzo słabym modelem. W zastosowanym rozwiązaniu każda ramka została podzielona na kwadraty o boku 64 pikseli. Z bloków tych zostały wybrane takie, na których pożądana zmiana pokrywa przynajmniej 80% powierzchni. blo- Baza danych, którą wykorzystano w procesie budowy modelu, składała się z ków obrazu. Do modelowania wybrano: poszerzenie ostrogi, zwężenie światła/zamknięcie oskrzela, bladość śluzówki, wewnątrzoskrzelowa masa guza, naciek śluzówki, poszerzenie naczyń, ropna wydzielina, zanik śluzówki, krwawienie, wybroczyny w błonie śluzowej. 99

Zbiór bloków obrazu został podzielony na część uczącą (75%) oraz testową (25%) i dla każdej z rozważanych zmian został zbudowany model. Dla ośmiu z nich nie udało się zbudować satysfakcjonującego modelu. W dwóch przypadkach otrzymane wyniki pozwalają na ewentualne wdrożenie modelu. Krwawienie Model został zbudowany z wykorzystaniem przedstawionej metodologii skoringowej. Wybrano predyktorów. Korelacja między wybranymi zmiennymi jest nie wyższa niż i zwykle nie przekracza. 1,00-0,73-0,74-0,42-0,27-0,38-0,23-0,56-0,27-0,21-0,19 0,01-0,73 1,00 0,71 0,50 0,37 0,40 0,29 0,59 0,46 0,51 0,42-0,36-0,74 0,71 1,00 0,47 0,28 0,43 0,23 0,67 0,13 0,25 0,25-0,16-0,42 0,50 0,47 1,00 0,55 0,27 0,53 0,33 0,27 0,27 0,13-0,12-0,27 0,37 0,28 0,55 1,00 0,18 0,25 0,14 0,29 0,27 0,13-0,10-0,38 0,40 0,43 0,27 0,18 1,00 0,24 0,24 0,22 0,16 0,13-0,08-0,23 0,29 0,23 0,53 0,25 0,24 1,00 0,05 0,27 0,20 0,12-0,05-0,56 0,59 0,67 0,33 0,14 0,24 0,05 1,00-0,06-0,06-0,04-0,16-0,27 0,46 0,13 0,27 0,29 0,22 0,27-0,06 1,00 0,52 0,39-0,41-0,21 0,51 0,25 0,27 0,27 0,16 0,20-0,06 0,52 1,00 0,44-0,42-0,19 0,42 0,25 0,13 0,13 0,13 0,12-0,04 0,39 0,44 1,00-0,30 0,01-0,36-0,16-0,12-0,10-0,08-0,05-0,16-0,41-0,42-0,30 1,00 Należy zauważyć, że skoring jest obliczany dla każdego bloku ramki. Aby zaklasyfikować bloki do danej klasy krwawienie lub brak krwawienia, musi zostać określony tzw. poziom odcięcia (ang. cut-off level), dzięki metodologii skoringowej poziom ten może zostać wybrany przez specjalistę na podstawie wykresu ROC i w razie potrzeby łatwo zmieniony. 100

1,0 0,9 0,8 0,7 Sensitivity 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1-Specificity Rys. 5. Wykres ROC dla zmiany Krwawienie. Bladość śluzówki Model dla bladości śluzówki został zbudowany podobnie jak model dla krwawienia z wykorzystaniem metodologii skoringowej. Tym razem wybrano 11 najlepszych predyktorów, których macierz korelacji znajduje się poniżej. 1,00 0,44 0,25 0,45 0,66 0,06-0,09 0,16-0,09-0,35-0,37 0,44 1,00 0,55 0,27 0,33 0,01-0,12 0,27 0,02-0,17-0,34 0,25 0,55 1,00 0,18 0,14-0,07-0,09 0,27 0,04-0,09-0,24 0,45 0,27 0,18 1,00 0,24-0,03-0,05 0,16-0,06-0,22-0,26 0,66 0,33 0,14 0,24 1,00 0,51-0,22-0,06-0,01-0,39-0,45 0,06 0,01-0,07-0,03 0,51 1,00-0,11-0,07-0,04-0,28-0,28-0,09-0,12-0,09-0,05-0,22-0,11 1,00 0,03-0,28 0,05 0,10 0,16 0,27 0,27 0,16-0,06-0,07 0,03 1,00 0,02 0,11 0,09-0,09 0,02 0,04-0,06-0,01-0,04-0,28 0,02 1,00 0,49 0,05-0,35-0,17-0,09-0,22-0,39-0,28 0,05 0,11 0,49 1,00 0,41-0,37-0,34-0,24-0,26-0,45-0,28 0,10 0,09 0,05 0,41 1,00 101

Podobnie jak poprzednio korelacje są nie wyższe niż i zwykle niższe niż. Analogicznie jak w przypadku krwawienia, poziom odcięcia można łatwo zmienić, a wyboru można dokonać na podstawie krzywej ROC. 1,0 0,9 0,8 0,7 Sensitivity 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1-Specificity Rys. 6. Wykres ROC dla zmiany Bladość śluzówki. Wnioski Pokazano, że korzystając z deskryptorów standard MPEG-7 i modeli skoringowych, można w efektywny sposób rozpoznawać różne rodzaje schorzeń wykrywanych podczas bronchoskopii. Otrzymane modele charakteryzują się wysoką czułością i specyficznością, a poziom odcięcia może zostać łatwo zmieniony. Warto zauważyć prostotę modelu skoringowego oraz łatwość i szybkość wyliczania skoringu. W badaniach tylko dwa modele z ośmiu okazały się dość dobre, aby można je było stosować. W pozostałych przypadkach możliwości poprawy były jednak widoczne, zebranie większej liczby przypadków uczących pozwoliłoby znacznie poprawić skuteczność modelowania. Modele te zostaną zrekalibrowane po zebraniu odpowiedniej ilości danych. Literatura 1. Siddiqi N., Credit Risk Scorecards: Developing And Implementing Intelligent Credit Scoring, Wiley&Sons, 2006. 2. Bausell R.B., Li Y.-F., Power Analysis for Experimental Research. A Practical Guide for the Biological, Medical and Social Sciences, Cambridge University Press, 2002. 102

3. Quinn G.P., Keough M. J., Experimental Design and Data Analysis for Biologists, Cambridge University Press, 2002. 4. Maddala G.S., Ekonometria, Wydawnictwo Naukowe PWN, 2006. 5. Sobczyk M., Statystyka, wyd. 5 uzupełnione, PWN, 2007. 103