Metody Odkrywania Wiedzy 12L Temat analityczny: Detekcja wczesnych stadiów raka piersi Dokumentacja projektu

Metody Odkrywania Wiedzy 12L Temat analityczny: Detekcja wczesnych stadiów raka piersi Dokumentacja projektu Tomasz Bawej Łukasz Trzaska 12 czerwca 2012 1 Opis zadania Niniejszy dokument dotyczy analitycznego zadania klasyfikacji przeprowadzonej dla danych umieszczonych na stronie http://www.sigkdd.org/kddcup/index. php?section=2008&method=info Zgodnie z wymaganiami zamieszczonymi na stronie przedmiotu, zakres projektu winien obejmować następujące czynności: przygotowanie danych, statystyczny opis danych, transformację danych (np. dyskretyzację, kodowanie atrybutów dyskretnych, standaryzację), selekcja atrybutów, strojenie parametrów algorytmów, tworzenie modeli, wnikliwa ocena jakości modeli, Ponadto klasyfikacyjna natura zadania pociąga za sobą konieczność przeprowadzenia następujących czynności: ustalenia atrybutu dyskretnego reprezentującego pojęcie docelowe, określenia zakresu przygotowania danych (np. przetworzenia do odpowiedniej postaci tabelarycznej, modyfikacji typów/zbiorów wartości atrybutów, eliminacji/naprawy defektów danych, modyfikacji rozkładu kategorii, losowania podzbiorów danych), 1

określenia zakresu i technik statystycznego opisu danych (np. charakterystyki rozkładu wartości atrybytów, detekcji wartości odstających, detekcji zależności między atrybutami), wskazania możliwości zdefiniowania nowych atrybutów, ustalenia kryteriów lub algorytmu selekcji atrybutów, wyboru algorytmów klasyfikacji, wskazania parametrów algorytmów klasyfikacji wymagających strojenia, ustalenia procedur i kryteriów oceny jakości modeli (z uwzględnieniem rozkładu oraz, tam gdzie to uzasadnione, kosztów pomyłek). Opis danych treningowych oraz czynności wynikających bezpośrednio z ich charakteru stanowi temat odrędbnego rozdziału: 3. 2 Cel klasyfikacji Przyporządkować próbkę powstałą ze zdjęcia piersi do jednej z klas: zmiana łagodna (ang. benign) / zmiana złośliwa (ang. malignant). Trenując klasyfikatory szczególną uwagę zwrócić na minimalizację błędu drugiego rodzaju (ang. false negative), aby przypadki złośliwe nie uległy przeoczeniu. 3 Opis dostępnych danych Analizowane w ramach projektu dane pochodzą z konkursu KDD Cup 2008, którego problematyka dotyczyła wczesnej detekcji raka piersi. Same dane reprezentują zbiór przetworzonych obszarów zdjęć rentgenowskich wykonanych dla grupy 118 chorych i 1594 zdrowych pacjentów. Zbór treningowy zawiera łącznie 102294 próbki (określane też zamiennie mianem obszarów lub kandydatów), z których jedynie niewielka część przedstawia zmiany złośliwe. Pewne uproszczenie zadania stanowi fakt, iż zgromadzone dane ograniczają się do przypadków, w których na jednego pacjenta przypada nie więcej niż jedna zmiana nowotworowa. Dane podzielone zostały na zbiór cech oraz informacji o każdej próbce. Zestaw cech liczy 117 atrybutów będących liczbowymi wynikami działania pewnych algorytmów przetwarzania obrazów. Informacja o próbce zawiera 11 atrybutów, które opisane została w Tabeli 1. 2

Tabela 1: Atrybuty opsujące próbkę Atrybut Opis Ground truth label 1 dla zmian złośliwych, -1 dla łagodnych. Image-Finding-ID Unikalny identyfikator zmiany złośliwej, 0 dla zmian łagodnych. Wartość pozwala rozpoznać tę samą zmianę widoczną na różnych zdjęciach tego samego typu. Study-Finding-ID Unikalny identyfikator zmiany pozwalający rozpoznać tę samą zmianę na różnych zdjęciach, bez względu na typ zdjęcia i złośliwość samej zmiany. Image-ID Unikalny identifikator obrazu na podstawie którego wygenerowano próbkę. Study-ID Unikalny identyfikator pacjenta. Dla każdego pacjenta przechowywane są 4 zdjęcia, na ogół ze wszystkich 4. generowane są próbki. LeftBreast 1 jeśli obraz lewej piersi, 0 w przeciwnym przypadku. MLO 1 jeśli obraz MLO, 0 w przeciwnym przypadku. Candidate-X Współrzędna X zmiany. Candidate-Y Współrzędna Y zmiany. Nipple-X Współrzędna X sutka. Nipple-Y Współrzędna Y sutka. Dane użyteczne. Udostępnione przez organizatorów konkursu dane podzielone zostały na zbiory: testowy oraz treningowy, przy czym ze względu na formułę konkursu zbiór testowy został pozbawiony pierwszych 3 elementów opisu (klasa próbki oraz identyfikatory zmiany). Tym samym zbiór danych użytecznych z punktu widzenia zadania ogranicza się do dostępnego zbioru treningowego, dla którego wartość pierwszej kolumny ze zbioru informacji stanowi jednocześnie wartość pojęcia docelowego (atrybut Ground truth label), podczas gdy kolumny MLO, Candidate-X, Candidate-Y, Nipple-X, Nipple-Y mogą stanowić dodatkowe atrybuty. W Tabeli 2. zestawiono statystykę danych, która potwierdza, iż dla Tabela 2: Statystyki danych dla pojedynczego pacjenta Image- ID Patient- ID LBreast MLO Cand-X Cand- Y Nipple- X Nipple- Y Liczba unikalnych wartości 6848 1712 2 2 3273 3407 1449 1172 Średnia liczba unikalnych wartości w przeliczeniu na pacjenta 4 1 2 2 57.44 57.34 3.99 3.99 Minimalna liczba unikalnych wartości w przeliczeniu na pacjenta 4 1 2 2 302 307 4 4 Maksymalna liczba unikalnych wartości w przeliczeniu na pacjenta 4 1 2 2 6 6 3 3 3

każdego pacjenta wykonano 4 zdjęcia. Na podstawie utworzono następnie pewną liczbę próbek (różną dla różnych pacjentów). Dodatkowym mankamentem, lub - operując nomenklaturą konkursową - wyzwaniem, jest także fakt, iż 101671 próbek reprezentuje przypadki łagodne (pierwsza klasa pojęcia docelowego), a 623 reprezentuje przypadki złośliwe (druga klasa pojęcia docelowego) tzn. stosunek klas to w przybliżeniu 6/1000. 4 Rozwiązanie Opis koncepcyjny. Nie mogąc weryfikować rozwiązania na pełnoprawnym zbiorze testowym, użyto walidacji krzyżowej 10 stopniowej, przybliżając tym samym oczekiwaną jakość klasyfikatorów. Użyto klasyfikatora czułego an koszt pomyłek, aby spróbować zrównoważyć znaczne dysproporcje liczności klas. Próbki podzielono na 4 grupy ze względu na typ zdjęcia, na których to grupach osobno trenowano klasyfikatory: lewa pierś i zdjęcie CC lewa pierś i zdjęcie MLO prawa pierś i zdjęcie CC prawa pierś i zdjęcie MLO Większość prezentowanych wyników dotyczy zatem czterech osobnych klasyfikatorów. Próba wytrenowania klasyfikatorów dla pełnego zbioru nierozróżnialnych ze względu na typ zdjęcia próbek nie rokowała lepiej pod względem wyników, a ostatecznie skazana została na porażkę ze względu na dużo dłuższy czas trenowania i szacowania jakości klasyfikatorów. O ile problem jakości można by usiłować łagodzić wprowadzając do zbioru cech atrybuty reprezentujące typ zdjęcia, o tyle problem czasochłonności rozwiązać mogło jedynie przycięcie zbioru treningowego do dwóch równolicznych ze względu na klasę próbki grup. Podejście to obarczone było jednak dużym błędem klasyfikacji dla pełnego zbioru danych (utrata zdolności generalizacji w stosunku do negatywnych próbek). Implementacja. Model zaimplementowano w języku R z użyciem biblioteki RWeka. Procesowi trenowania i oceny jakości dla powyższych 4 typów próbek poddano następujące klasyfikatory: SMO: wektor maszyn podpierających trenowany algorytmem sekwencyjnej minimalizacji John C. Platt (biblioteka Weka: weka.classifiers.functions.smo) Bagging: klasyfikator agregowany (biblioteka Weka: weka.classifiers.meta.bagging) J48: drzewo decyzyjne C4.5 (biblioteka Weka: weka.classifiers.trees.j48) 4

SimpleLogistic: logistyczna regresja liniowa (biblioteka Weka: weka.classifiers.functions.simplelogistic) KNN: klasyfikator najbliższych sąsiadów (biblioteka Weka: weka.classifiers.functions.ibk). Klasyfikator najbliższych sąsiadów przetestowano kilkukrotnie i z uwagi na jego niską skuteczność oraz dużą czasochłonność zrezygnowano z prezentacji podsumowania jego osiągów. Iteracyjne strojenie algorytmów. Korzystając z dekoratora klasyfikatorów uwrażliwiającego je na koszty pomyłek (Weka: weka.classifiers.meta.costsensitiveclassifier), minimalizowany jest błąd drugiego rodzaju (ang. false negative). W kolejnych iteracjach podawana jest macierz kosztów pomyłek, nakładająca większą karę za pomyłkę przydziału próbki malignant do klasy benign. Podsumowanie właściwości klasyfikatora strojonego w ten właśnie sposób zaprezentowano na poniższym wykresie. Jako przykład obrano klasyfikator Bagging, który w ostatniej iteracji uzyskał stosunkowo satysfakcjonujące wyniki. 1 accuracy rate false-negative rate 0.9 0.8 wskaźniki 0.7 0.6 0.5 0.4 0.3 0 500 1,000 1,500 2,000 2,500 3,000 3,500 4,000 4,500 koszt pomyłki 5

Kluczowe pliki (funkcje i sekwencje czynności) zaimplementowane w R: prepdata.r wczytuje plik źródłowy informacyjny info.txt i przekształca go na format.arff readdata.r wczytuje pliki źródłowe z danymi features.txt oraz informacyjny info.txt i scala je do jednej ramki danych dataall unbinddata.r z zadanej ramki danych eliminuje zadane kolumny craftdata.r przycina dane do konkretnej kategorii np. tylko lewa pierś scenariobody.r dla zadanej ramki danych traindata, która była przygotowana wcześniej dla konkretnego typu danych, wykonuje trening i agreguje wyniki dla poszczególnych klasyfikatorów. Ocena jakości modeli Ewaluacji modeli dokonywano za pomocą metody walidacji krzyżowej 10 stopniowej. Do tego celu zastosowano dostępną w bibliotece Weka funkcję: evaluate Weka classifier. W rezultacie jej działania otrzymano następujące wskaźniki: Quality, False positive, False negative, True positive, True negative. 5 Wyniki Poniższe wykresy prezentują najlepsze rezultaty osiągnięte dla próbek typu CC piersi lewej. 6

1.2 1 0.95 0.93 0.95 0.8 rates 0.6 0.4 0.6 0.31 0.44 0.29 0.2 0 3.8 10 2 0.2 SMO Bagging J48 Logistic accuracy false-negative 6 Podsumowanie Tak uzyskane wyniki, jak i przebieg działań projektowych ciężko określić mianem sukcsesu, głównie ze względu na brak możliwośći jednoznacznej weryfikacji wyników naszych starań. O ile z konkursowego punktu widzenia operownie na zdegenrowanych danych (brak danych testowych, ogromna dysporoporcja klas) może się wydawać ciekawe, o tyle w przypadku analitycznego projektu staje się niemal pozbawione sensu, gdyż wszelkie wyniki przeprowadzonych analiz są co najwyżej estymacjami jakości klasyfikatorów. Pomimo wytworzenia odpowiedniego kodu, nie zdecydowalifśmy się jednak na podział dostępnych danych na zbior treningowy i testowy, ze względu na brak możliwości uzyskania reprezentatywnego zbioru testowego bez dalszej degenracji danych treningowych. Po stronie pozytywów zapisać należy jednak zapoznanie się ze środowiskiem R, częścią pakietu RWeka i biblioteki Weka. Niedociągnięcia można by wyliczać dużo dłużej, jednak wielowymiarowość problemu (wybór typu klasyfikatora, parametrów tegoż, podzbiorów danych i atrybutów) uniemożliwiła równomierną analizę każdego możliwego podejścia w sensownych ramach czasowych. 7

7 Stara część dokumentacji - do przemiału Istotą zadania jest opracowanie metody umożliwiającej wczesne wykrycie raka piersi na podstawie przetworzonych obrazów diagnostycznych. Obowiązkiem wynikowego klasyfikatora będzie wykrywanie wszystkich chorych pacjentów. Stopień niewykrywalności chorób, będzie kluczowym wyznacznikiem jego jakości, a dodatkowym - liczba osób błędnie zakwalifikownaych jako chore. Koszt nieprecyzyjności oraz niedokładności klasyfikacji w tym przypadku jest drugorzędny w stosunku do kosztu nieskuteczności - czyli niewykrycia przypadków chorobowych. 7.0.1 Dane treningowe - przykłady etykietowane Dostępne dane zawierają informacje o blisko 120 chorych oraz 1600 zdrowych pacjentach. Dla większości pacjentów zgromadzono informacje o czterech zdjęciach odpowiadającym różnym ujęciom obu piersi. Każde zdjęcie reprezentowane jest przez pewien zbiór przykładów zawierających wyniki działania bliżej nieznanych algorytmów przetwarzania obrazów. Każdy przykład zawiera dodatkowo m.in. informacje o obrazie, którego dotyczy oraz etykietę określającą stan zdrowia odpowiadającego mu pacjenta. W sumie zbiór treningowy zawiera ponad 100 000 przykładów. Atrybuty opisujące próbkę są ciągłe o rozkładzie nieustalonym. 7.0.2 Dane testowe Udostępniony w ramach konkursu zbiór testowy nie zawiera etykiet przykładów, w związku z czym dane testowe zostaną wydzielone ze zbioru trenującego. W zależności od czasu trwania treningu może to być albo jednorazowy, losowy wybór pewnej liczby pacjentów, pośród których zachowana jest proporcja zdrowych do chorych albo systematyczne wybierany podzbiór danych treningowych na potrzeby testowania oraz budowanie modelu w oparciu o pozostałą część danych treningowych (leave one out). label 1 label 2 label 3 label 4 item 1 item 2 item 3 item 4 8