Metody Odkrywania Wiedzy 12L Temat analityczny: Detekcja wczesnych stadiów raka piersi Dokumentacja projektu



Podobne dokumenty
Sprawozdanie z zadania Modele predykcyjne (2)

Elementy modelowania matematycznego

Klasyfikacja LDA + walidacja

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek


Metody systemowe i decyzyjne w informatyce

Jakość uczenia i generalizacja

ALGORYTM RANDOM FOREST

Wprowadzenie do uczenia maszynowego

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasyfikacji

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Optymalizacja systemów

Data Mining Wykład 4. Plan wykładu

Metody systemowe i decyzyjne w informatyce

Testowanie modeli predykcyjnych

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

METODY INŻYNIERII WIEDZY

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

Algorytm grupowania danych typu kwantyzacji wektorów

Analiza danych. TEMATYKA PRZEDMIOTU

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

9. Praktyczna ocena jakości klasyfikacji

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Ćwiczenie 6. Transformacje skali szarości obrazów

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Drzewa decyzyjne i lasy losowe

Sztuczna inteligencja i inżynieria wiedzy. laboratorium

Metody klasyfikacji danych - część 1 p.1/24

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Etapy modelowania ekonometrycznego

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Pattern Classification

Rozpoznawanie obrazów

Instytut Fizyki Politechniki Łódzkiej Laboratorium Metod Analizy Danych Doświadczalnych Ćwiczenie 3 Generator liczb losowych o rozkładzie Rayleigha.

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Uwaga! Upadek! Opis zadania konkursowego

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Elementy statystyki wielowymiarowej

Systemy uczące się Lab 4

Szkolenie Analiza dyskryminacyjna

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

ALGORYTMY SZTUCZNEJ INTELIGENCJI

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Systemy uczące się wykład 2

Metody selekcji cech

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Laboratorium 4. Naiwny klasyfikator Bayesa.

Wprowadzenie do klasyfikacji

Procesy ETL. 10maja2009. Paweł Szołtysek

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Zasady budowy i przekazywania komunikatów XML w systemie kdpw_otc

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Ćwiczenie 12. Metody eksploracji danych

Szczegółowy opis przedmiotu zamówienia

Zasady budowy i przekazywania komunikatów wykorzystywanych w Systemie IT KDPW_CCP

Konkurs na program antyplagiatowy. Warszawa

Zasady budowy i przekazywania komunikatów XML dla rynku OTC w systemie KDPW_CCP

Uczenie sieci radialnych (RBF)

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Odkrywanie wiedzy w danych

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Sposoby prezentacji problemów w statystyce

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Testowanie hipotez statystycznych.

Podstawy OpenCL część 2

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Wprowadzenie do uczenia maszynowego

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Zadania laboratoryjne i projektowe - wersja β

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Teoria przetwarzania A/C i C/A.

KLASYFIKACJA. Słownik języka polskiego

Automatyczna klasyfikacja zespołów QRS

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Ocena dokładności diagnozy

Zasady budowy i przekazywania komunikatów XML w systemie kdpw_otc

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Metody systemowe i decyzyjne w informatyce

Transkrypt:

Metody Odkrywania Wiedzy 12L Temat analityczny: Detekcja wczesnych stadiów raka piersi Dokumentacja projektu Tomasz Bawej Łukasz Trzaska 12 czerwca 2012 1 Opis zadania Niniejszy dokument dotyczy analitycznego zadania klasyfikacji przeprowadzonej dla danych umieszczonych na stronie http://www.sigkdd.org/kddcup/index. php?section=2008&method=info Zgodnie z wymaganiami zamieszczonymi na stronie przedmiotu, zakres projektu winien obejmować następujące czynności: przygotowanie danych, statystyczny opis danych, transformację danych (np. dyskretyzację, kodowanie atrybutów dyskretnych, standaryzację), selekcja atrybutów, strojenie parametrów algorytmów, tworzenie modeli, wnikliwa ocena jakości modeli, Ponadto klasyfikacyjna natura zadania pociąga za sobą konieczność przeprowadzenia następujących czynności: ustalenia atrybutu dyskretnego reprezentującego pojęcie docelowe, określenia zakresu przygotowania danych (np. przetworzenia do odpowiedniej postaci tabelarycznej, modyfikacji typów/zbiorów wartości atrybutów, eliminacji/naprawy defektów danych, modyfikacji rozkładu kategorii, losowania podzbiorów danych), 1

określenia zakresu i technik statystycznego opisu danych (np. charakterystyki rozkładu wartości atrybytów, detekcji wartości odstających, detekcji zależności między atrybutami), wskazania możliwości zdefiniowania nowych atrybutów, ustalenia kryteriów lub algorytmu selekcji atrybutów, wyboru algorytmów klasyfikacji, wskazania parametrów algorytmów klasyfikacji wymagających strojenia, ustalenia procedur i kryteriów oceny jakości modeli (z uwzględnieniem rozkładu oraz, tam gdzie to uzasadnione, kosztów pomyłek). Opis danych treningowych oraz czynności wynikających bezpośrednio z ich charakteru stanowi temat odrędbnego rozdziału: 3. 2 Cel klasyfikacji Przyporządkować próbkę powstałą ze zdjęcia piersi do jednej z klas: zmiana łagodna (ang. benign) / zmiana złośliwa (ang. malignant). Trenując klasyfikatory szczególną uwagę zwrócić na minimalizację błędu drugiego rodzaju (ang. false negative), aby przypadki złośliwe nie uległy przeoczeniu. 3 Opis dostępnych danych Analizowane w ramach projektu dane pochodzą z konkursu KDD Cup 2008, którego problematyka dotyczyła wczesnej detekcji raka piersi. Same dane reprezentują zbiór przetworzonych obszarów zdjęć rentgenowskich wykonanych dla grupy 118 chorych i 1594 zdrowych pacjentów. Zbór treningowy zawiera łącznie 102294 próbki (określane też zamiennie mianem obszarów lub kandydatów), z których jedynie niewielka część przedstawia zmiany złośliwe. Pewne uproszczenie zadania stanowi fakt, iż zgromadzone dane ograniczają się do przypadków, w których na jednego pacjenta przypada nie więcej niż jedna zmiana nowotworowa. Dane podzielone zostały na zbiór cech oraz informacji o każdej próbce. Zestaw cech liczy 117 atrybutów będących liczbowymi wynikami działania pewnych algorytmów przetwarzania obrazów. Informacja o próbce zawiera 11 atrybutów, które opisane została w Tabeli 1. 2

Tabela 1: Atrybuty opsujące próbkę Atrybut Opis Ground truth label 1 dla zmian złośliwych, -1 dla łagodnych. Image-Finding-ID Unikalny identyfikator zmiany złośliwej, 0 dla zmian łagodnych. Wartość pozwala rozpoznać tę samą zmianę widoczną na różnych zdjęciach tego samego typu. Study-Finding-ID Unikalny identyfikator zmiany pozwalający rozpoznać tę samą zmianę na różnych zdjęciach, bez względu na typ zdjęcia i złośliwość samej zmiany. Image-ID Unikalny identifikator obrazu na podstawie którego wygenerowano próbkę. Study-ID Unikalny identyfikator pacjenta. Dla każdego pacjenta przechowywane są 4 zdjęcia, na ogół ze wszystkich 4. generowane są próbki. LeftBreast 1 jeśli obraz lewej piersi, 0 w przeciwnym przypadku. MLO 1 jeśli obraz MLO, 0 w przeciwnym przypadku. Candidate-X Współrzędna X zmiany. Candidate-Y Współrzędna Y zmiany. Nipple-X Współrzędna X sutka. Nipple-Y Współrzędna Y sutka. Dane użyteczne. Udostępnione przez organizatorów konkursu dane podzielone zostały na zbiory: testowy oraz treningowy, przy czym ze względu na formułę konkursu zbiór testowy został pozbawiony pierwszych 3 elementów opisu (klasa próbki oraz identyfikatory zmiany). Tym samym zbiór danych użytecznych z punktu widzenia zadania ogranicza się do dostępnego zbioru treningowego, dla którego wartość pierwszej kolumny ze zbioru informacji stanowi jednocześnie wartość pojęcia docelowego (atrybut Ground truth label), podczas gdy kolumny MLO, Candidate-X, Candidate-Y, Nipple-X, Nipple-Y mogą stanowić dodatkowe atrybuty. W Tabeli 2. zestawiono statystykę danych, która potwierdza, iż dla Tabela 2: Statystyki danych dla pojedynczego pacjenta Image- ID Patient- ID LBreast MLO Cand-X Cand- Y Nipple- X Nipple- Y Liczba unikalnych wartości 6848 1712 2 2 3273 3407 1449 1172 Średnia liczba unikalnych wartości w przeliczeniu na pacjenta 4 1 2 2 57.44 57.34 3.99 3.99 Minimalna liczba unikalnych wartości w przeliczeniu na pacjenta 4 1 2 2 302 307 4 4 Maksymalna liczba unikalnych wartości w przeliczeniu na pacjenta 4 1 2 2 6 6 3 3 3

każdego pacjenta wykonano 4 zdjęcia. Na podstawie utworzono następnie pewną liczbę próbek (różną dla różnych pacjentów). Dodatkowym mankamentem, lub - operując nomenklaturą konkursową - wyzwaniem, jest także fakt, iż 101671 próbek reprezentuje przypadki łagodne (pierwsza klasa pojęcia docelowego), a 623 reprezentuje przypadki złośliwe (druga klasa pojęcia docelowego) tzn. stosunek klas to w przybliżeniu 6/1000. 4 Rozwiązanie Opis koncepcyjny. Nie mogąc weryfikować rozwiązania na pełnoprawnym zbiorze testowym, użyto walidacji krzyżowej 10 stopniowej, przybliżając tym samym oczekiwaną jakość klasyfikatorów. Użyto klasyfikatora czułego an koszt pomyłek, aby spróbować zrównoważyć znaczne dysproporcje liczności klas. Próbki podzielono na 4 grupy ze względu na typ zdjęcia, na których to grupach osobno trenowano klasyfikatory: lewa pierś i zdjęcie CC lewa pierś i zdjęcie MLO prawa pierś i zdjęcie CC prawa pierś i zdjęcie MLO Większość prezentowanych wyników dotyczy zatem czterech osobnych klasyfikatorów. Próba wytrenowania klasyfikatorów dla pełnego zbioru nierozróżnialnych ze względu na typ zdjęcia próbek nie rokowała lepiej pod względem wyników, a ostatecznie skazana została na porażkę ze względu na dużo dłuższy czas trenowania i szacowania jakości klasyfikatorów. O ile problem jakości można by usiłować łagodzić wprowadzając do zbioru cech atrybuty reprezentujące typ zdjęcia, o tyle problem czasochłonności rozwiązać mogło jedynie przycięcie zbioru treningowego do dwóch równolicznych ze względu na klasę próbki grup. Podejście to obarczone było jednak dużym błędem klasyfikacji dla pełnego zbioru danych (utrata zdolności generalizacji w stosunku do negatywnych próbek). Implementacja. Model zaimplementowano w języku R z użyciem biblioteki RWeka. Procesowi trenowania i oceny jakości dla powyższych 4 typów próbek poddano następujące klasyfikatory: SMO: wektor maszyn podpierających trenowany algorytmem sekwencyjnej minimalizacji John C. Platt (biblioteka Weka: weka.classifiers.functions.smo) Bagging: klasyfikator agregowany (biblioteka Weka: weka.classifiers.meta.bagging) J48: drzewo decyzyjne C4.5 (biblioteka Weka: weka.classifiers.trees.j48) 4

SimpleLogistic: logistyczna regresja liniowa (biblioteka Weka: weka.classifiers.functions.simplelogistic) KNN: klasyfikator najbliższych sąsiadów (biblioteka Weka: weka.classifiers.functions.ibk). Klasyfikator najbliższych sąsiadów przetestowano kilkukrotnie i z uwagi na jego niską skuteczność oraz dużą czasochłonność zrezygnowano z prezentacji podsumowania jego osiągów. Iteracyjne strojenie algorytmów. Korzystając z dekoratora klasyfikatorów uwrażliwiającego je na koszty pomyłek (Weka: weka.classifiers.meta.costsensitiveclassifier), minimalizowany jest błąd drugiego rodzaju (ang. false negative). W kolejnych iteracjach podawana jest macierz kosztów pomyłek, nakładająca większą karę za pomyłkę przydziału próbki malignant do klasy benign. Podsumowanie właściwości klasyfikatora strojonego w ten właśnie sposób zaprezentowano na poniższym wykresie. Jako przykład obrano klasyfikator Bagging, który w ostatniej iteracji uzyskał stosunkowo satysfakcjonujące wyniki. 1 accuracy rate false-negative rate 0.9 0.8 wskaźniki 0.7 0.6 0.5 0.4 0.3 0 500 1,000 1,500 2,000 2,500 3,000 3,500 4,000 4,500 koszt pomyłki 5

Kluczowe pliki (funkcje i sekwencje czynności) zaimplementowane w R: prepdata.r wczytuje plik źródłowy informacyjny info.txt i przekształca go na format.arff readdata.r wczytuje pliki źródłowe z danymi features.txt oraz informacyjny info.txt i scala je do jednej ramki danych dataall unbinddata.r z zadanej ramki danych eliminuje zadane kolumny craftdata.r przycina dane do konkretnej kategorii np. tylko lewa pierś scenariobody.r dla zadanej ramki danych traindata, która była przygotowana wcześniej dla konkretnego typu danych, wykonuje trening i agreguje wyniki dla poszczególnych klasyfikatorów. Ocena jakości modeli Ewaluacji modeli dokonywano za pomocą metody walidacji krzyżowej 10 stopniowej. Do tego celu zastosowano dostępną w bibliotece Weka funkcję: evaluate Weka classifier. W rezultacie jej działania otrzymano następujące wskaźniki: Quality, False positive, False negative, True positive, True negative. 5 Wyniki Poniższe wykresy prezentują najlepsze rezultaty osiągnięte dla próbek typu CC piersi lewej. 6

1.2 1 0.95 0.93 0.95 0.8 rates 0.6 0.4 0.6 0.31 0.44 0.29 0.2 0 3.8 10 2 0.2 SMO Bagging J48 Logistic accuracy false-negative 6 Podsumowanie Tak uzyskane wyniki, jak i przebieg działań projektowych ciężko określić mianem sukcsesu, głównie ze względu na brak możliwośći jednoznacznej weryfikacji wyników naszych starań. O ile z konkursowego punktu widzenia operownie na zdegenrowanych danych (brak danych testowych, ogromna dysporoporcja klas) może się wydawać ciekawe, o tyle w przypadku analitycznego projektu staje się niemal pozbawione sensu, gdyż wszelkie wyniki przeprowadzonych analiz są co najwyżej estymacjami jakości klasyfikatorów. Pomimo wytworzenia odpowiedniego kodu, nie zdecydowalifśmy się jednak na podział dostępnych danych na zbior treningowy i testowy, ze względu na brak możliwości uzyskania reprezentatywnego zbioru testowego bez dalszej degenracji danych treningowych. Po stronie pozytywów zapisać należy jednak zapoznanie się ze środowiskiem R, częścią pakietu RWeka i biblioteki Weka. Niedociągnięcia można by wyliczać dużo dłużej, jednak wielowymiarowość problemu (wybór typu klasyfikatora, parametrów tegoż, podzbiorów danych i atrybutów) uniemożliwiła równomierną analizę każdego możliwego podejścia w sensownych ramach czasowych. 7

7 Stara część dokumentacji - do przemiału Istotą zadania jest opracowanie metody umożliwiającej wczesne wykrycie raka piersi na podstawie przetworzonych obrazów diagnostycznych. Obowiązkiem wynikowego klasyfikatora będzie wykrywanie wszystkich chorych pacjentów. Stopień niewykrywalności chorób, będzie kluczowym wyznacznikiem jego jakości, a dodatkowym - liczba osób błędnie zakwalifikownaych jako chore. Koszt nieprecyzyjności oraz niedokładności klasyfikacji w tym przypadku jest drugorzędny w stosunku do kosztu nieskuteczności - czyli niewykrycia przypadków chorobowych. 7.0.1 Dane treningowe - przykłady etykietowane Dostępne dane zawierają informacje o blisko 120 chorych oraz 1600 zdrowych pacjentach. Dla większości pacjentów zgromadzono informacje o czterech zdjęciach odpowiadającym różnym ujęciom obu piersi. Każde zdjęcie reprezentowane jest przez pewien zbiór przykładów zawierających wyniki działania bliżej nieznanych algorytmów przetwarzania obrazów. Każdy przykład zawiera dodatkowo m.in. informacje o obrazie, którego dotyczy oraz etykietę określającą stan zdrowia odpowiadającego mu pacjenta. W sumie zbiór treningowy zawiera ponad 100 000 przykładów. Atrybuty opisujące próbkę są ciągłe o rozkładzie nieustalonym. 7.0.2 Dane testowe Udostępniony w ramach konkursu zbiór testowy nie zawiera etykiet przykładów, w związku z czym dane testowe zostaną wydzielone ze zbioru trenującego. W zależności od czasu trwania treningu może to być albo jednorazowy, losowy wybór pewnej liczby pacjentów, pośród których zachowana jest proporcja zdrowych do chorych albo systematyczne wybierany podzbiór danych treningowych na potrzeby testowania oraz budowanie modelu w oparciu o pozostałą część danych treningowych (leave one out). label 1 label 2 label 3 label 4 item 1 item 2 item 3 item 4 8