ZASTOSOWANIE METOD ANALIZY STATYSTYCZNEJ ORAZ EKSPLORACJI DANYCH DO KLASYFIKACJI OBRAZÓW HISTOPATOLOGICZNYCH HER2

Transkrypt

1 Karol Radziszewski, Krzysztof Sikora, Marek Skowroński, Specjalność: Inteligentne systemy informatyczne Prowadząca: prof. dr hab. inż. H. Kwaśnicka SYSTEMY WIZYJNE ZASTOSOWANIE METOD ANALIZY STATYSTYCZNEJ ORAZ EKSPLORACJI DANYCH DO KLASYFIKACJI OBRAZÓW HISTOPATOLOGICZNYCH HER2 Abstrakt: Zakres projektu obejmuje zaprojektowanie wektora cech, opisującego wskazane obrazy. Następnie na podstawie analizy statystycznej i metod drążenia danych podjęta zostanie próba budowy klasyfikatora tych obrazów na zadane klasy. Powstały klasyfikator będzie wspierał proces podejmowania decyzji o przyznaniu pacjentowi wskazanego leku, reprezentowanego przez wskazane obrazy histopatologiczne. W szczególności ma on pozwolić na rozpoznanie typu komórek nowotworowych dla wskazanego materiału badawczego. Pozwoli to określić skład utkania nowotworu, a co za tym idzie prawidłowe rozpoznanie histopatologiczne.

2 SPIS TREŚCI 1. Opis problemu Medyczny punkt widzenia Informatyczny punkt widzenia Krótki opis zastosowanych narzędzi analizy danych Narzędzia predykcji: Regresja liniowa Regresja wielomianowa Narzędzia klasyfikacji Perceptron wielowarstwowy Radialna sieć neuronowa Probabilistyczna sieć neuronowa SOTA Naiwny klasyfikator bayesowski Narzędzia redukcji wymiarowości PCA MDS Macierz korelacji Schemat badań Wyniki badań Analiza uzyskanych wyników Analiza porównawcza klasyfikatorów Analiza porównawcza metod redukcji wymiarowości cech Obserwacje, spostrzeżenia Dalsze kierunki prac Bibliografia

3 1. OPIS PROBLEMU 1.1. MEDYCZNY PUNKT WIDZENIA Podstawowym elementem zaproponowanego projektu badawczego jest przetwarzanie oraz analiza obrazów histopatologicznych (z natury obrazy wielokolorowe). Zbadane zostaną preparaty raka przewodowego gruczołu piersiowego obrazujące ekspresję naskórkowego czynnika wzrostu typu 2 (HER2/neu), gdyż ocena ekspresji tego błonowego białka ma duże znaczenie w postępowaniu diagnostyczno-leczniczym i jest oceną subiektywną (oko ludzkie). Poza obrazami HER-2 badaniami ujęte zostaną również inne białka wykazujące błonową ekspresję tj. E- kadheryna, EGFR (epidermal growth factor receptor) oraz MT-1R (melatonin type 1 receptor) w rakach przewodowych gruczołu piersiowego. Tym samym elementem kluczowym w ramach proponowanego grantu będzie wprowadzenie dokładnych, wiarygodnych oraz automatycznych metod przetwarzania obrazów histopatologicznych. Podstawowym problem badawczym proponowanego projektu badawczego stanowić będzie właściwa analiza obrazów przedstawiających ekspresje receptora HER2 (poniżej w skrócie, obrazy te określane są jako Obrazy HER2 ). Właściwa analiza nie tylko będzie dedykowana problematyce rozpoznania obiektów na obrazach HER2, lecz również będzie dotyczyć problemu rozpoznania kategorii obrazu ([0], [1+], [2+] oraz [3+]). Poniżej przedstawiono obrazy HER2 różnych kategorii (rys. 1 4). 3

4 Podstawowy mankament dotychczas stosowanej analizy preparatów histopatologicznych polega na tym, że analizowane były tylko cechy jakościowe (niemierzalne), co bardzo ogranicza możli- 4

5 wość użycia metod obliczeniowych i nie pozwala rozwiązać bardziej zaawansowanych problemów badawczych. Proponowany proces segmentacji obrazów umożliwia określenie cech ilościowych badanego materiału. Pozwala to na ich dalszą analizę pod kątem uporządkowania, klasyfikacji oraz porównania, jak również umożliwi to przeprowadzenie bardziej zaawansowanych badań, takich jak: szukanie wzorców, powiązań, zmian lub anomalii dla pozyskanych danych. W fazie początkowej analizy, dane zostaną odpowiednio przygotowane zostanie przeprowadzony proces oczyszczania, integracji oraz zostaną zastosowane odpowiednie transformacje. Następnie dane zostaną poddane procesowi klasyfikacji. W szczególności: W przypadku badania nasilenia ekspresji receptora HER-2 w komórkach raka gruczołu piersiowego (stopień tej ekspresji ma bezpośredni wpływ na decyzje o leczeniu - tylko przy dużym nasileniu (3+) można podjąć decyzję o zastosowaniu trastuzumabu w procesie leczenia), zostanie zastosowana analiza dyskryminacyjna w celu rozpoznania grup nadekspresji białka HER-2 (podobnie dla białek tj. E-kadheryna, MT-1R oraz EGFR). Przeprowadzone zostaną badania dotyczące rozpoznania typów komórek nowotworowych dla analizowanego materiału badawczego. Pozwoli to określić skład utkania nowotworu, a co za tym idzie prawidłowe rozpoznanie histopatologiczne. Zostanie zastosowana analiza dyskryminacyjna, analiza czynnikowa w celu redukcji wymiarowości przestrzeni cech oraz w celu zbadania prawidłowości i powiązań w badanym zbiorze danych, oraz analiza wariancji do wykazania różnic w badanych obiektach INFORMATYCZNY PUNKT WIDZENIA Odkładając na bok bardzo naukowy opis problemu z punktu widzenia medycyny, spróbujmy zdefiniować właściwy problem, który będziemy się starać rozwiązać, korzystając z wiedzy i możliwości, jakie dają nauki techniczne (w szczególności informatyczne, a konkretnie - przetwarzanie obrazów). Naszym zadaniem będzie budowa pewnego wektora cech dla każdego obrazu wejściowego. Wektor ten, a nie obraz jako taki (macierz pikseli), będzie właściwym wejściem do klasyfikatora. Klasyfikator zaś to moduł, którego zadaniem jest znalezienie takiego przyporządkowania, które na podstawie danych trenujących będzie potrafiło przekształcić dany wektor wejściowy na liczbę, uzyskiwaną na wyjściu, reprezentującą klasę danego obrazka. 5

6 W związku z tym, aby poprawnie zdefiniować problem, należy udzielić odpowiedzi na dwa pytania: 1. W jaki sposób reprezentować wektor wejściowy (innymi słowy: jakiego typu dane powinny opisywać obraz)? 2. Jaki klasyfikator wybrać? Odpowiedzią na drugie pytanie jest temat tego opracowania. Do klasyfikacji wykorzystane zostaną różne klasyfikatory, wybrane z bazy dostępnych opracowań w środowisku KNIME, które to środowisko zostanie wykorzystane, jako baza do testów, badań i symulacji. Zdecydowaliśmy się na wybór następujących klasyfikatorów: Perceptron wielowarstwowy (ang. multi-layered perceptron, MLP) Probabilistyczna sieć neuronowa (ang. probabilistic neural network, PNN) Radialna sieć neuronowa (ang. radial neural network, RNN) Algorytm samoorganizującego się drzewa (ang, self-organizing tree algorithm, SOTA) Naiwny klasyfikator bayesowski (ang. Naive Bayes, NBAY) Obok typowych klasyfikatorów, testom poddaliśmy też predyktory, operujące na danych ciągłych (numerycznych). Tu nas wybór padł na najbardziej tradycyjne metody: Regresja liniowa Regresja wielomianowa Wciąż jednak pozostaje ważne i aktualne pytanie pierwsze. Jak reprezentować obraz? Niestety nie istnieje odpowiedź, co do której poprawności można by mieć stuprocentową pewność. Problem ekstrakcji cech z obrazów jest tematem wielu rozważań naukowców i jedyne sensowne stanowisko, jakie udało się do tej pory wypracować mówi, iż nie istnieje jeden uniwersalny model transformacji obrazu wejściowego do wektora cech. Innymi słowy sposób reprezentacji i wybór cech zależy od konkretnego problemu. Aby jednak nie wymyślać na nowo koła, zdecydowaliśmy się wybrać reprezentację zaproponowaną przez Kostopoulosa Spilousa [1], który w swojej rozprawie doktorskiej zawarł pewien interesujący projekt wektora cech. Zdaniem Greka, w przypadku problemów rozpoznawania obrazów biomedycznych, wektor cech obrazu powinien składać się z trzech podwektorów. Każdy taki podwektor jest zbudowany z innych danych wejściowych: a) Podwektor cech oparty na analizie statystycznej niskiego rzędu (analiza histogramu) : i. Wartość średnia ii. Odchylenie standardowe (, ) 6

7 ( (, iii. Skośność 1, iv. Kurtoza 1, b Podwektor cech oparty na macierzy współwystępowania ang. co-occurence matrix Macierz współwystępowania tworzy się przez sprawdzenie warunku / relacji pomiędzy dwoma pikselami. Gdzie: K, L wymiary obrazu, 1 R maksymalna wielkość sąsiedztwa,, 1 0,, 1,2,, 1,2,, i. Drugi moment kątowy ang. angular second moment ASM ii. Contrast ang. contrast CON,, iii. Odwrócony moment różnicowy ang. inverse different moment IDM, 1 7

8 iv. Entropia (ang. entropy ENT) (, log (, ) v. Korelacja (ang. correlation COR) ( ) (, ) Gdzie: m x, m y, std x, std y to wartości średnie i odchylenia standardowe p x i p y, które są opisane następująco: ( ) (, ) ( ) (, ) vi. Suma kwadratów (ang. sum of squares SSQ) (1 ) (, ) vii. Suma średnich (ang. sum of averages SAVE) ( ) ( ) (, ) viii. Suma entropii (ang. sum of entropies SENT) ( ( ))log( ( )) ix. Suma wariancji (ang. sum of variances SVAR) () ( ( )) x. Wariancja różnicowa (ang. difference variance DVAR) () ( ( )) xi. Entropia różnicowa (ang. difference entropy DENT) ( ( ))log( ( )) 8

9 ( ) (, ) 2,3,, 1 c) Podwektor cech oparty na macierzy długości pasm (ang. run-length matrix) Macierz ta jest wyznaczana dla określonego kierunku (teta), a każdy jej element R(i,j) zawiera informację, ile razy wystąpiło pasmo pikseli o kolorze g oraz długości d. i. Odwrotny moment uwydatniania krótkich pasm (ang. Short run emphasis - SRE) (, )/ (, ) ii. moment uwydatniania długich pasm (ang. Long run emphasis - LRE) (, ) (, ) iii. niejednorodność skali szarości (ang. Grey level non-uniformity - GLNU) (, ) (, ) iv. niejednorodność długości pasm (ang. Run-length non-uniformity RLNU) (, ) (, ) v. wartość procentowa (ang. Run percentage RP) (, )/ Gdzie P to maksymalna wartość w macierzy. Jak łatwo zauważyć, ilość cech z macierzy współwystępowania oraz z macierzy długości pasm zależy od kilku czynników: 1. Macierz współwystępowania: a. Ilość rozważanych kierunków należy się zastanowić, czy interesują nas wyłącznie piksele położone na liniach prostopadłych względem siebie, czy może też te na liniach ukośnych. Jeśli bierzemy pod uwagę drugą możliwość, wówczas liczba cech rośnie nam dwukrotnie. 9

10 b. Ilość możliwych odległości D zwyczajowo przyjmuje się, że dla 0<D<6 uzyskuje się już dostatecznie szczegółowe cechy. c. Jeśli weźmiemy pod uwagę kierunki prostopadłe oraz ukośne i maksymalną zwyczajową ilość odległości D, otrzymujemy: i. Ilość kierunków: 8 ii. Ilość odległości: 5 iii. Ilość cech: 11 W sumie: 8*5* cech tylko z macierzy współwystępowania. 2. Macierz długości pasm: a. Ilość rozważanych kierunków podobnie jak w przypadku macierzy współwystępowania W sumie (8/ 2 4) *(ilość cech 5) 20 cech tylko z macierzy długości pasm. Otrzymujemy zatem wektor cech o długości: 1) Analiza histogramu: 4 cechy 2) Macierz współwystępowania: 440 cech 3) Macierz długości pasm: 20 cech W sumie daje to wektor cech o długości 464. Ponieważ otrzymany wektor cech ma bardzo dużo atrybutów, celowym może się wydawać zastosowanie metod redukcji wymiarowości tegoż wektora. Dlatego też obok badania skuteczności działania klasyfikatora jako jakiego, sprawdzimy również wpływ stosowania następujących metod redukcji wymiarowości: Macierz korelacji Algorytm analizy głównych składowych (PCA) Algorytm skalowania wielowymiarowego (MDS) W celu klasyfikacji danych zostaną zastosowanie różne metody analizy statycznej oraz eksploracji danych. Uzyskane wyniki zostaną poddane weryfikacji zarówno statystycznej jak i medycznej (względem wiedzy eksperta dziedzinowego). 10

11 2. KRÓTKI OPIS ZASTOSOWANYCH NARZĘDZI ANALIZY DANYCH 2.1 NARZĘDZIA PREDYKCJI: REGRESJA LINIOWA Regresja to sprowadzenie zagadnienia współzależności zmiennych losowych do zależności funkcyjnej. Na podstawie wyników badań doświadczalnych wyznacza się zależność pomiędzy zmiennymi losowymi, najczęściej w formie tzw. równania regresji, które przedstawia charakter związków pomiędzy czynnikami wejściowymi i wynikowymi. Z matematycznego punktu widzenia, regresją nazywamy dowolną metodę statystyczną pozwalającą estymować warunkową wartość oczekiwaną zmiennej losowej, zwanej zmienną objaśnianą, dla zadanych wartości innej zmiennej lub wektora zmiennych losowych (tzw. zmiennych objaśniających). W zapisie formalnym model przybiera postać: Y f(x,β) + ε lub Y f(x+ ε X,β) + ε gdzie: X wektor zmiennych objaśniających Y zmienna objaśniana β - wektor współczynników regresji f(x,β) funkcja regresji ε, ε X - błąd losowy Celem konstrukcji modelu jest przybliżenie nieznanej funkcji f przez jej estymator. Sprowadza się to do takiego wyznaczenia estymatora wektora współczynników β, aby zminimalizować w zbiorze uczącym funkcję straty. L(f, f) f(δ(a,b)) Zwykle jako miarę błędów stosuje się sumę kwadratów różnic (błędów regresji): Δ(a,b) Δ(a-b) 2 wówczas obliczenia są najprostsze - dopasowanie modelu sprowadza się do zastosowania prostej matematycznie metody najmniejszych kwadratów (MNK). 11

12 Użycie regresji: 1. Konstruowanie modelu - budowa tzw. modelu regresyjnego czyli funkcji opisującej jak zależy wartość oczekiwana zmiennej objaśniającej od zmiennych objaśnianych. Funkcja ta może być zadana nie tylko czystym wzorem matematycznym, ale także całym algorytmem, np. w postaci drzewa regresyjnego, sieci neuronowej, itp. Model konstruuje się tak, aby jak najlepiej pasował do danych z próby, zawierającej zarówno zmienne objaśniające, jak i objaśniane (tzw. zbiór uczący). 2. Wyliczanie regresji (stosowanie modelu, scoring) - użycie wyliczonego modelu do danych w których znamy tylko zmienne objaśniające, w celu wyznaczenia wartości oczekiwanej zmiennej objaśnianej. Rys , Prezentacja krzywej regresji liniowej REGRESJA WIELOMIANOWA Zaniechanie warunku liniowości może być użyteczne w przypadku analizowania zmiennych charakteryzujących się występowaniem zjawiska nasycenia. Jedną z metod dobrze odzwierciedlających nieliniowy związek pomiędzy zmiennymi jest regresja wielomianowa. Omawiana metoda oblicza zależność między zmienną zależną a jedną lub więcej zmiennymi niezależnymi, które mogą występować w wyższych potęgach. Model regresji wielomianowej z jedną zmienna objaśniającą w ogólnej postaci przedstawiono wzorem:

13 gdzie: y zmienna objaśniana, X zmienna objaśniająca (predyktor), β 0, β 1, β 2, β m parametry modelu, przy czym wyraz wolny β 0 jest punktem przecięcia linii regresji z osią rzędnych, m stopień wielomianu, tj. najwyższa potęga w jakiej pojawia się zmienna X, ε - błąd losowy. Rys Prezentacja krzywej regresji wielomianowej 2.2 NARZĘDZIA KLASYFIKACJI PERCEPTRON WIELOWARSTWOWY Perceptrony wielowarstwowe, czyli jednokierunkowe sieci wielowarstwowe są najbardziej znanymi i najczęściej wykorzystywanymi strukturami sieci. Wyróżnia się w nich warstwę wejściową, warstwy ukryte oraz warstwę wyjściową. Dzięki połączeniom neurony znajdujące się na sąsiadujących warstwach mogą się ze sobą komunikować. Wszystkie neurony wchodzące w skład sieci dokonują agregacji danych wejściowych poprzez wyznaczenie sumy ważonych wejść, funkcja aktywacji neuronów wejściowych ma charakter liniowy, neuronów ukrytych nieliniowy (najczęściej s-kształtny), zaś neuronów wyjściowych liniowy bądź nieliniowy. 13

14 W przypadku jednokierunkowych sieci jest stosowany tryb uczenia się z nauczycielem. Ich struktura jest nieskomplikowana, ale dużym problemem jest jej odpowiednia konstrukcja. Charakteryzują się one również stosunkowo długim czasem uczenia w porównaniu z innymi typami sieci. Perceptrony wielowarstwowe posiadają umiejętności ekstrapolacji, co może być wykorzystywane w rozwiązywaniu różnego typu problemów. Podczas konstrukcji modelu wykorzystującego perceptron wielowarstwowy ważnym etapem jest konstrukcja samej sieci, szczególnie jej warstw ukrytych i sposobów połączeń neuronów, od których zależeć będzie sposób funkcjonowania sieci. W sytuacji wykorzystania sieci do prognozowania szeregów czasowych bardzo istotnym zagadnieniem jest odpowiedni schemat uczenia sieci oraz dobór zmiennych wejściowych, które to mogą przyjmować wartości opóźnione. Rys Schemat perceptronu wielowarstwowego RADIALNA SIEĆ NEURONOWA Sieć radialna jest odmianą iteracyjnej sztucznej sieci neuronowej. W radialnych sztucznych sieciach neuronowych odwzorowanie zbioru wejściowego w wyjściowy jest realizowane przez dopasowanie wielu pojedynczych funkcji aproksymujących do wartości zadanych, ważne jedynie w wąskim obszarze przestrzeni wielowymiarowej. Neuron w warstwie ukrytej realizuje funkcję zmieniającą się radialnie wokół wybranego centrum c i przyjmującą wartości niezerowe tylko w otoczeniu tego centrum. Funkcję taką oznaczamy w postaci f i(x) f i( x c ) i nazywamy radialną funkcją bazową. Neuron ma za zadanie odwzorować radialną przestrzeń wokół jednego zadanego punktu lub grupy punktów stanowiących klaster. Superpozycja sygnałów od wszystkich neuronów ukrytych, dokonywana przez neuron wyjściowy, pozwala uzyskać odwzorowanie całej przestrzeni wielowymiarowej. Architektura sieci radialnych ma strukturę analogiczną do struktury wielowarstwowej sieci sigmoidalnej o jednej warstwie ukrytej, która to reprezentuje odwzorowanie nieliniowe realizowane przez neurony o radialnej funkcji bazowej. 14

15 Najprostsza sieć radialna działa na zasadzie wielowymiarowej interpolacji, która odwzorowuje p różnych wektorów wejściowych x i (i 1,2...p) z przestrzeni wejściowej N-wymiarowej w zbiór p liczb rzeczywistych d i (i 1,2...p). Odpowiada to przyjęciu p neuronów radialnych w warstwie ukrytej i określenie funkcji odwzorowania F(x), dla której spełnione są warunki interpolacji F(x) d i. Dobór liczby neuronów warstwy ukrytej w sieciach radialnych (sieciach iteracyjnych) zależy od przyjętego błędu. Neurony są dodawane iteracyjnie, 1 neuron w jednej iteracji aż do osiągnięcia błędu średniokwadratowego podanego przez użytkownika lub osiągnięcia maksymalnej liczby neuronów. Maksymalna liczba neuronów równa jest liczbie wektorów wejściowych, np. jeżeli x i (i 1,2...p), to maksymalna liczba neuronów równa jest p. Rys Schemat architektury sieci radialnej PROBABILISTYCZNA SIEĆ NEURONOWA W sieci PNN występują przynajmniej trzy warstwy: wejściowa, radialna i wyjściowa. Neurony radialne mają parametry kopiowane bezpośrednio z danych uczących; każdy z nich odpowiada jednemu przypadkowi. Wygląda to w taki sposób, że każdy z neuronów radialnych modeluje funkcję Gaussa wycentrowaną nad "swoim" przypadkiem uczącym. Natomiast w warstwie wyjściowej każdej klasie odpowiada jeden neuron. Do każdego z tych neuronów wyjściowych docierają połączenia od tych neuronów radialnych, które zostały ustawione nad punktami (zestawami danych wejściowych) należącymi do danej klasy; nie występują natomiast połączenia neuronów wyjściowych z innymi neuronami radialnymi. Neurony wyjściowe sumują więc po prostu wartości wyjściowe pojawiające się na wyjściach neuronów radialnych, należących do klasy odpowiadającej danemu neuronowi wyjściowemu. Wartości wyjściowe neuronów wyjściowych są więc proporcjonalne do estymatorów jądrowych funkcji gęstości prawdopodobieństwa dla róż- 15

16 nych klas i po zastosowaniu normalizacji zapewniającej ich sumowanie do jedności stanowią wprost oszacowania prawdopodobieństwa przynależności do poszczególnych klas. Podstawowy model sieci PNN może być zmodyfikowany na dwa sposoby. Pierwszy sposób polega na tym, że zmienia się sposób traktowania udziału reprezentacji poszczególnych klas w zbiorze uczącym. Podstawowe podejście zakłada, że udział przedstawicieli poszczególnych klas w zbiorze uczącym jest zgodny z rzeczywistym odsetkiem przypadków zaliczanych do tej klasy w modelowanej populacji (są to tak zwane prawdopodobieństwa a priori). Jeśli prawdopodobieństwo a priori różni się od udziału przypadków należących do danej klasy w ciągu uczącym, to oszacowania rozkładów wyznaczane przez sieć będą także nieprawidłowe. W celu zniwelowania wpływu takich problemów i związanych z nimi dysproporcji można w sieci jawnie wyspecyfikować prawdopodobieństwa a priori (jeśli są one znane), co spowoduje zmianę wartości wag neuronów wyjściowych sieci dla ich wejść odpowiadających neuronom ukrytym poszczególnych klas. Drugi sposób zmodyfikowania modelu sieci PNN może polegać na odmiennym traktowaniu różnych rodzajów błędów pojawiających się w trakcie uczenia i eksploatacji sieci. Ogólnie wiadomo, że sieć dokonująca estymacji nieznanego rozkładu gęstości prawdopodobieństwa w oparciu o dane zniekształcone przez szumy odtworzy potrzebną funkcję z błędami, w wyniku czego będzie nieuchronnie klasyfikować podawane jej dane w pewnych przypadkach błędnie. Skutek takich błędów jest oczywiście zawsze zdecydowanie niekorzystny, bo jest zawsze rzeczą naganną, jeśli na przykład osoba w rzeczywistości chora zostanie uznana za zdrową. Jednakże pewne rodzaje błędnej klasyfikacji mogą być uznawane za "bardziej kosztowne" niż inne. W takich przypadkach, gdy zachodzi potrzeba zróżnicowania "cen błędów" można wprowadzić do programu procedurę "ważenia" surowych prawdopodobieństw wyznaczonych przez sieć. Dokonuje się tego poprzez zastosowanie w programie specjalnie ustalanych "czynników straty", które odzwierciedlają koszty błędnej klasyfikacji - ewentualnie różne w przypadku różnych możliwych typów błędów. 16

17 Rys Schemat architektury sieci PNN SOTA Algorytm SOTA (ang. Self Organizing Tree Algorithm) jest połączeniem pewnych aspektów hierarchicznej klasteryzacji oraz map samoorganizujących (SOM). Bazując na sieci neuronowej, algorytm SOTA cechuje się wysoką skutecznością, nawet przy mocno zaszumionych danych. Cechą charakterystyczną jest topologia sieci, oparta na rozbudowującym się drzewie binarnym, mapującym w ten sposób zależności między danymi. Budowa drzewa odbywa się epokami. W każdej epoce na wejście podawany jest zbiór danych z wektora uczącego. Po prezentacji każdego ze wzorców neuron, który odpowiedział najskuteczniej aktualizuje swoje wagi. Na koniec każdego cyklu (epoki) neuron, który najczęściej odpowiadał produkuje dwóch swoich następników. Proces jest powtarzany tak długo, aż każda komórka jest dopasowana do jednego wzorca uczącego lub do momentu uzyskania warunku stopu (stopnia heterogeniczności dopasowania) NAIWNY KLASYFIKATOR BAYESOWSKI Naiwne klasyfikatory bayesowskie są oparte na założeniu o wzajemnej niezależności predyktorów (zmiennych niezależnych). Często nie mają one żadnego związku z rzeczywistością i właśnie z tego powodu nazywa się je naiwnymi. Bardziej opisowe jest określenie model cech niezależnych. Ponadto model prawdopodobieństwa można wyprowadzić korzystając z twierdzenia Bayesa. W zależności od rodzaju dokładności modelu prawdopodobieństwa, naiwne klasyfikatory bayesowskie można skutecznie uczyć w trybie uczenia z nadzorem. W wielu praktycznych aplika- 17

18 cjach, estymacja parametru dla naiwnych modeli Bayesa używa metody maksymalnego prawdopodobieństwa a posteriori; inaczej mówiąc, można pracować z naiwnym modelem Bayesa bez wierzenia w twierdzenie Bayesa albo używania jakichś metod Bayesa. Pomimo ich naiwnego projektowania i bardzo uproszczonych założeń, naiwne klasyfikatory Bayesa często pracują dużo lepiej w wielu rzeczywistych sytuacjach niż można było tego oczekiwać. Model prawdopodobieństwa dla klasyfikatora jest modelem warunkowym przez zmienną zależną klasy C z niewielu rezultatów albo klas, zależnych od kilku opisujących zmiennych F 1 do F n. Problem pojawia się, gdy liczba cech n jest duża lub gdy cecha może przyjmować dużą liczbę wartości. Wtedy opieranie się na modelu tablic prawdopodobieństw jest niewykonalne. Dlatego też inaczej formułuje się taki model, by był bardziej przystępny. Korzystając z twierdzenia Bayesa: W praktyce interesujący jest tylko licznik ułamka, bo mianownik nie zależy od C i wartości cechy. Mianownik jest więc stały. Licznik ułamka jest równoważny do łącznego modelu prawdopodobieństwa który można zapisać, wykorzystując prawdopodobieństwo warunkowe i tak dalej. Włącza się teraz naiwną warunkową zależność. Zakładając, że każda cecha F i jest warunkowo niezależna od każdej innej cechy F j dla 18

19 Oznacza to więc model można wyrazić jako Oznacza to, że pod powyższymi niezależnymi założeniami, warunkowe rozmieszczenie nad klasą zmiennych C można zapisać gdzie Z jest współczynnikiem skalowania zależnym wyłącznie od. Modele tej formy są łatwiejsze do zrealizowania, gdy rozłoży się je na czynniki zwane klasą prior p(c) i niezależny rozkład prawdopodobieństwa. Jeśli są klasy k i jeśli model dla p(f i) może być wyrażony przez parametr r, wtedy odpowiadający naiwny model Bayesa ma (k 1) + n r k parametrów. W praktyce często k 2 (klasyfikacja binarna) i r 1 (zmienna Bernouliego jako cecha), wtedy całkowita liczba parametrów naiwnego modelu Bayesa to 2n + 1, gdzie n jest liczbą binarnych użytych cech. W przypadku uczenia z nadzorem, chcemy ocenić parametry probabilistycznego modelu. Z powodu niezależnych cech założenia, wystarczy ocenić klasę poprzednią i zależną cechę modelu niezależnie, wykorzystując metodę maksimum prawdopodobieństwa a posteriori (MAP), wnioskowanie Bayesa lub inną parametryczną procedurę estymacji. Dotychczasowe omówienie problemu wyprowadziło model niezależnych cech, które są naiwnym probabilistycznym modelem Bayesa. Naiwny klasyfikator bayesowski łączy ten model z regułą decyzyjną. Jedna, ogólna reguła ma wydobyć hipotezę najbardziej prawdopodobną. Odpowiadający klasyfikator jest funkcją classify, zdefiniowaną 19

20 2.3 NARZĘDZIA REDUKCJI WYMIAROWOŚCI PCA Wielowymiarowe dane z reguły nie są równomiernie rozrzucone wzdłuż wszystkich kierunków układu współrzędnych, ale koncentrują się w pewnych podprzestrzeniach oryginalnej przestrzeni. Celem analizy składowych głównych (ang. Principal Component Analysis, PCA) jest znalezienie tych podprzestrzeni w postaci tzw. składników głównych (zwanych czasami kierunkami). Są to wektory, które pełnią rolę nowych współrzędnych analizowanych danych wielowymiarowych. Składników głównych jest zdefiniowanych tyle, ile wymiarów pierwotnych danych. Analiza składowych głównych oparta jest na wykorzystaniu podstawowych w statystyce pojęć, jakimi są m.in. korelacja i wariancja. Pojęcia te wraz z wybranymi elementami algebry liniowej tworzą matematyczną całość służącą do analizy danych wielowymiarowych. Pojęcia powyższe nie będą dokładniej omawiane w pracy (praktycznie każdy podręcznik statystyki je wyjaśnia), niemniej wiele z nich pojawi się niejako samoistnie w przykładach. W literaturze statystycznej metoda PCA klasyfikowana jest jako eksploracyjna analizy danych. Składnikami głównymi okazują się być (stosunkowo łatwe do wyliczenia) wektory własne tzw. macierzy kowariancji zbioru danych. Z wektorami własnymi związane są odpowiadające im wartości własne, które są (dla macierzy kowariancji) dodatnimi liczbami rzeczywistymi. Wybierając wektory odpowiadające kilku największym wartościom własnym, otrzymujemy poszukiwany zbiór nowych kierunków układu współrzędnych. Kierunki te (co jest istotą metody) są kierunkami maksymalizującymi zmienność danych w sensie wariancji. Kierunki te są ze sobą nieskorelowane (używa się też algebraicznego pojęcia ortogonalne). Przyjmuje się oczywiście, że wszystkie atrybuty pierwotnego zbioru danych opisują 100% zmienności tych danych. Analiza składowych głównych jest metodą liniową. W metodzie zakłada się możliwość znalezienia nowych osi (kierunków), które lepiej opisują nasze dane na przykład w sensie ich logicznego pogrupowania (ang. clustering). Osie te są oczywiście liniami prostymi. Zdarzyć się jednak może, że układ analizowanych danych jest taki, że nie będzie możliwa sensowna redukcja danych do ich rzutów na wyliczone kierunki. Redukcja wymiaru oryginalnych danych wymagać będzie wtedy ich zrzutowania na krzywą, a nie na prostą. W takim przypadku zastosować można uogólnienia klasycznej metody PCA jakimi są np. tzw. jądrowa metoda PCA (ang. kernel PCA, 20

21 kpca) lub nieliniowa analiza PCA (ang. Non-linear PCA, npca). Temat ten nie będzie jednak w tym miejscu rozwijany i poprzestajemy jedynie na wspomnieniu o tej możliwości MDS Skalowanie wielowymiarowe (ang. Multidimensional Scaling, MDS) to metoda wizualizacji danych w niskim wymiarze oparta na wykorzystaniu tzw. macierzy bliskości (ang. proximity matrix) oraz jakiejś odpowiedniej do analizowanych danych metryki (miary odległości). Jest to podstawowa metoda, mająca jednak wiele modyfikacji. Skalowanie wielowymiarowe dąży do rozmieszczenia obiektów jako punktów w przestrzeni niskowymiarowej w taki sposób, aby obiekty podobne do siebie (w oryginalnym zbiorze danych) znajdowały się blisko siebie. Redukujemy więc oryginalny rozmiar danych z zachowaniem zarówno ich własności topologicznych jak i metrycznych. Skalowanie wielowymiarowe wymaga posiadania informacji o bliskościach pomiędzy elementami zbioru danych. Stosowane do tego celu struktury danych to np. macierze podobieństwa, odmienności, odległości pomiędzy obiektami. W niektórych zastosowaniach informacja taka jest naturalna (np. porównanie przez respondentów jakości dwóch produktów). W innych macierz bliskości należy najpierw wyliczyć i nie zawsze będzie to proste zadanie. Zauważmy, że o np. odmienności możemy mówić również w kontekście danych nie tylko ilościowych ale i jakościowych. Wizualizacja metodami MDS może dotyczyć również danych mieszanych, które w postaci oryginalnej nie maja żadnej czytelnej interpretacji geometrycznej (jak na wykresie pokazać bliskość osób o różnych kolorach oczu?). W sensie obliczeniowym skalowanie wielowymiarowe jest nie tyle ścisłą procedurą, ile raczej sposobem zmiany rozmieszczenia obiektów w sposób na tyle efektywny, aby otrzymać konfigurację, która jest najlepszym przybliżeniem oryginalnych (czasami mówi się obserwowanych) odległości. Metoda przemieszcza obiekty w przestrzeni zdefiniowanej przez pożądaną liczbę wymiarów i sprawdza, na ile ta nowa konfiguracja odtwarza odległości między obiektami. Matematycznie chodzi o minimalizację pewnej funkcji, która jest miarą jakości rozwiązania zadania. Oznaczmy przez N ij odległość pomiędzy i-tym i j-tym obiektem w oryginalnej przestrzeni wielowymiarowej. Analogicznie przez n ij oznaczmy odległość pomiędzy i-tym i j-tym obiektem w przestrzeni o zredukowanej ilości wymiarów (w praktyce chodzi o płaszczyznę). MDS sprowadza się teraz do minimalizacji tzw. funkcji błędu (w literaturze anglojęzycznej zwanej stress function): 21

22 która jest miarą stosowaną do szacowania, na ile dobrze (lub źle) dana konfiguracja odtwarza macierz odległości MACIERZ KORELACJI Dla wszystkich cech budujemy macierz korelacji. Następnie z macierzy tej wybieramy te cechy, których wartość korelacji jest najwyższa względem klasy danego obiektu. Te cechy umieszczane są w macierzy wynikowej i na tych następnie przeprowadzane są obliczenia. Pozostałe cechy są pomijane. 22

23 3. SCHEMAT BADAŃ Wszystkie badania i symulacje zostały przeprowadzone w środowisku KNIME (Konstantz Information Miner). Cechą tego środowiska jest możliwość korzystania z gotowych bloczków do generowania modeli przepływu danych (ang. workflow). Podstawowy schemat przepływu dla naszych badań przedstawia się następująco: Rys. 3.1 Schemat przepływu danych dla klasyfikacji wykorzystującej dane numeryczne. 23

24 Rys. 3.2 Schemat przepływu dla klasyfikatorów wymagających danych nominalnych Środowisko to umożliwia również bardzo wygodne uczenie klasyfikatorów z wykorzystaniem walidacji skrośnej (ang. cross-validation), czyli podziału zbioru danych wejściowych na n koszyków, uczeniu klasyfikatora na n-1 koszykach i testowaniu na n-tym koszyku. Do tego służy tzw. bloczek złożony (ang. complex node). Rys. 3.3 Schemat organizacji uczenia z walidacją skrośną 24

25 Wyniki uzyskiwane są z węzła X-Aggregator. Jedno z jego wyjść przedstawia tabelaryczne zestawienie wszystkich cech i przypisanej klasy, natomiast drugie zawiera jedynie skuteczność działania klasyfikatora. Schemat prezentowanych danych z drugiego węzła przedstawia się następująco: Rys. 3.4, Format prezentacji wyników w środowisku KNIME Skuteczność działania klasyfikatora była oceniana dwojako. Jeżeli pracowaliśmy na klasyfikatorach, które wymagały danych nominalnych, na wyjściu otrzymywaliśmy procentowy stosunek ilości elementów błędnie zaklasyfikowanych do wszystkich elementów danego podzbioru. Wówczas skuteczność jest po prostu różnicą 100%-X, gdzie X to ów stosunek. Dla danych numerycznych otrzymywaliśmy całkowity błąd dla danego koszka (ang. fold) oraz błąd średniokwadratowy. Właśnie MSE (ang. mean squared error) traktowaliśmy jako nasz miernik skuteczności, obliczanej jako 100%-MSE*100%. MSE jest wyliczane jako TMSE (ang. total mean squared error) / size of fold (liczność koszyka). 25

26 4. WYNIKI BADAŃ Opis użytych skrótów: BARE dane gołe, nie poddane procesowi redukcji wymiarowości RED dane poddane procesowi redukcji na podstawie macierzy korelacji PCA dane poddane procesowi redukcji na podstawie algorytmu PCA MDS dane poddane procesowi redukcji na podstawie algorytmu MDS Perceptron wielowarstwowy (ang. Multi-layer perceptron MLP) MLP - BARE MLP - RED MLP - PCA MLP MDS TMSE MSER TMSE MSER TMSE MSER TMSE MSER Fold0 0,631 0,018 0,83 0,02 1,183 0,033 0,844 0,023 Fold1 0,825 0,024 1,36 0,04 1,146 0,033 1,112 0,032 Fold2 0,563 0,016 1,20 0,03 0,895 0,026 1,158 0,033 Fold3 0,675 0,019 0,66 0,02 1,204 0,034 0,832 0,024 Fold4 1,025 0,029 1,22 0,03 1,086 0,031 0,727 0,021 Fold5 0,854 0,024 0,25 0,01 1,129 0,031 1,076 0,030 Fold6 1,084 0,031 1,00 0,03 1,020 0,029 1,220 0,035 Fold7 0,394 0,011 1,23 0,03 1,181 0,034 0,697 0,020 Fold8 1,206 0,034 1,06 0,03 0,983 0,028 0,983 0,028 Fold9 0,907 0,026 0,64 0,02 1,235 0,035 1,205 0,034 Średnia 0,817 0,023 0,94 0,03 1,106 0,031 0,985 0,028 Skuteczność [%] 99, , , , , ,5 BARE RED PCA MDS Rys. 4.1, Skuteczność klasyfikacji perceptronu wielowarstwowego w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Na podstawie zanotowanych wyników można zauważyć, że klasyfikator oparty na wielowarstwowej sieci neuronowej (perceptronie), choć stosunkowo prosty, radzi sobie zaskakująco do- 26

27 brze. Właściwie nie ma dla tej sieci neuronowej znaczenia, czy pracuje ona na cechach tzw. gołych, czy zredukowanych. Oczywiście im mniej cech, tym mniej obliczeń perceptron musi wykonać, aby się wyuczyć, a potem testować, ale przy pozostawieniu oryginalnych 464 cech klasyfikacja i tak odbywała się na tyle szybko, że brak redukcji wymiarowości cech nie okazał się zauważalnie istotny. Uzyskiwane wyniki skuteczności klasyfikacji z przedziału 95-99% są więcej niż zadowalające. Probabilistyczna sieć neuronowa (ang. Probabilistic neural network PNN) PNN BARE PNN - RED PNN - PCA PNN MDS TMSE MSER TMSE MSER TMSE MSER TMSE MSER Fold0 3,742 0,104 6,00 0,16 2,449 0,068 2,449 0,068 Fold1 2,449 0,070 19,00 0,53 2,828 0,081 2,828 0,081 Fold2 3,317 0,095 20,00 0,56 2,236 0,064 3,742 0,107 Fold3 2,828 0,081 13,00 0,36 2,828 0,081 2,449 0,070 Fold4 2,646 0,076 22,00 0,61 2,449 0,070 1,732 0,049 Fold5 2,236 0,062 11,00 0,31 1,732 0,048 2,828 0,079 Fold6 2,646 0,076 12,00 0,33 4,243 0,121 3,317 0,095 Fold7 2,449 0,070 21,00 0,58 3,317 0,095 2,646 0,076 Fold8 2,000 0,057 31,00 0,86 2,236 0,064 2,236 0,064 Fold9 2,236 0,064 9,00 0,25 2,236 0,064 2,646 0,076 Średnia 2,655 0,075 16,40 0,46 2,656 0,076 2,687 0,076 Skuteczność [%] BARE RED PCA MDS Rys. 4.2, Skuteczność klasyfikacji probabilistycznej sieci neuronowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech W przypadku probabilistycznej sieci neuronowej tym, co wyraźnie rzuca się w oczy jest silna zależność jej skuteczności od rodzaju zastosowanego algorytmu redukcji wymiarowości cech. Uściślając, klasyfikator ten nie potrafił skutecznie poradzić sobie z zadanym problemem przy 27

28 użyciu redukcji opartej na macierzy korelacji. Może to oznaczać, że ta sieć działa dobrze na danych nieskorelowanych (niezależnych). Pozostałe algorytmy redukcji wymiarowości (wliczając również zupełny brak jego zastosowania) nie rzutowały tak na otrzymane wyniki. Oczywiście zastosowanie redukcji wymiarowości zwiększa czas potrzebny na przygotowanie danych na wejście do klasyfikatora, ale potem skraca czas jego uczenia. Koniec końców jednak, różnice czasowe w obu podejściach okazują się minimalne. Radialna sieć neuronowa (ang. Radial Neural Network RNN) RNN - BARE RNN - RED RNN - PCA RNN MDS E [%] EC E [%] EC E [%] EC E [%] EC Fold0 16,22 6/37 10,81 4/37 2,70 1/37 0,00 0/36 Fold1 19,44 7/36 11,11 4/36 2,78 1/36 0,00 0/36 Fold2 2,78 1/36 8,33 3/36 0,00 0/36 0,00 0/36 Fold3 11,11 4/36 11,11 4/36 0,00 0/36 0,00 0/36 Fold4 8,33 3/36 19,44 7/36 0,00 0/36 0,00 0/36 Fold5 2,78 1/36 16,67 6/36 0,00 0/36 0,00 0/36 Fold6 11,11 4/36 13,89 5/36 0,00 0/36 0,00 0/36 Fold7 5,56 2/36 2,78 1/36 0,00 0/36 0,00 0/36 Fold8 16,67 6/36 13,89 5/36 0,00 0/36 0,00 0/36 Fold9 16,67 6/36 16,67 6/36 0,00 0/36 0,00 0/36 Średnia 16,22 12,47 0,55 0,00 Skuteczość [%] BARE RED PCA MDS Rys. 4.3, Skuteczność klasyfikacji radialnej sieci neuronowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech To, co najbardziej zastanawia i jednocześnie zaskakuje w wynikach uzyskanych przy użyciu sieci radialnej, to bezbłędna skuteczność klasyfikacji dla sieci pracującej na danych, których wymiary zostały zredukowane algorytmem MDS. Nakład czasowy potrzebny na zrealizowanie symulacji 28

29 takiej kombinacji jest nieco większy, niż przy prostszych klasyfikatorach i algorytmach redukcji, ale otrzymane wyniki rekompensują ubytki szybkościowe. Równie nieźle klasyfikator ten poradził sobie z klasyfikacją danych poddanych procesowi redukcji wymiarowości za pomocą algorytmu PCA. Redukcja oparta na macierzy korelacji, a także nawet jej brak również pozwalają na uzyskanie za pomocą tego rodzaju sieci neuronowej satysfakcjonujących wyników (powyżej 80% poprawności klasyfikacji). Klasyfikator SOTA SOTA RED SOTA - PCA SOTA MDS E [%] EC E [%] EC E [%] EC Fold0 27,40 20/71 22,54 16/71 14,08 10/71 Fold1 26,39 19/70 18,57 13/70 25,71 18/70 Fold2 33,33 24/71 28,17 20/71 15,49 11/71 Fold3 23,61 17/70 18,57 13/70 18,57 13/70 Fold4 26,39 19/70 20,00 14/70 25,71 18/70 Średnia 27,42 21,57 14, Skuteczność [%] RED PCA MDS Fold0 Fold1 Fold2 Fold3 Fold4 Średnia Rys. 4.4, Skuteczność algorytmu drzewa samoorganizującej się mapy (SOTA) w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Uruchamiając klasyfikator typu SOTA (ang. Self Organizing Tree Algorithm) mieliśmy po nim bardzo duże oczekiwania, wprost proporcjonalne do czasu, jakiego klasyfikator wymaga do wyuczenia się. Tymczasem okazuje się, że za długim procesem uczenia nie idzie wysoka skuteczność klasyfikacji. Błąd na poziomie dwudziestu kilku procent jest nieakceptowalny, jeśli spojrzymy na wyniki uzyskiwane za pomocą innych klasyfikatorów. Uruchomienie tego klasyfikatora na danych niezredukowanych zakończyło się nawet błędem braku dostępnej pamięci. Być może dla mniejszej ilości cech, ten klasyfikator radziłby sobie lepiej, co można zaobserwować po 29

30 użyciu go na danych zredukowanych algorytmem MDS, ale taka kombinacja (MDS + SOTA) jest bardzo czasochłonna. Regresja liniowa (REGL) REGL RED REGL - PCA REGL MDS TMSE MSER TMSE MSER TMSE MSER Fold0 7,15 0,19 3,93 0,11 4,72 0,13 Fold1 7,07 0,20 14,37 0,40 5,22 0,15 Fold2 11,20 0,31 6,77 0,19 5,08 0,15 Fold3 10,96 0,30 3,07 0,09 5,62 0,16 Fold4 8,12 0,23 11,70 0,33 5,97 0,17 Fold5 20,53 0,57 8,75 0,24 6,49 0,18 Fold6 19,72 0,55 6,56 0,18 5,40 0,15 Fold7 3,52 0,10 11,23 0,31 4,78 0,14 Fold8 4,00 0,11 27,36 0,76 5,40 0,15 Fold9 7,30 0,20 6,39 0,18 4,54 0,13 Średnia 9,96 0,28 10,01 0,28 5,32 0, Skuteczność [%] RED PCA MDS Rys. 4.5, Skuteczność regresji liniowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Uruchomienie regresji liniowej na naszych danych niezredukowanych jest z założenia niemożliwe, ponieważ ten typ klasyfikatora (predyktora) wymaga, aby elementów w zbiorze uczącym było więcej, niż cech każdego z elementów. Tymczasem błąd średniokwadratowy okazał się zniechęcająco wysoki dla regresji uruchomionej na danych redukowanych przy użyciu macierzy korelacji oraz algorytmu PCA, co każe widzieć w metodzie regresji raczej przeciętny klasyfikator (ze skutecznością rzędu ok. 72%). 30

31 Regresja wielomianowa (REGW) REGW - PCA REGW MDS TMSE MSER TMSE MSER Fold0 37,72 0,92 8,05 0,22 Fold1 15,96 0,44 2,60 0,07 Fold2 23,41 0,65 5,93 0,17 Fold3 34,81 0,97 3,52 0,10 Fold4 30,24 0,84 5,99 0,17 Fold5 16,89 0,47 2,81 0,08 Fold6 35,58 0,99 5,82 0,17 Fold7 36,31 0,91 5,62 0,16 Fold8 25,92 0,72 4,78 0,14 Fold9 18,98 0,53 8,93 0,26 Średnia 27,58 0,76 5,40 0,15 Skuteczność [%] PCA MDS Rys. 4.6, Skuteczność regresji wielomianowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Zastanawiająca jest bardzo niska skuteczność działania klasyfikatora opartego na regresji wielomianowej na wektorze cech zredukowanym algorytmem PCA. Średnia skuteczność oscyluje w granicach 25%, co daje tak naprawdę wynik równy losowemu przydziałowi obrazka do klasy (ponieważ mamy ich cztery). Z kolei wykorzystanie tego samego klasyfikatora, ale na danych poddanych procesowi redukcji wymiarowości algorytmem MDS, daje dużo bardziej satysfakcjonujące rezultaty. Skuteczność na poziomie około 80 i więcej procent może zadowalać. Podobnie jednak, jak w przypadku innych symulacji, musimy pamiętać, że transformacja przy użyciu MDS jest dużo bardziej kosztowna czasowo, niż użycie PCA. 31

32 Naiwny Bayes (NBAY) NBAY - BARE NBAY - RED NBAY - PCA NBAY MDS E [%] EC E [%] EC E [%] EC E [%] EC Fold0 59,46 22/37 0,00 0/37 29,73 11/37 0,00 0/37 Fold1 58,33 21/36 5,56 2/36 52,78 19/36 8,57 3/36 Fold2 50,00 18/36 0,00 0/36 41,67 15/36 0,00 0/36 Fold3 61,11 22/36 2,78 1/36 36,11 13/36 0,00 0/36 Fold4 50,00 18/36 2,78 1/36 30,56 11/36 0,00 0/36 Fold5 38,89 14/36 2,78 1/36 22,22 8/36 0,00 0/36 Fold6 47,22 17/36 0,00 0/36 25,00 9/36 0,00 0/36 Fold7 33,33 12/36 0,00 0/36 30,56 11/36 5,71 2/36 Fold8 52,78 19/36 2,78 1/36 30,56 11/36 2,86 1/36 Fold9 50,00 18/36 2,78 1/36 27,78 10/36 0,00 0/36 Średnia 50,11 1,94 32,70 1, Skuteczność [%] BARE RED PCA MDS 40 Rys. 4.7, Skuteczność regresji wielomianowej w poszczególnych kubełkach walidacji skrośnej, z uwzględnieniem różnych metod redukcji cech Zachowanie naiwnego klasyfikatora bayesowskiego jest bardzo ciekawe. Otóż dla danych niezredukowanych otrzymujemy skuteczność rzędu 50%, co nas absolutnie nie może zadowalać (jest bowiem bliska losowemu przydziałowi obrazka do klasy). Dla redukcji cech opartej na algorytmie PCA skuteczność jest już nieco lepsza (ok 67%). Tymczasem dla danych poddanych redukcji w oparciu o macierz korelacji (czyli pozostawieniu tylko tych cech, które są najmocniej skorelowane z wartością klasy), klasyfikator ociera się o perfekcję, notując skuteczność na poziomie 98%. 32

33 5. ANALIZA UZYSKANYCH WYNIKÓW 5.1 ANALIZA PORÓWNAWCZA KLASYFIKATORÓW Zestawienie podsumowujące rezultatów BARE RED PCA MDS MLP 97,70 97,00 96,90 97,20 PNN 92,50 54,00 92,40 92,40 RNN 83,78 87,53 99,45 100,0 SOTA Brak danych 72,58 78,43 85,92 REGL Brak danych 72,00 72,00 85,00 Brak Brak REGW danych danych 24,00 85,00 NBAY 49,89 98,06 67,30 98,29 Skuteczność [%] BARE RED PCA MDS 20 MLP PNN RNN SOTA REGL REGW NBAY Rys. 4.8 Średnia skuteczność poszczególnych klasyfikatorów w zależności od wybranej metody redukcji cech Perceptron wielowarstwowy jest klasyfikatorem najbardziej nieczułym na ilość atrybutów klasyfikowanego obiektu. Dobrze sobie radzi zarówno przy danych nie poddanych procesowi redukcji wymiarowości, jak również po zastosowaniu różnych, mniej lub bardziej skutecznych (i 33

34 skomplikowanych zarazem) algorytmów. Wadą stosowania perceptronu jest jednak jego nie determinizm i brak kontroli nad procesem uczenia, a także długi czas potrzebny na wyuczenie. Probabilistyczna sieć neuronowa zachowuje się podobnie do tradycyjnego perceptronu wielowarstwowego z wyjątkiem reakcji na dane poddane procesowi redukcji za pomocą macierzy korelacji. Zastosowanie tej metody znacznie obniżyło skuteczność klasyfikatora i tym samym odrzuciło, w naszych oczach, możliwość stosowania takiej kombinacji. Dla pozostałych metod redukcji wymiarów (w szczególności dla braku żadnej), klasyfikator radzi sobie podobnie dobrze. Radialna sieć neuronowa to klasyfikator, który okazał się bardzo czuły na ilość atrybutów opisujących klasyfikowany obiekt, ale też dał on najlepsze wyniki. Brak redukcji wymiarów pozwala na uzyskanie za pomocą tego klasyfikatora poprawności klasyfikacji na poziomie nieco przekraczającym 80% (podobnie jak zastosowanie macierzy korelacji), ale już użycie bardziej skomplikowanych algorytmów, takich jak MDS czy PCA pozwala uzyskać skuteczność niemal zbliżoną lub nawet równą bezbłędnej klasyfikacji. Wysoka skuteczność odbywa się niestety kosztem dużych nakładów czasowych. Algorytm SOTA, mimo zniechęcających czasów potrzebnych na wyuczenie klasyfikatora, nie dał bardzo zadowalających wyników. Co więcej, nie poradził on sobie zupełnie z danymi niezredukowanymi, wyczerpując zasoby mocy obliczeniowej komputera, na którym przeprowadzane były eksperymenty. Dla użytych metod redukcji udało się, co prawda, testy przeprowadzić, ale wyniki, jak już wspominaliśmy, nie powalają na kolana klasyfikator ten okazał się gorszy od wszystkich rodzajów sieci neuronowych, a także, w szczególnych przypadkach, nawet od naiwnego klasyfikatora bayesowskiego. Regresja liniowa nie mogła zostać użyta do badania skuteczności klasyfikacji danych niezredukowanych, ponieważ wówczas liczba atrybutów przekraczała liczbę obiektów (co sprawia, że niespełnione zostaje założenie dotyczące wykorzystania tego typu klasyfikatora). Przy użyciu metod redukcji wymiarów, klasyfikator ten dał pewne wyniki, ale też nie są one rewelacyjne. Zaletą stosowania jednak tego rodzaju klasyfikatora jest brak konieczności dyskretyzowania wcześniej zmiennych ciągłych (numerycznych). Bardzo niska skuteczność regresji wielomianowej przy zastosowaniu algorytmu PCA może zaskakiwać i jednocześnie zastanawiać. Nie udało nam się odkryć przyczyny takiego stanu rzeczy. Tymczasem dla danych przetworzonych algorytmem MDS rezultaty klasyfikacji regresją wielomianową okazały się znacznie bardziej przystępne i sięgające blisko 85%. Regresja wielomia- 34

35 nowa pozostawia jeszcze pole do popisu dostrajania tego klasyfikatora, przez badanie zależności skuteczności działania od stopnia wielomianu. Chociaż prostota naiwnego klasyfikatora bayesowskiego nie dawała perspektyw na uzyskanie dobrych wyników klasyfikacji, w szczególnych przypadkach klasyfikator ten radzi sobie nadzwyczaj dobrze. Tak było przy zastosowaniu redukcji cech za pomocą macierzy korelacji. Jest to jednak pewne nadużycie dogmatu niezależności zmiennych (atrybutów)- kluczowej cechy tego klasyfikatora. Z drugiej jednak strony, zastosowanie algorytmu MDS również pozwoliło na uzyskanie bardzo zadowalających wyników (znacznie powyżej 90%) ANALIZA PORÓWNAWCZA METOD REDUKCJI WYMIAROWOŚCI CECH Brak jakiejkolwiek eliminacji cech okazał się niekorzystny jedynie dla naiwnego klasyfikatora bayesowskiego. W przypadku obu klasyfikatorów opartych na regresji brak eliminacji nie pozwolił w ogóle na uruchomienie klasyfikatora, natomiast dla algorytmu SOTA jego realizacja (proces uczenia) spowodowała wyczerpanie zasobów obliczeniowych. Dla klasyfikatorów opartych na sieciach neuronowych fakt, czy dane zostaną poddane procesowi eliminacji wymiarów nie ma tak naprawdę większego znaczenia. Redukcja wymiarowości za pomocą macierzy korelacji w żadnym z przypadków nie okazała się metodą najlepszą (bliskość ideału w przypadku naiwnego klasyfikatora bayesowskiego została okupiona pewnym ideowym przymrużeniem oka działania klasyfikatora). W szczególnym przypadku (probabilistyczna sieć neuronowa) zastosowanie tej metody redukcji wymiarów spowodowało znaczne pogorszenie otrzymywanych rezultatów. Algorytm PCA wydaje się rozsądnym kompromisem pomiędzy niezadowalającą skutecznością macierzy korelacji, a długim czasem realizacji algorytmu MDS. Wyniki uzyskane przy użyciu tego algorytmu są zazwyczaj nieznacznie tylko gorsze od tych otrzymywanych po redukcji wymiarowości z wykorzystaniem MDS, ale czas realizacji symulacji jest znacznie krótszy. Algorytm MDS radzi sobie zdecydowanie najlepiej z redukcją danych (dla tych klasyfikatorów, dla których ma to naprawdę znaczenie, czyli nie dla sieci neuronowych), ale wymaga najwięcej cierpliwości od użytkownika, ponieważ trwa zdecydowanie najdłużej i zajmuje dużo mocy obliczeniowej (w skrajnych przypadkach potrafi ją zupełnie wyczerpać). 35

36 6. OBSERWACJE, SPOSTRZEŻENIA Istotną gałęzią problemów było umiejętne sprzężenie obrazów z wektorem cech oraz przypisaną do każdego z nich klasą. Obrazy były zapisywane w postaci plików TIF. Każdy z nich ma wymiary 2576 x 1932 pikseli, co sprawia, że przetworzenie każdego obrazu z osobna jest bardzo czasochłonne. Zwłaszcza, jeśli weźmiemy pod uwagę konieczność wielokrotnego przetwarzania całego obrazu celem uzyskania wszystkich wymaganych cech. Aby uzyskać pełen wektor 464 cech należało wygenerować macierz wartości natężenia koloru w skali HSV (składowa H hue). Następnie wielokrotnie tworzyliśmy nowe macierze współwystępowania, dla różnych wartości odległości pomiędzy elementami w macierzy oraz dla różnych badanych kierunków zależności. W ostatnim etapie tworzenia wektora cech generowaliśmy kilka macierzy długości pasm po jednej dla każdego badanego kierunku. Ponieważ do wygenerowania potrzebnych było dużo, niekoniecznie trywialnych w obliczeniu, cech, cały proces generowania wektora był bardzo czasochłonny. Przetworzenie jednego obrazka zajmowało około minuty, a ponieważ cały zbiór danych składał się z ok 360 obrazków, tworzenie wektora było zadaniem, do wykonania którego wymagany był komputer o dużej mocy obliczeniowej i wydajnym systemie chłodzenia. Ostatecznie do wygenerowania zbioru testowego wykorzystałem komputer o następujących parametrach: Procesor: Intel e8400 (2x3GHz) Pamięć: 4GB DDR3 System operacyjny: Windows 7 Format danych wejściowych wymuszał, aby każdy wektor cech zawierał jako pierwszy element numer klasy, do której dane zdjęcie jest zaklasyfikowane. Wymusiło to konieczność programistycznego sprzężenia obrazów z danymi dotyczącymi ich klas. Te dane otrzymałem w postaci zeskanowanego dokumentu w postaci tabelarycznej. Dokument ten należało poddać procesowi OCR i w oparciu o otrzymany wynik, sporządzić mapowania w postaci przyjaznej dla tej aplikacji. Ponieważ otrzymane wyniki były poszarpane (dla części obrazów dysponowaliśmy jedynie wartością HrTest, dla innych tylko wartością Ventana, a jeszcze dla innych tylko wynikiem FISH; do tego dochodziły też różne kombinacje tych wartości), wygodne okazało się podzielenie tego zbioru na mniejsze podzbiory, z których każdy zawierał tylko te elementy, z których wszystkie były opisane tymi samymi atrybutami (klasami). W ten sposób stworzyliśmy kilka plików o następujących strukturach: 36

Pokazać jeszcze