O ZASTOSOWANIU STATYSTYCZNYCH METOD ROZPOZNAWANIA

Podobne dokumenty
Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Pattern Classification

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Weryfikacja hipotez dla wielu populacji

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Procedura normalizacji

Natalia Nehrebecka. Zajęcia 4

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB


KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Analiza porównawcza rozwoju wybranych banków komercyjnych w latach

SZTUCZNA INTELIGENCJA

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Małgorzata Misztal STATYSTYCZNE METODY ROZPOZNAWANIA OBRAZÓW I ICH ZASTOSOWANIA. Katedra Metod Statystycznych, Uniwersytet Łódzki, Łódź

65120/ / / /200

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Zaawansowane metody numeryczne

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

MATERIAŁY I STUDIA. Zeszyt nr 286. Analiza dyskryminacyjna i regresja logistyczna w procesie oceny zdolności kredytowej przedsiębiorstw

ZAJĘCIA X. Zasada największej wiarygodności

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Prawdopodobieństwo geometryczne

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Metody predykcji analiza regresji

Natalia Nehrebecka. Wykład 2

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

Analiza i diagnoza sytuacji finansowej wybranych branż notowanych na Warszawskiej Giełdzie Papierów Wartościowych w latach

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

5. OPTYMALIZACJA GRAFOWO-SIECIOWA

Natalia Nehrebecka. Zajęcia 3

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński


Proste modele ze złożonym zachowaniem czyli o chaosie

Statystyka. Zmienne losowe

SZTUCZNA INTELIGENCJA

Analiza ryzyka jako instrument zarządzania środowiskiem

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Statystyka Opisowa 2014 część 1. Katarzyna Lubnauer

NORMALiZACJA ZMIENNYCH W SKALI PRZEDZIAŁOWEJ I ILORAZOWEJ W REFERENCYJNYM SYSTEMIE GRANICZNYM

I. Elementy analizy matematycznej

Parametry zmiennej losowej

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

Laboratorium ochrony danych

Dobór zmiennych objaśniających

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Zmodyfikowana technika programowania dynamicznego

Proces narodzin i śmierci

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

DIAGNOSTYKA WYMIENNIKÓW CIEPŁA Z UWIARYGODNIENIEM WYNIKÓW POMIARÓW EKPLOATACYJNYCH

KONSTRUKCJA OPTYMALNYCH PORTFELI Z ZASTOSOWANIEM METOD ANALIZY FUNDAMENTALNEJ UJĘCIE DYNAMICZNE

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Definicje ogólne

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Analiza regresji modele ekonometryczne

METODY PLANOWANIA EKSPERYMENTÓW. dr hab. inż. Mariusz B. Bogacki

ANALIZA PREFERENCJI SŁUCHACZY UNIWERSYTETU TRZECIEGO WIEKU Z WYKORZYSTANIEM WYBRANYCH METOD NIESYMETRYCZNEGO SKALOWANIA WIELOWYMIAROWEGO

STARE A NOWE KRAJE UE KONKURENCYJNOŚĆ POLSKIEGO EKSPORTU

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

OBLICZANIE NIEPEWNOŚCI METODĄ TYPU B

Pokazać, że wyżej zdefiniowana struktura algebraiczna jest przestrzenią wektorową nad ciałem

Analiza empiryczna struktury handlu międzynarodowego. Zajęcia z TWM dr Leszek Wincenciak

Zastosowanie wielowymiarowej analizy porównawczej w doborze spó³ek do portfela inwestycyjnego Zastosowanie wielowymiarowej analizy porównawczej...

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

STATYSTYKA. Zmienna losowa skokowa i jej rozkład

ANALIZA PRZESTRZENNA PROCESU STARZENIA SIĘ POLSKIEGO SPOŁECZEŃSTWA

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH

Statystyka Inżynierska

2. Empiryczna wersja klasyfikatora bayesowskiego

ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY

dy dx stąd w przybliżeniu: y

1.1. Uprość opis zdarzeń: 1.2. Uprościć opis zdarzeń: a) A B A Uprościć opis zdarzeń: 1.4. Uprościć opis zdarzeń:

BADANIE PROCESU EKSPLOATACJI W ASPEKCIE NIEZAWODNOŚCIOWO- EKONOMICZNYM

Propozycja modyfikacji klasycznego podejścia do analizy gospodarności

Transkrypt:

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl O ZASTOSOWAIU STATYSTYCZYCH METOD ROZPOZAWAIA OBRAZÓW DO WSPOMAGAIA PROCESÓW PODEJMOWAIA DECYZJI W DIAGOSTYCE MEDYCZEJ Małgorzata Msztal Unwersytet Łódzk, Wydzał Ekonomczno Socjologczny, Katedra Metod Statystycznych Uwag wstępne Dzałalność człoweka to neustanny proces podejmowana decyzj. Z każdą decyzją zwązana jest jednak możlwość popełnena błędu, a dodatkowo, wybór danej decyzj ze zboru decyzj dopuszczalnych ne przesądza w sposób jednoznaczny o wynku lub skutku podjęca decyzj. Podjęce decyzj wymaga zwykle rozważnego zgłębena wszystkch możlwych sposobów dzałana, a następne wyboru jednego z nch. Coraz wększa złożoność otaczających nas zjawsk sprawa, że nezbędne staje sę poszukwane metod wspomagających procesy podejmowana decyzj w warunkach mnogośc nformacj nepewnośc. W celu efektywnego rozwązywana praktycznych problemów wymagających przechowywana przetwarzana dużej lośc danych opsanych w przestrzenach welowymarowych zaproponować można metody rozpoznawana obrazów. Obraz defnowany będze jako loścowy ops obektu, zdarzena lub zjawska. Ogólne zadane teor rozpoznawana obrazów polega na określanu przynależnośc rozmatego typu obektów do pewnych klas w sytuacj braku aprorycznej nformacj co do reguł przynależnośc, a jedyną dostępną nformację stanow zwykle tzw. cąg uczący, złożony z obektów, których prawdłową klasyfkację znamy (tzw. rozpoznawane z nauczycelem). Dokładnej rozpoznawane obrazów można zdefnować jako weloetapowy proces przetwarzana nformacj, podczas którego relatywne duża lość danych wejścowych zostaje przetworzona na mnejszą lość danych użytecznych, zakończony klasyfkacją, czyl przypsanem obektow numeru klasy (por. []). Wśród metod rozpoznawana obrazów wyróżnć można (por. np. [5], [9]): metody fzjologczne (bocybernetyczne), w których dąży sę do naśladowana procesów umysłowych przez tworzene model systemu nerwowego; Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 79

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl metody programowe (algorytmczne), w których głównym celem jest tworzene formalnych metod opsu zadana rozpoznawana zwązanych z nm algorytmów możlwych do komputerowej realzacj. Wyróżna sę tutaj rozpoznawane strukturalne rozpoznawane teorodecyzyjne. Prezentowane w artykule teorodecyzyjne metody rozpoznawana wymagają przyjęca założena, że rozpoznawany obekt, scharakteryzowany wartoścam p cech, może być rozpatrywany jako punkt x=(x,..., x p ) T p-wymarowej przestrzen X (X R n ) traktowany jako realzacja wektora losowego X o funkcj gęstośc f (x), K, gdze K={,..., k} - jest zborem numerów klas. Decyzja zalczająca obekt do klasy wynka z transformacj zaobserwowanych wartośc za pomocą pewnego algorytmu, zwanego algorytmem rozpoznawana. Algorytmem rozpoznawana ψ (algorytmem klasyfkacj, regułą decyzyjną) nazywamy przeps, według którego odbywa sę przyporządkowane rozpoznawanemu obektow x X numeru klasy K: ψ(x) =. Innym słowy, mamy tu do czynena z odwzorowanem przestrzen cech w zbór numerów klas: ψ: X K bądź też z generowanem rozkładu przestrzen cech na rozłączne obszary decyzyjne: R = {x X: ψ(x) = }, K. Obszary decyzyjne R w pełn opsują konkretny algorytm rozpoznawana - obekt dany wektorem cech x zalczany jest do klasy, jeśl x należy do obszaru decyzyjnego R. Kolejne cechy algorytmu rozpoznawana to jednoznaczność kompletność - rozpoznawany jest każdy obekt (bo przestrzeń X jest zborem wszystkch możlwych wartośc cech) zalczany jest on do jednej tylko jednej klasy ze zboru K. W rozpoznawanu teorodecyzyjnym do opsu analzowanej sytuacj wykorzystuje sę modele probablstyczne statystyczne, ze względu na ch szczególną przydatność do wykrywana nepewnych nejednoznacznych zwązków mędzy klasam loścowym charakterystykam obektów. Wybrane metody tworzena algorytmów rozpoznawana Wśród metod tworzena algorytmów rozpoznawana wyróżnamy podejśce oparte na modelu probablstycznym oraz podejśce oparte na modelu statystycznym. W przypadku modelu probablstycznego zakłada sę, że dla każdego rozpoznawanego obektu x znane jest prawdopodobeństwo a pror q zdarzena, że pochodz on z klasy o numerze ; K; a także znane są warunkowe gęstośc rozkładów cech w poszczególnych klasach: f ( x / ) = f x X. () 80 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl W takej sytuacj możlwe jest oblczene wskaźnka jakośc rozpoznawana oraz, poprzez rozwązane odpowednego problemu optymalzacyjnego, wyznaczene reguły decyzyjnej mnmalzującej ten wskaźnk. W zadanach rozpoznawana opartych na modelach probablstycznych wykorzystuje sę np. klasyfkację bayesowską lub regułę mnmaksową (por. np. [7, 8, 9, ]). W praktycznych zastosowanach metod rozpoznawana obrazów korzysta sę zwykle ze źródła nformacj, jakm jest pewen zbór obektów, zwany zborem uczącym. Dla każdego obektu z tego zboru (czyl obektu uczącego) znany jest wektor wartośc cech oraz numer klasy, do której należy. Mamy węc: U={ (x, ), (x, ),..., (x, ) }. () Podzbór zboru U złożony z obektów uczących należących do -tej klasy oznaczamy: U = { x, l X, l=,,..., }, K, (3) zakładamy, że jego elementy pochodzą z populacj o warunkowej gęstośc f (x). Oczywśce: U={ U, U,..., U k } oraz =. Zatem podstawą konstrukcj reguł decyzyjnych ze zborem uczącym jest model statystyczny. Wobec tego rozważyć można dwe sytuacje: znamy z założena postać funkcyjną warunkowych gęstośc w klasach, a ne znamy ch parametrów dokonujemy węc ch estymacj na podstawe zboru uczącego; brak jest jakchkolwek założeń co do postac funkcyjnej warunkowych gęstośc w klasach dokonujemy węc estymacj funkcj gęstośc za pomocą metod neparametrycznych. W grupe algorytmów rozpoznawana opartych na parametrycznym modelu statystycznym najczęścej wykorzystywane są te metody, w których przyjmuje sę założene o normalnośc rozkładów cech obektów w klasach. Wymenć tu można m. n. algorytm rozpoznawana wykorzystujący odległość Mahalanobsa oraz algorytmy wykorzystujące estymatory lnowych kwadratowych funkcj klasyfkacyjnych. Algorytm rozpoznawana oparty na odległoścach Mahalanobsa zapsać można w następujący sposób: gdze: M M ψ(x) =, gdy D = mn{ D }, K (4) M D = ( x x ) T S g K ( x x g ), K (5) przy czym x S są zwykłym estymatoram wektora średnch w -tej klase macerzy kowarancj. Reguła klasyfkacyjna jest następująca: wyberamy jako rozpoznane tę klasę, najblżej której (w myśl odległośc Mahalanobsa) znajduje sę rozpoznawany obekt. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 8

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl Algorytmy rozpoznawana wykorzystujące zwykłe obcążone, zwykłe neobcążone, bayesowske quas-bayesowske estymatory lnowych funkcj klasyfkacyjnych można zapsać następująco (por. [7]): gdze: ψ(x) =, gdy e = max eˆ ( ) ; j=,...,4; K (6) ( j) ˆ ( j) g x g K x ln q (7) ( ) eˆ ( ) = d k p p x ln q (8) ( ) eˆ ( ) = d k p x ln q (9) ( 3) eˆ ( ) = d p [ ( ) ( k) d ] ln ln q k x (0) ( 4) eˆ ( ) = ln przy czym: d = ( x x p / ) T S ( x x ) () Γ(( k ) / ) g = () π( )( ) / k Γ(( k p ) / ) S a x S są zwykłym estymatoram wektora średnch w -tej klase macerzy kowarancj. Reguła klasyfkacyjna jako rozpoznane wybera tę klasę, dla której funkcja klasyfkacyjna przyjmuje najwększą wartość. Algorytmy rozpoznawana wykorzystujące zwykłe obcążone, zwykłe neobcążone, bayesowske quas-bayesowske estymatory kwadratowych funkcj klasyfkacyjnych można przedstawć w następujący sposób (por. [7]): ψ(x) =, gdy u = max uˆ ( ) ; j=,...,4; K; (3) ( j) ˆ ( j) g x g K gdze: () uˆ = x ln q (4) ( ) uˆ ( ) = D ln S p D p n= ψ ( ln S p n) ln ln q p (5) 8 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl p p p ( 3) uˆ ( ) = D ln S ψ ( n) ln( ) n= przy czym: x ln q (6) [ ( ) D ] ln( c q ) ˆ u ( x ) = ln (7) ( 4) c D T = ( x x ) S ( x x ) (8) d ln Γ( x) ψ = (9) dx p Γ( / ) = (0) π( ) Γ(( p) / ) S a x S są zwykłym estymatoram wektora średnch macerzy kowarancj w -tej klase. Reguła klasyfkacyjna wybera jako rozpoznane tę klasę, dla której funkcja klasyfkacyjna przyjmuje najwększą wartość. Wśród metod rozpoznawana opartych na neparametrycznym modelu statystycznym wyróżnć można m.n. algorytmy oparte na estymatorze Parzena z gaussowską funkcją jądra czy algorytmy mnmalnoodległoścowe. Algorytm rozpoznawana oparty na estymatorze Parzena z gaussowską funkcją jądra zapszemy w sposób następujący (por. np. [7], [9]): gdze: ψ(x)=, gdy g x x s x x s K = max K p = p h ( = s h g ) ( ) K h ( g ) s h( g ) () p y K ( y) = (π) exp () Spośród algorytmów bazujących na pojęcach sąsedztwa odległośc wymenć warto algorytm najblższego sąsada, algorytm α najblższych sąsadów oraz algorytm DB oparty na odległoścach. Reguła klasyfkacyjna najblższego sąsada (ang. earest eghbour - ) wskazuje jako rozpoznane tę klasę, do której należy obekt najblższy w myśl przyjętej mary odległośc d rozpoznawanemu obektow x, co zapsujemy (por. np. [9, 3]): (, l = g, l l =,..., l g,..., g g g K ψ(x) = ; K, gdy d x; x ) mn d( x; x ) = (3) Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 83

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl gdze d(*) jest marą odległośc, np.: Eukldesa: Canberra: GDM Walesaka ([4]): p ( m ; x n ) = xmr xnr r= d x (4) x xnr d( x m; xn ) = (5) x m a kj j= p mr r= xmr b kj m d k = (6) m m n m m n akj alj bkj bklj j= j= l= j= j= l= l, k l, k n nr a lj j= l= l, k przy czym dla zmennych merzonych na skal lorazowej (lub) przedzałowej stosowane jest podstawene: a b pj krj = x = x j kj x x pj rj dla dla a dla zmennych merzonych na skal porządkowej: a pj p = k, l r =, l b klj (7) xj > x pj ( xkj > xrj ); ( bkrj ) = 0 xj = x pj ( xkj = xrj ); dla p = k, l; r =, l (8) xj < x pj ( xkj < xrj ) Reguła klasyfkacyjna α najblższych sąsadów (ang. α - earest eghbours - α-) wskazuje jako rozpoznane tę klasę, która jest najlcznej reprezentowana wśród α najblższych rozpoznawanemu obektow x obektów z cągu uczącego, co zapsujemy: ψ(x) = ; K, gdy α = maxα (9) Algorytm DB (ang. Dstance based) oparty na odległoścach (por. [3]) zapsać można następująco: DB g K ψ(x) = ; K, gdy D = mn{ D } (30) g K DB g g 84 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl gdze DB D (x) jest funkcją klasyfkującą postac: DB D ( x ) = d( x; xm ) d( xm; xn ) (3) m= m= n= a d(*) jest odległoścą mędzy obektam. Jako rozpoznane wyberamy tę klasę, dla której funkcja klasyfkująca przyjmuje wartość najmnejszą. Przedstawone algorytmy tworzena reguł decyzyjnych, oparte na modelu statystycznym, określć można manem klasycznych, bazują one bowem na rozwązanach analzy dyskrymnacj, metod decyzj statystycznych, teor estymacj (zarówno parametrycznej, jak neparametrycznej), bayesowskej teor decyzj czy metod optymalzacyjnych. Ocenene jakośc reguły klasyfkacyjnej wymaga wykorzystana zboru testowego, złożonego z M obektów (x l ) wraz z ch prawdłowym klasyfkacjam ( l ): T M = { (x, ), (x, ),..., (x l, l ) } l=,..., M. (3) Jakość algorytmu ψ określa sę poprzez oszacowane prawdopodobeństwa błędnej klasyfkacj: M Pˆ e (ψ) = I{ ψ( x l ) l } (33) M l= gdze I{A} jest funkcją wskaźnkową postac:, w przypadku zajśca zdarzena A I {A} = (34) 0, w przecwnym wypadku W praktycznych zadanach rozpoznawana rzadko zachodz możlwość wykorzystana zboru testowego. Wobec tego do oceny jakośc algorytmu rozpoznawana wykorzystuje sę take metody jak: metoda resubstytucj, metoda wydzelana, metoda usuwana, metoda rotacj sprawdzana krzyżowego (por. np. [9]). W rozważanym dalej przykładze do oceny dokładnośc klasyfkacj wykorzystano metodę usuwana (ang. leave-one-out), polegającą na tym, że na podstawe zboru U - konstruowana jest reguła klasyfkacyjna, a brakujący element traktowany jest jako jednoelementowy zbór testujący T. Taką procedurę powtarza sę razy, zmenając elmnowany obekt ze zboru uczącego. Zatem: Pˆ e ( ψ ) = I{ ψ ( xl ) l}. (35) l= Alternatywę dla klasycznych metod rozpoznawana obrazów stanowć mogą neklasyczne metody określana reguł przynależnośc obektów do klas. Szczególną uwagę zwrócć tu należy na metodę rekurencyjnego podzału, której grafczną prezentacją jest drzewo decyzyjne. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 85

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl Metoda rekurencyjnego podzału polega na stopnowym podzale p-wymarowej przestrzen cech na rozłączne podzbory, aż do uzyskana ch homogencznośc ze względu na wyróżnoną cechę. W wynku rekurencyjnego podzału zbór uczący U zostaje podzelony na M rozłącznych podzborów U, U,..., U M, zgodne z następującą procedurą ([4]):. Dla danego zboru obektów sprawdzć, czy jest on jednorodny ze względu na wartośc zmennej zależnej lub spełnone jest nne przyjęte kryterum stopu. Jeśl tak zakończyć postępowane.. Jeśl ne rozważyć wszystke możlwe podzały zboru U na rozłączne podzbory U, U,..., U M, w oparcu o wartośc kolejno wyberanych zmennych objaśnających. 3. Ocenć jakość każdego z podzałów zgodne z przyjętym kryterum wybrać najlepszy z nch. 4. Podzelć zbór obektów w wybrany sposób. 5. Krok -4 wykonać rekurencyjne dla każdego podzboru U, U,..., U M. Procedurę podzału kończymy, jeżel zostało osągnęte założone kryterum stopu zwykle jednorodność podzborów U, U,..., U M lub określona, mnmalna lczebność podzborów. Proces rekurencyjnego podzału zboru U można przedstawć grafczne w postac drzewa klasyfkacyjnego. Wśród algorytmów tworzących drzewa klasyfkacyjne wymenć można np. algorytm CART ang. Classfcaton and Regresson Trees (por. []), algorytm QUEST ang. Quck Unbased Effcent Statstcal Trees (por. [0]), algorytm CRUISE ang. Classfcaton Rule wth Unbased Interacton Selecton and Estmaton (por. [6]). Zwrócć należy uwagę na fakt, że procedury tworzena drzew klasyfkacyjnych ne mają wymagań co do rozkładu badanych zmennych są odporne na obserwacje netypowe. Drzewa klasyfkacyjne ne stawają warunków dotyczących skal pomaru badanych zmennych, a także umożlwają klasyfkację obrazów opsanych wektorem cech z wartoścam brakującym. Uzyskane w wynku analzy drzew klasyfkacyjnych reguły decyzyjne są proste w nterpretacj, a klasyfkacja obektów cągu testowego ne wymaga zwykle pomaru wszystkch cech objaśnających, co zmnejsza koszty prowadzonych analz. Przestawone, wybrane algorytmy rozpoznawana ze zborem uczącym znajdują zastosowane w welu konkretnych problemach badawczych z różnych dzedzn nauk, a dokładnej mówąc wszędze tam, gdze mamy do czynena ze zborem welowymarowych obserwacj z pewnej próby, o których wemy dokładne, z jakch populacj (klas) pochodzą. Jedną z takch dzedzn nauk jest dagnostyka medyczna. Reguły klasyfkacyjne w dagnostyce medycznej Zakwalfkowane pacjenta z chorobą weńcową do leczena operacyjnego jest przykładem decyzj podejmowanej w warunkach nepewnośc. Za operacyjne przyjmuje sę w takm przypadku prawdopodobeństwo wystąpena mnej lub bardzej nebezpecznych 86 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl powkłań, wynkających z bardzo różnych przyczyn, a zastnałych jeszcze przed, podczas lub po zakończenu operacj. ech rozpoznawanym obektam będą pacjenc Klnk Kardochrurg UM w Łodz poddan operacj wszczepena by-passów (CABG) w zwązku z chorobą weńcową. Obekty należą do dwóch klas: klasa grupa nskego ryzyka operacyjnego ( =96 osób); klasa grupa wysokego ryzyka operacyjnego ( =96 osób). Zestaw cech dagnostycznych, uznanych za przedoperacyjne czynnk ryzyka, przedstawa sę następująco (dla uproszczena oblczeń wykorzystano tylko zmenne merzone na skal co najmnej porządkowej):. Wek w latach;. BSA wskaźnk powerzchn cała; 3. RRs cśnene skurczowe (w mmhg); 4. RRd cśnene rozkurczowe (w mmhg); 5. EF% frakcja wyrzutowa lewej komory serca (w %); 6. AspAt amnotransferaza asparaganowa (w U/L); 7. Pozom kreatynny (w mg/dl). Prawdopodobeństwa błędnej klasyfkacj szacowano metodą leave-one-out. Do oblczeń wykorzystano: Paket STATISTICA PL moduły: Analza dyskrymnacyjna, Estymacja nelnowa Drzewa klasyfkacyjne. Autorske programy napsane w STATISTICA Basc, realzujące algorytmy najblższego sąsada, α-najblższych sąsadów, dyskrymnacj DB z maram odległośc Eukldesa Canberra oraz algorytm wykorzystujący lnowe kwadratowe funkcje klasyfkacyjne z uwzględnenem metody leave-one-out szacowana prawdopodobeństwa błędnych klasyfkacj. Udostępnone w Internece przez autorów programy tworzące drzewa klasyfkacyjne: algorytmy QUEST (http://www.stat.wsc.edu/~loh/quest.html) CRUISE (http://www.wp.edu/~hkm/cruse/). Program komputerowy GDM for Wndows udostępnany wraz z ksążką Walesaka [4]. Uzyskane wynk przedstawa tablca oraz rysunk. W przypadku algorytmów mnmalnoodległoścowych podano najlepsze otrzymane rezultaty. Dodatkowo przedstawone zostały równeż wynk klasyfkacj uzyskane za pomocą metody regresj logstycznej, często stosowanej w dagnostyce medycznej. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 87

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl Tablca. Błędne klasyfkacje dla zboru pacjentów poddanych CABG Algorytm rozpoznawana Odsetek błędnych klasyfkacj [%] (metoda leave-one-out) ske Wysoke Ogółem operacyjne operacyjne Algorytm najblższego sąsada z marą odległośc GDM 34/96 (35,4%) 30/96 (3,5%) 33,33% Algorytm najblższych sąsadów z marą odległośc GDM 8/96 (8,75%) 3/96 (3,96%),35% Algorytm DB z marą odległośc Canberra 7/96 (7,7%) 9/96 (9,79%) 8,75% Lnowe funkcje klasyfkacyjne (nezależne od typu estymatora) /96 (,88%) 9/96 (9,79%) 0,83% Kwadratowe funkcje klasyfkacyjne (estymator zwykły) 36/96 (37,50%) /96 (,50%) 5,00% Algorytm wykorzystujący odległość Mahalanobsa /96 (,88%) 9/96 (9,79%) 0,83% CART reguła stopu -SE /96 (,46%) 6/96 (6,67%) 4,06% CRUISE reguła stopu 0-SE /96 (,46%) /96 (,46%),46% Regresja logstyczna 0/96 (0,83%) 0/96 (0,83%) 0,83% Źródło: oblczena własne Jak łatwo zauważyć, zdecydowane najgorsze wynk dostajemy dla algorytmu najblższego sąsada, gdze co trzec pacjent zostaje neprawdłowo zaklasyfkowany. Z algorytmów bazujących na pojęcach sąsedztwa odległośc najlepsze wynk daje algorytm BD oparty na odległoścach z marą odległośc Canberra. Odsetek błędnych klasyfkacj w tym przypadku wynos 8,75%. Lnowe funkcje klasyfkacyjne (nezależne od typu estymatora), algorytm wykorzystujący odległość Mahalanobsa oraz metoda regresj logstycznej dają dentyczne wynk 0,83% nepoprawnych zaklasyfkowań. Gorsze rezultaty daje reguła decyzyjna oparta na wartoścach kwadratowych funkcj klasyfkacyjnych (estymator zwykły). 5% wszystkch pacjentów zostaje źle zdagnozowanych. Zauważmy przy tym, że algorytm ten błędne rozpoznaje pacjentów z grupy nskego ryzyka odsetek błędów wynos 37,5%. Pacjenc z grupy wysokego ryzyka są w wększośc prawdłowo rozpoznawan. ajlepsze wynk dają algorytmy tworzące drzewa klasyfkacyjne (por. rys. rys. ). 88 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl WIEK BSA 64,5 >64,5 wysoke,675 >,675 wysoke EF% 39,5 >39,5 wysoke nske Rys.. Drzewo klasyfkacyjne algorytm CART; źródło: opracowane własne WIEK 6,5 >6,5 BSA,66 >,66 WIEK 64,9 >64,9 wysoke EF% 35,45 >35,45 nske wysoke wysoke EF% 49,89 >49,89 EF% 40,7 >40,7 nske wysoke nske Rys.. Drzewo klasyfkacyjne algorytm CRUISE; źródło: opracowane własne Drzewo klasyfkacyjne uzyskane w wynku zastosowana algorytmu CART ma 4 węzły końcowe. Łatwo zauważyć, że do podzału w węzłach wykorzystano tylko trzy z sedmu analzowanych czynnków ryzyka: wek pacjenta, wskaźnk powerzchn cała oraz welkość frakcj wyrzutowej lewej komory serca. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 89

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl Otrzymane w wynku zastosowana algorytmu CART reguły klasyfkacyjne można łatwo zapsać. p. pacjentów z grupy wysokego ryzyka można opsać jako osoby w weku powyżej 64,5 lat lub osoby o nskm wskaźnku powerzchn cała (ne wyższym nż,675) lub osoby z nską frakcją wyrzutową (co najwyżej 39,5%). Odsetek błędnych klasyfkacj ogółem dla algorytmu CART wynos 4,06%. eco gorzej jest rozpoznawana grupa pacjentów wysokego ryzyka operacyjnego 6,7% przy,5% błędnych klasyfkacj dla osób z grupy nskego ryzyka. Drzewo klasyfkacyjne powstałe w wynku zastosowana algorytmu CRUISE jest neco bardzej rozbudowane. Lczba węzłów końcowych jest równa 7, ale do podzału w węzłach wykorzystane są tylko trzy czynnk ryzyka: wek, BSA EF%. Odsetek błędnych rozpoznań wynos,46%. Reguły klasyfkacyjne są podobne do uzyskanych dla algorytmu CART. Pacjenc z grupy wysokego ryzyka to osoby w weku powyżej 64,86 lat lub o wskaźnku powerzchn cała równym co najwyżej,66, lub o frakcj wyrzutowej lewej komory ne wyższej nż 40,7%. Uwag końcowe Przedstawony przykład zastosowana wybranych algorytmów rozpoznawana uzyskane wynk klasyfkacj wskazują, że metody te można z powodzenem wykorzystać do wspomagana procesu podejmowana decyzj w dagnostyce medycznej. Oczywśce każda z omawanych metod tworzena reguł decyzyjnych ma pewne wady zalety. W przypadku metod mnmalnoodległoścowych problemem może być wybór odpowednej mary odległośc. W zasadze ne ma reguły wskazującej najlepszą marę. Wybór mary odległośc odbywać sę może tylko na drodze eksperymentalnej z klku sprawdzonych mar wyberamy tę, dla której dostajemy nższe odsetk błędnych klasyfkacj. Dodatkowym problemem jest tutaj wybór mary odległośc dla obektów opsanych zestawem cech meszanych. Zastosowane mnmalnoodległoścowych algorytmów rozpoznawana wymaga od badacza przechowywana całego cągu uczącego, bowem klasyfkacja każdego nowego obektu wymaga oblczena jego odległośc od wszystkch obektów ze zboru uczącego. Może to znaczne wydłużyć czas oblczeń. Użyteczną metodą klasyfkacj w praktycznych zastosowanach są lnowe funkcje klasyfkacyjne oraz metoda regresj logstycznej. Wąże sę to z dostępnoścą tych metod w paketach statystycznych. Pamętać jednak należy, że lnowe kwadratowe funkcje klasyfkacyjne, algorytm oparty na odległoścach Mahalanobsa oraz regresję logstyczną można stosować w przypadku, gdy spełnone są założena o welowymarowej normalnośc rozkładów cech obektów w klasach. Wykorzystane do analzy danych metod, dla których ne są spełnone wszystke założena, prowadzć może do mało warygodnych, a nawet błędnych wynków. Stąd też wynka potrzeba poszukwana metod optymalnych w warunkach prowadzonych badań 90 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone

StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl emprycznych, w których najstotnejszą własnoścą jest odstępstwo od klasycznych założeń (np. normalnośc rozkładu, sposobu pomaru cech tp.). Szczególne użyteczne zdają sę być algorytmy tworzące drzewa klasyfkacyjne, które ne mają wymagań co do rozkładu skal pomaru badanych zmennych są odporne na obserwacje netypowe. Uzyskane w wynku analzy drzew klasyfkacyjnych reguły decyzyjne są proste w nterpretacj, a ch grafczna prezentacja ułatwa proces podejmowana decyzj. Klasyfkacja obektów cągu testowego ne wymaga zwykle pomaru wszystkch cech objaśnających, co zmnejsza koszty prowadzonych analz. Podstawowe algorytmy budowy drzew klasyfkacyjnych (CART, QUEST) są dostępne w pakece STATISTICA. Lteratura. Bobrowsk L. (987), Dyskrymnacja symetryczna w rozpoznawanu obrazów. Teora, algorytmy, zastosowana w komputerowym wspomaganu dagnostyk medycznej, Ossolneum, Wrocław.. Breman L., Fredman J., Olshen R., Stone C. (984), Classfcaton and Regresson Trees, CRC Press, London. 3. Cuadras C. M. (989), Dstance Analyss n Dscrmnaton and Classfcaton Usng Both Contnuous and Categorcal Varables, (w:) Statstcal Data Analyss and Inference, (Dodge ed.), Elsever Scence Publshers B. V., orth Holland, s. 459-473. 4. Gatnar E. (00), eparametryczna metoda dyskrymnacj regresj, PW, Warszawa. 5. Jajuga K. (990), Statystyczna teora rozpoznawana obrazów, PW, Warszawa. 6. Km H., Loh W.-Y. (00), Classfcaton Trees Wth Unbased Multway Splts, Journal of the Amercan Statstcal Assocaton 96, s. 598-604. 7. Krzyśko M. (990), Analza dyskrymnacyjna, WT, Warszawa. 8. Krzyśko M. (997), Statystyka matematyczna, część II, Wydawnctwo aukowe Unwersytetu m. Adama Mckewcza, Poznań. 9. Kurzyńsk M. (997), Rozpoznawane obektów. Metody statystyczne, Ofcyna Wydawncza Poltechnk Wrocławskej, Wrocław. 0. Loh W.-Y., Shh Y.-S. (997), Splt Selecton Methods for Classfcaton Trees, Statstca Snca 7, s. 85-840.. Msztal M. (00), Statystyczne metody rozpoznawana obrazów ch zastosowana, rozprawa doktorska, maszynops, Łódź.. Rao R. C. (98), Modele lnowe statystyk matematycznej, PW, Warszawa. 3. Tadeusewcz R., Flasńsk M. (99), Rozpoznawane obrazów, PW, Warszawa. 4. Walesak M. (00), Uogólnona mara odległośc w statystycznej analze welowymarowej, Wydawnctwo Akadem Ekonomcznej m. Oskara Langego we Wrocławu, Wrocław. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 9