StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl O ZASTOSOWAIU STATYSTYCZYCH METOD ROZPOZAWAIA OBRAZÓW DO WSPOMAGAIA PROCESÓW PODEJMOWAIA DECYZJI W DIAGOSTYCE MEDYCZEJ Małgorzata Msztal Unwersytet Łódzk, Wydzał Ekonomczno Socjologczny, Katedra Metod Statystycznych Uwag wstępne Dzałalność człoweka to neustanny proces podejmowana decyzj. Z każdą decyzją zwązana jest jednak możlwość popełnena błędu, a dodatkowo, wybór danej decyzj ze zboru decyzj dopuszczalnych ne przesądza w sposób jednoznaczny o wynku lub skutku podjęca decyzj. Podjęce decyzj wymaga zwykle rozważnego zgłębena wszystkch możlwych sposobów dzałana, a następne wyboru jednego z nch. Coraz wększa złożoność otaczających nas zjawsk sprawa, że nezbędne staje sę poszukwane metod wspomagających procesy podejmowana decyzj w warunkach mnogośc nformacj nepewnośc. W celu efektywnego rozwązywana praktycznych problemów wymagających przechowywana przetwarzana dużej lośc danych opsanych w przestrzenach welowymarowych zaproponować można metody rozpoznawana obrazów. Obraz defnowany będze jako loścowy ops obektu, zdarzena lub zjawska. Ogólne zadane teor rozpoznawana obrazów polega na określanu przynależnośc rozmatego typu obektów do pewnych klas w sytuacj braku aprorycznej nformacj co do reguł przynależnośc, a jedyną dostępną nformację stanow zwykle tzw. cąg uczący, złożony z obektów, których prawdłową klasyfkację znamy (tzw. rozpoznawane z nauczycelem). Dokładnej rozpoznawane obrazów można zdefnować jako weloetapowy proces przetwarzana nformacj, podczas którego relatywne duża lość danych wejścowych zostaje przetworzona na mnejszą lość danych użytecznych, zakończony klasyfkacją, czyl przypsanem obektow numeru klasy (por. []). Wśród metod rozpoznawana obrazów wyróżnć można (por. np. [5], [9]): metody fzjologczne (bocybernetyczne), w których dąży sę do naśladowana procesów umysłowych przez tworzene model systemu nerwowego; Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 79
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl metody programowe (algorytmczne), w których głównym celem jest tworzene formalnych metod opsu zadana rozpoznawana zwązanych z nm algorytmów możlwych do komputerowej realzacj. Wyróżna sę tutaj rozpoznawane strukturalne rozpoznawane teorodecyzyjne. Prezentowane w artykule teorodecyzyjne metody rozpoznawana wymagają przyjęca założena, że rozpoznawany obekt, scharakteryzowany wartoścam p cech, może być rozpatrywany jako punkt x=(x,..., x p ) T p-wymarowej przestrzen X (X R n ) traktowany jako realzacja wektora losowego X o funkcj gęstośc f (x), K, gdze K={,..., k} - jest zborem numerów klas. Decyzja zalczająca obekt do klasy wynka z transformacj zaobserwowanych wartośc za pomocą pewnego algorytmu, zwanego algorytmem rozpoznawana. Algorytmem rozpoznawana ψ (algorytmem klasyfkacj, regułą decyzyjną) nazywamy przeps, według którego odbywa sę przyporządkowane rozpoznawanemu obektow x X numeru klasy K: ψ(x) =. Innym słowy, mamy tu do czynena z odwzorowanem przestrzen cech w zbór numerów klas: ψ: X K bądź też z generowanem rozkładu przestrzen cech na rozłączne obszary decyzyjne: R = {x X: ψ(x) = }, K. Obszary decyzyjne R w pełn opsują konkretny algorytm rozpoznawana - obekt dany wektorem cech x zalczany jest do klasy, jeśl x należy do obszaru decyzyjnego R. Kolejne cechy algorytmu rozpoznawana to jednoznaczność kompletność - rozpoznawany jest każdy obekt (bo przestrzeń X jest zborem wszystkch możlwych wartośc cech) zalczany jest on do jednej tylko jednej klasy ze zboru K. W rozpoznawanu teorodecyzyjnym do opsu analzowanej sytuacj wykorzystuje sę modele probablstyczne statystyczne, ze względu na ch szczególną przydatność do wykrywana nepewnych nejednoznacznych zwązków mędzy klasam loścowym charakterystykam obektów. Wybrane metody tworzena algorytmów rozpoznawana Wśród metod tworzena algorytmów rozpoznawana wyróżnamy podejśce oparte na modelu probablstycznym oraz podejśce oparte na modelu statystycznym. W przypadku modelu probablstycznego zakłada sę, że dla każdego rozpoznawanego obektu x znane jest prawdopodobeństwo a pror q zdarzena, że pochodz on z klasy o numerze ; K; a także znane są warunkowe gęstośc rozkładów cech w poszczególnych klasach: f ( x / ) = f x X. () 80 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl W takej sytuacj możlwe jest oblczene wskaźnka jakośc rozpoznawana oraz, poprzez rozwązane odpowednego problemu optymalzacyjnego, wyznaczene reguły decyzyjnej mnmalzującej ten wskaźnk. W zadanach rozpoznawana opartych na modelach probablstycznych wykorzystuje sę np. klasyfkację bayesowską lub regułę mnmaksową (por. np. [7, 8, 9, ]). W praktycznych zastosowanach metod rozpoznawana obrazów korzysta sę zwykle ze źródła nformacj, jakm jest pewen zbór obektów, zwany zborem uczącym. Dla każdego obektu z tego zboru (czyl obektu uczącego) znany jest wektor wartośc cech oraz numer klasy, do której należy. Mamy węc: U={ (x, ), (x, ),..., (x, ) }. () Podzbór zboru U złożony z obektów uczących należących do -tej klasy oznaczamy: U = { x, l X, l=,,..., }, K, (3) zakładamy, że jego elementy pochodzą z populacj o warunkowej gęstośc f (x). Oczywśce: U={ U, U,..., U k } oraz =. Zatem podstawą konstrukcj reguł decyzyjnych ze zborem uczącym jest model statystyczny. Wobec tego rozważyć można dwe sytuacje: znamy z założena postać funkcyjną warunkowych gęstośc w klasach, a ne znamy ch parametrów dokonujemy węc ch estymacj na podstawe zboru uczącego; brak jest jakchkolwek założeń co do postac funkcyjnej warunkowych gęstośc w klasach dokonujemy węc estymacj funkcj gęstośc za pomocą metod neparametrycznych. W grupe algorytmów rozpoznawana opartych na parametrycznym modelu statystycznym najczęścej wykorzystywane są te metody, w których przyjmuje sę założene o normalnośc rozkładów cech obektów w klasach. Wymenć tu można m. n. algorytm rozpoznawana wykorzystujący odległość Mahalanobsa oraz algorytmy wykorzystujące estymatory lnowych kwadratowych funkcj klasyfkacyjnych. Algorytm rozpoznawana oparty na odległoścach Mahalanobsa zapsać można w następujący sposób: gdze: M M ψ(x) =, gdy D = mn{ D }, K (4) M D = ( x x ) T S g K ( x x g ), K (5) przy czym x S są zwykłym estymatoram wektora średnch w -tej klase macerzy kowarancj. Reguła klasyfkacyjna jest następująca: wyberamy jako rozpoznane tę klasę, najblżej której (w myśl odległośc Mahalanobsa) znajduje sę rozpoznawany obekt. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 8
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl Algorytmy rozpoznawana wykorzystujące zwykłe obcążone, zwykłe neobcążone, bayesowske quas-bayesowske estymatory lnowych funkcj klasyfkacyjnych można zapsać następująco (por. [7]): gdze: ψ(x) =, gdy e = max eˆ ( ) ; j=,...,4; K (6) ( j) ˆ ( j) g x g K x ln q (7) ( ) eˆ ( ) = d k p p x ln q (8) ( ) eˆ ( ) = d k p x ln q (9) ( 3) eˆ ( ) = d p [ ( ) ( k) d ] ln ln q k x (0) ( 4) eˆ ( ) = ln przy czym: d = ( x x p / ) T S ( x x ) () Γ(( k ) / ) g = () π( )( ) / k Γ(( k p ) / ) S a x S są zwykłym estymatoram wektora średnch w -tej klase macerzy kowarancj. Reguła klasyfkacyjna jako rozpoznane wybera tę klasę, dla której funkcja klasyfkacyjna przyjmuje najwększą wartość. Algorytmy rozpoznawana wykorzystujące zwykłe obcążone, zwykłe neobcążone, bayesowske quas-bayesowske estymatory kwadratowych funkcj klasyfkacyjnych można przedstawć w następujący sposób (por. [7]): ψ(x) =, gdy u = max uˆ ( ) ; j=,...,4; K; (3) ( j) ˆ ( j) g x g K gdze: () uˆ = x ln q (4) ( ) uˆ ( ) = D ln S p D p n= ψ ( ln S p n) ln ln q p (5) 8 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl p p p ( 3) uˆ ( ) = D ln S ψ ( n) ln( ) n= przy czym: x ln q (6) [ ( ) D ] ln( c q ) ˆ u ( x ) = ln (7) ( 4) c D T = ( x x ) S ( x x ) (8) d ln Γ( x) ψ = (9) dx p Γ( / ) = (0) π( ) Γ(( p) / ) S a x S są zwykłym estymatoram wektora średnch macerzy kowarancj w -tej klase. Reguła klasyfkacyjna wybera jako rozpoznane tę klasę, dla której funkcja klasyfkacyjna przyjmuje najwększą wartość. Wśród metod rozpoznawana opartych na neparametrycznym modelu statystycznym wyróżnć można m.n. algorytmy oparte na estymatorze Parzena z gaussowską funkcją jądra czy algorytmy mnmalnoodległoścowe. Algorytm rozpoznawana oparty na estymatorze Parzena z gaussowską funkcją jądra zapszemy w sposób następujący (por. np. [7], [9]): gdze: ψ(x)=, gdy g x x s x x s K = max K p = p h ( = s h g ) ( ) K h ( g ) s h( g ) () p y K ( y) = (π) exp () Spośród algorytmów bazujących na pojęcach sąsedztwa odległośc wymenć warto algorytm najblższego sąsada, algorytm α najblższych sąsadów oraz algorytm DB oparty na odległoścach. Reguła klasyfkacyjna najblższego sąsada (ang. earest eghbour - ) wskazuje jako rozpoznane tę klasę, do której należy obekt najblższy w myśl przyjętej mary odległośc d rozpoznawanemu obektow x, co zapsujemy (por. np. [9, 3]): (, l = g, l l =,..., l g,..., g g g K ψ(x) = ; K, gdy d x; x ) mn d( x; x ) = (3) Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 83
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl gdze d(*) jest marą odległośc, np.: Eukldesa: Canberra: GDM Walesaka ([4]): p ( m ; x n ) = xmr xnr r= d x (4) x xnr d( x m; xn ) = (5) x m a kj j= p mr r= xmr b kj m d k = (6) m m n m m n akj alj bkj bklj j= j= l= j= j= l= l, k l, k n nr a lj j= l= l, k przy czym dla zmennych merzonych na skal lorazowej (lub) przedzałowej stosowane jest podstawene: a b pj krj = x = x j kj x x pj rj dla dla a dla zmennych merzonych na skal porządkowej: a pj p = k, l r =, l b klj (7) xj > x pj ( xkj > xrj ); ( bkrj ) = 0 xj = x pj ( xkj = xrj ); dla p = k, l; r =, l (8) xj < x pj ( xkj < xrj ) Reguła klasyfkacyjna α najblższych sąsadów (ang. α - earest eghbours - α-) wskazuje jako rozpoznane tę klasę, która jest najlcznej reprezentowana wśród α najblższych rozpoznawanemu obektow x obektów z cągu uczącego, co zapsujemy: ψ(x) = ; K, gdy α = maxα (9) Algorytm DB (ang. Dstance based) oparty na odległoścach (por. [3]) zapsać można następująco: DB g K ψ(x) = ; K, gdy D = mn{ D } (30) g K DB g g 84 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl gdze DB D (x) jest funkcją klasyfkującą postac: DB D ( x ) = d( x; xm ) d( xm; xn ) (3) m= m= n= a d(*) jest odległoścą mędzy obektam. Jako rozpoznane wyberamy tę klasę, dla której funkcja klasyfkująca przyjmuje wartość najmnejszą. Przedstawone algorytmy tworzena reguł decyzyjnych, oparte na modelu statystycznym, określć można manem klasycznych, bazują one bowem na rozwązanach analzy dyskrymnacj, metod decyzj statystycznych, teor estymacj (zarówno parametrycznej, jak neparametrycznej), bayesowskej teor decyzj czy metod optymalzacyjnych. Ocenene jakośc reguły klasyfkacyjnej wymaga wykorzystana zboru testowego, złożonego z M obektów (x l ) wraz z ch prawdłowym klasyfkacjam ( l ): T M = { (x, ), (x, ),..., (x l, l ) } l=,..., M. (3) Jakość algorytmu ψ określa sę poprzez oszacowane prawdopodobeństwa błędnej klasyfkacj: M Pˆ e (ψ) = I{ ψ( x l ) l } (33) M l= gdze I{A} jest funkcją wskaźnkową postac:, w przypadku zajśca zdarzena A I {A} = (34) 0, w przecwnym wypadku W praktycznych zadanach rozpoznawana rzadko zachodz możlwość wykorzystana zboru testowego. Wobec tego do oceny jakośc algorytmu rozpoznawana wykorzystuje sę take metody jak: metoda resubstytucj, metoda wydzelana, metoda usuwana, metoda rotacj sprawdzana krzyżowego (por. np. [9]). W rozważanym dalej przykładze do oceny dokładnośc klasyfkacj wykorzystano metodę usuwana (ang. leave-one-out), polegającą na tym, że na podstawe zboru U - konstruowana jest reguła klasyfkacyjna, a brakujący element traktowany jest jako jednoelementowy zbór testujący T. Taką procedurę powtarza sę razy, zmenając elmnowany obekt ze zboru uczącego. Zatem: Pˆ e ( ψ ) = I{ ψ ( xl ) l}. (35) l= Alternatywę dla klasycznych metod rozpoznawana obrazów stanowć mogą neklasyczne metody określana reguł przynależnośc obektów do klas. Szczególną uwagę zwrócć tu należy na metodę rekurencyjnego podzału, której grafczną prezentacją jest drzewo decyzyjne. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 85
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl Metoda rekurencyjnego podzału polega na stopnowym podzale p-wymarowej przestrzen cech na rozłączne podzbory, aż do uzyskana ch homogencznośc ze względu na wyróżnoną cechę. W wynku rekurencyjnego podzału zbór uczący U zostaje podzelony na M rozłącznych podzborów U, U,..., U M, zgodne z następującą procedurą ([4]):. Dla danego zboru obektów sprawdzć, czy jest on jednorodny ze względu na wartośc zmennej zależnej lub spełnone jest nne przyjęte kryterum stopu. Jeśl tak zakończyć postępowane.. Jeśl ne rozważyć wszystke możlwe podzały zboru U na rozłączne podzbory U, U,..., U M, w oparcu o wartośc kolejno wyberanych zmennych objaśnających. 3. Ocenć jakość każdego z podzałów zgodne z przyjętym kryterum wybrać najlepszy z nch. 4. Podzelć zbór obektów w wybrany sposób. 5. Krok -4 wykonać rekurencyjne dla każdego podzboru U, U,..., U M. Procedurę podzału kończymy, jeżel zostało osągnęte założone kryterum stopu zwykle jednorodność podzborów U, U,..., U M lub określona, mnmalna lczebność podzborów. Proces rekurencyjnego podzału zboru U można przedstawć grafczne w postac drzewa klasyfkacyjnego. Wśród algorytmów tworzących drzewa klasyfkacyjne wymenć można np. algorytm CART ang. Classfcaton and Regresson Trees (por. []), algorytm QUEST ang. Quck Unbased Effcent Statstcal Trees (por. [0]), algorytm CRUISE ang. Classfcaton Rule wth Unbased Interacton Selecton and Estmaton (por. [6]). Zwrócć należy uwagę na fakt, że procedury tworzena drzew klasyfkacyjnych ne mają wymagań co do rozkładu badanych zmennych są odporne na obserwacje netypowe. Drzewa klasyfkacyjne ne stawają warunków dotyczących skal pomaru badanych zmennych, a także umożlwają klasyfkację obrazów opsanych wektorem cech z wartoścam brakującym. Uzyskane w wynku analzy drzew klasyfkacyjnych reguły decyzyjne są proste w nterpretacj, a klasyfkacja obektów cągu testowego ne wymaga zwykle pomaru wszystkch cech objaśnających, co zmnejsza koszty prowadzonych analz. Przestawone, wybrane algorytmy rozpoznawana ze zborem uczącym znajdują zastosowane w welu konkretnych problemach badawczych z różnych dzedzn nauk, a dokładnej mówąc wszędze tam, gdze mamy do czynena ze zborem welowymarowych obserwacj z pewnej próby, o których wemy dokładne, z jakch populacj (klas) pochodzą. Jedną z takch dzedzn nauk jest dagnostyka medyczna. Reguły klasyfkacyjne w dagnostyce medycznej Zakwalfkowane pacjenta z chorobą weńcową do leczena operacyjnego jest przykładem decyzj podejmowanej w warunkach nepewnośc. Za operacyjne przyjmuje sę w takm przypadku prawdopodobeństwo wystąpena mnej lub bardzej nebezpecznych 86 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl powkłań, wynkających z bardzo różnych przyczyn, a zastnałych jeszcze przed, podczas lub po zakończenu operacj. ech rozpoznawanym obektam będą pacjenc Klnk Kardochrurg UM w Łodz poddan operacj wszczepena by-passów (CABG) w zwązku z chorobą weńcową. Obekty należą do dwóch klas: klasa grupa nskego ryzyka operacyjnego ( =96 osób); klasa grupa wysokego ryzyka operacyjnego ( =96 osób). Zestaw cech dagnostycznych, uznanych za przedoperacyjne czynnk ryzyka, przedstawa sę następująco (dla uproszczena oblczeń wykorzystano tylko zmenne merzone na skal co najmnej porządkowej):. Wek w latach;. BSA wskaźnk powerzchn cała; 3. RRs cśnene skurczowe (w mmhg); 4. RRd cśnene rozkurczowe (w mmhg); 5. EF% frakcja wyrzutowa lewej komory serca (w %); 6. AspAt amnotransferaza asparaganowa (w U/L); 7. Pozom kreatynny (w mg/dl). Prawdopodobeństwa błędnej klasyfkacj szacowano metodą leave-one-out. Do oblczeń wykorzystano: Paket STATISTICA PL moduły: Analza dyskrymnacyjna, Estymacja nelnowa Drzewa klasyfkacyjne. Autorske programy napsane w STATISTICA Basc, realzujące algorytmy najblższego sąsada, α-najblższych sąsadów, dyskrymnacj DB z maram odległośc Eukldesa Canberra oraz algorytm wykorzystujący lnowe kwadratowe funkcje klasyfkacyjne z uwzględnenem metody leave-one-out szacowana prawdopodobeństwa błędnych klasyfkacj. Udostępnone w Internece przez autorów programy tworzące drzewa klasyfkacyjne: algorytmy QUEST (http://www.stat.wsc.edu/~loh/quest.html) CRUISE (http://www.wp.edu/~hkm/cruse/). Program komputerowy GDM for Wndows udostępnany wraz z ksążką Walesaka [4]. Uzyskane wynk przedstawa tablca oraz rysunk. W przypadku algorytmów mnmalnoodległoścowych podano najlepsze otrzymane rezultaty. Dodatkowo przedstawone zostały równeż wynk klasyfkacj uzyskane za pomocą metody regresj logstycznej, często stosowanej w dagnostyce medycznej. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 87
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl Tablca. Błędne klasyfkacje dla zboru pacjentów poddanych CABG Algorytm rozpoznawana Odsetek błędnych klasyfkacj [%] (metoda leave-one-out) ske Wysoke Ogółem operacyjne operacyjne Algorytm najblższego sąsada z marą odległośc GDM 34/96 (35,4%) 30/96 (3,5%) 33,33% Algorytm najblższych sąsadów z marą odległośc GDM 8/96 (8,75%) 3/96 (3,96%),35% Algorytm DB z marą odległośc Canberra 7/96 (7,7%) 9/96 (9,79%) 8,75% Lnowe funkcje klasyfkacyjne (nezależne od typu estymatora) /96 (,88%) 9/96 (9,79%) 0,83% Kwadratowe funkcje klasyfkacyjne (estymator zwykły) 36/96 (37,50%) /96 (,50%) 5,00% Algorytm wykorzystujący odległość Mahalanobsa /96 (,88%) 9/96 (9,79%) 0,83% CART reguła stopu -SE /96 (,46%) 6/96 (6,67%) 4,06% CRUISE reguła stopu 0-SE /96 (,46%) /96 (,46%),46% Regresja logstyczna 0/96 (0,83%) 0/96 (0,83%) 0,83% Źródło: oblczena własne Jak łatwo zauważyć, zdecydowane najgorsze wynk dostajemy dla algorytmu najblższego sąsada, gdze co trzec pacjent zostaje neprawdłowo zaklasyfkowany. Z algorytmów bazujących na pojęcach sąsedztwa odległośc najlepsze wynk daje algorytm BD oparty na odległoścach z marą odległośc Canberra. Odsetek błędnych klasyfkacj w tym przypadku wynos 8,75%. Lnowe funkcje klasyfkacyjne (nezależne od typu estymatora), algorytm wykorzystujący odległość Mahalanobsa oraz metoda regresj logstycznej dają dentyczne wynk 0,83% nepoprawnych zaklasyfkowań. Gorsze rezultaty daje reguła decyzyjna oparta na wartoścach kwadratowych funkcj klasyfkacyjnych (estymator zwykły). 5% wszystkch pacjentów zostaje źle zdagnozowanych. Zauważmy przy tym, że algorytm ten błędne rozpoznaje pacjentów z grupy nskego ryzyka odsetek błędów wynos 37,5%. Pacjenc z grupy wysokego ryzyka są w wększośc prawdłowo rozpoznawan. ajlepsze wynk dają algorytmy tworzące drzewa klasyfkacyjne (por. rys. rys. ). 88 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl WIEK BSA 64,5 >64,5 wysoke,675 >,675 wysoke EF% 39,5 >39,5 wysoke nske Rys.. Drzewo klasyfkacyjne algorytm CART; źródło: opracowane własne WIEK 6,5 >6,5 BSA,66 >,66 WIEK 64,9 >64,9 wysoke EF% 35,45 >35,45 nske wysoke wysoke EF% 49,89 >49,89 EF% 40,7 >40,7 nske wysoke nske Rys.. Drzewo klasyfkacyjne algorytm CRUISE; źródło: opracowane własne Drzewo klasyfkacyjne uzyskane w wynku zastosowana algorytmu CART ma 4 węzły końcowe. Łatwo zauważyć, że do podzału w węzłach wykorzystano tylko trzy z sedmu analzowanych czynnków ryzyka: wek pacjenta, wskaźnk powerzchn cała oraz welkość frakcj wyrzutowej lewej komory serca. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 89
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl Otrzymane w wynku zastosowana algorytmu CART reguły klasyfkacyjne można łatwo zapsać. p. pacjentów z grupy wysokego ryzyka można opsać jako osoby w weku powyżej 64,5 lat lub osoby o nskm wskaźnku powerzchn cała (ne wyższym nż,675) lub osoby z nską frakcją wyrzutową (co najwyżej 39,5%). Odsetek błędnych klasyfkacj ogółem dla algorytmu CART wynos 4,06%. eco gorzej jest rozpoznawana grupa pacjentów wysokego ryzyka operacyjnego 6,7% przy,5% błędnych klasyfkacj dla osób z grupy nskego ryzyka. Drzewo klasyfkacyjne powstałe w wynku zastosowana algorytmu CRUISE jest neco bardzej rozbudowane. Lczba węzłów końcowych jest równa 7, ale do podzału w węzłach wykorzystane są tylko trzy czynnk ryzyka: wek, BSA EF%. Odsetek błędnych rozpoznań wynos,46%. Reguły klasyfkacyjne są podobne do uzyskanych dla algorytmu CART. Pacjenc z grupy wysokego ryzyka to osoby w weku powyżej 64,86 lat lub o wskaźnku powerzchn cała równym co najwyżej,66, lub o frakcj wyrzutowej lewej komory ne wyższej nż 40,7%. Uwag końcowe Przedstawony przykład zastosowana wybranych algorytmów rozpoznawana uzyskane wynk klasyfkacj wskazują, że metody te można z powodzenem wykorzystać do wspomagana procesu podejmowana decyzj w dagnostyce medycznej. Oczywśce każda z omawanych metod tworzena reguł decyzyjnych ma pewne wady zalety. W przypadku metod mnmalnoodległoścowych problemem może być wybór odpowednej mary odległośc. W zasadze ne ma reguły wskazującej najlepszą marę. Wybór mary odległośc odbywać sę może tylko na drodze eksperymentalnej z klku sprawdzonych mar wyberamy tę, dla której dostajemy nższe odsetk błędnych klasyfkacj. Dodatkowym problemem jest tutaj wybór mary odległośc dla obektów opsanych zestawem cech meszanych. Zastosowane mnmalnoodległoścowych algorytmów rozpoznawana wymaga od badacza przechowywana całego cągu uczącego, bowem klasyfkacja każdego nowego obektu wymaga oblczena jego odległośc od wszystkch obektów ze zboru uczącego. Może to znaczne wydłużyć czas oblczeń. Użyteczną metodą klasyfkacj w praktycznych zastosowanach są lnowe funkcje klasyfkacyjne oraz metoda regresj logstycznej. Wąże sę to z dostępnoścą tych metod w paketach statystycznych. Pamętać jednak należy, że lnowe kwadratowe funkcje klasyfkacyjne, algorytm oparty na odległoścach Mahalanobsa oraz regresję logstyczną można stosować w przypadku, gdy spełnone są założena o welowymarowej normalnośc rozkładów cech obektów w klasach. Wykorzystane do analzy danych metod, dla których ne są spełnone wszystke założena, prowadzć może do mało warygodnych, a nawet błędnych wynków. Stąd też wynka potrzeba poszukwana metod optymalnych w warunkach prowadzonych badań 90 Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone
StatSoft Polska, tel. () 484300, (60) 445, nfo@statsoft.pl, www.statsoft.pl emprycznych, w których najstotnejszą własnoścą jest odstępstwo od klasycznych założeń (np. normalnośc rozkładu, sposobu pomaru cech tp.). Szczególne użyteczne zdają sę być algorytmy tworzące drzewa klasyfkacyjne, które ne mają wymagań co do rozkładu skal pomaru badanych zmennych są odporne na obserwacje netypowe. Uzyskane w wynku analzy drzew klasyfkacyjnych reguły decyzyjne są proste w nterpretacj, a ch grafczna prezentacja ułatwa proces podejmowana decyzj. Klasyfkacja obektów cągu testowego ne wymaga zwykle pomaru wszystkch cech objaśnających, co zmnejsza koszty prowadzonych analz. Podstawowe algorytmy budowy drzew klasyfkacyjnych (CART, QUEST) są dostępne w pakece STATISTICA. Lteratura. Bobrowsk L. (987), Dyskrymnacja symetryczna w rozpoznawanu obrazów. Teora, algorytmy, zastosowana w komputerowym wspomaganu dagnostyk medycznej, Ossolneum, Wrocław.. Breman L., Fredman J., Olshen R., Stone C. (984), Classfcaton and Regresson Trees, CRC Press, London. 3. Cuadras C. M. (989), Dstance Analyss n Dscrmnaton and Classfcaton Usng Both Contnuous and Categorcal Varables, (w:) Statstcal Data Analyss and Inference, (Dodge ed.), Elsever Scence Publshers B. V., orth Holland, s. 459-473. 4. Gatnar E. (00), eparametryczna metoda dyskrymnacj regresj, PW, Warszawa. 5. Jajuga K. (990), Statystyczna teora rozpoznawana obrazów, PW, Warszawa. 6. Km H., Loh W.-Y. (00), Classfcaton Trees Wth Unbased Multway Splts, Journal of the Amercan Statstcal Assocaton 96, s. 598-604. 7. Krzyśko M. (990), Analza dyskrymnacyjna, WT, Warszawa. 8. Krzyśko M. (997), Statystyka matematyczna, część II, Wydawnctwo aukowe Unwersytetu m. Adama Mckewcza, Poznań. 9. Kurzyńsk M. (997), Rozpoznawane obektów. Metody statystyczne, Ofcyna Wydawncza Poltechnk Wrocławskej, Wrocław. 0. Loh W.-Y., Shh Y.-S. (997), Splt Selecton Methods for Classfcaton Trees, Statstca Snca 7, s. 85-840.. Msztal M. (00), Statystyczne metody rozpoznawana obrazów ch zastosowana, rozprawa doktorska, maszynops, Łódź.. Rao R. C. (98), Modele lnowe statystyk matematycznej, PW, Warszawa. 3. Tadeusewcz R., Flasńsk M. (99), Rozpoznawane obrazów, PW, Warszawa. 4. Walesak M. (00), Uogólnona mara odległośc w statystycznej analze welowymarowej, Wydawnctwo Akadem Ekonomcznej m. Oskara Langego we Wrocławu, Wrocław. Copyrght StatSoft Polska, 003 Kopowane lub powelane w jakkolwek sposób bez zgody StatSoft Polska Sp. z o.o. zabronone 9