SUDIA INFORMAICA 7 Volume 8 Number (7) Paweł BŁASZCZYK Unwersytet Śląsk, Instytut Matematyk Katarzyna SĄPOR Poltechnka Śląska, Instytut Inormatyk ZASOSOANIE MEODY CZĄSKOYCH NAJMNIEJSZYCH KADRAÓ (PLS) DO KLASYFIKACJI DANYCH MIKROMACIERZOYCH Streszczene. artykule przedstawono wyprowadzene metody cząstkowych namneszych kwadratów (PLS) e zastosowane w klasykac danych mkromacerzowych. tym celu porównano ze sobą dwe metody klasykac lnową dyskrymnacę Fshera (FLD) oraz metodę cząstkowych namneszych kwadratów (PLS). Jako dane mkromacerzowe wykorzystano symulowane zbory danych oraz dane bologczne. Słowa kluczowe: metoda namneszych cząstkowych kwadratów, lnowa dyskrymnaca Fshera, eksperyment mkromacerzowy, uczene nadzorowane AN APPLICAION OF PARIAL LEAS SQUARES MEHOD (PLS) FOR CLASSIFICAION OF MICROARRAY DAA Summary. In ths paper we present marthematcal ntroducton o Partal Least Squares metod (PLS) and applcaton or classcaton mcroarray data. o do ths applcaton two classcaton methods was compared Fsher lnear dscrmnant (FLD) and partal Least Squares (PLS) appled to classcaton o mcroarray data are compared. he smulaton and bologcal datasets are used as a mcroarray gene expresson data. Keywords: Partal Least Square (PLS), Fsher Lnear Dscrmnant (FLD), mcroarray experment, supervsed learnng
3 P. Błaszczyk, K. Stąpor. stęp eksperymentach genetycznych predykca, klasykaca klasteryzaca są podstawowym metodam wykorzystywanym do analzy nterpretac danych mkromacerzowych. Dane mkromacerzowe charakteryzuą sę tym, że zazwycza lczba cech opsuących próbkę est rzędu klku czy nawet klkunastu tysęcy znaczne przekracza lczbę próbek, których est ne węce nż klkadzesąt. Klasykaca próbek w take sytuac może dawać ałszywe wynk. Z tego powodu ważne est zmneszene wymaru przestrzen cech (genów). Cel ten można osągnąć poprzez wstępną selekcę lub też poprzez ekstrakcę cech. artykule tym zamemy sę tylko metodam ekstrakc cech. Jedną z takch metod est metoda namneszych cząstkowych kwadratów (PLS). wórcą te metody, która znadue szeroke zastosowane np. w chemometr, est H. old [,,, 3]. Metodę tę można wykorzystać także w celu klasykac próbek. artykule tym koncentruemy sę na dwóch metodach klasykac. Przedstawamy wyprowadzena matematyczne lnowe dyskrymnac Fshera oraz metody namneszych cząstkowych kwadratów, oraz porównuemy e ze sobą. Obe metody porównuemy zarówno na danych bologcznych, ak symulowanych danych mkromacerzowych. celu estymac sprawnośc klasykac użyemy metody k - krotne waldac krzyżowe oraz metody Jackkne. Żadna z opsanych metod ne zależy od specykac mkromacerzy. rzeczywstośc ednak dane mkromacerzowe mogą wymagać odpowedne obróbk wstępne. artykule tym, przed wykonanem eksperymentu porównana, dane mkromacerzowe zostały poddane normalzac. artykule wykorzystuemy zarówno przetworzone dane symulowane, ak dane bologczne.. Metody Nech x :,..., N,,... L oznacza macerz pozomów ekspres genów, gdze wersze odpowadaą kolenym genom, natomast kolumny odpowadaą ndywdualnym próbkom. Ponadto, nech y y, {,},..., L y będą elementam kolumnowego wektora przynależnośc do klas Y. artykule tym będzemy rozważać edyne problem dwuklasowy. Klasy będzemy oznaczać przez C {y : y } oraz C {y : y }.
Zastosowane metody cząstkowych namneszych kwadratów 33.. Lnowa Dyskrymnaca Fshera (FLD) Lnowa dyskrymnaca Fshera (FLD) est szczególnym przypadkem lnowe unkc dyskrymnacyne (LDA), służące do znadywana nalepsze hperpłaszczyzny rozdzelaące dane. Lnowa dyskrymnaca Fshera została opsana w ksążkach [3, 6, 5, 4, 5]. yprowadzene metody LDA FLD przedstawmy w dodatku A, ponże natomast przedstawmy algorytm FLD: Nech x :,..., N,,... L będze zborem testowym rozmaru L, gdze x est wartoścą -te cechy w -te próbce, natomast nech y,..., y L, y {,} będą etyketam klas. Ponadto załóżmy, że mamy unkcę lnową o postac h( ) v, () gdze est -tym wektorem kolumnowym macerzy odpowadaącym -te próbce. Załóżmy, że eśl wartość unkc h ( ) >, to klasykowany element należy do klasy C, w przecwnym wypadku do klasy C. Celem naszym est znalezene optymalnych współczynnków oraz progu v. Nech oraz będą odpowedno warancą oraz średną w -te klase. Rozważmy następuącą unkcę kryteralną: { C ( ), () gdze E h( ) C } oraz Var{ h( ) } dla,. Funkcę tę nazywamy kryterum Fshera. Merzy ona różncę dwóch średnch znormalzowanych poprzez warance. Korzystaąc z równana na postać optymalnych współczynnków w metodze LDA (patrz Dodatek A), otrzymuemy następuące równane: [ Σ Σ ] ( M M ), (3) gdze: M E{ C} wektor wartośc oczekwane, Σ E{( M )( M ) C} macerz kowaranc dla klasy C :,... Metoda cząstkowych namneszych kwadratów (PLS) wórcą metody PLS est H. old [,,, 3]. Powstała ona uż w 975 roku. elokrotne poprawana była tematem welu artykułów. artykule tym operamy sę na algorytme zaproponowanym przez Höskuldssona w artykule z 988 roku []. Metoda cząstkowych namneszych kwadratów określa zwązek lnowy pomędzy macerzą próbek a wektorem przynależnośc do klas Y ] [ y :... L. metodze te przymuemy założena, że macerz próbek oraz wektor Y są znormalzowane, tak aby wartość średna w każde kolumne
34 P. Błaszczyk, K. Stąpor była równa. Szukamy takego wektora wag, który est rozwązanem następuące unkc celu: w przy warunku k w w ( w, Y ) arg max cov (4) w w dla każdego k. (5) Maksymalna lczba komponentów uzyskanych tą metodą est równa rank, gdze -ty komponent est kombnacą lnową cech z macerzy. Ponże przedstawmy algorytm teracyny NIPALS zaproponowany przez Höskuldssona []:. Dla... ustaw u na wektor Y oraz wykona krok -9,. w u /( u u) oraz znormalzu w, 3. t w. 4. c Y t /( t t) oraz znormalzu c, 5.. u Y c /( c c) oraz dź do 6. eśl est zbeżne, w przecwnym wypadku powróć do, 6. p t /( t t), 7. b u t /( t t), 8. tp, 9. Y Y btc, gdze est lczbą komponentów. Następne przy użycu klasyczne metody cząstkowych namneszych kwadratów oblczamy współczynnk regres następuąco: w p w c [ ]. (6) Klasykaca tą metodą odbywa sę w sposób następuący: Ytest sgn( test ). (7) Szczegóły dotyczące wyprowadzena metody PLS przedstawono w Dodatku B..3. Estymaca błędów Dla każdego zboru danych klasykowalśmy próbk za pomocą metod opsanych powyże. celu estymac pozomu błędu wykorzystalśmy metodę Jackkne, która est szczególnym przypadkem metody bootstrap opsane w artykule [5], oraz metodę k - krotne waldac krzyżowe opsane także w artykule [5]. Metoda Jackkne została wykorzystana w sposób następuący: losowo wybralśmy poedynczą próbkę zboru testowego, nauczylśmy klasykator na pozostałych próbkach, a wybraną próbkę klasykowalśmy w celu oblczena wartośc błędu. Błąd był równy, eśl dana próbka została zaklasykowana poprawne, lub, eśl wybrana próbka została sklasykowana błędne. Krok ten został powtórzony
Zastosowane metody cząstkowych namneszych kwadratów 35 razy, za każdym razem wyberaąc w ten sposób edną próbkę z pełnego zboru próbek. Błąd ER J oblczony tą metodą est średną arytmetyczną błędów z wcześneszych kroków. Zatem, błąd ten ma postać: ER J n n er( ), (8) gdze n est lczbą powtórzeń, natomast er() est błędem w -te terac. artykule tym przyęlśmy wartość n równą. Metoda k-krotne waldac krzyżowe została wykorzystana następuąco: losowo podzellśmy zbór na k podzborów równego rozmaru. Uczylśmy klasykator k razy, za każdym razem zbór trenngowy tworzyło k podzborów, natomast pomnęty zbór klasykowalśmy na wcześne nauczonym klasykatorze w celu oblczena błędu. Krok ten powtarzalśmy dla każdego z k podzborów. Błąd oblczony z wykorzystanem te metody ER CV est średną arytmetyczną błędów dla każdego z k podzborów. Zatem, błąd ten ma postać: ER CV k k er( ), (9) gdze k est lczbą podzborów, natomast er() est błędem w -te terac. artykule tym przyęlśmy wartość k równą 5. celu znalezena końców przedzałów unośc wykorzystalśmy percentyle ER CV oraz ER J rozkładu błędu. Dla estymac rozkładu wykorzystalśmy wartośc ER CV oraz ER J estymowanych w sposób opsany powyże. Dla ustalonego pozomu stotnośc α przedzał unośc został określony poprzez α / oraz α / percentyl, zatem przedzał unośc est postac: ( p ) CI p, () α / ; α / gdze p α / est α / percentylem. 3. ynk eksperymentu 3.. Bazy danych Metody opsane w perwsze sekc zostały porównane na klku symulowanych zborach danych mkromacerzowych. Naperw zostały przygotowane dwe grupy danych, składaące sę z 5 próbek (wektorów) zaweraące genów. Zbór IS5 zaweraący 5% () genów różncuących został wygenerowany za pomocą metod opsanych w artykule [] z wykorzystanem rozkładów normalnych o zadanych parametrach przedstawonych w tabel. ylko ostatne 3 wersze reprezentuą różne pozomy ekspres genów.
36 P. Błaszczyk, K. Stąpor abela Średne oraz odchylena standardowe użyte w zborach IS5 Grupa Grupa μ μ -8, -8, -,4 -,4 - - -6, -6,, -8, -8,5, -,4 -,7 Przymuemy ednakowe prawdopodobeństwo dla każdego modelu z perwszych 3 werszy tabel dla określena genów neróżncuących oraz dla ostatnch 3 werszy tabel dla określena genów różncuących. o znaczy, że eśl wygenerowany gen został określony ako DEG (eden ze genów dla zboru IS5), to wybralśmy eden z trzech ostatnch werszy tabel z ednakowym prawdopodobeństwem /3 wygenerowalśmy pozomy ekspres dla 5 próbek z grupy oraz 5 próbek z grupy, wykorzystuąc rozkłady normalne z parametram zadanym wybranym werszem tabel. Na przykład, nech est ednym z genów różncuących oraz wybrany został ostatn wersz tabel w celu wygenerowana pozomów ekspres genów. o znaczy, że wygenerowalśmy 5 lczb dla perwsze grupy z rozkładu normalnego N(-;.4) oraz 5 lczb dla grupy z rozkładu normalnego N(-;,7). Dla genów neróżncuących wybralśmy eden z perwszych 3 werszy tabel z ednakowym prawdopodobeństwem /3 oraz wygenerowalśmy pozomy ekspres dla wszystkch 3 próbek z tego samego rozkładu normalnego o parametrach wyznaczonych przez wybrany wersz z tabel. ygenerowalśmy także zbór danych CS, zaweraący próbek należących do perwsze grupy oraz 9 próbek należących do druge grupy. Każda próbka zawera genów, proporca genów różncuących do neróżncuących została ustawona na %, to znaczy że mamy genów różncuących w tych zborach. Naperw nezależne wygenerowalśmy każdą wartość macerzy 4 z rozkładu standardowego normalnego. Następne dodalśmy wartość do perwszych genów w perwsze grupe w celu modelowana genów różncuących. Perwszych genów w perwsze grupe ma rozkład normalny ze średną równą. Ponadto, wszystke elementy całe macerzy są stochastyczne nezależne. Następne wygenerowalśmy nezależne 4 losowych lczb a,..., a 4 z rozkładu normalnego standardowego. Dla ustalonego współczynnka korelac ρ, dla każdego elementu generowane macerzy zastosowalśmy następuącą transormacę: x : ρa ρ x, gdze,..., est numerem genu natomast,,...,4 numerem próbk, tak że dla dowolnych oraz mamy (, ) Corr x x ρ. ykorzystuąc procedurę opsaną powyże,
Zastosowane metody cząstkowych namneszych kwadratów 37 wygenerowalśmy zbory testowe trenngowe CS, ze współczynnkem korelac odpowedno na pozome,. Ponadto, porównalśmy każdą z omawanych metod na zborze bologcznym leukema dostępnym pod adresem [6] oraz zborze colon dostępnym pod adresem [7]. Zbór leukema zawera pozomy ekspres typów bałaczk: ostre lmatyczne (ALL) oraz ostre szpkowe (AML). Zbór trenngowy zawera 38 próbek (7 ALL AML), natomast zbór testowy zawera 34 próbk ( ALL 4 AML). obu zborach próbk składaą sę z 79 genów. Zbór colon zawera pozomy ekspres genów pogrupowane w klasy. Klasa perwsza zawera pozomy ekspres genów 4 próbek pochodzących z chore częśc okrężncy, natomast próbk pochodzą od tych samych pacentów, ale ze zdrowe częśc okrężncy. 3.. ynk Do porównana ze sobą obu metod zastosowalśmy dokładne tak sam schemat eksperymentu zarówno dla danych symulowanych, ak danych bologcznych. Naperw dla każdego zboru danych oblczylśmy wartośc p-value przymuąc lość permutac równą tys. tym celu wykorzystalśmy metodę unadusted p-value opsaną w artykułach [4, 8]. Następne wybralśmy te geny (cechy), których wartość p-value, była mnesza nż.. ak wybrane dane poddalśmy wstępne obróbce. Zostały one znormalzowane. Następne tak przetworzone dane wykorzystalśmy do klasykac za pomocą obu opsanych metod. Estymac błędu dokonalśmy za pomocą metody k-krotne waldac krzyżowe dla parametru k5 oraz metody Jackkne. Dokonalśmy estymac przedzału unośc na pozome,95. 3... Dane bologczne Dla danych bologcznych zastosowalśmy schemat eksperymentu opsany powyże. przypadku zboru colon wybralśmy 8 genów, których wartośc p-value były mnesze nż,. zborze leukema takch genów wybralśmy 86. Dane zostały poddane normalzac. Dla tak obrobonych danych zbudowalśmy klasykator oparty na metodze FLD opsane w punkce. oraz klasykator PLS opsany w punkce. tego artykułu. Błąd klasykac estymowalśmy metodam Jackkne oraz k-krotne waldac krzyżowe. Dla zboru danych leukema przy klasykac metodą PLS osągnęte wynk ne zależały od lośc komponentów. Estymowane obema metodam były do sebe bardzo zblżone. Średn pozom błędu estymowany metodą Jackkne wynosł,7 w przedzale unośc [,6;,8]. Błąd szacowany, drugą z metod, metodą k-krotne waldac krzyżowe był newele gorszy. Znaczne gorsze wynk uzyskalśmy przy klasykac metodą FLD. ówczas pozomy błędów estymowanych metodą Jackkne oraz k-krotne waldac krzyżowe wynoszą odpowedno,676 w przedzale [,588;,735] oraz,764 w przedzale unośc [,588;
38 P. Błaszczyk, K. Stąpor,7647]. tabel przedstawono przyporządkowane próbek do klas za pomocą obu metod oraz porównane ch z aktyczną przynależnoścą do klas. abela ynk klasykac zboru leukema metodam FLD oraz PLS Nr. próbk Klasa FLD PLS Nr. próbk Klasa FLD PLS 8 9 3 4 5 6 3 7 4 8 5 9 6 7 8 9 3 3 4 3 5 3 6 33 7 34 abela 3 ynk klasykac zboru colon metodam FLD oraz PLS Nr. próbk Klasa FLD PLS Nr. próbk Klasa FLD PLS 7 8 3 9 4 5 6 7 3 8 4 9 5 6 7 8 3 9 4 3 5 3 6 Klasykuąc zbór danych colon metodą FLD, zauważylśmy dużą różncę w pozome błędu szacowanego obema opsanym metodam. Różnce te sęgały nawet % były korzystnesze w przypadku estymac metodą Jackkne. Średn błąd estymowany tą metodą wynosł, zawerał sę w przedzale [,;,5], natomast pozom błędu estymowany me-
Zastosowane metody cząstkowych namneszych kwadratów 39 todą k-krotne waldac krzyżowe wynosł,58 należał do przedzału [,;,58]. ynk uzyskane przy klasykac metodą PLS po raz koleny były lepsze nż te uzyskane poprzez klasykacę metodą FLD. Średn błąd wynosł,48-,968 odpowedno dla estymac metodą Jackkne oraz k-krotne waldac krzyżowe. tabel 3 przedstawono przyporządkowane próbek do klas uzyskanych przy klasykac zboru colon. 3... Dane symulowane Przed przystąpenem do eksperymentu dla obu zborów symulowanych oblczylśmy wartośc p-value dla tys. permutac, po czym wybralśmy tylko te geny (cechy), których wartośc p-value były mnesze nż.. Dla zborów CS oraz IS5 było to odpowedno 44 oraz 97 genów. Otrzymane dane poddalśmy wstępne obróbce. Zostały one poddane normalzac. Dla danych symulowanych naperw zbudowalśmy klasykator PLS. Estymuąc pozom błędu dwoma opsanym w sekc 3 metodam, uzyskalśmy bardzo zblżone wynk dla każde lczby komponentów w algorytme PLS. ynk estymac pozomu błędu uzyskane metodą Jackkne dla zboru CS wynoszą średno,75, a przedzał unośc est równy [,5;,6]. Zarówno pozom błędu, ak końce przedzału unośc ne różną sę znaczne w zależnośc od lczby komponentów. Odchylene wynos zaledwe,5. ynk te różną sę ednak od tych uzyskanych metodą k-krotne waldac krzyżowe. Pozom błędu estymowany tą metodą est wyższy wynos średno, dla przedzału unośc [,;,5]. Sytuacę odwrotną mamy w przypadku zboru IS5, gdze lepsze wynk uzyskalśmy estymuąc pozom błędu metodą Jackkne. Szacowany średn pozom błędu wynosł, w przedzale [;,5]. ynk uzyskane metodą k-krotne waldac krzyżowe ne odbegaą ednak w sposób drastyczny. Średn pozom błędu wynos,667, natomast przedzał unośc [,6;,]. Porównuąc te wynk z tym uzyskanym przy klasykac tych samych zborów metodą FLD, wdzmy znaczącą różncę. Pozomy błędu estymowane obema metodam są nezadowalaące są na pozome,45 do,5 odpowedno dla zborów CS oraz IS5. Bardzo złe wynk uzyskane za pomocą metody FLS sugeruą, że zanm metoda ta będze wykorzystywana ako klasykator, należałoby dokonać dodatkowe obróbk danych, na przykład poprzez selekcę, albo użyć algorytmu PLS do redukc wymaru przestrzen, po czym zastosować metodę FLD. 4. nosk Podsumowuąc, w artykule tym porównalśmy dwe metody klasykac danych mkromacerzowych metodę namneszych cząstkowych kwadratów (PLS) oraz lnową dyskrymnacę Fshera (FLD). Metoda cząstkowych namneszych kwadratów (PLS) okazała sę
4 P. Błaszczyk, K. Stąpor być znacząco lepsza od metody lnowe dyskrymnac Fshera (FLD). Ponadto, algorytm PLS posłużył do klasykac danych, ednak można sę zastanowć nad sposobem wykorzystana go edyne do redukc wymaru, po czym klasykować nną z metod, na przykład za pomocą lnowe dyskrymnac Fshera. Poneważ wynkem algorytmu PLS są komponenty będące lnową kombnacą cech w perwotnym zborze danych, rezultaty uzyskane w wynku tego eksperymentu mogą być bardzo dobre. Dobre wynk uzyskane przy klasykac zborów IS5 oraz CS, przy których tworzenu ważny był współczynnk korelac, potwerdzaą skuteczność metody PLS. Chocaż korelaca ne była duża, zbór został dobrze rozpoznawany, a estymowany błąd był na akceptowalnym pozome. Być może zastosowane dodatkowe obróbk danych poprawłoby akoś klasykac. 5. Dodatk 5.. Dodatek A celu lepszego zrozumena metody FLD opsane w punkce artykułu wyprowadzmy teraz metodę lnowe dyskrymnac (LDA), z które to wywodz sę metoda FLD. zagadnenu klasykac lnowe reguła decyzyna ma następuącą postać: eśl h ( ) v >, wówczas C, w przecwnym wypadku C. ( Funkca h ) est lnowa nazywamy ą lnową unkcą dyskrymnacyną. Naszym zadanem est znalezene optymalnych współczynnków ] [,..., N. Z równana () wynka, że N-wymarowy wektor est rzutowany na wektor, a zmenna y w rzutowane ednowymarowe przestrzen h est klasykowana do klasy C albo klasy C. Jeśl zmenna ma rozkład normalny, wtedy h ) także ma rozkład normalny. ówczas błąd w przestrzen h est określony przez E h( ) C } oraz Var{ h( ) }. Natomast eśl ( { C ne ma rozkładu normalnego, a h ) est sumą n składnków, to korzystaąc z centralnego twerdzena grancznego zmenna ( może być blska rozkładow normalnemu dla wystarczaąco dużego N. artośc oczekwane oraz warance dla h ) maą następuącą postać: { v () E h( ) C} E{ C} v M Var{ h( ) C } E{( M )( M ) C } Σ () Nech teraz (,,, ) będze unkcą kryteralną, którą będzemy mnmalzować albo maksymalzować w celu znalezena optymalnych wartośc współczynnków. Korzy- (
Zastosowane metody cząstkowych namneszych kwadratów 4 staąc z twerdzena o pochodne unkc złożone, oblczymy pochodne unkc względem oraz v. ówczas:, (3) v v v v v. (4) Na mocy () oraz () otrzymuemy: Σ oraz M, (5) v oraz v, (6) zatem dokonuąc odpowednch podstaweń oraz przyrównuąc (3) (4) do zera, otrzymuemy: Σ Σ M M, (7). (8) Poneważ błąd w rzutowane przestrzen zależy tylko od kerunku wektora a ne od ego rozmaru, dla uproszczena możemy usunąć wszystke stałe, przez które mnożymy. Stad po wstawenu uproszczenu otrzymuemy: [ ] ( ) ) ( M M s s Σ Σ, (9) gdze / / / s. () Przymmy teraz za unkcę kryteralną unkcę Fshera o postac (). Przypomnmy, że est ona dana wzorem ) (. Korzystaąc z wcześneszych wyprowadzeń, oblczmy pochodne unkc względem oraz. ówczas otrzymuemy: ) ( ) (, ()
4 P. Błaszczyk, K. Stąpor a stąd wobec wzoru () otrzymuemy s /. ówczas optymalne współczynnk maą następuącą postać: Σ Σ ( M M ). () Poneważ w różncy ne występue składnk v, węc lnowa dyskrymnaca Fshera ne zależy od progu v. 5.. Dodatek B Metoda cząstkowych namneszych kwadratów określa zwązek lnowy pomędzy macerzą próbek a wektorem przynależnośc do klas Y [ y :... L]. metodze te przymuemy założena, że macerz próbek oraz wektor Y są znormalzowane. Szukamy takego wektora wag, który est rozwązanem unkc celu określone wzorem (4) przy warunku (5). Przypomnmy, że wzory te maą postać odpowedno w k w w ( w, Y ) arg max cov, w w dla każdego k. Naszym perwszym zadanem est znalezene kerunku maksmum kowaranc. tym celu należy dokonać dekompozyc na wartośc syngularne macerzy Y. Po dekompozyc uzyskuemy macerz o postac: Y UΣV. (3) Macerz Σ est macerzą dagonalną, gdze wartośc na przekątne są postac λ, przy czym... dla wartośc własnych λ macerzy Y. Ponadto, V oraz > U są macerzam ortogonalnym, czyl spełnaą warunk V V I oraz U U I. Algorytm PLS wybera kerunek wyznaczony przez wektor syngularny, odpowadaący nawększe wartośc syngularne. spółczynnk regres w przypadku perwszego komponentu wynos bv, gdze b, (4) u u a v,u są perwszym wektoram syngularnym, natomast est perwszą wartoścą syngularną dane macerzy, podczas gdy aproksymaca Y est dana wzorem b u v. Dokonamy teraz rzutowana macerzy Y na przestrzeń ortogonalną do wektora u. Poneważ macerz rzutu na znormalzowany wektor w ma postać I ww, (5)
Zastosowane metody cząstkowych namneszych kwadratów 43 a węc otrzymuemy uu uu uu I I (6) u u u u u u yberamy teraz teracyne nowy kerunek. ynkem będze wektor wartośc następne zmenne ukryte ortogonalne do wektora u. ektor ten będze kombnacą wszystkch kolumn nowe macerzy ortogonalnych do tego wektora. Po usunęcu u maksymalna kowaranca nowe macerzy mus być co namne tak duża ak druga wartość syngularna orygnalne macerzy. LIERAURA. Basten P., Vnz V. E., enenhaus M.: PLS generalsed lnear regresson. Computatonal Statstcs & Data Analyss, 48 (5), pp. 7 46.. Broberg P.: Statstcal methods or rankng derentaally expressed genes. Genome Bology 3, $:R4. 3. Duda R. O., Hart P. E., Stork D. G.: Pattern classcaton ed. ley, New York. 4. Dudot S., Yang Y. H., Callow M. J., Speed.P.: Statstcal methods or dentyng derentally expressed genes n replcated cdna mcroarray experments. echncal Report 578, Department o Statstcs, UC Berkeley, CA,. 5. Eron B.: Estmatng the error rate o predcton rule mprovement on cross-valdaton. Journal o the Amercan Statstcal Assocaton, 983, Vol. 78, No. 38. 6. Fukunaga K.: Introducton to statstcal pattern recognton. Academc Press Proessonal, New York 99. 7. Garthwate P. H.: An nterpretaton o Partal Least Squares. Journal o the Ameran Statstcal Assocaton, March 994, 89, 45, ABI/INFORM Global, pp.. 8. Ge Y., Dudot S., Speed. P.: Resamplng-based multple testng or mcroarray data analyss. echncal Report 663, Department o Statstcs, UC Berkeley, CA, 3. 9. Gelad P., Kowalsk B. R.: Partal Least-Squares Regresson: A tutoral, Analytca Chemca Acta, 85 (986), 7.. Helland I. S.: Partal Least Squares Regresson and Statctcal Models, Scand. J. Statst 7, 99, pp. 97 4.. Höskuldsson A.: PLS Regresson methods, Journal o Chemometrcs. vol (988), pp. 8.. Höskuldsson A.: Varable and subset selecton n PLS regresson. Chemometrcs and Intellgent labolatory Systems, 55 (), pp. 3 38.
44 P. Błaszczyk, K. Stąpor 3. Lu Z., an J. P., Chen D.: Cancer Classcaton wth Partal Least Square Algorthm and Proteomc Data. 4. Lu Z., Chen D., an J. P.: Classcaton o Proteomc Data wth Multclass Logstc Partal Least Square Algorthm. 5. Marques de Sa J. P.: Pattern recognton. Concepts, methods, and applcatons, Sprnger,. 6. Nguyen D. V., Rocke D. M.: umor classdcaton by Partal Least Square usng mcroarray gene expresson data. Bonormatcs, Vol. 8, No.,, pp. 39 5. 7. Nguyen D. V., Rocke D. M., On Partal Least Square dmenson reducton or mcroarraybased classcaton: a smulaton study. Computatonal Statstc & Data Analyss, 46, 4, pp. 47 45. 8. Rospal R., reo L. J.: Kernel Partal Least Square Regresson n Reproducng Kernel Hlbert Space. 9. Selln N., Versand O.: Partal Least Square Modelng n Research on Educatonal Achevement.. old H.: Sot Modelng by Latent Varables: he Non-Lnear Iteratve Partal Least Squares (NIPALS) Approach, Perspectves n Probablty and Statstcs. Papers n Honour o M. S. Bartlett, London 975, pp. 7 4. old S., Martens H., old H.: he multvarate calbraton problem n chemstry solved by the PLS method. Proc. Con. Matrx Pencls, (A. Ruhe and B. Kagström, eds.), March 98, Lecture Notes n Mathematcs, Sprnger Verlag, Hedelberg, pp. 86 93.. old S., Ruhe A., old H.: he collnearty problem n lnear regesson. he partal least squares (PLS) approach to generalzed nverses. SIAM J. Sc. Stat. Comput. Vol. 5, No. 3, Septembre 984. 3. old S., Söström M., Erksson L.: PLS-regresson: a basc tool o chemometrcs, Chemometrcs and Intellgent labolatory Systems, 58,, pp. 9 3. 4. Vapnk V. N.: Statstcal Learnng heory. ley, New York 998. 5. Vapnk V. N.: he nature o statstcal learnng theory ed. Sprnger,. 6. http://www.broad.mt.edu. 7. http://mcroarray.prnceton.edu/oncology/aydata/ndex.html. Recenzent: Dr nż. Krzyszto Fuglewcz płynęło do Redakc 4 maa 7 r.
Zastosowane metody cząstkowych namneszych kwadratów 45 Abstract In ths paper classcaton method appled to gene classcaton was compared. e concentrate on the Partal Least Square (PLS) and Fsher Lnear Dscrmnant methods. e presented mathematcal ntroductons to these methods and dscussed the results o the classcaton. Mathematcal dervaton o these methods was shown n appendx. Error rates and condence ntervals was estmated by ackkne and k-old cross valdaton methods. For the comparson perormance o classers derent types o dataset was used. Smulaton data ncluded expresson levels n 3 samples or the IS5 datasets and n 4 samples or CS datasets. Bologcal datasets leukema and colon, used n ths artcle was avalable on webste [6] and on [7]. e notced that perormance o PLS method s much hgher than perormance o FLD method. Good perormance o PLS on the smulaton dataset, where correlaton coecent was mportant, prooed that ths method had good ecency. e notced that that FLD method should be used rather ater PLS method wtch can be used only or reduce dmenson than as a classer. Adresy Paweł BŁASZCZYK, Unwersytet Śląsk, Instytut Matematyk, ul. Bankowa 4, 4-7 Katowce, Polska, pblaszcz@math.us.edu.pl Katarzyna SĄPOR: Poltechnka Śląska, Instytut Inormatyk, ul. Akademcka 6, 44- Glwce, Polska, katarzyna.stapor@polsl.pl