Metody bioinformatyki (MBI) Wykªad 9 - mikromacierze DNA, analiza danych wielowymiarowych Robert Nowak 2016Z Metody bioinformatyki (MBI) 1/42
mikromacierze DNA Metoda badawcza, pozwalaj ca bada obecno± wielu cz steczek DNA lub RNA jednocze±nie, utworzona do odczytywania sekwencji Zastosowanie mikromacierzy: analiza DNA, badanie wiele markerów jednocze±nie analiza genów ulegaj cych ekspresji, badanie cz steczek mrna Metody bioinformatyki (MBI) 2/42
tworzenie mikromacierzy DNA Metody bioinformatyki (MBI) 3/42
badanie roztworów za pomoc mikromacierzy DNA Metody bioinformatyki (MBI) 4/42
wynik badania Dla ka»dego do±wiadczenia: m atrybutów ( m 10 5 ) warto±ci: binarne: wyst puje, nie wyst puje rzeczywiste: intensywno± < 0, 1 > zwykle przeprowadza si n 100 do±wiadcze«mamy macierz n m, gdzie n m elementów x ij problem znalezienia atrybutów istotnych Metody bioinformatyki (MBI) 5/42
normalizacja danych usuwanie atrybutów, które maj t sam warto± dla wszystkich przykªadów obliczenie ±redniej i odchylenia standardowego σ j = 1 n µ j = 1 n n x ij ±rednia i=0 n (x ij µ j ) 2 odchylenie standardowe i=0 przeksztaªcenie danych, atrybut j ma µ = 0, σ = 1 z ij = x ij µ j σ j Metody bioinformatyki (MBI) 6/42
techniki analizy danych wielowymiarowych nienadzorowane - nie uwzgl dniamy przypisania obiektów do klas grupowanie redukcja wymiarów nadzorowane - uwzgl dniemy przypisanie obiektów do klas klasykacja selekcja cech ró»nicuj cych Metody bioinformatyki (MBI) 7/42
Metody bioinformatyki (MBI) 8/42
algorytm grupowania hierarchicznego wymaga denicji odlegªo±ci pomi dzy elementami wymaga denicji odlegªo±ci pomi dzy grupami Metody bioinformatyki (MBI) 9/42
denicja odlegªo±ci x, y oznaczaj punkty ze zbiorów danych, ka»dy punkt ma m cech (atrybutów) x =< x 1, x 2,..., x m > odlegªo± Euklidesowa d xy = m (x i y i ) 2 odlegªo± Manhattan korelacja d xy = d xy = i=1 m x i y i i=1 m x i y i i=1 Metody bioinformatyki (MBI) 10/42
odlegªo±ci grup pojedyncze wi zanie (najmniejsza odlegªo± ) d s (X, Y ) = min x X,y Y d xy peªne wi zanie (najwi ksza odlegªo± ) d f (X, Y ) = max x X,y Y d xy Metody bioinformatyki (MBI) 11/42
odlegªo±ci grup (2) ±rednia odlegªo± d a (X, Y ) = 1 X Y x X,y Y d xy gdzie X to ilo± elementów w X odlegªo± pomi dzy ±rodkami d c (X, Y ) = d x y gdzie x to ±rednia elementów x X Metody bioinformatyki (MBI) 12/42
algorytm grupowania hierarchicznego (przykªad) gdy dwie grupy: { {A, B, C, D, E}, {F, G, H }} gdy trzy grupy: { {A, B}, {C, D, E}, {F, G, H} } gdy cztery grupy: { {A, B}, {C, D, E}, {F}, { G, H} } itd. Metody bioinformatyki (MBI) 13/42
algorytm grupowania hierarchicznego (przykªad 2) Tabela odlegªo±ci pomi dzy obiektami A, B, C, D: A B C D A 0 2 6 11 B 0 4 9 C 0 5 D 0 Dla dwóch grup: je»eli odlegªo± mi dzy grupami to pojedyncze wi zanie (minimalna odlegªo± pomi dzy elementami)? {A,B,C}{D} je»eli odlegªo± mi dzy grupami to peªne wi zanie (maksymalna odlegªo± pomi dzy elementami)? {A,B}{C,D} Metody bioinformatyki (MBI) 14/42
algorytm grupowania hierarchicznego - zªo»ono± liczba przykªadów: n, liczba atrybutów: m liczba kroków algorytmu n 1 ka»da iteracja: n(n 1)/2 razy oblicza odlegªo± koszt obliczenia odlegªo±ci O(m) koszt iteracji O(n 2 m) O(n 3 m) Metody bioinformatyki (MBI) 15/42
algorytm K-±rednich (grupowanie niehierarchiczne) zakªada podziaª na K grup odlegªo± x =< x 1, x 2,..., x m > od c m d xc = (x i c i ) 2 i=1 funkcja bª du (któr minimalizujemy) E = c x c d xc Metody bioinformatyki (MBI) 16/42
algorytm K-±rednich (2) Algorytm optymalizacyjny: inicjacja: losowa funkcja celu: c1 1 2 c3 4 5 c2 3 arg min C 1,C 2,...,C k k c=1 x i C c m (x ij c cj ) 2 j=1 Metody bioinformatyki (MBI) 17/42
algorytm K-±rednich (przykªad) Metody bioinformatyki (MBI) 18/42
algorytm K-±rednich (przykªad) c1 poszukiwane 3 grupy inicjacja punktów centralnych c2 c3 Metody bioinformatyki (MBI) 19/42
algorytm K-±rednich (przykªad) c1 c2 c3 obliczenie przykªadów nale» cych do danej grupy Metody bioinformatyki (MBI) 20/42
algorytm K-±rednich (przykªad) c1 aktualizacja poªo»enia punktów centralnych c2 c3 Metody bioinformatyki (MBI) 21/42
algorytm K-±rednich (przykªad) c1 c2 c3 obliczenie przykªadów nale» cych do danej grupy Metody bioinformatyki (MBI) 22/42
algorytm K-±rednich (przykªad) c1 aktualizacja centralnych punktów c2 c3 Metody bioinformatyki (MBI) 23/42
algorytm K-±rednich - zªo»ono± liczba przykªadów: n, liczba atrybutów m, liczba kroków algorytmu p n ka»da iteracja: koszt obliczenia odlegªo±ci O(m) koszt znalezienia grupy: dla n punktów k razy oblicza odlegªo± od punktu centralnego, wi c O(knm) koszt obliczenia nowego punktu ±rodkowego, dla n punktów oblicza ±redni O(nm) iteracja O(knm + nm) = O(knm) O(kn 2 m) algorytm znacznie wydajniejszy ni» grupowanie hierarchiczne O(n 3 m), poniewa» k n, ale problemy z wªa±ciw inicjacj Metody bioinformatyki (MBI) 24/42
algorytm analizy skªadowych gªównych (PCA) pozwala na redukcj wymiaru problemu transformuje (liniowo) przestrze«atrybutów dostarczaj c nowych wspóªrz dnych Dane wej±ciowe: atrybut pomiar 1 2... m 1 x 11 x 12... x 1m 2 x 21 x 22... x 2m............... n x n1 x n2... x nm obliczenie µ j oraz σ j normalizacja danych z ij = x ij µ j σ j Metody bioinformatyki (MBI) 25/42
algorytm PCA (2) dane wej±ciowe (10 przykªadów, 2 atrybuty): µ 1 = 300 σ 1 = 146.4 µ 2 = 150 σ 2 = 74.4 normalizacja: z i1 = x i1 µ 1 σ 1 z i2 = x i2 µ 2 σ 2 Metody bioinformatyki (MBI) 26/42
algorytm PCA (3) po normalizacji wszystkie atrybuty maj parametry: µ = 0 σ = 1 chcemy znale¹ nowy ukªad wspóªrz dnych zakªadamy tylko przeksztaªcenia liniowe (obroty, odbicia) START k = 0, zbiór wektorów = pusty k < liczba atrybutów? STOP wybierz wektor (określa kierunek składowej), który: * maksymalizuje wariancję * jest ortogonalny do pozostałych wektorów dodaj wektor do zbioru kierunków Metody bioinformatyki (MBI) 27/42
algorytm PCA (4) Kierunki skªadowych dla rozpatrywanego przykªadu: Zaªo»enia algorytmu PCA: rozpatrywane przeksztaªcenia liniowe maksymalizowana jest wariancja (wariancja - klasyczna miara zró»nicowania) nowe kierunki skªadowych s ortogonalne Metody bioinformatyki (MBI) 28/42
algorytm PCA (5) - kowariancja Z = z 11 z 12... z 1m z 21 z 22... z 2m............ z n1 z n2... z nm a i = z 1i z 2i... z ni a j = z 1j z 2j... z nj dane po normalizacji: µ ai = 1 n n z ki = 0, σa 2 i = 1 n n zki 2 = 1 k=0 k=0 Kowariancja - miar liniowej zale»no±ci pomi dzy a i i a j σ ai a j = 1 n n z ik z jk = 1 n a ia T j gdzie a T j = [ ] z 1j z 2j... z nj k=0 1 σ ai a j 1 Metody bioinformatyki (MBI) 29/42
algorytm PCA (6) - macierz kowariancji C Z = 1 n ZZT = σ 2 1 σ 12... σ 1m σ 21 σ 2 2... σ 2m............ σ n1 σ n2... σ 2 m = Poniewa» σ ij = σ ji macierz C Z jest symetryczna sumaryczna wariancja m σ i = m j=0 1 σ 12... σ 1m σ 21 1... σ 2m............ σ n1 σ n2... 1 po zmianie (rotacja, odbicie) ukªadu wspóªrz dnych sumaryczna wariancja nie zmieni si Metody bioinformatyki (MBI) 30/42
algorytm PCA (7) - przeksztaªcenie ukªadu wspóªrz dnych Y = PZ, gdzie P jest macierz przeksztaªcenia, macierz P zawiera wektory, które s kierunkami skªadowych P = [p 1, p 2,..., p m ] Wykorzystuj c algorytmy algebry liniowej przeksztaªca si przestrze«, aby macierz kowariancji byªa diagonalna C Y = λ 1 0... 0 0 λ 2... 0............ 0 0... λ m Metody bioinformatyki (MBI) 31/42
algorytm PCA (8) - jak znale¹ przeksztaªcenie P C Y = 1 n YYT = 1 n (PZ)(PZ)T = 1 n PZZT P T = PC Z P T dla macierzy symetrycznej A, macierzy jej wektorów wªasnych E zachodzi zale»no± : A = EDE T, gdzie D jest macierz diagonaln wi c: P jest macierz wektorów wªasnych macierzy C Z Metody bioinformatyki (MBI) 32/42
algorytm PCA (9) - przykªad Dla rozpatrywanego przykªadu: [ ] 1 0.994 C Z = 0.994 1 po rozkªadzie na warto±ci wªasne i wektory wªasne: [ 1 0.994 0.994 1 Nowe kierunki p 1 = [ 2 2 2 2 ] = ] [ 2, p 2 = 2 2 2 2 2 2 2 [ 2 2 2 2 ] ] [ 1.994 0 0 0.006 ] [ 2, λ 1 = 1.994, λ 2 = 0.006 2 2 2 2 2 2 2 ] Metody bioinformatyki (MBI) 33/42
algorytm PCA (10) - przykªad λ 1 = 1.994, λ 2 = 0.006 Po zamianie wspóªrz dnych i eliminacji drugiego wymiaru b dziemy mieli 99.7% wariancji dla pierwszego wymiaru (utracimy tylko 0.3% wariancji) W ten sposób mo»na wybra tylko istotne atrybuty Metody bioinformatyki (MBI) 34/42
algorytm PCA (11) - podsumowanie algorytm nie posiada parametrów liniowo przeksztaªca przestrze«atrybutów wykorzystuje macierz korelacji, eliminuje kowariancj czyli liniowe zale»no±ci pomi dzy atrybutami pozwala na redukcj wymiarów, opuszczanie atrybutów o mniejszym znaczeniu (kompresja informacji) Popularne kryterium dobierania ilo±ci skªadowych (kryterium Kaisera-Guttmana) nale»y zachowa skªadowe, dla których warto±ci wªasne s wi ksze od 1, czyli wkªad skªadowej wi kszy, ni» wkªad pojedynczej zmiennej Metody bioinformatyki (MBI) 35/42
Klasykacja Metody oceny testów binarnych Algorytmy klasykacji danych wielowymiarowych algorytmy drzewiaste (drzewo decyzyjne, las losowy) algorytmy probabilistyczne (np. naiwny klasykator bayesowski, sieci bayesowskie) algorytmy badaj ce podobie«stwo (np. k najbli»szych s siadów) oparte o testowanie hipotez Metody bioinformatyki (MBI) 36/42
Klasykacja Metody oceny testów binarnych Parametry testów binarnych macierz pomyªek stan plus minus dodatni prawdziwie dodatni(tp) faªszywie dodatni(fp) wynik ujemny faªszywie ujemny(fn) prawdziwie ujemny(tn) czuªo± = TP TP + FN, specyczno± = TN TN + FP precyzja = TP TP + FP dokªadno± = TP + TN TP + TN + FP + FN Metody bioinformatyki (MBI) 37/42
Klasykacja Metody oceny testów binarnych Parametry testów binarnych (2) TP = 4 FP = 2 FN = 1 TN = 3 czuªo± = 0.8 specyczno± 0.6 precyzja 0.67 dokªadno± 0.7 Test na kolor: nr stan wynik testu 0 NIE NIE 1 TAK NIE 2 TAK TAK 3 TAK TAK 4 TAK TAK 5 TAK TAK 6 NIE TAK 7 NIE TAK 8 NIE NIE 9 NIE NIE Metody bioinformatyki (MBI) 38/42
Klasykacja Metody oceny testów binarnych Krzywe ROC (Receiver Operating Characteristics) Krzywa ROC - graczna ocena skuteczno±ci testu binarnego. O± X to (1 - specyczno± ), za± o± Y to czuªo±. Przykªad: Punkty charakterystyczne: (0,0) wszystkie przykªady s ujemne (TP=0) (1,1) wszystkie przykªady s dodatnie (TN=0) (0,1) test idealny y = x strategia losowa sensitivity 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 specificity Metody bioinformatyki (MBI) 39/42
Klasykacja Metody oceny testów binarnych Krzywa ROC - przykªad tworzenia nr stan wynik 0 NIE 0.1 1 TAK 0.4 2 TAK 0.9 3 TAK 0.9 4 TAK 0.8 5 TAK 0.7 6 NIE 0.6 7 NIE 0.6 8 NIE 0.3 9 NIE 0.2 próg macierz pomyªek czuª. spec. TP = 5 FP = 5 0.05 FN = 0 TN = 0 1.0 0.0 TP = 5 FP = 4 0.15 FN = 0 TN = 1 1.0 0.2 TP = 5 FP = 3 0.25 FN = 0 TN = 2 1.0 0.4 TP = 5 FP = 2 0.35 FN = 0 TN = 3 1.0 0.6 TP = 4 FP = 2 0.45 FN = 1 TN = 3 0.8 0.6 TP = 4 FP = 2 0.55 FN = 1 TN = 3 0.8 0.6 TP = 4 FP = 0 0.65 FN = 1 TN = 5 0.8 1.0 TP = 3 FP = 0 0.75 FN = 2 TN = 5 0.6 1.0 TP = 2 FP = 0 0.85 FN = 3 TN = 5 0.4 1.0 TP = 0 FP = 0 0.95 FN = 5 TN = 5 0.0 1.0 Metody bioinformatyki (MBI) 40/42
Klasykacja Metody oceny testów binarnych Krzywa ROC - przykªad 2 osoba stan wynik testu A zdrowa 0.1 B zdrowa 0.1 C zdrowa 0.2 D zdrowa 0.3 E zdrowa 0.6 F chora 0.6 G chora 0.7 H chora 0.8 I chora 0.9 J chora 0.9 Próg 0.35: Próg 0.5: Próg 0.65: TP = 5 FP = 1 FN = 0 TN = 4 TP = 5 FP = 1 FN = 0 TN = 4 TP = 4 FP = 0 FN = 1 TN = 5 czułość 1 - specy czność Metody bioinformatyki (MBI) 41/42
Klasykacja Metody oceny testów binarnych Dzi kuj Metody bioinformatyki (MBI) 42/42