Klasteryzacja i klasyfikacja danych spektrometrycznych Współpraca: Janusz Dutkowski, Anna Gambin, Krzysztof Kowalczyk, Joanna Reda, Jerzy Tiuryn, Michał Dadlez z zespołem (IBB PAN) Instytut Informatyki UW 17 grudnia 2005 roku
Zasada działania spektrometru masowego Naładowane cząsteczki można przyspieszać w polu magnetycznym. Przyspieszenie jest odwrotnie proporcjonalne do masy i wprost proporcjonalne do ładunku. Spektrometr masowy rozróżnia cząsteczki o różnym stosunku masy do ładunku. Wynikiem pomiaru jest liczba zliczeń cząsteczek o różnych stosunkach masy do ładunku. Wykorzystuje się techniki uzupełniające umożliwiajce rozdzielanie cząsteczek pod względem innych właściwości (np. hydrofobowości).
Spektrometria mas a diagnostyka medyczna Przy użyciu spektrometru masowego badamy osocze krwi pacjentów z różnych grup (np. pacjentów zdrowych oraz chorych na raka jelita). W osoczu można znaleźć fragmenty białek (peptydy), pochodzących z różnych procesów zachodzących w organizmie. Chcemy: identyfikować peptydy związane z występowaniem danej choroby (biomarkery), zaproponować procedurę umożliwiającą odróżnianie osób zdrowych od chorych.
Postać danych spektrometrycznych 1 Intensywność 1000 1500 2000 2500 1258 1260 1262 1264 1266 1268 m/z [Da] Rysunek przedstawia fragment jednowymiarowego obrazu spektrometrycznego surowicy (dane z Laboratoriów Keck). Widoczne wierzchołki pochodzą od różnych składów izotopowych takiego samego peptydu.
Postać danych spektrometrycznych 2 Fragment dwuwymiarowego obrazu spektrometrycznego osocza (dane z IBB PAN).
Postać danych spektrometrycznych 3 Wstępne przetwarzanie polega odszumieniu, normalizacji danych i wykryciu wierzchołków. Każdy wierzchołek jest charakteryzowany przez dwa parametry położenie na mapie ( R lub R 2 ), wysokość ( R). Obrazem próbki pochodzącej od pojedynczego pacjenta jest zbiór wierzchołków.
Automatyczna interpretacja widm spektrometrycznych Pojedynczy peptyd może pojawiać się na mapie w postaci kilku obwiedni izotopowych. Opracowaliśmy oprogramowanie umożliwiające wykrywanie obwiedni izotopowych. Dzięki temu możemy dla każdego peptydu wyróżnić pojedynczy wierzchołek reprezentujący go (np. monoizotopowy pojedynczo naładowany). W tym kroku uzyskujemy znaczącą redukcję wymiaru danych.
Klastrowanie wierzchołków 1 Wierzchołki odpowiadają peptydom. Chcemy porównywac wysokości wierzchołków odpowiadających tym samym peptydom u różnych pacjentów. Obrazy ustalonego peptydu powinny być widoczne w tym samym miejscu na mapach, ale w praktyce pojawiają się niewielkie zaburzenia. Intensywność 0 2 4 6 8 10 1260 1262 1264 1266 m/z [Da] Konieczne jest sklastrowanie wierzchołków.
Klastrowanie wierzchołków 2 Wykorzystywane przez nas metody klasteryzacji: klastrowanie hierarchiczne, algorytm Markov Cluster (van Dongen 2002), klastrowanie z modelem probabilistycznym: zakładamy, że odczyty pojedynczych peptydów mają rozkłady normalne o takiej samej macierzy kowariancji (błąd spektrometru), inne metody własne.
Klasyfikacja pod nadzorem 1 Po klastrowaniu, widmo każdego pacjenta (obserwacja) może być zapisane jako p wymiarowy wektor, którego elementami są wysokości wierzchołków o zadanych masach. Mając dany zbiór obserwacji uczących, dla których znana jest klasa, chcemy zbudować regułę klasyfikacyjną, która będzie wyznaczała klasę nowej obserwacji na podstawie wartości p zmiennych obserwowanych. x 11 x 12... x 1p = y 1 x 21 x 22... x 2p = y 2........ x n1 x n2... x np = y n x ij R intensywność j-tego peptydu u i-tego pacjenta, y i {0, 1} klasa i-tego pacjenta.
Klasyfikacja pod nadzorem 2 Wykorzystywane przez nas metody klasyfikacji: LDA, QDA, drzewa decyzyjne, losowe lasy, Support Vector Machines, Discriminant Adaptive Nearest Neighbor.
Redukcja wymiaru 1 Wymiar danych jest bardzo duży. Widmo zawiera informacje o wielu tysiącach peptydów. Dysponujemy stosunkowo niewielką próbą uczącą (około 100 pacjentów). Większość algorytmów klasyfikacyjnych nie działa poprawnie. Problemy: czas działania, zapotrzebowanie na pamięć, tzw. przeuczenie klasyfikatora zamiast ogólnych reguł klasyfikacyjnych znajdujemy reguły nadmiernie dopasowane do danych treningowych. Rozwiązaniem jest sprzęgnięcie algorytmów klasyfikacyjnych z metodami redukcji wymiaru danych.
Redukcja wymiaru 2 Wykorzystywane przez nas metody redukcji wymiaru: PCA (analiza składowych głównych, Hotelling 1933), wybranie najlepszych zmiennych w rankingu zbudowanym na podstawie: testu T (porównuje średnie wartości zmiennej u zdrowych i chorych), wzajemnej informacji ze zmienną decyzyjną, korelacji ze zmienną decyzyjną, odległości rozkładów prawdopodobieństwa dla danej zmiennej u zdrowych i chorych.
Ocena jakości klasyfikatora Metoda walidacji krzyżowej: n-elementowy zbiór wszystkich dostępnych obserwacji, dla których znamy klasę dzielimy na K możliwie równolicznych rozłącznych podzbiorów (bloków) D 1,..., D K, dla j = 1,..., K obserwacje należące do j-tego bloku używamy do testowania modelu (reguły klasyfikacyjnej) zbudowanego na podstawie pozostałych K 1 bloków.
Przykładowe rezultaty Widma pochodzą z Clinical Proteomics Program Databank i dotyczą pacjentów zdrowych (253 próbki) i chorych na raka prostaty (68 próbek). Metoda/Wymiar % Popr. DWP Czułość Specyf. PCA/LDA/100 96.27 (0.65) 90.41 (2.23) 92.46 (0.61) 97.31 (0.69) PCA/CART/100 80.56 (2.30) 55.46 (6.68) 49.71 (6.59) 88.97 (2.41) PCA/RF/100 82.08 (0.67) 100.00 (0.00) 16.38 (3.13) 100.00 (0.00) MI/LDA/50 89.38 (0.60) 80.05 (2.35) 67.25 (1.56) 95.42 (0.65) MI/CART/50 86.71 (0.95) 69.73 (2.47) 67.25 (3.88) 92.02 (0.98) MI/RF/50 89.22 (0.62) 77.81 (1.34) 69.57 (3.06) 94.58 (0.46) DWP proporcja osób faktycznie chorych wśród zdiagnozowanych jako chorych, czułość proporcja osób zdiagnozowanych jako chorych wśród wszystkich chorych, specyficzność proporcja osób zdiagnozowanych jako zdrowych wśród wszystkich zdrowych.
Literatura S. van Dongen. Graph Clustering by Flow Simulation. PhD thesis, University of Utrecht, 2000. R. Tibshirani, T. Hastie, B. Narasimhan, S. Soltys, G. Shi, A. Koong, Q. Le. Sample classification from protein mass spectrometry, by peak probability contrasts. Bioinformatics Advance Access, June 28, 2004. Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning. Springer, 2001. Jacek Koronacki, Jan Ćwik. Statystyczne systemy uczące się. WNT 2005.