Klasteryzacja i klasyfikacja danych spektrometrycznych

Podobne dokumenty
Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe.

Drzewa decyzyjne i lasy losowe

Metody systemowe i decyzyjne w informatyce

Opis efektów kształcenia dla modułu zajęć

5. Analiza dyskryminacyjna: FLD, LDA, QDA

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

ALGORYTM RANDOM FOREST

Klasyfikacja LDA + walidacja

Analiza danych. TEMATYKA PRZEDMIOTU

Elementy modelowania matematycznego

10. Redukcja wymiaru - metoda PCA

Elementy statystyki wielowymiarowej

Testowanie hipotez statystycznych.

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

KLASYFIKACJA. Słownik języka polskiego

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

CLUSTERING. Metody grupowania danych

Quick Launch Manual:

Materiał i metody. Wyniki

Co to jest grupowanie

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Testowanie modeli predykcyjnych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Pattern Classification

Prawdopodobieństwo i statystyka

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Jądrowe klasyfikatory liniowe

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Wprowadzenie. Data Science Uczenie się pod nadzorem

Statystyka i eksploracja danych

Testowanie hipotez statystycznych.

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Spektroskopia. Spotkanie pierwsze. Prowadzący: Dr Barbara Gil

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Metody klasyfikacji danych - część 1 p.1/24

Analiza składowych głównych. Wprowadzenie

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Opis efektów kształcenia dla modułu zajęć

Zagadnienie klasyfikacji (dyskryminacji)

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Część 2. Teoretyczne i praktyczne aspekty wybranych metod analiz ilościowych w ekonomii i zarządzaniu

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Hierarchiczna analiza skupień

Statystyczna analiza danych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

2. Empiryczna wersja klasyfikatora bayesowskiego

9. Praktyczna ocena jakości klasyfikacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Laboratorium 11. Regresja SVM.

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Systemy uczące się Lab 4

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności

Wykład 11 Testowanie jednorodności

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

STATYSTYKA MATEMATYCZNA

Badania relaksacyjne b surowicy krwi II

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Proteomika. Spektrometria mas. i jej zastosowanie do badań białek

dobry punkt wyjściowy do analizy nieznanego związku

Widzenie komputerowe (computer vision)

Aproksymacja funkcji a regresja symboliczna

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Optymalizacja ciągła

Analiza składowych głównych

Sieci neuronowe i ich ciekawe zastosowania. Autor: Wojciech Jamrozy III rok SMP / Informatyka

Metody szacowania zdolności kredytowej klientów indywidualnych. Mateusz Kobos

Ćwiczenie 3++ Spektrometria promieniowania gamma z licznikiem półprzewodnikowym Ge(Li) kalibracja energetyczna i wydajnościowa

Metody systemowe i decyzyjne w informatyce

Prawdopodobieństwo i statystyka

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Metody systemowe i decyzyjne w informatyce

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Procedura szacowania niepewności

PRZEWODNIK PO PRZEDMIOCIE

Wstęp do algorytmiki kwantowej

Procesy stochastyczne

Wprowadzenie do uczenia maszynowego

Ważne rozkłady i twierdzenia c.d.

Agnieszka Nowak Brzezińska Wykład III

Statystyka i Analiza Danych

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Prawdopodobieństwo i statystyka

STATYSTYKA MATEMATYCZNA

Transkrypt:

Klasteryzacja i klasyfikacja danych spektrometrycznych Współpraca: Janusz Dutkowski, Anna Gambin, Krzysztof Kowalczyk, Joanna Reda, Jerzy Tiuryn, Michał Dadlez z zespołem (IBB PAN) Instytut Informatyki UW 17 grudnia 2005 roku

Zasada działania spektrometru masowego Naładowane cząsteczki można przyspieszać w polu magnetycznym. Przyspieszenie jest odwrotnie proporcjonalne do masy i wprost proporcjonalne do ładunku. Spektrometr masowy rozróżnia cząsteczki o różnym stosunku masy do ładunku. Wynikiem pomiaru jest liczba zliczeń cząsteczek o różnych stosunkach masy do ładunku. Wykorzystuje się techniki uzupełniające umożliwiajce rozdzielanie cząsteczek pod względem innych właściwości (np. hydrofobowości).

Spektrometria mas a diagnostyka medyczna Przy użyciu spektrometru masowego badamy osocze krwi pacjentów z różnych grup (np. pacjentów zdrowych oraz chorych na raka jelita). W osoczu można znaleźć fragmenty białek (peptydy), pochodzących z różnych procesów zachodzących w organizmie. Chcemy: identyfikować peptydy związane z występowaniem danej choroby (biomarkery), zaproponować procedurę umożliwiającą odróżnianie osób zdrowych od chorych.

Postać danych spektrometrycznych 1 Intensywność 1000 1500 2000 2500 1258 1260 1262 1264 1266 1268 m/z [Da] Rysunek przedstawia fragment jednowymiarowego obrazu spektrometrycznego surowicy (dane z Laboratoriów Keck). Widoczne wierzchołki pochodzą od różnych składów izotopowych takiego samego peptydu.

Postać danych spektrometrycznych 2 Fragment dwuwymiarowego obrazu spektrometrycznego osocza (dane z IBB PAN).

Postać danych spektrometrycznych 3 Wstępne przetwarzanie polega odszumieniu, normalizacji danych i wykryciu wierzchołków. Każdy wierzchołek jest charakteryzowany przez dwa parametry położenie na mapie ( R lub R 2 ), wysokość ( R). Obrazem próbki pochodzącej od pojedynczego pacjenta jest zbiór wierzchołków.

Automatyczna interpretacja widm spektrometrycznych Pojedynczy peptyd może pojawiać się na mapie w postaci kilku obwiedni izotopowych. Opracowaliśmy oprogramowanie umożliwiające wykrywanie obwiedni izotopowych. Dzięki temu możemy dla każdego peptydu wyróżnić pojedynczy wierzchołek reprezentujący go (np. monoizotopowy pojedynczo naładowany). W tym kroku uzyskujemy znaczącą redukcję wymiaru danych.

Klastrowanie wierzchołków 1 Wierzchołki odpowiadają peptydom. Chcemy porównywac wysokości wierzchołków odpowiadających tym samym peptydom u różnych pacjentów. Obrazy ustalonego peptydu powinny być widoczne w tym samym miejscu na mapach, ale w praktyce pojawiają się niewielkie zaburzenia. Intensywność 0 2 4 6 8 10 1260 1262 1264 1266 m/z [Da] Konieczne jest sklastrowanie wierzchołków.

Klastrowanie wierzchołków 2 Wykorzystywane przez nas metody klasteryzacji: klastrowanie hierarchiczne, algorytm Markov Cluster (van Dongen 2002), klastrowanie z modelem probabilistycznym: zakładamy, że odczyty pojedynczych peptydów mają rozkłady normalne o takiej samej macierzy kowariancji (błąd spektrometru), inne metody własne.

Klasyfikacja pod nadzorem 1 Po klastrowaniu, widmo każdego pacjenta (obserwacja) może być zapisane jako p wymiarowy wektor, którego elementami są wysokości wierzchołków o zadanych masach. Mając dany zbiór obserwacji uczących, dla których znana jest klasa, chcemy zbudować regułę klasyfikacyjną, która będzie wyznaczała klasę nowej obserwacji na podstawie wartości p zmiennych obserwowanych. x 11 x 12... x 1p = y 1 x 21 x 22... x 2p = y 2........ x n1 x n2... x np = y n x ij R intensywność j-tego peptydu u i-tego pacjenta, y i {0, 1} klasa i-tego pacjenta.

Klasyfikacja pod nadzorem 2 Wykorzystywane przez nas metody klasyfikacji: LDA, QDA, drzewa decyzyjne, losowe lasy, Support Vector Machines, Discriminant Adaptive Nearest Neighbor.

Redukcja wymiaru 1 Wymiar danych jest bardzo duży. Widmo zawiera informacje o wielu tysiącach peptydów. Dysponujemy stosunkowo niewielką próbą uczącą (około 100 pacjentów). Większość algorytmów klasyfikacyjnych nie działa poprawnie. Problemy: czas działania, zapotrzebowanie na pamięć, tzw. przeuczenie klasyfikatora zamiast ogólnych reguł klasyfikacyjnych znajdujemy reguły nadmiernie dopasowane do danych treningowych. Rozwiązaniem jest sprzęgnięcie algorytmów klasyfikacyjnych z metodami redukcji wymiaru danych.

Redukcja wymiaru 2 Wykorzystywane przez nas metody redukcji wymiaru: PCA (analiza składowych głównych, Hotelling 1933), wybranie najlepszych zmiennych w rankingu zbudowanym na podstawie: testu T (porównuje średnie wartości zmiennej u zdrowych i chorych), wzajemnej informacji ze zmienną decyzyjną, korelacji ze zmienną decyzyjną, odległości rozkładów prawdopodobieństwa dla danej zmiennej u zdrowych i chorych.

Ocena jakości klasyfikatora Metoda walidacji krzyżowej: n-elementowy zbiór wszystkich dostępnych obserwacji, dla których znamy klasę dzielimy na K możliwie równolicznych rozłącznych podzbiorów (bloków) D 1,..., D K, dla j = 1,..., K obserwacje należące do j-tego bloku używamy do testowania modelu (reguły klasyfikacyjnej) zbudowanego na podstawie pozostałych K 1 bloków.

Przykładowe rezultaty Widma pochodzą z Clinical Proteomics Program Databank i dotyczą pacjentów zdrowych (253 próbki) i chorych na raka prostaty (68 próbek). Metoda/Wymiar % Popr. DWP Czułość Specyf. PCA/LDA/100 96.27 (0.65) 90.41 (2.23) 92.46 (0.61) 97.31 (0.69) PCA/CART/100 80.56 (2.30) 55.46 (6.68) 49.71 (6.59) 88.97 (2.41) PCA/RF/100 82.08 (0.67) 100.00 (0.00) 16.38 (3.13) 100.00 (0.00) MI/LDA/50 89.38 (0.60) 80.05 (2.35) 67.25 (1.56) 95.42 (0.65) MI/CART/50 86.71 (0.95) 69.73 (2.47) 67.25 (3.88) 92.02 (0.98) MI/RF/50 89.22 (0.62) 77.81 (1.34) 69.57 (3.06) 94.58 (0.46) DWP proporcja osób faktycznie chorych wśród zdiagnozowanych jako chorych, czułość proporcja osób zdiagnozowanych jako chorych wśród wszystkich chorych, specyficzność proporcja osób zdiagnozowanych jako zdrowych wśród wszystkich zdrowych.

Literatura S. van Dongen. Graph Clustering by Flow Simulation. PhD thesis, University of Utrecht, 2000. R. Tibshirani, T. Hastie, B. Narasimhan, S. Soltys, G. Shi, A. Koong, Q. Le. Sample classification from protein mass spectrometry, by peak probability contrasts. Bioinformatics Advance Access, June 28, 2004. Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning. Springer, 2001. Jacek Koronacki, Jan Ćwik. Statystyczne systemy uczące się. WNT 2005.