Klasifikační metody (nejen) pro molekulárně genetická data Jan Kalina Ústav informatiky AV ČR
Kardiovaskulární genetická studie Centrum biomedicínské informatiky (Praha, 2006 2011) Diagnostika kardiovaskulárních onemocnění Hlavní příčina úmrtí v České republice Které geny vedou k závažným onemocněním (resp. jeho těžké formě)?
Kardiovaskulární genetická studie Data o jedincích (Městská nemocnice Čáslav, interní či ortopedické odd.): 1 Akutní infarkt myokardu (n = 98) 2 Cévní mozková příhoda (n = 46) 3 Kontrolní osoby (n = 169) Spárování na základě rizikových faktorů (pohlaví, věk, hypertenze, kouření) Osobní údaje, klinické a biochemické parametry Genové exprese: aktivita (všech) genů ve vzorku periferní krve
Genetické pojmy Gen = úsek DNA. Každý gen má jednu nebo více forem. Vždy vedou k syntéze téhož proteinu. Genová exprese = genová aktivita vedoucí k syntéze proteinů. Měření pomocí mikročipů.
Jak analyzovat data genových expresí Předzpracování obrazové informace (agregace přes kuličky, odhad vlivu pozadí).
Naměřená data genových expresí 24 pacientů s mrtvicí 24 kontrolních osob Gen # 1 #2 # 1 #2 1 ADORA3 5,82 6,04 5,71 6,12 2 CPD 3,53 4,08 4,21 5,01 3 ECHDC3 2,50 2,71 2,99 3,52 4 VNN3 3,38 3,03 4,56 3,98 5 IL18RAP 4,03 4,91 5,12 5,01 6 ERLIN1 5,76 4,38 6,49 5,02................ 38 590 PHACTR1 5,21 4,99 5,15 5,53
Předzpracování dat Testy hypotéz?
Konstrukce klasifikačního pravidla Obecně je cílem zkonstruovat klasifikační pravidlo do K skupin, kde K 2 Další možnosti využití klasifikační analýzy
Korelační koeficient r = 0,98 r = 0,87 r = 0,42 Definice korelačního koeficientu Francis Galton (1822 1911) Karl Pearson (1857 1936) Mnohorozměrné uvažování
Výsledky do 2 skupin: 24 pacientů s mrtvicí, 24 kontrolních osob p = 38 590 expresí pro jednotlivé genové transkripty Metoda Youdenův index SVM 1,00 Klasifikační strom 0,94 Vícevrstvý perceptron - LDA - RDA 1,00 PCA = LDA 0,54 PCA = SVM 0,62 MRMR = LDA 1,00 Senzitivita = pravděpodobnost pozitivního testu u nemocných Specificita = pravděpodobnost negativního testu u zdravých Youdenův index = senzitivita + specificita 1 (na 10 genů) Principy křížové validace
Klasifikační metody (nejen) pro molekulárně genetická data
Logistická regrese Uvažujme binární odezvu (pacienti vs. kontroly) v závislosti na jediné proměnné Pravděpodobnost, že i-tý jedinec má mrtvici Optimalizace parametrů π i = exp{β0 + β1x i} 1 + exp{β 0 + β 1X i }, i = 1,..., n
Logistická klasifikace Logisitická regrese jako klasifikační metoda Interpretace Volba prahové hodnoty Predikce Y v závislosti na X 2: Pro n < p: lasso logistická regrese
(Umělé) neuronové sítě: popis Vícevrstvý perceptron Regresní model, připomínající logistickou regresi (klasifikaci) Vstupní vrstva neuronů Jedna nebo více skrytých vrstev Výstupní vrstva (např. logistická funkce) π i = pravděpodobnost, že i-tý jedinec má mrtvici
Neuronové sítě Biologická inspirace (navrženy jako modely pro nervové buňky pro biologické aplikace) Rozličné úlohy (i klasifikace) Flexibilita Univerzalita Užitečné pro velká data (hluboké sítě) Váhy, které je potřeba odhadnout v průběhu učení Odhad parametrů: Minimální chyba klasifikace/aproximace Zpětná propagace (back-propagation) Optimalizační metoda největšího spádu (gradientu) Nevýhody: černá skříňka, velké množství parametrů Je potřeba velké n
Extrakce pravidel z vícevrstvého perceptronu 1 2 Klient Věk Příjem Pohlaví... Y Adam 28 1 000 Ž... 0 Bohouš 44 1 500 M... 1 Cyril 30 1 200 M... 0 Daniel 58 2 400 M... 1 Klient h 1 h 2 h 3 h 1 h 2 h 3 Y Anna 1,20 2,34 0,66 1 3 2 0 Bohouš 0,78 1,22 0,82 2 3 2 1 Cyril 2,12 0,18 0,16 3 1 2 0 Daniel 0,13 0,83 2,34 1 2 1 1 3 Jestliže h 1 = 1 a h 2 = 3, pak Y := 0 Jestliže h 2 = 2, pak Y := 1 4 Jestliže věk 28 a příjem 1 000, pak h 1 := 1. Jestliže pohlaví = Ž, pak h 2 := 3. Jestliže věk > 34 a příjem > 1 500, pak h 2 := 2. 5 Jestliže věk 28 a příjem 1 000 a pohlaví = Ž, pak Y := 0 Jestliže věk > 34 a příjem > 1, 500, pak Y := 1 Baesens B. (2014): Analytics in Big Data World.
Lineární diskriminační analýza (LDA) Mahalanobisova vzdálenost Bere se v úvahu kovarianční struktura dat Pojem varianční matice
Lineární diskriminační analýza (LDA) Mnohorozměrná normalita (odlišné vektory středních hodnot, odlišné varianční matice). Data: K různých skupin p-rozměrných dat Pozorování Z je zařazeno do k-té skupiny, pokud tato má minimální hodnotu Mahalanobisovy vzdálenosti Z a X k Neboli do skupiny, která má maximální hodnotu X T S 1 Z 1 2 X T S 1 X + log π k Vlastnosti: Lineární oddělení skupin Jsou k dispozici P(Z skupina 1),..., P(Z skupina K) LDA lze též získat optimalizací v bayesovské statistice: max aposteriorní pravděpodobnost
Regularizované (smrštěné) průměry Regularizovaná varianční matice např. S = (1 λ)s + λi pro malé kladné λ Lze získat řídkost (lasso odhad pro průměr).
Výsledky klasifikačních metod Metoda Youdenův index SVM 1,00 Klasifikační strom 0,94 Vícevrstvý perceptron - LDA - RDA 1,00 Youdenův index = senzitivita + specificita 1 Křížová validace
Statistika vs. strojové učení Dvě velmi odlišné komunity Historický vývoj Schopnost uchopit mnohorozměrnou strukturu dat Teoretické studium metod Jednoduché vs. složité metody (se sklony k přeučení) Interpretace Efektivní výpočet Parametrické modely? Předpoklady, diagnostické nástroje Testy hypotéz o parametrech Citlivost vůči šumu, robustní obdoby
Klasifikační metody (nejen) pro molekulárně genetická data
Proč je analýza molekulárně genetických dat tak složitá Prokletí dimenzionality Návrh experimentu je důležitý Generování hypotéz spíš než testování hypotéz Výpočetní náklady Implementace metod nedostupná/pomalá/numericky nestabilní Vliv odlehlých pozorování, robustnost Čím víc informací, tím je rozhodování složitější Jak provést redukci dimenzionality?
Přístupy: Selekce proměnných Latentní proměnné Řídkost Nic (např. ve strojovém učení) Výhody: Zjednodušení následné analýzy Zlepšení interpretace Zmenšení/odstranění korelace Popis rozdílů mezi skupinami (či jejich dimenzionality) Rozdělení proměnných do shluků Pozorování navzájem bĺızká zůstanou si navzájem bĺızká Případně zlepšení klasifikační správnosti Která metoda je nejlepší?
Testy hypotéz Test představuje klasifikační pravidlo Test pro i-tý gen Střední (očekávaná) hodnota genové exprese u pacientů µ 1 Střední (očekávaná) hodnota genové exprese u kontrol µ 2 Nulová hypotéza: µ 1 = µ 2 Alternativní hypotéza: µ 1 µ 2 Konstrukce testu t-test pro normální rozdělení Opakované testování! Konfirmační analýza
Co očekáváme od PCA? PCA = principal component analysis = analýza hlavních komponent
Co očekáváme od PCA? Cíl: (malý) počet nekorelovaných komponent s (s < min{n, p}) Interpretace Optimalita
PCA pro genetická data PCA1 vs. PCA2 (obdobně lze vizualizovat i další komponenty): První hlavní komponenta vysvětĺı 4,9 % variability. Druhá hlavní komponenta vysvětĺı 2,4 % variability.
PCA pro genetická data Kolik je celkem hlavních komponent Scree plot (sutinový graf, indexový graf úpatí vlastních čísel) Variabilita jednotlivých komponent vs. celková Příspěvek prvních 30 hlavních komponent k variabilitě:
PCA pro genetická data Metoda 20 genů 15 genů 10 genů PAM 0,37 0,35 0,33 LDA 0,32 0,29 0,28 RDA 0,32 0,31 0,30 QDA - 0,09 0,17 LR 0,23 0,25 0,26 Youdenův index (senzitivita + specificita -1) Křížová validace
MRMR metoda pro selekci proměnných Obvyklé metody selekce proměnných vybírají vysoce proměnné geny MRMR = Minimální Redundance Maximální Relevance Jak měřit relevanci Jak měřit redundanci Dopředná procedura: Vybírá se první, druhá, třetí,... proměnná Ideálně: max {Relevance} & min {Redundance} Velký vliv odlehlých hodnot max {Relevance c Redundance}, c > 0
MRMR: výsledky & studie senzitivity MRMR (10 proměnných) = lineární diskriminační analýza Křížová validace Youdenův index (senzitivita + specificita -1): Kontaminace dat Relevance Redundance - A B C Vzájemná info. Vzájemná info. 0,92 0,58 0,75 0,83 r r 1,00 0,83 0,71 0,92 r S r S 0,96 0,83 0,83 0,92 r K-S 0,84 0,79 0,67 0,79 r Sign test 0,84 0,67 0,83 0,75 r Mult. r 1,00 0,71 0,75 0,92 r Reg. mult. r 1,00 0,79 0,71 0,88 r LWS (lin.) Reg. mult. r 1,00 1,00 1,00 0,96 r LWS (log.) Reg. mult. r 1,00 1,00 1,00 0,96 r LWS (adapt.) Reg. mult. r 1,00 1,00 1,00 1,00 Vítězí robustní postupy.
Systémy pro podporu rozhodování Rozhodování Definice systému pro podporu rozhodování Diagnóza, terapie, prognóza Klasifikační úloha Neurčitost Rozličné typy biomedicínských dat Systém SIR Snadné ovládání Trénovací data (automatické načtení, kontroly) Pro nového pacienta: apriorní & aposteriorní diagnóza Validace na kardiovaskulární genetické studii
Podpora rozhodování pro nového pacienta
Závěry Co jsem se naučil z kardiovaskulární genetické studie Jak by měl výzkum probíhat, aby šlo výsledky validovat (návrh experimentu, biologická hypotéza) Žádná metoda není optimální pro všechny datové soubory (no free lunch) Volit přístup adekvátní pro daná data: mnohorozměrný, supervidovaný,...
Literatura Kalina J., Seidl L., Zvára K., Grünfeldová H., Slovák D., Zvárová J. (2013): Selecting relevant information for medical decision support with application to cardiology. European Journal for Biomedical Informatics 9 (1), 2 6. Kalina J. (2014): Classification methods for high-dimensional genetic data. Biocybernetics and Biomedical Engineering 34 (1), 10 18. Valenta Z., Kalina J. (2015): Exploiting Stein s paradox in analysing sparse data from genome-wide association studies. Biocybernetics and Biomedical Engineering 35, 64 67. Kalina J., Schlenker A. (2015): A robust supervised variable selection for noisy high-dimensional data. BioMed Research International 2015, Article 320385, 1 10. Kalina J., Schlenker A. (2018): Dimensionality reduction methods for biomedical data. Lékař a technika 48 (1), 29 35.