Klasifikační metody (nejen) pro molekulárně genetická data

Podobne dokumenty
Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17

ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016

Úvodní informace. 18. února 2019

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

ROBUST January 19, Zdeněk Fabián Ústav informatiky AVČR Praha

Funkce zadané implicitně. 4. března 2019

z geoinformatických dat

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Metoda hlavních komponent a faktorová analýza

Kristýna Kuncová. Matematika B2 18/19

1 Soustava lineárních rovnic

Martin Branda. Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky

Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

nejsou citlivé na monotónní transformace vstupů, dost dobře se vyrovnají s nerelevantními vstupy.

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 3. listopadu Filip Železný (ČVUT) Vytěžování dat 3. listopadu / 1

Geometrická nelinearita: úvod

Robustní architektura vícevrstvých

Co to znamená pro vztah mezi simultánní a marginální hustotou pravděpodobnosti f (x) (pravděpodobnostní funkci p(x))?

Numerické metody minimalizace

Matematika 2, vzorová písemka 1

Paralelní implementace a optimalizace metody BDDC

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

Přehled aplikací matematického programovaní a

Lineární regrese. Skutečné regresní funkce nejsou nikdy lineární! regrese extrémně užitečná jak svou koncepcí, tak prakticky.

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Rovnice proudění Slapový model

Kybernetika a umělá inteligence. Gerstnerova laboratoř katedra kybernetiky. Daniel Novák

Martin Pergel. 26. února Martin Pergel

Design of Experiment (DOE) Petr Misák. Brno 2016

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Martin Dlask (KSI FJFI) 3. března 2016

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Linea rnı (ne)za vislost

Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

Edita Pelantová, katedra matematiky / 16

Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!

PROGRAMECH JOSEF TVRDÍK ČÍSLO OBLASTI PODPORY: STUDIJNÍCH PROGRAMECH OSTRAVSKÉ UNIVERZITY REGISTRAČNÍ ČÍSLO PROJEKTU: CZ.1.07/2.2.00/28.

Matematika (KMI/PMATE)

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

TGH01 - Algoritmizace

Kristýna Kuncová. Matematika B3

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn

kontaktní modely (Winklerův, Pasternakův)

Cauchyova úloha pro obyčejnou diferenciální rovnici

(13) Fourierovy řady

DFT. verze:

Kristýna Kuncová. Matematika B2 18/19. Kristýna Kuncová (1) Vzorové otázky 1 / 36

Vybrané kapitoly z matematiky

Stochastické modelování v ekonomii a financích Konzistence odhadu LWS. konzistence OLS odhadu. Předpoklady pro konzistenci LWS

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

vystavit agenta realitě místo přepisování reality do pevných pravidel

Inverzní Z-transformace

Zadání: Vypočítejte hlavní momenty setrvačnosti a vykreslete elipsu setrvačnosti na zadaných

Obsah: Rozhodovací stromy. Úvod do umělé inteligence 11/12 2 / 41. akce

Statistika (KMI/PSTAT)

TGH01 - Algoritmizace

Ústav teorie informace a automatizace. Tato prezentace je k dispozici na:

XIX. kongres ČSARIM, Hradec Králové 2012

Matematika sexu a manželství. Masarykova univerzita, Přírodovědecká fakulta Ústav matematiky a statistiky

Uvod Symbolick e modelov an ı Neuronov e s ıtˇ e Shrnut ı Modelov an ı myˇslen ı Radek Pel anek

Internet a zdroje. (Zdroje na Internetu) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17.

Zpracování digitalizovaného obrazu (ZDO) - Klasifikace

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Zásuvný modul QGISu. QGIS plugin pro práci s katastrálními daty

Kristýna Kuncová. Matematika B2

Průvodce studiem V této kapitole se budeme zabývat diferenciálním počtem pro funkce více

5. a 12. prosince 2018

Scheelova kometa. Dušan Merta. Colours of Sepsis 2019, OSTRAVA!!!

Numerické metody 8. května FJFI ČVUT v Praze

Co nám prozradí derivace? 21. listopadu 2018

(např. ve Weka) vycházejí z tzv. matice záměn (confusion matrix): + TP true positive FN false negative - FP false positive TN true negative

Biosignál I. Lékařská fakulta Masarykovy univerzity Brno

Diferenciální rovnice základní pojmy. Rovnice se

podle přednášky doc. Eduarda Fuchse 16. prosince 2010

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

heteroskedasticitě Radim Navrátil, Jana Jurečková Katedra pravděpodobnosti a matematické statistiky, MFF UK, Praha

Matematická analýza II pro kombinované studium. Konzultace první a druhá. RNDr. Libuše Samková, Ph.D. pf.jcu.cz

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Matematika III Stechiometrie stručný

Platforma pro analýzu, agregaci a vizualizaci otevřených dat souv

MATEMATIKA 3 NUMERICKÉ METODY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Poslední úprava dokumentu: 7. května 2019

Populační algoritmy a jejich uplatnění pro segmentaci obrazu. Pavel Jedlička

Obsah: CLP Constraint Logic Programming. Úvod do umělé inteligence 6/12 1 / 17

NÁVOD K POUŽITÍ KEZELÉSI KÉZIKÖNYV INSTRUKCJA OBSŁUGI NÁVOD NA POUŽÍVANIE. Česky. Magyar. Polski. Slovensky

GENETICKÉ PROGRAMOVÁNÍ S JAZYKEM BRAINFUCK

K SAMOSTATNÉ MODULOVÉ SCHODY MONTÁŽI. asta

Michal Mašek Genetické algoritmy v evoluční robotice

Skraplacze wyparne. Odpaøovací kondenzátory D 127/3-5 PL/CZ

(2) Funkce. Kristýna Kuncová. Matematika B2. Kristýna Kuncová (2) Funkce 1 / 25

Biosignál II. Lékařská fakulta Masarykovy univerzity Brno

Laplaceova transformace

Ekonomicko-statistický návrh regulačního diagramu

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra kybernetiky

Kombinatorika a grafy I

Periodický pohyb obecného oscilátoru ve dvou dimenzích

Transkrypt:

Klasifikační metody (nejen) pro molekulárně genetická data Jan Kalina Ústav informatiky AV ČR

Kardiovaskulární genetická studie Centrum biomedicínské informatiky (Praha, 2006 2011) Diagnostika kardiovaskulárních onemocnění Hlavní příčina úmrtí v České republice Které geny vedou k závažným onemocněním (resp. jeho těžké formě)?

Kardiovaskulární genetická studie Data o jedincích (Městská nemocnice Čáslav, interní či ortopedické odd.): 1 Akutní infarkt myokardu (n = 98) 2 Cévní mozková příhoda (n = 46) 3 Kontrolní osoby (n = 169) Spárování na základě rizikových faktorů (pohlaví, věk, hypertenze, kouření) Osobní údaje, klinické a biochemické parametry Genové exprese: aktivita (všech) genů ve vzorku periferní krve

Genetické pojmy Gen = úsek DNA. Každý gen má jednu nebo více forem. Vždy vedou k syntéze téhož proteinu. Genová exprese = genová aktivita vedoucí k syntéze proteinů. Měření pomocí mikročipů.

Jak analyzovat data genových expresí Předzpracování obrazové informace (agregace přes kuličky, odhad vlivu pozadí).

Naměřená data genových expresí 24 pacientů s mrtvicí 24 kontrolních osob Gen # 1 #2 # 1 #2 1 ADORA3 5,82 6,04 5,71 6,12 2 CPD 3,53 4,08 4,21 5,01 3 ECHDC3 2,50 2,71 2,99 3,52 4 VNN3 3,38 3,03 4,56 3,98 5 IL18RAP 4,03 4,91 5,12 5,01 6 ERLIN1 5,76 4,38 6,49 5,02................ 38 590 PHACTR1 5,21 4,99 5,15 5,53

Předzpracování dat Testy hypotéz?

Konstrukce klasifikačního pravidla Obecně je cílem zkonstruovat klasifikační pravidlo do K skupin, kde K 2 Další možnosti využití klasifikační analýzy

Korelační koeficient r = 0,98 r = 0,87 r = 0,42 Definice korelačního koeficientu Francis Galton (1822 1911) Karl Pearson (1857 1936) Mnohorozměrné uvažování

Výsledky do 2 skupin: 24 pacientů s mrtvicí, 24 kontrolních osob p = 38 590 expresí pro jednotlivé genové transkripty Metoda Youdenův index SVM 1,00 Klasifikační strom 0,94 Vícevrstvý perceptron - LDA - RDA 1,00 PCA = LDA 0,54 PCA = SVM 0,62 MRMR = LDA 1,00 Senzitivita = pravděpodobnost pozitivního testu u nemocných Specificita = pravděpodobnost negativního testu u zdravých Youdenův index = senzitivita + specificita 1 (na 10 genů) Principy křížové validace

Klasifikační metody (nejen) pro molekulárně genetická data

Logistická regrese Uvažujme binární odezvu (pacienti vs. kontroly) v závislosti na jediné proměnné Pravděpodobnost, že i-tý jedinec má mrtvici Optimalizace parametrů π i = exp{β0 + β1x i} 1 + exp{β 0 + β 1X i }, i = 1,..., n

Logistická klasifikace Logisitická regrese jako klasifikační metoda Interpretace Volba prahové hodnoty Predikce Y v závislosti na X 2: Pro n < p: lasso logistická regrese

(Umělé) neuronové sítě: popis Vícevrstvý perceptron Regresní model, připomínající logistickou regresi (klasifikaci) Vstupní vrstva neuronů Jedna nebo více skrytých vrstev Výstupní vrstva (např. logistická funkce) π i = pravděpodobnost, že i-tý jedinec má mrtvici

Neuronové sítě Biologická inspirace (navrženy jako modely pro nervové buňky pro biologické aplikace) Rozličné úlohy (i klasifikace) Flexibilita Univerzalita Užitečné pro velká data (hluboké sítě) Váhy, které je potřeba odhadnout v průběhu učení Odhad parametrů: Minimální chyba klasifikace/aproximace Zpětná propagace (back-propagation) Optimalizační metoda největšího spádu (gradientu) Nevýhody: černá skříňka, velké množství parametrů Je potřeba velké n

Extrakce pravidel z vícevrstvého perceptronu 1 2 Klient Věk Příjem Pohlaví... Y Adam 28 1 000 Ž... 0 Bohouš 44 1 500 M... 1 Cyril 30 1 200 M... 0 Daniel 58 2 400 M... 1 Klient h 1 h 2 h 3 h 1 h 2 h 3 Y Anna 1,20 2,34 0,66 1 3 2 0 Bohouš 0,78 1,22 0,82 2 3 2 1 Cyril 2,12 0,18 0,16 3 1 2 0 Daniel 0,13 0,83 2,34 1 2 1 1 3 Jestliže h 1 = 1 a h 2 = 3, pak Y := 0 Jestliže h 2 = 2, pak Y := 1 4 Jestliže věk 28 a příjem 1 000, pak h 1 := 1. Jestliže pohlaví = Ž, pak h 2 := 3. Jestliže věk > 34 a příjem > 1 500, pak h 2 := 2. 5 Jestliže věk 28 a příjem 1 000 a pohlaví = Ž, pak Y := 0 Jestliže věk > 34 a příjem > 1, 500, pak Y := 1 Baesens B. (2014): Analytics in Big Data World.

Lineární diskriminační analýza (LDA) Mahalanobisova vzdálenost Bere se v úvahu kovarianční struktura dat Pojem varianční matice

Lineární diskriminační analýza (LDA) Mnohorozměrná normalita (odlišné vektory středních hodnot, odlišné varianční matice). Data: K různých skupin p-rozměrných dat Pozorování Z je zařazeno do k-té skupiny, pokud tato má minimální hodnotu Mahalanobisovy vzdálenosti Z a X k Neboli do skupiny, která má maximální hodnotu X T S 1 Z 1 2 X T S 1 X + log π k Vlastnosti: Lineární oddělení skupin Jsou k dispozici P(Z skupina 1),..., P(Z skupina K) LDA lze též získat optimalizací v bayesovské statistice: max aposteriorní pravděpodobnost

Regularizované (smrštěné) průměry Regularizovaná varianční matice např. S = (1 λ)s + λi pro malé kladné λ Lze získat řídkost (lasso odhad pro průměr).

Výsledky klasifikačních metod Metoda Youdenův index SVM 1,00 Klasifikační strom 0,94 Vícevrstvý perceptron - LDA - RDA 1,00 Youdenův index = senzitivita + specificita 1 Křížová validace

Statistika vs. strojové učení Dvě velmi odlišné komunity Historický vývoj Schopnost uchopit mnohorozměrnou strukturu dat Teoretické studium metod Jednoduché vs. složité metody (se sklony k přeučení) Interpretace Efektivní výpočet Parametrické modely? Předpoklady, diagnostické nástroje Testy hypotéz o parametrech Citlivost vůči šumu, robustní obdoby

Klasifikační metody (nejen) pro molekulárně genetická data

Proč je analýza molekulárně genetických dat tak složitá Prokletí dimenzionality Návrh experimentu je důležitý Generování hypotéz spíš než testování hypotéz Výpočetní náklady Implementace metod nedostupná/pomalá/numericky nestabilní Vliv odlehlých pozorování, robustnost Čím víc informací, tím je rozhodování složitější Jak provést redukci dimenzionality?

Přístupy: Selekce proměnných Latentní proměnné Řídkost Nic (např. ve strojovém učení) Výhody: Zjednodušení následné analýzy Zlepšení interpretace Zmenšení/odstranění korelace Popis rozdílů mezi skupinami (či jejich dimenzionality) Rozdělení proměnných do shluků Pozorování navzájem bĺızká zůstanou si navzájem bĺızká Případně zlepšení klasifikační správnosti Která metoda je nejlepší?

Testy hypotéz Test představuje klasifikační pravidlo Test pro i-tý gen Střední (očekávaná) hodnota genové exprese u pacientů µ 1 Střední (očekávaná) hodnota genové exprese u kontrol µ 2 Nulová hypotéza: µ 1 = µ 2 Alternativní hypotéza: µ 1 µ 2 Konstrukce testu t-test pro normální rozdělení Opakované testování! Konfirmační analýza

Co očekáváme od PCA? PCA = principal component analysis = analýza hlavních komponent

Co očekáváme od PCA? Cíl: (malý) počet nekorelovaných komponent s (s < min{n, p}) Interpretace Optimalita

PCA pro genetická data PCA1 vs. PCA2 (obdobně lze vizualizovat i další komponenty): První hlavní komponenta vysvětĺı 4,9 % variability. Druhá hlavní komponenta vysvětĺı 2,4 % variability.

PCA pro genetická data Kolik je celkem hlavních komponent Scree plot (sutinový graf, indexový graf úpatí vlastních čísel) Variabilita jednotlivých komponent vs. celková Příspěvek prvních 30 hlavních komponent k variabilitě:

PCA pro genetická data Metoda 20 genů 15 genů 10 genů PAM 0,37 0,35 0,33 LDA 0,32 0,29 0,28 RDA 0,32 0,31 0,30 QDA - 0,09 0,17 LR 0,23 0,25 0,26 Youdenův index (senzitivita + specificita -1) Křížová validace

MRMR metoda pro selekci proměnných Obvyklé metody selekce proměnných vybírají vysoce proměnné geny MRMR = Minimální Redundance Maximální Relevance Jak měřit relevanci Jak měřit redundanci Dopředná procedura: Vybírá se první, druhá, třetí,... proměnná Ideálně: max {Relevance} & min {Redundance} Velký vliv odlehlých hodnot max {Relevance c Redundance}, c > 0

MRMR: výsledky & studie senzitivity MRMR (10 proměnných) = lineární diskriminační analýza Křížová validace Youdenův index (senzitivita + specificita -1): Kontaminace dat Relevance Redundance - A B C Vzájemná info. Vzájemná info. 0,92 0,58 0,75 0,83 r r 1,00 0,83 0,71 0,92 r S r S 0,96 0,83 0,83 0,92 r K-S 0,84 0,79 0,67 0,79 r Sign test 0,84 0,67 0,83 0,75 r Mult. r 1,00 0,71 0,75 0,92 r Reg. mult. r 1,00 0,79 0,71 0,88 r LWS (lin.) Reg. mult. r 1,00 1,00 1,00 0,96 r LWS (log.) Reg. mult. r 1,00 1,00 1,00 0,96 r LWS (adapt.) Reg. mult. r 1,00 1,00 1,00 1,00 Vítězí robustní postupy.

Systémy pro podporu rozhodování Rozhodování Definice systému pro podporu rozhodování Diagnóza, terapie, prognóza Klasifikační úloha Neurčitost Rozličné typy biomedicínských dat Systém SIR Snadné ovládání Trénovací data (automatické načtení, kontroly) Pro nového pacienta: apriorní & aposteriorní diagnóza Validace na kardiovaskulární genetické studii

Podpora rozhodování pro nového pacienta

Závěry Co jsem se naučil z kardiovaskulární genetické studie Jak by měl výzkum probíhat, aby šlo výsledky validovat (návrh experimentu, biologická hypotéza) Žádná metoda není optimální pro všechny datové soubory (no free lunch) Volit přístup adekvátní pro daná data: mnohorozměrný, supervidovaný,...

Literatura Kalina J., Seidl L., Zvára K., Grünfeldová H., Slovák D., Zvárová J. (2013): Selecting relevant information for medical decision support with application to cardiology. European Journal for Biomedical Informatics 9 (1), 2 6. Kalina J. (2014): Classification methods for high-dimensional genetic data. Biocybernetics and Biomedical Engineering 34 (1), 10 18. Valenta Z., Kalina J. (2015): Exploiting Stein s paradox in analysing sparse data from genome-wide association studies. Biocybernetics and Biomedical Engineering 35, 64 67. Kalina J., Schlenker A. (2015): A robust supervised variable selection for noisy high-dimensional data. BioMed Research International 2015, Article 320385, 1 10. Kalina J., Schlenker A. (2018): Dimensionality reduction methods for biomedical data. Lékař a technika 48 (1), 29 35.