DREAM5 Challenges. Metody i rezultaty. Praktyki wakacyjne 2010 sesja sprawozdawcza

Podobne dokumenty
Metody bioinformatyki (MBI)

Ekonometria - wykªad 8

In»ynierskie zastosowania statystyki wiczenia

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

Uczenie Wielowarstwowych Sieci Neuronów o

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Laboratorium z przedmiotu MED. Lab1 - wprowadzenie

Listy i operacje pytania

Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Wykorzystanie lokalnej geometrii danych w Maszynie Wektorów No±nych

Zadania z kolokwiów ze Wst pu do Informatyki. Semestr II.

Modele wielorównaniowe. Problem identykacji

Ekonometria Przestrzenna

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

1. Odcienie szaro±ci. Materiaªy na wiczenia z Wprowadzenia do graki maszynowej dla kierunku Informatyka, rok III, sem. 5, rok akadem.

Model obiektu w JavaScript

Transpozony a ewolucja miejsc wi zania czynników transkrypcyjnych u ssaków

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Lekcja 12 - POMOCNICY

2 Liczby rzeczywiste - cz. 2

Funkcje wielu zmiennych

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

1 Elektrostatyka. 1.1 Wst p teoretyczny

Podstawy statystycznego modelowania danych - Wykªad 7

Matematyka z elementami statystyki

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

*** Teoria popytu konsumenta *** I. Pole preferencji konsumenta 1. Przestrze«towarów 2. Relacja preferencji konsumenta 3. Optymalny koszyk towarów

Testowanie hipotez statystycznych

Wst p do sieci neuronowych, wykªad 14 Zespolone sieci neuronowe

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

Wojewódzki Konkurs Matematyczny

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci

Ukªady równa«liniowych


Rzut oka na zagadnienia zwi zane z projektowaniem list rozkazów

Materiaªy do Repetytorium z matematyki

przewidywania zapotrzebowania na moc elektryczn

Lab. 02: Algorytm Schrage

Ekonometria Bayesowska

Projekt konceptualny z Baz Danych "Centralny system zarz dzania salami na AGH"

Opis matematyczny ukªadów liniowych

Algorytm grupowania K-Means Reprezentacja wiedzy Selekcja i ocena modeli

Macierz A: macierz problemów liniowych (IIII); Macierz rozszerzona problemów liniowych (IIII): a 11 a 1m b 1 B = a n1 a nm b n

1 Metody iteracyjne rozwi zywania równania f(x)=0

Minimalne drzewa rozpinaj ce

MODEL HAHNFELDTA I IN. ANGIOGENEZY NOWOTWOROWEJ Z UWZGL DNIENIEM LEKOOPORNO CI KOMÓREK NOWOTWOROWYCH

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

Krzywe i powierzchnie stopnia drugiego

1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy.

Algebra Liniowa 2. Zadania do samodzielnych wicze«wydziaª Elektroniki, I rok Karina Olszak i Zbigniew Olszak

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Rys.2 N = H (N cos = N) : (1) H y = q x2. y = q x2 2 H : (3) Warto± siªy H, która mo»e by uto»samiana z siª naci gu kabla, jest równa: z (3) przy

Wektory w przestrzeni

Przeksztaªcenia liniowe

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

r = x x2 2 + x2 3.

2 Statyka. F sin α + R B = 1 1 n ( 1. Rys. 1. mg 2

Metody numeryczne i statystyka dla in»ynierów

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Aproksymacja funkcji metod najmniejszych kwadratów

Wykªad 4. Funkcje wielu zmiennych.

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Elementy geometrii analitycznej w przestrzeni

ALGORYTM RANDOM FOREST

Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 SUMA. W obu podpunktach zakªadamy,»e kolejno± ta«ców jest wa»na.

Metodydowodzenia twierdzeń

Elementy modelowania matematycznego

Uczenie Maszynowe: reprezentacja wiedzy, wybór i ocena modelu, drzewa decyzjne

Bazy danych. Andrzej Łachwa, UJ, /15

Zestaw 1 ZESTAWY A. a 1 a 2 + a 3 ± a n, gdzie skªadnik a n jest odejmowany, gdy n jest liczb parzyst oraz dodawany w przeciwnym.

Pakiety statystyczne - Wykªad 8

1 Bª dy i arytmetyka zmiennopozycyjna

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Obliczenia arytmetyczne. Konkatenacja pól. Aliasy kolumn. Aliasy tabel. Co dalej? Rozdział 4. Korzystanie z funkcji. Zastosowanie funkcji

Rozdzia 5. Uog lniona metoda najmniejszych kwadrat w : ::::::::::::: Podstawy uog lnionej metody najmniejszych kwadrat w :::::: Zastos

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Przykªady problemów optymalizacji kombinatorycznej

Ekonometria. wiczenia 7 Modele nieliniowe. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

1 Granice funkcji wielu zmiennych.

ANALIZA MATEMATYCZNA Z ALGEBR

Caªkowanie numeryczne - porównanie skuteczno±ci metody prostokatów, metody trapezów oraz metody Simpsona

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

LZNK. Rozkªad QR. Metoda Householdera

gdzie wektory α i tworz baz ortonormaln przestrzeni E n

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING

Wska¹niki, tablice dynamiczne wielowymiarowe

Liniowe równania ró»niczkowe n tego rz du o staªych wspóªczynnikach

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

det A := a 11, ( 1) 1+j a 1j det A 1j, a 11 a 12 a 21 a 22 Wn. 1 (Wyznacznik macierzy stopnia 2:). = a 11a 22 a 33 +a 12 a 23 a 31 +a 13 a 21 a 32

Algorytmiczna teoria grafów

Transkrypt:

DREAM5 Challenges Metody i rezultaty Julia Herman-I»ycka Jacek Jendrej Praktyki wakacyjne 2010 sesja sprawozdawcza

Plan prezentacji 1 Czym jest uczenie maszynowe 2 Motywacja i sformuªowanie problemów 3 Metody Challenge 1 Smith-Waterman Inne oparte o AAindex Challenge 2 Normalizacja n-gramy i próba u»ycia Boruty mast 4 Rezultaty

Plan prezentacji 1 Czym jest uczenie maszynowe 2 Motywacja i sformuªowanie problemów 3 Metody Challenge 1 Smith-Waterman Inne oparte o AAindex Challenge 2 Normalizacja n-gramy i próba u»ycia Boruty mast 4 Rezultaty

Plan prezentacji 1 Czym jest uczenie maszynowe 2 Motywacja i sformuªowanie problemów 3 Metody Challenge 1 Smith-Waterman Inne oparte o AAindex Challenge 2 Normalizacja n-gramy i próba u»ycia Boruty mast 4 Rezultaty

Plan prezentacji 1 Czym jest uczenie maszynowe 2 Motywacja i sformuªowanie problemów 3 Metody Challenge 1 Smith-Waterman Inne oparte o AAindex Challenge 2 Normalizacja n-gramy i próba u»ycia Boruty mast 4 Rezultaty

Czym jest Machine learning Terminologia ( x (i), y (i)) X Y, i {1,..., m} egzemplarz treningowy y (i) Y zmienna wyj±ciowa, cel Poszczególne wspóªrz dne wektorów x (i) to tzw. atrybuty. Wynikiem algorytmu jest hipoteza h, czyli po prostu funkcja h : X Y. Wybieranie h nazywamy trenowaniem. Algorytm testujemy, wybieraj c (niewielki) podzbiór T {1,..., m}, pomijaj c egzemplarze o indeksach z T ( podczas trenowania, a nast pnie porównuj c h x (i)) z y (i) dla i T.

Challenge 1 - Epitope-Antibody Recognition Przeciwciaªa i ich paratopy Epitopy - sekwencyjne i przestrzenne Szukamy sekwencyjnych epitopów wi» cych si do przeciwciaª IVIg

Challenge 1 - Epitope-Antibody Recognition Dane Tabela 13,638 sekwencji aminokwasowych dªugo±ci 13-21 + ich siªy wi zania wyra»one liczbami z zakresu 1-65,423. Problem siªa wi zania > 10.000 to sekwencje pozytywne - 3,420 peptydów siªa wi zania < 1.000 to sekwencje negatywne - pozostaªe 10,218 Klasykacja 13,640 sekwencji dªugo±ci 9-20 aminokwasów. Nale»y poda pewno± zaklasykowania sekwencji jako pozytywna.

Challenge 2 - TF-DNA Motif Recognition Czynniki transkrypcyjne Czynniki transkrypcyjne oddziaªywuj z DNA reguluj c w ten sposób transkrypcj. Zwykle rozpoznaj motywy dªugo±ci 6-12 nukleotydów. Co chcemy zrobi? Chcemy przewidywa siª wi zania danego czynnika transkrypcyjnego do danej sekwencji, na podstawie wi zania si tego czynnika do reprezentatywnego zbioru sekwencji

Challenge 2 - TF-DNA Motif Recognition Sekwencje U»yte zostaªy dwa zbiory sekwencji, ka»dy licz cy ok 40.000 sekwencji dªugo±ci 35. Zbiory zostaªy stworzone na podstawie ci gów de Bruijn'a, ka»dy zawiera wszystkie mo»liwe 10-mery oraz po 32 egzemplarze ka»dego niepalindromicznego 8-meru. Dane Dla ka»dego czynnika transkrypcyjnego otrzymali±my ±rednie siªy sygnaªu dla sekwencji z jednej z grup. Problem Nale»y przewidzie siª wi zania 66 czynników transkrypcyjnych do sekwencji z jednej grupy, na podstawie wi zania sekwencji z drugiej grupy.

Adaptujemy algorytm Smith'a-Waterman'a Algorytm Smith'a-Waterman'a Algorytm Smith'a-Waterman'a jest dynamicznym algorytmem znajduj cym najlepsze lokalne uliniowienie dwóch sekwencji. Korzystali±my z implementacji na karty graczne. Jako macierzy podobie«stwa u»yli±my kolejno macierzy BLOSUM80, BLOSUM62 oraz BLOSUM45. Wykorzystanie Jako atrybutów u»yli±my maksymalnych podobie«st sekwencji ze zbioru testowego do pozytywnych sekwencji ze zbioru treningowego.

Sami poszukajmy motywów Dla przeciwciaª struktura drugorz dowa jest kluczowa. Ustalamy indeks i szukamy trzyresiduowych motywów kolejnych aminokwasów, albo co drugi (β) lub co trzeci (α). Podobie«stwo sekwencji do motywu okre±la minimalna odlegªo± euklidesowa od fragmentu sekwencji (wzgl dem danego indeksu). Czasem si udaje w±ród 100 najbli»szych sekwencji zdarzaªo si ponad 70 wi» cych, mimo»e ogóªem jest ich trzykrotnie mniej ni» niewi» cych. Wybieramy skuteczne motywy; odlegªo±ci od nich tworz atrybuty.

Zbalansujmy dane Pomijamy caªkowicie wi kszo± danych! Ale za to mamy równomiern reprezentacj wszystkich przedziaªów energetycznych.

n-gramy Ka»dy z 4 n n-zasadowych ªa«cuchów tworzy atrybut T je±li dany ªa«cuch wyst puje jako podsªowo w sekwencji, F w przeciwnym wypadku. Trenujemy las. U»ywamy n = 4, 5. n = 6 przeuczenie, za maªo danych. Boruta wybiera wa»ne atrybuty. To prawdopodobnie nie poprawia skuteczno±ci.

n-gramy Ka»dy z 4 n n-zasadowych ªa«cuchów tworzy atrybut T je±li dany ªa«cuch wyst puje jako podsªowo w sekwencji, F w przeciwnym wypadku. Trenujemy las. U»ywamy n = 4, 5. n = 6 przeuczenie, za maªo danych. Boruta wybiera wa»ne atrybuty. To prawdopodobnie nie poprawia skuteczno±ci.

n-gramy Ka»dy z 4 n n-zasadowych ªa«cuchów tworzy atrybut T je±li dany ªa«cuch wyst puje jako podsªowo w sekwencji, F w przeciwnym wypadku. Trenujemy las. U»ywamy n = 4, 5. n = 6 przeuczenie, za maªo danych. Boruta wybiera wa»ne atrybuty. To prawdopodobnie nie poprawia skuteczno±ci.

n-gramy Ka»dy z 4 n n-zasadowych ªa«cuchów tworzy atrybut T je±li dany ªa«cuch wyst puje jako podsªowo w sekwencji, F w przeciwnym wypadku. Trenujemy las. U»ywamy n = 4, 5. n = 6 przeuczenie, za maªo danych. Boruta wybiera wa»ne atrybuty. To prawdopodobnie nie poprawia skuteczno±ci.

n-gramy Ka»dy z 4 n n-zasadowych ªa«cuchów tworzy atrybut T je±li dany ªa«cuch wyst puje jako podsªowo w sekwencji, F w przeciwnym wypadku. Trenujemy las. U»ywamy n = 4, 5. n = 6 przeuczenie, za maªo danych. Boruta wybiera wa»ne atrybuty. To prawdopodobnie nie poprawia skuteczno±ci.

Rank++ Dla ka»dego czynnika transkrypcyjnego u»yli±my programu RankMotif++ do znalezienia motywu dªugo±ci 8 w sekwencjach treningowych. Nast pnie przy pomocy programu MAST z pakietu MEME dopasowali±my sekwencje do znalezionych motywów. U»yli±my p-value tego dopasowania jako atrybut.

Skuteczno± klasykatorów skªadowych w EAR Wspóªczynnik korelacji (Pearsona) Klasyfikator z en. z dec. DecAcc bayes 0.4995 0.5284 1.0627 knn 0.3820 0.4008 0.8705 witold.forest 0.4754 0.4959 0.5570 witold.forest 0.5208 0.5461 1.1039 ngram.forest 0.4330 0.4606 0.3315 similarity 0.4004 0.4068 1.3115 Klasyfikator TPV TNV ngram.forest 0.7480 0.7636 witold.forest 0.7784 0.7726

Skuteczno± klasykatorów skªadowych w EAR Wspóªczynnik korelacji (Pearsona) Klasyfikator z en. z dec. DecAcc bayes 0.4995 0.5284 1.0627 knn 0.3820 0.4008 0.8705 witold.forest 0.4754 0.4959 0.5570 witold.forest 0.5208 0.5461 1.1039 ngram.forest 0.4330 0.4606 0.3315 similarity 0.4004 0.4068 1.3115 Klasyfikator TPV TNV ngram.forest 0.7480 0.7636 witold.forest 0.7784 0.7726

Skuteczno± ko«cowa w EAR TPV = 0.792, TNV = 0.812 Proporcja gªosów pewno± decyzji ROC: AUC 0.883

Skuteczno± ko«cowa w EAR TPV = 0.792, TNV = 0.812 Proporcja gªosów pewno± decyzji ROC: AUC 0.883

Skuteczno± ko«cowa w EAR TPV = 0.792, TNV = 0.812 Proporcja gªosów pewno± decyzji ROC: AUC 0.883

Skuteczno± ko«cowa w EAR TPV = 0.792, TNV = 0.812 Proporcja gªosów pewno± decyzji ROC: AUC 0.883

Skuteczno± klasykatorów skªadowych w PBM Wspóªczynnik korelacji (Pearsona) TF 4-gram Bor Atr 5-gram Bor Atr mast 1 0.63 0.59 48 0.64 0.53 54-0.43 25 0.80 0.79 32 0.85 0.86 53-0.66 41 0.63 0.60 42 0.64 0.59 58-0.44 r. 0.73 0.70 45.2 0.75 0.70 62.3-0.49 Procent wyja±nionej wariancji (RSQ) TF 4-gram Bor Atr 5-gram Bor Atr 1 0.37 0.34 48 0.38 0.25 54 25 0.62 0.61 32 0.72 0.74 53 41 0.34 0.35 42 0.40 0.33 58 r. 0.51 0.51 45.2 0.55 0.50 62.3

Skuteczno± klasykatorów skªadowych w PBM Wspóªczynnik korelacji (Pearsona) TF 4-gram Bor Atr 5-gram Bor Atr mast 1 0.63 0.59 48 0.64 0.53 54-0.43 25 0.80 0.79 32 0.85 0.86 53-0.66 41 0.63 0.60 42 0.64 0.59 58-0.44 r. 0.73 0.70 45.2 0.75 0.70 62.3-0.49 Procent wyja±nionej wariancji (RSQ) TF 4-gram Bor Atr 5-gram Bor Atr 1 0.37 0.34 48 0.38 0.25 54 25 0.62 0.61 32 0.72 0.74 53 41 0.34 0.35 42 0.40 0.33 58 r. 0.51 0.51 45.2 0.55 0.50 62.3

Skuteczno± ko«cowa w PBM Wielko± zbioru treningowego od 403 do 842, ±rednio 621.5 TF Rozmiar 4-gram 5-gram Blending 1 561 0.37 0.38 0.41 RSQ: 25 707 0.62 0.72 0.75 41 769 0.34 0.40 0.41 r. 621.5 0.51 0.55 0.59 Korelacja RSQ z rozmiarem zbioru treningowego (a»?) 0.34

Skuteczno± ko«cowa w PBM Wielko± zbioru treningowego od 403 do 842, ±rednio 621.5 TF Rozmiar 4-gram 5-gram Blending 1 561 0.37 0.38 0.41 RSQ: 25 707 0.62 0.72 0.75 41 769 0.34 0.40 0.41 r. 621.5 0.51 0.55 0.59 Korelacja RSQ z rozmiarem zbioru treningowego (a»?) 0.34

Skuteczno± ko«cowa w PBM Wielko± zbioru treningowego od 403 do 842, ±rednio 621.5 TF Rozmiar 4-gram 5-gram Blending 1 561 0.37 0.38 0.41 RSQ: 25 707 0.62 0.72 0.75 41 769 0.34 0.40 0.41 r. 621.5 0.51 0.55 0.59 Korelacja RSQ z rozmiarem zbioru treningowego (a»?) 0.34