Statystyczna analiza danych

Podobne dokumenty
października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Elementy modelowania matematycznego

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Wstęp do Biologii Obliczeniowej

Budowa kwasów nukleinowych

Modelowanie motywów łańcuchami Markowa wyższego rzędu

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Przewidywanie genów i budowa białek

Dopasowania par sekwencji DNA

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Statystyczna analiza danych

Wykład 14 Biosynteza białek

Porównywanie i dopasowywanie sekwencji

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji (sequence alignment)

Geny i działania na nich

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Spis treści 3 SPIS TREŚCI

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

EGZAMIN DYPLOMOWY, część II, Biomatematyka

Bioinformatyka Laboratorium, 30h. Michał Bereta

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Wykład 5 Dopasowywanie lokalne

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU Transkrypcja RNA

Programowanie dynamiczne i algorytmy zachłanne

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Przyrównywanie sekwencji

Bioinformatyka II Modelowanie struktury białek

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

TRANSKRYPCJA - I etap ekspresji genów

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Wybrane techniki badania białek -proteomika funkcjonalna

PRZYRÓWNANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

3 Przeszukiwanie baz danych

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Metody i analiza danych

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Badanie doboru naturalnego na poziomie molekularnym

Wstęp do programowania

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Zasady oceniania rozwiązań zadań 48 Olimpiada Biologiczna Etap centralny

Porównywanie i dopasowywanie sekwencji

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Tematy prac magisterskich i doktorskich

Przybliżone algorytmy analizy ekspresji genów.

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Metody oceny ryzyka operacyjnego

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Klonowanie molekularne Kurs doskonalący. Zakład Geriatrii i Gerontologii CMKP

Algorytmy memetyczne (hybrydowe algorytmy ewolucyjne)

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Elementy modelowania matematycznego

Bioinformatyka II Modelowanie struktury białek

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Translacja i proteom komórki

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Proces Poissona. Proces {N(t), t 0} nazywamy procesem zliczającym jeśli N(t) oznacza całkowitą liczbę badanych zdarzeń zaobserwowanych do chwili t.

Algorytmy ewolucyjne - algorytmy genetyczne. I. Karcz-Dulęba

Nowoczesne systemy ekspresji genów

Generowanie i optymalizacja harmonogramu za pomoca

Ogólnopolska Konferencja Aktuarialna Zagadnienia aktuarialne teoria i praktyka Warszawa, IE SGH 2009

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Spacery losowe generowanie realizacji procesu losowego

Gry hazardowe, gry ewolucyjne, ekspresja genów, tak czy owak łańcuchy Markowa

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

Optymalizacja. Symulowane wyżarzanie

Techniki optymalizacji

Bioinformatyka wykład 9

KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F

Wybrane techniki badania białek -proteomika funkcjonalna

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCHY KOMPETENCJI EFEKTY KSZTAŁCENIA

Wprowadzenie. DNA i białka. W uproszczeniu: program działania żywego organizmu zapisany jest w nici DNA i wykonuje się na maszynie białkowej.

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

przedmiot podstawowy obowiązkowy polski drugi

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Analiza składowych głównych

Transkrypt:

Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski

plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia znajdowanie genów

model rodziny białek Cele: zbudowanie multiuliniowienia dla danej sekwencji identyfikacja rodziny

model rodziny białek d1 d2 d3 d4 i0 i1 i2 i3 i4 m0 m1 m2 m3 m4 m5 profilowy HMM

model rodziny białek długość sekwencji w przykładzie - 5 stany: match, insert, delete m0 - stan początkowy, m5 - końcowy alfabet - 20 aminokwasów plus dziura

model rodziny białek każdy stan typu match i insert ma swój rozkład na aa, które emituje: jeśli jest on jednostajny to emitujemy losowe sekwencje, jeśli jednopunktowy to dokładnie jedną sekwencję, jeśli pomiędzy to mamy pewną rodzinę sekwencji. stan typu delete emituje symbol dziury z prawdopodobieństwem 1

model rodziny białek dzięki modelowi hmm możemy zróżnicować podobieństwo różnych fragmentów sekwencji: algorytmy dynamiczne i BLAST mają ustalony parametr na karanie przerwy oraz jedną tablicę substytucyjną dla całej sewencji. hmm pozwala na zróżnicowanie tych parametrów w szczególności kara za przerwę może być w każdym miejscu inna. białka posiadają słabo i silnie konserwowane regiony (domenty funkcyjne).

model rodziny białek i0 gap open penalty i0 m0 gap extention penalty zaczynamy od treningu (czyli estymacji parametrów) alg. Bauma-Welcha, długość modelu - średnia długość sekwencji w rodzinie, inicjalizacja parametrów - rozkłady jednostajne.

hmm i multiuliniowienia

hmm i multiuliniowienia używamy sekwencji do wytrenowania modelu hmm (alg. Bauma-Welcha). dla każdej sekwencji algorytmem Viterbiego liczymy najbardziej prawdopodobną trajektorię stanów łańcucha. konstruujemy uliniowienie: dwa aminokwasy są w jednej kolumnie jeśli są wyemitowane w tym samym stanie typu match.

hmm i multiuliniowienia m0 m1 m2 m3 m4 d5 d6 m7 m8 m9 m10 C A E F D D H C D A E F P D DH m0 m1 i1 m2 m3 m4 d5 m6 m7 m8 m9 m10

hmm i multiuliniowienia C - A E F - D D H C D A E F P D D H

hmm i multiuliniowienia C A E F T P A V H C K E T T P A D H C A E T P D D H C A E F D D H C D A E F P D D H

hmm i multiuliniowienia m0 m1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m0 m1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m0 m1 m2 m3 d4 m5 m6 m7 m8 m9 m10 m0 m1 m2 m3 m4 d5 d6 m7 m8 m9 m10 m0 m1 i1 m2 m3 m4 d5 m6 m7 m8 m9 m10

hmm i multiuliniowienia C - A E F T P A V H C - K E T T P A D H C - A E - T P D D H C - A E F - - D D H C DA E F - P D D H

hmm i multiuliniowienia możliwe niejednoznaczności, np. dla modelu długości 2 i sekwencji: A B A C A B B A C A B A C o trajektoriach: m0 m1 i1 i1 m2 m3 m0 m1 i1 i1 i1 m2 m3 A B B A C w takich przypadkach fragmenty uliniowienia małymi literkami kodowane...

muliuliniowienie globin 400 białek globinowych zostało użytych do wytrenowania modelu. używając algorytmu Viterbiego uliniowiona całą rodzinę liczącą 625 białek globinowych. uzyskane uliniowienie porównane z uliniowieniem strukturalnym (które było znane dla 7 sekwencji).

http://pfam.sanger.ac.uk/ potrafi namierzyć domeny funkcyjne w sekwencjach białek - reprezentowane jako HMMy (ponad 2000) jak annotować nową sekwencję? BLASTem znajdujemy homologi czasem sensowniej przeszukać domeny z PFAMa

polowanie na geny miliardy par zasad DNA do analizy: sekwencje genów poprzedzielane długimi niefunkcjonalnymi fragmentami. metody obliczeniowe automatycznej detekcji regionów kodujących bardzo pożądane. Genscan: popularne narzędzie oparte o HMMy Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78-94.

emihidden Markov models p prawdopodobieństwo pozostania w stanie p n 1 (1 p) p-stwo, że czekamy n kroków rozkład geometryczny semihmm: 1.bez pętli 2.w stanie emitujemy całe słowo z dowolnego rozkładu

semihidden Markov models z każdym stanem losowa S związana zmienna L S Y S,l - rozkład długości słowa - rozkład na sekwencjach długości l algorytmy dla semihmm dużo bardziej skomplikowane, bo musimy nie tylko odkryć trajektorię stanów które wyemitowały daną sekwencję, ale również punkty podziału...

semihidden Markov models uogólniony algorytm Viterbiego nie działa w rozsądnym czasie... dodatkowe założenia niezbędne: długości długich regionów międzygenowych mają rozkład geometryczny. sekwencje w tych regionach typu iid.

semihidden Markov models DEF: parsowanie to sekwencja stanów q 1,g 2,...q r i długości d 1,d 2,...d r dla danej sekwencji s algorytm Viterbiego znajduje optymalne parsowanie że opt takie, P ( opt s) P ( s) dla wszystkich parsowań czyli opt z największym prawdopodobieństwem wyemitowało sekwencję s

struktura genu - powtórka długość około 500 bp region UTR podlega transkrypcji, ale nie translacji

struktura genu - powtórka

struktura genu - powtórka ma go 70% genów Scientific American image

r. geometryczny sekwencja dł. generowana przez ŁM rzędu 5

jednostajny: 28-34 geometryczny: średnia 735

promotor ekson ekson końcowy genscan ' 6. ' 6 ' 3 ' -. :3 35 3;:; 3) 5 początkowy '.>.. 3 0 ' 0 3 3 3 ' 6. ' ( ' 3+ 6 ' :3 3 :3. 3: apple5 3 :3. 3: " 5 3 " 5 ' ' 30 3: (3) 3 0 : 6 >3 ' 6 '. >3 ' ' 7 ' : ' +" 5 : 373) ( 3 + :3 3 ( ' 7 ' '. 0 +" 5 ' 3) ( ' ' ' 0.3 3+" ( 4 4 +5 >' 3 7 3 ' 3) ('..3.3 3 0.3 3+" 5 3 ' 3) ('..3.3 3. 0 +" 5 ' ' 30 3: (3) 3 0 : 6 '6 3 >3. 0 >3 -'03 - ' : ' +" 5 -'037 Thursday, March 20, - ' 14 : ' " ' 0 ( 4 4 +5 >' 3 ( 33 5 3 :3. 3: 5 3.; ( 33 : 3 3:3 0 6 03 ' +5 &>.> '-.. ' - * :.' -. 7 3 03 ; 1 3 >' ' 0 3 ' 3) 03 ' 3 0 $ 030 '.. 0 : ## >' 3%%5 &>.>. 3-3 ' 30 >3 3'0 : 6 ' 3; > 5 ' &>.> 6' *3 &33. 0. 03 30 pojedynczy ekson >' 3 " '6 3 >3 8 *' 3 6 '. 0 5 >' 3 " '6 3 >3 3. 0 *' 3 6 '. 0 5 >' 3 5 03 30 5 5 5 3 3. $3 -; 3 ' 3) ' 3 ' - 0 $ 030 '.. 0 : >3 >' 3 6 >3 3$ 7 (&>.> 03 3 3 >3. 0 6 >3 sygnał polya = koniec 8 *' 37 ' 6 >3 3) 5 >3.3 >3 3'0 : 6 ' 3+;. $3 3.35 0 ' 0 '..3.3 3 5 ' ' ' ' 0 3 ' : ' transkrypcji ' 3. 03 30 ' ' 6 >3 '. ' 30 3) ;?3$3 3 ' 0 ' 3 ' 0 6 &' 0 ' 0 ' 3 ' 3 03' & > ' 3 - > 03 5 37 &>' ' >3 3' 3 6 * > ' 0 >3 1/?, : ' ( 0 $ -! /..>5 region międzygenowy +" 33 >3 3:3 0 : 3 ; > :> 3&>' ' >3 03 03. *30 *-, ; ( apple+5 03 * ' ' - 3 :3 3 ' >' 7. 03 ( + : 3 ' &3 ' 73) :3 3 " ( + 3 5 -'03 - ' : ' ' 0 3 :3. 3 3.3 " ' 0 ( + :3 3.. : 3 >3 * > 1 ' 0 ; '00 5 ' 3 30 3$ -5 ' ' ' &3 '. 3 3 :3 3 ' 3 3 30 ' >3.. 3.3 6 3 :3 3 >3 ' 3 37 3.3; > 5 >3 3 3 '. 3 6 $3 7 3* ' 3 :3. 3 3.3 3 - *3 3. 3 30 :3 3 3 3. : 3..' *3 03. *30 *- > 03. 3; >3 '* 3 ' ' 3 >' $3 ' : '. ( *'* - ' 3+.' *3 >' 0 30 ' 0 >' ' 3 ' $3 7. : 3). - '00 3 30; >3 03 5 3 3 ' - 6 3 7/' $ - 35. $3 3-6 ' 30 ' ' 3). ' 3 0 7 ' 003 /' $ / 03 ( //+ 6 >3 03. *30 *-?'* 3 ( +; 3=-5 >3 03 > :> 6 ' :3 3 ' : ' ## ' 3%% 5. : 6 ' 03 30 3 6 ' 3 5... 5 & > ' '. ' 30 3 6 3 : > (0 ' +5... &>.>5 : *'*. 03 6 3'.> 6 >3 ' 3-3 5 :3 3 ' 3 ' 1 3 3.3 6 3 : > ; >3 :3 3 ' 6 ' ' 3. 3 0 : ' ( 37038 30+ 37 3.3 3 : > ' 6 & ( + ' ' 3.> 3 '.. 0 :

introny/eksony zaczynają się po 1,2,3 bazie w kodonie... dla nici komplementarnej

dla każdego typu sekwencji GENSCAN modeluje rozkład długości: nieparametrycznie - histogram lub parametrycznie - r. geometryczny; skład sekwencji: łańcuch Markowa (1st, 5 stopnia, (nie)homogeniczny

zależności między kolumnami...

jak modelować?

max. dependence decomposition - MDD

pozycja 4 ma największy wpływ na inne...

budujemy drzewo...

trening ' 6. ' 6 ' 3 ' -. :3 35 3;:; 3) 5 5 3 :3. 3: 5 3.; ( 33 : 3 3:3 0 6 03 ' +5 &>.> '-.. ' - * :.' -. 7 3 03 ; 1 3 >' semihmma ' 0 3 ' 3) 03 ' 3 0 $ 030 '.. 0 : ## >' 3%%5 &>.>. 3-3 ' 30 >3 3'0 : 6 ' 3; > 5 ' &>.> 6' *3 &33. 0. 03 30 >' 3 " '6 3 >3 8 *' 3 6 '. 0 5 >' 3 " '6 3 >3 3. 0 *' 3 6 '. 0 5 >' 3 5 03 30 5 5 5 3 3. $3 -; 3 ' 3) ' 3 ' - 0 $ 030 '.. 0 : >3 >' 3 6 >3 3$ 7 (&>.> 03 3 3 >3. 0 6 >3 8 *' 37 ' 6 >3 3) 5 >3.3 >3 3'0 : 6 ' 3+;. $3 3.35 0 ' 0 '..3.3 3 5 ' ' 2.5 ' Mb ' 0 3 bp ' : ' ' 3. 03 30 ' ' 6 >3 '. ' 30 3) ;?3$3 3 ' 0 ' 3 ' 0 6 &' 0 ' 0 ' 3 ' 3 03' & > ' 3 - > 03 5 37 &>' ' >3 3' 3 6 * > ' 0 >3 1/?, 380 : ' ( genów 0 $ -! /..>5 +" 33 >3 3:3 0 : 3 ; > :> 3&>' ' >3 03 03. *30 *-, ; ( apple+5 03 * ' ' - 3 :3 3 ' >' 7. 03 ( + : 3 ' &3 ' 73) :3 3 " ( + 3 5 -'03 - ' : ' ' 0 3 :3. 3 3.3 " ' 0 ( + :3 3.. : 3 >3 * > 1 ' 0 ; '00 5 ' 3 30 3$ -5 ' ' ' &3 '. 3 3 :3 3 ' 3 3 30 ' >3.. 3.3 6 3 :3 3 >3 ' 3 37 3.3; > 1492 5 >3 3 3 ' eksony. 3 6 $3 7 3* ' 3 :3. 3 3.3 3 - *3 3. 3 30 :3 3 3 3. : 3..' *3 03. *30 *- > 03. 3; >3 '* 3 ' ' 3 >' $3 ' : '. ( *'* - ' 3+.' *3 >' 0 30 ' 0 >' ' 3 ' $3 7. : 3) 1254. - '00 3 30; introny >3 03 5 3 3 ' - 6 3 7/' $ - 35. $3 3-6 ' 30 ' ' 3). ' 3 0 7 ' 003 /' $ / 03 ( //+ 6 >3 '.>.. 3 0 ' 0 3 3 3 ' 6. ' ( ' 3+ 6 ' :3 3 :3. 3: apple5 3 :3. 03. *30 *-?'* 3 ( +; 3=-5 >3 03 3: " 5 3 " 5 ' ' 30 3: (3) 3 0 : > :> 6 ' :3 3 ' : ' ## ' 3%% 5. : 6 >3 ' 6 '. >3 ' ' 7 6 ' 03 30 3 6 ' 3 5... 5 ' : ' +" 5 : 373) ( 3 + :3 3 ( ' 7 & > ' '. ' 30 3 6 3 : > (0 ' +5 ' '. 0 +" 5 ' 3) ( ' '... &>.>5 : *'*. ' 0.3 3+" ( 4 4 +5 >' 3 7 03 6 3'.> 6 >3 ' 3-3 5 :3 3 ' 3 ' 1 3 ' 3) ('..3.3 3 0.3 3+" 3 3.3 6 3 : > ; >3 :3 3 ' 5 3 ' 3) ('..3.3 3. 0 +" 6 ' ' 3. 3 0 : ' ( 37038 30+ 37 5 ' ' 30 3: (3) 3 0 : 6 '6 3 >3. 0 >3 -'03 - ' : ' +" 5 -'037 3.3 3 : > ' 6 & Thursday, March 20, - ' 14 : ' " ' 0 ( 4 4 +5 >' 3 ( 33 ( + ' ' 3.> 3 '.. 0 : 142 z pojedynczym eksonem

Y N,l generowane przez łańcuch Markowa rzędu 5 (3072 parametry) genscan ' 6. ' 6 ' 3 ' -. :3 35 3;:; 3) 5 3 :3. 3: 5 3.; ( 33 : 3 3:3 0 6 03 ' +5 &>.> '-.. ' - * :.' -. 3 03 ; 1 3 >' ' 0 3 ' 3) 03 ' 3 0 $ 030 '.. 0 : ## >' 3 założenie: w danym &>.>. 3-3 ' 30 >3 3'0 : 6 ' 3; > ' &>.> 6' *3 &33. 0. 03 3 odcinku >' 3 " '6 3 liczba >3 8 *' 3genów 6 '. 0-5 >' 3 '6 3 >3 3. 0 *' 3 6 '. 0 5 >' 3 5 03 3 rozkład 5 5 5 3 3. Poissona $3 -; 3 ' 3) ' 3 ' 0 $ 030 '.. 0 : >3 >' 3 6 >3 3$ (&>.> 03 3 3 >3. 0 6 > odległość 8 *' 37 ' 6 między >3 3) 5 >3 nimi.3 >3-3'0 6 ' 3+;. $3 3.35 0 ' 0 '..3 3 5 ' ' ' ' 0 3 ' : ' ' 3. 03 30 ' ' 6 >3 '. ' 30 3) ; rozkład wykładniczy?3$3 3 ' 0 ' 3 ' 0 6 &' 0 ' 0 ' ' 3 03' & > ' 3 - > 03 5 &>' ' >3 3' 3 6 * > ' 0 > 1/?, : ' ( 0 $ -! /.. +" 33 >3 3:3 0 : 3 ; > :> 3&> ' L >3 03 03. *30 *-, ; ( apple 03 N r. geometryczny * ' ' - 3 :3 3 ' >'. 03 ( + : 3 ' &3 ' 73) :3 3 " ( 3 5 -'03 - ' : ' ' 0 3 :3 3 3.3 " ' 0 ( + :3 3.. : 3 >3 * 1 ' 0 ; '00 5 ' 3 30 3$ ' ' ' &3 '. 3 3 :3 3 ' 3 3 30 ' >3.. 3.3 6 3 :3 3 >3 ' 3 3.3; > 5 >3 3 3 '. 3 6 $3 3* ' 3 :3. 3 3.3 3 - *3 3. 3 3

dł. intronów r. geometryczny '.>.. 3 0 ' 0 3 3 3 ' 6. ' ( ' 3+ 6 ' :3 3 :3. 3: apple5 3 :3. 3: " 5 3 " 5 ' ' 30 3: (3) 3 0 : 6 >3 ' 6 '. >3 ' ' 7 macierz wag 8 *' 37 ' 6 >3 3) 5 >3. 6 ' 3+;. $3 3.35 0 ' 0 3 5 ' ' ' ' 0 3 ' 3. 03 30 ' ' 6 >3 '. '?3$3 3 ' 0 ' 3 ' 0 6 &' ' 3 03' & > ' 3 - > macierz wag &>' ' >3 3' 3 6 * > 1/?, : ' ( 0 $ - +" 33 >3 3:3 0 : 3 ; > rozmiaru 15 ' >3 03 03. *30 *-, 03 * ' ' - 3 :3 3. 03 ( + : 3 ' &3 ' 73 3 5 -'03 - ' : ' 3 3.3 " ' 0 ( + :3 3.. : 1 ' 0 ; '00 5 ' 3 ' ' ' &3 '. 3 3 :3 3 ' 3 >3.. 3.3 6 3 :3 3 3.3; > 5 >3 3 3 '. 3* ' 3 :3. 3 3.3 3 - :3 3 3 3. : 3..' * wyuczony > 03. łańcuch 3; >3 ' ' 3 >' $3 ' : '. Markowa ' 3+.' *3 >' rzędu 0 30 ' 50 >' '. : 3). - '00 3 30; >3 03 5 3 3 ' - 6 3 7/. $3 3-6 ' 30 ' ' 3) ' 003 /' $ / 03 ( / 03. *30 *-?'* 3 ( +; 3=- > :> 6 ' :3 3 ' : ' ## ' 3% 6 ' 03 30 3 6 ' 3 5 genscan

genscan algorytmem Viterbiego znajdujemy optymalne parsowanie: 5,>, : 7, 7 $7 37 "! -,337! 9 7 > @ 9! /apple1 @ + + @, <, 75 3 5 > 7. -: @7 7, :7, $ 7 1 /,3 9 6 6 apple 75 3 75 7. 5, >,29, 5 A %0 apple 75 3 75 7. >@ >,2?. @7 : +, 5, 5, 7 @ +,/ (7 @7 7 $7 37 7& @7 7(7 7-3 apple< 7 7, 21, 59 /7 + @7 7 $7 37 7? A %0 %% +, $ @ $>@ @7 7, 7 (7 ->,?> (1# =, apple 7< 5 3 75 7. :, 2 $, 2, 7 @ +?. 47, 5 apple, 7 3, 79 7.37apple :, 9 7,, 5 > 7< 7. >7 7 9 +@ 3@ @,(7,,5575, +<@7,5 <, - 77 72,/ (71 +@ 3@ 3,$ 7 @7,appleapple7, >@ 2, >7 @, @7 $7 47? 37 A %0 5 7 5 3, 7 5 3 7. 2apple7 -, 7, 7, 7. 19, A %0 7., 7 @ +, 7, 7.? 7 7, 7 : @7.,, 75 >7 7 @ 7> - 9 7 7 9 7 7 9 6 9 % 8, 5 ;%1, 7 @ + @7,, 79 75, 7 2 apple 7375 > @7 = 3 5 > 7. : @7 >7 7? @7 6 6 apple 75 3 75 >7 7, 7,/7 75, @72 33$, > @7 7 $7 37?,33$,32 @,(7 /77 57, 75 : 6 6 (7 7. > apple >, 9 7(7 @ 7 +@ 3@ $ 7 apple < 7 7 $7 37 @ >2 :, 9, 5 +7 @,(7 @ + @, @7 apple >, 3, /7 $ 75 57 73 57 73 759 7 >@ apple7 @,apple 7= 7 @7 apple 75 3< /2 $/ > @7 >7 3 7> 3 7< apple 5 > @7 apple 75 3 75 >7 7 >7 @7 + @ @7 apple 7, apple 7 @ > @7 apple >, ; <