Bioinformatyka Laboratorium, 30h. Michał Bereta
|
|
- Maria Bednarczyk
- 6 lat temu
- Przeglądów:
Transkrypt
1 Bioinformatyka Laboratorium, 30h Michał Bereta 1
2 Wyszukiwanie sekwencji Jak wyszukad z baz danych bioinformatycznych sekwencje podobne do sekwencji zadanej (ang. query sequence)? 2
3 Wyszukiwanie sekwencji Ogólna procedura: Zmierz dopasowanie pomiędzy zadaną sekwencją a każdą sekwencją w bazie np. algorytm Smitha-Watermana (dopasowanie lokalne) Posortuj sekwencje począwszy od najlepiej dopasowanej (tj. najbardziej podobnej) Zaprezentuj zadaną liczbę najbardziej podobnych sekwencji 3
4 Wyszukiwanie sekwencji Problemy Ile sekwencji podad jako odpowiedź? Czy otrzymane sekwencje są na pewno podobne do sekwencji z zapytania? Czy zaobserwowane podobieostwo przekłada się na rzeczywiste pokrewieostwo (homologia) podobną funkcjonalnośd (np. białka spełniające podobne funkcje) Czy podobieostwo jest statystycznie istotne czy też może wynikad z przypadku? Zawsze dostaniemy coś na pierwszym miejscu listy Czy algorytm dopasowania lokalnego jest najlepszym wyborem? 4
5 Wyszukiwanie sekwencji Wykorzystanie algorytmu Smitha-Watermana Wykorzystywany przez narzędzie MPsrch Możliwośd wyboru macierzy punktacji i funkcji kary za przerwy Wybór macierzy punktacji oraz kary za przerwy mocno wpływa na otrzymane wyniki wyszukiwania 5
6 Wyszukiwanie sekwencji Możliwe sytuacje Dopasowanie nie musi obejmowad całej sekwencji z zapytania / bazy Fragment sekwencji z zapytania można dopasowad do Fragmentu sekwencji z bazy Całej sekwencji z bazy Całą sekwencję z zapytania można dopasowad do Fragmentu sekwencji z bazy Całej sekwencji z bazy 6
7 Wyszukiwanie sekwencji 7
8 Wyszukiwanie sekwencji 8
9 Wyszukiwanie sekwencji 9
10 Wyszukiwanie sekwencji 10
11 Wyszukiwanie sekwencji Przykład dla białka o numerze dostępu P
12 Wyszukiwanie sekwencji 12
13 Wyszukiwanie sekwencji 13
14 Wyszukiwanie sekwencji 14
15 Wyszukiwanie sekwencji 15
16 Wyszukiwanie sekwencji 16
17 Wyszukiwanie sekwencji 17
18 Wyszukiwanie sekwencji Wartośd E (ang. E-value) (czasami w kolumnie Pred. No.) oznacza spodziewaną liczbę sekwencji w bazie danych, których dopasowanie z zadaną sekwencją zostałoby ocenione co najmniej równie dobrze jak zawarta w danym wierszu obserwowana ocena dopasowania. Jeśli E << 1, wynik jest istotny statystycznie Jeśli E >1 to wynik dopasowania może równie dobrze wynikad z przypadku. 18
19 Wyszukiwanie sekwencji Uwaga: Wartośd E zależy od rozmiaru bazy! Na wyszukiwanie duży wpływ ma sposób punktacji np. macierze PAM o niskim numerze nadają się do wyszukiwania sekwencji mocno podobnych (np. lokalnie), mocno konserwatywne odcinki potencjalnie duże kary za przerwy macierze PAM o wysokim numerze nadają się do wyszukiwania sekwencji słabo podobnych (np. podobieostwo rozciąga się na dłuższym odcinku, z przerwami), potencjalnie małe kary za przerwy Analogiczne rozumowanie dla macierzy BLOSUM 19
20 Metody heurystyczne Algorytmy SW oraz NW są algorytmami szybkimi ale jednak wykonywane dla dużej bazy zabierają odpowiednio dużo czasu Heurystyki pozwalają na przyspieszenie obliczeo i otrzymanie prawie równie dobrych wyników 20
21 Motywacje do stosowania heurytyk Zdecydowana większośd sekwencji w bazie nie będzie podobna do sekwencji z zapytania Szybko wybrad najbardziej obiecujące sekwencje i tylko dla nich wykonad dokładne obliczenia np. algorytmem SW Różne heurystyki mają różne techniki wybierania obiecujących sekwencji Opierają się na pewnych cechach charakterystycznych dla podobnych sekwencji a szybkich do sprawdzenia jeśli ich brak to nie ma sensu wykonywad dokładnych obliczeo SW. Dodatkowo podobieostwo często jest lokalne nie ma sensu wykonywad dokładnych obliczeo poza tymi obszarami 21
22 Boxplot 22
23 FASTA Wyszukuje w bazie fragmentów sekwencji o minimalnej długośd ktup Dla białek ktup=2 Dla sekwencji nukleotydów ktup=6 Fragmenty te dokładnie pasują do odpowiednich fragmentów sekwencji w zapytaniu 23
24 FASTA Następnie identyfikowane są tzw. ciągi diagonalne (ang. diagonal runs) Zawierają największą liczbę fragmentów ktup występujących względnie blisko siebie Następnie, wykorzystywanych jest 10 najlepiej ocenionych ciągów diagonalnych (odpowiadają one lokalnym dopasowaniom bez przerw) Ustalane jest, które ciągi diagonalne mogą byd ze sobą połączone (lokalne dopasowania z przerwami) 24
25 FASTA Taka przybliżona ocena dopasowania lokalnego jest używana jako kryterium uporządkowania sekwencji z baz danych Dla sekwencji z początku listy są wykonywane dokładne algorytmy programowania dynamicznego, przy czym dodatkowa oszczędnośd czasu wynika z ograniczenia procedury wypełniania tabeli ocen cząstkowych do komórek znajdujących sięw paśmie, którego środek odpowiada położeniu najwyżej ocenionego ciągu diagonalnego 25
26 BLAST (ang. Basic Local Alignment Tool) Pierwsza generacja Wyznacza się najlepsze lokalne dopasowanie bez przerw sekwencji w zapytaniu do kolejnych sekwencji z bazy Parametr: długośd słowa w Podobne znaczenie jak ktup w FASTA Zazwyczaj w=3 oraz w=12 dla, odpowiednio, sekwencji aminokwasowych oraz nukleotydowych 26
27 BLAST (ang. Basic Local Alignment Tool) BLAST szuka w bazie słów o długości w, które mają ocenę dopasowania ze słowami w sekwenji powyżej progu T Następnie szuka się lokalnego dopasowania poprzez rozbudowę na obu koocach słowa Wydłużanie dopasowania jest przerywane w chwili, gdy jakoś dopasowania spadnie względem wcześniej znalezionego maksimum o więcej niż zadany parametr Spośród tak znalezionych dopasowao lokalnych zwracane jest to z najlepszą oceną 27
28 BLAST (ang. Basic Local Alignment Tool) Nowa wersja algorytmu umożliwia wstawianie przerw podczas wykonywania procedury wydłużania na koocach słowa Oprarta jest ona na algorytmie SW 28
29 BLAST (ang. Basic Local Alignment Tool) PRZYKŁAD Prawdopodobne początkowe słowo dobrze dopasowane do sekwencji w zapytaniu 29
30 BLAST (ang. Basic Local Alignment Tool) Podsumowanie trzy kroki Seeding Extension Evaluation 30
31 BLAST (ang. Basic Local Alignment Tool) Seeding Sterowane parametrem T (minimalna wartośd akceptowanego dopasowania). Nie muszą to byd identyczne słowa (np. w przypadku aminokwasów) 31
32 BLAST (ang. Basic Local Alignment Tool) Seeding Przykład 32
33 BLAST (ang. Basic Local Alignment Tool) Seeding 33
34 BLAST (ang. Basic Local Alignment Tool) Seeding Skupiając się jedynie na diagonalnych grupach słów można nie zwracad uwagi na nieznaczące przypadkowe słowa. T nie jest używany w przypadku sewkencji nukleotydowych. 34
35 BLAST (ang. Basic Local Alignment Tool) Extension 35
36 BLAST (ang. Basic Local Alignment Tool) Extension - przykład Przykładowo, od początkowego T, jedynie w prawo: Bez wstawiania przerw - BLAST pierwszej generacji 36
37 BLAST (ang. Basic Local Alignment Tool) Evaluation Należy ocenid, kóre dopasowania lokalne są statystycznie istotne Nie wystarczy usunąd najgorzej ocenianych (jak ustawid próg?) 37
38 BLAST (ang. Basic Local Alignment Tool) Evaluation Przykładowy problem: Rozważ dopasowanie między sekwencją aminokwasów oraz jej nukleotydowym źródłem. Jaki wpływ ma fakt występowania intronów? Introny powodują, że oczekujemy wielu lokalnych dopasowao zamiast jednego długiego. Czy każdy z tych mniejszych dopasowao będzie uznany za statystycznie istotny? Jak oceniad je wspólnie? 38
39 BLAST (ang. Basic Local Alignment Tool) Evaluation Spójne dopasowania są porównywane z ostatecznym progiem decyzyjnym w celu uznania ich lub nie za statystycznie istotne. 39
40 BLAST (ang. Basic Local Alignment Tool) Evaluation W rzeczywistości są dwie rundy wydłużania (extension) i ewaluacji: bez uwzględniania przerw i z przerwami. W skrócie, wersja z przerwami jest uruchamiana jedynie wtedy, kiedy znalezione jest odpowiednio dobrze ocenione doapsowanie bez przerw. 40
41 BLAST (ang. Basic Local Alignment Tool) Różne wersje BLAST BLASTP szukanie sekwenji aminokwasowej w bazie sekwencji aminokwasów BLASTN szukanie sekwencji nukleotydowej w bazie sewkencji nukleotydowej BLASTX dokonuje translacji sekwencji nukleotydowej na sekwencję aminokwasową i przeszukuje bazę sekwencji aminokwasowych TBLASTN dla zadanej sekwencji aminokwasowej przeszukuje bazę sekwencji nukleotydowych, które poddawane są najpierw translacji 41
42 BLAST (ang. Basic Local Alignment Tool) Różne wersje BLAST 42
43 PSI-BLAST (ang. Position-Specific Iterated BLAST) Wykorzystuje w przeszukiwaniu informacje zawarte w grupie spokrewnionych ewolucyjnie sekwencji Pierwszy etap: korzystając z BLAST wyszukiwane są sekwencje, których podobieostow jest wysoko oceniane np. E<0.01 Konstruowane jest dopasowanie wielosekwencyjne (przybliżone) dla sekwencji w zapytaniu oraz znalezionych sekwencji Pod sekwencją w zapytaniu umieszczane są kolejno znalezione sekwencje Pomija się te fragmenty sekwencji z bazy, których dodanie do dopasowania wielosekwencyjnego wymagałoby wstawienie przerwy w sekwencji w zapytaniu 43
44 PSI-BLAST (ang. Position-Specific Iterated BLAST) Tak znaleione doapsowanie wielosekwencyjne jest wykorzystywane w kolejnej iteracji przeszukiwania bazy Ocenie podlega dopasowanie reszty z sekwencji z bazy z całą kolumną dopasowania wielosekwencyjnego Ocena ta zależy od częstości występowania reszt w danej kolumnie Taki system oceny nazywa się pozycyjnie zróżnicowaną macierzą wartościującą (ang. Position specific scoring matrix, PSSM) 44
45 PSI-BLAST (ang. Position-Specific Iterated BLAST) W wynikach przeszukiwania w kolejnych iteracjach mogą pojawid się nowe sekwencje Są once dodawane do dopasowania wielasekwencyjnego PSSM jest przeliczana Iteracje trwają dopóki znajdowane są nowe sekwencje 45
46 PSI-BLAST (ang. Position-Specific Iterated BLAST) Czasami metoda ta potrafi znaleźd sekwencje odlegle spokrewnione, które nie mógł znaleźd BLAST Powód: dopasowanie wielosekwencyjne zawiera informacje, których nie zawiera żadna z sekwencji z osobna Problem: czasami dodanie zbyt wielu sekwenji powoduje, że wyszukiwane są sekwencje bez związku z oryginalną sekwencją 46
47 Wyszukiwanie sekwencji Czego oczekujemy po wynikach wyszukiwania? Jak rozumiemy prawdziwy związek między sekwencjami? Wspólny przodek Wspólna funkcja Funkcja wynika z trójwymiarowej struktury białka, podczas gdy wyszukiwanie bierze pod uwagę jednowymiarową sekwencję 47
48 Wyszukiwanie sekwencji Możliwe kryterium porównania algorytmów wyszukiwania: Jeśli dysponujemy wiedzą o pewnej rodzinie białek to możemy sprawdzid, na ile dany algorytm jest zdolny do wyszukania sekwencji wszystkich białek w tej rodzinie (jako statystycznie istotnych) Pożądane wyniki prawdziwie dodatnie, brak fałszywie ujemnych wyszukania białek tylko z tej rodziny (jako statystycznie istotnych) Pożądane wyniki prawdziwie ujemne, bez wyników fałszywie dodatnich 48
49 Wyszukiwanie sekwencji Czułośd algorytmu = prawdziwie dodatnie / (prawdziwie dodatnie + fałszywie ujemne) Swoistośd algorytmu = prawdziwie dodatnie / (prawdziwie dodatnie + fałszywie dodatnie) Ciężko jest maksymalizowad oba te kryteria. 49
50 Wyszukiwanie sekwencji Wartośd E jako kryterium wyboru wyników wyszukiwania Obliczenia statystycznej istotności są trudne i nie zawsze dokładne Na to czy w zbiorze wybranych sekwencji są wszytkie istotne większy wpływ może mied nie wartośd progowa E ale raczej odpowiedni dobór funkcji oceny dopasowania W warunkach testowych pokazano, że lepiej działają macierze BLOSUM Pokazano, że dla tej samej macierzy punktacji algorytm SW działa lepiej niż FASTA oraz BLOSUM Jednak każdy z nich jest w stanie znaleźd sekwencje, które są istotnie podobne do sekwencji w zapytaniu Jeśli chcemy znaleźd jak najwięcej pdobnych sekwencji (nawet odlegle) to dobrze jest korzystad z różnych algorytmów 50
51 Wyszukiwanie sekwencji 51
PRZYRÓWNANIE SEKWENCJI
http://theta.edu.pl/ Podstawy Bioinformatyki III PRZYRÓWNANIE SEKWENCJI 1 Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają
Dopasowania par sekwencji DNA
Dopasowania par sekwencji DNA Tworzenie uliniowień (dopasowań, tzw. alignmentów ) par sekwencji PSA Pairwise Sequence Alignment Dopasowania globalne i lokalne ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA
Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Przyrównanie sekwencji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych),
Porównywanie i dopasowywanie sekwencji
Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek pojawiła się nowa możliwość śledzenia ewolucji na poziomie molekularnym Ewolucja
PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI
PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów
Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania
Wprowadzenie do Informatyki Biomedycznej Wykład 2: Metody dopasowywania sekwencji Wydział Informatyki PB Dopasowywanie sekwencji (ang. sequence alignment) Dopasowywanie (przyrównywanie) sekwencji polega
PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI
PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów
Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.
Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie
Bioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Często dopasować chcemy nie dwie sekwencje ale kilkanaście lub więcej 2 Istnieją dokładne algorytmy, lecz są one niewydajne
Porównywanie i dopasowywanie sekwencji
Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek narodziła się nowa dyscyplina nauki ewolucja molekularna Ewolucja molekularna
Bioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew
Dopasowanie sekwencji (sequence alignment)
Co to jest alignment? Dopasowanie sekwencji (sequence alignment) Alignment jest sposobem dopasowania struktur pierwszorzędowych DNA, RNA lub białek do zidentyfikowanych regionów w celu określenia podobieństwa;
Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM
Bioinformatyka (wykład monograficzny) wykład 5. E. Banachowicz Zakład Biofizyki Molekularnej IF UM http://www.amu.edu.pl/~ewas lgorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne
Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee
Bioinformatyka 2 (BT172) Wykład 5 Progresywne metody wyznaczania MSA: T-coffee Krzysztof Murzyn 14.XI.2005 PLAN WYKŁADU Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania
Wykład 5 Dopasowywanie lokalne
Wykład 5 Dopasowywanie lokalne Dopasowanie par (sekwencji) Dopasowanie globalne C A T W A L K C A T W A L K C O W A R D C X X O X W X A X R X D X Globalne dopasowanie Schemat punktowania (uproszczony)
3 Przeszukiwanie baz danych
Spis treści 3 Przeszukiwanie baz danych 1 3.1 Heurystyczne algorytmy...................... 1 3.1.1 FASTA........................... 1 3.1.2 BLAST........................... 3 3.2 Macierze substytucyjne.......................
Bioinformatyka. Program UGENE
Bioinformatyka Program UGENE www.michalbereta.pl UGENE jest darmowym programem do zadań bioinformatycznych. Można go pobrać ze strony http://ugene.net/. 1 1. Wczytanie rekordu z bazy ENA do programu UGENE
Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych...
Przedmowa... XI Część pierwsza Wprowadzenie i biologiczne bazy danych 1 Wprowadzenie... 3 Czym jest bioinformatyka?... 5 Cele... 5 Zakres zainteresowań... 6 Zastosowania... 7 Ograniczenia... 8 Przyszłe
Wykład 10 2008-04-30. Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM
Bioinformatyka Wykład 9 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas 1 Konsekwencje zestawieo wielu sekwencji - rodziny białkowe, domeny, motywy i wzorce 2 Bioinformatyka,
Statystyczna analiza danych
Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia
Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)
Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010) krzysztof_pawlowski@sggw.pl terminologia alignment 33000 dopasowanie sekwencji 119 uliniowienie sekwencji 82 uliniowianie
PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW
PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW DOPASOWYWANIE SEKWENCJI 1. Miary podobieństwa sekwencji aminokwasów 2. Zastosowanie programów: CLUSTAL OMEGA BLAST Copyright 2013, Joanna Szyda
Generator testów Bioinformatyka wer / 0 Strona: 1
Przedmiot: Nazwa przedmiotu Nazwa testu: Bioinformatyka wer. 1.0.6 Nr testu 0 Klasa: V zaoczne WNB UZ Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Analiza porównawcza białek zwykle zaczyna się na badaniach
Generator testów 1.3.1 Bioinformatyka_zdalne wer. 1.0.13 / 0 Strona: 1
Przedmiot: Bioinformatyka Nazwa testu: Bioinformatyka_zdalne wer. 1.0.13 Nr testu 0 Klasa: WNB UZ Odpowiedzi zaznaczamy TYLKO w tabeli! 1. Model Markowa substytucji aminokwasów w mutagenezie białek zakłada...
Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)
Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012) krzysztof_pawlowski@sggw.pl terminologia alignment 33000 dopasowanie sekwencji 119 uliniowienie sekwencji 82 uliniowianie
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta www.michalbereta.pl 1. Wybór atrybutów (ang. attribute selection, feature selection). Jedną z podstawowych metod analizy współoddziaływania /
Przyrównywanie sekwencji
Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański Przyrównywanie sekwencji 1. Porównywanie sekwencji wprowadzenie Sekwencje porównujemy po to, aby
Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment
Dopasowywanie sekwencji Sequence alignment Drzewo filogenetyczne Kserokopiarka zadanie: skopiować 300 stron. Co może pójść źle? 2x ta sama strona Opuszczona strona Nadmiarowa pusta strona Strona do góry
Bioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Metoda NJ (przyłączania sąsiadów) umożliwia tworzenie drzewa addytywnego: odległości ewolucyjne między sekwencjami
Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2
Internet, jako ocean informacji Technologia Informacyjna Lekcja 2 Internet INTERNET jest rozległą siecią połączeń, między ogromną liczbą mniejszych sieci komputerowych na całym świecie. Jest wszechstronnym
Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność
Wersja 1.05 Wprowadzenie do Informatyki Biomedycznej Wykład 3: Wyszukiwanie w bazach sekwencji Przewidywanie genów Wydział Informatyki PB Marek Krętowski pokój 206 e-mail: m.kretowski@pb.edu.pl http://aragorn.pb.bialystok.pl/~mkret
Prawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji
Bioinformatyka wykład 5: dopasowanie sekwencji prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie podobieństwa sekwencji stanowi podstawę wielu gałęzi
Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online
Techniki molekularne ćw. 5 1 z 13 Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online I. Zasoby NCBI Strona: http://www.ncbi.nlm.nih.gov/ stanowi punkt startowy dla eksploracji
Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl
Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie
Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Dopasowanie par sekwencji
BIOINFORMTYK edycja 2016 / 2017 wykład 3 Dopasowanie par sekwencji dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Idea i cele dopasowania sekwencji 2. Definicje
Potencjalne pole elektrostatyczne. Przypomnienie
Potencjalne pole elektrostatyczne Wszystkie rysunki i animacje zaczerpnięto ze strony http://webmitedu/802t/www/802teal3d/visualizations/electrostatics/indexhtm Tekst jest wolnym tłumaczeniem pliku guide03pdf
Złożoność obliczeniowa zadania, zestaw 2
Złożoność obliczeniowa zadania, zestaw 2 Określanie złożoności obliczeniowej algorytmów, obliczanie pesymistycznej i oczekiwanej złożoności obliczeniowej 1. Dana jest tablica jednowymiarowa A o rozmiarze
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl
Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl Dopasowanie sekwencji - znaczenie Podobieństwo porównywanych sekwencji (similarity) może świadczyć
EGZAMIN - Wersja A. ALGORYTMY I STRUKTURY DANYCH Lisek89 opracowanie kartki od Pani dr E. Koszelew
1. ( pkt) Dany jest algorytm, który dla dowolnej liczby naturalnej n, powinien wyznaczyd sumę kolejnych liczb naturalnych mniejszych od n. Wynik algorytmu jest zapisany w zmiennej suma. Algorytm i=1; suma=0;
Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.
Ćwiczenie 5/6 Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST. Prof. dr hab. Roman Zieliński 1. Informacja genetyczna u
Bioinformatyka Laboratorium, 30h. Michał Bereta
Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecnośd Literatura, materiały i ewolucja molekularna
Algorytmy i struktury danych. Wykład 4 Tablice nieporządkowane i uporządkowane
Algorytmy i struktury danych Wykład 4 Tablice nieporządkowane i uporządkowane Tablice uporządkowane Szukanie binarne Szukanie interpolacyjne Tablice uporządkowane Szukanie binarne O(log N) Szukanie interpolacyjne
Bioinformatyka Laboratorium, 30h. Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl
Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecnośd Literatura, materiały Bioinformatyka i ewolucja
Ćwiczenie 3 z Podstaw programowania. Język C++, programy pisane w nieobiektowym stylu programowania. Zofia Kruczkiewicz
Ćwiczenie 3 z Podstaw programowania. Język C++, programy pisane w nieobiektowym stylu programowania Zofia Kruczkiewicz Zakres Podstawowe algorytmy przetwarzania tablic (wypełnianie, porównywanie elementów,
Modelowanie motywów łańcuchami Markowa wyższego rzędu
Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy
Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???
Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych??? Alfabet kwasów nukleinowych jest stosunkowo ubogi!!! Dla sekwencji DNA (RNA) stosuje się zasadniczo*
D: Dopasowanie sekwencji. Programowanie dynamiczne
D: Dopasowanie sekwencji. Programowanie dynamiczne Problem: jak porównywać sekwencje DNA? Czy te sekwencje są podobne? Jeśli są podobne, to jak mierzyć to podobieństwo? Odpowiedzi są kluczowe dla konstrukcji
Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ
Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ Mariusz Jankowski autor strony internetowej poświęconej Excelowi i programowaniu w VBA; Bogdan Gilarski właściciel firmy szkoleniowej Perfect And Practical;
operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.
Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie
TEMAT: SPOSOBY ADRESOWANIA W
CENTRUM EDUKACJI AKADEMIA SUKCESU Praca Semestralna TEMAT: SPOSOBY ADRESOWANIA W ARKUSZU KALKULACYJNYM EXCEL. Kierunek: Technik Informatyk Semestr: II Wykładowca: Jan Nosal Słuchacz: Łukasz Stocki CO TO
Bioinformatyka. Michał Bereta
Bioinformatyka Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Bazy danych biologicznych Bazy danych sekwencji nukleotydowych Pierwotne bazy danych (ang. primary database) Wykorzystywane do zbierania
Bioinformatyka. Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl
Bioinformatyka Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Bazy danych biologicznych Bazy danych sekwencji nukleotydowych Pierwotne bazy danych (ang. primary database) Wykorzystywane do zbierania
Obiektowy PHP. Czym jest obiekt? Definicja klasy. Składowe klasy pola i metody
Obiektowy PHP Czym jest obiekt? W programowaniu obiektem można nazwać każdy abstrakcyjny byt, który programista utworzy w pamięci komputera. Jeszcze bardziej upraszczając to zagadnienie, można powiedzieć,
Indukcja matematyczna
Indukcja matematyczna 1 Zasada indukcji Rozpatrzmy najpierw następujący przykład. Przykład 1 Oblicz sumę 1 + + 5 +... + (n 1). Dyskusja. Widzimy że dla n = 1 ostatnim składnikiem powyższej sumy jest n
Zaawansowane metody numeryczne
Wykład 10 Rozkład LU i rozwiązywanie układów równań liniowych Niech będzie dany układ równań liniowych postaci Ax = b Załóżmy, że istnieją macierze L (trójkątna dolna) i U (trójkątna górna), takie że macierz
Kwerendy, czyli zapytania. Opracowała: I. Długoń
Kwerendy, czyli zapytania Opracowała: I. Długoń Sposoby wyszukiwania informacji Narzędzie Znajdź Filtrowanie Kwerendy Nasza baza Podstawowe sposoby wyszukiwania informacji Znajdź (Edycja -> Znajdź lub
5. Bazy danych Base Okno bazy danych
5. Bazy danych Base 5.1. Okno bazy danych Podobnie jak inne aplikacje środowiska OpenOffice, program do tworzenia baz danych uruchamia się po wybraniu polecenia Start/Programy/OpenOffice.org 2.4/OpenOffice.org
Zaawansowane metody numeryczne
Wykład 11 Ogólna postać metody iteracyjnej Definicja 11.1. (metoda iteracyjna rozwiązywania układów równań) Metodą iteracyjną rozwiązywania { układów równań liniowych nazywamy ciąg wektorów zdefiniowany
Programowanie dynamiczne cz. 2
Programowanie dynamiczne cz. 2 Wykład 7 16 kwietnia 2019 (Wykład 7) Programowanie dynamiczne cz. 2 16 kwietnia 2019 1 / 19 Outline 1 Mnożenie ciągu macierzy Konstruowanie optymalnego rozwiązania 2 Podstawy
Programowanie liniowe
Badania operacyjne Problem Model matematyczny Metoda rozwiązania Znaleźć optymalny program produkcji. Zmaksymalizować 1 +3 2 2 3 (1) Przy ograniczeniach 3 1 2 +2 3 7 (2) 2 1 +4 2 12 (3) 4 1 +3 2 +8 3 10
Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010
Algorytmy równoległe Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka Znajdowanie maksimum w zbiorze n liczb węzły - maksimum liczb głębokość = 3 praca = 4++ = 7 (operacji) n - liczność
Dokowanie molekularne. Karol Kamel Uniwersytet Warszawski
molekularne Wstęp Dokowanie metoda modelowania molekularnego, pozwalająca na znalezienie położenia (i konformacji) liganda w miejscu wiążącym receptora. Informacja ta pozwala na ocenę energii swobodnej
Algorytmy sortujące i wyszukujące
Algorytmy sortujące i wyszukujące Zadaniem algorytmów sortujących jest ułożenie elementów danego zbioru w ściśle określonej kolejności. Najczęściej wykorzystywany jest porządek numeryczny lub leksykograficzny.
Wstęp do programowania
Wstęp do programowania Algorytmy zachłanne, algoritme Dijkstry Paweł Daniluk Wydział Fizyki Jesień 2013 P. Daniluk(Wydział Fizyki) WP w. XI Jesień 2013 1 / 25 Algorytmy zachłanne Strategia polegająca na
1. Napisz program wypisujący w kolejnych wierszach standardowego wyjścia pojedyncze słowa następującego napisu Bardzo dlugi napis. 2.
1. Napisz program wypisujący w kolejnych wierszach standardowego wyjścia pojedyncze słowa następującego napisu Bardzo dlugi napis. 2. Napisz program, który wczytuje ze standardowego wejścia liczbę całkowitą
Funkcje dwóch zmiennych
Funkcje dwóch zmiennych Andrzej Musielak Str Funkcje dwóch zmiennych Wstęp Funkcja rzeczywista dwóch zmiennych to funkcja, której argumentem jest para liczb rzeczywistych, a wartością liczba rzeczywista.
dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia
Porównywanie sekwencji Homologia, podobieństwo i analogia dopasowanie sekwencji Dopasowanie/porównywanie Uliniowienie Alignment W bioinformatyce, dopasowanie sekwencji jest sposobem dopasowania struktur
Wykrywanie twarzy na zdjęciach przy pomocy kaskad
Wykrywanie twarzy na zdjęciach przy pomocy kaskad Analiza i przetwarzanie obrazów Sebastian Lipnicki Informatyka Stosowana,WFIIS Spis treści 1. Wstęp... 3 2. Struktura i funkcjonalnośd... 4 3. Wyniki...
Programowanie Współbieżne. Algorytmy
Programowanie Współbieżne Algorytmy Sortowanie przez scalanie (mergesort) Algorytm :. JEŚLI jesteś rootem TO: pobierz/wczytaj tablice do posortowania JEŚLI_NIE to pobierz tablicę do posortowania od rodzica
OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI
Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w
Wprowadzenie do baz danych
Wprowadzenie do baz danych Dr inż. Szczepan Paszkiel szczepanpaszkiel@o2.pl Katedra Inżynierii Biomedycznej Politechnika Opolska Wprowadzenie DBMS Database Managment System, System za pomocą którego można
Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna
Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna Przedmowa...................................................... 1 1. Rewolucja informatyczna w naukach biomedycznych...........................
MSA i analizy filogenetyczne
Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański MSA i analizy filogenetyczne 1. Dopasowania wielosekwencyjne - wprowadzenie Dopasowanie wielosekwencyjne
Heurystyczne metody przeszukiwania
Heurystyczne metody przeszukiwania Dariusz Banasiak Katedra Informatyki Technicznej W4/K9 Politechnika Wrocławska Pojęcie heurystyki Metody heurystyczne są jednym z ważniejszych narzędzi sztucznej inteligencji.
Formuły formułom funkcji adresowania odwoływania nazwy Funkcja SUMA argumentami SUMA
Formuły Dzięki formułom Excel jest potężnym narzędziem wykonującym na bieżąco skomplikowane obliczenia. Bez nich byłby jedynie martwą tabelą rozciągniętą na wiele kolumn i wierszy, taką pokratkowaną komputerową
Bioinformatyka Laboratorium, 30h. Michał Bereta
Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl Zasady zaliczenia przedmiotu Kolokwia (3 4 ) Ocena aktywności i przygotowania Obecność Literatura, materiały Bioinformatyka i ewolucja
Sortowanie przez wstawianie Insertion Sort
Sortowanie przez wstawianie Insertion Sort Algorytm sortowania przez wstawianie można porównać do sposobu układania kart pobieranych z talii. Najpierw bierzemy pierwszą kartę. Następnie pobieramy kolejne,
www.plansoft.org plansoft.org Zmiany w Plansoft.org Panel wyszukiwania PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW
Zmiany w Plansoft.org Panel wyszukiwania... 1 Uruchamianie panelu wyszukiwania... 2 Wyszukiwanie poleceń menu... 2 Wyszukiwanie rozkładów zajęć wykładowców... 3 Wyszukiwanie rozkładów zajęć grup i użycia
Znajdowanie wyjścia z labiryntu
Znajdowanie wyjścia z labiryntu Zadanie to wraz z problemem pakowania najcenniejszego plecaka należy do problemów optymalizacji, które dotyczą znajdowania najlepszego rozwiązania wśród wielu możliwych
1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:
Metoda analizy macierzy współczynników korelacji Idea metody sprowadza się do wyboru takich zmiennych objaśniających, które są silnie skorelowane ze zmienną objaśnianą i równocześnie słabo skorelowane
Konfiguracja programu
Spis treści Konfiguracja programu... 1 Import wyciągu bankowego... 5 Kilka syntetyk kontrahenta... 13 Rozliczanie i uzgadnianie kontrahenta... 14 Reguły księgowania... 16 Konfiguracja programu Po uruchomieniu
Uniwersytet Zielonogórski Instytut Sterowania i Systemów Informatycznych. Algorytmy i struktury danych Laboratorium 7. 2 Drzewa poszukiwań binarnych
Uniwersytet Zielonogórski Instytut Sterowania i Systemów Informatycznych Algorytmy i struktury danych Laboratorium Drzewa poszukiwań binarnych 1 Cel ćwiczenia Ćwiczenie ma na celu zapoznanie studentów
XIV Sympozjum Onkologia w Otorynolaryngologii
ul. Bytkowska 1B,40-955 Katowice, POLSKA tel.: +48 / / 25 98 399, fax: +48 / / 78 99 273 email: altasoft@altasoft.pl www.altasoft.pl XIV Sympozjum Onkologia w Otorynolaryngologii 22-24.09.2011 Podsumowanie
a) 7 b) 19 c) 21 d) 34
Zadanie 1. Pytania testowe dotyczące podstawowych własności grafów. Zadanie 2. Przy każdym z zadań może się pojawić polecenie krótkiej charakterystyki algorytmu. Zadanie 3. W zadanym grafie sprawdzenie
Optymalizacja ciągła
Optymalizacja ciągła 5. Metody kierunków poparwy (metoda Newtona-Raphsona, metoda gradientów sprzężonych) Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.03.2019 1
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Praktyczny Excel. 50 praktycznych formuł na każdą okazję
Praktyczny Excel 50 praktycznych formuł na każdą okazję 3 1 NUMER PRAWNICZY przygotowany przez + OCHRONA DANYCH OSOBOWYCH profesjonalnie i kompleksowo 1 2 + GRATIS 20% GRATIS 30%, tel. 22 518 29 29, email:
Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A
Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A Zadanie do wykonania 1) Utwórz na pulpicie katalog w formacie Imię nazwisko, w którym umieść wszystkie pliki związane z
Wykład I. Wprowadzenie do baz danych
Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles
BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański
BIOINFORMATYKA edycja 2016 / 2017 wykład 11 RNA dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Rola i rodzaje RNA 2. Oddziaływania wewnątrzcząsteczkowe i struktury
Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski
Genomika Porównawcza Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski 1 Plan prezentacji 1. Rodzaje i budowa drzew filogenetycznych 2. Metody ukorzeniania drzewa
WYMAGANIA EDUKACYJNE Z INFORMATYKI dla klasy III gimnazjalnej, Szkoły Podstawowej w Rychtalu
WYMAGANIA EDUKACYJNE Z INFORMATYKI dla klasy III gimnazjalnej, Szkoły Podstawowej w Rychtalu 1 Algorytmika i programowanie Rozwiązywanie problemów i podejmowanie decyzji z wykorzystaniem komputera, stosowanie
Data Mining z wykorzystaniem programu Rapid Miner
Data Mining z wykorzystaniem programu Rapid Miner Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community
Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości
Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład 13 1 Kody liniowe - kodowanie w oparciu o macierz parzystości Przykład Różne macierze parzystości dla kodu powtórzeniowego. Co wiemy z algebry
Wstęp do programowania
Wstęp do programowania Algorytmy zachłanne, programowanie dynamiczne Paweł Daniluk Wydział Fizyki Jesień 2014 P. Daniluk(Wydział Fizyki) WP w. IX Jesień 2014 1 / 26 Algorytmy zachłanne Strategia polegająca
Obliczenia iteracyjne
Lekcja Strona z Obliczenia iteracyjne Zmienne iteracyjne (wyliczeniowe) Obliczenia iteracyjne wymagają zdefiniowania specjalnej zmiennej nazywanej iteracyjną lub wyliczeniową. Zmienną iteracyjną od zwykłej