Bioinformatyka. Michał Bereta

Podobne dokumenty
Bioinformatyka. Michał Bereta

Biologiczne bazy i modele danych

Bazy i modele danych

Bioinformatyka. Program UGENE

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

ISBN

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

BIOLOGICZNE BAZY DANYCH SYLABUS

Podstawy bioinformatyki - biologiczne bazy danych

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Nowoczesne systemy ekspresji genów

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

PODSTAWY BIOINFORMATYKI

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Kontakt.

Archiwum DG 2016 PL-SOFT

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Instrukcja obsługi Multiconverter 2.0

Bioinformatyka Laboratorium, 30h. Michał Bereta

Oracle Application Express

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

2017/2018 WGGiOS AGH. LibreOffice Base

Bazy danych i biologia

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Bioinformatyka. Rodzaje Mutacji

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

CENTRALNA BIBLIOTEKA STATYSTYCZNA PRZEWODNIK PO KATALOGU KOMPUTEROWYM SYSTEM ALEPH WERSJA 22


WPROWADZENIE DO BAZ DANYCH

Profil naukowca w serwisie Open Researcher and Contributor ID (ORCID) Opracowanie dr inż. Katarzyna Maćkiewicz

Do zapisu danych w pliku PDB używa się znaków ASCII o graficznej reprezentacji czyli:

Instrukcja obsługi DHL KONWERTER 1.6

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Bioinformatyka Laboratorium, 30h. Michał Bereta

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Sekwencjonowanie, przewidywanie genów

Porównywanie i dopasowywanie sekwencji

Opracowanie przykładów prezentujących zastosowania języka Python w bioinformatyce

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Zakład Usług Informatycznych OTAGO

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

5. Bazy danych Base Okno bazy danych

Instrukcja obsługi 4issuers zbiory odsetkowe

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

Bazy danych i R/Bioconductor

Bioinformatyka. Formaty danych - GenBank

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Podstawowe zagadnienia z zakresu baz danych

Atmosfera. IT Works S.A. Instrukcja dla użytkownika końcowego. Mariusz Sokalski Wersja 1.1

4. Budowa prostych formularzy, stany sesji, tworzenie przycisków

Informatyka Ćwiczenie 10. Bazy danych. Strukturę bazy danych można określić w formie jak na rysunku 1. atrybuty

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Podręcznik użytkownika Publikujący aplikacji Wykaz2

Budowa kwasów nukleinowych

Od jakiego pułapu startujemy? matematyka

Historia Bioinformatyki

UMOWY INSTRUKCJA STANOWISKOWA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Motywacja. Do tej pory: Dzisiaj:

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

Instrukcja pobierania i weryfikacji zaświadczeń elektronicznych w portalu internetowym Polskiej Izby Inżynierów Budownictwa

Projektowanie baz danych za pomocą narzędzi CASE

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej Formy ochrony przyrody oraz gospodarka zielenią

Podręcznik użytkownika Wprowadzający aplikacji Wykaz2

Entrez, wyszukiwarka dla nauk przyrodniczych: globalna kwerenda

Moduł mapowania danych

Automatyka i Robotyka ROK III TEMAT: TWORZENIE I ZARZĄDZANIE INTERNETOWĄ BAZĄ DANYCH

Portal Personelu Medycznego Global Services Sp. z o.o.

Zintegrowany System Zarządzania Biblioteką SOWA2/MARC21 OBSŁUGA CZASOPISM

Bioinformatyka Laboratorium, 30h. Michał Bereta

etrader Pekao Podręcznik użytkownika Strumieniowanie Excel

INSTRUKCJA UŻYTKOWNIKA. Wielkopolski system doradztwa. edukacyjno-zawodowego

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej Pozwolenia wodnoprawne i zgłoszenia przydomowych oczyszczalni ścieków

Dokumentacja Administratora aplikacji Podsystem administracyjny

Zadania semestralne. Programowanie obiektowe sem. II, lato 2014/2015

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Bioinformatyka. z sylabusu...

5. Integracja stron aplikacji, tworzenie zintegrowanych formularzy i raportów

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji

Awizowanie. Instrukcja użytkownika systemu bankowości internetowej dla firm. BOŚBank24 iboss

Transkrypt:

Bioinformatyka Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1

Bazy danych biologicznych Bazy danych sekwencji nukleotydowych Pierwotne bazy danych (ang. primary database) Wykorzystywane do zbierania pełnej informacji o zsekwencjonowanych fragmentach DNA. Informacje powierzchowne bez żadnych dodatkowych analiz. EMBL GenBank DDBJ Wtórne bazy danych (ang. secondary databse) Zwane również bazami danych rodzin białek. Dodatkowa analiza np. rozpoznawanie konserwatywnych (inaczej:konserwowanych) odcinków sekwencji (motywów) w dopasowaniach wielosekwencyjnych. 2

Bazy danych biologicznych Samo zgromadzenie danych sekwencji DNA nie przekłada się na wiedzę biologiczną. Konieczne jest np.: Zlokalizowanie genów Ustalenie położenia odcinków kodujących Przypisanie białkom powstającym w wyniku translacji funkcji biologicznych Odkrycie struktury przestrzennej białek 3

Struktura rekordów w bazach danych Struktura rekordu zależy od konkretnej bazy Istnieją wspólne elementy 4

Struktura rekordów w bazach danych Numer dostępu Niepowtarzalne i nieulegające zmianie oznaczenie przypisywane rekordowi w chwili jego umieszczenia w bazie danych Identyfikator tekstowy (ID) Bardziej czytelny dla ludzi 5

Struktura rekordów w bazach danych Rekord z bazy danych sekwencji nukleotydowych powinien zawierać: Nazwę genu Informację o organiźmie Informację o tym kto i kiedy dokonał zsekwencjonowania Informację o funkcji i strukturze (jeśli dostępne) Inf. o publikacjach naukowych dotyczących danej sekwencji 6

Struktura rekordów w bazach danych Format FASTA Jeden z najprostszych Pierwszy wiersz rekordu zaczyna się od znaku >, następnie często podany jest numer dostępu, identyfikator tekstowy, opis zawartości rekordu, właściwa sekwencja podana w kolejnych wierszach 7

Struktura rekordów w bazach danych Format FASTA Numer dostępu z umerem wersji po kropce: M13667.1 Identyfikator tekstowy: HUMPRP0A Numer indeksu genu (gi): 190469 8

Struktura rekordów w bazach danych Pobieranie rekordów z baz danych nie jest łatwym zadaniem. W praktyce wykorzystuje się specjalne serwisy: Entrez 9

Bazy danych biologicznych Pierwotne bazy danych EMBL (1982) GenBank (1982) DDBJ i INSD (1986) 10

Bazy danych biologicznych EMBL (1982) Podstawowy zbiór sekwencji w Europie Zarządza nią EBI (European Bioinformatics Institute), placówka EMBL (European Molecular Biology Laboratory) 11

Bazy danych biologicznych EMBL struktura rekordu Forma tekstowa Jedno pole rekordu zwykle zawiera się w jednym wierszu pliku Na początku każdego wiersza znajduje się dwuznakowa etykieta opisująca zawartość wiersza ID identyfikator rekordu, grupa taksonomiczna, długość sekwencji AC numer dostępu, nie ulega zmianie w kolejnych wydaniach bazy danych DE opis, np. symbole genów w sekwencji, lokalizacja genomowa sekwencji RN, RP odnośniki literaturowe DR odsyłacze do rekordów z różnych baz danych, związanych z daną sekwencją CC komentarze KW - hasła kluczowe FT tablice cech np. inf. o położeniu sekwencji sygnałowych, sekwencji kodujących białko CDS translacje sekwencji nukleotydowych kodujących białka 12

Bazy danych biologicznych EMBL, ENA http://www.ebi.ac.uk/ http://www.ebi.ac.uk/ena SRS kiedyś popularny sposób dostępu: https://www.ebi.ac.uk/seqdb/confluence/display/s RS/SRS/ 13

Bazy danych biologicznych GenBank Zarzadzana przez NCBI (National Center for Biotechnology Information), USA Dostęp przez wykorzystanie systemu Entrez Udostępnia również zasoby bazy MEDLINE literaturowej bazy danych 14

Dział Typ sekwencji lub jej pochodzenie Bazy danych PRI biologicznych Z naczelnych ROD Z gryzoni GenBank - działy bazy MAM VRT INV PLN BCT VRL PHG SYN UNA EST PAT STS GSS HTG HTC Z innych ssaków Z innych kręgowców Z bezkręgowców Roślinne Bakteryjne Wirusowe Z bakteriofagów Sztucznie wytworzone Nieopisane Znaczniki sekwencji ulegające ekspresji Opatentowane Miejsca markerowe sekwencji Sekwencje przeglądowe genomu Wysokoprzepustowe sekwencje genomowe 15 Wysokoprzepustowe sekwencje cdna

Bazy danych biologicznych GenBank struktura rekordu LOCUS kodowe oznaczenie dla określonego rekordu bazy danych, liczba nukleotydów, źródło danych (np. mrna), dział bazy danych, data zdeponowania w bazie DEFINITION zwięzły opis sekwencji ACCESSION numer dostępu unikalny i niezmienny VERSION liczba zmian sekwencji, numer sekwencji (GI ang. geninfo identifier), umożliwia odwołanie się do konkretnej wersji sekwencji Modyfikacje sekwencji powodują zmianę numeru GI ale sama sekwencji nadal ma te n sam LOCUS oraz ACCESSION KEYWORDS hasła kluczowe SOURCE źródło pochodzenia sekwencji ORGANISM biologiczna klasyfikacja źródłowego organizmu REFERENCE odniesienia do publikacji AUTHORS, TITLE, JOURNAL, MEDLINE, PUBMED COMMENT komentarze FEATURES początek tabeli cech ze szczegółowym opisem własności sekwencji, np. Nazwa genu Współrzedne sekwencji kodującej db_xref odsyłacze do rekordów tej lub innych baz danych Np. Taxon:9606 odniesienie od taksonomicznej bazy danych Np. GI:190470 odniesienie do translacji sekwencji w bazie danych sekwencji GenPept BASE COUNT nukleotydowy skład sekwencji ORIGIN informacja o lokalizacji genomowej pierwszego nukleotydu sekwencji Właściwa sekwencja Rekord jest zakończony etykietą // 16

Bazy danych biologicznych 17

Bazy danych biologicznych dbest jest działem GenBank Znaczniki sekwencji ulegające ekspresji (EST) EST : Ważne narzędzie badawcze Wykorzystywane do wykrywania nowych genów, mapowania genów na określonych chromosomach, identyfikacji sekwencji kodujących w genomie 18

Bazy danych biologicznych DDBJ DNA Data Bank of Japan Powstały w NIG National Institute of Genetics Obecnie część INSD Translacje CDS z bazy DDBJ są automatycznie dodawane do bazy JIPID (Japan International Protein Information Database) a następnie do do bazy PIR-PSD 19

Bazy danych biologicznych INSD International Nucleotide Sequence Database (1986/1987) Współpraca między EMBL, GenBank oraz DDBJ Standaryzacja formatu zapisu danych Zawartość EMBL, GenBank oraz DDBJ jest synchronizowana 20

http://www.ebi.ac.uk/ Wygląd strony w 2016r. 21

http://www.ebi.ac.uk/ 2017 22

http://www.ebi.ac.uk/ 2018 23

http://www.ebi.ac.uk/ 24

lub wyszukaj ENA na liście po jej rozwinięciu 25

26

27

http://www.ebi.ac.uk/training/online/course/n ucleotide-sequence-data-resources-ebi/whydo-we-need-ena 28

29

Informacje o wersjach 30

Szczegóły 31

32

Wizualna reprezentacja zależy od użytego narzędzia (oprogramowania) Zmień zakres w celu analizy wybranego fragmentu 33

34

Nawigacja do innych baz danych 35

Link do portalu z danymi taksonomicznymi organizmu 36

Całość sekwencji Tylko fragment 37

Format fasta 38

Informacja o tym, z jakich fragmentów poskładano sekwencję w tym rekordzie. 39

40

nawigacja Szczegółowe informacje o procesach transkrypcji i translacji 41

Link do bazy danych białek gen produkt (białko) Sekwencja aminokwasów (struktura pierwszorzędowa) 42

Numer dostępu Opis Hasła kluczowe 43

Tablica cech Sekwencja 44

Dane z tego samego rekordu w formacie fasta jedynie nagłówek + sekwencja. Wygodny jeśli interesuje nas głównie sekwencja. 45

Wyszukiwanie w bazie GenBank http://www.ncbi.nlm.nih.gov/genbank/ 46

Wyszukiwanie w bazie GenBank 47

Wyszukiwanie w bazie GenBank 48

Wyszukiwanie w bazie GenBank 49

Wyszukiwanie w bazie GenBank zoom Zaznaczona część 50

Wyszukiwanie na podstawie sekwencji Przykład wyszukiwania na podstawie sekwencji. (Pobierz dowolny fragmet z pliku CytBDNA.txt) Przykład wykonany z wykorzystaniem pierwszej sekwencji Uwaga: jeśli wyszukiwanie nie działa, użyj Advanced 51 Search

Advanced search 52

W razie konieczności zmień ustawienia 53

lub 54

Wyszukiwanie może zająć pewien czas 55

56

E-value powinno być bliskie zeru aby wynik wyszukiwania można było uznać za wiarygodny. 57

Kompletny genom http://en.wikipedia.org/wiki/spotted_african_lungfish 58

>ENA L42813 L42813.1 Protopterus dolloi complete mitochondrial genome. GCCGATGTAGCTTAAGCAAAGCATAGCACTGAAAATGCTAAGACAGGCTTAATACGCCTC ACCCGCACACAGGTTTGGTCCTGGCCTTAATGTCAGCTTTAACTAAACTTATACACTGCC AAGTCCCCGCGCCCCAGTGAAAATGCCCTCACACGCCAGTAGGTGTAGAGGAGCTGGCAT CAGGCCCACACTAAGTAGCCCAAGACGCCTTGCAACGCCACACCCCAAGGGACACAGCAG TAATTAAAATTGGACTATAAGTGTAAACTTGATCCAGCCATGGTTAAATAAAGTTGGCCA ACCTCGTGCCAGCCGCCGCGGTTACACGAGGAACTTAAGTTGATGCCTCCGGCGTATAGG ATGATTAAGAGGAACTTTTACTAAAATCAAATATTGGCCCTGCTGTTATACGCGCTCGCC AACTAGAAACTCAAAATTTTTAACTAACAGTACATCTGAACTCATGAAAGTCAGGAAACA AACTAGGATTAGATACCCTACTATGCCTGACCCTAAACTATGACAAGTCTAACTACATAA CTTGCCCGCCAGGAACTACAAGCCCAAGCTTAAAACCCAAAGGACTTGGCGGTGCCTCAC ACCCACCTAGAGGAGCCTGTTCTAGAACCGATAATCCACGTTTTACCCAACCTTCCCTAG CATTTCAGCCTATATACCGCCGTCGCCAGCCAACCCCCTGAGGGTAGACTAGTTGGCAGA ATAGATAACATCTAGCACGTCAGGTCGAGGTGTAGCACATGAGAAGGAAGAAATGGGCTA CATTTTCTAGTAGAAAACACGGACAATCCCATGAAACTGGGATTCTAAGCTGGATTTAGT AGTAAGAGAAAATAAGAATATTTTTCTGAAGCCGGCCATGAGGCGCGCACACACCGCCCG TCACTCTCCTCAACAATCGTAAACGATAAATAATTAATTTAGATAAAAAAGAGGAGGCAA GTCGTAACATGGTAAGTGTACCGGAAGGTGTACTTGGTTTCAAAATGTGGCTTAATTAGC AAAGCACCCCCCTTACACTGAGGACACACCCGTGCAAATCGGGTCATTTTGAACTAAATG GTAAGCCTGTCATTTTTTAACATGTAAATTTTATATAACACACACTCTGTAAGTAAACCA TTTATACTTCTAGTATTGGAGAAAGAAAGAAATTCAAGCGCATAAAAGTACCGCAAGGGA AAACTGAAAAACTAGTGAAAAATTAAGTTTTAAAAAGCAAAGACTAACACTTGTACCTTT TGCATCATGGTCTAGCTAGTCATGAAGGGCAGAAAGAATTTTAGTCCCACCCCCGAAACT AGGCGAGCTACTCCGAGACAGCCAAACGGGCCAACTCGTCCATGTGGCAAAATGGTGAGA AGAGCTCCGAGTAGCGGTGAAAAGCCAAACGAGCCTAGAGATAGCTGGTTGCGCGAGAAA CGAATCTTAGTTCTACCCTAAATTTTTCACGGGCTACAGCCTTAAACCCCGTAATTAAAT TTAGAGGCTACTCAAAGGGGGGACAGCCCCTTTGTGAAAGGACACAACCTCAACAAACGG ATAATGATTAATCTACAAGGTAAAATTTAAGTGGGCCTAAAAGCAGCCACCAACAAAGAA AGCGTATAGCTCCCCCATAACTTTATCCATCAATTCAATTAAACAATCATAATCCATCTT ACGTATCGAGCTGACTTATATCATTATAAGTGCAAAAATGCTAGAATGAGTAACAAGAAA ATACAATTTTCTCCTCACATAGGTGTTAGTCAGAACAGATTACCTACTGACAATTACTGA TAATGAACACAATGTATTAACCTGTCATAAGCAAGAAAACCCTACACTGATATATCATAA ATTCTACACTGAAGTGTGCTTGGAAAAATTAAGGGGGGGAGAAGGAATTCGGCAACTATG GCCTCGCCTGTTTACCAAAAACATCGCCTCCTGCCAAATATAGGAGGTACTGCCTGCCCT GTGACTCTGTTTAACTGGCCGCGGTATTTTGACCGTGCGAAGGTAGCGTAATCACTTGTC TCTTAATTAGGGACCTGTATGAATGGCAACACGAGGGTCCAACTGTCTCCTCCCCCAGAT TAGTGAAATTGATCTATCCGTTCAAAAGCGGATATTTTTTCATAAGACGAGAAGACCCTG TGGAGCTTAAAGTTCTAATATTAAACATGAGCGTAAATATATACTTTAAGTTTTGTAATA TTAAATACTTTCGGTTGGGGCGACCACGGAGTATAAAAAACCCTCCGCAATACAATTCTA TTTTAAGAAGGACACTTCTCAAACTAGAATATCTAGCACAATTGACCCAGTCTAACTGAG CAATGAACCAAGTTACCCCAGGGATAACAGCGCAATCCCCTTTAAGAGTCCCCATCGACG AGGGGGTTTACGACCTCGATGTTGGATCAGGGTATCCTGGTGGTGCAGCCGCTACCAAGG GTTTGTTTGTTCAACAATTAATATCCTACGTGATCTGAGTTCAGACCGGAGCAATCCAGG TCAGTTTCTATCTATGACTTCTTTTTTCTAGTACGAAAGGACTGAAAAAGGGGGGCCTAT ATAAAAATATGCCCCACCCACTACTACTGAATTTATATAAAGTAGCCAAGTGGGAAACCC CCCACACGGGAGAAAACCACACTGTTGGAGTGGCAGAGATCGGTAAGTGCAGAAGGCCTA AGACCTTCATTTCGGGGGCTCAAATCCCCCCTTCAACTATGAACCCCCTCCCCACAATTA CTAACTCCCTAATATATATTGTTCCAATTCTTCTAGCCGTAGCATTTCTCACTCTTGTTG AACGGAAAATTATTGGGTATATACAACACCGCAAAGGCCCAAACGTAGTCGGACCCTACG GGCTTCTTCATCCAATTGCCGACGGAGTAAAACTTTTTATTAAAGAGCCAGTACGCCCCA CTGCCTCCTCAACAACACTATTTATTCTAGCCCCAACTCTCGCACTAACTCTCGCACTTT TAATTTGAACCCCCCTCCCTATACCATTTCCTATGGCCAACGTCAATTTAACCCTACTCT TTATCATAGCTGTCTCCAGCCTCTCCGTTTATTCAATTTTAACATCGGGCTGAGCCTCCA ACTCAAAATACGCCTTGATCGGGGCCCTTCGAGCAATCGCACAAACTATTTCCTACGAAG TAAGTCTTGGCCTTATCTTATTAGCAGCAATCATTTTTATAGGCAATTTTTCTATATTAA CCTTTTCAACTGGACAAGAAGCAATCTGACTTATTATCCCCGCCTGACCCCTCGCAACAA TATGGTACGTGTCTACCTTAGCCGAAACAAATCGCTCACCCTTTGACCTAACTGAGGGGG AGTCAGAATTAGCCTCAGGCTTTAATGTAGAATACGCCGGAGGCCCCCTTGCCTCATTTT ATCTTGCAGAATATGCTAATATTATACTGATAAACACTATTTCCGTAATTATTTTTTTAG GGGATTCATTAAATTTATTACTGCCAGAAATAATAACTTCTCTCCTAATGTTTAAAACAA CGGCCCTTTCCCTAGTATTTTTATGAGTTCGAGCATCATACCCCCGATTTCGCTATGATC AATTAATACACCTAATTTGAAAAAATTTCTTACCCCTGACTCTATCCCTCATTATTTTGC ACATCTCTGCTCCTTTGGCTTTTACAGGACTCCCCCCTCAATTTTAGGAAATATGCCTGA AGTTAAAGGACCACTTTGATAGGGTGGATCTTGGGGGTTAACCCCCCCTATTTCCTAGAA GGGCAGGCATCGAACCTCCGCCAAAGAGATCAAAACTCTATGTGCTACCACTACACCACC TTCTAGTAAAGTCAGCTCAACAAGCTTTCGGGCCCATACCCCGAAAATGTTGGTTAAATT CCTTCCTTTACTAATGAGCCCGACTATCTTATCTGTCCTGATTATAAGCCTTGGTCTTGG CACCACAGTAACATTTATAAGCTCCAACTGATTATTAGCCTGAATCGGACTAGAAATTAA TACAATATCAATTATTCCGCTTATATCCCAACAGCACCACCCACGAGCCACAGAAGCAGC AACAAAATACTTTCTTGCCCAAGCCGCTGCCTCAATTATAATTTTATTCTCCAGCATGAT TAATGCATGGGTCGCGGGAGAATGAAATATTACTAATTTGTTATCCCCAACCTCCGCCAC TCTAATTACACTGGCACTGGCTATTAAAATTGGTTTAGCCCCAATACATTTTTGACTCCC AGAAGTCTTGCAAGGAGTGACCCTTATAACAGGGGCAATTCTTGTAACTTGACAAAAACT TGCACCATTTATCTTACTCTACCAAATTTCTGATACGGTTAACCCAACACTTCTTCTTGT ACTGGCTCTATCCACACTAACAGGTGGCTGATCTGGACTGAATCAAACGCAGCTACGAAA GATCTTAGCTTATTCCTCCATCGCCCATATGGGGTGAATAACCATGATTTTACCCTTTGC CCCAAATCTTGCACTACTCAACTTAATAATCTATATTACCCTGACCCTTCCACTATTCTT TACACTTAATATCTGTTCATCCACCTCCATCCCATCACTCGCCCTCAACTGAACAAAATC CCCCCTACTCATGACAATACTACTAATTACACTACTCTCATTAGGGGGACTTCCCCCATT AACAGGCTTTATGCCAAAATGATTAATTCTGCAAGAATTAACAAATAATGACCTATACAT TTTTGCTACTGCCGCCGCACTTTCCGCCCTACTCAGCCTCTATTTTTATCTTCGTTTATG CTACACAACCTCACTCACAACTTCCCCAAATACCCTAAATAATAATCACTGGCGCCCCAA TGCTGGAACCTACCAAATTTTATCCATAATCTTGATTTTTGCAACAGCCCTCCTCCCACT TACACCTGGCCTTATTATGTAGATAGGAACTTAGGCTAATTTAAACCAAAAGCCTTCAAA GCTTTAAATAAAAGTGAGAATCTTTTAGTTCCTGTAAAACCTGTGGGACTCTACCCCACA TCTTATGAATGCAACTCAAATACTTTAATTAAGCTAAGGCTTTCTAGATGAAAGGGCCTC GATCCCTTGAACTCTTAGTTAACAGCTAAGCGCCTAAACTTGCGGGCATTCACCTACTTC CGCCGTGCCTGTGGCGCGGCAGAAGCCACGGCGGAAGTAAATTCGCATCTCCGGATTTGC AATCCGGCGTGATAACACCCCATGGCTTGGTAGACGGAGGTATTTCTCCCCCCTTTGGGG GACTACAGTCCGCCGCCTCATTCTCGGCCACCCTACCTGTGACTTTAACACGTTGACTTT TTTCAACAAACCATAAAGATATCGGCACCCTCTACATAGTCTTCGGTGCCTGGGCCGGGA TGGTTGGGACTGCCCTAAGCCTCCTCATCCGGGCCGAATTGAGTCAGCCTGGAGCCCTGC TCGGGGATGACCAAGTCTATAATGTTCTTGTTACCGCCCACGCTTTCGTTATAATCTTTT TTATAGTGATGCCTATCATAATCGGCGGCTTTGGAAACTGACTTATCCCCCTCATAATTG GGGCCCCAGACATAGCCTTCCCGCGAATAAATAACATAAGTTTTTGACTTCTCCCCCCCT CATTCTTACTTCTACTGGCAGGCTCCGGGGTAGAAGCTGGGGCCGGTACCGGTTGGACCG TATATCCCCCCCTTGCTAGTAATCTAGCCCATGCCGGGGCTTCAGTAGACTTAACAATTT TTTCTCTCCACCTAGCTGGGGTTTCTTCAATTCTCGGTTCAATCAATTTTATCACAACAA TTATTAATATAAAACCCCCTGCAGCCTCTCAATACCAAACCCCCCTATTTATCTGATCTG TAATAATTACAACAGTTCTTTTGGTTCTCTCCCTCCCAGTTCTTGCTGCCGGCATCACCA TACTACTAACAGATCGAAATCTAAACACAACGTTCTTTGACCCAGCAGGTGGAGGAGACC CCATTTTATACCAACATCTTTTCTGATTTTTTGGTCACCCAGAAGTCTATATTCTCATCC TGCCCGGATTTGGGATAATTTCTCACATCGTCGGCTTTTACTCTGGAAAAAAGGAGCCCT TCGGCTATATAGGAATAGTCTGAGCGATAATGGCAATTGGTCTTTTAGGCTTTATTGTAT GGGCCCATCATATGTTTACTGTAGGTATAGACGTTGATACACGAGCCTACTTCACATCCG CCACTATAATTATTGCCATCCCAACCGGCGTAAAAGTTTTTAGCTGACTAGCTACACTTC ACGGAGGGGCAATCAAATGGGAGACCCCACTTTTATGGGCCCTCGGCTTTATCTTTTTGT ( ) 59

Wyszukiwanie na podstawie sekwencji Jeśli poprzednia strona nie działa, wypróbuj: http://www.ebi.ac.uk/tools/sss/ 60

Wyszukiwanie na podstawie sekwencji http://www.ebi.ac.uk/tools/sss/ FASTA (przykładowo) Uwaga: wybierz wersję Nucleotide 61

Pierwsza sekwencja z pliku CytBDNA.txt 62

63

Przykład: pobranie trzech pierwszych rekordów 64

Pobrany plik zawiera trzy rekordy sprawdź! Koniec pierwszego rekordu Początek drugiego rekordu 65

Kliknij, aby przenieść się do rekordu 66

67

Wyszukiwanie w serwisie NCBI http://www.ncbi.nlm.nih.gov/ 68

69

70

Pierwsza sekwencja z pliku CytBDNA.txt 71

zaznacz 72

Pobranie zaznaczonych rekordów Porównaj ich numery dostępu z trzema pierwszymi z wyszukiwania w systemie http://www.ebi.ac.uk/tools/sss/ Czy są to te same numery? 73

Wyszukiwanie na podstawie nazwy 74

Wybierzemy dokładnie ten gatunek, który nas interesuje 75

Wybór gatunku 76

Odnośniki do rekordów w innych bazach odnoszących się do tego gatunku 77

Rekordy zawierające zbiorcze, zazwyczaj opracowane dane. 78

Pełny genom 79

80

Wybierzmy konkretny chromosom 81

82

83

Dostęp do portalu taksonomicznego 84

Dostęp do portalu taksonomicznego 85

Dostęp do portalu taksonomicznego 86

Szukamy gatunku podając jego łacińską nazwę 87

88

Taksonomia człowieka 89

Zbiorcze opracowania 90

Projekt opracowania genomu ludzkiego 91

https://en.wikipedia.org/wiki/sc affolding_(bioinformatics) 92

93

Zadania 1. Wyszukaj inne sekwencje z pliku CytBDNA.txt 2. Wygeneruj losowe sekwencje o długości np. 50, 100, 1000 a następnie spróbuj odnaleźć je w bazie ENA (EMBL-Bank) lub NCBI. Zwróć uwagę na wartości E-Value ewentualnych wyników. 94