Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Podobne dokumenty
Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Samouczek: Konstruujemy drzewo

Bioinformatyka. Program UGENE

Bioinformatyka. Michał Bereta

I. Program II. Opis głównych funkcji programu... 19

Bioinformatyka. Michał Bereta

Uruchamianie bazy PostgreSQL

OBSŁUGA PRACY DYPLOMOWEJ W APD PRZEZ RECENZENTA

2. Dostosuj listę Szybkiego Dostępu

Włączanie/wyłączanie paska menu

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Przewodnik po systemie Antyplagiat dla Użytkownika Indywidualnego

Instalacja systemu zarządzania treścią (CMS): Joomla

Przy wykonywaniu rozliczeń obowiązują pewne zasady, do których nie zastosowanie się będzie skutkowało odrzuceniem raportów ze strony NFZ:

PODRĘCZNIK UŻYTKOWNIKA SYSTEMU MONITOROWANIA KSZTAŁCENIA PRACOWNIKÓW MEDYCZNYCH

Porównywanie i dopasowywanie sekwencji

Dodawanie stron do zakładek

Jak posługiwać się edytorem treści

Dodawanie stron do zakładek

Przewodnik Szybki start

By móc zainstalować plugin niezbędna jest uprzednia instalacja Notowań Online 3 oraz programu do analizy technicznej AmiBroker.

Nawigacja po trasie wycieczki

Przy wykonywaniu rozliczeń obowiązują pewne zasady, do których nie zastosowanie się będzie skutkowało odrzuceniem raportów ze strony NFZ:

EBSCOhost Wyszukiwanie podstawowe dla Bibliotek akademickich

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

ColDis Poradnik użytkownika

PCSHEMATIC AUTOMATION Instalacja aktualizacji baz aparatury

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

elektroniczna Platforma Usług Administracji Publicznej

LeftHand Sp. z o. o.

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Instrukcja do zdjęć. Instrukcja krok po kroku umieszczania zdjęd na aukcji bez ograniczeo. MD-future.

System Informatyczny Oddziału Wojewódzkiego NFZ

PORADNIK KORZYSTANIA Z SERWERA FTP ftp.architekturaibiznes.com.pl

Porównywanie i dopasowywanie sekwencji

Praca z wynikami w ALOORA

Korespondencja seryjna Word 2000

2.5 Dzielenie się wiedzą

ApSIC Xbench: Szybki start wydanie Mariusz Stępień

Tryb wyświetlania wielu rozkładów zajęć

OvidSP - Skrócony opis wyszukiwania - Wyszukiwanie proste i złożone,

Dokumentacja Administratora portalu. aplikacji. Wirtualna szkoła

Instalacja TeXStudio. krok po kroku. Autor: Łukasz Gabrysiak

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji

E-DEKLARACJE Dokumentacja eksploatacyjna 2017

5.3. Tabele. Tworzenie tabeli. Tworzenie tabeli z widoku projektu. Rozdział III Tworzenie i modyfikacja tabel

Wstęp. Skąd pobrać program do obsługi FTP? Logowanie

Baza danych zbiorów Instytutu Sztuki PAN dostępna jest na stronie JAK KORZYSTAĆ?

Tworzenie płatności. Celem tego dokumentu jest opisanie, jak tworzyć płatności w Business Online włączając:

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej

1. Rejestracja w systemie Ekran rejestracji nowego użytkownika przedstawia się następująco:

Moduł Notatki Systemu Obsługi Zamówień Publicznych UTP-Bydgoszcz Instrukcja postępowania do 1000 Euro

E-geoportal Podręcznik użytkownika.

Jak utworzyć diagram

Jak zaimportować bazę do system SARE

Kwerenda. parametryczna, z polem wyliczeniowym, krzyżowa

Szybka instrukcja tworzenia testów dla E-SPRAWDZIAN-2 programem e_kreator_2

epuap Archiwizacja w Osobistym Składzie Dokumentów

Instalacja TeXStudio. krok po kroku. Autor: Łukasz Gabrysiak

Edytor materiału nauczania

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

Pracownia internetowa w szkole ZASTOSOWANIA

Wersja 2.0 SERWISOWO. Instrukcja obsługi systemu. Autor: Piotr Koblak. Instrukcja obsługi sytemu SERWIS wersja 2.0 Kontakt do autora:

Operacje. instrukcja obsługi wersja 2.9.2

Przedszkolaki Przygotowanie organizacyjne

Wersja 2 I 10. April 2014 I Christian Rüdiger, Peter Baarß

Silesian Software Group

Współpraca Integry z programami zewnętrznymi

Instrukcja aktualizacji programu Integra 7

Wykonawca systemu: Dr inż. Andrzej Łysko

JLR EPC. Szybki start. Spis treści. Polish Version 2.0. Przewodnik krok po kroku Przewodnik po ekranach

Geofabrik.

Stosowanie, tworzenie i modyfikowanie stylów.

INSTRUKCJA PROGRAMOWANIA KASY FISKALNEJ I-ERGOS 3050 PRZY POMOCY PROGRAMU PLU MANAGER I-ERGOS.

Podręcznik użytkownika Platformy Edukacyjnej Zdobywcy Wiedzy (zdobywcywiedzy.pl)

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Podręcznik użytkownika Platformy Edukacyjnej Zdobywcy Wiedzy (zdobywcywiedzy.pl)

Jak korzystać z zasobu książek elektronicznych Małopolskie Biblioteki Publiczne platformy IBUK Libra

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej

PRZEWODNIK PO SERWISIE BRe BROKERS Rozdział 6

Świadectwa Optivum. Eksport danych uczniów w formacie SOU z przygotowanego pliku świadectw

Baza danych część 8. -Klikamy Dalej

Zgrywus dla Windows v 1.12

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

INSTRUKCJA instalacji aplikacji elisty.pl

Biblioteka Wirtualnej Nauki

Instrukcja dla programu Ocena.XP

instrukcja użytkownika terminala ARGOX PA-20 SYSTEMY AUTOMATYCZNEJ IDENTYFIKACJI

Przewodnik po Notowaniach Statica mdm 4

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

CitiDirect Online Banking. Logowanie

Dla kas Nano E w wersjach od 3.02 oraz Sento Lan E we wszystkich wersjach.

Instrukcja erejestracji Kliniki Nova.

INSTRUKCJA OBSŁUGI KREATORA SKŁADANIA WNIOSKÓW

Ankieta Microsoft Online - proste narzędzie dostępne bezpłatnie online przez przeglądarkę

plansoft.org Zmiany w Plansoft.org Panel wyszukiwania PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

Transkrypt:

Techniki molekularne ćw. 5 1 z 13 Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online I. Zasoby NCBI Strona: http://www.ncbi.nlm.nih.gov/ stanowi punkt startowy dla eksploracji powiązanych ze sobą zasobów Narodowego Centrum Informacji Biotechnologicznej USA. Zgromadzone tam informacje umożliwiają odpowiedź na liczne pytania jakie nasuwają się ekologom stosującym w swoich badaniach dane molekularne. Przykłady takich pytań: 1. Co wiadomo od strony molekularnej o moim organizmie badawczym? 2. Czy genom jakiegoś organizmu blisko spokrewnionego z moim gatunkiem jest znany? A może projekt sekwencjonowania takiego genomu jest w toku? 3. Ile i jakich sekwencji DNA lub białek dla mojego organizmu zostało już opisanych? 4. Jeżeli sekwencja interesującego mnie genu nie jest znana u tego organizmu, to czy może sekwencje tego genu znane są u jego bliskich krewnych? 5. Czy zidentyfikowano mikrosatelity dla mojego gatunku? A jeżeli nie to może dla jakichś blisko spokrewnionych gatunków? 6. Uzyskała(e)m sekwencję DNA. Jak sprawdzić czy to gen i organizm o który mi chodziło? 7. Co wiadomo o danym genie? Kto go już badał i u jakich organizmów? 8. Czy istnieją dane o zmienności interesującego mnie genu w populacjach jakiegoś gatunku z danej grupy taksonomicznej? Z możliwościami i zasobami NCBI można zapoznać się samodzielnie eksplorując strony NCBI. Pomocny w zrozumieniu ich działania może być podręcznik The NCBI Handbook: http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=handbook oraz instrukcje na stronie: http://www.ncbi.nlm.nih.gov/guide/training-tutorials/ Genomy ilu gatunków zsekwencjonowano dotychczas? http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html Genomy jakich ssaków są skończone? A jakich roślin? Skąd bierze się ogromna dysproporcja w liczbie skończonych genomów między bakteriami a eukariotami? Sekwencje całych genomów są dostępne na serwerach NCBI, możemy je sobie ściągnąć i analizować lokalnie, na własnym komputerze, np.: ftp://ftp.ncbi.nlm.nih.gov/genomes/h_sapiens/assembled_chromosomes/ GenBank http://www.ncbi.nlm.nih.gov/ DNA&RNA->GenBank

Techniki molekularne ćw. 5 2 z 13 Dane w GenBanku mają standardowy format zawierający znacznie więcej niż tylko samą sekwencję kwasu nukleinowego czy białka. Na stronie na której teraz jesteśmy znajduje się przykładowy rekord oraz wyjaśnienie co oznaczają poszczególne pola: Rekordy mogą być złożone i zawierać dużo informacji, co zależy od fragmentu genomu i organizmu, a przede wszystkim od zainteresowania badaczy. Poniższy link pokazuje taki złożony rekord: http://www.ncbi.nlm.nih.gov/nuccore/nm_133378 Format w jakim wyświetlana jest sekwencja można zmieniać, natywnym formatem sekwencji w GenBanku jest ASN.1, który możemy znaleźć pod Display Settings. Jest on trudno czytelny dla człowieka, lecz wygodny dla programów przeszukujących bazy danych. Gdy interesuje nas określony takson Będziemy chcieli zobaczyć jakie informacje na temat nornicy rudej (Myodes glareolus) znajdują się w zasobach NCBI. Na stronie: http://www.ncbi.nlm.nih.gov/ Domyślnie przeszukiwane są wszystkie bazy danych. Wpisujemy w polu wyszukiwania: Myodes glareolus

Techniki molekularne ćw. 5 3 z 13 Powinniśmy otrzymać coś takiego: Ile sekwencji nukleotydów dla nornicy jest w banku genów? A ile sekwencji białek? Czy wszystkie bazy zawierają informację o nornicy?

Techniki molekularne ćw. 5 4 z 13 Kliknijmy Taxonomy, a gdy ukaże się nowe okno kliknijmy Myodes glareolus. Powinniśmy dostać stronę: która zawiera informacje o nornicy, włączając w to jej pełną hierarchiczną systematykę według systemu przyjętego w NCBI. Chcielibyśmy ściągnąć całą bazę sekwencji nornicowych żeby np. wykorzystać ją do szybkiego sprawdzania czy sekwencje uzyskane przez nas z biblioteki genomowej nornicy są już w bazie danych. Gdy klikniemy elementy w kolumnie Direct links, uzyskamy dostęp do rekordów dotyczących nornicy we odpowiednich bazach danych. Kliknijmy liczbę obok Nucleotide. Dostajemy spis sekwencji, domyślnie w skróconej formie (Summary), ale możemy sobie je wszystkie wyeksportować np. w formacie FASTA:

Techniki molekularne ćw. 5 5 z 13 sekwencje zapisane w formacie FASTA do pliku będą odczytywane przez wiele programów, możemy w ten sposób stworzyć lokalną bazę nornicowych sekwencji i przeszukiwać ją na własnym komputerze. Czy w banku genów są jakieś mikrosatelity dla nornicy? Na stronie http://www.ncbi.nlm.nih.gov/ w oknie wyszukiwania ograniczamy wyszukiwanie do bazy Nucleotide i wpisujemy Myodes glareolus [organism] AND microsatellite. Gdybyśmy chcieli sprawdzić czy są jakieś mikrosatelity dla innych gatunków z tego samego rodzaju wpiszemy: Myodes [organism] NOT glareolus AND microsatellite II. BLAST BLAST (Basic Local Alignment Search Tool) to rodzina programów pozwalających na szybkie przeszukiwanie baz sekwencji i znajdowanie sekwencji podobnych do sekwencji użytej jako zapytanie (Query). Gdy zapytaniem jest sekwencja nukleotydów można przeszukiwać: bazy danych nukleotydów (algorytmy: blastn, megablast, discontinuous megablast) bazy białek (algorytm: blastx) - sześć możliwych ramek translacji Gdy zapytaniem jest sekwencja białek można przeszukiwać:

Techniki molekularne ćw. 5 6 z 13 bazy białek (algorytmy: pblast, psi-blast, phi-blast) bazy nukleotydów (algorytm: tblastn) BLAST można wykorzystywać również do bardziej wyspecjalizowanych celów, które wymieniono na stronie: http://blast.ncbi.nlm.nih.gov/blast.cgi w sekcji Specialized BLAST. Przeszukanie baz sekwencją nukleotydów Na stronie technik: http://www.eko.uj.edu.pl/molecol/index.php?option=com_content&view=article&id=101:wbnz- 839&catid=7&Itemid=59 otwórz plik Cw_5_sekw1.txt skopiuj znajdującą się w nim sekwencję wraz z nagłówkiem do schowka, przejdź do strony: http://blast.ncbi.nlm.nih.gov/blast.cgi wybierz nucleotide blast Wklej sekwencję w odpowiednim polu Wybierz Database... Others (nr etc.) kliknij BLAST po kilku sekundach pojawi się wynik Sekwencja jakiego genu była w pliku? Jakiego organizmu? Najważniejsze parametry opisujące wynik to bit score i E-value. Bit score opisuje jakość dopasowania. E-value jest statystyczną miarą istotności wyniku. Jest to oczekiwana liczba dopasowań o takim podobieństwie do sekwencji-zapytania jakie otrzymano w analizie, w bazie losowych sekwencji o wielkości równej wielkość bazy przeszukiwanej. Wyniki otrzymane na stronie przedstawione są w formie łatwej dla odczytania przez człowieka, gdy wyniki analizowane są przez programy, często wyświetla się je w innym formacie, który można wybrać klikając Download w oknie z wynikami BLASTa. Poniżej przycisku BLAST jest rozwijalna sekcja Algorithm parameters, która pozwala na precyzyjne dostosowanie działania programu do naszych potrzeb. Czy nasza sekwencja ma homologi wśród bezkręgowców? Na stronie gdzie ustawia się parametry BLASTa w polu Organism wpisz Metazoa NOT vertebrata? Następnie spróbuj wyszukiwania z opcją Optimize for Somewhat similar sequences (blastn) O czym świadczą wyniki? Przeszukiwanie baz białek Przeszukaj analizowaną sekwencją nukleotydów bazy sekwencji białek. Dlaczego analiza trwa dłużej?

Techniki molekularne ćw. 5 7 z 13 Otwórz plik Cw_5_sekw2.txt Sekwencją białka z tego pliku przeszukaj bazę białek dla bezkręgowców

Techniki molekularne ćw. 5 8 z 13 Analiza wielu sekwencji Otwórz plik Cw_5_sekw3.txt Skopiuj wszystkie sekwencje do schowka. Wejdź na stronę : http://blast.ncbi.nlm.nih.gov/blast.cgi wybierz Nucleotide BLAST wklej sekwencje w odpowiednie pole i ustaw parametry zgodnie ze wzorem: kliknij BLAST O czym świadczą otrzymane wyniki? Jak zmieni się wynik gdy w sekcji Program selection wybierzesz Somewheat similar sequences (blastn)? Przeszukaj tymi samymi sekwencjami bazę sekwencji białkowych O czym świadczą otrzymane wyniki?

Techniki molekularne ćw. 5 9 z 13 III. Galaxy Galaxy to zbiór narzędzi pozwalających na manipulację dużymi zbiorami danych genomowych, meta genomowych, kodów kreskowych DNA. Daje łatwy dostęp do zasobów wielu baz danych i pozwala na integrację tych zasobów z naszymi danymi oraz na analizę naszych danych w kontekście informacji dostępnych w bazach. Analizy można prowadzić online, lub też zainstalować Galaxy lokalnie, co przydaje się gdy analizowane zbiory danych są bardzo duże. My spróbujemy określić różnorodność bakterii w niewielkiej próbie 200 sekwencji rrna otrzymanych metodą sekwencjonowania nowej generacji 454. Plik z danymi ściągamy ze strony kursu: http://www.eko.uj.edu.pl/molecol/index.php?option=com_content&view=article&id=101:wbnz- 839&catid=7&Itemid=59 Sekwencje do Galaxy W przeglądarce internetowej wchodzimy na stronę Galaxy http://leskowiec.eko.uj.edu.pl:8080/ Aby używać serwisu musicie się zarejestrować. Ładujemy nasze dane do Galaxy: Get Data-> Upload File Wskaż plik i naciśnij Execute

Techniki molekularne ćw. 5 10 z 13 Przeszukujemy bazę nukleotydów GenBank programem Megablast, który (stosunkowo) szybko wyszukuje sekwencje o wysokim podobieństwie NGS Mapping->MEGABLAST Oraz wybieramy bazę nt i opcje jak na obrazu poniżej Procedura może chwilę potrwać Filtrowanie danych Chcemy uzyskać tabelę z długościami sekwencji Fasta manipulation -> compute sequence length Execute

Techniki molekularne ćw. 5 11 z 13 łączenie tabeli wynikowej Megablasta oraz tabeli z długościami sekwencji: Join, Subtract and Group->Join Two Queries filtrowanie: Filter and Sort -> Filter kolumna c5 długość wyrównania (alignment) kolumna c15 długość sekwencji

Techniki molekularne ćw. 5 12 z 13 chcemy żeby dopasowanie obejmowało przynajmniej połowę długości sekwencji: >= 0.5 Taksonomia DNA Metagenomic analyses -> Fetch taxonomic representation Przypisanie reprezentacji taksonomicznej Filtrowanie sekwencji unikatowych na określonym poziomie taksonomicznym Metagenomic analyses ->Find lowest diagnostics rank

Techniki molekularne ćw. 5 13 z 13 Podsumowanie danych Metagenomic analyses->summarize taxonomy Wszystkie kroki naszej analizy są zapisywane, możemy je odtworzyć, zapisać w pliku, wykonać ponownie, przesłać komuś jako Workflow: History->Options->Extract Workflow