Bioinformatyka Program UGENE www.michalbereta.pl UGENE jest darmowym programem do zadań bioinformatycznych. Można go pobrać ze strony http://ugene.net/. 1
1. Wczytanie rekordu z bazy ENA do programu UGENE Ze strony europejskiego archiwum sekwencji nukleotydowych http://www.ebi.ac.uk/ena/ pobierz plik z rekordem BN000065 w formacie tekstowym. Uruchom program UGENE i stwórz nowy projekt. Przeciągnij i upuść na obszar programu plik z rekordem. Wskaż odpowiedni format danych: 2
Program UGENE zaimportuje i wyświetli nie tylko sekwencję, ale również wszystkie meta-dane: Zwróć uwagę, że oprócz oryginalnej sekwencji UGENE wyświetla również nić komplementarną oraz możliwe translacje sekwencji nukleotydów na sekwencje aminokwasów (dlaczego jest ich sześć?). Funkcje te można wyłączyć: Pozostaje jedynie oryginalna sekwencja: 3
Dodatkowe (poza sekwencją) dane zawarte w rekordzie są w większości prezentowane pod postacią adnotacji: Po zaznaczeniu odpowiedniej adnotacji UGENE automatycznie przenosi nas w odpowiednie miejsce w sekwencji: 4
Krótkie podsumowanie sekwencji można znaleźć po prawej stronie okna: 5
2. Proste wyszukiwanie wzorców w sekwencji Po prawej stronie okna sekwencji znaleźć można szybkie menu służące prostemu wyszukiwaniu (warto nadawać swoje nazwy kolejnym wyszukiwaniom), przykładowo: Szukanie w oryginalnej sekwencji Nadaj swoje nazwy w celu łatwiejszej nawigacji w wynikach Wyszukaj 6
Jak widać poniżej, zadany wzorzec występuje dość często w tej sekwencji: Zwróć uwagę, że poniższe opcje pozwalają dokładniej określić rodzaj i zakres wyszukiwania: 7
3. Wyszukiwanie powtarzających się wzorców w sekwencji Wybierz menu Actions->Analyze->Find Repeats. Spróbujmy wyszukać wszystkie powtarzające się wzorce zgodnie z ustawieniami: Wyniki (odczytaj ile powtórzeń znaleziono, jaka jest odległość pomiędzy pierwszym a drugim wystąpieniem danego wzorca, jaka jest długość danego wzorca): 8
Można skopiować zaznaczony fragment sekwencji: PPM Po Ctrl+V (długość 33): GAGGCCGAGGCGGGCGGATCACGAGGTCAGGAG 9
Zdanie 1 1. Ile jest powtórzeń o długości co najmniej 50 sekwencji z rekordu BN000065? 2. Jaka jest ich długość? 3. Skopiuj najdłuższy powtarzający się wzorzec. a. Jaka jest długość tego wzorca? b. Na jakiej pozycji zaczyna się pierwsze wystąpienie tego wzorca, a na jakiej drugie? c. W jakiej odległości występują powtórzenia tego wzorca? 10
Zdanie 2 Pobierz rekord BN000065 z bazy gen bank i wczytaj go do UGene. Pobrany plik (np. sequence.gb ) ma rozszerzenie.gb i powinien być automatycznie otworzony przez UGene. Alternatywnie, można również skorzystać z wbudowanej funkcji UGene: W wyniku, rekord zostanie pobrany i wczytany do UGene: 11
Zadanie 3 Stwórz plik tekstowy z rozszerzeniem.fasta i zapisz w nim losowo wygenerowaną sekwencję razem z nagłówkiem fasta zawierającym krótki opis. Przykładowo: Jeśli system automatycznie dodał rozszerzenie.txt, usuń je. usuń 12
Otwórz plik do edycji w dowolnym edytorze, np. Notepad++ Wpisz nagłówek formatu fasta zaczynający się od > a w drugiej linijce wklej sekwencję (wygeneruj ją za pomocą programu Sekwencja.exe ze strony przedmiotu). Zapisz plik Otwórz utworzony plik fasta w UGene (podwójne kliknięcie w plik lub przeciągnij/upuść na obszar UGene). 13
Zaznacz fragment od pozycji 40 do pozycji 60 w sekwencji: Oznacz fragment dodając nową adnotację z własnym opisem (kliknij PPM na zaznaczonym fragmencie): 14
Wynik: 15
Zadanie 4 W jednym pliku może być większa liczba sekwencji. Stwórz plik.fasta z trzema losowymi sekwencjami (długości kolejno 100, 200 oraz 500), każda z własnym nagłówkiem. Wczytaj plik do UGene. Podpowiedź: Po przeciągnięciu na obszar UGene, zdecyduj jak mają być potraktowane sekwencje z pliku w tym przypadku wczytaj je jako osobne sekwencje. 16
Wynik wczytane trzy sekwencje: Sprawdź efekty działania opcji wyświetlania i opanuj nawigację w obrębie każdej sekwencji. Wypróbuj opcję zoom. 17
Zadanie 5 Wygeneruj losową sekwencję o długości 500 000, zapisz do pliku fasta a następnie wczytaj do UGene. Jakie najdłuższe powtórzenie wzorca można w niej znaleźć? Porównaj tę długość z wcześniejszym przykładem dla sekwencji z rekordu BN000065. Skopiuj znaleziony najdłuższy wzorzec do nowego pliku fasta. Przykładowy wynik: Podpowiedź: zacznij od wysokich wymagań odnośnie minimalnej długości wzorca, następnie jeśli nic nie zostanie znalezione, obniż te wymagania. 18