Bazy i modele danych

Podobne dokumenty
Biologiczne bazy i modele danych

Bioinformatyka. Michał Bereta

Bioinformatyka. Michał Bereta

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

BIOLOGICZNE BAZY DANYCH SYLABUS

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Podstawy bioinformatyki - biologiczne bazy danych

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Nowoczesne systemy ekspresji genów

PODSTAWY BIOINFORMATYKI

Kontakt.

ISBN

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Od jakiego pułapu startujemy? matematyka

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

BIOINFORMATYKA. edycja wykład 2 BAZY DANYCH. dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

Politechnika Wrocławska. BIOINFORMATYKA i BIOLOGIA OBLICZENIOWA

Bioinformatyka. Rodzaje Mutacji

Bioinformatyka. z sylabusu...

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Historia Bioinformatyki

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Bazy danych i biologia

Wprowadzenie do bioinformatyki

Informatyka w medycynie Punkt widzenia kardiologa

Porównywanie i dopasowywanie sekwencji

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2010/2011. Krzysztof Pawłowski

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Bioinformatyka. Michał Przyłuski

Zaoczne Liceum Ogólnokształcące Pegaz

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Geny i działania na nich

Generator testów Bioinformatyka wer / 0 Strona: 1

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Wybrane techniki badania białek -proteomika funkcjonalna

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Bioinformatyka Laboratorium, 30h. Michał Bereta

Rok akademicki: 2014/2015 Kod: EIB BN-s Punkty ECTS: 3. Kierunek: Inżynieria Biomedyczna Specjalność: Bionanotechnologie

przedmiotu Nazwa Wydział Nauk Medycznych i Nauk o Zdrowiu Kierunek jednolite studia magisterskie Profil kształcenia (studiów)

Budowa kwasów nukleinowych

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

KARTA PRZEDMIOTU. (pieczęć wydziału)

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Bioinformatyka. Krzysztof Pawłowski. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2012 / 2013

ZASTOSOWANIA FIZYKI W BIOLOGII I MEDYCYNIE Specjalność: Projektowanie molekularne i bioinformatyka. 2-letnie studia II stopnia (magisterskie)

Scenariusz lekcji biologii z wykorzystaniem metody CILIL Lekcja dla klasy IV technikum o rozszerzonym zakresie kształcenia

BIOTECHNOLOGIA MEDYCZNA

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Bioinformatyka Laboratorium, 30h. Michał Bereta

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Techniki biologii molekularnej Kod przedmiotu

PLAN STUDIÓW PODYPLOMOWYCH: GENETYKA SĄDOWA W ROKU 2019/2020. Nazwa modułu ECTS Semestr I Semestr II Liczba godzin z. teoretyczne

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Uchwała nr 85/2017 z dnia 30 maja 2017 r. Senatu Uniwersytetu Medycznego w Łodzi

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

PROGRAM RETROKONWERSJI ZDALNEJ

Bioinformatyka. Formaty danych - GenBank

WPROWADZENIE DO BAZ DANYCH

Przybliżone algorytmy analizy ekspresji genów.

BAZY DANYCH. Co to jest baza danych. Przykłady baz danych. Z czego składa się baza danych. Rodzaje baz danych

UCHWAŁA Nr 31/2014 Senatu Uniwersytetu Wrocławskiego z dnia 26 marca 2014 r.

PLAN REALIZACJI MATERIAŁU NAUCZANIA Z INFORMATYKI II. Uczeń umie: Świadomie stosować się do zasad regulaminów (P).

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

Porównywanie i dopasowywanie sekwencji

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU

Każdy system GIS składa się z: - danych - sprzętu komputerowego - oprogramowania - twórców i użytkowników

Rozkład materiału z biologii dla klasy III AD. 7 godz / tyg rok szkolny 2016/17

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Wymagania edukacyjne

WIEDZA. wskazuje lokalizacje przebiegu procesów komórkowych

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Wybrane techniki badania białek -proteomika funkcjonalna

Transkrypt:

Bazy i modele danych

Przełom XX i XXI wieku to okres dynamicznego rozwoju programów sekwencjonowania genomów: 1995 genom Haemophilus influenzae 1997 genom E. coli 1997 genom drożdży S. cerevisiae 1998 genom nicienia Caenorhabditis elegans 1999 genom Muszki owocowej 2000 genom rzodkiewnika A. thaliana 2001 genom człowieka 2005 genom szympansa 2007 pierwszy indywidualny genom człowieka i wiele innych..

Nadeszła era METAGENOMIKI, która zajmuje się uzyskiwaniem i analizą sekwencji genomowych całych populacji a nie pojedynczych organizmów

Bioinformatyka (ang. bioinformatics, biocomputing) Termin "bioinformatyka" po raz pierwszy pojawił się w 1989 roku Bioinformatyka jest nauką interdyscyplinarną, która integruje: biologię molekularną, informatykę, matematykę, genetykę, genomikę oraz biochemię Bioinformatyka rozwiązuje problemy nagromadzone w wyniku intensywnego rozwoju nauk przyrodniczych przy użyciu metodologii nauk informatycznych: używa metod komputerowych w celu uzyskania odpowiedzi na pytania biologiczne Oxford English Dictionary definiuje bioinformatykę jako: " Naukę zbierania i analizowania złożonych biologicznych danych takich jak kod genetyczny".

Bioinformatyka Podstawowym zadaniem bioinformatyki jest rozpoznawanie in silico reguł kierujących zarządzaniem informacją genetyczną przez komórkę dzięki wzorom obserwowanym w ogromie danych sekwencyjnych przetwarzanie surowych danych o sekwencjach, tworzenie baz danych i zarządzanie bazami danych poszukiwanie, analiza i interpretacja informacji z biologicznych baz danych (analiza sekwencji DNA i białek) tworzenie nowych algorytmów i metod statystycznych do analizy danych biologicznych: struktury, funkcji, ewolucji genów, białek i całych genomów symulacje komputerowe w biochemii i biologii molekularnej inne techniki informatyczne związane z naukami biologicznymi

Po co tworzyć biologiczne bazy danych? Napływ danych wymusił rozwój metod analizy gromadzonych danych w celu ich klasyfikacji, a tym samym katalogowanie rodzin białek i charakteryzowanie związków funkcyjnych między nimi obecne kluczowe zjawisko w procesie opisywania nowo poznanych genomów analizy porównawcze Przedstawianie danych sekwencyjnych w szerszym biomedycznym kontekście który z kolei prowadzi do integracji danych z zakresu biologii molekularnej z innymi dziedzinami (bazami): biologią komórki, metabolomiką, medycyną itd.

Kiedy powstały pierwsze biologiczne bazy danych? Historycznie bazy danych nukleotydowe są młodsze niż bazy danych sekwencji białkowych 1965 Dayhoff i wsp. Opublikowali Atlas of Protein Sequences and Structures, w którym zawarli wszystkie znane wtedy sekwencje białkowe (pojemność 1 dyskietki) 1980 roku ukazała się baza danych EMBL, potem pojawił się GenBank (1982) a następnie DDBJ.

Ile jest baz danych (2012): 1380 publicznych baz danych tj. dostępnych on line

Ile jest baz danych (2013): 1512 w samym tylko 2012 przybyło 132 nowych dostępnych on line

Ile jest baz danych (2014): 1552

Ile jest baz danych (2015): 1552 + 56 nowych związanych z biologią molekularną

Ile jest baz danych (2016): 54 nowych związanych z biologią molekularną

Bazy danych stają się wysoce specjalistyczne: odziaływania typu białko-białko niekodujące RNA, microrna oraz ich docelowe miejsca działania w komórkach, geny związane z chorobami

Podział baz danych przyrodniczych i biomedycznych

Niesekwencyjne bazy danych Bibliograficzne bazy danych

Kliniczne bazy danych

Metabazy: kojarzą ze sobą rekordy z wielu typów baz The National Center for Biotechnology Information (NCBI)

Czym jest GenBank? GenBank jest powszechnie dostępną, internetową sekwencyjną bazą danych, zawierającą sekwencje nukloetydowe, zarządzaną przez National Center for Biotechnology Information (NCBI) w USA. Jest częścią przedsięwzięcia jakim jest międzynarodowa współpraca w tworzeniu bazy danych zawierającej sekwencje nukleotydowe (International Nucleotide Sequence Database Collaboration - INSDC). W ramach tej współpracy trzy instytucje: DNA DataBank of Japan (DDBJ), European Molecular Biology Laboratory (EMBL) oraz GenBank codziennie wymieniają i uzupełniają własne zasoby zgromadzonych sekwencji nukleotydowych poszczególnych genów

Dane wymieniane codziennie pomiędzy trzema współpracującymi bazami sekwencji nukleotydowch : GenBank, DNA Database of Japan (DDBJ), European Molecular Biology Laboratory Database (EMBL) NIH Wprowadzanie Aktualizacja CIB NCBI Entrez GenBank EMBL DDBJ EBI Aktualizacja Wprowadzanie NIG getentry Wprowadzanie Aktualizacja SRS EMBL

GenBank jest tzw. pierwotną bazą danych Sekwencyjne bazy danych-podział 1. Pierwotne Bazy Danych - Primary Databases (bezpośrednie wyniki eksperymentów, z nielicznymi interpretacjami dane pozornie nieuporządkowane - dość powierzchowne Bezpośrednie wprowadzanie pojedynczych rekordów - Oryginalne wprowadzenia - submissions (BankIt, Sequin) Surowe dane sekwencyjne pochodzące z Centrów Genomowych Obsługa bazy organizuje, ale nie dodaje dodatkowych informacji 2. Pochodne (wtórne) bazy danych - Derivative Databases (uporządkowane zbiory danych) integracja danych z wielu pierwotnych baz nadaje im dodatkowe ważne informacje Nadzorowane przez ludzi Składanie, dodawanie i korekta danych z baz pierwotnych Np.: SWISS-PROT, PIR, NCBI RefSeq, mrna, bazy danych rodzin białkowych Pochodne komputerowe Np.: UniGene Łączone Np.: NCBI Genome Assembly

Struktura rekordów w bazach danych Jest ściśle określona dla poszczególnych baz danych Musi być w formacie czytelnym dla człowieka i komputera Zawiera absolutnie unikalny element, które precyzyjnie określa dany rekord kod (numer) dostępu Rekordy w bazach danych są tworzone w oparciu o obowiązujący w danej bazie model danych

Model danych NCBI: Rekord bazy GenBank jest rekordem opartym na DNA Pozostałe dane tego modelu tj. translacja regionu kodującego w DNA (o ile występuje) sekwencja białka, cytowania bibliograficzne, struktury trójwymiarowe białka, powiązania taksonomiczne oraz ewentualne powiązania do map genomów stanowią element dodatkowy, który jak najpełniej stara się opisać sekwencję DNA Korzyści takiego modelu danych: Możliwość integracji programów do przeszukiwania baz danych i samych baz danych Możliwość wygodnego śledzenia informacji od sekwencji DNA, jej lokalizacji na mapie chromosomowej do kodowanego białka, jego trójwymiarowego obrazu oraz opublikowanej na dany temat literatur Powiązania plików (białko, cytowanie, struktura) z sekwencją DNA wzbogaca model danych i ułatwia potencjalne nowe odkrycia Łatwość rozszerzania modelu o kolejne powiązania w miarę ich powstawania bez konieczności nieustannej konwersji formatów

Rekord GenBank

Rekord GenBanku Podstawową jednostką informacji bazy danych GenBank jest GBFF (GenBank Flat File) GBBF składa się z 3 podstawowych części: LOCUS AF062069 3808 bp mrna INV 02-MAR-2000 DEFINITION Limulus polyphemus myosin III mrna, complete cds. ACCESSION AF062069 VERSION AF062069.2 GI:7144484 KEYWORDS. SOURCE Atlantic horseshoe crab. ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In press REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700. 1. Nagłówek

Rekord GenBanku, cd. FEATURES Location/Qualifiers source 1..3808 /organism="limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS 258..3302 /note="n-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="aac16332.2" /db_xref="gi:7144485" /translation="meykcisehlpfetlpdpgdrfevqelvgtgtyatvysaidkqa NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ BASE COUNT 1201 a 689 c 782 g 1136 t ORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 2. Tabela cech 3. Sekwencja // 3781 aagatacagt aactagggaa aaaaaaaa GBFF jest formą w jakiej wymieniane są dane pomiędzy GenBank, EMBL, DDBJ

Struktura rekordu w GenBanku 1. Nagłówek: część rekordu charakterystyczna dla bazy danych Pierwszy wiersz nagłówka we wszystkich GBFF to wiersz LOCUS Nazwa Locus (dawniej oznaczała faktyczną nazwę locus którego dotyczył np. HUMBG) GB Division (dawniej miało znaczenie taksonomiczne) LOCUS AF062069 3808 bp mrna INV 02-MAR-2000 Długość sekwencji Typ cząsteczki mrna (= cdna) rrna snrna DNA Data wprowadzenia lub modyfikacji

Nagłówek c.d. DEFINITION Limulus polyphemus myosin III mrna, complete cds. wiersz definicji - tytuł podsumowuje informację biologiczną rekordu ACCESSION AF062069 Accession Number (kod dostępu) Zapisywany jako 1+5 albo 2+6 VERSION AF062069.2 GI:7144484 Wersja Accession, Historia aktualizacji Numer gi (kolejny numer rekordu w bazie danych) (znika z rekordów od 09-2016)

Nagłówek c.d. Słowa Kluczowe Nazwa zwyczajowa Nazwa gatunkowa KEYWORDS. SOURCE Atlantic horseshoe crab. ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. Powiązania taxonomiczne według GenBanku

Nagłówek c.d. Odnośniki literaturowe REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In press REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.

2. Tabela Cech środkowy segment GBFF Cecha: źródło biologiczne -pochodzenie materiału genetycznego, Cecha: sekwencja kodująca białko (jeśli DNA koduje białko) FEATURES Location/Qualifiers source 1..3808 /organism="limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS 258..3302 /note="n-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="aac16332.2" /db_xref="gi:7144485" /translation="meykcisehlpfetlpdpgdrfevqelvgtgtyatvysaidk NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL " Jeśli DNA koduje białko pojawiają się dodatkowe informacje tzw. kwalifikatory -rodzaj kodu genetycznego -faza (ramka )odczytu kodonów odnośniki krzyżowe do bazy danych sekwencji białkowych

3. Sekwencja Statystyka składu sekwencji nt Początek podawania sekwencji BASE COUNT 1201 a 689 c 782 g 1136 t ORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt <opuszczona sekwencja> 3721 accaatgtta taatatgaaa tgaaataaag cagtcatggt agcagtggct gtttgaaata 3781 aagatacagt aactagggaa aaaaaaaa // Znak: koniec rekordu

Format EMBL Numer dostępu OPIS

Odnośniki literaturowe Tabela cech: Nazwa organizmu, taksonomia, ramka odczytu itp. Odsyłacze (odnośniki krzyżowe) do rekordów innych baz powiązanych z tą sekwencją

Format Fasta maksymalnie uproszczona wersja rekordu Numer w bazie Identyfikator bazy danych: gb oznacza Opis rekordu i nazwa genu GenBank Kod dostępu >gi 205364858 gb DQ836933.2 Rhizobium leguminosarum bv. trifolii strain TA1 lipid A oxidase (lpxq) gene, complete cds AAAAGCCATATGCCGTCGAGGGCAAGGTCAGCTGCGGCACCAAATAGCGCCGCAGCCGAAATTTACTCTT ACCAGTGGAACGATACGCCGACGTTGACGGCATTCGTGAAGATGTTGGTCTTCAGGTCCACGCCGCTATC GATCGGAACGTCGATGCGCGAATAGGTGCCCTTGTATTCGACGAAGGTCGACCAGCGCTCGGTCACCTTG AAGTCGACGCCGGCCTGGGCCTGCAGCGTCACGCCGCCGAATTCATAAGCCCAGGTCTTGCCCTCAGGGC GAATCACTTCGACATGCGGAATGTTCACGCCGATGCCGGCGCCGAGATAGGGCGTCCAGCGGCGGGTCGG ATCCTGGAAGCGATAGAGACCGTTCACCGTGATGAGGTTCAGGCCGTCGGTGAATTCGAAATGCGACCAG CCGGTCTTGGCCAGCGTATCGTCGTCGGCATAGACCTTGTCATGGGTATAATCGAGCGAGATACCCCAGT TCGGTTTGTTGAAGTTCTCGAGCCACCAGGTGACGCGGCCGCCGTAATAAGGCGGGCTGCCGAAGGACTT GCCTTCCCAGCCGGCGGTGAAATGCGTGCCGTCGGAGAGATCGACGCCGCTGTGTGGTGCGGTCTGATAG CCGCCGTAGACGGAGAATTGCAGATCTTCCGCCGAGGCGGAAGCTGCCGAACAGATGGTGAAAAACGCGA TGCCCGCAAGCAGTGAAGCGGAGGAACGCAGCGCATATGTCATTGAATAGCCCCGATATTGCAAATGTGT CGACTCTTAGGCAGGTTTGCCAGCTTTTGGCCGCAAAGTCTAAGCAAAACAAAAGGCGCGTCAAATGCGC