Przewidywanie genów i budowa białek

Podobne dokumenty
października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Statystyczna analiza danych

Budowa kwasów nukleinowych

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

TRANSKRYPCJA - I etap ekspresji genów

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

Translacja i proteom komórki

Wykład 14 Biosynteza białek

Pamiętając o komplementarności zasad azotowych, dopisz sekwencję nukleotydów brakującej nici DNA. A C C G T G C C A A T C G A...

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Bioinformatyka wykład 9

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Wprowadzenie. DNA i białka. W uproszczeniu: program działania żywego organizmu zapisany jest w nici DNA i wykonuje się na maszynie białkowej.

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Geny i działania na nich

Informacje dotyczące pracy kontrolnej

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU Transkrypcja RNA

Gry hazardowe, gry ewolucyjne, ekspresja genów, tak czy owak łańcuchy Markowa

Wykorzystanie bazy Cambridge Structural Database w poszukiwaniu substancji hamujących aktywność enzymatyczną

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

etyloamina Aminy mają właściwości zasadowe i w roztworach kwaśnych tworzą jon alkinowy

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Matematyk Ci powie, co łączy Eugeniusza Oniegina i gry hazardowe

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Klonowanie molekularne Kurs doskonalący. Zakład Geriatrii i Gerontologii CMKP

13. Równania różniczkowe - portrety fazowe

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

CORAZ BLIŻEJ ISTOTY ŻYCIA WERSJA A. imię i nazwisko :. klasa :.. ilość punktów :.

Generator testów Biochemia wer / Strona: 1

Materiały dla finalistów

Przyrównywanie sekwencji

Gry hazardowe, gry ewolucyjne, ekspresja genów, tak czy owak łańcuchy Markowa

Wybrane techniki badania białek -proteomika funkcjonalna

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Generator testów bioinformatyka wer / Strona: 1

Scenariusz lekcji biologii z wykorzystaniem metody CILIL Lekcja dla klasy IV technikum o rozszerzonym zakresie kształcenia

Przybliżone algorytmy analizy ekspresji genów.

Zasady oceniania rozwiązań zadań 48 Olimpiada Biologiczna Etap centralny

Bioinformatyka. Program UGENE

Porównywanie i dopasowywanie sekwencji

Bioinformatyka II Modelowanie struktury białek

Spacery losowe generowanie realizacji procesu losowego

Ćwiczenia: Ukryte procesy Markowa lista 1 kierunek: matematyka, specjalność: analiza danych i modelowanie, studia II

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Bioinformatyka II Modelowanie struktury białek

Modelowanie motywów łańcuchami Markowa wyższego rzędu

1. Na podanej sekwencji przeprowadź proces replikacji, oraz do obu nici proces transkrypcji i translacji, podaj zapis antykodonów.

Scenariusz lekcji przyrody/biologii (2 jednostki lekcyjne)

Budowa i rola DNA. 1. Cele lekcji. a) Wiadomości. b) Umiejętności. 2. Metoda i forma pracy. 3. Środki dydaktyczne. Metadane scenariusza

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Statystyka Matematyczna Anna Janicka

Pomorski Czarodziej 2016 Zadania. Kategoria C

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

Chemiczne składniki komórek

Nośnikiem informacji genetycznej są bardzo długie cząsteczki DNA, w których jest ona zakodowana w liniowej sekwencji nukleotydów A, T, G i C

Nowoczesne systemy ekspresji genów

Prawdopodobieństwo warunkowe Twierdzenie o prawdopodobieństwie całkowitym

Jajko czy kura? czyli gdzie dwóch się bije, tam trzeci korzysta

Wybrane techniki badania białek -proteomika funkcjonalna

Algorytmika dla bioinformatyki

OPTYKA KWANTOWA Wykład dla 5. roku Fizyki

Bioinformatyka wykład 8

Urządzenia Techniki. Klasa I TI. System dwójkowy (binarny) -> BIN. Przykład zamiany liczby dziesiętnej na binarną (DEC -> BIN):

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

Program EWIDENCJA ODZIEŻY ROBOCZEJ INSTRUKCJA UŻYTKOWNIKA Przejdź do strony producenta programu

Rachunek prawdopodobieństwa Rozdział 3. Prawdopodobieństwo warunkowe i niezależność zdarzeń.

Deska Galtona. Adam Osękowski. Instytut Matematyki, Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Prawdopodobieństwo geometryczne

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

EGZAMIN MATURALNY Z INFORMATYKI

5.4. Tworzymy formularze

Klasyfikacja metodą Bayesa

Tworzenie prezentacji w MS PowerPoint

Rachunek prawdopodobieństwa

Substancje o Znaczeniu Biologicznym

Program EWIDENCJA ODZIEŻY ROBOCZEJ INSTRUKCJA UŻYTKOWNIKA Przejdź do strony producenta programu

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Materiały pochodzą z Platformy Edukacyjnej Portalu

Przegląd budowy i funkcji białek

Making the impossible possible: the metamorphosis of Polish Biology Olympiad

Zmienne losowe i ich rozkłady

zdarzenie losowe - zdarzenie którego przebiegu czy wyniku nie da się przewidzieć na pewno.

Wykład 1. Od atomów do komórek

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Wskaźniki a tablice Wskaźniki i tablice są ze sobą w języku C++ ściśle związane. Aby się o tym przekonać wykonajmy cwiczenie.

Numer pytania Numer pytania

= A. A - liczba elementów zbioru A. Lucjan Kowalski

Konkurs szkolny Mistrz genetyki etap II

Zarówno u organizmów eukariotycznych, jak i prokariotycznych proces replikacji ma charakter semikonserwatywny.

Ekspresja informacji genetycznej

Transkrypt:

Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański Przewidywanie genów i budowa białek Pytanie na dzisiaj: Jak odnaleźć gen w sekwencji DNA? CTTACTTCGAAGGCTGTGCTCCGCTCACCATCCAGAGCGGAGGTGCGGACCTTAAACTCACTCCTGGAGA AAGATCTGCAAGTGCGCAGGTAAAGTGCACGTGCTCCGCGGTCGGGAGGAAGGAGGCGAGGAGCCAGACT AGCCTGGGAACAGGCAGGGAGGGTTTACACAGCCCCGGCTGAGTCGCGGCTTAGGAAGCAAGGCAAGTTC CCCTAAAGGTTAGTGTGCACAGACGGGTGCGACGGAGCCGACCTAGCGCGGCTGAGTCCGCCTGGGCCTG CAGCAGCTGCCCCCTGAGCACCCCCTCCGGCTCTCTGCCAGGCGACCCAGGAAAAAGTCGCCCCCTGGTG GGCCATGAGGTCATGGGTGGGGGGAGTTTGGAAAGGTTCAGACAGCAAATGTTCCACTTGAACTCCAGGG CAGCATCTGGCACTGCGGGGCCTCCTAGCCATGAGCCGTGGTCAGGCGTTTCCTTAGAATGGAATGCACT GGAGTGAAAACACTAAATCCCTCAAAGCTGCTTCTCTTTACTGTGGTCACACACAGTGAAATCAATGGGC ATTAGTGCAGCTAGCTCTTTTCAAGGACACAATGTTAAGCACAGGAAGCCTGGTATGTGGACGCTCTGGG TTTGCAGAACCAGGCAGGGGCCAGGGGCTCAGGACAAGTGCCCGGTGCTCCCTTCCCATTGGGCGAATCA GAGCCTGGGGCCCGGCGGTGAAGCTCCCCAGGTGACTCTAATGTGCAGTGCACTTTGAGGAGCACTACTT AGACCAATGTGACAGTCTACAATGTGTAGATTTAGGGTGAGTGATTCTGAGGAAAAGAAACCCGAGGCTG TTAGCAGTTGTGGGCAGCTGCTGTCTACCTAAACCAGCTGCGGTTTGCTTGCTTGGTGAGCCTGAGCTTC GCGGGGCGGGCATGGCATCTGCCATCCAGGACCCTGGGACGGGGCCTGCCAGGGCAAGGAGCTGAGCATT GAACGCATCTGGGGATAACTATCTCTCATAGAAGAACTAATGAGGATTGAACCTGAACACAGAGATGAAA GAGCTGAGTAGACTGCAAAGAATTGCACAAAAACTGCTTGTTCTGCAAATTTAGTTTACAACAATTTGAG 1. Budowa genu eukariotycznego Rysunek 1: Budowa genu eukariotycznego i procesy, którym gen zostaje poddany aby został przetłumaczony na białko. Gen to pewien ciągły fragment DNA, który koduje białko. Okazuje się, że u organizmów eukariotycznych (czyli takich, których komórki posiadają jądro w którym zawarte jest DNA) 1

budowa genu jest istotnie bardziej skomplikowana niż u prokariontów (organizmów bez jądra komórkowego, np. bakterii). Skupimy się teraz na budowie genu eukariotycznego. Zwykle gen jest poprzedzony fragmentem DNA zwanym promotorem, który jest rozpoznawany przez maszynerię komórkową. Przyłącza się ona do tego fragmentu i rozpoczyna transkrypcję czyli przepisywanie DNA na mrna. Od charakterystyki promotora zależy regulacja takiego genu, czyli w uproszczeniu jak dużo białka na podstawie tego genu powstaje w danej chwili w komórce. Sama sekwencja genu jest podzielona na fragmenty dwóch typów: eksony i introny. Jak widać na powyższym rysunku zarówno eksony jak i introny są początkowo przepisywane na RNA, jest to tzw. pre-mrna. Następnie z tego łańcucha usuwane są fragmenty intronów i w dojrzałym mrna zostaje tylko sekwencja pochodząca z eksonów. Proces ten określa się jako splicing. Rysunek 2: Przykład splicingu alternatywnego. Możliwa jest sytuacja w której eksony składane są w innej kolejności niż było to określone w wyjściowej sekwencji DNA, bądź niektóre zostają pominięte. Taki proces nazywamy splicingiem alternatywnym. Dzięki niemu z jednego genu może powstać dużo wariantów białek. Kiedyś oceniano, że jest to proces stosunkowo rzadki, teraz wiadomo, że alternatywnemu splicingowi ulega ok 95% genów u człowieka. U prokariontów czyli np. bakterii sytuacja jest łatwiejsza - introny nie występują. Jeszcze jednym istotnym pojęciem związanym z sekwencją genu jest tzw. otwarta ramka odczytu (ORF - open reading frame). Jest to każda sekwencja zawarta pomiędzy kodonem start a kodonem stop w danej ramce odczytu. Może ona potencjalnie kodować białko. 2

2. Metody przewidywań oparte na charakterystycznych elementach sekwencji i statystyce Pierwszym intuicyjnym podejściem dla wyszukania sekwencji genu, będzie odszukanie ORF we wszystkich ramkach odczytu (zwróć uwagę, że ORF mogą się nakładać). Możemy się spodziewać, że w losowej sekwencji raz na około 21 kodonów otrzymamy kodon STOP (dlaczego?). Geny mają zwykle dłuższą sekwencję niż losowo napotkane ORF. Naiwne podejście zakłada, że tam gdzie mamy odpowiednio długą ORF, możemy spodziewać się genu. Rysunek 3: Sekwencja i kodowane aminokwasy w 6 ramkach odczytu. Z Introduction to Bioinformatics Algorithms, Pevzner, MIT Press 2004 W określeniu czy dana ORF jest sekwencją genu może pomóc tzw. codon usage. Jak pamiętamy, większość aminokwasów jest kodowana przez więcej niż jeden kodon, co wynika ze zdegenerowania kodu genetycznego. Okazuje się, że częstość pojawiania się danego kodonu dla danego aminokwasu jest znacząco różna w rejonach kodujących i niekodujących. Na podstawie zebranych danych można stworzyć tabele codon usage, określające częstości danych kodonów dla aminokwasów w sekwencjach kodujących i niekodujących. Rysunek 4: Tabela codon usage dla regionów kodujących u człowieka. Z Introduction to Bioinformtics Algorithms, Pevzner, MIT Press 2004 3

Następnie, używając prawdopodobieństw pojawienia się danego kodonu dla aminokwasu z tabeli codon usage, można obliczyć stosunek prawdopodobieństw warunkowych dla sekwencji s: P( s s jest kodujaca) P( s s jest niekodujaca) Istnieje jeszcze wiele dodatkowych charakterystycznych elementów sekwencji genowej używanych do predykcji genów. Najważniejszymi z nich są tzw. wyspy CpG oraz miejsca początku i końca intronów. Wyspy CpG to dość długie fragmenty sekwencji (>200 bp) o znacząco wyższej częstości występowania nukleotydów C i G (>50%), zwykle wyspy te występują w promotorach genów. Miejsca początku i końca intronów mają najczęściej ściśle konserwatywny dinukleotyd odpowiednio GT i AG. Rysunek 5: Sygnały w sekwencji genu. Z Computational Biology: Genomes, Networks, Evolution MIT OpenCourseWare Oprócz tego istnieje oddzielna gałąź metod przewidywania genów oparta na podobieństwach sekwencji do już znanych genów (comparative gene prediction). Jest to wartościowa metoda, jeśli mamy blisko spokrewniony organizm z opisanymi sekwencjami genów, których możemy użyć do porównania. Metoda ta ma oczywiście pewne ograniczenia, nie znajdzie nam sekwencji genu, który nie wykazuje istotnego podobieństwa do tych już znanych. 3. Hidden Markov Models (HMM) dla przewidywania genów Ukryte modele Markowa są modelami probabilistycznymi używanymi w wielu dziedzinach. Używa się ich np. do rozpoznawania mowy bądź pisma ręcznego. W bioinformatyce najbardziej znanym ich zastosowaniem jest właśnie przewidywanie genów. HMM zalicza się do modeli uczenia maszynowego (machine learning) tzn. że model początkowo uczy się charakterystycznych zależności na przedstawionych mu przykładach, a następnie sam powinien być w stanie podjąć decyzję co do nowo przedstawionego przykładu, bazując na wcześniej zdobytej wiedzy. Jako wprowadzenie do HMM rozważmy pewien przykład nazywany Fair Bet Casino. Otóż mamy następującą sytuację: Wyobraźmy sobie, że znajdujemy się w kasynie i gramy w 4

następującą grę: krupier rzuca monetą, a my stawiamy pieniądze na to czy wypadnie orzeł czy reszka. Ponieważ w kasynie oszukują krupier może rzucać także monetą oszukaną, której prawdopodobieństwo rzucenia reszki wynosi ¾. Krupier podmienia monety, ale niezbyt często, bo boi się, że ktoś to zauważy, załóżmy, że podmienia monety z prawdopodobieństwem 0.1. Obserwując wyniki kolejnych rzutów chcemy wiedzieć czy krupier rzuca monetą dobrą czy oszukaną, co pozwoli nam zwiększyć szansę na wygranie pieniędzy. Jeśli zaobserwujemy, że cały czas wypada reszka, możemy twierdzić, że rzucana jest moneta fałszywa, ale może również to być też oczywiście przypadek dla monety dobrej, jednak interesują nas rozwiązania najbardziej prawdopodobne. Rozważmy najpierw sytuację w której krupier nigdy nie zmienia monety. Oznaczmy typy monet: F -fair, dobra moneta, B -biased, fałszywa moneta. Wtedy dla sekwencji wyników kolejnych rzutów oznaczonej przez: x = (x,; x 2, x 3,..., x n ), możemy obliczyć prawdopodobieństwo pod warunkiem, że sekwencja została wyrzucona dobrą monetą: oraz prawdopodobieństwo pod warunkiem, że sekwencja została wyrzucona fałszywą monetą gdzie k - liczba reszek. Teraz porównując prawdopodobieństwa, możemy określić czy bardziej prawdopodobne jest używanie monety dobrej czy fałszywej przy zadanej sekwencji. Okazuje się, że jeśli log 2 3 wtedy bardziej prawdopodobna jest moneta dobra. n k,, log 3 W przypadku kiedy krupier może zamieniać monety, dobrym modelem dla tej sytuacji będzie HMM. Ukryty model Markowa składa się z pewnych stanów między, którymi przemieszcza się z pewnymi prawdopodobieństwami. Oprócz tego w każdym stanie może wyemitować pewien symbol z zadanego alfabetu z pewnym prawdopodobieństwem. Dla naszego przykładu HMM będzie wyglądał następująco: 2 Rysunek 6: HMM dla problemu Fair Bet Casino. Oznaczenia: F-(fair) dobra moneta, B-(biased) fałszywa moneta, H - (head) reszka, T-(tails) orzeł. 5

W modelu mamy dwa stany oznaczone przez F i B oznaczające rzucanie danym typem monety. Rzucając monetą emitujemy pewne symbole - u nas H bądź T, czyli orzeł bądź reszka z pewnym prawdopodobieństwem w zależności od tego czy rzucamy dobrą czy fałszywą monetą. Monety czyli stany mogą się zmieniać z prawdopodobieństwem 0.1. Zauważmy, że obserwujemy tylko emitowane symbole, czyli wyniki rzutu monetą, natomiast nie wiemy jaki aktualny stan modelu, czyli czy krupier rzuca monetą dobrą czy fałszywą. Stąd nazwa Ukryty model Markowa, ponieważ stany są niewidoczne dla obserwatora. Celem obserwatora jest odnalezienie najbardziej prawdopodobnej ścieżki, czyli sekwencji stanów, która wyprodukowała daną sekwencję. Bardziej formalnie HMM M składa się z : - alfabetu emitowanych symboli - Q: zbioru stanów, z których każdy emituje symbol z alfabetu - A = a kl macierzy prawdopodobieństw przejść stanów rozmiaru Q j x Q j - E = e k (b) macierzy prawdopodobieństw emisji danego symbolu w danym stanie rozmiaru Q j x Q j Ścieżką π nazwiemy sekwencję stanów. Jak wyglądają poszczególne składniki dla wyżej opisanego problemu? Ogólnie, szukamy takiej ścieżki π, która maksymalizuje prawdopodobieństwo uzyskania danej sekwencji emitowanych symboli P(x π). Bardzo łatwo znaleźć analogię gry z monetą do problemu predykcji genów. Emitowanym symbolem będzie kolejny nukleotyd sekwencji, natomiast ukrytym stanem, który chcemy okryć, należenie danego nukleotydu do eksonu, intronu, sekwencji między genowej, itd. Rysunek 7: Prosty HMM dla predykcji genów. Z Computational Biology: Genomes, Networks, Evolution, MIT OpenCourseWare Wiele programów do predykcji genów bazuje na HMM-ach, wprowadzane są różne rozszerzenia tego modelu. W tych rozszerzonych modelach uwzględnia się również 6

charakterystykę częstości i sygnały, o których była mowa wcześniej. Jednym z najbardziej znanych programów przewidujących geny, nie opierającym się na podobieństwach do już znanych genów jest GENSCAN, opracowany na Uniwersytecie Stanford. GENSCAN jest narzędziem opierającym się na Ukrytym modelu Markowa, z tą różnicą, że w danym stanie możemy emitować więcej niż jeden nukleotyd. Emisja większej ilości nukleotydów jest kontrolowana przez z góry przyjęty model probabilistyczny dla każdego stanu. Jest to tzw. generalized HMM (GHMM). Rysunek 8: Model GHMM. Zadanie 1: Wykorzystaj program GENSCAN dla poszukiwania genów w zadanych fragmentach DNA (pliki gen1.txt i gen2.txt). 1. Przeszukaj sekwencje DNA z obydwu plików. W poszukiwaniu genów wykorzystaj program GENSCAN (genes.mit.edu/genscan.html): W kolumnach tabeli mamy informacje o znalezionych eksonach: Type - typ przewidzianego eksonu (Sigl - pojedynczy, Init - inicjujący, Term - ostatni, Intr - między innymi eksonami), może się zdażyć, że GENSCAN wykryje również inne elementy charakterystyczne jak Prom - promotor, Poly-A - fragment złożony z samych adenin w przepisanym na mrna genie, charakterystyczny przy końcu genu, tzw. ogon polya, S - strand - nić: +wiodąca, -komplementarna Begin End - początek i koniec exonu Length - długość exonu Fr - ramka odczytu P - probability - prawdopodobieństwo exonu Tscore - punktacja eksonu określona przez GENSCAN Obejrzyj wyniki. Znajdź eksony 3 różnych typów i zapisz współrzędne na których zostały odnalezione, nić i ramkę odczytu oraz ich prawdopodobieństwo. 2. Czy te sekwencje rzeczywiście zawierają geny? Odszukaj prawdziwie geny odpowiadające tym sekwencjom na NCBI, znajdź nazwy tych genów. Z czym związana jest ich funkcja? 7

3. Na stronie bazy GENE w sekcji Genomic regions, transcripts and products można obejrzeć strukturę eksonów w genie w oknie graficznym. Jeśli przejdziemy do formatu GenBank, znajdziemy dokładne współrzędne eksonów. 4. Sprawdź czy predykcja GENSCANA była prawidłowa, porównaj prawdziwe eksony z przewidywanymi dla obu genów. Warto przyglądać się tym przewidywanym eksonom, które mają wysokie prawdopodobieństwo (>0.8). 4. Białka Rysunek 9: Różne typy białek. Jak pamiętamy, białka są zbudowane z aminokwasów, których mamy 20 rodzajów oznaczanych przez litery alfabetu: A R N D C E Q G H I L K M F P S T W Y V. Proces budowy białka polega na sekwencyjnym dołączaniu kolejnych aminokwasów, które tworzą coś w rodzaju łańcucha. Na skutek oddziaływań fizycznych łańcuch aminokwasów zwija się i formuje strukturę przestrzenną białka. Sekwencja aminokwasów determinuje strukturę 3D białka, a co za tym idzie, jego funkcję. Białka są kluczowe dla działania naszego organizmu: - katalizują reakcje chemiczne - enzymy - odpowiadają za układ odpornościowy - regulują pracę organizmu (hormony, np. insulina) - są receptorami światła, neuroprzekaźników - pełnią funkcje transportowe - np. hemoglobina - budują mięśnie, ścięgna, włosy - itd... 8

Rysunek 10: Wiązanie peptydowe. Sekwencja aminokwasów nazywana jest strukturą pierwszorzędową białka. Łańcuch aminokwasów powstaje poprzez dołączanie kolejnych, określonych przez sekwencję genu aminokwasów. Pomiędzy aminokwasami wytwarza się tzw. wiązanie peptydowe. Do tej pory zajmowaliśmy się właśnie sekwencjami, natomiast teraz będziemy próbować analizować strukturę przestrzenną białek. Rysunek 11: Poziomy uporządkowania przestrzennego.. 9

5. Struktura drugorzędowa białek Struktura drugorzędowa białka to przypisanie określonym aminokwasom pewnych klas regularności przestrzennej, jest to poziom wyżej niż sekwencja, natomiast w dalszym ciągu nie wybiegamy za bardzo w przestrzeń gdyż możemy wprost przypisać strukturę drugorzędową do łańcucha aminokwasów. Upraszczając sytuację będziemy rozróżniać 3 podstawowe klasy struktur drugorzędowych: - α helisę (helix) - β arkusz (sheet) - dowolna inna struktura (random coil) Helisy i arkusze to struktury, które są stabilizowane specjalnym rodzajem wiązania wiązaniem wodorowym. Wspominałem już o nim przy okazji budowy helisy DNA, która również jest stabilizowana wiązaniem wodorowym. Jest to wiązanie dość słabe, ale jeśli wiązań jest odpowiednio dużo będą one dobrze stabilizować cząsteczkę. Wiązanie wodorowe polega na tym, że atom wodoru jest współdzielony przez dwa inne atomy, np. w podstawowym rodzaju helisy helisie α, atom wodoru z grupy N-H jest częściowo dzielony z grupą C=O. W arkuszu β sytuacja jest podobna. Rysunek 12: α helisa schemat. Rysunek 13: Arkusz β schemat. Rysunek 14: Kąty dwuścienne. 10

Do opisu struktury drugorzędowej przydają się kąty dwuścienne, które w strukturze białka będziemy określać jako φ - opisany przez atomy C'-N-C-C' ψ - opisany przez atomy N-C-C'-N gdzie C' to węgiel związany z tlenem, C to węgiel do którego przyłączona jest reszta aminokwasowa. Specyfika wiązania peptydowego powoduje, że w jego płaszczyźnie nie może dojść do obrotów, możemy to sobie wyobrazić, jakbyśmy mieli w tym miejscu pewne sztywne płytki, które można obracać tylko na wiązaniach przy węglu C. Rysunek 15: Kąty φ, ψ. Zadanie 2. Znajdź w bazie PDB stukturę 1ERA, jest to struktura erabutoksyny, bardzo silnej toksyny zawartej w jadzie węża koralowego. Uruchom wizualizację za pomocą appletu JSMol. - poobracaj i przybliż cząsteczkę - poeksperymentuj z menu po prawej stronie, które kontroluje wyświetlanie cząsteczki - wyświetl tylko łańcuch główny - zmierz kąty torsyjne (dihedrals) dla wybranego aminokwasu - zapisz obraz do pliku graficznego - wyświetl strukturę w trybie cartoon, jakie struktury drugorzędowe występują w tym białku Kąty fi i psi są bardzo ważne przy opisie struktury białka, dobrze widać to a wykresie nazywanym Mapą Ramachandrana, która pokazuje zależności tych kątów. Okazuje się, że tylko niektóre pary kątów są możliwe, położenie kątów na mapie świadczy o przybranej stukturze drugorzędowej. 11

Rysunek 8: Mapa Ramachandrana sporządzona na białkach o znanych strukturach. Zaznaczone obszary struktur i Zadanie 3. - wejdź do bazy struktur białkowych www.rcsb.org, w wyszukiwarce wpisz 1GZX, jest to symbol struktury hemoglobiny - jaka struktura drugorzędowa dominuje w tym białku? jak myślisz, jak wyglądałaby mapa Ramachandrana dla hemoglobiny? - wyświetl mapę Ramachandrana dla tej struktury, w tym celu wejdź na stronę http://www.fos.su.se/~pdbdna/input_raman.html i wpisz 1GZX w odpowiednie pole - czy wynik jest zgodny z twoimi przewidywaniami? - wejdź do bazy CATH, która klasyfikuje rodziny białkowe - www.cathdb.info, wybierz browse u dołu po lewej stronie - obejrzyj jak baza CATH dzieli białka ze względu na ich strukturę drugorzędową, wyszukaj jakieś białko, które posiada dużo arkuszy β w swojej strukturze, obejrzyj je w PDB - wyświetl dla niego mapę Ramachandrana jak powyżej, czy mapa wskazuje na posiadanie przez strukturę dużo arkuszy β? 12