Bioinformatyka 2 dr Jan Paweł Jastrzębski Katedra Fizjologii i Biotechnologii Roślin p. 113 bioinformatyka@gmail.com jan.jastrzebski@uwm.edu.pl www.uwm.edu.pl/bioinfo Kryteria zaliczenia Ćwiczenia 100% obecność na ćwiczeniach Zaliczone kolokwium Zaliczony skrypt Egzamin Podręczniki Plany i terminy Wykłady 5 90min (wtorki 17:00) Ćwiczenia 7 2h15min (poniedziałki, wtorki) Egzamin Listopad/grudzień (?) Bioinformatyka dyscyplina nauk biologicznych wywodząca się z biotechnologii (genetyki), zajmująca się stosowaniem narzędzi matematycznych i informatycznych do rozwiązywania zywania problemów w biologii (głównie biologii ) i zagadnień biotechnologicznych. Podstawowymi poddziedzinami bioinformatyki są: s genomika, proteomika, transkryptomika i metabolomika. in vivo badania przyżyciowe; yciowe; mało o możliwo liwości manipulacji in situ w tkance; ograniczone możliwo liwości manipulacji in vitro w szkle; największe naturalne możliwo liwości manipulacji in silico w komputerze; możliwo liwość analizowania wszelkich, nawet pozornie niemożliwych układ adów Biotechnologia a bioinformatyka 1
Bioinformatyka Bazy danych tabele Tabela - jest podstawowym obiektem bazy danych stanowią stanowiąca zbió zbiór informacji przedstawiona zwykle jako ukł układ poziomych wierszy (rekordó rekordów) i kolumn (pól). BAZA DANYCH jest to uporzą uporządkowany zbió zbiór danych o okreś określonej strukturze, któ który zarzą zarządzany jest przez system DBMS. DBSM - DataBase Management System kwerendy Kwerenda to obiekt bazy danych zawierają zawierających grupę grupę rekordó rekordów po selekcji. selekcji. Jest to żądanie żądanie okazania okreś określonego zbioru danych. danych. Kwerenda jest narzę narzędziem, dziem, któ która zbiera dane z różnych tabel aby odpowiedzieć odpowiedzieć na pytanie zadane przez użytkownika. ytkownika. Jest podstawowym narzę narzędziem analizy w bazie danych. danych. Struktura bazy danych formularze Formularz - jest to obiekt w któ którym umieszczamy formanty umoż umożliwiają liwiające wprowadzanie, wprowadzanie, wyś wyświetlanie i edycję edycję danych. danych. 2
raporty Raporty - zawierają dane z tabel lub kwerend uporządkowane w żądany przez użytkownika u sposób. Rekord, pola i klucz Rekord - zestaw informacji o pojedynczym elemencie tabeli bazy danych.. W rekordzie powinno znaleźć się pole, które umożliwia jednoznacznie zidentyfikowanie rekordu, czyli klucz. Rekord NCBI i pole rekordu Klucz - atrubut nałożony ony na pole, zwykle w celu uniknięcia duplikowania się wartości ci. Kluczem identyfikującym może być kilka pól. NCBI - EBI - DDBJ Modelowanie homologiczne NCBI GenBank EBI EMBL DDBJ DDBJ (http://www.ncbi.nlm.nih.gov/genbank/index.html) (http://www.ebi.ac.uk/embl/) (http://www.ddbj.nig.ac.jp/index-e.html) DDBJ/EBI/NCBI International Nucleotide Sequence Database Collaboration Modelowanie dynamiki Template Target GenBank There are approximately 85,759,586,764 bases in 82,853,685 sequence records in the traditional GenBank divisions and 108,635,736,141 bases in 27,439,206 sequence records in the WGS division as of February 2008. 3
Modelowanie ab initio Projektowanie leków - CADD wizualizacja Struktura molekuł Struktury drugorzędowe dowe Wiązanie peptydowe Struktura molekuł Kąty torsyjne Helisy prawoskrętna lewoskrętna 3-turn helix (3/10 helix). Min length 3 residues (G) 4-turn helix (alpha helix). Min length 4 residues (H) 5-turn helix (pi helix). Min length 5 residues (I) Beta-kartki (E) równoległe anty-równoleg wnoległe PSI-loop Zwroty (spinki) stabilizowane wiązaniami wodorowymi (3, 4 lub 5 turn) ) (T) Nitka struktura dowolna, nieokreślona (C) Dozwolone kąty k i Ramachandran Plot 4
Model struktury pierwszorzędowej białka Plik w formacie FASTA >gi 5524211 gb AAD44166.1 cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY Model struktury drugorzędowej dowej białka Modele struktur trzecio- i czwartorzędowych białek >nazwa_sekwencji_1 sekwencjadanegobialkalubnicinukleotydowej >nazwa_sekwencji_2 kolejnasekwencjadowolnegowybranegobialkalubnicidna >kolejna itd Kryteria formatu FASTA: - Tylko sekwencja lub sekwencja z opisem - Opis danej sekwencji w oddzielnej linijce (powyżej) i poprzedzony znakiem > - Sekwencja TYLKO z dozwolonych znaków w dowolnej wielkości - Każda linijka sekwencji maksymalnie do 80 znaków >plik FASTA sekwencji i struktury drugorzedowej fragmentu hemoglobiny SSNYCNQMMKSRNLTKDRCKPVNTFVHESLADVQAVCSQKNVACKNGQTN CCCHHHHHHHHCPCCCCCCCCEEEEECCCHHHHHHHHHCEEECCCCPCCC Struktura plików w formatu PDB PDB ID i nazwy modeli: 3INS.pdb 1OCC.pdb 1HBB.pdb 1HBS_B.pdb Podstawowe elementy w wizualizacji Punkty i linie (druty) (points and wires) wireframe (obraz szkieletowy) 5
Podstawowe elementy w wizualizacji Kule i pręty (słomki, rurki) (balls and sticks) ball and sticks (kulki i pręty atomy i wiązania) Podstawowe kolory w wizualizacji atomy backbone (kręgos gosłup) sticks (pręty, rurki -wiązania chemiczne) Podstawowe elementy w wizualizacji Wstąż ążki i nici (ribbons and coils) 6
ribbons i cartoon (wstąż ążki wzajemne ułożenie u powierzchni wiąza zań peptydowych) wstąż ążki Podstawowe elementy w wizualizacji Sfery i powierzchnie (spheres and surfaces) Podstawowe elementy w wizualizacji Sfery i powierzchnie (spheres and surfaces) Podstawowe elementy w wizualizacji Podstawowe kolory w wizualizacji Ładunki (charges) 7
spacefill (kule / sfery oddziaływa ywać sił Van der Waalsa - VDW) sfery VDW molecular surface (powierzchnia molekularna) accessible surface area (powierzchnia dostępu) Molecular vs. Accessible area molecular surface (powierzchnia molekularna) accessible surface area (powierzchnia dostępu) electrostatic surface area (powierzchnia elektrostatyczna) Programy do wizualizacji, renderingu i modelowania RasMol 8
Programy do wizualizacji i renderingu Programy do wizualizacji, renderingu i modelowania Programy do wizualizacji, renderingu i modelowania SPDBV VMD Elementy grafiki komputerowej Piksel (ang. (ang. pixel = picture+element) ) jest to najmniejszy element obrazu bitmapowego.. Jeden piksel to bardzo mały y kwadrat o przeciętnym boku 0,28mm (rzadziej: prostokąt) t) widzialny z odległości użytkowej u jako wypełniony jednolitym kolorem. Piksel stanowi także e najmniejszy element obrazu wyświetlanego wietlanego na monitorze komputera. Tryb pracy monitora, a konkretnie jego rozdzielczość to właśnie w liczba pikseli jakie zawiera on w pionie i poziomie. Wikipedia Elementy grafiki komputerowej RGB R 256 8 bitów G 256 8 bitów B 256 8 bitów 1 piksel zajmuje 3 bajty = 24 bity CMYK Przestrzenie barw RGB/CMYK 9
Grafika wektorowa Grafika rastrowa Rendering Jest to generowanie obrazu dwuwymiarowego wysokiej jakoś jakości z modelu/sceny Grafika wektorowa (obiektowa) Opisanie obrazu za pomocą pomocą prostych figur geometrycznych - prymitywó prymitywów; polega na generowaniu obrazu na podstawie jego matematycznego opisu, któ który okreś określa pozycję pozycję, dł długość ugość i kierunek prowadzonych linii. Obrazy wektorowe są są kolekcjami wektoró wektorów, a nie punktó punktów, jak w wypadku grafiki rastrowej. Rendering OpenGL, OpenGL, Direct3D (DirectX (DirectX)) są to biblioteki programistyczne skł składają adające się się z zestawó zestawów funkcji instalowanych na odpowiednich platformach systemowych sł służące żące do obsł obsługi grafiki (lub gł głównie grafiki). Grafika rastrowa Metoda tworzenia grafiki komputerowej traktują traktująca obraz jako zbió zbiór bardzo mał małych niezależ niezależnych od siebie punktó punktów tej samej wielkoś wielkości (pikseli) uł ułożonych ró równo w wierszach i kolumnach. Rastrem nazywa się się siatkę siatkę takich punktó punktów. Pliki rastrowe nazywa się się również wnież plikami bitmapowymi. bitmapowymi. Typowe formaty plikó plików rastrowych to BMP, TIFF, GIF i JPEG. Rendering Ray tracing (śledzenia promienia) jedna z technik renderingu 10
Programy do wizualizacji i renderingu Wizualizacja wektorowa Wizualizacja renderowana (OpenGL) OpenGL) PovRay Wizualizacja renderowana (rayray-tracing) tracing) RayRay-tracing Coloring Legend Atoms C carbon Simple carbohydrates GlcA Fucose H hydrogen O oxygen N nitrogen GalNAc Galactose P phosphor S sulfur NeuNAc Mannose 11
α-n-acetylneuraminic acid Sialic Acid (NeuNAc) β -D-Glucuronic acid (GlcA) α-l-fucose (Fuc) PO43- SO42- Carbohydrates of P0 protein Asn93 GP5 BA2 MW 339.29 194.13 164.15 94.97 GP3 OPPEI GP4 96.06 The myelin P0 protein is glycosylated at a single site, Asparagine93, within its only immunoglobulin (Ig)-like domain. P0 behaves like adhesion molecule forming P0:P0 pair. For adhesion to take place, both P0 molecules in the homophilic pair must be glycosylated Glycosylated P0 protein BA2 OPPEI Asn93 GP3 GP4 GP5 P0 with carbohydrate anchored in membrane P0 as a homophilic adhesion molecule membrane membrane 12
P0 CRAC motifs Cholesterol recognition amino-acid consensus Asn GlcNAc N-linked glycosylation site H HO OH H H OH H HN O O H NH CH 3 β-d-n-acetylglucosamine Asparagine (Asn) O O NH 2 OH CRAC motifs: (62-74) lsftwryqpeggr (blue) (142-149) vtlyvfek (green) overlaping (orange) Asn93 (brown) (171-180) lalllfylir (yellow-orange) (177-186) lirycwlrr (orange-red) 13