PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH Magda Mielczarek Podstawy Bioinformatyki 1
Organizacja zajęć mgr Magda Mielczarek Katedra Genetyki, pokój nr 14 magda.mielczarek@up.wroc.pl magda.a.mielczarek@gmail.com tel: 71-320-57-51 Kontakt Slajdy Zadania theta.edu.pl KONSULTACJE Magda Mielczarek Podstawy Bioinformatyki 2
Organizacja zajęć 1. Organizacja zajęć; Bioinformatyka; Przetwarzanie i analiza danych 2. Biologiczne bazy danych 3. Przyrównanie sekwencji 4. Filogenetyka 5. Prezentacje artykułów naukowych. Dyskusja 6. Dane NGS; elementy programowania w różnych językach 7. Kolokwium (bez możliwości poprawy) Magda Mielczarek Podstawy Bioinformatyki 3
Zasady zaliczenia Obecność Kolokwium (praktyczne, z wykorzystaniem komputera) Prezentacja Listy zadań Aktywność Magda Mielczarek Podstawy Bioinformatyki 4
Polecane: Magda Mielczarek Podstawy Bioinformatyki 5
Czym jest bioinformatyka? Magda Mielczarek Podstawy Bioinformatyki 6
Bioinformatyka Bioinformatyka jest interdyscyplinarną dziedziną nauki obejmującą wykorzystanie metod obliczeniowych do badania danych biologicznych Higgs P., Attwood T., Bioinformatyka i ewolucja molekularna Bioinformatyka a biologia obliczeniowa Magda Mielczarek Podstawy Bioinformatyki 7
Bioinformatyka Interdyscyplinarność : biologia (molekularna) dane biologiczne, biotechnologiczne dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek Informatyka i matematyka - narzędzia, metody i obliczenia komputerowe nauki i techniki komputerowe, matematyka stosowana, statystyka, teoria prawdopodobieństwa Magda Mielczarek Podstawy Bioinformatyki 8
Cele bioinformatyki Organizacja i zarządzanie informacjami o danych biologicznych w formie skomputeryzowanych zapisów BAZY DANYCH Analiza danych tworzenie NARZĘDZI (programów, metod, algorytmów) systemy operacyjne (Unix, Linux) języki programowania (C, C++, PERL, Python, Ruby, JAVA, R, FORTRAN, itd.) Magda Mielczarek Podstawy Bioinformatyki 9
PRZYKŁAD ANALIZY ANALIZA GENOMOWYCH SEKWENCJI DNA - BIOINFORMATYCZNE ETAPY PRZETWARZANIA DANYCH NA KLASTRZE OBLICZENIOWYM Magda Mielczarek Podstawy Bioinformatyki 10
Zapis sekwencji DNA
Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Analiza wyników Magda Mielczarek Podstawy Bioinformatyki 12
Analiza genomowych sekwencji DNA Pozyskanie danych 2 670 139 648 zasad Bioinformatyczny ciąg analityczny 187 zwierząt 1 genom - do 73 GB (dane po kompresji) Analiza wyników 100 zasad
Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów genetycznych Analiza wyników Magda Mielczarek Podstawy Bioinformatyki 14
Analiza genomowych sekwencji DNA Pozyskanie danych Kontrola jakości Bioinformatyczny ciąg analityczny Analiza wyników Magda Mielczarek Podstawy Bioinformatyki 15
Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Przyrównanie do genomu referencyjnego ACTGGTGGGAA AAAGGGAACCT GGTGGGAAAAA GGGAACCTTTCT TGGGAAAAAATT GAACCTTTCTTT GAAAAAATTTCA CCTTTCTTTGGA GGGACTGATTCC AGAGAGATTTGC GACTGATTCCGA GAGAACCTTTCT Analiza wyników ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA Genom referencyjny
Analiza genomowych sekwencji DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Przyrównanie do genomu referencyjnego ACTGGTGGGAA AAAGGGAACCT GGTGGGAAAAA GGGAACCTTTCT TGGGAAAAAATT GAACCTTTCTTT GAAAAAATTTCA CCTTTCTTTGGA GGGACTGATTCC AGAGAGATTTGC GACTGATTCCGA GAGAACCTTTCT Analiza wyników ACTGGTGGGAA AAAGGGAACCT GGTGGGAAAAA GGGAACCTTTCC TGGGAAAAAATT GAACCTTTCCTT GGGACTACTGAT AGAGAGAT GAAAAAATTTCA CCTTTCCTTGGA GACTACTGATTC GAGA ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA Genom referencyjny
Analiza genomowych sekwencji DNA Pozyskanie danych Detekcja polimorfizmów genetycznych Bioinformatyczny ciąg analityczny Analiza wyników SNP InDel ACTGGTGGGAA AAAGGGAACCT GGTGGGAAAAA GGGAACCTTTCC TGGGAAAAAATT GAACCTTTCCTT GGGACTTCTGAT AGAGAGAT GAAAAAATTTCA CCTTTCCTTGGA GACTTCTGATTC GAGA ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA Genom referencyjny
liczba SNP Liczba SNP 7 000 000 6 000 000 5 000 000 4 000 000 3 000 000 2 000 000 min: 2 063 811 0.08% genomu max: 6 117 976 0.23% genomu sd: 663 223 1 000 000 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 Numer zwierzęcia Magda Mielczarek Podstawy Bioinformatyki 19
Analiza genomowych sekwencji DNA Pozyskanie danych Położenie polimorfizmu Polimorfizm synonimiczny? Bioinformatyczny ciąg analityczny Analiza wyników Przykład: 32 krowy zapalenie wymienia ACTGGTGGGAA ACTGATGGGAA Magda Mielczarek 20
Dlaczego superkomputer? przechowywanie danych surowe pliki po pliki po detekcji dane przyrównaniu polimorfizmów 6,1 TB 4,9 TB 44,8 GB + dane dodatkowe przetwarzanie danych przyrównanie; 8 rdzeni; 25 GB próba paralelizacja - przyspieszenie obliczeń ~ 19 GB max 24 rdzenie czas analiz dla wszystkich prób tygodnie? Magda Mielczarek Podstawy Bioinformatyki 21
Poznańskie Centrum Superkomputerowo- Sieciowe W praktyce przetwarzanie i przechowywanie danych biologicznych nie byłoby możliwe bez komputerów o dużej mocy obliczeniowej i o dużych zasobach pamięci dyskowej Magda Mielczarek Podstawy Bioinformatyki 22
InfoPlus - I. Makałowska Komputery w biologii molekularnej czyli bioinformatyka https://www.youtube.com/watch?v=istssvhazg8 Lista zadań http://theta.edu.pl/teaching/podstawy-bioinformatyki/ Magda Mielczarek Podstawy Bioinformatyki 23