ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI Podstawy Bioinformatyki lab 1 PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 1
BIOINFORMATYKA Dr Magda Mielczarek Katedra Genetyki, pokój nr 14 ul. Kożuchowska 7, 51-631 Wrocław magda.mielczarek@upwr.edu.pl KONSULTACJE: Środa 13:30 15:30 (bardzo proszę się zapowiedzieć) PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 2
ORGANIZACJA ZAJĘĆ Wstęp do bioinformatyki Biologiczne bazy danych 1 Biologiczne bazy danych 2 Przyrównanie sekwencji, filogenetyka Przegląd artykułów naukowych Dane NGS; elementy programowania w różnych językach Kolokwium (bez możliwości poprawy) PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 3
ZAGADNIENIA OPROGRAMOWANIE BAZY DANYCH PRZETWARZANIE I ANALIZA DANYCH BIOLOGICZNYCH PROGRAMOWANIE ALGORYTMY PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 4
ZALICZENIE Średnia arytmetyczna z: kolokwium I (ocena przynajmniej 3.0) prezentacji aktywności Listy zadań Obecność (theta.edu.pl/teaching/) PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 5
POLECANE: PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 6
Czym jest bioinformatyka? PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 7
BIOINFORMATYKA Bioinformatyka jest interdyscyplinarną dziedziną nauki obejmującą wykorzystanie metod obliczeniowych do badania danych biologicznych Higgs P., Attwood T., Bioinformatyka i ewolucja molekularna Bioinformatyka a biologia obliczeniowa PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 8
BIOINFORMATYKA Interdyscyplinarność : biologia (molekularna) dane biologiczne, biotechnologiczne dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek Informatyka i matematyka - narzędzia, metody i obliczenia komputerowe nauki i techniki komputerowe, matematyka stosowana, statystyka, teoria prawdopodobieństwa PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 9
CELE BIOINFORMATYKI Organizacja i zarządzanie informacjami o danych biologicznych w formie skomputeryzowanych zapisów BAZY DANYCH Analiza danych tworzenie NARZĘDZI (programów, metod, algorytmów) systemy operacyjne (Unix, Linux) języki programowania (C, C++, PERL, Python, Ruby, JAVA, R, FORTRAN, itd.) PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 10
BIOINFORMATYCZNE ETAPY PRZETWARZANIA DANYCH Analiza genomowych sekwencji DNA - przykład analizy MAGDA MIELCZAREK 11
ZAPIS SEKWENCJI DNA PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 12
ANALIZA GENOMOWYCH SEKWENCJI DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Analiza wyników PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 13
ANALIZA GENOMOWYCH SEKWENCJI DNA Pozyskanie danych 2 670 139 648 bp Bioinformatyczny ciąg analityczny Analiza wyników 187 zwierząt 1 genom - do 73 GB (dane po kompresji) PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 14
ANALIZA GENOMOWYCH SEKWENCJI DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów genetycznych Analiza wyników PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 15
ANALIZA GENOMOWYCH SEKWENCJI DNA Pozyskanie danych Kontrola jakości Bioinformatyczny ciąg analityczny Analiza wyników PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 16
ANALIZA GENOMOWYCH SEKWENCJI DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Przyrównanie do genomu referencyjnego ACTGGTGGGAA AAAGGGAACCT GGTGGGAAAAA GGGAACCTTTCT TGGGAAAAAATT GAACCTTTCTTT GAAAAAATTTCA CCTTTCTTTGGA GGGACTGATTCC AGAGAGATTTGC GACTGATTCCGA GAGAACCTTTCT Analiza wyników ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 17
ANALIZA GENOMOWYCH SEKWENCJI DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Przyrównanie do genomu referencyjnego ACTGGTGGGAA AAAGGGAACCT GGTGGGAAAAA GGGAACCTTTCT TGGGAAAAAATT GAACCTTTCTTT GAAAAAATTTCA CCTTTCTTTGGA GGGACTGATTCC AGAGAGATTTGC GACTGATTCCGA GAGAACCTTTCT Analiza wyników ACTGGTGGGAA GGTGGGAAAAA TGGGAAAAAATT GAAAAAATTTCA AAAGGGAACCT GGGAACCTTTCC GAACCTTTCCTT GGGACTACTGAT AGAGAGATTTGC CCTTTCCTTGGA GACTACTGATTC GAGAACCTTTCT ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 18
ANALIZA GENOMOWYCH SEKWENCJI DNA Pozyskanie danych Bioinformatyczny ciąg analityczny Przyrównanie do genomu referencyjnego ACTGGTGGGAA AAAGGGAACCT GGTGGGAAAAA GGGAACCTTTCT TGGGAAAAAATT GAACCTTTCTTT GAAAAAATTTCA CCTTTCTTTGGA GGGACTGATTCC AGAGAGATTTGC GACTGATTCCGA GAGAACCTTTCT Analiza wyników ACTGGTGGGAA GGTGGGAAAAA TGGGAAAAAATT GAAAAAATTTCA SNP InDel AAAGGGAACCT GGGAACCTTTCC GAACCTTTCCTT GGGACTACTGAT AGAGAGATTTGC CCTTTCCTTGGA GACTACTGATTC GAGAACCTTTCT ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 19
liczba SNP LICZBA SNP 7 000 000 6 000 000 5 000 000 4 000 000 3 000 000 2 000 000 min: 2 063 811 0.08% genomu max: 6 117 976 0.23% genomu sd: 663 223 1 000 000 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 Numer zwierzęcia PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 20
ANALIZA GENOMOWYCH SEKWENCJI DNA Pozyskanie danych Bioinformatyczny ciąg analityczny - Adnotacja funkcjonalna Przykład: 32 krowy, półsiostry chore i zdrowe zapalenie wymienia Analiza wyników ACTGGGGGTGA ACTGGGGGGGA PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 21
DLACZEGO SUPERKOMPUTER? przechowywanie danych surowe pliki po pliki po detekcji dane przyrównaniu polimorfizmów 6,1 TB 4,9 TB 44,8 GB + dane dodatkowe przetwarzanie danych przyrównanie; 8 rdzeni; 25 GB próba paralelizacja - przyspieszenie obliczeń ~ 19 GB max 24 rdzenie czas analiz dla wszystkich prób tygodnie? PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 22
POZNAŃSKIE CENTRUM SUPERKOMPUTEROWO-SIECIOWE W praktyce przetwarzanie i przechowywanie danych biologicznych nie byłoby możliwe bez komputerów o dużej mocy obliczeniowej i o dużych zasobach pamięci dyskowej PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 23
InfoPlus - I. Makałowska Komputery w biologii molekularnej czyli bioinformatyka https://www.youtube.com/watch?v=istssvhazg8 Lista zadań theta.edu.pl/teaching/ PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 24