1. System analizy danych NGS z paneli genów

Podobne dokumenty
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

OPIS PRZEDMIOTU ZAMÓWIENIA

Ekologia molekularna. wykład 10

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Choroba Niemanna-Picka, typ C

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Sekwencjonowanie, przewidywanie genów

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Nowoczesne systemy ekspresji genów

Acrodermatitis enteropathica

Niepełnosprawność intelektualna

Zespół Alporta. Gen Choroba/objawy Sposób dziedziczenia. COL4A3 Zespół Alporta AD/AR 100. COL4A4 Zespół Alporta AD/AR 84. COL4A5 Zespół Alporta XL 583

Analizy wielkoskalowe w badaniach chromatyny

Choroba syropu klonowego

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Stwardnienie guzowate

Zespół krótkiego QT. Gen Choroba/objawy Sposób dziedziczenia. CACNA1C Zespół Brugadów, Zespół Timothy AD 15

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

IBM SPSS Statistics - Essentials for Python: Instrukcje instalacji dla Windows

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Zespół hemolityczno-mocznicowy

Rak tarczycy - prognostyka

Automatyzacja testowania oprogramowania. Automatyzacja testowania oprogramowania 1/36

Przytarczyce, zaburzenia metabolizmu wapnia

Galaktozemia. Gen Choroba/objawy Sposób dziedziczenia GALE AR 12. GALK1 Niedobór galaktokinazy AR 14. GALT Galaktozemia AR 233

Sekwencje akinezji płodu

Choroba Leśniowskiego i Crohna

Przewlekła choroba ziarniniakowa

Wykonać Ćwiczenie: Active Directory, konfiguracja Podstawowa

Warsztaty KPRM-MF-MG-MPiPS MRR-MSWiA-MSZ 28 kwietnia 2011 r.

tel.: (+48) mail.

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Referat pracy dyplomowej

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Hiperaldosteronizm rodzinny

Kwasica metylomalonowa

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Wrodzony przerost nadnerczy

Porażenie okresowe. Gen Choroba/objawy Sposób dziedziczenia. CACNA1S Porażenie okresowe hipokaliemiczne, Hipertermia złośliwa AD 14

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatosis AR 5. HFE Hemochromatosis, choroba Alzheimera, postać późna AR/Digenic 7

Moczówka prosta nerkowa

Jarosław Żeliński analityk biznesowy, projektant systemów

System Service Desk zgodny z zaleceniami ITIL

Profilowanie somatyczne BRCA1, BRCA2

Zespół Adamsa-Olivera

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla System Mac OS

Ryzyko otyłości. Gen Choroba/objawy Sposób dziedziczenia. ADRB3 Otyłość MG 1. APOA2 Otyłość MG 0. FTO Otyłość MG 4. MC4R Otyłość MG 28

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

IBM SPSS Statistics - Essentials for Python: Instrukcje instalacji dla Windows

Zespół Robinowa. Gen Choroba/objawy Sposób dziedziczenia. DVL1 Zespół Robinowa AD 17. ROR2 Zespół Robinow, Brachydaktylia AD/AR 17

Zespół Marfana, zespół Bealsa

Jednolity System Antyplagiatowy

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Różnorodność osobników gatunku

Cross application notification system. Wieloplatformowy system przesyłania i agregacji powiadomień

Instrukcja obsługi narzędzia API

Podłoże molekularne NF1 i RASopatii. Możliwości diagnostyczne.

X-CONTROL -FUNKCJONALNOŚCI

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Hiperfenyloalaninemie

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatoza, Choroba Alzheimera, postać późna AR 2

Zespół Seckela. Gen Choroba/objawy Sposób dziedziczenia. ATR Teleangiektazje skórne i rodzinnie występujący rak (gardła), Zespół Seckela AD/AR 8

Zaburzenia metabolizmu kreatyny

Zespół Aicardiego-Goutièresa

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Tworzenie i obsługa wirtualnego laboratorium komputerowego

Projektowanie oprogramowania

Podstawy analizy danych numerycznych w języku Python

ZARZĄDZANIE DOKUMENTACJĄ. Tomasz Jarmuszczak PCC Polska

Ekologia molekularna. wykład 11

Dyskeratoza wrodzona

Zespół Noonan i zespół twarzowo-sercowo-skórny

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

Zespół Coffin-Siris i zespół Nicolaides-Baraitser

Wybrane techniki badania białek -proteomika funkcjonalna

Rak płuc. Gen Choroba/objawy Sposób dziedziczenia. CDKN2A Czerniak, Rak trzustki, Rak płuca, Zespół predyspozycji do nowotworów AD 26

Niedobory czynników krzepnięcia

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Jak posługiwać się edytorem treści

Zaburzenia czynności płytek krwi

Transkrypt:

1. System analizy danych NGS z paneli genów (programistyczny) Sekwenator to instrument odczytujący sekwencję DNA w kilku-kilkudziesieciu probkach na raz. Instrument zapisuje na dysku dane w skompresowanych plikach tekstowych (FASTQ). Zadaniem systemu jest automatyczne wykrycie nowych danych, wyslanie maila na zdefiniowane adresy email, i uruchomienie procesu przetwarzania danych (pipeline, skrypt Python). Pipeline wykrywa mutacje w sekwencjach DNA i generuje statystyki dotyczące danych wejściowych, pośrednich i wyników. Sam pipeline nie jest częścią tego zadania (patrz niżej). Po zakończeniu pipelinu system wysyla powiadomienia emailowe z linkami umożliwiajacymi wyświetlenie statystyk w postaci wykresow i tabel, oraz ściągnięcie wyników (plik tekstowy) do dalszej obróbki i/lub analizy. Całość powinna działac w kontenerze dockera. Lub (programistyczno - analityczny) Implementacja pipelinu do analizy danych NGS z paneli genów (patrz wyżej) i porównanie wyników analiz z wykorzystaniem 2-3 narzędzia do mapowania (np. BWA, bowtie) i 2-3 narzedzi do wykrywania wariantów (np. samtools, freebayes). Porównanie pokrycia i wykrytych wariantów dla ok. 100 próbek, w każdej po ok. 300 genów.

2. Federacja baz danych częstości wariantów (programistyczny) Częstość wariantów (SNP) w populacji jest ważną informacją, używaną między innymi w poszukiwaniu genetycznych przyczyn rzadkich chorób wrodzonych. Informacje nt. częstości wariantów są jednak rozproszone po wielu instytucjach przeprowadzajacych badania genetyczne (m.in jednostkach badawczych, szpitalach, klinikach). Im większa jest grupa zbadanych osób tym dokładniejsza informacja nt. częstości wariantów, warto więc zintegrować takie dane. Dane genetyczne ludzi/pacjentów są poufne i dzielenie się nimi otwarcie jest zabronione. Udostępnienie dużej bazy danych zawierającej wyłącznie informacje o częstotliwości występowania wariantów jest mniej problematyczne. Aby uniknąć problemów związanych z centralnym przechowywaniem danych, należy stworzyć federację baz danych o wspólnym interfejsie, który umożliwi agregację informacji o częstości występowania wariantów z dowolnej liczby baz. W ten sposób każda z baz będzie niezależna i będzie zawiarała dane z jednego ośrodka, przetworzone w sposób taki jaki dany ośrodek uzna za najlepszy. Interfejs użytkownika umożliwi pobranie informacji nt. częstości pojedynczego wariantu z wybranych baz danych i przeliczenie częstości jego występowania w zbiorczej populacji. (Uprzywilejowani?) użytkownicy będą mieli możliwość pobrania całej bazy danych i stworzenia lokalnej kopii 'meta-bazy'. Wymagania dot. oprogramowania: zaprojektowanie i stworzenie bazy danych czestosci wariantow zawierajacych przynajmniej: CHR - chomosom POS - pozycja nukelotydowa w chromosomie REF - allel referencyjny ALT - allel alternatywny AC - liczba alleli alternatywnych w bazie AN - calkowita liczba przebadanych alleli (w tej pozycji) zaprojektowanie i stworzenie REST API do: skladania zapytan o czestosc wariantu dla krotki (CHR, POS, REF, ALT) sciagania calosci bazy danych stworzenie interfejsu uzytkownika do przeszukiwanai federacji baz (predefiniowane URL) stworzenie interfejsu uzytkownika dodawania nowych danych do bazy z pliku VCF (jedno i wieloprobkowego) oraz tekstowego test na danych 1000Genomes i ExAC

opcjonalnie: wizualizacja pokrycia genów (ilość próbek/exon) Część analityczna: - porównanie częstośći w ExAC i 1000Genomes - czy są warianty o diametralnie różnych częstościach? - jak rozkladaja sie rzadkie warianty wzgledem genow/chromosomow?

3. Analiza ultrarzadkich wariantów cichych w bazie gnomad (analityczny) Warianty ciche to punktowe zmiany w DNA nie wpływających na sekwencję kodowanego białka (https://pl.wikipedia.org/wiki/mutacja_cicha). Ewolucyjnie są lepiej tolerowane niż warianty kodujące, czyli takie które zmieniają kodowany aminokwas. Ciekawą grupą będą więc ultra rzadkie warianty ciche i odpowiedź na pytanie dlaczego ich częstość występowania w populacji jest ograniczona. Baza danych gnomad (http://gnomad.broadinstitute.org/) zawiera dane o częstości występowania wariantów w kodujących fragmentach genów (egzonach) dla ponad 130 000 osób z różnych populacji. Jest to największa taka baza na świecie i stanowi świetne źródło do poszukiwania odpowiedzi na powyższe pytania. Przykladowe pytania: 1. Gdzie zlokalizowane są bardzo rzadkie warainty ciche względem sekwencji kodujących (początek, środek, koniec egzonu; który egzon) 2. Czy rzadkie warianty ciche są zlokalizowane pomiędzy wariantami częstszymi? 3. Czy ich lokalizacja nakłada się na: miejsca wiązań czynników transkrypcyjnych miejsca wiazan mirna,/lincrna inne regiony regulatorowe 4. Czy ich lokalizacja koreluje się z: ewolucyjną konserwacją scorem dot. wpływu na splicing genu (baza Spidex)... 5. Czy jest związek z ilością rzadkich wariantów cichych w genie (ew. stosunku cichych rzadkich/częstych), a: długością genu funkcją genu (Gene Ontology) związku genu z chorobami

4. Porównanie metod składania genomów bakteryjnych (analityczny) Składanie genomu de-novo polega na ułożeniu kompletnej sekwencji genomu z krótszych fragmentów. Im dłuższe fragmenty tym zadanie jest prostsze. Pod uwagę bierzemy dwie platformy sekwencjonowania: Illumina Miseq oraz Pacbio. Sekwenatory Miseq generują tanio dużą ilość (pokrycie genomu bakterii 300x), dobrej jakości (<1% błędu), ale krótkich odczytów (pary 2x250nt). Samymi krótkimi odczytami jesteśmy w stanie złożyć genom E. coli co najwyżej w kilkadziesiąt kawałków. Nie zawsze jest to wystarczające. Sekwenator Pacbio generuje podobne pokrycie długimi odczytami (~ 10000nt) o 15% częstości błędu, co pozwala złożyć genom w jedną całość. Natomiast jego użycie jest kilkukrotnie droższe. Alternatywą jest połączenie w składaniu tanich odczytów Illuminy z niewielką ilością Pacbio. W tym projekcie będziesz mogła/mógł sprawdzić w praktyce czy rzeczywiście się to opłaci. Porównanie składania 6 genomów E. coli i 1 Salmonella enterica czterema metodami: 1. krótkie dokładne odczyty Illumina (2x250nt; 1% error rate) u użyciem SPAdes 2. długie niedokładne odczyty Pacbio (~3000nt lub ~10000nt; 15% error rate) z użyciem Canu 3. podejście hybrydowe (długie i krótkie odczyty): 1. SPAdes - używa krótkich odczytów jak w (1) a potem łączy je w dłuższe z użyciem długich 2. Canu - używa długich odczytów jak w (2) i poprawia jakość z użyciem krótkich Dla danych Pacbio są różnice w pokryciu pomiędzy próbkami, co jest dodatkowym czynnikiem do przeanalizowania.