Różnorodność osobników gatunku

Podobne dokumenty
Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Sekwencjonowanie, przewidywanie genów

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Reswkwencjonowanie vs asemblacja de novo

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Niepełnosprawność intelektualna

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

ZARZĄDZANIE POPULACJAMI ZWIERZĄT

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

Ekspresja genów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

DHPLC. Denaturing high performance liquid chromatography. Wiktoria Stańczyk Zofia Kołeczko

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

Ekologia molekularna. wykład 10

Składniki jądrowego genomu człowieka

Analizy wielkoskalowe w badaniach chromatyny

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Podłoże molekularne NF1 i RASopatii. Możliwości diagnostyczne.

Wstęp do Biologii Obliczeniowej

Metody badania polimorfizmu/mutacji DNA. Aleksandra Sałagacka Pracownia Diagnostyki Molekularnej i Farmakogenomiki Uniwersytet Medyczny w Łodzi

Konkurs szkolny Mistrz genetyki etap II

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

Imię i nazwisko...kl...

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

GENETYKA POPULACJI. Ćwiczenia 1 Biologia I MGR /

Analiza zmienności czasowej danych mikromacierzowych

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

1. System analizy danych NGS z paneli genów

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Dopasowanie sekwencji (sequence alignment)

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

Bliskie Spotkanie z Biologią. Genetyka populacji

Spokrewnienie prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami IBD. IBD = identical by descent, geny identycznego pochodzenia

Czy można zmniejszyć ryzyko występowania defektów genetycznych w populacji polskich koni arabskich?

Wykład 9: HUMAN GENOME PROJECT HUMAN GENOME PROJECT

Sekwencjonowanie RNA po kolei

Strefa pokrycia radiowego wokół stacji bazowych. Zasięg stacji bazowych Zazębianie się komórek

Rozkład materiału z biologii dla klasy III AD. 7 godz / tyg rok szkolny 2016/17

PRZYRÓWNANIE SEKWENCJI

Choroba syropu klonowego

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

METODY STATYSTYCZNE W BIOLOGII

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Temat 6: Genetyczne uwarunkowania płci. Cechy sprzężone z płcią.

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Mitochondrialna Ewa;

Wielotorbielowatość wątroby

Choroby genetyczne na tle zmian w genomie człowieka rodzaje, fenotyp, diagnostyka genetyczna

Informacje dla pacjentów i rodzin

Mutacje jako źródło różnorodności wewnątrzgatunkowej

Ekologia molekularna. wykład 11

Bioinformatyka. Rodzaje Mutacji

Perspektywy zastosowania badań genomicznych w hodowli zwierząt

Przewlekła choroba ziarniniakowa

Dobór naturalny. Ewolucjonizm i eugenika

prof. Joanna Chorostowska-Wynimko Zakład Genetyki i Immunologii Klinicznej Instytut Gruźlicy i Chorób Płuc w Warszawie

Rak tarczycy - prognostyka

Sekwencje akinezji płodu

Choroba Leśniowskiego i Crohna

Kwasica metylomalonowa

Sekwencjonowanie DNA

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatoza, Choroba Alzheimera, postać późna AR 2

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatosis AR 5. HFE Hemochromatosis, choroba Alzheimera, postać późna AR/Digenic 7

Zaburzenia metabolizmu kreatyny

Wrodzony przerost nadnerczy

Testowanie hipotez statystycznych

Zespół Walkera-Warburga

Podstawy genetyki człowieka. Cechy wieloczynnikowe

Zespół Robinowa. Gen Choroba/objawy Sposób dziedziczenia. DVL1 Zespół Robinowa AD 17. ROR2 Zespół Robinow, Brachydaktylia AD/AR 17

a) Zapisz genotyp tego mężczyzny... oraz zaznacz poniżej (A, B, C lub D), jaki procent gamet tego mężczyzny będzie miało genotyp ax b.

ZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI. Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt

Profilowanie somatyczne BRCA1, BRCA2

Acrodermatitis enteropathica

STATYSTYKA MATEMATYCZNA

Plan wykładu: Budowa chromatyny - nukleosomy. Wpływ nukleosomów na replikację i transkrypcję

Adres strony internetowej, na której Zamawiający udostępnia Specyfikację Istotnych Warunków Zamówienia:

Zespół hemolityczno-mocznicowy

Mutacje. delecja insercja strukturalne

Zespół Alporta. Gen Choroba/objawy Sposób dziedziczenia. COL4A3 Zespół Alporta AD/AR 100. COL4A4 Zespół Alporta AD/AR 84. COL4A5 Zespół Alporta XL 583

Transkrypt:

ALEKSANDRA ŚWIERCZ

Różnorodność osobników gatunku Single Nucleotide Polymorphism (SNP) Różnica na jednej pozycji, małe delecje, insercje (INDELs) SNP pojawia się ~1/1000 pozycji Można je znaleźć porównując odczyty z jednego osobnika do genomu referencyjnego Structural variations to duże różnice w genomach. Mogą to być duże: Delecje brak fragmentu genomu Insercje wstawienie fragmentu genomu Inwersje odwrócenie fragmentu genomu Translokacje zmiana położenia fragmentu genomu (może być również na innym chromosomie) Duplikacje powtórzenia fragmentów genomu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

SNP Niedopasowania SNP Screen z mapowania IGV Błąd sekwencjonowania SNP homozygota SNP heterozygota A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 3

Który z osobników jest rodzicem, a który dzieckiem? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 4

R.Nielsen, JS.Paul, A.Albrechtsen, YS.Song Genotype and SNP calling from next-generation sequencing data Nature Reviews Genetics 12, 443-451 (2011) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 5

dbsnp oraz HapMap dbsnp obecnie 139 wersja bazy. Pojawiły się nowe organizmy wraz z listą różnic (dotychczas zbadaną) między osobnikami HapMap międzynarodowy projekt, który ma na celu wykrycie i skatalogowanie podobieństw i różnic pomiędzy organizmami ludzkimi. Ośrodki biorące udział w projekcie pochodzą z Japonii, Wielkiej Brytanii, Kanady, Chin, Nigerii oraz Stanów Zjednoczonych. Projekt HapMap jest ogólnodostępny, i ma na celu pomoc środowisku biomedycznemu w znalezieniu genów powodujących choroby i odpowiedzi na leki terapeutyczne. W bazie HapMap analizowano DNA z 270 osobników populacji Afrykańskiej, Azjatyckiej i Europejskiej. Badano zarówno osobników pojedynczych, jak i trio, czyli rodziców wraz z ich dorosłym potomkiem A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 6

Różnice strukturalne SV Monya Baker Structural variation: the genome's hidden architecture Nature Methods 9,133 137 (2012) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 7

Sposoby na wykrywanie SV RD Read Depth badanie głębokości pokrycia RP Read Pairs sprawdzenie mapowania odczytów sparowanych, czy mapują się z taką samą odległością (wg. rozkładu), czy mapują się w odpowiednią stronę, czy mapują się oba odczyty z pary SR Split Reads szukanie odczytów, które nie mapują się w całości do genomu referencyjnego, lecz jego fragmenty mapują się w odległych miejscach odczyty te świadczą o nietypowym (innym niż w gen. ref.) połączeniu między fragmentami genomu AS AsseMbly de novo asemblacja de novo (bez mapowania) odczytów, następnie porównanie, czy zasemblowane kontigi pokrywają się z genomem referencyjnym A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 8

Jakie SV można odkryć dzięki różnym podejściom? Monya Baker Structural variation: the genome's hidden architecture Nature Methods 9,133 137 (2012) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 9

R.E. Mills et al., Mapping copy number variation by population-scale genome sequencing, Nature 470, 59 65, 2011 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 10

Read Depth A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 11

Kropka zielona to średnie pokrycie odczytami dla okna 1kbp zdrowej tkanki pacjenta Kropka czerwona to średnie pokrycie odczytami dla okna 1kbp chorej tkanki pacjenta Takie same falowanie kropek zielonych i czerwonych oznacza, że nie ma różnic między zdrową i chorą tkanką (tego samego) pacjenta, tylko są różnice między genomem pacjenta, a genomem referencyjnym Średnie pokrycie dla zdrowej tkanki jest ok. 52, natomiast dla chorej tkanki ok. 40 Zmiana w zachowaniu między kropkami zielonymi i czerwonymi oznacza zmianę liczby kopii danego fragmentu Dzięki analizie zmiany głębokości pokrycia można znaleźć jedynie różnice w liczbie kopii poszczególnych fragmentów, nie wiemy jednak nic na temat położenia fragmentów w genomie. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 12

Głębokość pokrycia wykrywanie duplikacji Badany genom Genom referencyjny A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 13

Wykrywanie SV za pomocą odczytów sparowanych Długość fragmentu Badany genom Genom referencyjny Odległość mapowania Brak różnic w strukturze genomu badanego i referencyjnego, gdyż: Długość fragmentu jest taka sama jak odległość mapowania na genomie referencyjnym Odczyty są zmapowane na genomie referencyjnym zgodnie z oryginalnym fragmentem A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 14

Insercja insert Badany genom Długość fragmentu Genom referencyjny Odległość mapowania Insercja w genomie badanym, gdyż: Odległość mapowania w genomie referencyjnym jest mniejsza niż długość fragmentu długość insertu = długość fragmentu - odległość mapowania (± rozrzut długości) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 15

Insercja przypadek czy na pewno? insert Długość fragmentu Badany genom Genom referencyjny Odległość mapowania Spójność przy mapowaniu innych odczytów w tym miejscu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 16

Insercja przypadek czy na pewno? insert Długość fragmentów Badany genom Genom referencyjny Odległość mapowania Długość fragmentów nie jest równa, może się różnić ± 10% (zależy od przygotowania biblioteki) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 17

Insercja przypadek czy na pewno? insert? Długość fragmentu Badany genom Genom referencyjny Odległość mapowania Zbyt długi fragment wziął udział w sekwencjonowaniu, a reszta odczytów nie potwierdza insercji. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 18

Inwersja Badany genom Długość fragmentu Genom referencyjny Odległość mapowania = m m długość fragmentu < długość inwersji Fragment genomu uległ inwersji, gdyż: Odczyty zmapowane są na genomie referencyjnym odwrotnie (discordant) Długość fragmentu oraz odległość mapowania są różne (to nie jest konieczne!) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 19

Inwersja jaka jest długość fragmentu? Długość fragmentu Badany genom Odległość mapowania = m Genom referencyjny m długość fragmentu < długość inwersji < m+ długość fragmentu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 20

Inwersja spójność mapowania x a Badany genom x' a x b x' b Genom referencyjny Odległość mapowania A Odległość mapowania B Odległość mapowania A = odległość mapowania B A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 21

Inwersja Badany genom Genom referencyjny A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 22

Delecja Badany genom Długość fragmentu Genom referencyjny Odległość mapowania Fragment genomu uległ delecji w genomie badanym, gdyż: Długość fragmentu jest krótsza niż odległość mapowania na genomie referencyjnym A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 23

Translokacja, duplikacja? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 24

Split reads Odczyty, które nie mapują się w całości do genomu referencyjnego, lecz jego fragmenty zmapowane w odległych miejscach świadczą o rearanżacjach chromosomowych Sekwencjonowanie => odczyty sparowane Mapowanie do genomu referencyjnego Odczyty zmapowane do genomu Odczyty niezmapowane mogą leżeć na łączeniu wariantów strukturalnych A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 25

Split reads Ht-seq_2012_module3.pdf Canadian Bioinformatics Workshop www.bioinformatics.ca A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 26

A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 27

A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 28

Jak duże są różnice SV? Ile SV jest pomiędzy dwoma osobnikami? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 29

A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 30

A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 31

Różnice między ludźmi Ludzie różnią się: kilkoma tysiącami delecji Kilkuset duplikacjami Kilkuset inwersjami Kilkuset insercjami transpozonów Kilkuset przesunięciami genów W wynikach różnych metod do wykrywania SV mamy: Wiele błędów pozytywnych Wiele błędów negatywnych Trudności w wykryciu SV, które nachodzą na sekwencje repetytywne A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 32

False positives http://www.completegenomics.com/faqs/cnv-analysis/ Walidacja innymi metodami, w celu likwidacji błędów false positives A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 33

Wpływ wariantów strukturalnych na dawkę genów Feuk, L. et al. Structural variation in the human genome. Nature Review Genetics 7, 92 (2006) Did you know that a large number of your genes exist in variable numbers of copies? While they can overlap with disease-related genes, these variants exist in healthy individuals too. Większość zmian liczby kopii można znaleźć w zdrowych osobnikach. Podejrzewa się że te zmiany powodują choroby poprzez szereg mechanizmów pokazanych na rysunku. Po pierwsze różna liczba kopii może spowodować różną dawkę genu poprzez delecje lub insercje, które może spowodować że odmienny gen ulegnie ekspresji potencjalnie powodując chorobę. Dawka genu opisuje liczbę kopii genu w komórce, co się przekłada na zwiększoną lub zmniejszoną ekspresję tego genu. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 34

Delecje mogą spowodować zmniejszoną dawkę genu, poprzez usunięcie jednego allelu lub poprzez delecję allelu (dominującego) ujawni się recesywna wersja genu. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 35

Jeśli warianty strukturalne nakładają się na geny, to może zostać zredukowana lub w ogóle zablokowana ekspresja genu poprzez inwersję, translokację czy delecję. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 36

Warianty SV mogą także mieć wpływ na elementy regulatorowe, jeśli zostanie on usunięty może zostać zwiększona lub zmniejszona ekspresja genu. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 37

Czasami kombinacja dwóch lub większej liczby wariantów może spowodować złożoną chorobę, podczas gdy pojedyncze zmiany nie powodują żadnego efektu. Dodatkowo złożone choroby mogą się pojawić jeśli różna liczba kopii jest połączona z innymi genetycznymi lub środowiskowymi czynnikami. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 38

Podsumowanie Różne podejścia do sekwencjonowania wysokoprzepustowego: Wady i zalety metod Długość odczytów Jakość sekwencji na końcówkach sewkencji Odczyty sparowane, pojedyncze Specyficzne rodzaje błędów Mapowanie do genomu referencyjnego: Algorytmy dopasowania lokalnego, globalnego i semiglobalnego Macierze kropkowe (dotmatrix) Tworzenie indeksu BWT Haszowanie A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 39

Podsumowanie 2 Asemblacja de novo Trudności w asemblacji Powtórzenia zaburzają obliczenia Overlap layout consensus Grafy de Bruijna(błędne ścieżki w grafach) Wady i zalety obu podejść RNA-sequencing: Algorytmy mapowania sekwencji RNA (różne podejścia: asemblacja de novo, mapowanie do transkryptomu, mapowanie do genomu) Przeszkody w mapowaniu RNA do genomu Trudność w rozpoznawaniu nowych transkryptów Różnicowa ekspresja genów i alternatywny splicing(warianty splicingowe) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 40