Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Podobne dokumenty
Ekspresja genów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Sekwencjonowanie RNA po kolei

Różnorodność osobników gatunku

Analizy wielkoskalowe w badaniach chromatyny

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Analiza zmienności czasowej danych mikromacierzowych

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

Wprowadzenie. DNA i białka. W uproszczeniu: program działania żywego organizmu zapisany jest w nici DNA i wykonuje się na maszynie białkowej.

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Przybliżone algorytmy analizy ekspresji genów.

1. System analizy danych NGS z paneli genów

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

GENOM I JEGO STRUKTURA

Wykład 14 Biosynteza białek

Wybrane techniki badania białek -proteomika funkcjonalna

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Wybrane techniki badania białek -proteomika funkcjonalna

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach

TRANSKRYPCJA - I etap ekspresji genów

Wstęp do Biologii Obliczeniowej

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Metody: PCR, MLPA, Sekwencjonowanie, PCR-RLFP, PCR-Multiplex, PCR-ASO

Genomika funkcjonalna

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Ekologia molekularna. wykład 11

Searching for SNPs with cloud computing

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Choroby genetyczne na tle zmian w genomie człowieka rodzaje, fenotyp, diagnostyka genetyczna

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Metody analizy genomu

Statystyczna analiza danych

Niepełnosprawność intelektualna

Podłoże molekularne NF1 i RASopatii. Możliwości diagnostyczne.

TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Oferta tematyki badań

Geny i działania na nich

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

dostateczny oraz: wyjaśnia, z czego wynika komplementarność zasad przedstawia graficznie regułę

Nowoczesne systemy ekspresji genów

BADANIA GENETYCZNE W DYSTROFIACH MIOTONICZNYCH

Mutacje jako źródło różnorodności wewnątrzgatunkowej

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU Transkrypcja RNA

Sekwencjonowanie, przewidywanie genów

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Analiza sekwencji promotorów

Wymagania edukacyjne Biologia na czasie zakres podstawowy

Bioinformatyka, edycja 2016/2017, laboratorium

Budowa kwasów nukleinowych

Przeglądanie bibliotek

prof. Joanna Chorostowska-Wynimko Zakład Genetyki i Immunologii Klinicznej Instytut Gruźlicy i Chorób Płuc w Warszawie

Wymagania edukacyjne z przedmiotu Biologia. Podręcznik Biologia na czasie wyd. Nowa Era, zakres podstawowy Rok szkolny 2013/2014

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Podstawy genetyki IV. Mutacje

GENOM I POCHODZENIE CZŁOWIEKA. Geoff Barnard PhD MA (Theol) MIBiol

Wymagania edukacyjne Biologia na czasie zakres podstawowy

Bioinformatyka. Rodzaje Mutacji

Zasady oceniania rozwiązań zadań 48 Olimpiada Biologiczna Etap centralny

Badanie doboru naturalnego na poziomie molekularnym

Rok akademicki: 2014/2015 Kod: EIB BN-s Punkty ECTS: 3. Kierunek: Inżynieria Biomedyczna Specjalność: Bionanotechnologie

Regulacja transkrypcji genów eukariotycznych

Choroba syropu klonowego

Wymagania edukacyjne z biologii w klasie pierwszej, zakres podstawowy. Podręcznik Biologia na czasie - Wyd. Nowa Era

THE UNFOLDED PROTEIN RESPONSE

The Role of Maf1 Protein in trna Processing and Stabilization / Rola białka Maf1 w dojrzewaniu i kontroli stabilności trna

Genom człowieka. Typy mutacji genomu i związane z tym choroby genetyczne. III Rok WL1 dr Katarzyna Wicher

Choroba Niemanna-Picka, typ C

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

DNA musi współdziałać z białkami!

Zaoczne Liceum Ogólnokształcące Pegaz

WYMAGANIA EDUKACYJNE Z BIOLOGII (Klasa 1B, 1C, 1D, 1E, 1F ;rok szkolny 2018/2019) - ZAKRES PODSTAWOWY - NOWA ERA. dostateczny (P) podstawowy

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Podstawowe techniki barwienia chromosomów

WYMAGANIA EDUKACYJNE BIOLOGIA NA CZASIE, ZAKRES PODSTAWOWY

WYMAGANIA EDUKACYJNE Z BIOLOGII, ZAKRES PODSTAWOWY 2018/19

Transkrypt:

ALEKSANDRA ŚWIERCZ

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Ekspresja genów http://genome.wellcome.ac.uk/doc_wtd020757.html A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 3

Co to jest mikromacierz? Mikromacierz DNA (określany także jako chip DNA) to zbiór, krótkich DNA przyczepionych do powierzchni szklanej płytki. Mikromacierzy można użyć do mierzenia poziomu ekspresji genów Każdy punkt na mikromacierzy zawiera specyficzną sekwencję DNA, która reprezentuje jeden z genów (sonda, ang. probe) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 5

Macierz ekspresji genów Geny/ sondy Próbki Próbka 1 Próbka 2 Próbka 3 Próbka 4 Próbka 5 1 0.25 0.30 0.70 1.53 0.90 2-0.12 0.30 0.45 0.12 0.40 3 0.13 0.46 0.75 0.32 0.53 4-0.16-0.43-0.65-0.79-0.32... Poziom ekspresji genu lub stosunek, dla genu i-tego w j-tej próbce mrna M= A= A. Świercz { { log 2 (red intensity/green intensity) Funkcja (PM,MM) MAS, dchip lub RMA ½ log 2 (red intensity*green intensity) Funkcja (PM,MM) MAS, dchip lub RMA ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 6

Różnice między eksperymentem mikromacierzowym a RNA-seq Przy użyciu mikromacierzy można badać poziom ekspresji znanych genów, natomiast wykorzystując RNA-seq można także wykryć nowe izoformy genów A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 7

RNA-seq razem z Ion Torent http://www.youtube.com/watch?v=v_4n8n5z6i8 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 8

Dlaczego RNA-seq zamiast DNA-seq? Badanie funkcjonalności Genom może być taki sam, ale warunki eksperymentalne mogą mieć wpływ na ekspresję genów (np. traktowanie komórek lekarstwem, vs niczym nietraktowane, lub mysz dzika vs zmieniona genetycznie) Niektóre zmiany mogą być widoczne dopiero na poziome RNA Alternatywne izoformy Fuzja transkryptów (trans-splicing, transcription-induced chimerism) Edytowanie RNA - zmiana informacji w transkrypcie RNA przez reakcję chemiczną powodującą zmianę jednej zasady azotowej w inną (C->U, A->I, Inozyna interpretowana jako G). Przewidywanie sekwencji transkryptów z sekwencji genomu jest trudne: Alternatywny transkrypt Edytowanie RNA A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 9

Dlaczego RNA-seq zamiast DNA-seq? Interpretacja, czy poszczególne mutacje mają wpływ na sekwencje białkową Mutacje regulujące które wpływają na to czy izoformy mrna ulegają ekspresji i jak dużej Czy mutacje wpływają na promotory, eksonowe/intronowe motywy, miejsca splicingowe? Wpływ na białka kodujące mutacje somatyczne (często heterozygotyczne) Jeśli gen nie ulega ekspresji, mutacja w takim genie będzie mniej interesująca Jeśli gen ulega ekspresji tylko z alleli dzikiego typu, może to sugerować na utratę funkcjonalności (haploinsufficiency) Jeśli allel mutanta ulega ekspresji, może to oznaczać kandydata na target dla leku A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 10

Do czego wykorzystywane jest RNA-seq? Badanie ekspresji genów oraz różnicowej ekspresji genów Wyszukiwanie alternatywnego splicingu w genach Odkrywanie nowych transkryptów/izoform Odkrywanie mutacji w genach Wykrywanie fuzji genów Edytowanie RNA (mutacje w RNA) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 11

Mikromacierze vs sekwencjonowanie Porównanie eksperymentów mikromacierzowych i RNA-seq pokazało, że: Jest duża zgodność w wynikach pomiędzy platformami, w szczególności pomiędzy wykrywaniem różnicowej ekspresji genów Platforma sekwencjonowania jest bardziej wrażliwa na wykrycie zmian, jest bardziej odporna na tło i różnice w powtórzeniach technicznych Zaletą RNA-seq jest porównanie poziomu ekspresji różnych genów między sobą (dla mikromacierzy można porównać ten sam gen między różnymi warunkami) Ograniczeniem RNA-seq jest natomiast wykrzywienie GC oraz niejednoznaczność w mapowaniu Większa jest moc statystyczna w wykrywaniu zmian, gdy odczyty występują w większej liczności A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 12

Sekwencjonowanie RNA po kolei RNA-seq Module, 2013, www.bioinformatics.ca A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 14

Trzy podejścia do mapowania RNA-seq A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 15

Trudności przy mapowaniu RNA Geny w genomach eukariotycznych zawierają introny, a sewkencje mrna są już ich pozbawione. Programy mapujące odczyty z eksperymentów RNA-seq muszą być w stanie dopasować sekwencje z przerwami Introny w genomach ssaków mają długość od 50 bp - 100,000 bp. Średnia długość transkryptu mrna u człowieka to 2227 bp Średnia długość eksonu to 235 bp Średnio w jednym genie jest 9 eksonów Około 20% odczytów które mapują się na łączeniach eksonów mapują się tylko na < 10 nukleotydach na drugim eksonie A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 16

Trudności przy mapowaniu RNA Część sekwencji pochodzi z przetworzonych pseudogenów, z których niektóre lub wszystkie introny zostały usunięte (może to spowodować nieprawidłowe mapowanie odczytów) Genom ludzki posiada 14tys pseudogenów Pseudogeny mają sekwencję bardzo podobną do funkcjonalnych genów zawierających introny. W większości przypadków nie ulegają transkrypcji Problem w mapowaniu wynika stąd że odczyty, które mapują się na łączeniu eksonów, będą się mapowały w całości dokładnie lub z niewielkim błędem do pseudogenów, które nie zawierają intronów. Jeśli metoda mapująca mapuje najpierw odczyty w całości, a resztę próbuje dopasować z podziałem na eksony, to pominie odczyty które w całości zmapowane zostały do pseudogenów A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 17

D. Kim, G. Pertea, C. Trapnell, H. Pimentel, R. Kelley, S.L. Salzberg TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions Genome Biology 2013, 14:R36 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 18

Trudności przy mapowaniu RNA Transkrypt badanego genomu może się różnić od genomu referencyjnego Różnice mogą być małe, typu SNP, insercje, delecje, niedopasowania Zmiany mogą być większe, rearanżacje chromosomowe przeniesienia dłuższych fragmentów, wiele kopii Małe zmiany nie wpływają znacznie na mapowanie trzeba dopuścić możliwość błędów w niedopasowaniu (może to niestety spowodować wiele miejsc mapowania) Większe zmiany: duże usunięcia, inwersje w obrębie tego samego chromosomu, oraz translokacje między-chromosomowe powodują że trudno znaleźć kolejne eksony genu fragment chrom. 2 fragment chrom. 5 W genomie badanym w stosunku do genomu referencyjnego część genu uległa translokacji oraz inwersji A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 19

TopHat2 pipeline Znane sygnały podziału eksonów GT-AG, GC-AG, AT-AC A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 20

A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 21

A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 22

Alamancos GP, Agirre E, Eyras E. (2014) Methods to study splicing from high-throughput RNA sequencing data. Methods Mol Biol 1126:357-97. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 24