Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Podobne dokumenty
Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS


ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

BASH - WPROWADZENIE Bioinformatyka 4

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

PRACOWNIA INFORMATYCZNA CHARAKTERYSTYKA PRZEDMIOTU BASH - PODSTAWOWE INFORMACJE

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

PODSTAWY BIOINFORMATYKI WYKŁAD 2 SEKWENCJONOWANIE GENOMÓW

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Pracownia Informatyczna I ORGANIZACJA ZAJĘĆ, ZASADY ZALICZENIA

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Zakłady Azotowe w Tarnowie-Mościcach S.A. ul. E. Kwiatkowskiego Tarnów t: f:

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

System operacyjny Linux wybrane zagadnienia. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Sekwencjonowanie, przewidywanie genów

Statystyki opisowe i szeregi rozdzielcze

Analizy wielkoskalowe w badaniach chromatyny

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

INFORMATYKA W SELEKCJI

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Bioinformatyczne bazy danych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyczne bazy danych

MARKERY MIKROSATELITARNE

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

SPRAWDZIAN NR 1 ROBERT KOPERCZAK, ID studenta : k4342

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

liczba punktów Wykres 1. Rozkład wyników części I etapu pisemnego dla zawodu technik mechatronik w skali kraju

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

PODSTAWY BIOINFORMATYKI

Przeglądarki genomowe

Bioinformatyka Laboratorium, 30h. Michał Bereta

Z-LOGN1-006 Statystyka Statistics

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

PAKIETY STATYSTYCZNE

BASH - LINIA POLECEŃ. Bioinformatyka 2018/2019

AVARUS Benchmark cen zakupu

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

PRACOWNIA INFORMATYCZNA BASH - PODSTAWOWE INFORMACJE

Metody badania polimorfizmu/mutacji DNA. Aleksandra Sałagacka Pracownia Diagnostyki Molekularnej i Farmakogenomiki Uniwersytet Medyczny w Łodzi

Podstawy bioinformatyki - biologiczne bazy danych

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

PAKIETY STATYSTYCZNE

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Scenariusz lekcji przyrody/biologii (2 jednostki lekcyjne)

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

DHPLC. Denaturing high performance liquid chromatography. Wiktoria Stańczyk Zofia Kołeczko

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

I.1.1. Technik informatyk 312[01]

1. System analizy danych NGS z paneli genów

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

PL B1. Sposób amplifikacji DNA w łańcuchowej reakcji polimerazy za pomocą starterów specyficznych dla genu receptora 2-adrenergicznego

Bash - wprowadzenie. Bash - wprowadzenie 1/39

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

PAKIETY STATYSTYCZNE 5. SAS wprowadzenie - środowisko Windows

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

SPRAWOZDANIE Z EGZAMINU GIMNAZJALNEGO PRZEPROWADZONEGO W SZKOŁACH DLA DOROSŁYCH W STYCZNIU 2017 ROKU OKRĘGOWA KOMISJA EGZAMINACYJNA W WARSZAWIE

Statystyka matematyczna i ekonometria

ENZYMY RESTRYKCYJNE ENZYMY RESTRYKCYJNE CZYM RÓŻNIĄ SIĘ POSZCZEGÓLNE ENZYMY? nazewnictwo: EcoRV

Zmienność. środa, 23 listopada 11

Najbardziej Wiarygodny, Nieinwazyjny Test Prenatalny wykonywany w Polsce Test NIFTY : tylko mała próbka krwi ciężarnej

Porównywanie i dopasowywanie sekwencji

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

I.1.1. Technik elektronik 311[07]

GENETYKA POPULACJI. Ćwiczenia 5 Biologia I MGR

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

Laboratorium 3 - statystyka opisowa

Analizy wariancji ANOVA (analysis of variance)

I Krajowy Zjazd Szkoleniowy PTORLChGiSz

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Skrypt Bioinformatyka DRAFT Strona 67

Ekologia molekularna. wykład 11

Wprowadzenie do Pakietu R dla kierunku Zootechnika. Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Transkrypt:

pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego - część I - Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Plan wykładów -------------------------------------------------------- część I --------------------- Wstęp: - Sekwencjonowanie nowej generacji (NGS) - Przyrównanie do genomu referencyjnego - Formaty sekwencji (input) Wybór odpowiedniego środowiska i praca w nim Wizualizacja/ analiza sekwencji -------------------------------------------------------- część II -------------------- Wybór programów do: - przyrównywania sekwencji - do wizualizacji przyrównania Formaty sekwencji (output) 2

Sekwencjonowanie nowej generacji (NGS) Równoległe sekwencjonowanie wielu bardzo krótkich fragmentów DNA unieruchomionych na podłożu Sekwencjonowanie całych genomów! Efekt bardzo krótkie fragmenty (reads) Relatywnie tanie Relatywnie szybkie Platformy: Ilumina/Solexa, Roche, SOLiD 3

Przyrównanie do sekwencji referencyjnej złożenie krótkich fragmentów read ACTGGGGGGGAAAAA GGGAAAAATTTC GGGAACCTTTC CCTTTCTTTGGA reference ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT *Reads podsekwencje genomu referencyjnego 4

Sekwencja referencyjna (FASTA) - genom - część genomu - transkryptom 5

Krótkie fragmenty sekwencji (FASTQ) SRA FASTQ 6

FASTA A Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puryna) Y T C (pirymidyna) S G C (Silne oddziaływanie) W A T (słabe (ang. Weak) oddziaływanie) B G T C (nie A) (B jest po A) D G A T (nie C) (D jest po C) 7 H A C T (nie G) (H jest po G) V G C A (nie T) (V jest po U) N A G C T (którykolwiek, od ang. any)

FASTQ 8

Środowisko pracy Linux Dlaczego Linux? Dlaczego serwer? PRZYKŁADOWE KOMENDY: zcat ścieżka/plik.fastq.gz less zcat ścieżka/plik.fastq.gz wc l zcat ścieżka/plik.fastq.gz grep szukane znaki wc l zcat ścieżka/plik.fastq.gz head n 40000 > top_10000.fastq zcat ścieżka/plik.fastq.gz bottom n 40000 > bottom_10000.fastq 9

10

Modyfikacja sekwencji: wycinanie adaptorów usuwanie sekwencji o kiepskiej jakości FASTQ FASTA itp... 11

FASTQC Kontrola jakości danych (FASTQ, SAM, BAM) Graficzne przedstawienie sekwencji 12

Basic statistics www.bioinformatics.babraham.ac.uk/projects/fastqc/ 13

Per base sequence quality Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Ostrzeżenie niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 14

Per sequence quality scores Średnia jakość sekwencji Ostrzeżenie najczęściej obserwowane średnia jakość <27 Awaria najczęściej obserwowane średnia jakość< 20 15

Per base sequence content Proporcje zasad azotowych Ostrzeżenie różnica między A i T lub G i C > 10%, w którejkolwiek pozycji Awaria różnica między A i T lub G i C > 20%, w którejkolwiek pozycji 16

Per base GC content Odchylenie od średniej wartości dla każdej pozycji Ostrzeżenie odchylenie od średniej wartości GC > 5% Awaria odchylenie od średniej wartości GC > 10% 17

Per sequence GC content Ostrzeżenie suma odchyleń od rozkładu normalnego > 15% Awaria suma odchyleń od rozkładu normalnego > 30% 18

Per base N content Ostrzeżenie dowolna pozycja pokazuje zawartość N> 5%. Awaria dowolna pozycja pokazuje zawartość N> 20%. 19

Sequence Length Distribution Ostrzeżenie sekwencje nie są tej samej długości. Awaria którakolwiek sekwencja ma długość 0 20

Sequence Duplication Levels Ostrzeżenie sekwencje nieunikalne >20% Awaria sekwencje nieunikalne >50% 21

Overrepresented sequences Ostrzeżenie którakolwiek sekwencja występuje > 0,1% Awaria którakolwiek sekwencja występuje > 1% No overrepresented sequences 22

- Koniec części I - 23