Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego - część I - Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Plan wykładów -------------------------------------------------------- część I --------------------- Wstęp: - Sekwencjonowanie nowej generacji (NGS) - Przyrównanie do genomu referencyjnego - Formaty sekwencji (input) Wybór odpowiedniego środowiska i praca w nim Wizualizacja/ analiza sekwencji -------------------------------------------------------- część II -------------------- Wybór programów do: - przyrównywania sekwencji - do wizualizacji przyrównania Formaty sekwencji (output) 2

Sekwencjonowanie nowej generacji (NGS) Równoległe sekwencjonowanie wielu bardzo krótkich fragmentów DNA unieruchomionych na podłożu Sekwencjonowanie całych genomów! Efekt bardzo krótkie fragmenty (reads) Relatywnie tanie Relatywnie szybkie Platformy: Ilumina/Solexa, Roche, SOLiD 3

Przyrównanie do sekwencji referencyjnej złożenie krótkich fragmentów read ACTGGGGGGGAAAAA GGGAAAAATTTC GGGAACCTTTC CCTTTCTTTGGA reference ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT *Reads podsekwencje genomu referencyjnego 4

Sekwencja referencyjna (FASTA) - genom - część genomu - transkryptom 5

Krótkie fragmenty sekwencji (FASTQ) SRA FASTQ 6

FASTA A Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puryna) Y T C (pirymidyna) S G C (Silne oddziaływanie) W A T (słabe (ang. Weak) oddziaływanie) B G T C (nie A) (B jest po A) D G A T (nie C) (D jest po C) 7 H A C T (nie G) (H jest po G) V G C A (nie T) (V jest po U) N A G C T (którykolwiek, od ang. any)

FASTQ 8

Środowisko pracy Linux Dlaczego Linux? Dlaczego serwer? PRZYKŁADOWE KOMENDY: zcat ścieżka/plik.fastq.gz less zcat ścieżka/plik.fastq.gz wc l zcat ścieżka/plik.fastq.gz grep szukane znaki wc l zcat ścieżka/plik.fastq.gz head n 40000 > top_10000.fastq zcat ścieżka/plik.fastq.gz bottom n 40000 > bottom_10000.fastq 9

Modyfikacja sekwencji: wycinanie adaptorów usuwanie sekwencji o kiepskiej jakości FASTQ FASTA itp... 11

FASTQC Kontrola jakości danych (FASTQ, SAM, BAM) Graficzne przedstawienie sekwencji 12

Basic statistics www.bioinformatics.babraham.ac.uk/projects/fastqc/ 13

Per base sequence quality Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Ostrzeżenie niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 14

Per sequence quality scores Średnia jakość sekwencji Ostrzeżenie najczęściej obserwowane średnia jakość <27 Awaria najczęściej obserwowane średnia jakość< 20 15

Per base sequence content Proporcje zasad azotowych Ostrzeżenie różnica między A i T lub G i C > 10%, w którejkolwiek pozycji Awaria różnica między A i T lub G i C > 20%, w którejkolwiek pozycji 16

Per base GC content Odchylenie od średniej wartości dla każdej pozycji Ostrzeżenie odchylenie od średniej wartości GC > 5% Awaria odchylenie od średniej wartości GC > 10% 17

Per sequence GC content Ostrzeżenie suma odchyleń od rozkładu normalnego > 15% Awaria suma odchyleń od rozkładu normalnego > 30% 18

Per base N content Ostrzeżenie dowolna pozycja pokazuje zawartość N> 5%. Awaria dowolna pozycja pokazuje zawartość N> 20%. 19

Sequence Length Distribution Ostrzeżenie sekwencje nie są tej samej długości. Awaria którakolwiek sekwencja ma długość 0 20

Sequence Duplication Levels Ostrzeżenie sekwencje nieunikalne >20% Awaria sekwencje nieunikalne >50% 21

Overrepresented sequences Ostrzeżenie którakolwiek sekwencja występuje > 0,1% Awaria którakolwiek sekwencja występuje > 1% No overrepresented sequences 22

- Koniec części I - 23