pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego - część I - Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Plan wykładów -------------------------------------------------------- część I --------------------- Wstęp: - Sekwencjonowanie nowej generacji (NGS) - Przyrównanie do genomu referencyjnego - Formaty sekwencji (input) Wybór odpowiedniego środowiska i praca w nim Wizualizacja/ analiza sekwencji -------------------------------------------------------- część II -------------------- Wybór programów do: - przyrównywania sekwencji - do wizualizacji przyrównania Formaty sekwencji (output) 2
Sekwencjonowanie nowej generacji (NGS) Równoległe sekwencjonowanie wielu bardzo krótkich fragmentów DNA unieruchomionych na podłożu Sekwencjonowanie całych genomów! Efekt bardzo krótkie fragmenty (reads) Relatywnie tanie Relatywnie szybkie Platformy: Ilumina/Solexa, Roche, SOLiD 3
Przyrównanie do sekwencji referencyjnej złożenie krótkich fragmentów read ACTGGGGGGGAAAAA GGGAAAAATTTC GGGAACCTTTC CCTTTCTTTGGA reference ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT *Reads podsekwencje genomu referencyjnego 4
Sekwencja referencyjna (FASTA) - genom - część genomu - transkryptom 5
Krótkie fragmenty sekwencji (FASTQ) SRA FASTQ 6
FASTA A Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puryna) Y T C (pirymidyna) S G C (Silne oddziaływanie) W A T (słabe (ang. Weak) oddziaływanie) B G T C (nie A) (B jest po A) D G A T (nie C) (D jest po C) 7 H A C T (nie G) (H jest po G) V G C A (nie T) (V jest po U) N A G C T (którykolwiek, od ang. any)
FASTQ 8
Środowisko pracy Linux Dlaczego Linux? Dlaczego serwer? PRZYKŁADOWE KOMENDY: zcat ścieżka/plik.fastq.gz less zcat ścieżka/plik.fastq.gz wc l zcat ścieżka/plik.fastq.gz grep szukane znaki wc l zcat ścieżka/plik.fastq.gz head n 40000 > top_10000.fastq zcat ścieżka/plik.fastq.gz bottom n 40000 > bottom_10000.fastq 9
10
Modyfikacja sekwencji: wycinanie adaptorów usuwanie sekwencji o kiepskiej jakości FASTQ FASTA itp... 11
FASTQC Kontrola jakości danych (FASTQ, SAM, BAM) Graficzne przedstawienie sekwencji 12
Basic statistics www.bioinformatics.babraham.ac.uk/projects/fastqc/ 13
Per base sequence quality Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Ostrzeżenie niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 14
Per sequence quality scores Średnia jakość sekwencji Ostrzeżenie najczęściej obserwowane średnia jakość <27 Awaria najczęściej obserwowane średnia jakość< 20 15
Per base sequence content Proporcje zasad azotowych Ostrzeżenie różnica między A i T lub G i C > 10%, w którejkolwiek pozycji Awaria różnica między A i T lub G i C > 20%, w którejkolwiek pozycji 16
Per base GC content Odchylenie od średniej wartości dla każdej pozycji Ostrzeżenie odchylenie od średniej wartości GC > 5% Awaria odchylenie od średniej wartości GC > 10% 17
Per sequence GC content Ostrzeżenie suma odchyleń od rozkładu normalnego > 15% Awaria suma odchyleń od rozkładu normalnego > 30% 18
Per base N content Ostrzeżenie dowolna pozycja pokazuje zawartość N> 5%. Awaria dowolna pozycja pokazuje zawartość N> 20%. 19
Sequence Length Distribution Ostrzeżenie sekwencje nie są tej samej długości. Awaria którakolwiek sekwencja ma długość 0 20
Sequence Duplication Levels Ostrzeżenie sekwencje nieunikalne >20% Awaria sekwencje nieunikalne >50% 21
Overrepresented sequences Ostrzeżenie którakolwiek sekwencja występuje > 0,1% Awaria którakolwiek sekwencja występuje > 1% No overrepresented sequences 22
- Koniec części I - 23