Badania asocjacyjne w skali genomu (GWAS)

Podobne dokumenty
Badania asocjacyjne w skali genomu (GWAS)

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Elementy statystyki wielowymiarowej

Modelowanie danych hodowlanych

Prawdopodobieństwo i statystyka

WSTĘP. Copyright 2011, Joanna Szyda

Statystyka i eksploracja danych

Pytania i odpowiedzi

Analiza składowych głównych. Wprowadzenie

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza składowych głównych

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Stosowana Analiza Regresji

PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY

Wykład 10 Skalowanie wielowymiarowe

Mapowanie genów cz owieka. podstawy

Zmienne zależne i niezależne

KORELACJE I REGRESJA LINIOWA

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

ANALIZA CZYNNIKOWA Przykład 1

Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe.

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

ZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI. Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt

GENETYKA POPULACJI. Ćwiczenia 1 Biologia I MGR /

Ekologia molekularna. wykład 3

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Metoda największej wiarygodności

STATYSTYKA MATEMATYCZNA

Ocena wartości hodowlanej. Dr Agnieszka Suchecka

Statystyczna analiza danych

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Szacowanie wartości hodowlanej. Zarządzanie populacjami

10. Redukcja wymiaru - metoda PCA

Anna Szewczyk. Wydział Geodezji Górniczej i InŜynierii środowiska AGH

Analiza sprzężeń u człowieka. Podstawy

BIOINFORMATYKA 8. Analiza asocjacyjna - teoria

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

5. Rozwiązywanie układów równań liniowych

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

METODY STATYSTYCZNE W BIOLOGII

TRANSFORMACJE I JAKOŚĆ DANYCH

Spokrewnienie prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami IBD. IBD = identical by descent, geny identycznego pochodzenia

CELE ANALIZY CZYNNIKOWEJ

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Analiza współzależności dwóch cech I

STATYSTYKA MATEMATYCZNA

MODELE LINIOWE. Dr Wioleta Drobik

Skalowanie wielowymiarowe idea

Analiza sprzężeń u człowieka. Podstawy

Agnieszka Nowak Brzezińska

Oprogramowanie dla GWAS

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza sprzężeń u człowieka. Podstawy

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Pytania i odpowiedzi

PDF created with FinePrint pdffactory Pro trial version

ZARZĄDZANIE POPULACJAMI ZWIERZĄT

Ekologia molekularna. wykład 14. Genetyka ilościowa

Analiza sprzężeń u człowieka. Podstawy

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Stosowana Analiza Regresji

SPOTKANIE 9: Metody redukcji wymiarów

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

UKŁADY RÓWNAŃ LINIOWYCH

Podstawy genetyki populacji. Genetyka mendlowska i ewolucja. Dobór i dryf.

Modelowanie danych hodowlanych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Wprowadzenie do analizy korelacji i regresji

Hierarchiczna analiza skupień

STATYSTYKA I DOŚWIADCZALNICTWO

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

2. CZYNNIKI ZABURZAJĄCE RÓWNOWAGĘ GENETYCZNĄ

Wykład 14. Elementy algebry macierzy

CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

φ(x 1,..., x n ) = a i x 2 i +

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Informatyka w selekcji - Wykªad 1

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Wykład 4. Informatyka Stosowana. Magdalena Alama-Bućko. 25 marca Magdalena Alama-Bućko Wykład 4 25 marca / 25

Wprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Ekologia molekularna. wykład 10

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

Wpływ struktury krajobrazu na przestrzenną zmienność genetyczną populacji myszy leśnej Apodemus flavicollis w północno wschodniej Polsce

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Matematyka stosowana i metody numeryczne

ANALIZA REGRESJI SPSS

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Transkrypt:

Badania asocjacyjne w skali genomu (GWAS) Część 2 LD, PCA Bioinżynieria, I mgr Bioinformatyczna analiza danych Wykład 3 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Analiza głównych składowych ang. principal component analysis (PCA) Umożliwia wykrycie różnic we frekwencji alleli pomiędzy subpopulacjami Różnice pomiędzy subpopulacjami są przedstawione za pomocą tzw. głównych składowych a nie frekwencji pojedynczych markerów Populacje z Azji wschodniej wg. Patterson i wsp., 2006

Po co wykonywać analizę głównych składowych? Genotyp Związek którego szukamy Cecha związek związek Pochodzenie Pochodzenie jest tzw. zmienną zakłócającą. Jest skorelowane zarówno ze zmienną objaśnianą (cecha) oraz objaśniającą (genotyp). Może zmienić wynik analizy jeżeli nie zostanie w niej uwzględnione.

Po co wykonywać analizę głównych składowych? Subpopulacja 1 Subpopulacja 2 Próba Próby eksperymentalne Próby kontrolne

PCA przed GWAS Struktura populacji na podstawie frekwencji alleli z chromosomów autosomalnych Wybieramy podzbiór markerów, które nie są ze sobą skorelowane (sprzężone) Analizujemy nierównowagę sprzężęń (ang. linkage disequilibrium LD) Do PCA zachowujemy jedynie markery, które segregują niezależnie (wg z góry ustalonego progu), pozostałe są usuwane

LD prunning Nierównowaga sprzężeń a GWAS Wymagane przed PCA polega na usunięciu markerów, które są ze sobą silnie sprzężone (np. max r 2 przyjęte jako 0.2) Ostateczna analiza GWAS przeprowadzana jest na pełnym zestawie markerów

Nierównowaga sprzężeń Linkage disequilibrium (LD) Nierównowaga sprzężeń jest nielosową asocjacją dwóch lub więcej markerów wynikającą z ich segregacji we wspólnym haplotypie Jeżeli brak jest zależności pomiędzy dwoma loci określa się je jako będące w równowadze sprzężeń Głównym czynnikiem kształtującym LD w poszczególnych regionach genomu jest lokalna częstość rekombinacji. W obrębie genomu istnieją również tzw. gorące miejsca rekombinacji (ang. recombination hot spots) Nierównowaga sprzężeń - współwystępowanie alleli w dwóch lub więcej loci z częstością wyższą (lub niższą) niż częstość oczekiwana na podstawie proporcji tych alleli w populacji

Haplotyp Pochodzi od słowa haploid Segment genomu, o wspólnym pochodzeniu filogenetycznym, w obrębie którego rzadko zachodzi rekombinacja Termin może się odnosić: grupy genów dziedziczonych wspólnie od jednego z rodziców: może uwzględniać zarówno dwa geny jak i cały chromosom alleli markerów (SNP, STR, itp.)dziedziczonych wspólnie w jakimś fragmencie genomu Źródło schematu: www.brown.edu

Nierównowaga sprzężeń Linkage disequilibrium (LD) Bush WS, Moore JH. 2012. Plos ONE.

Miary nierównowagi sprzężeń D różnica między oczekiwaną frekwencją haplotypu a frekwencją obserwowaną. Miara silnie zależna od frekwencji alleli. Zakres od -1 do 1. Wzór: D AB = p AB - p A p B D standaryzowane D. Zakres od 0 do 1. Wzor: D =D/D max 2 lub r 2 korelacja wystąpień alleli z dwóch różnych loci. Zakres od 0 do 1. Wzór: r 2 = D/(p 1 p 2 q 1 q 2 )^0.5 Przyjmuje wartość 1 przy pełnym sprzężeniu oraz 0 przy ich niezależnej segregacji. Zaletą jest mała wrażliwość na różnice we frekwencji alleli pomiędzy markerami.

Nierównowaga sprzężeń Linkage disequilibrium (LD) Jak wyznaczyć miarę D dla dwóch loci? B Locus B b Razem A p AB p Ab p A Locus A a p ab p ab p a Razem p B p b 1 p AB frekwencja haplotypu AB p A frekwencja allelu A a, b allele rzadkie D AB = p AB - p A p B p AB = p A p B jest oczekiwane dla loci będących w równowadze sprzężeń

Analiza głównych składowych Polega na wykryciu wewnętrznej struktury w danych Służy przede wszystkim do redukcji zmiennych w modelu, a nie ich usuwania Przykład: Trójkąty przedstawiają pojedyncze obserwacje Jak przeprowadzić linię prostą aby uchwycić za jej pomocą jak najwięcej zmienności? Źrodło schematów: https://georgemdallas.wordpress.com/2013/10/30/principalcomponent-analysis-4-dummies-eigenvectors-eigenvalues-and-dimension-reduction/

Jaki będzie pierwszy główny komponent?

Nowe współrzędne Metoda polega na zmianie wymiarów, patrzymy na dane z nowej perspektywy, ale nie możemy stworzyć dodatkowego wymiaru Nowe osie muszą być do siebie prostopadłe!

Redukcja wymiarów

Nowe współrzędne Co uzyskaliśmy? Czy nowe współrzędne mają sens?

Jak podsumować dwie zmienne w jedną, aby stracić jak najmniej informacji? Nowa linia jest liniową kombinacją dwóch zmiennych Zasady: maksymalizujemy wariancję (rozrzut wzdłuż linii), jak najmniejsza wartość błędu dopasowania (suma długości czerwonych linie)

Podstawy statystyczne Wariancja dotyczy jednej zmiennej (jednego wymiaru) Kowariancja dotyczy dwóch zmiennych (dwóch wymiarów) Co oznacza kowariancja dodatnia, ujemna, równa 0? Czy cov(x,y) jest równy cov(y,x)

Macierz kowariancji Wariancja zmiennej x Kowariancja Kowariancja Wariancja zmiennej y

Algebra macierzy Wektor a macierz Wektor jednokolumnowa macierz Schemat: http://www.matmana6.pl/ Macierz prostokątna A o m wierszach i n kolumnach, oznaczaną [a ij ] m n :

Algebra macierzy Mnożenie macierzy przez wektor

Wektory własne macierzy (eigenwektory) Czym są eigenwektory? Dostępne tylko dla macierzy kwadratowych n x n To nie jest eigenwektor Nowy wektor po transformacji To jest eigenwektor

Wektory własne macierzy (eigenwektory) 8 Powstały wektor (11 5) nie jest wielokrotnością wektora przez który mnożyliśmy (1 3) 6 Wektor (11 5) 4 2 1 Wektor (1 3) 1 3 6 9 12

Wektory własne macierzy (eigenwektory) Powstały wektor (12 8) jest wielokrotnością wektora przez który mnożyliśmy (3 2) 8 Wektor (12 8) 6 4 2 1 Wektor (3 2) 1 3 6 9 12

Wektory własne macierzy (eigenwektory) Wektor, który po przeskalowaniu wskazuje ten sam kierunek jest wektorem własnym (eigenwektorem). Mnożenie przez macierz dla której został wyznaczony może go wydłużyć, skrócić lub zmienić zwrot. Mogą zostać zidentyfikowane jedynie dla macierzy kwadratowej (n x n) Nie wszystkie macierze kwadratowe posiadają eigenwektory Jeżeli macierz n x n posiada eigenwektory ich liczba wynosi n Np. macierz 3 x 3 będzie posiadała 3 eigenwektory Eigenwektory są wzajemnie ortogonalne (nieskorelowane)

Wartości własne Wartość własna eigenwektora, to stała, która x-razy zwiększa lub zmniejsza jego długość Każdy eigenwektor ma korespondujące do niego wartości własne czyli wartości informujące nas jak dużo zmienności jest w danych Eigenwektor z najwyższą wartością własną jest tzw. głównym komponentem (ang. principal component)

Jak znaleźć wektory i wartości własne macierzy? Wzór na macierz A λ =A-λI gdzie λ jest niewiadomą, natomiast I jest macierzą jednostkową (1 na przekątnej oraz 0) Wyznacznik macierzy A λ Przyrównujemy wyznacznik macierzy A λ do zera i rozwiązujemy Wartości własne macierzy podstawiamy do wzoru A λ X=0, gdzie X jest szukanym wektorem. Rozwiązaniem będzie zbiór wektorów własnych. Przykład pochodzi z portalu etrapez.pl

Analiza głównych składowych (PCA) Dla dwóch zmiennych Przykładowe dane: Etap 1: Odejmujemy średnią Dane pochodzą ze Smith L. 2002. A tutorial on Principal Components Analysis.

Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 2 wyliczamy macierz kowariancji Co się stanie ze zmienną y jeżeli zmienna x będzie rosła? Etap 3 Wyznaczamy eigenwektory i ich wartości własne dla macierzy kowariancji 1 2 1 2

Eigenwektor 1 Eigenwektor 2

Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 4 Sprawdzamy wartości własne eigenwektorów i formułujemy macierz z eigenwektorami które chcemy zostawić (lub wszystkimi) Etap 5 Transformujemy dane przez eigenwektory Dane po transformacji: (Macierz z eigenwektorami) T x (Macierz z danymi po odjęciu średniej) T Otrzymujemy dane po transformacji przez eignewektor(y), który(e) wybraliśmy

Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując wszystkie eigenwektory można wrócić do danych wyjściowych bez utraty informacji

Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując tylko pierwszy eigenwektor można wrócić do danych wyjściowych, ale tracimy informację

Skalowanie wielowymiarowe (MDS) ang. multidimensional scaling Jest klasą metod, stosowaną do redukcji wymiarów Dąży do rozmieszczenia obiektów jako punktów w przestrzeni niskowymiarowej w taki sposób, aby obiekty podobne do siebie (w oryginalnym zbiorze danych) znajdowały się blisko siebie Zamiast na macierzy kowariancji (jak w PCA) bazuje na tzw. macierzy dystansów W genetyce będzie to macierz dystansów genetycznych Nie zakłada liniowych zależności pomiędzy zmiennymi Dla danych ilościowych daje dokładnie takie same wyniki jak PCA jeżeli używane są odległości euklidesowe zamiast macierzy kowariancji

GWAS dla danych z wyraźnym podziałem na subpopulacje - Co zamiast PCA? Bardziej zaawansowanym rozwiązaniem jest uwzględnienie całej macierzy spokrewnień genomowych (ang. Genomic Relationship Matrix) Modele mieszane w GWAS: 1. Wyznaczamy macierz spokrewnień genomowych dla wszystkich osobników w populacji 2. Uwzględniamy macierz spokrewnień jako efekt losowy w modelu regresji 3. Dodatkowo możemy uwzględnić również komponenty z PCA oraz inne czynniki jako efekty stałe

Dziękuję za uwagę Literatura Smith L. 2002. A tutorial on Principal Components Analysis. Dostępny online. Patterson N, Price AL., Reich D. 2006. Population Structure and Eigenanalysis. Plos ONE. Turner S, Armstrong LL, Bradford Y et al. 2012. Quality Control Procedures for Genome Wide Association Studies. Curr Protoc Hum Genet.