Badania asocjacyjne w skali genomu (GWAS) Część 2 LD, PCA Bioinżynieria, I mgr Bioinformatyczna analiza danych Wykład 3 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt
Analiza głównych składowych ang. principal component analysis (PCA) Umożliwia wykrycie różnic we frekwencji alleli pomiędzy subpopulacjami Różnice pomiędzy subpopulacjami są przedstawione za pomocą tzw. głównych składowych a nie frekwencji pojedynczych markerów Populacje z Azji wschodniej wg. Patterson i wsp., 2006
Po co wykonywać analizę głównych składowych? Genotyp Związek którego szukamy Cecha związek związek Pochodzenie Pochodzenie jest tzw. zmienną zakłócającą. Jest skorelowane zarówno ze zmienną objaśnianą (cecha) oraz objaśniającą (genotyp). Może zmienić wynik analizy jeżeli nie zostanie w niej uwzględnione.
Po co wykonywać analizę głównych składowych? Subpopulacja 1 Subpopulacja 2 Próba Próby eksperymentalne Próby kontrolne
PCA przed GWAS Struktura populacji na podstawie frekwencji alleli z chromosomów autosomalnych Wybieramy podzbiór markerów, które nie są ze sobą skorelowane (sprzężone) Analizujemy nierównowagę sprzężęń (ang. linkage disequilibrium LD) Do PCA zachowujemy jedynie markery, które segregują niezależnie (wg z góry ustalonego progu), pozostałe są usuwane
LD prunning Nierównowaga sprzężeń a GWAS Wymagane przed PCA polega na usunięciu markerów, które są ze sobą silnie sprzężone (np. max r 2 przyjęte jako 0.2) Ostateczna analiza GWAS przeprowadzana jest na pełnym zestawie markerów
Nierównowaga sprzężeń Linkage disequilibrium (LD) Nierównowaga sprzężeń jest nielosową asocjacją dwóch lub więcej markerów wynikającą z ich segregacji we wspólnym haplotypie Jeżeli brak jest zależności pomiędzy dwoma loci określa się je jako będące w równowadze sprzężeń Głównym czynnikiem kształtującym LD w poszczególnych regionach genomu jest lokalna częstość rekombinacji. W obrębie genomu istnieją również tzw. gorące miejsca rekombinacji (ang. recombination hot spots) Nierównowaga sprzężeń - współwystępowanie alleli w dwóch lub więcej loci z częstością wyższą (lub niższą) niż częstość oczekiwana na podstawie proporcji tych alleli w populacji
Haplotyp Pochodzi od słowa haploid Segment genomu, o wspólnym pochodzeniu filogenetycznym, w obrębie którego rzadko zachodzi rekombinacja Termin może się odnosić: grupy genów dziedziczonych wspólnie od jednego z rodziców: może uwzględniać zarówno dwa geny jak i cały chromosom alleli markerów (SNP, STR, itp.)dziedziczonych wspólnie w jakimś fragmencie genomu Źródło schematu: www.brown.edu
Nierównowaga sprzężeń Linkage disequilibrium (LD) Bush WS, Moore JH. 2012. Plos ONE.
Miary nierównowagi sprzężeń D różnica między oczekiwaną frekwencją haplotypu a frekwencją obserwowaną. Miara silnie zależna od frekwencji alleli. Zakres od -1 do 1. Wzór: D AB = p AB - p A p B D standaryzowane D. Zakres od 0 do 1. Wzor: D =D/D max 2 lub r 2 korelacja wystąpień alleli z dwóch różnych loci. Zakres od 0 do 1. Wzór: r 2 = D/(p 1 p 2 q 1 q 2 )^0.5 Przyjmuje wartość 1 przy pełnym sprzężeniu oraz 0 przy ich niezależnej segregacji. Zaletą jest mała wrażliwość na różnice we frekwencji alleli pomiędzy markerami.
Nierównowaga sprzężeń Linkage disequilibrium (LD) Jak wyznaczyć miarę D dla dwóch loci? B Locus B b Razem A p AB p Ab p A Locus A a p ab p ab p a Razem p B p b 1 p AB frekwencja haplotypu AB p A frekwencja allelu A a, b allele rzadkie D AB = p AB - p A p B p AB = p A p B jest oczekiwane dla loci będących w równowadze sprzężeń
Analiza głównych składowych Polega na wykryciu wewnętrznej struktury w danych Służy przede wszystkim do redukcji zmiennych w modelu, a nie ich usuwania Przykład: Trójkąty przedstawiają pojedyncze obserwacje Jak przeprowadzić linię prostą aby uchwycić za jej pomocą jak najwięcej zmienności? Źrodło schematów: https://georgemdallas.wordpress.com/2013/10/30/principalcomponent-analysis-4-dummies-eigenvectors-eigenvalues-and-dimension-reduction/
Jaki będzie pierwszy główny komponent?
Nowe współrzędne Metoda polega na zmianie wymiarów, patrzymy na dane z nowej perspektywy, ale nie możemy stworzyć dodatkowego wymiaru Nowe osie muszą być do siebie prostopadłe!
Redukcja wymiarów
Nowe współrzędne Co uzyskaliśmy? Czy nowe współrzędne mają sens?
Jak podsumować dwie zmienne w jedną, aby stracić jak najmniej informacji? Nowa linia jest liniową kombinacją dwóch zmiennych Zasady: maksymalizujemy wariancję (rozrzut wzdłuż linii), jak najmniejsza wartość błędu dopasowania (suma długości czerwonych linie)
Podstawy statystyczne Wariancja dotyczy jednej zmiennej (jednego wymiaru) Kowariancja dotyczy dwóch zmiennych (dwóch wymiarów) Co oznacza kowariancja dodatnia, ujemna, równa 0? Czy cov(x,y) jest równy cov(y,x)
Macierz kowariancji Wariancja zmiennej x Kowariancja Kowariancja Wariancja zmiennej y
Algebra macierzy Wektor a macierz Wektor jednokolumnowa macierz Schemat: http://www.matmana6.pl/ Macierz prostokątna A o m wierszach i n kolumnach, oznaczaną [a ij ] m n :
Algebra macierzy Mnożenie macierzy przez wektor
Wektory własne macierzy (eigenwektory) Czym są eigenwektory? Dostępne tylko dla macierzy kwadratowych n x n To nie jest eigenwektor Nowy wektor po transformacji To jest eigenwektor
Wektory własne macierzy (eigenwektory) 8 Powstały wektor (11 5) nie jest wielokrotnością wektora przez który mnożyliśmy (1 3) 6 Wektor (11 5) 4 2 1 Wektor (1 3) 1 3 6 9 12
Wektory własne macierzy (eigenwektory) Powstały wektor (12 8) jest wielokrotnością wektora przez który mnożyliśmy (3 2) 8 Wektor (12 8) 6 4 2 1 Wektor (3 2) 1 3 6 9 12
Wektory własne macierzy (eigenwektory) Wektor, który po przeskalowaniu wskazuje ten sam kierunek jest wektorem własnym (eigenwektorem). Mnożenie przez macierz dla której został wyznaczony może go wydłużyć, skrócić lub zmienić zwrot. Mogą zostać zidentyfikowane jedynie dla macierzy kwadratowej (n x n) Nie wszystkie macierze kwadratowe posiadają eigenwektory Jeżeli macierz n x n posiada eigenwektory ich liczba wynosi n Np. macierz 3 x 3 będzie posiadała 3 eigenwektory Eigenwektory są wzajemnie ortogonalne (nieskorelowane)
Wartości własne Wartość własna eigenwektora, to stała, która x-razy zwiększa lub zmniejsza jego długość Każdy eigenwektor ma korespondujące do niego wartości własne czyli wartości informujące nas jak dużo zmienności jest w danych Eigenwektor z najwyższą wartością własną jest tzw. głównym komponentem (ang. principal component)
Jak znaleźć wektory i wartości własne macierzy? Wzór na macierz A λ =A-λI gdzie λ jest niewiadomą, natomiast I jest macierzą jednostkową (1 na przekątnej oraz 0) Wyznacznik macierzy A λ Przyrównujemy wyznacznik macierzy A λ do zera i rozwiązujemy Wartości własne macierzy podstawiamy do wzoru A λ X=0, gdzie X jest szukanym wektorem. Rozwiązaniem będzie zbiór wektorów własnych. Przykład pochodzi z portalu etrapez.pl
Analiza głównych składowych (PCA) Dla dwóch zmiennych Przykładowe dane: Etap 1: Odejmujemy średnią Dane pochodzą ze Smith L. 2002. A tutorial on Principal Components Analysis.
Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 2 wyliczamy macierz kowariancji Co się stanie ze zmienną y jeżeli zmienna x będzie rosła? Etap 3 Wyznaczamy eigenwektory i ich wartości własne dla macierzy kowariancji 1 2 1 2
Eigenwektor 1 Eigenwektor 2
Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 4 Sprawdzamy wartości własne eigenwektorów i formułujemy macierz z eigenwektorami które chcemy zostawić (lub wszystkimi) Etap 5 Transformujemy dane przez eigenwektory Dane po transformacji: (Macierz z eigenwektorami) T x (Macierz z danymi po odjęciu średniej) T Otrzymujemy dane po transformacji przez eignewektor(y), który(e) wybraliśmy
Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując wszystkie eigenwektory można wrócić do danych wyjściowych bez utraty informacji
Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując tylko pierwszy eigenwektor można wrócić do danych wyjściowych, ale tracimy informację
Skalowanie wielowymiarowe (MDS) ang. multidimensional scaling Jest klasą metod, stosowaną do redukcji wymiarów Dąży do rozmieszczenia obiektów jako punktów w przestrzeni niskowymiarowej w taki sposób, aby obiekty podobne do siebie (w oryginalnym zbiorze danych) znajdowały się blisko siebie Zamiast na macierzy kowariancji (jak w PCA) bazuje na tzw. macierzy dystansów W genetyce będzie to macierz dystansów genetycznych Nie zakłada liniowych zależności pomiędzy zmiennymi Dla danych ilościowych daje dokładnie takie same wyniki jak PCA jeżeli używane są odległości euklidesowe zamiast macierzy kowariancji
GWAS dla danych z wyraźnym podziałem na subpopulacje - Co zamiast PCA? Bardziej zaawansowanym rozwiązaniem jest uwzględnienie całej macierzy spokrewnień genomowych (ang. Genomic Relationship Matrix) Modele mieszane w GWAS: 1. Wyznaczamy macierz spokrewnień genomowych dla wszystkich osobników w populacji 2. Uwzględniamy macierz spokrewnień jako efekt losowy w modelu regresji 3. Dodatkowo możemy uwzględnić również komponenty z PCA oraz inne czynniki jako efekty stałe
Dziękuję za uwagę Literatura Smith L. 2002. A tutorial on Principal Components Analysis. Dostępny online. Patterson N, Price AL., Reich D. 2006. Population Structure and Eigenanalysis. Plos ONE. Turner S, Armstrong LL, Bradford Y et al. 2012. Quality Control Procedures for Genome Wide Association Studies. Curr Protoc Hum Genet.