Badania asocjacyjne w skali genomu (GWAS)
|
|
- Bronisław Łukasik
- 5 lat temu
- Przeglądów:
Transkrypt
1 Badania asocjacyjne w skali genomu (GWAS) Część 2 LD, PCA Bioinżynieria, I mgr Bioinformatyczna analiza danych Wykład 3 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt
2 Analiza głównych składowych ang. principal component analysis (PCA) Umożliwia wykrycie różnic we frekwencji alleli pomiędzy subpopulacjami Różnice pomiędzy subpopulacjami są przedstawione za pomocą tzw. głównych składowych a nie frekwencji pojedynczych markerów Populacje z Azji wschodniej wg. Patterson i wsp., 2006
3 Po co wykonywać analizę głównych składowych? Genotyp Związek którego szukamy Cecha związek związek Pochodzenie Pochodzenie jest tzw. zmienną zakłócającą. Jest skorelowane zarówno ze zmienną objaśnianą (cecha) oraz objaśniającą (genotyp). Może zmienić wynik analizy jeżeli nie zostanie w niej uwzględnione.
4 Po co wykonywać analizę głównych składowych? Subpopulacja 1 Subpopulacja 2 Próba Próby eksperymentalne Próby kontrolne
5 PCA przed GWAS Struktura populacji na podstawie frekwencji alleli z chromosomów autosomalnych Wybieramy podzbiór markerów, które nie są ze sobą skorelowane (sprzężone) Analizujemy nierównowagę sprzężęń (ang. linkage disequilibrium LD) Do PCA zachowujemy jedynie markery, które segregują niezależnie (wg z góry ustalonego progu), pozostałe są usuwane
6 LD prunning Nierównowaga sprzężeń a GWAS Wymagane przed PCA polega na usunięciu markerów, które są ze sobą silnie sprzężone (np. max r 2 przyjęte jako 0.2) Ostateczna analiza GWAS przeprowadzana jest na pełnym zestawie markerów
7 Nierównowaga sprzężeń Linkage disequilibrium (LD) Nierównowaga sprzężeń jest nielosową asocjacją dwóch lub więcej markerów wynikającą z ich segregacji we wspólnym haplotypie Jeżeli brak jest zależności pomiędzy dwoma loci określa się je jako będące w równowadze sprzężeń Głównym czynnikiem kształtującym LD w poszczególnych regionach genomu jest lokalna częstość rekombinacji. W obrębie genomu istnieją również tzw. gorące miejsca rekombinacji (ang. recombination hot spots) Nierównowaga sprzężeń - współwystępowanie alleli w dwóch lub więcej loci z częstością wyższą (lub niższą) niż częstość oczekiwana na podstawie proporcji tych alleli w populacji
8 Haplotyp Pochodzi od słowa haploid Segment genomu, o wspólnym pochodzeniu filogenetycznym, w obrębie którego rzadko zachodzi rekombinacja Termin może się odnosić: grupy genów dziedziczonych wspólnie od jednego z rodziców: może uwzględniać zarówno dwa geny jak i cały chromosom alleli markerów (SNP, STR, itp.)dziedziczonych wspólnie w jakimś fragmencie genomu Źródło schematu:
9 Nierównowaga sprzężeń Linkage disequilibrium (LD) Bush WS, Moore JH Plos ONE.
10 Miary nierównowagi sprzężeń D różnica między oczekiwaną frekwencją haplotypu a frekwencją obserwowaną. Miara silnie zależna od frekwencji alleli. Zakres od -1 do 1. Wzór: D AB = p AB - p A p B D standaryzowane D. Zakres od 0 do 1. Wzor: D =D/D max 2 lub r 2 korelacja wystąpień alleli z dwóch różnych loci. Zakres od 0 do 1. Wzór: r 2 = D/(p 1 p 2 q 1 q 2 )^0.5 Przyjmuje wartość 1 przy pełnym sprzężeniu oraz 0 przy ich niezależnej segregacji. Zaletą jest mała wrażliwość na różnice we frekwencji alleli pomiędzy markerami.
11 Nierównowaga sprzężeń Linkage disequilibrium (LD) Jak wyznaczyć miarę D dla dwóch loci? B Locus B b Razem A p AB p Ab p A Locus A a p ab p ab p a Razem p B p b 1 p AB frekwencja haplotypu AB p A frekwencja allelu A a, b allele rzadkie D AB = p AB - p A p B p AB = p A p B jest oczekiwane dla loci będących w równowadze sprzężeń
12 Analiza głównych składowych Polega na wykryciu wewnętrznej struktury w danych Służy przede wszystkim do redukcji zmiennych w modelu, a nie ich usuwania Przykład: Trójkąty przedstawiają pojedyncze obserwacje Jak przeprowadzić linię prostą aby uchwycić za jej pomocą jak najwięcej zmienności? Źrodło schematów:
13 Jaki będzie pierwszy główny komponent?
14 Nowe współrzędne Metoda polega na zmianie wymiarów, patrzymy na dane z nowej perspektywy, ale nie możemy stworzyć dodatkowego wymiaru Nowe osie muszą być do siebie prostopadłe!
15 Redukcja wymiarów
16 Nowe współrzędne Co uzyskaliśmy? Czy nowe współrzędne mają sens?
17 Jak podsumować dwie zmienne w jedną, aby stracić jak najmniej informacji? Nowa linia jest liniową kombinacją dwóch zmiennych Zasady: maksymalizujemy wariancję (rozrzut wzdłuż linii), jak najmniejsza wartość błędu dopasowania (suma długości czerwonych linie)
18 Podstawy statystyczne Wariancja dotyczy jednej zmiennej (jednego wymiaru) Kowariancja dotyczy dwóch zmiennych (dwóch wymiarów) Co oznacza kowariancja dodatnia, ujemna, równa 0? Czy cov(x,y) jest równy cov(y,x)
19 Macierz kowariancji Wariancja zmiennej x Kowariancja Kowariancja Wariancja zmiennej y
20 Algebra macierzy Wektor a macierz Wektor jednokolumnowa macierz Schemat: Macierz prostokątna A o m wierszach i n kolumnach, oznaczaną [a ij ] m n :
21 Algebra macierzy Mnożenie macierzy przez wektor
22 Wektory własne macierzy (eigenwektory) Czym są eigenwektory? Dostępne tylko dla macierzy kwadratowych n x n To nie jest eigenwektor Nowy wektor po transformacji To jest eigenwektor
23 Wektory własne macierzy (eigenwektory) 8 Powstały wektor (11 5) nie jest wielokrotnością wektora przez który mnożyliśmy (1 3) 6 Wektor (11 5) Wektor (1 3)
24 Wektory własne macierzy (eigenwektory) Powstały wektor (12 8) jest wielokrotnością wektora przez który mnożyliśmy (3 2) 8 Wektor (12 8) Wektor (3 2)
25 Wektory własne macierzy (eigenwektory) Wektor, który po przeskalowaniu wskazuje ten sam kierunek jest wektorem własnym (eigenwektorem). Mnożenie przez macierz dla której został wyznaczony może go wydłużyć, skrócić lub zmienić zwrot. Mogą zostać zidentyfikowane jedynie dla macierzy kwadratowej (n x n) Nie wszystkie macierze kwadratowe posiadają eigenwektory Jeżeli macierz n x n posiada eigenwektory ich liczba wynosi n Np. macierz 3 x 3 będzie posiadała 3 eigenwektory Eigenwektory są wzajemnie ortogonalne (nieskorelowane)
26 Wartości własne Wartość własna eigenwektora, to stała, która x-razy zwiększa lub zmniejsza jego długość Każdy eigenwektor ma korespondujące do niego wartości własne czyli wartości informujące nas jak dużo zmienności jest w danych Eigenwektor z najwyższą wartością własną jest tzw. głównym komponentem (ang. principal component)
27 Jak znaleźć wektory i wartości własne macierzy? Wzór na macierz A λ =A-λI gdzie λ jest niewiadomą, natomiast I jest macierzą jednostkową (1 na przekątnej oraz 0) Wyznacznik macierzy A λ Przyrównujemy wyznacznik macierzy A λ do zera i rozwiązujemy Wartości własne macierzy podstawiamy do wzoru A λ X=0, gdzie X jest szukanym wektorem. Rozwiązaniem będzie zbiór wektorów własnych. Przykład pochodzi z portalu etrapez.pl
28 Analiza głównych składowych (PCA) Dla dwóch zmiennych Przykładowe dane: Etap 1: Odejmujemy średnią Dane pochodzą ze Smith L A tutorial on Principal Components Analysis.
29 Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 2 wyliczamy macierz kowariancji Co się stanie ze zmienną y jeżeli zmienna x będzie rosła? Etap 3 Wyznaczamy eigenwektory i ich wartości własne dla macierzy kowariancji
30 Eigenwektor 1 Eigenwektor 2
31 Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 4 Sprawdzamy wartości własne eigenwektorów i formułujemy macierz z eigenwektorami które chcemy zostawić (lub wszystkimi) Etap 5 Transformujemy dane przez eigenwektory Dane po transformacji: (Macierz z eigenwektorami) T x (Macierz z danymi po odjęciu średniej) T Otrzymujemy dane po transformacji przez eignewektor(y), który(e) wybraliśmy
32 Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując wszystkie eigenwektory można wrócić do danych wyjściowych bez utraty informacji
33 Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując tylko pierwszy eigenwektor można wrócić do danych wyjściowych, ale tracimy informację
34 Skalowanie wielowymiarowe (MDS) ang. multidimensional scaling Jest klasą metod, stosowaną do redukcji wymiarów Dąży do rozmieszczenia obiektów jako punktów w przestrzeni niskowymiarowej w taki sposób, aby obiekty podobne do siebie (w oryginalnym zbiorze danych) znajdowały się blisko siebie Zamiast na macierzy kowariancji (jak w PCA) bazuje na tzw. macierzy dystansów W genetyce będzie to macierz dystansów genetycznych Nie zakłada liniowych zależności pomiędzy zmiennymi Dla danych ilościowych daje dokładnie takie same wyniki jak PCA jeżeli używane są odległości euklidesowe zamiast macierzy kowariancji
35 GWAS dla danych z wyraźnym podziałem na subpopulacje - Co zamiast PCA? Bardziej zaawansowanym rozwiązaniem jest uwzględnienie całej macierzy spokrewnień genomowych (ang. Genomic Relationship Matrix) Modele mieszane w GWAS: 1. Wyznaczamy macierz spokrewnień genomowych dla wszystkich osobników w populacji 2. Uwzględniamy macierz spokrewnień jako efekt losowy w modelu regresji 3. Dodatkowo możemy uwzględnić również komponenty z PCA oraz inne czynniki jako efekty stałe
36 Dziękuję za uwagę Literatura Smith L A tutorial on Principal Components Analysis. Dostępny online. Patterson N, Price AL., Reich D Population Structure and Eigenanalysis. Plos ONE. Turner S, Armstrong LL, Bradford Y et al Quality Control Procedures for Genome Wide Association Studies. Curr Protoc Hum Genet.
Badania asocjacyjne w skali genomu (GWAS)
Badania asocjacyjne w skali genomu (GWAS) Wstęp do GWAS Część 1 - Kontrola jakości Bioinformatyczna analiza danych Wykład 2 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt Badania
Bardziej szczegółowo1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection
BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoModelowanie danych hodowlanych
Modelowanie danych hodowlanych 1. Wykład wstępny 2. Algebra macierzowa 3. Wykorzystanie różnych źródeł informacji w predykcji wartości hodowlanej 4. Kowariancja genetyczna pomiędzy spokrewnionymi osobnikami
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Bardziej szczegółowoWSTĘP. Copyright 2011, Joanna Szyda
BIOINFORMATYKA 1. Wykład wstępny 2. Struktury danych w badaniach bioinformatycznych 3. Bazy danych: projektowanie i struktura 4. Bazy danych: projektowanie i struktura 5. Równowaga Hardyego-Weinberga,
Bardziej szczegółowoStatystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Bardziej szczegółowoPytania i odpowiedzi
Pytania i odpowiedzi Czy kontrola jakości płytek w programach analizy danych jest dostosowywana do przeprowadzanego badania, czy też przyjmuje się jednakową jej wartość dla różnych analiz? We wstępnym
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoPODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP
PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP WSTĘP 1. SNP 2. haplotyp 3. równowaga sprzężeń 4. zawartość bazy HapMap 5. przykłady zastosowań Copyright 2013, Joanna Szyda HAPMAP BAZA DANYCH HAPMAP - haplotypy
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowoAnaliza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Bardziej szczegółowoAnaliza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
Bardziej szczegółowoStosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
Bardziej szczegółowoPORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY
PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY obliczanie dystansu dzielącego grupy (subpopulacje) wyrażonego za pomocą indeksu F Wrighta (fixation index) w modelu jednego locus 1 Ćwiczenia III Mgr Kaczmarek-Okrój
Bardziej szczegółowoWykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Bardziej szczegółowoMapowanie genów cz owieka. podstawy
Mapowanie genów czowieka podstawy Sprzężenie Geny leżące na różnych chromosomach spełniają II prawo Mendla Dla 2 genów: 4 równoliczne klasy gamet W. S Klug, M.R Cummings Concepts of Genetics 8 th edition,
Bardziej szczegółowoZmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Bardziej szczegółowoKORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Bardziej szczegółowoPorównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n
Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu iowym, scenariusz p bliskie lub większe od n Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji: 1 Motywacja;
Bardziej szczegółowoANALIZA CZYNNIKOWA Przykład 1
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
Bardziej szczegółowoEksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe.
Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe. Janusz Dutkowski Przedstawimy tutaj metody stosowane w eksploracyjnej analizie danych z wielowymiarowej
Bardziej szczegółowoRobert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań
... Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 Wyłączenie odpowiedzialności
Bardziej szczegółowoMonitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Analiza składników podstawowych - wprowadzenie (Principal Components Analysis
Bardziej szczegółowoZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI. Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt
ZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI Fot. W. Wołkow Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt POPULACJA Zbiór organizmów żywych, które łączy
Bardziej szczegółowoGENETYKA POPULACJI. Ćwiczenia 1 Biologia I MGR /
GENETYKA POPULACJI Ćwiczenia 1 Biologia I MGR 1 ZAGADNIENIA struktura genetyczna populacji obliczanie frekwencji genotypów obliczanie frekwencji alleli przewidywanie struktury następnego pokolenia przy
Bardziej szczegółowoEkologia molekularna. wykład 3
Ekologia molekularna wykład 3 Dziedziczenie mendlowskie Grzegorz Mendel 1822-1884 Darwin + Mendel = Ronald Fisher 1890-1962 wykład 3/2 Prawo Hardy'ego-Weinberga A A gamety możliwe genotypy potomstwa genotyp
Bardziej szczegółowoJEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY
JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY Będziemy zapisywać wektory w postaci (,, ) albo traktując go jak macierz jednokolumnową (dzięki temu nie będzie kontrowersji przy transponowaniu wektora ) Model
Bardziej szczegółowoMetoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Bardziej szczegółowoOcena wartości hodowlanej. Dr Agnieszka Suchecka
Ocena wartości hodowlanej Dr Agnieszka Suchecka Wartość hodowlana genetycznie uwarunkowane możliwości zwierzęcia do ujawnienia określonej produkcyjności oraz zdolność przekazywania ich potomstwu (wartość
Bardziej szczegółowoStatystyczna analiza danych
Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy
Bardziej szczegółowoEkonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
Bardziej szczegółowoSzacowanie wartości hodowlanej. Zarządzanie populacjami
Szacowanie wartości hodowlanej Zarządzanie populacjami wartość hodowlana = wartość cechy? Tak! Przy h 2 =1 ? wybitny ojciec = wybitne dzieci Tak, gdy cecha wysokoodziedziczalna. Wartość hodowlana genetycznie
Bardziej szczegółowo10. Redukcja wymiaru - metoda PCA
Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component
Bardziej szczegółowoAnna Szewczyk. Wydział Geodezji Górniczej i InŜynierii środowiska AGH
Anna Szewczyk Wydział Geodezji Górniczej i InŜynierii środowiska AGH Zastosowania biblioteki Genetics programu R The genetics Package Tytuł: Populacja genetyczna Wersja:1.2.0 Data utworzenia: 2005-11-09
Bardziej szczegółowoAnaliza sprzężeń u człowieka. Podstawy
Analiza sprzężeń u człowieka Podstawy Geny i chromosomy Allele genów zlokalizowanych na różnych chromosomach segregują niezależnie (II prawo Mendla) Dla 2 genów: 4 równoliczne klasy gamet W. S Klug, M.R
Bardziej szczegółowoBIOINFORMATYKA 8. Analiza asocjacyjna - teoria
IOINFORMTYK 1. Wykład wstępny 2. Struktury danych w adaniach ioinformatycznych 3. azy danych: projektowanie i struktura 4. azy danych: projektowanie i struktura 5. Powiązania pomiędzy genami: równ. Hardyego-Weinerga,
Bardziej szczegółowoMetody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
Bardziej szczegółowoWERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno
WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje
Bardziej szczegółowo5. Rozwiązywanie układów równań liniowych
5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a
Bardziej szczegółowodr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;
Wykłady 8 i 9 Pojęcia przestrzeni wektorowej i macierzy Układy równań liniowych Elementy algebry macierzy dodawanie, odejmowanie, mnożenie macierzy; macierz odwrotna dr Mariusz Grządziel 15,29 kwietnia
Bardziej szczegółowoMETODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowoTRANSFORMACJE I JAKOŚĆ DANYCH
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoSpokrewnienie prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami IBD. IBD = identical by descent, geny identycznego pochodzenia
prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami ID. Relationship Relatedness Kinship Fraternity ID = identical by descent, geny identycznego pochodzenia jest miarą względną. Przyjmuje
Bardziej szczegółowoCELE ANALIZY CZYNNIKOWEJ
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
Bardziej szczegółowoZałóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Bardziej szczegółowoAnaliza współzależności dwóch cech I
Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowoMODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Bardziej szczegółowoSkalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
Bardziej szczegółowoAnaliza sprzężeń u człowieka. Podstawy
Analiza sprzężeń u człowieka Podstawy Badanie relacji genotyp-fenotyp u człowieka Analiza sprzężeń - poszukiwanie rejonów chromosomu położonych blisko genu determinującego daną cechę Analiza asocjacji
Bardziej szczegółowoAgnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Bardziej szczegółowoOprogramowanie dla GWAS
BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoAnaliza sprzężeń u człowieka. Podstawy
Analiza sprzężeń u człowieka Podstawy Geny i chromosomy Allele genów zlokalizowanych na różnych chromosomach segregują niezależnie (II prawo Mendla) Dla 2 genów: 4 równoliczne klasy gamet W. S Klug, M.R
Bardziej szczegółowoWprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn
Analiza czynnikowa Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmiennych, które są bezpośrednio obserwowalne
Bardziej szczegółowoPytania i odpowiedzi
Pytania i odpowiedzi PCA PCA a MDS - PCA bazuje na macierzy kowariancji, MDS bazuje na macierzy dystansów genetycznych Będą identyczne jeśli kowariancja będzie równa odległości euklidesowej. W badaniach
Bardziej szczegółowoPDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Bardziej szczegółowoZARZĄDZANIE POPULACJAMI ZWIERZĄT
ZARZĄDZANIE POPULACJAMI ZWIERZĄT Ćwiczenia 1 mgr Magda Kaczmarek-Okrój magda_kaczmarek_okroj@sggw.pl 1 ZAGADNIENIA struktura genetyczna populacji obliczanie frekwencji genotypów obliczanie frekwencji alleli
Bardziej szczegółowoEkologia molekularna. wykład 14. Genetyka ilościowa
Ekologia molekularna wykład 14 Genetyka ilościowa Dziedziczenie mendlowskie wykład 14/2 Cechy wieloczynnikowe (ilościowe) wzrost masa ciała kolor skóry kolor oczu itp wykład 14/3 Rodzaje cech ilościowych
Bardziej szczegółowoAnaliza sprzężeń u człowieka. Podstawy
Analiza sprzężeń u człowieka Podstawy Badanie relacji genotyp-fenotyp u człowieka Analiza sprzężeń - poszukiwanie rejonów chromosomu położonych blisko genu determinującego daną cechę Analiza asocjacji
Bardziej szczegółowoRegresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Bardziej szczegółowoIdea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.
Idea (ang. Principal Components Analysis PCA) jest popularnym używanym narzędziem analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości danych. Jest to metoda nieparametryczna,
Bardziej szczegółowoStosowana Analiza Regresji
Model jako : Stosowana Analiza Regresji Wykład XI 21 Grudnia 2011 1 / 11 Analiza kowariancji Model jako : Oprócz czynnika o wartościach nominalnych chcemy uwzględnić wpływ predyktora o wartościach ilościowych
Bardziej szczegółowoSPOTKANIE 9: Metody redukcji wymiarów
Wrocław University of Technology SPOTKANIE 9: Metody redukcji wymiarów Piotr Klukowski* Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.wroc.pl 08.12.2015 *Część slajdów pochodzi z prezentacji dr
Bardziej szczegółowoCECHY ILOŚCIOWE PARAMETRY GENETYCZNE
CECHY ILOŚCIOWE PARAMETRY GENETYCZNE Zarządzanie populacjami zwierząt, ćwiczenia V Dr Wioleta Drobik Rodzaje cech Jakościowe o prostym dziedziczeniu uwarunkowane zwykle przez kilka genów Słaba podatność
Bardziej szczegółowoUKŁADY RÓWNAŃ LINIOWYCH
Wykłady z matematyki inżynierskiej JJ, 08 DEFINICJA Układ m równań liniowych z n niewiadomymi to: ( ) a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + + a 2n x n = b 2 a m1 x 1 + a m2 x 2 +
Bardziej szczegółowoPodstawy genetyki populacji. Genetyka mendlowska i ewolucja. Dobór i dryf.
Podstawy genetyki populacji Genetyka mendlowska i ewolucja. Dobór i dryf. Dryf genetyczny W populacjach o skończonej liczebności może dochodzić do zmian częstości alleli nawet jeżeli nie działa na nie
Bardziej szczegółowoModelowanie danych hodowlanych
Modelowanie danych hodowlanych 1. Wykład wstępny. Algebra macierzowa 3. Wykorzystanie różnych źródeł informacji w predykcji wartości hodowlanej 4. Kowariancja genetyczna pomiędzy spokrewnionymi osobnikami
Bardziej szczegółowoStanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12
Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie
Bardziej szczegółowoWprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoHierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Bardziej szczegółowoCo to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.
1 Wektory Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem. 1.1 Dodawanie wektorów graficzne i algebraiczne. Graficzne - metoda równoległoboku. Sprowadzamy wektory
Bardziej szczegółowo2. CZYNNIKI ZABURZAJĄCE RÓWNOWAGĘ GENETYCZNĄ
ZARZĄDZANIE POPULACJAMI ZWIERZĄT 2. CZYNNIKI ZABURZAJĄCE RÓWNOWAGĘ GENETYCZNĄ POPULACJI Fot. W. Wołkow Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt MIGRACJE Zmiana frekwencji
Bardziej szczegółowoWykład 14. Elementy algebry macierzy
Wykład 14 Elementy algebry macierzy dr Mariusz Grządziel 26 stycznia 2009 Układ równań z dwoma niewiadomymi Rozważmy układ równań z dwoma niewiadomymi: a 11 x + a 12 y = h 1 a 21 x + a 22 y = h 2 a 11,
Bardziej szczegółowoCMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:
CMAES Covariance Matrix Adaptation Evolution Strategy Opracowanie: Lidia Wojciechowska W algorytmie CMAES, podobnie jak w algorytmie EDA, adaptowany jest rozkład prawdopodobieństwa generacji punktów, opisany
Bardziej szczegółowoWSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Bardziej szczegółowoφ(x 1,..., x n ) = a i x 2 i +
Teoria na egzamin z algebry liniowej Wszystkie podane pojęcia należy umieć określić i podać pprzykłady, ewentualnie kontrprzykłady. Ponadto należy znać dowody tam gdzie to jest zaznaczone. Liczby zespolone.
Bardziej szczegółowoEkonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej
Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa
Bardziej szczegółowoInformatyka w selekcji - Wykªad 1
Informatyka w selekcji - Wykªad 1 Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t Plan wykªadu 1 Podstawowe informacje o przedmiocie 2 Wst p do pakietu
Bardziej szczegółowoStatystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoWykład 4. Informatyka Stosowana. Magdalena Alama-Bućko. 25 marca Magdalena Alama-Bućko Wykład 4 25 marca / 25
Wykład 4 Informatyka Stosowana Magdalena Alama-Bućko 25 marca 2019 Magdalena Alama-Bućko Wykład 4 25 marca 2019 1 / 25 Macierze Magdalena Alama-Bućko Wykład 4 25 marca 2019 2 / 25 Macierza wymiaru m n
Bardziej szczegółowoWprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze
Wprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze Polsko-Japońska Wyższa Szkoła Technik Komputerowych Katedra Informatyki Stosowanej Spis treści Spis treści 1 Wektory
Bardziej szczegółowoNatalia Nehrebecka Stanisław Cichocki. Wykład 13
Natalia Nehrebecka Stanisław Cichocki Wykład 13 1 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość 2 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje
Bardziej szczegółowoEkologia molekularna. wykład 10
Ekologia molekularna wykład 10 Zasięg gatunku wykład 10/2 Środowisko Człowiek rozumny posiada bardzo szeroki zasięg występowania, nie dorównuje mu w tym względzie żaden inny ssak. Zamieszkuje on wszystkie
Bardziej szczegółowoTablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Bardziej szczegółowoMet Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn
Metody numeryczne Wykład 3 Dr inż. Michał Łanczont Instytut Elektrotechniki i Elektrotechnologii E419, tel. 4293, m.lanczont@pollub.pl, http://m.lanczont.pollub.pl Zakres wykładu Pojęcia podstawowe Algebra
Bardziej szczegółowoWpływ struktury krajobrazu na przestrzenną zmienność genetyczną populacji myszy leśnej Apodemus flavicollis w północno wschodniej Polsce
Uniwersytet Warszawski Wydział Biologii Sylwia Czarnomska Wpływ struktury krajobrazu na przestrzenną zmienność genetyczną populacji myszy leśnej Apodemus flavicollis w północno wschodniej Polsce Autoreferat
Bardziej szczegółowoPODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.
WYDZIAŁ ELEKTROTECHNIKI I AUTOMATYKI Katedra Inżynierii Systemów Sterowania PODSTAWY AUTOMATYKI MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoMETODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoKolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w
Metoda Simpleks Jak wiadomo, problem PL z dowolną liczbą zmiennych można rozwiązać wyznaczając wszystkie wierzchołkowe punkty wielościanu wypukłego, a następnie porównując wartości funkcji celu w tych
Bardziej szczegółowoMatematyka stosowana i metody numeryczne
Ewa Pabisek Adam Wosatko Piotr Pluciński Matematyka stosowana i metody numeryczne Konspekt z wykładów Błędy obliczeń Błędy można podzielić na: modelu, metody, wejściowe (początkowe), obcięcia, zaokrągleń..
Bardziej szczegółowoANALIZA REGRESJI SPSS
NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek
Bardziej szczegółowoWspółczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 8
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).
Bardziej szczegółowoRobert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań
... Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 Wyłączenie odpowiedzialności
Bardziej szczegółowo