Badania asocjacyjne w skali genomu (GWAS)
|
|
- Bronisław Łukasik
- 6 lat temu
- Przeglądów:
Transkrypt
1 Badania asocjacyjne w skali genomu (GWAS) Część 2 LD, PCA Bioinżynieria, I mgr Bioinformatyczna analiza danych Wykład 3 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt
2 Analiza głównych składowych ang. principal component analysis (PCA) Umożliwia wykrycie różnic we frekwencji alleli pomiędzy subpopulacjami Różnice pomiędzy subpopulacjami są przedstawione za pomocą tzw. głównych składowych a nie frekwencji pojedynczych markerów Populacje z Azji wschodniej wg. Patterson i wsp., 2006
3 Po co wykonywać analizę głównych składowych? Genotyp Związek którego szukamy Cecha związek związek Pochodzenie Pochodzenie jest tzw. zmienną zakłócającą. Jest skorelowane zarówno ze zmienną objaśnianą (cecha) oraz objaśniającą (genotyp). Może zmienić wynik analizy jeżeli nie zostanie w niej uwzględnione.
4 Po co wykonywać analizę głównych składowych? Subpopulacja 1 Subpopulacja 2 Próba Próby eksperymentalne Próby kontrolne
5 PCA przed GWAS Struktura populacji na podstawie frekwencji alleli z chromosomów autosomalnych Wybieramy podzbiór markerów, które nie są ze sobą skorelowane (sprzężone) Analizujemy nierównowagę sprzężęń (ang. linkage disequilibrium LD) Do PCA zachowujemy jedynie markery, które segregują niezależnie (wg z góry ustalonego progu), pozostałe są usuwane
6 LD prunning Nierównowaga sprzężeń a GWAS Wymagane przed PCA polega na usunięciu markerów, które są ze sobą silnie sprzężone (np. max r 2 przyjęte jako 0.2) Ostateczna analiza GWAS przeprowadzana jest na pełnym zestawie markerów
7 Nierównowaga sprzężeń Linkage disequilibrium (LD) Nierównowaga sprzężeń jest nielosową asocjacją dwóch lub więcej markerów wynikającą z ich segregacji we wspólnym haplotypie Jeżeli brak jest zależności pomiędzy dwoma loci określa się je jako będące w równowadze sprzężeń Głównym czynnikiem kształtującym LD w poszczególnych regionach genomu jest lokalna częstość rekombinacji. W obrębie genomu istnieją również tzw. gorące miejsca rekombinacji (ang. recombination hot spots) Nierównowaga sprzężeń - współwystępowanie alleli w dwóch lub więcej loci z częstością wyższą (lub niższą) niż częstość oczekiwana na podstawie proporcji tych alleli w populacji
8 Haplotyp Pochodzi od słowa haploid Segment genomu, o wspólnym pochodzeniu filogenetycznym, w obrębie którego rzadko zachodzi rekombinacja Termin może się odnosić: grupy genów dziedziczonych wspólnie od jednego z rodziców: może uwzględniać zarówno dwa geny jak i cały chromosom alleli markerów (SNP, STR, itp.)dziedziczonych wspólnie w jakimś fragmencie genomu Źródło schematu:
9 Nierównowaga sprzężeń Linkage disequilibrium (LD) Bush WS, Moore JH Plos ONE.
10 Miary nierównowagi sprzężeń D różnica między oczekiwaną frekwencją haplotypu a frekwencją obserwowaną. Miara silnie zależna od frekwencji alleli. Zakres od -1 do 1. Wzór: D AB = p AB - p A p B D standaryzowane D. Zakres od 0 do 1. Wzor: D =D/D max 2 lub r 2 korelacja wystąpień alleli z dwóch różnych loci. Zakres od 0 do 1. Wzór: r 2 = D/(p 1 p 2 q 1 q 2 )^0.5 Przyjmuje wartość 1 przy pełnym sprzężeniu oraz 0 przy ich niezależnej segregacji. Zaletą jest mała wrażliwość na różnice we frekwencji alleli pomiędzy markerami.
11 Nierównowaga sprzężeń Linkage disequilibrium (LD) Jak wyznaczyć miarę D dla dwóch loci? B Locus B b Razem A p AB p Ab p A Locus A a p ab p ab p a Razem p B p b 1 p AB frekwencja haplotypu AB p A frekwencja allelu A a, b allele rzadkie D AB = p AB - p A p B p AB = p A p B jest oczekiwane dla loci będących w równowadze sprzężeń
12 Analiza głównych składowych Polega na wykryciu wewnętrznej struktury w danych Służy przede wszystkim do redukcji zmiennych w modelu, a nie ich usuwania Przykład: Trójkąty przedstawiają pojedyncze obserwacje Jak przeprowadzić linię prostą aby uchwycić za jej pomocą jak najwięcej zmienności? Źrodło schematów:
13 Jaki będzie pierwszy główny komponent?
14 Nowe współrzędne Metoda polega na zmianie wymiarów, patrzymy na dane z nowej perspektywy, ale nie możemy stworzyć dodatkowego wymiaru Nowe osie muszą być do siebie prostopadłe!
15 Redukcja wymiarów
16 Nowe współrzędne Co uzyskaliśmy? Czy nowe współrzędne mają sens?
17 Jak podsumować dwie zmienne w jedną, aby stracić jak najmniej informacji? Nowa linia jest liniową kombinacją dwóch zmiennych Zasady: maksymalizujemy wariancję (rozrzut wzdłuż linii), jak najmniejsza wartość błędu dopasowania (suma długości czerwonych linie)
18 Podstawy statystyczne Wariancja dotyczy jednej zmiennej (jednego wymiaru) Kowariancja dotyczy dwóch zmiennych (dwóch wymiarów) Co oznacza kowariancja dodatnia, ujemna, równa 0? Czy cov(x,y) jest równy cov(y,x)
19 Macierz kowariancji Wariancja zmiennej x Kowariancja Kowariancja Wariancja zmiennej y
20 Algebra macierzy Wektor a macierz Wektor jednokolumnowa macierz Schemat: Macierz prostokątna A o m wierszach i n kolumnach, oznaczaną [a ij ] m n :
21 Algebra macierzy Mnożenie macierzy przez wektor
22 Wektory własne macierzy (eigenwektory) Czym są eigenwektory? Dostępne tylko dla macierzy kwadratowych n x n To nie jest eigenwektor Nowy wektor po transformacji To jest eigenwektor
23 Wektory własne macierzy (eigenwektory) 8 Powstały wektor (11 5) nie jest wielokrotnością wektora przez który mnożyliśmy (1 3) 6 Wektor (11 5) Wektor (1 3)
24 Wektory własne macierzy (eigenwektory) Powstały wektor (12 8) jest wielokrotnością wektora przez który mnożyliśmy (3 2) 8 Wektor (12 8) Wektor (3 2)
25 Wektory własne macierzy (eigenwektory) Wektor, który po przeskalowaniu wskazuje ten sam kierunek jest wektorem własnym (eigenwektorem). Mnożenie przez macierz dla której został wyznaczony może go wydłużyć, skrócić lub zmienić zwrot. Mogą zostać zidentyfikowane jedynie dla macierzy kwadratowej (n x n) Nie wszystkie macierze kwadratowe posiadają eigenwektory Jeżeli macierz n x n posiada eigenwektory ich liczba wynosi n Np. macierz 3 x 3 będzie posiadała 3 eigenwektory Eigenwektory są wzajemnie ortogonalne (nieskorelowane)
26 Wartości własne Wartość własna eigenwektora, to stała, która x-razy zwiększa lub zmniejsza jego długość Każdy eigenwektor ma korespondujące do niego wartości własne czyli wartości informujące nas jak dużo zmienności jest w danych Eigenwektor z najwyższą wartością własną jest tzw. głównym komponentem (ang. principal component)
27 Jak znaleźć wektory i wartości własne macierzy? Wzór na macierz A λ =A-λI gdzie λ jest niewiadomą, natomiast I jest macierzą jednostkową (1 na przekątnej oraz 0) Wyznacznik macierzy A λ Przyrównujemy wyznacznik macierzy A λ do zera i rozwiązujemy Wartości własne macierzy podstawiamy do wzoru A λ X=0, gdzie X jest szukanym wektorem. Rozwiązaniem będzie zbiór wektorów własnych. Przykład pochodzi z portalu etrapez.pl
28 Analiza głównych składowych (PCA) Dla dwóch zmiennych Przykładowe dane: Etap 1: Odejmujemy średnią Dane pochodzą ze Smith L A tutorial on Principal Components Analysis.
29 Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 2 wyliczamy macierz kowariancji Co się stanie ze zmienną y jeżeli zmienna x będzie rosła? Etap 3 Wyznaczamy eigenwektory i ich wartości własne dla macierzy kowariancji
30 Eigenwektor 1 Eigenwektor 2
31 Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 4 Sprawdzamy wartości własne eigenwektorów i formułujemy macierz z eigenwektorami które chcemy zostawić (lub wszystkimi) Etap 5 Transformujemy dane przez eigenwektory Dane po transformacji: (Macierz z eigenwektorami) T x (Macierz z danymi po odjęciu średniej) T Otrzymujemy dane po transformacji przez eignewektor(y), który(e) wybraliśmy
32 Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując wszystkie eigenwektory można wrócić do danych wyjściowych bez utraty informacji
33 Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując tylko pierwszy eigenwektor można wrócić do danych wyjściowych, ale tracimy informację
34 Skalowanie wielowymiarowe (MDS) ang. multidimensional scaling Jest klasą metod, stosowaną do redukcji wymiarów Dąży do rozmieszczenia obiektów jako punktów w przestrzeni niskowymiarowej w taki sposób, aby obiekty podobne do siebie (w oryginalnym zbiorze danych) znajdowały się blisko siebie Zamiast na macierzy kowariancji (jak w PCA) bazuje na tzw. macierzy dystansów W genetyce będzie to macierz dystansów genetycznych Nie zakłada liniowych zależności pomiędzy zmiennymi Dla danych ilościowych daje dokładnie takie same wyniki jak PCA jeżeli używane są odległości euklidesowe zamiast macierzy kowariancji
35 GWAS dla danych z wyraźnym podziałem na subpopulacje - Co zamiast PCA? Bardziej zaawansowanym rozwiązaniem jest uwzględnienie całej macierzy spokrewnień genomowych (ang. Genomic Relationship Matrix) Modele mieszane w GWAS: 1. Wyznaczamy macierz spokrewnień genomowych dla wszystkich osobników w populacji 2. Uwzględniamy macierz spokrewnień jako efekt losowy w modelu regresji 3. Dodatkowo możemy uwzględnić również komponenty z PCA oraz inne czynniki jako efekty stałe
36 Dziękuję za uwagę Literatura Smith L A tutorial on Principal Components Analysis. Dostępny online. Patterson N, Price AL., Reich D Population Structure and Eigenanalysis. Plos ONE. Turner S, Armstrong LL, Bradford Y et al Quality Control Procedures for Genome Wide Association Studies. Curr Protoc Hum Genet.
Badania asocjacyjne w skali genomu (GWAS)
Badania asocjacyjne w skali genomu (GWAS) Wstęp do GWAS Część 1 - Kontrola jakości Bioinformatyczna analiza danych Wykład 2 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt Badania
1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection
BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Modelowanie danych hodowlanych
Modelowanie danych hodowlanych 1. Wykład wstępny 2. Algebra macierzowa 3. Wykorzystanie różnych źródeł informacji w predykcji wartości hodowlanej 4. Kowariancja genetyczna pomiędzy spokrewnionymi osobnikami
Prawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
WSTĘP. Copyright 2011, Joanna Szyda
BIOINFORMATYKA 1. Wykład wstępny 2. Struktury danych w badaniach bioinformatycznych 3. Bazy danych: projektowanie i struktura 4. Bazy danych: projektowanie i struktura 5. Równowaga Hardyego-Weinberga,
Statystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Pytania i odpowiedzi
Pytania i odpowiedzi Czy kontrola jakości płytek w programach analizy danych jest dostosowywana do przeprowadzanego badania, czy też przyjmuje się jednakową jej wartość dla różnych analiz? We wstępnym
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP
PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP WSTĘP 1. SNP 2. haplotyp 3. równowaga sprzężeń 4. zawartość bazy HapMap 5. przykłady zastosowań Copyright 2013, Joanna Szyda HAPMAP BAZA DANYCH HAPMAP - haplotypy
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY
PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY obliczanie dystansu dzielącego grupy (subpopulacje) wyrażonego za pomocą indeksu F Wrighta (fixation index) w modelu jednego locus 1 Ćwiczenia III Mgr Kaczmarek-Okrój
Wykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Mapowanie genów cz owieka. podstawy
Mapowanie genów czowieka podstawy Sprzężenie Geny leżące na różnych chromosomach spełniają II prawo Mendla Dla 2 genów: 4 równoliczne klasy gamet W. S Klug, M.R Cummings Concepts of Genetics 8 th edition,
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n
Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu iowym, scenariusz p bliskie lub większe od n Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji: 1 Motywacja;
ANALIZA CZYNNIKOWA Przykład 1
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe.
Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe. Janusz Dutkowski Przedstawimy tutaj metody stosowane w eksploracyjnej analizie danych z wielowymiarowej
Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań
... Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 Wyłączenie odpowiedzialności
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Analiza składników podstawowych - wprowadzenie (Principal Components Analysis
ZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI. Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt
ZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI Fot. W. Wołkow Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt POPULACJA Zbiór organizmów żywych, które łączy
GENETYKA POPULACJI. Ćwiczenia 1 Biologia I MGR /
GENETYKA POPULACJI Ćwiczenia 1 Biologia I MGR 1 ZAGADNIENIA struktura genetyczna populacji obliczanie frekwencji genotypów obliczanie frekwencji alleli przewidywanie struktury następnego pokolenia przy
Ekologia molekularna. wykład 3
Ekologia molekularna wykład 3 Dziedziczenie mendlowskie Grzegorz Mendel 1822-1884 Darwin + Mendel = Ronald Fisher 1890-1962 wykład 3/2 Prawo Hardy'ego-Weinberga A A gamety możliwe genotypy potomstwa genotyp
JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY
JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY Będziemy zapisywać wektory w postaci (,, ) albo traktując go jak macierz jednokolumnową (dzięki temu nie będzie kontrowersji przy transponowaniu wektora ) Model
Metoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Ocena wartości hodowlanej. Dr Agnieszka Suchecka
Ocena wartości hodowlanej Dr Agnieszka Suchecka Wartość hodowlana genetycznie uwarunkowane możliwości zwierzęcia do ujawnienia określonej produkcyjności oraz zdolność przekazywania ich potomstwu (wartość
Statystyczna analiza danych
Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy
Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
Szacowanie wartości hodowlanej. Zarządzanie populacjami
Szacowanie wartości hodowlanej Zarządzanie populacjami wartość hodowlana = wartość cechy? Tak! Przy h 2 =1 ? wybitny ojciec = wybitne dzieci Tak, gdy cecha wysokoodziedziczalna. Wartość hodowlana genetycznie
10. Redukcja wymiaru - metoda PCA
Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component
Anna Szewczyk. Wydział Geodezji Górniczej i InŜynierii środowiska AGH
Anna Szewczyk Wydział Geodezji Górniczej i InŜynierii środowiska AGH Zastosowania biblioteki Genetics programu R The genetics Package Tytuł: Populacja genetyczna Wersja:1.2.0 Data utworzenia: 2005-11-09
Analiza sprzężeń u człowieka. Podstawy
Analiza sprzężeń u człowieka Podstawy Geny i chromosomy Allele genów zlokalizowanych na różnych chromosomach segregują niezależnie (II prawo Mendla) Dla 2 genów: 4 równoliczne klasy gamet W. S Klug, M.R
BIOINFORMATYKA 8. Analiza asocjacyjna - teoria
IOINFORMTYK 1. Wykład wstępny 2. Struktury danych w adaniach ioinformatycznych 3. azy danych: projektowanie i struktura 4. azy danych: projektowanie i struktura 5. Powiązania pomiędzy genami: równ. Hardyego-Weinerga,
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno
WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje
5. Rozwiązywanie układów równań liniowych
5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a
dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;
Wykłady 8 i 9 Pojęcia przestrzeni wektorowej i macierzy Układy równań liniowych Elementy algebry macierzy dodawanie, odejmowanie, mnożenie macierzy; macierz odwrotna dr Mariusz Grządziel 15,29 kwietnia
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
TRANSFORMACJE I JAKOŚĆ DANYCH
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Spokrewnienie prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami IBD. IBD = identical by descent, geny identycznego pochodzenia
prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami ID. Relationship Relatedness Kinship Fraternity ID = identical by descent, geny identycznego pochodzenia jest miarą względną. Przyjmuje
CELE ANALIZY CZYNNIKOWEJ
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Analiza współzależności dwóch cech I
Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
Analiza sprzężeń u człowieka. Podstawy
Analiza sprzężeń u człowieka Podstawy Badanie relacji genotyp-fenotyp u człowieka Analiza sprzężeń - poszukiwanie rejonów chromosomu położonych blisko genu determinującego daną cechę Analiza asocjacji
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Oprogramowanie dla GWAS
BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Analiza sprzężeń u człowieka. Podstawy
Analiza sprzężeń u człowieka Podstawy Geny i chromosomy Allele genów zlokalizowanych na różnych chromosomach segregują niezależnie (II prawo Mendla) Dla 2 genów: 4 równoliczne klasy gamet W. S Klug, M.R
Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn
Analiza czynnikowa Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmiennych, które są bezpośrednio obserwowalne
Pytania i odpowiedzi
Pytania i odpowiedzi PCA PCA a MDS - PCA bazuje na macierzy kowariancji, MDS bazuje na macierzy dystansów genetycznych Będą identyczne jeśli kowariancja będzie równa odległości euklidesowej. W badaniach
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
ZARZĄDZANIE POPULACJAMI ZWIERZĄT
ZARZĄDZANIE POPULACJAMI ZWIERZĄT Ćwiczenia 1 mgr Magda Kaczmarek-Okrój magda_kaczmarek_okroj@sggw.pl 1 ZAGADNIENIA struktura genetyczna populacji obliczanie frekwencji genotypów obliczanie frekwencji alleli
Ekologia molekularna. wykład 14. Genetyka ilościowa
Ekologia molekularna wykład 14 Genetyka ilościowa Dziedziczenie mendlowskie wykład 14/2 Cechy wieloczynnikowe (ilościowe) wzrost masa ciała kolor skóry kolor oczu itp wykład 14/3 Rodzaje cech ilościowych
Analiza sprzężeń u człowieka. Podstawy
Analiza sprzężeń u człowieka Podstawy Badanie relacji genotyp-fenotyp u człowieka Analiza sprzężeń - poszukiwanie rejonów chromosomu położonych blisko genu determinującego daną cechę Analiza asocjacji
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.
Idea (ang. Principal Components Analysis PCA) jest popularnym używanym narzędziem analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości danych. Jest to metoda nieparametryczna,
Stosowana Analiza Regresji
Model jako : Stosowana Analiza Regresji Wykład XI 21 Grudnia 2011 1 / 11 Analiza kowariancji Model jako : Oprócz czynnika o wartościach nominalnych chcemy uwzględnić wpływ predyktora o wartościach ilościowych
SPOTKANIE 9: Metody redukcji wymiarów
Wrocław University of Technology SPOTKANIE 9: Metody redukcji wymiarów Piotr Klukowski* Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.wroc.pl 08.12.2015 *Część slajdów pochodzi z prezentacji dr
CECHY ILOŚCIOWE PARAMETRY GENETYCZNE
CECHY ILOŚCIOWE PARAMETRY GENETYCZNE Zarządzanie populacjami zwierząt, ćwiczenia V Dr Wioleta Drobik Rodzaje cech Jakościowe o prostym dziedziczeniu uwarunkowane zwykle przez kilka genów Słaba podatność
UKŁADY RÓWNAŃ LINIOWYCH
Wykłady z matematyki inżynierskiej JJ, 08 DEFINICJA Układ m równań liniowych z n niewiadomymi to: ( ) a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + + a 2n x n = b 2 a m1 x 1 + a m2 x 2 +
Podstawy genetyki populacji. Genetyka mendlowska i ewolucja. Dobór i dryf.
Podstawy genetyki populacji Genetyka mendlowska i ewolucja. Dobór i dryf. Dryf genetyczny W populacjach o skończonej liczebności może dochodzić do zmian częstości alleli nawet jeżeli nie działa na nie
Modelowanie danych hodowlanych
Modelowanie danych hodowlanych 1. Wykład wstępny. Algebra macierzowa 3. Wykorzystanie różnych źródeł informacji w predykcji wartości hodowlanej 4. Kowariancja genetyczna pomiędzy spokrewnionymi osobnikami
Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12
Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.
1 Wektory Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem. 1.1 Dodawanie wektorów graficzne i algebraiczne. Graficzne - metoda równoległoboku. Sprowadzamy wektory
2. CZYNNIKI ZABURZAJĄCE RÓWNOWAGĘ GENETYCZNĄ
ZARZĄDZANIE POPULACJAMI ZWIERZĄT 2. CZYNNIKI ZABURZAJĄCE RÓWNOWAGĘ GENETYCZNĄ POPULACJI Fot. W. Wołkow Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt MIGRACJE Zmiana frekwencji
Wykład 14. Elementy algebry macierzy
Wykład 14 Elementy algebry macierzy dr Mariusz Grządziel 26 stycznia 2009 Układ równań z dwoma niewiadomymi Rozważmy układ równań z dwoma niewiadomymi: a 11 x + a 12 y = h 1 a 21 x + a 22 y = h 2 a 11,
CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:
CMAES Covariance Matrix Adaptation Evolution Strategy Opracowanie: Lidia Wojciechowska W algorytmie CMAES, podobnie jak w algorytmie EDA, adaptowany jest rozkład prawdopodobieństwa generacji punktów, opisany
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
φ(x 1,..., x n ) = a i x 2 i +
Teoria na egzamin z algebry liniowej Wszystkie podane pojęcia należy umieć określić i podać pprzykłady, ewentualnie kontrprzykłady. Ponadto należy znać dowody tam gdzie to jest zaznaczone. Liczby zespolone.
Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej
Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa
Informatyka w selekcji - Wykªad 1
Informatyka w selekcji - Wykªad 1 Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t Plan wykªadu 1 Podstawowe informacje o przedmiocie 2 Wst p do pakietu
Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Wykład 4. Informatyka Stosowana. Magdalena Alama-Bućko. 25 marca Magdalena Alama-Bućko Wykład 4 25 marca / 25
Wykład 4 Informatyka Stosowana Magdalena Alama-Bućko 25 marca 2019 Magdalena Alama-Bućko Wykład 4 25 marca 2019 1 / 25 Macierze Magdalena Alama-Bućko Wykład 4 25 marca 2019 2 / 25 Macierza wymiaru m n
Wprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze
Wprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze Polsko-Japońska Wyższa Szkoła Technik Komputerowych Katedra Informatyki Stosowanej Spis treści Spis treści 1 Wektory
Natalia Nehrebecka Stanisław Cichocki. Wykład 13
Natalia Nehrebecka Stanisław Cichocki Wykład 13 1 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość 2 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje
Ekologia molekularna. wykład 10
Ekologia molekularna wykład 10 Zasięg gatunku wykład 10/2 Środowisko Człowiek rozumny posiada bardzo szeroki zasięg występowania, nie dorównuje mu w tym względzie żaden inny ssak. Zamieszkuje on wszystkie
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn
Metody numeryczne Wykład 3 Dr inż. Michał Łanczont Instytut Elektrotechniki i Elektrotechnologii E419, tel. 4293, m.lanczont@pollub.pl, http://m.lanczont.pollub.pl Zakres wykładu Pojęcia podstawowe Algebra
Wpływ struktury krajobrazu na przestrzenną zmienność genetyczną populacji myszy leśnej Apodemus flavicollis w północno wschodniej Polsce
Uniwersytet Warszawski Wydział Biologii Sylwia Czarnomska Wpływ struktury krajobrazu na przestrzenną zmienność genetyczną populacji myszy leśnej Apodemus flavicollis w północno wschodniej Polsce Autoreferat
PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.
WYDZIAŁ ELEKTROTECHNIKI I AUTOMATYKI Katedra Inżynierii Systemów Sterowania PODSTAWY AUTOMATYKI MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w
Metoda Simpleks Jak wiadomo, problem PL z dowolną liczbą zmiennych można rozwiązać wyznaczając wszystkie wierzchołkowe punkty wielościanu wypukłego, a następnie porównując wartości funkcji celu w tych
Matematyka stosowana i metody numeryczne
Ewa Pabisek Adam Wosatko Piotr Pluciński Matematyka stosowana i metody numeryczne Konspekt z wykładów Błędy obliczeń Błędy można podzielić na: modelu, metody, wejściowe (początkowe), obcięcia, zaokrągleń..
ANALIZA REGRESJI SPSS
NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).
Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań
... Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 Wyłączenie odpowiedzialności