STATYSTYKA MATEMATYCZNA WYKŁAD 1 Wykład wstępny Teoria prawdopodobieństwa Magda Mielczarek wykłady, ćwiczenia Copyright 2017, J. Szyda & M. Mielczarek
STATYSTYKA MATEMATYCZNA? ASHG 2011 Writing Workshop; Albertine 2011 / Copyright 2015, Joanna Szyda science is not data. Data are the raw material of science. It is what you do with the data that is science the interpretation you make, the story you tell. Copyright 2017, J. Szyda & M. Mielczarek
STATYSTYKA MATEMATYCZNA? N = 44 926 270 Copyright 2017, J. Szyda & M. Mielczarek
STATYSTYKA MATEMATYCZNA? [Header] BSGT Version 3.2.32 Processing Date 11/24/2008 10:14 AM Content BovineSNP50_A.bpm Num SNPs 54001 Total SNPs 54001 Num Samples 32 Total Samples 1054 [Data] SNP Name Sample ID GC Score SNP Index Allele1 - AB Allele2 - AB Chr Position GT Score ARS-BFGL-BAC-10172 4408169492_K 0.883 1B B 14 4736993 0.849 ARS-BFGL-BAC-1020 4408169492_K 0.899 2B B 14 6339014 0.8626 ARS-BFGL-BAC-10245 4408169492_K 0.6582 3B B 14 30073020 0.71 ARS-BFGL-BAC-10345 4408169492_K 0.9092 4A B 14 4497877 0.8721 ARS-BFGL-BAC-10365 4408169492_K 0.8021 5B B 14 25140301 0.833 ARS-BFGL-BAC-10375 4408169492_K 0.8858 6A B 14 4983527 0.8513 ARS-BFGL-BAC-10591 4408169492_K 0.867 7A B 14 15446975 0.8363 ARS-BFGL-BAC-10793 4408169492_K 0.8722 8B B 14 27452258 0.8403 ARS-BFGL-BAC-10867 4408169492_K 0.9316 9A B 14 32700054 0.8949 ARS-BFGL-BAC-10919 4408169492_K 0.7805 10A B 14 29520816 0.778 ARS-BFGL-BAC-10952 4408169492_K 0.9314 11B B 10 19315327 0.8947 ARS-BFGL-BAC-10960 4408169492_K 0.6543 12B B 10 21056606 0.7079 ARS-BFGL-BAC-10975 4408169492_K 0.8622 13A B 10 21682679 0.8358 ARS-BFGL-BAC-10986 4408169492_K 0.8687 14A B 10 25897020 0.8376 ARS-BFGL-BAC-10993 4408169492_K 0.8146 15A B 10 80403647 0.7993 ARS-BFGL-BAC-11000 4408169492_K 0.9135 16A A 10 81191638 0.8762 N = 56 502 470 Copyright 2017, J. Szyda & M. Mielczarek
STATYSTYKA MATEMATYCZNA Statystyka matematyczna zajmuje się opisywaniem i analizą zjawisk masowych przy użyciu metod rachunku prawdopodobieństwa. Statystyka opisowa zajmuje się wstępnym opracowaniem próbki bez posługiwania się rachunkiem prawdopodobieństwa. Copyright 2017, J. Szyda & M. Mielczarek
KATEDRA GENETYKI Katedra Genetyki: Pracownia Biostatystyki: http://gen.edu.pl http://theta.edu.pl Copyright 2017, J. Szyda & M. Mielczarek
PRACOWNIA BIOSTATYSTYKI Copyright 2017, J. Szyda & M. Mielczarek
PRACOWNIA BIOSTATYSTYKI MATERIAŁ BADAŃ Copyright 2017, J. Szyda & M. Mielczarek
PRACOWNIA BIOSTATYSTYKI GŁÓWNE KIERUNKI BADAŃ 1. Bioinformatyka analiza genomowych sekwencji DNA z technologii NGS 2. Modelowanie fenotypowej zmienności cech obliczanie tradycyjnej i genomowej wartości hodowlanej wpływ rzadkich wariantów genetycznych na zmienność cechy 3. Detekcja genów GWAS, efekty epistazy, sieci regulatorowe genów, efekt genu stały i zmienny w czasie Copyright 2017, J. Szyda & M. Mielczarek
PRACOWNIA BIOSTATYSTYKI PROJEKT 1 ZWIERZĘTA CECHY 1 cecha występowanie mastitis MARKERY GENETYCZNE DANE NGS 6 mln polimorfizmów SNP Tysiące polimorfizmów CNV Copyright 2017, J. Szyda & M. Mielczarek
PRACOWNIA BIOSTATYSTYKI PROJEKT 2 ZWIERZĘTA CECHY 28 cech ciągłych MARKERY GENETYCZNE Chip = mikromacierz 54 001 polimorfizmów SNP Copyright 2017, J. Szyda & M. Mielczarek
PRACOWNIA BIOSTATYSTYKI PROJEKT 2 ESTYMATORY EFEKTÓW POSZCZEGÓLNYCH SNP DLA WYDAJNOŚCI MLEKA Copyright 2017, J. Szyda & M. Mielczarek
PRACOWNIA BIOSTATYSTYKI PROJEKT 2 OBLICZONE GENOMOWE WARTOŚCI HODOWLANE BUHAJÓW Copyright 2017, J. Szyda & M. Mielczarek
CHARAKTERYSTYKA WYKŁADÓW 1. Wykład wstępny. Teoria prawdopodobieństwa. 2. Wprowadzenie do pakietu R 3. Zmienne losowe. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Testy statystyczne: Test T, Test 2, Test F i inne 6. Analiza wariancji 7. Korelacja. Regresja liniowa i nieliniowa Zaliczenie: Egzamin Copyright 2017, J. Szyda & M. Mielczarek
CHARAKTERYSTYKA ĆWICZEŃ 1. Wykład wstępny. Teoria prawdopodobieństwa. 2. Wprowadzenie do pakietu R 3. Zmienne losowe. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Testy statystyczne: Test T, Test 2, Test F i inne 6. Analiza wariancji 7. Korelacja. Regresja liniowa i nieliniowa Zaliczenie: Obecność kolokwium (bez poprawek) Aktywność Listy zadań Copyright 2017, J. Szyda & M. Mielczarek
KONTAKT informacje: http://theta.edu.pl/teaching/ Statystyka mat. Copyright 2017, J. Szyda & M. Mielczarek
POLCEANE KSIĄŻKI 1. Adam Łomnicki Wprowadzenie do statystyki dla przyrodników. 2. Włodzimierz Krysicki i inni. Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach cz II. 3. Przemyslaw Biecek Przewodnik po pakiecie R 4. Marek Walesiak, Eugeniusz Gatnar Statystyczna analiza danych z wykorzystaniem programu R. Copyright 2017, J. Szyda & M. Mielczarek
Teoria prawdopodobieństwa i elementy kombinatoryki
CO TO JEST PRAWDOPODOBIEŃSTWO (probability)? http://www.bbc.co.uk/schools/ks2bitesize/maths/data/prob ability/play.shtml Copyright 2014 Joanna Szyda
CO TO JEST PRAWDOPODOBIEŃSTWO? Prawdopodobieństwo analiza statystyczna testowanie hipotez przedziały ufności Prawdopodobieństwo na co dzień opady deszczu są bardzo prawdopodobne Prawdopodobieństwo praktyka zawodowa w 1 na 100 wyźrebień klaczy pełnej krwi angielskiej rodzą się bliźnięta Copyright 2009, Joanna Szyda
KLASYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA Własności prawdopodobieństwa Prawdopodobieństwo wystąpienia zdarzenia A P(A) P(A) jest zawsze liczbą z przedziału 0;1 Prawdopodobieństwo zdarzenia pewnego jest równe 1 P(N)=1 Prawdopodobieństwo zdarzenia niemożliwego jest równe 0 P( )=0 Prawdopodobieństwo zdarzenia przeciwnego: P(A )=1 P(A) Copyright 2009, Joanna Szyda
KLASYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA Własności prawdopodobieństwa cd. Prawdopodobieństwo sumy zdarzeń P(A B)=P(A)+P(B) P(A B) Prawdopodobieństwo (warunkowe) zajścia zdarzenia A pod warunkiem zajścia zdarzenia B P(A B)=P(A B)P(B) Copyright 2009, Joanna Szyda
KLASYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA liczba wystąpień zdarzenia A P A m N liczba wszystkich prób PRZYKŁAD Copyright 2009, Joanna Szyda
OBLICZANIE PRAWDOPODOBIEŃSTWA Journal of Psychiatric Research (2003) Carter i wsp. wystąpienie choroby dwubiegunowej w zależności od wieku... i uwarunkowań rodzinnych 318 pacjentów wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Copyright 2009, Joanna Szyda
PRAWDOPODOBIEŃSTWO BRZEGOWE (marginal probability) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory na chorobę dwubiegunową ma poniżej 18 lat, P(E) P 141 318 E 0. 4434 Prawdopodobieństwo, że losowo wybrany chory jest dzieckiem zdrowych rodziców, P(A) P 63 318 A 0. 1981 Copyright 2009, Joanna Szyda
ZDARZENIA DOPEŁNIAJĄCE SIĘ (complementary events) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory ma poniżej 18 lat, P(E) P 141 318 E 0. 4434 Prawdopodobieństwo, że losowo wybrany chory ma co najmniej 18 lat, P(L) 177 P L P E 0. 5566 318 PE PE 1 Copyright 2009, Joanna Szyda
PRAWDOPODOBIEŃSTWO ŁĄCZNE (joint probability) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory ma poniżej 18 lat i pochodzi ze zdrowej rodziny Prawdopodobieństwo łącznego zajścia zdarzeń A i E, P(AE) P 28 318 A E P AE 0. 0881 Copyright 2011, Joanna Szyda
PRAWDOPODOBIEŃSTWO WARUNKOWE (conditional pr.) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory poniżej 18 lat pochodzi ze zdrowej rodziny Warunek chory ma poniżej 18 lat Prawdopodobieństwo zdarzenia A pod warunkiem, że zaszło zdarzenie E, P(A E) P A AE E P 28 E P 141 0.1986 Copyright 2011, Joanna Szyda
WZÓR BAYESA Thomas Bayes Copyright 2011, Joanna Szyda
WZÓR BAYESA teza dane prawdopodobieństwo a priori tezy A P A E P( A) P( E P( E) A) prawdopodobieństwo a posteriori tezy A = zweryfikowane danymi prawdopodobieństwo zaobserwowania danych, gdy teza A jest prawdziwa Copyright 2011, Joanna Szyda
WZÓR BAYESA 2 dzieci to chłopcy Starsze dziecko to chłopiec P A E P( A) P( E P( E) A) Dwoje dzieci to chłopcy, pod warunkiem, że starsze dziecko to chłopiec Starsze dziecko to chłopiec, pod warunkiem, że dwoje dzieci to chłopcy Copyright 2014, Joanna Szyda
WZÓR BAYESA 2 dzieci to chłopcy Starsze dziecko to chłopiec Dwoje dzieci to chłopcy, pod warunkiem, że starsze dziecko to chłopiec Starsze dziecko to chłopiec, pod warunkiem, że dwoje dzieci to chłopcy Copyright 2014, Joanna Szyda
WZÓR BAYESA wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory poniżej 18 lat pochodzi ze zdrowej rodziny P 63 28 P( A) P E A A E 318 63 P( E) 141 318 0.1986 Copyright 2011, Joanna Szyda
DODAWANIE PRAWDOPODOBIEŃSTW wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory ma przynajmniej 18 lat P(L) lub że losowo wybrany chory pochodzi ze zdrowej rodziny P(A); P(L A) P 177 318 63 318 35 318 L A PL PA PLA 0. 64 Copyright 2009, Joanna Szyda
KOMBINATORYKA - PERMUTACJE Zestawy wszystkich elementów zbioru z uwzględnieniem kolejności n! 3! 123 6 Copyright 2009, Joanna Szyda
KOMBINATORYKA - WARIACJE Zestawy k elementów ze zbioru z uwzględnieniem kolejności n! n k! 3! 1! 6 Copyright 2009, Joanna Szyda
KOMBINATORYKA - KOMBINACJE Zestawy k elementów ze zbioru bez uwzględnienia kolejności n k k! n! n k! 3! 2!1! 6 2 3 Copyright 2009, Joanna Szyda
P A E P( AE) P( E) PRAWDOPODOBIEŃSTWO Copyright 2011, Joanna Szyda