STATYSTYKA MATEMATYCZNA WYKŁAD 1

Podobne dokumenty
STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

STATYSTYKA MATEMATYCZNA

Po co nam statystyka matematyczna? Żeby na podstawie próby wnioskować o całej populacji

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

STATYSTYKA wykład 1. Wanda Olech. Katedra Genetyki i Ogólnej Hodowli Zwierząt

Modelowanie danych hodowlanych

STATYSTYKA MATEMATYCZNA

METODY STATYSTYCZNE W BIOLOGII

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA MATEMATYCZNA

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Informatyka I stopień (I stopień / II stopień) ogólno akademicki (ogólno akademicki / praktyczny) podstawowy (podstawowy / kierunkowy / inny HES)

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

PRZEWODNIK PO PRZEDMIOCIE

STATYSTYKA MATEMATYCZNA

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

studia stacjonarne w/ćw zajęcia zorganizowane: 30/15 3,0 praca własna studenta: 55 Godziny kontaktowe z nauczycielem akademickim: udział w wykładach

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

STATYSTYKA wykład 1. Wanda Olech. Katedra Genetyki i Ogólnej Hodowli Zwierząt

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

STATYSTYKA MATEMATYCZNA

Opis programu studiów

Z poprzedniego wykładu

Spis treści 3 SPIS TREŚCI

STATYSTYKA MATEMATYCZNA

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

1.INFORMACJE O PRZEDMIOCIE A. Podstawowe dane

METODY STATYSTYCZNE W BIOLOGII

Opis przedmiotu: Probabilistyka I

METODY STATYSTYCZNE W BIOLOGII

Inżynieria danych I stopień Praktyczny Studia stacjonarne Wszystkie specjalności Katedra Ekonomii i Finansów Dr Katarzyna Brzozowska-Rup

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Własności statystyczne regresji liniowej. Wykład 4

Postępy w realizacji polskiego programu selekcji genomowej buhajów MASinBULL Joanna Szyda

Wykład Ćwiczenia Laboratorium Projekt Seminarium 30

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

STATYSTYKA MATEMATYCZNA

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

WNIOSKOWANIE STATYSTYCZNE SYLABUS A. Informacje ogólne

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Podstawy genetyki człowieka. Cechy wieloczynnikowe

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

wolne wolne wolne wolne

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18

Wstęp do rachunku prawdopodobieństwa

przedmiot podstawowy obowiązkowy polski drugi

Wydział Matematyki. Testy zgodności. Wykład 03

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

METODY STATYSTYCZNE W BIOLOGII

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

STATYSTYKA Statistics. Inżynieria Środowiska. II stopień ogólnoakademicki

Oprogramowanie dla GWAS

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA (skrajne daty)

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

PRZEWODNIK PO PRZEDMIOCIE

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

1.INFORMACJE O PRZEDMIOCIE A. Podstawowe dane

Inżynierskie zastosowania statystyki Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s.

1.1 Wstęp Literatura... 1

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka Matematyczna Anna Janicka

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Testy dla dwóch prób w rodzinie rozkładów normalnych

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

Państwowa Wyższa Szkoła Zawodowa w Nowym Sączu. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2011/2012

Statystyka matematyczna i ekonometria

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Statystyka matematyczna

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

Transkrypt:

STATYSTYKA MATEMATYCZNA WYKŁAD 1 Wykład wstępny Teoria prawdopodobieństwa Magda Mielczarek wykłady, ćwiczenia Copyright 2017, J. Szyda & M. Mielczarek

STATYSTYKA MATEMATYCZNA? ASHG 2011 Writing Workshop; Albertine 2011 / Copyright 2015, Joanna Szyda science is not data. Data are the raw material of science. It is what you do with the data that is science the interpretation you make, the story you tell. Copyright 2017, J. Szyda & M. Mielczarek

STATYSTYKA MATEMATYCZNA? N = 44 926 270 Copyright 2017, J. Szyda & M. Mielczarek

STATYSTYKA MATEMATYCZNA? [Header] BSGT Version 3.2.32 Processing Date 11/24/2008 10:14 AM Content BovineSNP50_A.bpm Num SNPs 54001 Total SNPs 54001 Num Samples 32 Total Samples 1054 [Data] SNP Name Sample ID GC Score SNP Index Allele1 - AB Allele2 - AB Chr Position GT Score ARS-BFGL-BAC-10172 4408169492_K 0.883 1B B 14 4736993 0.849 ARS-BFGL-BAC-1020 4408169492_K 0.899 2B B 14 6339014 0.8626 ARS-BFGL-BAC-10245 4408169492_K 0.6582 3B B 14 30073020 0.71 ARS-BFGL-BAC-10345 4408169492_K 0.9092 4A B 14 4497877 0.8721 ARS-BFGL-BAC-10365 4408169492_K 0.8021 5B B 14 25140301 0.833 ARS-BFGL-BAC-10375 4408169492_K 0.8858 6A B 14 4983527 0.8513 ARS-BFGL-BAC-10591 4408169492_K 0.867 7A B 14 15446975 0.8363 ARS-BFGL-BAC-10793 4408169492_K 0.8722 8B B 14 27452258 0.8403 ARS-BFGL-BAC-10867 4408169492_K 0.9316 9A B 14 32700054 0.8949 ARS-BFGL-BAC-10919 4408169492_K 0.7805 10A B 14 29520816 0.778 ARS-BFGL-BAC-10952 4408169492_K 0.9314 11B B 10 19315327 0.8947 ARS-BFGL-BAC-10960 4408169492_K 0.6543 12B B 10 21056606 0.7079 ARS-BFGL-BAC-10975 4408169492_K 0.8622 13A B 10 21682679 0.8358 ARS-BFGL-BAC-10986 4408169492_K 0.8687 14A B 10 25897020 0.8376 ARS-BFGL-BAC-10993 4408169492_K 0.8146 15A B 10 80403647 0.7993 ARS-BFGL-BAC-11000 4408169492_K 0.9135 16A A 10 81191638 0.8762 N = 56 502 470 Copyright 2017, J. Szyda & M. Mielczarek

STATYSTYKA MATEMATYCZNA Statystyka matematyczna zajmuje się opisywaniem i analizą zjawisk masowych przy użyciu metod rachunku prawdopodobieństwa. Statystyka opisowa zajmuje się wstępnym opracowaniem próbki bez posługiwania się rachunkiem prawdopodobieństwa. Copyright 2017, J. Szyda & M. Mielczarek

KATEDRA GENETYKI Katedra Genetyki: Pracownia Biostatystyki: http://gen.edu.pl http://theta.edu.pl Copyright 2017, J. Szyda & M. Mielczarek

PRACOWNIA BIOSTATYSTYKI Copyright 2017, J. Szyda & M. Mielczarek

PRACOWNIA BIOSTATYSTYKI MATERIAŁ BADAŃ Copyright 2017, J. Szyda & M. Mielczarek

PRACOWNIA BIOSTATYSTYKI GŁÓWNE KIERUNKI BADAŃ 1. Bioinformatyka analiza genomowych sekwencji DNA z technologii NGS 2. Modelowanie fenotypowej zmienności cech obliczanie tradycyjnej i genomowej wartości hodowlanej wpływ rzadkich wariantów genetycznych na zmienność cechy 3. Detekcja genów GWAS, efekty epistazy, sieci regulatorowe genów, efekt genu stały i zmienny w czasie Copyright 2017, J. Szyda & M. Mielczarek

PRACOWNIA BIOSTATYSTYKI PROJEKT 1 ZWIERZĘTA CECHY 1 cecha występowanie mastitis MARKERY GENETYCZNE DANE NGS 6 mln polimorfizmów SNP Tysiące polimorfizmów CNV Copyright 2017, J. Szyda & M. Mielczarek

PRACOWNIA BIOSTATYSTYKI PROJEKT 2 ZWIERZĘTA CECHY 28 cech ciągłych MARKERY GENETYCZNE Chip = mikromacierz 54 001 polimorfizmów SNP Copyright 2017, J. Szyda & M. Mielczarek

PRACOWNIA BIOSTATYSTYKI PROJEKT 2 ESTYMATORY EFEKTÓW POSZCZEGÓLNYCH SNP DLA WYDAJNOŚCI MLEKA Copyright 2017, J. Szyda & M. Mielczarek

PRACOWNIA BIOSTATYSTYKI PROJEKT 2 OBLICZONE GENOMOWE WARTOŚCI HODOWLANE BUHAJÓW Copyright 2017, J. Szyda & M. Mielczarek

CHARAKTERYSTYKA WYKŁADÓW 1. Wykład wstępny. Teoria prawdopodobieństwa. 2. Wprowadzenie do pakietu R 3. Zmienne losowe. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Testy statystyczne: Test T, Test 2, Test F i inne 6. Analiza wariancji 7. Korelacja. Regresja liniowa i nieliniowa Zaliczenie: Egzamin Copyright 2017, J. Szyda & M. Mielczarek

CHARAKTERYSTYKA ĆWICZEŃ 1. Wykład wstępny. Teoria prawdopodobieństwa. 2. Wprowadzenie do pakietu R 3. Zmienne losowe. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Testy statystyczne: Test T, Test 2, Test F i inne 6. Analiza wariancji 7. Korelacja. Regresja liniowa i nieliniowa Zaliczenie: Obecność kolokwium (bez poprawek) Aktywność Listy zadań Copyright 2017, J. Szyda & M. Mielczarek

KONTAKT informacje: http://theta.edu.pl/teaching/ Statystyka mat. Copyright 2017, J. Szyda & M. Mielczarek

POLCEANE KSIĄŻKI 1. Adam Łomnicki Wprowadzenie do statystyki dla przyrodników. 2. Włodzimierz Krysicki i inni. Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach cz II. 3. Przemyslaw Biecek Przewodnik po pakiecie R 4. Marek Walesiak, Eugeniusz Gatnar Statystyczna analiza danych z wykorzystaniem programu R. Copyright 2017, J. Szyda & M. Mielczarek

Teoria prawdopodobieństwa i elementy kombinatoryki

CO TO JEST PRAWDOPODOBIEŃSTWO (probability)? http://www.bbc.co.uk/schools/ks2bitesize/maths/data/prob ability/play.shtml Copyright 2014 Joanna Szyda

CO TO JEST PRAWDOPODOBIEŃSTWO? Prawdopodobieństwo analiza statystyczna testowanie hipotez przedziały ufności Prawdopodobieństwo na co dzień opady deszczu są bardzo prawdopodobne Prawdopodobieństwo praktyka zawodowa w 1 na 100 wyźrebień klaczy pełnej krwi angielskiej rodzą się bliźnięta Copyright 2009, Joanna Szyda

KLASYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA Własności prawdopodobieństwa Prawdopodobieństwo wystąpienia zdarzenia A P(A) P(A) jest zawsze liczbą z przedziału 0;1 Prawdopodobieństwo zdarzenia pewnego jest równe 1 P(N)=1 Prawdopodobieństwo zdarzenia niemożliwego jest równe 0 P( )=0 Prawdopodobieństwo zdarzenia przeciwnego: P(A )=1 P(A) Copyright 2009, Joanna Szyda

KLASYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA Własności prawdopodobieństwa cd. Prawdopodobieństwo sumy zdarzeń P(A B)=P(A)+P(B) P(A B) Prawdopodobieństwo (warunkowe) zajścia zdarzenia A pod warunkiem zajścia zdarzenia B P(A B)=P(A B)P(B) Copyright 2009, Joanna Szyda

KLASYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA liczba wystąpień zdarzenia A P A m N liczba wszystkich prób PRZYKŁAD Copyright 2009, Joanna Szyda

OBLICZANIE PRAWDOPODOBIEŃSTWA Journal of Psychiatric Research (2003) Carter i wsp. wystąpienie choroby dwubiegunowej w zależności od wieku... i uwarunkowań rodzinnych 318 pacjentów wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Copyright 2009, Joanna Szyda

PRAWDOPODOBIEŃSTWO BRZEGOWE (marginal probability) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory na chorobę dwubiegunową ma poniżej 18 lat, P(E) P 141 318 E 0. 4434 Prawdopodobieństwo, że losowo wybrany chory jest dzieckiem zdrowych rodziców, P(A) P 63 318 A 0. 1981 Copyright 2009, Joanna Szyda

ZDARZENIA DOPEŁNIAJĄCE SIĘ (complementary events) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory ma poniżej 18 lat, P(E) P 141 318 E 0. 4434 Prawdopodobieństwo, że losowo wybrany chory ma co najmniej 18 lat, P(L) 177 P L P E 0. 5566 318 PE PE 1 Copyright 2009, Joanna Szyda

PRAWDOPODOBIEŃSTWO ŁĄCZNE (joint probability) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory ma poniżej 18 lat i pochodzi ze zdrowej rodziny Prawdopodobieństwo łącznego zajścia zdarzeń A i E, P(AE) P 28 318 A E P AE 0. 0881 Copyright 2011, Joanna Szyda

PRAWDOPODOBIEŃSTWO WARUNKOWE (conditional pr.) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory poniżej 18 lat pochodzi ze zdrowej rodziny Warunek chory ma poniżej 18 lat Prawdopodobieństwo zdarzenia A pod warunkiem, że zaszło zdarzenie E, P(A E) P A AE E P 28 E P 141 0.1986 Copyright 2011, Joanna Szyda

WZÓR BAYESA Thomas Bayes Copyright 2011, Joanna Szyda

WZÓR BAYESA teza dane prawdopodobieństwo a priori tezy A P A E P( A) P( E P( E) A) prawdopodobieństwo a posteriori tezy A = zweryfikowane danymi prawdopodobieństwo zaobserwowania danych, gdy teza A jest prawdziwa Copyright 2011, Joanna Szyda

WZÓR BAYESA 2 dzieci to chłopcy Starsze dziecko to chłopiec P A E P( A) P( E P( E) A) Dwoje dzieci to chłopcy, pod warunkiem, że starsze dziecko to chłopiec Starsze dziecko to chłopiec, pod warunkiem, że dwoje dzieci to chłopcy Copyright 2014, Joanna Szyda

WZÓR BAYESA 2 dzieci to chłopcy Starsze dziecko to chłopiec Dwoje dzieci to chłopcy, pod warunkiem, że starsze dziecko to chłopiec Starsze dziecko to chłopiec, pod warunkiem, że dwoje dzieci to chłopcy Copyright 2014, Joanna Szyda

WZÓR BAYESA wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory poniżej 18 lat pochodzi ze zdrowej rodziny P 63 28 P( A) P E A A E 318 63 P( E) 141 318 0.1986 Copyright 2011, Joanna Szyda

DODAWANIE PRAWDOPODOBIEŃSTW wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory ma przynajmniej 18 lat P(L) lub że losowo wybrany chory pochodzi ze zdrowej rodziny P(A); P(L A) P 177 318 63 318 35 318 L A PL PA PLA 0. 64 Copyright 2009, Joanna Szyda

KOMBINATORYKA - PERMUTACJE Zestawy wszystkich elementów zbioru z uwzględnieniem kolejności n! 3! 123 6 Copyright 2009, Joanna Szyda

KOMBINATORYKA - WARIACJE Zestawy k elementów ze zbioru z uwzględnieniem kolejności n! n k! 3! 1! 6 Copyright 2009, Joanna Szyda

KOMBINATORYKA - KOMBINACJE Zestawy k elementów ze zbioru bez uwzględnienia kolejności n k k! n! n k! 3! 2!1! 6 2 3 Copyright 2009, Joanna Szyda

P A E P( AE) P( E) PRAWDOPODOBIEŃSTWO Copyright 2011, Joanna Szyda