Statystyczna analiza danych

Podobne dokumenty
Klasteryzacja i klasyfikacja danych spektrometrycznych

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyczna analiza Danych

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

STATYSTYKA MATEMATYCZNA WYKŁAD 1

Opisy przedmiotów do wyboru

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

KARTA PRZEDMIOTU. WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI 1. Brak

Informatyka I stopień (I stopień / II stopień) ogólno akademicki (ogólno akademicki / praktyczny) podstawowy (podstawowy / kierunkowy / inny HES)

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Statystyczna analiza danych (molekularnych) estymacja bayesowska i MLE

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Opis efektów kształcenia dla modułu zajęć

Kurs Chemometrii Poznań 28 listopad 2006

Szkolenia SAS Cennik i kalendarz 2017

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA (skrajne daty)

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

KARTA PRZEDMIOTU / SYLABUS Wydział Nauk o Zdrowiu Zdrowie Publiczne ogólnoakademicki praktyczny inny jaki. Zakład Statystyki i Informatyki Medycznej

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w Uczelni

Przykładowa analiza danych

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Ekonometryczne modele nieliniowe

KARTA PRZEDMIOTU / SYLABUS

Przedmioty do wyboru oferowane na stacjonarnych studiach II stopnia (magisterskich) dla II roku w roku akademickim 2015/2016

Elementy statystyki wielowymiarowej

STATYSTYKA MATEMATYCZNA

KARTA PRZEDMIOTU / SYLABUS

Analiza danych. TEMATYKA PRZEDMIOTU

Statystyczna analiza danych (molekularnych) modele liniowe

KARTA PRZEDMIOTU / SYLABUS

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

KARTA PRZEDMIOTU / SYLABUS

STATYSTYKA MATEMATYCZNA

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji.

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Statystyka matematyczna SYLABUS

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

KARTA PRZEDMIOTU / SYLABUS. Zakład Statystyki i Informatyki Medycznej. tel./fax (85) dr Robert Milewski

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

BIOSTATYSTYKA. Liczba godzin. Zakład Statystyki i Informatyki Medycznej

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

KLASYFIKACJA. Słownik języka polskiego

KATALOG KURSÓW PRZEDMIOTY KSZTACŁENIA PODSTAWOWEGO I OGÓLNEGO

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w Uczelni

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

NOWY PROGRAM STUDIÓW 2016/2017 SYLABUS PRZEDMIOTU AUTORSKIEGO: Wprowadzenie do teorii ekonometrii. Część A

Klasyfikacja LDA + walidacja

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Opis programu studiów

Statystyka i Analiza Danych

Uczelnia Łazarskiego Wydział Medyczny Kierunek Lekarski

KARTA KURSU. Kod Punktacja ECTS* 1

STATYSTYKA MATEMATYCZNA

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

Opisy przedmiotów do wyboru

Metody statystyczne w socjologii SYLABUS A. Informacje ogólne Opis

Imputacja brakujacych danych binarnych w modelu autologistycznym 1

PAKIETY STATYSTYCZNE

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólnoakademicki / praktyczny)

Statystyka matematyczna i ekonometria

Statystyczna analiza danych

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

KARTA PRZEDMIOTU / SYLABUS

Algorytmy MCMC i ich zastosowania statystyczne

STATYSTYKA MATEMATYCZNA

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Opis efektów kształcenia dla modułu zajęć

AUTOMATYKA INFORMATYKA

Tematyka seminariów z informatyki dla studentów I roku kierunku lekarsko-dentystycznego w roku akademickim 2017/2018.

Katedra Demografii i Statystki Ekonomicznej

Data wydruku: Dla rocznika: 2015/2016. Opis przedmiotu

Wykład Ćwiczenia Laboratorium Projekt Seminarium

Widzenie komputerowe (computer vision)

STATYSTYKA MATEMATYCZNA

Opis przedmiotu: Probabilistyka I

Transkrypt:

Statystyczna analiza danych wykład I: motywacja i organizacja Anna Gambin Instytut Informatyki UW

plan wykładu motywacja: statystyczna bioinformatyka - dwa przykłady (z własnego podwórka) spektrometria mas mikromacierze acgh organizacja: plan wykładu i reguły zaliczenia

EKSPERYMENT DANE (duża skala) STATYSTYCZNA ANALIZA DANYCH Diagram of the microarray-based comparative genomic hybridization (acgh)process 2008 Nature Education

ludzie (bioputer.mimuw.edu.pl) Piotrek Michał

projekty (przykład 1: spektrometria)

spektrometria mas widmo peptydu = obwiednia izotopowa

automatyczna interpretacja widma

DBSCAN

klastrowanie w domenie czasu retencji metody obszarowe: DBSCAN

klastrowanie )* "%## &!## &&##!"#$!"!$!""$ '( algorytm EM algorytm k-średnich wykorzystujące model probabilistyczny

ocena jakości

(jednoczesne) testowanie (wielu) hipotez statystycznych FDR - false dicovery rate

selekcja cech (biomarkerów) metoda PPC

selekcja cech (biomarkerów) t-test (Welch)

niestabilność biomarkerów

modele Markowa Markov Figure 7chain hierarchical structure

uliniowienie próbek

klasyfikacja

konsensus biomarkerów

klasyfikacja RF- random forest SVM- support vector machines DT - decision trees LDA- linear discriminant analysis

modelowanie aktywności proteolitycznej

model I: egzopeptydazy FTSSTS FTSST TSSTS SSTSY FTSS TSST SSTS STSY FTS TSS SST STS TSY FT SS TS ST SY Figure 2: The cleavage graph for 2 precursor peptides FTSSTS and SSTSY with source and sink nodes added.

model II: endopepydazy

modelowanie

bayesowskie modelowanie

prawdopodobieństwo a posteriori

Metropolis-Hastings

aktywność trypsyny

! estymacja parametrów elastase.1 trypsin.1 ADAM10.peptidase matrix.metallopeptidase.20 membrane.type.matrix.metallopeptidase.3 cathepsin.s membrane.type.matrix.metallopeptidase.4 calpain.2 membrane.type.matrix.metallopeptidase.6 ADAMTS5.peptidase myeloblastin membrane.type.matrix.metallopeptidase.1 calpain.1 8 6! 4!! 2! 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 cathepsin.h hea dise A (real data) clr(activity) 8 B (synthetic data with std = 0.1) clr(activity) 6 4 2!!! 0 C (synthetic data with std = 0.01) clr(activity) 8 6 4 2 0 1 1 2 2 3 3 4 4 5! 5 6 6 7! 7 8 8 9 9 10 0 11 1 12! 2 13 3 14 4 Figure 5. Peptidases activities for 19 samples. The red-whi represents peptidase acivities in descending order (for missing pe values are set to minimal). tering of activity profiles groups samples into two c being in good accordance with patient s diagnosis. Let s take a closer look at the set of identified pept Among them we detected the family of matrix metal tidases, whose role in cancer development and progr is significant [16], [17]. The calpain enzyme is use marker for the early detection of colorectal carcinom and inhibitors of cathepsins as possible therapeu

grupowanie

PCA: analiza składowych głównych

PCA: analiza składowych głównych

projekty (przykład 2: mikromacierze acgh)

technologia acgh Diagram of the microarray-based comparative genomic hybridization (acgh)process 2008 Nature Education

baza pacjentów w IMiD

zidentyfikowane segmenty

zidentyfikowane segmenty

zidentyfikowane segmenty

zidentyfikowane segmenty

!"#$%$#&' ()*+)",'*$-%./&0 1234)- 5+.6*$7.) 8/'%)"*)9.6*$7.)!"#$%&'()*+,-.. /0 /0 1&2.*1,3.,)3&)"*,34!"#$%&'()5.1(6. 70 /0 891&-.3 :&*+;3,6)<=>3.*16"'().)*&?6"'( 70 70 891&-.3 @$%4A)#").35"<-&%(6. /0 /0 891&-.3 @$%4A)#")B."2"9.. 70 891&-.3 C41(6)"B*( D 70 1&2.*1,3.,)3&)"*,34 @E D /0 1&2.*1,3.,!<1,#-."%)"9=23";3.',<$(%,*6. /0 D 891&-.3 :;6*7)"9.6*<)"=/-*.7>"?@A!!"#$%$#&'" ()*+)",'*$-%./&0 1234)- 5+.6*$7.) 8/'%)"*)9.6*$7.)!"#$%&'()*+,-.. /0 FG 891&-.3 :&*+;3,6)A<&'#"A"#"B.,H$%'& 70 70 891&-.3 I29"<(%-().)$%<;6%;<()#&3(*+ /0 /0 891&-.3 86"2"9.& /0 /0 891&-.3 J."*+,-.& 70 D 891&-.3 C41(6)"B*( D 70 1&2.*1,3.,)3&)"*,34 @E D /0 1&2.*1,3.,!<1,#-."%)"9=23";3.',<$(%,*6. /0 D K&2.*1,3.,)3&)"*,34) :;6*7)"9.6*<)"=/-*.7>"BC?

!!!"#$%$#&'" ()*+)",'*$-%./&0 1234)- 5+.6*$7.) 8/'%)"*)9.6*$7.) L&%,-&%(6&)#($6<,%3&).)&29,B<&) /0 /0 891&-.3 2.3."'&!<"9<&-"'&3., ). ) A<"M,6%"'&3.,) /0 /0 891&-.3 "B.,6%"', J."2"9.&)6"-=<6. 70 /0 891&-.3 @$%4A)#")B.".35"<-&%(6. FG NG 891&-.3 J."2"9.&)-"2,6;2&<3&)1)9,3,%(6O) 70 D 891&-.3 *1PQ C41(6)"B*( D 70 K&2.*1,3.,)3&)"*,34 @E D /0 K&2.*1,3.,)!<1,#-."%)"9=23";3.',<$(%,*6. /0 D K&2.*1,3.,)3&)"*,34 :;6*7)"9.6*<)"=/-*.7>"BDA!E"#$%$#&'> ()*+)",'*$-%./&0 1234)- 5+.6*$7.) 8/'%)"*)9.6*$7.) L&%,-&%(6&)"B2.*1,3."'& /0 /0 891&-.3 R%&%($%(*13&)&3&2.1&)#&3(*+ /0 /0 891&-.3 J."2"9.& ) -"2,6;2&<3& ) 1 ) 9,3,%(6O) /0 /0 891&-.3 *1PQQ @$%4A)#")B.".35"<-&%(6. FG NG 891&-.3 E.1M"2"9.&).)<,9;2&*M&)-,%&B"2.1-; 70 D K&2.*1,3.,)3&)"*,34 L"2,6;2&<3,)A"#$%&'(),31(-"2"9.. 70 D 1&2.*1,3.,)3&)"*,34 C41(6)"B*( D 70 1&2.*1,3.,)3&)"*,34 891&-.3 ) *,<%(5.6&*(M3( ) 1 ) M41(6&) "B*,9" 891&-.3 @E D /0 1&2.*1,3.,

Organizacja wykładu wykład ~ teoria (slajdy + notatki) zaliczenie wykładu = egzamin ustny laboratorium ~ analiza danych (język R) zaliczenie labu = projekt

literatura Statistics Using R with Biological Examples Kim Seefeld, Ernst Linder, http://cran.r-project.org/doc/contrib/seefeld_statsrbio.pdf Applied Statistics for Bioinformatics using R Wim P. Krijnen http://cran.r-project.org/doc/contrib/krijnen-introbioinfstatistics.pdf Statistical Bioinformatics with R Sunil K. Mathur, Elsevier Academic Press, 2010

Organizacja wykładu wykład 1: wstęp - organizacja wykładu, skąd przyszliśmy, dokąd zmierzamy... wykład 2 i 3: podstawowe rozkłady prawdopodobieństwa, testy parametryczne i nieparametryczne wykłady 4, 5: analiza skupień=grupowanie = klasteryzacja (ang. clustering) metody grafowe, metody hierarchiczne, relokacyjne, oparte o model.

Organizacja wykładu wykłady 6,7: redukcja wymiaru, selekcja cech (biomarkerów) analiza składowych głównych, skalowanie wielowymiarowe wykłady 8-11: klasyfikacja LDA, QDA, regresja liniowa, klasyfikatory drzewowe, boosting,... wykłady 11-14: modele Markowa

Organizacja wykładu wykład 1: wstęp - organizacja wykładu, skąd przyszliśmy, dokąd zmierzamy... wykład 2 i 3: podstawowe rozkłady prawdopodobieństwa, testy parametryczne i nieparametryczne wykłady 4-7: statystyka bayesowska modele Markowa, symulacje stochastyczne, próbnik Gibbsa, MCMC...

Organizacja wykładu wykłady 8,9: modelowanie estymacja parametów modelu wykłady 10-12: modele liniowe, analiza wariancji ANOVA, regresja liniowa,... wykłady 13-14: projektowanie eksperymentów