Przykªadowe analizy. Grzegorz Kemski. 26 listopada 2008



Podobne dokumenty
In»ynierskie zastosowania statystyki wiczenia

Podstawy statystycznego modelowania danych - Wykªad 7

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Pakiety statystyczne - Wykªad 8

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Metody probablistyczne i statystyka stosowana

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Ekonometria Bayesowska

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Podstawy statystycznego modelowania danych Analiza prze»ycia

Ekonometria - wykªad 8

Wykªad 6: Model logitowy

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Testowanie hipotez statystycznych

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Lekcja 8 - ANIMACJA. 1 Polecenia. 2 Typy animacji. 3 Pierwsza animacja - Mrugaj ca twarz

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Statystyka matematyczna - ZSTA LMO

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Biostatystyka, # 5 /Weterynaria I/

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Ekonometria Bayesowska

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

x y x y x y x + y x y

MODELE LINIOWE i MIESZANE

Lab. 02: Algorytm Schrage

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Metodydowodzenia twierdzeń

Matematyka z elementami statystyki

Modele wielorównaniowe. Estymacja parametrów

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Dokonamy analizy mającej na celu pokazanie czy płeć jest istotnym czynnikiem

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Elementarna statystyka Test Istotno±ci (Tests of Signicance)

Modele wielorównaniowe. Problem identykacji

Arkusz maturalny. Šukasz Dawidowski. 25 kwietnia 2016r. Powtórki maturalne

Ukªady równa«liniowych - rozkªady typu LU i LL'

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski.

Wyznaczanie krzywej rotacji Galaktyki na podstawie danych z teleskopu RT3

Wst p i organizacja zaj

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

4.3. Struktura bazy noclegowej oraz jej wykorzystanie w Bieszczadach

Eksperyment,,efekt przełomu roku

Statystyka matematyczna

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Przekroje Dedekinda 1

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Edycja geometrii w Solid Edge ST

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

Ekonometria Bayesowska

E k o n o m e t r i a S t r o n a 1

Testowanie hipotez statystycznych.

Analiza wydajno±ci serwera openldap

Metody bioinformatyki (MBI)

Wektory w przestrzeni

Weryfikacja hipotez statystycznych

Liniowe zadania najmniejszych kwadratów

KWIECIEŃ 2008 RYNEK WTÓRNY I RYNEK NAJMU MIESZKAŃ W WYBRANYCH MIASTACH POLSKI RYNEK WTÓRNY I RYNEK NAJMU MIESZKAŃ W WYBRANYCH MIASTACH POLSKI

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Zadania z rachunku prawdopodobie«stwa

Badania skuteczności działania filtrów piaskowych o przepływie pionowym z dodatkiem węgla aktywowanego w przydomowych oczyszczalniach ścieków

Przetwarzanie bazuj ce na linii opó niaj cej

Perspektywy rozwoju rynku funduszy VC w Polsce

Mieszkanki woj. kujawsko-pomorskiego najczęściej jeżdżą Renault

Aproksymacja funkcji metod najmniejszych kwadratów

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

1 Bª dy i arytmetyka zmiennopozycyjna

Egzamin z ekonometrii - wersja ogólna

Oferty portalu. Statystyki wejść w oferty wózków widłowych na tle ofert portalu w latach oraz I kw.2015 r I kw.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Podziaª pracy. Cz ± II. 1 Tablica sortuj ca. Rozwi zanie

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

W tym elemencie większość zdających nie zapisywała za pomocą równania reakcji procesu zobojętniania tlenku sodu mianowanym roztworem kwasu solnego.

III. GOSPODARSTWA DOMOWE, RODZINY I GOSPODARSTWA ZBIOROWE

Powiatowy Urząd Pracy w Trzebnicy. w powiecie trzebnickim w 2008 roku Absolwenci w powiecie trzebnickim

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka

Bash i algorytmy. Elwira Wachowicz. 20 lutego

Niegrzeczne dzieciaki na gorącym krześle

Komentarz technik dróg i mostów kolejowych 311[06]-01 Czerwiec 2009

Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo

AUTOR MAGDALENA LACH

Elementarna statystyka Test Istotno±ci

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wst p do ekonometrii II

Uzbekistański rynek kosmetyków do pielęgnacji skóry i włosów :51:38

Ekonometria. wiczenia 3 Autokorelacja, heteroskedastyczno±, wspóªliniowo± Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

Transkrypt:

26 listopada 2008

Plan wykªadu Prezentacja danych i metod statystycznych u»ytych w artykuªach: 'Why living-donor renal transplant yields better outcomes than cadaver renal transplant?' L. Guirado, E. Vela, M. Cl ries, J. M. Díaz, C. Facundo and R. García-Maset (2008) 'Identifying dierentially expressed genes using false discovery rate controlling procedures' Anat Reiner, Daniel Yekutieli and Yoav Benjamini (2002)

Motywacje - 'Why living-donor...' Z literatury i bada«wiadomo,»e prze»ywalno± zarówno pacjenta, jak i przeszczepu jest wy»sza w przypadku pobrania nerki od»ywego dawcy (LDRT) ni» w przypadku pobrania nerki od dawcy martwego (CDRT). Wedªug rejestrów UNOS (United Network for Organ Sharing) prze»ywalno± po pi ciu latach od przeszczepu wynosi odpowiednio 80.7% i 65.7% dla CDRT oraz 90.1% i 78.6% dla LDRT. Celem artykuªu jest identykacja i zbadanie czynników, które o tym decyduj.

Dane - 'Why living-donor...' Przeanalizowano wszystkie pierwsze przeszczepy nerek wykonane w Katalonii w latach 1990-2004 (rejestr CRPR) w±ród pacjentów starszych ni» 17 lat. 135 przypadków LDRT. 3831 przypadków CDRT. 171 przypadków (4.3%) zostaªo wykluczonych z badania z powodu niepeªnej informacji.

Dane - 'Why living-donor...' Zbadano: wiek i pªe dawcy i biorcy PKD (primary kidney disease) histori zachorowa«pacjenta czas leczenia dializ rok zabiegu maksymalny i ostatnio zarejestrowany procent przeciwciaª (PRA) czas niedokrwienia nerki (w godzinach) ukªad zgodno±ci tkankowej (HLA)

Dane - 'Why living-donor...' Liczba przeszczepów w kolejnych latach ze wzgl du na typ dawcy:

Dane - 'Why living-donor...' Dane ze zmiennych ilo±ciowych s przedstawione jako warto± ±rednia i wariancja (M + SD), a ze zmiennych jako±ciowych w formie procentowej. Do porównania warto±ci ±rednich u»yto testu t-studenta, a do porównania proporcji testu chi-kwadrat. Na przykªad:

Dane - 'Why living-donor...'

Dane - 'Why living-donor...'

Analiza danych - 'Why living-donor...' Pacjenci otrzymuj cy LDRT (w stosunku do CDRT): s mªodsi (±rednio o 11 lat) rzadziej cierpieli na badane choroby mniej czasu sp dzili na dializie maj wy»sz zgodno± HLA-A i HLA-B z dawc czas niedokrwienia nerki jest wyra¹nie krótszy w±ród dawców jest wi cej kobiet i osób w wieku 50-59 lat Pomi dzy pozostaªymi czynnikami nie ma istotnych ró»nic.

Analiza prze»ycia - 'Why living-donor...' Do analizy prze»ycia stosujemy metod aktuarialn. Do porównania krzywych prze»ycia stosujemy test Gehana (uogólniny test Wilcoxona).

Analiza prze»ycia - 'Why living-donor...' Analiza prze»ycia dla pacjenta: p = 0.016

Analiza prze»ycia - 'Why living-donor...' Analiza prze»ycia dla przeszczepu: p = 0.047

Analiza prze»ycia - 'Why living-donor...' Analiza prze»ycia dla przeszczepu z cenzorowanymi ±mierciami pacjenta: p = 0.67

Analiza prze»ycia - 'Why living-donor...' Wniosek: Z analizy prze»ycia wynika,»e zarówno pacjenci, którzy otrzymali LDRT, jak i ich przeszczepy maj wi ksz prze»ywalno± ni» dla CDRT. W przypadku analizy dla przeszczepu z cenzorowanymi ±mierciami ró»nice nie s ju» znacz ce (p = 0.67).

Model regresji Coxa - 'Why living-donor...' Do analizy wielokrotnej prze»ywalno±ci przeszczepu zastosowano model regresji Coxa. Pierwsz zmienn obja±niaj c jest typ przeszczepu - LDRT lub CDRT. Zmienne, które nie wykazaªy znamienno±ci statystycznej zostaªy kolejno wykluczone, poza tymi, które w dotychczasowej analizie wykazaªy ró»nice pomi dzy LDRT, a CDRT. Do okre±lenia statystycznej znamienno±ci zmiennych posªu»ono si testem chi-kwadrat.

Model regresji Coxa - 'Why living-donor...' Gdy zastosujemy model do wszystkich zmiennych obja±niaj cych, ró»nice zaobserwowane w dotychczasowej analizie zanikaj. Regresja Cox'a wskazuje,»e ryzyko utraty przeszczepu zwi ksza si, wraz ze wzrostem wieku (zarówno pacjenta jak i dawcy), cukrzyc jako PKD, pewnymi chorobami w historii pacjenta, dªu»szym czasem dializy i PRA > 50%. Ryzyko spada ze wzrostem liczby genów HLA-DR i krótszym czasem oczekiwania na przeszczep. Pozostaªe zmienne uwzgl dnione w modelu nie s statystycznie znamienne.

Model regresji Coxa - 'Why living-donor...' Wniosek: W analizie prze»ywalno±ci przeszczepu nie zauwa»yli±my ró»nicy ze wzgl du na LDRT i CDRT, mimo»e wcze±niejsza analiza jednokrotna dawaªa lepsze rezultaty w przypadku LDRT.

Uwagi - 'Why living-donor...' W wielu badaniach wykazano,»e czynnikami wpªywaj cymi na wi ksz prze»ywalno± LDRT s : zgodno± genów HLA, mªody wiek pacjenta i krótki czas na dializie. W LDRT ªatwo uzyska du» zgodno± HLA, poniewa» wi kszo± dawców pochodzi z rodzin pacjentów. redni wiek pacjenta LDRT jest o 11 lat mniejszy od ±redniego wieku pacjenta CDRT, za to dawca LDRT jest ±rednio 5 lat starszy od dawcy CDRT. Wynika to z tego,»e najcz ±ciej dawc LRDT jest rodzic pacjenta, natomiast im starszy pacjent tym trudniej znale¹ odpowiedniego dawc w±ród czªonków rodziny. Wielk przewag LDRT jest mo»liwo± ograniczenia czasu leczenia dializ. Z powodu zbyt maªej liczby zaobserwowanych przypadków to badanie nie uwzgl dnia otrzymania przeszczepu przed dializ, ale inne badania potwierdziªy wy»sz prze»ywalno± takich pacjentów. W tym badaniu nie uwzgl dniono zmiennej zawieraj cej informacj o czasie niedokrwisto±ci nerki z powodu du»ej liczby brakuj cych informacji (18%).

Artykuª 'Identifying dierentially expressed genes using false discovery rate controlling procedures' Anat Reiner, Daniel Yekutieli and Yoav Benjamini (2002)

Motywacje - 'Identifying...' Mikromacierze DNA s wykorzystywane do badania ekspresji genów. Celem jest zidentykowanie tych genów, których ekspresja istotnie si ró»ni (np. w tkance chorej i zdrowej). Dzi ki miniaturyzacji mo»liwe jest jednoczesne badanie wielu genów w próbce. Na powierzchni kilku cm 2, w mikrometrowych odst pach, umieszczone s sondy pozwalaj ce bada ekspresj nawet kilkudziesi ciu tysi cy sekwencji DNA jednocze±nie. Prawdopodobie«stwo bª dnej identykacji znacznie si zwi ksza gdy liczba badanych genów jest du»a. Celem artykuªu jest przedstawienie i porównanie metod kontroluj cych FDR wykorzystywanych gdy pojawia si ten problem.

Dane - 'Identifying...' Dane pochodz z pomiarów ekspresji 6359 genów u myszy podczas bada«prowadzonych nad metabolizmem lipidów. Pobrano tkanki ze ±ledzion 8 zdrowych myszy, które stanowiªy grup testow i 8 myszy z wyeliminowanym genem Apo AI. Celem eksperymentu byªo zbadanie, jak brak wyeliminowanego Apo AI wpªywa na funkcjonowanie pozostaªych genów. We applied the normalization (...) through lowess smoothing of the log intensity ratio log 2 (Red/Green) versus the mean log intensity log 2 Red Green.

Metody - 'Identifying...' Procedura Benjaminiego - Hochberga (BH) Dla ka»dej hipotezy zerowej H i obliczamy warto± statystyki testowej i p-warto± P i. Procedura korzysta z uporz dkowanych p-warto±ci P (1)... P (m) i odpowiadaj cym im hipotez zerowych H (1),..., H (m). Chc c kontrolowa FDR na poziomie q porównujemy P (i) do q i m. k = max{i : P (i) q i m } Je»eli takie k istnieje, to odrzucamy H (1),..., H (k). W rzeczywisto±ci kontrolujemy FDR na poziomie FDR q m0 m q.

Metody - 'Identifying...' Skorygowane p-warto±ci Dla procedury kontroluj cej FDR skorygowan p-warto±ci (dla pojedynczej hipotezy) nazywamy najni»szy poziom FDR, dla którego hipoteza po raz pierwszy znajduje si w zbiorze odrzuconych hipotez. W procedurze BH skorygowana p-warto± dla P (j) ma posta : P BH (j) m = min i j {P (i) }. i

Metody - 'Identifying...' Resampling (1/3) Cz sto nie znamy ª cznego rozkªadu statystyk testowych. W takim przypadku mo»emy u»y metody resamplingu, czyli tworzenia nowych zbiorów danych poprzez permutowanie kolejno±ci obiektów (mieszanie obu grup). Zakªadamy przy tym,»e ª czny rozkªad p-warto±ci, wygenerowany podczas resamplingu jest prawdziwym ª cznym rozkªadem dla hipotez zerowych.

Metody - 'Identifying...' Resampling (2/3) N - liczba permutacji kolumn macierzy danych. Dla ka»dej permutacji obliczamy wektor p-warto±ci. V (p) - liczba uzyskanych w ten sposób p-warto±ci, mniejszych od p. V (p) estymuje oczekiwan ilo± p-warto±ci odpowiadaj cych prawdziwym hipotezom zerowym, mniejszych od p. Mo»emy teraz estymowa FWER (procedura WY - Westfall, Young). FWER est (p) = #(V (p)>0) N Odrzucamy H i, gdy FWER est (p i ) α.

Metody - 'Identifying...' Resampling (3/3) Resamplingu mo»na u»y równie» do estymowania FDR. ŝ(p) - estymator liczby faªszywych hipotez zerowych, mniejszych od p. V (p) FDR (est) (p) = E V (p) V (p)+ŝ(p) Mo»na estymowa na dwa sposoby - FDR local estimator jest konserwatywny dla ±redniej, a FDR upper limit ogranicza FDR z prawdopodobie«stwem 95%.

Metody - 'Identifying...' BH Point Estimator U»ywa procedury BH do kontrolowania FDR. Zamiast korzysta z nieskorygowanych p-warto±ci, estymujemy je z resamplingu rozkªadu brzegowego. Dla k-tego genu i statystyki testowej t k : P est (k) = 1 N N j=1 [ 1 I I i=1 #( t.j i t k )]

Wyniki - 'Identifying...' Najpierw przeanalizowano nieskorygowane p-warto±ci z testu t-studenta z 14 stopniami swobody. Gdyby hipotezy testowano oddzielnie, to liczba nieskorygowanych p-warto±ci wi kszych od 0.05 wyniosªaby 568 (z 6359). Gdy zastosujemy procedur BH dla nieskorygowanych p-warto±ci, to otrzymamy 8 odrzuce«.

Wyniki - 'Identifying...' Estymujemy rozkªad ª czny statystyk t-studenta dla 1000 permutacji.

Wyniki - 'Identifying...' Moc testu.

Wyniki - 'Identifying...' Wnioski: Wszystkie procedury kontroluj ce FDR daj wi ksz moc ni» procedury kontroluj ce FWER. Wybór pomi dzy procedurami kontroluj cymi FDR to kwestia zyskiwania wi kszej mocy za cen bardziej skomplikowanych oblicze«. Najwi ksz moc uzyskujemy, gdy estymujemy p-warto±ci korzystaj c z resamplingu, a nast pnie stosujemy procedur BH.