Metody statystyczne w lokalizacji genów

Wielkość: px
Rozpocząć pokaz od strony:

Download "Metody statystyczne w lokalizacji genów"

Transkrypt

1 Metody statystyczne w lokalizacji genów Instytut Matematyki Uniwersytet Wrocławski Zakopane, 06/09/2016

2 Plan Lokalizacja genów

3 Plan Lokalizacja genów Wielokrotne testowanie

4 Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu

5 Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu Zmodyfikowane wersje Bayesowskiego Kryterium Informacyjnego

6 Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu Zmodyfikowane wersje Bayesowskiego Kryterium Informacyjnego (Sorted L-one penalized estimation)

7 Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu Zmodyfikowane wersje Bayesowskiego Kryterium Informacyjnego (Sorted L-one penalized estimation) Symulacje komputerowe

8 Struktura DNA

9 Zmienność genetyczna w populacjach ludzkich Około 99,9% informacji genetycznej jest dokładnie taka sama u wszystkich ludzi Polimorfizm to różnica w strukturze DNA, która wystȩpuje u co najmniej 1% populacji Polimorfizm Pojedynczego Nukelotydu (Single Nucleotide Polymorphism, SNP) - polimorfizm w pojedynczej bazie nukleotydowej: Typowy SNP: pozycja w której - 85% populacji ma Cytozynȩ (C) - 15% ma Tyminȩ (T) Zwykle w danym lokusie wystȩpujȩ tylko dwie formy SNPa trzy genotypy : AA, Aa, aa

10 Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ

11 Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ Przykład - identyfikacja pacjentów korzystnie reaguja cych na terapiȩ

12 Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ Przykład - identyfikacja pacjentów korzystnie reaguja cych na terapiȩ Y - cecha ilościowa

13 Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ Przykład - identyfikacja pacjentów korzystnie reaguja cych na terapiȩ Y - cecha ilościowa Przykłady: zmiana ciśnienia krwi, poziomu cholesterolu

14 Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów

15 Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii

16 Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii G n m - macierz genotypów

17 Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii G n m - macierz genotypów Zwykle n k 100 lub k 1000, m k 100, 000

18 Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii G n m - macierz genotypów Zwykle n k 100 lub k 1000, m k 100, 000 Typowe kodowanie oddziaływań addytywnych 0 gdy G ij = AA Z ij = 1 gdy G ij = Aa 2 gdy G ij = aa

19 Fikcyjny przykład - obniżenie cśnienia krwi Trait Treatment

20 Grupa kontrolna Mean Trait Value genotypes

21 Grupa zabiegowa Mean Trait Value genotypes

22 Wpływ leku Difference in Mean Trait values genotypes

23 Gene-Treatment Interaction mean_trait genotypes

24 Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1

25 Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1 Y n 1 = X n p β p 1 + ϵ n 1

26 Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1 Y n 1 = X n p β p 1 + ϵ n 1 p = m + 2, X = [1 T Z ZT ], β = [β 0, β 1, ν, γ] T

27 Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1 Y n 1 = X n p β p 1 + ϵ n 1 p = m + 2, X = [1 T Z ZT ], β = [β 0, β 1, ν, γ] T a) Identyfikacja istotnych genów - wybór modelu statystycznego b) Predykcja: przewidywanie indywidualnej odpowiedzi na terapȩ

28 Indywidualne testy Prosta regresja liniowa Y i = β 0 + β j X ij + ϵ i, ϵ i N(0, σ 2 ϵ )

29 Indywidualne testy Prosta regresja liniowa Y i = β 0 + β j X ij + ϵ i, ϵ i N(0, σ 2 ϵ ) ˆβ j : estymator liczony metoda najmniejszych kwadratów β j ˆβ j N(β j, σ 2 j )

30 Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0

31 Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c

32 Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c)

33 Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 )

34 Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p )

35 Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p F W ER = P (V > 0), F DR = E ( ) V R 1 )

36 Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p F W ER = P (V > 0), F DR = E ( ) V R 1 E(V ) = αp 0 )

37 Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p F W ER = P (V > 0), F DR = E ( ) V R 1 E(V ) = αp 0 α = 005, p 0 = 2000 E(V ) = 100 )

38 Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p

39 Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p p 0 p 0 F W ER = P { z j > c} P ({ z j > c} = p 0 α/p < α j=1 j=1

40 Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p p 0 p 0 F W ER = P { z j > c} P ({ z j > c} = p 0 α/p < α j=1 j=1 ) Odrzucamy H 0j gdy z j Φ (1 1 α 2p = 2 log p(1 + o p )

41 Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p p 0 p 0 F W ER = P { z j > c} P ({ z j > c} = p 0 α/p < α j=1 j=1 ) Odrzucamy H 0j gdy z j Φ (1 1 α 2p = 2 log p(1 + o p ) Procedura Benjaminiego-Hochberga (1) z (1) z (2) z (p) (2) Ustal najwiȩksze j takie, że Nazwij ten indeks j SU z (j) Φ 1 (1 α j ), α j = α j 2p, (1) (3) Odrzuć H (j) wtedy i tylko wtedu gdy j j SU

42 Korekta Bonferroniego y * Sorted y Bonferroni level k

43 Korekta Benjaminiego-Hochberga y * Sorted y BH level k

44 Kontrola FDR (Benjamini,Hochberg, JRSSB 1995) Jeżeli z 1,, z p sa niezależne to BH kontroluje FDR na poziomie

45 Kontrola FDR (Benjamini,Hochberg, JRSSB 1995) Jeżeli z 1,, z p sa niezależne to BH kontroluje FDR na poziomie [ ] V FDR = E = α p 0 R 1 p (2)

46 Kontrola FDR (Benjamini,Hochberg, JRSSB 1995) Jeżeli z 1,, z p sa niezależne to BH kontroluje FDR na poziomie [ ] V FDR = E = α p 0 R 1 p (2) (Benjamini, Yekutieli, Ann Statist 2001) Jeżeli statystyki testowe sa "dodatnio skorelowane"to BH kontroluje FDR na poziomie α p 0 p Niezależnie od stopnia i rodzaju zależności miȩdzy statystykami testowymi FDR jest kontrolowane jeżeli z (j) porównujemy z ) Φ (1 1 jα 2p p i=1 1 i

47 Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p

48 Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β )

49 Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β ) Bogdan, Chakrabarti, Frommlet, Ghosh, AnnStatist minimalizacja średniego kosztu, γ 0 - koszt błȩdu I rodzaju (fałszywego odkrycia), γ A - koszt błȩdu II rodzaju (pominiȩcie istotnego składnika)

50 Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β ) Bogdan, Chakrabarti, Frommlet, Ghosh, AnnStatist minimalizacja średniego kosztu, γ 0 - koszt błȩdu I rodzaju (fałszywego odkrycia), γ A - koszt błȩdu II rodzaju (pominiȩcie istotnego składnika) Korekta Bonferroniego jest asymptotycznie optymalna gdy τ 1 p (p p 0 = const,ekstremalna rzadkość)

51 Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β ) Bogdan, Chakrabarti, Frommlet, Ghosh, AnnStatist minimalizacja średniego kosztu, γ 0 - koszt błȩdu I rodzaju (fałszywego odkrycia), γ A - koszt błȩdu II rodzaju (pominiȩcie istotnego składnika) Korekta Bonferroniego jest asymptotycznie optymalna gdy τ 1 p (p p 0 = const,ekstremalna rzadkość) BH jest asymptotycznie optymalna gdy τ 0 i τp C (0, ]

52 Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap SNPów dla 649 osobników pochodzenia europejskiego

53 Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap SNPów dla 649 osobników pochodzenia europejskiego k = 40 przyczynowych niezależnych SNPów

54 Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap SNPów dla 649 osobników pochodzenia europejskiego k = 40 przyczynowych niezależnych SNPów 1000 replikacji z modelu addytywnego M Y = X M β M + ϵ, ϵ i (0, 1)

55 Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap SNPów dla 649 osobników pochodzenia europejskiego k = 40 przyczynowych niezależnych SNPów 1000 replikacji z modelu addytywnego M Y = X M β M + ϵ, ϵ i (0, 1) β j równomiernie rozłożone na odcinku [027, 066]

56 Power mbic2 mbic1 BH Bonf Power Heritability

57 Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx

58 Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ

59 Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ)

60 Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ) Załóżmy, że dla i > 1, Ĉov(X 1, X i ) N(0, σ 2 c )

61 Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ) Załóżmy, że dla i > 1, Ĉov(X 1, X i ) N(0, σ 2 c ) E k i=2 β iĉov(x 1, X i ) = 0

62 Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ) Załóżmy, że dla i > 1, Ĉov(X 1, X i ) N(0, σ 2 c ) E k i=2 β iĉov(x 1, X i ) = 0 V ar( k i=2 β iĉov(x 1, X i )) k i=2 β2 i σ2 c

63 Informacyjne kryteria wyboru modelu (1) Cel: Estymacja β w modelu Y = X n p β + ϵ, ϵ N(0, σ 2 I n n ), p >> n

64 Informacyjne kryteria wyboru modelu (1) Cel: Estymacja β w modelu Y = X n p β + ϵ, ϵ N(0, σ 2 I n n ), p >> n Zadanie wykonalne przy założeniu,że liczba niezerowych elementów β 0 = k << n (założenie rzadkości)

65 Informacyjne kryteria wyboru modelu (1) Cel: Estymacja β w modelu Y = X n p β + ϵ, ϵ N(0, σ 2 I n n ), p >> n Zadanie wykonalne przy założeniu,że liczba niezerowych elementów β 0 = k << n (założenie rzadkości) Kryteria wyboru modelu: minimalizujemy Y Xβ 2 + pen(k)

66 Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n

67 Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI))

68 Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI)) Risk Inflation Criterion [RIC, Foster and George (1994)] pen(k) = 2σ 2 k log p - "korekta Bonferroniego"

69 Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI)) Risk Inflation Criterion [RIC, Foster and George (1994)] pen(k) = 2σ 2 k log p - "korekta Bonferroniego" BHRIC (Abramovich et al (2006), Foster and Stine (1999), Birge and Massart (2001)) pen(k) = 2σ 2 k i=1 log(p/i) - "korekta BH"

70 Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI)) Risk Inflation Criterion [RIC, Foster and George (1994)] pen(k) = 2σ 2 k log p - "korekta Bonferroniego" BHRIC (Abramovich et al (2006), Foster and Stine (1999), Birge and Massart (2001)) pen(k) = 2σ 2 k i=1 log(p/i) - "korekta BH" Bogdan et al (Genetics, 2004), Żak-Szatkowska and Bogdan (CSDA,2011) mbic1, mbic2 - RIC i mric + kara σ 2 k log n

71 Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym

72 Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym Trudność - wybór λ L

73 Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym Trudność - wybór λ L λ L = 2 log p n - korekta Bonferroniego

74 Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym Trudność - wybór λ L 2 log p n λ L = - korekta Bonferroniego walidacja krzyżowa - optymalizacja własności predykcyjnych

75 (Sorted L-One Penalized Estimation, Bogdan, van den Berg, Sabatti, Su and Candés (AOAS, 2015)) to rozwia zanie problemu wypukłego 1 argmin b y Xb p σ λ i b (i), i=1 () gdzie b (1) b (p) i λ 1 λ p 0

76 Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p

77 Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi

78 Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne

79 Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN

80 Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN i) - Bogdan et al 2015, autor E Patterson

81 Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN i) - Bogdan et al 2015, autor E Patterson ii) grp - grupowe (wybór grup predykatorów), [Brzyski et al (arxiv, 2015)], autor - A Gossman

82 Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN i) - Bogdan et al 2015, autor E Patterson ii) grp - grupowe (wybór grup predykatorów), [Brzyski et al (arxiv, 2015)], autor - A Gossman iii) gene - aplikacja do badań asocjacyjnych, [Brzyski et al (przyjȩte do druku w Genetics)], autor - P Sobczyk

83 Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy

84 Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy Scenariusz 1: Y = Xβ + z - idealny model

85 Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy Scenariusz 1: Y = Xβ + z - idealny model Scenariusz 2: Nieliniowość - efekty dominancji: z ij = { 1 for aa, AA 1 for aa, (3) y = [X, Z][β X, β Z] + ϵ Szukamy tylko efektów addytywnych

86 Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy Scenariusz 1: Y = Xβ + z - idealny model Scenariusz 2: Nieliniowość - efekty dominancji: z ij = { 1 for aa, AA 1 for aa, (3) y = [X, Z][β X, β Z] + ϵ Szukamy tylko efektów addytywnych Scenariusze 3 i 4: Błȩdy z rozkładu Laplace a lub z pewnym odsetkiem obserwacji odstaja cych

87 Model idealny λ(i) (a) i λ G q=005 λ MC q=005 FDR (b) λ G λ MC Marginal tests number of relevant features Power (c) λ G λ MC Marginal tests number of relevant features

88 Odstȩpstwa od założeń λ G Marginal tests FDR Nonlinearity Laplace errors Outliers FDR number of relevant features number of relevant features Power Nonlinearity Laplace errors Outliers Power number of relevant features number of relevant features

89 Własności predykcyjne 1 Su and Candes (Ann Statist, 2016) - asymptotyczna optymalność gdy zmienne sa ortogonalne lub niezależne gausowskie 2 Nowak and Figuereido (AISTATS, 2016) - skupianie skorelowanych predykatorów i optymalna predykcja dla skorelowanych gaussowskich planów eksperymentu

90 Własności predykcyjne FDR (a) number of relevant features Power (b) number of relevant features percentage mse of µ (c) debiased, q=01 LASSO, cv LASSO debiased, α= number of relevant features

91 Predykcja - ukryte zmienne X n p = F n 20 C 20 p + ϵ 1 Y = F β + ϵ Tablica : Procentowy bła d predykcji p n adaptive lasso q =

92 Analiza danych rzeczywistych rs rs5883 FullBH UnivBH BICf BICb g mc LASSObonf LASSOcv rs rs rs v_c9_ rs rs5801 rs rs11988 rs v_c16_ rs rs v_c2_ v_c1_ rs5802 No Yes No Yes No Yes No Yes No Yes No Yes No Yes No Yes Selection

93 Współpracownicy 1 Polska - M Żak-Szatkowska, P Biecek (UW), D Brzyski (UJ), P Sobczyk (PWr), P Szulc (PWr) 2 Vienna University, Medical University of Vienna - A Futschik, A Baierl, F Frommlet, F Koenig 3 TU Muenchen - C Czado, V Erhart 4 Stanford - EJ Candes, C Sabatti, W Su, E Van den Berg, E Patterson, C Peterson 5 Tulane University - A Gossman

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów

Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów w zastosowaniu do wykrywania interakcji SNPów Instytut Matematyczny, Uniwersytet Wrocławski Wisła, 9 grudnia 2009 DNA Zmienność genetyczna Polimorfizm to zmiana w strukturze DNA, obecna u co najmniej 1%

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Elementy statystyki STA - Wykład 5

Elementy statystyki STA - Wykład 5 STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 ANOVA 2 Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie

Bardziej szczegółowo

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

PRACE NAUKOWE Akademii im. Jana Długosza w Częstochowie Informatyka, Inżynieria Bezpieczeństwa

PRACE NAUKOWE Akademii im. Jana Długosza w Częstochowie Informatyka, Inżynieria Bezpieczeństwa PRACE NAUKOWE Akademii im. Jana Długosza w Częstochowie Technika, Informatyka, Inżynieria Bezpieczeństwa 2013, t. I Artur Gola Akademia im. Jana Długosza Al. Armii Krajowej 13/15, 42-200 Częstochowa, e-mail:

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Testowanie wielu hipotez statystycznych na raz Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/31 Zdechła ryba i emocje http://www.wired.com/2009/09/fmrisalmon/

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

Metody Ekonometryczne

Metody Ekonometryczne Metody Ekonometryczne Goodness of fit i wprowadzenie do wnioskowania statystycznego Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Metody Ekonometyczne Wykład 2 Goodness of fit i wprowadzenie do wnioskowania

Bardziej szczegółowo

Budowa modelu i testowanie hipotez

Budowa modelu i testowanie hipotez Problemy metodologiczne Gdzie jest problem? Obciążenie Lovella Dysponujemy oszacowaniami parametrów następującego modelu y t = β 0 + β 1 x 1 +... + β k x k + ε t Gdzie jest problem? Obciążenie Lovella

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Model jako : Stosowana Analiza Regresji Wykład XI 21 Grudnia 2011 1 / 11 Analiza kowariancji Model jako : Oprócz czynnika o wartościach nominalnych chcemy uwzględnić wpływ predyktora o wartościach ilościowych

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład X, 9.05.206 TESTOWANIE HIPOTEZ STATYSTYCZNYCH II: PORÓWNYWANIE TESTÓW Plan na dzisiaj 0. Przypomnienie potrzebnych definicji. Porównywanie testów 2. Test jednostajnie

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Testy adaptacyjne dla problemu k prób

Testy adaptacyjne dla problemu k prób Instytut Matematyczny Polskiej Akademii Nauk Oddział Wrocław Problem testowania Problem Testowania Weryfikacja hipotezy Notacja Pomocnicza statystyka rangowa Załóżmy, że X l1,..., X lnl, l = 1,..., k,

Bardziej szczegółowo

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej Porównanie modeli logicznej regresji z klasycznymi modelami regresji liniowej i logistycznej Instytut Matematyczny, Uniwersytet Wrocławski Małgorzata Bogdan Instytut Matematyki i Informatyki, Politechnika

Bardziej szczegółowo

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Przypuśdmy, że mamy do czynienia z następującą sytuacją: nieznany jest rozkład F rządzący pewnym zjawiskiem losowym. Dysponujemy konkretną próbą losową ( x1, x2,..., xn

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0 Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy

Bardziej szczegółowo

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y

Bardziej szczegółowo

Uogólniona Metoda Momentów

Uogólniona Metoda Momentów Uogólniona Metoda Momentów Momenty z próby daż a do momentów teoretycznych (Prawo Wielkich Liczb) plim 1 n y i = E (y) n i=1 Klasyczna Metoda Momentów (M M) polega na szacowaniu momentów teoretycznych

Bardziej szczegółowo

Dane zgrupowane: każda obserwacja należy do jednej grupy i jest tylko jeden czynnik grupujący

Dane zgrupowane: każda obserwacja należy do jednej grupy i jest tylko jeden czynnik grupujący 1 Wstęp 1.1 Czym są efekty losowe? Jednokierunkowa ANOVA Na poprzednich zajęciach mówiliśmy o modelach liniowych, o jedno- i dwuczynnikowej analizie wariancji. W tych modelach estymowaliśmy nieznane wartości

Bardziej szczegółowo

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.

Bardziej szczegółowo

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Statystyka matematyczna. Wykład V. Parametryczne testy istotności Statystyka matematyczna. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Weryfikacja hipotezy o równości wartości średnich w dwóch populacjach 2 3 Weryfikacja hipotezy o równości wartości średnich

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Opis wykonanych badań naukowych oraz uzyskanych wyników

Opis wykonanych badań naukowych oraz uzyskanych wyników Opis wykonanych badań naukowych oraz uzyskanych wyników 1. Analiza danych (krok 2 = uwzględnienie epistazy w modelu): detekcja QTL przy wykorzystaniu modeli dwuwymiarowych z uwzględnieniem różnych modeli

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne. opisują kształtowanie się zjawiska w czasie opisują kształtowanie się zjawiska w czasie Najważniejszymi zastosowaniami modeli dynamicznych są opisują kształtowanie się zjawiska w czasie Najważniejszymi

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Wyk lad 9 Natalia Nehrebecka Stanis law Cichocki 28 listopada 2018 Plan zaj eć 1 Rozk lad estymatora b 2 3 dla parametrów 4 Hipotezy l aczne - test F 5 Dodatkowe za lożenie

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych round Testowanie hipotez statystycznych Wyk lad 9 Natalia Nehrebecka Stanis law Cichocki 13 grudnia 2014 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Zagadnienie testowania zbioru hipotez (wielokrotne testowanie hip

Zagadnienie testowania zbioru hipotez (wielokrotne testowanie hip Zagadnienie testowania zbioru hipotez (wielokrotne testowanie hipotez) 12 listopada 2008 Testowanie hipotez Λ P(x) na X Zgodnie z P(x) generowane sa wyniki eksperymentu Λ. P {P θ (x) : θ Θ} Badacza interesuje

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Wyk lad 8 Natalia Nehrebecka Stanis law Cichocki 29 listopada 2015 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie

Bardziej szczegółowo

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów stat. Hipoteza statystyczna Dowolne przypuszczenie co do rozkładu populacji generalnej

Bardziej szczegółowo

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach EGZAMIN MAGISTERSKI, 12.09.2018r Matematyka w ekonomii i ubezpieczeniach Zadanie 1. (8 punktów) O rozkªadzie pewnego ryzyka S wiemy,»e: E[(S 20) + ] = 8 E[S 10 < S 20] = 13 P (S 20) = 3 4 P (S 10) = 1

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XI: Testowanie hipotez statystycznych 12 stycznia 2015 Przykład Motywacja X 1, X 2,..., X N N (µ, σ 2 ), Y 1, Y 2,..., Y M N (ν, δ 2 ). Chcemy sprawdzić, czy µ = ν i σ 2 = δ 2, czyli że w obu populacjach

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym Badanie zgodności z określonym rozkładem H 0 : Cecha X ma rozkład F F jest dowolnym rozkładem prawdopodobieństwa Test chi kwadrat zgodności F jest rozkładem ciągłym Test Kołmogorowa F jest rozkładem normalnym

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Testowanie zbioru hipotez z zadaną relacją hierarchii wraz z przykładami zastosowań w genetyce

Testowanie zbioru hipotez z zadaną relacją hierarchii wraz z przykładami zastosowań w genetyce Politechnika Wrocławska Instytut Matematyki i Informatyki Testowanie zbioru hipotez z zadaną relacją hierarchii wraz z przykładami zastosowań w genetyce Przemysław Biecek Rozprawa doktorska przygotowana

Bardziej szczegółowo

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu iowym, scenariusz p bliskie lub większe od n Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji: 1 Motywacja;

Bardziej szczegółowo

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji

Bardziej szczegółowo

Ekonometria dla IiE i MSEMat Z12

Ekonometria dla IiE i MSEMat Z12 Ekonometria dla IiE i MSEMat Z12 Rafał Woźniak Faculty of Economic Sciences, University of Warsaw Warszawa, 09-01-2017 Test RESET Ramsey a W pierwszym etapie estymujemy współczynniki regresji w modelu:

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Anna Gambin 19 maja 2013 Spis treści 1 Przykład: Model liniowy dla ekspresji genów 1 2 Jednoczynnikowa analiza wariancji 3 2.1 Testy

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08 imię, nazwisko, nr indeksu: Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Statystyczna analiza danych (molekularnych) modele liniowe

Statystyczna analiza danych (molekularnych) modele liniowe Statystyczna analiza danych (molekularnych) modele liniowe Anna Gambin 14 kwietnia 2012 Spis treści 1 Analiza regresji 1 1.1 Historia..................................... 2 2 Modele liniowe 2 3 Estymacja

Bardziej szczegółowo

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Weryfikacja liniowego modelu jednorównaniowego Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 2 Weryfikacja liniowego modelu jednorównaniowego 1 / 28 Agenda 1 Estymator

Bardziej szczegółowo

Konferencja Statystyka Matematyczna Wisła 2013

Konferencja Statystyka Matematyczna Wisła 2013 Konferencja Statystyka Matematyczna Wisła 2013 Wykorzystanie metod losowych podprzestrzeni do predykcji i selekcji zmiennych Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk Paweł Teisseyre

Bardziej szczegółowo

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki. Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki. Zaj ecia 5 Natalia Nehrebeceka 04 maja, 2010 Plan zaj eć 1 Rachunek prawdopodobieństwa Wektor losowy Wartość oczekiwana Wariancja Odchylenie

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009 STATYSTYKA MATEMATYCZNA WYKŁAD 5 2 listopada 2009 Poprzedni wykład: przedział ufności dla µ, σ nieznane Rozkład N(µ, σ). Wnioskowanie o średniej µ, gdy σ nie jest znane Testowanie H : µ = µ 0, K : µ

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora. imię, nazwisko, nr indeksu: Ekonometria egzamin 0/0/0. Egzamin trwa 90 minut.. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu. Złamanie

Bardziej szczegółowo

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym Wykład 3 Testowanie hipotez statystycznych o wartości średniej i wariancji z populacji o rozkładzie normalnym Wrocław, 08.03.2017r Model 1 Testowanie hipotez dla średniej w rozkładzie normalnym ze znaną

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

Test dwustronny: H 0 : p= 1 2

Test dwustronny: H 0 : p= 1 2 Test dwustronny: H 0 : p= 1 2 H A : p 1 2 0,300 0,250 0,200 P(r) 0,150 0,100 0,050 0,000 0 1 2 3 4 5 6 7 8 9 10 r α/2 Przedział ufności α/2 Obszar krytyczny dla α = 0,05 Prawo Murphy'ego: kanapka zazwyczaj

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z

Bardziej szczegółowo

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym. Hipotezy proste Zadanie 1. Niech X ma funkcję gęstości f a (x) = (1 + a)x a, dla 0 < x < 1, Testujemy H 0 : a = 1 przeciwko H 1 : a = 2. Dysponujemy pojedynczą obserwacją X. Wyznaczyć obszar krytyczny

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

1.1 Klasyczny Model Regresji Liniowej

1.1 Klasyczny Model Regresji Liniowej 1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między

Bardziej szczegółowo

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7 Spis treści Spis treści 1 Przedziały ufności 1 1.1 Przykład wstępny.......................... 1 1.2 Określenie i konstrukcja...................... 3 1.3 Model dwupunktowy........................ 5 1.4

Bardziej szczegółowo

Analiza danych ilościowych i jakościowych

Analiza danych ilościowych i jakościowych Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 8 kwietnia 2010 Plan prezentacji 1 Zbiory danych do analiz 2 3 4 5 6 Implementacja w R Badanie depresji Depression trial data Porównanie

Bardziej szczegółowo

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić). Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Hipotezy statystyczne

Hipotezy statystyczne Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej

Bardziej szczegółowo

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18 Ekonometria Metodologia budowy modelu Jerzy Mycielski WNE, UW Luty, 2011 Jerzy Mycielski (WNE, UW) Ekonometria Luty, 2011 1 / 18 Sprawy organizacyjne Dyżur: środa godz. 14-15 w sali 302. Strona internetowa

Bardziej szczegółowo

Wojciech Skwirz

Wojciech Skwirz 1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk Paweł Teisseyre Selekcja modelu liniowego i predykcja 1 / 29 Plan

Bardziej szczegółowo

Wykład 5 Teoria eksperymentu

Wykład 5 Teoria eksperymentu Wykład 5 Teoria eksperymentu Wrocław, 22.03.2017r Co to jest teoria eksperymentu? eksperyment - badanie jakiegoś zjawiska polegające na celowym wywołaniu tego zjawiska lub jego zmian oraz obserwacji i

Bardziej szczegółowo

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji gkrol@mail.wz.uw.edu.pl #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji 1 Ryzyko błędu - powtórzenie Statystyka niczego nie dowodzi, czyni tylko wszystko mniej lub bardziej prawdopodobnym

Bardziej szczegółowo

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru

Bardziej szczegółowo