Wybrane zagadnienia ze statystyki

Podobne dokumenty
Stosowana Analiza Regresji

Faktoryzacja macierzy

Elementy statystyki wielowymiarowej

PDF created with FinePrint pdffactory Pro trial version

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Natalia Neherbecka. 11 czerwca 2010

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Matematyka ubezpieczeń majątkowych r.

Metoda największej wiarygodności

Stosowana Analiza Regresji

Stosowana Analiza Regresji

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Testowanie hipotez statystycznych

Prawdopodobieństwo i statystyka

Elementy statystyki STA - Wykład 5

Statystyka i eksploracja danych

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Stosowana Analiza Regresji

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Zmienne zależne i niezależne

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Metody systemowe i decyzyjne w informatyce

Analiza kanoniczna w pigułce

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Układy równań liniowych

Statystyka matematyczna i ekonometria

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

KOLOKWIUM Z EKONOMETRII

Testowanie hipotez statystycznych

Testy adaptacyjne dla problemu k prób

STATYSTYKA MATEMATYCZNA

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Regresja liniowa wprowadzenie

Stanisław Cichocki. Natalia Nehrebecka

Statystyczna analiza danych (molekularnych) modele liniowe

Analiza wariancji, część 2

Prawdopodobieństwo i statystyka r.

Statystyczna analiza danych

Weryfikacja hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Analiza autokorelacji

Testowanie hipotez statystycznych.

Metody systemowe i decyzyjne w informatyce

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Procesy stochastyczne

Rozdział 8. Regresja. Definiowanie modelu

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

WYKŁAD 8 ANALIZA REGRESJI

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Procesy stochastyczne

Analiza składowych głównych

1.9 Czasowy wymiar danych

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Metoda najmniejszych kwadratów

Uogolnione modele liniowe

Modelowanie danych hodowlanych

Czasowy wymiar danych

Ekonometria egzamin 07/03/2018

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Przykład 2. Stopa bezrobocia

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Rozwiązywanie układów równań liniowych

1 Gaussowskie zmienne losowe

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Ważne rozkłady i twierdzenia c.d.

macierze jednostkowe (identyczności) macierze diagonalne, które na przekątnej mają same

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Estymacja w regresji nieparametrycznej

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Transkrypt:

Rozdział 1 Wybrane zagadnienia ze statystyki 1.1 Model mieszany Przykład Obserwujemy wzrost odległości ortodontycznej w wieku {8, 10, 12, 14} lat dla 16- chłopców i 11 -dziewcząt Model statystyczny. Dane są dwa ciągi zmiennych losowych Y i1 (t k ) = β i,1,0 + β i,1,1 t k + ε ik1, Y j2 (t k ) = β j,2,0 + β j,2,1 t k + ε jk2 gdzie t k {8, 10, 12, 14} oznacza wiek, próba dla chłopców i = 1,... n 1 (16), próba dla dziewczat j = 1,... n 2 (11). Ponadto błędy ε zarówno pomiedzy chlopcami a dziewczętami oraz w kolejnych latach są niezależne o jednakowym rozkładzie N(0, σ ε ). Parametry β i,1,0 oraz wzrostu β i,1,1 sa swoiste dla i-tego chłopca zas dla j-tej dziewczynki β j,2,0 oraz wzrostu β j,2,1. Zakladamy, ze maja one dwuwymiarowy rozklad normalny, czyli (β i,1,0, β i,1,1 ) N(µ 1, Σ) (β j,2,0, β j,2,1 ) N(µ 2, Σ) z niestrukturalną dwuwymiarową macierzą korelacji Σ wspólna dla obu populacji, zaś µ 1 jest swoiste dla chlopcow zas µ 2 dla dziewczat. Poniższy program estymuje metodą ML wszystkie 8 parametrów modelu, ; 1

by person sex age; ods exclude Dimensions NObs IterHistory ConvergenceStatus LRT; class person sex _age_; random intercept age /type=un subject=person(sex); estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; Zatem µ 1 = (16.34, 0.78), µ 2 = (17.37, 0.47) [ ] 4.55 0.19 Σ =, σ 0.19 0.02 ɛ = 1.72. Zauwazmy, ze parametry µ 1 oraz µ 2 sa istotnie rozne od zera. Dopasowanie modelu AIC=443. Jest zupelnie naturalne pytanie czy jesli macierz kowariancji bedzie odmienna dla chlopcow czy dziewczynek czy dopasowanie modelu bedzie lepsze. Pytanie to rozwiazemy za pomoca kodu ; by person sex age; class person sex; random intercept age / type=un subject=person(sex) group=sex; estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; Zauwazmy, 1. model ma o trzy parametry wiecej bo sa dwie macierze kowariancji. Z tym, ze jedna jest dziwna. 2. szacowane parametry wartosci oczekiwanych sa identyczne. 3. AIC=441.7 Poniewaz AIC jest mniejsze zatem naturalnie wydaje sie aby dwa te modele odseparowac i rozpatrywac je oddzielenie, czyli bledy ɛ maja rozklad specyficzny 2

dla chlopcow N(0, σ ch ) oraz dla dziewczat N(0, σ d ) Zauwazmy, ze wowczas AIC badanego modelu jest suma AIC poszczegolnych skladnikow. (UDOWODNIC TEN PROSTY FAKT!) W odseparownych modelach nie ma sensu rozpatrywania wektorow gaussowskich dwuwymiarowych. Zatem Y i1 (t k ) = β 1,0 + β i,1,1 t k + ɛ ik1, Y j2 (t k ) = β 2,0 + β j,2,1 t k + ɛ jk2 gdzie ɛ ik1 N(0, σ ch ), ɛ jk2 N(0, σ d ). Teraz β 1,0 oraz β 2,0 to sa parametry stale i swoiste dla chlopcow i odpowiednio dla dziewczat zas Model ma 8 parametrow β i,1,1 N(µ 1, σ 1 ), β j,2,1 N(µ 2, σ 2 ) ; proc sort data=dental_data(where=(gender=2)) out=example2_2_1; by person sex age; class person sex; random age / type=un subject=person(sex) group=sex; AIC=280.5+146.8=427.3 zatem jest najlepsze. Parametry sa istotne. 1.2 RM-MANOVA Mozna problem opisu danych zaatakowac za pomoca testu RM-Manova. Model ten rozni sie od modelu dwu poziomowej ANOVA - two way ANOVA, gdyz jednym z wyznacznikow jest czas, zas dane sa pobierane od tej samej osoby. W ANOVA proba bylaby zlozona z czlopcow i dzieczynek w roznym wieku. Ponadto inne sa zalozenia modelowe (slabsze). Mamy dane pochodzace z jednowymiarowych rozkladow normalnych. Zatem dla chlopcow i = 1,... n 1 (16), zas Y i1 N(µ 1, Σ), µ 1 = (µ 11, µ 12, µ 13, µ 14 ) Y j2 N(µ 2, Σ), µ 2 = (µ 21, µ 22, µ 23, µ 24 ) 3

dla dziewczat j = 1,... n 2 (11). Niech macierz [ µ11 µ B = 12 µ 13 µ 14 µ 21 µ 22 µ 23 µ 24 ]. Testy dotyczace braku wplywu wieku (ilosci lat) czy plci maja postac H 0 : CBU = [0], gdzie [0] oznacza odpowiednia macierz zerowa, zas macierze C i U to macierze kontrastu. Struktura testu jest nieco inna niż zadawane pytanie. Przeanalizujmy problem. Mianowicie brak wpływu wieku to zaś U = Zatem nasza hipoteza ma postać C = [1, 1], 1 0 0 0 1 0 0 0 1 1 1 1. H 0 : istnieje a 0, µ 1 + µ 2 = a (1, 1, 1, 1). Zauważmy, ze obie populacje laczymy, czyli badamy jedną populację dzieci: chłopców i dziewcząt. Jest to słabsza postac testu niż badanie oddzielnie dwu hipotez odzielnie dla chłopców odzielnie dla dziewcząt Brak zależności od płci, H 0 : istnieje a 1 0, µ 1 = a 1 (1, 1, 1, 1). H 0 : istnieje a 2 0, µ 2 = a 2 (1, 1, 1, 1). H 0 : 4 µ 1i = i=1 4 µ 2j. W tym przypadku macierz C = [1 1] zaś U = [1 1 1 1]. Brak interacji wiek*plec to C = [1 1] zaś 1 0 0 U = 0 1 0 0 0 1. 1 1 1. Zatem nasza hipoteza ma postać j=1 H 0 : istnieje a, µ 1 µ 2 = a (1, 1, 1, 1). Rozwiązanie wykona poniższy program. Testy sa podpisane i jak widac majż jednakowa moc. Sż jeszcze podawane testy jednowymiarowe. 4

/* dalej */ by sex person; /*---------------------------*/ /*--- Code for Output 2.1 ---*/ /*---------------------------*/ proc transpose data=example2_2_1 out=dental prefix=y; by sex person; var y; proc report data=dental split = nowindows spacing=1; column sex person ( age y1 y2 y3 y4); define sex /group sex ; define person /display person ; define y1 /display 8 ; define y2 /display 10 ; define y3 /display 12 ; define y4 /display 14 ; title; format y1--y4 4.1; /*dane mamy zapisane w tabelce*/ ods select ClassLevels Nobs RepeatedLevelInfo Multstat ModelANOVA ; proc glm data=dental ; class sex; model y1 y2 y3 y4=sex/nouni; repeated age 4 (8 10 12 14); manova; Powyzsze hipotezy pozwalaja nam zapisac powyzszy model w postaci regresji. Jednoczesnie mozemy wyznaczyc AKAIKE uruchamiajac program. 5

by sex person; ods exclude Dimensions NObs IterHistory ConvergenceStatus LRT; class person sex _age_; repeated _age_ / type=un subject=person(sex) r; estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; 1.3 LARS Least Angle Regression Metoda LARS jest w pewnym sensie uogólnieniem metody LASSO. Polega ona na sekwencyjnym dodawaniu do modelu kolejnych zmiennych objaśniających (predyktory) (covariates), których liczba wynosi m. Niech x 1,..., x m będą wektorami odpowiadającymi kolejnym zmiennych np. (wiek,czas reakcji, itp.). Wymiar wektora wynosi n i odpowiada wielkości próby, czyli x j = (x 1j,..., x nj ), gdzie oznacza transpozycje. zakładamy, że wektory x 1,..., x m są liniowo niezależne. Zakładamy, że zmienne są wystandaryzowane, czyli odpowiedzi y = (y 1,..., y n ) zaś dla wszystkich j = 1,..., m n y j = 0, j=1 n x ij = 0, i=1 n x 2 ij = 0 i=1 Przejście do zmiennych niewystandaryzowanych program SAS robi automatycznie. Każdy kandydat β = ( β 1,..., β m ) na współczynniki regresyjne zadaje prognozę µ = m x j βj = X β, j=1 6

gdzie macierz X = X n m = [x 1 x m ]. Mając prognozę definiujemy rezydua jako y X β. Aktualne korelacje rezyduów do predyktorów określa równanie ĉ = c( µ) = X (y µ). (1.1) Ogólnie algorytm działa w następujący sposób. Niech zbiór A oznacza zbiór indeksów predyktorów wziętych do regresji, tzw. zbiór indeksów aktywnych w modelu po k krokach. Zatem β = β A jest różny od zera tylko dla k współrzędnych. Indeksy współrzędnych odpowiadają zbiorowi A. Zbiór predyktorów oraz β zostały tak dobrane, że dla korelacji (1.1) ĉ = c( µ A ) = X (y µ A ) (prognozę oznaczamy przez µ A ) Ĉ = max{ ĉ j }, j A = {j : ĉ j = Ĉ}. Następnie prognoza jest uaktualniana o nowy kierunek u A dla γ µ(γ) = µ A γu A. Jak dobiera się wektor u A? Po pierwsze u A = 1. Ten wektor tworzy równe kąty (mniejsze niż π) ze wszystkimi wektorami macierzy X A = [ sign(ĉ j )x j ] j A. Zatem ponieważ wektory x j sa unormowane wektor a = X u A, jest wektorem o indentycznych a = (a,..., a) dodatnich współrzędnych. Zatem korelacje predyktorów z nowymi rezyduami są równe c j (γ) = x j(y µ(γ)) = x j(y µ A ) γx ju A = ĉ j γa (1.2) i obniżają się w identyczny sposób. Parametr γ dobieramy tak any jedna z korelacji predyktora zrównała się z korelacjami (1.2) wszystkich predyktorów ze zbioru A. 7