Statystyczna analiza danych 1

Wielkość: px
Rozpocząć pokaz od strony:

Download "Statystyczna analiza danych 1"

Transkrypt

1 Statystyczna analiza danych 1 Regresja liniowa 1 Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski Ewa Szczurek Regresja liniowa 1 1 / 41

2 Dane: wpływ reklam produktu na sprzedaż w 200 sklepach Sales Sales Sales TV Radio Newspaper Oś X: nakłady na reklamę w danym medium w tysiącach $ Oś Y: liczba sprzedanych jednostek produktu (w tysiącach) Ewa Szczurek Regresja liniowa 1 2 / 41

3 Przykładowe pytania Czy jest związek pomiędzy wielkością reklamowego budżetu a wielkością sprzedaży? Jak silny jest ten związek, np. czy umiemy przewidzieć wielkość sprzedaży w zależności od wysokości budżetu? Które media mają największy wpływ na wysokość sprzedaży? Jak dokładnie umiemy przewidzieć, dla każdego z mediów, wysokość sprzedaży w zależności od wysokości budżetu reklamowego? Jak dokładnie umiemy przewidzieć wysokość sprzedaży w przyszłości? Czy zależność jest liniowa? Czy istnieje synergia pomiędzy mediami? Ewa Szczurek Regresja liniowa 1 3 / 41

4 Prosta regresja liniowa z jedną zmienną objaśniającą Y = β 0 + β 1 X + ɛ gdzie X to zmienna objaśniająca, Y to zmienna objaśniana, ɛ to błąd, E(ɛ) = 0. Na przykład: sales β 0 + β 1 (TV ), gdzie β 0, β 1 to (nieznane) parametry. Ewa Szczurek Regresja liniowa 1 4 / 41

5 Prosta regresja liniowa z jedną zmienną objaśniającą Mamy n obserwacji (dane treningowe): (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ), Nasz model zakłada, że y i = β 0 + β 1 x i + ɛ i, oraz, że Wartości wejściowe x i deterministyczne (nie losowe) obserwowane Zmienne ɛ i niezależne o identycznym rozkładzie E[ɛ i ] = 0 Var[ɛ i ] = σ 2 < 0 dla każdego i = 1,..., n. Ewa Szczurek Regresja liniowa 1 5 / 41

6 Predykcja w regresji liniowej z jedną zmienną objaśniającą Mając estymacje ˆβ 0 oraz ˆβ 1 obliczamy predykcję wartości dla Y na podstawie wartości X = x jako ŷ = ˆβ 0 + ˆβ 1 x. Ewa Szczurek Regresja liniowa 1 6 / 41

7 Estymacja parametrów (jedna zmienna objaśniająca) Przy zadanych estymacjach parametrów ˆβ 0, ˆβ 1, błąd RSS (resztowa suma kwadratów, ang. residual sum of squres): RSS = n (y i ˆβ 0 ˆβ 1 x i ) 2. i=1 Minimalizacja tego błędu prowadzi do estymatorów najmniejszych kwadratów dla współczynników: ˆβ 1 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 ˆβ 0 = ȳ ˆβ 1 x, gdzie x = (1/n) n i=1 x i oraz ȳ = (1/n) n i=1 y i. Ewa Szczurek Regresja liniowa 1 7 / 41

8 Błąd RSS w zależności od β 0, β 1 RSS β 1 β 0 Ewa Szczurek Regresja liniowa 1 8 / 41

9 Optymalne parametry: ˆβ0 = 7.03, ˆβ 1 = β β 0 Dołożenie $1000 na reklamę w TV powoduje zwiększenie sprzedaży o 47.5 jednostek produktu. Ewa Szczurek Regresja liniowa 1 9 / 41

10 Dopasowanie dla danych TV przy pomocy liniowej regresji Sales TV Optymalne dopasowanie: szare odcinki reprezentują błąd dopasowania dla poszczególnych obserwacji. Ewa Szczurek Regresja liniowa 1 10 / 41

11 Regresja liniowa z wieloma zmiennymi objaśniającymi Model regresji: Y = β 0 + β 1 X β p X p + ε, gdzie X 1,..., X p są zmiennymi objaśniającymi. Dla modelu sprzedaży mamy: sales = β 0 + β 1 (TV ) + β 2 (radio) + β 3 (newspaper) + ε Ewa Szczurek Regresja liniowa 1 11 / 41

12 Regresja liniowa dla danych o dwóch predyktorach daje płaszczyznę regresji (zamiast prostej) Y X 2 X 1 Ewa Szczurek Regresja liniowa 1 12 / 41

13 Regresja liniowa z wieloma zmiennymi objaśniającymi Dla danych (x 1, y 1 ),..., (x n, y n ), gdzie każdy x i = (x i,1, x i,2,..., x i,p ) T jest wektorem wejściowych wartości p zmiennych objaśniających model regresji ma postać y i = β 0 + β 1 x i, β p x i,p + ε i, Weźmy n p macierz o wejściach x i,j w wierszu i i kolumnie j (każdy wiersz i odpowiada x T i ) Niech X będzie n (p + 1) macierzą, otrzymaną z tej macierzy przez dołożenie jako pierwszej kolumny z wartościami 1 Niech y = (y 1,..., y n ) T R n będzie wektorem wartości zmiennej objaśnianej Model w postaci macierzowej: y = Xβ + ɛ Ewa Szczurek Regresja liniowa 1 13 / 41

14 Liniowa regresja z wieloma zmiennymi objaśniającymi Dla modelu w postaci macierzowej założenia są postaci y = Xβ + ɛ Wartości macierzy X deterministyczne (nie losowe) obserwowane ɛ wektor losowy niezależnych zmiennych losowych o identycznym rozkładzie E[ɛ] = 0 Var[ɛ] = σ 2 I n, σ 2 < 0 Dodatkowo założymy, że X ma pełny rząd, rank(x) = p Ewa Szczurek Regresja liniowa 1 14 / 41

15 Estymacja parametrów dla regresji z wieloma zmiennymi objaśniającymi Zauważmy, że E[y] = E[Xβ + ɛ] = Xβ + E[ɛ] = Xβ. Szukamy (metodą najmniejszych kwadratów) wartości ˆβ 0, ˆβ 1,..., ˆβ p, które minimalizują wyrażenie n RSS = (y i ˆβ 0 ˆβ 1 x i,1 ˆβ 2 x i,2... ˆβ p x i,p ) 2 = i=1 n (y i ˆβ 0 i=1 p ˆβ j x i,j ) 2 j=1 = (y Xβ) T (y Xβ) = y Xβ 2 RSS jest kwadratową funkcją parametrów β. Ewa Szczurek Regresja liniowa 1 15 / 41

16 Estymacja parametrów dla regresji z wieloma zmiennymi objaśniającymi Różniczkując po β mamy δrss δβ = 2X T (y Xβ) δ 2 RSS δβδβ T = 2X T X Dla macierzy X pełnego rzędu p mamy X T X dodatnio określoną i istnieje dokładnie jedno minimum RSS, które wyznaczamy przez X T (y Xβ) = 0 otrzymując ˆβ = (X T X) 1 X T y. Ewa Szczurek Regresja liniowa 1 16 / 41

17 Predykcja dla regresji liniowej z wieloma zmiennymi objaśniającymi Dla danych treningowych ŷ = X ˆβ = X(X T X) 1 X T y Macierz H = X(X T X) 1 X T nazywamy macierzą daszkową (bo zakłada daszek na y). Dla danej nowej obserwacji testowej x 0 ŷ 0 = (1 : x 0 ) T ˆβ Ewa Szczurek Regresja liniowa 1 17 / 41

18 Interpretacja geometryczna Niech x 0, x 1,..., x p wektory odpowiadające kolumnom macierzy X, gdzie x 0 = 1 Wektory x i rozpinają podprzestrzeń R n (lin(x), przestrzeń kolumn X) Minimalizując RSS = y Xβ 2, wybieramy taki ˆβ, dla którego wektor y ŷ jest ortogonalny do lin(x). Widać to z tego równania X T (y Xβ) = 0 ŷ jest rzutem ortogonalnym y na lin(x). Ewa Szczurek Regresja liniowa 1 18 / 41

19 Regresja liniowa w n wymiarach Ewa Szczurek Regresja liniowa 1 19 / 41

20 Własności estymatorów ˆβ Wartość oczekiwana E[ ˆβ] = E[(X T X) 1 X T y] = (X T X) 1 X T E[y] = (X T X) 1 X T X β = β Stąd, ˆβ jest nieobciążony. Macierz wariancji Var[ ˆβ] = E[( ˆβ β)( ˆβ β) T ] = (X T X) 1 σ 2 Nieobciążony estymator σ 2 ˆσ 2 = 1 n p 1 n (y i ŷ i ) 2 = RSS/(n p 1). i=1 Ewa Szczurek Regresja liniowa 1 20 / 41

21 ˆβ jest BLUE BLUE-Best Linear Unbiased Estimator Twierdzenie Gaussa-Markowa Estymator ˆβ jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru β. Ewa Szczurek Regresja liniowa 1 21 / 41

22 Testowanie istotności danego predyktora Przy dodatkowym założeniu, że ɛ N(0, σ 2 ) mamy ˆβ N(β, (X T X) 1 σ 2 ) Aby przetestować H 0 : β i = 0 dla i-tego współczynnika korzystamy ze statystyki z i = ˆβ i ˆσ, v i gdzie v i to i-ty element na diagonali macierzy (X T X) 1 Przy założeniu hipotezy zerowej z i ma rozkład t(n p 1) Dla hipotezy H 1 : β i 0 obszar krytyczny na poziomie istotności α: W = (, t(1 α/2, n p 1)] [t(1 α/2, n p 1), ) Przy zastąpieniu ˆσ znanym σ, rozkład N(0, 1) Dla dużych prób n mamy dobre przybliżenie rozkładu t rozkładem standardowym normalnym i korzysta się z kwantyli tego rozkładu Ewa Szczurek Regresja liniowa 1 22 / 41

23 Przedział ufności dla estymatora ˆβ i Na poziomie ufności 1 α przedział ufności dla ˆβ i ( ˆβ i z(1 α/2) v i ˆσ, ˆβ i + z(1 α/2) v i ˆσ), gdzie z(1 α/2) kwantyl rzędu 1 α/2 rozkładu standardowego normalnego. Ponieważ z( ) = 1.96 dla przedziału ufności na poziomie 95% korzysta się często z przybliżenia ( ˆβ i 2SE( ˆβ), ˆβ + 2SE( ˆβ i )), gdzie SE( ˆβ i ) = v i ˆσ nazywane jest błędem standardowym. Ewa Szczurek Regresja liniowa 1 23 / 41

24 Przykład cd: model sales w zależności od TV Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ 0 = < TV ˆβ1 = < Według testu t, zmienna TV wygląda na istotny predyktor sales. Przedziały ufości na poziomie 95%: dla ˆβ 0 : [6.130, 7.935], dla ˆβ 1 : [0.042, 0.053]. Oznacza to, że z prawdopodobieństwem 95% bez żadnych nakładów na reklamę sprzedaż wyniesie pomiędzy 6130 a 7935 jednostek, z każdym wydanym $1000 na reklamę, wzrost sprzedaży wyniesie pomiędzy 42 a 53 jednostek. Ewa Szczurek Regresja liniowa 1 24 / 41

25 Testowanie istotności kilku predyktorów Chcemy przetestować istotność kilku predyktorów naraz Korzystamy ze statystyki gdzie F = (RSS 0 RSS 1 )/(p 1 p 0 ), RSS 1 /(n p 1 1) RSS 1 to resztowa suma kwadratów modelu większego, o p parametrach, RSS 0 to resztowa suma kwadratów dla mniejszego, zagnieżdżonego modelu o p parametrach, w kótrym p 1 p 0 parametrów wyzerowano. Przy założeniu ɛ N(0, σ 2 ) i hipotezy zerowej, że mniejszy model jest prawdziwy i p 1 p 0 parametrów równa się 0, statystyka F ma rozkład Snedecora-Fishera F (p 1 p 0, n p 1 1) Ewa Szczurek Regresja liniowa 1 25 / 41

26 F-test dla wszystkich predyktorów (ang. overall F -test) Chcemy przetestować istotność zależności od conajmniej jednego z predyktorów Korzystamy ze statystyki gdzie F = (TSS RSS)/p RSS/(n p 1), TSS = (y i ȳ) 2 (ang. total sum of squares). RSS dla modelu, w którym współczynniki wszystkich predyktorów są wyzerowane. RSS = (y i ŷ i ) 2 dla modelu ze wszystkimi predyktorami Zatem jeśli F -statystyka daje wartość bliską 1, to nie możemy odrzucić hipotezy zerowej. Natomiast, gdy F -statystyka daje wartość istotnie większą od 1, to możemy H 0 odrzucić. Ewa Szczurek Regresja liniowa 1 26 / 41

27 Ocena dokładności modelu odchylenie standardowe składnika resztowego n RSS RSE = ˆσ = n p 1 = i=1 (y i ŷ i ) 2 n p 1 RSE mierzy poziom niedopasowania modelem regresji do danych. Małe RSE oznacza, że model liniowy dobrze pasuje do danych. Ewa Szczurek Regresja liniowa 1 27 / 41

28 Ocena dokładności modelu statystyka R 2 Współczynnik determinacji: R 2 = TSS RSS TSS = 1 RSS TSS, dla TSS = n i=1 (y i ȳ) 2 mierzącego całkowitą wariancję wartości zmiennej objaśnianej y. Natomiast n RSS = (y i ŷ i ) 2 mierzy ilość tej zmienności, która pozostała niewyjaśniona po wykonaniu operacji regresji. i=1 Ewa Szczurek Regresja liniowa 1 28 / 41

29 Ocena dokładności modelu statystyka R 2 Zatem łącznie statystyka R 2 mierzy proporcję zmienności Y, którą można wyjaśnić używając Ŷ. Wartości otrzymane ze statystyki R 2 mieszczą się w przedziale [0,1]. Wartość statystyki R 2 bliska 1 sugeruje, że duża część zmienności zmiennej Y zostaje wyjaśniona operacją regresji. Można pokazać, że R 2 zadane jest korelacją Pearsona R 2 = r 2 = Cor(Y, Ŷ ) a dla prostej regresji z jednym predyktorem X R 2 = r 2 = Cor(Y, X ). Ewa Szczurek Regresja liniowa 1 29 / 41

30 Przykład cd: model sales w zależności od TV Oznacza to, że Miara Wartość RSE 3.26 R F Ponieważ RSE = 3.26, to prawdziwe dane o sprzedaży w każdym sklepie mogą się różnić od prawdziwych średnio o 3260 jednostek. Ponieważ średnia wysokość sprzedaży ze wszystkich 200 sklepów wynosi 14000, to błąd procentowy wynosi 3200/14000 = 23% wariancji w sales wytłumaczone jest przez regresję na TV. Ewa Szczurek Regresja liniowa 1 30 / 41

31 Zależność sales od pozostałych predyktorów Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ 0 = < radio ˆβ1 = < Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ0 = < newspaper ˆβ 1 = < Ewa Szczurek Regresja liniowa 1 31 / 41

32 Estymacja parametrów dla regresji wielokrotnej Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ0 = < TV ˆβ 1 = < radio ˆβ2 = < newspaper ˆβ3 = wpływ newspaper na sprzedaż jest nieistotny, gdy rozważane są wszystkie trzy predyktory regresja liniowa dla każdego predyktora z osobna pokazuje, że wpływ tego predyktora na sprzedaż jest istotna istnieje duża korelacja (0.3541) pomiędzy zmiennymi radio i newspaper przeprowadzając regresję liniową dla tylko jednego predyktora newspaper wykrywamy wpływ na wysokość sprzedaży pochodzący od niewidocznego predyktora jakim jest radio Ewa Szczurek Regresja liniowa 1 32 / 41

33 Przykład cd: dyskusja dopasowania modelu Dla pełnego modelu F -statystyka=570. p-wartość jest praktycznie równa 0, co oznacza, że co najmniej jeden predyktor ma wpływ na wysokość sprzedaży. Predyktory w modelu R 2 TV, radio, newspaper TV, radio TV 0.61 R 2 na danych treningowych zawsze wzrasta wraz z liczbą predyktorów Mały wzrost i p-wartość w teście t sugerują, że newspaper może zostać usunięty z modelu. Zatrzymanie go może powodować problemy z przeuczeniem. Wg wzrostu R 2 i p-wartości dodanie predyktora radio istotnie poprawia dopasowanie. Ewa Szczurek Regresja liniowa 1 33 / 41

34 Przykład cd: dyskusja dopasowania modelu Predyktory w modelu RSE TV, radio, newspaper TV, radio TV 3.26 Model oparty na wszystkich predyktorach ma większy błąd RSE niż model oparty tylko na TV i radio Nie warto mieć newspaper w modelu Duży błąd modelu opartego tylko na TV Warto dodać radio do modelu Dodanie predyktora do modelu zawsze powoduje zmniejszenie RSS. Ponieważ RSE = RSS/(n p 1), dodanie jednego predyktora powoduje, że maleją zarówno licznik i mianownik. Zwiększenie wartości RSE jest możliwe, jeśli spadek wartości RSS jest dostatecznie mały. Ewa Szczurek Regresja liniowa 1 34 / 41

35 Przykład cd: Wizualizacja dopasowania Sales TV Radio Model przeszacowuje sprzedaż w sytuacjach gdy wiekszość nakładów jest głównie skierowana na reklamę w TV lub głównie w radiu. Nieliniowość w danych. Model niedoszacowuje sprzedaż w sytuacjach, gdy reklama jest dzielona pomiędzy TV i radio. Efekt synergii. Ewa Szczurek Regresja liniowa 1 35 / 41

36 Które predyktory mają istotny wpływ na zmienną objaśnianą? Problem wyboru zmiennych. Podstawowe techniki Przeszukiwanie wyczerpujące (ang. exhaustive search) Wyszukiwanie zachłanne (ang. forward search) Wyszukiwanie wsteczne (ang. backward search) Wyszukiwanie mieszane Ewa Szczurek Regresja liniowa 1 36 / 41

37 Przeszukiwanie wyczerpujące Dla każdego podzbioru predyktorów (z 2 p ) budujemy model metodą regresji liniowej w oparciu o ten zbiór predyktorów Stosując jedną z kilku znanych metod oceniania (np. RSE) wybieramy model najlepszy. To daje wybrany zbiór predyktorów. To podejście jest możliwe tylko dla bardzo małej liczby p predyktorów. Ewa Szczurek Regresja liniowa 1 37 / 41

38 Wyszukiwanie zachłanne Zaczynamy z pustym zbiorem predyktorów. Dla każdego z p predyktorów wykonujemy liniową regresję w oparciu o ten jeden predyktor. Wybieramy ten predyktor, dla którego resztowa suma kwadratów (RSS) jest najmniejsza. Następnie do niego dobieramy drugi predyktor tak, aby RSS dla modelu z dwoma predyktorami było najmniejsze. Powtarzamy tę procedurę aż do momentu spełnienia jakiegoś warunku stopu. Ewa Szczurek Regresja liniowa 1 38 / 41

39 Wyszukiwanie wsteczne Zaczynamy budowę modelu z wszystkimi predyktorami i usuwamy tę zmienną, dla której p-wartość jest największa. Budujemy model dla tak zmniejszonego zbioru zmiennych i usuwamy tę zmienną, dla której p-wartość jest największa. Powtarzamy tę procedurę aż do momentu spełnienia jakiegoś warunku stopu, np. wszystkie p wartości pozostających w grze predyktorów są poniżej pewnego progu. Ewa Szczurek Regresja liniowa 1 39 / 41

40 Wyszukiwanie mieszane Kombinacja zachłannego wyszukiwania z wstecznym. Startujemy z pustym zbiorem predyktorów. Dodajemy zmienne jak w podejściu zachłannym. W procesie dodawania zmiennych p-wartości dla pewnych zmiennych mogą wzrosnąć. Na każdym kroku sprawdzamy te p-wartości. Jeśli dla pewnego predyktora, jego p-wartość wzrosła powyżej pewnego progu, to usuwamy ten predyktor z modelu. Kontynuujemy tę procedurę do momentu aż wszystkie predyktory w modelu mają p-wartości poniżej pewnego progu, a wszystkie predyktory poza modelem otrzymałyby p-wartość powyżej progu, w przypadku dodania tego predyktora do modelu. Ewa Szczurek Regresja liniowa 1 40 / 41

41 Literatura G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with applications in R, Springer Verlag, T. Hastie, R. Tibshirani and J. Friedman The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer Verlag, Second Edition, Więcej: http: //mst.mimuw.edu.pl/lecture.php?lecture=st2&part=ch8 Ewa Szczurek Regresja liniowa 1 41 / 41

Stosowana Analiza Regresji

Stosowana Analiza Regresji prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy

Bardziej szczegółowo

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q

Bardziej szczegółowo

Statystyczna analiza danych (molekularnych) modele liniowe

Statystyczna analiza danych (molekularnych) modele liniowe Statystyczna analiza danych (molekularnych) modele liniowe Anna Gambin 14 kwietnia 2012 Spis treści 1 Analiza regresji 1 1.1 Historia..................................... 2 2 Modele liniowe 2 3 Estymacja

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki WYKŁAD 6 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Własności Wariancji Przypomnijmy, że VarX = E(X EX) 2 = EX 2 (EX) 2. Własności

Bardziej szczegółowo

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Ćwiczenia nr 3 Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 3 Własności składnika losowego 1 / 18 Agenda KMNK przypomnienie 1 KMNK przypomnienie 2 3 4 Jakub Mućk

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Metody Ekonometryczne

Metody Ekonometryczne Metody Ekonometryczne Goodness of fit i wprowadzenie do wnioskowania statystycznego Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Metody Ekonometyczne Wykład 2 Goodness of fit i wprowadzenie do wnioskowania

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

1.1 Klasyczny Model Regresji Liniowej

1.1 Klasyczny Model Regresji Liniowej 1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4 Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Wyk lad 8 Natalia Nehrebecka Stanis law Cichocki 29 listopada 2015 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Weryfikacja liniowego modelu jednorównaniowego Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 2 Weryfikacja liniowego modelu jednorównaniowego 1 / 28 Agenda 1 Estymator

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych round Testowanie hipotez statystycznych Wyk lad 9 Natalia Nehrebecka Stanis law Cichocki 13 grudnia 2014 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Wyk lad 9 Natalia Nehrebecka Stanis law Cichocki 28 listopada 2018 Plan zaj eć 1 Rozk lad estymatora b 2 3 dla parametrów 4 Hipotezy l aczne - test F 5 Dodatkowe za lożenie

Bardziej szczegółowo

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza zależności cech ilościowych regresja liniowa (Wykład 13) Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny

Bardziej szczegółowo

Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji.

Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji. Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji. Anna Gambin 23 listopada 2013 Spis treści 1 Analiza regresji 1 1.1 Historia..................................... 2 2 Modele liniowe

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago Model regresji wielokrotnej Wykład 14 (4.06.2007) Przykład ceny domów w Chicago Poniżej są przedstawione dane dotyczące cen domów w Chicago (źródło: Sen, A., Srivastava, M., Regression Analysis, Springer,

Bardziej szczegółowo

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY Będziemy zapisywać wektory w postaci (,, ) albo traktując go jak macierz jednokolumnową (dzięki temu nie będzie kontrowersji przy transponowaniu wektora ) Model

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić). Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Kolokwium ze statystyki matematycznej

Kolokwium ze statystyki matematycznej Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna

Bardziej szczegółowo

Ekonometria. Zajęcia

Ekonometria. Zajęcia Ekonometria Zajęcia 16.05.2018 Wstęp hipoteza itp. Model gęstości zaludnienia ( model gradientu gęstości ) zakłada, że gęstość zaludnienia zależy od odległości od okręgu centralnego: y t = Ae βx t (1)

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Anna Gambin 19 maja 2013 Spis treści 1 Przykład: Model liniowy dla ekspresji genów 1 2 Jednoczynnikowa analiza wariancji 3 2.1 Testy

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer

Bardziej szczegółowo

1.9 Czasowy wymiar danych

1.9 Czasowy wymiar danych 1.9 Czasowy wymiar danych Do tej pory rozpatrywaliśmy jedynie modele tworzone na podstawie danych empirycznych pochodzących z prób przekrojowych. Teraz zajmiemy się zagadnieniem budowy modeli regresji,

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Czasowy wymiar danych

Czasowy wymiar danych Problem autokorelacji Model regresji dla szeregów czasowych Model regresji dla szeregów czasowych y t = X t β + ε t Zasadnicze różnice 1 Budowa prognoz 2 Problem stabilności parametrów 3 Problem autokorelacji

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8 Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Własności składnika losowego Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 3 Własności składnika losowego 1 / 31 Agenda KMNK przypomnienie 1 KMNK przypomnienie 2 3 4

Bardziej szczegółowo

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014 Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:

Bardziej szczegółowo

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres

Bardziej szczegółowo

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu iowym, scenariusz p bliskie lub większe od n Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji: 1 Motywacja;

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń 1. Problem ozwaŝamy zjawisko (model): Y = β 1 X 1 X +...+ β k X k +Z Ηβ = w r Hipoteza alternatywna: Ηβ w r

Bardziej szczegółowo

Ekonometria egzamin 07/03/2018

Ekonometria egzamin 07/03/2018 imię, nazwisko, nr indeksu: Ekonometria egzamin 07/03/2018 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 3 1 / 8 ZADANIE z rachunku

Bardziej szczegółowo

Analiza wariancji i kowariancji

Analiza wariancji i kowariancji Analiza wariancji i kowariancji Historia Analiza wariancji jest metodą zaproponowaną przez Ronalda A. Fishera. Po zakończeniu pierwszej wojny światowej był on pracownikiem laboratorium statystycznego w

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy Załącznik nr 7 do Zarządzenia Rektora nr../12 z dnia.... 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2017/2018 STATYSTYKA

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Testy post-hoc. Wrocław, 6 czerwca 2016

Testy post-hoc. Wrocław, 6 czerwca 2016 Testy post-hoc Wrocław, 6 czerwca 2016 Testy post-hoc 1 metoda LSD 2 metoda Duncana 3 metoda Dunneta 4 metoda kontrastów 5 matoda Newman-Keuls 6 metoda Tukeya Metoda LSD Metoda Least Significant Difference

Bardziej szczegółowo

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. LABORATORIUM 4 1. Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. I) WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Populacja

Bardziej szczegółowo

Przykład 2. Stopa bezrobocia

Przykład 2. Stopa bezrobocia Przykład 2 Stopa bezrobocia Stopa bezrobocia. Komentarz: model ekonometryczny stopy bezrobocia w Polsce jest modelem nieliniowym autoregresyjnym. Podobnie jak model podaŝy pieniądza zbudowany został w

Bardziej szczegółowo

Regresja liniowa w R Piotr J. Sobczyk

Regresja liniowa w R Piotr J. Sobczyk Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące

Bardziej szczegółowo

Hipotezy statystyczne

Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej próbki losowej. Hipotezy

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Własności algebraiczne Model liniowy Zapis modelu zarobki = β 0 + β 1 plec + β 2 wiek + ε Oszacowania wartości współczynników zarobki = b 0 + b 1 plec + b 2 wiek + e Model liniowy Tabela: Oszacowania współczynników

Bardziej szczegółowo

Hipotezy statystyczne

Hipotezy statystyczne Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora. imię, nazwisko, nr indeksu: Ekonometria egzamin 06/03/2019 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów Formy heteroscedastyczności Własności estymatorów MNK wydatki konsumpcyjne 0 10000 20000 30000 40000 14.4 31786.08 dochód rozporz¹dzalny Zródlo: Obliczenia wlasne, dane BBGD 2004 Formy heteroscedastyczności

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru

Bardziej szczegółowo