Część IV Regresja 129

Wielkość: px
Rozpocząć pokaz od strony:

Download "Część IV Regresja 129"

Transkrypt

1 Część IV Regresja 129

2

3 Rozdział 9 Modele regresji 91 Wstęp Modele regresji zajmują szczególne miejsce w statystyce Mają niebywałą ilość różnorodnych zastosowań Używa się ich powszechnie w chemii, biologii, ekonomii, doświadczalnictwie rolniczym i właściwie w każdej z nauk empirycznych Z konieczności ograniczymy się do paru najprostszych modeli i nasza dyskusja będzie bardzo pobieżna Regresja opisuje, mówiąc najogólniej, statystyczną zależność tak zwanej zmiennej objaśnianej od zmiennych objaśniających Przypuśćmy, że interesuje nas związek pomiędzy dwiema zmiennymi, które oznaczymy przez x i Y Mierzymy lub obserwujemy wielokrotnie wartości tych zmiennych Dane mają postać par (x i, Y i ) i możemy je zapisać w takiej tabelce: niezależna zależna przypadki \ zmienne (objaśniająca) (objaśniana) x Y 1 x 1 Y 1 2 x 2 Y 2 n x n Y n 131

4 132 ROZDZIAŁ 9 MODELE REGRESJI Na przykład, możemy badać zależność pomiędzy parami zmiennych (x, Y ) takiego typu: x Y wielkość produkcji zużycie energii wiek dziecka wzrost stężenie katalizatora wydajność procesu dawka nawozu plony Przypadki odpowiadają pomiarom lub obserwacjom zmiennej Y dla różnych wartości zmiennej x Poszczególne pomiary mogą dotyczyć różnych obiektów lub tego samego, ewoluującego procesu Przypuszczamy, że zmienna Y jest w zasadzie funkcją x, ale zaburzoną losowymi błędami Nasz model zależności będzie taki: Y = φ(x) + ε, gdzie ε jest błędem losowym Funkcję y = φ(x) nazywamy funkcją regresji Dla poszczególnych przypadków, czyli uzyskanych doświadczalnie punktów (x i, Y i ) mamy Y i = φ(x i ) + ε i, (i = 1,, n) Punkty doświadczalne (x i, Y i ) nie leżą dokładnie na krzywej regresji, ale znajdują się w pobliżu wykresu funkcji y = φ(x) Zakładamy, że wielkości x i są znane i nielosowe Odpowiada to sytuacji, gdy zmienna x jest pod kontrolą eksperymentatora i jest mierzona bezbłędnie Wartości zmiennej Y są losowymi obserwacjami (ze względu na wpływ losowego składnika ε) Funkcja regresji φ jest nieznana i będziemy ją estymować na podstawie danych Oznaczenie zmiennej niezależniej małą literą x, a zmiennej zależnej dużą literą Y ma nam stale przypominać, gdzie tkwi losowość Czytelnik powinien wiedzieć, że w literaturze ta konwencja nie jest powszechnie przyjęta Istnieją również innne modele regresji, w których zmienna objaśniająca też jest losowa, ale nie będziemy ich rozważać Metoda najmniejszych kwadratów Sprecyzowanie modelu regresji wymaga przyjęcia konkretnych założeń o funkcji φ oraz o błędach losowych ε i Założymy, że funkcja regresji ma znaną postać, natomiast zależy od nieznanego parametru β Napiszemy zatem φ(x) = φ(β, x) Zwrócmy uwagę, że wartość β dla poszczególnych przypadków i = 1,, n jest taka sama (zależność opisuje jedna funkcja, tylko błędy losowe są różne) W ten sposób powstają parametryczne modele regresji

5 91 WSTĘP 133 Przyjmiemy klasyczne założenie, że błędy są niezależne i mają jednakowy rozkład normalny Podsumujmy i uzupełnijmy opis modelu: (911) Y i = φ(β, x i ) + ε i, (i = 1,, n) gdzie i - numer przypadku, x i - wartość zmiennej objaśniającej (znana i nielosowa), ε i - błąd losowy (nieobserwowana zmienna losowa), Y i - obserwowana zmienna losowa objaśniana, β - nieznany parametr (nielosowy) 912 Założenie Spełniona jest zależność (911) Błędy ε 1,, ε n są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym N(0, σ 2 ) Schemat opisany powyżej można łatwo uogólnić uwzględniając wpływ wielu zmiennych objaśniających na zmienną objaśnianą Na przykład, wydajność procesu chemicznego może zależeć od stężenia katalizatora i od ciśnienia Na wysokość plonów może mieć wpływ intensywność nawożenia, poziom opadów i jeszcze inne czynniki (zmienne) Nie musimy zakładać, że x i są skalarami; mogą to być wektory Również parametr β może być wektorem Pozostaniemy natomiast przy założeniu, że wartości zmiennej objaśnianej Y i są skalarne Łączna gęstość prawdopodobieństwa obserwacji Y 1,, Y n jest następująca: f β,σ (y 1,, y n ) = ( ) [ n 1 exp 1 2πσ 2σ 2 ] n (y i φ(β, x i )) 2 W ten sposób określona jest rodzina rozkładów prawdopodobieństwa na przestrzeni próbkowej Ω = R n ; przestrzenią parametrów jest Θ = R p ]0, [, gdzie p jest wymiarem parametru β Ten opis modelu mieści się w ogólnym schemacie wprowadzonym w Rozdziale 2 i=1

6 134 ROZDZIAŁ 9 MODELE REGRESJI Ze wzoru na postać gęstości natychmiast wynika prosty wniosek 913 Stwierdzenie Jeśli spełnione jest Założenie 912, to estymator największej wiarogodności parametru β jest rozwiązaniem zadania minimalizacji RSS(β) = n i=1 (Y i φ(β, x i )) 2 min β Skrót RSS pochodzi od angielskiego zwrotu Residual Sum of Squares Będziemy nazywać RSS = min β RSS(β) resztową sumą kwadratów Estymator wprowadzony w Stwierdzeniu 913 nazywamy estymatorem najmniejszych kwadratów i w skrócie napiszemy ˆβ = LSE(β) Niezależnie od Założenia 912, LSE ma bardzo przekonującą interpretację Dopasowujemy krzywą do punktów doświadczalnych w ten sposób, żeby suma kwadratów odchyłek punktów od krzywej była minimalna Przy tym odchyłki mierzymy wzdłuż osi Y Metoda najmniejszych kwadratów sprowadza się do metody największej wiarogodności przy założeniu o normalnym rozkładzie błędów, ale ma samodzielny sens i może być stosowana bez tego założenia 92 Model liniowy Ograniczymy się do najprostszej, liniowej postaci funkcji regresji Mimo, że założenie o liniowości wydaje się bardzo ograniczające, rozmaitość i zakres zastowań modeli liniowych są zaskakująco duże Prosta regresja liniowa Rozpatrzymy na początek model z jedną (skalarną) zmienną objaśniającą Model liniowy z wyrazem wolnym ma postać Y i = β 0 + β 1 x i + ε i, (i = 1,, n) Wykresem funkcji regresji jest linia prosta y = β 0 + β 1 x Wzory przybierają prostą i przejrzystą formę Estymatory najmniejszych kwadratów parametrów β 0 i β 1 są następujące: (921) ˆβ1 = (xi x)(y i Ȳ ) (xi x) 2, ˆβ0 = Ȳ ˆβ 1 x, gdzie x = 1 n xi, Ȳ = 1 n Yi

7 92 MODEL LINIOWY 135 Istotnie, Rozwiązujemy układ równań: RSS(β) = 1 RSS(β) = 2 β 0 1 RSS(β) = 2 β 1 n (Y i β 0 β 1 x i ) 2 i=1 n (β 0 + β 1 x i Y i ) = 0, i=1 n (β 0 + β 1 x i Y i )x i = 0 i=1 Rachunki są elementarne i łatwe (Zadanie 92) Niech Ŷi = ˆβ 0 + ˆβ 1 x i, gdzie ˆβ 0 i ˆβ 1 są LSE danymi wzorem (921) Punkty (x i, Ŷi) leżą na dopasowanej (wyestymowanej) prostej regresji Mówimy, że Ŷi są przewidywanymi wartościami zmiennej objaśnianej Różnice ˆε i = Y i Ŷi pomiędzy wartościami obserwowanymi i przewidywanymi nazywamy resztami albo residuami 922 Przykład (Ilość produktu i stężenie katalizatora) Badamy zależność ilości produktu w pewnej reakcji chemicznej (zmienna Y ) od stężenia katalizatora (zmienna x) Przeprowadzono doświadczenie 15 razy, wybierając różne stężenia katalizatora i otrzymano takie wyniki: i x i Y i Zakładamy, że ilość produktu zależy w sposób liniowy od stężenia katalizatora (w interesującym nas zakresie wartości obu zmiennych) Odchylenia od dokładnej zależności liniowej traktujemy jako błędy losowe Mówiąc porządniej, decydujemy się na opis zależności Y od x przy pomocy modelu prostej regresji liniowej Estymowane wartości współczynników są, dla naszych danych, równe ˆβ 0 = 761 i ˆβ 1 = 375 Przyjmujemy więc, że funkcja Ŷ = x opisuje w przybliżeniu interesującą nas zależność Obliczyliśmy to przy pomocy programiku napisanego w języku R, który wygląda tak: Punkty doświadczalne wraz z dopasowaną prostą regresji pokazuje następujący rysunek

8 136 ROZDZIAŁ 9 MODELE REGRESJI 80 Y 60 O (x,y) (x,^y) 40 Regresja Residua x Rysunek 91: Dane i regresja liniowa w Przykładzie 922

9 92 MODEL LINIOWY 137 Regresja liniowa wieloraka Rozpatrzymy teraz model z wieloma zmiennymi objaśniającymi Ich liczbę oznaczmy przez r Zmienna objasniana jest jedna, skalarna, tak jak poprzednio Wskaźnik i = 1,, n będzie, tak jak dotąd, numerował kolejne przypadki lub obiekty Zmienne opisujące i-ty obiekt oznaczymy przez x i1,, x ir i Y i Model regresji liniowej z wyrazem wolnym przybiera postać r Y i = β 0 + β j x ij + ε i, (i = 1,, n) j=1 Prosty chwyt pozwala włączyć wyraz wolny do funkcji liniowej Przyjmijmy umownie, że x i0 = 1 Zmienne objaśniające dla i-tego obiektu ustawimy w wektor wierszowy, dołączając jedynkę: x i = (1, x i1,, x ip ) Można teraz zapisać bardziej zwięźle model w postaci wektorowej: r Y i = β j x ij + ε i = x i β, (i = 1,, n), j=0 gdzie β = (β 0, β 1,, β r ) W postaci macierzowej to można przepisać tak: β Y 1 1 x 11 x 0 1r = β 1 ε 1 + Y n 1 x n1 x nr ε n Będziemy konsekwentnie stosowali notację wektorowo-macierzową Wektory i macierze w powyższym wzorze oznaczymy pojedynczymi literami Y, X, β i ε Przyjmijmy, dla jednolitości oznaczeń, że symbol p oznaczać będzie wymiar wektora β Dla regresji liniowej z r zmiennymi objaśniającymi i wyrazem wolnym mamy zatem Model liniowy przybiera zwięzłą postać: p = r + 1 β r Y = X β + ε n 1 n p p 1 n 1 Pod spodem napisaliśmy wymiary poszczególnych obiektów Znana i nielosowa macierz X jest zwana macierzą planu, β jest wektorem nieznanych parametrów, Y jest wektorem obserwacji, ε jest losowym wektorem błędów Uwaga Zauważmy, że do macierzy X dołączyliśmy zerową kolumnę złożoną z samych jedynek W większości zastosowań jest to naturalne (ta operacja jest wykonywana w R domyślnie ) Czasami trzeba rozważyć model regresji bez wyrazu wolnego Należy wtedy pamiętać, że p = r, a nie p = r + 1 Przyjmijmy umowę, że liczba kolumn macierzy X i wymiar wektora β będą zawsze równe p W ogólnych, teoretycznych rozważaniach, będziemy pisać β = (β 1,, β p ), bo wygodniej numerować współrzędne wektora od 1, nie od 0 Wzory dla regresji z wyrazem wolnym wymagają oczywistej modyfikacji

10 138 ROZDZIAŁ 9 MODELE REGRESJI W dalszym ciągu ograniczymy sie do rozważania następującej sytuacji 923 Założenie Mamy p < n i macierz X jest pełnego rzędu, to znaczy rz(x) = p Sens powyższego założenia jest jasny Wydaje się, że do wyestymowania p nieznanych parametrów, potrzeba więcej niż p obserwacji 1 Ważna część teorii wymaga wprowadzonego w Założeniu 912 warunku: ε 1,, ε n są niezależnymi zmiennymi losowymi o jednakowym rozkładzie N(0, σ 2 ) Zreasumujmy nasze rozważania w następującej postaci 924 Założenie Model jest opisany równaniem Y = Xβ + ε, gdzie ε N(0, σ 2 I) Część teorii nie wymaga założenia o normalności Wystarczy, że zmienne losowe ε 1,, ε n spełniają warunki Eε i = 0 i Varε i = σ 2 dla i = 1,, n oraz Cov(ε i, ε j ) = 0 dla i j Sformułujmy to w postaci następującego, słabszego założenia (w tym rozdziale będziemy trochę mniej pedantyczni niz poprzednio i odstąpimy od jawnego zaznaczania zależności P i E od nieznanego rozkładu) 925 Założenie Model jest opisany równaniem Y = Xβ + ε, gdzie Eε = 0 i VARε σ 2 I Poniższy przykład pokazuje, że założenie o liniowości funkcji regresji jest mniej ograniczające, niż się wydaje 926 Przykład (Regresja wielomianowa) Rozpatrzmy model z pojedynczą zmienną objaśniającą, w którym funkcja regresji jest wielomianem r-tego stopnia: r Y i = β 0 + β j x j i + ε i, j=1 (i = 1,, n) To jest model liniowy, w którym i-ty wiersz macierzy planu jest równy x i = (1, x i,, x j i,, xr i ) (i = 1,, n) 1 W ostatnich latach coraz więcej uwagi poświęca się w statystyce modelom, w których p > n Ale to już inna historia, wykraczająca poza zakres naszych rozważań

11 92 MODEL LINIOWY 139 Estymacja w modelu liniowym Pracujemy w ogólnym modelu liniowym Y = Xβ + ε Przy Założeniach 925 i 923 można napisać jawne, macierzowe wzory na estymator najmniejszych kwadratów, LSE(β) Rozwiązujemy zadanie minimalizacji RSS(β) = n i=1 (Y i x i β) 2 = (Xβ Y ) (Xβ Y ) = min β Obliczając gradient lewej strony względem β dostajemy X (Xβ Y ) = 0, czyli X Xβ = X Y Jest to tak zwany układ równań normalnych w postaci macierzowej Założenie 923 gwarantuje, że macierz X X jest odwracalna i mamy prosty wzór: LSE(β) = ˆβ = (X X) 1 X Y Ponieważ EY = Xβ, więc E ˆβ = (X X) 1 X EY = β LSE(β) jest estymatorem nieobciążonym Policzymy macierz kowariancji LSE Mamy Istotnie, VAR( ˆβ) = (Cov(β j, β k ); j, k = 1,, p) = σ 2 (X X) 1 VAR( ˆβ) = E( ˆβ β)( ˆβ β) = (X X) 1 X E(Y Xβ)(Y Xβ) X(X X) 1 = (X X) 1 X (σ 2 I)X(X X) 1 = σ 2 (X X) 1 W Rozdziale 3 wprowadziliśmy pojęcie estymatora nieobciążonego o minimalnej wariancji Obecnie mamy do czynienia z wektorowym parametrem β = (β 1,, β p ) Zajmiemy się estymacją liniowej funkcji tego parametru, to znaczy wyrażenia postaci g β = p g j β j, j=1 sposób przechodzimy do jednowymiarowego zagadnienia estymacji i możemy odwołać się do znajomych pojęć Z definicji, LSE(g β) = ĝ = g ˆβ jest estymatorem najmniejszych kwadratów funkcji g β (po prostu, wstawiamy LSE(β) w miejsce nieznanego β) Okazuje się, że LSE mają najmniejszą wariancję pośród estymatorów liniowych i nieobciążonych Mówi się, że ˆβ jest najlepszym liniowym nieobciążonym estymatorem β, w skrócie BLUE (Best Linear Unbiased Estimator) Taka jest treść klasycznego twierdzenia, które teraz sformułujemy dokładniej

12 140 ROZDZIAŁ 9 MODELE REGRESJI 927 TWIERDZENIE (Gaussa Markowa) Przyjmijmy Założenie 925 Rozważmy dowolny nieobciążony i liniowy estymator funkcji g β, to znaczy estymator postaci g = c Y taki, że E g = g β Jeżeli ĝ = LSE(g β), to Varĝ Var g Dowód Ponieważ E g = c Xβ = g β dla każdego β, więc c X = g Oczywiście, Var g = σ 2 c c Dowód będzie zakończony gdy pokażemy, że Możemy tę nierówność przepisać w postaci 0 c c g (X X) 1 g 0 c c c X(X X) 1 X c = c (I H)c, gdzie H = X(X X) 1 X Wystarczy teraz zauważyć, że macierz I H jest nieujemnie określona Jest tak, bo jest ona symetryczna i idempotentna Jeśli przyjmiemy silniejsze Założenie 924 zamiast 925 to można pokazać, że LSE jest nie tylko BLUE (najlepszy wśród liniowych estymatorów nieobciążonych) ale także BUE (najlepszy wśród wszystkich estymatorów nieobciążonych) Przyjmiemy ten fakt bez dowodu Geometria ENK W dalszym ciągu rozważamy ogólny model Y = Xβ+ε Będziemy w istotny sposób korzystać z Założeń 924 i 923 Współrzędne wektorów p-wymiarowych numerujemy od 1 do p Zauważmy, że Ŷi = x i ˆβ jest współrzędną Y -ową punktu odpowiadającego wektorowi x i i leżącemu na wykresie dopasowanej (estymowanej metodą najmniejszych Kwadratów) funkcji regresji Odpowiednią resztą jest ˆε i = Y i Ŷi Wektorowo napiszemy Ŷ = X ˆβ = (Ŷ1,, Ŷn) i ˆε = Y Ŷ Mamy Ŷ = X(X X) 1 X Y = HY, gdzie H jest macierzą rzutu ortogonalnego (w przestrzeni R n ) na p-wymiarową podprzestrzeń liniową R(X) generowaną przez kolumny macierzy X (czyli obraz przekształcenia liniowego o macierzy X) Wystarczy sprawdzić, że H jest macierzą symetryczną (H = H) i idempotentną (H 2 = HH = H) Rzut na dopełnienie ortogonalne R(X) ma macierz I H Geometryczna interpretacja metody najmniejszych kwadratów staje się przejrzysta, jeśli przejdziemy do takiego ortogonalnego układu współrzędnych, którego pierwsze p wersorów jest bazą podprzestrzeni R(X) a następne n p wersorów jest bazą R(X) Taki układ można napisać w jawnej postaci stosując procedurę ortogonalizacji Hilberta-Schmidta do bazy (nieortogonalnej) przestrzeni R n, złożonej z p kolumn macierzy X oraz n p innych wektorów Pamiętajmy, że macierz X o wymiarach n p jest pełnego rzędu p Potrzebny fakt sformułujemy w następującej postaci 2 2 Dla naszych celów istotne będą tylko współrzędne kolumn X w nowej bazie

13 92 MODEL LINIOWY Stwierdzenie Istnieje macierz ortogonalna Q o wymiarze n n oraz macierz górna trójkątna R o wymiarze p p takie, że R X = Q O W tym wzorze O jest zerową macierzą o wymiarze (n p) p Kolumny macierzy Q tworzą ortonormalną bazę R(X) Element r jk macierzy R jest iloczynem skalarnym k-tej kolumny X i j-tej kolumny Q Tak więc R zawiera współrzędne kolumn X w nowej bazie Fakt, że macierz R jest trójkątna, r jk = 0 dla k < j oznacza, że początkowe k kolumn Q jest bazą w przestrzeni rozpiętej przez k pierwszych kolumn X Współrzędne wektora Y w nowej bazie oznaczymy Y = Q Y Rzut na przestrzeń R(X) ma w nowej bazie macierz współrzędnych H = Q HQ: Y Y = QY Ŷ = HY = HQY Ŷ = Q HQY Zauważmy, że R H = Q X(X X) 1 X Q = ( R R ) 1 O I O =, O O ( ) R O gdzie I jest macierzą jednostkową wymiaru p p To znaczy, że w nowym układzie współrzędnych, rzutowanie wektora Y na podprzestrzeń R(X) polega na zastąpieniu n p ostatnich współrzędnych zerami: jeśli Y = (Y 1,, Y p,, Y n ) to Ŷ = (Y 1,, Y p, 0,, 0) Pamiętajmy przy tym, że Y = QY i Ŷ = QŶ Wzór Y = Xβ + ε w nowym układzie współrzędnych przybiera postać R Y = β + ε, O gdzie ε = Qε Następujące proste spostrzeżenie odgrywa w dalszych rozważaniach zasadniczą rolę Przy Założeniu 924, wektor losowy ε ma łączny rozkład normalny N(0, σ 2 I) Geometryczne rozważania prowadzą do bardzo prostego dowodu następującej ogólnej wersji Twierdzenia Fishera

14 142 ROZDZIAŁ 9 MODELE REGRESJI 929 TWIERDZENIE (Fishera) Jeśli spełnione jest Założenie 924 i ˆβ = LSE(β) to ˆβ jest zmienną losową niezależną od Y Ŷ Ponadto mamy Y Ŷ 2 χ 2 (n p) i ˆβ N(β, σ 2 (X X) 1 ) Dowód Ponieważ Q jest macierzą ortogonalną, więc jest izometrią, stąd Y Ŷ 2 = Q Y Q Ŷ 2 = Q (I H)QY 2 = (I H)Y 2 = ε 2 p ε 2 n χ 2 (n p) Z kolei Ŷ = QŶ = QHY = Q(ε 1,, ε p, 0,, 0) Stąd widać, że Ŷ jest zmienną niezależną od Y Ŷ Oczywiście, ˆβ jest funkcją Ŷ, a więc też jest zmienną niezależną od Y Ŷ Wreszcie, ˆβ jest to liniową funkcją wektora Y, a więc ma rozkład normalny Wiemy, że E ˆβ = β i VAR( ˆβ) = σ 2 (X X) 1, co kończy dowód 9210 Wniosek Nieobciążonym estymatorem wariancji błędu, σ 2, jest S 2 = Y Ŷ 2 n p = RSS n p Estymatory najmniejszych kwadratów ˆβ j można uzupełnić konstrukcją przedziałów ufności 9211 Wniosek Przedział ufności dla parametru β j jest określony wzorem [ ˆβj Std j, ˆβ j + Std j ], gdzie S = S 2, t = t 1 α/2 (n p) jest kwantylem rozkładu t-studenta z n p stopniami swobody, zaś d j = (X X) 1 jj (wskażnik jj odpowiada j-temu elementowi na przekątnej macierzy) Żeby ten wniosek uzasadnić, wystarczy zauważyć, że Varβ j = σ 2 d j, a zatem na mocy twierdzenia Fishera ˆβ j β j d j S t(n p),

15 92 MODEL LINIOWY 143 Predykcja Po co właściwie dopasowujemy funkcję do punktów doświadczalnych? Rzecz jasna, jest przyjemnie mieć prosty, liniowy model opisujący zależność Ostatecznym sprawdzianem wartości poznawczej modelu jest możliwość przewidywania wyników doświadczeń W przypadku modelu regresji, chodzi o przewidywanie wartości zmiennej Y dla danej wartości x Tak jak dotąd, mamy dane punkty (x i, Y i ) dla i = 1,, n Dla ustalenia uwagi umówmy się, że wracamy do modelu regresji liniowej z wyrazem wolnym i do oznaczenia β = (β 0, β 1, β r ) na wektor współczynników, gdzie p = r + 1 Rozważamy nowy wektor zmiennych objaśniających, który oznaczymy x = (1, x 1,, x r) i uważamy za znany Jeśli przeprowadzimy nowe doświadczenie, to pojawi się odpowiednia wartość Y Naszym zadaniem jest predykcja nieznanej wartości Y przed dokonaniem tego dodatkowego doświadczenia Nasz model przewiduje, że Y = x β + ε, gdzie współczynniki β są te same, co we wzorze Y i = x i β + ε i, zaś ε N(0, σ 2 ) jest błędem losowym niezależnym od poprzednich błędów ε i Musimy zmierzyć się z dwiema trudnościami Po pierwsze, nie znamy współczynników β Po drugie, musimy się liczyć z nowym, losowym odchyleniem ε od prostej regresji Niemniej, nasuwa się dość oczywiste rozwiązanie Za przewidywany wynik doświadczenia możemy przyjąć Ŷ = x ˆβ, gdzie ˆβ jest estymatorem obliczonym na podstawie poprzednich punktów doświadczalnych (x i, Y i ) Spróbujemy teraz oszacować dokładność predykcji Mamy EŶ = EY = x β i możemy powiedzieć, że predyktor Ŷ jest nieobciążony 3 Obliczmy jego wariancję: VarŶ = σ 2 x (X X) 1 x Łatwo stąd wywnioskować ważny wzór na błąd średniokwadratowy predykcji: E(Ŷ Y ) 2 = σ 2 [ 1 + x (X X) 1 x ] Dodatkowa jedynka w tym wzorze pochodzi stąd, że musimy uwzględnić wpływ błędu ε, czyli losowe odchylenie punktu Y od funkcji regresji Bardzo podobnie jak we Wniosku 9211 konstruuje się przedziały ufności dla wartości funkcji regresji i predykcji 9212 Wniosek Przedział ufności dla wartości funkcji regresji w punkcie x, czyli dla β x jest określony wzorem [x ˆβ Std, x ˆβ ] + Std, gdzie d = x (X X) 1 x i t = t 1 α/2 (n p) 3 Zauważmy, że przewidywana wielkośc Y jest zmienną losową, a zatem nieobciążoność predyktora wymaga osobnej definicji

16 144 ROZDZIAŁ 9 MODELE REGRESJI Przejdźmy do przedziałów ufności dla predykcji Ustalamy poziom ufności 1 α i chcemy skonstruować takie statystyki Y i Y, żeby, dla dowolnych β i σ, P(Y Y Y ) = 1 α W powyższym wzorze występuje rozkład prawdopodobieństwa na przestrzeni próbkowej R n+1 Jest to łączny rozkład zmiennych losowych Y 1,, Y n oraz Y Statystyki Y i Y są to funkcje obserwacji, czyli zmiennych losowych Y i dla i = 1,, n Poza tym mogą zależeć od znanych liczb x i oraz x, ale nie mogą zależeć od Y Przedział [Y, Y ] będziemy dla uproszczenia nazywać przedziałem ufności dla predykcji, ale nie jest to przedział ufności w rozumieniu Definicji 601 Wartość, którą staramy się przewidzieć, Y, nie jest funkcją nieznanego parametru, tylko nieobserwowaną zmienną losową 9213 Wniosek Przedział ufności dla predykcji Y jest określony wzorem [x ˆβ StD, x ˆβ + StD ], gdzie D = 1 + x (X X) 1 x i t = t 1 α/2 (n p) Uzasadnienie Wniosków 9212 i 9213 jest analogiczne jak Wniosku 9211 Wystarczy powołać się na twierdzenie Fishera i wykorzystać wzory VarŶ = σ 2 d = σ 2 x (X X) 1 x i E(Ŷ Y ) 2 = σ 2 D = σ 2 [ 1 + x (X X) 1 x ] W szczególnym przypadku prostej regresji liniowej z wyrazem wolnym wzory na przedziały ufności mają wyjątkowo intuicyjną inerpretację i warto je przytoczyć Wprowadźmy wygodne oznaczenie SS x = (x i x) 2 Mamy d = 1 n + (x x) 2 SS x, D = 1 + d = n + (x x) 2 SS x To można sprawdzić wykorzystując ogólne wzory (trzeba obliczyć macierz odwrotną (X X) 1 wymiaru 2 2) Można też obliczyć bezpośrednio VarŶ i Var(Y Ŷ ) w rozważanym szczególnym przypadku (Zadanie 95) Tak czy inaczej, rachunki są łatwe Zwrócmy uwagę, że liczba stopni swobody resztowej sumy kwadratów RSS jest równa n 2, ze względu na obecność wyrazu wolnego Zatem t = t 1 α/2 (n 2) Jeśli prawe strony wzorów na przedziały ufności, β 0 + β 1 x = ˆβ 0 + ˆβ 1 x ± tsd, Y = ˆβ 0 + ˆβ 1 x ± tŝd, potraktujemy jako funkcje x, to otrzymamy krzywe wyznaczające pasy ufności odpowiednio, dla funkcji regresji i predykcji

17 93 TESTOWANIE HIPOTEZ Przykład (Produkt i katalizator, kontynuacja) Wróćmy do Przykładu 9214 Przypomnijmy, że na podstawie n = 15 punktów doświadczalnych obliczyliśmy estymatory współczynników równe ˆβ 0 = 761 i ˆβ 1 = 375 Dopasowana prosta regresji jest więc taka: Ŷ = x Przypuśćmy teraz, że chcemy przewidzieć, jaką uzyskamy ilość produktu w nowym doświadczeniu, przy stężeniu katalizatora x = 105 Oczywiście, 2439 Ŷ = = 4698 Szerokość przedziału ufności, równa 2439, została obliczona według wzoru t 0975 (13) RSS/ /15 + (105 x)2 /SS x = 2439, gdzie x = 1227, SS x = i RSS = Na poziomie ufności 095 możemy twierdzić, że doświadczenie da wynik 4698 ± 2439, czyli Y zmieści się w przedziale [2258, 7137] Zatrzymajmy się jeszcze nad interpretacją przedzia łu ufności dla funkcji regresji, β 0 + β Ten przedział w naszym przykładzie przybiera postać 4698 ± 646, czyli [4052, 5343] Powiedzmy, że zdecydujemy się uruchomić produkcję na większą skalę i powtarzać wielokrotnie reakcję przy tym samym roboczym stężeniu x = 105 Wtedy średnia ilość otrzymywanego produktu będzie równa β β 1 Ponieważ parametry zależności β 0 i β 1 są nieznane (wartości ˆβ 0 = 761 i ˆβ 1 = 375 są tylko estymatorami!) to średnią ilość produktu możemy oszacować tylko z dokładnością ±646 Przedziały ufności dla Y, dla wartości funkcji regresji w punkcie x = 105 oraz pasy ufności widać na następującym rysunku: 93 Testowanie hipotez Najprostsze i najważniejsze zagadnienie testowania hipotez w modelu liniowym zmierza do odpowiedzi na pytanie: czy wszystkie zmienne objaśniające mają istotny wpływ na zmienną objaśnianą? Czy może pewien podzbiór zmiennych x, można pominąć? Formalnie, niech β = (β 1,, β q, β q+1,, β p ) dla q < p Weryfikujemy hipotezę zerową H 0 : (β q+1,, β p ) = (0,, 0)

18 146 ROZDZIAŁ 9 MODELE REGRESJI Przedzialy dla regresji Przedzialy dla predykcji Y O Probka uczaca Predykcja x Rysunek 92: Przedziały ufności i pasy ufności

19 93 TESTOWANIE HIPOTEZ 147 przeciwko alternatywie H 1 : (β q+1,, β p ) (0,, 0) Niech X 0 oznacza macierz planu X z pominiętymi kolumnami q + 1,, p Jest to więc macierz n q, która odpowiada modelowi regresji zbudowanemu przy założeniu prawdziwości H 0 Zauważmy, że geometryczne rozważania poprzedniego punktu przenoszą sie bez zmian, jesli zastąpimy X przez X 0 Co więcej, jeśli rozpatrzymy dekompozycję macierzy X podaną w Stwierdzeniu 928 to automatycznie otrzymujemy dekompozycję X 0 Wystarczy wybrać za R 0 podmacierz trójkątną o wymiarach q q stojącą w lewym górnym rogu R Macierz Q pozostaje ta sama, czyli możemy pracować w tym samym wygodnym ortogonalnym układzie współrzędnych Niech H 0 oznacza rzut na R(X 0 ) R(X) Mamy H 0 = H 0 H: rzut rzutu jest rzutem Najlepiej to widać w nowym układzie współrzędnych: I q O O I q O O H 0 = O O p q O, H = O I p q O O O O n p O O O n p W tym wzorze indeksy oznaczają wymiary kwadratowych bloków Rzuty na R(X) i R(X 0 ) opisują wzory Wektory Y = (Y 1,, Y q, Y q+1,, Y p, Y p+1,, Y n ), Ŷ = (Y 1,, Y q, Y q+1,, Y p, 0,, 0), Ŷ 0 = (Y 1,, Y q, 0,, 0, 0,, 0) Ŷ 0, Ŷ Ŷ0, Y Ŷ są wzajemnie prostopadłe Z twierdzenia Pitagorasa wynikają tożsamości Ŷ 2 + Y Ŷ 2 = Y 2 oraz Wprowadźmy oznaczenia Ŷ Ŷ0 2 + Y Ŷ 2 = Y Ŷ0 2 RSS = Y Ŷ 2, RSS 0 = Y Ŷ0 2 Wiemy, że RSS = ε 2 p ε 2 n (przy założeniu, że model jest poprawny) Jeśli że H 0 jest prawdziwa (czyli model w istocie zawiera tylko q zmiennych x) to mamy analogicznie RSS 0 = ε 2 q ε 2 p + + ε 2 n Stąd wyciągamy wniosek, pozwalający na skonstruowanie testu H 0 :

20 148 ROZDZIAŁ 9 MODELE REGRESJI 931 Wniosek Przy prawdziwości H 0, statystyka F = (RSS 0 RSS)/(p q) RSS/(n p) ma rozkład F(p q, n p) (rozkład Fishera-Snedecora z p q stopniami swobody w liczniku i p stopniami swobody w mianowniku) Warto zauważyć, że ten test jest niczym innym jak testem ilorazu wiarogodności dla hipotez złożonych W istocie, wiarogodność jest dana wzorem ( ) n ( 1 L(β, σ) = exp 1 ) (Yi x 2πσ 2σ 2 i β) 2 ( σ n exp 1 ) Y Xβ 2, 2σ2 więc l(β, σ) = n log σ 1 2σ 2 Y Xβ 2 + const Ponieważ MLE(σ) = ˆσ = RSS/n, więc l( ˆβ, ˆσ) = n log RSS + const Analogicznie, dla mniejszego modelu otrzymujemy estymator z ograniczeniami MLE 0 (σ) = ˆσ 0 = RSS 0 /n W rezultacie, l( ˆβ, ˆσ) l( ˆβ 0, ˆσ 0 ) = n log RSS 0 RSS Statystyka F jest rosnącą funkcją obliczonej powyżej statystyki ilorazu wiarogodności Uwaga (Ogólne hipotezy liniowe) Skoncentrowaliśmy się na zagadnieniu testowania hipotezy H 0 : (β q+1,, β p ) = (0,, 0) po pierwsze dlatego, że to jest ważne w zastosowaniach: chcemy wyeliminować niepotrzebne zmienne i uprościć model Po drugie, macierz Q w Stwierdzeniu 928 daje ortogonalny układ współrzędnych idealnie pasujący do tej postaci hipotez Oczywiście, należy wpierw ustawić zmienne objaśniające w odpowiedniej kolejności, zaczynając numerację od tych, które wydają się ważniejsze a kończąc na tych, które podejrzewamy o bycie zbędnymi Co więcej, cała teoria bez zmian stosuje się do ogólnych hipotez liniowych postaci H 0 : Cβ = 0, gdzie C jest macierzą (p q) p pełnego rzędu Taka hipoteza stwierdza, że β należy do podprzestrzeni liniowej wymiaru q Wektor Ŷ0 jest rzutem ortogonalnym na {y : y = Xβ, Cβ = 0} i definiujemy, tak jak poprzednio, RSS 0 = Y Ŷ0 2 Wniosek 931 pozostaje prawdziwy

21 93 TESTOWANIE HIPOTEZ 149 Uwaga (Test t i test F) Rozumowanie uzasadniające Wniosek 9211 można wykorzystać do konstrukcji testu hipotezy H 0 : β j = 0 Używamy statystyki testowej Studenta, T = ˆβ j d j S, d j = (X X) 1 jj i odrzucamy H 0 jeśli T > t Jeśli H 0 jest prawdziwa, to T t(n p), więc próg odrzuceń jest odpowiednim kwantylem rozkładu t-studenta, t = t 1 α/2 (n p) (zamiast ustalać próg, możemy obliczać P -wartości testu) Z drugiej strony, H 0 : β p = 0 jest szczególnym przypadkiem hipotezy rozpatrywanej we Wniosku 931 i może być użyty test F Jeśli H 0 jest prawdziwa, to F F(1, n p) Zamiast p możemy wziąć dowolne j, zmieniając porządek współczynników Oba testy, t i F, są równoważne, bo T 2 = F (Zadanie 98) Test t ma tę przewagę, że nadaje się do testowania H 0 przeciw alternatywie jednostronnej, powiedzmy H 1 : β j > 0, podczas gdy F jest dostosowany do alternatywy dwustronnej H 1 : β j 0 Analiza wariancji Rozważmy zagadnienie porównywania kilku próbek Chodzi o sprawdzenie, czy wszystkie pochodzą z tej samej populacji, czy też z populacji o różnych średnich Najprostszy model zakłada, że mamy p niezależnych próbek z rozkładów normalnych: próbka 1: Y 11,, Y 1n1 N(µ 1, σ 2 ); próbka j: Y j1,, Y jnj N(µ j, σ 2 ); próbka p: Y p1,, Y pnp N(µ p, σ 2 ) Zakłada się przy tym, że w poszczególnych próbkach wariancja σ 2 jest jednakowa, natomiast wartości średnie µ j mogą być różne Jest to szczególny przypadek modelu liniowego W rzeczy samej, napiszmy Y ji = µ 1 + α j + ε ji, gdzie α j = µ j µ 1 dla j = 1,, p oraz ε ji = Y ji µ j Oczywiście, ε ji N(0, σ 2 ) są niezależnymi zmiennymi losowymi Wprowadźmy sztuczne, nieme zmienne objaśniające x 1,, x p Przyjmiemy umownie, że dla obserwacji z j-tej próbki mamy x 1 = 1, x j = 1, zaś wszystkie inne zmienne x-owe są zerami Obrazuje to taka tabelka:

22 150 ROZDZIAŁ 9 MODELE REGRESJI próbka \ zmienne x 1 x 2 x p p Niech Y oznacza długi wektor o n = p j=1 n j współrzędnych, powstały przez ustawienie kolejnych próbek jedna nad drugą Podobnie określamy wektor błędów ε Nieme zmienne umieścimy w macierzy X Model możemy napisać w postaci macierzowej tak: Y ε 11 Y 1n ε 1n1 Y ε 21 µ 1 Y 2n2 = α 2 + ε 2n2, a w skrócie Y p1 Y pnp α p Y = X β + ε n 1 n p p 1 n 1 gdzie β = (µ 1, α 2,, α p ) Zauważmy, że w tym modelu µ 1 odgrywa rolę wyrazu wolnego Można sobie wyobrazić, że średnią µ 1 traktujemy jako poziom bazowy zaś pozostałe parametry uznajemy za odchylenia od poziomu bazowego Hipoteza H 0 : α 2 = = α p = 0 sprowadza się do stwierdzenia, że wszystkie próbki pochodzą z tego samego rozkładu Alternatywa jest bardzo ogólna: H 1 : nie jest prawdą, że α 2 = = α p = 0 (czyli nie wszystkie średnie µ j są jednakowe) Statystyka testowa F wyprowadzona w ogólnej sytuacji we Wniosku 931 przybiera dla modelu wielu próbek szczególnie prostą postać Niech ε p1 ε pnp Ȳ j = 1 n j n j i=1 Y ji

23 93 TESTOWANIE HIPOTEZ 151 będzie średnią w j-tej grupie, zaś Ȳ = 1 n n p j Y ji = 1 n j=1 i=1 p n j Ȳ j j=1 oznacza średnią globalną, obliczoną z połączonych próbek Wprowadźmy oznaczenia TSS = n p j (Y ji Ȳ )2, BSS = j=1 i=1 p n j (Ȳj Ȳ )2, j=1 WSS = n p j (Y ji Ȳj) 2 j=1 i=1 Te skróty są związane ze specyfiką modelu kilku próbek: TSS jest całkowitą sumą kwadratów (ang Total Sum of Squares ) BSS jest sumą kwadratów pomiędzy próbkami (ang Between ), zaś WSS jest sumą kwadratów wewnątrz próbek (ang Within ) Rozpatrujemy tylko szczególny przypadek ogólnego modelu liniowego Łatwo zauważyć związek naszych nowych oznaczeń z używanymi poprzednio Mamy Stąd Ŷ 0 = (Ȳ }, {{, Ȳ ), } n Ŷ = (Ȳ1,, }{{ Ȳ1,, } Ȳp,, Ȳp) }{{} n 1 n p TSS = Y Ŷ0 2, BSS = Ŷ Ŷ0 2, WSS = RSS = Y Ŷ 2 Otrzymujemy podstawową tożsamość analizy wariancji: TSS = BSS + WSS Wiemy również, że WSS χ 2 (n p) Przy założeniu prawdziwości H 0 mamy BSS χ 2 (p 1) Statystyka testowa przyjmuje postać F = BSS/(p 1) WSS/(n p) Hipotezę H 0 odrzucamy, jeśli F > F 1 α (p 1, n p) W praktyce, zamiast ustalać próg odrzuceń, podaje się P -wartość testu Intuicyjny sens statystyki F wydaje się przy tym zrozumiały niezależnie od formalnej konstrukcji testu Zwięzłym podsumowaniem obliczeń jest tak zwan tabelka analizy wariancji (ANOVA) dla modelu p próbek:

24 152 ROZDZIAŁ 9 MODELE REGRESJI Źródło zmienności Sumy kwadratów Stopnie swobody Średnie kwadraty Statystyka między próbkami BSS p 1 BSS/(p 1) F wewnątrz próbek WSS n p WSS/(n p) razem TSS n 1 TSS/(n 1) Uwaga Opisany powyżej sposób zakodowania modelu kilku próbek nie jest najbardziej naturalny Możnaby zdefiniować nieme zmienne objaśniające x 1,, x p inaczej, według takiej tabelki: próbka \ zmienne x 1 x 2 x p p Odpowiada to przyjęciu, że dla obserwacji z j-tej próbki mamy, x j = 1 i wszystkie inne zmienne x-owe są zerami Wtedy w roli wektora współczynników mielibyśmy po prostu wektor średnich w próbkach: β = (µ 1,, µ p ) Interesującą nas hipotezę napisalibyśmy w postaci H 0 : µ 1 = = µ p Nietrudno zauważyć, że oba sposoby kodowania są całkowicie równoważne 932 Przykład Rozważmy trzech klientów towarzystwa ubezpieczeniowego Powiedzmy, że są to firmy wynajmujące samochody Wyobraźmy sobie, że roczne sumy szkód są takie: Lata: średnie indywidualne 1 firma firma firma Średnia globalna jest równa (7/18) 13 + (5/18) 10 + (6/18) 14 = 125 Chcemy sprawdzić, czy wysokości szkód w trzech firmach są istotnie różne Całkiem heurystycznie, możemy wizualnie porównać nasze trzy próbki przy pomocy wykresów pudełkowych Rezultat widoczny jest na rysunku Wydaje się, że różnice pomiędzy rozkładami szkód (średnimi) dla trzech firm są dość wyraźne Formalny test prowadzi do przeciwnego wniosku Testujemy hipotezę zerową: wartości oczekiwane wszystkich trzech próbek są równe Oto tabelka analizy wariancji:

25 93 TESTOWANIE HIPOTEZ Rysunek 93: Wykresy pudełkowe dla 3 próbek w Przykładzie 932

26 154 ROZDZIAŁ 9 MODELE REGRESJI Źródło zmienności Sumy kwadratów Stopnie swobody Średnie kwadraty Statystyka między próbkami F = 196 wewnątrz próbek razem Test F na poziomie istotności α = 005 nie odrzuca hipotezy zerowej, bo F 095 (2, 15) = 369 > 196 (odpowiedni kwantyl został odczytany z tablicy rozkładu Snedecora) Możemy przypuszczać, że wysokość zgłaszanych w przyszłości szkód będzie podobna dla wszystkich trzech firm Nasze dane nie dają dostatecznych podstaw, by zwątpić w to przypuszczenie Dodajmy jeszcze komentarz na temat założeń, które są wymagane przy stosowaniu testu F Możemy dość spokojnie przyjąć, że sumaryczne (lub średnie) szkody w kolejnych latach są zmiennymi losowymi o rozkładzie zbliżonym do normalnego To jest pierwsze z podstawowych założeń modelu Gorzej jest z drugim założeniem: o równości wariancji poszczególnych próbek Jest ono uzasadnione właściwie tylko wtedy, gdy liczba ubezpieczonych samochodów dla trzech firm (i dla kolejnych lat) jest w przybliżeniu równa Hipoteza o braku zależności Wróćmy do liniowej regresji wielorakiej z wyrazem wolnym Wektor współczynników zapisujemy w tej sytuacji jako (β 0, β 1,, β r ), gdzie r + 1 = p Jeśli znikają wszystkie współczynniki funkcji regresji z wyjątkiem wyrazu wolnego, to wartości zmiennej Y nie są powiązane z wartościami zmiennych objaśniających x Ważną kwestią jest więc weryfikacja hipotezy H 0 : β 1 = = β r = 0 przeciw H 1 : β 1 0 lub lub β r 0 W istocie, gdy nie ma podstaw do odrzucenia H 0, to model traci swoją użyteczność Jest to tylko szczególny przypadek zagadnienia testowania hipotezy liniowej i możemy skorzystać z ogólnych wyników Trzeba tylko uważnie liczyć stopnie swobody Oprócz używanego już oznaczenia n RSS = (Y i Ŷi) 2, wprowadźmy nowe nazwy sum kwadratów: n TSS = (Y i Ȳ )2, ESS = i=1 i=1 n (Ŷi Ȳ )2 TSS nazywamy całkowitą sumą kwadratów, zaś ESS sumą kwadratów związana z regresją (ang Sum of Squares, Regression ) Zauważmy, że (Ȳ,, Ȳ ) jest predykcją przy założeniu H 0, a (Ŷ1,, Ŷi) jest predykcją w dużym modelu z r + 1 współczynnikami Stąd natychmiast wynika tożsamość analizy wariancji, TSS = ESS + RSS i=1

27 93 TESTOWANIE HIPOTEZ 155 Tę równość interpretuje się w taki sposób: całkowita zmienność Y = zmienność wyjaśniona regresją + zmienność resztowa Pozostawimy Czytelnikowi wytłumaczenie intuicji stojących za tą sugestywną terminologią Współczynnikiem dopasowania nazywamy R 2 = ESS TSS = 1 RSS TSS Zgodnie z przytoczoną wyżej interpretacją, R 2 jest częścią zmienności, wyjaśnioną przez regresję Zazwyczaj współczynnik dopasowania wyraża się w procentach Im większe R 2, tym lepiej (estymowana) prosta regresji pasuje do punktów doświadczalnych stąd nazwa Z ogólnej teorii wynika, że RSS χ 2 (n r 1) Przy założeniu prawdziwości H 0 mamy ESS χ 2 (r) Statystyka testu Snedecora jest następująca F = ESS/r RSS/(n r 1) Hipotezę H 0 odrzucamy, jeśli F > F 1 α (r, n r 1) lub, równoważnie, jeśli P -wartość testu jest poniżej α Tabelka analizy wariancji przybiera postać: Źródło zmienności Sumy kwadratów Stopnie swobody Średnie kwadraty Statystyka regresja ESS r ESS/r F błąd RSS n r 1 RSS/(n r 1) razem TSS n 1 TSS/(n 1) Wartości statystyki F interpretuje się jako wskaźnik istotnej zależności zmiennej Y od zmiennych x 1,, x r Mówi się w żargonie statystycznym, że zależność jest istotna na poziomie α, jeśli test F na tym poziomie istotności odrzuca hipotezę o braku zależności

28 156 ROZDZIAŁ 9 MODELE REGRESJI 94 Zadania Zadania dotyczące modelu z jedną zmienną objaśniającą (prosta regresja liniowa) 91 W celu zbadania zależności pomiędzy liczbą urodzonych wiosną dzieci (cecha Y ) a liczbą bocianów (cecha x) zebrano wyniki ze 100 miejscowości Otrzymano następujące wyniki n i=1 x i 200 n i=1 x2 i 1400 n i=1 Y i 1000 n i=1 x iy i 7000 Wyznaczyć estymatory współczynników prostej regresji liniowej z wyrazem wolnym traktując liczbę dzieci jako zmienna zależną (objaśnianą) 92 Wyprowadzić wzory (921) na ˆβ 0 i ˆβ 1 93 Wyprowadzić bezpośrednio wzory na Var ˆβ 1 i Var ˆβ 0 94 Pokazać, że zmienne losowe Ȳ i ˆβ 1 są niezależne 95 Wyprowadzić bezpośrednio wzory na VarŶ i Var(Y Ŷ ) Wskazówka: Skorzystać z poprzednich zadań 96 Udowodnić bezpośredno (nie korzystając z geometrycznych rozważań w przestrzeni R n ) podstawową tożsamość analizy wariancji: (Yi Ȳ )2 = (Ŷi Ȳ )2 + (Y i Ŷi) 2 97 Współczynnik korelacji 4 R określamy wzorem (xi x)(y i R = Ȳ ) (xi x) 2 (Y i Ȳ )2 Pokazać, że kwadrat współczynnika korelacji jest współczynnikiem dopasowania 98 Udowodnić fakt sformułowany w Uwadze 93: T 2 = F Pokazać, że test F odrzuca H 0 : β 1 = 0 (na poziomie istotności α) wtedy i tylko wtedy, gdy przedział ufności dla β 1 (na poziomie 1 α) nie zawiera zera 99 Wyprowadzić wzory na estymatory największej wiarogodności w modelu prostej regresji liniowej bez wyrazu wolnego, Y i = βx i + ε i, (i = 1,, n), przyjmując Założenie Związek R z pojęciem korelacji zmiennych losowych staje się jasny, gdy rozpatrujemy model z losową zmienną objaśniającą W modelu z deterministycznym x, przyjmijmy po prostu, że tak się mówi

29 94 ZADANIA 157 Następujące zadania dotyczą analizy wariancji w modelu kilku próbek 910 Uzasadnić elementarnie, bez odwoływania się do geometrii przestrzeni R n, następujące fakty 1 Wyprowadzić tożsamość analizy wariancji : TSS = BSS + WSS 2 Wykazać, że WSS/σ 2 χ 2 (n r), niezależnie od tego, czy H 0 jest prawdziwa, czy nie 3 Wykazać, że BSS/σ 2 χ 2 (r 1), przy założeniu, że H 0 jest prawdziwa Wskazówka: Skorzystać ze Stwierdzenia Pokazać, że statystyka F testu analizy wariancji jest równoważna statystyce ilorazu wiarogodności dla modeli zagnieżdżonych (Punkt 831 w Podrozdziale 83) Wskazówka: Bardzo podobne rozważania przeprowadziliśmy w Przykładzie Wykazać, że dwupróbkowy test Studenta 722 w wersji z dwustronną alternatywą jest równoważny testowi analizy wariancjidla k = 2 Dokładniej, statystyka F jest kwadratem statystyki t i odpowiednie kwantyle są związane relacją F 1 α (1, n 2) = t 1 α/2 (n 2) Następujące zadania dotyczą innych kwestii związanych z modelem liniowym 913 Niech obserwacje Y 1,, Y n będą niezależnymi zmiennymi losowymi takimi, że Y i ma rozkład normalny N(β 0, σ 2 ) dla i = 1,, n oraz N(β 0 + β 1, σ 2 ) dla i = n + 1, 2n Zakładamy, że β 0, β 1, σ są nieznanymi parametrami 1 Podać estymator największej wiarogodności parametrów β 0, β 1 2 Podać estymator największej wiarogodności parametru σ 2 Uwaga: Podać wzory nie zawierające działań na wektorach i macierzach (wraz z uzasadnieniem tych wzorów) 914 Zakładamy (błędnie), że badane przez nas zjawisko opisuje model regresji liniowej dany równaniem: Y = X 1 β 1 + ε, gdzie Y to wektor obserwacji zmiennej objaśnianej, X 1 to macierz obserwacji zmiennych objaśniających, a β 1 jest wektorem nieznanych parametrów Oznaczmy przez ˆβ 1 estymator β 1 uzyskany metodą najmniejszych kwadratów w tym modelu W rzeczywistości, badane zjawisko opisuje prawdziwie model regresji liniowej z dodatkowymi zmiennymi objaniającymi X 2, dany równaniem: Y = X 1 β 1 + X 2 β 2 + ε Wektor błędów losowych ε ma zerową wartość oczekiwaną i macierz wariancji-kowariancji równą σ 2 I 1 Obliczyć obciążenie estymatora ˆβ 1, czyli wielkość E ˆβ 1 β 1, biorąc pod uwagę prawdziwy mechanizm generowania zmiennej objaśnianej Y 2 Obliczyć macierz wariancji-kowariancji estymatora ˆβ 1

30 158 ROZDZIAŁ 9 MODELE REGRESJI

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych round Testowanie hipotez statystycznych Wyk lad 9 Natalia Nehrebecka Stanis law Cichocki 13 grudnia 2014 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Wyk lad 8 Natalia Nehrebecka Stanis law Cichocki 29 listopada 2015 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Statystyczna analiza danych 1

Statystyczna analiza danych 1 Statystyczna analiza danych 1 Regresja liniowa 1 Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski Ewa Szczurek Regresja liniowa 1 1 / 41 Dane: wpływ reklam produktu na sprzedaż

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Wyk lad 9 Natalia Nehrebecka Stanis law Cichocki 28 listopada 2018 Plan zaj eć 1 Rozk lad estymatora b 2 3 dla parametrów 4 Hipotezy l aczne - test F 5 Dodatkowe za lożenie

Bardziej szczegółowo

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić). Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

Estymacja parametrów w modelu normalnym

Estymacja parametrów w modelu normalnym Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia

Bardziej szczegółowo

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model

Bardziej szczegółowo

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

1.1 Klasyczny Model Regresji Liniowej

1.1 Klasyczny Model Regresji Liniowej 1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między

Bardziej szczegółowo

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza zależności cech ilościowych regresja liniowa (Wykład 13) Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Elementy statystyki STA - Wykład 5

Elementy statystyki STA - Wykład 5 STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 ANOVA 2 Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie

Bardziej szczegółowo

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Anna Gambin 19 maja 2013 Spis treści 1 Przykład: Model liniowy dla ekspresji genów 1 2 Jednoczynnikowa analiza wariancji 3 2.1 Testy

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych r.

Matematyka ubezpieczeń majątkowych r. Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład VIII: Przestrzenie statystyczne. Estymatory 1 grudnia 2014 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji r(x, Z) = 0, 986 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji

Bardziej szczegółowo

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:

Bardziej szczegółowo

Wykład 5 Teoria eksperymentu

Wykład 5 Teoria eksperymentu Wykład 5 Teoria eksperymentu Wrocław, 22.03.2017r Co to jest teoria eksperymentu? eksperyment - badanie jakiegoś zjawiska polegające na celowym wywołaniu tego zjawiska lub jego zmian oraz obserwacji i

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer

Bardziej szczegółowo

Analiza wariancji i kowariancji

Analiza wariancji i kowariancji Analiza wariancji i kowariancji Historia Analiza wariancji jest metodą zaproponowaną przez Ronalda A. Fishera. Po zakończeniu pierwszej wojny światowej był on pracownikiem laboratorium statystycznego w

Bardziej szczegółowo

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń 1. Problem ozwaŝamy zjawisko (model): Y = β 1 X 1 X +...+ β k X k +Z Ηβ = w r Hipoteza alternatywna: Ηβ w r

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy

Bardziej szczegółowo

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora. imię, nazwisko, nr indeksu: Ekonometria egzamin 01/02/2019 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas: ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań

Bardziej szczegółowo

Statystyczna analiza danych (molekularnych) modele liniowe

Statystyczna analiza danych (molekularnych) modele liniowe Statystyczna analiza danych (molekularnych) modele liniowe Anna Gambin 14 kwietnia 2012 Spis treści 1 Analiza regresji 1 1.1 Historia..................................... 2 2 Modele liniowe 2 3 Estymacja

Bardziej szczegółowo

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory; Wykłady 8 i 9 Pojęcia przestrzeni wektorowej i macierzy Układy równań liniowych Elementy algebry macierzy dodawanie, odejmowanie, mnożenie macierzy; macierz odwrotna dr Mariusz Grządziel 15,29 kwietnia

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne.

Bardziej szczegółowo

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna

Bardziej szczegółowo

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym. Hipotezy proste Zadanie 1. Niech X ma funkcję gęstości f a (x) = (1 + a)x a, dla 0 < x < 1, Testujemy H 0 : a = 1 przeciwko H 1 : a = 2. Dysponujemy pojedynczą obserwacją X. Wyznaczyć obszar krytyczny

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład X, 9.05.206 TESTOWANIE HIPOTEZ STATYSTYCZNYCH II: PORÓWNYWANIE TESTÓW Plan na dzisiaj 0. Przypomnienie potrzebnych definicji. Porównywanie testów 2. Test jednostajnie

Bardziej szczegółowo

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki WYKŁAD 6 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Własności Wariancji Przypomnijmy, że VarX = E(X EX) 2 = EX 2 (EX) 2. Własności

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Metoda największej wiarogodności

Metoda największej wiarogodności Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm

Bardziej szczegółowo

Układy równań liniowych

Układy równań liniowych Układy równań liniowych Niech K będzie ciałem. Niech n, m N. Równanie liniowe nad ciałem K z niewiadomymi (lub zmiennymi) x 1, x 2,..., x n K definiujemy jako formę zdaniową zmiennej (x 1,..., x n ) K

Bardziej szczegółowo

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0 Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q

Bardziej szczegółowo

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 3 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.hedonic.dta przygotuj model oszacowujący wartość kosztów zewnętrznych rolnictwa 1. Przeprowadź regresję objaśniającą

Bardziej szczegółowo

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Ćwiczenia nr 3 Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 3 Własności składnika losowego 1 / 18 Agenda KMNK przypomnienie 1 KMNK przypomnienie 2 3 4 Jakub Mućk

Bardziej szczegółowo

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Hipotezy statystyczne

Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej próbki losowej. Hipotezy

Bardziej szczegółowo

Macierze. Rozdział Działania na macierzach

Macierze. Rozdział Działania na macierzach Rozdział 5 Macierze Funkcję, która każdej parze liczb naturalnych (i, j) (i 1,..., n; j 1,..., m) przyporządkowuje dokładnie jedną liczbę a ij F, gdzie F R lub F C, nazywamy macierzą (rzeczywistą, gdy

Bardziej szczegółowo

Hipotezy statystyczne

Hipotezy statystyczne Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo