Estymacja parametrów w modelu normalnym

Podobne dokumenty
7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

Wykład 15. Metody nieparametryczne. Elementy analizy wielowymiarowej Weryfikacja założenia o normalności rozkładu populacji

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Testowanie hipotez statystycznych.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych.

Przedmiot statystyki. Graficzne przedstawienie danych.

Statystyka opisowa- cd.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Centralne twierdzenie graniczne

Wykłady 14 i 15. Zmienne losowe typu ciągłego

Rozkłady statystyk z próby

Wykład 7 Testowanie zgodności z rozkładem normalnym

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

1 Estymacja przedziałowa

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Wykład 3. Rozkład normalny

Kolokwium ze statystyki matematycznej

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Wykład 13. Zmienne losowe typu ciągłego

Dyskretne zmienne losowe

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Ważne rozkłady i twierdzenia c.d.

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Estymacja punktowa i przedziałowa

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

1 Podstawy rachunku prawdopodobieństwa

Testowanie hipotez statystycznych

Wykład 9 Wnioskowanie o średnich

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Statystyka matematyczna dla leśników

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wykład 9 Testy rangowe w problemie dwóch prób

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Testowanie hipotez statystycznych.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Metody Statystyczne. Metody Statystyczne.

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Wykład 10: Elementy statystyki

Wykład 11: Podstawowe pojęcia rachunku prawdopodobieństwa

Pobieranie prób i rozkład z próby

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Przedziały ufności. Poziom istotności = α (zwykle 0.05) Poziom ufności = 1 α Przedział ufności dla parametru μ = taki przedział [a,b], dla którego

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Zmienne losowe ciągłe i ich rozkłady

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Testowanie hipotez statystycznych cd.

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Statystyka w przykładach

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

WYKŁAD 5 TEORIA ESTYMACJI II

Dokładne i graniczne rozkłady statystyk z próby

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

Wykład 10 Testy jednorodności rozkładów

Zmienne losowe ciągłe i ich rozkłady

Analizy wariancji ANOVA (analysis of variance)

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Wnioskowanie statystyczne. Statystyka w 5

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Transkrypt:

Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia Granicznego wynika, że wiele zjawisk i procesów opisywanych przez nauki ekonomiczne i przyrodnicze ma rozkład zbliżony do rozkładu normalnego. Pojęcie losowej próby prostej Definicja 1. n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach prawdopodobieństwa. Uwaga 1. Niektórzy autorzy utożsamiaja losowa próbę prosta X 1, X 2,..., X n z jej realizacja x 1, x 2,..., x n ; x 1 jest realizacja X 1 itd. Definicja 2. Losowa próbę prosta X 1, X 2,..., X n będziemy nazywać losowa próba prosta z rozkładu normalnego, jeżeli zmienne X k, k = 1, 2,..., n maja rozkład N(µ, σ) dla pewnych µ R, σ > 0. Uwaga 2. W dalszym ciagu rozważań: estymacja w modelu normalnym będzie pojęciem równoważnym dla wyznaczania estymatorów parametrów µ R i σ > 0 na podstawie losowej próby prostej z rozkładu normalnego. Rozkład cen mieszkań Można oczekiwać, że rozkład cen domów w dzielnicach które nie pretendują do miana prestiżowych czy luksusowych będzie zbliżony do normalnego N(µ, σ); (cena mieszkania jest wtedy sumą niezależnych składników). Rozważmy dane dotyczące cen mieszkań w dzielnicy A (dzielnica A jest zdecydowanie mniej prestiżowa niż B) można założyć, że rozkład cen mieszkań w A będzie zbliżony do normalnego. Średnia w próbie Zakładamy, że nasze dane x 1,..., x n są realizacją losowej próby prostej z rozkładu normalnego X 1,..., X n ; sensownym estymatorem µ jest X : X = 1 n (X 1,..., X n ). Dla konkretnej realizacji x 1,..., x n losowej próby losowej X 1,..., X n z rozkładu normalnego realizacja X jest oznaczana symbolem x 1

Własności zmiennej losowej X w modelu normalnym Zakładamy, że X 1,..., X n są próbą prostą z rozkładu normalnego, X i N(µ, σ), i = 1, 2,..., n. X = 1 n (X 1,..., X n ) jest zmienną losową. Funkcje próby prostej nazywane są statystykami. Z własności wartości oczekiwanej, omawianych na jednym z poprzednich wykładów: E( X) = µ, a więc X jest nieobciążonym estymatorem µ. W modelu normalnym spełnia pewne istotne kryteria optymalności w pewnym sensie jest najlepszym esymatorem nieobciążonym µ. Estymacja σ i σ 2 w modelu normalnym Wariancja z próby S 2 określona przez 1 n 1 n (X i X) 2 i=1 jest estymatorem nieobciążonym σ 2 w modelu normalnym, spełniającym pewne ważne kryteria optymalności; w pewnym sensie jest najlepszym esymatorem nieobciążonym σ 2. 1 Odchylenie standardowe z próby S = n 1 (Xi X) 2 jest sensownym estymatorem σ, ale nie ma (z reguły) własności nieobciążoności. Przypadek, gdy próba pochodzi z rozkładu innego normalny Załóżmy, że X 1, X 2,..., X n pochodzi z rozkładu o wartości oczekiwanej µ i odchyleniu standardowym σ (niekoniecznie normalnego). Można pokazać, że E X = µ, E(S 2 ) = σ 2, tj. że średnia z próby X jest nieobciążonym (niestronniczym) estymatorem µ i wariancja z próby S 2 jest nieobciążonym estymatorem σ 2 (por. Koronacki, Mielniczuk, Rozdz. 2.4). Dane dotyczace cen mieszkań w A histogram+krzywa normalna Weryfikacja założenia o normalności rozkładu populacji Dane są obserwacje x 1, x 2,..., x n. Czy można założyć, że x 1, x 2,..., x n jest realizacją próby prostej z rozkładu normalnego N(µ, σ) dla pewnych µ i σ? Metody weryfikacji założenia o normalności: Sporządzenie histogramu i porówanie jego kształtu z krzywą dzwonową (wykresem funkcji φ.) Sporządzenie wykresu ramkowego i odpowiednia jego interpretacja Sporządzenie wykresu kwantylowego i odpowiednia jego interpretacja. Testy zgodości: Shapiro Wilka i inne. Trzy z powyższych metod wykorzystują pojecie kwantyla. 2

0.000 0.002 0.004 0.006 50 100 150 200 250 300 350 Rysunek 1: Histogram probabilistyczny+ wykres gęstości N( x, s). Kwantyle rozkładu normalnego przykład Załóżmy, że Y, wzrost dorosłych mężczyzn w kraju A ma rozkład normalny N(176, 8). Chcemy znaleźć liczbę d taką, że P (Y < d) = 0,99. Znajomość liczby d może być przydatna dla inżynierów sporządzających projekty budowlane itd. Zadanie ogólniejsze: dla liczby p (0, 1) kwantylem rzędu p rozkładu normalnego N(µ, σ) nazywamy liczbę q p spełniającą równość: P (X < q p ) = qp φ µ,σ (x)dx = p, gdzie X N(µ, σ). Dla innych rozkładów ciągłych kwantyle definiujemy analogicznie. Obliczanie kwantyli rozkładu normalnego Korzystając z tablic rozkładu N(0, 1) : ponieważ P (X < q p ) = P (Z < q p µ σ ) = Φ( q p µ ), σ gdzie X N(µ, σ), Z N(0, 1), więc zadanie sprowadza się do znalezienia przybliżonej wartości c 0 rozwiązania równania Φ(c) = p oraz do wyznaczenia przybliżonej wartości q p jako rozwiązania równania: x µ σ = c 0. Korzystając z R-a: należy użyć poleca qnorm z odpowiednimi parametrami; w Excelu: należy skorzystać z polecenia ROZKŁAD.NORMALNY.ODW. Kwantyle rozkładu normalnego przykład (c.d.) Y, wzrost dorosłych mężczyzn w kraju A ma rozkład normalny N(176, 8); Równanie Φ(c) = 0,99 ma przybliżone rozwiązanie c 0 = 2,33 (bo Φ(2,32) 0,9898 i 3

Φ(2,32) 0,9901); przybliżona wartość szukanego kwantyla jest rozwiązaniem równania: x 176 = 2,33 8 stąd przybliżona wartość kwantyla rzędu 0,99 rozkładu N(176, 8) wynosi 176+2,33 8 = 194,64. Korzystając z R-a: > qnorm(0.99,176,8) [1] 194.6108 Wykres ramkowy i założenie normalności rozkładu Można pokazać że poza przedziałem: [q 0,25 1,5 (q 0,75 q 0,25 ), q 0,75 + 1,5 (q 0,75 q 0,25 )] leży średnio 7 obserwacji na 1000, (jeśli zakładamy, że obserwacje te stanowią realizację próby prostej z rozkładu N(µ, σ) (por. książkę J. Koronackiego i J. Mielniczuka, par. 1.4.2). Zbyt duża liczba obserwacji odstających wskazuje na to, że założenie normalności rozkładu nie jest spełnione. Jeśli obserwacje pochodzą z rozkładu normalnego, to odpowiadający im wykres ramkowy będzie w przybliżeniu symetryczny względem odcinka "wewnątrz ramki" (który odpowiada medianie). 150 160 170 180 190 200 p1 p2 Rysunek 2: Wykresy pudełkowe dla dwóch prób o liczności n = 1000, wygenerowanych przy pomocy generatora liczb pseudolosowych o rozkładzie N(176, 8) Wykres kwantylowy Uporządkowany ciąg obserwacji x 1,..., x n oznaczamy przez x 1:n,..., x n:n. Niech x 1:n = x 1:n m s,..., x n:n = x n:n m, s gdzie m onacza średnią z próby, a s odchylenie standardowe z próby. Jeśli założymy, że x 1,..., x n pochodzą z rozkładu normalnego, to x 1:n, x 2:n,..., powinny być 4

sensownymi przybliżeniami kwantyli q 1/n, q 2/n,... (rzędu 1 n, rzędu 2 n itd.) rozkładu N(0, 1); stąd punkty (x 1:n, q 1/n ), (x 2:n, q 2/n ) powinny się układać wokół (pewnej) prostej ; analogicznie punkty: (x 1:n, q 1/n ), (x 2:n, q 2/n ),... (1) również powinny się układać wokół prostej.wykres przedstawiający punkty (1) jest nazywany wykresem kwantylowym. W praktyce zamiast kwantyli rzędu i/n wyznacza się np. kwantyle rzędu i/(n + 1); w ten sposób unikamy problemu z n-tym punktem! Wykres kwantylowy odbiegający od prostej : założenie o normalności rozkładu, z którego pochodzą x 1,..., x n, należy odrzucić. Szczegóły dotyczące sprządzania rozkładu kwantylowego można znaleźć w [KM01,par.3.4.2]. Ceny mieszkań w A 2 1 0 1 2 100 150 200 250 300 350 Rysunek 3: Wykres kwantylowy dla danych dotyczących cen mieszkań w A Test Shapiro Wilka i inne testy zgodności Zgodność z rozkładem normalnym można weryfikować za pomocą testu Shapiro-Wilka; w wyniku obliczeń, wykonanych dla otrzymanych obserwacji, otrzymujemy tzw. p- wartość (ang. p-value); jeśli p-wartość jest mała, powiedzmy mniejsza niż 0,05, wtedy są podstawy do odrzucenia hipotezy o normalności rozkładu, z którego pochodzą obserwacje. Test Shapiro Wilka: przykład obliczeń W zmiennej y zapisane są wartości cen mieszkań w dzielnicy A. > y [1] 65 80 139 180 355 158 240 205 265 305 200 155 209 310 149 254 188 265 27 [20] 200 184 130 260 250 195 > shapiro.test(y) 5

Shapiro-Wilk normality test data: y W = 0.9849, p-value = 0.962 p-wartość jest równa 0,962 nie ma podstaw do odrzucenia hipotezy o zgodności z rozkładem normalnym. Więcej informacji o teście Shapiro-Wilka; [KM01,par. 3.4.2] 6