Metody probabilistyczne

Podobne dokumenty
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Centralne twierdzenie graniczne

STATYSTYKA

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Prawdopodobieństwo i statystyka

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Wykład z analizy danych: estymacja punktowa

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Dokładne i graniczne rozkłady statystyk z próby

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Metody probabilistyczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Wnioskowanie statystyczne. Statystyka w 5

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Estymacja punktowa i przedziałowa

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Testowanie hipotez statystycznych.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Rozkłady statystyk z próby. Statystyka

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Metody probabilistyczne

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Pobieranie prób i rozkład z próby

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Testowanie hipotez statystycznych.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

WYKŁAD 5 TEORIA ESTYMACJI II

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Estymacja parametrów rozkładu cechy

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Wykład z analizy danych: estymacja punktowa

Rozkłady statystyk z próby

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka matematyczna dla leśników

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

STATYSTYKA wykład 5-6

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Testowanie hipotez statystycznych. Wprowadzenie

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Ważne rozkłady i twierdzenia c.d.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

1.1 Wstęp Literatura... 1

Prawdopodobieństwo i statystyka

Spis treści 3 SPIS TREŚCI

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Komputerowa analiza danych doświadczalnych

Testowanie hipotez statystycznych

Metoda największej wiarogodności

METODY STATYSTYCZNE W BIOLOGII

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

O ŚREDNIEJ STATYSTYCZNEJ

O ŚREDNIEJ STATYSTYCZNEJ

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Własności statystyczne regresji liniowej. Wykład 4

Statystyka i eksploracja danych

Metody Statystyczne. Metody Statystyczne.

STATYSTYKA MATEMATYCZNA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Transkrypt:

Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30

Zagadnienia statystki Przeprowadzamy pewien eksperyment losowy, którego wynikiem są dane. Celem jest wyciągnięcie ogólnych wniosków na temat zbiorowości / zjawiska / procesu, z którego dane pochodzą. Wnioskowanie statystyczne jest podstawową metodologią badań w większości nauk (np. w medycynie, psychologii, ekonomii, fizyce eksperymentalnej), jak również stanowi bazę nowoczesnych metod sztucznej inteligencji (uczenie maszynowe) i analizy danych 2 / 30

Zagadnienia statystyki przykłady Sondaż wyborczy na próbie losowo wybranych osób celem oszacowania prawdziwego poparcia dla partii w całej populacji kraju Wnioskowanie o zmianach temperatury na podstawie pomiarów ze stacji pogodowych Sprawdzenie, czy istnieje zależność między danymi zjawiskami (np. palenie papierosów a zachorowalność na nowotworowy) Testowanie skuteczności nowego leku poprzez porównanie wyników próby badawczej (podajemy lek) i kontrolnej (podajemy placebo) Szacowanie czasu przejazdu po drogach na podstawie danych z GPS urządzeń mobilnych Badania marketingowe celem kierowania do konsumentów personalizowanych reklam 3 / 30

Próba i populacja Populacja (generalna) cała rozważana zbiorowość, np. wszyscy potencjalni wyborcy, wartości temperatur na całym globie, wszyscy możliwi pacjenci, itp. Próba zespół elementów wylosowany z populacji ( dane ), np. wyborcy wybrani do sondażu, wartości temperatur w stacjach pomiarowych, pacjenci wybrani do testowania leku, itp. 4 / 30

Próba i populacja Celem wnioskowania statystycznego jest wyciągnięcie wniosków o całej populacji na podstawie losowo wybranej próby 4 / 30

Próba i populacja Celem wnioskowania statystycznego jest wyciągnięcie wniosków o całej populacji na podstawie losowo wybranej próby Uwaga: Zakładamy, że próba jest reprezentatywna (każdy element populacji ma równe szanse na wejście do próby) i prosta (każdy element próby losowany niezależnie od pozostałych). 4 / 30

Populacja a rozkład prawdopodobieństwa Zwykle interesuje nas tylko konkretna cecha populacja, np. preferencje wyborcze, wysokość zarobków, temperatura, itp. 5 / 30

Populacja a rozkład prawdopodobieństwa Zwykle interesuje nas tylko konkretna cecha populacja, np. preferencje wyborcze, wysokość zarobków, temperatura, itp. 5 / 30

Populacja a rozkład prawdopodobieństwa Zwykle interesuje nas tylko konkretna cecha populacja, np. preferencje wyborcze, wysokość zarobków, temperatura, itp. 6/30 7/30 5/30 6/30 6/30 Zliczając częstości wystąpienia danej wartości cechy populację możemy traktować abstrakcyjnie jako rozkład prawdopodobieństwa cechy 5 / 30

Populacja a rozkład prawdopodobieństwa Zwykle interesuje nas tylko konkretna cecha populacja, np. preferencje wyborcze, wysokość zarobków, temperatura, itp. 6/30 7/30 5/30 6/30 6/30 Zliczając częstości wystąpienia danej wartości cechy populację możemy traktować abstrakcyjnie jako rozkład prawdopodobieństwa cechy Dla ciągłych cech modelujemy populację gęstością prawdopodobieństwa 5 / 30

Statystyka matematyczna Badaną cechę X modelujemy jako zmienną losową o pewnym rozkładzie P (na populacji) 6 / 30

Statystyka matematyczna Badaną cechę X modelujemy jako zmienną losową o pewnym rozkładzie P (na populacji) Próba o liczności n może być modelowana jako realizacje (wartości) n niezależnych zmiennych losowych o tym samym rozkładzie P X 1, X 2,..., X n 6 / 30

Statystyka matematyczna Badaną cechę X modelujemy jako zmienną losową o pewnym rozkładzie P (na populacji) Próba o liczności n może być modelowana jako realizacje (wartości) n niezależnych zmiennych losowych o tym samym rozkładzie P X 1, X 2,..., X n Obserwując próbę pochodzącą z nieznanego rozkładu P, wnioskujemy o interesujących nas własnościach tego rozkładu. 6 / 30

Rozkład empiryczny 6/30 7/30 5/30 6/30 6/30 7 / 30

Rozkład empiryczny 6/30 7/30 5/30 6/30 6/30 3/10 2/10 2/10 2/10 1/10 Rozkład empiryczny powstaje poprzez zliczenie częstości wystąpień poszczególnych wartości cechy na próbie. 7 / 30

Przykład: preferencje wyborcze Rozważmy drugą turę wyborów prezydenckich z kandydatami A i B. W populacji kandydat A ma poparcie 60%, a B 40% 8 / 30

Przykład: preferencje wyborcze Rozważmy drugą turę wyborów prezydenckich z kandydatami A i B. W populacji kandydat A ma poparcie 60%, a B 40% Niech X {0, 1} koduje poparcie kandydata A (X = 1) lub B (X = 0) 8 / 30

Przykład: preferencje wyborcze Rozważmy drugą turę wyborów prezydenckich z kandydatami A i B. W populacji kandydat A ma poparcie 60%, a B 40% Niech X {0, 1} koduje poparcie kandydata A (X = 1) lub B (X = 0) Cecha X ma więc rozkład dwupunktowy z parametrem p = 0.6 8 / 30

Przykład: preferencje wyborcze Rozważmy drugą turę wyborów prezydenckich z kandydatami A i B. W populacji kandydat A ma poparcie 60%, a B 40% Niech X {0, 1} koduje poparcie kandydata A (X = 1) lub B (X = 0) Cecha X ma więc rozkład dwupunktowy z parametrem p = 0.6 Pobraliśmy próbę n = 10 elementów otrzymując wartości: 0, 1, 0, 1, 1, 1, 0, 0, 1, 0 8 / 30

Przykład: preferencje wyborcze Rozważmy drugą turę wyborów prezydenckich z kandydatami A i B. W populacji kandydat A ma poparcie 60%, a B 40% Niech X {0, 1} koduje poparcie kandydata A (X = 1) lub B (X = 0) Cecha X ma więc rozkład dwupunktowy z parametrem p = 0.6 Pobraliśmy próbę n = 10 elementów otrzymując wartości: 0, 1, 0, 1, 1, 1, 0, 0, 1, 0 Rozkład empiryczny jest rozkładem dwupunktowym z parametrem p = 5 10 = 0.5 8 / 30

Teoria estymacji W ramach tego wykładu zajmiemy się tylko zadaniem estymacji parametrów rozkładu Teoria estymacji zajmuje się szacowaniem interesujących parametrów rozkładu na populacji na podstawie próby 9 / 30

Teoria estymacji W ramach tego wykładu zajmiemy się tylko zadaniem estymacji parametrów rozkładu Teoria estymacji zajmuje się szacowaniem interesujących parametrów rozkładu na populacji na podstawie próby Przykład: Cecha w populacji ma rozkład normalny N(µ, σ 2 ), gdzie µ i σ 2 są nieznane. Szacujemy te wartości na podstawie próby. 9 / 30

Statystyka i estymator Próba: Niezależne zmienne losowe X 1, X 2,..., X n o rozkładzie P. 10 / 30

Statystyka i estymator Próba: Niezależne zmienne losowe X 1, X 2,..., X n o rozkładzie P. Statystka Statystyką T = T (X 1, X 2,..., X n ) nazywamy dowolną funkcję próby Uwaga: statystyka jest zmienną losową, ponieważ jest funkcją zmiennych losowych! 10 / 30

Statystyka i estymator Próba: Niezależne zmienne losowe X 1, X 2,..., X n o rozkładzie P. Statystka Statystyką T = T (X 1, X 2,..., X n ) nazywamy dowolną funkcję próby Uwaga: statystyka jest zmienną losową, ponieważ jest funkcją zmiennych losowych! Estymator Estymatorem = (X 1, X 2,..., X n ) nazywamy statystykę szacującą nieznany parametr θ rozkładu P Uwaga: estymator jest zmienną losową, więc ma swój rozkład, wartość oczekiwaną, wariancję, itp. 10 / 30

Przykład: szacowanie wartości oczekiwanej Załóżmy, że chcemy oszacować wartość oczekiwaną µ = EX rozkładu zmiennej losowej X. 11 / 30

Przykład: szacowanie wartości oczekiwanej Załóżmy, że chcemy oszacować wartość oczekiwaną µ = EX rozkładu zmiennej losowej X. Rozważmy estymator parametru µ będący średnią arytmetyczną próby µ = X n = 1 n X i n 11 / 30

Przykład: szacowanie wartości oczekiwanej Załóżmy, że chcemy oszacować wartość oczekiwaną µ = EX rozkładu zmiennej losowej X. Rozważmy estymator parametru µ będący średnią arytmetyczną próby Zgodnie z prawem wielkich liczb: µ = X n = 1 n X i n X n z pr. 1 µ, a więc zwiększając wielkość próby n do nieskończoności, estymator µ zbiega do prawdziwej wartości parametru µ. 11 / 30

Zgodność estymatora Estymator parametru θ nazywamy silnie zgodnym jeśli: z pr. 1 θ Estymator nazywamy słabo zgodnym jeśli P θ Zgodność estymatora oznacza, że zbiega on do prawdziwej wartości parametru, gdy rozmiar próby n rośnie do nieskończoności 12 / 30

Zgodność estymatora Estymator parametru θ nazywamy silnie zgodnym jeśli: z pr. 1 θ Estymator nazywamy słabo zgodnym jeśli P θ Zgodność estymatora oznacza, że zbiega on do prawdziwej wartości parametru, gdy rozmiar próby n rośnie do nieskończoności Wniosek: estymator µ = X n jest silnie zgodnym estymatorem wartości oczekiwanej µ = EX. 12 / 30

Przykład: preferencje wyborcze Rozważmy drugą turę wyborów prezydenckich (kandydaci A 1 i B 0). Zmienna X {0, 1} (poparcie A) ma rozkład B(p), gdzie p = EX jest poparciem kandydata w populacji. 13 / 30

Przykład: preferencje wyborcze Rozważmy drugą turę wyborów prezydenckich (kandydaci A 1 i B 0). Zmienna X {0, 1} (poparcie A) ma rozkład B(p), gdzie p = EX jest poparciem kandydata w populacji. Estymator wartości oczekiwanej p: p = 1 n X i n = #sukcesów w próbie n jest częstością sukcesów w próbie. 13 / 30

Przykład: preferencje wyborcze Rozważmy drugą turę wyborów prezydenckich (kandydaci A 1 i B 0). Zmienna X {0, 1} (poparcie A) ma rozkład B(p), gdzie p = EX jest poparciem kandydata w populacji. Estymator wartości oczekiwanej p: p = 1 n X i n = #sukcesów w próbie n jest częstością sukcesów w próbie. p jest silnie zgodnym estymatorem parametru p. 13 / 30

Metoda momentów Estymator wartości oczekiwanej X n jest przykładem zastosowania tzw. metody momentów: Chcąc oszacować moment rozkładu m k = E(X k ), użyjmy estymatora m k będącego odpowiednim momentem rozkładu empirycznego: m k = 1 n n (zamiast wartości oczekiwanej bierzemy średnią po próbie) X k i 14 / 30

Przykład: estymator wariancji Chcemy oszacować wariancję σ 2 = D 2 (X ) rozkładu zmiennej losowej X. 15 / 30

Przykład: estymator wariancji Chcemy oszacować wariancję σ 2 = D 2 (X ) rozkładu zmiennej losowej X. Ponieważ D 2 (X ) = E(X 2 ) (EX ) 2 = m 2 m1 2, bierzemy estymator wariancji: σ 2 = m 2 m 2 1 = 1 n n X 2 i (X n ) 2 15 / 30

Przykład: estymator wariancji Chcemy oszacować wariancję σ 2 = D 2 (X ) rozkładu zmiennej losowej X. Ponieważ D 2 (X ) = E(X 2 ) (EX ) 2 = m 2 m1 2, bierzemy estymator wariancji: σ 2 = m 2 m 2 1 = 1 n n X 2 i (X n ) 2 = 1 n n (X i X n ) 2 15 / 30

Przykład: estymator wariancji Chcemy oszacować wariancję σ 2 = D 2 (X ) rozkładu zmiennej losowej X. Ponieważ D 2 (X ) = E(X 2 ) (EX ) 2 = m 2 m1 2, bierzemy estymator wariancji: σ 2 = m 2 m 2 1 = 1 n n X 2 i (X n ) 2 = 1 n n (X i X n ) 2 Zadanie 1 Uzasadnij, ostatnią równość, tzn. pokaż wzór skróconego mnożenia: 1 n n (X i X n ) 2 = 1 n n X 2 i (X n ) 2 Zwróć uwagę na analogię do E ( (X EX ) 2) = E(X 2 ) (EX ) 2, tyle że zamiast uśredniać po rozkładzie, uśredniamy po próbie. 15 / 30

Przykład: estymator wariancji Chcemy oszacować wariancję σ 2 = D 2 (X ) rozkładu zmiennej losowej X. Ponieważ D 2 (X ) = E(X 2 ) (EX ) 2 = m 2 m1 2, bierzemy estymator wariancji: σ 2 = m 2 m 2 1 = 1 n n X 2 i (X n ) 2 = 1 n n (X i X n ) 2 Zadanie 2 Pokaż, że σ 2 jest silnie zgodny poprzez dwukrotne zastosowania prawa wielkich liczb do 1 n n X 2 i oraz do X n. 15 / 30

Estymator nieobciążony Zgodność estymatora jest własnością asymptotyczną: mówi o zachowaniu estymatora tylko dla bardzo dużych prób (n ) 16 / 30

Estymator nieobciążony Zgodność estymatora jest własnością asymptotyczną: mówi o zachowaniu estymatora tylko dla bardzo dużych prób (n ) Obciążenie estymatora Obciążeniem estymatora parametru θ nazywamy różnicę między wartością oczekiwaną estymatora a nieznaną wartością parametru: E() θ 16 / 30

Estymator nieobciążony Zgodność estymatora jest własnością asymptotyczną: mówi o zachowaniu estymatora tylko dla bardzo dużych prób (n ) Obciążenie estymatora Obciążeniem estymatora parametru θ nazywamy różnicę między wartością oczekiwaną estymatora a nieznaną wartością parametru: Estymator nieobciążony E() θ Estymator nazywamy nieobciążonym jeśli jego obciążenie jest równe zero, tzn: E() = θ Estymator średnio trafia w wybrany parametr. Uwaga: to ma sens, bo estymator jest zmienną losową, więc ma swoją wartość oczekiwaną! 16 / 30

Estymator nieobciążony Zgodnie z prawem wielkich liczb, wartość oczekiwaną estymatora E() można interpretować jako średnią wartość estymatora przy wielokrotnym losowaniu próby θ θ 17 / 30

Estymator nieobciążony Zgodnie z prawem wielkich liczb, wartość oczekiwaną estymatora E() można interpretować jako średnią wartość estymatora przy wielokrotnym losowaniu próby θ θ 17 / 30

Estymator nieobciążony Zgodnie z prawem wielkich liczb, wartość oczekiwaną estymatora E() można interpretować jako średnią wartość estymatora przy wielokrotnym losowaniu próby Estymator nieobciążony θ Estymator obciążony θ 17 / 30

Estymator wartości oczekiwanej Estymator wartości oczekiwanej µ = EX postaci: µ = X n = 1 n jest nieobciążony n X i 18 / 30

Estymator wartości oczekiwanej Estymator wartości oczekiwanej µ = EX postaci: µ = X n = 1 n jest nieobciążony n X i Dowód: E( µ) = E ( 1 n ) n X i 18 / 30

Estymator wartości oczekiwanej Estymator wartości oczekiwanej µ = EX postaci: µ = X n = 1 n jest nieobciążony n X i Dowód: E( µ) = E ( 1 n ) n X i = 1 n EX n }{{} i =µ 18 / 30

Estymator wartości oczekiwanej Estymator wartości oczekiwanej µ = EX postaci: µ = X n = 1 n jest nieobciążony n X i Dowód: E( µ) = E ( 1 n ) n X i = 1 n EX n }{{} i =µ = µ 18 / 30

Estymator wartości oczekiwanej Estymator wartości oczekiwanej µ = EX postaci: jest nieobciążony Dowód: E( µ) = E µ = X n = 1 n X i n ( 1 n ) n X i = 1 n EX n }{{} i =µ = µ (jest to przypomnienie z wykładu o twierdzeniach granicznych, gdzie już udowodniliśmy, że EX n = µ) 18 / 30

Estymator wariancji Wyznacz obciążenie estymatora wariancji σ 2 = D 2 (X ) postaci: σ 2 = 1 n (X i X n ) 2 = 1 n Xi 2 n n X 2 n 19 / 30

Estymator wariancji Wyznacz obciążenie estymatora wariancji σ 2 = D 2 (X ) postaci: σ 2 = 1 n (X i X n ) 2 = 1 n Xi 2 n n X 2 n Odpowiedź: E( σ 2 ) = 1 n n E(X 2 i ) E(X 2 n) = E(X 2 ) E(X 2 n) 19 / 30

Estymator wariancji Wyznacz obciążenie estymatora wariancji σ 2 = D 2 (X ) postaci: σ 2 = 1 n (X i X n ) 2 = 1 n Xi 2 n n X 2 n Odpowiedź: E( σ 2 ) = 1 n n Ze wzoru skróconego mnożenia mamy: E(X 2 i ) E(X 2 n) = E(X 2 ) E(X 2 n) D 2 (X ) = E(X 2 ) (EX }{{}) 2, oraz D 2 (X n ) = E(X 2 n) (EX n ) 2, }{{} =µ =µ 19 / 30

Estymator wariancji Wyznacz obciążenie estymatora wariancji σ 2 = D 2 (X ) postaci: σ 2 = 1 n (X i X n ) 2 = 1 n Xi 2 n n X 2 n Odpowiedź: E( σ 2 ) = 1 n n Ze wzoru skróconego mnożenia mamy: E(X 2 i ) E(X 2 n) = E(X 2 ) E(X 2 n) D 2 (X ) = E(X 2 ) (EX }{{}) 2, oraz D 2 (X n ) = E(X 2 n) (EX n ) 2, }{{} =µ =µ stąd: E( σ 2 ) = D 2 (X ) + µ 2 ( D 2 (X n ) + µ 2) = D 2 (X ) D 2 (X n ) 19 / 30

Estymator wariancji Wyznacz obciążenie estymatora wariancji σ 2 = D 2 (X ) postaci: σ 2 = 1 n (X i X n ) 2 = 1 n Xi 2 n n X 2 n Odpowiedź: E( σ 2 ) = D 2 (X ) D 2 (X n ) 19 / 30

Estymator wariancji Wyznacz obciążenie estymatora wariancji σ 2 = D 2 (X ) postaci: σ 2 = 1 n (X i X n ) 2 = 1 n Xi 2 n n X 2 n Odpowiedź: E( σ 2 ) = D 2 (X ) D 2 (X n ) Zauważmy, że: D 2 (X ) = σ 2 19 / 30

Estymator wariancji Wyznacz obciążenie estymatora wariancji σ 2 = D 2 (X ) postaci: σ 2 = 1 n (X i X n ) 2 = 1 n Xi 2 n n X 2 n Odpowiedź: E( σ 2 ) = D 2 (X ) D 2 (X n ) Zauważmy, że: D 2 (X ) = σ 2 ( 1 D 2 (X n ) = D 2 n ) n X i 19 / 30

Estymator wariancji Wyznacz obciążenie estymatora wariancji σ 2 = D 2 (X ) postaci: σ 2 = 1 n (X i X n ) 2 = 1 n Xi 2 n n X 2 n Odpowiedź: E( σ 2 ) = D 2 (X ) D 2 (X n ) Zauważmy, że: D 2 (X ) = σ 2 ( 1 D 2 (X n ) = D 2 n ) n X i = 1 n n 2 D 2 (X i ) = }{{} σ 2 σ 2 n 19 / 30

Estymator wariancji Wyznacz obciążenie estymatora wariancji σ 2 = D 2 (X ) postaci: σ 2 = 1 n (X i X n ) 2 = 1 n Xi 2 n n X 2 n Odpowiedź: E( σ 2 ) = D 2 (X ) D 2 (X n ) Zauważmy, że: D 2 (X ) = σ 2 ( ) 1 n D 2 (X n ) = D 2 X i = 1 n n n 2 D 2 (X i ) = }{{} σ 2 Stąd: E( σ 2 ) = σ 2 σ2 n = n 1 n σ2 σ 2 Estymator wariancji σ 2 jest obciążony (niedoszacowuje!) σ 2 n 19 / 30

Ratujemy estymator wariancji Pokazaliśmy, że: E( σ 2 ) = n 1 n σ2, gdzie σ 2 = 1 n n (X i X n ) 2 20 / 30

Ratujemy estymator wariancji Pokazaliśmy, że: E( σ 2 ) = n 1 n σ2, gdzie σ 2 = 1 n Modyfikujemy estymator wariancji: n (X i X n ) 2 σ 2 = 1 n 1 n (X i X n ) 2 = n n 1 σ2 20 / 30

Ratujemy estymator wariancji Pokazaliśmy, że: E( σ 2 ) = n 1 n σ2, gdzie σ 2 = 1 n Modyfikujemy estymator wariancji: n (X i X n ) 2 σ 2 = 1 n 1 n (X i X n ) 2 = n n 1 σ2 Nowy estymator jest nieobciążony, ponieważ: E( σ 2 ) = E ( ) n n 1 σ2 = n n 1 E( σ2 ) = n n 1 n 1 n σ2 = σ 2 20 / 30

Podsumowanie Nieobciążony estymator wartości średniej µ = EX : µ = X n = 1 n X i n Nieobciążony estymator wariancji σ 2 = D 2 (X ): σ 2 = 1 n 1 n (X i X n ) 2 21 / 30

Podsumowanie Nieobciążony estymator wartości średniej µ = EX : µ = X n = 1 n X i n Nieobciążony estymator wariancji σ 2 = D 2 (X ): σ 2 = 1 n 1 n (X i X n ) 2 Zadanie 3 Niech µ = n c i X i będzie estymatorem wartości oczekiwanej µ = EX dla pewnych współczynników c 1,..., c n niezależnych od danych. Jaki warunek muszą spełniać te stałe, aby estymator był nieobciążony? 21 / 30

Brak obciążenia nie wystarcza Łatwo uzyskać estymator nieobciążony, który jest trywialny 22 / 30

Brak obciążenia nie wystarcza Łatwo uzyskać estymator nieobciążony, który jest trywialny Rozważmy estymator wartości oczekiwanej postaci µ 1 = X 1 22 / 30

Brak obciążenia nie wystarcza Łatwo uzyskać estymator nieobciążony, który jest trywialny Rozważmy estymator wartości oczekiwanej postaci µ 1 = X 1 Mamy: E( µ 1 ) = EX 1 = µ (estymator nieobciążony!) 22 / 30

Brak obciążenia nie wystarcza Łatwo uzyskać estymator nieobciążony, który jest trywialny Rozważmy estymator wartości oczekiwanej postaci µ 1 = X 1 Mamy: E( µ 1 ) = EX 1 = µ (estymator nieobciążony!) Ale ten estymator odrzuca wszystkie elementy próby poza X 1! 22 / 30

Brak obciążenia nie wystarcza Łatwo uzyskać estymator nieobciążony, który jest trywialny Rozważmy estymator wartości oczekiwanej postaci µ 1 = X 1 Mamy: E( µ 1 ) = EX 1 = µ (estymator nieobciążony!) Ale ten estymator odrzuca wszystkie elementy próby poza X 1! Np. przy szacowaniu poparcia kandydata A w wyborach, µ 1 zwraca wartość równą pierwszemu elementowi próby, czyli 0 lub 1! 22 / 30

Brak obciążenia nie wystarcza Łatwo uzyskać estymator nieobciążony, który jest trywialny Rozważmy estymator wartości oczekiwanej postaci µ 1 = X 1 Mamy: E( µ 1 ) = EX 1 = µ (estymator nieobciążony!) Ale ten estymator odrzuca wszystkie elementy próby poza X 1! Np. przy szacowaniu poparcia kandydata A w wyborach, µ 1 zwraca wartość równą pierwszemu elementowi próby, czyli 0 lub 1! Średnio jest to poprawne (równe prawdziwemu poparciu), ale jest to raczej kiepskie oszacowanie poparcia. 22 / 30

Brak obciążenia nie wystarcza Łatwo uzyskać estymator nieobciążony, który jest trywialny Rozważmy estymator wartości oczekiwanej postaci µ 1 = X 1 Mamy: E( µ 1 ) = EX 1 = µ (estymator nieobciążony!) Ale ten estymator odrzuca wszystkie elementy próby poza X 1! Np. przy szacowaniu poparcia kandydata A w wyborach, µ 1 zwraca wartość równą pierwszemu elementowi próby, czyli 0 lub 1! Średnio jest to poprawne (równe prawdziwemu poparciu), ale jest to raczej kiepskie oszacowanie poparcia. Potrzebujemy innych kryteriów oceny estymatorów 22 / 30

Wariancja estymatora Chcemy, aby nieobciążony estymator miał jak najmniejszą wariancję D 2 () θ θ 23 / 30

Wariancja estymatora Chcemy, aby nieobciążony estymator miał jak najmniejszą wariancję D 2 () Estymator nieobciążony Estymator nieobciążony θ θ 23 / 30

Wariancja estymatora Chcemy, aby nieobciążony estymator miał jak najmniejszą wariancję D 2 () Estymator nieobciążony Duża wariancja θ Estymator nieobciążony Mała wariancja θ 23 / 30

Relacja efektywności Rozważmy dwa estymatory nieobciążone 1 i 2 parametru θ. Mówimy, że 1 jest efektywniejszy od estymatora 2, jeśli dla każdej wartości parametru θ. D 2 ( 1 ) D 2 ( 2 ) 24 / 30

Relacja efektywności Rozważmy dwa estymatory nieobciążone 1 i 2 parametru θ. Mówimy, że 1 jest efektywniejszy od estymatora 2, jeśli dla każdej wartości parametru θ. D 2 ( 1 ) D 2 ( 2 ) Ściślej powinno być: efektywniejszy lub tak samo efektywny jak 24 / 30

Relacja efektywności Rozważmy dwa estymatory nieobciążone 1 i 2 parametru θ. Mówimy, że 1 jest efektywniejszy od estymatora 2, jeśli dla każdej wartości parametru θ. D 2 ( 1 ) D 2 ( 2 ) Ściślej powinno być: efektywniejszy lub tak samo efektywny jak Warunek dla każdego θ jest potrzebny, ponieważ wariancje estymatorów mogą zależeć od parametru rozkładu 24 / 30

Relacja efektywności Rozważmy dwa estymatory nieobciążone 1 i 2 parametru θ. Mówimy, że 1 jest efektywniejszy od estymatora 2, jeśli dla każdej wartości parametru θ. D 2 ( 1 ) D 2 ( 2 ) Ściślej powinno być: efektywniejszy lub tak samo efektywny jak Warunek dla każdego θ jest potrzebny, ponieważ wariancje estymatorów mogą zależeć od parametru rozkładu Relacja efektywności dotyczy tylko estymatorów nieobciążonych 24 / 30

Relacja efektywności Rozważmy dwa estymatory nieobciążone 1 i 2 parametru θ. Mówimy, że 1 jest efektywniejszy od estymatora 2, jeśli dla każdej wartości parametru θ. D 2 ( 1 ) D 2 ( 2 ) Ściślej powinno być: efektywniejszy lub tak samo efektywny jak Warunek dla każdego θ jest potrzebny, ponieważ wariancje estymatorów mogą zależeć od parametru rozkładu Relacja efektywności dotyczy tylko estymatorów nieobciążonych Relacja efektywności jest porządkiem częściowym, tzn. dwa estymatory mogą być nieporównywalne w sensie efektywności 24 / 30

Relacja efektywności Rozważmy dwa estymatory nieobciążone 1 i 2 parametru θ. Mówimy, że 1 jest efektywniejszy od estymatora 2, jeśli dla każdej wartości parametru θ. D 2 ( 1 ) D 2 ( 2 ) Ściślej powinno być: efektywniejszy lub tak samo efektywny jak Warunek dla każdego θ jest potrzebny, ponieważ wariancje estymatorów mogą zależeć od parametru rozkładu Relacja efektywności dotyczy tylko estymatorów nieobciążonych Relacja efektywności jest porządkiem częściowym, tzn. dwa estymatory mogą być nieporównywalne w sensie efektywności Estymator nieobciążony efektywniejszy od wszystkich innych estymatorów nieobciążonych (jeśli istnieje) nazywamy estymatorem efektywnym 24 / 30

Przykład Dla próby losowej X 1, X 2,..., X n rozważmy rodzinę estymatorów wartości oczekiwanej µ postaci: µ k = 1 k k X i, k = 1,..., n (czyli µ k bierze średnią z k pierwszych elementów próby) 25 / 30

Przykład Dla próby losowej X 1, X 2,..., X n rozważmy rodzinę estymatorów wartości oczekiwanej µ postaci: µ k = 1 k k X i, k = 1,..., n (czyli µ k bierze średnią z k pierwszych elementów próby) E( µ k ) = 1 k k EX }{{} i µ = µ (nieobciążone) 25 / 30

Przykład Dla próby losowej X 1, X 2,..., X n rozważmy rodzinę estymatorów wartości oczekiwanej µ postaci: µ k = 1 k k X i, k = 1,..., n (czyli µ k bierze średnią z k pierwszych elementów próby) E( µ k ) = 1 k EX i = µ (nieobciążone) k }{{} µ D 2 ( µ k ) = 1 k k 2 D 2 σ 2 (X i ) = }{{} k σ 2 25 / 30

Przykład Dla próby losowej X 1, X 2,..., X n rozważmy rodzinę estymatorów wartości oczekiwanej µ postaci: µ k = 1 k k X i, k = 1,..., n (czyli µ k bierze średnią z k pierwszych elementów próby) E( µ k ) = 1 k EX i = µ (nieobciążone) k }{{} µ D 2 ( µ k ) = 1 k k 2 D 2 σ 2 (X i ) = }{{} k σ 2 Estymator µ n = X n jest najefektywniejszy, a µ 1 = X 1 najmniej efektywny 25 / 30

Zadanie Zadanie 4 Rozważ estymator wartości oczekiwanej µ postaci: µ = n c i X i, dla pewnych współczynników c 1,..., c n (niezależnych od danych). Załóżmy, że µ jest nieobciążony (patrz zadanie 3). Dla jakich wartości c 1,..., c n ma on najmniejszą wariancję? 26 / 30

Czy estymator może mieć dowolnie małą wariancję? 27 / 30

Czy estymator może mieć dowolnie małą wariancję? Nierówność Craméra-Rao Niech będzie nieobciążonym estymatorem parametru θ wyznaczonym z próby X 1, X 2,..., X n. Zdefiniujmy funkcję informacji Fishera I (θ) jako: Dla rozkładów dyskretnych: ( ( ) ln p(x ) 2 ) I (θ) = E, gdzie p(x) jest prawd. wartości x θ Dla rozkładów ciągłych: ( ( ) ln f (X ) 2 ) I (θ) = E, gdzie f (x) jest gęstością θ Wtedy: D 2 () 1 ni (θ) 27 / 30

Czy estymator może mieć dowolnie małą wariancję? Nierówność Craméra-Rao Niech będzie nieobciążonym estymatorem parametru θ wyznaczonym z próby X 1, X 2,..., X n. Zdefiniujmy funkcję informacji Fishera I (θ) jako: Dla rozkładów dyskretnych: ( ( ) ln p(x ) 2 ) I (θ) = E, gdzie p(x) jest prawd. wartości x θ Dla rozkładów ciągłych: ( ( ) ln f (X ) 2 ) I (θ) = E, gdzie f (x) jest gęstością θ Wtedy: D 2 () 1 ni (θ) Dowód Dowód znajduje się w materiałach dodatkowych 27 / 30

Przykład Załóżmy że X ma rozkład normalny N(µ, σ 2 ) i chcemy estymować µ f (x) = { } 1 exp (x µ)2 2πσ 2 2σ 2 28 / 30

Przykład Załóżmy że X ma rozkład normalny N(µ, σ 2 ) i chcemy estymować µ f (x) = { } 1 exp (x µ)2 2πσ 2 2σ 2 ( ) 1 Mamy: ln f (x) = ln 2πσ 2 (x µ)2 2σ 2 28 / 30

Przykład Załóżmy że X ma rozkład normalny N(µ, σ 2 ) i chcemy estymować µ f (x) = { } 1 exp (x µ)2 2πσ 2 2σ 2 ( ) 1 (x µ)2 Mamy: ln f (x) = ln 2πσ 2 2σ 2 ln f (x) = ( ) (x µ) 2 µ µ 2σ 2 = 28 / 30

Przykład Załóżmy że X ma rozkład normalny N(µ, σ 2 ) i chcemy estymować µ f (x) = { } 1 exp (x µ)2 2πσ 2 2σ 2 ( ) 1 (x µ)2 Mamy: ln f (x) = ln 2πσ 2 2σ 2 ln f (x) = ( ) (x µ) 2 µ µ 2σ 2 = x µ σ 2 28 / 30

Przykład Załóżmy że X ma rozkład normalny N(µ, σ 2 ) i chcemy estymować µ f (x) = { } 1 exp (x µ)2 2πσ 2 2σ 2 ( ) 1 (x µ)2 Mamy: ln f (x) = ln 2πσ 2 2σ 2 ln f (x) = ( ) (x µ) 2 µ µ 2σ 2 = x µ σ 2 ( (X ) ) µ 2 I (µ) = E σ 2 = 28 / 30

Przykład Załóżmy że X ma rozkład normalny N(µ, σ 2 ) i chcemy estymować µ f (x) = { } 1 exp (x µ)2 2πσ 2 2σ 2 ( ) 1 (x µ)2 Mamy: ln f (x) = ln 2πσ 2 2σ 2 ln f (x) = ( ) (x µ) 2 µ µ 2σ 2 = x µ σ 2 ( (X ) ) µ 2 I (µ) = E σ 2 = 1 ( σ 4 E (X µ) 2) = }{{} σ 2 1 σ 2 28 / 30

Przykład c.d. X N(µ, σ 2 ), I (µ) = 1 σ 2 Z nierówności Craméra-Rao wynika więc, że dla dowolnego nieobciążonego estymatora µ wartości oczekiwanej µ: D 2 ( µ) 1 ni (µ) = 1 n1/σ 2 = σ2 n. 29 / 30

Przykład c.d. X N(µ, σ 2 ), I (µ) = 1 σ 2 Z nierówności Craméra-Rao wynika więc, że dla dowolnego nieobciążonego estymatora µ wartości oczekiwanej µ: D 2 ( µ) 1 ni (µ) = 1 n1/σ 2 = σ2 n. Ale wiemy, że estymator X n jest nieobciążony i ma wariancję σ2 n! 29 / 30

Przykład c.d. X N(µ, σ 2 ), I (µ) = 1 σ 2 Z nierówności Craméra-Rao wynika więc, że dla dowolnego nieobciążonego estymatora µ wartości oczekiwanej µ: D 2 ( µ) 1 ni (µ) = 1 n1/σ 2 = σ2 n. Ale wiemy, że estymator X n jest nieobciążony i ma wariancję σ2 n! Wniosek: Estymator µ = X n wartości oczekiwanej µ jest efektywny jeśli X ma rozkład normalny. 29 / 30

Zadanie Zadanie 4 Pokaż, że funkcja informacji Fishera I (p) dla rozkładu dwupunktowego B(p) ma postać: 1 I (p) = p(1 p) Następnie pokaż, że estymator X n wartości oczekiwanej p jest efektywny dla tego rozkładu 30 / 30