Wykład z analizy danych: estymacja punktowa

Podobne dokumenty
Wykład z analizy danych: estymacja punktowa

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Metody probabilistyczne

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Estymacja parametrów rozkładu cechy

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Metody probabilistyczne

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

1.1 Wstęp Literatura... 1

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Estymacja punktowa i przedziałowa

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Wnioskowanie statystyczne. Statystyka w 5

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

STATYSTYKA

Wykład 3 Momenty zmiennych losowych.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Wykład 3 Momenty zmiennych losowych.

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Spis treści 3 SPIS TREŚCI

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Pobieranie prób i rozkład z próby

Prawdopodobieństwo i statystyka

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Testowanie hipotez statystycznych

Rozkłady statystyk z próby

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Testowanie hipotez statystycznych.

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Statystyka matematyczna dla leśników

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Statystyka matematyczna i ekonometria

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Estymacja parametrów w modelu normalnym

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Hipotezy statystyczne

1 Podstawy rachunku prawdopodobieństwa

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Dokładne i graniczne rozkłady statystyk z próby

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

W1. Wprowadzenie. Statystyka opisowa

METODY STATYSTYCZNE W BIOLOGII

WYKŁAD 5 TEORIA ESTYMACJI II

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

STATYSTYKA MATEMATYCZNA

Hipotezy statystyczne

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Centralne twierdzenie graniczne

Testowanie hipotez statystycznych. Wprowadzenie

Statystyka w analizie i planowaniu eksperymentu

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka i eksploracja danych

Statystyka w analizie i planowaniu eksperymentu

Statystyczna analiza danych

Wprowadzenie do analizy korelacji i regresji

Analiza niepewności pomiarów

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metody Statystyczne. Metody Statystyczne.

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

W4 Eksperyment niezawodnościowy

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Weryfikacja hipotez statystycznych testy t Studenta

Komputerowa Analiza Danych Doświadczalnych

Wykład 3 Hipotezy statystyczne

Transkrypt:

Wykład z analizy danych: estymacja punktowa Marek Kubiak Instytut Informatyki Politechnika Poznańska

Cel wykładu

Model statystyczny W pewnej zbiorowości (populacji generalnej) obserwowana jest pewna cecha X. Cecha ta ma w tej populacji pewien kształt rozkładu prawdopodobieństwa R (np. N(µ, σ) lub B 1 (p)). Na podstawie pewnego doświadczenia (badania) zdobyte zostały informacje o wartości cechy X dla pewnych elementów populacji w postaci liczb: x 1, x 2, x 3,..., x n. Zazwyczaj powtórzenie takiego eksperymentu daje inne liczby x i jako wyniki. W takim razie można potraktować te wartości jako realizacje zmiennych losowych X 1, X 2, X 3,..., X n. Zmienna losowa X i określa zachowanie (probabilistyczne) elementu x i w próbce.

Model statystyczny Wektor zmiennych losowych nazywamy próbą losową. X = (X 1, X 2, X 3,..., X n ) Wektor X nazywamy próbą prostą, jeśli zmienne losowe X i są niezależne i mają taki sam rozkład R jak badana cecha X populacji. Wektor wartości x = (x 1, x 2, x 3,..., x n ) nazywamy realizacją próby losowej (próbką). Uwaga! Pojęcie próby prostej jest kluczowe w statystyce matematycznej. Pozwala na wyciąganie silnych wniosków teoretycznych i budowanie praktycznych procedur badawczych m.in. dzięki twierdzeniom granicznym (np. Lindeberga-Levy ego).

Zadanie estymacji Zazwyczaj dokładny rozkład R jest nieznany lub nieznane są jego parametry θ. Zadanie estymacji: na podstawie próby losowej oszacować (przybliżyć, ocenić) wartości nieznanych parametrów θ rozkładu R cechy X populacji generalnej z jak największą precyzją i jak najmniejszym kosztem. Przykład: niech X = (X 1,..., X n ) będzie próbą prostą z populacji o rozkładzie N(µ, σ), gdzie µ i σ są nieznane; oszacować wartości tych nieznanych parametrów.

Statystyka Statystyką nazywamy dowolną funkcję próby losowej postaci: ˆθ(X) = ˆθ(X 1, X 2, X 3,..., X n ). Przykłady: ˆθ 1 (X 1, X 2, X 3, X 4, X 5 ) = 1 ˆθ 2 (X 1,..., X 100 ) = X 1 + X 3 + X 5 +... + X 99 45 ˆθ 3 (X 1, X 2 ) = X 1 X 2

Estymator Estymatorem parametru θ nazywamy taką statystykę ˆθ(X), którą traktujemy jako oszacowanie parametru θ. Przykład: dla nieznanego parametru µ w rozkładzie N(µ, σ) mamy estymatory: ˆθ 1 (X 1,..., X n ) = 1 n X i = X n i=1 ˆθ 2 (X 1,..., X n ) = X 1

Kryteria jakości estymatorów Estymatory można porównywać ze względu na: obciążenie, zgodność, wariancję.

Estymatory alegoria strzelecka Estymatory można traktować jak różnych strzelców, którzy próbują trafić w sam środek tarczy. Równoważne pojęcia: Estymacja: nieznany parametr θ wartość estymatora ˆθ(X) rozmiar (liczność) próby n Strzelectwo: środek tarczy strzeleckiej przestrzelone miejsce większy wysiłek strzelca (skupienie, przymiarki, ocena wiatru)

Estymator nieobciążony Estymator ˆθ(X) parametru θ nazywamy nieobciążonym, gdy spełniony jest warunek: E(ˆθ(X)) = θ. Komentarz: estymator nieobciążony średnio trafia w nieznaną wartość parametru, rozsądne wymaganie, chociaż w ogóle nie bierze pod uwagę liczności próby (czyli kosztu zebrania informacji).

Obciążenie estymacji alegoria strzelecka Rysunek: Alegoria estymatora nieobciążonego i obciążonego.

Obciążenie estymacji Jeśli estymator jest obciążony (ukierunkowany, skrzywiony), to bez kompensacji obciążenia zniekształca wnioski! Przykłady estymacji obciążonej: strzelanie z krzywą lufą, ocena momentu południa na podstawie dźwięku dzwonu 1km od kościoła, dokładne ustawianie czasu przez Internet na podstawie odległego wzorca. Przykładowe przyczyny obciążenia estymacji: ukierunkowany sposób doboru próby, błędy lub przekłamania w zapisie wyników pomiarów, uszkodzenie lub dekalibracja urządzeń pomiarowych, użycie niewłaściwego estymatora.

Obciążenie estymacji przykład C. R. Rao Tło badania: Dehli, Indie, 1947 rozruchy religijne po odzyskaniu niepodległości, konieczność płacenia przez rząd dostawcom żywności do dwu obozów uchodźców religijnych (wysokie wydatki), niemożliwość wejścia statystyków do obozów (większość religijna). Zadanie: oszacować liczbę ludności L w obozach w celu oceny wiarygodności rachunków za żywność. Dane: rachunki dostawców za ryż, groch, sól.

Obciążenie estymacji przykład C. R. Rao Niech: R, G, S: ilości ryżu, grochu i soli zużywane na wyżywienie wszystkich uchodźców przez 1 dzień, r, g, s: ilości dziennego zapotrzebowania na osobę wg badań konsumenckich. Wtedy: R/r, G/g, S/s to estymatory tej samej, nieznanej liczby ludności L. Spostrzeżenia: R/r jest największe, S/s jest najmniejsze, różnica jest znaczna, rynkowa cena ryżu jest wysoka, cena soli jest znikoma.

Obciążenie estymacji przykład C. R. Rao Wnioski: wartość R jest sztucznie zawyżona przez dostawców (efektywne zawyżanie rachunków), dla przyszłych rozliczeń zastosować estymatę L = S/s (najmniej obciążona). Weryfikacja wniosków: niezależne oszacowanie liczby uchodźców w mniejszym obozie potwierdziło najmniejszy błąd oceny L = S/s.

Obciążenie estymacji przykładowe modele Niech X = (X 1,..., X n ) będzie próbą prostą z populacji o rozkładzie N(µ, σ), gdzie µ jest nieznane, a σ znane. Estymatory dla µ: ˆθ 1 (X) = X = 1 n n i=1 X i ˆθ 2 (X) = X 1 Obydwa estymatory są nieobciążone, choć drugi jest mało zdroworozsądkowy.

Obciążenie estymacji przykładowe modele Niech X = (X 1,..., X n ) będzie próbą prostą z populacji o rozkładzie N(µ, σ), gdzie µ i σ są nieznane. Estymatory dla σ 2 : ˆθ 1 (X) = S 2 = 1 n n (X i X ) 2 i=1 ˆθ 1 (X) = S 2 = 1 n 1 n (X i X ) 2 Estymator ˆθ 1 jest obciążony; drugi estymator jest nieobciążony. i=1

Estymator zgodny Estymator ˆθ(X) parametru θ nazywamy zgodnym, gdy spełniony jest warunek: X, θ, ɛ > 0 lim P( ˆθ n (X) θ < ɛ) = 1 n Komentarz: w miarę wzrostu liczności próby n prawdopodobieństwo znacznego odchylenia estymatora od parametru maleje do zera, rozsądne wymaganie: zwiększanie kosztów badania ma prowadzić do większej dokładności przybliżenia, estymator bez tej własności jest bardzo kiepski.

Estymator zgodny alegoria strzelecka Rysunek: Alegoria zgodności estymatora: ɛ = 1 i n = 10, 100, 1000. Rysunek: Alegoria zgodności estymatora: ɛ = 0.3 i n = 10, 100, 1000.

Estymator najefektywniejszy Estymator nieobciążony ˆθ 1 nazywamy efektywniejszym od nieobciążonego estymatora ˆθ 2, gdy spełniony jest warunek: θ D 2 (ˆθ 1 ) D 2 (ˆθ 2 ). Estymator nieobciązony parametru θ nazywamy najefektywniejszym, gdy ma najmniejszą możliwą wariancję ze wszystkich estymatorów nieobciążonych tego parametru. Komentarz: wariancja estymatora to rozrzut wokół nieznanego parametru, rozsądne wymaganie: minimalizacja tego rozrzutu, w miarę możliwości używamy estymatora najefektywniejszego. wariancja estymatora ma zazwyczaj spory związek z wykorzystaniem przez niego pełnej informacji z próby losowej, estymator najefektywniejszy może nie istnieć.

Wariancja estymatorów nieobciążonych alegoria strzelecka Rysunek: Alegoria wariancji estymatorów nieobciążonych.

Wariancja estymatorów nieobciążonych przykładowy model Niech X = (X 1,..., X n ) będzie próbą prostą z populacji o rozkładzie N(µ, σ), gdzie µ jest nieznane, a σ znane. Estymatory nieobciążone dla µ: n ˆθ 1 (X) = X = 1 n i=1 X i ˆθ 2 (X) = X 1 Można pokazać, że: σ 2 /n = D 2 (ˆθ 1 ) D 2 (ˆθ 2 ) = σ 2. Wnioski: zdecydowanie wybieramy estymator ˆθ 1 (X) = X, wiadomo, że jest to estymator najefektywniejszy parametru µ.

Przegląd estymatorów rozkład dowolny Niech X = (X 1,..., X n ) będzie próbą prostą z populacji o rozkładzie dowolnym R, gdzie E(X i ) = µ < i 0 < D 2 (X i ) = σ 2 <, oraz µ, σ 2 są nieznane. Estymator parametru µ postaci: ˆθ(X) = X = 1 n n i=1 X i jest zgodny i nieobciążony. Estymator parametru σ 2 postaci: ˆθ(X) = S 2 = 1 n 1 n (X i X ) 2 jest zgodny, nieobciążony i najefektywniejszy (asymptotycznie). i=1

Przegląd estymatorów rozkład dowolny Niech X = (X 1,..., X n ) będzie próbą prostą z populacji o rozkładzie dowolnym R, gdzie E(X i ) = µ < i 0 < D 2 (X i ) = σ 2 <, oraz µ, σ 2 są nieznane. Estymator parametru σ postaci: ˆθ(X) = S = S 2 = 1 n 1 jest zgodny i obciążony. n (X i X ) 2 i=1

Przegląd estymatorów rozkład normalny Niech X = (X 1,..., X n ) będzie próbą prostą z populacji o rozkładzie N(µ, σ), gdzie µ, σ 2 są nieznane. Estymator parametru µ postaci: ˆθ(X) = X = 1 n n i=1 X i jest zgodny, nieobciążony i najefektywniejszy. Estymator parametru σ 2 postaci: ˆθ(X) = S 2 = 1 n 1 n (X i X ) 2 jest zgodny, nieobciążony i najefektywniejszy (asymptotycznie). i=1

Przegląd estymatorów rozkład zero-jedynkowy Niech X = (X 1,..., X n ) będzie próbą prostą z populacji o rozkładzie B 1 (p), gdzie p jest nieznane. Estymator parametru p postaci: 1 n n i=1 jest zgodny, nieobciążony i najefektywniejszy. X i

Estymatory w MS Excel Funkcje MS Excel odpowiadające popularnym estymatorom: X : ŚREDNIA, S 2 : WARIANCJA, S 2 : WARIANCJA.POPUL, S : ODCH.STANDARDOWE, S: ODCH.STANDARDOWE.

Wymagana wiedza model i model statystyczny; próba losowa, różnica w stosunku od zbioru danych; zadanie estymacji; estymator: pojęcie i alegoria strzelecka; obciążoność: sens, alegoria i możliwe przyczyny; zgodność: sens i alegoria; wariancja, efektywność: sens, alegoria; przykładowe estymatory i ich cechy: rozkład dowolny; rozkład normalny; rozkład zero-jedynkowy; estymatory w MS Excel.

Literatura L. T. Kubik, Zastosowanie elementarnego rachunku prawdopodobieństwa do wnioskowania statystycznego. Wykład i uwagi krytyczne, Wydawnictwo Naukowe PWN, Warszawa, 1998. G. A. Ferguson, Y. Takane, Analiza statystyczna w psychologii i pedagogice, Wydawnictwo Naukowe PWN, Warszawa, 2003. W. Krysicki i inni, Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, Część I, Rachunek prawdopodobieństwa, Część II, Statystyka matematyczna, Wydawnictwo Naukowe PWN, Warszawa, 1995. C. Radhakrishna Rao, Statystyka i prawda, Wydawnictwo Naukowe PWN, Warszawa, 1994. T. Gerstenkorn, T. Śródka, Kombinatoryka i rachunek prawdopodobieństwa, PWN, Warszawa, 1972. (dopisać inne, ciekawsze książki, w miarę przystępne, tanie i aktualne)