Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Podobne dokumenty
Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

Wykład 2 Zmienne losowe i ich rozkłady

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Statystyka i eksploracja danych

Monte Carlo, bootstrap, jacknife

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wnioskowanie statystyczne. Statystyka w 5

Spis treści 3 SPIS TREŚCI

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

1.1 Wstęp Literatura... 1

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Statystyka w przykładach

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Ważne rozkłady i twierdzenia c.d.

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Estymacja parametrów rozkładu cechy

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Prawdopodobieństwo i statystyka

STATYSTYKA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Metody Statystyczne. Metody Statystyczne.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Rozkłady statystyk z próby

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Statystyka matematyczna i ekonometria

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Metody probabilistyczne

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

1 Podstawy rachunku prawdopodobieństwa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Metody probabilistyczne

Statystyka w analizie i planowaniu eksperymentu

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Prawdopodobieństwo i statystyka

STATYSTYKA MATEMATYCZNA

Estymacja punktowa i przedziałowa

Rachunek Prawdopodobieństwa i Statystyka

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Opis programu studiów

Rozkłady prawdopodobieństwa zmiennych losowych

1 Elementy kombinatoryki i teorii prawdopodobieństwa

Pobieranie prób i rozkład z próby

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

Opis przedmiotu: Probabilistyka I

Wykład 7 Testowanie zgodności z rozkładem normalnym

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Wykład z analizy danych: estymacja punktowa

Własności statystyczne regresji liniowej. Wykład 4

Zmienne losowe. Statystyka w 3

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

Komputerowa Analiza Danych Doświadczalnych

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3.

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Dokładne i graniczne rozkłady statystyk z próby

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Prawa wielkich liczb, centralne twierdzenia graniczne

przedmiot podstawowy obowiązkowy polski drugi

Matematyka 2. dr inż. Rajmund Stasiewicz

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

O ŚREDNIEJ STATYSTYCZNEJ

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

STATYSTYKA MATEMATYCZNA

Metoda reprezentacyjna

Prawdopodobieństwo i statystyka

Transkrypt:

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r

Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Bootstrapowe przedziały ufności Porównanie dwóch prób. Metoda Monte Carlo, testy permutacyjne. Wybór najlepszej procedury Estymacja parametrów regresji z wykorzystaniem metody bootstrap Teoria eksperymentu Dane kategoryczne

Tematyka Wykładów: Podstawowe zagadnienia statystycznej analizy wielowymiarowej Uporządkowania stochastyczne Miary odległości dla wektorów wielowymiarowych Skalowanie wielowymiarowe Problemy zagadnienia klasyfikacji Analiza conjoint Analiza danych jakościowych

Zasady oceniania Ćwiczenia 2 kolokwia (20 punktów każde) 11.04.2018 oraz 30.05.2018 2 kartkówki niezapowiedziane (5 punktów każda) aktywność oceny: Niech M oznacza maksymalną możliwą liczbę punktów do zdobycia w trakcie semestru, wówczas 1 [0.5 M, 0.6 M) - dst 2 [0.6 M, 0.7 M) - dst + 3 [0.7 M, 0.8 M) - db 4 [0.8 M, 0.9 M) - db + 5 [0.9 M, M] - bdb

Zasady oceniania Egzamin egzamin pisemny egzamin poprawkowy w formie odpowiedzi ustnej kryteria oceniania - jak w przypadku ćwiczeń Ocena ostateczna 60% oceny z wykładu + 40% oceny z ćwiczeń

Powtórzenie wiadomości z estymacji parametrów

Zmienna losowa Niech (Ω, F, P) oznacza podstawową przestrzeń probabilistyczną. Definicja 1.1: Zmienna losowa Zmienną losową nazywamy funkcję określoną na przestrzeni zdarzeń elementarnych Ω o wartościach ze zbioru liczb rzeczywistych X : Ω R, taką że dla każdego a R {ω : X (ω) a} F Mniej formalnie mówiąc, zmienna losowa to taka funkcja X określona na zbiorze zdarzeń elementarnych o wartościach liczbowych, dla której dane są prawdopodobieństwa przyjmowania przez X wartości z dowolnego zbioru.

Zmienna losowa Zmienne losowe: dyskretne (typu skokowego) - zmienna przyjmuje dowolne wartości ze zbioru skończonego albo przeliczalnego typu ciągłego -zmienna przyjmuje dowolne wartości z określonego przedziału Zmienne losowe oznaczamy dużymi literami, np.: X, Y, Z, natomiast małymi literami (x, y, z) oznaczamy wartości zmiennych losowych.

Rozkład zmiennej losowej Definicja 1.2: Rozkład zmiennej losowej Dystrybuantą rozkładu zmiennej losowej X nazywamy funkcję F X (t) zdefiniowaną dla wszystkich t jako F X (t) = P(ω : X (ω) t) Własności dystrybuanty F X jest niemalejąca lim t F X (t) = 1 lim t F X (t) = 0 F X jest prawostronnie ciągła

Gęstość zmiennej losowej Definicja 1.3: Funkcją gęstości rozkładu dyskretnej zmiennej losowej X nazywamy funkcję f X (t) zdefiniowaną dla wszystkich t jako f X (t) = P(ω : X (ω) = t) Definicja 1.4: Funkcją gęstości rozkładu ciągłej zmiennej losowej X nazywamy funkcję f X (t) zdefiniowaną dla wszystkich t jako F X (t) = t f X (t)dt

Własności gęstości zmiennej losowej Uwaga! d dt F X (t) = f X (t) Każda funkcja, będąca gęstością prawdopodobieństwa, wyznacza jednoznacznie pewną dystrybuantę, a tym samym rozkład prawdopodobieństwa pewnej zmiennej. Twierdzenie 1.1 Funkcja f (x) jest gęstością pewnej zmiennej losowej wtedy i tylko wtedy, gdy 1 f (x) 0 2 f (t)dt = 1

Próba losowa Definicja 1.5: Wektor zmiennych losowych X = (X 1, X 2,... X n ) nazywamy próbą losową rozmiaru n z rozkładu o gęstości f X (x) (z rozkładu F ) jeśli X 1, X 2,..., X n są niezależnymi zmiennymi losowymi o wspólnym rozkładzie F z gęstością f (x) Niech X 1, X 2,..., X n będą niezależnymi zmiennymi losowymi o gęstościach f (x 1 ), f (x 2 ),..., f (x n ) odpowiednio. Gęstość łączna wektora losowego X wygląda następująco: n f (x) = f (x 1, x 2,..., x n ) = f (x 1 )f (x 2 ) f (x n ) = f (x i ), natomiast dystrybuanta łączna: F (x) = F (x 1, x 2,..., x n ) = F (x 1 )F (x 2 ) F (x n ) = i=1 n F (x i ) i=1

Statystyki próbkowe Niech X = (X 1, X 2,... X n ) będzie n elementowym wektorem losowym. Średnia z próby: Wariancja nieobciążona: X = 1 n X i n i=1 Wariancja obciążona: S 2 = 1 n 1 S 2 0 = 1 n n (X i X ) 2 i=1 n (X i X ) 2 i=1

Rozkłady statystyk próbkowych Twierdzenie 1.2: Niech X 1, X 2,... X n będzie n elementową próbą losową, o średniej EX i = µ, i wariancji VarX i = σ 2 < Wówczas: 1 E X = µ 2 Var X = σ2 n 3 ES 2 = σ 2 4 VarS 2 = 2 n 1 σ4

Statystyki pozycyjne Niech X = (X 1, X 2,..., X n ) - próbą losową o wartościach x = (x 1, x 2,..., x n ). Uporządkowując wartości wektora w kolejności rosnącej otrzymujemy: x 1:n x 2:n x n:n. Wektor statystyk pozycyjnych: (X 1:n, X 2:n,..., X n:n )

Statystyki pozycyjne Statystyki ekstremalne Maksimum z próby: X (n:n) = max(x 1, X 2,... X n ) Minimum z próby: X (1:n) = min(x 1, X 2,... X n )

Statystyki pozycyjne Twierdzenie 1.3 Niech X = (X 1, X 2,..., X n ) - próbą losową z rozkładu o dystrybuancie F. Statystyka pozycyjna X i:n ma rozkład o dystrybuancie: F i:n = n! F (x) t i 1 (1 t) n i dt (i 1)!(n i)! 0

Estymacja parametrów Definicja 1.6: Statystykę T (X 1, X 2,... X n ) służącą do oszacowania nieznanego parametru populacji θ nazywamy estymatorem. Dla konkretnych wartości próby X 1 = x 1, X 2 = x 2,..., X n = x n pochodzącej z rozkładu F, liczbę T (x 1, x 2,... x n ) nazywamy wartością estymatora. Metody estymacji: Metoda momentów i kwantyli próbkowych Metoda największej wiarogodności Metoda najmniejszych kwadratów Estymacja przedziałowa

Estymacja parametrów Definicja 1.6: Statystykę T (X 1, X 2,... X n ) służącą do oszacowania nieznanego parametru populacji θ nazywamy estymatorem. Dla konkretnych wartości próby X 1 = x 1, X 2 = x 2,..., X n = x n pochodzącej z rozkładu F, liczbę T (x 1, x 2,... x n ) nazywamy wartością estymatora. Co w sytuacji gdy próba jest mała ; rozkład zmiennych losowych z próby jest nieznany? Ocena parametru może być obarczona pewnym błędem. Jak stwierdzić błąd ten jest duży czy mały? Można wyznaczyć przybliżony rozkład estymatora poprzez repróbkowanie danej próby danych

Metoda bootstrap - wprowadzenie 1 Niech X = (X 1, X 2,... X n ) próba losowa z rozkładu F, F - nieznany 2 θ - parametr z rozkładu F, T (F ) - statystyka wyznaczająca w oparciu o rozkład wartość t(f ) paramteru θ 3 Próba X wyznacza rozkład empiryczny F n. Można wyznaczyć wartość t n estymatora T w oparciu o wartości próby danych, otrzymując tym samym oszacowanie ˆθ parametru θ 4 Traktujemy próbę X jako populację i losujemy z niej próbę n - elementową X (próbę bootstrapową). Dla próby X można wyznaczyć wartość statystyki T, czyli oszacowanie ˆθ parametru ˆθ 5 Procedurę losowania prób bootstrapowych powtarza się m-krotnie, otrzymując ciąg estymatorów ˆθ 1, ˆθ 2,..., ˆ θ m

Metoda bootstrap - wprowadzenie Rozkład statystyki ˆθ ˆθ można użyć do oszacowania rozkładu ˆθ θ. A zatem podstawowe parametry statystyki T można szacować w oparciu o ˆθ = T (X ). Podstawowymi charakterystykami używanymi do oszacowania jakości estymatora będą: 1 wariancja 2 obciążenie

estymator wariancji Niech X = (X 1, X 2,... X n ) próba losowa z pewnego nieznanego rozkładu F, natomiast ˆθ 1, ˆθ 2,..., θˆ m ciąg estymatorów wyznaczonych w oparciu o m - prób bootstrapowych. Oznaczmy przez ˆθ = 1 m ˆθ i m i=1 wówczas wariancja jest szacowana następująco: Sˆ 2 ˆθ = 1 m 1 m ( ˆθ i ˆθ ) 2 i=1

Obciążenie estymatora Niech X = (X 1, X 2,... X n ) próba losowa z pewnego nieznanego rozkładu F, natomiast ˆθ 1, ˆθ 2,..., θ ˆ m ciąg estymatorów wyznaczonych w oparciu o m - prób bootstrapowych. Estymator obciążenia jest wyznaczany następująco: ˆb(ˆθ) = ˆθ ˆθ,

Metoda bootstrap - przykład Niech X będzie próbą 22 - elementową reprezentującą wzrost losowo wybranych studentów: 137.0 138.5 140.0 141.0 142.0 143.5 145.0 147.0 148.5 150.0 153.0 154.0 155.0 156.5 157.0 158.0 158.5 159.0 160.5 161.0 162.0 167.5 Wykonuje się losowanie prób bootstrapowych otrzymując: 138.5 138.5 140.0 141.0 141.0 143.5 145.0 147.0 148.5 150.0 153.0 154.0 155.0 156.5 157.0 158.5 159.0 159.0 159.0 160.5 161.0 162.0 137.0 138.5 138.5 141.0 141.0 142.0 143.5 145.0 145.0 147.0 148.5 148.5 150.0 150.0 153.0 155.0 158.0 158.5 160.5 160.5 161.0 167.5 Wariancja z próby: S 2 X = 76.7 Wariancje ze 100 prób bootstrapowych: (47.4, 115.6)

Bootstrap w R # Wprowadzamy wektor wzrostu dla próby studentów class =c (141,156.5,162,159,157,143.5,154,158,140,142,150, 148.5,138.5,161,153,145,147,158.5,160.5,167.5,155,137) # ustalamy rozmiar próby n <- length ( class ) # podajemy liczbę prób bootstrapowych N <- 50 stat <- numeric ( N) # wektor przechowujący wyniki dla wariancji # Pętla do generowania prób bootstrapowych for (i in 1:N){ classb = sample ( class, n, replace =T) stat [i] = var ( classb ) } boxplot ( stat ) stripchart ( stat )

Polecane literatura: P.I. Good, Resampling Methods. A Practical Guide to Data Analysis, 2005 E.L. Lehmann,Teoria estymacji punktowej, PWN Warszawa 1991