Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r
Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Bootstrapowe przedziały ufności Porównanie dwóch prób. Metoda Monte Carlo, testy permutacyjne. Wybór najlepszej procedury Estymacja parametrów regresji z wykorzystaniem metody bootstrap Teoria eksperymentu Dane kategoryczne
Tematyka Wykładów: Podstawowe zagadnienia statystycznej analizy wielowymiarowej Uporządkowania stochastyczne Miary odległości dla wektorów wielowymiarowych Skalowanie wielowymiarowe Problemy zagadnienia klasyfikacji Analiza conjoint Analiza danych jakościowych
Zasady oceniania Ćwiczenia 2 kolokwia (20 punktów każde) 11.04.2018 oraz 30.05.2018 2 kartkówki niezapowiedziane (5 punktów każda) aktywność oceny: Niech M oznacza maksymalną możliwą liczbę punktów do zdobycia w trakcie semestru, wówczas 1 [0.5 M, 0.6 M) - dst 2 [0.6 M, 0.7 M) - dst + 3 [0.7 M, 0.8 M) - db 4 [0.8 M, 0.9 M) - db + 5 [0.9 M, M] - bdb
Zasady oceniania Egzamin egzamin pisemny egzamin poprawkowy w formie odpowiedzi ustnej kryteria oceniania - jak w przypadku ćwiczeń Ocena ostateczna 60% oceny z wykładu + 40% oceny z ćwiczeń
Powtórzenie wiadomości z estymacji parametrów
Zmienna losowa Niech (Ω, F, P) oznacza podstawową przestrzeń probabilistyczną. Definicja 1.1: Zmienna losowa Zmienną losową nazywamy funkcję określoną na przestrzeni zdarzeń elementarnych Ω o wartościach ze zbioru liczb rzeczywistych X : Ω R, taką że dla każdego a R {ω : X (ω) a} F Mniej formalnie mówiąc, zmienna losowa to taka funkcja X określona na zbiorze zdarzeń elementarnych o wartościach liczbowych, dla której dane są prawdopodobieństwa przyjmowania przez X wartości z dowolnego zbioru.
Zmienna losowa Zmienne losowe: dyskretne (typu skokowego) - zmienna przyjmuje dowolne wartości ze zbioru skończonego albo przeliczalnego typu ciągłego -zmienna przyjmuje dowolne wartości z określonego przedziału Zmienne losowe oznaczamy dużymi literami, np.: X, Y, Z, natomiast małymi literami (x, y, z) oznaczamy wartości zmiennych losowych.
Rozkład zmiennej losowej Definicja 1.2: Rozkład zmiennej losowej Dystrybuantą rozkładu zmiennej losowej X nazywamy funkcję F X (t) zdefiniowaną dla wszystkich t jako F X (t) = P(ω : X (ω) t) Własności dystrybuanty F X jest niemalejąca lim t F X (t) = 1 lim t F X (t) = 0 F X jest prawostronnie ciągła
Gęstość zmiennej losowej Definicja 1.3: Funkcją gęstości rozkładu dyskretnej zmiennej losowej X nazywamy funkcję f X (t) zdefiniowaną dla wszystkich t jako f X (t) = P(ω : X (ω) = t) Definicja 1.4: Funkcją gęstości rozkładu ciągłej zmiennej losowej X nazywamy funkcję f X (t) zdefiniowaną dla wszystkich t jako F X (t) = t f X (t)dt
Własności gęstości zmiennej losowej Uwaga! d dt F X (t) = f X (t) Każda funkcja, będąca gęstością prawdopodobieństwa, wyznacza jednoznacznie pewną dystrybuantę, a tym samym rozkład prawdopodobieństwa pewnej zmiennej. Twierdzenie 1.1 Funkcja f (x) jest gęstością pewnej zmiennej losowej wtedy i tylko wtedy, gdy 1 f (x) 0 2 f (t)dt = 1
Próba losowa Definicja 1.5: Wektor zmiennych losowych X = (X 1, X 2,... X n ) nazywamy próbą losową rozmiaru n z rozkładu o gęstości f X (x) (z rozkładu F ) jeśli X 1, X 2,..., X n są niezależnymi zmiennymi losowymi o wspólnym rozkładzie F z gęstością f (x) Niech X 1, X 2,..., X n będą niezależnymi zmiennymi losowymi o gęstościach f (x 1 ), f (x 2 ),..., f (x n ) odpowiednio. Gęstość łączna wektora losowego X wygląda następująco: n f (x) = f (x 1, x 2,..., x n ) = f (x 1 )f (x 2 ) f (x n ) = f (x i ), natomiast dystrybuanta łączna: F (x) = F (x 1, x 2,..., x n ) = F (x 1 )F (x 2 ) F (x n ) = i=1 n F (x i ) i=1
Statystyki próbkowe Niech X = (X 1, X 2,... X n ) będzie n elementowym wektorem losowym. Średnia z próby: Wariancja nieobciążona: X = 1 n X i n i=1 Wariancja obciążona: S 2 = 1 n 1 S 2 0 = 1 n n (X i X ) 2 i=1 n (X i X ) 2 i=1
Rozkłady statystyk próbkowych Twierdzenie 1.2: Niech X 1, X 2,... X n będzie n elementową próbą losową, o średniej EX i = µ, i wariancji VarX i = σ 2 < Wówczas: 1 E X = µ 2 Var X = σ2 n 3 ES 2 = σ 2 4 VarS 2 = 2 n 1 σ4
Statystyki pozycyjne Niech X = (X 1, X 2,..., X n ) - próbą losową o wartościach x = (x 1, x 2,..., x n ). Uporządkowując wartości wektora w kolejności rosnącej otrzymujemy: x 1:n x 2:n x n:n. Wektor statystyk pozycyjnych: (X 1:n, X 2:n,..., X n:n )
Statystyki pozycyjne Statystyki ekstremalne Maksimum z próby: X (n:n) = max(x 1, X 2,... X n ) Minimum z próby: X (1:n) = min(x 1, X 2,... X n )
Statystyki pozycyjne Twierdzenie 1.3 Niech X = (X 1, X 2,..., X n ) - próbą losową z rozkładu o dystrybuancie F. Statystyka pozycyjna X i:n ma rozkład o dystrybuancie: F i:n = n! F (x) t i 1 (1 t) n i dt (i 1)!(n i)! 0
Estymacja parametrów Definicja 1.6: Statystykę T (X 1, X 2,... X n ) służącą do oszacowania nieznanego parametru populacji θ nazywamy estymatorem. Dla konkretnych wartości próby X 1 = x 1, X 2 = x 2,..., X n = x n pochodzącej z rozkładu F, liczbę T (x 1, x 2,... x n ) nazywamy wartością estymatora. Metody estymacji: Metoda momentów i kwantyli próbkowych Metoda największej wiarogodności Metoda najmniejszych kwadratów Estymacja przedziałowa
Estymacja parametrów Definicja 1.6: Statystykę T (X 1, X 2,... X n ) służącą do oszacowania nieznanego parametru populacji θ nazywamy estymatorem. Dla konkretnych wartości próby X 1 = x 1, X 2 = x 2,..., X n = x n pochodzącej z rozkładu F, liczbę T (x 1, x 2,... x n ) nazywamy wartością estymatora. Co w sytuacji gdy próba jest mała ; rozkład zmiennych losowych z próby jest nieznany? Ocena parametru może być obarczona pewnym błędem. Jak stwierdzić błąd ten jest duży czy mały? Można wyznaczyć przybliżony rozkład estymatora poprzez repróbkowanie danej próby danych
Metoda bootstrap - wprowadzenie 1 Niech X = (X 1, X 2,... X n ) próba losowa z rozkładu F, F - nieznany 2 θ - parametr z rozkładu F, T (F ) - statystyka wyznaczająca w oparciu o rozkład wartość t(f ) paramteru θ 3 Próba X wyznacza rozkład empiryczny F n. Można wyznaczyć wartość t n estymatora T w oparciu o wartości próby danych, otrzymując tym samym oszacowanie ˆθ parametru θ 4 Traktujemy próbę X jako populację i losujemy z niej próbę n - elementową X (próbę bootstrapową). Dla próby X można wyznaczyć wartość statystyki T, czyli oszacowanie ˆθ parametru ˆθ 5 Procedurę losowania prób bootstrapowych powtarza się m-krotnie, otrzymując ciąg estymatorów ˆθ 1, ˆθ 2,..., ˆ θ m
Metoda bootstrap - wprowadzenie Rozkład statystyki ˆθ ˆθ można użyć do oszacowania rozkładu ˆθ θ. A zatem podstawowe parametry statystyki T można szacować w oparciu o ˆθ = T (X ). Podstawowymi charakterystykami używanymi do oszacowania jakości estymatora będą: 1 wariancja 2 obciążenie
estymator wariancji Niech X = (X 1, X 2,... X n ) próba losowa z pewnego nieznanego rozkładu F, natomiast ˆθ 1, ˆθ 2,..., θˆ m ciąg estymatorów wyznaczonych w oparciu o m - prób bootstrapowych. Oznaczmy przez ˆθ = 1 m ˆθ i m i=1 wówczas wariancja jest szacowana następująco: Sˆ 2 ˆθ = 1 m 1 m ( ˆθ i ˆθ ) 2 i=1
Obciążenie estymatora Niech X = (X 1, X 2,... X n ) próba losowa z pewnego nieznanego rozkładu F, natomiast ˆθ 1, ˆθ 2,..., θ ˆ m ciąg estymatorów wyznaczonych w oparciu o m - prób bootstrapowych. Estymator obciążenia jest wyznaczany następująco: ˆb(ˆθ) = ˆθ ˆθ,
Metoda bootstrap - przykład Niech X będzie próbą 22 - elementową reprezentującą wzrost losowo wybranych studentów: 137.0 138.5 140.0 141.0 142.0 143.5 145.0 147.0 148.5 150.0 153.0 154.0 155.0 156.5 157.0 158.0 158.5 159.0 160.5 161.0 162.0 167.5 Wykonuje się losowanie prób bootstrapowych otrzymując: 138.5 138.5 140.0 141.0 141.0 143.5 145.0 147.0 148.5 150.0 153.0 154.0 155.0 156.5 157.0 158.5 159.0 159.0 159.0 160.5 161.0 162.0 137.0 138.5 138.5 141.0 141.0 142.0 143.5 145.0 145.0 147.0 148.5 148.5 150.0 150.0 153.0 155.0 158.0 158.5 160.5 160.5 161.0 167.5 Wariancja z próby: S 2 X = 76.7 Wariancje ze 100 prób bootstrapowych: (47.4, 115.6)
Bootstrap w R # Wprowadzamy wektor wzrostu dla próby studentów class =c (141,156.5,162,159,157,143.5,154,158,140,142,150, 148.5,138.5,161,153,145,147,158.5,160.5,167.5,155,137) # ustalamy rozmiar próby n <- length ( class ) # podajemy liczbę prób bootstrapowych N <- 50 stat <- numeric ( N) # wektor przechowujący wyniki dla wariancji # Pętla do generowania prób bootstrapowych for (i in 1:N){ classb = sample ( class, n, replace =T) stat [i] = var ( classb ) } boxplot ( stat ) stripchart ( stat )
Polecane literatura: P.I. Good, Resampling Methods. A Practical Guide to Data Analysis, 2005 E.L. Lehmann,Teoria estymacji punktowej, PWN Warszawa 1991