Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Wprowadzenie Jeśli S jest przestrzenią zdarzeń elementarnych (w statystyce nazywana populacją), to Prostąpróbąlosową (próbką statystyczną) o liczności n nazywamy ciąg niezależnych zmiennych losowych 1, 2,.., n, określonych na przestrzeni S i takich, że każda z nich ma ten sam rozkład. Ciąg wartości x 1, x 2,.., x n próby losowej 1, 2,.., n nazywamy realizacją próby losowej. Wybór n elementów populacji powinien być dokonany w taki sposób, żeby każdy podzbiór populacji, składający się z n elementów miał taką samą szansę wybrania
Zadanie: ocenić średni wzrost dorosłych Polaków. Jeśli wybieramy próbę spośród studentów nie jest to jednak próba wszystkich dorosłych Polaków Utożsamiamy populację z badaną cechą Szacujemy szukaną wartość ( średni wzrost) obliczając pewną wartość z próby Niech T( 1, 2,.., n ), w naszym rozumieniu, dobrze przybliża wartość nieznanego wskaźnika. Taką funkcję T nazywamy statystyką. Każda tak rozumiana statystyka jest zmienną losową, a zatem posiada określony rozkład i ten rozkład odgrywa bardzo ważną rolę w analizie statystycznej.
Rozkład średniej w prostej próbie losowej Średnią, w prostej próbie losowej 1, 2,.., n o liczności n, nazywamy statystykę 1 + 2 n +... + n Podana definicja jest szczególnym przypadkiem statystyki T( 1, 2,.., n ) Średnia jest zmienną losową, a x jest konkretną wartością z jednej konkretnej próby. Możemy wylosować kilka prób 100 elementowych i z każdej otrzymać inną wartość np. x`176,5; x 177,8...
Prawo Wielkich Liczb (PWL) Prawo Wielkich Liczb: Niech będzie zmienną losową o wartości oczekiwanej µ i skończonej wariancji σ 2 < i niech 1, 2,.., n będzie prostą próbą losową z rozkładu zmiennej. Wówczas dla dowolnie małej dodatniej liczby ε i n ( [ µ ε, µ + ε ]) P 1
Charakterystyki rozkładu wartości średniej Zakładając, że prosta próba losowa 1, 2,.., n pochodzi z rozkładu o wartości średniej µ i wariancji σ 2, Otrzymamy ( ) n n n n n n 2 2 2 2 2 2... 1. )... ( 1 )... ( 1 2 1 2 1 σ σ σ σ σ µ µ µ µ µ µ µ µ + + + + + + + + + n σ σ µ µ zatem
Centralne twierdzenie graniczne Jeśli 1, 2,.., n jest prostą próbą losową z rozkładu o wartości średniej µ i skończonej wariancji σ 2. Wówczas dla prób losowych o dużej liczebności rozkład standaryzowanej średniej jest bliski standardowemu rozkładowi normalnemu N(0,1), tzn rozkład średniej jest w przybliżeniu równy rozkładowi N( µ, σ / n) Zatem dla dowolnych a i b (a b) i zmiennej losowej Z o standardowym rozkładzie normalnym P a µ σ / n b P ( a Z b) Φ ( b) Φ ( a )
Zastosowanie - przykład P Rozkład naszego codziennego dojazdu do pracy jest w przybliżeniu jednostajny na odcinku ( 0,5h,1h) a jednocześnie czasy dojazdów w różne dni są niezależne. Jakie ( w przybliżeniu) jest prawdopodobieństwo zdarzenia, że średni dzienny dojazd w ciągu 30 dni przekroczy 0,8h (48 min) Rozwiązanie: niech i oznacza czas dojazdu w i-tym dniu, i1,,30 i ma rozkład jednostajny na odcinku [0,5, 1], zatem stąd 0,5 + 1 3 µ oraz σ i 2 4 48 1 * 2 i 3 4 30 > 0, 8 48 1 * 3 4 30 P ( Z > ( 1 0,5 ) 1, 89 12 ) 1 2 Φ 1 48 (1, 89 ) 0, 03
Rozkład częstości Zakładamy, że zmienna z rozkładu, z którego pochodzi próba, może przyjmować tylko dwie wartości: oznaczmy 1, gdy badany obiekt posiada określoną cechę 0, gdy obiekt tej cechy nie posiada pp(1) q1-pp(0) Liczba p, zwana proporcją jest równa prawdopodobieństwu posiadania wybranej cechy (własności) przez losowo wybraną jednostkę. Zauważmy, że µ 1*p+0*(1-p)p, stąd też wynika że rozpatrywany wcześniej problem szacowania wartości średniej jest w tym konkretnym przypadku jednoznaczny z szacowaniem proporcji. Przykłady zastosowań: szacowanie proporcji produktów wadliwych wyprodukowanych w ciągu miesiąca, albo leworęcznych uczniów przychodzących do I klasy
Rozkład częstości Częstością występowania w prostej próbie losowej nazywamy statystykę pˆ n i 1 gdzie 1, 2,.., n jest prostą próbą losową z rozkładu dwupunktowego o wartościach 0 i 1. Statystykę p obliczoną dla konkretnych wartości w próbie nazywamy wartością częstości n i
Twierdzenia o częstości występowania 1. Częstość występowania pomnożona przez liczność próby ma rozkład dwumianowy (Bernouliego) B (n, p). Ponadto 2. Dla dowolnych rzeczywistych a i b, gdy n n p p p p p ) (1 2 ˆ ˆ σ µ ) ( ) ( ) (1 ˆ a b b n p p p p a P Φ Φ
Przykład zastosowań W populacji dorosłych Polaków 39% ma kłopoty ze snem. Jakie jest prawdopodobieństwo, że w próbie 100 elementowej, częstość osób mających kłopoty ze snem nie przekroczy 0,33. Interesuje nas P( pˆ 0,33) P Dane: a-, b33, n100 33 + 0.5 39 ( pˆ 33 + 0.5) Φ Φ( 1.13) 0. 1292 100*0.39*0.61
Estymacja i estymatory.
Techniki wnioskowania statystycznego W statystyce matematycznej stosowane są dwie techniki wnioskowania: Estymacja polegająca na oszacowaniu z pewną dokładnością określonych wartości charakteryzujących rozkład badanej cechy np. częstości, wartości oczekiwanej, wariancji. Weryfikacja hipotez statystycznych polegająca na sprawdzeniu słuszności przypuszczeń dotyczących postaci rozkładu cechy (testy zgodności) bądź wartości jego parametrów (parametryczne testy istotności) Obie wymienione techniki uzupełniają się wzajemnie.
Co to jest estymator Zakładamy, że rozkład badanej cechy w populacji generalnej jest opisany za pomocą dystrybuanty F (x;θ), gdzie Θ oznacza parametr od którego zależy ta dystrybuanta (taki jak np. λ w rozkładzie Poissona). Nieznana wartość parametru Θ będzie szacowana (obliczona) na podstawie próby n-elementowej ( 1,., n )
Definicja estymatora Estymatorem T n parametru Θ rozkładu populacji generalnej nazywa się statystykę (dowolną) z próby T n t ( 1,..., n ), która służy do oszacowania wartości liczbowej tego parametru. Skoro szacunku parametru dokonuje się w oparciu o dane z próby, zatem istnieje możliwość popełnienia błędu ( niech go oznacza litera d), który nazywany jest błędem szacunku (estymacji) parametru Θ d T n -Θ
Błąd estymacji Błąd d jest też zmienną losową ( zależną od próby losowej), a za miarę tego błędu przyjmuje się E (T n Θ) 2 Zauważmy, że jeśli E (T n ) Θ wtedy wyrażenie określające, jest wariancją D 2 (T n ) estymatora T n,, a odchylenie standardowe D(T n ) jest średnim (standardowym) błędem szacunku parametru Θ, błędem względnym oszacowania jest iloraz D(T n ) / Θ
Estymacja i estymatory Rozpatrywane dotychczas statystyki: średnia i częstość należą do najczęściej stosowanych w praktyce. W przypadku gdy statystyki używane są do szacowania (przybliżania) nieznanych parametrów rozkładu zmienne losowej noszą specjalną nazwę: Statystykę T( 1, 2,.., n ), służącą do oszacowania nieznanego parametru populacji nazywamy estymatorem. Dla konkretnych wartości próby 1 x 1, 2 x 2,.., n x n liczbę T( 1, 2,.., n ) nazywamy wartością estymatora
Estymacja i estymatory W zależności od tego co chcemy oszacować rozróżnia się estymację parametryczną, gdy szacowane są parametry rozkładu zmiennej (np. E(), D 2 ()) Estymację nieparametryczną, gdy próbujemy wnioskować o postaci rozkładu cechy w populacji. Podstawy teorii estymacji sformułował Karl Pearson na przełomie I i wieku. 1. Pierwszym krokiem w estymacji jest wylosowanie z populacji n - elementowej próby, po czym 2. na podstawie badań próby - obliczeń wykonanych na danych zawartych w próbce 3. wyciągamy wnioski dotyczące badanej cechy w całej populacji.
Rodzaje estymacji wg kryterium wyniku Estymacja punktowa ma zastosowanie gdy, na podstawie danych z próby, chcemy ustalić liczbową wartość określonego parametru rozkładu cechy w całej populacji Estymacja przedziałowa polega na wyznaczeniu granic przedziału liczbowego, w którym, z określonym prawdopodobieństwem, zawiera się wartość szacowanego parametru Podstawowym narzędziem szacowania nieznanego parametru jest estymator obliczony na podstawie próby. np. dla wartości oczekiwanej jest to średnia arytmetyczna, albo średnia ważona. Liczba możliwych estymatorów konkretnego parametru rozkładu może być duża ale, bierze się pod uwagę tylko te, które posiadają określone właściwości (cechy).
Cechy dobrego estymatora Zgodny Nieobciążony Najefektywniejszy Estymator jest zgodny jeśli jest stochastycznie zbieżny z szacowanym parametrem. W praktyce oznacza to, że im większa próba (liczność próbki) tym większe prawdopodobieństwo, że estymator przyjmie wartości bliższe szacowanemu parametrowi. Przykład im więcej ćwiczymy tym bardziej prawdopodobny sukces.
Zbieżność stochastyczna Ciąg zmiennych losowych ( 1, 2,.., n ){ n } jest stochastycznie zbieżny do stałej c, jeśli dla dowolnego ε>0, jest spełniona zależność lim P( c < ε ) n 1 n Oznacza to, że prawdopodobieństwo zdarzenia ( c < ε ) n wzrasta do 1, co nie oznacza zbieżności w sensie analizy matematycznej
Estymator zgodny Estymator T n jest zgodny jeśli dla dowolnego ε>0. lim P { T n Θ < ε } n Jeśli wybrany estymator nie jest zgodny to zwiększenie liczebności próby może go oddalić od wartości szacowanej. Przykład estymatorem średnich wyników grupy jest średnia ocena najlepszego studenta, tak skrajnie zdefiniowany estymator nie jest zgodny, bo zwiększenie liczności grupy zwiększa prawdopodobieństwo oddalania go od średniej oceny w całej grupie. Jeśli estymator jest zgodny to jest asymptotycznie nieobciążony 1
Podstawowe własności estymatorów Tw.2: Jeśli estymator jest nieobciążony lub asymptotycznie nieobciążony oraz jego wariancja spełnia relację 2 D ( T ) 0 lim n n to jest on estymatorem zgodnym Estymator T n parametru Θ jest nieobciążony jeśli spełniona jest relacja E (T n ) Θ Jeśli ta relacja nie zachodzi, to estymator nazywamy obciążonym, a wielkość b (T n ) E (T n ) - Θ nazywamy obciążeniem estymatora
Cechy dobrego estymatora - Nieobciążoność Nieobciążoność estymatora oznacza, że wartość oczekiwana estymatora nieobciążonego jest dokładnie równa wartości szacowanego parametru. Obciążoność oznacza, że wartości dostarczane przez taki estymator obciążone są błędem systematycznym
Cechy dobrego estymatora - Efektywność Efektywność estymator jest tym efektywniejszy im mniejsza jest jego wariancja. Spośród wszystkich estymatorów, które są zgodne i nieobciążone wybieramy ten, który ma najmniejszą wariancję, jest najefektywniejszy.
Własności estymatora -podsumowanie Jeśli dany jest zbiór estymatorów T n1,... T n r nieobciążonych, to ten estymator, który ma w tym zbiorze najmniejsza wariancję, jest estymatorem najefektywniejszym. Tw. Estymator parametru statystycznego powinien być: nieobciążony zgodny najefektywniejszy Metody wyznaczania estymatorów: metoda momentów, metoda największej wiarygodności