Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Podobne dokumenty
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wnioskowanie statystyczne. Statystyka w 5

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Metody Statystyczne. Metody Statystyczne.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Pobieranie prób i rozkład z próby

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Spis treści 3 SPIS TREŚCI

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Estymacja punktowa i przedziałowa

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

STATYSTYKA MATEMATYCZNA

Monte Carlo, bootstrap, jacknife

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Rozkłady statystyk z próby

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

Testowanie hipotez statystycznych.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

STATYSTYKA

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Statystyka w przykładach

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Rozkłady statystyk z próby. Statystyka

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Statystyka w analizie i planowaniu eksperymentu

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Statystyka w analizie i planowaniu eksperymentu

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka matematyczna i ekonometria

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Prawdopodobieństwo i statystyka

Statystyka w analizie i planowaniu eksperymentu

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Metody probabilistyczne

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

STATYSTYKA I DOŚWIADCZALNICTWO

METODY STATYSTYCZNE W BIOLOGII

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

STATYSTYKA wykład 5-6

Grupowanie materiału statystycznego

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Estymacja parametrów w modelu normalnym

Statystyka matematyczna dla leśników

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Statystyka matematyczna

Oszacowanie i rozkład t

Analiza niepewności pomiarów

166 Wstęp do statystyki matematycznej

WYKŁAD 5 TEORIA ESTYMACJI II

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

Kolokwium ze statystyki matematycznej

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Statystyka matematyczna

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Testowanie hipotez statystycznych

Z poprzedniego wykładu

Estymacja parametrów rozkładu cechy

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

W1. Wprowadzenie. Statystyka opisowa

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Zmienna losowa. Rozkład skokowy

Testowanie hipotez statystycznych.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Rozkłady zmiennych losowych

Transkrypt:

Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu

Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego) Jeśli X 1,..., X n są zmiennymi losowymi niezależnymi o jednakowym rozkładzie o wartości oczekiwanej m oraz odchyleniu standardowym to rozkładem granicznym zmiennej losowej S n = X 1 +... + X n przy n jest rozkład normalny: ~ N( nm, n) Przykład jak należy rozumieć to twierdzenie: S n n Rzucamy 400 razy monetą. Rozważmy zmienne losowe X 1,..., X 400. Zmienna X i = 1 jeśli wyrzucimy orła, X i = 0 jeśli reszkę. Zmienne te mają rozkład zero-jedynkowy o wartości oczekiwanej ½ i odchyleniu standardowym 1/ 2(1 1/ 2). S 400 to suma wyrzuconych orłów. CTG mówi, że w przybliżeniu możemy przyjąć, że S 400 ma rozkład N(400*1/2, 1/ 2(1 1/ 2) 400 ) Powtarzając serie rzutów 400 rzutów kostką, będziemy wyrzucali około 200 orłów, raz więcej raz mniej. Liczba wyrzuconych orłów będzie się wahać zgodnie z podanym rozkładem. X 1,..., X n mogą mieć dowolny rozkład np. Poisson. Ważne, aby miały jednakowy i były niezależne.

Centralne twierdzenie graniczne - inne sformułowanie Jeśli X 1,..., X n są zmiennymi losowymi niezależnymi o jednakowym rozkładzie o wartości oczekiwanej m oraz odchyleniu standardowym to: gdzie S n = X 1 +... + X n S n N( m, przy n n n ), Jak należy rozumieć to sformułowanie. Odnosząc to do przykładu z poprzedniego slajdu. Częstość względna wyrzuconych orłów gdy będziemy powtarzać serie400 rzutów monetą będzie miała rozkład: N(1/ 2, 1/ 2*(1 1/ 2) 400 Czyli około połowa to będą orły, raz więcej raz mniej niż połowa. Będzie to się wahać zgodnie z podanym rozkładem normalnym. )

Statystyka matematyczna

Przypomnijmy: Statystyka opisowa: opisanie zebranych (wylosowanych) wyników, np. za pomocą histogramu, za pomocą miar: średniej, wariancji, współczynnika asymetrii, skupienia itd. Rachunek p-stwa: Znamy rozkład i na podstawie rozkładu możemy obliczyć p-stwo. Np. wiemy, że liczba wypadków spowodowanych przez jakiegoś kierowcę w ciągu roku ma rozkład Poisson o parametrze 1. I dzięki temu możemy obliczyć jakie jest p-stwo, że np. spowoduje 1 wypadek w ciągu roku. Ale czy to się zdarzy tego nie wiemy.

Statystyka matematyczna Statystyka matematyczna (wnioskowanie statystyczne): znamy wynik zdarzenia losowego, ale nie znamy rozkładu. Na podstawie tego wyniku chcemy ustalić jaki jest rozkład, jakie są jego parametry. Czyli mówiąc nieprecyzyjnie sytuacja odwrotna niż w rachunku p-stwa Np. 1. Wybieramy losowo grupę kierowców i w ciągu roku obserwujemy ile wypadków spowodowali czyli odnotowujemy wyniki zdarzenia losowego. Znając te wyniki naszym zadaniem jest ustalenie jaki jest rozkład. Poisson? Z jakim parametrem? Dzięki temu będziemy mogli przewidywać ile wypadków można sie spodziewać w kolejnych latach. 2. Rzucamy wielokrotnie kostką czyli znamy wyniki losowania i na podstawie tego ustalamy jaki jest rozkład czyli chcemy sprawdzić czy kostka do gry jest rzetelna 3. Analogicznie jak z kostką chcemy sprawdzić na podstawie uzyskanych wyników czy generator liczb losowych działa poprawnie.

Wnioskowanie statystyczne (Statistical Inference) Wnioskowanie statystyczne ma na ogół dwie formy: estymacja (szacowanie) parametrów rozkładu cechy w populacji na podstawie wyników losowej próby. Np. wartości oczekiwanej, wariancji itd. testowanie hipotez, które są przypuszczeniami dotyczącymi wartości parametrów rozkładu lub postaci rozkładu. Np. stawiamy hipotezę, że uzyskane wyniki wskazują na rozkład normalny i sprawdzamy czy hipoteza jest trafna. W obu przypadkach wnioskowanie zaczynamy od utworzenia odpowiedniej statystyki z próby.

Próba. Statystyka z próby. Próba z populacji o rozkładzie X jest ciągiem zmiennych losowych niezależnych (X 1,..., X n ), każda z nich ma taki sam rozkład jak rozkład w populacji. Statystyka (Statistic) z próby (X 1,..., X n ) jest funkcją tych zmiennych losowych Przykłady statystyk: Z X 1 X n Z X 1 X n n Wynik próby to doświadczenie losowe. Za każdym razem możemy otrzymać inne wyniki. I tym samym inną wartość statystyki. Np. badamy wzrost ludzi. Za pierwszym razem wylosujemy grupę ludzi o wzroście 170,171,173,162,175. Gdy przeprowadzimy kolejne badanie wynikiem próby może być już grupa ludzi o innym wzroście.

Estymacja

Rodzaje estymacji punktowa (point estimation): oszacowanie dokładnej wartości parametru rozkładu i podanie jaki jest błąd tego oszacowania przedziałowa (interval estimation): oszacowanie przedziału do jakiego należy parametr rozkładu tzw. przedziału ufności (confidence interval) i podanie poprawności tego oszacowania za pomocą tzw. współczynnika ufności (confidence level, coverage probability).

Estymacja punktowa średniej w populacji Do estymacji średniej w populacji używamy statystyki będącej średnią z próby czyli X1 X n Z n Statystykę, którą używamy do estymacji nazywamy estymatorem. Przeprowadźmy estymację wzrostu wśród pewnej grupy ludzi. Zobacz w11estymacja.xlsx zakładka "EstymacjaŚredniej": komórki F5:F34 to próba komórka H12 to wartość estymatora czyli oszacowany średni wzrost komórka H15 to błąd tego oszacowania Jako błąd oszacowania przyjmuje się odchylenie standardowe estymatora. Na podstawie CTG, wiemy, że ten estymator ma rozkład N( m, ) n gdzie każda X i ma rozkład o średniej m i odchyleniu standardowym. Czyli błąd wynosi n Ale ile wynosi? W praktyce tego nie będziemy wiedzieli. Więc jako błąd losowy 2 2 bierzemy odchylenie standardowe liczone z próby: ( x1 x) ( xn x) gdzie x 1,...,x n to wartości próby, zaś x to średnia z próby Uwaga: dzielimy przez "n-1" a nie przez "n" jak przy obliczaniu odchylenia dla danych empirycznych. n 1

Estymacja punktowa średniej w populacji (cz. 2) Wnioski z przeprowadzonej estymacji: Wartość estymatora na ogół nie jest równa szacowanemu parametrowi. Ponadto z różnych prób uzyskujemy różne wartości. Estymatorów danego parametru może być wiele. Który jest najlepszy? Jakie są kryteria wyboru najlepszego estymatora? A może lepszym estymatorem będzie mediana z próby. Przejdźmy do następnego slajdu. Stosuje się oznaczenia: rzeczywisty parametr: bez "daszka", np. rzeczywiste odchylenie stand. rozkładu: estymatora tego parametru: z "daszkiem", np. estymatora dla odchylenie stand. rozkładu: ˆ

Estymator ˆ Własności estymatorów parametru jest nieobciążony (unbiased), gdy zachodzi: E( ˆ) Estymator obciążony to taki, który nie jest nieobciążony. Obciążeniem (bias of point estimator)estymatora nazywamy różnicę: ˆ Niech i będą estymatorami nieobciążonymi parametru. Estymator 1 jest efektywniejszy (more efficient) od estymatora 2 jeśli przy tej samej liczebności próby zachodzi: Estymator ˆ parametru jest zgodny (consistent), gdy zachodzi: ˆ przy n n, E( ˆ) 2 1 ˆ D 2 ˆ 2 ( ) ( ˆ 1 D 2) Praktyczne rozumienie zgodności: im większa próbka tym estymator powinien być bliższy szacowanemu parametrowi (tym mniejszą powinien mieć wariancję). ˆ ˆ

Własności estymatorów (cz. 2) Oba estymatory: średnia i mediana z próby są nieobciążone. Estymator będący średnią z próby jest efektywniejszy od estymatora będącego medianą z próby. Wariancja pierwszego estymatora wynosi (D 2 X)/n, drugiego (D 2 X)*sqrt( /2), gdzie X jest rozkładem badanej populacji. Estymator będący średnią jest zgodny (wariancja dąży do zera ze wzrostem liczebności próby). Przykład estymatora niezgodnego: (X 1 +X n )/2 czyli średnia z pierwszego i ostatniego elementu próby. Jego wariancja wynosi D 2 X/2 i nie dąży do D 2 X ze wzrostem liczebności próbki. Zatem zastosowany przez nas estymator do oszacowania średniej czyli średnia z próby ma wszystkie pożądane własności. Ponadto można dowieść, że każdy inny estymator jest mniej efektywny.

Estymacja przedziałowa średniej w populacji Przypadek I (teoretyczny, rzadko spotykany w praktyce): wiemy, że rozkład cechy w populacji jest normalny i wiemy ile wynosi jego odchylenie standardowe. Przypadek III: wiemy, że rozkład cechy w populacji jest normalny, ale nie wiemy ile wynosi jego odchylenie standardowe i mamy małą próbę. Przypadek II (najbardziej realistyczny): nie znamy rozkładu (nie musi być normalny) ani odchylenia standardowego Korzystamy z CTG to znaczy statystyka będąca średnią z próbki przy odpowiednio dużej próbce (minimum 30) ma rozkład bliski normalnemu. Przyjmując to założenie dalej postępujemy jak w przypadku I, jako nieznaną wstawiamy odchylenie 2 2 standardowe z próbki: ( x1 x) ( xn x) (dzielimy przez "n-1") s n 1 Obliczenia dla wszystkich przypadków: w11estymacja.xlsx zakładka "EstymacjaŚredniej". Potrzebne rozkłady w zakładkach: "Rozkład_normalny", "Rozkład_tStudenta"

Zadanie dla przypadku I Zadania na estymację przedziałową Wyznacz 99% przedział ufności dla średniej wzrostu w populacji na podstawie 30 elementowej próby. Wiemy, że rozkład wzrostu w populacji jest normalny i znane jest odchylenie standardowe, które wynosi 4,99 Losowanie 30 elementowej próby dokonajmy z danych podanych w Excelu: w11estymacja.xlsx zakładka "EstymacjaŚredniej" kolumna F5:F34 Zadanie dla przypadku III Wyznacz 99% przedział ufności dla średniej wzrostu w populacji na podstawie 10 elementowej próby. Wiemy, że rozkład wzrostu w populacji jest normalny, ale nie znamy odchylenia standardowego Losowanie 10 elementowej próby dokonajmy z danych podanych w Excelu: w11estymacja.xlsx zakładka "EstymacjaŚredniej" kolumna F5:F14 Zadanie dla przypadku II Wyznacz 99% przedział ufności dla średniej wzrostu w populacji na podstawie 30 elementowej próby. Nie wiemy czy rozkład wzrostu w populacji jest normalny i nie znamy odchylenia standardowego Losowanie 30 elementowej próby dokonajmy z danych podanych w Excelu: w11estymacja.xlsx zakładka "EstymacjaŚredniej" kolumna F5:F34

Maksymalny błąd szacunku przedziału ufności (maximum error of estimate) Błąd ten przyjmuje się jako długość przedziału ufności, ale w przypadku przedziałów symetrycznych przyjmuje się jako połowę jego długości.