METODY STATYSTYCZNE. Studia stacjonarne, semestr zimowy 2017/2018. Motto III: In God we trust. All others must bring data (z internetu)

Podobne dokumenty
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Rozkłady statystyk z próby

Estymacja parametrów rozkładu cechy

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wnioskowanie statystyczne. Statystyka w 5

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Estymacja punktowa i przedziałowa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

1.1 Wstęp Literatura... 1

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Weryfikacja hipotez statystycznych

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

1 Estymacja przedziałowa

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Rozkłady statystyk z próby. Statystyka

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Dokładne i graniczne rozkłady statystyk z próby

Estymacja przedziałowa. Przedział ufności

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Testowanie hipotez statystycznych

Statystyka matematyczna dla leśników

WYKŁAD 5 TEORIA ESTYMACJI II

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Pobieranie prób i rozkład z próby

Spis treści 3 SPIS TREŚCI

1 Podstawy rachunku prawdopodobieństwa

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

STATYSTYKA MATEMATYCZNA

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

STATYSTYKA

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

LABORATORIUM 6 ESTYMACJA cz. 2

Oszacowanie i rozkład t

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Wykład 3 Hipotezy statystyczne

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Statystyka w przykładach

Testowanie hipotez statystycznych.

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Testowanie hipotez statystycznych.

Zawartość. Zawartość

Testowanie hipotez statystycznych.

Estymacja parametrów w modelu normalnym

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Metody Statystyczne. Metody Statystyczne.

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Zwiększenie wartości zmiennej losowej o wartość stałą: Y=X+a EY=EX+a D 2 Y=D 2 X

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Na podstawie dokonanych obserwacji:

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Metody probabilistyczne

Statystyka matematyczna

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Własności statystyczne regresji liniowej. Wykład 4

Grupowanie materiału statystycznego

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Porównanie dwóch rozkładów normalnych

Wprowadzenie do analizy korelacji i regresji

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Monte Carlo, bootstrap, jacknife

Rachunek Prawdopodobieństwa Anna Janicka

Kolokwium ze statystyki matematycznej

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Transkrypt:

METODY STATYSTYCZNE Studia stacjonarne, semestr zimowy 017/018 Motto I: Prawie każdy jest statystykiem ale niewielu o tym wie (inspiratorzy: Molier i Joseph Schumpeter) Motto II: Statystyka jest bodajże ostatnim reliktem mistyki dnia codziennego (Stanisław Lem) Motto III: In God we trust. All others must bring data (z internetu) Motto IV: Żadnej sprawiedliwości nie ma i być nie może - dobrze, że jest statystyka - i z tego trzeba się cieszyć (z Szewców Witkacego) 1

Spis treści 1. ROZKŁADY STATYSTYK Z PRÓBY... 3 1.1. ZNACZENIE ROZKŁADÓW STATYSTYK Z PRÓBY... 4 1. STOPNIE SWOBODY... 8 1.3. ZADANIA... 10. ESTYMACJA PARAMETRÓW W POPULACJI GENERALNEJ (ZAPOWIEDŹ KOLEJNEGO TEMATU)... 13

1. ROZKŁADY STATYSTYK Z PRÓBY Przypomnienie (uproszczone definicje) Rozkład zmiennej losowej to przyporządkowanie wszystkim możliwym realizacjom (wartościom) tej zmiennej prawdopodobieństw ich wystąpienia. Dwie podstawowe (choć nie jedyne) formy opisu rozkładu to funkcja (gęstości) prawdopodobieństwa i dystrybuanta. Znając rozkład zmiennej dysponujemy pełną informacją na jej temat. Statystyka z próby to zmienna losowa będąca dowolną funkcją, której dziedziną są wszystkie możliwe realizacje zmiennej losowej (elementy próby). Zwana jest również parametrem empirycznym próby losowej. Przykłady statystyk z próby: średnia, wariancja, frakcja. Pytanie: Czy statystykami z próby są: mediana, rozstęp, wartość maksymalna? 3

1.1. ZNACZENIE ROZKŁADÓW STATYSTYK Z PRÓBY Ważność omawianego tematu wynika z faktu, że estymatory i statystyki testowe są statystykami z próby, zatem znajomość ich rozkładu pozwala np. sprawdzić własności estymatora lub wyznaczyć obszar krytyczny w teście. W większości zastosowań w standardowym wnioskowaniu statystycznym wystarczy znajomość kilku rozkładów: normalnego, Studenta (t), chi-kwadrat, Fishera-Snedecora (F). Pytania: 1. Jak można, zakładając normalny rozkład zmiennej, ustalić czy wartość oczekiwana średniej z próby jest równa średniej w populacji generalnej? Z jaką własnością estymatora mają Państwo w tym momencie skojarzenia?. Proszę, zakładając dowolny rozkład zmiennej i liczebność próby, podać sposób obliczania prawdopodobieństwa, że odchylenie wartości estymatora od parametru nie przekroczy zadanej z góry wartości. Z jakimi aspektami wnioskowania statystycznego mają Państwo w tym momencie skojarzenia? 4

W większości przypadków użyteczność statystyk z próby nie jest związana bezpośrednio z ich definicją. Najczęściej postać statystyki testowej jest odmienna od występujących po prawej stronie równań (1) (3). Przykład 1 Rozkład χ o n stopniach swobody jest zdefiniowany następująco: n n U i i 1 (1) gdzie U i (i = 1,,, n) są niezależnymi zmiennymi o rozkładzie normalnym standardowym Przykład Rozkład t (Studenta) o n stopniach swobody jest zdefiniowany następująco: U t n n () Przykład 3 Rozkład F (Fishera-Snedecora) jest zdefiniowany następująco: / n (3) 1 1 F n 1 / n / n gdzie i oznaczają niezależne zmienne losowe o rozkładzie χ o liczbie 1 stopni swobody, odpowiednio, n 1 i n. 5

Pytanie odwołujące się do intuicji: Jaki rozkład ma statystyka testowa testu specyfikacji RESET dla modelu regresji z k zmiennymi objaśniającymi): [ RRSS URSS]/( p 1) R URSS /( n k 1) gdzie RRSS jest sumą kwadratów reszt modelu z narzuconym ograniczeniem (zdefiniowanym za pomocą liczby p), zaś URSS sumą kwadratów reszt modelu bez ograniczenia. Pytanie: Dyskutowany jest problem czy zmiany podatków mają wpływ na zmiany PKB. W celu weryfikacji tego stwierdzenia należy oszacować model, w którym zmienną objaśnianą są zmiany PKB, zaś jedną ze zmiennych objaśniających zmiany podatków. jaki test należy zastosować jaki rozkład ma statystyka testowa (i przy jakich założeniach) 6

Ostrzeżenie! W niektórych przypadkach suma zmiennych niezależnych o określonym rozkładzie ma taki sam rozkład (rozkład addytywny) jednak nie jest to reguła. Pytanie 1: Proszę podać przykłady rozkładów addytywnych i nie-addytywnych. Pytanie : Czy rozkład χ jest addytywny? 7

1. STOPNIE SWOBODY Jednym z ważniejszych pojęć w badaniu rozkładów statystyk z próby jest liczba stopni swobody. Jest ona zdefiniowana jako liczba wszystkich pomiarów (tu: liczebność próby) pomniejszonej o minimalna liczbę ograniczeń niezbędnych do oszacowania parametru. W wielu przypadkach liczba stopni swobody jest widoczna wprost jako liczebność próby pomniejszona o liczbę estymowanych parametrów. Bardziej intuicyjnie można zdefiniować liczbę stopni swobody na gruncie fizyki jako minimalną liczbę zmiennych niezależnych niezbędnych do jednoznacznego opisania zjawiska. 8

Przykładowo, zmienna o rozkładzie χ (równanie 1) jest zdefiniowana przez n zmiennych niezależnych (U), zatem liczba stopni swobody wynosi n. Zmienna o rozkładzie χ zdefiniowana następująco: ( n 1) S ( X ) ma n-1 stopni swobody, ponieważ jej wartość można wyznaczyć za pomocą n-1 obserwacji, jeżeli znana jest średnia z próby (która musi być obliczona). Ścisła definicja liczby stopni swobody nie jest niezbędna w praktyce statystycznej, ponieważ dla konkretnych rozkładów i związanych z nimi testów może być ona obliczana według prostych algorytmów. (link dla zainteresowanych czymś więcej http://courses.ncssm.edu/math/stat_inst/pdfs/dfwalker.pdf ) 9

1.3. ZADANIA 1. W Akademii Podlaskiej w Siedlacach w 004 r. przeprowadzono doświadczenie polegające na 50-krotnym rzucie każdą z 1 monet o nominale 1 euro pochodzących z różnych krajów. Każda z serii rzutów była przeprowadzana przez niezależny zespół. W przypadku monety belgijskiej uzyskano 140 czyli 56% awersów. Zdarzenie zostało opisane przez angielska prasę futbolową przed meczem Anglia-Belgia inaugurującym Mundial 004. Dziennikarz doszedł do wniosku, że belgijska moneta jest niesymetryczna, zatem należy dopilnować aby w losowaniu stron sędzia rzucał inną monetą. Co mógłby mieć na ten temat do powiedzenia statystyk? (Opis zdarzenia na podstawie: http://www.stat.columbia.edu/~gelman/research/published/dicerev.pdf). Zmienna przy liczbie stopni swobody n zbieżnej do nieskończoności ma rozkład zbieżny do rozkładu normalnego (patrz: zadanie 3b). Z drugiej strony zmienna o takim rozkładzie nie może przyjmować wartości ujemnych. Jak można wytłumaczyć tę pozorną sprzeczność? 3. Zmienna w populacji generalnej ma rozkład normalny o parametrach m= 5 i σ=. a/ Proszę za pomocą dwóch metod wyznaczyć prawdopodobieństwo, że wariancja obliczona na podstawie 10-elementowej próby przekroczy wartość 5. W pierwszym przypadku należy założyć, że wariancja ma rozkład normalny, w drugim skorzystać z rozkładu χ. O czym świadczy rozbieżność wyników? Przypomnienie: jeżeli zmienna ma rozkład normalny o parametrach m i σ, to nieobciążona wariancja z próby ma rozkład o parametrach σ i 4. n 1 10

b/ Korzystając ze zbieżności rozkładu zmiennej z liczbą stopni swobody n do rozkładu normalnego o parametrach n 1 i 1proszę policzyć przybliżoną wartość w. w. prawdopodobieństwa dla próby 31 i 61 elementowej, a następnie porównać analogiczne wyniki uzyskane za pomocą rozkładu χ. 4. Proszę wyprowadzić wzór na przedział ufności dla średniej w populacji generalnej, przyjmując dowolne założenia. 5. Poziom wody w Wiśle we Włodawie jest zmienną o rozkładzie normalnym z wartością oczekiwana 3 metry. Prawdopodobieństwo, że średnia z 10 lat przekroczy 3.3 metra wynosi 0.087. a/ Ile wynosi odchylenie standardowe? b/ Ile wynosi prawdopodobieństwo, że powyższa średnia będzie niższa co najmniej o 50 cm. od 15 - letniej średniej poziomu wody w Colorado River w Yumie mającego rozkład normalny N(3., 0.8). c/ Ile wynosi prawdopodobieństwo, że wariancja poziomu wody w Wiśle dla 10 losowych lat przekroczy 0,375 m. d/ Ile wynosi prawdopodobieństwo, że iloraz wariancji poziomu wody w CR i Wiśle (odpowiednio, dla 15 i 10 lat) przekroczy 7,7. 6. Zgodnie z dyrektywą Komisji Europejskiej długość ogona cebuli musi być mniejsza niż 4 cm. Komisarz Europejski 007 zbadał losowo 6 cebul na targowisku w pewnym kraju kandydującym do UE, stwierdzając, że. ich ogony miały średnią długość 3,8 cm. przy wariancji 0,95 cm, zaś rozkład długości jest normalny. a/ Czy na tej podstawie można stwierdzić, z ryzykiem błędu I rodzaju 0,03, że cebule na tym targowisku spełniają przeciętnie normy europejskie? b/ Z jakim minimalnym ryzykiem można tak stwierdzić? c/ Z jakim minimalnym ryzykiem można stwierdzić, że mniej niż 84,15% cebul na targowisku spełnia normy europejskie, jeżeli przyjąć założenie, że średnia długość ogona cebuli wynosi 3,6 cm? 11

Wskazówka: 0,8415 to prawdopodobieństwo, że zmienna przyjmie wartość mniejszą niż górne ograniczenie obszaru jednosigmowego. 1

. ESTYMACJA PARAMETRÓW W POPULACJI GENERALNEJ (ZAPOWIEDŹ KOLEJNEGO TEMATU) Ta dziedzina statystyki zajmuje się obliczaniem przybliżonych wartości (czyli estymacją lub szacowaniem) parametrów charakteryzujących populację generalną na podstawie próby losowej. Estymatorem T n parametru θ w populacji generalnej nazywamy statystykę z próby (T n ) służącą do oszacowania nieznanej wartości tego parametru. Przykłady Średnia wartość zmiennej w próbie jest estymatorem średniej w populacji generalnej (np. na podstawie średniej wartości dochodu w GUS-owskiej próbie gospodarstw domowych wnioskujemy o średniej dla kraju czy danej grupy społecznej). Odsetek wyróżnionych elementów w próbie (lub frakcja) jest estymatorem odsetka (lub frakcji) wyróżnionych elementów w populacji generalnej (np. na podstawie odsetka osób deklarujących w sondażu udział w wyborach wnioskujemy o analogicznym odsetku w kraju). Należy odróżniać estymator od oszacowania (punktowego), które jest konkretną wartością liczbową, jaką dla danej próby przyjmuje funkcja określana mianem estymatora (ang.: estimator i estimate). Wartość oszacowania praktycznie zawsze różni się od wartości parametru. Różnicę tę nazywamy błędem losowym. 13

ESTYMATOR NIEOBCIĄŻONY I OBCIĄŻONY Źródło: https://www.slideshare.net/shakeelnouman1/samplingand-sampling-distributions 14

ESTYMATOR ZGODNY (I DOSTATECZNY) Źródło: https://www.slideshare.net/shakeelnouman1/samplingand-sampling-distributions 15

ESTYMATOR EFEKTYWNY I NIEEFEKTYWNY Źródło: https://www.slideshare.net/shakeelnouman1/samplingand-sampling-distributions 16