METODY STATYSTYCZNE Studia stacjonarne, semestr zimowy 017/018 Motto I: Prawie każdy jest statystykiem ale niewielu o tym wie (inspiratorzy: Molier i Joseph Schumpeter) Motto II: Statystyka jest bodajże ostatnim reliktem mistyki dnia codziennego (Stanisław Lem) Motto III: In God we trust. All others must bring data (z internetu) Motto IV: Żadnej sprawiedliwości nie ma i być nie może - dobrze, że jest statystyka - i z tego trzeba się cieszyć (z Szewców Witkacego) 1
Spis treści 1. ROZKŁADY STATYSTYK Z PRÓBY... 3 1.1. ZNACZENIE ROZKŁADÓW STATYSTYK Z PRÓBY... 4 1. STOPNIE SWOBODY... 8 1.3. ZADANIA... 10. ESTYMACJA PARAMETRÓW W POPULACJI GENERALNEJ (ZAPOWIEDŹ KOLEJNEGO TEMATU)... 13
1. ROZKŁADY STATYSTYK Z PRÓBY Przypomnienie (uproszczone definicje) Rozkład zmiennej losowej to przyporządkowanie wszystkim możliwym realizacjom (wartościom) tej zmiennej prawdopodobieństw ich wystąpienia. Dwie podstawowe (choć nie jedyne) formy opisu rozkładu to funkcja (gęstości) prawdopodobieństwa i dystrybuanta. Znając rozkład zmiennej dysponujemy pełną informacją na jej temat. Statystyka z próby to zmienna losowa będąca dowolną funkcją, której dziedziną są wszystkie możliwe realizacje zmiennej losowej (elementy próby). Zwana jest również parametrem empirycznym próby losowej. Przykłady statystyk z próby: średnia, wariancja, frakcja. Pytanie: Czy statystykami z próby są: mediana, rozstęp, wartość maksymalna? 3
1.1. ZNACZENIE ROZKŁADÓW STATYSTYK Z PRÓBY Ważność omawianego tematu wynika z faktu, że estymatory i statystyki testowe są statystykami z próby, zatem znajomość ich rozkładu pozwala np. sprawdzić własności estymatora lub wyznaczyć obszar krytyczny w teście. W większości zastosowań w standardowym wnioskowaniu statystycznym wystarczy znajomość kilku rozkładów: normalnego, Studenta (t), chi-kwadrat, Fishera-Snedecora (F). Pytania: 1. Jak można, zakładając normalny rozkład zmiennej, ustalić czy wartość oczekiwana średniej z próby jest równa średniej w populacji generalnej? Z jaką własnością estymatora mają Państwo w tym momencie skojarzenia?. Proszę, zakładając dowolny rozkład zmiennej i liczebność próby, podać sposób obliczania prawdopodobieństwa, że odchylenie wartości estymatora od parametru nie przekroczy zadanej z góry wartości. Z jakimi aspektami wnioskowania statystycznego mają Państwo w tym momencie skojarzenia? 4
W większości przypadków użyteczność statystyk z próby nie jest związana bezpośrednio z ich definicją. Najczęściej postać statystyki testowej jest odmienna od występujących po prawej stronie równań (1) (3). Przykład 1 Rozkład χ o n stopniach swobody jest zdefiniowany następująco: n n U i i 1 (1) gdzie U i (i = 1,,, n) są niezależnymi zmiennymi o rozkładzie normalnym standardowym Przykład Rozkład t (Studenta) o n stopniach swobody jest zdefiniowany następująco: U t n n () Przykład 3 Rozkład F (Fishera-Snedecora) jest zdefiniowany następująco: / n (3) 1 1 F n 1 / n / n gdzie i oznaczają niezależne zmienne losowe o rozkładzie χ o liczbie 1 stopni swobody, odpowiednio, n 1 i n. 5
Pytanie odwołujące się do intuicji: Jaki rozkład ma statystyka testowa testu specyfikacji RESET dla modelu regresji z k zmiennymi objaśniającymi): [ RRSS URSS]/( p 1) R URSS /( n k 1) gdzie RRSS jest sumą kwadratów reszt modelu z narzuconym ograniczeniem (zdefiniowanym za pomocą liczby p), zaś URSS sumą kwadratów reszt modelu bez ograniczenia. Pytanie: Dyskutowany jest problem czy zmiany podatków mają wpływ na zmiany PKB. W celu weryfikacji tego stwierdzenia należy oszacować model, w którym zmienną objaśnianą są zmiany PKB, zaś jedną ze zmiennych objaśniających zmiany podatków. jaki test należy zastosować jaki rozkład ma statystyka testowa (i przy jakich założeniach) 6
Ostrzeżenie! W niektórych przypadkach suma zmiennych niezależnych o określonym rozkładzie ma taki sam rozkład (rozkład addytywny) jednak nie jest to reguła. Pytanie 1: Proszę podać przykłady rozkładów addytywnych i nie-addytywnych. Pytanie : Czy rozkład χ jest addytywny? 7
1. STOPNIE SWOBODY Jednym z ważniejszych pojęć w badaniu rozkładów statystyk z próby jest liczba stopni swobody. Jest ona zdefiniowana jako liczba wszystkich pomiarów (tu: liczebność próby) pomniejszonej o minimalna liczbę ograniczeń niezbędnych do oszacowania parametru. W wielu przypadkach liczba stopni swobody jest widoczna wprost jako liczebność próby pomniejszona o liczbę estymowanych parametrów. Bardziej intuicyjnie można zdefiniować liczbę stopni swobody na gruncie fizyki jako minimalną liczbę zmiennych niezależnych niezbędnych do jednoznacznego opisania zjawiska. 8
Przykładowo, zmienna o rozkładzie χ (równanie 1) jest zdefiniowana przez n zmiennych niezależnych (U), zatem liczba stopni swobody wynosi n. Zmienna o rozkładzie χ zdefiniowana następująco: ( n 1) S ( X ) ma n-1 stopni swobody, ponieważ jej wartość można wyznaczyć za pomocą n-1 obserwacji, jeżeli znana jest średnia z próby (która musi być obliczona). Ścisła definicja liczby stopni swobody nie jest niezbędna w praktyce statystycznej, ponieważ dla konkretnych rozkładów i związanych z nimi testów może być ona obliczana według prostych algorytmów. (link dla zainteresowanych czymś więcej http://courses.ncssm.edu/math/stat_inst/pdfs/dfwalker.pdf ) 9
1.3. ZADANIA 1. W Akademii Podlaskiej w Siedlacach w 004 r. przeprowadzono doświadczenie polegające na 50-krotnym rzucie każdą z 1 monet o nominale 1 euro pochodzących z różnych krajów. Każda z serii rzutów była przeprowadzana przez niezależny zespół. W przypadku monety belgijskiej uzyskano 140 czyli 56% awersów. Zdarzenie zostało opisane przez angielska prasę futbolową przed meczem Anglia-Belgia inaugurującym Mundial 004. Dziennikarz doszedł do wniosku, że belgijska moneta jest niesymetryczna, zatem należy dopilnować aby w losowaniu stron sędzia rzucał inną monetą. Co mógłby mieć na ten temat do powiedzenia statystyk? (Opis zdarzenia na podstawie: http://www.stat.columbia.edu/~gelman/research/published/dicerev.pdf). Zmienna przy liczbie stopni swobody n zbieżnej do nieskończoności ma rozkład zbieżny do rozkładu normalnego (patrz: zadanie 3b). Z drugiej strony zmienna o takim rozkładzie nie może przyjmować wartości ujemnych. Jak można wytłumaczyć tę pozorną sprzeczność? 3. Zmienna w populacji generalnej ma rozkład normalny o parametrach m= 5 i σ=. a/ Proszę za pomocą dwóch metod wyznaczyć prawdopodobieństwo, że wariancja obliczona na podstawie 10-elementowej próby przekroczy wartość 5. W pierwszym przypadku należy założyć, że wariancja ma rozkład normalny, w drugim skorzystać z rozkładu χ. O czym świadczy rozbieżność wyników? Przypomnienie: jeżeli zmienna ma rozkład normalny o parametrach m i σ, to nieobciążona wariancja z próby ma rozkład o parametrach σ i 4. n 1 10
b/ Korzystając ze zbieżności rozkładu zmiennej z liczbą stopni swobody n do rozkładu normalnego o parametrach n 1 i 1proszę policzyć przybliżoną wartość w. w. prawdopodobieństwa dla próby 31 i 61 elementowej, a następnie porównać analogiczne wyniki uzyskane za pomocą rozkładu χ. 4. Proszę wyprowadzić wzór na przedział ufności dla średniej w populacji generalnej, przyjmując dowolne założenia. 5. Poziom wody w Wiśle we Włodawie jest zmienną o rozkładzie normalnym z wartością oczekiwana 3 metry. Prawdopodobieństwo, że średnia z 10 lat przekroczy 3.3 metra wynosi 0.087. a/ Ile wynosi odchylenie standardowe? b/ Ile wynosi prawdopodobieństwo, że powyższa średnia będzie niższa co najmniej o 50 cm. od 15 - letniej średniej poziomu wody w Colorado River w Yumie mającego rozkład normalny N(3., 0.8). c/ Ile wynosi prawdopodobieństwo, że wariancja poziomu wody w Wiśle dla 10 losowych lat przekroczy 0,375 m. d/ Ile wynosi prawdopodobieństwo, że iloraz wariancji poziomu wody w CR i Wiśle (odpowiednio, dla 15 i 10 lat) przekroczy 7,7. 6. Zgodnie z dyrektywą Komisji Europejskiej długość ogona cebuli musi być mniejsza niż 4 cm. Komisarz Europejski 007 zbadał losowo 6 cebul na targowisku w pewnym kraju kandydującym do UE, stwierdzając, że. ich ogony miały średnią długość 3,8 cm. przy wariancji 0,95 cm, zaś rozkład długości jest normalny. a/ Czy na tej podstawie można stwierdzić, z ryzykiem błędu I rodzaju 0,03, że cebule na tym targowisku spełniają przeciętnie normy europejskie? b/ Z jakim minimalnym ryzykiem można tak stwierdzić? c/ Z jakim minimalnym ryzykiem można stwierdzić, że mniej niż 84,15% cebul na targowisku spełnia normy europejskie, jeżeli przyjąć założenie, że średnia długość ogona cebuli wynosi 3,6 cm? 11
Wskazówka: 0,8415 to prawdopodobieństwo, że zmienna przyjmie wartość mniejszą niż górne ograniczenie obszaru jednosigmowego. 1
. ESTYMACJA PARAMETRÓW W POPULACJI GENERALNEJ (ZAPOWIEDŹ KOLEJNEGO TEMATU) Ta dziedzina statystyki zajmuje się obliczaniem przybliżonych wartości (czyli estymacją lub szacowaniem) parametrów charakteryzujących populację generalną na podstawie próby losowej. Estymatorem T n parametru θ w populacji generalnej nazywamy statystykę z próby (T n ) służącą do oszacowania nieznanej wartości tego parametru. Przykłady Średnia wartość zmiennej w próbie jest estymatorem średniej w populacji generalnej (np. na podstawie średniej wartości dochodu w GUS-owskiej próbie gospodarstw domowych wnioskujemy o średniej dla kraju czy danej grupy społecznej). Odsetek wyróżnionych elementów w próbie (lub frakcja) jest estymatorem odsetka (lub frakcji) wyróżnionych elementów w populacji generalnej (np. na podstawie odsetka osób deklarujących w sondażu udział w wyborach wnioskujemy o analogicznym odsetku w kraju). Należy odróżniać estymator od oszacowania (punktowego), które jest konkretną wartością liczbową, jaką dla danej próby przyjmuje funkcja określana mianem estymatora (ang.: estimator i estimate). Wartość oszacowania praktycznie zawsze różni się od wartości parametru. Różnicę tę nazywamy błędem losowym. 13
ESTYMATOR NIEOBCIĄŻONY I OBCIĄŻONY Źródło: https://www.slideshare.net/shakeelnouman1/samplingand-sampling-distributions 14
ESTYMATOR ZGODNY (I DOSTATECZNY) Źródło: https://www.slideshare.net/shakeelnouman1/samplingand-sampling-distributions 15
ESTYMATOR EFEKTYWNY I NIEEFEKTYWNY Źródło: https://www.slideshare.net/shakeelnouman1/samplingand-sampling-distributions 16