Agata Boratyńska. WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE) Warszawa 2017

Podobne dokumenty
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Agata Boratyńska. WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE) Warszawa 2014

Statystyka Matematyczna Anna Janicka

1 Podstawy rachunku prawdopodobieństwa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

STATYSTYKA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

1.1 Wstęp Literatura... 1

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Estymacja parametrów w modelu normalnym

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

Testowanie hipotez statystycznych.

Estymacja parametrów rozkładu cechy

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Spis treści 3 SPIS TREŚCI

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Estymacja punktowa i przedziałowa

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Statystyka matematyczna dla leśników

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Metody probabilistyczne

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Prawdopodobieństwo i statystyka

Statystyka matematyczna i ekonometria

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Rozkłady statystyk z próby

Agata Boratyńska Statystyka aktuarialna... 1

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Weryfikacja hipotez statystycznych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka w przykładach

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Pozyskiwanie wiedzy z danych

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Kolokwium ze statystyki matematycznej

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

W1. Wprowadzenie. Statystyka opisowa

Statystyczna analiza danych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka i eksploracja danych

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Próba własności i parametry

Przedmiot statystyki. Graficzne przedstawienie danych.

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

1.1 Statystyka matematyczna Literatura Model statystyczny Preliminaria... 3

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Wykład 10 Testy jednorodności rozkładów

Na podstawie dokonanych obserwacji:

Wykład 7 Testowanie zgodności z rozkładem normalnym

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Dokładne i graniczne rozkłady statystyk z próby

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Wnioskowanie statystyczne. Statystyka w 5

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Biostatystyka, # 3 /Weterynaria I/

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

O ŚREDNIEJ STATYSTYCZNEJ

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Statystyka aktuarialna i teoria ryzyka, model indywidualny i zespołowy, rozkłady złożone

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Testowanie hipotez statystycznych.

Transkrypt:

1 Agata Boratyńska WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE) Warszawa 017

Agata Boratyńska Wykłady ze statystyki matematycznej Literatura W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, SNS 1999 W. Niemiro Statystyka, http://www-users.mat.umk.pl/ wniem/statystyka/statystyka.pdf J. Koronacki i J. Mielniczuk Statystyka WNT 004 J. Jóźwiak i J. Podgórski, Statystyka od podstaw, PWE 1994 H. Kassyk-Rokicka, Statystyka, zbiór zadań, 005 lub inne wydania W. Krysicki Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, cz.. PWN 1998 D. Silvey Wnioskowanie statystyczne, PWN R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN www.impan.gov.pl/ rziel/7all.pdf wojtek.zielinski.statystyka.info/moj ojciec/public html/7all.pdf A. Boratyńska Zadania ze statystyki matematycznej, http://web.sgh.waw.pl/ aborata/ekonomia/wykladsm.pdf A. Boratyńska Wykłady ze statystyki matematycznej, http://web.sgh.waw.pl/ aborata/ekonomia/zadsek.pdf A. Boratyńska Slajdy z kolejnych wykładów http://web.sgh.waw.pl/ aborata/wne sm 010-011.php A. Jokiel-Rokita i R. Magiera, Modele i metody statystyki matematycznej w zadaniach, Oficyna Wydawnicza GiS, Wrocław 005 A.D. Aczel, Statystyka w zarządzaniu, PWN W. Zieliński Tablice statystyczne. C.R. Rao Statystyka i prawda, PWN 1994 Lavine M. (013) Introduction to Statistical Thought

Agata Boratyńska Wykłady ze statystyki matematycznej 3 Statystyka jest bardziej sposobem myślenia lub wnioskowania niż pęczkiem recept na młócenie danych w celu odsłonięcia odpowiedzi C. R. Rao... statystyka jest nauką o tym, jak wykorzystywać informacje do analizy i wytyczania kierunków działania w warunkach niepewności. V. Barnett Comparative Statistical Inference Nauka nie stara się wyjaśniać, a nawet niemal nie stara się interpretować, zajmuje się ona głównie budową modeli. Model rozumiany jest jako matematyczny twór, który, po dodaniu słownej interpretacji, opisuje badane zjawiska. Jedynym i właściwym uzasadnieniem takiego tworu matematycznego jest oczekiwanie, że sprawdzi się on w działaniu. John von Neumann Kłamstwo, wierutne kłamstwo, statystyka Liczby nie kłamią ale kłamcy liczą Ch. H. Grosvenor Prawa naukowe nie są formułowane na mocy autorytetów ani uzasadniane przez wiarę czy średniowieczną filozofię. Jedynym sądem odwoławczym dla nowej wiedzy jest statystyka P.C. Mahanalobis

Agata Boratyńska Wykłady ze statystyki matematycznej 4 Tematyka zajęć Statystyka opisowa Indeksy (tylko na ćwiczeniach) Model statystyczny, pojęcie statystyka Estymacja punktowa Estymacja przedziałowa Weryfikacja hipotez statystycznych Wstęp do statystyki bayesowskiej

Agata Boratyńska Wykłady ze statystyki matematycznej 5 STATYSTYKA - nauka poświęcona metodom badania i analizowania zjawisk masowych; polega na systematyzowaniu obserwowanych cech ilościowych i jakościowych oraz przedstawianiu wyników w postaci zestawień tabelarycznych, wykresów, diagramów itp. Zajmuje się zbieraniem, przetwarzanie, przedstawianiem danych oraz wniskowaniem na ich podstawie. STATYSTYKA MATEMATYCZNA - dział matematyki stosowanej oparty na rachunku prawdopodobieństwa, zajmuje się badaniem zbiorów i wnioskowaniem o pewnych charakterystykach cech (zmiennych losowych) na podstawie znajomości podzbiorów i obserwacji wartości zmiennej losowej w postaci próby losowej.

Agata Boratyńska Wykłady ze statystyki matematycznej 6 STATYSTYKA OPISOWA, WSTĘPNA ANALIZA DANYCH. populacja - zbiór obiektów z wyróżnioną cechą, zbiorowość poddawana badaniu. cecha - wielkość losowa charakteryzująca obiekty danej populacji lub interesująca badacza zmienna losowa: cecha ilościowa (mierzalna): skokowa np: ocena, liczba dzieci ciągła np: waga, zarobki jakościowa (niemierzalna) np: kolor oczu, płeć, wykształcenie jednostka badania - element populacji poddany badaniu próba - wybrana część populacji poddana badaniu, zbiór jednostek badania jednostka cecha X cecha Y cecha Z... 1 x 1 y 1 z 1... x y z... 3 x 3 y 3 z 3.................. badanie pełne - obejmuje całą populację (np. spis powszechny) badanie reprezentacyjne - obejmuje część populacji Wnioskowanie o całej populacji na podstawie próby losowej wymaga metod rachunku prawdopodobieństwa.

Agata Boratyńska Wykłady ze statystyki matematycznej 7 PREZENTACJA DANYCH Cel: przejrzystość Sposób: tabela lub wykres, zależy od danych Szereg rozdzielczy punktowy (tablica kontyngencji) wartości cechy liczności częstość częstość (liczba jednostek) skumulowana x 1 n 1 f 1 = n 1 n f 1 x n f = n n f 1 + f............ x k n k f k = n k n 1 Razem n 1 PRZYKŁAD 1. W grupie 0 studentów oceny z egzaminu ze statystyki były następujące: 3 3.5 4 4.5 4 5 3 3 4 Dane w szeregu 3.5 3 3 3.5 3 4 5 3.5 3.5 ocena liczba studentów częstość częstość skumulowana 0,10 0,10 3 6 0,30 0,40 3.5 5 0,5 0,65 4 4 0,0 0,85 4.5 1 0,05 0,90 5 0,10 1 Razem 0 1

Agata Boratyńska Wykłady ze statystyki matematycznej 8 Przejrzystym sposobem prezentacji jest wykres słupkowy. Wykres słupkowy: - wykres słupkowy liczności - wykres słupkowy częstości - dystrybuanta empiryczna (wykres słupkowy skumulowany)

częstość skumulowana liczba studentów częstość Agata Boratyńska Wykłady ze statystyki matematycznej 9 PRZYKŁAD 1 cd, wykresy słupkowe, dystrybuanta empiryczna Wykres słupkowy (diagram) liczności ocena z egzaminu Wykres słupkowy (diagram) częstości ocena z egzaminu 7 0,35 6 0,30 5 0,5 4 0,0 3 0,15 0,10 1 0,05 0,00 3,00 3,50 4,00 4,50 5,00 ocena 0,00,00 3,00 3,50 4,00 4,50 5,00 ocena histogram częstości skumulowanych (dystrybuanta empiryczna) 1,0 1,00 0,80 0,60 0,40 0,0 0,00 0,00 1,00,00 3,00 4,00 5,00 6,00 ocena

Agata Boratyńska Wykłady ze statystyki matematycznej 10 Szereg rozdzielczy przedziałowy Uwagi: c i = c i 1+c i przedział środek przedziału liczności częstości (c 0, c 1 ] c 1 n 1 f 1 = n 1 n (c 1, c ] c n f = n n............ (c k 1, c k ] c k n k f k = n k n Najczęściej klasy o jednakowej szerokości lub o zbliżonej liczności Liczba klas k spełnia 3 4 n k n liczbę klas można też dobierać ustalając szerokość, jedna z reguł to gdzie IQR - rozstęp międzykwartylowy b, 64 IQR n 1 3 Jeżeli liczba klas jest równa k i klasy są jednakowej długości, to długość b spełnia gdzie X 1:n - najmniejsza obserwacja X n:n - największa obserwacja b X n:n X 1:n k

Agata Boratyńska Wykłady ze statystyki matematycznej 11 PRZYKŁAD. Powierzchnię mieszkań w pewnym osiedlu podaje tabela 3,45 33,1 34,36 35,78 37,79 38,54 38,91 38,96 39,50 39,67 39,80 41,45 41,55 4,7 4,40 4,45 44,5 44,50 44,70 44,83 44,90 45,10 45,90 46,5 47,65 48,10 48,55 48,90 49,00 49,4 49,55 49,65 49,70 49,90 50,90 51,40 51,50 51,65 51,70 51,80 51,98 5,00 5,10 5,30 53,65 53,89 53,90 54,00 54,10 55,0 55,30 55,56 55,6 56,00 56,70 56,80 56,90 56,95 57,13 57,45 57,70 57,90 58,00 58,50 58,67 58,80 59,3 63,40 63,70 64,0 64,30 64,60 65,00 66,9 66,78 67,80 68,90 69,00 69,50 73,0 76,80 77,10 77,80 78,90 79,50 8,70 83,40 84,50 84,90 85,00 86,00 89,10 89,60 93,00 96,70 98,78 103,00 107,90 11,70 118,90 przedział środek liczba mieszkań częstości 30 40 35 11 0.11 40 50 45 3 0.3 50 60 55 33 0.33 60 70 65 1 0.1 70 80 75 6 0.06 80 90 85 8 0.08 90 100 95 3 0.03 100 110 105 0.0 110 10 115 0.0 razem 100 1

Agata Boratyńska Wykłady ze statystyki matematycznej 1 WYKRESY Histogram - jest to wykres słupkowy, którego podstawę stanowią przedziały klasowe, a wysokości słupków sa proporcjonalne do liczności n i poszczególnych klas. Jeżeli wysokości są równe licznościom klas to mamy histogram liczności, jeżeli są równe częstościom to histogram częstości. W sytuacji, gdy klasy nie mają równej długości wysokość słupków określa się wg wzoru gdzie f i - to częstość, a b i - szerokość klasy. (porównaj histogramy - przykład 1,,3) h i = f i b i Łącząc punkty o współrzędnych ( c i, n i ) otrzymujemy łamaną liczności, a łącząc punkty o współrzędnych ( c i, f i ) albo ( c i, h i ) łamaną częstości. W szeregu rozdzielczym możemy również podawać liczności i częstości skumulowane. przedział liczności częstości skumulowane cn i skumulowane cf i (c 0, c 1 ] n 1 f 1 = n 1 n (c 1, c ] n 1 + n f 1 + f......... (c k 1, c k ] n 1 + n +... + n k = n f 1 + f +... + f k = 1 Jeżeli wysokości słupków histogramu są równe licznościom (częstościom) skumulowanym to otrzymujemy histogram liczności (częstości) skumulowanych. Łącząc punkty o współrzędnych (c i, cn i ) otrzymujemy łamaną liczności skumulowanych, a łącząc punkty o współrzędnych (c i, cf i ) otrzymujemy łamaną częstości skumulowanych.

częstości częstość skumulowana Agata Boratyńska Wykłady ze statystyki matematycznej 13 PRZYKŁAD cd. Wykresy 0,35 Histogram częstości Łamana częstości skumulowanych 0,30 0,5 1,0 1,00 0,0 0,80 0,15 0,60 0,10 0,40 0,05 0,0 0,00 35 45 55 65 75 85 95 105 115 powierzchnia mieszkania 0,00 0,00 0,00 40,00 60,00 80,00 100,00 10,00 powierzchnia mieszkania

Agata Boratyńska Wykłady ze statystyki matematycznej 14 PRZYKŁAD 3. Dane asymetryczne 0 307 61 17 078 3631 6 34 669 180 40 4068 77 346 686 1351 411 450 86 359 691 1380 41 5013 116 367 710 1501 519 5065 10 370 757 1546 588 5481 13 383 87 1565 78 6046 165 384 89 1635 799 7003 01 451 886 1671 850 775 40 475 893 1706 987 7477 46 496 969 185 3000 8738 5 505 1053 1830 3006 9197 65 59 1079 1850 3383 16370 7 546 1080 1871 3443 17605 8 560 1145 1916 3513 730 300 595 1194 09 3614 56788 Szereg rozdzielczy 0,0007 histogram c i 1 c i n i h i 1 0 50 11 0,000458 50 450 13 0,000677 3 450 690 11 0,000477 4 690 1100 11 0,00079 5 1100 1650 10 0,000189 6 1650 400 10 0,000139 7 400 3400 11 0,000115 8 3400 6500 10 0,000034 9 6500 >6500 9 0,00000 96 0,0006 0,0005 0,0004 histogram 0,0003 0,000 0,0001 0 0 000 4000 6000 8000

Agata Boratyńska Wykłady ze statystyki matematycznej 15 CHARAKTERYSTYKI PRÓBKOWE miary położenia miary zróżnicowania, zmienności, rozproszenia miary asymetrii miary koncentracji MIARY POŁOŻENIA: klasyczne - średnia arytmetyczna pozycyjne: mediana, moda, kwantyle Średnia arytmetyczna X z próby losowej X 1, X,..., X n (dane surowe) dane z szeregu rozdzielczego punktowego X = X 1 + X +... + X n n X = 1 k x i n i n i=1 dane z szeregu rozdzielczego przedziałowego X 1 k c i n i n i=1 PRZYKŁAD 1 cd. X = + 6 3 + 5 3.5 + 4 4 + 1 4.5 + 5 0 = 3.5

Agata Boratyńska Wykłady ze statystyki matematycznej 16 PRZYKŁAD cd. dla danych z szeregu rozdzielczego X = 1 (11 35 + 3 45 + 33 55 + 1 65 + 6 75 + 8 85 + 3 95 + 105 + 115) = 58.70 100 Uwaga: jeżeli dostępne są dane surowe zaleca się korzystanie ze wzoru pierwszego.

Agata Boratyńska Wykłady ze statystyki matematycznej 17 Mediana Med z próby losowej jest to liczba, taka że co najmniej 50% obserwacji przyjmuje wartość nie większą od niej i co najmniej 50% obserwacji wartość nie mniejszą od niej. Wyliczamy ją w następujący sposób: dane surowe: ustawiamy rosnąco, i-tą obserwację w ciągu ustawionym rosnąco oznaczamy symbolem X i:n i nazywamy i-tą statystyką pozycyjną W szczególności X 1:n = min{x 1, X,..., X n } X n:n = max{x 1, X,..., X n } { X n+1 Med = :n gdy n nieparzyste 1 (X n :n + X n+ :n) gdy n parzyste dane z szeregu rozdzielczego przedziałowego Med c L + gdzie c L - dolna granica klasy mediany b - szerokość klasy mediany n M - liczność klasy mediany M - numer klasy b n M ( ) n M 1 n i i=1 PRZYKŁAD 1 cd. Med = X 10:0+X 11:0 = 3,5+3,5 = 3, 5 PRZYKŁAD cd. dla danych z szeregu rozdzielczego M = 3, n 3 = 33, c L = 50, b = 10 Med 50 + 10 (50 34) = 54, 85 33

Agata Boratyńska Wykłady ze statystyki matematycznej 18 Moda (dominanta) M o - wartość najczęściej powtarzająca się w próbie (często zakłada się, że nie może być to wartość największa ani najmniejsza) Przy danych z szeregu rozdzielczego Mo c L + n Mo n Mo 1 (n Mo n Mo 1 ) + (n Mo n Mo+1 ) b gdzie n Mo - liczność najliczniejszej klasy zwanej klasą mody, c L - lewy koniec klasy mody PRZYKŁAD 1 cd. Mo = 3 PRZYKŁAD cd. Mo 50 + 33 3 10 = 53, 33 3 + 33 1 PRZYKŁAD 3 cd. Mo 50 + 0, 0006771 0, 0004583 00 = 354, 56 0, 0006771 0, 0004583 0, 0004774

Agata Boratyńska Wykłady ze statystyki matematycznej 19 PRZYKŁAD 4. Miesięczne zarobki zasadnicze pracowników z wyższym wykształceniem w pewnej firmie zarobki liczba osób 500 6 3000 8 3100 7 3500 4 4000 3 5000 1000 1 Razem 31 X = 3506 Med = X 16:31 = 3100 Mo = 3000 Jeżeli z danych wyrzucimy największą obserwację to mediana i moda się nie zmienią a średnia będzie równa 33 Uwagi: średnia jest nieodporna na obserwacje odstające, mediana jest najbardziej odporna na zaburzenia, niedokładności pomiaru, zmiany, wartości odstające moda - stosuje się do danych pogrupowanych

Agata Boratyńska Wykłady ze statystyki matematycznej 0 Kwantyle Kwantyl próbkowy rzędu p = Q p liczba taka, że odsetek wartości nie większych niż Q p wynosi co najmniej p, a wartości nie mniejszych co najmniej 1 p. Q p = { Xnp:n+X np+1:n gdy np Z X [np]+1:n w pp lub Q p = X [np]+1:n Kwartyle: Pierwszy kwartyl (dolny kwartyl) Q 1/4 - to taka wartość cechy, że co najmniej 5% obserwacji przyjmuje wartość nie większą od niej i co najmniej 75% obserwacji wartość nie mniejszą od niej. Drugi kwartyl = Mediana Trzeci kwartyl (kwartyl górny) Q 3/4 - to taka wartość cechy, że co najmniej 75% obserwacji przyjmuje wartość nie większą od niej i co najmniej 5% obserwacji wartość nie mniejszą od niej. PRZYKŁAD 1 cd. Przy danych z szeregu rozdzielczego Q 1/4 = X 5:0 + X 6:0 Q 3/4 = X 15:0 + X 16:0 Q 1/4 c L + b n M1 = 3 = 4 n M 1 1 4 i=1 n i gdzie c L - dolna granica klasy kwartyla b - szerokość klasy kwartyla n M1 - liczność klasy kwartyla M 1 - numer klasy Q 3/4 c L + b n M3 3n M 3 1 4 i=1 n i

Agata Boratyńska Wykłady ze statystyki matematycznej 1 gdzie c L - dolna granica klasy kwartyla b - szerokość klasy kwartyla n M3 - liczność klasy kwartyla M 3 - numer klasy PRZYKŁAD cd. Za Q 1/4 odpowiada obserwacja o numerze n 4 kwartyla jest klasa druga M = = 5, stąd klasa Q 1/4 40 + 10 (5 11) = 46.09 3 Za Q 3/4 odpowiada obserwacja o numerze 3 n = 75, stąd klasą kwartyla jest klasa 4 czwarta M = 4 Q 3/4 60 + 10 (75 67) = 66.67 1 Kwartyle dzielą próbę na cztery części (ze względu na liczność), w każdej jest w przybliżeniu 5% obserwacji. Porównanie wskaźników dla danych surowych i szeregu rozdzielczego PRZYKŁAD cd. PRZYKŁAD 3 cd. miara dane surowe szereg rozdzielczy średnia 59,58 58,70 mediana 55,5 54,85 Q 1/4 47,88 46,09 Q 3/4 67,9 66,67 miara dane surowe szereg rozdzielczy średnia 99,43 4398,9 mediana 133 110 Q 1/4 417,5 450 Q 3/4 84,5 945,45

Agata Boratyńska Wykłady ze statystyki matematycznej MIARY ROZPROSZENIA Rozstęp czyli odległość między największą i najmniejszą obserwacją r = X n:n X 1:n Rozstęp międzykwartylowy IQR = Q 3/4 Q 1/4 podaje długość odcinka, na którym leży 50% środkowych wartości w uporządkowanej niemalejąco próbie. Uwaga: rozstęp jest funkcją tylko krańcowych obserwacji, jest nieodporny na obserwacje odstające, tej wady pozbawiony jest rozstęp międzykwartylowy Wariancją z próby losowej X 1, X,..., X n (dane surowe) nazywamy liczbę Ŝ = 1 n (X i n X) i=1 = 1 ( n ) Xi n n X i=1 Dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy Ŝ 1 k n i ( c i n X) i=1 Przy danych pogrupowanych w szeregu rozdzielczym stosuje się jeszcze poprawkę związaną z założeniem rozkładu równomiernego danych na poszczególnych przedziałach S = 1 n k i=1 n i ( c i X) 1 1n k n i (c i c i 1 ) i=1 Odchylenie standardowe Ŝ = Ŝ lub S = S Odchylenie przeciętne d = 1 n ni=1 X i X

Agata Boratyńska Wykłady ze statystyki matematycznej 3 W sytuacji gdy chcemy porównać rozrzut dwóch lub więcej prób korzystamy ze współczynnika zmienności V = Ŝ X 100% PRZYKŁAD 1 cd. r = 5 = 3 IQR = 4 3 = 1 Ŝ = 1 0 { ( 3, 5) + 6(3 3, 5) + 5(3, 5 3, 5) +4(4 3, 5) + 1(4, 5 3, 5) + (5 3, 5) } = 0, 63 Ŝ = 0, 658 = 0, 79 d = 1 { 3, 5 + 6 3 3, 5 + 5 3, 5 3, 5 0 +4 4 3, 5 + 1 4, 5 3, 5 + 5 3, 5 } = 0, 6 PRZYKŁAD cd. Dla danych z szeregu rozdzielczego r 10 30 = 90 IQR 66, 67 46, 09 = 0, 58 Ŝ 331, 31 Ŝ 18, 0 S = 3, 98 S = 17, 97 Wariancja z danych surowych d 13, 96 Ŝ = 333, 85

Agata Boratyńska Wykłady ze statystyki matematycznej 4 WYKRES RAMKOWY, PUDEŁKO Z WĄSAMI X max Kwartyl górny wąsy mediana Kwartyl dolny X min Obs. odstające WYKRES RAMKOWY, uwagi Maksymalna długośc wąsa to 1, 5IQR Obserwacje odstające są to obserwacje o wartościach x < x lub x > x gdzie { [ x = min X i : X i Q 1/4 3 ]} IQR, Q 1/4 { x = max X i : X i [Q 3/4, Q 3/4 + 3 ]} IQR Pozwala na jednym rysunku przedstawić wiadomości dotyczące położenia, rozproszenia i kształtu rozkładu empirycznego badanej cechy. Na wykresie zaznacza się kwartyle, średnią, medianę, największą i najmniejszą obserwację, obserwacje odstające. pozwala porównywać próby losowe ze wzgledu na wymienione parametry

Agata Boratyńska Wykłady ze statystyki matematycznej 5 Dane Przykład 1 Dane Przykład

Agata Boratyńska Wykłady ze statystyki matematycznej 6 WSKAŹNIKI ASYMETRII Współczynnik asymetrii (klasyczny) A = M 3 S 3 gdzie M 3 jest trzecim momentem centralnym równym dla danych surowych M 3 = 1 n (X i n X) 3, i=1 dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy Pozycyjny miernik asymetrii Współczynnik skośności M 3 1 k n i ( c i n X) 3 i=1 A = Q 3/4 Med + Q 1/4 Q 3/4 Q 1/4 A 1 = X Mo S Asymetria dodatnia (prawostronna) - wskaźniki asymetrii dodatnie Asymetria ujemna (lewostronna) - wskaźniki asymetrii ujemne PRZYKŁAD 1 cd. A = 0, 08, PRZYKŁAD cd. A = 1, 10 A 1 = 3,5 3,5 0,79 = 0 A 1 = 58,7 53, 18, = 0, 30 PRZYKŁAD 3cd. A 1 = 4398,9 354,56 8877,97 = 0, 46

Agata Boratyńska Wykłady ze statystyki matematycznej 7 INDEKSY STATYSTYCZNE Zbiór wartości danej cechy lub wartości określonego zjawiska zaobserwowany w różnych (ale chronologicznych) momentach czasu nazywamy szeregiem czasowym. PRZYKŁAD. cena akcji w kolejnych dniach stycznia, zarobki w pewnej gałęzi przemysłu w kolejnych latach, wielkość produkcji w kolejnych miesiącach Indeksy statystyczne służą do badania dynamiki zjawiska na podstawie danych z kolejnych okresów czasowych (na podstawie szeregu czasowego). y t - poziom zjawiska (wartość cechy) w chwili (okresie) t, t {0, 1,,..., n} t = y t y t 1 - przyrost absolutny δ t = yt y t y t - przyrost względny względem wartości w chwili t. INDEKSY PROSTE - mierniki tempa zmian zjawiska Indeks łańcuchowy dynamiki i t t 1 = yt y t 1 Tempo zmian wartości zjawiska w okresie t w stosunku do okresu t 1 jest równe (i t t 1 1)100% = yt y t, gdzie t jest ustaloną chwilą (ustalo- Indeks jednopodstawowy dynamiki i t t nym okresem) czasu. Tempo zmian wartości zjawiska w okresie t w stosunku do okresu t jest równe (i t t 1)100% Związki między indeksami: jeśli t > t to jeśli t < t to i t t 1 = t i t t = i t t = t=t +1 t t=t +1 i t t i t 1 t, i t t 1, 1 i t t 1.

Agata Boratyńska Wykłady ze statystyki matematycznej 8 Średnie tempo zmian wartości zjawiska ( n ) 1 ( ) 1 n yn n ( ) 1 r = ī g 1 = i t t 1 1 = 1 = n in 0 1 t=1 y 0 Średnie tempo zmian wartości zjawiska określa tempo zmian zjawiska jakie powinno występować przez cały okres (0, n), aby przyrost z okresu (0, n) rozłożyć równomiernie w czasie. Zatem y n = y 0 (r + 1) n.

Agata Boratyńska Wykłady ze statystyki matematycznej 9 AGREGATOWE INDEKSY WARTOŚCI, ILOŚCI I CEN. Indeksy agragatowe oceniają dynamikę zjawiska w niejednorodnej zbiorowości (np. dynamika cen różnych artykułów, dynamika spożycia różnych produktów, dynamika sprzedaży, produkcji kilku dóbr). Dane z dwóch okresów (momentów) czasowych: t = 0 - okres podstawowy i t = 1 okres badany produkt cena jednostki ilość wartość t = 0 t = 1 t = 0 t = 1 t = 0 t = 1 1 p 10 p 11 q 10 q 11 w 10 = p 10 q 10 w 11 = p 11 q 11 p 0 p 1 q 0 q 1 w 0 = p 0 q 0 w 1 = p 1 q 1..................... j p j0 p j1 q j0 q j1 w j0 = p j0 q j0 w j1 = p j1 q j1..................... k p k0 p k1 q k0 q k1 w k0 = p k0 q k0 w k1 = p k1 q k1 Agregatowy indeks wartości I w = kj=1 w j1 kj=1 w j0 informuje o łącznej zmianie wartości wszystkich produktów w momencie badanym do momentu podstawowego

Agata Boratyńska Wykłady ze statystyki matematycznej 30 Agregatowy indeks cen określa wpływ zmian cen na dynamikę wartości (gdyby ilości w obu momentach czasu były niezmienione), mówi o przeciętnych zmianach cen wszystkich rozważanych produktów Agregatowy indeks cen Laspeyresa LI p = Agregatowy indeks cen Paaschego kj=1 p j1 q j0 kj=1 p j0 q j0 = kj=1 p j1 p j0 p j0 q j0 kj=1 p j0 q j0 P I p = kj=1 p j1 q j1 kj=1 p j0 q j1 Agregatowy indeks cen Fishera F I p = LI pp I p Agregatowy indeks ilości określa wpływ zmian ilości na dynamikę wartości (gdyby w obu momentach ceny były niezmienione), informuje o przeciętnych zmianach ilości poszczególnych produktów w obu porównywanych momentach czasu Agregatowy indeks ilości Laspeyresa LI q = Agregatowy indeks ilości Paaschego kj=1 p j0 q j1 kj=1 p j0 q j0 = kj=1 q j1 q j0 p j0 q j0 kj=1 p j0 q j0 P I q = kj=1 p j1 q j1 kj=1 p j1 q j0 Agregatowy indeks ilości Fishera F I q = LI qp I q Związki między indeksami I w = L I pp I q = L I qp I p = F I pf I q

Agata Boratyńska Wykłady ze statystyki matematycznej 31 MODEL STATYSTYCZNY, PODSTAWOWE ZADANIA STATYSTYKI MATEMATYCZNEJ ZADANIE z rachunku prawdopodobieństwa Rzucamy niezależnie 100 razy symetryczną monetą. Oblicz: 1. prawdopodobieństwo wyrzucenia 60 orłów. wartość oczekiwaną liczby wyrzuconych orłów Rozwiązanie: Model probabilistyczny: X - liczba wyrzuconych orłów, zmienna losowa o rozkładzie dwumianowym bin(100, 1/) Odpowiedzi: 1. P (X = 60) = ( ) ( ) 100 100 1 60 = 0.01084387. EX = nθ = 50 ZADANIE ze statystyki matematycznej Rzucono niezależnie 100 razy pewna monetą uzyskując 60 orłów. Polecenia: 1. oszacuj prawdopodobieństwo uzyskania orła w pojedynczym rzucie;. czy moneta jest symetryczna Co znamy? Model probabilistyczny z dokładnością do parametru X - liczba wyrzuconych orłów, obserwowana zmienna losowa o rozkładzie dwumianowym, znamy n = 100 (liczba prób),

Agata Boratyńska Wykłady ze statystyki matematycznej 3 nieznamy θ prawdopodobieństwa sukcesu w pojedynczej próbie θ (0, 1) - nieznany parametr ( ) 100 P θ (X = x) = (θ) x (1 θ) 100 x x Wynik obserwacji x = 60, na jego podstawie chcemy wnioskować o nieznanym parametrze θ. Wnioskowanie statystyczne Zagadnienie estymacji - szacowanie nieznanego parametru lub funkcji na podstawie wyniku obserwacji; - estymacja punktowa - podanie oszacowania w postaci liczbowej; - estymacja przedziałowa - podanie oszacowania w postaci przedziału nazywanego przedziałem ufności Testowanie hipotez statystycznych - weryfikacja hipotezy dotyczącej nieznanej wielkości rozkładu obserwowanej zmiennej losowej na podstawie wyniku obserwacji predykcja (przewidywanie) - przewidywanie wartości zmiennej losowej nieobserwowanej Y za pomocą obserwowanej zmiennej X, rozkłady zmiennej Y i X zależą od tego samego parametru. Pole cenia w zadaniu z monetą: 1. wyznacz estymator lub przedział ufności parametru θ. zweryfikuj hipotezę H : θ = 1

Agata Boratyńska Wykłady ze statystyki matematycznej 33 MODEL STATYSTYCZNY (X, F X, P) X - przestrzeń wartości obserwowanej zmiennej losowej X F X - σ-ciało podzbiorów P - rodzina rozkładów prawdopodobieństwa indeksowanych pewnym parametrem θ P = {P θ : θ Θ} PRZYKŁAD (zadanie z monetą): model ( X = {0, 1,,..., 100}, X, P = {P θ : θ (0, 1)} ) gdzie P θ (X = x) = ( ) 100 x (θ) x (1 θ) 100 x Statystyką nazywamy zmienną losową T będącą funkcją obserwowanej zmiennej losowej X. Rozkład statystyki zależy od rozkładu zmiennej X Wnioskowanie statystyczne przeprowadza się na podstawie wybranych w modelu statystyk i ich wartości Przykłady modeli statystycznych Kontrola jakości i model dwumianowy, wnioskowanie o prawdopodobieństwie pojawienia się braku Sondaż opinii publicznej i model hipergeometryczny, wnioskowanie o popularności Pomiary i model normalny, wnioskowanie o wartości oczekiwanej i dokładności pomiarów Wypadki samochodowe i model Poissona, wnioskowanie o średniej liczbie wypadków Czas życia i model z rozkładem wykładniczym, wniskowanie o średnim czasie życia i prawdopodobieństwie przeżycia Porównania np skuteczności diet

Agata Boratyńska Wykłady ze statystyki matematycznej 34 PEWNE WAŻNE ROZKŁADY Rozkład χ Niech Z i N(0, 1), i = 1... k, Z i niezależne Rozkładem χ z k stopniami swobody nazywamy rozkład prawdopodobieństwa zmiennej losowej k Y = Zi i=1 i oznaczamy Y χ k gęstość EY = k i V ary = k p k (x) = 1 k Γ( k 1 exp ( 1 ) x 1 (0, ) (x) )xk kwantyl rzędu p - F 1 χ k wartość krytyczna rzędu α (p) - jest to liczba taka, że P {Y F 1 (p)} = p χ (α, k) = F 1 (1 α) χ k - jest to liczba, taka że prawdopodobieństwo zdarzenia Y > χ (α, k) jest równe α. χ k

Agata Boratyńska Wykłady ze statystyki matematycznej 35 Rozkład t-studenta Niech Z N(0, 1) i Y χ k oraz Z i Y niezależne, wtedy rozkład zmiennej losowej T = Z Y k nazywamy rozkładem t-studenta z k stopniami swobody i oznaczamy gęstość ET = 0 gdy k > 1 V art = k gdy k > k kwantyl rzędu p - F 1 t k T t k f k (x) = 1 Γ ( ) k+1 ( kπ Γ ( ) k wartość krytyczna dwustronna rzędu α 1 + x ) k+1 (p) - jest to liczba taka, że P {T F 1 (p)} = p ( t(α, k) = Ft 1 k 1 α ) - jest to liczba, taka że prawdopodobieństwo zdarzenia T > t(α, k) jest równe α. t k

Agata Boratyńska Wykłady ze statystyki matematycznej 36 Rozkład F (Fishera-Snedecora) Niech Y χ k i V χ r oraz zmienne Y i V są niezależne, wtedy rozkład zmiennej losowej F = Y/k V/r nazywamy rozkładem F z k i r stopniami swobody i oznaczamy F F k,r gęstość gdy x > 0 p k,r (x) = Γ ( ) k+r Γ ( k ) Γ ( r ) ( r k ) r x k 1 ( x + r k ) k+r 1 (0, ) (x) kwantyl rzędu p - F 1 F k,r (p) wartość krytyczna rzędu α F (α, k, r) = F 1 F k,r (1 α) - jest to liczba, taka że prawdopodobieństwo zdarzenia F > F (α, k, r) jest równe α.

Agata Boratyńska Wykłady ze statystyki matematycznej 37 Rozkłady pewnych statystyk w modelu normalnym X 1, X,..., X n i.i.d. N(µ, σ ), µ R, σ > 0 Własności X i S są niezależne; X N(µ, σ n ) E X = 1 n E n i=1 X i = 1 n nex 1 = µ V ar X = 1 n V ar n i=1 X i = 1 n nv arx 1 = σ n X = 1 n n X i=1 i S = 1 n n 1 (X i=1 i X) Zmienna n i=1 (X i µ) σ ma rozkład χ n (n 1)S = n (X i X) σ i=1 σ χ n 1 E (n 1)S σ = n 1 i V ar (n 1)S σ = (n 1) stąd ES = σ i V ars = σ4 n 1 X µ σ n N(0, 1) i (n 1)S σ χ n 1 zatem T = n X µ σ (n 1)S σ (n 1) = X µ n tn 1 S Niech X 1, X,..., X n i.i.d. N(µ 1, σ ) i Y 1, Y,..., Y m i.i.d. N(µ, σ ) Niech SX = 1 n n 1 (X i=1 i X)

Agata Boratyńska Wykłady ze statystyki matematycznej 38 i Wtedy (n 1)S X i zmienne sa niezależne, stąd σ SY = 1 m m 1 (Y i=1 i Ȳ ) χ n 1 (m 1)S Y σ χ m 1 (n 1)SX σ (n 1) (m 1)SY σ = S X S Y F n 1,m 1

Agata Boratyńska Wykłady ze statystyki matematycznej 39 ZAGADNIENIE ESTYMACJI Zagadnienie estymacji - szacowanie nieznanego parametru lub funkcji na podstawie wyników obserwacji; X 1, X,..., X n - niezależne zmienne losowe o tym samym rozkładzie (i.i.d.) P θ - próba losowa θ Θ - nieznany parametr, Θ R(R k ) Estymatorem parametru θ nazywamy dowolną funkcję ˆθ(X 1, X,..., X n ), której wartości należą do przestrzeni Θ, i której celem jest oszacowanie parametru θ. Metody wyznaczania estymatorów Charakterystyki próbkowe - estymatory w oparciu o dystrybuantę empiryczną estymatory metodą momentów estymatory metodą kwantyli estymatory metodą największej wiarogodności

Agata Boratyńska Wykłady ze statystyki matematycznej 40 CHARAKTERYSTYKI PRÓBKOWE - estymatory w oparciu o dystrybuantę empiryczną Model: (R, F) n, gdzie F rodzina dystrybuant na prostej rzeczywistej X = (X 1, X,..., X n ) - próbka losowa z rozkładu o dystrybuancie F Dystrybuanta empiryczna gdzie F n (X, t) = F n (t) = liczba X i, takich że X i t n F n (t) = 1 n Σ1 (,t](x i ) = 1 n Σ1 [x i:n, )(t) 1 (,t] (X i ) = jest zmienną losową dwupunktową, { 1 gdy Xi (, t] 0 w przeciwnym przypadku P F (1 (,t] (X i ) = 1) = F (t) Dystrybuanta empiryczna, przykład Próba losowa:.0.0 3.0 3.0 3.0 3.5 4.0 4.0 4.5 5.0

Agata Boratyńska Wykłady ze statystyki matematycznej 41 Dystrybuanta empiryczna, własności: jest statystyką jako funkcja próby losowej jest średnią z n zmiennych losowych o rozkładzie dwupunktowym (zero-jedynkowym) jest dystrybuantą rozkładu jednostajnego skupionego w punktach x 1, x,..., x n (wartości próby losowej) jako funkcja zmiennej t jest estymatorem dystrybuanty rozkładu obserwowanej zmiennej losowej X Własności F n jako statystyki 1. Wartość oczekiwana dystrybuanty empirycznej w danym punkcie ( ) 1 E F F n (t) = E F n Σn i=11 (,t] (X i ) = 1 n n ( E F 1 (,t] (X i ) ) = F (t). Wariancja dystrybuanty empirycznej w danym punkcie V ar F F n (t) = 1 F (t)(1 F (t)) n 3. CTG dla każdego z. P F x : F n (t) F (t) n N(0, 1) F (t)(1 F (t)) F n (t) F (t) n z Φ(z) F (t)(1 F (t)) 4. Twierdzenie Gliwenki Cantellego. Dla prawie wszystkich wartości x 1, x,..., x n Przykład. Zbieżność dystrybuanty empirycznej sup F n (t) F (t) 0 gdy n t

Agata Boratyńska Wykłady ze statystyki matematycznej 4 Dystrybuanta empiryczna dla dwóch próbek i dystrybuanta teoretyczna N=10 N=10 N=100 Charakterystyki próbkowe jako estymatory Charakterystyki próbkowe w oparciu o próbę (X 1, X,..., X n ) są równe charakterystykom liczbowym rozkładu zmiennej losowej, której dystryuanta jest równa dystrybuancie empirycznej w oparciu o próbę (X 1, X,..., X n ) WNIOSEK: średnia z próby - estymator wartości oczekiwanej mediana próbkowa - estymator mediany kwantyl próbkowy - estymator kwantyla rozkładu wariancja z próby - estymator wariancji itd

Agata Boratyńska Wykłady ze statystyki matematycznej 43 METODY WYZNACZANIA ESTYMATORÓW Estymacja metodą momentów (EMM) Model: X 1, X,..., X n i.i.d z rozkładu P θ, θ- nieznany parametr Postępowanie: Porównujemy momenty rozkładu teoretycznego (zależą od nieznanego(ych) parametru(ów)) do odpowiednich momentów empirycznych, z otrzymanego układu równań wyznaczamy nieznany parametr θ R (jednowymiarowa przestrzeń parametrów), rozwiąż (niewiadomą jest θ): E θ X = X θ = (θ 1, θ ) R, rozwiąż układ (niewiadomą jest θ): { Eθ X = X V ar θ X = Ŝ θ = (θ 1, θ,..., θ k ) (k-wymiarowa przestrzeń parametrów), rozwiąż układ (niewiadomą jest θ): E θ X = X V ar θ X = Ŝ E θ (X µ) 3 = 1 (Xi X) 3 n...... E θ (X µ) k = 1 (Xi X) k n gdzie µ = E θ X.

Agata Boratyńska Wykłady ze statystyki matematycznej 44 Przykład 1. X = (X 1, X,..., X n ), X i Ex(θ) i są niezależne, θ > 0 EMM(θ) =? Rozwiązujemy równanie: stąd E θ X i = + 0 xθe θx dx = 1 θ 1 θ = X EMM(θ) = ˆθ = 1 X Przykład. X = (X 1, X,..., X n ), X i Gamma(α, β) i są niezależne, α, β > 0 EMM(α) =? i EMM(β) =?. p α,β (x) = βα Γ(α) xα 1 e βx gdy x > 0 E α,β X i = α β V ar α,β X i = α β Otrzymujemy układ: Stąd: α = X β α = β Ŝ ˆβ = X i ˆα = X Ŝ Ŝ Przykład 3. Wyznaczyć EMM parametrów w rozkładzie P areto(θ, λ), θ >, λ > 0.

Agata Boratyńska Wykłady ze statystyki matematycznej 45 Rozwiązanie: X = (X 1, X,..., X n ), X i P areto(θ, λ) i są niezależne Otrzymujemy układ: p θ,λ (x) = θλ θ (λ + x) θ+1, x > 0 Stąd: ˆθ = λ θ 1 = X λ θ (θ 1) (θ ) = S S S X ˆλ = X(ˆθ 1).

Agata Boratyńska Wykłady ze statystyki matematycznej 46 EMK (estymacja metodą kwantyli) Model: X 1, X,..., X n i.i.d z rozkładu P θ, θ- nieznany parametr Postępowanie: Porównujemy kwantyle teoretyczne (są funkcjami nieznanych parametrów) z ich odpowiednikami z próby i z otrzymanych równań wyznaczamy parametry. θ R (jednowymiarowa przestrzeń parametrów), rozwiąż (niewiadomą jest θ): q 1 (θ) = Q 1 θ = (θ 1, θ ), rozwiąż układ (niewiadomą jest θ): F θ (Q 1 ) = 1 lub układ równoważny: q 1 (θ) = Q 1 4 4 i q 3 (θ) = Q 3 4 4 F θ (Q 1 4 ) = 1 4 i F θ (Q 3 4 ) = 3 4 θ = (θ 1, θ, θ 3 ). Otrzymujemy układ: F θ (Q 1 4 ) = 1 4 i F θ (Q 1 ) = 1 i F θ (Q 3 4 ) = 3 4 θ = (θ 1, θ, θ 3, θ 4 ). Rozważamy kwantyle rzędu 1 8, 3 8, 5 8 i 7 8.

Agata Boratyńska Wykłady ze statystyki matematycznej 47 Przykład 1. X 1, X,..., X n i.i.d, X i Ex(θ), θ > 0 EMK(θ) =? ( ) ( ) 1 F θ q 1 = 1 exp θq 1 = q 1 Rozwiązujemy równanie: 1 θ ln 1 = Q 1 = 1 θ ln 1 stąd EMK(θ) = ˆθ(X) = 1 Q 1 ln 1

Agata Boratyńska Wykłady ze statystyki matematycznej 48 Przykład. Niech X 1, X,..., X n i.i.d z rozkładu W eibull(c, τ), EMK(c) =? i EMK(τ) =? Dystrybuanta w rozkładzie Weibulla ma postać: F c,τ (x) = 1 exp ( cx τ ) x > 0 Otrzymujemy układ: Stąd Estymatory mają postać: 1 e cqτ 1 4 = 1 4 1 e cqτ 3 4 = 3 4 { ln 0.75 = cq τ 1 4 ln 0.5 = cq τ 3 4 Q 1 4 Q 3 4 τ ˆτ = log Q 14 Q 34 = ln 0.75 ln 0.5. ( ) ln 0.75 ln 0.5 ĉ = ln 0.75 Qˆτ 1 4

Agata Boratyńska Wykłady ze statystyki matematycznej 49 ENW (estymacja metodą największej wiarogodności) Niech X 1, X,..., X n i.i.d. z rozkładu o gęstości f θ (x), gdzie θ jest nieznanym parametrem. Funkcją wiarogodności nazywamy funkcję zmiennej θ równą L(θ, x) = f θ (x 1 )f θ (x )... f θ (x n ) gdzie x = (x 1, x,..., x n ) jest próbką zaobserwowanych wartości zmiennych X 1, X,..., X n Estymatorem największej wiarogodności parametru θ (EN W (θ)) nazywamy argument maksimum funkcji L ENW (θ) = arg max L(θ, x). θ PRZYKŁAD 1. X bin(n, θ), wyznacz ENW (θ). Rozwiązanie L(θ, x) θ ( ) n L(θ, x) = θ x (1 θ) n x x ( ) n = θ x 1 (1 θ) n x 1 (x nθ) = 0 x ENW (θ) = X n ENW, przydatne związki 1. arg max θ L(θ, x) = arg max θ ln L(θ, x) (zamiast wyznaczać argument max funkcji L można wyznaczać argument max funkcji l(θ) = ln L(θ)). ENW (g(θ)) = g(enw (θ))

Agata Boratyńska Wykłady ze statystyki matematycznej 50 3. Jeżeli θ = (θ 1,..., θ k ) jest parametrem ciągłym i L jest funkcją różniczkowalną, to ENW wyznaczamy rozwiązując układ równań: lub równoważny układ: L(θ, x) θ j = 0, j = 1,,..., k ln L(θ, x) θ j = 0, j = 1,,..., k. PRZYKŁAD. X 1, X,..., X n i.i.d Ex(θ), θ > 0. Wyznacz ENW (θ) Rozwiązanie Funkcja wiarogodności Pochodna ln L(θ,x) θ ( ) n L(θ, x) = θ n exp θ x i i=1 n ln L = n ln θ θ x i i=1 = n θ n i=1 x i Rozwiązujemy równanie n n θ x i = 0 i=1 ENW (θ) = 1 X PRZYKŁAD 3. X 1, X,..., X n i.i.d N(µ, σ). Wyznacz ENW (µ) i ENW (σ ). Rozwiązanie Niech v = σ. L(µ, v) = ( ) n 1 exp ( 1 πv v ) n (x i µ) i=1

Agata Boratyńska Wykłady ze statystyki matematycznej 51 ln L = n ln(π) n ln v 1 v Po obliczeniu pochodnych cząstkowych otrzymujemy układ { 1 ni=1 (x v i µ) = 0 n + 1 ni=1 (x v v i µ) = 0 n (x i µ) i=1 Stąd ENW (µ) = X ENW (σ ) = Ŝ = 1 n ni=1 ( Xi X ). PRZYKŁAD 4. Dane: 0 307 61 17 078 3631 6 34 669 180 40 4068 77 346 686 1351 411 450 86 359 691 1380 41 5013 116 367 710 1501 519 5065 10 370 757 1546 588 5481 13 383 87 1565 78 6046 165 384 89 1635 799 7003 01 451 886 1671 850 775 40 475 893 1706 987 7477 46 496 969 185 3000 8738 5 505 1053 1830 3006 9197 65 59 1079 1850 3383 16370 7 546 1080 1871 3443 17605 8 560 1145 1916 3513 730 300 595 1194 09 3614 56788

Agata Boratyńska Wykłady ze statystyki matematycznej 5 Wartości estymatorów ROZKŁAD WYKŁADNICZY EMM 0,000334 ENW 0,000334 ROZKŁAD PARETO EMM theta,48984 lambda 4458,4 ENW theta 1,90145 lambda 691,39 ROZKŁAD WEIBULLA EMK tau 0,803439 c 0,0033 ENW tau 0,71316 c 0,004071 ROZKŁAD GAMMA EMM alpha 0,196736 beta 0,000066 ENW alpha 0,65739 beta 0,00009 ROZKŁAD LOGARYTMICZNO-NORMALNY ENW 7,0464 1,4001 Wykresy gęstości 0,001 0,0008 0,0006 0,0004 histogram wykladniczy Pareto Weibulla Gamma Lognormal 0,000 0 0 000 4000 6000 8000

Agata Boratyńska Wykłady ze statystyki matematycznej 53 WŁASNOŚCI ESTYMATORÓW, PORÓWNYWANIE ESTYMATORÓW CEL: Badanie jakości estymatora. Czy przybliża szukaną wielkość? Czym jest błąd przybliżenia, jak go mierzyć? Badane własności: własności - ustalona liczebność próby: obciążenie ryzyko (błąd średniokwadratowy) wariancja efektywność Własności asymptotyczne: zgodność asymptotyczna normalność asymptotyczna efektywność

Agata Boratyńska Wykłady ze statystyki matematycznej 54 X = (X 1, X,..., X n ) - obserwowana zmienna losowa P θ - rozkład zmiennej X, θ -nieznany parametr ˆθ - estymator θ, ĝ - estymator funkcji g(θ) 1. Obciążenie estymatora Obciążenie estymatora parametru θ: B θ (ˆθ) = E θ ˆθ(X) θ Obciążenie estymatora funkcji g(θ): B θ (ĝ) = E θ ĝ(x) g(θ) Estymator ˆθ ( ĝ) jest estymatorem nieobciążonym θ Θ E θ ˆθ(X) = θ (Eθ ĝ(x) = g(θ)) PRZYKŁADY: X 1, X,..., X n i.i.d z rozkładu o nieznanej dystrybuancie F i nieznanych EX i = µ i V arx i = σ F n - dystrybuanta empiryczna (estymator F ) X - estymator µ S, Ŝ - estymatory σ

Agata Boratyńska Wykłady ze statystyki matematycznej 55 Badamy obciążenie: EF n (t) = F (t) = F n (t) estymator nieobciążony dystrybuanty F (t) E X = 1 n n E X i = 1 n nex 1 = µ = X - estymator nieobciążony wartości oczekiwanej i=1 ES = 1 ( n ) n 1 E (X i X) i=1 = 1 ( n ) n 1 E Xi n X = n i=1 n 1 EX 1 ES = n ( ( )) σ σ + µ n 1 n + µ = S jest estymatorem nieobciążonym wariancji = Ŝ - estymator obciążony ( n 1 EŜ = E n S ) = n 1 n σ B(Ŝ ) = n 1 n σ σ = 1 n σ n n 1 E X = σ Mówimy, że estymator jest asymptotycznie nieobciążony gdy θ Θ B(Ŝ ) = 1 n σ 0 gdy n + = lim B θ(ˆθ) = 0 n + Ŝ - estymator asymptotycznie nieobciążony

Agata Boratyńska Wykłady ze statystyki matematycznej 56. Ryzyko estymatora (błąd średniokwadratowy) Funkcję R(θ, ĝ) = E θ (ĝ(x) g(θ)) nazywamy ryzykiem estymatora ĝ przy kwadratowej funkcji straty lub błędem średniokwadratowym. Zachodzi R(θ, ĝ) = E θ (ĝ(x) g(θ)) = B θ(ĝ) + V ar θ (ĝ) Mówimy, że estymator ĝ 1 jest lepszy niż ĝ θ R(θ, ĝ 1 ) R(θ, ĝ ) i θ 0 R(θ 0, ĝ 1 ) < R(θ 0, ĝ ). Jeżeli ĝ jest estymatorem nieobciążonym funkcji g(θ), tzn. E θ (ĝ) = g(θ) dla każdego θ Θ, to R(θ, ĝ) = V ar θ (ĝ). WNIOSEK: Przy estymatorach nieobciażonych miernikiem jakości estymatora jest jego wariancja.

Agata Boratyńska Wykłady ze statystyki matematycznej 57 PRZYKŁAD 1. X 1, X,..., X n i.i.d P oiss(θ), θ > 0. Wyznacz ENW (θ) i oblicz jego ryzyko Rozwiązanie: L(θ, x) = e nθ θ x i xi! ln L(θ, x) = nθ + x i ln θ ln x i! ln L(θ, x) θ ENW (θ) = ˆθ = E θ X = θ = ˆθ estymator nieobciążony PRZYKŁAD. = n + Xi n xi R(θ, ˆθ) = V ar θ ˆθ = θ n X 1, X,..., X n i.i.d N(µ, σ ), oba parametry nieznane. Porównamy ryzyka estymatorów wariancji S i Ŝ θ = X R(µ, σ, S ) = V ar µ,σ S σ 4 ( ni=1 = (n 1) V ar (X i X) ) µ,σ σ = σ 4 σ4 (n 1) = (n 1) (n 1) Zatem R(µ, σ, Ŝ ) = V ar µ,σ Ŝ + B µ,σ(ŝ ) ( ) ( ) n 1 1 = V ar µ,σ n S + n σ ( ) n 1 σ 4 = n (n 1) + σ4 n = n 1 σ 4 n µ, σ R(µ, σ, Ŝ ) < R(µ, σ, S )

Agata Boratyńska Wykłady ze statystyki matematycznej 58 PRZYKŁAD 3. Model: X 1, X,..., X n i.i.d z rozkładu o nieznanej dystrybuancie F i nieznanych EX i = µ i V arx i = σ. Estymatory parametru µ: ˆµ 1 = X = 1 n X i n i=1 ˆµ = X 1 ˆµ 3 = Obciążenie: Ryzyko B µ ( X) = 0 B µ (ˆµ ) = 0 B µ (ˆµ 3 ) = µ R(µ, ˆµ 1 ) = V ar µ ( X) = σ n R(µ, ˆµ ) = V ar µ X 1 = σ > R(µ, ˆµ 1 ) R(µ, ˆµ 3 ) = V ar µ () + ( µ) = ( µ) R(µ, ˆµ 3 ) nieporównywalne z ryzykami pozostałych estymatorów bez znajomości parametrów UWAGI: Nie każde dwa estymatory danego parametru można porównać (porównaj przykład 3). Można ograniczac porównywanie estymatorów do pewnych klas estymatorów sensownych (np. nieobciążonych) Porównywanie ryzyka estymatorów nieobciążonych sprowadza się do porównywania wariancji i pozwala wyznaczać w pewnych modelach estymatory nieobciążone o minimalnej wariancji.

Agata Boratyńska Wykłady ze statystyki matematycznej 59 Statystyka ĝ jest estymatorem nieobciążonym o minimalnej wariancji (ENMW) parametru g(θ) ĝ jest estymatorem nieobciążonym dla każdego nieobciążonego estymatora ĝ mamy θ V ar θ (ĝ) V ar θ (ĝ )

Agata Boratyńska Wykłady ze statystyki matematycznej 60 INFORMACJA FISHERA X = (X 1, X,..., X n ) - obserwowana zmienna losowa p θ (x) - gęstość rozkładu zmiennej X Założenia: Θ jest przedziałem otwartym Nośnik rozkładu {x : p θ (x) > 0} nie zależy od θ Istnieje pochodna ln p θ(x) θ. Informacją Fishera nazywamy funkcję I n (θ) = X x ( ) ln pθ (X) I n (θ) = E θ θ ( pθ (x) θ p θ (x) ( Pθ (x) θ P θ (x) ) p θ (x)dx dla zmiennej ciągłej ) P θ (x) dla zmiennej dyskretnej PRZYKŁAD 1. X bin(n, θ), wyznacz Informację Fishera. Rozwiązanie: ( ) n p θ (x) = P θ (X = x) = θ x (1 θ) n x x ( ) n ln P θ (X = x) = ln + x ln θ + (n x) ln(1 θ) x ln p θ (x) θ = x θ n x 1 θ = x nθ θ(1 θ) ) = I(θ) = E θ ( X nθ θ(1 θ) n θ(1 θ)

Agata Boratyńska Wykłady ze statystyki matematycznej 61 Informacja Fishera, własności Interpretacja: jak wiele może powiedzieć próba wielkości n o wartości nieznanego parametru θ. Jeżeli p θ (x) jest dwukrotnie różniczkowalną funkcją zmiennej θ, to ( ) ln p θ (X) I n (θ) = E θ. θ Jeżeli X 1, X,..., X n i.i.d. z rozkładu o gęstości p θ (x), to I n (θ) = ni 1 (θ), gdzie I 1 (θ) jest informacją Fishera w oparciu o zmienną X 1. PRZYKŁAD. X = (X 1, X,..., X n ), X i Ex(θ) i są niezależne, θ > 0 ln p θ (x) θ p θ (x) = θe θx ln p θ (x) = ln θ θx = 1 θ x ln p θ (x) θ = 1 θ I n (θ) = ni 1 (θ) = ne θ ( 1 θ ) = n θ NIERÓWNOŚĆ INFORMACYJNA, dolne ograniczenie na wariancję estymatorów nieobciążonych Nie da się dowolnie zmniejszać wariancji estymatorów przy ustalonej wielkości próby Istnieje dolne ograniczenie na wariancję estymatorów nieobciążonych.

Agata Boratyńska Wykłady ze statystyki matematycznej 6 Twierdzenie - NIERÓWNOŚĆ INFORMACYJNA Przy pewnych warunkach regularności, jeżeli ĝ jest estymatorem nieobciążonym funkcji różniczkowalnej g(θ), to θ Θ V ar θ ĝ (g (θ)) I n (θ). Efektywnością bezwzględną estymatora ĝ(x 1, X,..., X n ) funkcji różniczkowalnej g(θ) nazywamy (g (θ)) eff θ (ĝ(x 1, X,..., X n ) = I n (θ)v ar θ (ĝ) Wielkość (g (θ)) I n(θ) PRZYKŁAD nazywamy dolnym ograniczeniem Cramera-Rao X 1, X,..., X n i.i.d P oiss(θ), θ > 0 ENW (θ) = X i V ar θ X = θ n Wyznaczymy dolne ograniczenie Cramera Rao θ θx P θ (x) = e x! ln P θ (x) = θ + x ln θ ln x! ( ) I n (θ) = ni 1 (θ) = ne ln Pθ (X) θ θ ln P θ (X) θ = 1 + x θ Dolne ograniczenie Cramera Rao ( ) X θ I n (θ) = ne θ = n 1 θ θ E θ(x θ) = n θ (g (θ)) I n (θ) = 1 I n (θ) = θ n = V ar θ X = X = ENMW (θ)

Agata Boratyńska Wykłady ze statystyki matematycznej 63 WŁASNOŚCI ASYMPTOTYCZNE 3. Zgodność estymatora ĝ(x 1, X,..., X n ) = ĝ n funkcji g(θ) dla każdego ε > 0 i θ Θ lim P θ ( ĝ n g(θ) > ε) = 0 n + Narzędzia do badania zgodności: Prawa Wielkich Liczb Nierówność Czebyszewa = Estymator nieobciążony, którego wariancja przy n dążącym do nieskończoności dąży do 0 jest zgodny zgodność ENW (poniżej) 4. Asymptotyczna normalność ĝ(x 1, X,..., X n ) Estymator ĝ(x 1, X,..., X n ) jest asymptotycznie normalny istnieje σ(θ) > 0 takie, że dla każdego z ) (ĝn lim P g(θ) θ n < z = Φ(z) n + σ(θ) gdzie Φ jest dystrybuantą rozkładu normalnego N(0, 1) ( ) ĝ n N g(θ), σ (θ) przy dużym n ĝ n g(θ) n N(0, 1) przy n + σ(θ) Wielkość σ (θ) nazywamy wariancją asymptotyczną. Narzędzia do badania asymptotycznej normalności: CTG Lemat Delta (poniżej) asymptotyczna normalność ENW (poniżej) n

Agata Boratyńska Wykłady ze statystyki matematycznej 64 PRZYKŁADY X 1, X,..., X n i.i.d z rozkładu dystrybuancie F i EX i = µ i V arx i = σ 1. Z praw wielkich liczb wynika X µ przy n +. Z CTG wynika S σ przy n + F n (t) F (t) przy n + X µ n N(0, 1) przy n + σ F n (t) F (t) n N(0, 1) przy n + F (t)(1 F (t)) 3. Niech ˆQ p = X [np]:n. Jeżeli funkcja gęstosci f θ jest ciągła i spełnia f θ (q p ) 0, to ( ˆQ p q p ) n N ( 0, ) p(1 p) fθ (q p) przy n + 4. Estymator nieobciążony nie musi być zgodny PRZYKŁAD: EX 1 = µ = X 1 estymator nieobciążony parametru µ, ale X 1 nie jest zgodny

Agata Boratyńska Wykłady ze statystyki matematycznej 65 Lemat DELTA Jeżeli ciąg Z n rzeczywistych zmiennych losowych spełnia (Z n θ) n N(0, σ ) dla pewnego σ i g(θ) jest różniczkowalną funkcją θ i g (θ) 0, to (g(z n ) g(θ)) n N(0, [g (θ)] σ ). PRZYKŁAD 1. X 1, X,..., X n i.i.d., EX i = µ i V arx i = σ X - estymator parametru µ Z CTG Niech Z lematu DELTA ( X µ) n N(0, σ ) przy n + g(µ) = µ ( X µ ) n N ( 0, 4σ µ ) PRZYKŁAD. X 1, X,..., X n i.i.d. Ex(θ), θ > 0, E θ X = 1 θ, V ar θx = 1 θ ENW (θ) = 1 X Z CTG Niech ( X 1 θ ) n N (0, 1 ) θ g(t) = 1 t przy n + wtedy g (t) = 1 t = g( X) = 1 X, g( 1 ( ) 1 θ ) = θ, g = θ θ Z lematu DELTA ( 1 X θ ) n N (0, 1θ θ4 )

Agata Boratyńska Wykłady ze statystyki matematycznej 66 ASYMPTOTYCZNA ZGODNOŚĆ I NORMALNOŚĆ ENW 1. Niech X 1, X,..., X n,... będą i.i.d z rozkładu o gęstości f θ, gdzie θ jest nieznanym parametrem. Niech gęstości f θ mają wspólny nośnik i przestrzeń Θ będzie przedziałem otwartym. Jeżeli układ równań Σ n ln L(θ, X i ) i=1 θ ma dokładnie jedno rozwiązanie, to jest ono ENW (θ) i jest to estymator zgodny.. Jeżeli dodatkowo istnieje 3 ln L(θ,x 1,...,x n), i spełnione są założenia umożliwiające zamianę θ 3 kolejności operacji różniczkowania po lub i całkowania... dx i I(θ) > 0 jest θ θ określona, to ˆθ n = ˆθ(X 1, X,..., X n ) = ENW (θ) jest asymptotycznie normalny i (ˆθ n θ) n N ( 0, ) 1 I 1 (θ) = 0 przy n +. 3. (Z Lematu DELTA) Przy powyższych założeniach jeżeli g jest różniczkowalna i g (θ) 0 i ˆθ n = ENW (θ), to (g(ˆθ n ) g(θ)) n N(0, [g (θ)] I 1 (θ)).

Agata Boratyńska Wykłady ze statystyki matematycznej 67 EFEKTYWNOŚĆ ESTYMATORÓW X = (X 1, X,..., X n )-obserwowana zmienna losowa o rozkładzie zależnym od parametru θ Zadanie: estymacja parametru g(θ) 1. ĝ(x) estymator nieobciążony parametru g(θ) i spełnione założenia jak przy nierówności informacyjnej Efektywnością bezwzględną estymatora ĝ(x) nazywamy funkcję eff θ (ĝ(x)) = (g (θ)) I n (θ)v ar θ (ĝ(x)) = jeżeli eff θ (ĝ(x)) = 1, to ĝ(x) = ENMW (g(θ)) Niech ĝ 1 (X), ĝ (X) będą dwoma estymatorami nieobciążonymi parametru g(θ). Efektywnością względną estymatora ĝ 1 (X) względem ĝ (X) nazywamy funkcję ef θ (ĝ 1 (X), ĝ (X)) = V ar θ(ĝ ) V ar(ĝ 1 ) Jeżeli ef θ (ĝ 1 (X), ĝ (X)) > 1, to estymator ĝ 1 jest lepszy (w sensie błędu sredniokwadratowego) niż estymator ĝ. PRZYKŁAD. X 1, X,..., X n i.i.d z rozkładu EX i = θ i V arx i = σ (θ), n > 1 Estymatory parametru θ: ˆθ 1 = X 1 ˆθ = X WNIOSEK: ˆθ lepszy niż ˆθ 1 V ar θ (ˆθ 1 ) = σ (θ) V ar θ (ˆθ ) = σ (θ) n ef(ˆθ 1, ˆθ ) = V ar θ(ˆθ ) V ar θ (ˆθ 1 ) = n > 1

Agata Boratyńska Wykłady ze statystyki matematycznej 68. X 1, X,..., X n,...-ciąg i.i.d. o rozkładzie zależnym od parametru θ Zadanie: estymacja parametru g(θ), ĝ n estymator parametru g(θ) w oparciu o próbę X 1, X,..., X n, asymptotycznie normalny o wariancji asymptotycznej σ (θ) Estymator ĝ n jest estymatorem asymptotycznie efektywnym parametru g(θ) jeżeli jest σ (θ) = [g (θ)] I 1 1 (θ) (oczywiście musi istnieć I 1 (θ) i g funkcja różniczkowalna) Estymatory największej wiarogodności są asymptotycznie efektywne Jeśli ĝ 1 i ĝ są dwoma estymatorami asymptotycznie normalnymi funkcji g(θ) o wariancjach asymptotycznych odpowiednio równych σ 1(θ) i σ (θ), to asymptotyczną efektywnością względną nazywamy stosunek as.ef(ĝ 1, ĝ ) = σ (θ) σ 1(θ).

Agata Boratyńska Wykłady ze statystyki matematycznej 69 PRZYKŁAD. X 1, X,..., X n i.i.d P oiss(θ), θ > 0 Chcemy estymować funkcję g(θ) = e θ = P θ (X 1 = 0) Znamy: ENW (θ) = ENMW (θ) = X, V ar θ X = θ n, Rozważamy dwa estymatory: ĝ 1 = e X ĝ = liczba X i, takich że X i = 0 n = 1 n 1(X i = 0) n i=1 Rozkłady asymptotyczne Wiemy I 1 (θ) = 1 θ ( X θ) n N(0, θ) Niech h(t) = e t, wtedy h (t) = e t i z lematu DELTA ( e X e θ) n N ( 0, θe θ ) Niech Wtedy oraz Y i = { 1 gdy Xi = 0 0 w pp E θ Y i = e θ i V ar θ Y i = e θ (1 e θ ) ĝ = 1 n 1(X i = 0) = 1 n i=1 n n Y i i=1 Z CTG (ĝ e θ) n N ( 0, e θ (1 e θ ) ) Porównujemy wariancje asymptotyczne θ > 0 e θ (1 e θ ) > θe θ = as.ef(ĝ 1, ĝ ) > 1 Estymator ĝ 1 jest bardziej efektywny niż estymator ĝ.

Agata Boratyńska Wykłady ze statystyki matematycznej 70 PRZYKŁAD. Ostrożny statystyk - Średnia czy mediana X 1, X,..., X n i.i.d. z rozkładu symetrycznego, estymujemy medianę µ Dwa estymatory: średnia ˆµ 1 = X i mediana z próby ˆµ = X [n/]:n Dodatkowe założenie: próba z rozkładu normalnego = as.ef(x [n/]:n, X) = π < 1 Dodatkowe założenie: próba z rozkładu Laplace a o gęstości p µ,θ (x) = θ exp ( θ x µ ) = as.ef(x [n/]:n, X) = > 1 A co gdy próba pochodzi z rozkładu Cauchy ego?

Agata Boratyńska Wykłady ze statystyki matematycznej 71 ESTYMACJA PRZEDZIAŁOWA, PRZEDZIAŁY UFNOŚCI X 1, X,..., X n - próbka losowa z rozkładu z nieznanym parametrem θ Przedziałem ufności dla parametru θ na poziomie ufności 1 α nazywamy przedział [θ(x 1, X,..., X n ), θ(x 1, X,..., X n )], którego końce są statystykami (funkcjami obserwowanej zmiennej losowej) i który spełnia warunek θ P θ ( θ(x1, X,..., X n ) θ θ(x 1, X,..., X n ) ) 1 α. Przykład, symulacje Przedstawmy 0 przedziałów ufności dla 0 wysymulowancyh 5- elementowych próbek z rozkładu normalnego o wartości oczekiwanej 10 (0 oznacza, że prawdziwa wartość parametru nie należy do otrzymanego przedziału) [9.7979; 10.6345] 1 [9.7649; 10.7345] 1 [9.5838; 10.4103] 1 [9.5760; 10.3449] 1 [9.78; 10.7749] 1 [9.5948; 10.4503] 1 [9.573; 10.3769] 1 [9.9565; 10.696] 1 [9.6501; 10.663] 1 [9.785; 10.5416] 1 [9.4447; 10.3519] 1 [9.641; 10.4085] 1 [9.343; 10.1563] 1 [9.7749; 10.6180] 1 [9.6356; 10.4158] 1 [9.6361; 10.4136] 1 [9.4945; 10.487] 1 [10.063; 10.7768] 0 [9.7108; 10.6464] 1 [9.973; 10.6543] 1 Przedział ufności, interpretacja α - mała liczba np. 0,1, 0,05, 0,01. Warunek P θ (θ [θ, θ]) = 1 α należy rozumieć tak: losowy przedział [θ, θ] pokrywa nieznaną liczbę θ z dużym prawdopodobieństwem. Pojęcie przedziału ufności precyzuje ideę estymacji z określoną dokładnością. Zamiast pojedynczego oszacowania nieznanego parametru, podajemy dolną i górną

Agata Boratyńska Wykłady ze statystyki matematycznej 7 granicę oszacowania. Nie możemy gwarantować, że parametr leży na pewno między tymi granicami, ale możemy wymagać by tak było z odpowiednio dużym prawdopodobieństwem. Przedział ufności zależy od rozkładu prawdopodobieństwa w modelu Przedział ufności, konstrukcja Szukamy zmiennych losowych zależnych od próby i funkcji parametrów, których rozkłady nie zależą od wartości nieznanych parametrów tzw. funkcji centralnych. Niech U = U(X 1, X,..., X n ) funkcja centralna, szukamy przedziału ufności postaci [a, b] t.że P (a < U < b) = 1 α Przekształcamy nierówność a < U < b otrzymując przedział dla parametru Przedziały ufności - rozważane modele Model I (rozkład normalny, wariancja znana): przedział ufności dla wartości oczekiwanej, Model II (rozkład normalny, wariancja nieznana): przedział ufności dla wartości oczekiwanej, Model II (rozkład normalny, wariancja nieznana): przedział ufności dla wariancji Model III (postać funkcyjna rozkładu nieznana, skończona wartość oczekiwana i wariancja, przedział asymptotyczny): przedział ufności dla wartości oczekiwanej Model IV (rozkład dwumianowy, przedział asymptotyczny): przedział ufności dla odsetka Model asymptotyczny: przedział ufności dla parametru oparty o ENW

Agata Boratyńska Wykłady ze statystyki matematycznej 73 Model I. X 1, X,..., X n i.i.d. z rozkładu N(µ, σ ), µ R nieznane, σ > 0 znane. ENW (µ) = EMM(µ) = X - estymator punktowy X N(µ, σ U = X µ σ n ) n N(0, 1), U - funkcja centralna szukamy z, tak aby P ( z = u 1 α - kwantyl rzędu 1 α ) X µ n z = 1 α σ w rozkładzie normalnym N(0, 1) Rozwiążmy nierówność (wyznaczamy µ) X µ n u 1 α σ Otrzymujemy Zatem P ( X u 1 α X u 1 α σ n µ X + u 1 α σ n µ X + u 1 α σ n σ n ) = 1 α Przedział [ X u 1 α σ n, X + u 1 α ] σ n jest przedziałem ufności dla parametru µ na poziomie ufności 1 α. Własności przedziału ufności: d - długość przedziału ufności σ d = u 1 α n d nazywamy błędem oszacowania 1 α rośnie = d rośnie