6.4 Podstawowe metody statystyczne

Podobne dokumenty
166 Wstęp do statystyki matematycznej

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Statystyka matematyczna dla leśników

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Rozkłady zmiennych losowych

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

Rachunek prawdopodobieństwa- wykład 6

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Biostatystyka, # 3 /Weterynaria I/

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wykład 13. Zmienne losowe typu ciągłego

Jednowymiarowa zmienna losowa

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Prawa wielkich liczb, centralne twierdzenia graniczne

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3.

W4 Eksperyment niezawodnościowy

Rozkłady prawdopodobieństwa zmiennych losowych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Rozkłady statystyk z próby

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Przestrzeń probabilistyczna

Wykład 2 Zmienne losowe i ich rozkłady

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Statystyka i eksploracja danych

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Przykłady do zadania 8.1 : 0 dla x 1, c x 4/3 dla x > 1. (b) Czy można dobrać stałą c tak, aby funkcja f(x) = była gęstością pewnego

Wykłady 14 i 15. Zmienne losowe typu ciągłego

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

3. Podstawowe pojęcia statystyki matematycznej i rachunku prawdopodobieństwa wykład z Populacja i próba

Wykład 3 Jednowymiarowe zmienne losowe

Spis treści 3 SPIS TREŚCI

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

σ-ciało zdarzeń Niech Ω będzie niepustym zbiorem zdarzeń elementarnych, a zbiór F rodziną podzbiorów zbioru Ω spełniającą warunki: jeśli A F, to A F;

Zmienne losowe ciągłe i ich rozkłady

Przykłady do zadania 6.1 :

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Wykład 10: Elementy statystyki

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 1. L. Kowalski, Statystyka, 2005

Dokładne i graniczne rozkłady statystyk z próby

Statystyka matematyczna i ekonometria

Prawdopodobieństwo i statystyka

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Zmienna losowa. Rozkład skokowy

Prawdopodobieństwo i statystyka

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Statystyka opisowa- cd.

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Statystyka. Magdalena Jakubek. kwiecień 2017

Rachunek prawdopodobieństwa Rozdział 4. Zmienne losowe

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Rachunek prawdopodobieństwa Rozdział 4. Zmienne losowe

Matematyka stosowana i metody numeryczne

STATYSTYKA I DOŚWIADCZALNICTWO

Przykłady do zadania 3.1 :

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

Statystyka w przykładach

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

WYKŁAD 3. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Matematyka 2. dr inż. Rajmund Stasiewicz

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

Ważne rozkłady i twierdzenia c.d.

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

STATYSTYKA

Statystyka matematyczna

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

Prawdopodobieństwo i statystyka

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Prawdopodobieństwo i statystyka

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

(C. Gauss, P. Laplace, Bernoulli, R. Fisher, J. Spława-Neyman) Wikipedia 2008

Zmienne losowe ciągłe i ich rozkłady

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Wykład 7 Testowanie zgodności z rozkładem normalnym

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Rachunek Prawdopodobieństwa i Statystyka

Transkrypt:

156 Wstęp do statystyki matematycznej 6.4 Podstawowe metody statystyczne Spóbujemy teraz w dopuszczalnym uproszczeniu przedstawić istotę analizy statystycznej. W szczególności udzielimy odpowiedzi na postawione wcześniej pytania (patrz przykład 5.2.1). Z metodologicznego punktu widzenia analiza statystyczna cechy X populacji generalnej sprowadza się do: 1. pobrania próby prostej, 2. określenia z dużym prawdopodobieństwem (na ogół 0,95) typu rozkładu cechy X, 3. oszacowania z dużym prawdopodobieństwem (j.w.) parametrów, od których ten rozkład zależy, 4. weryfikacji z dużym prawdopodobieństwem (j.w.) wyników z punktów (2) i (3). Na temat (1) już wypowiadaliśmy się. Zauważyliśmy, że z jednej strony nie będziemy tej kwestii dyskutowali, z drugiej strony umiejętność próbkowania stanowi podstawę całego rozumowania. Mówiąc inaczej, jeśli w wyniku zakończonej analizy statystycznej pojawią się znaczące różnice pomiędzy uzyskanymi wynikami a dalszą obserwacją cechy populacji generalnej, to na ogół źródłem tych rozbieżności jest niewłaściwe pobranie materiału statystycznego. W rozdziale 3 wprowadziliśmy podstawowe pojęcie teorii prawdopodobieństwa-rozkład prawdopodobieństwa. Zauważyliśmy, że można wprowadzić kategorię typu rozkładu. Dokładniej, możemy mówić o: rozkładach dyskretnych, całkowicie niedyskretnych, w szczególności o rozkładach ciągłych. W ramach tych typów możemy myśleć np. o rozkładzie Bernoulliego, Poissona, wykładniczym, jednostajnym czy normalnym. Istotą metody (2) jest określenie na podstawie pobranej próby prostej takiego właśnie typu rozkładu cechy populacji generalnej. Podstawową metodą jest tutaj metoda bazująca na pojęciu dystrybuanty empirycznej i histogramu (patrz [4], [10]). Na podstawie próby prostej wykreśla się dystrybuantę schodkową i próbuje się ją zidentyfikować przeglądając katalog znanych rozkładów. Ponieważ ciąg takich dystrybuant empirycznych w określony sposób zbieżny jest do dystrybuanty (w tym przypadku teoretycznej) cechy X, więc przy dostatecznie liczebnych próbach prostych metoda ta bywa skuteczna. Tym bardziej, jeśli szukany rozkład cechy pochodzi z tego katalogu. Niestety, nawet po pomyślnej identyfikacji typu rozkładu nadal pozostaje nierozwiązany problem. Typowe rozkłady zależą bowiem od parametrów, np. X B(n, p), X P(λ), X J([a, b]), X N(m, σ) itd.

6.4 Podstawowe metody statystyczne 157 Pozostaje problem wyznaczenie tych parametrów, o czym mówi metoda (3). Jest to tzw. teoria estymacji. Ograniczymy się tylko do metody estymacji przedziałowej. O innych rodzajach estymacji można dowiedzieć się np. z [4]. Weźmy próbę prostą cechy X populacji generalnej (x 1,x 2,...,x n ).Wiemy, że istnieje wtedy przestrzeń probabilistyczna (Ω, Σ, P) oraz ciąg niezależnych zmiennych losowych X 1, X 2,...,X n o jednakowym rozkładzie co cecha X, że (x 1,x 2,...,x n )= ( X 1, X 2,...,X n ) (ωo ), dla pewnego zdarzenia elementarnego ω o. Definiujemy funkcję: R x S(x, ω o ) [0, 1], 1. niech (x k1,x k2,...,x kn ) oznacza niemalejące uporządkowanie próby prostej (x 1,x 2,...,x n ), 2. kładziemy S(x, ω o )= 1 n {j: x k j <x}, x R. Zauważmy, że dla każdego x x k1, S(x, ω o )=0oraz dla x>x kn, S(x, ω o )=1. Ponadto dla x należących do przedziału (x kj,x kj+1 ), S(x, ω o )= j n,awięcwkażdej sytuacji S(x, ω o ) [0, 1]. Wprost z definicji wynika, że: 1. S jest funkcją niemalejącą, 2. lim S(x, ω o)=0, x lim S(x, ω o)=1. x + Wreszcie można pokazać, że S jest lewostronnie ciągła. Ponieważ funkcja S wzięła się z materiału statystycznego i ma wszystkie własności dystrybuanty, nazywa się dystrybuantą empiryczną cechy populacji generalnej. Uwolnimy teraz wartość ω o, a więc potraktujemy ją jako drugi argument dystrybuanty empirycznej S. Wtedy dla każdej ustalonej wartości x = x o dostaniemy odwzorowanie Ω ω S(x o,ω) R, które jest zmienną losową. Znajdziemy jej rozkład. Oznaczmy przez F dystrybuantę cechy X. Wtedy dla każdego 1 j n P ({ω Ω: X j (ω) <x o })=F (x o ).

158 Wstęp do statystyki matematycznej Z definicji dystrybuanty empirycznej, dla każdego ω Ω, S(x o,ω) rejestruje częstość pojawienia się pewnego zdarzenia A w n niezależnych próbach, bowiem S(x o,ω)= 1 n {j: X j(ω) <x o } i zmienne losowe X j są niezależne. Ozncza to, że S(x o,ω) B(n, p), gdzie p = F (x o ) idlatego P ({ω Ω: S(x o,ω)= j ( ) n n })= (F (x o )) j (1 F (x o )) n j. j Znaczenie dystrybuanty empirycznej dla metod statystycznych wyjaśnia następujące twierdzenie Gliwienki (patrz [4]) Twierdzenie 6.4.1 Niech (S n ) oznacza ciąg dystrybuant empirycznych odpowiadający wektorom losowym (X 1,...,X n ) niezależnych zmiennych losowych o tym samym rozkładzie F co cecha X populacji generalnej. Wtedy x R S n (x, ω) p.w. F (x), awięc P ({ω Ω: lim n + S n(x, ω) =F (x)}) =1. W takim razie, jeśli dysponujemy odpowiednio liczebną próbą prostą, to z prawdopodobieństwem jeden S n (x, ω) = F (x). Zatem wielce prawdopodobne jest, że dla zdarzenia elementarnego ω o prawdziwe jest przybliżenie S n (x, ω o ) = F (x). Spróbujemy wyjaśnić to jeszcze raz na przykładzie. Przykład 6.4.1 Zbadamy metodą dystrybuanty empirycznej naturę zjawiska polegającego na wielokrotnym rzucaniu kostką do gry. W omawianym przypadku podstawowe pytanie sprowadza się do rozstrzygnięcia kwestii czy kostka jest symetryczna. Wyobraźmy sobie, że rzucaliśmy kostką razy i odnotowaliśmy następujące wyniki: liczba oczek 1 2 3 4 5 6 liczba obserwacji 23 27 18 22 10 20

6.4 Podstawowe metody statystyczne 159 Gdybyśmy mieli pewność, że próba jest dostatecznie liczebna, to z twierdzenia Gliwienki wnioskowalibyśmy, że S (x, ω o ) = F (x), czyli z pewną dokładnością poznalibyśmy rozkład teoretyczny cechy naszej populacji, która opisuje naturę kostki. Z definicji dystrybuanty empirycznej wynika, że S (x, ω o )= 0, x 1 23 = 0, 19, 1 <x 2 50 = 0, 42, 2 <x 3 68 = 0, 57, 3 <x 4 90 = 0, 75, 4 <x 5 100 = 0, 83, 5 <x 6 1, 6 <x. Ponieważ 1 6 = 0, 17, więc postać dystrybuanty empirycznej raczej wyklucza symetrię w obserwowanym zjawisku. Powyższą sytuację możemy zilustrować inaczej. W tym celu podzielmy prostą rzeczywistą następującymi przedziałami: I 1 =(, 1), I 2 =[1, 2), I 3 =[2, 3), I 4 =[3, 4), I 5 =[4, 5), I 6 =[5, 6), I 7 =[6, 7), I 8 =[7, + ). Definiujemy funkcję h: R R wzorem { 0, x I 1 I 8 h(x) = w(i j ),x I I j j, 2 j 7, gdzie w(i j ) oznacza liczbę z tabeli odpowiadającą wartości j, I j jest długością przedziału I j u nas równą jeden. Podstawiając dane liczbowe otrzymamy h(x) = 0, x I 1 I 8 23 = 0, 19, x I 2 27 = 0, 23, x I 3 18 = 0, 15, x I 4 22 = 0, 18, x I 5 10 = 0, 08, x I 6 20 = 0, 17, x I 7. Poniżej przedstawiliśmy tzw. wykres słupkowy tej funkcji. Zauważmy, że funkcja ta zawsze przyjmuje wartości nieujemne a ponadto suma pól wszystkich słupków jest równa jeden. Tak powstały wykres słupkowy nazywamy histogramem z próby prostej populacji generalnej.

160 Wstęp do statystyki matematycznej 100 100 100 100 100 100 1 2 3 4 5 6 Rysunek 6.1: wykres histogramu dla próby prostej I ogólnie, niech (x 1,x 2,...,x n )=(X 1, X 2,...,X n )(ω o ) będzie próbą prostą. Podamy zasadę konstrukcji histogramu dla tej próby. 1. Zaznaczamy na osi liczbowj kolejne elementy próby prostej. W ten sposób otrzymamy przedział [a, b], gdzie odpowiednio a jest elementem najmniejszym, b największym w tej próbie. 2. Przedział ten dzielimy na parami rozłączne podprzedziały, których ilość k ustalmy według zasady: k = n lub k = 1+3, 322 log n. Otrzymujemy w ten sposób przedziały [a, a 2 ), [a 2,a 3 ),...,[a k 1,b), [b, a k+1 ). 3. Jeśli n i oznacza liczbę elementów próby prostej w przedziale [a i,a i+1 ], i = 1, 2,..., k, to przyjmujemy { h(x) = 0, x < a lub x a k+1 n i n(a i+1 a i ) x [a i,a i+1 ]. 4. Na tej podstawie konstruujemy wykres słupkowy histogramu. Kolejny i ty słupek w podstawie ma odcinek [a i,a i+1 ] oraz wysokość określoną wartością funkcji h na tym przedziale. Wtedy pole takiego słupka jest równe n i. n Dlatego suma wszystkich pól wynosi jeden. Jeźeli wiemy, że cecha X obserwowanej populacji generalnej jest typu ciągłego, to wtedy histogram ten stanowi przybliżenie funkcji gęstości tego rozkładu.