Rozdzia l 6 Wstȩp do statystyki matematycznej 6.1 Cecha populacji generalnej W rozdziale tym zaprezentujemy metodȩ probabilistycznego opisu zaobserwowanego zjawiska. W takim razie (patrz rozdzia l 2.4)zjawiskotobȩdziemy nazywali zjawiskiem losowym. Bȩdziemy zak ladali, że mamy do czynienia z pewn a mnogości a charakteryzuj ac a siȩtym,że jej wszystkie elementy posiadaj a tȩsam a interesuj ac a nasw lasność, któr a chcemy poznać. Zbiorowość tȩ dalej bȩdziemy nazywali populacj a generaln a, a badan a w lasność tej populacji cech a populacji generalnej ibȩdziemy j a oznaczali przez X. U podstaw metodologii poznania w lasności cechy X danej populacji generalnej leży proces próbkowania. Chodzi o to, że na ogó l populacja generalna jest bardzo liczna i nie ma możliwości, aby w lasności cechy X tej populacji można by by lo poznać, obserwuj ac ca l a populacjȩ. Wybiera siȩ wtedy jej reprezentacjȩ. W wyniku obserwacji elementów tej reprezentacji pozyskujemy tzw. materia l statystyczny. Proces ten dalej krótko bȩdziemy nazywali próbkowaniem, arepre- zentacjȩ populacji generalnej, na której przeprowadzamy próbkowanie, jej prób a. Jeśli przyjmiemy, że próba jest n elementowym podzbiorem populacji generalnej, to uzyskany w wyniku obserwacji tej próby materia l statystyczny możemy opisać wpostacjici agu (x 1...x n ), gdzie kolejne wyrazy x j opisuj a tȩsam aw lasność, awiȩc w lasność cechy X. Wdalszymci agu bȩdziemy zak ladali, że wartości x j s a wielkościami wymiernymi, a wiȩc liczbami rzeczywistymi. Zatem materia l statystyczny bȩdzie mia l postaćci agu liczbowego skończonego. Bȩdziemy go nazywali prób a cechy X z populacji generalnej. Maj ac już pobrany materia l statystyczny skonstruujemy odpowiadaj acy mu model probabilistyczny, a wiȩc w lasności cechy X opiszemy na tej podstawie w kategoriach teorii prawdopodobieństwa. Na gruncie tej teorii zostanie on zbadany. Pokażemy jak otrzymane wyniki odnosz ace siȩ tylko do pewnej podzbio-
148 Wstȩp do statystyki matematycznej rowości ca lej populacji generalnej (jej próby) bȩdzie można przenieść na ca la populacjȩ i jak takie uogólnienie należy rozumieć. Prześledźmy wprowadzone wyżej pojȩcia na nastȩpuj acym przyk ladzie: Przyk lad 6.1.1 Próbujemy określić preferencje wyborcze obywateli danego państwa. Przynależność do populacji wyborców określa wtedy obowi azuj aca ordynacja wyborcza. Przyk lad naszego państwa pokazuje, że liczebność tej populacji może być ca lkiem spora (przesz lo 20 mln.). Ale nie tylko to stanowi problem. Zbiorowość ta zawsze jest bardzo zróżnicowana, co zwi azane jest z miejscem zamieszkania (jaki region, miasto, wieś itp.), wiekiem, wykonywanym zawodem, p lci a itd. Aby materia l statystyczny by l wiarygodny, należy ten podzia l i liczebność populacji generalnej uwzglȩdnić, wybieraj ac jej reprezentacjȩ. Powiedzmy wyraźnie, że to nie bȩdzie przedmiotem tego opracowania, aczkolwiek ta faza analizy bywa kluczowa. Z technicznego punktu widzenia, po wybraniu reprezentacji, materia l statystyczny pozyskuje siȩ technik a ankietowania. Również sama konstrukcja takiej ankiety nie bȩdzie przedmiotem naszej analizy. Wspominamy o tym tylko dlatego, aby Czytelnik lepiej móg l sobie wyobrazić proces,który próbujemy tutaj opisać. W efekcie otrzymamy próbȩ (x 1...x n ). Okazuje siȩ, że w efekcie zamodelowaniategoprocesuidodatkowychza lożeń natȩpróbȩ, stosuj ac metody statystyki matematycznej, bȩdzie można odpowiedzieć np. na nastȩpuj ace pytania: 1. najprawdopodobnie na kogo zag losuj a mieszkańcy danego województwa; 2. najprawdopodobnie na kogo zag losuj a ludziezwyższym wykszta lceniem; 3. najprawdopodobnie na kogo zag losuj a ludziepowyżej 55 roku życia; i na wiele innych podobnych.
6.2 Model probabilistyczny próby prostej 149 6.2 Model probabilistyczny próby prostej Zaczniemy od nastȩpuj acego przyk ladu: Przyk lad 6.2.1 Wyobraźmy sobie, że pewien zak lad produkuje w określonym cyklu czasowym (np. dziennym) pewn a partiȩtegosamegoproduktu.ca latapartia z za lożenia ma trafić do dystrybucji. Aby ustrzec siȩ przed wpadk a, firma zmuszona jest do przeprowadzania kontroli bież acej produkcji. Z powodu liczebności wyprodukowanej partii i braku czasu nie można t a kontrol a obj ać ca lej produkcji. W tym przypadku stosuje siȩ również metody probabilistyczne. Z ca lej partii, kieruj ac siȩ wielomawzglȩdami (np. zmianowym trybem pracy, godzinami pracy itd.), po skontrolowaniu tylko wybranych produktów, a wiȩc elementów próby, pozyskuje siȩ materia l statystyczny. Jego analiza na przyk ladzie skonstruowanego modelu probabilistycznego pozwala na uzyskanie np. odpowiedzi na nastȩpuj ace pytanie: jak czȩsto w ca lej populacji pojawiaj a siȩ detale wadliwe, o ile ocena przydatności produktu odbywa la siȩ wed lug najprostszego kryterium polegaj acego na ocenie w kategoriach dobry z ly. W przyk ladzie 5.1.1 wspomnieliśmy, że materia l statystyczny musi spe lniać jeszcze jeden bardzo ważny wymóg, aby analiza statystyczna takiej próby mog la spe lnić swoje zadanie. Poniżej zajmiemy siȩ miȩdzy innymi i tym zagadnieniem. W pierwszej kolejności pokażemy, jak można zbudować model probabilistyczny pozwalaj acy na podstawie materia lu statystycznego opisać badan a cechȩ danej populacji generalnej. Zrobimy to w dwóch etapach. W etapie pierwszym przyjmiemy, że: 1. cecha X populacji generalnej jest zmienn a losow a o rozk ladzie F, który jest nieznany i próbujemy go poznać, 2. zmienna ta określona jest na przestrzeni zdarzeń Ω o,która reprezentuje populacjȩ generaln a zwi azan a z t a cech a, 3. σ-cia lo zdarzeń Σ o jest generowane przez rodzinȩ {ω Ω o : X(ω) <t, t R}, 4. funkcja prawdopodobieństwa P o jest taka, że F (x) =P o ({ω Ω o : X(ω) <x}), dla każdego x R.
150 Wstȩp do statystyki matematycznej Wtedy Ω o jako zbiór wszystkich zdarzeń elementarnych przedstawia populacjȩ generaln a, a przyporz adkowanie Ω o ω X(ω) R opisuje proces obserwacji w lasności cechy X dla danego elementu ω wybranego z tej populacji. Natomiast n elementow a reprezentacjȩ tej populacji-jej próbȩ możemy traktować jako n elementowy podzbiór ca lej populacji Ω n = {ω o 1...ωo n }. Materia l statystyczny-próba z populacji generalnej, bȩdzie mia l postać (X(ω o1 )...X(ωon ) ). W fazie drugiej konstrukcji modelu probabilistycznego odpowiadajȩcego zjawisku obserwacji populacji generalnej na podstawie wyboru próby skorzystamy z wyników podrozdzia lu 2.3, gdzie by la mowa o prawdopodobieństwie produktowym. Powtarzaj ac tamt a konstrukcjȩ n 2 razy otrzymamy: Ω = Ω o...ω }{{} o, n razy zσcia lem produktowym Σ i z prawdopodobieństwem produktowym P. Na tak skonstruowanej przestrzeni probabilistycznej zdefiniujemy nastȩpuj acy ci ag zmiennych losowych: X j (ω) =X j (ω 1,...ω j,...ω n )=X(ω j ) dla każdego j {1...n}. Zachodzi nastȩpuj ace twierdzenie (patrz też Dodatek) Twierdzenie 6.2.1 Niech zmienne X j bȩd a określone na przestrzeni probabilistycznej (Ω,Σ,P) jak wyżej. Wtedy: 1. 2. zmienne losowe X j maj a jednakowe rozk lady jak rozklad cechy X, zmienne te s a niezależne,
6.2 Model probabilistyczny próby prostej 151 3. gdzie ω o =(ω o 1,...ωo n ). (X 1,...X n )(ω o )=(X(ω o 1 ),...X(ωo n )) = (x 1,...x n ), Możemy wreszcie doprecyzować pojȩcie próby, wcześniej. o czym wspominaliśmy Definicja 6.2.1 Niech dany bȩdzie ci ag liczb (x 1...x n ) bȩd acy efektem obserwacji cechy X na przyk ladzie wybranej próby populacji generalnej. Powiemy, że ci ag ten jest prób a prost a, jeśli istnieje przestrzeń probabilistyczna i n zmiennych losowych niezależnych o tym samym rozk ladzie co badana cecha X, że zachodzi wzór (3) powyższego twierdzenia. Spróbujmy przybliżyć lepiej znaczenie tej definicji. Do tej pory w lasności tej samej cechy obserwowaliśmy na różnych elementach populacji generalnej wybieraj ac zniejpróbȩ. Tak naprawdȩ chodzi lo nam o coś wiȩcej, aby ta obserwacja poszczególnych elementów próby przebiega la w sposób niezależny. Na etapie pierwszym opisu tego modelu przet lumaczenie empirycznie rozumianej niezależności sprawia problemy. St ad w kroku drugim, bior ac za wzór model produktowy, tȩ niezależność dostaliśmy niejako za darmo. Zmieni la siȩ jednak interpretacja ca lego procesu pozyskiwania materia lu statystycznego. Bowiem fakt, że zaczȩliśmy operować ci agiem zmiennych losowych niezależnych o rozk ladzie tym samym co cecha X oznacza, że n krotnie powtarzaliśmy w sposób niezależny od siebie to samo doświadczenie (patrz też przyk lad 2.4.2). A zatem zwrot: z populacji generalnej w wyniku obserwacji jej cechy X pobrano materia l statystyczny w postaci próby prostej (x 1...x n ), w myśl powyższych ustaleń oznacza, że każda liczba x j jest zaobserwowan a wartości a zmiennej losowej X j, dla pewnego zdarzenia elementarnego ω o,gdzie zmienne te maj a tensamrozk lad co cecha X is a parami niezależne. Z drugiej strony możemy mówić o odwzorowaniu, które by lo przedmiotem naszych rozważań w rozdziale 4, czyli wektora losowego Ω ω (X 1,...X n )(ω), które w statystyce odgrywa kluczow a rolȩ. W takim razie przy tej interpretacji próba prosta jest wartości a wektora losowego o sk ladowych bȩd acych niezależnymi zmiennymi losowymi o tym samym rozk ladzie co cecha X.
152 Wstȩp do statystyki matematycznej Przyk lad 6.2.2 Należy ocenić partie produktu finalnego pod k atem jego wadliwości. Z teoretycznego punktu widzenia cecha X ma rozk lad dwupunktowy. Zak ladaj ac, że obserwacja dobrego produktu zwraca wartość 1,awadliwego0, dostaniemy P ({ω Ω : X(ω) =1}) =p, P ({ω Ω : X(ω) =0}) =1 p. Zatem ocenȩ można sprowadzić doprostegopytania: jakajestwartość liczbowa parametru p? Przypuśćmy, że dysponujemy n elementow a prób a prost a (x 1...x n ), gdzie x j {0, 1}. Istnieje wiȩc wektor losowy (X 1...X n ), taki że 1. 2. 3. d(x j )=d(x), X j s a niezależne, ωo Ω (x 1...x n )=(X 1,...X n )(ω o ). Z drugiej strony, z Mocnego Prawa Wielkich Liczb wiadomo, że jeśli weźmiemy ci ag zmiennych losowych Y k = 1 k (Y 1 +...Y k ), gdzie Y k maj a jednakowe rozk lady, s a niezależne i maj a drugie momenty, to Y k (ω) p, dla ω Ω 1 i P(Ω 1 )=1. W naszym przypadku, gdybyśmy wiedzieli, czy: 1. zdarzenie elementarne ω o określaj ace nasz a próbȩ prost a jest elementem zdarzenia Ω 1, 2. liczebność próby prostej jest dostatecznie duża, to moglibyśmy ustalić na tej podstawie nastȩpuj ace przybliżenie p 1 n (x 1 +...x n ). Dalej spróbujemy udzielić odpowiedzi na postawione wyżej pytania.
6.3 Pojȩcie statystyki 153 6.3 Pojȩcie statystyki Zmienne losowe Y k użyte w przyk ladzie 5.2.2 stanowi a przyk lad tzw. statystyki. Definicja 6.3.1 Każd a zmienn a losow a Z, która powstaje poprzez z lożenie wektora losowego (X 1...X k ), gdzie X j s a o tym samym rozk ladzie co cecha X zrzeczywist a funkcj a ci ag l a k zmiennych f statystyk a. (patrz Dodatek), bȩdziemy nazywali Mamy wiȩc Z(ω) =f((x 1 (ω)...x k (ω)) dla ω Ω. W przyk ladzie 5.2.2 funkcja f określona jest wzorem f(u) = 1 k (u 1 +...u k ), gdzie u =(u 1,...u k ). Przyjmijmy nastȩpuj ace oznaczenia: dla próby prostej (x 1...x n )=(X 1...X n )(ω o ) symbolem X n = 1 n (X 1 +...X n ) oznaczymy statystykȩ zwan a średni a zpróby. Natomiast jej wartość dla zdarzenia elementarnego ω o x n = X n (ω o ) bȩdziemy nazywali średni a empiryczn azpróby. Wśród ważniejszych statystyk należy wymienić nastȩpuj ace: Definicja 6.3.2 Niech (x 1...x n )=(X 1...X n )(ω o ) bȩdzie prób a prost a. 1. Momentem rzȩdu k 1 zpróby bȩdziemy nazywali statystykȩ M k = 1 n (Xk 1 +...Xk n ). Zmomentemtymzwi azany jest moment empiryczny rzȩdu k m k = 1 n (xk 1 +...x k n).
154 Wstȩp do statystyki matematycznej 2. Momentem centralnym rzȩdu k 1 zpróby bȩdziemy nazywali statystykȩ C k = 1 n n (X j M 1 ) k. j=1 Podobnie jak wyżej, dla momentu empirycznego mamy c k = 1 n n (x j m 1 ) k, j=1 aliczbȩ c k nazywamy empirycznym momentem centralnym rzȩdu k. Uwaga 6.3.1 Zauważmy, że M 1 = X n. W dalszym ci agu moment centralny rzȩdu 2 bȩdziemy nazywali wariancj a zpróby ibȩdziemy j a oznaczali przez S 2. Z pewnego wzglȩdu bȩdziemy teżużywali modyfikacji wariancji, a mianowicie statystyki Ŝ 2 = n n 1 S2. Zauważmy, że: Fakt 6.3.1 Niech cecha X ma wartość oczekiwan a m i wariancjȩ σ 2.Wtedy EX n = m, EŜ2 = σ 2. Na zakończenie tego podrozdzia lu wprowadzimy jeszcze dwie statystyki. Statystyki te zwi azane s a z dwoma bardzo ważnymi rozk ladami w teorii prawdopodobieństwa, o których do tej pory nie wspominaliśmy. Sta lo siȩ tak dlatego, że z lożoność definicji tych rozk ladów wykracza poza przewidziany zakres tego opracowania. Z drugiej strony, ponieważ rozk lady te s a stablicowane, możemy pozwolić sobie na te uproszczenia bez uszczerbku dla zrozumienia roli, jak a odgrywaj a. Zachodzi nastȩpuj ace twierdzenie Twierdzenie 6.3.1 Niech cecha X ma rozk lad N (m, σ 2 ), (X 1...X n ) bȩdzie wektorem losowym z lożonym z niezależnych zmiennych losowych o rozk ladzie równym X. Wtedy:
6.3 Pojȩcie statystyki 155 1. statystyka χ 2 n 1 = ns2 σ, 2 zwana statystyk a chi-kwadrat Pearsona ma rozk lad chi-kwadrat o n-1 stopniach swobody, 2. statystyka t n 1 = X n n 1 S nazywana jest statystyk a Goseta i ma rozk lad t-studenta o n-1 stopniach swobody, 3. statystyka N = X n m n σ ma rozk lad typu N (0, 1) (patrz Twierdzenie 3.4.8). Uwaga 6.3.2 Dowoln a zmienn a losow a o rozk ladzie chi-kwadrat o k stopniach swobody bȩdziemy oznaczali przez χ 2 k. Podobnie bȩdzie ze zmienn a losow a o rozk ladzie t-studenta, któr a oznaczymy przez t k. Oba powyższe rozk lady s a stablicowane. W tablicach rozk ladów mamy podane tzw. ich wartości krytyczne: 1. dla zmiennej χ 2 k P ({ω Ω : χ 2 k >χ2 α })=α, 2. dla zmiennej t k P ({ω Ω : t k >t α })=α, w obu przypadkach dla 1 k 30. Uwaga 6.3.3 Dla k>30, z CTG wynika, że rozk lady obu statystyk: Pearsona i t-studenda dobrze przybliża standardowy rozk lad normalny. Zatem P ({ω Ω : χ 2 k <χ2 α }) Φ(χ2 α ) P ({ω Ω : t k <t}) Φ(t), t > 0.