Jan Rusinek. Elementy statystyki matematycznej. dla studentów zarządzania

Transkrypt

1 Jan Rusinek Elementy statystyki matematycznej dla studentów zarządzania UWAGA! Ten tekst jest cały czas w trakcie przygotowania i sprawdzania. Może zawierać błędy. Jest sukcesywnie poprawiany i umieszczany pod aktualną datą! Obecna data

2

3 Część 1. Elementy statystyki matematycznej

4 8 1. Elementy statystyki matematycznej 1.1. Wprowadzenie Zaczniemy od kilku przykładowych sytuacji. 1. Przypuśćmy, że rzucamy 100 razy monetą i za każdym razem wypada orzeł. Co nam wówczas przychodzi na myśl. To, że moneta jest oszukana np. po obu stronach ma orły (tak jak w starym filmie z Adolfem Dymszą w głównej roli). A co jeśli orzeł wypadnie 70, a reszka 30 razy? Czy i wówczas podejrzewamy, że moneta jest niesymetryczna? Z jakim prawdopodobieństwem jest ona niesymetryczna? 2. Gramy w karty i przeciwnik za każdym razem otrzymuje 4 asy. Zaczynamy go podejrzewać (przeważnie słusznie), że oszukuje. A jeśli otrzymuje za każdym razem tylko 3 asy. Czy i wówczas też mamy podstawy podejrzewać go o oszustwo? 3. Testujemy w komputerze generator liczb losowych z przedziału [0; 1]. Po wylosowaniu 100 liczb okazało się, że w przedziale [0; 0.25] znalazło się 20 wylosowanych liczb, w przedziale (0.25; 0.50], 52 wylosowane liczby, w przedziale (0.50; 0.75] 9 liczb, a w przedziale (0.75; 1] 19 liczb. Czy powinniśmy na tej podstawie wnioskować, że generator ten nie pracuje zgodnie z rozkładem jednostajnym na przedziale [0; 1]? 4. Przypuszczamy, że wzrost dorosłych mieszkańców Polski ma rozkład normalny ze średnią µ i odchyleniem standardowym σ. Wybieramy losowo n osób. Oznaczmy ich wzrost przez x 1, x 2,..., x n. Wówczas odpowiednie twierdzenia rachunku prawdopodobieństwa sugerują, że powinniśmy otrzymać 1 n x i µ n oraz 1 n i=1 n (x i µ) 2 σ 2. i=1 Jeśli przy kilku próbnych losowaniach wyniki powyższe będą istotnie inne od oczekiwanych, to można wyciągnąć wniosek,

5 1.1. Wprowadzenie 9 że nasza hipoteza była niesłuszna. Czy można również na tej podstawie przypuszczać, że rozkład nie jest normalny? Jeśli dodatkowo w wielu próbach wyniki wyjdą za każdym razem odpowiednio zbliżone do µ 1 i σ 1, to czy możemy wyciągnąć wniosek: hipotezę trzeba poprawić - rozkład jest prawdopodobnie normalny, ale wartości oczekiwane i odchylenia standardowe są nie takie jak początkowo przypuszczaliśmy, są raczej zbliżone do µ 1 i σ 1. Z takimi sytuacjami spotykamy się na każdym kroku korzystając z rezultatów doświadczeń wyciągamy ogólne wnioski o całej populacji. Tym się zajmuje statystyka matematyczna. Na podstawie pewnego skończonego zbioru informacji zwanego próbkami albo próbami wykorzystując teorię prawdopodobieństwa buduje informację o rozkładzie opisującym dane zjawisko. Przykład typowego zadania statystyki matematycznej mieliśmy już przy omawianiu rozkładu hipergeometrycznego (liczenie ryb w jeziorze). Metody Monte Carlo, to również w rzeczywistości metody statystyki matematycznej. W tej części usystematyzujemy i uściślimy podstawowe metody. Badane zjawisko ma zwykle wiele parametrów go charakteryzujących; najważniejsze z nich to: wartość średnia, wariancja czy odchylenie standardowe, ale możemy rozważać i wiele innych np. największa wartość, najmniejsza wartość, najczęstsza wartość itp. DEFINICJA 1. Funkcję g(x 1,..., x n ) będącą funkcją próby losowej x 1,..., x n nazywamy statystyką.. Najważniejsze statystyki: Wartość oczekiwana empiryczna (średnia) x = 1 n x i, n Wariancja empiryczna i=1

6 10 1. Elementy statystyki matematycznej ŝ 2 = 1 n (x i x) 2. n i=1 Poprawiona wariancja empiryczna albo wariancja z próby. s 2 = 1 n 1 n (x i x) 2 = n 1ŝ2. n i=1 Statystykę θ(x 1,..., x n ), której wartości używamy do oceny nieznanego parametru θ nazywamy estymatorem parametru θ. Uzyskaną z próbki wartość estymatora nazywamy oceną albo oszacowaniem tego parametru. Żeby estymator spełniał swoją rolę, to powinien on mieć pewne istotne własności. Po pierwsze chcielibyśmy, aby przy wzroście liczności próby rosła dokładność oceny, czyli, że dla każdego ε > 0 lim P ( θ n θ < ε) = 1. (2.1) n Oznacza, to że przy dużej liczności próby prawdopodobieństwo tego, że wartość oszacowania będzie się różnić od rzeczywistej wielkości parametru o mniej niż ε będzie bliskie jedności, czyli będzie to prawie pewne. DEFINICJA 2. Estymator spełniający powyższy warunek nazywamy estymatorem zgodnym. PRZYKŁAD 1. Rzucamy n razy symetryczną monetą. Niech X będzie zmienną losową odpowiadającą jednokrotnemu rzutowi przyjmującą 1 dla orła oraz 0 dla reszki. Wiemy, że θ, czyli wartość oczekiwana jest równa 0.5. Niech θ n = k n, gdzie k jest liczbą wyrzuconych orłów. Wtedy twierdzenie graniczne gwarantuje nam, że średnia empiryczna jest zgodnym estymatorem wartości oczekiwanej 1 2.

7 1.1. Wprowadzenie 11 PRZYKŁAD 2. Niech f będzie funkcją ciągłą w przedziale [a; b], a X rozkładem jednostajnym w przedziale [a; b]. Niech θ oznacza cechę θ = sup f(x). Oznaczmy dla próby x 1,..., x n estymator θ n jako θ n (x 1,..., x n ) = max(f(x 1 ),..., f ( x n ) ). Wówczas rozważania, które przeprowadzaliśmy przy metodzie Monte Carlo wyznaczania ekstremów pokazują, że estymator ten jest zgodny. Ważną własnością estymatora jest nieobciążoność. DEFINICJA 3. Estymator θ n nazywamy nieobciążonym, jeśli E( θ n ) = θ. Różnicę B n ( θ n ) = E( θ n ) θ nazywamy obciążeniem estymatora. PRZYKŁAD 3. Estymator maksimum z poprzedniego przykładu nie jest nieobciążony. Np. dla f(x) = x oraz [a; b] = [0; 1] mamy θ = 1 natomiast θ 1 = 1 2 i dla każdego ε > 0 wiemy, że max(x 1,..., x n ) 1 ε, jeśli dla każdego i, x i < 1 ε. Wiemy też, że dla każdego i Ponieważ próbki są niezależne, to Stąd P (x i 1 ε) = 1 ε. P (max(x 1,..., x n ) 1 ε) = (1 ε) n. P (max(x 1,..., x n ) > 1 ε) = 1 (1 ε) n, co jest dla każdego n mniejsze od jedynki. skąd E( θ n ) < 1.

8 12 1. Elementy statystyki matematycznej DEFINICJA 4. Estymator nazywamy asymptotycznie nieobciążonym, jeśli lim n B n = 0. PRZYKŁAD 4. Sprawdzimy, czy wariancja empiryczna ŝ 2 jako estymator wariancji σ 2 jest nieobciążona i obliczymy jej obciążenie. Sprawdzimy też, czy jest asymptotycznie nieobciążona. Rozwiązanie: Niech µ = EX. Mamy ŝ 2 = 1 n (x i x) 2 = 1 n (x i µ + µ x) 2 = n n i=1 = 1 n i=1 n (x i µ) 2 (x µ) 2. i=1 Ale wartość oczekiwana i wariancja x i jest taka sama jak wartość oczekiwana i wariancja x, skąd ( ) E(x µ) 2 = D 2 (x) = D 2 1 n x i n Stąd i=1 i=1 i=1 ( = 1 n ) n 2 D2 x i = 1 n n 2 D 2 x = σ2 n. E(ŝ 2 ) = 1 n nσ2 σ2 n = n 1 n σ2 σ 2. Widzimy zatem, że ŝ 2 jest obciążony i jego obciążenie jest równe B n (σ 2 ) = n 1 n σ2 σ 2 = 1 n σ2. Z wzoru na B n widzimy od razu, że ŝ 2 jest asymptotycznie nieobciążona. Z wzoru na s 2 wynika, że s 2 jest nieobciążonym estymatorem wariancji. Z tego powodu od tego momentu będziemy za wieloma podręcznikami za wariancję empiryczną przyjmować s 2,

9 1.1. Wprowadzenie 13 a nie ŝ 2, 1 a wielkość s będziemy nazywać odchyleniem standardowym empirycznym. 1 W niektórych źródłach za wariancję empiryczną przyjmuje się ŝ 2 i oznacza s 2.

10 14 1. Elementy statystyki matematycznej 1.2. Estymacja punktowa Ten sposób estymacji polega na przyjęciu, że parametr jest równy estymatorowi. Można też uzupełnić wartość estymatora o jego błąd standardowy. Najczęściej za błąd standardowy wartości średniej przyjmujemy s n. PRZYKŁAD 5. Pewien działkowicz zbadał ilość jabłek, które zebrał ze swoich 7 jabłonek. Uzyskał rezultaty w kilogramach: 8, 11, 13, 15, 12, 11, 16. Oszacuj punktowo średni zbiór z jednego drzewka. Rozwiązanie: Mamy x 1 = 8, x 2 = 11, x 3 = 13, x 4 = 15, x 5 = 12, x 6 = 11, x 7 = 16 Liczymy x = 1 7 x i = Błąd standardowy s 2 = 1 6 n=1 7 (x n x) 2 = n=1 s = 7.33 = B = = 1.02.

11 1.3. Weryfikacja hipotez Weryfikacja hipotez Przeprowadzamy pewne doświadczenie, które ma potwierdzić lub odrzucić jakąś hipotezę. Na przykład: czy wypadnięcie 505 orłów na 1000 rzutów monetą każe nam podejrzewać, że moneta jest niesymetryczna? A co w wypadku 600 orłów na 1000 rzutów? Czy stwierdzenie wśród losowo zbadanych 20 osób średniego wzrostu 165 cm, każe nam kwestionować hipotezę, że średni wzrost jest 172 cm? Czy na podstawie szczegółowych danych z próbki możemy kwestionować, że rozkład jest normalny? Z podobnymi pytaniami spotykamy się na każdym kroku. Poniżej przedstawimy najważniejsze modele służące do weryfikacji tego typu hipotez. Ogólna zasada testów jest następująca. Krok 1. Stawiamy pewną bardzo prawdopodobną hipotezę. Krok 2. Dobieramy jakąś liczbę α bliską zeru (w praktyce 0.1, 0.05, 0.02, 0.01, 0.005) zwaną poziomem istotności testu. Krok 3. Wybieramy pewien zbiór zdarzeń, którego prawdopodobieństwo jest równe α. Krok 4. Przeprowadzamy doświadczenie. Jeśli w wyniku doświadczenia otrzymamy zdarzenie wpadające w wybrany zbiór, to wnioskujemy że ponieważ wypadło zdarzenie mało prawdopodobne, przeczy ono założonej hipotezie. W przeciwnym wypadku hipotezy nie odrzucamy. Sytuację ilustruje rysunek. Zakładamy, ża zjawisko, które testujemy daje się opisać liczbami od 0 do, ma ono rozkład ciągły z gęstością, której wykres widzimy na rysunku. Interesuje nas hipoteza, że zjawisko to przyjmuje wartości mniejsze lub równe od S 0. Zdarzenie zaprzeczające postawionej hipotezie będzie miało miejsce wtedy, gdy jego wartość otrzymana w doświadczeniu będzie istotnie większa od S 0.

12 16 1. Elementy statystyki matematycznej S 0 Rys. 1. g Chcemy, aby zdarzenie to było bardzo mało prawdopodobne, bo tylko wtedy jego wystąpienie w mocny sposób poda w wątpliwość naszą hipotezę. Na rysunku pole zakreskowanej figury jest równe α, pole pozostałej figury pod wykresem jest równe 1 α. Oznacza to, że prawdopodobieństwo tego, że doświadczenie da wynik większy od g jest równe α. I wtedy na poziomie istotności α hipotezę odrzucamy. Jeśli zmniejszymy α, to liczba g przesunie się w prawo, czyli wynik doświadczenia musi być jeszcze bardziej odległy od wartości najbardziej oczekiwanej, aby hipotezę odrzucić. Testy dzielimy na testy nieparametryczne (tzw. testy zgodności) i testy parametryczne. Testy zgodności dotyczą dotyczą hipotez: czy dana próbka pochodzi z ustalonego rozkładu? i nimi się zajmiemy w pierwszej kolejności. Testami parametrycznymi zajmiemy się w dalszej części.

13 1.4. Testy zgodności Testy zgodności Jak się przekonamy w następnych rozdziałach, wybór właściwego modelu, lub wręcz możliwość przeprowadzenie wiarygodnego testu zależy od tego, czy badana cecha ma rozkład normalny czy nie. Dotyczy to niewielkich próbek, przy próbkach dużej liczności centralne twierdzenie graniczne gwarantuje nam, że zawsze rozkład sumy (a zatem i wartści średniej) można traktować jako normalny. Natomiast przy próbkach niewielkich i nieznanym rozkładzie nic nie możemy powiedzieć o rozkładzie sumy. A nawet gdy rozkład jest znany, to suma takich niezależnych rozkładów zwykle jest bardzo skomplikowana i nie zawsze możliwa do wyznaczenia. Natomiast jeśli badana cecha ma rozkład normalny, to sytuacja się mniej lub bardziej upraszcza. Czasami też chcemy stwierdzić, że dana próbka pochodzi z rozkładu np. jednostajnego, dwumianowego lub jakiegoś innego. Dokładniej mówiąc nigdy nie da się stwierdzić tego ze 100% pewnością, można tylko stwierdzić, że prawdopodobieństwo tego, że dana próbka pochodzi z danego rozkładu jest większe od 1 α. Oczywiście 1 α przyjmujemy bliskie jedności - w praktyce 0.9, 0, 95, Takich testów jest bardzo dużo. Poznamy kilka najprostszych i najważniejszych. Test χ 2 Test χ 2 jest jednym z najbardziej wszechstronnych testów służących do porównywania różnego rodzaju rozkładów. Może służyć do sprawdzania jakiego typu jest dany rozkład, czy dwa rozkłady mają podobny (choć nieznany) typ, czy dwie zmienne losowe są niezależne itp. Zanim przejdziemy do konkretnych metod podajmy jego główną ideę. Zasadza sie ona na ogólnej statystyce: χ 2 obl = (wartość zaobserwowana wartość spodziewana) 2. wartość spodziewana

14 18 1. Elementy statystyki matematycznej Sumujemy po wszystkich możliwych wartościach z próbki. Po podliczeniu sprawdzamy nierówność χ 2 obl > χ 2 (1 α, k 1), gdzie k 1 oznacza liczbę stopni swobody (jak wyznacza się k w różnych sytuacjach, poznamy przy okazji rozważania konkretnych modeli), a χ 2 (1 α, k 1) jest odpowiednim kwantylem rozkładu χ 2. Znajdujemy go w tablicy 4 lub wyznaczamy przy pomocy komputera (np. w programie calc darmowego pakietu Openoffice). Odrzucamy hipotezę badana sytuacja jest zgodna z oczekiwaniami, jeśli nierówność jest spełniona. Przechodzimy do konkretnych zastosowań. PRZYKŁAD 6. Rzucamy 30 razy kostką. Otrzymaliśmy wyniki otrzymane w tabelce: liczba oczek liczba rzutów Stawiamy hipotezę: Kość jest uczciwa na poziomie istotności α = Jeśli kość jest uczciwa, to należy spodziewać się, że wypadnie po pięć razy każda liczba oczek. Oznacza to, że mamy do czynienia z rozkładem punktowym danym tabelką. x k p k 1/6 1/6 1/6 1/6 1/6 1/6 Wynika stąd, że przy 30 rzutach oczekujemy, każda liczba oczek wypadnie po 30/6 = 5 razy. Zatem nasza statystyka testowa przyjmuje wartość χ 2 obl = (8 5)2 5 + (4 5)2 5 + (7 5)2 5 + (3 5)2 (3 5)2 + + = = 4.4. (5 5)2 5

15 1.4. Testy zgodności 19 W naszym wypadku k jest równe 6 (jest to liczba możliwych wyników próbki). Znajdujemy w tablicy kwantyli χ 2 wartość χ 2 (0.99, 5) = Nierówność nie jest spełniona. Nie ma powodu do odrzucenia hipotezy. PRZYKŁAD 7. Rzucamy sto razy monetą. Ile razy powinna paść reszka, aby na poziomie istotności α = 0.05 odrzucić hipotezę Moneta jest symetryczna? Rozwiązanie: Niech m oznacza liczbę wyrzuconych reszek, w takim razie orzeł wypadł 100 m razy. Jeśli moneta jest symetryczna, to oczekiwana liczba wyrzuconych zarówno reszek jak i orłów jest równa 50. Stosujemy test χ 2. Otrzymujemy χ 2 obl = (m 50) (100 m 50)2 50 = (m 50)2. 25 W naszym przypadku k = 2 (2 możliwe wyniki - orzeł i reszka) i w tablicach kwantyli rozkładu χ 2 znajdujemy χ 2 (1 α, k 1) = χ 2 (0.95, 1) = Interesuje nas dla jakich m (m 50) 2 > Rozwiązując tę nierówność otrzymujemy m 50 > = Ostatecznie otrzymujemy rezultat. Hipotezę odrzucamy, jeśli reszka wypadnie więcej niż 59 razy lub mniej niż 41 razy. Test χ 2 stosujemy najczęściej dla rozkładu dyskretnego. Poznamy później zastosowanie testu χ 2 do innych zagadnień, a teraz podamy test charakterystyczny dla badania rozkładów typu ciągłego. Test Kołmogorowa. Spodziewamy się, że badana populacja ma rozkład ciągły z dystrybuantą F (x). Test opiera się na statystyce Kołmogorowa danej wzorem D n = sup x IR S n (x) F (x),

16 20 1. Elementy statystyki matematycznej gdzie S n jest skokową dystrybuantą opartą na próbce x 1 x 2... x n i zdefiniowaną następująco: 0 dla x < x 1 i S n (x) = n dla x i x < x i+1 (2.2) 1 dla x x n. Idea testu jest analogiczna, jak przy teście χ 2. Rozważamy nierówność D n > d n (1 α), gdzie d n (1 α) bierzmy z tablicy 8 kwantyli statystyki Kołmogorowa. Hipotezę o równości rozkładu na poziomie istotności α odrzucamy, jeśli nierówność jest spełniona. W praktyce D n obliczamy w dwóch krokach: Najpierw liczymy oraz D + n = D n = a następnie liczymy max i=1,...,n max i=1,...,n i n F (x i), i 1 n F (x i), D n = max(d + n, D n ). 2 PRZYKŁAD 8. Zastosujmy test Kołmogorowa do testowania generatora liczb losowych. W 8 próbach (oczywiście w praktyce losuje się dużo większą ilość, ale chodzi o to aby zademonstrować metodę) otrzymano następujące liczby (z dokładnością 0.01): 0.40, 0.11, 0.03, 2 Jeśli formalnie zastosujemy wzór na S n, to w wypadku, gdy ta sama wartość pojawi się w próbce kilkakrotnie, S n będzie miała skoki większe niż 1/n. Ale gdy rozkład jest ciągły prawdopodobieństwo tego, że powtórzy się ten sam wynik w próbce jest równe 0. Tak że w rzeczywistości to są inne wyniki, a to, że otrzymaliśmy je jako takie same wynika z przybliżenia! Dlatego ustawiamy je w ciągu jako inne rezultaty i w ten sposób dystrybuanta S n ma wszystkie skoki wielkości 1/n.

17 1.4. Testy zgodności , 0.75, 0.79, 0.46, Sprawdzimy, czy generator działa zgodnie z rozkładem jednostajnym na przedziale [0; 1] na poziomie istotności α = Dystrybuanta rozkładu jednostajnego na przedziale [0; 1] wyraża się wzorem F (x) = x. Ustawiając wartości x n w ciąg rosnący zapisujemy nasze dane w postaci tabelki x i = F (x i) i 1 i 8 F (xi) i 1 i F (x i) max Stąd D 8 = 0.25, D+ 8 = 0.14, skąd D 8 = W tablicy 6 znajdujemy d n (1 α) = d 8 (0.95) = Nierówność 0.25 > nie jest spełniona. Zatem nie ma powodu, aby kwestionować poprawność działania generatora liczb losowych. PRZYKŁAD 9. Firma handlująca używaną odzieżą na wagę dostarcza do sklepów towar w paczkach. Wylosowano 6 paczek i zważono je. Otrzymano wagi w kilogramach: 6.5, 6.7, 7.1, 7.2, 6.8, 7.1. Zweryfikuj na poziomie istotności α = 0.05, że próbka pochodzi z rozkładu normalnego N(7, 0.45) Rozwiązanie: Tworzymy analogiczną tabelkę jak w poprzednim zadaniu korzystając z wzoru F (x i ) = Φ( xi µ σ ), gdzie Φ jest dystrybuantą standardowego rozkładu normalnego.

18 22 1. Elementy statystyki matematycznej i 1 i 6 F (xi) x i F (x i) i 1 i F (x i) max Stąd D 6 = 0.16, D+ 6 = 0.33, skąd D 6 = W tablicy 6 znajdujemy d n (1 α) = d 6 (0.95) = Nierówność 0.33 > nie jest spełniona. Zatem nie ma powodu aby kwestionować postawioną hipotezę. Test serii Test serii stosuje się do badania czy dwie próbki szacujące tę samą cechę wyznaczają ten sam typ rozkładu (nie zawsze znany). Jego idea polega na tym, że jeśli np. rzucamy wielokrotnie dwiema kostkami, to mało prawdopodobne jest, że w jednej kostce wypadną same małe liczby, a w drugiej same duże. Jeśli obie kostki są uczciwe, to wyniki powinny być wymieszane. Oznaczmy próbki pierwszego doświadczenia przez x 1,..., x n, a drugiego y 1..., y k. Ustawiamy wyniki obu doświadczeń w rosnący ciąg. Serią nazwiemy zbiór w tym ciągu kolejnych elementów z tej samej próbki. Ważna będzie liczba serii. Na przykład jeśli wylosowaliśmy w pierwszej próbce liczby 5, 7, 9, a w drugiej próbce liczby 4, 3, 6, 10, to ustawiając je w ciąg rosnący otrzymamy tabelkę (w drugiej linijce zapisujemy z jakiej próbki jest liczba): y y x y x x y

19 1.4. Testy zgodności 23 Serie są rozdzielone potrójną linią. Pierwsza seria składa się z dwóch kolejnych y-ów, druga z jednego x-a, trzecia z jednego y-a, czwarta z dwóch kolejnych x-ow i piąta z jednego y-a. Razem mamy więc pięć serii. Oznaczmy liczbę otrzymanych serii przez K. Następnie sprawdzamy nierówność K > k(α, n 1, n 2 ), gdzie k(α, n 1, n 2 ) bierzemy z tablicy 8. Jeśli nierówność jest prawdziwa, to nie ma powodu, aby odrzucić hipotezę o jednakowych rozkładach. Należy jeszcze powiedzieć, co zrobić jeśli w obu próbkach występują te same wartości. Należy wtedy kolejność w ciągu losować. PRZYKŁAD 10. Dwa różne algorytmy służące do sortowania danych przetestowano ośmiokrotnie tych samych zbiorach i uzyskano następujące czasy w sekundach: Pierwszy algorytm: 24, 27, 54, 23, 11, 19, 22, 21. Drugi algorytm: 65, 63, 18, 13, 12, 73, 55, 58. Czy na poziomie istotności α = 0.05 należy odrzucić hipotezę, że oba algorytmy mają podobny rozkład? Rozwiązanie: Oznaczmy próbki pierwszego algorytmu przez x i, drugiego przez y i. Tworzymy tabelkę: x y y y x x x x x x x y y y y y Mamy K = 4, Znajdujemy k(0.05, 8, 8) = 5. Nierówność K > k(0.05, 8, 8) = 5 jest fałszywa. Hipotezę odrzucamy.

20 24 1. Elementy statystyki matematycznej 1.5. Estymacja przedziałowa DEFINICJA 5. Przedziałem ufności dla parametru θ na poziomie ufności 1 α (0 < α < 1) nazywamy przedział [θ 1 ; θ 2 ] spełniający warunki: θ 1 i θ 2 są funkcjami próby losowej; P (θ 1 < θ < θ 2 ) = 1 α. Liczbę 1 α nazywamy współczynnikiem ufności. Liczbę 1 α wybiera się bliską jedynce najczęściej w praktycznych zastosowaniech 0.9, 0.95 lub Dla danego α jest bardzo dużo przedziałów ufności. Często (ale nie zawsze) konstruuje się przedział ufności, dla którego parametr z próby (np. x) θ 0 jest środkiem. Wtedy przedział ufności jest postaci (θ 0 l; θ 0 + l) i należy go rozumieć następująco: Prawdopodobieństwo tego, że θ 0 nie oddali się od θ o więcej niż l wynosi 1 α Do konstrukcji przedziałów ufności używa się różnych statystyk, przy czym odpowiednie modele zależą od naszej wiedzy o danym rozkładzie i od liczności próbki. Poniżej omówimy najważniejsze z nich. Opierają się one na poniższym twierdzeniu oraz twierdzeniach granicznych. Ze względu na zdecydowanie aplikacyjny charakter tej części podręcznika skupimy się głównie na sformułowaniu odpowiednich modeli i podanie przykładów je ilustrujących. TWIERDZENIE 1. Jeśli badana zmienna ma rozkład normalny N(µ, σ) to: a) Zmienna losowa x = 1 n (X X n ) ma rozkład normalny N µ, n (jest to konsekwencja twierdzenia ( ) σ ), b) Zmienna losowa n 1 σ 2 s 2 ma rozkład χ 2 (n 1),

21 1.5. Estymacja przedziałowa 25 c) Zmienna losowa n(x µ) s ma rozkład t(n 1). d) Zmienne x i s 2 są niezależne. 3 3 Ta własność jest bardzo ciekawa i charakterystyczna dla rozkładu normalnego

22 26 1. Elementy statystyki matematycznej 1.6. Wyznaczanie przedziałów ufności Przedziały ufności dla nieznanej wartości średniej Model A1 stosujemy go, gdy rozkład jest normalny o nieznanym µ i znanym σ: Zwykle badamy populację i dopiero wyniki tych badań pozwolą nam postawić jakąś hipotezę. Dlatego z sytuacją, kiedy σ jest znane w praktyce rzadko mamy do czynienia. Może to mieć miejsce wtedy, gdy są dostępne jakieś wcześniejsze badania dające w miarę pewne wyniki. Warto podkreślić, że jeśli mamy godne zaufania dane dotyczące wariancji, to ten model jest najdokładniejszy. Przedział ufności w tym modelu jest dany wzorem (patrz punkt a) twierdzenia 1): P = [x l; x + l], gdzie l = u ( 1 α 2 ) σ n, (2.3) a u jest kwantylem rozkładu normalnego (tabelki 2 i 2.5). PRZYKŁAD 11. Producent pewnego napoju zakupił maszynę napełniającą litrowe butelki, o której wiadomo, że napełnia butelki zgodnie z rozkładem normalnym o odchyleniu standardowymd 0.04 litra. Nastawiono maszynę na 1 litr, wylosowano 8 butelek i otrzymano następujące ilości napoju w tych butelkach: 0.98, 0.97, 1.02, 1.03, 0.95, 0.97, 1.02, 1.01 litra. Oszacuj przedziałowo średnią objętość butelki przyjmując współczynnik ufności Rozwiązanie: Spełnione są warunki potrzebne do zastosowania powyższego modelu. Liczymy x = 0.99, W tabeli kwantyli rozkładu normalnego znajdujemy u ( 1 α 2 ) = u(0.975) = Zatem l = =

23 1.6. Wyznaczanie przedziałów ufności 27 Stąd przedział ufnosci jest równy P = [0.966; 1.021]. Model A2 stosujemy go, gdy rozkład jest normalny o nieznanych µ i σ: Przedział ufności dany jest wzorem P = [x l; x + l], gdzie l = t ( 1 α 2, n 1) s n, (2.4) a t jest kwantylem rozkładu Studenta (tabela 3) (patrz punkt c) twierdzenia 1). PRZYKŁAD 12. Rozwiążemy poprzednie zadanie przy założeniu, że wariancja nie jest znana, przy tym samym współczynniku ufności. Rozwiązanie: Dodatkowo obliczamy s 2 = , s = W tablicach kwantyli rozkładu t Studenta znajdujemy t(0.975, 7) = Stąd l = = Zatem P = [0.969; 1.019]. Model A3 stosujemy go, gdy rozkład jest nieznany o nieznanych µ i σ, próba powinna być duża (n 30). Model ten opiera się na twierdzeniu granicznym, z którego wynika, że statystyka x µ σ n ma asymptotyczny rozkład N(0, 1). Stosujemy zatem wzór analogiczny do modelu A1 zastępując nieznaną wartość σ estymatorem s z próbki. Otrzymujemy po przekształceniu wzór P = [x l; x + l], gdzie l = u ( 1 α 2 ) s n. (2.5)

24 28 1. Elementy statystyki matematycznej PRZYKŁAD 13. Pewna firma komputerowa chce ustalić średnią wielkość sprzedaży na klienta. Wylosowano 120 klientów i obliczono dla nich średnią 532 złote i odchylenie standardowe empiryczne s = 321 złotych. Oszacujemy średnią wielkość sprzedaży przy współczynniku ufności 1 α = 0.9. Rozwiązanie: Znajdujemy u ( 1 α 2 ) = u(0.95) = Stąd l = = P = [484; 580]. Zrobimy też to zadanie wykorzystując model A2. Mamy α = 0.1, n = 120, s = 321, x = 532. W tablicach rozkładu Studenta znajdujemy l = = Stąd t ( 1 α 2, n 1) = t(0.95, 119) P = [483; 581]. Zauważmy jak niewiele się różnią wyniki przy obu modelach. Jest tak, dlatego, że próbka jest dostatecznie duża. PRZYKŁAD 14. Pewien algorytm przetestowano na 5 programach i otrzymano czasy w sekundach: 45, 23, 31, 56, 29. Wyznacz przedział ufności na poziomie ufności 1 α = 0.95 przy założeniu, że rozkład jest normalny. Rozwiązanie: Obliczając otrzymujemy x = 36.8, s = Możemy stosować model A2. Znajdujemy t(0.975, 4) = Stąd l = = Ostatecznie P = [20.14; 53.46]. Nasuwa się pytanie (dotyczy to nie tylko wyznaczania przedziałów ufności), co zrobić, gdy próba jest niewielka i rozkład

25 1.6. Wyznaczanie przedziałów ufności 29 jest nieznany lub znany, ale nie normalny. W takich sytuacjach w zasadzie pogodzić się z tym, że niezależnie od wyboru modelu, wynik może być bardzo niedokładny. Demonstruje to kolejny przykład. PRZYKŁAD 15. Weźmy takie dane jak w zadaniu 13, ale przyjmijmy, że rozkład nie jest normalny i że próbka jest liczności 10. Rozwiązanie: Ponieważ rozkład nie jest normalny i próbka nie jest duża, to ani model A3 ani A2 nie są dobre. Stosujemy model A3. Stosujemy model A2. l = = P = [365; 698]. t ( 1 α 2, n 1) = t(0.95, 9) l = = Stąd P = [346; 718]. Przykład ten w połączeniu z zadaniem 13 pokazuje, że przy dużych próbkach możemy wybierać różne modele, a wyniki będą prawie identyczne, natomiast przy niedużych próbkach wynik zależy od wyboru modelu. Przedziały ufności dla frakcji elementów wyróżnionych (rozkład dwupunktowy) Często chcemy oszacować procent tych elementów w populacji, które spełniają jakiś warunek. Oznacza to, że cecha, którą badamy, ma rozkład dwupunktowy z prawdopodobieństwm sukcesu p. Próbka powinna być dostatecznie duża, przy małych próbkach wyniki mogą być mało wiarygodne. Oznaczmy przez k liczbę wyróżnionych elementów w próbie n-elementowej.

26 30 1. Elementy statystyki matematycznej Model B1: stosujemy raczej dla próby liczności większej od 30. Oparty jest on na twierdzeniu Moivre a - Laplace a, które k np głosi, że dla dużej próby statystyka ma w przybliżeniu np(1 p) rozkład N(0, 1). Stąd ( ) k np P < u(1 α np(1 p) 2 ) = 1 α. Rozwiązując powyższą nierówność (kwadratową względem p) otrzymamy wzór na przedział ufności: [ u(1 α 2 )2 + 2k 2(n + u(1 α 2 )2 ) l; u(1 α ] 2 )2 + 2k 2(n + u(1 α 2 )2 ) + l, (2.6) gdzie l = u u(1 α 2 )2 4 + k(n k) n n + u(1 α 2 )2. Zauważmy, że przedział nie jest symetryczny wględem k n, ale jest symetryczny względem co dla n, dąży do k n. u 2 + 2k 2(n + u 2 ), Dlatego dla dużych n możemy przyjąć, że u(1 α 2 )2 n 0 otrzymując wzór nieco prostszy i przedział symetryczny względem k n [ k P = n l; k ] n + l, gdzie l = u ( 1 α ) k n 2 ( ) 1 k n n. (2.7)

27 1.6. Wyznaczanie przedziałów ufności 31 PRZYKŁAD 16. Dwieście wylosowanych osób z danej miejscowości zapytano, czy byliby zainteresowani bezprzewodowym internetem. Zainteresowanie taką ofertą wykazało 160 osób. Oszacuj z 95%-ową wiarygodnością procent osób zainteresowanych w tej miejscowości bezprzewodowym internetem. Rozwiązanie: Mamy n = 200, k = 160, 1 α = W tablicach rozkładu normalnego znajdujemy u ( 1 α 2 ) = u(0.975) = Stosując pierwszy z powyższych wzorów otrzymujemy u(1 α 2 )2 + 2k 2(n + u(1 α = = 79.4%, 2 )2 ) natomiast l = u u(1 α 2 )2 4 + k(n k) n n + u(1 α = = 5.5%. 2 )2 Stąd P = [73.9%; 85.5%] Możemy też zastosować uproszczony wzór. Wtedy mamy k n = , a l = 1.96 = = 5.54%. 200 Stąd P = [74.5%; 85.5%]. 200 = Przedziały ufności dla odchylenia standardowego (lub wariancji) Przy szacowaniu wariancji lub odchylenia standardowego wiarygodne rezultaty można w zasadzie otrzymać tylko przy założeniu, że rozważana cecha ma rozkład normalny (ewentualnie przy dużej próbie zbliżony do normalnego). Jeśli rozkład jest inny niż normalny, to aby skorzystać z centralnego twierdzenia granicznego trzeba by mieć dodatkowe informacje o rozkładzie (np. inne momenty).

28 32 1. Elementy statystyki matematycznej Model C1 stosujemy go, gdy rozkład jest normalny o nieznanych µ i σ; (n 50) W tym modelu stosuje się statystykę opartą na rozkładzie χ 2 o n 1 stopniach swobody. Przedziały ufności dla odchylania standardowego otrzymujemy z wzoru (patrz punkt b) twierdzenia 1: [ ] n 1 n 1 P = s χ 2 ( 1 α 2, n 1); s χ 2 ( α 2, n 1). (2.8) PRZYKŁAD 17. Pewna firma ślusarska zakupiła automat do pomiaru średnicy produkowanych śrub. Wybrano 10 śrub i uzyskano następujące rezultaty w mm: 5.02, 5.01, 5.02, 5.01,4.99, 4.98, 5.00, 5.00, 5.02, Zakładając, że rozkład średnicy śrub jest normalny oszacuj przedziałowo wartość odchylenia standardowego średnicy śrub przy współczynniku ufności Rozwiązanie: Obliczamy s 2 = 1 9 x = i=1 10 i=1 x i = (x i 5.006) 2 = s = = Mamy 1 α = 0.99, skąd α = W tablicy kwantyli rozkładu χ 2 znajdujemy Stąd P = χ 2 ( 1 2 α, n 1) = χ 2 (0.005, 9) = χ 2 ( α, n 1) = χ 2 (0.995, 9) = [ ] ; = [0.0083; ].

29 1.6. Wyznaczanie przedziałów ufności 33 Model C2 stosujemy gdy rozkład jest normalny lub zbliżony do normalnego o nieznanych µ i σ dla dużej próby. Dla n > 50 wartości kwantyli rozkładu χ 2 nie są stablicowane. W takiej sytuacji korzystamy z faktu, że statystyka 2χ 2 (n 1) = 2 (n 1)s2 σ dla dużych n ma w przybliżeniu rozkład normalny 2 N( 2n 3, 1). To daje wzór na przedział ufności P = [ s 2(n 1) s 2(n 1) 2n 3 + u(1 α 2 ); 2n 3 u(1 α 2 ) ]. (2.9) PRZYKŁAD 18. W celu sprawdzenia, czy automat do produkcji lodów dokładnie porcjuje lody nastawiono go na 10 dkg i wyprodukowano 100 lodów. Po dokładnym zważeniu i dokonaniu obliczeń otrzymano średnią odchylenie standardowe z próbki s = dkg. Wyznacz przedział ufności przy założeniu, że rozważana cecha ma rozkład normalny i współczynniku 1 α = Rozwiązanie: Zastosujemy model C2. Mamy α = 0.05, 1 α 2 = W tablicy rozkładu normalnego znajdujemy u ( 1 α 2 ) = Stąd P = [ ] 198 ; = [ ; ] UWAGA. Obecnie modele A3 i C2, podobnie jak rozważane w następnym rozdziale modele D3 i E2 straciły na znaczeniu dzięki dostępności kwantyli rozkładów t i χ 2 dla dowolnych danych (między innymi dla dużych n). Wspomagając się komputerem możemy rozwiązać powyższe zadanie przy pomocy modelu C1. Otrzymujemy wtedy przedział ufności P = [ ; ].

30 34 1. Elementy statystyki matematycznej 1.7. Minimalna liczność próby We wszystkich modelach długość przedziału ufności dąży do 0, gdy liczność próbki n dąży do. Możemy więc rozwiązując odpowiednią nierówność znaleźć takie n, dla którego przedział ufności będzie krótszy od z góry zadanej długości. Przedział ufności dla wartości oczekiwanej ma zwykle postać [x l; x+l] jest więc długości 2l. Otrzymujemy zatem następujące rezultaty: Jeśli rozkład jest normalny o znanym σ, to z modelu A1 otrzymamy ( ( ) ) u 1 α 2 2 σ n. (2.10) l Najczęściej jednak nie znamy σ, a nawet nie potrafimy nic powiedzieć o innych parametrach rozkładu. Dlatego w takich przypadkach stosuje się metodę dwustopniową (tzw. metodę Steina). Najpierw pobiera się próbkę wstępną x 1,..., x n0. Oblicza się z tej próbki parametry x 0 i s 2 0. Wzór na minimalną liczebność próby dla rozkładu noralnego wygląda następująco: gdzie ( n t ( 1 α 2, n 0 1 ) s 0 l ) 2 n 0 1 n 0 + 1, (2.11) x 0 = 1 n 0 x i, s 2 0 = 1 (x i x 0 ) 2. n 0 n i=1 0 1 i=1 Po wyznaczeniu n i zrobieniu dodatkowych n n 0 prób wyznaczamy przedział ufności stosując wzór: P = [x l; x + l], gdzie l = t ( 1 α 2, n 0 1 ) n s 0. Dla rozkładu dwupunktowego (czyli frakcji elementów wyróżnionych) sprawa jest nieco inna, bo tu w zasadzie już próbka n 0

31 1.7. Minimalna liczność próby 35 wstępna powinna być (patrz model B1) dostatecznie duża. Możemy zastosować poniższy wzór (pamiętając, że nie jest on przy małej próbce w pełni wiarygodny!) ( ) ) k 0 2 n (u(1 α 2 ) n 0 1 k 0 n 0 l 2, (2.10 ) gdzie n 0 liczebność wstępnej próbki, k 0 liczba sukcesów we wstępnej próbce Możemy na szczęście w tym przypadku obyć się bez wstępnej próbki od razu zakładając, że będziemy mieli próbek więcej (np. n 30) przyjmując najmniej korzystne p = 0.5, co prowadzi do wzoru n u(1 α 2 )2 4l 2. (2.12) Jeśli okaże się, że otrzymane p jest istotnie inne niż 0.5, to otrzymane oszacowanie będzie precyzyjniejsze niż sobie założyliśmy! PRZYKŁAD 19. Geodeta ma zmierzyć odległość pomiędzy dwoma punktami otrzymując na poziomie ufności 1 ]alpha = 0.95, przedział ufności [x l; x + l] długości 10 m. Specjalistyczny przyrząd którym dysponuje ma rozkład błędów normalny z wariancją 100 m 2. Ile niezależnych pomiarów powinien wykonać? Rozwiązanie: Mamy l = 10 2 = 5 m, σ2 = 40m 2, u(1 1 2α) = u(0.975) = Stąd ( ( ) ) 2 u 1 α 2 σ n = (1.96)2 100 = l 25 Trzeba więc wykonać 16 pomiarów. PRZYKŁAD 20. Pewien program kompresujący dane został przetestowany na 6 losowo wybranych różnego rodzaju plikach i otrzymano wyniki wielkości pliku po kompresji w stosunku do wielkości pliku przed kompresją. 60%, 72%, 42%, 79%, 71%, 63%. Ile jeszcze nale-

32 36 1. Elementy statystyki matematycznej ży dodatkowo dokonać pomiarów, aby otrzymać na poziomie ufności 1 α = 0.95 przedział ufności nie dłuższy niż 20%?. Rozwiązanie: Obliczamy x = 64.5, s 2 = t(1 α 2, 5) = , l = 20 2 % = 10%. Stąd n = Powinno być zatem razem 11 prób. Trzeba jeszcze dołożyć 5 prób. PRZYKŁAD 21. Pewien informatyk skonstruował program rozpoznający sfilmowane kamerą twarze z odległości 200 m. Przeprowadzono wstępną próbę programu, który na 16 osób rozpoznał 12. Ile jeszcze prób należy przeprowadzić, aby na poziomie ufności 1 α = 0.95 otrzymać oszacowanie z dokładnością l = 10%? Rozwiązanie: Mamy u(1 α 2 ) = u(0.975) = 1.96., n 0 = 16, k 0 = 12, l = 0.1. Stąd n = Odpowiedź trzeba jeszcze przeprowadzić = 56 dodatkowych prób. PRZYKŁAD 22. Pewien sklep komputerowy chce przeprowadzić badanie, jaki procent klientów wchodzących do sklepu dokonuje zakupu. Ilu klientów powinien uwzględnić w badaniu aby na poziomie ufności 1 α = 0.99 otrzymać dokładność l = 5%? Rozwiązanie: Mamy u(1 α 2 ) = u(0.995) = 2.58., l = Stąd n = Powinno się sprawdzić 666 klientów.

33 1.8. Parametryczne testy istotności Parametryczne testy istotności W parametrycznych testach istotności stawiamy hipotezę, że dany parametr np. średnia, wariancja itp. pewnej populacji przyjmuje określoną wartość. Przeciwko tej hipotezie stawiamy hipotezę przeciwną, która może przybierać jedną z 3 form: parametr jest większy od tej wartości, parametr jest mniejszy od tej wartości lub parametr jest różny od tej wartości. Przeprowadzamy eksperyment, czyli bierzemy próbkę z populacji i na jej podstawie albo odrzucamy hipotezę, albo twierdzimy, że doświadczenie nie przeczy hipotezie tzn. nie ma podstaw do jej odrzucenia. Podkreślamy, że jedno doświadczenie nie jest jeszcze podstawą do twierdzenia, że potwierdzamy hipotezę, możemy tylko jej nie odrzucać! W jaki sposób dokonujemy obliczeń? Zademonstrujemy to na prostym przykładzie. Przypuśćmy, że losujemy 10 liczb z przedziału [0; 1] zakładając, że prawdopodobieństwo wylosowania każdej liczby jest takie same. Zatem średnia wylosowanych liczb powinna wynieść około 0.5. Jeśli ta średnia wypadnie 0.45 lub 0.55, to gotowi jesteśmy przyjąć, że różni się to niewiele od tego, czego oczekiwaliśmy i hipotezy, że µ = 0.5 nie powinniśmy odrzucać. A jeśli średnia wypadnie 0.9, to z całą pewnością będziemy podejrzewać, że coś jest nie tak i hipotezę µ = 0.5 jesteśmy skłonni odrzucić, bowiem prawdopodobieństwo tego, że x > 0.9 jest bardzo małe, czyli zaistniała sytuacja jest mało prawdopodobna. Należy zadać pytanie gdzie leży ta graniczna wartość g, przy której odrzucimy hipotezę, jeśli wypadnie wynik x > g. Ale to, czy ją odrzucimy zależy nie tylko od tego jaki wynik otrzymamy, ale z jakim stopniem pewności tzn. z jakim współczynnikiem istotności ją odrzucimy, czyli jakie jest prawdopodobieństwo tego, że przy losowym wyborze 10 liczb z przedziału [0; 1] ich średnia wartość x wypadnie większa lub równa g. Innymi

34 38 1. Elementy statystyki matematycznej słowy wybieramy α, (bardzo małe) takie, że P ( X 0.5 > g) = α. Przypominamy, że liczbę α nazywamy poziomem istotności testu. Test będzie zależał od kilku czynników: od współczynnika istotności α, od typu rozkładu, od liczności próbki, od opartego na teorii i praktyce odpowiedniego modelu, który zastosujemy. Schemat budowy takiego testu dla pewnego parametru θ będzie następujący: Krok 1. Stawiamy hipotezę θ = θ 0 i hipotezę przeciwną. Krok 2. Dobieramy odpowiedni model, stosujemy statystykę z tego modelu i obliczamy wartość statystyki testowej dla danej próbki Krok 3. Budujemy tzw. zbiór krytyczny W. Krok 4. Jeśli ta wartość znajdzie się w zbiorze krytycznym W, to hipotezę odrzucamy, w przeciwnym wypadku nie ma podstaw do jej odrzucenia. Hipoteza przeciwna może przybierać trzy formy w zależności od konkretnej sytuacji. Opiszemy je. Przypuśćmy, że badana cecha θ może przyjmować wartości w przedziale (a; b). Sytuacja pierwsza. Mamy z nią do czynienia np. kiedy interesuje nas czy jakiś algorytm jest wystarczająco szybki. To oznacza, że średni czas jego pracy na pewnych danych nie przekracza θ 0 minut. Niekorzystna sytuacja pojawia się wtedy, gdy

35 1.8. Parametryczne testy istotności 39 θ będzie istotnie większe od θ 0. Zatem hipoteza przeciwna będzie miała postać θ > θ 0, a zbiór krytyczny W = [g; b), g > θ 0. Sytuacja druga. Pojawia się wtedy, gdy nie chcielibyśmy, aby nasza badana cecha była zbyt mała. Na przykład średnie zarobki. Wtedy hipoteza przeciwna do hipotezy θ = θ 0 będzie postaci θ < θ 0, a zbiór krytyczny będzie postaci W = (a; g], g < θ 0. Sytuacja trzecia. Mamy z nią do czynienia wtedy, gdy niekorzystne jest odchylenie od wartości θ 0 zarówno w jedną jak i w drugą stronę. Na przykład zbyt małe ceny jakiegoś towaru mogą spowodować nieopłacalność produkcji i upadek gałęzi przemysłu, a z kolei zbyt duże ceny spowodują gwałtowny spadek popytu. Wtedy hipoteza przeciwna do hipotezy θ = θ 0 ma postać θ θ 0, a zbiór krytyczny jest postaci W = (a; g 1 ] [g 1 ; b), g 1 < θ 0 < g 2. Schemat postępowania w wypadku rozkładu normalnego dla hipotezy dotyczącej wartości średniej µ = µ 0 = 0.8 i hipotezy przeciwnej µ > µ 0 = 0.8 widzimy na rysunku. W tym wypadku a =, b =. Zbiorem krytycznym jest zbiór W = [g; ). Poziom istotności α jest to pole zakropkowanej figury i oznacza prawdopodobieństwo tego, że µ > µ 0. Jest ono bardzo małe, czyli zdarzenie µ > µ 0 jest mało prawdopodobne. Zatem jeśli takie zdarzenie zaszło, to skłonni jesteśmy uważać, że µ nie jest równe µ 0. Poprzez standardową zamianę zmiennej doprowadzamy do sytuacji, kiedy zbiór krytyczny jest symetryczny względem punktu 0.

36 40 1. Elementy statystyki matematycznej µ 0 g Rys. 2. Hipotezy dotyczące wartości średniej Będziemy weryfikować hipotezę µ = µ 0. Model D1 stosujemy dla rozkładu normalnego o znanym σ. Oparty jest na statystyce u = x µ 0 n. (2.13) σ Zbiór krytyczny: W = ( ; u(1 α)] dla hipotezy przeciwnej µ < µ 0 ; W = [u(1 α); ) dla hipotezy przeciwnej µ > µ 0 ; W = ( ; u(1 α 2 )] [u(1 α 2 ); ) dla hipotezy przeciwnej µ µ 0 ; PRZYKŁAD 23. Wcześniejsze badania wykazały, że automatyczne urządzenie, które produkuje gwoździe zadanej długości pracuje z odchyleniem standardowym 0.1mm. Aby sprawdzić, czy dostarczone nam gwoździe 4 centymetrowe, są takie jak zamówiliśmy, przebadaliśmy 100 losowo wybranych gwoździ i otrzymaliśmy wartość średnią 3.99 cm. Czy na poziomie istotności α = 0.05 możemy mieć do producenta gwoździ zastrzeżenia? Rozwiązanie: Ponieważ zarówno gwoździe za długie jak i za krótkie nas nie satysfakcjonują, stawiamy hipotezę:

37 1.8. Parametryczne testy istotności 41 H 0 : µ = µ 0 = 4 cm = 40 mm wobec hipotezy przeciwnej dwustronnej H 1 : µ µ 0. Obliczamy wartość statystyki testowej. Mamy (liczymy w mm). u obl = x µ n = 100 = 10 σ 0.1 Zbiorem krytycznym będzie suma dwóch przedziałów W = ( ; u(1 α 2 )] [u(1 α 2 ); ). Z tablic kwantyli rozkładu normalnego znajdujemy u(1 α 2 ) = u(0.975) = 1.96, skąd W = ( ; 1.96] [1.96; ). Zatem u obl W, skąd hipotezę H 0 odrzucamy. Wniosek: powinniśmy zakwestionować zakupioną partię gwoździ. Model D2 stosujemy go przy rozkładzie normalnym o nieznanym σ. Używamy statystyki: t obl = x µ 0 n. (2.14) s Zbiór krytyczny: W = ( ; t(1 α, n 1)] dla hipotezy przeciwnej µ < µ 0 ; W = [t(1 α, n 1); ) dla hipotezy przeciwnej µ > µ 0 ; W = ( ; t(1 α 2, n 1)] [t(1 α 2, n 1); ) dla hipotezy przeciwnej µ µ 0 ; gdzie t jest odpowiednim kwantylem rozkładu t Studenta. PRZYKŁAD 24. Autor programu szachowego rozwiązującego zadania szachowe reklamuje swój program twierdząc, że program rozwiązuje na procesorze pentium 4, 2GHZ zadania mat w 10 posunięciach w średnim czasie około 2 godziny przy odchyleniu standardowym 1 godzina i twierdzi, że rozkład jest normalny. Przetestowano go na 6 zadaniach i uzyskano czasy: 1 godz. 35 min, 2 godz., 2 godz. 18 min, 2 godz 55 min, 1 godz. 12 min. 4 godz. 25 min. Sprawdzimy na poziomie istotności α = 0.01 czy autor programu się nie przechwala.

38 42 1. Elementy statystyki matematycznej Rozwiązanie: Sposób I. Przeliczymy wszystko na minuty i zastosujemy test Kołmogorowa aby sprawdzić, czy próbka rzeczywiście pochodzi z rozkładu normalnego N(120, 60), przyjmując dane sugerowane przez autora µ = 2 godz., σ = 1 godz. Ustawiamy w tym celu dane w ciąg rosnący. Otrzymujemy w minutach. x 1 = 72, x 2 = 95, x 3 = 120, x 4 = 138, x 5 = 175, x 6 = 265. Tworzymy tabelę: i 1 i 6 F (xi) x i F (x i) i 1 i F (x i) max Zatem maksimum=0.49. W tablicach znajdujemy d 6 (0.99) = Jest to liczba większa od 0.49, zatem hipotezy nie odrzucamy. Sposób II. Uwierzymy autorowi w to, że rozkład jest normalny (bo tego nie można zaliczyć do przechwalania się!) i zastosujemy model D2. Obliczamy. x = 144.2, s = Mamy µ 0 = 120. Niekorzystna sytuacja jest tylko wtedy, gdy program pracuje za wolno, zatem stawiamy hipotezę: H 0 : µ 120 przeciwko hipotezie H 1 : µ > 120. W takim razie zbiór krytyczny jest postaci W = [t(1 α, n 1); ). Możemy połączyć obie metody traktując rozważania w sposobie pierwszym tylko jako potwierdzenie tego, że rozkład jest normalny, a jako test zasadniczy uznać sposób drugi.

39 1.8. Parametryczne testy istotności 43 Znajdujemy w tablicach rozkładu Studenta t(0.99, 5) = Stąd Obliczamy statystykę W = [4.032; ). t obl = x µ 0 n = s Widzimy, że t obl W, zatem nie powinniśmy zarzucać twórcy programu, że się przechwala. Jeśli rozkład jest nieznany, to testy można przeprowadzać tylko dla dużych prób (n 30). Stosujemy wówczas model D3 rozkład dowolny o nieznanym σ. Model ten jest analogiczny jak model D1, opiera się na fakcie (wynikającym z twierdzenia granicznego), że dla dużej próbki rozkład jest granicznie normalny i że możemy nieznaną wartość σ 2 zastąpić wartością empiryczną s 2. Prowadzi to do wzorów: u obl = x µ 0 n. 4 (2.15) s Zbiór krytyczny: W = ( ; u(1 α)] dla hipotezy przeciwnej µ < µ 0 ; W = [u(1 α); ) dla hipotezy przeciwnej µ > µ 0 ; W = ( ; u(1 α 2 )] [u(1 α 2 ); ) dla hipotezy przeciwnej µ µ 0, PRZYKŁAD 25. Producent baterii do laptopów twierdzi, że czas pracy naładowanej baterii wynosi co najmniej 2 godziny. Przebadano 100 baterii i uzyskano średni czas pracy 110 minut i odchylenie standardowe 35 minut. Na poziomie istotności α = 0.05 sprawdź czy producent ma rację. Rozwiązanie: 4 W niektórych źródłach w tym wzorze zamiast s podaje się ŝ.

40 44 1. Elementy statystyki matematycznej Niepokojąca sytuacja jest wówczas, gdy bateria pracuje za krótko dlatego stawiamy hipotezę: H 0 ; µ = µ 0 = 120 przeciwko hipotezie H 1 : µ < 120. W takim razie zbiór krytyczny jest postaci W = ( ; u(1 α)]. Znajdujemy w tablicach kwantyli rozkładu normalnego u(0.95) = Stąd W = ( ; 1.64]. Obliczamy statystykę u obl = x µ 0 s 10 n = 100 = Widzimy, że u obl W, zatem powinniśmy odrzucić hipotezę H 0 na rzecz hipotezy przeciwnej. Producent nie ma racji. Hipotezy dotyczące wariancji (odchylenia standardowego) Model E1. - stosujemy go, gdy rozkład jest normalny o nieznanych µ i σ, n 50. Stosujemy statystykę χ 2 obl = (n 1)s2 σ0 2. (2.16) Zbiór krytyczny: W = (0; χ 2 (α, n 1)] dla hipotezy przeciwnej σ < σ 0 ; W = [χ 2 (1 α, n 1); ) dla hipotezy przeciwnej σ > σ 0 ; W = (0; χ 2 ( α 2, n 1)] [χ2 (1 α 2, n 1); ) dla hipotezy przeciwnej σ σ 0 ; PRZYKŁAD 26. Aby oszacować dokładność pomiarów wykonywanych elektroniczną wagą ośmiokrotnie zważono ten sam obiekt i otrzymano wyniki (w gramach): 12.13, 12, 25, 12.11, 12.19, 12.14,

41 1.8. Parametryczne testy istotności 45 12, 21, 12.18, Zakładając, że cecha ma rozkład normalny a poziomie istotności α = 0.05 zweryfikować hipotezę σ = 0.04 g. przeciwko hipotezie σ > 0.04 g. Rozwiązanie:Obliczona wartość średniej empirycznej x wynosi , wariancji empirycznej s 2 = , a odchylenia standardowego s, Zatem wartość statystyki χ 2 obl = Zbiór krytyczny ma postać (8 1) = 9.1. W = [χ 2 (1 α, n 1); ). Z tablic kwantyli rozkładu χ 2 otczytujemy χ 2 (0.95, 7) = Ponieważ 9.1 W, nie ma podstaw do odrzucenia hipotezy. Model E2 - stosujemy dla rozkładu normalnego o nieznanych µ i σ (n 50). Opiera się on na wniosku z odpowiedniego twierdzenia granicznego, który powiada, że statystyka 2(n 1)s 2 σ 2 0 asymptotycznie ma rozkład N( 2n 3, 1). (porównaj model C2) W takim razie stosujemy statystykę u obl = 2(n 1)s 2 σ 2 0 2n 3. (2.17) która ma asymptotyczny rozkład N(0, 1). Zbiór krytyczny: W = ( ; u(1 α)] dla hipotezy przeciwnej µ < µ 0 ; W = [u(1 α); ) dla hipotezy przeciwnej µ > µ 0 ; W = ( ; u(1 α 2 )] [u(1 α 2 ); ) dla hipotezy przeciwnej µ µ 0 ; PRZYKŁAD 27. Aby zbadać dokładność pracy elektronicznego mikrometra zmierzono 50 razy grubość włosa i uzyskano empiryczne

42 46 1. Elementy statystyki matematycznej odchylenie standardowe mm. Zbadać na poziomie istotności α = 0.05 hipotezę, że mikrometr mierzy z dokładnością mm. Rozwiązanie: Stawiamy hipotezę: H 0 : σ = σ 0 = przeciwko hipotezie H 1 : σ > σ 0. Obliczamy statystykę u obl = = Zbiór krytyczny W = (u(1 α); ) = u(0.95; ) = (1.64; ). Widzimy, że liczba u obl jest nieznacznie większa od 1.64 jest na granicy zbioru krytycznego, czyli raczej hipotezę należy odrzucić. Rozwiążemy to samo zadanie z wykorzystaniem modelu E1. Mamy χ 2 obl = Zbiór krytyczny jest równy 49 (0.0023)2 (0.0020) 2 = W = [χ 2 (0.95, 49); ) = [66.34; ). Tym razem wartość statystyki testowej leży (minimalnie) poza zbiorem krytycznym, a więc hipotezy nie odrzucamy. Przykład ten pokazuje, że w granicznych sytuacjach rezultat może zależeć od wyboru modelu! Tu sytuacja była graniczna podwójnie, bo i liczność próbki była na granicy dużej i małej. W takich sytuacjach lepiej stosować model E1 i kwantyle rozkładu χ 2 obliczać przy pomocy komputera (patrz uwaga na stronie 33). Hipotezy o równości frakcji elementów wyróżnionych Badana cecha ma rozkład dwupunktowy z nieznanym parametrem p. Oznaczmy przez k liczbę wyróżnionych elementów

43 1.8. Parametryczne testy istotności 47 w próbie n-elementowej. Próbka powinna raczej być duża. Jeśli nie ma możliwości testowania hipotezy na dużej próbce, to można hipotezę przeprowadzić, ale przy wynikach bliskich granicznym podchodzić do nich bardzo ostrożnie. Model G1. Stosujemy statystykę u obl = k np 0 np0 (1 p 0 ) 5. (2.18) Zbiory krytyczne są dane wzorami: W = ( ; u(1 α)] dla hipotezy przeciwnej p < p 0 ; W = [u(1 α); ) dla hipotezy przeciwnej p > p 0 ; W = ( ; u(1 α 2 )] [u(1 α 2 ); ) dla hipotezy przeciwnej p p 0 ; PRZYKŁAD 28. Policzono pewnego dnia klientów internetowego sklepu komputerowego i okazało się, że na 45 klientów tego dnia 13 było z małych miejscowości. Na poziomie istotności α = 0.05 zweryfikujemy hipotezę, że procent klientów z małych miejscowości korzystających z zakupów przez internet wynosi 35%. Rozwiązanie: Stawiamy hipotezę H 0 : p = p 0 = 0.35 przeciwko hipotezie H 1 : p 0.3. Nasze dane n = 45, k = 13. Liczymy u obl = = Gdy liczność próby nie jest dostatecznie duża niektóre źródła zalecają zastosowanie statystyki: ( u obl = 2 arc sin ) k n 2 arc sin p 0 n. W praktyce otrzymane wyniki przy zastosowaniu obu statystyk różnią się nieznacznie.

44 48 1. Elementy statystyki matematycznej Zbiór krytyczny W = ( ; u(0.975)] [u(0.975); ) = ( ; 1.96] [1.96; ). Ponieważ u obl nie należy do zbioru krytycznego, nie ma podstaw do odrzucenia hipotezy. PRZYKŁAD 29. Pewien sklep z odzieżą chce sprawdzić, czy również na terenie jego działalności potwierdzą się dane, że co najmniej 80% klientów stanowią panie. Przez pewien czas skrupulatnie liczono klientów i okazało się, że na 427 osób, pań było 301. Czy dane te przeczą ogólnej statystyce na poziomie istotności α = 0.05? Rozwiązanie: Stawiamy hipotezę H 0 : p = p 0 = 0.8 przeciwko hipotezie H 1 : p < 0.8. Nasze dane n = 427, k = 304. Liczymy u obl = = (1 0.8) Zbiór krytyczny W = ( ; u(0.95)] = ( ; 1.64]. Ponieważ u obl nie należy do zbioru krytycznego, nie ma podstaw do odrzucenia hipotezy. PRZYKŁAD 30. Rozwiążemy zadanie 7 przy pomocy tego modelu. Przypomnijmy: rzucamy sto razy monetą. Ile razy powinna paść reszka, aby odrzucić hipotezę moneta jest symetryczna? Przyjmujemy α = 0.05 Rozwiązanie: Stawiamy hipotezę H 0 : p = p 0 = 0.5 przeciwko hipotezie H 1 : p 0.5. Niech m oznacza liczbę reszek. Liczymy m 50 u obl = = m (1 0.5) 5

Pokazać jeszcze