Marek Cieciura, Jausz Zacharski PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE CZĘŚĆ IV STATYSTYKA MATEMATYCZNA Na prawach rękopisu Warszawa, wrzesień 0 Data ostatiej aktualizacji: piątek, grudia 0, godzia 6:39
Podręczik: Statystyka jest bardziej sposobem myśleia lub wioskowaia iŝ pęczkiem recept a młóceie daych w celu odsłoięcia odpowiedzi - Calyampudi Radhakrisha Rao PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE publikoway jest w częściach podaych poiŝej Nr I. Wprowadzeie II. III. IV. Statystyka opisowa Tytuł Rachuek prawdopodobieństwa Statystyka matematycza V. Przykłady zastosowań w iformatyce VI. VII. Dowody wybraych twierdzeń Tablice statystycze Autorzy proszą o przesyłaie wszelkich uwagi i propozycji dotyczących zawartości podręczika z wykorzystaiem formularza kotaktowego zamieszczoego w portalu http://cieciura.et/mp/ Publikowae części będą a bieŝąco poprawiae, w kaŝdej będzie podawaa data ostatiej aktualizacji. Podręczik udostępia się a waruku licecji Creative Commos (CC): Uzaie Autorstwa UŜycie Niekomercyje Bez Utworów ZaleŜych (CC-BY-NC-ND),co ozacza: Uzaie Autorstwa (ag. Attributio - BY): zezwala się a kopiowaie, dystrybucję, wyświetlaie i uŝytkowaie dzieła i wszelkich jego pochodych pod warukiem umieszczeia iformacji o twórcy. UŜycie Niekomercyje (ag. Nocommercial - NC): zezwala się a kopiowaie, dystrybucję, wyświetlaie i uŝytkowaie dzieła i wszelkich jego pochodych tylko w celach iekomercyjych.. Bez Utworów ZaleŜych (ag. No Derivative Works - ND): zezwala się a kopiowaie, dystrybucję, wyświetlaie tylko dokładych (dosłowych) kopii dzieła, iedozwoloe jest jego zmieiaie i tworzeie a jego bazie pochodych. Podręczik i skoreloway z im portal, są w pełi i powszechie dostępe, staowią więc Otwarte Zasoby Edukacyje - OZE (ag. Ope Educatioal Resources OER).
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE SPIS TREŚCI 4. STATYSTYKI I ICH ROZKŁADY... 5 4.. PRÓBA JAKO ZMIENNA LOSOWA WIELOWYMIAROWA... 5 4.. PODSTAWOWE STATYSTYKI I ICH ROZKŁADY... 6 4... Wykazy statystyk... 6 4... Rozkład średiej z próby... 7 4..3. Rozkład statystyk związaych z wariacją z próby... 8 5. ESTYMACJA PARAMETRÓW... 5.. WPROWADZENIE... 5.. ESTYMACJA PUNKTOWA... 5... Klasyfikacja estymatorów i ierówość Rao-Cramera... 3 5... Estymacja wartości oczekiwaej rozkładu ormalego... 4 5..3. Estymatory wariacji rozkładu ormalego... 5 5..4. Metoda ajwiększej wiarygodości otrzymywaia estymatorów... 7 5..5. Zestawieie estymatorów parametrów rozkładu zmieej losowej i ich własości... 9 5.3. ESTYMACJA PRZEDZIAŁOWA... 0 5.3.. Uwagi wstępe... 0 5.3.. Wyzaczeie przedziału ufości dla wartości oczekiwaej rozkładu ormalego... 5.3.3. Tabela przedziałów ufości... 4 5.3.4. Wyzaczaie wielkości próby... 8 5.3.5. Wykorzystaie arkusza Excel... 30 6. WERYFIKACJA HIPOTEZ... 3 6. WPROWADZENIE... 3 6... Uwagi wstępe... 3 6... Pzykład kostrukcji testu parametryczego do weryfikacji hipotezy o wartości oczekiwaej... 34 6..3. Pzykład kostrukcji testu parametryczego do weryfikacji hipotezy o rówości wartości oczekiwaych... 35 6..4. Uwagi o weryfikacji hipotez parametryczych... 37 6.. TESTY PARAMETRYCZNE DLA JEDNEJ PRÓBY... 38 6... Testy do weryfikacji hipotezy o wartości oczekiwaej... 38 6... Testy do weryfikacji hipotezy o wariacji i odchyleiu stadardowym... 43 6..3. Testy do weryfikacji hipotezy o wskaźiku struktury... 44 6.3. TESTY PARAMETRYCZNE DLA DWÓCH PRÓB... 45 6.3.. Testy do porówywaia wartości oczekiwaych dla prób iezaleŝych... 45 6.3.. Testy do porówywaia wartości oczekiwaych próby zaleŝe... 53 6.3.3. Testy do porówywaia wariacji... 57 6.3.4. Testy do porówywaia wskaźików struktury... 59 6.4. TESTY NIEPARAMETRYCZNE DLA JEDNEJ PRÓBY... 6 6.4.. Ocea losowości próby... 6 6.4.. Test zgodości chi kwadrat... 6 6.4.3. Ocea ormalości rozkładu... 65 6.4.4. Test iezaleŝości chi kwadrat... 68 6.5. TESTY NIEPARAMETRYCZNE DLA DWÓCH PRÓB... 73 6.5.. Test zgodości rozkładów dla prób iepowiązaych (test Wilcoxoa)... 73 6.5.. Test zgodości rozkładów dla prób powiązaych (test ragowaych zaków)... 75 6.6. ALGORYTMIZACJA OBLICZEŃ... 77 6.6.. Wykorzystaie arkusza Excel... 77 6.6..Zasady wyboru testu przy dwóch próbach... 78 3
STATYSTYKA MATEMATYCZNA 7. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH... 79 7.. WPROWADZENIE... 79 7.. ANALIZA KORELACJI... 80 7... Uwagi wstępe... 80 7... Estymacja współczyika korelacji cech populacji... 80 7..3. Weryfikacja hipotez o współczyiku korelacji... 8 7..4. Współczyik korelacji Spearmaa... 84 7..5. Współczyik korelacji Cramera... 87 7.3. ANALIZA REGRESJI... 88 7.3.. Uwagi wstępe... 88 7.3.. Estymatory współczyików regresji... 88 7.3.3. Rozkłady estymatorów współczyików regresji... 9 7.3.4. Estymacja przedziałowa współczyików regresji... 9 7.3.5. Weryfikacja hipotez o współczyikach regresji... 94 8. WPROWADZENIE DO ZAAWANSOWANYCH METOD STATYSTYCZNYCH... 96 8.. CHARAKTERYSTYKA ZAAWANSOWANYCH METOD STATYSTYCZNYCH... 96 8.. ALGORYTMIZACJA WYBORU METOD STATYSTYCZNYCH... 00 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 4. STATYSTYKI I ICH ROZKŁADY Począwszy od tego rozdziału będziemy przedstawiali teorię i zastosowaia statystyki matematyczej. RozwaŜymy ajpierw sytuacje, w których badaa jest jeda cecha populacji lub dwie cechy róŝych populacji tak, Ŝe moŝa je traktować jako zmiee losowe iezaleŝe. Wówczas o próbach pobraych z tych populacji mówimy, Ŝe są iepowiązae. 4.. Próba jako zmiea losowa wielowymiarowa W dalszych rozwaŝaiach będzie potrzeba owa defiicja próby umoŝliwiająca korzystaie w statystyce z rachuku prawdopodobieństwa. Badaa jest cecha X populacji. Niech X, X,... X będą zmieymi losowymi iezaleŝymi o jedakowym rozkładzie, takim jak rozkład cechy X. Próba losowa -elemetowa ze względu a cechę X (próba elemetowa) jest to zmiea losowa -wymiarowa (X, X,..., X ) (4.) Iterpretacja Zmiea losowa X jest modelem wartości cechy X pierwszego elemetu wylosowaego z populacji do próby, X modelem drugiego elemetu itd. PoiewaŜ do próby losujemy elemety metodą ze zwracaiem, więc kaŝdy elemet populacji ma te same szase być wylosoway, dlatego przyjmuje się, Ŝe zmiee losowe są iezaleŝe. KaŜdą wartość (x, x,..., x ) (4.) próby (4.) azywamy realizacją próby lub takŝe próbą. Przykład 4. RozwaŜamy populację gospodarstw domowych a tereie Warszawy. Populację tę badamy ze względu a cechę X liczba osób w gospodarstwie. Z populacji pobieramy próbę pięcioelemetową. Losujemy ze zwracaiem pięć gospodarstw domowych. Przypuśćmy, Ŝe otrzymaliśmy wartości cechy X:, 3,, 3, 4. Zatem zmiea losowa X ozaczająca liczbę osób w wylosowaym pierwszym gospodarstwie przyjęła wartość, zmiea losowa X ozaczająca liczbę osób w wylosowaym drugim gospodarstwie przyjęła wartość 3 itd. Próba przyjęła wartość (X, X, X 3, X 4, X 5 ) (4.3) (, 3,, 3, 4) (4.4) Przypuśćmy, Ŝe badaie powtórzoo i otrzymao teraz astępujące wartości cechy X: 3,,,,. Otrzymaliśmy ią wartość próby (4.3), miaowicie Ciągi (4.4) i (4.5) są realizacjami próby (4.3). (3,,,, ) (4.5) Statystyki Aby moŝa było przeprowadzić aalizę statystyczą aleŝy przekształcić próbę, czyli rozpatrywać fukcje próby. Fukcje próby (4.) azywamy statystykami U = g(x, X,..., X ) (4.6) Przykład 4. Jeśli iteresujemy się średią liczbą osób w gospodarstwach domowych wybraych do próby, to aleŝy rozwaŝyć zmieą losową X +X +X +X +X U 5= 5 3 4 5 5 średia arytmetycza z próby (4.7)
STATYSTYKA MATEMATYCZNA Zmiea ta jest fukcją próby (4.3), jest zatem statystyką. Wartościami (realizacjami) tej statystyki, dla realizacji próby (4.4) i (4.5) są liczby +3++3+4 u 5 = =,6 5 3++++ u = =,8 5 i 5 4.. Podstawowe statystyki i ich rozkłady 4... Wykazy statystyk Przedstawimy teraz dwa wykazy ajczęściej stosowaych statystyk. Wykaz statystyk klasyczych, tj. statystyk, których wartości zaleŝą od wszystkich zmieych losowych wchodzących w skład próby. Wykaz statystyk pozycyjych, tj. statystyk, których wartości zaleŝą tylko od iektórych zmieych losowych wchodzących w skład próby, główie od tych, które zajmują odpowiedią pozycję w próbie. Tabela 4. Wykaz statystyk klasyczych Lp Postać Nazwa / Kometarz 3 4 5 6 7 8 9 0 U U X = X Średia z próby i i = = i i = S (X X ) Wariacja z próby (obciąŝoa ) Odchyleie stadardowe z próby S = (Xi X ) i = Ŝ = (Xi X ) i = o S = (Xi m) i = o S Xi m = = σ i= σ S Xi X = = σ i= σ k U Xi i = k U = (Xi X ) i = Wariacja z próby (ieobciąŝoa ) m=ex m=ex, σ=dx = Momet z próby rzędu k Momet cetraly z próby rzędu k X m U = S Y W( ω ) = Y - liczba jedyek w próbie - patrz poiŝsza uwaga Wskaźik struktury wariatu ω. Wyjaśieie azwy w podpukcie 5... Jak wyŝej 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Nazwa statystyki Symbol Mediaa z próby M e Kwatyl rzędu p z próby K p Kwartyl pierwszy, drugi i trzeci z próby Q, Q, Q 3 Rozstęp z próby R o Tabela 4.. Wykaz statystyk pozycyjych Podobie defiiuje się ie statystyki pozycyje p. decyle z próby i cetyle z próby. Uwaga: KaŜdemu elemetowi próby przyporządkowujemy, gdy elemet ma wartość cechy X rówą wariatowi ω lub 0 w przeciwym przypadku. Wtedy próba (X, X,..., X ) jest ciągiem zmieych losowych o rozkładach zerojedykowych, a kaŝda realizacja próby jest ciągiem - elemetowym zer lub jedyek. 4... Rozkład średiej z próby Średia z próby -elemetowej jest to statystyka X = Xi i= Parametry średiej Jeśli cecha X populacji ma wartość oczekiwaą m i wariację σ, to σ σ EX =m, D X =, DX = Rozkład średiej Jeśli cecha X populacji ma rozkład ormaly N(m, σ), to średia arytmetycza X ma rozkład σ ormaly N m,. Twierdzeie to wyika z własości rozkładu ormalego3. Rozkład asymptotyczy średiej Jeśli cecha X populacji ma wartość oczekiwaą m i wariację σ >0, to dla duŝych średia σ arytmetycza X ma rozkład asymptotyczie ormaly N m,. Twierdzeie to wyika z faktów: a) a podstawie tw. Lideberga-Levy ego 4 suma Xi ma rozkład asymptotyczie ormaly, b) fukcja liiowa zmieej losowej o rozkładzie ormalym ma rozkład ormaly. i= Defiicja statystyki Statystyka przyjmująca dla kaŝdej realizacji próby mediaę w tej realizacji Statystyka przyjmująca dla kaŝdej realizacji próby kwatyl rzędu p w tej realizacji Statystyka przyjmująca dla kaŝdej realizacji próby odpowiedi kwartyl w tej realizacji Statystyka przyjmująca dla kaŝdej realizacji próby rozstęp w tej realizacji Oba rozkłady średiej (dokłady i asymptotyczy) potwierdzają zay am fakt, wyikający z prawa wielkich liczb Chiczya, Ŝe średia arytmetycza duŝej liczby zmieych losowych ma rozkład skupioy przy wartości oczekiwaej. Teraz te fakt został ujęty ilościowo. 3 Patrz podpukt... części VII Wybrae twierdzeia z dowodami 4 Patrz podpukt 9.. części III Rachuek prawdopodobieństwa 7
STATYSTYKA MATEMATYCZNA Przykład 4. Cecha X populacji ma rozkład ormaly N(3,). Obliczymy prawdopodobieństwa P( X-3 <0,), P( X6-3 <0,), P( X400-3 <0,). Rozwiązaie P( X-3 <0, ) =Φ( 0,) -= 0,5398-=0,08 Statystyka X6 ma rozkład N 3, 6, czyli rozkład N 3, 4. Zatem P( X6-3 <0,)=P X6-3 : <0,: =Φ(0,4)-= 0,4556-=0,30 4 4 Statystyka X400 ma rozkład N 3, 400 czyli rozkład N 3,. 0 Zatem P( X400-3 <0,)=P X400-3 : <0,: =Φ()-= 0,9775-=0,955 0 0 Obliczyliśmy prawdopodobieństwa, Ŝe zmiee losowe X, X 6, X400 przyjmą wartości z otoczeia o promieiu 0, swoich wartości oczekiwaych. Widać, Ŝe to prawdopodobieństwo dla zmieej losowej X jest małe, umiarkowaej wartości dla średiej X 6 i bardzo duŝe dla średiej X 400. Potwierdza to wcześiej sformułowaą właściwość średiej z próby, o przyjmowaiu przez ią wartości z prawdopodobieństwem bliskim jedości mało róŝiących się od jej wartości oczekiwaej (a takŝe cechy populacji), gdy próba jest licza. Wyika stąd, Ŝe wartości statystyki X mogą słuŝyć do ocey wartości oczekiwaej, gdy wartość ta ie jest zaa, a próba ma duŝo elemetów. 4..3. Rozkład statystyk związaych z wariacją z próby Wariacja z próby -elemetowej jest to statystyka S = (X X ) i i = Odchyleie stadardowe z próby -elemetowej jest to statystyka S = (X X ) i i = Iterpretacja ZauwaŜmy, Ŝe dla realizacji próby, której elemety mało róŝią się od siebie realizacja statystyki S jest liczbą bliską zeru, atomiast dla realizacji próby, której elemety róŝią się zaczie od siebie, ta realizacja jest duŝą liczbą. Podobe uwagi dotyczą odchyleia stadardowego z próby. Zatem statystyki S i S są miarami zróŝicowaia elemetów próby względem średiej z próby. Z wariacją z próby związae są statystyki Ŝ = X -X o ( i ) oraz S = ( X ) - i-m i= i= gdzie m jest wartością oczekiwaą cechy X populacji. s 8
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE o ZauwaŜmy, Ŝe między statystykami Ŝ i S występują związki Ŝ = S - oraz S =(-) Ŝ = ( Xi -X ) i= o S S Rozkłady statystyk i σ σ Zakładamy, Ŝe cecha X populacji ma rozkład ormaly N(m, σ). Wtedy statystyka o S Xi-m = σ i= σ jest sumą kwadratów iezaleŝych zmieych losowych o rozkładzie ormalym N(0, ), zatem ma rozkład χ z stopiami swobody 5. Natomiast statystyka o S róŝi się tym od statystyki σ udowodić, Ŝe ma oa takŝe rozkład twierdzeie:. S X -X σ i = i= σ, Ŝe zamiast róŝicy X i - m występuje róŝica Xi - X. MoŜa χ, tyle, Ŝe z - stopiami swobody. Zatem prawdziwe jest Jeśli cecha X populacji ma rozkład ormaly N(m, σ), to statystyka z stopiami swobody. Statystyka ZbieŜość statystyk S,S ˆ,S o S σ Jeśli cecha populacji X ma wariację prawdopodobieństwa do wariacji ma rozkład prawdopodobieństwa do odchyleia stadardowego σ. Wyika stąd, Ŝe dla liczej próby wartości statystyk S σ o χ z - stopiami swobody. σ, to ciągi ( ) ( ˆ ) ( o ) σ, atomiast ciągi ( ) ( ˆ o ) ( ) o ma rozkład χ S, S, S są zbieŝe według S, S, S są zbieŝe według S, S ˆ, S mogą słuŝyć do ocey wariacji o σ, atomiast wartości statystyk S,S ˆ,S do ocey odchyleia stadardowego σ. o Wartość oczekiwaa statystyk S, S ˆ, S - o ES = σ, ES ˆ =σ, ES =σ. 5 Patrz ppkt 6..5 - defiicja rozkładu chi kwadrat. 9
STATYSTYKA MATEMATYCZNA W tabelach 4.. i 4.3. podao zestawieie wybraych statystyk wraz z ich rozkładami 6. Tabela 4.. Rozkłady statystyk dla jedej cechy populacji Rozkład cechy populacji Statystyka Rozkład statystyki Normaly N(m,σ) Dowoly z wartością oczekiwaą m i wariacją > 0 σ Zerojedykowy P(X = ) = p P(X = 0) = p p- prawdopodobieństwo sukcesu X S σ S σ o X -m - S X Wskaźik struktury (częstość sukcesu) Y Y - liczba jedyek w próbie Normaly N m, σ χ z - stopiami swobody χ z stopiami swobody Studeta z - stopiami swobody Asymptotyczie ormaly σ N(m, ) dla duŝych Asymptotyczie ormaly p(-p) N p,, Dla przypadku, gdy X: N(m, σ), podae w tabeli 4.3. rozkłady statystyk moŝa zilustrować w sposób astępujący. Rys. 4.. Rozkłady wybraych statystyk 6 Patrz pukt.. części VII Wybrae twierdzeia z dowodami 0
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Tabela 4.4. Rozkłady statystyk dla dwóch iezaleŝych cech populacji Rozkład cechy X Rozkład cechy Y Statystyka Rozkład statystyki Normaly N(m, σ ) Normaly N(m, σ ) X -Y σ σ + Normaly N(0,) Normaly N(m, σ) Normaly N(m, σ) X -Y ( + -) + S + S Studeta z + - stopiami swobody Normaly N(m, σ ) Normaly N(m, σ ) Ŝ Ŝ Sedecora z parą ( -, -) stopi swobody Dowoly z wartością oczekiwaą m i z wariacją σ Dowoly z wartością oczekiwaą m i z wariacją σ X -Y S S + Asymptotyczie ormaly N(0,)
5.. Wprowadzeie STATYSTYKA MATEMATYCZNA 5. ESTYMACJA PARAMETRÓW W teorii estymacji wyróŝia się: estymację parametryczą i estymację ieparametryczą. Estymacja parametrycza dotyczy szacowaia iezaych parametrów rozkładu. Problem estymacji parametryczej, odoszący się do jedej cechy jest astępujący: Populacja badaa jest ze względu a cechę X o rozkładzie zaleŝym od parametru Q, tz. dystrybuata tej cechy jest postaci F Q (x), przy czym dla kaŝdego Q aleŝącego do pewego zbioru Ω przestrzei parametru Q, dystrybuata ta jest zaa. Przy tych załoŝeiach wioskowaie o rozkładzie cechy X sprowadza się do oszacowaia (estymacji) a podstawie próby wartości parametru Q. WyróŜia się dwa sposoby szacowaia parametru Q: oszacowaie puktowe i oszacowaie przedziałowe. Estymacja ieparametrycza dotyczy szacowaia postaci fukcyjej rozkładu, p. w postaci dystrybuaty. MoŜa w tym celu stosować, aalogiczie jak przy estymacji parametryczej, oszacowaie puktowe lub przedziałowe. Przy szacowaiu przedziałowym wyzacza się obszar (pas) ufości. 5.. Estymacja puktowa Estymacja puktowa parametru Q polega a: Wybraiu pewej statystyki U o rozkładzie zaleŝym od parametru Q. Obliczeiu a podstawie próby wartości u statystyki U Przyjęciu, Ŝe u jest oszacowaiem parametru Q, co zapisujemy ˆQ = u i czytamy: oceą parametru Q jest u. Statystyka U azywa się wówczas estymatorem parametru Q. Zaych jest szereg metod wyzaczaia estymatorów. NajwaŜiejsze z ich to: metoda mometów, metoda ajwiększej wiarygodości, metoda ajmiejszych kwadratów autor Carl Gauss, metoda estymacji bayesowskiej i metoda estymacji miimaksowej. PoiŜej podao istotę pierwszej z wymieioych metod, druga zostaie scharakteryzowaa w pukcie 5..4, a trzecia w pukcie 7.3..(łaczie z awiązaiem do poprzedich) Metoda mometów została opracowaa pod koiec XIX wieku przez agielskiego statystyka K. Pearsoa. Zgodie z tą metodą przyjmuje się, Ŝe estymatorem mometu cechy populacji jest odpowiadający mu momet z próby, zaś estymatorem fukcji mometów populacji jest ta sama fukcja mometów z próby. Przykład 5. Badaa jest cecha X populacji. Zgodie z metodą mometów przyjmujemy, Ŝe estymatorem wartości oczekiwaej m jest średia z próby X = Xi, atomiast estymatorem wariacji σ i = jest wariacja z próby S = ( Xi -X ). i= NaleŜy podkreślić, Ŝe charakterystyki liczbowe opisae w ramach statystyki opisowej pokrywają się z estymatorami wyzaczoymi metodą mometów.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 5... Klasyfikacja estymatorów i ierówość Rao-Cramera Estymator zgody parametru Q jest to estymator U zbieŝy wg prawdopodobieństwa do Q, tz. lim P( U -Q <ε)= dla dowolego ε >0 Estymator ieobciąŝoy parametru Q jest to estymator U o wartości oczekiwaej rówej parametrowi Q EU = Q Estymator ajefektywiejszy parametru Q jest to estymator ieobciąŝoy tego parametru o ajmiejszej wariacji spośród wszystkich estymatorów ieobciąŝoych parametru Q. Estymator obciąŝoy parametru Q jest to estymator U taki, Ŝe EU Q Estymator asymptotyczie ieobciąŝoy parametru Q jest to estymator U o graicy wartości oczekiwaej rówej parametrowi Q lim EU =Q Estymator asymptotyczie ajefektywiejszy parametru Q jest to estymator ieobciąŝoy lub asymptotyczie ieobciąŝoy taki, Ŝe ( D U lim = D U gdzie U ( jest estymatorem ajefektywiejszym parametru Q. Iterpretacja Jeśli estymator jest estymatorem zgodym parametru Q, to dla duŝej próby z prawdopodobieństwem bliskim ocea parametru i parametr mało róŝią się. Jeśli estymator parametru Q jest ieobciąŝoy, to otrzymujmy ocey bez błędu systematyczego. Jeśli bowiem byłoby EU <Q, to otrzymywalibyśmy ocey średio zaiŝoe. Natomiast, gdyby EU >Q, to otrzymywalibyśmy ocey średio zawyŝoe. Jeśli estymator jest estymatorem ajefektywiejszym parametru Q, to jego rozkład jest ajbardziej skupioy przy parametrze Q, zatem otrzymujemy ocey bliŝsze parametrowi Q, iŝ przy iych estymatorach. Estymator asymptotyczie ieobciąŝoy jest praktyczie estymatorem ieobciąŝoym, gdy próba jest licza, takŝe estymator asymptotyczie ajefektywiejszy jest praktyczie, dla duŝej próby, estymatorem ajefektywiejszym. Zgodość, a ieobciąŝoość estymatora PoiŜsze twierdzeie jest uŝytecze przy badaiu zgodości estymatora. Jeśli U jest estymatorem ieobciąŝoym lub asymptotyczie ieobciąŝoym parametru Q oraz to U jest estymatorem zgodym tego parametru. lim D U =0 Nierówość Rao-Cramera Jeśli cecha populacji X jest zmieą losową skokową o fukcji prawdopodobieństwa zaleŝej od parametru Q P(X=x k )=p k (Q) i U jest estymatorem ieobciąŝoym parametru Q oraz spełioe są waruki regularości 7, to wariacja estymatora U spełia tzw. ierówość Rao-Cramera 7 Leiter Roma, Zacharski Jausz: Zarys matematyki wyŝszej dla studetów, część III, WNT, Warszawa 998 - str. 98 3
STATYSTYKA MATEMATYCZNA D U d lp k (Q) p k (Q) k dq przy czym dla estymatora ajefektywiejszego zachodzi rówość w powyŝszej ierówości. Jeśli cecha populacji X jest zmieą losową ciągłą o gęstości f Q (x) zaleŝej od parametru Q i U jest estymatorem ieobciąŝoym parametru Q oraz spełioe są waruki regularości 8, to wariacja estymatora U spełia ierówość Rao-Cramera w poiŝszej postaci l f Q(x) f Q(x)dx Q D U - przy czym dla estymatora ajefektywiejszego zachodzi rówość w powyŝszej ierówości. Efektywość estymatora Efektywość estymatora ieobciąŝoego U parametru Q jest to liczba ( D U e = D U gdzie Oczywiście D U ( jest wariacją estymatora ajefektywiejszego parametru Q. 0 < e Estymator U jest estymatorem ajefektywiejszym wtedy i tylko wtedy, gdy e =. 5... Estymacja wartości oczekiwaej rozkładu ormalego Cecha X populacji ma rozkład ormaly N(m,σ), przy czym σ jest zae. Przyjmiemy, Ŝe estymatorem wartości oczekiwaej jest średia z próby X = Xi Zgodość i = Cecha X ma rozkład z wartością oczekiwaa m. Średia z próby X jest estymatorem zgodym wartości oczekiwaej m, gdyŝ a podstawie prawa wielkich liczb Chiczya 9 NieobciąŜoość PoiewaŜ lim P( X - m <ε)= dla dowolego ε >0 k k k= k= k= EX =E X = EX = m= m=m więc średia z próby jest estymatorem ieobciąŝoym wartości oczekiwaej. Efektywość Obliczymy ajpierw wariację estymatora ajefektywiejszego wartości oczekiwaej rozkładu ormalego, a astępie wariację średiej z próby i porówamy otrzymae wielkości. 8 Patrz jw 9 Patrz ppkt 9.4.3. części III Rachuek prawdopodobieństwa 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Jeśli U % jest estymatorem ajefektywiejszym, to jego wariacja jest rówa prawej stroie ierówości Rao-Cramera D U % = = { oz. } = M lf m (x) f m (x)dx m - -(x-m) /(σ ) gdzie: f m(x)= e σ π (x-m) (x-m) Zatem lf m(x)=l - i lf m(x)= σ π σ m σ M= (x-m) f 4 m(x)dx= D X= σ = 4 4 σ σ σ σ - ( σ Czyli D U = = wariacja estymatora ajefektywiejszego wartości oczekiwaej rozkładu ormalego σ σ D X =D X k = D X k = σ = σ = k= k= k= Zatem D X = D U (, więc średia z próby jest estymatorem ajefektywiejszym wartości oczekiwaej rozkładu ormalego. Z powyŝszego wyika, Ŝe średia z próby X jest estymatorem zgodym, ieobciąŝoym i ajefektywiejszym wartości oczekiwaej rozkładu ormalego. 5..3. Estymatory wariacji rozkładu ormalego Estymatorami wariacji są statystyki S = X -X o ( i ) S = ( X ) i -m i= i= Ŝ = ( X -X ) - i Zbadamy własości tych estymatorów przy załoŝeiu, iŝ rozkład cechy jest ormaly. o S S W ppkt 4..3. stwierdziliśmy, Ŝe statystyki i mają rozkłady chi kwadrat z - σ σ i stopiami swobody oraz, Ŝe rozkład chi kwadrat z stopiami swobody ma wartość oczekiwaą rówą i wariację. NieobciąŜoość 0 S E σ =- oraz S E = ES σ σ zatem - ES = σ i= o S E = oraz σ o S E = ES σ σ ˆ - ES =E S = ES = σ =σ - - - o zatem o ES =σ 0 W. części VI Wybrae twierdzeia wraz z dowodami oceioo obciąŝoość wariacji bez załoŝeia o ormalości rozkładu 5
Wioski Statystyki Statystyka o S i STATYSTYKA MATEMATYCZNA Ŝ są estymatorami ieobciąŝoymi wariacji S jest estymatorem obciąŝoym wariacji σ ale - lim ES = lim σ =σ czyli jest estymatorem asymptotyczie ieobciąŝoym wariacji Zgodość Przy badaiu zgodości estymatorów wariacji σ wykorzystamy twierdzeie podae w pukcie 5... PoiewaŜ rozwaŝae estymatory wariacji są ieobciąŝoe lub asymptotyczie ieobciąŝoe, to zgodie z tym twierdzeiem będą estymatorami zgodymi, gdy ich wariacje zbieŝe są do zera. Obliczymy te wariacje S S ( - ) 4 D =(-) oraz D = D S 4, zatem D S = σ 0 σ σ σ o o 4 S S o o σ D = oraz D = ES 4, zatem D S = 0 σ σ σ ( ) 4-4 σ D S ˆ =D S = D S = σ = 0 - - - - Wiosek. Statystyki Efektywość ( ) ( ) S, o S, σ. σ. Ŝ są estymatorami zgodymi wariacji Jeśli U ( jest estymatorem ajefektywiejszym wariacji stroie ierówości Rao-Cramera, czyli % D U = - -(x-m) /(σ ) gdzie: f (x)= e σ σ π Zatem (x-m) lf (x)=- lσ -l - σ π σ (x-m) (x-m) -σ lf (x)=- + = σ 4 4 σ σ σ σ σ = { oz. } = M lf (x) f (x)dx σ σ σ σ σ σ - = (x-m) -σ 4 σ σ - M = lf (x) f (x)dx f (x)dx = 4 4 = 8 (x-m) f (x)dx-σ (x-m) f (x)dx+σ f (x)dx = σ σ σ 4σ - - - 4 4 4 4 4 4 σ 8 4 8 8 4 = µ -σ +σ = 3σ -σ +σ = = 4σ σ 4σ σ ( 4 σ D U = = σ 4 σ, to jego wariacja jest rówa prawej 6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Porówując otrzymay wyik z wcześiej obliczoymi wariacjami estymatorów stwierdzamy, Ŝe ( 4 o σ D S =D U = ( 4 4 D U σ σ - e = = : = ˆ D S - ( 4 4 D U σ (-)σ = : = D S - Wioski z powyŝszych rówości o Statystyka S = ( X -m) ormalego. i jest estymatorem ajefektywiejszym wariacji σ rozkładu i= Statystyka Ŝ = ( Xi -X ) ie jest estymatorem ajefektywiejszym wariacji σ rozkładu - i= ormalego, ma efektywość (-)/, jest więc estymatorem asymptotyczie ajefektywiejszym. Statystyka S = ( Xi -X ) jest estymatorem asymptotyczie ajefektywiejszym wariacji σ i= rozkładu ormalego. PoiewaŜ statystyka ta ie jest estymatorem ieobciąŝoym, więc ie moŝe być estymatorem ajefektywiejszym i ie moŝa mówić o efektywości tego estymatora. Estymatory odchyleia stadardowego Estymatory odchyleia stadardowego przedstawioe są w tabeli 5.. ZauwaŜmy, Ŝe pierwiastek kwadratowy estymatora ieobciąŝoego wariacji σ ie musi być estymatorem ieobciąŝoym odchyleia stadardowego σ. 5..4. Metoda ajwiększej wiarygodości otrzymywaia estymatorów Cecha X populacji ma rozkład zaleŝy od s parametrów Q,..., Q s (X,..., X ) próba (x,..., x ) realizacja próby. Fukcja wiarygodości jest to fukcja s zmieych Q,..., Q s w przypadku cechy populacji X skokowej przyporządkowuje kaŝdemu moŝliwemu puktowi (Q,..., Q s ) prawdopodobieństwo otrzymaia realizacji próby (x,..., x ) L(Q,..., Q s ) = P(X = x,, X = x ) = P(X = x ) P(X = x ) w przypadku cechy populacji X ciągłej przyporządkowuje kaŝdemu moŝliwemu puktowi (Q,..., Q m ) gęstość próby w pukcie będącym realizacją próby (x,..., x ) L(Q,..., Q s ) = f (x,..., x ) = f (x ) f (x ) Metoda ajwiększej wiarygodości (MNW) otrzymywaia estymatorów polega a wyzaczeiu, dla daej realizacji próby, takich oce Q ˆ ˆ,...,Q s, parametrów Q,..., Q s, by fukcja wiarygodości w pukcie ( Q ˆ ˆ,...,Q s ) osiągała wartość ajwiększą. Estymatory, których wartościami są ocey parametrów Q,...,Q s uzyskiwaymi metodą ajwiększej wiarygodości azywamy estymatorami ajwiększej wiarygodości (ENW). 7
STATYSTYKA MATEMATYCZNA Iterpretacja MNW opiera się a astępującej ituicji: skoro otrzymao realizację próby (x,..., x ), to musiała oa być bardziej wiarygoda od iych realizacji, tz. w przypadku cechy skokowej prawdopodobieństwo uzyskaia takiej realizacji powio być ajwiększe, atomiast w przypadku cechy ciągłej gęstość próby dla otrzymaej realizacji powia być ajwiększa. ENW mają rozkłady asymptotyczie ormale i są estymatorami zgodymi oraz asymptotyczie ieobciąŝoymi i asymptotyczie ajefektywiejszymi ( przy dość ogólych załoŝeiach). Przykład 5. Wyzaczymy metodą ajwiększej wiarogodości a podstawie próby (x, x,..., x ) estymator wartości oczekiwaej cechy X o rozkładzie N(m,σ) Uwzględiając, Ŝe gęstość rozkładu ormalego ma postać f (x) = e σ π otrzymuje się fukcję wiarogodości w postaci 8 (x m) σ (x m) (x m) (x i m) σ σ σ i= L(m) = e... e = e σ π σ π σ π Przy poszukiwaiu maksimum fukcji L(m) wygodiej posługiwać się logarytmem tej fukcji, gdyŝ łatwiej jest zaleźć maksimum ll(m), aiŝeli maksimum L(m), a obie fukcja L(m) i l L(m) przyjmują maksimum w tym samym pukcie, co fukcja, a a ogół. Logarytm fukcji L(m) jest rówy l L(m) = l + l (x i m) σ π σ i= Po zróŝiczkowaiu względem parametru m otrzymujemy d l L(m) i i dm σ i= σ i= σ Po przyrówaiu pochodej do zera otrzymujemy skąd = (x m) = x m i i= σ σ x mˆ = 0 ˆm = x i = Zatem estymator wartości oczekiwaej cechy X o rozkładzie N(m,σ) jest rówy średiej arytmetyczej elemetów próby. Druga pochoda jest rówa d d d l L(m) d i σ i σ σ l L(m) = = x m = < 0 dm dt dm dt = czyli ˆm zapewia maksimum fukcji L(m) Koleje przykłady wyzaczaia estymatorów metoda ajwiększej wiarogogodości zamieszczoo w pukcie.3. części VI Wybrae twierdzeia wraz z dowodami: Estymator parametru p rozkładu zero-jedykowego. Estymator parametru Θ rozkładu wykładiczego. Estymator parametru λ rozkładu Poissoa. i
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 5..5. Zestawieie estymatorów parametrów rozkładu zmieej losowej i ich własości Tabela 5.. Zestawieie estymatorów Parametr Wartość oczekiwaa m rozkładu ormalego Wariacja σ rozkładu ormalego Odchyleie stadardowe Parametr λ rozkładu Poissoa Parametr p rozkładu zerojedykowego Estymator X = X Własości estymatora Zgody NieobciąŜoy Najefektywiejszy k TAK TAK TAK k= S = ( X -X ) TAK i i= S = X -m 0 Asymptotyczie ieobciąŝoy Brak ocey ( i ) TAK TAK TAK i= Ŝ = ( X -X ) TAK TAK - i i= 0 S, Ŝ, S U = ( Xmax -Xmi ) d X max ajwiększy elemet w próbie X mi ajmiejszy elemet w próbie d współczyik liczbowy, tak dobray, by estymator TAK TAK Asymptotyczie ieobciąŝoe TAK był ieobciąŝoy U = π/ Xk -m TAK TAK X = k= X Asymptotyczie ajefektywiejszy Asymptotyczie ajefektywiejsze DuŜa efektywość dla małych prób Efektywość /(π-) k TAK TAK TAK k= Y /, gdzie Y ozacza liczbę jedyek w próbie TAK TAK TAK Statystyka jest estymatorem asymptotyczie ajefektywiejszym wariacji rozkładu ormalego, ale poiewaŝ statystyka ta ie jest estymatorem ieobciąŝoym, więc ie moŝe być estymatorem ajefektywiejszym i ie moŝa mówić o efektywości tego estymatora. 9
5.3. Estymacja przedziałowa 5.3.. Uwagi wstępe STATYSTYKA MATEMATYCZNA Oszacowaie przedziałowe iezaego parametru polega a wyzaczeiu przedziału ufości. X cecha populacji, Q parametr rozkładu cechy X, - - poziom ufości ( 0< <). Jeśli istieją dwie statystyki * ** * ** U, U takie, Ŝe P(U Q U )=- to przedział losowy * ** <U ; U > (5.) azywamy przedziałem ufości parametru Q a poziomie ufości -. Jeśli a podstawie próby obliczymy wartości przedział * ** u,u statystyk * ** U, U, to otrzymujemy liczbowy * ** < u ; u > (5.) będący wartością (realizacją) przedziału (5.). Parametr Q moŝe aleŝeć do przedziału (5.) lub ie aleŝeć. Jeśli jedak poziom ufości - jest bliski jedości, to bardzo rzadko będziemy otrzymywać liczbowe przedziały ufości (5.) do których parametr Q ie aleŝy. Graice przedziału ufości są zmieymi losowymi. Zatem dla róŝych realizacji próby otrzymujemy a ogół róŝe realizacje przedziałów ufości. Gdybyśmy oszacowaie przedziałowe powtórzyli wiele razy, to częstość realizacji, do których szacoway parametr aleŝy byłaby bliska poziomowi ufości i tak p. jeśli próbę powtórzoo 00 razy i poziom ufości przyjęto 0,99, to częstość tych realizacji, do których parametr aleŝy byłaby bliska 0,99, a więc średio tylko do jedej ze 00 realizacji szacoway parametr ie będzie aleŝał. Błąd bezwzględy. Błąd względy Jeśli realizacja (5.) ma postać <u - ε; u + ε>, to liczbę ε azywamy błędem bezwzględym, zaś ε liczbę δ= błędem względym oszacowaia parametru a poziomie istotości -. u Na poiŝszym rysuku przedstawioo kilka z moŝliwych realizacji przedziałów ufości dla wartości oczekiwaej. m Rys. 5.4. Ilustracja szacowaia m za pomocą przedziałów ufości Niektóre z ich pokrywają prawdziwą wartość parametru m, a iektóre ie. Sumaryczie, tz. odosząc się do wszystkich realizacji przedziałów ufości otrzymywaych tą metodą aleŝy stwierdzić, Ŝe z częstością bliską - pokrywają prawdziwą wartość parametru. RozwaŜa się takŝe jedostroe przedziały ufości postaci (- ; U > lub <U ;- ). 0
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 5.3.. Wyzaczeie przedziału ufości dla wartości oczekiwaej rozkładu ormalego Dla zilustrowaia sposobu postępowaia przy określeiu przedziału ufości wyzaczymy go dla wartości oczekiwaej rozkładu ormalego w dwóch przypadkach: przy zaej i iezaej wariacji. Zaa wariacja. Cecha X ma rozkład ormaly N(m,σ), σ jest zae. Do budowy przedziału ufości a poziomie wybieramy statystykę do oszacowaia wartości oczekiwaej w postaci średiej arytmetyczej próby X, która jak wiadomo (-3.) jest estymatorem ajefektywiejszym. Jak wiadomo 3 σ, średia arytmetycza ma rozkład X : N(m, ) zaleŝy od wartości oczekiwaej m. Stadaryzujemy X, tz. przekształcamy ją w statystykę Statystyka U ma rozkład N(0,) 4. U X = m σ Wyzaczamy przedział liczbowy < u,u > tak aby gdzie u zaleŝy od poziomu ufości -. U X m = σ P[ u u ] (5-3.) Rozwiązujemy ierówość pod zakiem prawdopodobieństwa względem m σ σ u X m u σ σ X u m X + u σ σ X + u m X u σ σ X u m X + u (5-3.3) ZaleŜość (5-3.3 ) określa szukay przedział ufości, spełia o waruek σ σ P(X u m X + u ) = (5-3.4) Dla jego określeia aleŝy jeszcze wyzaczyć u. Uwzględiając (3.6-) i rozkład ormaly U P( u U u ) = P(U u ) P(U u ) = φ(u ) φ( u ) qdzie Φ jest dystrybuatą rozkładu ormalego N(0,). PoiewaŜ Φ( u ) = Φ (u ) - patrz poiŝszy rysuek 3 Podpukt 9.. części VI Wybrae twierdzeia z dowodami 4 Podpukt 0.5.5 części VI Wybrae twierdzeia z dowodami
STATYSTYKA MATEMATYCZNA to Rysuek 5.4a. Wyzaczaie graicy przedziału ufości P( u U u ) = φ(u ) + φ (u ) = φ(u ) Uwzględiając (5-3.) mamy rówaie do wyzaczeia u Zatem u wyzacza się z zaleŝości Uwagi dotyczące przedziału ufości (5.3) φ(u ) =- φ (u ) = (5-3.5). PołoŜeie końców przedziału jest losowe (bo średia z próby ma wartość zaleŝą od realizacji próby).. Długość przedziału jest stała. 3. Długość przedziału zaleŝy od poziomu ufości (bo u zaleŝy od ), im większy poziom ufości, tym dłuŝszy przedział ufości patrz rys. 5.3. 4. Długość przedziału jest odwrotie proporcjoala do pierwiastka liczebości próby, zatem ze wzrostem liczebości próby zwiększa się dokładość oszacowaia, jedak admiere powiększaie próby ie jest korzyste, bowiem powoduje małe zwiększaie się dokładości. 5. Długość przedziału ufości zaleŝy od odchyleia stadardowego σ cechy X. Jeśli X ozacza wyik pomiaru, to σ ozacza dokładość pomiaru, a więc zwiększaie dokładości pomiarów powoduje zmiejszeie błędu oszacowaia. Z powyŝszych uwag wyika, Ŝe potrzeby jest kompromis między zaufaiem do oszacowaia (poziomem ufości), a błędem oszacowaia, bowiem zwiększeie ufości powoduje zwiększeie błędu, zmiejszeie błędu powoduje zmiejszeie ufości oszacowaia. Stosowaie przedziału ufości (5.3) wymaga spełieia załoŝeia, Ŝe odchyleie stadardowe σ jest zae. ZałoŜeie to w zagadieiach praktyczych jest iezmierie rzadko spełioe. Niezaa wariacja Cecha X ma rozkład ormaly N(m,σ), σ jest zae.. Kostrukcja przedziału ufości dla wartości oczekiwaej rozkładu ormalego, gdy σ ie jest zae wymaga iego, iŝ poprzedio przekształceia średiej z próby, miaowicie wykorzystujemy twierdzeie, Ŝe statystyka X -m U = - S ma rozkład Studeta z - stopiami swobody 5. Dalej postępujemy podobie jak poprzedio. 5 Podpukt.. części VI Wybrae twierdzeia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Wyzaczamy liczbę u tak, by co jest rówowaŝe wyraŝeiu P(-u U u )=- P( U u )= Liczbę u spełiającą powyŝszy związek odczytujemy z tablic rozkładu Studeta z - stopiami swobody i poziomu prawdopodobieństwa (pkt 6 części VII Tablice statystycze ) lub zajdujemy ją przy pomocy programu komputerowego. Mamy X -m P(-u - u )=- S Rozwiązując względem m występującą w powyŝszym związku ierówość otrzymujemy przedział ufości us us <X - ;X + > przedział ufości dla wartości oczekiwaej rozkładu ormalego - - us ε= błąd bezwzględy (połowa długości przedziału ufości) - Tym razem ie tylko końce przedziału ufości są losowe, takŝe losowa jest długość przedziału ufości. Próba o duŝej liczości RozwaŜymy jeszcze jedą sytuację. Nie mamy iformacji, Ŝe rozkład cechy jest ormaly, za to wiemy, Ŝe próba jest licza. Wówczas statystyka X ma rozkład w przybliŝeiu ormaly, σ N m, ). Postępując, jak przy kostrukcji przedziału (5.3) i zastępując σ odchyleiem stadardowym z próby ( o ile σ ie jest zae) otrzymujemy przedział ufości us us <X - ;X + > - przedział ufości dla wartości oczekiwaej dowolego rozkładu. Podsumowaie Zalezioe powyŝej trzy przedziały ufości dla wartości oczekiwaej oraz przedziały ufości dla iych parametrów są przedstawioe w tabeli 5.3. Uogóliając powyŝszej przedstawioe postępowaie aleŝy stwierdzić, Ŝe kostrukcja przedziału ufości dla parametru Q polega a:. Wybraiu statystyki o rozkładzie zaleŝym od Q, ajlepiej by statystyka ta była estymatorem ajefektywiejszym tego parametru lub estymatorem o wysokiej efektywości.. Przekształceiu wybraej statystyki w statystykę U wyraŝoą wzorem, w którym występuje Q. Rozkład U powiie być zay i zaleŝeć tylko od Q. 3. Wyzaczeiu przedziału liczbowego <u ;u >, tak by P(u U u )=-. 4. Rozwiązaiu względem Q ierówości u U u. 3
5.3.3. Tabela przedziałów ufości STATYSTYKA MATEMATYCZNA Tabela 5.3. Zestawieie przedziałów ufości Parametr Rozkład cechy Przedział ufości Wyzaczaie liczby u Nr Wartość Normaly σ u σu < X ; X + > Φ( u oczekiwaa N(m,σ), ) = m σ - jest zae Φ -dystrybuata rozkładu N(0,) PU- Wartość Normaly Su Su P( T u ) = oczekiwaa N(m,σ), < X ; X + > T m σ - ie jest zae - zmiea losowa o rozkładzie Studeta z - stopiami swobody PU- Wartość Dowoly Su Su Φ( u oczekiwaa Licza próba < X ; X + > ) = m 00 Φ -dystrybuata N(0,) PU-3 Wariacja σ P(Y u) = S S Normaly N(m,σ) ; PU-4 u u P(Y u ) = Y - ma rozkład χ z stopiami swobody P(Y u) = Odchyleie Normaly S S stadardowe ; N(m,σ), u σ u P(Y u ) = PU-5 Y - ma rozkład χ z stopiami swobody Rozkład zero- W( W) W( W) jedykowy W u ; W + u Φ( u ) = Wskaźik P(X = ) = p, Φ -dystrybuata rozkładu ormalego N(0,) struktury p P(X = 0) = p W - wskaźik struktury w próbie PU-6 W=Y / Y liczba jedyek w próbie licza próba 00 4
Przykład 5.3 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Badao cey drukarek Cao BC50 w 40 wylosowaych puktach sprzedaŝy. Otrzymao, Ŝe średia cea drukarki wyosi 358,37. Zakładając, Ŝe cea drukarki w całej populacji ma rozkład ormaly N(m, σ) a poziomie ufości - = 0,95 wyzaczymy a podstawie 40 elemetowej próby przedział ufości dla średiej cey drukarki przyjmując, Ŝe odchyleie stadardowe populacji jest rówe 0. Rozwiązaie. σ u σ u Zastosujemy przedział ufości PU-: <X- ; X+ >. PoiewaŜ - = 0,95, czyli = 0.05 i = 0.05. Rówaie do wyzaczeia u ma postać Φ(u )=- = 0,975, stąd u =,96, więc błąd σ u 0,96 bezwzględy, czyli połowa długości przedziału ufości ε= = = 6,98. 40 Średia arytmetycza cey jest rówa x = 358,37. Zatem szukaym przedziałem ufości jest przedział <358,37 6,;358,37+6, = <35,7;364,57> Błąd względy δ= ε 00%= 6, 00% =,55%. x 358,37 σ u Długość połowy przedziału ufości rówą ε = zwraca fukcja UFNOŚĆ arkusza Excel a podstawie odchyleia stadardowego σ i liczebości próby. Zwracamy uwagę, Ŝe otrzymay wyik jest idetyczy jak obliczoy powyŝej. 5
Przykład 5.4 STATYSTYKA MATEMATYCZNA Dla daych z przykładu 5.3 obliczymy błędy bezwzględy i względy oszacowaia parametru m a poziomie ufości - = 0,99. Rozwiązaie Mamy Φ(u )=- = 0,995, stąd u =,576, więc błąd bezwzględy, czyli połowa długości σ u 0, 576 przedziału ufości ε = = =8,5, błąd względy δ = ε = 8,5 =,7% 40 x 358,37 Widzimy, Ŝe powiększaie poziomu ufości (zaufaia do otrzymaego oszacowaia) powoduje powiększeie obu błędów bezwzględego i względego. Dlatego w praktyce ie moŝa przyjmować zbyt duŝych poziomów ufości, gdyŝ prowadzi to do duŝych błędów oszacowaia (przedziały ufości mają wtedy duŝą długość). Niektórzy praktycy przyjmują, Ŝe oszacowaie jest: Bardzo dobre, gdy błąd względy jest rówy ajwyŝej %; Dobre, gdy błąd względy jest zawarty między % i 5%; Dostatecze, gdy błąd względy jest zawarty między 5% i 0%; Niedostatecze, gdy błąd względy jest większy od 0%. Przykład 5.5 Na poziomie 0,95 obliczmy przedział ufości dla średiej cey moitorów 7 calowych a podstawie elemetowej próby: 733, 685, 76, 8, 708, 735, 639, 730, 703, 694, 74, 664 zakładając, Ŝe cea ma rozkład ormaly. Rozwiązaie Stosujemy przedział ufości PU- Su Su <X- ; X+ - - > Obliczamy: x = 74,83 oraz s 0 i i = (x 74,83) =43,9 Liczba u spełia związek P( T - u )=, który dla daych zadaia przybiera postać P( T u ) = 0,0. Z tablicy rozkładu Studeta dla stopi swobody i poziomu prawdopodobieństwa 0,05 (pkt 6 części VII Tablice statystycze ) odczytujemy, Ŝe u =,0, więc Su 43,9,0 95, 064 ε= = = =8,66. Zatem przedział ufości jest rówy - 3,37 < 8,6 0,3 ; 8,6 + 0,3 > = < 8,37 ; 8,63 > ŝ u 45,,0 99,87 Długość połowy przedziału ufości rówą ε ' = = = = 8,66 zwraca 3,464 arzędzie Statystyka opisowa modułu Aaliza daych pakietu Excel Koluma Średia 74,8333333 Błąd stadardowy 3,06048 Mediaa 7 Tryb #N/D! Odchyleie stadardowe 45,6460 Wariacja próbki 035,060606 Poziom ufości (95,0%) 8,66574 Zwraca się uwagę, Ŝe otrzymay wyik jest idetyczy jak obliczoy powyŝej. 6
Przykład 5.6 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Jako miarę dokładości przyrządu przyjęto odchyleie stadardowe pomiarów dokoaych tym przyrządem. Zakładamy, Ŝe pomiary pochodzą z populacji ormalej N(m,σ). Dokoao 0 pomiarów i otrzymao wariację z próby 6,5. Na poziomie ufości 0,9 oszacuj przedziałem ufości wariację i odchyleie stadardowe wszystkich moŝliwych pomiarów. Rozwiązaie Dae = 0, s =6,5, - = 0, 9, rozkład cechy populacji N(m, σ). Stosujemy przedziały ufości PU-4 i PU-5 Liczby u i u spełiają związki S u S ; u, S ; u P(Y- u )= S u P(Y- u )=- w których Y - ozacza zmieą losową o rozkładzie χ z - stopiami swobody. 0, P(Y9 u )= =0,05 0, P(Y9 u )=- =0,95 Z tablicy rozkładu χ (pkt 5 części VII Tablice statystycze ) odczytujemy, Ŝe u = 30, u = 0, Przedział ufości dla wariacji 0 6,5 0 6,5 ; =< 4,3;, 9 > 30, 0, Przedział ufości dla odchyleia stadardowego < 4, 3 ;, 9 > =<, ; 3, 6 > Przykład 5.7 Na 400 obrotów atey radarowej obiekt zajdujący się w obszarze obserwacji radaru został wykryty 350 razy. Literą p ozaczamy prawdopodobieństwo wykrycia obiektu przy jedym obrocie atey (iezawodość radaru). Zajdziemy przedział ufości dla p a poziomie ufości 0,95. Rozwiązaie Niech X będzie zmieą losową przyjmującą wartość, gdy w jedym obrocie atey obiekt został wykryty, zaś wartość 0, gdy ie został wykryty. Zmiea losowa X ma rozkład zerojedykowy z parametrem p. Prawdopodobieństwo p oszacujemy przedziałem ufości PU-6 W(-W) W-u ; W+u W(-W) gdzie w jest wskaźikiem struktury w próbie (oszacowaiem wskaźika struktury p w populacji) k w =, k - liczba jedyek w próbie. Dla daych w zadaiu mamy k 350 w = = = 0,875 = 87,5% 400 7
STATYSTYKA MATEMATYCZNA 0,05 Φ(u )=- =- =0,975 u =,96 w(-w) 0,875 0,5 ε = u =,96 =3,% 400 <87,5%-3,% ; 87,5%+3,%>= <84,% ; 90,7%> Odp. Niezawodość radaru z ufością 0,95 jest zawarta między 84,% a 90,7%. 5.3.4. Wyzaczaie wielkości próby Zagadieie Wyzaczyć liczebość próby tak by błąd bezwzględy oszacowaia parametru przedziałem ufości wyosił ε, przy poziomie ufości -. Zasady wyzaczaia wielkości próby podao w poiŝej tabeli. Tabela 5.4. Wyzaczaie liczebości próby przy poziomie ufości - ZałoŜeia Etapy wyzaczaia liczebości próby Nr Cecha X ma rozkład ormaly N(m, σ), σ jest zaa 6 Cecha X ma rozkład ormaly N(m, σ), σ ie jest zaa Rozkład cechy X ie jest zay. Próba jest licza Cecha X ma rozkład zerojedykowy. Próba jest licza. Dokładość oszacowaia dokładością ε 7 ) Wyzaczamy liczbę u : Φ(u )=- σu ) Obliczamy = ε ) Pobieramy próbę o małej liczebości 0 (wstępą próbę) i szacujemy odchyleie stadardowe σ za pomocą odchyleia stadardowego s 0 z tej próby s 0 u ) Obliczamy = + ε 3) Jeśli - 0 > 0, to aleŝy powiększyć próbę o - 0 elemetów. Jeśli 0 0, to poprzestajemy a pobraiu wstępej próby. ) Wyzaczamy liczbę u : Φ(u )=- u ) Obliczamy = k gdzie ε w oszacowaie wskaźika a podstawie wstępej próby, w( w) w 0,5 k = 0, 5 ie mamy Ŝadych iformacji o w 0, jesli wiemy, Ŝe wadliwość ie moŝe przekroczyć 30% LP- LP- LP-3 Uwaga: Przy obliczaiu zawsze przyjmujemy zaokrągleie w górę 6 Patrz przedział ufości PU- 7 Patrz przedział ufości PU-6 8
Przykład 5.8 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE W doświadczeiu chemiczym bada się czas trwaia reakcji chemiczej. Czas te modelujemy zmieą losową X o rozkładzie ormalym N(m, 5 sek). Ile razy aleŝy powtórzyć to doświadczeie, by oszacować przedziałem ufości średi czas m trwaia tej reakcji a poziomie ufości 0,95 tak, by błąd bezwzględy wyosił s? Rozwiązaie Korzystamy z zasady LP- podaej w tabeli 5.3 σ u = ε 0,05 Φ (u ) = = = 0,975 u =,96,,96 5 = 4 Odp. NaleŜy doświadczeie powtórzyć 4 razy. Przykład 5.9 Cecha X populacji ma rozkład ormaly o iezaych parametrach. W celu oszacowaia wartości oczekiwaej przedziałem ufości o długości, a poziomie ufości 0,96, pobrao wstępą 5- elemetową próbę i otrzymao odchyleie stadardowe s 0 =0,8. Jak wielką próbę aleŝy pobrać? Rozwiązaie Korzystamy z zasady LP- podaej w tabeli 5.3 0,04 Φ (u ) = = = 0,98 u =, 05 s 0 u = + ε = 0,8,05 + 0,5 Odp. NaleŜy pobrać próbę elemetową, czyli aleŝy dobrać jeszcze 7 elemetów. Przykład 5.0 Cecha X populacji ma rozkład ormaly N(m, σ), σ ie jest zaa. Jak wielką próbę aleŝy pobrać, by a poziomie ufości 0, 98 oszacować wartość oczekiwaą m z błędem, co ajwyŝej rówym 0,5, gdy a podstawie wstępej próby 50 elemetowej otrzymao odchyleie stadardowe 3,0? Rozwiązaie Korzystamy z zasady LP- podaej w tabeli 5.3 = 0, 98 ε = 0,5 0 = 50 s0 = 3,0 0,04 Φ (u ) = = = 0,98 u =,05 s 0 u = + ε 3,0,05 = + 53 0,5 Odp. NaleŜy wziąć próbę 53 elemetową, aleŝy więc jeszcze dobrać 03 elemety. 9
Przykład 5. STATYSTYKA MATEMATYCZNA Mamy oszacować przedziałem ufości wadliwość p partii towaru a poziomie ufości - = 0,96, z dokładością ε = 0,05. Jak wielka powia być próba? Rozwiązaie 0,04 Φ(u )=- =- =0,98 u =,05 w(-w) = u ε Jeśli ie mamy Ŝadych iformacji o wadliwości w, to w miejsce iloczyu w(-w) podstawiamy ¼ (ajwiększą wartość iloczyu). /4 =,05 4 0,05 Jeśli atomiast wiemy, Ŝe wadliwość ie moŝe przekroczyć 30%, to iloczy w (-w) ie moŝe 0, przekroczyć liczby 0,3 0,7 = 0,, zatem =,05 353 0,05 5.3.5. Wykorzystaie arkusza Excel Lp Zakres aalizy statystyczej Fukcje statystycze Narzędzia statystycze. Estymacja długości połowy przedziału ufości dla wartości oczekiwaej przy zaej wariacji UFNOŚĆ. Estymacja długości połowy przedziału ufości dla wartości oczekiwaej przy iezaej wariacji STATYSTYKA OPISOWA 30
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 6. Wprowadzeie 6... Uwagi wstępe 6. WERYFIKACJA HIPOTEZ Teoria weryfikacji hipotez zajmuje się metodami sprawdzaia hipotez statystyczych. Hipoteza statystycza to kaŝde przypuszczeie dotyczące iezaego rozkładu badaej cechy (cech). Hipoteza dotycząca jedyie wartości parametrów cechy azywa się hipotezą parametryczą, atomiast hipoteza precyzująca, do jakiego typu rozkładów aleŝy rozkład cechy populacji, osi azwę hipotezy ieparametryczej. Przykład 6. Wiemy, Ŝe cecha X populacji ma rozkład N(m, 3). Przypuszczeie, Ŝe wartość oczekiwaa cechy X jest rówa 5 jest hipotezą parametryczą. ZałóŜmy teraz, Ŝe ie mamy Ŝadej iformacji o rozkładzie cechy X populacji. Przypuszczeie rozkład cechy X jest ormaly jest hipotezą ieparametryczą. Test statystyczy jest to metoda weryfikacji (sprawdzaia) hipotez statystyczych, przy czym Test parametryczy jest to test do weryfikacji hipotez parametryczych. Test ieparametryczy jest to test do weryfikacji hipotez ieparametryczych. Zajmiemy się ajpierw hipotezami i testami parametryczymi dla jedej i dwóch prób. Rozpatrzmy cechę X populacji, o rozkładzie zaleŝym od parametru Q Ω, gdzie Ω jest podzbiorem zbioru liczb rzeczywistych, zwaym przestrzeią parametru. O parametrze Q wysuwamy dwie hipotezy: Hipotezę zerową, (główą, sprawdzaą), Ŝe parametr Q ma wartość rówą Q 0 Ω, co zapisujemy H 0 (Q = Q 0 ) i czytamy: hipoteza H zero, Ŝe parametr Q jest rówy Q zero. Hipotezę alteratywą, Ŝe parametr Q przyjmuje dowolą wartość z przestrzei parametru róŝą od Q 0, co zapisujemy H ( Q Ω- Q 0 ) W zagadieiach tu rozwaŝaych hipoteza alteratywa będzie miała jedą z czterech poiŝszych postaci H (Q Q 0 ), H (Q > Q 0 ), H (Q < Q 0 ), H (Q = Q ). (6.) Przy weryfikacji hipotez podejmujemy jedą z dwu decyzji Odrzucić hipotezę zerową i przyjąć alteratywą. Przyjąć hipotezę zerową i odrzucić alteratywą. PoiewaŜ decyzje przy weryfikacji hipotez podejmujemy a podstawie próby, więc decyzja moŝe być błęda mimo iŝ test został wykoay poprawie. Hipoteza zerowa odzwierciedla z reguły pytaie, a które aleŝy uzyskać odpowiedź. Występują rówieŝ przypadki, Ŝe taką rolę spełia hipoteza alteratywa, ale łatwiej jest weryfikować hipotezę zerową. Hipotezę alteratywą ustala się a podstawie przesłaek, jakimi dyspouje się przed pobraiem próby, tz. postać hipotezy alteratywej określoa jest wiedzą o problemie badawczym ie opierającą się o wioski z aalizy prób. Tak więc hipoteza alteratywa wyraŝa skrystalizowae a priori przypuszczeie o treści róŝej od treści hipotezy sprawdzaej. Opis testu parametryczego X - cecha populacji, Q parametr rozkładu cechy X. Wysuwamy hipotezy: zerową H 0 (Q = Q 0 ) i alteratywą H, która ma jedą z postaci (6.). 3
STATYSTYKA MATEMATYCZNA Postępowaie przy weryfikacji powyŝszych hipotez jest astępujące. Wybieramy pewą statystykę U o rozkładzie zaleŝym od parametru Q oraz pewą liczbę z przedziału (0,) i wyzaczamy podzbiór K zbioru liczb rzeczywistych tak by spełioy był waruek P(U K/Q=Q ) = (6.) 0 czyli by prawdopodobieństwo, iŝ statystyka U przyjmie wartość ze zbioru K, przy załoŝeiu, Ŝe prawdziwa jest hipoteza zerowa było rówe.. Pobieramy próbę 8 i obliczamy wartość u statystyki U 3. Podejmujemy decyzje odrzucamy H 0, gdy u K (6.3) przyjmujemy H 0, gdy u K (6.4) Wykorzystywaą statystykę U azywamy sprawdziaem, zbiór K zbiorem krytyczym, a liczbę poziomem istotości. Przy weryfikacji hipotez przyjmuje się mały poziom istotości (bliski 0, ale dodati). Uzasadieie podejmowaych decyzji: Decyzja (6.3): Jeśli hipoteza H 0 (Q = Q 0 ) jest prawdziwa, to prawdopodobieństwo zdarzeia U K jest zgodie z (6.) rówe, a więc tak małe, Ŝe uwaŝamy, iŝ zajście tego zdarzeia jest w praktyce iemoŝliwe. PoiewaŜ jedak to zdarzeie dla pobraej próby zaszło, więc wioskujmy, Ŝe załoŝeie, przy którym prawdopodobieństwo tego zdarzeia zostało obliczoe jest ieprawdziwe. Stąd teŝ odrzucamy H 0. Decyzja (6.4): Jeśli zdarzeie U K, przy załoŝeiu, Ŝe hipoteza H 0 (Q = Q 0 ) jest prawdziwa, ie zaszło, to ie ma powodu, by twierdzić, Ŝe H 0 ie jest prawdziwa, bowiem ie ma ic adzwyczajego w fakcie, Ŝe ie zaszło zdarzeie o małym prawdopodobieństwie. Dlatego hipotezę H 0 przyjmujemy lub ostroŝiej: mówimy, Ŝe ie ma podstaw do odrzuceia tej hipotezy. Przy podejmowaiu decyzji moŝa zawsze popełić jede z dwu błędów Błąd I rodzaju - błąd polegający a odrzuceiu hipotezy zerowej H 0, gdy ta hipoteza jest prawdziwa. Odrzuceie H 0, gdy jest oa prawdziwa moŝa jako zdarzeie losowe zapisać U K/Q=Q 0. Prawdopodobieństwo tego zdarzeia, zgodie ze wzorem (6.) jest rówe poziomowi istotości, zatem prawdopodobieństwo błędu I rodzaju P(U K/Q = Q 0)=. Błąd II rodzaju - błąd polegający a przyjęciu hipotezy zerowej H 0, gdy ta hipoteza jest fałszywa. Przypuśćmy, Ŝe hipoteza alteratywa jest postaci H (Q = Q ). Wtedy błąd II rodzaju: przyjęcie H 0, gdy ta hipoteza jest fałszywa, jako zdarzeie losowe moŝa zapisać U K/Q=Q, a prawdopodobieństwo tego zdarzeia ozaczmy β, zatem prawdopodobieństwo błędu II rodzaju P(U K/Q=Q )=β. Jak widzimy prawdopodobieństwo błędu I rodzaju jest rówe poziomowi istotości, a więc jest zae a podstawie metody weryfikacji, atomiast prawdopodobieństwo błędu II rodzaju wymaga obliczeia, co wcale ie musi być łatwe, dlatego często rezygujemy z jego wyzaczaia. 8 WyróŜia się dwa rodzaje prób: iepowiązae i powiązae. JeŜeli wartości określoej cechy mierzoe są u róŝych elemetów to otrzymywae próby azywamy iepowiązaymi. Z kolei jeŝeli wartości cechy mierzoe sa u tych samych elemetów p. w róŝych mometach czasu to otrzymywae próby azywamy powiązaymi. 3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE W zaleŝości od postaci hipotezy alteratywej przyjmuje się róŝą postać zbioru krytyczego. I tak: Zbiór krytyczy prawostroy jest to zbiór postaci K =< k ; ). Wzór (6.) przybiera teraz postać P(U k /Q=Q )= 0 Zbiór krytyczy lewostroy jest to zbiór postaci K = ( ;k >. Wzór (6.) przybiera teraz postać P(U k /Q=Q 0 )= Jeśli gęstość statystyki U / Q=Q 0 ma wykres symetryczy względem osi O y (rozkład ormaly, rozkład Studeta), to zbiór krytyczy lewostroy moŝa zapisać w postaci K = ( ; k >. Wzór (6.) przybiera teraz postać P(U k Q = Q0 ) = idetyczą jak dla zbioru krytyczego prawostroego. Rys. 6.. Prawostroy zbiór krytyczy Rys. 6.. Lewostroy zbiór krytyczy Zbiór krytyczy dwustroy jest to zbiór postaci K = ( ;k > < k ; ). Zbiór te w przypadku symetryczego względem osi Oy rozkładu statystyki U / Q=Q 0 przyjmuje postać K=(- ;-k> <k; ) W pierwszym przypadku liczby k i k wyzaczamy z relacji P(U k /Q=Q )=/ 0 P(U k /Q = Q 0 )=/ W drugim przypadku liczba k spełia relację P( U k)= Rys. 6.3. Dwustroy zbiór krytyczy Zbiór krytyczy aleŝy wybrać tak, by przy ustaloym prawdopodobieństwie błędu I rodzaju (poziomie istotości), prawdopodobieństwo błędu II rodzaju było ajmiejsze. Jeśli hipoteza alteratywa ma postać H (Q > Q 0 ), to przyjmujemy zbiór krytyczy prawostroy. Jeśli hipoteza alteratywa ma postać H (Q < Q 0 ), to przyjmujemy zbiór krytyczy lewostroy. Jeśli hipoteza alteratywa ma postać H (Q Q 0 ), to przyjmujemy zbiór krytyczy dwustroy. 33
STATYSTYKA MATEMATYCZNA 6... Pzykład kostrukcji testu parametryczego do weryfikacji hipotezy o wartości oczekiwaej Badaa jest cecha X populacji geeralej ma rozkład ormaly N(m,σ), przy czym σ jest zae. O wartości oczekiwaej wysuwamy hipotezy: zerową H 0 (m=m 0 ) alteratywą H (m>m 0 ) a) ZałóŜmy, Ŝe hipoteza zerowa jest prawdziwa i Ŝe przyjęto hipotezę alteratywą postaci H (m>m 0 ). Hipotezy weryfikujemy a podstawie o próbę (x, x,..., x ) przy poziomie 34 istotości. Wtedy róŝica X m0 obliczoa a podstawie próby powia przyjąć wartość bliską zeru, bowiem statystyka X jest estymatorem ajefektywiejszym parametru m. Natomiast, gdy róŝica ta jest duŝa (ze względu a kształt hipotezy alteratywej powia być dodatia), to moŝa sądzić, Ŝe hipoteza zerowa jest fałszywa. Wygodiej jest posługiwać się postacią stadaryzowaą statystyki X m0, czyli statystyką X m0 U = σ / Statystyka U /m = m 0 ma rozkład ormaly N(0,). Mała wartość tej statystyki przemawia za przyjęciem hipotezy zerowej, atomiast duŝa wartość za przyjęciem hipotezy alteratywej. Dlatego zbiór krytyczy przyjmujemy prawostroy (potwierdza się zasada wyboru zbioru krytyczego K = <k ; )) a daym poziomie istotości. Liczba k spełia związek P(U k/m = m 0 ). Stąd Φ(k) =, czyli Φ(k)=-. Liczba k jest liczbą graiczą w tym sesie, Ŝe przyjmujemy, iŝ wartości u statystyki U, obliczoe a podstawie próby są duŝe, gdy u k, atomiast są małe w przeciwym przypadku. Zatem Jeśli u k, czyli u K, to H 0 odrzucamy i przyjmujemy H Jeśli u < k, czyli u K, to H 0 przyjmujmy i odrzucamy H b) ZałóŜmy teraz, Ŝe hipoteza alteratywa ma postać H (m< m 0 ). TakŜe w tym przypadku mała wartość statystyki U przemawia za przyjęciem hipotezy zerowej, atomiast duŝa wartość bezwzględa, ale ujema za przyjęciem hipotezy alteratywej. Dlatego zbiór krytyczy przyjmujemy lewostroy K = (- ; -k> a daym poziomie istotości. Liczba k spełia związek P(U -k/m = m 0)=. Stąd Φ(-k) = -Φ(k) =, czyli Φ(k)=-. c) ZałóŜmy wreszcie, Ŝe hipoteza alteratywa ma postać H (m m 0 ). W tym jak i w poprzedich przypadkach mała wartość statystyki U przemawia za przyjęciem hipotezy zerowej, atomiast wartości o duŝym module (dodatie lub ujeme) za przyjęciem hipotezy alteratywej. Dlatego zbiór krytyczy przyjmujemy dwustroy K=(- ; -k> < k; ) a daym poziomie istotości. Liczba k spełia związek P( U k/m=m 0) =. Stąd [ -Φ(k) ] =, czyli Φ(k)=- Przykład 6. Czas wykoaia detalu modeloway jest zmieą losową o rozkładzie ormalym N(m, mi.). W celu weryfikacji hipotez: zerowej, Ŝe średi czas wykoaia detalu wyosi 3 mi i alteratywej, Ŝe wyosi 4,6 mi., pobrao próbę 9 elemetową, której średia wyiosła 3,4 mi. Zweryfikujemy powyŝsze hipotezy a poziomie istotości 0,05. Rozwiązaie X - zmiea losowa ozaczająca czas wykoaia detalu, Rozkład zmieej losowej X: N(m, mi.) Hipotezy: H 0 (m =3), H (m =4,6) Poziom istotości: = 0,05
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Liczebość próby = 9 Średia z próby x 9 = 3,4 X-m0 Sprawdzia U = σ/. Wartość sprawdziau 3, 4 3,0 u9 = = 0,6 / 9 Zbiór krytyczy prawostroy K = <k; ) Liczba k spełia związek Φ(k) =- = - 0,05 =0,985 k =,7 (a podstawie tablicy pkt 4 części VII Tablice statystycze ).. K = <,7 ; ) u 9 = 0,6 PoiewaŜ u 9 K, więc hipotezę H 0 przyjmujemy. Przy podjęciu tej decyzji moŝa popełić błąd drugiego rodzaju. Obliczymy prawdopodobieństwo tego błędu. X9-3,0 β=p(u K/Q=Q )=P(U 9<,7/m=4,6)=P <,7/m=4,6 = / 9 X9-4,6,6 =P <,7- /m=4,6 =Φ(-0,3)=-Φ(0,3)=0,4 / 9 / 9 Odp. Hipotezę, Ŝe średi czas wykoaia detalu wyosi 3 mi. aleŝy przyjąć. Prawdopodobieństwo, Ŝe powyŝsza decyzja jest błęda wyosi 0,4, a więc jest wysokie, dlatego moŝa polecić podjęcie ostroŝiejszej decyzji: ie ma podstaw do odrzuceia powyŝszej hipotezy. 6..3. Pzykład kostrukcji testu parametryczego do weryfikacji hipotezy o rówości wartości oczekiwaych Zakładamy, Ŝe badae cechy X i Y populacji geeralej są iezaleŝe i mają rozkłady ormale X : N(m, σ ) oraz Y : N(m, σ ), przy czym σ i σ są zae. O wartościach oczekiwaych wysuwamy hipotezy: zerową H 0 (m =m y alteratywą H (m m ) Hipotezy weryfikujemy a podstawie iezaleŝych prób poziomie istotości. Do weryfikacji hipotezy wykorzystujemy średie arytmetycze z prób X = X i = i Y i= (x, x,..., x )i i (y, y,..., y ) a = Y (6.5) które są estymatorami ieobciąŝoymi i ajefektywiejszymi wartości oczekiwaych patrz tabela 5.. Gdyby hipoteza H 0 była prawdziwa, wówczas róŝica pomiędzy średimi arytmetyczymi Y ie powia być zbyt duŝa. Jak wiadomo, średie arytmetycze X i X : N(m, ) Y mają rozkłady σ σ Y : N(m, ) X i 35
STATYSTYKA MATEMATYCZNA Zatem zmiea losowa X Y ma rozkład: czyli zmiea ma rozkład N(0,). σ σ N(m m, + ) (X Y ) (m m ) σ σ + JeŜeli załoŝymy, Ŝe hipoteza H o : m = m jest prawdziwa, to m m = 0 i wobec tego zmiea będzie miała rozkład ormaly N(0,). U, X Y = σ σ + Zajdziemy taką liczbę k, aby przy ustaloym był spełioy waruek P U > = (6-3.4) Jest o rówowaŝy warukowi Ale { } (, k ) {, } P k U k = (6-3.5) P k U k = P(U k ) P((U k ) = φ(k ) φ( k ),,, qdzie Φ jest dystrybuatą rozkładu ormalego N(0,). PoiewaŜ Φ( u ) = u to {, } P k U k = φ(k ) + φ (k ) = φ(k ) Rówaie do wyzaczeia k ma postać φ(k ) =- Zatem u wyzacza się z zaleŝości φ (u ) = Na podstawie u wyzacza się zbiór krytyczy ( ; k ) (k ; ). 36
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 6..4. Uwagi o weryfikacji hipotez parametryczych Uwaga. O związku poziomu istotości z decyzjami JeŜeli odrzuci się hipotezę zerową a daym poziomie istotości, to odrzuci się ją takŝe a kaŝdym poziomie istotości większym od daego. JeŜeli przyjmie się hipotezę zerową a daym poziomie istotości, to przyjmie się ją takŝe a kaŝdym poziomie istotości miejszym od daego. Czytelik jest proszoy o wykoaie ilustracji graficzej powyŝszych twierdzeń. Uwaga. O graiczym poziomie istotości Graiczy poziom istotości (ozaczeie ˆ ) to liczba taka, Ŝe dla wszystkich poziomów istotości ˆ hipotezę zerową odrzucamy atomiast dla wszystkich poziomów istotości < ˆ hipotezę zerową przyjmujemy. ˆ wyzacza się a podstawie rozkładu sprawdziau U, przykładowo dla prawostroego zbioru krytyczego ˆ = P(U ˆ k/q=q 0), gdzie ˆk jest otrzymaą wartością sprawdziau. Uwaga 3. O odrzucaiu hipotezy zerowej Jeśli w wyiku testowaia hipotez otrzymaliśmy decyzję o odrzuceiu hipotezy zerowej a daym poziomie istotości i poziom graiczy jest miejszy od daego, to moŝa ją takŝe odrzucić a poziomie rówym poziomowi graiczemu, więc moŝa zmiejszyć prawdopodobieństwo popełieia błędu II rodzaju, zatem utwierdzić się bardziej w przekoaiu, Ŝe podjęliśmy właściwą decyzję. Przykład 6.3 Cecha X populacji ma rozkład ormaly N(m,). O parametrze m wysuięto hipotezy H 0 (m = 3) i H (m = ), które postaowioo zweryfikować a poziomie istotości 0,05. W tym celu pobrao próbę 6 elemetową i otrzymao średią z próby rówą,5. Zweryfikujemy te hipotezy i obliczymy poziom graiczy. Rozwiązaie X m 0 Sprawdzia U =. Wartość sprawdziau u 6 =,5 3,0 = 3 σ / / 6 Zbiór krytyczy prawostroy K =( - ; -k> Liczba k spełia związek Φ(k) =- = - 0,05 =0,975 k =,96. K = (- ; -,96> PoiewaŜ u 6 K, więc hipotezę H 0 odrzucamy, a poziomie istotości 0,05. Poziom graiczy ˆ spełia zaleŝośćφ(-3)=- ˆ =0,99865 ˆ 0,0035 Wiosek. Hipotezę H 0 aleŝy odrzucić a poziomie istotości rówym 0,0035 (a więc bardzo małym), co utwierdza as w podjętej wcześiej decyzji - decyzja a podstawie poziomu istotości oraz poziomu graiczego ˆ, poiewaŝ ˆ 0,0035<.0,05=. Uwaga 4. O hipotezie alteratywej NaleŜy podkreślić, Ŝe decyzja o wysuięciu hipotezy alteratywej w postaci H (Q>Q 0 ) lub w postaci H (Q<Q 0 ) ie moŝe być podjęta a podstawie wyików próby, powia atomiast wyikać z aalizy rozwaŝaego zjawiska i stosowaych testów. Jeśli więc ie mamy dostateczie mocych argumetów za przyjęciem hipotezy alteratywej w jedej z dwu powyŝszych postaci, to zaleca się przyjąć postać H (Q Q 0 ). Kosekwecją tego faktu jest stosowaie zbioru krytyczego dwustroego, atomiast przy poprzedich hipotezach alteratywych stosuje się zbiory krytycze jedostroe. NaleŜy jeszcze podkreślić, Ŝe przy stosowaiu testów opartych a zbiorach krytyczych dwustroych (testów dwustroych) otrzymuje się większe prawdopodobieństwo błędu II rodzaju, iŝ przy stosowaiu testów jedostroych. 37
STATYSTYKA MATEMATYCZNA Uwaga 5. O aalogii przedziału ufości oraz zbioru krytyczego W tym miejscu zwraca się uwagę a aalogię przedziału ufości budowaego w ramach estymacji parametryczej oraz zbioru krytyczego określaego przy kostrukcji testu parametryczego do weryfikacji hipotez o parametrach rozkładu. PokaŜemy to a przykładzie cechy X o iezaej wartości oczekiwaej, która ma rozkład N(m, σ) ze zaym σ. Rys. 6.4. Związek pomiędzy przedziałem ufości a zbiorem krytyczym 6.. Testy parametrycze dla jedej próby 6... Testy do weryfikacji hipotezy o wartości oczekiwaej ZałoŜymy, Ŝe badaa cecha X populacji geeralej ma rozkład ormaly N(m, σ), przy czym σ jest zae. W podpukcie 6..3. pokazaliśmy w jaki sposób kostruuje się test do weryfikacji hipotez: zerowej H 0 (m=m 0 ) alteratywej H (m>m 0 ) Tak samo postępuje się przy kostrukcji testu dla iych hipotez alteratywych: H (m< m 0 ) lub H (m m 0 ). W aalogiczy sposób kostruuje się testy w dwóch iych przypadkach: σ iezae σ iezae, próba licza Zostały oe przedstawioe w tabeli 6.. 38
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Tabela 6.. Zestawieie testów do weryfikacji hipotezy o wartości oczekiwaej a podstawie próby o liczości Nr testu TP- TP- TP-3 Rozkład cechy N(m,σ) N(m,σ) Dowoly Waruki stosowaia σ zae σ iezae σ iezae, próba licza Hipoteza zerowa H 0(m=m 0) H 0(m=m 0) H 0(m=m 0) Sprawdzia X m 0 σ / X m 0 S / X-m 0 S/ Rozkład sprawdziau pod warukiem m=m 0 N(0,) Studeta z - stopiami swobody N(0,) Wariat testu Hipoteza alteratywa Zbiór krytyczy TP- TP- TP-3 A H (m>m 0) < k ; ) Φ( k) = B H (m<m 0 ) ( ; k > Φ( k) = k) = P( T k) = P( T Φ( k) = C H (m m 0) ( ; k > < k ; ) Φ (k) = k P( T ) = Φ (k) = 39
STATYSTYKA MATEMATYCZNA Przykład 6.4 Czasy wykoaia pewego złoŝoego zestawieia (w sekudach) w zaleŝości od daych były astępujące: 3 46 5 49 6 33 4 56 55 37 Zweryfikować a poziomie = 0,05 hipoezę H 0 (m=40) względem H (m>40) przy załoŝeiu, Ŝe rozpatryway czas ma rozkład N(m, σ), w dwóch przypadkach: a) σ = b) σ iezae Rozwiązaie a) σ = Wykorzystujemy test TP-. Na podstawie próby obliczamy średi czas wykoaia zestawieia x =45,4. X m0 45,4 40 5, 4 5,4 Wartość sprawdziau U = jest rówa u0 = = = =, 43 σ / 0 / 0 / 3,63 3,794 Z tablic rozkładu ormalego wyzaczamy wartość k dla której Φ (k) = = 0,95 otrzymując k=,64. Zatem zbiór krytyczy ma postaćk= <,64 ; ). Wartość sprawdziau ie aleŝy do zbioru krytyczego, czyli hipotezę zerową przyjmujemy. Wysuięte hipotezy moŝa zweryfikować korzystając z fukcji statystyczej TEST.Z arkusza kalkulacyjego Excel, podając wartość oczekiwaą 40 z H 0 w polu X oraz odchyleie stadardowe w polu Sigma. Wyik formuły to krytyczy poziom istotości ˆ 0,0774 przy weryfikacji hipotezy dla prawostroego zbioru krytyczego. PoiewaŜ ˆ 0,0774 > 0.05 = więc H 0 przyjmujemy 9. MoŜemy a zakończeie przekoać się, Ŝe rzeczywiście ˆ 0,0774 jest krytyczym poziomem istotości. Wstawiając wartość sprawdziau u 0 =,43 do fukcji ROZKLAD.NORMALNY.S otrzymujemy 0,96. 9 Patrz uwaga w pukcie 6..4. 40
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Otrzymay wyik 0,96 = - ˆ = - 0,0774. b) σ iezae. Zamiast testu TP- wykorzystamy test TP-, a uwzględiając postać hipotezy alteratywej jego wersję TP-C. Na podstawie próby obliczamy: średi czas wykoaia zestawieia x =45,4. 0 wariację z próby s = (xi x) = 6,4, czyli 0 i = X m0 Zatem wartość sprawdziau U = S / s = s = 6, 4 =, 4 45, 4 40 45, 4 40 u0 = = =,44,4 / 9 3,75 Z tablic rozkładu Studeta P( T 9 k) = 0, otrzymujemy k=,833. Uwzględiając postać H zbiór krytyczy jest astępujący K= < k ; ) = <,833 ; ). Wartość sprawdziau ie aleŝy do zbioru krytyczego, czyli ie ma podstaw do odrzuceia hipotezy zerowej. Wysuięte hipotezy moŝa zweryfikować korzystając z fukcji statystyczej TEST.Z arkusza kalkulacyjego Excel, podając wartość oczekiwaą 40 z H 0 w pole X oraz ie wypełiając pola Sigma. 4
STATYSTYKA MATEMATYCZNA Wyik formuły jest rówy krytyczemu poziomowi istotości ˆ = 0,0747 dla prawostroego zbioru krytyczego krytyczego. PoiewaŜ ˆ 0,0747 > 0.05 = więc H 0 przyjmujemy. MoŜemy a zakończeie sprawdzić, czy rzeczywiście ˆ 0,07467 jest krytyczym poziomem istotości. Wstawiając wartość sprawdziau u 0 =,44 do fukcji ROZKLAD.T otrzymujemy 0,098. Otrzymay wyik 0,098 jest róŝy od ˆ = 0,0747. Spowodowae jest to tym, Ŝe w arkuszu Excel wykorzystao rozkład ormaly, co ozacza, Ŝe zastosoway został test dla prób o duŝych liczościach, mimo Ŝe liczość próby wyosiła zaledwie 0. Dowodem tego jest wstawieie wartości sprawdziau u 0 =,44 do fukcji ROZKLAD.NORMALNY.S 4
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Otrzymay wyik 0,95 jest rówy w przybliŝeiu - ˆ = 0,0747 6... Testy do weryfikacji hipotezy o wariacji i odchyleiu stadardowym Cecha X populacji ma rozkład ormaly N(m, σ), parametr m moŝe być zay lub iezay. Hipoteza zerowa H 0 (σ = σ 0 ) Tabela 6.. Testy do weryfikacji hipotezy o wariacji i odchyleiu stadardowym Hipoteza alteratywa Sprawdzia U Rozkład sprawdziau Zbiór krytyczy K Wyzaczaie liczby k Nr testu H (σ>σ 0) S < k ; ) P(Y- k )= TP-4A H (σ<σ 0) < 0 ; k > P(Y- k )=- σ TP-4B o H (σ σ 0) Rozkład χ z - stopiami <0 ;k > P(Y- k )=/ TP-4C swobody < k ; ) P(Y k )=-/ Y - zmiea losowa o rozkładzie χ z - stopiami swobody - Uwaga Hipoteza H 0 (σ = σ 0 ), jest rówowaŝa hipotezie H 0 (σ = σ 0 ), hipoteza H (σ>σ 0) jest rówowaŝa hipotezie H (σ > σ 0 ), itd., zatem hipoteza o odchyleiu stadardowym jest rówowaŝa odpowiediej hipotezie o wariacji, co wykorzystuje się przy weryfikacji hipotez o tym parametrze. Przykład 6.4 Popyt a pewie towar modelujemy zmieą losową X o rozkładzie ormalym. W próbie 0 elemetowej otrzymaliśmy średią 50 kg i odchyleie stadardowe 50 kg. a) Na poziomie istotości 0,0 sprawdzimy hipotezy H 0 (m = 350 kg) i H (m 350 kg) b) Na poziomie istotości 0,05 sprawdzimy hipotezy H 0 (σ =45) i H (σ >45) Rozwiązaie Cecha populacji X - popyt a towar. Rozkład cechy X: ormaly N(m, σ), parametry m i σ ie są zae. Liczebość próby = 0. Charakterystyki próby x 0 =50 kg, s 0 =50 kg X m0 50 350 a) Stosujemy test TP C. Sprawdzia U = jego wartość u0 = = 6 S/ 50 / 9 Zbiór krytyczy K= ( ; k > < k ; ) 43
STATYSTYKA MATEMATYCZNA Wyzaczaie liczby k P( T k) =. P( T 9 k) = 0, 0 k =,8 (a podstawie tablicy rozkładu Studeta pkt 6 części VII Tablice statystycze ) K = ( ;,8 > <,8, ; ) u0 K H0 odrzucamy u0 = 6 b) Stosujemy test TP 4A. Sprawdzia S 0 50 U =, jego wartość u0 = =,34 σ 45 o Zbiór krytyczy K = (k; ). Wyzaczaie liczbę k P(Y- k) = P(Y9 k) = 0, 05 k = 6,99 (a podstawie tablicy rozkładu χ pkt 5 części VII Tablice statystycze ). Przykład 6.5 K = (6,99; ) u0 K H0 przyjmujemy u0 =,34 Dokoao 0 pomiarów atęŝeia prądu. Otrzymao z tej próby wariację,3. Zakładamy, Ŝe atęŝeie to jest zmieą losową o rozkładzie ormalym. Na poziomie istotości 0,04 sprawdź hipotezy: zerową, Ŝe atęŝeie prądu ma wariację rówą i alteratywą, Ŝe atęŝeie prądu ma wariację róŝą od. Rozwiązaie X atęŝeie prądu Rozkład cechy X: ormaly N(m, σ). Liczebość próby =0. Wariacja z próby Hipotezy H 0 (σ =,0) H (σ,0) Poziom istotości =0,04 S Stosujemy test TP-4C. Sprawdzia U = σ, jego wartość u 0 = 0,3 =,5,0 Zbiór krytyczy K= < 0 ;k > < k ; ) P(Y- k ) = / P(Y9 k ) = 0,0 k = 9,679 P(Y- k ) = / P(Y9 k ) = 0,98 k =,53 K = < 0 ;,53 > < 9,679 ; ) u 0 =,5 PoiewaŜ u0 K, więc hipotezę H 0 przyjmujemy. 6..3. Testy do weryfikacji hipotezy o wskaźiku struktury o 44 s 0 =,3 Cecha X populacji ma rozkład zerojedykowy P(X=)=p, P(X=0)=-p, p (0;) Hipoteza zerowa H0 (p = p0 ). Próba licza 00 Tabela 6.3. Test do weryfikacji hipotezy o wskaźiku struktury U Hipoteza Sprawdzia Wyzaczaie Nr Zbiór krytyczy K alteratywa Rozkład sprawdziau liczby k testu H (p > p 0) W-p < k ; ) ) Φ( k) = TP-5A 0 H (p < p 0) p ( ;k > ( ;k) Φ( k) = 0(-p 0 ) TP-5B Asymptotyczie H (p p 0) ( ; k > < k ; ) Φ (k) = ormaly N(0,) TP-5C W wskaźik struktury w próbie, w= r/, r liczba jedyek w próbie. Φ dystrybuata rozkładu ormalego N(0,)
Przykład 6.6 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE W próbie 000 osób uprawioych do głosowaia, 30 osób oświadczyło, Ŝe będzie głosować w wyborach a pewą partię. Czy otrzymay wyik jest sprzeczy z przypuszczeiem, Ŝe a tą partię moŝe głosować 35% wyborców? Sprawdzimy odpowiedie hipotezy a poziomie istotości 0,0. Rozwiązaie X zmiea losowa przyjmująca wartość, gdy wyborca będzie głosował a daą partię, wartość 0, gdy ie będzie głosował a tą partię. Zmiea losowa X a rozkład zerojedykowy P(X = ) = p, P(X = 0) = p Liczebość próby =000. Liczba jedyek w próbie r = 30 r 30 Wskaźik struktury w próbie w = = = 0, 3 000 Poziom istotości = 0,0 Hipotezy H 0 (p=0,35), H (p < 0,35) Stosujemy test TP-5B W p0 0,3 0,35 Sprawdzia U =. Wartość sprawdziau u = 000 = p ( p ) 0,35 0,65 0 Zbiór krytyczy K = ( ; k > Φ( k) = = 0,98 k =,05 K = ( ;, 05 > u = - 0 PoiewaŜ u 0 K, więc hipotezę H 0 przyjmujemy. Otrzymay wyik ie przeczy przypuszczeiu, Ŝe a partię moŝe głosować 35% wyborców. 6.3. Testy parametrycze dla dwóch prób 6.3.. Testy do porówywaia wartości oczekiwaych dla prób iezaleŝych ZałoŜymy, Ŝe badaa cecha X populacji geeralej ma rozkład ormaly N(m, σ), przy czym σ jest zae. W podpukcie 6..3. pokazaliśmy w jaki sposób kostruuje się test do weryfikacji hipotez: zerowej H 0 (m =m ) alteratywej H (m m ) Tak samo postępuje się przy kostrukcji testu dla iych hipotez alteratywych: H (m >m ) lub H (m < m ) W aalogiczy sposób kostruuje się testy w trzech iych przypadkach: σ σ są rówe i iezae σ σ ie są rówe i iezae próby są licze,, 00 Wszystkie rozpatrzoe dotąd testy zostały przedstawioe w tabeli 6.4. 45
Nr testu Hipoteza alteratywa STATYSTYKA MATEMATYCZNA Tabela 6.4. Zestawieie testów do porówywaia dwóch wartości oczekiwaych a podstawie iezaleŝych prób o liczościach, Nr testu TP-6 TP-7 TP-8 TP-9 Nazwa testu test Studeta test Studeta dla iezaych wariacji Rozkłady cech N(m,σ ), N(m,σ ) N(m,σ), N(m,σ) Dowoly Dowoly Waruki stosowaia σ i σ są zae σ iezae σ σ są iezae próby są licze, 00 Hipoteza zerowa H 0 (m = m ) H 0 (m = m ) H 0 (m = m ) H 0 (m = m ) Sprawdzia X-Y X-Y X Y X Y σ σ S +S + S + S S + S + + - Rozkład sprawdziau A H (m >m ) < k ; ) B H (m <m ) ( ; k > N(0,) Studeta z + - stopiami swobody Studeta - patrz poiŝej asymptotyczie N(0,) Zbiór krytyczy TP-6 TP-7 TP-8 TP-9 Φ( k) = P( T + k) = P( Tdef k) = (a + b) df = a b + s gdzie: a = s b = Φ( k) = P( T C H (m m ) ( ; k > < k ; ) Φ (k) = P( T k) + = def k) = def jak powyŝej Φ (k) = 46
Przykład 6.7 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE W celu określeia struktury zatrudieia w pewej firmie obliczoo liczbę zatrudioych kobiet i męŝczyz w kolejych 8 miesiącach otrzymując astępujące wyiki: MęŜczyźi 95 87 75 46 94 9 94 06 Kobiety 9 33 90 0 4 47 5 97 Chcemy sprawdzić hipotezę o rówości wartości oczekiwaych ilości zatrudioych kobiet i męŝczyz, względem hipotezy alteratywej bedącej jej zaprzeczeiem, przy załoŝeiu, Ŝe liczby zatrudioych mają rozkłady ormaly o takich samych wariacjach 0 oraz przyjmując poziom istotości 0,05. Rozwiązaie Na podstawie prób obliczamy średie i wariacje z próby MęŜczyŜi Kobiety Średia z próby x = x 86, 0 6,875 i = i Wariacja z próby s (x x) 94,5 30,3594 = i i = Zatem wartość sprawdziau dla testu TP-7 U, = X-Y S + S + + - jest rówa x-y x-y 30,875 30,875 30,875 u8,8 = = = = = = 3, 3464 8s 94,5+30, 36 85,7 9, 6 +8s 6 s +s 4 64 7 7 Graice zbioru krytyczego wyzaczamy z zalezości P( T + k) =, która po uwzględieiu daych ma postać P ( T4 k) = 0, 05, zatem k=,45. Zbiór krytyczy jest więc rówy K= ( ; k > < k ; ) = ( ;,45 > <,45 ; ) Wartość sprawdziau aleŝy więc do zbioru krytyczego, więc odrzucamy hipotezę H 0 a korzyść statystyki H. Ozacza to, Ŝe średie liczby zatrudioych kobiet i męŝczyz ie są rówe. Wysuięte hipotezy moŝa zweryfikować korzystając z arkusza kalkulacyjego Excel a dwa sposoby, co zilustrowao poiŝej.. Wykorzystujemy fukcję statystyczą TEST.T Po wpisaiu daych w komórki a:p i a:p oraz ustalając parametry testu: Typ = - test dla rówych wariacji i Ślady = - test dwustroy. 0 Rówość wariacji w populacji aleŝy sprawdzić testem do porówywaia wariacji, otrzymay wyik potwierdzi lub ie słuszość przyjętego załoŝeia test opisao w pukcie 6.3.3. 47
STATYSTYKA MATEMATYCZNA Wyik formuły 0,0048 jest rówy jest rówy graiczemu poziomowi istotości ˆ, wyzaczoemu a podstawie wartości wskaźika obliczoego bez wykorzystaia programu komputerowego, co zilustrowao poiŝej. PoiewaŜ ˆ 0,0048 < 0,05 = hipotezę zerową aleŝy odrzucić. Patrz uwaga w pukcie 6..4. 48
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE. Wykorzystujemy arzędzie pakietu Aaliza daych: Test t: z dwiema próbami zakładający rówe wariacje wpisując wcześiej dae w komórki a:p i a:p. Test t: z dwiema próbami zakładający rówe wariacje Kometarz Zmiea Zmiea Średia 86 6,875 Wariacja 336,5749 344,4074 Obserwacje 8 8 Wariacja sumarycza 340,4907 RóŜica średich wg hipotezy 0 df 4 t Stat -3,346448 Sprawdzia P(T<=t) jedostroy 0,0039888 Graiczy poziom istotości Test T jedostroy,7630 Graica zbioru krytyczego P(T<=t) dwustroy 0,00479775 Graiczy poziom istotości Test t dwustroy,4478668 Graica zbioru krytyczego Za pomocą otrzymaej tabelki weryfikujemy wysuięte hipotezy a dwa sposoby, pamiętając, Ŝe hipoteza alteratywa jest zaprzeczeiem hipotezy zerowej: W oparciu o zbiór krytyczy. PoiewaŜ t Stat=-3,346448 K = ( ;,45 > <,45 ; ) więc odrzucamy hipotezę H 0 a korzyść hipotezy H. W oparciu o graiczy poziom istotości PoiewaŜ ˆ =0,00479775 < 0,05 = hipotezę zerową aleŝy odrzucić a korzyść hipotezy Ho. Na zakończeie zwracamy uwagę, Ŝe otrzymaliśmy taką samą wartość sprawdziau t Stat -3,346 i graicę zbioru krytyczego,4 jakie otrzymao wcześiej bez programu komputerowego oraz taką samą wartość krytyczego poziomu istotości P(T<=t) dwustroy 0,0048, jaką otrzymao z wykorzystaiem fukcji statystyczej TEST.T. 49
Przykład 6.8 STATYSTYKA MATEMATYCZNA Porówywao czas rozwiązywaia pewego testu przez człoków dwóch zespołów aalityków (w miutach). Z 88 9 87 78 79 75 77 78 85 90 Z 90 79 85 86 83 84 79 80 90 Chcemy sprawdzić hipotezę o rówości średiego czasu rozwiązywaiu testu w obu zespołach, względem hipotezy alteratywej bedącej jej zaprzeczeiem, przy załoŝeiu, Ŝe czasy rozwiązywaia testu mają rozkłady ormale z róŝymi wariacjami oraz przyjmując poziom istotości 0,05. Rozwiązaie Na podstawie prób obliczamy: Średia z próby x = x x = 8, 9 y = 84, 0 i = i X Y Wariacja z próby s (x x) = i i = s = 34, 09 s = 6,0 Zgodie z załoŝeiem o ierówości wariacji stosujemy TP-8 Wartość sprawdziau jest rówa U = X Y, S S + 8,9 84, 0,,, u = = = = = 0, 457 34, 09 6 3.788 + 5, 788, 406 + 9 8 Sprawdzia ma rozkład Studeta z liczbą stopi swobody rówą df = (a + b) s gdzie: a = a b i s b = + s Dla daych z przykładu 34, 09 a = = = 3,79 i 9 Zatem liczba stopi swobody czyli przyjmujemy liczbę stopi swobody rówą 6. s 6 b = = =,0 8 (3,79 +,0) 5,79 33,5 df = = = = 5,96 3,79,0, 6 + 0,5, + 9 8 Z tablic rozkładu Studeta wyzaczamy liczbę k dla której P( Tdf k) = otrzymując k=,. Co moŝa sprawdzić testem do porówywaia wariacji patrz przykład 6.0 50
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Czyli zbiór krytyczy ma postać: K=(- ; -,746> <,746 ; ). PoiewaŜ u K H 0 przyjmujemy. Wysuięte hipotezy moŝa zweryfikować korzystając z arkusza kalkulacyjego Excel a dwa sposoby, co ilustrują poiŝsze rysuki. Wykorzystując fukcję statystyczą TEST.T po wpisaiu daych w komórki a:p i a:p oraz ustalając parametry testu: Typ = 3 - test dla róŝych wariacji i Ślady = - test dwustroy. Wyik formuły 0,653 jest rówy jest rówy graiczemu poziomowi istotości ˆ, wyzaczoemu a podstawie wartości wskaźika obliczoego bez wykorzystaia programu komputerowego, co zilustrowao poiŝej. 5
STATYSTYKA MATEMATYCZNA PoiewaŜ ˆ =0,653 > 0,05 = hipotezę zerową H 0 przyjmujemy 3.. Wykorzystując arzędzie pakietu Aaliza daych: Test t: z dwiema próbami zakładający ierówe wariacje wpisując wcześiej dae w komórki a:a0 i g:g9. Otrzymae wyiki są astępujące: Test t: z dwiema próbami zakładający ierówe wariacje Kometarz Zmiea Zmiea Średia 8,9 84 Wariacja 37,87777778 8 Obserwacje 0 9 RóŜica średich wg hipotezy 0 df 6 t Stat -0,45735 Sprawdzia P(T<=t) jedostroy 0,3685607 Graiczy poziom istotości Test T jedostroy,745883669 Graica zbioru krytyczego P(T<=t) dwustroy 0,653653 Graiczy poziom istotości Test t dwustroy,990585 Graica zbioru krytyczego Za pomocą otrzymaej tabelki weryfikujemy wysuięte a dwa sposoby, pamiętając, Ŝe hipoteza alteratywa jest zaprzeczeiem hipotezy zerowej: W oparciu o zbiór krytyczy. PoiewaŜ t Stat=--0,45735 K = ( ;, > <, ; ) więc hipotezę H 0 przyjmujemy. W oparciu o graiczy poziom istotości PoiewaŜ ˆ =0,653653 > 0,05 = hipotezę zerową Ho przyjmujemy. Na zakończeie zwracamy uwagę, Ŝe otrzymaliśmy taką samą wartość sprawdziau t Stat -0,457 i graice zbioru krytyczego, jakie wcześiej bez programu komputerowego oraz taką samą wartość krytyczego poziomu istotości P(T<=t) dwustroy 0,653, jaką otrzymao z wykorzystaiem fukcji statystyczej TEST.T. 3 Patrz uwaga w pukcie 6..4. 5
Przykład 6.9 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Badao dwa typy samochodów ze względu a maksymalą prędkość. W 00 pomiarach maksymalej prędkości I typu otrzymao średią maksymalą prędkość 05,4 km/h i odchyleie stadardowe 4,5 km/h, atomiast w 44 pomiarach maksymalej prędkości II typu samochodów otrzymao średią maksymalą prędkość 07,3 km/h i odchyleie stadardowe 6,8 km/h. Czy moŝa twierdzić, Ŝe średia maksymala prędkość dla obu typów samochodów jest jedakowa, czy teŝ aleŝy przyjąć, iŝ dla typu I jest miejsza iŝ dla II typu? Sprawdź odpowiedie hipotezy a poziomie istotości 0,0. Rozwiązaie X maksymala prędkość I typu samochodów. Y - maksymala prędkość II typu samochodów. Rozkłady obu cech ie są zae. X Y Liczebości prób = 00 = 44 Średie z prób x = 05, 4 y = 07, 3 Odchyleia stadardowe z prób s = 4,5 s = 6,8 Poziom istotości = 0,0 Wartości oczekiwae m = EX m = EY Hipotezy: H 0 (m = m ), H (m < m ) Z uwagi a duŝą liczebość prób stosujemy test TP-9. X Y 05,4 07,3 Sprawdzia U=. Wartość sprawdziau u = =, 63 S S + 4,5 6,8 + 00 44 Zbiór krytyczy K = ( ; k >, gdzie Φ( k) = =0,99 k =,33 K = ( ;, 33 > u = -,63 PoiewaŜ u K, więc hipotezę H 0 odrzucamy i przyjmujemy hipotezę alteratywą, Ŝe średia maksymala prędkość jest miejsza dla samochodów typu I. Przy podjęciu takiej decyzji zagraŝa popełieie błędu I rodzaju, którego prawdopodobieństwo =0,0 jest jak widać małe. Graiczy poziom istotości ˆ = Φ (u) = Φ(, 63) = Φ (, 63) = 0, 004 i jest zaczie miejszy od, co utwierdza as jeszcze bardziej o słuszości podjętej decyzji. 6.3.. Testy do porówywaia wartości oczekiwaych próby zaleŝe Z populacji losujmy elemetów i mierzymy wartości cechy X w dwóch mometach (p. wartość ciśieia tęticzego przed podaiem leku i w godzię po podaiu leku). Otrzymujemy dwie próby elemetowe dla dwóch cech: cechy X wartość badaej cechy w momecie początkowym i cechy X wartość badaej cechy w momecie końcowym. Cechy te ie muszą być iezaleŝe, zatem próby są powiązae. Aby sprawdzić hipotezę, Ŝe wartości oczekiwae obu cech są rówe, aleŝy sprawdzić hipotezę, Ŝe wartość oczekiwaa zmieej losowej Y = X - X jest rówa zeru a podstawie próby, której wartościami są róŝice wartości prób dla obu cech. Zakładamy, Ŝe cecha Y ma rozkład ormaly, co moŝa sprawdzić przy pomocy odpowiediego testu (patrz rozdział o testach ieparametryczych). Wtedy rozwaŝae poiŝej testy są szczególym przypadkiem testów TP - 4, 5, 6 (dla m 0=0). Hipoteza zerowa H 0 (m = m ). 53
STATYSTYKA MATEMATYCZNA Tabela 6..6 Testy do porówywaia wartości oczekiwaych prób powiązaych, rozkład ormaly Hipoteza Sprawdzia U Nr Zbiór krytyczy K Wyzaczaie liczby k alteratywa Rozkład sprawdziau testu H (m >m ) Y (k ; ) P( T k) = TP-0A -. H (m <m ) S ( ; k) P( T k) = TP-0B Y H (m m ) Rozkład Studeta z ( ; k) stopiami swobody ( k ; ) P( T k) = TP-0C T - - zmiea losowa o rozkładzie Studeta z - stopiami swobody. Opisay powyŝej test osi azwę test Studeta dla prób powiązaych. Przykład 6.0 W pewej firmie iformatyczej przed wprowadzeiem owej techologii projektowaia oprogramowaia sprawdzoo jej skuteczość przez porówaie czasów projektowaia róŝorodych modułow z wykorzystaiem dotychczasowej i owej techologii. Sprawdzeia tego dokoao a podstawie próby 6-elemetowej. Elemety tej próby określoe w miutach podao poiŝej. X czas projektowaia modułu z wykorzystaiem dotychczasowej techologii, a X czas projektowaia modułu z wykorzystaiem owej tetechologii. X 405 5 540 00 00 30 00 65 90 06 8 489 590 30 995 75 X 334 50 50 95 30 055 00 85 9 4 440 60 08 880 5 Rozwiązaie Przyjmując załoŝeie, Ŝe czasy projektowaia modułów podelgaja rozkładom ormalym będziemy weryfikować hipotezę zerową, Ŝe owa techologia ie zmieia czasu projektowaia wobec hipotezy alteratywej, Ŝe go skraca. Wysuwamy hipotezy H 0 (m = m ), H (m > m ), które zweryfikujemy a poziomie istotości 0,05. Zastosujemy test Studeta dla prób powiązaych TP-0B. Y Sprawdzia: U =, gdzie Y jest średią Y = X X, rozkład sprawdziau U / m = m SY jest rozkładem Studeta z - stopiami swobody Na podstawie próby otrzymujemy, Ŝe y= 40,69 s =493,59. PoiewaŜ =6 zatem y 40, 6875 u6 = = 6 = 0,847 3,87 = 3,5 s 49,94 y Dla określeia zbioru krytyczego K= ( ; k > wyzaczamy liczbę k: P( T - k) = P( T 5 k) = 0, k =, 753 wykorzystao tablice rozkładu Studeta dla 5 stopi swobody i prawdopodobieństwa 0. (fukcja dotyczy rozkładu dwustroego, a am potrzeby jest zbiór jedostroy). Zatem zbiór krytyczy K= ( ;, 753 > PoiewaŜ u6 K, więc hipotezę zerową odrzucamy, co ozacza, Ŝe owa techologia skraca czas projektowaia modułów. Wysuięte hipotezy moŝa zweryfikować korzystając z arkusza kalkulacyjego Excel a dwa sposoby.. Wykorzystując fukcję statystyczą TEST.T po wpisaiu daych w komórki a:p i a:p oraz ustalając parametry testu: Typ = - test dla prób powiązaych (test sparoway) i Ślady = - test jedostroy. y 54
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Wyik formuły 0,0033 jest rówy jest rówy graiczemu poziomowi istotości ˆ, wyzaczoemu a podstawie wartości wskaźika obliczoego bez wykorzystaia programu komputerowego, co zilustrowao poiŝej. PoiewaŜ ˆ =0,0033 < 0,05 = hipotezę zerową H 0 odrzucamy 4. 4 Patrz uwaga w pukcie 6..4. 55
STATYSTYKA MATEMATYCZNA. Wykorzystując arzędzie pakietu Aaliza daych: Test t: par skojarzoych z dwiema próbami dla średiej wpisując wcześiej dae w komórki a:a6 i b:b6. Otrzymae wyiki były astępujące: Zmiea Zmiea Kometarz Średia 35,375 3,6875 Wariacja 8367,767 97734,365 Obserwacje 6 6 Korelacja Pearsoa 0,99489 RóŜica średich wg hipotezy 0 df 5 t Stat -3,55688486 Sprawdzia P(T<=t) jedostroy 0,0036497 Graiczy poziom istotości Test T jedostroy,75305035 Graica zbioru krytyczego P(T<=t) dwustroy 0,00659939 Graiczy poziom istotości Test T dwustroy,3449536 Graica zbioru krytyczego Za pomocą otrzymaej tabelki weryfikujemy wysuięte hipotezy a dwa sposoby, pamiętając, Ŝe hipoteza alteratywa jest jest jedostroa: W oparciu o zbiór krytyczy. PoiewaŜ t Stat=- 3,55688486 K = ( ;,75> więc hipotezę H 0 odrzucamy. W oparciu o graiczy poziom istotości PoiewaŜ ˆ =0,0036497 < 0,05 = hipotezę zerową Ho odrzucamy. Na zakończeie zwracamy uwagę, Ŝe otrzymaliśmy taką samą wartość sprawdziau t Stat 3,5 i graicę zbioru krytyczego,75 jakie otrzymao wcześiej bez programu komputerowego oraz taką samą wartość krytyczego poziomu istotości P(T<=t) jedostroy 0,003, jaką otrzymao z wykorzystaiem fukcji statystyczej TEST.T 56
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 6.3.3. Testy do porówywaia wariacji Badae są dwie populacje: pierwsza ze względu a cechę X, druga ze względu a cechę Y. Zakładamy, Ŝe cechy te są iezaleŝe o rozkładach ormalych odpowiedio N(m,σ ), N(m,σ ). σ = σ Hipoteza zerowa H 0 ( ) H (σ >σ ) Ŝ U, = Ŝ Tabela 6.7. Testy do porówywaia wariacji, N(m,σ ) N(m,σ ) Hipoteza Sprawdzia U Wyzaczaie liczby Zbiór krytyczy K Nr testu alteratywa Rozkład sprawdziau k i k < k ; ) P(F k ) = TP-A H (σ <σ ) (0 ; k > P(F k ) = TP-B H (σ σ ) Rozkład Sedecora z parą ( -, ) stopi swobody. (0 ; k > < k ; ) F - zmiea losowa o rozkładzie Sedecora z parą ( -, ) stopi swobody. Przykład 6. P(F k ) = / P(F k ) = / TP-C Porówywao czas rozwiązywaia pewego testu przez człoków dwóch zespołów aalityków (w miutach). Z 88 9 87 78 79 75 77 78 85 90 Z 90 79 85 86 83 84 79 80 90 Chcemy sprawdzić hipotezę o rówości wariacji przy załoŝeiu, Ŝe czasy rozwiązywaia testu mają rozkłady ormale i przyjmując poziom istotości 0,05. Rozwiązaie Sprawdzimy hipotezy Średie z prób x = 8, 7 y = 84, 0 Z Wariacje z prób s = 34, 09 a) H0 ( σ = σ ) H ( σ > σ ) Z s = 6,0 34,09 Do weryfikacji hipotez stosujemy test TP-A., wartość sprawdziau u,0 = =,306 6,0 Zbiór krytyczy K = < k ; ), przy czym P(F k ) =, gdzie F to zmiea losowa o rozkładzie Sedecora z parą ( -, -) stopi swobody, w rozwiązywaym przykładzie z parą (9, 8) stopi swobody. Zatem P(F k ) = 0, 05 k = 3,39, czyli K =< 3,39 ; ). PoiewaŜ u =,306 K =< 3,3 ; ), więc hipotezę H 0, Ŝe wariacje (a takŝe odchyleia,0 stadardowe) są sobie rówe przyjmujemy. Wysuięte hipotezy moŝa zweryfikować korzystając z arkusza kalkulacyjego Excel a dwa sposoby, co ilustrują poiŝsze rysuki. Wykorzystując fukcję statystyczą TEST.F po wpisaiu daych w komórki a:j i a3:i3. 57
STATYSTYKA MATEMATYCZNA Wyik formuły 0,3086 jest rówy jest rówy graiczemu poziomowi istotości ˆ, wyzaczoemu a podstawie wartości wskaźika obliczoego bez wykorzystaia programu komputerowego, co zilustrowao poiŝej. Otrzymao dwa razy miejszy wyik, poiewaŝ w fukcji TEST.F przyjęty jest dwustroy zbiór krytyczy. W przypadku testu jedostroego ˆ =0,50 > 0,05 = więc hipotezę zerową H 0 przyjmujemy.. Wykorzystując arzędzie pakietu Aaliza daych: Test F: z dwiema próbami dla wariacji wpisując wcześiej dae w komórki a:p i a:p. 58
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Otrzymae wyiki są astępujące: Test F: z dwiema próbami dla wariacji Kometarz Zmiea Zmiea Średia 8,9 84 Wariacja 37,877778 8 Obserwacje 0 9 df 9 8 F,043 Sprawdzia P(F<=f) jedostroy 0,5408 Graiczy poziom istotości Test F jedostroy 3,38830 Graica zbioru krytyczego Za pomocą otrzymaej tabelki weryfikujemy wysuięte hipotezy a dwa sposoby, pamiętając, Ŝe hipoteza alteratywa jest jest jedostroa: W oparciu o zbiór krytyczy. PoiewaŜ t Stat=,043 K = < 3,39; ) więc hipotezę H 0 przyjmujemy. W oparciu o graiczy poziom istotości PoiewaŜ ˆ =0,5408 > 0,05 = hipotezę zerową Ho przyjmujemy. Na zakończeie zwraca się uwagę, Ŝe otrzymaliśmy taką samą wartość sprawdziau F,, taką samą wartość krytyczego poziomu istotości P(T<=t) jedostroy 0,5 oraz graicę zbioru krytyczego Test F jedostroy 3,39 jakie otrzymao wcześiej bez programu komputerowego. 6.3.4. Testy do porówywaia wskaźików struktury Badae są dwie cechy X i Y róŝych populacji o rozkładach zerojedykowych, P(X = ) = p, P(X = 0) = p, P(Y = ) = p, P(Y = 0) = p, Cechy X i Y są zmieymi losowymi iezaleŝymi. Z populacji, której badaa jest cecha X pobrao próbę elemetową, atomiast z drugiej populacji pobrao próbę elemetową. Obie próby są licze, 00. Hipoteza zerowa: (p p ) H0 = 59
STATYSTYKA MATEMATYCZNA Tabela 6.8. Testy do porówywaia wskaźików struktury, próby licze Hipoteza Sprawdzia U Wyzaczaie Zbiór krytyczy K Nr testu alteratywa Rozkład sprawdziau liczby k H (p >p ) W W < k ; ) Φ( k ) = TP-A H (p <p ) + W( W) ( ; k > Φ( k) = TP-B ( ; k > H (p p ) Rozkład asymptotyczie Φ (k) = TP-C < k; ) ormaly N(0,) W, W wskaźiki struktury z obu prób, w = r /, w = r /, r, r - liczby jedyek w próbach o liczebościach i r + r w = + Φ dystrybuata rozkładu ormalego N(0,). Przykład 6. Porówywao wadliwość dwu partii towaru. Z pierwszej partii pobrao próbę 00 elemetową i zaotowao w iej 0 sztuk wadliwych. Z drugiej partii pobrao próbę 50 elemetową. Było w iej sztuk wadliwych. Czy wadliwości obu partii są takie same, czy teŝ aleŝy przyjąć, Ŝe wadliwość pierwszej partii jest miejsza iŝ drugiej? Sprawdź odpowiedie hipotezy a poziomie istotości 0,06. Rozwiązaie X zmiea losowa przyjmująca wartość, gdy z pierwszej partii wybrao sztukę wadliwą lub wartość 0, gdy wybrao sztukę dobrą. Y zmiea losowa przyjmująca wartość, gdy z drugiej partii wybrao sztukę wadliwą lub wartość 0, gdy wybrao sztukę dobrą. Zmiee losowe X i Y są iezaleŝe i mają rozkłady zerojedykowe z parametrami odpowiedio p, p Wskaźiki struktury p i p są wadliwościami partii pierwszej i drugiej. P(X ) = p, P(X = 0) = p, P(Y=)=p, P(Y=0)=-p. = Liczebości prób =00 =50. Liczby sztuk wadliwych w próbach r =0 r =. Hipotezy H 0 (p = p ), H (p < p ). Poziom istotości = 0,06 Stosujmy test TP-35. Wadliwości w próbach (wskaźiki struktury) r 0 r r + r 0 + w = = = 0,05, w = = = 0, 08 w = = = = 0, 063 00 50 + 00 + 50 350 W W Sprawdzia U = + W( W) Wartość sprawdziau w w 0,05 0,08 u = = + 00 + 50 w( w) 0,063 0,93 00 50 =,4 Zbiór krytyczy K = ( ; k > Φ( k) = = 0,94 k =, 55 K = (- ; -,55> PoiewaŜ u 0 K, więc hipotezę H 0 przyjmujemy. MoŜa twierdzić, Ŝe wadliwości obu partii są sobie rówe. 60
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Uwagi: W przypadku koieczości zweryfikowaia hipotez dotyczących wskaźików struktury przy próbach iepowiązaych o małych liczebosciach aleŝy zastosować test dokłady Fishera 5 przy próbach powiązaych aleŝy zastosować test Mc Nemary 6. 6.4. Testy ieparametrycze dla jedej próby 6.4.. Ocea losowości próby Istote zaczeie ma sprawdzeie, czy próba jest losowa, bowiem losowość jest podstawowym załoŝeiem zdecydowaej większości metod estymacji i testów statystyczych. Wysuwamy hipotezy H 0 ( Pobraa próba jest losowa) H (Pobraa próba ie jest losowa) Hipotezy te weryfikujemy przy pomocy testu serii.. Wyzaczamy mediaę z próby i trasformujemy próbę wg zasady: - jeśli elemet próby ma wartość miejszą od mediay, to przyporządkowujemy mu liczbę 0, - jeśli elemet próby ma wartość większą od mediay, to przyporządkowujemy mu liczbę, - jeśli elemet próby ma wartość rówą mediaie, to odrzucamy go z próby.. Sprawdzia: statystyka U ozaczająca liczbę serii w trasformowaej próbie. 3. Rozkład sprawdziau zaleŝy od liczebości 0 oraz zer lub jedyek w trasformowaej próbie i jest stablicoway (pkt 8 części VII Tablice statystycze ). Z tablic tych moŝa odczytać liczbę u taką, Ŝe P(U u ) =. 4. Zbiór krytyczy dwustroy K = (0; k > (k ; ) Liczby k i k wyzaczamy z tablicy rozkładu ilości serii P(U k ) = / P(U > k ) = / 5. Obliczamy a podstawie próby wartość u statystyki U, czyli obliczamy liczbę serii w próbie trasformowaej. 6. Podejmujemy decyzje - jeśli u K, to H 0 przyjmujemy, - jeśli u K, to H 0 ie przyjmujemy. Uzasadieie Jeśli hipoteza zerowa jest prawdziwa, to w trasformowaej próbie powia być umiarkowaa liczba serii. Gdyby bowiem serii było mało p. byłyby tylko dwie serie, to ozaczałoby, Ŝe w próbie ajpierw kolejo występują elemety o wartościach miejszych od mediay, a astępie kolejo elemety większe od mediay ( lub a odwrót). Próba taka z oczywistego powodu ie byłaby losowa. Gdyby serii było duŝo p. tyle ile jest elemetów próby, to ozaczałoby, Ŝe a przemia w próbie występują elemety większe i miejsze od mediay. Taką próbę teŝ byłoby trudo uzać za losową. Zatem duŝa i mała liczba serii w próbie trasformowaej przemawia za odrzuceiem hipotezy zerowej, atomiast umiarkowaa liczba serii przemawia za przyjęciem tej hipotezy. Dlatego zbiór krytyczy przyjmujemy dwustroy. Przykład 7. W celu zbadaia struktury wieku pracowików duŝej firmy pobrao próbę 6 pracowików i zbadao ich wiek (liczbę lat ukończoych). Otrzymao astępującą próbę. Czy próba ta jest losowa? 38 34 30 4 7 38 4 0 3 8 4 8 40 3 43 5 Zostaie opisay w II części podręczika 6 Zostaie opisay w II części podręczika 6
STATYSTYKA MATEMATYCZNA Rozwiązaie. Sortujemy dae iemalejąco 8 0 3 7 8 30 3 34 38 38 40 4 4 4 43 Mediaa wieku jest rówa 3+ 34 me = = 3,5 PoiŜej przedstawioo poszczególe elemety próby przed i po trasformacji 38 34 30 4 7 38 4 0 3 8 4 8 40 3 43 0 0 0 0 0 0 0 0. Sprawdzia: statystyka U ozaczająca liczbę serii w trasformowaej próbie. 3. Poziom istotości = 0,05 4. Zbiór krytyczy dwustroy K = (0; k > (k ; ) Liczby k i k wyzaczmy z tablicy rozkładu ilości serii (pkt 8 części VII Tablice statystycze ) P(U k )=0,05/ =0,05 P(U >k )=-/ =0,975 dla 0 = = 8 (liczby zer i jedyek w próbie traspoowaej) mamy k = 4, k =3 Zatem K = (0; 4> <3 ; ) 5. Liczba serii w próbie traspoowaej u = 6. PoiewaŜ u K, to hipotezę zerową H 0, Ŝe próba jest losowa przyjmujemy. Uwaga Jeśli próba jest licza, to statystka U licza serii w traspoowaej próbie ma rozkład asymptotyczie ormaly o parametrach 6.4.. Test zgodości chi kwadrat m= +, σ= ( -) (-) 0 0 0 Daa jest dystrybuata F(x). Hipoteza zerowa H 0 (Cecha X populacji ma rozkład określoy dystrybuatą F(x)) Hipoteza alteratywa H (Cecha X populacji ie ma rozkładu określoego dystrybuatą F(x)). Weryfikacja powyŝszych hipotez za pomocą tzw. testu χ przebiega astępująco:. Pobieramy liczą próbę ( 80). Prezetujemy ją w szeregu rozdzielczym przedziałowym w r klasach, przy czym: Pierwsza i ostatia klasa szeregu rozdzielczego powiy mieć postać A = (- ; a ), A r = <a r ; ) i do kaŝdej z ich powio aleŝeć co ajmiej 5 elemetów próby. Do pozostałych klas powio aleŝeć co ajmiej 0 elemetów próby. Klas ie moŝe być miej iŝ 4.. Obliczamy a podstawie próby ocey parametrów wchodzących w skład dystrybuaty F(x) uzyskae metodą ajwiększej wiarygodości. 3. Przyjmujemy, Ŝe hipoteza H 0 jest prawdziwa tz., Ŝe rozkład cechy X jest określoy dystrybuatą F(x), przy czym parametry dystrybuaty są rówe oceom uzyskaym w pukcie. 4. Dla kaŝdego przedziału klasowego A i = <a i ; a i+ ) obliczamy prawdopodobieństwa p i=p(x A i )=P(a i X<a i+)=f(a i+)-f(a i) dla i =,..., r 6
5. Obliczamy PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE gdzie i jest liczebością klasy A i. u = r (i-p i) p i= i 6. Wyzaczamy zbiór krytyczy prawostroy K = <k; ), k wyzaczamy z tablicy rozkładu χ z r-s-stopiami swobody i dla prawdopodobieństwa rówemu poziomowi istotości pkt 5 części VII Tablice statystycze, s jest liczbą parametrów szacowaych a podstawie próby metodą ajwiększej wiarygodości. 7. Podejmujemy decyzję: odrzucamy hipotezę H 0, gdy u K przyjmujemy hipotezę H 0, gdy u K Test χ opiera się a twierdzeiu: Statystyka r (Ni -p i ) U = i= pi gdzie: N i - zmiea losowa ozaczająca liczebość klasy A i, której wartością jest liczbą u określoa w pukcie 5 ma dla liczej próby rozkład w przybliŝeiu χ z r-s- stopiami swobody, gdzie s jest liczbą parametrów szacowaych a podstawie próby metodą ajwiększej wiarygodości. Uzasadieie postępowaia i - liczba elemetów próby aleŝących do klasy A i (liczebość empirycza klasy A i ) p i - oczekiwaa liczba elemetów aleŝących do klasy A i, przy załoŝeiu prawdziwości hipotezy zerowej (liczebość teoretycza klasy A i ). Jeśli hipoteza H 0 jest prawdziwa, to róŝica i - p i powia być mała dla i =,..., r, zatem liczba u powia być takŝe mała. Dlatego zbiór krytyczy przyjmujemy prawostroy K = <k; ). Jeśli u K tz. u k, to uzajemy, Ŝe u jest duŝe i H 0 odrzucamy, w przeciwym przypadku H 0 przyjmujemy. Przykład 7.3 Za pomocą arkusza kalkulacyjego Exel wygeerowao 0 liczb losowych z rozkładu jedostajego z przedziału (0 ; ). Otrzymao astępujące liczby, po uporządkowaiu ich iemalejąco (kolumami). 0,00 0,090 0,88 0,97 0,385 0,47 0,587 0,70 0,89 0,9 0,003 0,090 0,89 0,30 0,387 0,473 0,600 0,7 0,830 0,97 0,006 0,095 0,7 0,37 0,393 0,480 0,605 0,74 0,85 0,97 0,07 0,5 0,7 0,33 0,395 0,483 0,60 0,76 0,855 0,944 0,0 0,36 0,36 0,33 0,403 0,489 0,60 0,747 0,864 0,946 0,036 0,4 0,5 0,333 0,407 0,490 0,6 0,759 0,867 0,96 0,046 0,48 0,53 0,34 0,4 0,496 0,633 0,770 0,870 0,967 0,053 0,54 0,54 0,349 0,4 0,5 0,638 0,776 0,885 0,983 0,055 0,57 0,56 0,356 0,45 0,56 0,655 0,807 0,899 0,989 0,06 0,63 0,6 0,360 0,46 0,537 0,66 0,80 0,90 0,996 0,064 0,66 0,65 0,369 0,459 0,540 0,663 0,85 0,98 0,998 0,079 0,76 0,86 0,38 0,47 0,54 0,667 0,87 0,9 0,998 Sprawdzimy, przy pomocy testu chi kwadrat, a poziomie istotości 0,05, czy rzeczywiście pochodzą z tego rozkładu. 63
STATYSTYKA MATEMATYCZNA Rozwiązaie Cecha X liczba losowa Wysuwamy hipotezy H 0 (Cecha X ma rozkład jedostajy w przedziale ( 0;)) 7 H (Cecha X ie ma rozkładu jedostajego). Prezetujemy dae w szeregu rozdzielczym przedziałowym w 0 klasach A i i (- ; 0,) 5 <0, ; 0,) <0, ; 0,3) <0,3 ; 0,4) 5 <0,4 ; 0,5) 5 <0,5 ; 0,6) 6 <0,6 ; 0,7) <0,7 ; 0,8) 8 <0,8 ; 0,9) 3 <0,9 ; ) 5 Razem 0. Nie ma parametrów wchodzących w skład dystrybuaty rozkładu jedostajego w przedziale (0;) (patrz gęstość (7.)). 3. Przyjmujemy, Ŝe hipoteza H 0 jest prawdziwa. 4. PoiewaŜ gęstość jest stała więc pi = cost = 0, oraz p i = 5. A i i p i p i (i p i) pi (- ; 0,) 5 0, 0,75 <0, ; 0,) 0, 0,08 <0, ; 0,3) 0, 0,08 <0,3 ; 0,4) 5 0, 0,75 <0,4 ; 0,5) 5 0, 0,75 <0,5 ; 0,6) 6 0, 3,00 <0,6 ; 0,7) 0, 0,08 <0,7 ; 0,8) 8 0,,33 <0,8 ; 0,9) 3 0, 0,08 <0,9 ; ) 5 0, 0,75 Razem 0,0 0 u =7,95 6. Wyzaczamy zbiór krytyczy prawostroy K = <k; ). Liczbę k wyzaczamy z tablicy rozkładu chi kwadrat z r s = 0 0 = 9 stopiami swobody i poziomu istotości 0,05. Otrzymujemy k =6,96, zatem K =<6,06; ). 7. u K H0 przyjmujemy. 7 tz. jej gęstość wyraŝa się wzorem dla x (0,) f (x) = 0 dla x ( 0,) 64 (7.)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 6.4.3. Ocea ormalości rozkładu Posiadaie iformacji, Ŝe rozkład cechy populacji jest ormaly ma podstawowe zaczeie w statystyce, bowiem przy tym załoŝeiu prawdziwa jest przewaŝająca liczba twierdzeń, teoria statystyki jest ajprostsza i do zastosowań praktyczych ie potrzeba zwykle pobierać liczych prób. Podamy wersję testu zgodości χ dostosowaą do sprawdzaia hipotezy, Ŝe cecha populacji ma rozkład ormaly. Stosujemy go, gdy próba jest licza ( 80) 8, Hipoteza zerowa H 0 (Cecha X populacji ma rozkład ormaly). Hipoteza alteratywa H (Cecha X populacji ie ma rozkładu ormalego). Weryfikacja powyŝszych hipotez za pomocą testu χ przebiega astępująco:. Pobieramy liczą próbę ( 80). Prezetujemy ją w szeregu rozdzielczym klasowym w r klasach.. Obliczamy: x - średią z próby i s - odchyleie stadardowe z próby według wzorów r r % i i % i i i i= i= x= x, s= (x -x) 3. Przyjmujemy, Ŝe cecha X ma rozkład ormaly N( x, s). x~ - środek klasy A i 4. Dla kaŝdego przedziału klasowego Ai =< a i;a i+ ) obliczamy prawdopodobieństwo ai-x X-x ai+-x ai+-x ai -x p i =P(X A i )=P(a i X<a i+)=p( < )=Φ( )-Φ( ) s s s s s r (i-p i) 5. Obliczamy u =, gdzie i jest liczebością klasy A i. p i= i 6. Wyzaczamy zbiór krytyczy prawostroy K =< k; ), gdzie k wyzaczamy z tablicy rozkładu χ dla r 3 stopiami swobody i dla prawdopodobieństwa (rówemu poziomowi istotości) pkt 5 części VII Tablice statystycze. 7. Podejmujemy decyzję: odrzucamy hipotezę H 0, gdy u K przyjmujemy hipotezę H 0, gdy u K Przykład 7.4 Badao wyagrodzeie (w zł) pracowików pewego przedsiębiorstwa (cecha X populacji). Z grupy pracowików pobrao próbę 00 elemetową. Otrzymae wyiki prezetowae są w poiŝszym szeregu rozdzielczym przedziałowym Nr klasy i Wyagrodzeie <a i, a i+ ) <600 ; 800) <800 ; 000) 0 3 <000 ; 00) 0 4 <00 ; 400) 30 5 <400 ; 600) 56 6 <600 ; 800) 4 7 <800 ; 000) 8 <000 ; 00) 3 9 <00 ; 400) 5 0 <400 ;600) Suma 00 Liczebość i 8 W przypadku koieczości zweryfikowaia hipotez o podlegaiu cechy rozkładowi ormalemu w oparciu o próbę o małej liczebosci aleŝy zastosować test Shapiro-Wilka. Zostaie o opisay w drugiej części podręczika 65
STATYSTYKA MATEMATYCZNA Na poziomie istotości = 0,05 sprawdzimy hipotezy: H 0 (Cecha X populacji ma rozkład ormaly) i H (Cecha X populacji ie ma rozkładu ormalego). Obliczeia x i s Środek Wyagrodzeie Liczebość klasy <a i ; a i+ ) i i i x~ i ) <600 ; 800) 700 400 400 <800 ; 000) 0 900 9000 4096000 3 <000 ; 00) 0 00 000 387000 4 <00 ; 400) 30 300 39000 78000 5 <400 ; 600) 56 500 84000 89600 6 <600 ; 800) 4 700 7400 07500 7 <800 ; 000) 900 39900 7600 8 <000 ; 00) 3 00 7300 4076800 9 <00 ; 400) 5 300 500 888000 0 <400 ;600) 500 500 9600 Suma 00 308000 880000 Nr klasy i 308000 x = = 540 [zł], 00 Obliczeia u 00 66 x~ i i (x ~ x 880000 s = = 4400 [zł], s = 4400 = 338, [zł] 00 PoiewaŜ do kaŝdej ze skrajych klas powio aleŝeć co ajmiej 5 elemetów łączymy w jedą klasę klasy pierwszą i drugą daego szeregu rozdzielczego - otrzymujemy pierwszą klasę owego szeregu, którą ze względu a wymagaia, jaką postać ma mieć ta klasa zapisujemy (- ;000). Z tych samych powodów łączymy klasy 8, 9 i 0 w jedą klasę i zapisujmy ją w postaci <000; ). ai-x ai+-x a -x i <a i ; a i+ ) a i a i+ Φ i i s s s Φ a -x ( i+ i -p ) p i p i s pi ( ; 000) 000 -,60 0 0,055 0,0557,03 0,084659 <000 ; 00) 0 000 00 -,60 -,0 0,0557 0,574 0,00 0,44 0,009499 3 <00 ; 400) 30 00 400 -,0-0,4 0,5737 0,3395 0,808 36,4,30557 4 <400 ; 600) 56 400 600-0,4 0,8 0,33945 0,5704 0,3095 46,9,0834 5 <600 ; 800) 4 600 800 0,8 0,77 0,5704 0,779 0,0858 4,7 0,00933 6 <800 ; 000) 800 000 0,77,36 0,77899 0,93 0,34 6,8,64544 7 <000 ; ) 9 000,36 0,93 0,08689 7,38 0,59 Suma,00000 00,00 4,73 u 00 = 4,73. Wyzaczamy zbiór krytyczy prawostroy K = <k; ). Liczbę k odczytujemy z tablicy rozkładu χ dla r 3 = 7 3 = 4 stopi swobody i prawdopodobieństwa = 0,05. (pkt 5 części VII Tablice statystycze ). Mamy k = 9,488, więc K = <9,488; ). PoiewaŜ u 00 = 4,73 K, więc hipotezę, Ŝe cecha ma rozkład ormaly przyjmujemy. Hipotezę tę moŝa dopiero odrzucić a poziomie istotości 0,3, gdyŝ zbiór krytyczy K = <4,73; ) otrzymujemy właśie a tym poziomie. W powyŝszym przykładzie dae statystycze były pogrupowae w przedziałach o jedakowej długości (z wyjątkiem pierwszego i ostatiego). Test chi kwadrat moŝa stosować takŝe przy iych sposobach grupowaia daych, a przykład przy grupowaiu w przedziały o jedakowych prawdopodobieństwach teoretyczych p i przyjęcia wartości z tych przedziałów. Prawdopodobieństwa te są obliczae, przy załoŝeiu, iŝ prawdziwa jest hipoteza, Ŝe rozkład cechy jest ormaly. Przy tej metodzie grupowaia liczebości p i są jedakowe dla kaŝdego przedziału.
Przykład 7. 5 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Padao zuŝycie surowca a jedostkę produkcji (Cecha X populacji). Pobrao próbę 00 elemetową i otrzymao wyiki: 35 7 9 3 49 69 5 4 3 3 74 9 58 68 34 6 50 38 43 96 35 67 73 8 38 6 7 30 8 46 5 63 43 54 50 4 8 34 5 5 40 63 89 45 66 5 63 84 5 34 8 49 60 74 9 34 45 67 65 48 76 84 38 49 60 48 3 69 54 38 68 4 3 55 4 63 47 8 80 80 0 3 90 57 40 77 56 5 49 53 48 63 5 69 3 40 4 Sprawdzimy hipotezy H 0 (X ma rozkład ormaly), H (X ie ma rozkładu ormalego), stosując test chi-kwadrat, dla daych pogrupowaych w przedziały o rówych liczebościach teoretyczych. Rozwiązaie Pogrupujemy dae w r = 0 klasach, a więc teoretycza liczebość klasy wyosi takŝe 0, gdyŝ próba liczy 00 elemetów, prawdopodobieństwo przyjęcia wartości przez X z daej klasy wyosi p = 0,. Na podstawie próby wyzaczamy x = 50 i s =0,5. Zakładamy, Ŝe cecha X ma rozkład ormaly X 50 N(50;0,5), czyli zmiea losowa Y = ma rozkład ormaly N(0, ). 0,5 Przedziały (klasy) wyzaczamy astępująco: A i = <a i- ;a i ) Prawy koiec a i klasy o umerze i spełia związek P(X < a i ) = ip = 0,i, zatem X-50 ai -50 ai-50 P(X<a i )=P < =Φ =0,i 0,5 0,5 0,5 Z tablicy dystrybuaty rozkładu ormalego (pkt 4 części VII Tablice statystycze ) wyzaczamy ai-50 liczbę k i, taką, Ŝe =ki 0,5 a stąd a i =50 + 0,5k i dla i =,,..., 9 Prawe końce klas zostały wyzaczoe, a to wystarcza do wyzaczeia klas, gdyŝ lewy koiec klasy jest rówy prawemu poprzediej klasy, zaś koiec lewy pierwszej klasy jest rówy -. Sortujemy próbę iemalejącą i wyzaczamy liczebości klas. 5 6 7 8 0 3 3 4 4 5 5 8 8 9 30 3 3 3 3 3 34 34 34 34 35 35 38 38 38 38 40 40 40 4 4 4 43 43 45 45 46 47 48 48 48 49 49 49 49 50 50 5 5 5 5 5 53 54 54 55 56 57 58 60 60 6 63 63 63 63 63 65 66 67 67 68 68 69 69 69 7 73 74 74 76 77 80 80 8 8 84 84 89 90 9 9 96 Dalej postępujemy jak w poprzedim przykładzie: obliczmy wartość sprawdziau, który dla daych r w tym przykładzie przyjmuje postać u = (i -0). 0 i= 67
Otrzymae wyiki przedstawia poiŝsza tabela. STATYSTYKA MATEMATYCZNA i 0,i k i a i =0,5k i +50 KlasyA i Liczebości i ( i -0) 0, -,8 3,7 (- ; 3,7) 0 0 0, -0,84 3,7 <3,7 ; 3,7) 3 9 3 0,3-0,5 39, <3,7 ; 39,) 0 0 4 0,4-0,5 44,8 <39, ; 44,8) 8 4 5 0,5 0,00 50,0 <44,8 ; 50,0) 6 0,6 0,5 55, <50,0 ; 55,) 7 0,7 0,5 60,8 <55, ; 60,8) 5 5 8 0,8 0,84 67,5 <60,8 ; 67,5) 0 0 9 0,9,8 76,3 <67,5 ; 76,3) 0 0 0,0 <76,3 ; ) 4 Suma 00 44 44 Zatem wartość sprawdziau u = = 4,4. Zbiór krytyczy prawostroy K = <k ; ). Liczbę k 0 wyzaczmy z tablicy rozkładu chi kwadrat dla r-3 = 0-3 = 7 stopi swobody i poziomu istotości 0,05. Otrzymujemy k = 4,067, zatem K = <4,067 ; ). PoiewaŜ u K więc przyjmujemy hipotezę, cecha X ma rozkład ormaly. Wyzaczymy jeszcze graiczy poziom istotości, ˆ P(Y7 4,4) 7 ma rozkład chi kwadrat z 7 stopiami swobody. Na podstawie programu komputerowego otrzymujemy ˆ = 0, 73 (tablice są za mało dokłade), co świadczy o bardzo dobrej zgodości rozkładu w próbie z rozkładem hipotetyczym. 6.4.4. Test iezaleŝości chi kwadrat Populację badamy ze względu a dwie cechy X i Y, czyli ze względu a zmieą losową dwuwymiarową (X, Y). Ze względu a cechę X populację dzielimy a r grup, zaś ze względu a cechę Y a s grup, zatem ze względu a obie cechy a r s grup. Cechy X i Y wyraŝoe są więc w skali omialej. Zmiea losowa dwuwymiarowa jest skokowa o fukcji prawdopodobieństwa P(X = i, Y = j) = p ij dla i =,,, r; j =,,, s. Podamy teraz test, oparty a teście chi kwadrat, do weryfikacji hipotez o iezaleŝości cech X i Y populacji. Jak wiemy z rachuku prawdopodobieństwa zmiee losowe skokowe są iezaleŝe wtedy i tylko wtedy, gdy P(X = i, Y = j) = P(X = i) P(Y = j) lub w iym zapisie p ij = p i. p.j dla i =,,, r; j =,,, s. Zatem hipoteza H 0 (Cechy X i Y są iezaleŝe) moŝe być zastąpioa hipotezą: H 0 (Rozkład zmieej losowej dwuwymiarowej (X, Y) jest skokowy o fukcji prawdopodobieństwa P(X = i, Y = j) = p i. p. j dla i =,,, r; j =,,, s). Pobieramy z populacji próbę i klasyfikujemy ją ze względu a obie cechy. Ozaczeia: ij - liczba elemetów próby aleŝących do grupy o umerze i ze względu a cechę X oraz do grupy o umerze j ze względu a cechę Y, i. liczba elemetów próby aleŝących do grupy o umerze i ze względu a cechę X,.j - liczba elemetów próby aleŝących do grupy o umerze j ze względu a cechę Y, i.,.j - liczebości brzegowe. i. = i+ i + + is.j= j+ j+ + rj = + + K + = + + K +... r....s 68
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Liczebości te moŝa przedstawić w postaci podaej poiŝej tabeli korelacyjej Y s X i. s. s.. r r r rs r..j... s. Oszacowaiem metodą ajwiększej wiarygodości parametru p i. jest Wzór a wartość sprawdziau w teście chi kwadrat u = r s ( - ˆ ) ij ˆ i= j= ij ij, gdzie i..j ˆ ij =. u = i, zaś parametru p.j jest ( -p ). j. r i i przybiera teraz postać i= pi Wielkość u jest wartością statystyki U o rozkładzie w przybliŝeiu chi kwadrat z liczbą stopi swobody rówą liczbie wszystkich grup ze względu a obie cechy mius liczba parametrów szacowaych metodą ajwiększej wiarygodości mius jede. Wszystkich grup jest r s. Parametrów p i jest r, ale aleŝy oszacować tylko r - parametrów, gdyŝ r p i. = i z tej rówości wyzaczmy r-ty parametr, z tego samego powodu szacujemy tylko s- i- parametrów p.j. Zatem statystyka U ma rozkład w przybliŝeiu chi kwadrat o (r-)(s-) stopiach swobody, gdyŝ r s (r ) (s ) = rs r s = r(s ) (s ) = (r )(s ) Przyjmujemy zbiór krytyczy prawostroy K = < k; ). Liczbę k odczytujemy z rozkładu chi kwadrat dla (r-)(s-) stopi swobody. Jeśli wartość sprawdziau u K, to odrzucamy hipotezę zerową H 0, Ŝe cechy są iezaleŝe, w przeciwym przypadku przyjmujemy H 0. Przykład 7. 7 W trzech grupach A, B i C pewej uczeli przeprowadzoo egzami ze statystyki. Postaowioo zbadać, czy istieje zaleŝość między przyaleŝością studeta do daego wydziału, a wyikiem egzamiu? Wprowadzamy zmieą losową X przyjmującą wartość, gdy studet jest z grupy A, liczbę, gdy z grupy B oraz liczbę 3, gdy jest z grupy C oraz zmieą losową Y przyjmującą wartość, gdy studet zdał egzami lub wartość 0, gdy ie zdał egzamiu. Wysuwamy hipotezy H 0 (Cechy X i Y są iezaleŝe) H (Cechy X i Y są zaleŝe) Wyiki badaia przedstawioe są w 6 klasach. Liczebości tych klas oraz liczebości brzegowe zawiera poiŝsza tabela. Y 0 i. X 35 5 40 45 5 60 3 0 0 30.j 00 30 30 69
Obliczamy: - tabelę wartości ˆ ij - tabelę wartości ( - ˆ ) ij ˆ ij ij STATYSTYKA MATEMATYCZNA j i 0 30,77 9,3 46,5 3,85 3 3,08 6,9 j i 0 0,58,94 0,03 0,0 3 0,4,37 Wartość sprawdziau to suma zawartości komórek powyŝszej tabeli, jest oa rówa u = 4,43. Przyjmujemy poziom istotości = 0,0. Zbiór krytyczy dla tego testu jest prawostroy K = < k ; ). Liczbę k odczytujemy z tablicy rozkładu chi kwadrat dla (r-)(s-) = (3-)(-) = i poziomu prawdopodobieństwa = 0,0. Mamy k = 9,0, zatem K = < 9,0 ; ). PoiewaŜ u K, więc brak jest podstaw do odrzuceia hipotezy zerowej, co ozacza Ŝe wyik egzamiu ie zaleŝy od grupy, do której studet jest zapisay. Hipotezy moŝa zweryfikować bezpośredio wykorzystując fukcję statystyczą TEST.CHI arkusza Excel. Dae dotyczą liczebości klas ij oraz wartości ˆ ij, które aleŝy wcześiej obliczyć. Wyik formuły 0,0937 jest rówy jest rówy graiczemu poziomowi istotości ˆ, wyzaczoemu a podstawie wartości wskaźika u = 4,43 obliczoego bez wykorzystaia programu komputerowego, co zilustrowao poiŝej. PoiewaŜ ˆ =0,09 > 0,05 = więc hipotezę zerową H 0 przyjmujemy. 70
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Na zakończeie zweryfikujemy wysuięte hipotezy korzystając z pakietu IBM SPSS Statistics wybierając po wpisaiu daych do kolum (do pierwszej ozaczeie wydziałow, a do drugiej ozaczeie wyiku egzamiu dae sa zapisae w kolumach i 30 wierszach) w kolejości: Aaliza Opis statystyczy Tabele krzyŝowe i wybierając statystykę Chi-kwadrat: 7
Otrzymae wyiki są astępujące: STATYSTYKA MATEMATYCZNA Otrzymaliśmy taką samą wartość statystyki chi-kwadrat = 4,44 jak obliczoą bez wykorzystaia programu komputerowego i taką samą graiczą wartość poziomu istotości 0,0 jaką obliczoo z wykorzystaiem arkusza Excel. Uwaga KaŜda teoretycza liczebość do siebie dwa sąsiedie wiersze lub kolumy. ˆ ij powia wyosić co ajmiej 5. Jeśli tak ie jest, to aleŝy dodać Sprawdzia moŝa łatwo obliczyć w przypadku r = s =. Wtedy dae zapisae są w tzw. tabeli czteropolowej Wtedy sprawdzia przyjmuje postać X Y A B A+B C D C+D A+C B+D (AD-BC) U = (A+B)(A+C)(B+D)(C+D) i ma rozkład (przy załoŝeiu prawdziwości hipotezy zerowej) asymptotyczie chi kwadrat z jedym stopiem swobody. Uwaga W częśći II podręczika opisao kolejy test do badaia iezaleŝości cech populacji oparty a teorii serii. 7
Przykład 7.8 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Badao wyiki egzamiu końcowego wśród absolwetów gimazjów duŝych miast (powyŝej 00 tys. mieszkańców) i małych miast (do 00 tys. mieszkańców). Wprowadzamy cechy X i Y, X =, gdy absolwet zdawał egzami w duŝym mieście, X=0, gdy zdawał w małym mieście, atomiast Y =, gdy absolwet zdał egzami, Y = 0, gdy ie zdał egzamiu. Wysuwamy hipotezy H 0 (Cechy X i Y są iezaleŝe), H (Cechy X i Y są zaleŝe).wyiki próby przedstawioe są w tabeli Y 0 i. Obliczamy wartość sprawdziau X 360 40 400 0 80 0 300.j 640 60 700 700 (360 0 40 60) u = =,43 400 640 60 300 Zbiór krytyczy K = <k ; ). Przyjmujemy poziom istotości 0,05. Liczbę k wyzaczamy z tablicy rozkładu chi kwadrat dla jedego stopia swobody i poziomu istotości 0,05, otrzymujemy k = 3,84, zatem K = <3,84 ; ). PoiewaŜ u K, więc hipotezę zerową, Ŝe wyik egzamiu ie zaleŝy od tego, czy absolwet zdawał egzami w duŝym czy w małym mieście aleŝy przyjąć. 6.5. Testy ieparametrycze dla dwóch prób 6.5.. Test zgodości rozkładów dla prób iepowiązaych (test Wilcoxoa) RozwaŜamy cechy X i Y dwóch populacji. Z kaŝdej populacji pobieray próbę o liczebości odpowiedio rówej i (liczebość miejszej próby ozaczamy ). Wysuwamy hipotezę zerową, Ŝe rozkłady obu cech są jedakowe. PoiewaŜ rozkład zmieej losowej określa jej dystrybuata więc hipotezę zerową moŝa zapisać w postaci H 0 ( F X = F Y ) 9 gdzie: F X i F Y są dystrybuatami zmieych losowych X oraz Y, F X (u) = P(X < u), F Y (u) = P(Y < u). Rówość F X =F Y ozacza, Ŝe dla kaŝdej liczby rzeczywistej u mamy F X (u) = F Y (u). Hipotezę alteratywą przyjmujemy w jedej z trzech postaci: H ( F X >F Y ) lub H ( F X <F Y ) lub H ( F X F Y ) Nierówość F X >F Y ozacza, Ŝe dla kaŝdej liczby rzeczywistej u mamy F X (u) > F Y (u), podobie rozumiemy ierówość F X <F Y. Natomiast wyraŝeie F X F Y ozacza, Ŝe istieje liczba rzeczywista u taka, Ŝe F X (u) F Y (u). Aby sprawdzić hipotezy zerową i alteratywą łączymy obie próby w jedą próbę o liczebości = + i porządkujemy ją iemalejąco. Następie ragujemy elemety uporządkowaej próby, tz. umerujemy jej elemety kolejymi liczbami aturalymi, poczyając od liczby. Jeśli w uporządkowaej próbie występują elemety jedakowe, to kaŝdemu z ich przypisujemy tę samą ragę, rówą średiej arytmetyczej rag tych elemetów, gdyby były oe róŝe p. gdyby elemety o umerach 0, i były sobie rówe, to kaŝdemu z ich przypisujemy ragę, gdyby elemety 5 i 6 były sobie rówe, to kaŝdemu z ich przypisujemy ragę 5,5. 9 Patrz pkt 8. 73
STATYSTYKA MATEMATYCZNA Sprawdziaem testu do weryfikacji wysuiętych hipotez (testu Wilcoxoa) jest statystyka U = suma rag elemetów próby o miejszej liczebości. Rozkład sprawdziau, przy załoŝeiu prawdziwości hipotezy zerowowej jest dla iewielkich liczebości prób stablicoway (pkt części VII Tablice statystycze. Natomiast, gdy mi(, ) 4 i + 0, to rozkład sprawdziau jest w przybliŝeiu N(m, σ), gdzie ( + +) m=, σ= 74 ( + +) Przykład 6.0 Aalizujemy czas wykoaia pewego zadaia przez dwie grupy pracowików. Otrzymae wyiki były astępujące: Grupa cecha X 77,0 54,6 99,9 94, 98,6 99,9 99,9 7,0 90, 77,6 00,0 00,0 96,0 9,9 97, 00,0 Grupa cecha Y 60,5 86, 66,3 00,0 Wysuięto hipotezy H 0 (Rozkłady cech X i Y mają jedakowe rozkłady), czyli H 0 (F X =F Y ). H (Rozkłady cech X i Y ie mają jedakowych rozkładów), H ( F X F Y ). Hipotezy te zweryfikujemy za pomocą testu Wilcoxoa a poziomie istotości 0,05. Wyiki obu prób oraz ich łączeie i ragowaie elemetów próby połączoej przedstawioe są w poiŝszej tabeli. Obliczamy ragi elemetów obu prób. Lp. I próba II próba wyik Raga wyik raga 54,6 60,5 3 66,3 3 4 7,0 4 5 77,0 5 6 77,6 6 7 86, 7 8 90, 8 9 9, 9 0 94, 0 96,0 97, 3 98,6 3 4 99,9 5 5 99,9 5 6 99,9 5 7 00,0 8,5 8 00,0 8,5 9 00,0 8,5 0 00,0 8,5 Uwzględiając, Ŝe = 4, =6 wyzaczamy wartość sprawdziau u = suma rag elemetów próby o miejszej liczości u = + 3 + 7 + 8.5 = 30. 5.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Skorzystamy z asymptotyczej własości statystyki U : U ma rozkład w przybliŝeiu ormaly N(m, σ), gdzie Czyli statystyka ( ) + + m= =4 U - 4 * U = 0,58 prawdziwości hipotezy zerowej. ( ) + +, σ= =0,58. ma rozkład w przybliŝeiu ormaly N(0,), przy załoŝeiu Przyjmujemy zbiór krytyczy dwustroy, a poziomie istotości 0,05 K = (- ; -k> <k ; ). Liczba k spełia związek Φ(k) = / =0,975 k =,96 K= (- ; -,96> * u -4 30,5-4 <,96 ; ) u = = =-,09 0,58 0,58 PoiewaŜ u,k, więc ie ma podstaw, by twierdzić, Ŝe cechy X i Y mają róŝe rozkłady, co ozacza, Ŝe.przyjmujemy hipotezę zerową. Obliczymy jeszcze krytyczy poziom istotości ˆ Spełia o związek Φ (,09) = Stąd ˆ = ( Φ (, 09)) = ( 0,86) = 0, 758. Na zakończeie zweryfikujemy wysuięte hipotezy korzystając z pakietu IBM SPSS Statistics wybierając po wpisaiu daych do kolum (do pierwszej wyiki pomiarów, a do drugiej określeie której grupy dotyczą) w kolejości: Aaliza Testy ieparametrycze Próby iezaleŝe 30 oraz określając Testowae zmiee i Zmieą grupującą. Otrzymay wyik Istotość = 0,75 jest taki sam jak wyzaczoy bez wykorzystaia programu komputerowego graiczy poziom istotości. 6.5.. Test zgodości rozkładów dla prób powiązaych (test ragowaych zaków) Z populacji losujemy elemetów i badamy wartości cechy X w dwóch mometach początkowym i końcowym. Niech X będzie cechą ozaczającą wartości cechy X w momecie początkowym, a X cechą ozaczającą wartości cechy X w momecie końcowym. Otrzymujemy dwie próby (powiązae) elemetowe, pierwsza próba (x, x,, x ), druga próba (x, x,, x ). Obliczamy róŝice x i x i między elemetami I i II próby, sortujemy je iemalejąco i ragujemy (umerujemy) liczbami od do. Przyjmujemy sprawdzia U = suma rag róŝic dodatich Dla liczości 3 0 rozkład dokłady statystyki U jest stablicoway (pkt części VII Tablice statystycze ). Dla > 0 statystyka ta ma rozkład asymptotyczie ormaly N(m, σ), gdzie ( +) m =, 4 σ = ( +)( +) 4. 30 W pakiecie IBM SPSS Statistics test te osi azwę Test U Maa-Whitey a dla prób iezalezych 75
Przykład 6. STATYSTYKA MATEMATYCZNA Na poziomie istotości =0,00 weryfikuje się hipotezę o rówości stochastyczej czasu wykoywaia pewego zadaia przed i po szkoleiu. Uwzględia się, Ŝe dotychczasowe badaia wykazały skróceie czasu wykoywaia zadaia a skutek szkoleia. Zatem weryfikowae hipotezy mają postać: H F = F ( ) 0 X X X czas wykoaia zadaia przed szkoleiem, X - czas wykoaia zadaia po szkoleiu. Przebieg wyzaczaia rag przedstawioo w poiŝszej tabeli: H (F X > F X ) i x i x i x i -x i Uporządkowae Ragi róŝice róŝic 0,7 0,0 0,5-0,4, 0,,09 0,38 3, 0,7,95 0,5 3 4,40 0,,8 0,63 4 5 3,4 0,36,88,0 5 6,79 0,,58,09 6 7 3,59 0,53 3,06,8 7 8,90 0,3,77,7 8 9 0,8 0,8 0,63,77 9 0,54 0,9,35,95 0 0,60 0, 0,38,09,3 0,9,0,35 3,8 0,9,09,58 3 4,93 0,,7,88 4 5 3,84 0,49 3,35 3,06 5 6 0,08 0,3-0,4 3,35 6 Z podaej tabeli otrzymuje się sumę rag dla róŝic dodatich U = 35. Przyjmujemy zbiór krytyczy prawostroy K = <k ; ). Z tablicy wyzaczamy k =, zatem hipotezę zerową H 0, Ŝe cechy mają jedakowy rozkład aleŝy odrzucić. Na zakończeie zweryfikujemy wysuięte hipotezy korzystając z pakietu IBM SPSS Statistics wybierając po wpisaiu daych do kolum (do pierwszej wyiki pomiarów z I okresu, a do drugiej z II okresu) w kolejości: Aaliza Testy ieparametrycze Testy tradycyje Dwie próby zaleŝe Test Wilcoxoa 3. 3 W pakiecie IBM SPSS Statistics test te osi azwę Test zaków ragowaych Wilcoxoa 76
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Otrzymae wyiki są astępujące: Otrzymao taką samą wartość statystyki Suma rag dodatich = 35 6.6. Algorytmizacja obliczeń 6.6.. Wykorzystaie arkusza Excel Lp.. 3. 4. Zakres aalizy statystyczej Weryfikacja hipotezy o wartości oczekiwaej przy zaej i iezaej wariacji Weryfikacja hipotezy o rówości wartości oczekiwaych przy rówych wariacjach Weryfikacja hipotezy o rówości wartości oczekiwaych przy róŝych wariacjach Weryfikacja hipotezy o rówości wartości oczekiwaych przy próbach powiązaych Fukcje statystycze Narzędzia statystycze TEST.Z - TEST.T TEST.T TEST.T 5. Weryfikacja hipotezy o rówości wariacji TEST.F Test t: z dwiema próbami zakładający rówe wariacje Test t: z dwiema próbami zakładający ierówe wariacje Test t: par skojarzoych z dwiema próbami dla średiej Test F: z dwiema próbami dla wariacji 6. Weryfikacja hipotezy o iezaleŝości cech TEST.CHI - 77
STATYSTYKA MATEMATYCZNA 6.6..Zasady wyboru testu przy dwóch próbach Na poiŝszym rysuku przedstawioo schemat blokowy wyboru testów do ocey istotości róŝic rozkładu określoej cechy w dwóch warukach. Początek Czy próby powiązae NIE TAK Skala cechy PRZEDZ. PORZĄDK. NOMINALNA Skala cechy NOMINALNA PRZEDZ. PORZĄDK. Czy cecha ma rozkład ormaly 8 Małe liczości prób Czy cecha ma rozkład ormaly 8 TAK NIE NIE TAK TAK NIE Czy wariacje cechy przy warukach rówe Czy próby powiązae TAK NIE TAK NIE Test Studeta dla prób iepowiązaych Test Cochraa - Coxa Test Wilcoxoa Test McNemara Test chi kwadrat Test dokłady Fishera Test Studeta dla prób powiązaych Test ragowaych zaków Koiec Rys. 8.. Schemat blokowy wyboru testów statystyczych do ocey istotości róŝic rozkładu cechy w dwóch róŝych warukach Wszystkie te testy zostały opisae lub wspomiae 3 w dotychczasowych rozwaŝaiach. 3 W zaleŝości od liczebości póby stosuje się test zgodości chi-kwadrat lub test Shapiro-Wilka. Test McNemary i test dokłady Fishera, a takŝe test Shapiro-Wilka umoŝliwiający oceę ormalości rozkładu a podstawie prób o małych liczebościach zostały opisae w części drugiej podręczika. 78
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 7. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH 7.. Wprowadzeie Badamy populację ze względu a dwie cechy, które modelujemy zmieymi losowymi X i Y. Mówimy wówczas, Ŝe populacja jest badaa ze względu a zmieą losową dwuwymiarową (X, Y), zaś populację azywamy populacją dwuwymiarową. Próba z populacji dwuwymiarowej jest to ciąg wyrazowy zmieych losowych dwuwymiarowych (X,Y ),(X,Y ),...,(X,Y ) (7.) iezaleŝych (dwuwymiarowo) 33 o jedakowym rozkładzie takim jak rozkład zmieej losowej dwuwymiarowej (X, Y). KaŜdy ciąg (x,y ),(x,y ),...,(x,y ) (7.) będący wartością próby (7.) azywamy realizacją próby z populacji dwuwymiarowej. Przedmiotem rozwaŝań w tym rozdziale będą astępujące zagadieia oparte o próbę z populacji dwuwymiarowej: Aaliza korelacji, tz. wywioskowaie o sile związku liiowego między cechami X i Y. Aaliza regresji (prowadzoa, jeŝeli siła związku liiowego jest duŝa) aproksymowaie związku między cechami zaleŝością liiową. Podstawą rozwaŝań będą statystyki z próby dwuwymiarowej (X,Y ),(X,Y ),...,(X,Y ) i i - średie z próby odpowiedio cechy X i cechy Y i= i= X= X, Y= Y X = X, Y = Y - momety rzędu z próby odpowiedio cechy X i cechy Y i i i= i= S = (X -X), S = (Y -Y) X i Y i i= i= (XY) = - wariacje z próby odpowiedio cechy X i Y XiYi - momet rzędu z próby mieszay cech X i Y i= S = (X -X), S = (Y -Y) X i Y i i= i= - odchyleia stadardowe z próby cechy X i Y COV XY = (Xi-X)(Yi -Y) - kowariacja z próby cech X i Y i= COVXY R = - współczyik korelacji Pearsoa z próby cech X i Y. S S X Y Związki między statystykami S =X -(X), S =Y -(Y) X Y COV XY =(XY)-XY (XY)-XY R= X -(X) Y -(Y) 33 Zmiee losowe dwuwymiarowe (X,Y ) i (X,Y ) są iezaleŝe (dwuwymiarowo) jeśli dystrybuata zmieej losowej czterowymiarowej (X,Y,X,Y ) jest rówa iloczyowi dystrybuat zmieych losowych dwuwymiarowych (X,Y ) i (X,Y ). 79
STATYSTYKA MATEMATYCZNA 7.. Aaliza korelacji 7... Uwagi wstępe Jak juŝ było powiedziae, w dziale statystyki zwaym aalizą korelacji bada się czy istieje zaleŝość między cechami populacji i jaka jest siła tej zaleŝości. Ograiczymy się do badaia istieia i siły związku liiowego. Jak juŝ wiemy do tego celu słuŝy współczyik korelacji ρ badaych cech populacji. Rzecz jedak w tym, Ŝe w zagadieiach praktyczych wartość tego współczyika ie jest zaa. NaleŜy zatem wioskować o ρ a podstawie próby. Stąd azwa działu statystyki, który podaje reguły wioskowaia o tym parametrze. Aaliza korelacji opiera się a poiŝszych twierdzeiach, które są prawdziwe przy załoŝeiu, Ŝe zmiea losowa dwuwymiarowa (X, Y) ze względu a którą badaa jest populacja ma rozkład ormaly o współczyiku korelacji ρ. -ρ Tw.7.. Współczyik korelacji z próby R ma rozkład asymptotyczie ormaly N ρ,. (Zgodość rozkładu R z rozkładem ormalym jest dobra dopiero dla wielkich prób 500). +R Tw.7.. Statystyka U = l ma rozkład asymptotyczie ormaly -R +ρ N l,. -ρ -3 (Zgodość rozkładu U z rozkładem ormalym jest dobra awet dla iewielkich prób 0). Tw.7.3. Jeśli cechy X i Y są ieskorelowae (ρ = 0), to statystyka U = R -R - ma rozkład Studeta z stopiami swobody. Uwaga: PoiewaŜ załoŝoo, Ŝe (X,Y) ma rozkład ormaly i ρ = 0, więc cechy X i Y są iezaleŝe. 7... Estymacja współczyika korelacji cech populacji Przyjmujemy, Ŝe estymatorem współczyika korelacji ρ cech X i Y populacji jest współczyik korelacji R z próby 34. Jego wartość wyzaczaa a podstawie próby (x, y ),...,(x, y ) wyosi (xi x)(yi y) cov xy i x y x y r = = = = sxs y (x x (x) y (y) i x) (yi y) i= i= Estymator R jest estymatorem zgodym i asymptotyczie ieobciąŝoym współczyika ρ. Do wyzaczaia ocey r estymatora R wygodie jest korzystać ze wzoru r= xiyi - xi yi i= i= i= i i i i i= i= i= i= x - x y - y 34 Współczyik te azyway jest często współczyikiem korelacji Pearsoa. Jest o estymatorem uzyskaym metodą mometów oraz przy załoŝeiu, Ŝe (X, Y) ma rozkład ormaly - metodą ajwiększej wiarogodości. 80
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE A. Jeśli cechy X i Y populacji mają łączy rozkład ormaly o współczyiku korelacji ρ i liczebość próby 0, to przedziałem ufości dla ρ, a poziomie ufości jest przedział A B e e ; A B e + e +, gdzie + R u A = l R 3, + R u B = l + R 3 u wyzaczamy z rówości Φ (u ) = W kostrukcji tego przedziału ufości korzystamy z tw. 7.. Przykład 7. Przy badaiu zaleŝości cech X i Y otrzymao a podstawie próby 5 elemetowej współczyik korelacji 0,63. Na poziomie ufości 0,98 oszacujemy przedziałem ufości współczyik korelacji ρ obu cech. Zakładamy, Ŝe cechy te mają łączy rozkład ormaly. Rozwiązaie Φ (u ) = = 0, 99 u =,33 + r u + 0, 63, 33 a = l = l = 0, 45 r 3 0, 63 5 3 + r u + 0, 63,33 b = l + = l + =, 38 r 3 0, 63 5 3 a a 0,45,38 e e e e ; = ; =< 0, 4 ; 0,83 > a a 0,45 38 e + e + e + e + Odp. <0,4 ; 0,83> B. Jeśli cechy X i Y populacji mają łączy rozkład ormaly o współczyiku korelacji ρ, to przedziałem ufości dla ρ, a poziomie ufości jest przedział R R R u ; R + u, gdzie Φ (u ) =, dla liczej próby 500 Przy kostrukcji tego przedziału ufości korzystamy z tw. 7.. Przykład 7. Badao zaleŝość między prędkością samochodu (cecha X) a jego drogą zatrzymaia (cecha Y). Na podstawie próby 900 elemetowej otrzymao współczyik korelacji 0,85. Zakładając, Ŝe (X, Y) ma rozkład ormaly, oszacuj współczyik korelacji cech X i Y a poziomie ufości 0,96. Rozwiązaie = 900 r = 0,85, = 0,96 Φ (u ) = = 0,04/= 0,98 u =,05 r-ε: r+ε -r -0,85 ε = u =,05 = 0,09 900 <0,85 0,09; 0,85 + 0,09> = <0,83; 0,869> Odp. <0,83; 0,869> 8
STATYSTYKA MATEMATYCZNA 7..3. Weryfikacja hipotez o współczyiku korelacji Badaa jest populacja ze względu a zmieą losową dwuwymiarową (X, Y) o rozkładzie ormalym i współczyiku korelacji ρ, którego wartość ie jest zaa. O współczyiku ρ wysuwamy hipotezy: zerową H 0(ρ=ρ 0) i alteratywą w postaci H (ρ=ρ ) lub H (ρ>ρ 0) lub H (ρ < ρ 0) lub H (ρ ρ 0). PowyŜsze hipotezy zerową i alteratywą aleŝy zweryfikować a poziomie istotości. Przyjmujemy, Ŝe sprawdziaem jest statystyka +R +ρ 0 U = l - l -3 -R -ρ0 Rozkład statystyki U /ρ 0 dla 0 mało róŝi się od rozkładu ormalego N(0, ) (tw. 7.). PowyŜsze iformacje i sposób wyzaczeia zbioru krytyczego przedstawiamy w tabeli Przykład 7.3 Tabela 7.. Testy do weryfikacji hipotezy o współczyiku korelacji Sprawdzia U H Wyzaczaie Nr Zbiór krytyczy K Rozkład sprawdziau liczby k testu H (ρ>ρ 0) +R +ρ < k ; ) Φ (k) = KR- 0 l - l -3 H (ρ < ρ 0) -R -ρ ( ; k > Φ (k) = 0 KR- H (ρ ρ 0) W przybliŝeiu N(0,) dla ( ; k > < k ; ) Φ (k) = / KR-3 liczebości próby > 0 Badao zaleŝość między ceą jedostkową towaru (cecha X) a popytem a te towar (cecha Y). Na podstawie próby 8 elemetowej otrzymao współczyik korelacji - 0,86. Na poziomie istotości 0,03 sprawdzimy hipotezy: zerową, Ŝe współczyik korelacji w populacji jest rówy -0,90 i alteratywą, Ŝe jest większy od - 0,90. Rozwiązaie = 8, r = -0,86, = 0,03, H 0(ρ = -0,90), H (ρ > -0,90) Stosujemy test r KR-. Obliczamy wartość sprawdziau +r +ρ 0-0,86-0,90 u = l - l -3 = l - l 8-3=0,89 -r -ρ 0 +0,86 +0,90 Wyzaczamy zbiór krytyczy K = < k ; ), Φ (k) = = 0,03 = 0, 97 k =,88 K = <,88; ) Podejmujemy decyzję: poiewaŝ u K, więc hipotezę zerową przyjmujemy. Na zakończeie rozwaŝań zajmiemy się weryfikacją hipotez o istotości współczyika korelacji. Badaa jest populacja ze względu a zmieą losową dwuwymiarową (X, Y) o rozkładzie ormalym, o współczyiku korelacji ρ, którego wartość ie jest zaa. O współczyiku ρ wysuwamy hipotezę zerową H 0(ρ = 0) tz., Ŝe wartość współczyika korelacji jest ieistota i jedą z poiŝszych hipotez alteratywych H( ρ = ρ) - wartość współczyika korelacji jest istota i rówa ρ, H ( ρ > 0) - wartość współczyika korelacji jest istotie dodatia, H ( ρ < 0) - wartość współczyika korelacji jest istotie ujema, H ( ρ 0) - wartość współczyika korelacji jest istota. PowyŜsze hipotezy zerową i alteratywą aleŝy zweryfikować a poziomie istotości. Uwaga: Hipoteza zerowa H 0(ρ = 0) ozacza, Ŝe zmiee losowe są ieskorelowae, a poiewaŝ z załoŝeia mają dwuwymiarowy rozkład ormaly, więc są iezaleŝe. 8
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przyjmujemy, Ŝe sprawdziaem jest statystyka U = R -R - Rozkład statystyki U / ρ = 0 ma rozkład Studeta z - stopiami swobody (tw.7.3). PowyŜsze iformacje i sposób wyzaczeia zbioru krytyczego przedstawiamy w tabeli. H Tabela7.. Testy do weryfikacji hipotezy o istotości współczyika korelacji T - - zmiea losowa o rozkładzie Studeta z stopiami swobody. Przykład 7.4. Z populacji dwuwymiarowej o rozkładzie ormalym pobrao próbę elemetową i obliczoo, Ŝe współczyik korelacji z tej próby wyosi 0,. Na poziomie istotości 0,0 sprawdź czy współczyik w populacji badaych cech jest istoty. Rozwiązaie =, r = 0,, = 0,0, H 0(ρ = 0), H ( ρ 0) Stosujemy test KR-6. Wartość sprawdziau a podstawie próby r 0, u = -= -=0,6 -r -0, Zbiór krytyczy K = ( ; k > < k ; ) Wyzaczaie k: ( 9 ) Sprawdzia U Rozkład sprawdziau Zbiór krytyczy K H (ρ > 0) K = < ; R H (ρ < 0) U = K = ; k > R H (ρ 0) Studeta z stopiami K= ( ; k > < ; swobody P T k = 0, 0 k = 3,5, K = ( ; 3, 5 > < 3,5; ) Decyzja: poiewaŝ u K, więc hipotezę zerową H 0(ρ = 0) przyjmujemy. Odp. Nie ma podstaw do twierdzeia, Ŝe współczyik korelacji jest istoty. Wyzaczaie liczby k k ) ( - ) ( ( - ) Nr testu P T k = KR-4 P T k = KR-5 k ) P( T- ) k = KR-6 83
Przykład 7.4a STATYSTYKA MATEMATYCZNA Na zakończeie obliczymy współczyik korelacji dla daych z przykładu.4 podaego w części Statystyka opisowa korzystając z pakietu IBM SPSS Statistics wybierając po wpisaiu daych do kolum (do pierwszej wyiki egzamiu z matematyki, a do drugiej wyiki egzamiu ze statystyki) w kolejości: Aaliza Korelacje parami Współczyik korelacji Pearsoa. Otrzymae wyiki są astępujące: Otrzymaliśmy oczywiście taki sam wyik z dodatkową oceą, Ŝe współczyik korelacji jest istotie róŝy od zera a poziomie istotości 0,0. 7..4. Współczyik korelacji Spearmaa Współczyik korelacji Spearmaa słuŝy do badaia siły związku liiowego między cechami iemierzalymi w skali porządkowej. Losujemy z populacji elemetów. Porządkujemy je wg wariatów pierwszej cechy i ragujemy, astępie porządkujemy wg wariatów drugiej cechy, takŝe ragujemy. W te sposób otrzymujemy ciąg wyrazowy par liczb rzeczywistych, który jest próbą z populacji dwuwymiarowej, badaej ze względu a zmieą losową dwuwymiarową (X, Y), gdzie X i Y są modelami cech. Współczyik korelacji Spearmaa cech w skali porządkowej jest to współczyik korelacji Pearsoa rag tych cech i wyraŝa się wzorem 6su r'=-, - ( ) gdzie: su - suma kwadratów róŝic pomiędzy ragami elemetów próby, tz. (k,l ) - ragi elemetu próby o umerze i. i i su= [k -l ] i= i i, przy czym PoiewaŜ współczyik Spearmaa r jest szczególym przypadkiem współczyika korelacji (Pearsoa), więc ma wszystkie jego własości i tak: - r r =, gdy kaŝdy elemet próby ma ragi obu cech jedakowe r =, gdy suma rag obu cech populacji jest stała Jeśli ragi k i i s i w kaŝdej parze rag (k i,l i ) są wartościami zmieych losowych iezaleŝych, to r = 0. 84
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE W wypadku występowaia takich samych elemetów próby, czego kosekwecją jest przyporządkowaie im takich samych rag (rówych średiej arytmetyczej rag przy róŝej wartości elemetów) ie moŝa obliczać współczyika korelacji Spearmaa, gdyŝ wzór a te współczyik został wyprowadzoy przy załoŝeiu, iŝ wszystkie ragi k i są róŝe i wszystkie ragi l i są róŝe. MoŜa wprawdzie w tej sytuacji wprowadzać pewe poprawki, w rezultacie czego wzór a współczyik ulega zmiaie, wydaje się jedak, Ŝe prościej jest obliczyć wówczas współczyik korelacji Pearsoa. Współczyik korelacji Spearmaa moŝa takŝe stosować do badaia siły korelacji liiowej cech w skali przedziałowej, aleŝy jedak ajpierw przetrasformować próbę a skalę porządkową. Przykład 7.5 Z populacji pracowików pewej firmy pobrao próbę 6 elemetową, w celu zbadaia siły korelacji liiowej między wiekiem - X, a wagą - Y. X 8 34 30 4 7 38 4 0 3 8 4 8 40 3 43 Y 77 54,6 99,9 94, 98,6 99,9 99,9 7 90, 77,6 00 00 96.0 9,9 97, 00 Próby posortowae wg Ragi Próby posortowae Ragi Kwadrat wieku wieku wg wagi Ragi wagi wieku róŝicy rag Wiek Waga Wiek Waga 8 00 34 54,6 0 8 0 7 0 7 0 90, 3 8 77 6,5 3,5 3 77,6 4 3 77,6 4 4 0 7 98,6 5 90, 3 5 4 8 77 6,5 40 9,9 6 36 8 96.0 6,5 4 94, 4,5 7 56,5 30 99,9 8 8 96 6,5 8,5 3 97, 9 3 97, 9 9 0 34 54,6 0 7 98,6 5 0 5 38 99,9 30 99,9 8 6 40 9,9 38 99,9 4 99,9 3 4 99,9 3 4 94, 4,5 8 00 5 96 4 00 4,5 4 00 4,5 5 0,5 43 00 6 43 00 6 5 Suma 43 Zatem su = 43, czyli współczyik korelacji Spearmaa 6su 6 43 r'=- = = 0, 364706-6 55 ( ) Współczyik korelacji rag r = 0,360004, współczyik korelacji w próbie r = 0,30568. Na zakończeie zweryfikujemy wysuięte hipotezy korzystając z pakietu IBM SPSS Statistics wybierając po wpisaiu daych do kolum (do pierwszej wyiki pomiarów wagi, a do drugiej wyiki pomiarów wzrostu) w kolejości: Aaliza Korelacje parami Współczyik korelacji Spearma. 85
STATYSTYKA MATEMATYCZNA Otrzymae wyiki są astępujące: Otrzymay wartość współczyika = 0,36 jest taka sama jak wyzaczoa wyzaczoy. Dodatkowo został wyzaczoy graiczy poziom istotości. 86
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 7..5. Współczyik korelacji Cramera Badamy siłę zaleŝości stochastyczej dwóch cech populacji X i Y. Cechę X dzielimy a r grup, zaś Y a s grup, zatem wszystkich grup otrzymujemy rs. Stosując ozaczeia z puktu 7.6 obliczamy wartość sprawdziau z testu chi kwadrat zastosowaego do badaia iezaleŝości cech r s (ij- ˆ ij) u = (7.3) ˆ i= j= ij i..j gdzie: ˆ ij= Współczyik korelacji Cramera jest to parametr v określoy wzorem v = w gdzie: u - jest określoe wzorem (7.3), a w = mi (r-,s-), Współczyik Cramera przyjmuje wartości z przedziału <0,>. Iterpretacja Z rozwaŝań przeprowadzoych w pukcie 7.6 wyika, Ŝe gdy u jest rówe zeru, to cechy są iezaleŝe, atomiast, gdy ma wartość maksymalą, to moŝa wykazać iŝ zaleŝość między cechami jest fukcyja. Zatem współczyik Cramera im bliŝszy jest zeru, tym bardziej zaleŝość stochastycza cech słabie, im bliŝszy jest, tym zaleŝość ta staje się mociejsza, aby w przypadku v = stać się zaleŝością fukcyją. Zatem: współczyik Cramera cech X i Y jest miarą siły zaleŝości stochastyczej cech X i Y populacji. Przykład 7.6 Obliczymy współczyik Cramera cechy X - skuteczość leczeia i cechy Y - płeć pacjeta, a podstawie daych przedstawioych w tabeli kotygecyjej Obliczeia ˆ ij u Płeć Skuteczość leczeia Razem 3 4 8 5 Razem 6 4 3 3 5,6,4,0 0,4,6,0 PoiewaŜ kolumy druga i trzecia są mało licze, łączymy je w jedą kolumę i j i. 4 4 8 3 5.j 6 7 3 PoiewaŜ dae zgrupowae są w 4 klasach, więc stosujemy wzór ( patrz pukt 7.6) (ad-bc) 3 (4 3 4 ) u = = =, (a+b)(a+c)(b+d)(c+d) 8 6 5 7, v = = 0,3 3 87
7.3. Aaliza regresji 7.3.. Uwagi wstępe STATYSTYKA MATEMATYCZNA Jeśli w aalizie korelacji stwierdzoo, Ŝe siła zaleŝości liiowej cech populacji jest duŝa (współczyik korelacji ρ ma moduł bliski jedości), to zaleŝość stochastyczą cech moŝa aproksymować zaleŝością liiową, czyli wyzaczyć regresję liową cechy Y względem cechy X (lub odwrotie) i prostą regresji. Jak juŝ wiemy regresja liiowa wyraŝa się wzorem ) Y = YX + βy regresja liiowa (teoretycza) cechy Y względem cechy X ) y = Yx + βy rówaie prostej regresji cechy Y względem cechy X Współczyiki regresji Y i βy są wyzaczoe zgodie z zasadą ajmiejszych kwadratów, tz. tak, by fukcja g(,β) = E[Y (X + β)] miała w pukcie ( Y, β Y ) wartość ajmiejszą. σ Na podstawie tej zasady obliczamy, Ŝe Y Y = ρ, βy = m0 Ym0 (pkt 4.5) σx Jedak w zagadieiach praktyczych ie są zae wartości Y i βy współczyików regresji. Dlatego muszą być oe oszacowae a postawie próby. 7.3.. Estymatory współczyików regresji Wyzaczymy estymatory A Y oraz B Y współczyików regresji Y i βy. Metoda mometów Jak juŝ wiemy metoda mometów estymacji parametrów polega a przyjęciu, Ŝe estymatorem mometu populacji jest będący jego odpowiedikiem momet z próby, atomiast estymatorem fukcji mometów w populacji jest ta sama fukcja mometów z próby. Stosując tą metodę S stwierdzamy, Ŝe estymatorem parametru Y jest statystyka A Y Y = R, zaś estymatorem SX współczyika β Y jest statystyka BY = Y AYX. Metoda ajwiększej wiarygodości Zakładamy dodatkowo, Ŝe cecha Y ma rozkład ormaly N( Yx + βy, σ ) ), dla kaŝdego x. MoŜa s wykazać, Ŝe estymatory współczyików regresji mają postać: Y Y = r, β Y = y Y x. sy Zatem są oe są idetycze z estymatorami otrzymaymi metodą mometów. Metoda ajmiejszych kwadratów Metoda ajmiejszych kwadratów zajdowaia estymatorów współczyików regresji Y i β Y polega a wyzaczeiu takich oce tych parametrów, by fukcja K(, β ) = (y x β ) Y Y i Y i Y i= dla tych oce miała wartość ajmiejszą. Porówując tę fukcję z fukcją S( Y, β Y ) stwierdzamy, Ŝe fukcja K ma wartość ajmiejszą w tym pukcie, w którym fukcja S ma wartość ajwiększą, a więc ocey i estymatory współczyików regresji uzyskae metodą ajmiejszych kwadratów są idetycze, jak w metodzie ajwiększej wiarygodości. Podsumowaie Estymatorami współczyików regresji są S współczyika Y statystyka Y AY = R (7.4) S X współczyika βy statystyka BY = Y AYX (7.5) 88
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Regresja liiowa z próby Zmieą losową ) Y = a YX + b Y azywamy regresją liiową z próby (empiryczą) cechy Y względem cechy X, zaś rówaie ) y = a x + Y b Y rówaiem prostej regresji z próby cechy Y względem cechy X, gdzie a Y i b Y są wartościami (obliczoymi a podstawie próby) statystyk (7.4) i (7.5). W poiŝszej tabeli w pierwszej kolumie podae są wzory a współczyiki regresji liiowej oraz a iektóre parametry związae z tą regresją, druga koluma zawiera estymatory parametrów z pierwszej kolumy, atomiast trzecia koluma zawiera ocey tych parametrów. Nazwa parametru z populacji Wzór a parametr Współczyik regresji Y cechy Y względem cechy X σy Y = ρ σx Współczyik regresji β Y cechy Y względem cechy X β = m m Y 0 Y 0 Wariacja resztowa cechy Y względem cechy X ) ) σ r = D (Y Y) = E(Y Y) = = σy ( ρ ) Odchyleie stadardowe resztowe cechyy względem cechy X ) σ r = D(Y Y) = σy ρ Współczyik determiacji ν cechy Y względem cechy X σ) υ = Y r = σ = r σ Y σ Y Nazwa parametru z próby Wzór a parametr Współczyik regresji A Y z próby cechy Y względem cechy X S A Y = Y S X Tabela 7.3. Podstawowe wzory w aalizie regresji liiowej R Współczyik regresji B Y z próby cechy Y względem cechy X B = Y A X Y Y Wariacja resztowa z próby cechy Y względem cechy X S r = (Yi Y i) ) i = 35 Odchyleie stadardowe resztowe z próby cechy Y względem cechy X S r = (Yi Y i) ) i = Współczyik V determiacji z próby cechy Y względem cechy X (yˆ i y) i v = = = r (yi y) i= Wzór a realizację parametru a s cov = = = Y XY Y r s X sx x y x y = i i i i i= i= i= xi xi i= i= Y b = y a x s r = (yi y i) ) = i = = ( r )s ( r )s Y Y = s r = i= Y ( yi y ) i ) ( r )s r s = Y Y (yˆ i y) (yi y i) i i = = = = = (yi y) (yi y) i= i= v r ) 35 ) Podzieleie sumy (Y Y ) i= i i wariacji resztowej σ r w populacji przez -, a ie przez powoduje, Ŝe statystyka S r jest estymatorem ieobciąŝoym 89
Przykład 7.7 STATYSTYKA MATEMATYCZNA Chcemy zbadać, czy zysk pewej firmy zalezy od wielkości produkcji a podstawie daych przedstawioych w poiŝszej tabeli. Produkcja x i 9, 9,0 9,5,4 9,6,6 3,7 4, 6,5 8,3 Zysk y i 73, 86, 04,7, 6,5 4,5 7, 96,0 07, 7,5 Rozwiązaie Z wykorzystaiem arkusza Excel wykoujemy obliczeia pomocicze Lp Parametry próby wyosza więc x i y i (x i) i (y ) xi yi 9, 73, 368,64 5343,6 403,5 9 86, 36 7430,44 637,8 3 9,5 04,7 380,5 096,09 04,65 4,4, 457,96 4689,44 593,68 5 9,6 6,5 384,6 608,5 365,4 6,6 4,5 466,56 0306,5 3078 7 3,7 7, 56,69 965,84 408,4 8 4, 96 585,64 3846 4743, 9 6,5 07, 70,5 4890,4 5488,5 0 8,3 7,5 800,89 5756,5 6438,5 Suma 3 49 5069,04 4759,6 34670,79 Średia Wariacja 0 Produkcja xi i 3 x = = = =,3 0 0 s = (x ) (x) = 0 x i 0 i = = 506,904 (, 3) = 506,904 497, 9 = 9, 64 0 Zysk yi i 49 y = = = = 49, 0 0 0 s y = (y i) (y) = 0 i = = 475,96 (49, ) = = 475,96 60, 64 = 49,3 Kowariacja cov XY=x y x y= 34670, 79, 3 49, = 3467, 079 337,6 = 39,99 0 Współczyiki regresji covxy 39,99 ay = 4,554 s = X 9,64 = b = y a x = 49, 4,554,3 = 49, 34,55 = 75,35 Y Y Współczyik korelacji 90
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE cov 39,99 39, 99 39, 99 r = = = = = 0,904 s 9, 64 49,3 3, 49,93 54,76 XY x sy Wariacja resztowa cechy Y względem cechy X 0 0 s r = ( r )s Y = ( 0, 904 ) 49,3 = 0,83 49,3 = 570, 8 8 Odchyleie stadardowe resztowe cechyy względem cechy X s r = ( r )sy = 3,88 Współczyik determiacji ν cechy Y względem cechy X v = r = 0, 904 = 0,87 PowyŜsze wyki moŝa otrzymać z wykorzystaiem arzędzia Regresja pakietu Aaliza daych arkusza Excel. Wyiki składają się z kilku części. PoiŜej zamieszczoo część zawierającą wyiki obliczoe w iiejszym przykładzie. Współczyiki Przecięcie -75,3468796 Zmiea X 4,5536773 Statystyki regresji Wielokrotość R 0,90390545 R kwadrat 0,87044693 Dopasoway R kwadrat 0,7947579 Błąd stadardowy 3,87464 Obserwacje 0 Narzędzie oblicza takŝe wartości fukcji regresji oraz rózice pomiędzy uzyskaymi i obliczoymi wartościami zmieej zaleŝej. Podao je poiŝej uzupełiając o wartości uzyskae oraz o sumy w/w róŝic patrz uzupełieie podae a końcu części Statystyka opisowa.. 9