Statystyka matematyczna w zastosowaniach Robert Pietrzykowski STATYSTYKA: nauka poświęcona metodom badania (analizowania) zjawisk masowych; polega na systematyzowaniu obserwowanych cech ilościowych i jakościowych oraz przedstawianiu wyników w postaci zestawień tabelarycznych, wykresów, itp; posługuje się rachunkiem prawdopodobieństwa STATYSTYKA MATEMATYCZNA: dział matematyki stosowanej oparty na rachunku prawdopodobieństwa; zajmuje się badaniem zbiorów na podstawie znajomości własności ich części Encyklopedia Popularna PWN, Warszawa 1982 RP W SET Statystyka 1
Grupa Płeć Punkty Ocena Grupa Płeć Punkty Ocena 1 1 0576 30 2 0 0406 20 1 1 0537 30 2 1 0365 20 1 0 0573 30 2 0 0497 20 1 0 0772 40 2 0 0372 20 1 0 0462 20 2 0 0449 20 1 0 0348 20 2 1 0678 35 1 1 0675 35 2 1 0566 30 1 1 0613 35 2 0 0617 35 1 0 0827 45 2 1 0678 35 1 1 0650 35 2 0 0595 30 1 1 0554 30 2 1 0619 35 1 1 0551 30 2 1 0619 35 1 1 0710 40 2 1 0548 30 1 1 0562 30 2 1 0397 20 1 1 0625 35 2 1 0588 30 1 1 0646 35 2 0 0469 20 1 1 0741 40 2 1 0702 35 1 1 0650 35 2 0 0679 35 1 0 0632 35 2 1 0681 35 1 1 0584 30 2 1 0499 20 1 1 0629 35 2 1 0555 30 1 1 0617 35 2 0 0620 35 1 0 0626 35 2 1 0577 30 1 1 0711 40 2 1 0696 35 1 1 0542 30 2 0 0437 20 1 1 0653 35 2 0 0625 35 1 0 0667 35 2 0 0435 20 1 0 0387 20 2 0 0584 30 1 0 0510 30 2 1 0688 35 1 1 0600 30 2 1 0431 20 RP W SET Statystyka 2
Grupa Płeć Punkty Ocena Grupa Płeć Punkty Ocena 3 0 0485 20 4 0 0774 40 3 0 0276 20 4 0 0549 30 3 1 0595 30 4 0 0638 35 3 1 0514 30 4 1 0737 40 3 0 0308 20 4 0 0610 35 3 0 0332 20 4 1 0581 30 3 0 0366 20 4 1 0623 35 3 1 0547 30 4 1 0583 30 3 0 0591 30 4 1 0658 35 3 0 0482 20 4 1 0544 30 3 0 0512 30 4 1 0586 30 3 0 0541 30 4 0 0692 35 3 0 0574 30 4 0 0632 35 3 1 0660 35 4 1 0590 30 3 1 0435 20 4 0 0525 30 3 0 0533 30 4 1 0699 35 3 1 0484 20 4 0 0661 35 3 1 0448 20 4 1 0551 30 3 0 0469 20 4 0 0535 30 3 0 0444 20 4 1 0603 30 3 0 0460 20 4 1 0524 30 3 0 0641 35 4 0 0516 30 3 0 0362 20 4 0 0561 30 3 0 0393 20 4 0 0630 35 3 0 0580 30 4 0 0739 40 3 0 0453 20 4 0 0641 35 3 1 0547 30 4 0 0791 40 3 1 0513 30 4 0 0768 40 3 1 0344 20 4 0 0606 30 3 0 0403 20 4 1 0732 40 RP W SET Statystyka 3
Grupa Płeć Punkty Ocena Grupa Płeć Punkty Ocena 5 0 0723 40 6 0 0813 45 5 0 0526 30 6 1 0428 20 5 0 0585 30 6 0 0588 30 5 1 0795 40 6 0 0631 35 5 1 0600 30 6 0 0642 35 5 0 0679 35 6 1 0686 35 5 1 0616 35 6 0 0695 35 5 0 0511 30 6 0 0751 40 5 0 0603 30 6 1 0685 35 5 1 0727 40 6 0 0608 30 5 1 0734 40 6 0 0464 20 5 1 0672 35 6 0 0803 40 5 0 0525 30 6 0 0747 40 5 1 0612 35 6 0 0616 35 5 0 0730 40 6 0 0611 35 5 1 0711 40 6 1 0363 20 5 0 0789 40 6 1 0635 35 5 0 0449 20 6 0 0383 20 5 0 0464 20 6 1 0659 35 5 0 0523 30 6 0 0704 35 5 0 0627 35 6 0 0654 35 5 0 0480 20 6 0 0696 35 5 1 0649 35 6 1 0652 35 5 1 0615 35 6 1 0824 45 5 0 0430 20 6 1 0767 40 5 1 0625 35 6 1 0604 30 5 1 0530 30 6 0 0609 30 5 0 0507 20 6 0 0760 40 5 0 0472 20 6 1 0799 40 5 0 0691 35 6 0 0691 35 RP W SET Statystyka 4
Grupa Płeć Punkty Ocena Grupa Płeć Punkty Ocena 7 0 0334 20 8 0 0605 30 7 0 0496 20 8 0 0588 30 7 0 0750 40 8 0 0715 40 7 1 0500 20 8 1 0696 35 7 1 0520 30 8 1 0848 45 7 0 0640 35 8 0 0688 35 7 0 0567 30 8 0 0537 30 7 1 0433 20 8 1 0472 20 7 1 0550 30 8 1 0523 30 7 0 0469 20 8 1 0546 30 7 1 0608 30 8 0 0617 35 7 1 0583 30 8 0 0687 35 7 1 0494 20 8 1 0682 35 7 1 0836 45 8 1 0753 40 7 1 0422 20 8 0 0705 35 7 0 0599 30 8 0 0775 40 7 0 0487 20 8 1 0719 40 7 0 0563 30 8 0 0658 35 7 0 0648 35 8 1 0477 20 7 0 0559 30 8 1 0754 40 7 0 0628 35 8 0 0555 30 7 0 0672 35 8 0 0540 30 7 1 0499 20 8 1 0638 35 7 1 0612 35 8 1 0794 40 7 0 0533 30 8 0 0515 30 7 0 0645 35 8 0 0579 30 7 0 0419 20 8 0 0763 40 7 1 0496 20 8 0 0555 30 7 0 0556 30 8 0 0661 35 7 0 0404 20 8 0 0489 20 RP W SET Statystyka 5
Grupa Płeć Punkty Ocena Grupa Płeć Punkty Ocena 9 1 0725 40 10 1 0431 20 9 1 0629 35 10 0 0503 20 9 0 0853 45 10 0 0474 20 9 0 0577 30 10 0 0615 35 9 1 0441 20 10 1 0466 20 9 0 0478 20 10 0 0428 20 9 1 0804 40 10 1 0588 30 9 1 0687 35 10 1 0603 30 9 1 0438 20 10 1 0622 35 9 1 0573 30 10 0 0494 20 9 0 0620 35 10 1 0474 20 9 0 0801 40 10 0 0506 20 9 1 0670 35 10 1 0508 20 9 1 0704 35 10 1 0673 35 9 0 0694 35 10 1 0582 30 9 1 0443 20 10 0 0544 30 9 0 0614 35 10 0 0643 35 9 1 0614 35 10 0 0559 30 9 0 0554 30 10 0 0592 30 9 0 0642 35 10 0 0545 30 9 0 0677 35 10 1 0561 30 9 1 0401 20 10 1 0449 20 9 0 0521 30 10 1 0450 20 9 0 0633 35 10 0 0695 35 9 1 0428 20 10 0 0457 20 9 1 0850 45 10 0 0614 35 9 1 0720 40 10 1 0558 30 9 0 0443 20 10 1 0677 35 9 0 0713 40 10 1 0734 40 9 0 0601 30 10 1 0476 20 RP W SET Statystyka 6
Punkty z klasówki 000: 0 005: 0 010: 0 015: 0 020: 0 025: 0 030: 1 035: 5 040: 9 045: 26 050: 31 055: 37 060: 45 065: 59 070: 39 075: 23 080: 15 085: 9 090: 1 095: 0 100: 0 Średnia 0589 Kwartyl dolny 0508 Mediana 0595 Kwartyl górny 0672 RP W SET Statystyka 7
Stopnie z klasówki 20: 76 30: 88 35: 92 40: 37 45: 7 50: 0 Średnia 306 Kwartyl dolny 200 Mediana 300 Kwartyl górny 350 30 (29%) 20 (25%) 35 (31%) 40 (12%) 45(2%) RP W SET Statystyka 8
Oceny z klasówki Negatywne Pozytywne Razem Ogółem 76 (25%) 224 (75%) 300 Kobiety 46 (28%) 116 (72%) 162 Mężczyźni 30 (22%) 108 (78%) 138 Grupa 1 3 (10%) 27 ( 90%) 30 Grupa 2 11 (37%) 19 ( 63%) 30 Grupa 3 17 (57%) 13 ( 43%) 30 Grupa 4 0 ( 0%) 30 (100%) 30 Grupa 5 6 (20%) 24 ( 80%) 30 Grupa 6 4 (13%) 26 ( 87%) 30 Grupa 7 12 (40%) 18 ( 60%) 30 Grupa 8 3 (10%) 27 ( 90%) 30 Grupa 9 7 (23%) 23 ( 77%) 30 Grupa 10 13 (43%) 17 ( 57%) 30 RP W SET Statystyka 9
Pytania 1 Na ile dokładne są podane wyniki? 2 Na ile wyniki odzwierciedlają stan wiedzy? 3 Jakich wyników można oczekiwać na następnej klasówce? 4 Jakich wyników można oczekiwać na egzaminie? RP W SET Statystyka 10
Populacja Wnioski o populacji Próba Wnioski z próby RP W SET Statystyka 11
F F F F F 5 2 4 1 5 27 29 12 8 33 M M M F F 8 8 6 6 8 40 52 33 38 22 M M F M M 9 10 7 11 9 35 73 30 50 67 M M F M M 14 12 8 14 11 68 75 40 64 69 F F M M M 9 8 11 10 15 54 40 51 55 66 Próba 1: 5 2 4 1 5 Średnia z próby: 340 Próba 2: 8 8 6 6 8 Średnia z próby: 720 Próba 3: 9 10 7 11 9 Średnia z próby: 920 Próba 4: 14 12 8 14 11 Średnia z próby: 1180 Próba 5: 9 8 11 10 15 Średnia z próby: 1060 Średnia populacji: 844 RP W SET Statystyka 12
844 Pytania Czy mając do dyspozycji tylko jedną próbę można ocenić na ile dobrze średnia z tej próby przybliża prawdziwą średnią? Co zrobić, by być pewniejszym wyniku? RP W SET Statystyka 13
Populacja Zbiór obiektów z wyróżnioną cechą (cechami) Próba Wybrana część populacji podlegająca badaniu Cecha Wielkość losowa charakteryzująca obiekty danej populacji Cecha jakościowa Cecha przyjmująca wartości nie będące liczbami (np kolor, płeć, smakowitość) Cecha (ilościowa) skokowa Cecha przyjmująca pewne wartości liczbowe i nie przyjmująca wartości pośrednich (np ilość bakterii, ilość pracowników, ilość pasażerów) Cechy te nazywane są również dyskretnymi Cecha (ilościowa) ciągła Cecha przyjmująca wartości z pewnego przedziału liczbowego (np wzrost, waga, plon) RP W SET Statystyka 14
Jakość wnioskowania statystycznego Oceniamy parametr θ cechy na podstawie próby X 1, X 2,, X n Niech ˆθ(X 1, X 2,, X n ) będzie jakąś oceną parametru θ Nieobciążoność Jeżeli średnia wartość oceny ˆθ jest równa wartości parametru θ, to ocenę ˆθ nazywamy nieobciążoną Minimalna wariancja Z dwóch różnych nieobciążonych ocen ˆθ oraz ˆθ tego samego parametru θ za lepszą uznajemy tę, która średnio przyjmuje wartości bliższe parametrowi θ Minimalny błąd średniokwadratowy Jeżeli ocena ˆθ nie jest nieobciążona, to wówczas jako miernik jakości stosuje się błąd średniokwadratowy Jest to uśrednienie obciążenia oraz wariancji RP W SET Statystyka 15
Elementy rachunku prawdopodobieństwa Rachunek prawdopodobieństwa zajmuje się analizą praw rządzących zdarzeniami losowymi Pojęciami pierwotnymi są: zdarzenie elementarne ω oraz zbiór zdarzeń elementarnych Ω Doświadczenie losowe realizacja określonego zespołu warunków wraz z góry określonym zbiorem wyników Zdarzenie losowe A jest podzbiorem zbioru zdarzeń elementarnych Ω RP W SET Statystyka 16
Prawdopodobieństwo (definicja aksjomatyczna) jest funkcją określoną na zbiorze zdarzeń losowych: 1 P (A) 0, 1 2 P (Ω) = 1 3 P (A B) = P (A) + P (B), o ile A B = Prawdopodobieństwo (definicja klasyczna) Jeżeli Ω składa się z n jednakowo prawdopodobnych zdarzeń elementarnych, to prawdopodobieństwo zdarzenia A składającego się z k zdarzeń elementarnych wyraża się wzorem P (A) = k n Prawdopodobieństwo warunkowe zajścia zdarzenia A pod warunkiem realizacji zdarzenia B: P (A B) = P (A B) P (B) (P (B) > 0) RP W SET Statystyka 17
Prawdopodobieństwo całkowite Jeżeli zdarzenia B 1,, B n są takie, że B i B j = dla wszystkich i j, B 1 B n = Ω oraz P (B i ) > 0 dla wszystkich i, to dla dowolnego zdarzenia A zachodzi P (A) = P (A B 1 )P (B 1 ) + + P (A B n )P (B n ) Twierdzenie Bayesa P (B k A) = P (B k )P (A B k ) P (A B 1 )P (B 1 ) + + P (A B n )P (B n ) Niezależność zdarzeń Zdarzenia A oraz B są niezależne, jeżeli Równoważnie P (A B) = P (A)P (B) P (A B) = P (A) P (B A) = P (B) RP W SET Statystyka 18
Zmienna losowa (cecha) Funkcja o wartościach rzeczywistych określona na zbiorze zdarzeń elementarnych Rozkład zmiennej losowej Zbiór wartości zmiennej losowej oraz prawdopodobieństwa z jakimi są te wartości przyjmowane Przykład Jednokrotny rzut kostką Zmienna losowa: ilość wyrzuconych oczek Zbiór wartości: {1, 2, 3, 4, 5, 6} Rozkład (kostka uczciwa) x i 1 2 3 4 5 6 p i 1/6 1/6 1/6 1/6 1/6 1/6 Rozkład (kostka nieuczciwa) x i 1 2 3 4 5 6 p i 1/24 1/24 1/24 1/24 1/6 2/3 RP W SET Statystyka 19
Zmienna losowa skokowa (dyskretna) jest to zmienna, której zbiór wartości jest skończony lub przeliczalny Jeżeli x 1 oraz x 2 są kolejnymi wartościami zmiennej losowej skokowej, to nie przyjmuje ona żadnych wartości między x 1 a x 2 Przykłady Rzut kostką, liczba bakterii, ilość pracowników Zmienna losowa ciągła jest to zmienna przyjmująca wszystkie wartości z pewnego przedziału (najczęściej zbioru liczb rzeczywistych) Jeżeli x 1 oraz x 2 są dwiema wartościami zmiennej losowej ciągłej, to może ona przyjąć dowolną wartość między x 1 a x 2 Przykłady Wzrost, ciężar paczki towaru, wydajność pracowników RP W SET Statystyka 20
Dystrybuanta F jest funkcją określoną na zbiorze liczb rzeczywistych R wzorem F (x) = P {X x}, x R Najważniejsze własności dystrybuanty 1 0 F (x) 1 2 F ( ) = 0, F ( ) = 1 3 dystrybuanta jest funkcją niemalejącą 4 P {a < X b} = F (b) F (a) Funkcja (gęstości) rozkładu prawdopodobieństwa f jest funkcją określoną na zbiorze liczb rzeczywistych R wzorem f(x) = { F (x), jeżeli F (x) istnieje 0, w przeciwnym przypadku Najważniejsze własności funkcji gęstości 1 f(x) 0 2 P {a < X b} = b a f(x)dx RP W SET Statystyka 21
Skokowa zmienna losowa 030 020 015 005 10 15 20 37 60 Funkcja rozkładu prawdopodobieństwa 100 085 080 050 020 10 15 20 37 60 Dystrybuanta RP W SET Statystyka 22
Ciągła zmienna losowa Funkcja gęstości F (b) F (a) a Dystrybuanta b RP W SET Statystyka 23
Charakterystyki liczbowe zmiennych losowych Wartość oczekiwana (średnia) Wartość oczekiwana EX zmiennej losowej X jest liczbą charakteryzującą położenie zbioru jej wartości EX = { xi p i dla zmiennej skokowej xf(x)dx dla zmiennej ciągłej Prawo wielkich liczb: X 1 + X 2 + + X n n EX Wariancja Wariancja D 2 X zmiennej losowej jest liczbą charakteryzującą rozrzut zbioru jej wartości wokół wartości średniej EX D 2 X = { (xi EX) 2 p i (x EX) 2 f(x)dx RP W SET Statystyka 24
Odchylenie standardowe Odchylenie standardowe DX zmiennej losowej X jest liczbą charakteryzującą rozrzut zbioru jej wartości wokół wartości średniej EX DX = D 2 X Kwantyl rzędu p zmiennej losowej X jest to taka liczba x p, że F (x p ) = p Frakcja Jeżeli A jest danym podzbiorem zbioru wartości zmiennej losowej X, to frakcją nazywamy liczbę p = P {X A} Asymetria (skośność) Liczba γ 1 charakteryzująca niejednakowość rozproszenia wartości zmiennej losowej wokół wartości oczekiwanej RP W SET Statystyka 25
Rozkład dwupunktowy Zmienna losowa X ma rozkład D(p), jeżeli P {X = 1} = p = 1 P {X = 0} EX = p D 2 X = p(1 p) Doświadczenie Bernoulliego Wykonujemy dwuwynikowe doświadczenie Wyniki nazywane są umownie sukces oraz porażka Prawdopodobieństwo sukcesu wynosi p (porażki: 1 p) Niech zmienną losową X będzie uzyskanie sukcesu Zmienna losowa X ma rozkład D(p) Przykłady Płeć osoby Wadliwość produktu RP W SET Statystyka 26
Rozkład dwumianowy Zmienna losowa X ma rozkład B(n, p), jeżeli P n,p {X = k} = ( ) n p k (1 p) n k, k = 0, 1,, n k EX = np D 2 X = np(1 p) Schemat Bernoulliego Zmienną losową o rozkładzie D(p) obserwujemy n krotnie w sposób niezależny Niech zmienną losową X będzie ilość sukcesów Zmienna losowa X ma rozkład B(n, p) Przykłady Ilość nasion, z których wzeszły rośliny Ilość wadliwych produktów Popularność danej osobistości publicznej P n,p {X = k} = P n,1 p {X = n k} RP W SET Statystyka 27
Przykład Niezaliczalność klasówki jest równa 30% Obliczyć prawdopodobieństwo, że na dziesięć wylosowanych klasówek będzie co najwyżej jedna niepozytywna Doświadczenie Bernoulliego: ocena klasówki Sukces klasówka niezaliczona; p = 03 X liczba niezaliczonych klasówek wśród dziesięciu wylosowanych P 10,03 {X 1} = P 10,03 {X = 0} + P 10,03 {X = 1} Tablice: Q(k; n, p) = n P n,p {X = i} i=k P 10,03 {X 1} = 1 Q(2; 10, 03) = 1 085069 P 10,03 {X = 1} = Q(1; 10, 03) Q(2; 10, 03) = 097175 085069 = 012106 RP W SET Statystyka 28
Rozkład Poissona Zmienna losowa X ma rozkład P o(λ), jeżeli P λ {X = k} = λk k! e λ, k = 0, 1, EX = λ D 2 X = λ Przykłady Ilość wad na metrze kwadratowym produkowanego materiału Ilość klientów przybywających do sklepu w jednostce czasu RP W SET Statystyka 29
Przykład Ile średnio powinno przypadać rodzynków na bułeczkę, by prawdopododobieństwo, że w bułeczce znajdzie się co najmniej jeden rodzynek, było nie mniejsze niż 099? X ilość rodzynków w bułeczce X P o(λ), λ =? Znaleźć takie λ, że P λ {X 1} 099 Tablice: Q(k; λ) = P λ {X = i} i=k Q(1; λ) 099 = λ = 48 Obliczenia: P {X 1} = 1 P {X = 0} = 1 e λ e λ 001 = λ log 001 = 460517 RP W SET Statystyka 30
Rozkład normalny Zmienna losowa X ma rozkład normalny N(µ, σ 2 ) o wartości średniej µ i wariancji σ 2, jeżeli jej funkcja gęstości wyraża się wzorem f µ,σ 2(x) = 1 σ 2π e 1 2( x µ σ ) 2, < x < EX = µ D 2 X = σ 2 Przykłady Błędy pomiarowe Ciężar ciała Zawartość białka w mięsie Standardowy rozkład normalny: N(0, 1) Dystrybuanta F (x) standardowego rozkładu normalnego (N(0, 1)) jest stablicowana F (x) = 1 F ( x) RP W SET Statystyka 31
Rozkład normalny µ = 0 µ = 1 µ = 1 σ = 05 σ = 10 σ = 20 RP W SET Statystyka 32
Jeżeli X N(µ, σ 2 ), to Standaryzacja Z = X µ σ N(0, 1) { ( a µ P {X (a, b)} = P Z σ, b µ )} σ ( ) ( ) b µ a µ = F F σ σ Przykład Dla zmiennej losowej X N(10, 16) obliczyć P {X (8, 14)} P {X (8, 14)} = P { Z ( 8 10, 4 = F (1) F ( 05) 14 10 4 = 084134 (1 069146) = 053380 )} RP W SET Statystyka 33
Prawo trzech sigm P { X µ < σ} = 068268 068 P { X µ < 2σ} = 095450 095 P { X µ < 3σ} = 099730 0997 0997 095 068 µ µ σ µ + σ µ 2σ µ + 2σ µ 3σ µ + 3σ RP W SET Statystyka 34
Pożyteczne przybliżenia X B(n, p), n duże, p małe X P o(np) X B(n, p), n duże, p około 05 X N(np, np(1 p)) X P o(λ), λ duże X N(λ 05, λ) lub X N ( ) λ, 1 4 RP W SET Statystyka 35
Estymacja parametrów rozkładu cechy Estymujemy parametr θ rozkładu cechy X Próba: X 1, X 2,, X n Estymator (punktowy) jest funkcją próby ˆθ = ˆθ(X 1, X 2,, X n ) przybliżającą wartość parametru θ Przedział ufności (estymator przedziałowy) jest przedziałem o końcach zależnych od próby, który z pewnym z góry zadanym prawdopodobieństwem pokrywa nieznaną wartość parametru θ P {θ (θ(x 1,, X n ), θ(x 1,, X n ))} = 1 α Poziom ufności: prawdopodobieństwo 1 α Co wpływa na długość d przedziału ufności? 1 Liczność próby (n = d ) 2 Poziom ufności (1 α = d ) 3 Wariancja cechy (σ 2 = d ) RP W SET Statystyka 36
Rozkład normalny Estymacja parametrów Próba (prosta): X 1, X 2,, X n Estymator średniej µ średnia arytmetyczna X = 1 n n i=1 X i = X 1 + + X n n Estymator wariancji σ 2 wariancja próbkowa S 2 = 1 n 1 n (X i X) 2 i=1 Suma kwadratów odchyleń od średniej varx = n (X i X) 2 = i=1 n Xi 2 n X 2 i=1 Estymator odchylenia standardowego σ S = S 2 RP W SET Statystyka 37
Szereg rozdzielczy (dane skumulowane) Przedział klasowy Liczebność x 0 x 1 n 1 x 1 x 2 n 2 x k 1 x k n k n Średnia z próby (ẋ i = (x i 1 + x i )/2) X = 1 n k ẋ i n i i=1 Suma kwadratów odchyleń od średniej varx = k (ẋ i X) 2 n i i=1 RP W SET Statystyka 38
Liczność próby Jeżeli X 1,, X n są niezależnymi zmiennymi losowymi takimi, że X i N(µ, σ 2 ), i = 1,, n, to ) X N (µ, σ2 n Przykład Jakie jest prawdopodobieństwo, że średnia X trafi bliżej µ niż 01σ? P { X µ < 01σ} = P { X (µ 01σ, µ + 01σ)} ( ) ( ) (µ + 01σ) µ (µ 01σ) µ F σ/ F n σ/ = n F (01 n) F ( 01 n) = 2F (01 n) 1 n 1 5 10 50 P 007966 017694 024817 052050 n 100 500 1000 1500 P 068269 097465 099843 099989 RP W SET Statystyka 39
Przedział ufności dla średniej Wariancja σ 2 jest nieznana Poziom ufności: 1 α ( X t(α; n 1) S n, X + t(α; n 1) S n ) t(α; n 1): wartość krytyczna rozkładu t (Studenta) z ν stopniami swobody Długość przedziału: d = 2t(α; n 1) S n Przedziały jednostronne (, X + t(2α; n 1) S n ) ( X t(2α; n 1) S n, ) RP W SET Statystyka 40
Przykład Na podstawie próby 11, 12, 08, 09, 12, 13, 10, 07, 08, 10 oszacować wartość średnią rozkładu obserwowanej cechy x = 11 + 12 + + 10 10 = 10 varx = (11 10) 2 + + (10 10) 2 = 036 s 2 = 036 10 1 = 004, s = s 2 = 02 Poziom ufności 1 α = 095, czyli α = 005 t(005; 9) = 22622 t(005; 9) s n = 22622 02 10 = 014 (1 014, 1 + 014) = (086, 114) Wniosek Średnia wartość cechy jest jakąś liczbą z przedziału (086, 114) Zaufanie do tego wniosku wynosi 95% RP W SET Statystyka 41
Przykład Oszacować przeciętną ilość punktów uzyskiwanych na klasówce n = 300 xi = 176566 x 2 i = 107845302 Populacja: Słuchacze podstawowego kursu statystyki Cecha X: ilość punktów zdobytych na klasówce Założenie: cecha X ma rozkład normalny N(µ, σ 2 ) Zadanie: oszacować parametr µ Technika statystyczna: przedział ufności dla średniej poziom ufności 1 α = 095 RP W SET Statystyka 42
Obliczenia x = 1 n xi = 176566 300 ( xi ) 2 = 0589 varx = x 2 i 1 n = 107845302 1765662 300 = 392679 s 2 = 392679 300 1 = 001313, s = s 2 = 011460 t(005; 299) 196 t(005; 299) s n = 196 011460 300 = 001297 (0589 0013, 0589 + 0013) = (0576, 0602) Odpowiedź: µ (0576, 0602) Wniosek Przeciętna liczba punktów zdobywana na klasówce jest liczbą z przedziału (0576, 0602) Zaufanie do tego wniosku wynosi 95% RP W SET Statystyka 43
Przedział ufności dla wariancji Średnia µ jest nieznana Poziom ufności: 1 α ( varx χ 2 ( α 2 ; n 1), ) varx χ ( 2 1 α 2 ; n 1) χ 2 (α; n 1) jest stablicowaną wartością krytyczną rozkładu chi kwadrat z ν stopniami swobody Przedziały jednostronne ( varx 0, χ 2 (α; n 1) ( varx χ 2 (1 α; n 1), ) ) RP W SET Statystyka 44
Przykład Na podstawie próby 11, 12, 08, 09, 12, 13, 10, 07, 08, 10 oszacować zróżnicowanie rozkładu obserwowanej cechy x = 11 + 12 + + 10 10 = 10 varx = (11 10) 2 + + (10 10) 2 = 036 s 2 = 036 10 1 = 004, s = s 2 = 02 Poziom ufności 1 α = 095, czyli α = 005 ( χ 2 α ) 2 ; n 1 = χ 2 (0025; 9) = 190228 ( χ 2 1 α ) 2 ; n 1 = χ 2 (0975; 9) = 27004 ( ) 036 190228, 036 = (0019, 0133) 27004 Wniosek Wariancja cechy jest jakąś liczbą z przedziału (0019, 0133) Zaufanie do tego wniosku wynosi 95% RP W SET Statystyka 45
Przedział ufności dla odchylenia standardowego Średnia µ jest nieznana Poziom ufności: 1 α ( varx χ 2 ( α 2 ; n 1), ) varx χ 2 (1 α 2 ; n 1) Przedziały jednostronne ( ( 0, varx χ 2 (α; n 1) ) ) varx χ 2 (1 α; n 1), Przykład (cd) Przedział ufności dla odchylenia standardowego: ( 0019, 0133) = (0136, 0365) RP W SET Statystyka 46
Przykład Oszacować zróżnicowanie ilości punktów uzyskiwanych na klasówce n = 300 xi = 176566 x 2 i = 107845302 Populacja: Słuchacze podstawowego kursu statystyki Cecha X: ilość punktów zdobytych na klasówce Założenie: cecha X ma rozkład normalny N(µ, σ 2 ) Zadanie: oszacować parametr σ Technika statystyczna: przedział ufności dla odchylenia standardowego poziom ufności 095 RP W SET Statystyka 47
Obliczenia x = 0589 varx = 392679 ( χ 2 α ) 2 ; n 1 = χ 2 (0025; 299) = 34879420 χ 2 ( 1 α 2 ; n 1 ) = χ 2 (0975; 299) = 25299251 ( ) 392679 392679 34879420, 25299251 = (010610, 012458) Odpowiedź: σ (010610, 012458) Wniosek Odchylenie standardowe liczby punktów zdobywanych na klasówce jest liczbą z przedziału (0106, 0125) Zaufanie do tego wniosku wynosi 95% RP W SET Statystyka 48
Rozkład dwupunktowy Estymacja parametru p frakcja, wskaźnik struktury Próba: X 1,, X n (X i = 0 lub = 1) k = n i=1 X i ilość jedynek (sukcesów) Estymator punktowy: ˆp = k n Przedział ufności na poziomie ufności 1 α (p 1 (1 α 2 ; k, n k ), 1 p 1 ( 1 α 2 ; n k, k )) Jednostronne przedziały ufności (p 1 (1 α; k, n k), 1) (0, 1 p 1 (1 α; n k, k)) RP W SET Statystyka 49
Przykład Wśród 20 zbadanych detali znaleziono dwa braki Ocenić na tej podstawie wadliwość produkcji Cecha X jakość detalu (dobry, zły) Sukces detal wybrakowany Pytanie: p =? n = 20, k = 2 = ˆp = 2/20 = 01 Poziom ufności 1 α = 09, czyli α = 01 p 1 ( 1 α 2 ; k, n k ) = p 1 (095; 2, 18) = 00123 p 1 ( 1 α 2 ; n k, k ) = p 1 (095; 18, 2) = 06830 (00123, 1 06830) = (00123, 03170) Wniosek Wadliwość produkcji wyraża się liczbą z przedziału (123%, 3170%) Zaufanie do wniosku wynosi 90% RP W SET Statystyka 50
Przybliżony przedział ufności ( ˆp u 1 α/2 ˆp(1 ˆp) n ) ˆp(1 ˆp), ˆp + u 1 α/2 n u α jest kwantylem rzędu α rozkładu N(0, 1) Przykład (cd) n = 200, k = 20 = ˆp = 20/200 = 01 Poziom ufności 1 α = 09, czyli α = 01 u 1 α/2 = u 095 = 16449 01(1 01) 01 16449 200 01(1 01) 01 + 16449 200 = 00651 = 01349 Wniosek Wadliwość produkcji wyraża się liczbą z przedziału (651%, 1349%) Zaufanie do wniosku wynosi 90% RP W SET Statystyka 51
Przykład Oszacować odsetek ocen dostatecznych otrzymywanych na klasówce n = 300 k = 88 Populacja: Słuchacze podstawowego kursu statystyki Cecha X: ocena dostateczna z klasówki Założenie: cecha X ma rozkład D(p) Zadanie: oszacować parametr p Technika statystyczna: przybliżony przedział ufności dla prawdopodobieństwa poziom ufności 095 RP W SET Statystyka 52
Obliczenia p = 88 300 = 029 u 1 α/2 = u 0975 = 196 029(1 029) 029 196 300 029(1 029) 029 + 196 300 = 02387 = 03413 Odpowiedź: p (02387, 03413) Wniosek Odsetek ocen dostatecznych zdobywanych na klasówce jest liczbą z przedziału (2387%, 3413%) Zaufanie do tego wniosku wynosi 95% RP W SET Statystyka 53
Porównanie dwóch rozkładów normalnych Założenia: 1 X 1 N(µ 1, σ 2 1), X 2 N(µ 2, σ 2 2) 2 X 1, X 2 są niezależne Ocena µ 1 µ 2 oraz σ 2 1/σ 2 2 Próby: X 11,, X 1n1 ; X 21,, X 2n2 X 1, varx 1, s 2 1 = varx 1 n 1 1 X 2, varx 2, s 2 2 = varx 2 n 2 1 RP W SET Statystyka 54
Ocena różnicy między średnimi µ 1 µ 2 Ocena punktowa: X 1 X 2 Przedział ufności (poziom ufności 1 α) 1 Założenie σ 2 1 = σ 2 2 ( X 1 X 2 t(α; n 1 + n 2 2)s r, X 1 X 2 + t(α; n 1 + n 2 2)s r ) s 2 e = varx 1 + varx 2 n 1 + n 2 2, s2 r = s 2 e ( 1 n 1 + 1 n 2 ) 2 Bez założenia σ 2 1 = σ 2 2 ( X 1 X 2 V (α; n 1 1, n 2 1, c)s r, X 1 X 2 + V (α; n 1 1, n 2 1, c)s r ) s 2 r = ( ) s 2 1 + s2 2 n 1 n 2 c = s 2 1/n 1 s 2 1 /n 1 + s 2 2 /n 2 V (α; n 1 1, n 2 1, c) wartość krytyczna testu Behrensa Fishera RP W SET Statystyka 55
Przykład Ocenić różnicę między średnimi wynikami klasówki pań i panów Panowie: n 1 = 138, x1i = 82833, varx 1 = 165841 Panie: n 2 = 162, x2i = 93733, varx 2 = 223348 Populacja 1: Słuchacze podstawowego kursu statystyki Populacja 2: Słuchaczki podstawowego kursu statystyki Cecha X: ilość punktów zdobytych na klasówce Założenie: cecha X ma w populacji 1 rozkład N(µ 1, σ 2 1) cecha X ma w populacji 2 rozkład N(µ 2, σ 2 2) σ 2 1 = σ 2 2 Zadanie: oszacować różnicę µ 1 µ 2 Technika statystyczna: przedział ufności t dla różnicy średnich poziom ufności 095 RP W SET Statystyka 56
Obliczenia s 2 r = x 1 = 060024, x 2 = 057860, 165841 + 223348 138 + 162 2 = 0000175255 ( 1 138 + 1 ) 162 t(005; 298) 196; t(005; 298)s r = 002595 (060024 057860 ± 000034) = ( 000431, 004759) Odpowiedź: µ 1 µ 2 ( 000431, 004759) Wniosek Różnica średnich ilości punktów zdobywanych na klasówce przez panie i panów jest liczbą z przedziału ( 000431, 004759) Zaufanie do tego wniosku wynosi 95% Sugestia Ponieważ przedział obejmuje zero, więc można uznać, że µ 1 = µ 2 RP W SET Statystyka 57
Ocena ilorazu wariancji σ 2 1/σ 2 2 Ocena punktowa: S 2 1/S 2 2 Przedział ufności (poziom ufności 1 α) ( S 2 1 S 2 2 F ( 1 α ) 2 ; n 1 1, n 2 1, S 2 1 S 2 2 F ( α 2 ; n 1 1, n 2 1) ) F (α; u, v) jest stablicowaną wartością krytyczną rozkładu F Snedecora (Fishera Snedecora) F (1 α; u, v) = 1 F (α; v, u) RP W SET Statystyka 58
Przykład Porównać zróżnicowanie ocen wyników klasówek pań i panów Panowie: n 1 = 138, x1i = 82833, varx 1 = 165841 Panie: n 2 = 162, x2i = 93733, varx 2 = 223348 Populacja 1: Słuchacze podstawowego kursu statystyki Populacja 2: Słuchaczki podstawowego kursu statystyki Cecha X: ilość punktów zdobytych na klasówce Założenie: cecha X ma w populacji 1 rozkład N(µ 1, σ 2 1) cecha X ma w populacji 2 rozkład N(µ 2, σ 2 2) Zadanie: oszacować iloraz σ 2 1/σ 2 2 Technika statystyczna: przedział ufności dla ilorazu wariancji poziom ufności 090 RP W SET Statystyka 59
Obliczenia s 2 1 = 165841 138 1 = 001211, s2 2 = 223348 162 1 = 001387, F (005; 137, 161) = 130936 1 F (095; 137, 161) = F (005; 161, 137) 1 = 131386 = 076111 ( ) 001211 001211 076111, 001387 00138 130936 = (066415, 114255) Odpowiedź: σ 2 1/σ 2 2 (066415, 114255) Wniosek Iloraz wariancji ilości punktów zdobywanych na klasówce jest liczbą z przedziału (066415, 114255) Zaufanie do tego wniosku wynosi 90% Sugestia Ponieważ przedział obejmuje jedynkę, więc można uznać, że σ 2 1 = σ 2 2 RP W SET Statystyka 60
Porównanie dwóch rozkładów dwupunktowych Założenia: 1 X 1 D(p 1 ), X 2 D(p 2 ) 2 X 1, X 2 są niezależne Ocena p 1 p 2 Próby: X 11,, X 1n1 ; X 21,, X 2n2 (X ij = 0 lub 1) k 1 = n 1 i=1 X 1i k 2 = n 2 i=1 X 12 ˆp 1 = k 1 /n 1 ˆp 2 = k 2 /n 2 ˆp = (k 1 + k 2 )/(n 1 + n 2 ) Przedział ufności (poziom ufności 1 α) ˆp 1 ˆp 2 u 1 α 2 ( 1 ˆp(1 ˆp) + 1 n 1 n 2 ˆp 1 ˆp 2 + u 1 α 2 ), ( 1 ˆp(1 ˆp) + 1 ) n 1 n 2 RP W SET Statystyka 61
Przykład Oszacować różnicę między niezaliczalnością klasówki ze statystyki przez panie i panów Na podstawie dotychczasowych danych wiadomo, że na 162 pań nie zaliczyło klasówki 46 pań oraz na 138 panów 30 uzyskało ocenę negatywną Populacja 1: Słuchacze podstawowego kursu statystyki Populacja 2: Słuchaczki podstawowego kursu statystyki Cecha X: uzyskanie z klasówki oceny negatywnej Założenie: cecha X ma w populacji 1 rozkład D(p 1 ) cecha X ma w populacji 2 rozkład D(p 2 ) Zadanie: oszacować różnicę p 1 p 2 Technika statystyczna: przybliżony przedział ufności dla różnicy prawdopodobieństw poziom ufności 095: u 0975 = 196 RP W SET Statystyka 62
Obliczenia n 1 = 162 k 1 = 46 n 2 = 138 k 2 = 30 ˆp 1 = k 1 n 1 = 46 162 = 02840 ˆp 2 = k 2 n 2 = 30 138 = 02174 196 ˆp = (k 1 + k 2 ) (n 1 + n 2 ) 02533(1 02533) 300 = (46 + 30) (162 + 138) = 02533 ( 1 162 + 1 ) 138 = 00987 (02840 02174 00987, 02840 02174 + 00987) ( 00321, 01653) Wniosek Różnica prawdopodobieństw jest liczbą z przedziału ( 00321, 01653) Sugestia Ponieważ przedział obejmuje zero, więc odsetki pań i panów niezaliczających klasówki można traktować jako porównywalne RP W SET Statystyka 63
Weryfikacja hipotez statystycznych Przykład Producent pewnych detali twierdzi, że wadliwość jego produkcji nie przekracza 2% Odbiorca pewnej partii tego produktu chce sprawdzić, czy może wierzyć producentowi W jaki sposób ma to zrobić? Krok 1 Zakładamy, że partia ma wadliwość 2% Krok 2 Pobierana jest próba elementów z partii towaru (np 100 elementów) k P {X = k} P {X k} 0 0135335 1000000 1 0270671 0864665 2 0270670 0593994 3 0180447 0323324 4 0090224 0142877 5 0036089 0052653 6 0012030 0016564 7 0004297 0004534 8 0000191 0000237 RP W SET Statystyka 64
Krok 3 (wnioskowanie) Zaobserwowano k = 7 wadliwych: 1 Przypuszczenie jest słuszne i próba pechowa lub 2 Próba jest dobra, a przypuszczenie złe Uznać twierdzenie producenta za nieprawdziwe! Zaobserwowano co najmniej siedem wadliwych Wnioski jak wyżej Ostatecznie: Po zaobserwowaniu więcej niż sześciu wadliwych elementów raczej uznać twierdzenie producenta za nieprawdziwe W przeciwnym przypadku można uznać twierdzenie producenta za uzasadnione RP W SET Statystyka 65
Hipotezą statystyczną nazywamy dowolne przypuszczenie dotyczące rozkładu prawdopodobieństwa cechy w populacji Oznaczenie H 0 Testem hipotezy statystycznej nazywamy postępowanie mające na celu odrzucenie lub nie odrzucenie hipotezy statystycznej Statystyką testową nazywamy funkcję próby na podstawie której wnioskuje się o odrzuceniu lub nie hipotezy statystycznej Rzeczywistość: Wniosek o hipotezie H 0 hipoteza H 0 nie odrzucać odrzucić prawdziwa prawidłowy nieprawidłowy nieprawdziwa nieprawidłowy prawidłowy RP W SET Statystyka 66
Błędem I rodzaju nazywamy błąd wnioskowania polegający na odrzuceniu hipotezy, gdy w rzeczywistości jest ona prawdziwa Błędem II rodzaju nazywamy błąd wnioskowania polegający na nieodrzuceniu hipotezy, gdy w rzeczywistości jest ona fałszywa Poziomem istotności nazywamy dowolną liczbę z przedziału (0, 1) określającą prawdopodobieństwo popełnienia błędu I rodzaju Oznaczenie: α Mocą testu nazywamy prawdopodobieństwo odrzucenia testowanej hipotezy, gdy jest ona nieprawdziwa, czyli prawdopodobieństwo nie popełnienia błędu II rodzaju Oznaczenie: 1 β RP W SET Statystyka 67
Rozkład normalny Porównanie z normą H 0 : µ = µ 0 Cecha X ma rozkład normalny N(µ, σ 2 ) Średnia µ oraz wariancja σ 2 są nieznane Test Studenta (poziom istotności α) Próba: X 1,, X n Statystyka testowa t emp = X µ 0 S Wartość krytyczna t(α; n 1) n Jeżeli t emp > t(α; n 1), to hipotezę H 0 : µ = µ 0 odrzucamy RP W SET Statystyka 68
Przykład Przypuszczenie: maszyna pakująca kostki masła nastawiona na jednostkową masę 250 g uległa po pewnym czasie rozregulowaniu W celu weryfikacji tego przypuszczenia z bieżącej produkcji pobrano próbę otrzymując wyniki 254, 269, 254, 248, 263, 256, 258, 261, 264, 258 Czy można na tej podstawie sądzić, że maszyna uległa rozregulowaniu? Populacja: paczkowane kostki masła Cecha X: masa kostki masła Założenie: cecha X ma rozkład normalny N(µ, σ 2 ) Formalizacja: Rozregulowanie maszyny może być interpretowane jako odejście od nominalnej wagi Zatem należy zbadać, czy średnia µ wynosi 250, czyli weryfikujemy hipotezę H 0 : µ = 250 RP W SET Statystyka 69
Technika statystyczna: test Studenta (test t) poziom istotności α = 005 Obliczenia x = 2585, s 2 = 3605, t emp = 447 Wartość krytyczna: t(005; 9) = 22622 Odpowiedź: hipotezę odrzucamy Wniosek: maszyna uległa rozregulowaniu RP W SET Statystyka 70
Moc testu Moc testu = 1 P {błąd II rodzaju} Moc testu = P {odrzucenie nieprawdziwej H 0 } Moc testu Studenta hipotezy H 0 : µ = µ 0 M(µ) = P { t emp > t(α; n 1) X N(µ, σ 2 )} M(µ 0 ) = α n = 10 n = 20 n = 30 RP W SET Statystyka 71
Przedział ufności a test hipotezy H 0 : µ = µ 0 Cecha X N(µ, σ 2 ) H 0 : µ = µ 0 H 0 nie odrzucamy na poziomie istotności α µ 0 t emp < t(α; n 1) t(α; n 1) < X µ 0 S ( n < t(α; n 1) X t(α; n 1) S n, X + t(α; n 1) S n ) µ 0 należy do przedziału ufności na poziomie ufności 1 α RP W SET Statystyka 72
H 0 : µ µ 0 Cecha X ma rozkład normalny N(µ, σ 2 ) Średnia µ oraz wariancja σ 2 są nieznane Test Studenta (poziom istotności α) Próba: X 1,, X n Statystyka testowa t emp = X µ 0 S Wartość krytyczna t(2α; n 1) n Jeżeli t emp > t(2α; n 1), to hipotezę H 0 : µ µ 0 odrzucamy RP W SET Statystyka 73
H 0 : σ 2 = σ 2 0 Cecha X ma rozkład normalny N(µ, σ 2 ) Średnia µ oraz wariancja σ 2 są nieznane Test chi kwadrat (poziom istotności α) Próba: X 1,, X n Statystyka testowa χ 2 emp = varx σ 2 0 Wartości krytyczne χ 2 ( 1 α 2 ; n 1) oraz χ 2 ( α 2 ; n 1) Jeżeli χ 2 emp < χ 2 ( 1 α 2 ; n 1) lub χ 2 emp > χ 2 ( α 2 ; n 1), to hipotezę H 0 : σ 2 = σ 2 0 odrzucamy RP W SET Statystyka 74
H 0 : σ 2 σ 2 0 Cecha X ma rozkład normalny N(µ, σ 2 ) Średnia µ oraz wariancja σ 2 są nieznane Test chi kwadrat (poziom istotności α) Próba: X 1,, X n Statystyka testowa χ 2 emp = varx σ 2 0 Wartość krytyczna χ 2 (α; n 1) Jeżeli χ 2 emp > χ 2 (α; n 1), to hipotezę H 0 : σ 2 σ 2 0 odrzucamy RP W SET Statystyka 75
Przykład Na podstawie obserwacji prowadzonych przez długi okres czasu stwierdzono, że dzienny udój uzyskiwany w pewnym stadzie krów jest wielkością losową, zaś przeciętny dzienny udój mleka wyraża sie liczbą z przedziału (900, 1200) Rachunek finansowy pokazał, że produkcja mleka jest opłacalna, jeżeli całkowity dzienny udój będzie wynosił nie mniej niż d = 700 l mleka przez co najmniej 280 dni w roku W jaki sposób można zbadać, czy produkcja mleka jest opłacalna? Populacja: Cecha: całkowity dzienny udój Założenia: Cecha X ma rozkład N(µ, σ 2 ) µ d = 900 µ µ g = 1200 RP W SET Statystyka 76
Formalizacja problemu P {X d} p = 280 350 P {X d} = 1 F ( ) d µ σ 1 F ( ) d µd σ 1 F ( ) d µd σ 1 p F ( ) d µd σ 1 p d µ d σ d, µ d oraz p są ustalone, więc F 1 (1 p) = u 1 p σ 2 σ 2 0 = ( ) 2 d µd = 56472 u 1 p Produkcja mleka jest opłacalna, jeżeli wariancja σ 2 dziennych udojów jest większa niż σ 2 0 = 56472 H 0 : σ 2 56472 RP W SET Statystyka 77
Rozkład dwupunktowy Porównanie z normą H 0 : p = p 0 Cecha X ma rozkład D(p) Próba: X 1,, X n (X i = 0 lub = 1) Statystyka testowa Y = n i=1 X i Jeżeli Y k 1 lub Y k 2, to hipotezę H 0 : p = p 0 należy odrzucić Liczby k 1 oraz k 2 dobrane są tak, że jeżeli Y jest zmienną losową o rozkładzie B(n, p 0 ), to P {Y k 1 lub Y k 2 } α RP W SET Statystyka 78
H 0 : p = p 0 Test przybliżony (poziom istotności α) Przypadek: n duże Statystyka testowa u emp = Y np 0 np0 (1 p 0 ) Wartość krytyczna u 1 α/2 Jeżeli u emp > u 1 α/2, to H 0 : p = p 0 odrzucamy RP W SET Statystyka 79
H 0 : p p 0 Test przybliżony (poziom istotności α) Przypadek: n duże Statystyka testowa u emp = Y np 0 np0 (1 p 0 ) Wartość krytyczna u 1 α Jeżeli u emp > u 1 α, to H 0 : p p 0 odrzucamy RP W SET Statystyka 80
Przykład W swojej ofercie sprzedaży stawu rybnego jego właściciel podaje, iż w stawie żyje co najmniej tysiąc karpi Potencjalny nabywca zainteresowany jest sprawdzeniem prawdziwości tego twierdzenia W tym celu wyłowiono sto karpi i po zaobrączkowaniu ich wpuszczono je z powrotem do stawu Po jakimś czasie ponownie odłowiono sto ryb i stwierdzono, że wśród nich jest piętnaście zaobrączkowanych Czy w świetle uzyskanych wyników można reklamę uznać za prawdziwą? Populacja: ryby w stawie Cecha: zaobrączkowanie ryby Założenia: Cecha X ma rozkład D(p) RP W SET Statystyka 81
Formalizacja problemu Jeżeli w stawie żyje co najmniej N ryb, to odsetek zaobrączkowanych jest co najwyżej 100/N Zgodnie z twierdzeniem właściciela, N 1000, czyli odsetek ryb zaobrączkowanych nie przekracza 01 Technika statystyczna Przybliżony test hipotezy H 0 : p 01 Poziom istotności: α = 005 Obliczenia u emp = Y = 15 n = 100 Y np 0 np0 (1 p 0 ) = 15 10 100 01 09 = 16667 Wartość krytyczna: u 1 005 = 16449 Odpowiedź: hipotezę odrzucamy Wniosek: należy uznać, że ogólna liczb ryb w stawie jest mniejsza niż podana w ofercie RP W SET Statystyka 82
Porównanie dwóch rozkładów normalnych Założenia: 1 X 1 N(µ 1, σ 2 1), X 2 N(µ 2, σ 2 2) 2 X 1, X 2 są niezależne Czy µ 1 = µ 2? Czy σ 2 1 = σ 2 2? Próby: X 11,, X 1n1 ; X 21,, X 2n2 X 1, varx 1, s 2 1 = varx 1 n 1 1 X 2, varx 2, s 2 2 = varx 2 n 2 1 RP W SET Statystyka 83
H 0 : µ 1 = µ 2 Założenie σ 2 1 = σ 2 2 Test Studenta (poziom istotności α) Statystyka testowa t emp = X 1 X 2 S r S r = S 2 e ( 1 n 1 + 1 n 2 ), S 2 e = varx 1 + varx 2 n 1 + n 2 2 Wartość krytyczna t(α; n 1 + n 2 2) Jeżeli t emp > t(α; n 1 + n 2 2), to hipotezę H 0 : µ 1 = µ 2 odrzucamy RP W SET Statystyka 84
H 0 : µ 1 = µ 2 Bez założenia σ 2 1 = σ 2 2 Test V Behrensa Fishera (poziom istotności α) Statystyka testowa V = X 1 X 2 S r S r = S 2 1 n 1 + S2 2 n 2 Wartość krytyczna V (α; n 1 1, n 2 1, c) (n 1 n 2 ) c = S 2 1/n 1 S 2 1 /n 1 + S 2 2 /n 2 Jeżeli V > V (α; n 1 1, n 2 1, c), to hipotezę H 0 : µ 1 = µ 2 odrzucamy RP W SET Statystyka 85
Przykład Porównać przeciętne osiągnięcia punktowe pań i panów na klasówce ze statystyki Panowie: n 1 = 138, x1i = 82833, varx 1 = 165841 Panie: n 2 = 162, x2i = 93733, varx 2 = 223348 Populacja 1: Słuchacze podstawowego kursu statystyki Populacja 2: Słuchaczki podstawowego kursu statystyki Cecha X: ilość punktów zdobytych na klasówce Założenia: cecha X ma w populacji 1 rozkład N(µ 1, σ 2 1) cecha X ma w populacji 2 rozkład N(µ 2, σ 2 2) σ 2 1 = σ 2 2 Zadanie: zweryfikować hipotezę H 0 : µ 1 = µ 2 Technika statystyczna: test t poziom istotności 005 RP W SET Statystyka 86
Obliczenia s 2 r = x 1 = 060024 x 2 = 057860 165841 + 223348 138 + 162 2 = 0000175255 ( 1 138 + 1 ) 162 t emp = 060024 057860 0000175255 = 1634 Wartość krytyczna t(005; 298) 196 Odpowiedź: hipotezy nie odrzucamy Wniosek Średnie ilości punktów uzyskiwane przez panie i panów można traktować jako porównywalne RP W SET Statystyka 87
Przedział ufności a test hipotezy H 0 : µ 1 = µ 2 Cecha X 1 N(µ 1, σ 2 1), X 2 N(µ 2, σ 2 2), σ 2 1 = σ 2 2 H 0 : µ 1 = µ 2 H 0 nie odrzucamy na poziomie istotności α t emp < t(α; n 1 + n 2 2) t(α; n 1 + n 2 2) < X 1 X 2 S r < t(α; n 1 + n 2 2) 0 ( X1 X 2 ± t(α; n 1 + n 2 2)S r ) 0 należy do przedziału ufności na poziomie ufności 1 α RP W SET Statystyka 88
Przykład Porównać wartości średnie dwóch cech X 1 oraz X 2 o rozkładach normalnych H 0 : µ 1 = µ 2 Test V Behrensa Fishera (α = 005) Próby: n 1 = 20 x 1 = 7440 s 2 1 = 1541 n 2 = 20 x 2 = 6505 s 2 2 = 8373 V = 7440 6505 1541 20 + 8373 20 = 935 496 = 419 c = 1541/20 1541/20 + 8373/20 = 077 496 = 015 Wartość krytyczna V (005; 19, 19, 015) = 206 Ponieważ V > V (005; 19, 19, 015), więc hipotezę H 0 : µ 1 = µ 2 odrzucamy RP W SET Statystyka 89
H 0 : µ 1 µ 2 Założenie σ 2 1 = σ 2 2 Test Studenta (poziom istotności α) Statystyka testowa t emp = X 1 X 2 S r Wartość krytyczna t(2α; n 1 + n 2 2) Jeżeli t emp > t(2α; n 1 + n 2 2), to hipotezę H 0 : µ 1 µ 2 odrzucamy Bez założenia σ 2 1 = σ 2 2 Test V Behrensa Fishera (poziom istotności α) Statystyka testowa V = X 1 X 2 S r Wartość krytyczna V (2α; n 1 1, n 2 1, c) (n 1 n 2 ) Jeżeli V > V (2α; n 1 1, n 2 1, c), to hipotezę H 0 : µ 1 µ 2 odrzucamy RP W SET Statystyka 90
H 0 : σ 2 1 = σ 2 2 Test F (poziom istotności α) Statystyka testowa F emp = S2 1 S 2 2 Wartości ( krytyczne F 1 α ) 2 ; n 1 1, n 2 1 ( α F 2 ; n 1 1, n 2 1) Jeżeli F emp < F lub F emp > F ( 1 α ) 2 ; n 1 1, n 2 1 ( α 2 ; n 1 1, n 2 1) to hipotezę H 0 : σ 2 1 = σ 2 2 odrzucamy RP W SET Statystyka 91
Uwaga F (1 α; u, v) = 1 F (α; v, u) Reguła: większa wariancja do licznika Jeżeli S 2 1 > S 2 2, to wyznaczana jest statystyka F emp = S2 1 S 2 2 i hipoteza jest odrzucana, gdy F emp > F ( α 2 ; n 1 1, n 2 1) Jeżeli zaś S 2 1 < S 2 2, to wyznaczana jest statystyka F emp = S2 2 S 2 1 i hipoteza jest odrzucana, gdy F emp > F ( α 2 ; n 2 1, n 1 1) RP W SET Statystyka 92
Przykład Dla sprawdzenia stabilności pracy maszyny pobrano dwie próbki: pierwszą w początkowym okresie eksploatacji oraz drugą po miesięcznym okresie pracy tej maszyny Wykonano pomiary wylosowanych produktów i otrzymano wyniki: n 1 = 25, x 1 = 324, s 2 1 = 01447 oraz n 2 = 19, x 2 = 319, s 2 2 = 01521 Zbadać na tej podstawie czy maszyna nie rozregulowała się w trakcie pracy Populacja 1 produkcja maszyny w początkowym okresie Populacja 2 produkcja maszyny po miesiącu eksploatacji Cecha X pomiar produktu Założenia cecha X ma w populacji 1 rozkład N(µ 1, σ 2 1) cecha X ma w populacji 2 rozkład N(µ 2, σ 2 2) RP W SET Statystyka 93
Formalizacja Stabilność pracy maszyny może być mierzona podobieństwem wytwarzanych produktów: im własności produktów są do siebie bardziej zbliżone, tym bardziej stabilna jest praca maszyny Podobieństwo takie jest wyrażane wariancją cechy Zatem stabilność pracy można wyrazić liczbowo jako wariancję interesującej cechy produktu, a problem stabilności jako zagadnienie weryfikacji hipotezy H 0 : σ 2 1 = σ 2 2 Technika statystyczna Test F (poziom istotności α = 010) Obliczenia F emp = s2 2 s 2 1 = 1051 Wartość krytyczna F (005; 19, 24) = 2114 Odpowiedź: hipotezy nie odrzucamy Wniosek: można uznać że maszyna nie rozregulowała się w trakcie pracy RP W SET Statystyka 94
H 0 : σ 2 1 σ 2 2 Test F (poziom istotności α) Statystyka testowa F emp = S2 1 S 2 2 Wartość krytyczna F (α; n 1 1, n 2 1) Jeżeli F emp > F (α; n 1 1, n 2 1) to hipotezę H 0 : σ 2 1 σ 2 2 odrzucamy Uwaga W tym przypadku zasada większa wariancja do licznika nie ma sensu RP W SET Statystyka 95
Porównanie dwóch rozkładów dwupunktowych Założenia: 1 X 1 D(p 1 ), X 2 D(p 2 ) 2 X 1, X 2 są niezależne H 0 : p 1 = p 2 Test przybliżony (poziom istotności α) ˆp 1 = k 1 n 1, ˆp 2 = k 2 n 2, ˆp = (k 1 + k 2 ) (n 1 + n 2 ) Statystyka testowa u emp = ˆp 1 ˆp 2 ˆp(1 ˆp)( 1 n 1 + 1 n 2 ) u emp u 1 α/2 = H 0 : p 1 = p 2 odrzucamy RP W SET Statystyka 96
Przykład Celem badania było porównanie przygotowania z matematyki kandydatów na studia będących absolwentami liceów oraz techników W tym celu spośród kandydatów zdających matematykę wylosowano 400 absolwentów liceów oraz 600 absolwentów techników W wylosowanej grupie stwierdzono, że 385 absolwentów liceów oraz 501 absolwentów techników rozwiązało test wstępny Czy można na tej podstawie sądzić, że przygotowanie w obu grupach absolwentów jest jednakowe? Populacja 1: absolwenci liceów zdający egzamin wstępny Populacja 2: absolwenci techników zdający egzamin wstępny Cecha X: umiejętność rozwiązania testu (tak/nie) Założenia: cecha X ma w populacji 1 rozkład D(p 1 ) cecha X ma w populacji 2 rozkład D(p 2 ) Formalizacja Weryfikacja hipotezy H 0 : p 1 = p 2 RP W SET Statystyka 97
Technika statystyczna Test przybliżony (poziom istotności α = 005) Obliczenia n 1 = 400 k 1 = 385 ˆp 1 = 385/400 = 09625 n 2 = 600 k 2 = 501 ˆp 2 = 501/600 = 08350 u emp = ˆp = (385 + 501)/(400 + 600) = 0886 09625 08350 0886(1 0886) ( 1 400 + ) = 6215 1 600 Wartość krytyczna u 0975 = 196 Odpowiedź: hipotezę H 0 : p 1 = p 2 odrzucamy Wniosek: przygotowanie absolwentów liceów i techników z matematyki nie jest takie same RP W SET Statystyka 98
H 0 : p 1 p 2 Test przybliżony (poziom istotności α) ˆp 1 = k 1 n 1, ˆp 2 = k 2 n 2, ˆp = (k 1 + k 2 ) (n 1 + n 2 ) Statystyka testowa u emp = ˆp 1 ˆp 2 ˆp(1 ˆp)( 1 n 1 + 1 n 2 ) u emp u 1 α = H 0 : p 1 p 2 odrzucamy RP W SET Statystyka 99
Porównanie wielu rozkładów normalnych Założenia: 1 X i N(µ i, σi 2 ), i = 1,, k 2 X 1,, X k są niezależne Czy µ 1 = = µ k? Czy σ 2 1 = = σ 2 k? Próby: X i1,, X ini, i = 1,, k X i, varx i, s 2 i = varx i n i 1 ; i = 1,, k RP W SET Statystyka 100
H 0 : µ 1 = = µ k Założenie σ 2 1 = = σ 2 k Test F (poziom istotności α) Statystyka testowa F emp = S2 a S 2 e S 2 a = 1 k 1 k n i ( X i X) 2 i=1 S 2 e = 1 N k k n i (X ij X i ) 2 i=1 j=1 X i = 1 n i n i X ij, X = 1 N k n i X ij j=1 i=1 j=1 N = k n i i=1 RP W SET Statystyka 101
Jeżeli F emp > F (α; k 1, N k), to hipotezę H 0 : µ 1 = = µ k odrzucamy Wniosek praktyczny: przynajmniej jedna ze średnich µ 1,, µ k jest inna od pozostałych Model analizy wariancji X ij = µ i + ε ij Błąd losowy ε ij N(0, σ 2 ) Przykłady Plenność kilku odmian pewnej rośliny uprawnej Wydajność pracowników kilku zakładów pracy Zarobki kilku grup społecznych Czynnik: odmiana, zakład, grupa Poziomy czynnika: badane odmiany, badane zakłady, badane grupy RP W SET Statystyka 102
Model analizy wariancji X ij = µ + a i + ε ij a i efekt i tego poziomu czynnika: k i=1 a i = 0 H 0 : a 1 = = a k = 0, H 0 : Tabela analizy wariancji k a 2 i = 0 i=1 Źródło Stopnie Sumy Średnie F emp zmienności swobody kwadratów kwadraty Czynnik k 1 vara S 2 a = vara k 1 Błąd losowy N k vare S 2 e = vare N k Ogółem N 1 vart S2 a/s 2 e vara = k n i ( X i X) 2, vare = i=1 k n i (X ij X i ) 2, i=1 j=1 k n i vart = (X ij X) 2, i=1 j=1 vara + vare = vart RP W SET Statystyka 103
Grupy jednorodne podzbiory średnich, które można uznać za takie same Procedury porównań wielokrotnych postępowanie statystyczne zmierzające do podzielenia zbioru średnich na grupy jednorodne Procedury: Tukeya, Scheffégo, Bonfferroniego, Duncana, Newmana Kuelsa i inne Ogólna idea procedur porównań wielokrotnych (n 1 = = n k ) N IR najmniejsza istotna różnica Jeżeli X i X j < NIR, to uznajemy, że µ i = µ j Jeżeli X i X j < NIR X i X l < NIR X l X j < NIR, to uznajemy, że µ i = µ j = µ l Badając w ten sposób wszystkie pary średnich próbkowych otrzymujemy podział zbioru średnich na grupy jednorodne RP W SET Statystyka 104
Procedura Tukeya Założenie: n 1 = = n k = n NIR = t(α; k, N k)s e 1 n t(α; k, N k) wartość krytyczna studentyzowanego rozstępu Przypadek nierównolicznych prób Jedna z modyfikacji procedury Tukeya NIR ij = t(α; k, N k)s e 1 2 ( 1 n i + 1 n j ) RP W SET Statystyka 105
Przykład Przeprowadzić analizę porównawczą wyników punktowych klasówki w grupach studenckich Populacje Możemy wyodrębnić dziesięć populacji indeksowanych numerami grup studenckich Cecha X Ilość punktów uzyskanych na klasówce Założenia cecha X ma w i tej populacji rozkład N(µ i, σ 2 i ) (i = 1,, 10) σ 2 1 = = σ 2 10 Formalizacja weryfikacja hpotezy H 0 : µ 1 = = µ 10 Techniki statystyczna Jednoczynnikowa analiza wariancji Porównania szczegółowe Poziom istotności 005 RP W SET Statystyka 106
Obliczenia i n i xi x 2 i 1 30 18230 11375950 2 30 16672 9596790 3 30 14292 7087458 4 30 18879 12069655 5 30 18200 11355982 6 30 19568 13172884 7 30 16522 9420960 8 30 19134 12514874 9 30 18548 11945964 10 30 16521 9304785 300 176566 107845302 i n i x i n i ( x i x) 2 varx i 1 30 0607667 0010960 0298187 2 30 0555733 0032315 0331604 3 30 0476400 0377351 0278749 4 30 0629300 0049809 0189100 5 30 0606667 0009843 0314649 6 30 0652267 0121782 0409330 7 30 0550733 0042911 0321744 8 30 0637800 0072757 0311209 9 30 0618267 0026486 0478354 10 30 0550700 0042986 0206670 N =300 x=0588553 vara=0787199 vare=3139595 vart = 107845302 176566 2 /300 = 3926794 RP W SET Statystyka 107
Tabela analizy wariancji Źródło Stopnie Sumy Średnie Femp zmienności swobody kwadratów kwadraty Grupa 9 0787199 0087467 8079 Błąd losowy 290 3139595 0010826 Ogółem 299 3926794 Wartość krytyczna F (005; 9, 290) = 1912 Odpowiedź: hipotezę H 0 : µ 1 = = µ 10 odrzucamy Wniosek: przynajmniej jedna grupa uzyskała inną średnią liczbę punktów niż pozostałe RP W SET Statystyka 108
Wyznaczenie grup jednorodnych Procedura Tukeya (α = 005) Wartość krytyczna: t(005; 10, 290) = 4474 NIR = 4474 0010826 1 30 = 0084990 i x i 3 0476400 10 0550700 7 0550733 2 0555733 5 0606667 1 0607667 9 0618267 4 0629300 8 0637800 6 0652267 RP W SET Statystyka 109
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 RP W SET Statystyka 110
Porównanie wariancji Cecha X i ma rozkład normalny N(µ i, σi 2) Średnie µ i oraz wariancje σi 2 są nieznane H 0 : σ 2 1 = = σ 2 k Test Bartletta (poziom istotności α) Statystyka testowa M = (N k) ln ( 1 N k k k (n i 1)Si 2 i=1 ) i=1 (n i 1) ln S 2 i S 2 i = 1 n i 1 n i j=1 (X ij X i ) 2 Jeżeli M > m(α), to H 0 : σ 2 1 = = σ 2 k odrzucamy RP W SET Statystyka 111
m(α) = 1 c 1 c [(c 1 c 3 )m 1 (α; k, c 1 ) + (c 3 c)m 2 (α; k, c 1 )] c 1 = k i=1 1 n i 1 1 N k c 3 = k i=1 1 (n i 1) 1 3 (N k), 3 c = c 3 1/k 2, m 1 (α; k, c 1 ), m 2 (α; k, c 1 ) są stablicowane Jeżeli wszystkie n i > 4, to statystyka testowa M 1 + c 1 /(3(k 1)) ma w przybliżeniu rozkład chi kwadrat z k 1 stopniami swobody Jeżeli c 1 = 0, to m 1 (α; k, c 1 ) = m 2 (α; k, c 1 ) = χ 2 (α; k 1) RP W SET Statystyka 112
Przypadek n 1 = = n k = n Test Cochrana (poziom istotności α) Statystyka testowa G = S 2 max S 2 1 + + S2 k S 2 max = max{s 2 1,, S 2 k} Jeżeli G > g(α; k, n), to H 0 : σ 2 1 = = σ 2 k odrzucamy Wartości krytyczne g(α; k, n) są podane w tablicach RP W SET Statystyka 113
Przypadek n 1 = = n k = n Test Hartleya (poziom istotności α) Statystyka testowa F max = S2 max S 2 min S 2 min = min{s 2 1,, S 2 k} Jeżeli F max > f max (α; k, n), to H 0 : σ 2 1 = = σ 2 k odrzucamy Wartości krytyczne f max (α; k, n) są podane w tablicach RP W SET Statystyka 114
Przykład W celu porównania zróżnicowania cen targowiskowych na jaja w czterech województwach w Polsce z każdego województwa wylosowano pewne ilości targowisk i zanotowano przeciętne ceny jaj na tych targowiskach Po odpowiednich przeliczeniach uzyskano nastepujące wyniki Województwo Liczba targowisk n i Wariancja s 2 i 1 8 900 2 6 400 3 5 400 4 7 1600 Czy można na tej podstawie uznać, że zróżnicowanie cen w badanych województwach jest takie same? Populacje Są cztery populacje: targowiska w badanych województwach Cecha X przeciętna cena jaj na targowisku Założenie cecha w i tej populacji ma rozkład N(µ i, σ 2 i ) (i = 1, 2, 3, 4) RP W SET Statystyka 115
Formalizacja Miernikiem zróżnicowania cechy jest jej wariancja Zatem problem analizy porównawczej zróżnicowania cen można zapisać jako zagadnienie weryfikacji hipotezy H 0 : σ 2 1 = = σ 2 4 Technika statystyczna Test Bartletta (poziom istoności α = 005) Obliczenia n i (n i 1)s 2 i (n i 1)lns 2 i 1/(n i 1) 1/(n i 1) 3 1 8 6300 476168 01429 00029 2 6 2000 299573 02000 00080 3 5 1600 239659 02500 00156 4 7 9600 442666 01667 00046 Razem 26 19500 1458065 07595 00312 M = (26 4) ln ( ) 19500 26 4 1458065 = 35103 c 1 = 07595 c 3 = 00312 1 (26 4) = 07141 1 (26 4) 3 = 00311 c = 071413 4 2 = 00228 RP W SET Statystyka 116
Wartość krytyczna m(005) = m 1 (005; 4, 07141) = 84630 m 2 (005; 4, 07141) = 80972 (07141 00311)84630+(00311 00228)80972 07141 00228 = 84586 Odpowiedź: nie ma podstaw do odrzucenia weryfikowanej hipotezy Wniosek: zróżnicowanie cen targowiskowych w badanych województwach można uznać za takie same RP W SET Statystyka 117
Badanie zgodności z określonym rozkładem H 0 : Cecha X ma rozkład F F jest dowolnym rozkładem prawdopodobieństwa Test chi kwadrat zgodności F jest rozkładem ciągłym Test Kołmogorowa F jest rozkładem normalnym Test Shapiro Wilka RP W SET Statystyka 118
Test Chi kwadrat zgodności (poziom istotności α) Statystyka testowa Klasa Liczebność 1 n 1 2 n 2 k n k χ 2 emp = k i=1 (n i n t i )2 n t i n t i = Np t i, N = k n i, i=1 p t i = P F {X przyjęła wartość z klasy i} Wartość krytyczna χ 2 (α; k u 1) (u jest liczbą nieznanych parametrów hipotetycznego rozkładu F ) Wniosek Jeżeli χ 2 emp > χ 2 (α; k u 1), to hipotezę H 0 odrzucamy RP W SET Statystyka 119
Przykład Pracodawca przypuszcza, że liczba pracowników nieobecnych w różne dni tygodnia nie jest taka sama W tym celu w ciągu pewengo okresu czasu zebrał następujące dane Dzień n i Poniedziałek 200 Wtorek 160 Środa 140 Czwartek 140 Piątek 100 Populacja: Cecha X: dzień nieobecności pracownika Założenie: cecha przyjmuje wartości będące nazwami dni tygodnia (cecha jakościowa) RP W SET Statystyka 120