y Chapter 1 Statystyka Opisowa Regula trzech sigm [µ 3σ, µ 3σ] N(µ, σ) rozklad ormaly µ sredia σ odchyleie stadardowe µ 3σ, µ 2σ, µ σ, µ µ + σ, µ + 2σ, µ + 3σ x 99.7% obserwacji zdarze losowych alezy do przedzialu [µ 3σ, µ + 3σ] 1.1 Wstȩp Pierwszym i ważym etapem opracowań statystyczych jest zbieraie i prezetacja daych. Najważiejsze dae statystycze podawae s a w każdym roku przez G lówy Urz ad Statystyczy (GUS) z siedzib a w Warszawie. Dotycz a oe iformacji o ludości w Polsce, dae o wzorście w przemys le i rolictwie, w ekoowmi i fiasach. Te dae staowi a waż a iformacjȩ dla plaowaia i admiistracji państwa. Oprócz tego dae statystycze zbierae s a w akietach z pytaiami o szczególym zaczeiu. Na przyk lad w sodażach i progozach w wyborach do sejmu i w ważych decyzjach admiistrcji w których g los spo leczeństwa ma istote zaczeie. Zebrae dae statystycze przedstawiamy w tabelach i ilustrujemy a diagramach. Stosowae s a róże formy diagramów. Najbardziej powszeche diagramy s a w formie s lupków lub ko la z zazaczeiem kolorów lub daych liczbowych lub w procetach. Zatem diagramy s a prostym i ważym sposobem prezetacji daych statystyczych. 1
2 1.2 Dae Statystycze. Diagramy Dae statystycze zapisujemy w tablicach z opisem ich zaczeia wartości liczbowych. Przyk lad 1.1 W zespole szkó l by lo Przedszkole, Szko la Podstawowa i Liceum. W tabeli zebrao iformacje dotycz ace liczby ucziów Rodzaj Szko ly Liczba dziewczy Liczba ch lopców RAZEM Przedszkole 150 100 250 Szko la Podstawowa 250 150 400 Liceum 200 150 350 W iżej przedstawioych diagramach w formie s lupków i ko la podae s a wykresy dziewczy, ch lopców i wykresy razem ucziów w Przedszkolu, w Szkole Podstawowej i w Liceum. Diagram w postaci s lupkȯw. Legeda: Dziewczyy s lupek pierwszy, Ch lopcy s lupek drugi, Liczba ucziów razem s lupek trzeci. Trzy s lupki s a powtórzoe dla każdej z trzech szkȯ l. 400 350 300 250 200 150 100 50 y R R A A R Dzie Z A Z wczȩ Dzie Z Dzie E E Ch lo wczȩ Ch lo E wczȩ Ch lo ta M ta M M ta pcy pcy pcy Pszedszkole Szko la Podstawowa Liceum x Liczba uczȯw w Zespole Szkȯ l: Liczba dziewczy = 600 Liczba ch lopcȯw = 400 Razem dziewczyy+ ch lopcy = 600+400 = 1000
3 Diagram w postaci ko la. Diagram w postaci ko la zawiera astȩpuj ace sekcje: Sekcja Przedszkole : dziewczyy i ch lopcy, Sekcja Szko la : dziewczyy i ch lopcy, Sekcja Liceum : dziewczyy i ch lopcy Przeszkole: Liceum: Przedszkole: Ch lopcy=100 Liceum: dziewczyy=250 Liceum: Ch lopcy=150 Szko la: Szko la: dziewczyy=250 Ch lopcy=150 Przedszkole: dziewczyy = 150 dziewczyy+ch lopcy dziewczyy+ch lopcy 150 + 100 = 250 200+150 = 350 Szko la: dziewczyy+ch lopcy 250 + 150 = 400 1.3 Wartość Średia i Mediaa Ważymi parametrami daych statystyczych s a wartość średia i mediaa. Średia Arytmetycza. Wartości a średi a arytmetycz a daych liczb azywamy liczbȩ a 1, a 2,..., a µ = a 1 + a 2 + + a (1.1) Średia Arytmetycza Ważoa. Bardziej ogólym pojȩciem średiej jest pojȩcie średiej arytmetyczej ważoej. Miaowicie, iech wagami bed a liczby dodatie ρ 1, ρ 2,, ρ takie, że suma ρ 1 + ρ 2 + + ρ = 1, ρ i > 0, i = 1, 2,...,. Wtedy średi a ważo a daych a 1, a 2,..., a azywamy astȩpuj ac a sumȩ iloczyów µ ρ = ρ 1 a 1 + ρ 2 a 2 + + ρ a
4 W przypadku szczególym, gdy wagi s a rówe ρ 1 = ρ 2 = = ρ = 1 wtedy średia arytmytycza ważoa jest poprostu średi a arytmetycz a. Mediaa. Dla daych statystyczych zajdujemy ich mediae to zaczy wartość, która leży w środkowej pozycji daych. Miaowicie, w pierwszej kolejości sortujemy dae porz adkuj ac je od ajmiejszej do ajwiȩkszej lub od ajwiȩkszej do ajmieszej. Wtedy liczba, która leży a pozycji w rówej odleg lości od pocz adku i od końca uporz adkowaych daych azywa siȩ media a. Może zdażyć siȩ że ie ma takiej jedej liczby, atomiast s a dwie liczby obok siebie, które leż a w tej samaej odleg lości pierwsza od pocz adku a druga od końca. Wtedy media a jest ich średia arytmetycza. Niżej, wyjaśiamy to a przyk ladach. Przyk lad 1.2 Rozpatrzmy astȩpuj ace dae: (i) 2, 1, 6, 8, 3, 2, 10, 12, 11 (ii) 9, 4, 2, 7, 5, 1, 3, 10, 15, 17, 16 Rozwi azaie (i). Dae 2, 1, 5, 8, 3, 2, 10, 12, 11 porz adkujemy w kieruku ros acym od ajmieszej do ajwiȩkszej 1, 2, 2, 3, 6, 8, 10, 11, 12 Zauważamy, że liczba 6 jest odleg la od pocz adku o cztery pozycje i od końca rówież o cztery pozycje. Zatem liczba 6 jest media a daych (i). Rozwi azaie (ii). Dae 0, 1, 9, 4, 2, 7, 5, 1, 3, 10, 15, 17, 16 porz adkujemy w kieruku ros acym od ajmieszej do ajwiȩkszej 1, 0, 1, 2, 3, 4, 5, 7, 9, 15, 16, 17 Zauważamy, że liczba 4 jest odleg la od pocz adku o piȩć pozycji, a liczba 5 jest odleg la od końca rówież o piȩć pozycji. Zatem mamy dwie liczby w środku daych 4 i 5. Wtedy media a jest ich średia arytmetycza, to zaczy 1.3.1 Correlacja Rozpatrzmy dwa ci agi daych o tej samej liczbie elemetów. mediaa = 4 + 5 2 = 4.5 a = {a 1, a 2,..., a }, b = {b 1, b 2,..., b },
5 Defiitio 1.1 Correlacjȩ daych a = {a 1, a 2,..., a }, b = {b 1, b 2,..., b }, okreṡlamy astȩpuj acym wzorem: Cor(a, b) = a 1 b 1 + a 2 b 2 + + a b a 2 1 + a 2 2 + + a 2 b 2 1 + b 2 2 + + b 2 = (a, b) a b, (1.2) gdzie iloczy skalary oraz d lugoṡċ daych a, b a = (a, b) = a 1 b 1 + a 2 b 2 + + a b a 2 1 + a 2 2 + + a 2, b = b 2 1 + b 2 2 + + b 2 Dae zapisujemy rówież w ich uormowaej formie. Miaowicie, iech {a 1, a 2,..., a } â = {â 1, â 2,..., â } =, a 2 1 + a 2 2 + + a 2 {b 1, b 2,..., b } ˆb = {ˆb1,ˆb 2,...,ˆb } =, b 2 1 + b 2 2 + + b 2 (1.3) gdzie â 1 = a 1, ˆb1 = b 1, a 2 1 + a 2 2 + + a 2 b 2 1 + b 2 2 + + b 2 a 1 b 2 â 2 =, ˆb2 =, a 2 2 + a 2 2 + + a 2 b 2 1 + b 2 2 + + b 2...... â = a, ˆb = a 2 1 + a 2 2 + + a 2 b b 2 1 + b 2 2 + + b 2 Zauważamy, że dae (1.3) w uormowaej formie spe liaj a astȩpuj ace waruki: â 2 1 + â 2 2 + + â 2 = 1, ; ˆb2 1 + ˆb 2 2 + + ˆb 2 = 1 Wtedy correlacja pomiȩdzy daymi a i b oraz correlacja pomiȩdzy daymi uormowaymi â i ˆb jest ta sama Cor(a, b) = Cor(â,ˆb), Cor(â,ˆb) = â 1 ˆb 1 + â 2 ˆb 2 + + â ˆb Przyk lad 1.3 Oblicz correlacjȩ pomiȩdzy daymi a = {2, 1, 5, 8}, b = {4, 3, 9, 3}
6 Rozwi azaie. Podstawiaj ac do wzoru dae (1.2) a 1 = 2, a 2 = 1, a 3 = 5, a 4 = 8, b 1 = 4, b 2 = 3, b 3 = 9, b 4 = 3 obliczamy wspó lczyik correlacji dla = 4 Cor(a, b) = = a 1 b 1 + a 2 b 2 + + a b, a 2 1 + a 2 2 + + a 2 b 2 1 + b 2 2 + + b 2 2 4 + 1 3 + 5 9 + 8 3 22 + 1 2 + 5 2 + 8 2 4 2 + 3 2 + 9 2 + 3 = 0.769444, 2 Przyk lad 1.4 W klasie czwartej zmierzoo i zważoo 5 dziewczyek i 5 ch lopcȯw. Otrzymae wyiki pomiarȯw zapiasao w tabeli wzrost waga wzrost waga dziewczyek dziewczyek ch lopcȯw ch lopcȯw cm kg cm kg 140 35 142 40 135 30 145 38 132 33 150 45 140 35 142 40 125 30 135 37 (i) Oblicz wspȯ lczyik corelacji pomiȩdzy wzrostem i wag a dla dzewczyek (ii) Oblicz wspȯ lczyik corelacji pomiȩdzy wzrostem i wag a dla ch lopcȯw (iii) Oblicz wspȯ lczyik corelacji pomiȩdzy wzrostem i wag a dla dzewczyek i ch lopcȯw razem. Rozwi azaie (i) Wspȯ lczyik corelacji dla dziewczyek obliczamy podstawiaj ac do wzoru dae dziewczyek gdzie iloczy skalary Cor(a, b) = (a, b) a b, a = {140, 135, 132, 140, 125}, b = {35, 30, 33, 35, 30} (a, b) = a 1 b 1 + a 2 b 2 + a 3 b 3 + a 4 b 4 + a 5 b 5 = 140 35 + 135 30 + 132 33 + 140 35 + 125 30 = 21956
7 oraz d lugoṡċ daych a, b a = 140 2 + 135 2 + 132 2 + 140 2 + 125 2 = 90474 = 300.956 b = 35 2 + 30 2 + 33 2 + 35 2 + 30 2 = 5339 = 73.0685 Sk ad obliczamy wspȯ lczyik corelacji pomiȩdzy wzrostem i wag a dla dziewczyek. Cor(a, b) = (a, b) a b = 21956 = 0.998991 90474 5339 Zadaie 1.1 Oblicz wspȯ lczyik korelacji pomiȩdzy wzrostem i wag a dla ch lopcȯw dla daych z powyższej tabeli wzoruj ac siȩ a rozwi azaiu (i). 1.4 Wariacja i Odchyleie Stadardowe Wariacja. Wariacja σ 2 daych statystyczych a = {a 1, a 2,..., a }, zwi azaa jest z ich średi a arytmetycz a Miaowicie wariacje daych µ = a 1 + a 2 + + a (1.4) okreṡlamy astȩpuj acym wzorem: a = {a 1, a 2,..., a }, σ 2 = (a 1 µ) 2 + (a 2 µ) 2 + + (a µ) 2 (1.5) 1 Odchyleie Stadardowe σ jest pierwiastkiem kwadratowym z wariacji σ = σ 2 (1.6) Przyk lad 1.5 Oblicz wariacje i odchyleie stadardowe astȩpuj acych daych: (i) a = {3, 1, 8, 4}, (ii) b = {12, 4, 8, 6}. Rozwi azaie (i). Rozwi azaie jest prostym i bezpośredim podstawieiem daych do wzorów. Najpierw obliczamy wartość średi a podstawiaj ac do wzoru (1.4) dae (i) = 4 1 Litera grecka σ, czytamy sigma µ = a 1 + a 2 + + a = 3 1 + 8 + 4 4 = 3.5
8 astȩpie obliczamy wariacjȩ podstawiaj ac do wzoru (1.5) µ = 3.5 i dae (i) = 4 σ 2 = (a 1 µ) 2 + (a 2 µ) 2 + + (a µ) 2 = (3 3.5)2 + ( 1 3.5) 2 + (8 3.5) 2 + (4 3.5) 4 oraz odchyleie stadardowe = 10.31 σ = σ 2 = 10.31 = 3.21131 Rozwi azaie (ii). Podobie jak rozwi azaie (i), rozwi azaie (ii) jest prostym i bezpośredim podstawieiem daych do wzorów. Najpierw obliczamy wartość średi a µ = a 1 + a 2 + + a astȩpie obliczamy wariacjȩ = 12 + 4 + 8 + 6 4 = 30 4 = 7.5 σ 2 = (a 1 µ) 2 + (a 2 µ) 2 + + (a µ) 2 = (12 7.5)2 + (4 7.5) 2 + (8 7.5) 2 + (6 7.5) 2 4 = 8.75 oraz odchyleie stadardowe σ = σ 2 = 10.31 = 2.95804 Regu la Trzech Sigm dla ormalego rozk ladu N(µ, σ) okreṡla przedzia ly [µ 3σ, µ + 3σ], [µ 2σ, µ + 2σ], [µ σ, µ + σ], do ktȯrych ależy 99.7% wszystkich obserwowacji zadarzeia losowego. Wyiki obserwacji zdarzeia losowego poza przedzia lem [µ 3σ, µ + 3σ] pojawiaj a siȩ bardzo rzadko.
9 Na podaym wykresie zosta ly zazaczoe wszystkie obserwacje zdarzeia losowego w procetach. y Regula trzech sigm [µ 3σ, µ 3σ] 34.1% 34.1% N(µ, σ) rozklad ormaly µ sredia σ odchyleie stadardowe 13.6% 13.6% 2.1% 2.1% 0.2% 0.2% µ 3σ, µ 2σ, µ σ, µ µ + σ, µ + 2σ, µ + 3σ 99.7% zdarze losowych alezy do przedzialu [µ 3σ, µ + 3σ] 95.4% zdarze losowych alezy do przedzialu [µ 2σ, µ + 2σ] 68.2% zdarze losowych alezy do przedzialu [µ σ, µ + σ] x Przyk lad 1.6 Pracowia krawiecka plaowa la uszycie 1000 mudurkȯw dla dziewczy uczeic szkȯ l podstawowych. W tym celu pracowia wykoa la pomiary wzrostu 10 dziewczy w wieku 7 lat. Wyiki pomiarȯw wzrostu w cetymetrach zosta ly zapisae w postaci listy dae = {140, 131, 132, 138, 145, 135, 141, 135, 143, 130} (i) Oblicz ṡredi a arytmetycz a i odchyleie stadarodowe wzrostu dziewczy. (ii) Stosuj ac regu lȩ trzech sigm oblicz ile mudurkȯw dla dziewczy powia uszyċ pracowia krawiecka w każdym z iżej podaych przedzia lȯw. [µ 3σ, µ + 3σ], [µ 2σ, µ + 2σ], [µ σ, µ + σ], Rozwi azaie (i). Wartoṡċ ṡredi a µ dla dziewczy obliczamy podstawiaj ac do wzoru (1.1) dae z tabeli dla = 10 140 + 131 + 132 + 138 + 145 + 135 + 141 + 135 + 143 + 130 µ = = 137 10 Podobie obliczamy odchyleie stadardowe podstawiaj ac do wzorȯw (1.5), (1.6) dae z tabeli
10 σ = = = (140 137) 2 +(131 137) 2 +(132 137) 2 +(138 137) 2 +(145 137) 2 +(135 137) 2 +(141 137) 2 +(135 137) 2 +(143 137) 2 +(130 1 ( 7) 2 +( 6) 2 +( 5) 2 +(1) 2 +(8) 2 +( 2) 2 +(4) 2 +( 2) 2 +(6) 2 +( 7) 2 = 4.93964 10 Dla dużej iloṡci daych 100 obliczeia ależy wykoaċ w aplikacji Exel lub w iych jȩzykach programowaia jak Pascal, C + + lub Mathematica. Tutaj obliczeia wykoamliṡmy w systemie Mathematica stosuj ac proste istrukcje Mea[dae]; V ariace[dae]; StadardDeviatio[dae] dla daych w postaci listy dae = {140, 131, 132, 138, 145, 135, 141, 135, 143, 130} 10 Rozwi azaie (ii). Z regu ly trzech sigm wiemy, że do przedzia lu [µ σ, µ+σ] ależy 34.134.1% = 68.2% wartoṡci zdarzeṅ losowych. Zatem pracowia krawiecka powia uszyċ w przedzia le od µ σ do µ + σ mudurkȯw 1000 68.2% = 1000 68.2 100 = 682 w przedzia lach od 2µ σ do µ σ i od µ + σ do µ + 2σ 1000 13.6 1000 13.6 1000 13.6% + 1000 13.6% = + = 136 + 136 = 272 100 100 mudurkȯw. w przedzia lach od 2µ σ do µ σ i od µ + σ do µ + 2σ 1000 2.1 1000 2.1 1000 2.1% + 1000 2.1% = + = 21 + 21 = 42 100 100 mudurkȯw. Razem pracowia krawiecka powia uszyċ 682 + 272 + 42 = 994 mudurki z przedzia lu od µ 3σ do µ + 3σ. Pozosta le 6 mudurki pracowia krawiecka powia uszyċ z poza tego przedzia lu.
11 1.5 Zadaia Zadaie 1.2 Oblicz ṡredi a arytmetycze a daych (i) {1, 3, 5, 7, 9}, (ii) {2, 4, 6, 8, 10} Zadaie 1.3 Oblicz ṡredi a arytmetycze a ważo a daych dla wag (i) {1, 3, 5, 7, 9, 11}, (ii) {2, 4, 6, 8, 10, 12} ρ 1 = 8 24, ρ 2 = 6 24, ρ 3 = 4 24, ρ 4 = 3 24, ρ 5 = 2 24, ρ 6 = 1 24 Zadaie 1.4 Marysia i Tomek skoṅczyli oṡmio klasow a szko lȩ podstawow a z oceami z jȩzyka polskiego i matematyki w klasach I-VIII zapiasae w astȩpuj acej tabeli Klasa Marysia Marysia Tomek Tomek j. polski matematyka j. polski matematyka I 6 4 4 5 II 6 3 5 5 III 5 2 4 6 IV 6 3 4 5 V 5 3 4 5 VI 6 3 3 6 VII 6 3 4 5 VIII 6 4 3 6 (i) Oblicz wspȯ lczyik corelacji pomiȩdzy oceȩami z jȩzyka polskiego i matematki dla Marysi (ii) Oblicz wspȯ lczyik corelacji pomiȩdzy oceami z jȩzyka polskiego i matematyki dla Tomka (iii) Oblicz wspȯ lczyik corelacji pomiȩdzy oce a z jȩzyka polskiego dla Marysi i dla Tomka. (iv) Oblicz wspȯ lczyik corelacji pomiȩdzy oce a z matematyki dla Marysi i dla Tomka. Zadaie 1.5 Pracowia krawiecka plaowa la uszycie 1000 mudurkẇ dla ch lopcȯw ucziȯw szkȯ l podstawowych. W tym celu pracowia wykoa la pomiary wzrostu 10 ch lopcȯw w wieku 7 lat. Wyiki pomiarȯw wzrostu w cetymetrach zosta ly zapisae w postaci listy dae = {145, 151, 134, 138, 142, 149, 141, 135, 143, 132} (i) Oblicz ṡredi a arytmetycz a i odchyleie stadarodowe wzrostu ch lopcȯw
12 (ii) Stosuj ac regu lȩ trzech sigm oblicz ile mudurkȯw dla ch lopcȯw powia uszyċ pracowia krawiecka w każdym z iżej podaych przedzia lȯw wzrostu. [µ 3σ, µ + 3σ], [µ 2σ, µ + 2σ], [µ σ, µ + σ],