Elementy statystyki opisowej sposoby prezentacji danych statystycznych Statystyka to nauka zajmująca się badaniem zjawisk masowych. Wyodrębnia się w niej dwa działy: statystykę opisową i statystykę matematyczną. Statystyka opisowa zajmuje się zagadnieniami związanymi z gromadzeniem i prezentacją danych oraz badaniem własności populacji na podstawie pobranych prób losowych. Statystyka matematyczna zajmuje się modelami matematycznymi używanymi do badań masowych. Gdy przeprowadzamy badanie ankietowe lub dokonujemy innych pomiarów, badań empirycznych, otrzymujemy zestaw wyników, tzw. zestaw danych statystycznych. Badaniem statystycznym nazywamy ogół prac, których celem jest poznanie prawidłowości charakteryzujących określoną zbiorowość statystyczną. Przedmiotem badań w statystyce jest zbiorowość statystyczna, zwana też populacją. Jednostki statystyczne to elementy badanej zbiorowości. Cecha statystyczna to własność, ze względu na którą prowadzimy badanie statystyczne pewnej zbiorowości, służąca do różnicowania jednostek statystycznych. Ćwiczenie 1. Wśród cech statystycznych wyróżniamy cechy mierzalne i niemierzalne. Ze zbioru następujących cech charakteryzujących człowieka: wzrost, waga, kolor oczu, kolor włosów, odwaga, wiedza, wiek, numer noszonego obuwia, poczucie humoru wskaż te, które uważasz za mierzalne, oraz te, które uważasz za niemierzalna. Przykład 1. Przyjmijmy, że celem badania statystycznego jest poznanie struktury mieszkańców wsi. Rozwiązanie. Przystępując do badań, definiujemy: zbiorowość statystyczną - będą nią wszyscy ludzie mieszkający na wsi, jednostkę statystyczną - stanowi ją każdy człowiek mieszkający na wsi, cechy statystyczne - np. wiek, wykształcenie, źródło utrzymania. Uwaga Prowadząc badania statystyczne pewnej zbiorowości (populacji), wybieramy reprezentatywną jej podgrupę, zwaną próbą. Próbę zwykle poddajemy bezpośrednim badaniom, a wyniki uogólniamy na całą populację. Gdy badamy próbę ze względu na określoną cechę statystyczną, otrzymujemy wyniki, które nazywamy danymi statystycznymi surowymi. Ćwiczenie 2. W pewnym mieście poddano obserwacji płeć noworodków. Wśród 720 urodzonych dzieci jest 450 chłopców i 270 dziewcząt. Przedstaw graficznie te informacje na różne sposoby. a) Odczytaj z informacji, kto chętniej wyraża zgodę na uczestnictwo swojego dziecka w Przystanku Woodstock": kobiety czy mężczyźni? b) Co która z kobiet nie ma zdania na temat udzielenia zgody swojemu dziecku na udział w Przystanku Woodstock"? Ćwiczenie 4. W tabeli poniżej podano liczbę godzin, jakie przeciętny człowiek czynny zawodowo przeznacza na poszczególne czynności w ciągu jednej doby. Czynność Sen Praca Dojazd do pracy 1 z Posiłki Inne czynności lub czas pracy wolny Czas w godzinach 8 8 1 1 6 Wyniki badań statystycznych przedstaw na diagramie słupkowym lub kołowym.
leżenie 5. Wyszukaj w prasie, internecie, ulotkach, książkach itp. przykłady danych prezentowanych w różnych postaciach. Uwaga. Wybór sposobu przedstawienia wyników badań na ogół nie jest przypadkowy, zależy od tego, jaki rodzaj danych i komu będziemy je prezentować. Przykład 4. Struktura wiekowa populacji ludzi, zwierząt, roślin lub innych organizmów żywych określa udział w populacji osobników różnych grup wiekowych. Przedstawia się ją najczęściej w postaci piramidy (rysunek na następnej stronie), ilustrującej ilościowy lub procentowy udział osobników (osób) poszczególnych grup wiekowych albo faz rozwojowych. Ćwiczenie 6. Wyszukaj w prasie, literaturze lub w internecie dziesięć różnych przykładów prezentacji wyników badań statystycznych. Oceń, który z nich (Twoim zdaniem) informuje o wynikach badań w sposób najbardziej czytelny, i odpowiedź uzasadnij. Zadania utrwalające 7.1. W tabeli poniżej podane są najczęściej używane języki świata (w roku 1995) oraz liczby (w milionach) ludzi posługujących się tymi językami na co dzień. Język chińs ki angiel ski hindi hiszpań ski rosyjs ki arab ski bengal ski portuga lski japoń ski niemie cki Liczba (w milionach) ludzi 1102 507 355 350 289 203 190 186 127 122 posługujących się Językiem Wiedząc, że w 1995 na Ziemi żyło około 5,71 miliarda ludzi, ustal, jaka część ludności świata używała na co dzień: a) języka angielskiego, b) języka chińskiego lub rosyjskiego, c) języka hiszpańskiego lub portugalskiego. Wynik podaj z dokładnością do 0,01.
7.3. Na poniższym diagramie prostokątnym przedstawione jest rozmieszczenie ludności świata (w procentach) w roku 1994 oraz prognoza rozmieszczenia ludności w roku 2050. Szacuje się, że w latach 1994-2050 liczba ludzi na Ziemi wzrośnie trzykrotnie. Uwzględniając dane przedstawione na diagramach: a) sprawdź, czy według prognozy zaludnienie Australii się zmniejszy, czy zwiększy, b) wskaż kontynent, na którym w roku 2050 może mieszkać najmniej ludzi, c) sprawdź, czy w łatach 1994-2050 będzie taki rok, w którym liczba mieszkańców Europy i Ameryki Łacińskiej z Karaibami będzie taka sama. 7.4. Na poniższych rysunkach przedstawione są piramidy ilustrujące strukturę płci i wieku ludności, jaka była w roku 1985 w krajach wysoko rozwiniętych i krajach rozwijających się oraz prognozę struktury populacji w tych krajach w roku 2025.
a) Określ, jakiego rodzaju populacją była ludność krajów wysoko rozwiniętych w roku 1985 i czy w 2025 roku to może się zmienić. b) Określ, jakiego rodzaju populacją była w roku 1985 ludność krajów rozwijających się i czy w 2025 roku to może się zmienić. Porządkowanie danych statystycznych i miary tendencji centralnej Przeprowadzając wstępną analizę zbioru (zestawu) danych statystycznych, które są zbiorem liczb, np. 4, 3, 5, 4, 3, 2, 3, 6, 5, 4, 3, 4, postępujemy następująco. DEF: Medianą m e (wartością środkową) zestawu uporządkowanych niemale-jąco danych statystycznych jt,, x 2,..., x n nazywamy liczbę (należącą do zbioru danych lub nienależącą do tego zbioru), która dzieli ten zestaw danych na dwie części o równej liczebności. Jeśli liczba danych n jest:
DEF: Dominantą m0 (modą, modalną) zestawu danych statystycznych nazywamy tę wartość cechy statystycznej, która w zestawie danych występuje najczęściej (najliczniej). Uwaga. Jeśli w zestawie danych statystycznych kilka z nich występuje z taką samą największą liczebnością, to przyjmujemy, że każda z tych wartości jest dominantą. Jeśli wszystkie wartości w zestawie występująz taką samą liczebnością, to przyjmujemy, że zestaw nie ma dominanty.
Ćwiczenie 7. Wyznacz medianę, dominantę i rozstęp R zbioru (zestawu) danych statystycznych: a) 4, 15, 7, 9, 5, 8, 3, b) 1,7; 2,4; 3,8; 0,6; 4,5; 3,2. Przykład 6. Zapytano grupę piętnastu uczniów: Jaką ocenę z matematyki miałeś(aś) na koniec roku szkolnego w poprzedniej klasie?". Otrzymano piętnaście wyników: 3, 4, 3, 5, 6, 2, 4, 5, 2, 5, 3, 2, 2, 4, 5. a) Uporządkuj niemałej a co otrzymane wyniki, podaj ich medianę (wartość środkową) oraz rozstęp. b) Sporządź tabelę liczebności i tabelę częstości otrzymanych wyników. c) Ustal dominantę (modę) otrzymanych wyników. d) Przedstaw otrzymane wyniki w postaci diagramu prostokątnego. Rozwiązanie, a) Porządkujemy dane od najmniejszej do największej. c) Ponieważ najwięcej uczniów wśród badanej grupy na koniec roku w poprzedniej klasie miało ocenę 2 lub 5, więc oceny 2 i 5 są dominantami otrzymanych danych statystycznych. Ćwiczenie 8. Grupie dwudziestu osób zadano pytanie: Ile czasopism kupujesz w ciągu jednego miesiąca?". Otrzymano następujące wyniki: l, 0, 4, 2, 0, 2, 5, 3, 4, 3, 5, 0, 0, l, 3, 2, 4, 2, 3, 0. a) Uporządkuj niemalejąco otrzymane wyniki, podaj ich medianę oraz rozstęp. b) Utwórz tabelę liczebności i tabelę częstości otrzymanych wyników. c) Ustal dominantę (modę) otrzymanych wyników. d) Przedstaw otrzymane wyniki w postaci diagramu prostokątnego.
Uwaga. Wszystkie obliczenia statystyczne, jeśli zestaw danych jest liczny (powyżej trzydziestu), można wykonywać na odpowiednich kalkulatorach lub z wykorzystaniem odpowiednich programów komputerowych (np. Excel). Przykład 7, Grupie uczniów liczącej 800 osób, którzy na egzaminie dojrzałości w roku 1997 otrzymali ocenę pozytywną, zadano pytanie: Czy przygotowując się do matury, korzystałeś z podręczników szkolnych?". Możliwe odpowiedzi to: wcale", rzadko", często", bardzo często". Liczebność poszczególnych odpowiedzi przedstawiono w tabeli obok. a) Oblicz częstość występowania każdej z odpowiedzi. b) Sporządź słupkowy diagram liczebności oraz słupkowy diagram częstości. Wartość x, cechy (możliwe odpowiedzi) wcale 160 Liczba uczniów n, rzadko 280 często bardzo często 240 120 Rozwiązanie, a) Uzupełniamy tabelę liczebności poszczególnych odpowiedzi o dodatkową kolumnę, w której podamy częstość każdej z odpowiedzi. Przykład 8, Przeprowadzono sondaż na próbie 40 uczniów szkoły. Każdy z nich odpowiadał na pytanie: Ile przeczytałeś książek w ciągu minionego miesiąca?". Oto odpowiedzi kolejnych uczniów: 5, l, 2, 0, 5, 4, 4, l, l, l, 2, 0, 0, 0, 3, l, l, 2, 5, 4, 6, 4, 0, l, 2, 2, 5, 2, l, 2, 3, 0, 2, 4, 3, 2, 2, 3, 0, 1. Przedstaw wyniki sondażu na diagramie kolumnowym.
Ćwiczenie 9. Grupie liczącej 1000 osób w wieku od 16 do 18 lat zadano pytanie: Jakie filmy oglądasz najchętniej?" i poproszono o zakreślenie jednej odpowiedzi: filmy kostiumowe filmy obyczajowe filmy kryminalne filmy przyrodnicze Liczebność odpowiedzi przedstawia tabela obok. a) Filmy jakiego rodzaju ogląda najczęściej młodzież w wieku 16-18 lat? b) Sporządź słupkowy diagram częstości. filmy popularnonaukowe filmy science fiction Wartość x, cechy Liczebność n, filmy kostiumowe filmy kryminalne filmy obyczajowe filmy przyrodnicze filmy popularnonaukowe filmy science fiction 60 250 80 140 220 250 Ćwiczenie 10. Pracowników pewnego biura zapytano: Ile filiżanek kawy wypijasz dziennie?". Wyniki przedstawiono w postaci tabeli liczebności (tabela poniżej). a) Podaj, ile osób brało udział w badaniu. b) Wyniki badania zapisz w postaci uporządkowanych niemałej a co danych i podaj ich medianę oraz rozstęp. c) Oblicz częstości wypijanych przez pracowników biura dziennie filiżanek kawy. Wartość x f cechy (liczba wypitych kaw) 0 5 1 6 2 7 3 4 Liczebność n, (liczba osób) d) Sporządź słupkowy diagram częstości wypijanych filiżanek kawy dziennie przez pracowników biura. Przykład 9. Wykonano 50 rzutów sześcienną kostką do gry i uzyskano następujące liczby wyrzuconych oczek: 4, 3, 2, 3, 3, l, 2, 2, 5, 4, 3, 3, 5, 2, 5, l, 3, l, 5, 6, 2, l, 6, 3, l, 3, 3, 5, 3, 6, 5, l, 4, 4, 2, 3, l, 6, 4, 5, 2, 3, 5, 5, 6, 2, 3, 3, 4, 4. a) Przedstaw wyniki rzutów kostką w postaci tabeli liczebności i tabeli częstości liczby uzyskanych oczek. b) Wskaż dominantę (modę) uzyskanych wyników. c) Oblicz medianę uzyskanych wyników. Rozwiązanie, a) Tworzymy tabelę liczebności i częstości.
Z liczebności skumulowanej odczytujemy, że na miejscu 25. i 26. będzie wynik rzutu trzy" (bo 15 < 25 < 29 i 15 < 26 < 29 ), więc liczba 3 jest medianą liczby wyrzuconych oczek. Odp.: b) m0=3, c) me =3. Ćwiczenie 11, Wykonano 40 rzutów sześcienną kostką do gry i uzyskano następujące liczby oczek: l, 5, 3, l, 4, 2, 6, 3, 2, 6, 4, l, 2, 6, 2, 3, 5, 2, l, 4, 5, 3, 5, 4, 6, 5, 5, 6, 6, 4, 6, 4, 4, 5, 3, 5, 5, 6, 6, 2. a) Sporządź tabelę liczebności i tabelę częstości liczby uzyskanych oczek. b) Sporządź diagram liczebności i diagram częstości liczby wyrzuconych oczek. c) Wskaż dominantę (modę) i oblicz medianę uzyskanych wyników.
Uwzględniając dane przedstawione na diagramie: a) ustal cztery najczęściej występujące na Ziemi pierwiastki i podaj, jaką stanowią one część jej masy, b) podaj dwa niemetale, które stanowią prawie trzy czwarte masy Ziemi, c) podaj pierwiastek, który jest dominantą w składzie chemicznym Ziemi, i podaj wartość tej dominanty, przyjmując, że masa Ziemi m z jest równa 5,9749-l O 24 kg. 7.7. Badania wykazały, że zachorowanie ludzi na raka płuc jest zależne od liczby papierosów wypalonych w ciągu dnia. Badaniami objęto grupę ludzi powyżej 18. roku życia. Wśród niepalących zachorowalność osiąga 2%. Wśród palących od l do 9 papierosów dziennie zachorowalność sięga 10%. Wśród palących od 10 do 19 papierosów dziennie zachorowalność sięga 18%. Wśród palących od 20 do 39 papierosów dziennie zachorowalność sięga 30%. Wśród palących ponad 40 papierosów dziennie zachorowalność sięga 40%. Sporządź diagram słupkowy obrazujący powyższe dane i wywieś go w szkolnej gablocie. 7.8. Grupie liczącej 40 uczniów zadano pytanie: Ile godzin dziennie spędzasz przed komputerem?". Oto odpowiedzi kolejnych uczniów: 5, l, 2, 0, 5, 4, 4, l, l, l, 2, 0, 0, 0, 3, l, l, 2, 5, 4, 6, 4, 0, l, 2, 2, 5, 2, l, 2, 3, 0, 2, 4, 3, 2, 2, 3, 0, 1. a) Sporządź tabelę liczebności i tabelę częstości otrzymanych wyników. b) Podaj medianę oraz rozstęp otrzymanych wyników. c) Ustal dominantę (modę) otrzymanych wyników. d) Sporządź słupkowy diagram liczebności. 7.9. W wyniku analizy kart bibliotecznych uczniów klasy pierwszej stwierdzono, że w ciągu roku szkolnego: dziewczęta wypożyczyły następujące liczby książek: 21, 9, 11, 16, 8, 14, 22, 29, 20, 15, 13, 2, 7, 15, 6, 11, chłopcy wypożyczyli następujące liczby książek: 17, 6, 18, 24, 9, 8, 15, 20, 26, 8, 19, 3, 12, 7. a) Uporządkuj niemałej a co otrzymane wyniki, oddzielnie dla dziewcząt i chłopców. Podaj medianę i rozstęp wyników dla każdej z grup. b) Sporządź tabelę liczebności i tabelę częstości wyników dla każdej z grup. c) Wskaż dominanty (jeśli istnieją) wyników dla każdej z grup. d) Utwórz tabelę liczebności i tabelę częstości wyników dla całej klasy. Ustal medianę, rozstęp i dominantę (jeśli istnieje) wyników. 7.10. Zapytano uczniów pewnej klasy, ile razy byli w kinie w ubiegłym miesiącu, i otrzymane wyniki przedstawiono na diagramie (rysunek obok). a) Ilu uczniów liczyła klasa? b) Podaj dominantę, medianę oraz rozstęp otrzymanych wyników. c) Sporządź tabelę liczebności i tabelę częstości wyników.