Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński
Opracowanie materiału statystycznego Szereg rozdzielczy częstości uzyskujemy zastępując liczebności przez odpowiadające im częstości (częstości względne) częstość = (liczebność grupy) / (liczebność łączna) Szereg rozdzielczy częstości dla prezentowanych danych ma postać przedział 70-90 90-110 110-130 130-150 150-170 170-190 190-210 częstość 0,07 0,10 0,25 0,30 0,14 0,09 0,04 w ujęciu procentowym przedział 70-90 90-110 110-130 130-150 150-170 170-190 190-210 częstość 7% 10% 25% 30% 14% 9% 4%
Opracowanie materiału statystycznego Szeregi rozdzielcze skumulowane przedział 70-90 90-110 110-130 130-150 150-170 170-190 190-210 liczebność skumulowana 5 12 29 50 60 66 69 przedział 70-90 90-110 110-130 130-150 150-170 170-190 190-210 częstość skumulowana 0,07 0,17 0,42 0,72 0,87 0,96 1,00 przedział 70-90 90-110 110-130 130-150 150-170 170-190 190-210 częstość skumulowana (%) 7% 17% 42% 72% 87% 96% 100%
Opracowanie materiału statystycznego Tworzenie szeregu rozdzielczego z przedziałami klasowymi wymaga ustalenia: liczby klas (k), rozpiętości przedziałów klasowych Rekomendowane wartości liczby klas zależą od liczebności danych (n): według tabeli Liczba obserwacji Liczba klas 40-60 60-100 100-200 200-500 6-8 7-10 9-12 11-17 według wzorów k k n 1 3,322log n (W praktyce liczba przedziałów klasowych waha się od kilku do kilkunastu)
Opracowanie materiału statystycznego Przybliżoną rozpiętość przedziałów klasowych (przy założeniu ich jednakowej rozpiętości) podaje wzór h x Max k x min Rzeczywiste rozpiętości przedziałów powinny być nieco większe, ponieważ: muszą być rozłączne, ich suma powinna obejmować wszystkie obserwacje, najmniejsza obserwowana wartość cechy powinna znajdować się w pobliżu środka pierwszego przedziału klasowego. Dla cechy ciągłej nie mogą występować klasy bez elementów. Wykorzystując komputerowe pakiety statystyczne można w trybie interaktywnym modyfikować omawiane parametry i generować różne szeregi rozdzielcze, co umożliwia lepsze poznanie rozkładu empirycznego badanej cechy.
Opracowanie materiału statystycznego Prezentacja graficzna danych Alternatywną formą prezentacji szeregów statystycznych są wykresy. W zależności od potrzeb i typu danych wykorzystuje się różne typy wykresów (słupkowe, liniowe, kołowe, kartogramy itp.) W przypadku szeregów rozdzielczych punktowych najczęściej stosuje się wykres słupkowy, bądź kołowy. Ich konstrukcję ilustruje poniższy przykład.
Prezentacja materiału statystycznego Przykład 1.4 (prezentacja graficzna danych jakościowych) Liczby studentów w kraju na różnych kierunkach studiów w roku ak. 1990/91 oraz 1997/98 podane są w tabeli. Wykonamy: wstępną analizę danych wykresy słupkowe (procentowe, ilościowe) wykresy kołowe
Prezentacja materiału statystycznego Tablica danych Grupa kierunków rok 1990/91 rok1997/98 liczba % liczba % pedagogiczne 99552 18,3 91100 7,2 humanistyczne 69088 12,7 110565 8,7 prawne i nauki społeczne nauki ścisłe i przyrodnicze 133824 24,6 566475 44,8 144704 26,6 292110 23,1 medyczne 81600 15,0 95550 7,6 pozostałe 15232 2,8 109200 8,6 ogółem 544000 100,0 1265000 100,0
Prezentacja materiału statystycznego Opis danych surowych: 2 próbki o licznościach n 1 = 544000 oraz n 2 = 1365000 cecha jakościowa: grupa kierunków studiów 6 kategorii (atrybutów) cechy atrybuty: grupa kierunków pedagogicznych, humanistycznych, medycznych,... Najliczniejsze grupy kierunków: nauki ścisłe i przyrodnicze w 1990/91 roku prawo i nauki społeczne w 1997/98 roku Procentowy udział klasy (liczność klasy / liczność próbki) x 100 % = częstość x 100 %
Prezentacja materiału statystycznego Wykres słupkowy Wykres słupkowy procentowego udziału grup kierunków studiów w roku akad. 1990/91 50,0 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 pedagogiczne humanistyczne praw ne i nauki społeczne nauki ścisłe i przyrodnicze medyczne pozostałe rok 1990/91
Prezentacja materiału statystycznego Wykres słupkowy 50,0 Wykres słupkowy procentowego udziału grup kierunków studiów w roku akad. oraz 1997/98 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 pedagogiczne humanistyczne praw ne i nauki społeczne nauki ścisłe i przyrodnicze medyczne pozostałe rok1997/98
Prezentacja materiału statystycznego Połączony wykres słupkowy 50,0 Wykres słupkowy procentowego udziału grup kierunków studiów w roku akad. 1990/91 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 pedagogiczne humanistyczne praw ne i nauki społeczne nauki ścisłe i przyrodnicze medyczne pozostałe rok 1990/91 rok1997/98
Prezentacja materiału statystycznego Wykres kołowy Wykres kołowy procentowego udziału grup kierunków studiów w roku akad. 1990/91 medyczne 15% pozostałe 3% pedagogiczne 18% humanistyczne 13% nauki ścisłe i przyrodnicze 26% prawne i nauki społeczne 25%
Prezentacja materiału statystycznego Wykres kołowy Wykres kołowy procentowego udziału grup kierunków studiów w roku akad. 1997/98 medyczne 8% pozostałe 9% pedagogiczne 7% humanistyczne 9% nauki ścisłe i przyrodnicze 23% praw ne i nauki społeczne 44%
Prezentacja materiału statystycznego Wykresy kołowe Wykres kołowy procentowego udziału grup kierunków studiów w roku akad. 1990/91 Wykres kołowy procentowego udziału grup kierunków studiów w roku akad. 1997/98 medyczne 15% pozostałe 3% pedagogiczne 18% medyczne 8% pozostałe 9% pedagogiczne 7% humanistyczne 9% nauki ścisłe i przyrodnicze 26% prawne i nauki społeczne 25% humanistyczne 13% nauki ścisłe i przyrodnicze 23% praw ne i nauki społeczne 44%
Wykres słupkowy Przykład 1.5 Tablica xx. Wartość eksportu krajów członkowskich UE w okresie2006 I-X (ceny bieżące w mld EUR) 800,0 700,0 600,0 500,0 400,0 300,0 200,0 100,0 0,0 Belgia Republika Czeska Dania Niemcy Estonia Grecja Hiszpania Francja Irlandia Włochy Cypr Łotwa Litwa Luksemburg Węgry Malta Niderlandy Austria Polska Portugalia Słowenia Słowacja Finlandia Szwecja Źródło: http://www.stat.gov.pl/cps/rde/xbcr/gus/publ_unia_europejska_wskazniki_krotkookresowe_01_2007.xls Wielka Brytania
Wykres kołowy Przykład 1.5 Tablica xx. Wartość eksportu krajów członkowskich UE w okresie2006 I-X (ceny bieżące w mld EUR) Szwecja Finlandia Słowacja Słowenia Portugalia Polska Wielka Brytania Belgia Republika Czeska Dania Austria Niemcy Niderlandy Malta Węgry Luksemburg Litwa Łotwa Cypr Włochy Irlandia Francja Estonia Grecja Hiszpania Źródło: http://www.stat.gov.pl/cps/rde/xbcr/gus/publ_unia_europejska_wskazniki_krotkookresowe_01_2007.xls
Prezentacja materiału statystycznego Ograniczenia wykresów kołowych: można przedstawić jedynie dane procentowe w próbce musi być co najmniej 1 obserwacja każdej kategorii (łączna suma pól wycinków musi stanowić 100 % pola powierzchni koła) mało czytelne przy dużej liczbie kategorii analiza dwóch wykresów kołowych bardziej kłopotliwa niż połączonego wykresu słupkowego.
Prezentacja materiału statystycznego Szeregi rozdzielcze przedziałowe są prezentowane za pomocą: Histogramów, Diagramów (wieloboków liczebności), Krzywych liczebności (lub częstości). Histogram to wykres słupkowy, w którym podstawy prostokątów, leżące na osi odciętych, odpowiadają przedziałom klasowym, natomiast wysokości są określone na osi rzędnych przez odpowiadające im liczebności (bądź częstości). Diagram jest łamaną powstałą przez połączenie punktów, których współrzędnymi są środki przedziałów klasowych i odpowiadające im liczebności (lub częstości). Krzywa liczebności to wygładzony wielobok liczebności.
PREZENTOWANIE DANYCH Histogram Jest pewnym rozwinięciem tabeli liczności. Szczególnie przydatny do prezentowania dużej ilości danych liczbowych i kategorialnych.
Histogram PREZENTOWANIE DANYCH 31,820 33,100 33,780 34,650 34,870 35,530 36,750 32,010 33,120 33,790 34,690 34,880 35,620 36,680 32,010 33,260 33,790 34,690 34,900 35,780 36,780 32,050 33,260 33,790 34,720 34,920 35,790 36,850 32,230 33,280 33,820 34,720 34,960 35,860 38,520 32,600 33,300 33,820 34,810 35,090 36,120 32,950 33,360 33,860 34,810 35,120 36,250 33,030 33,540 33,950 34,810 35,160 36,560 33,050 33,560 34,210 34,860 35,280 36,560 33,060 33,750 34,220 34,870 35,290 36,590
Histogram PREZENTOWANIE DANYCH Procedura rysowania histogramu: 1. Posortowanie danych w porządku od najmniejszej do największej: nasze dane są już tak ustawione 2. Wyznaczenie wartości najmniejszej i największej: w naszym zbiorze wartość najmniejsze x min = 31,820, wartość największa x Max = 38,520
Histogram PREZENTOWANIE DANYCH Procedura rysowania histogramu: 3. Obliczenie szerokości zakresu, w jakim pojawiają się dane (rozstępu): R = x Max x min = 38,520-31,820 = 6,7 4. Wyznaczenie liczby przedziałów: ilość przedziałów = pierwiastek(ilość pomiarów) = pierwiastek(65) = 8,06 8 UWAGA! Zasady tej nie stosujemy przy dużej liczbie pomiarów (>100). Zasadniczo liczba przedziałów powinna się mieścić w przedziale <6,12>
Histogram PREZENTOWANIE DANYCH Procedura rysowania histogramu: 5. Ustalenie szerokości przedziałów: szerokość przedziału = rozstęp/(liczba przedziałów) = 6,7/8 = 0,83 1 Otrzymaną wartość zaokrąglamy w taki sposób, aby narysowany histogram był jak najbardziej czytelny (tutaj do wartości 1)
Histogram PREZENTOWANIE DANYCH Procedura rysowania histogramu: 6. Rozpisanie przedziałów i obliczenie, ile w każdym z nich znajduje się wyników: Przedział wartości Ilość wyników w przedziale (31,32] 1 (32,33] 6 (33,34] 21 (34,35] 17 (35,36] 10 (36,37] 9 (37,38] 0 (38,39] 1
Histogram PREZENTOWANIE DANYCH Procedura rysowania histogramu: 6. Narysowanie wykresu: w zależności od liczby wyników w poszczególnych przedziałach, rysuje się odpowiednią wysokość słupka.
Ilość wystąpień. Histogram PREZENTOWANIE DANYCH 25 20 15 10 5 0 (31,32] (32,33] (33,34] (34,35] (35,36] (36,37] (37,38] (38,39] Przedział
Prezentacja materiału statystycznego Przykład 1.6 (prezentacja graficzna danych ilościowych) Histogram przedstawiający szereg rozdzielczy z przykładu 1.3 25 20 liczba sklepów 15 10 5 0 70-90 90-110 110-130 130-150 150-170 170-190 190-210 powierzchnie użytkowe sklepów Uwaga! Kształt histogramu dla szeregu częstości jest identyczny
Prezentacja materiału statystycznego Diagram szeregu rozdzielczego z przykładu 1.3 25 20 liczba sklepów 15 10 5 0 70-90 90-110 110-130 130-150 150-170 170-190 190-210 powierzchnie użytkowe sklepów
Prezentacja materiału statystycznego Histogram oraz diagram przedstawiający szereg rozdzielczy przedziałowy z przykładu 1.3 25 20 liczba sklepów 15 10 5 0 70-90 90-110 110-130 130-150 150-170 170-190 190-210 powierzchnie użytkowe sklepów
Prezentacja materiału statystycznego Krzywa liczebności szeregu rozdzielczego z przykładu 1.3 25 20 liczba sklepów 15 10 5 0 70-90 90-110 110-130 130-150 150-170 170-190 190-210 powierzchnie użytkowe sklepów
Prezentacja materiału statystycznego Histogram przedstawiający szereg rozdzielczy skumulowany z przykładu 1.3 80 70 skumulowana liczba sklepów 60 50 40 30 20 10 0 70-90 90-110 110-130 130-150 150-170 170-190 190-210 powierzchnia użytkowa sklepów
Prezentacja materiału statystycznego Diagram szeregu rozdzielczego skumulowanego z przykładu 1.3 (wykres dystrybuanty empirycznej) 80 70 skumulowana liczba sklepów 60 50 40 30 20 10 0 70-90 90-110 110-130 130-150 150-170 170-190 190-210 powierzchnia użytkowa sklepów
Uwagi do konstrukcji wykresów 40% 35% 30% 25% 20% 15% 10% 5% 0% poniżej 10 10-20 21-49 50-99 100-249 250-499 500-999 ponad 999 liczba pracujących Źródło: Opracowanie własne na podstawie danych GUS Bilansowe wyniki finansowe podmiotów gospodarczych za 2005 r.. http://www.stat.gov.pl/gus/45_817_plk_html.htm Rysunek xx. Przedsiębiorstwa według liczby pracujących
Zmienność. 12 10 Rozkład symetryczny 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Asymetria dodatnia (prawostronna 16 14 12 10 8 6 4 2 Asymetria ujemna (lewostronna) 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 1 2 3 4 5 6 7 8 9 10 11 12
Typy rozkładów (histogramów)
Typy rozkładów (histogramów) Amodalny = skrajnie asymetryczny
Typy rozkładów (histogramów)
PODSTAWY DANE I ICH PREZENTACJA PREZENTOWANIE DANYCH Wykres punktowy Tabela. Dane z pomiarów x w zależności od głębokości. Pomiary w próbce Głębokość, m 1 2 3 4 5 1 32,76 33,37 36,54 36,20 36,74 2 32,72 33,11 35,11 36,58 36,40 3 32,70 33,15 36,02 35,24 36,43 4 32,69 33,25 35,59 36,14 36,72 5 32,67 33,20 36,03 35,52 36,55 x wielkość badana (zagęszczenie)
PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36 35.5 x, Uziarnien g /m 2 35 34.5 34 33.5 33 32.5 32 1410 1420 1430 1440 1450 1460 1470 1480 1490 1 2 3 4 5 Obroty [obr/min] Głębokość h, m Rys. Wykres punktowy zależności pomiędzy x a h.
Dziękuję za uwagę Podstawowe pojęcia statystyki Patrz Rozdz. X. Elementy statystyki matematycznej w skrypcie T. M. Molenda: Elementy matematyki wyższej http://dydfiz.univ.szczecin.pl/plik/tmolenda_el_matematyki_rozdz_x.pdf Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński