Podstawy statystyki opisowej JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Aktualizacja 2017
Literatura Podstawowa: Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, Statystyka w zarządzaniu, Amir D. Aczel (tłum), PWN, Warszawa 2000. Uzupełniająca Statystyka praktyczna, Starzyńska Wacława, PWN, 2000. Przystępny kurs statystyki, Stanisz A., 1997.
Wiele innych źródeł
Cóż to jest ta Statystyka?
Cele przedmiotu Praktyczne: Przedstawienie przystępnego wprowadzenia do metod statystycznej analizy danych i zdobycie umiejętności PRAKTYCZNEGO wykorzystania tych metod. Świadomość poprawnego wykorzystania metod (jakie informacje są niezbędnie, aby daną metodę użyć; założenia do spełnienienia; jakie obliczenia należy wykonać) oraz interpretacji wyników. Formalne karta ECTS / KRK Dostępne na stronie WWW Wydziału
Plan wykładu 1. Uwagi wstępne 2. Cel przedmiotu 3. Statystyka i pojęcia z nią związane 4. Statystyka opisowa i wnioskowanie statystyczne 5. Pomiar cech i skale pomiarowe 6. Opracowywanie materiału statystycznego (szeregi ) 7. Graficzne przedstawianie danych 8. Podsumowanie
Statystyka przedmiot i historia Terminy statystyka, statystyk, statystyczny w ich obecnym znaczeniu liczą stokilkadziesiąt lat. Słowo statystyka pochodzi od łacińskiego status, oznaczającym stan państwa. XVI wiek Włochów, których zadaniem było opisanie stanu państwa (włoskie stato ) za pomocą liczb nazywano statiti, a pracę, którą wykonywali statystyką. Statystyka rozumiana jako metoda liczbowego opisu stanu państwa, rozwinęła się dopiero w XVII i XVIII wieku, głównie w Niemczech i Anglii. Spojrzenie spisowo-państwowe książka pruskiego barona Jacoba Friedricha von Bielfelda The Elements of Universal Erudition (1770).
W okresie, gdy powstawały metody statystyki opisowej, rozwijana była równolegle metodologia rachunku prawdopodobieństwa. Matematycy: Pascal (1623-1662), James Bernoulli (1654-1705), Abraham De Moivre (1667-1754), Laplace (1749-1827), Gaus (1777-1855), Joseph Louis Lagrange (1736-1813), Leonhard Euler (1707-1783) - wkład do rozwoju teorii prawdopodobieństwa. Połączenie tych dwóch dziedzin wiedzy zaowocowało powstaniem statystyki matematycznej, i teorią wnioskowania statystycznego.
Współczesne definicje Statystyka nauka zajmująca się metodami badania przedmiotów i zjawisk w ich masowych przejawach oraz ich ilościową, lub jakościową analizą z punktu widzenia dyscypliny naukowej, w której zakres wchodzą (Encyklopedia Powszechna PWN, W-wa, 1987) Zjawiska masowe procesy powtarzające się dużą ilość razy Przykłady: * Procesy gospodarcze (produkcja, konsumpcja, marketing, ), * Zjawiska demograficzne (urodzenia, starzenie się ludności, ), * Produkcja (kontrola jakości), pomiary eksperymentalne,...
Podstawowe pojęcia statystyki Statystyczna analiza danych to przetwarzanie danych oparte na metodach statystycznych. Z uwagi na zróżnicowany charakter danych reprezentujących badane zbiorowości jak i różne cele badań, w praktyce stosuje się różne metody statystyczne. Dwa podstawowe działy statystyki: Statystyka opisowa - obejmuje, metody gromadzenia, danych, ich prezentacji oraz sumarycznego (syntetycznego) opisu zebranego materiału. Statystyka matematyczna - (wnioskowanie statystyczne) zajmuje się metodami wnioskowania o populacji generalnej na podstawie danych pochodzących od jednostek stanowiących jedynie część tej populacji
Zbiorowość, populacja i próba Zbiorowość statystyczna - zbiór elementów (osób, obserwacji, przedmiotów,...) podobnych do siebie pod względem określonych cech (ale nie identycznych) i objętych badaniem statystycznym. Jednorodność badanej grupy - składa się z jednostek, które nie różnią się od siebie z punktu widzenia celu badania. Populacja - zbiór elementów obejmujący wszystkie jednostki będące przedmiotem badań. Badanie pełne vs. częściowe. Próba - podzbiór populacji, obejmujący część jej elementów wybranych w określony sposób (losowy lub celowy). Reprezentatywność badanie, które przeprowadza się na części danych, może być również odniesione wszystkich elementów, które nie są badane.
Typowe obszary badań statystycznych Analiza wyników eksperymentalnych Pomiary charakterystyk algorytmów, programów Ocena jakości produkcji Badania marketingowe Analiza skuteczności nowego leku Badania sondażowe Zarządzanie, ocena grup ludzkich Ekonometria Wiele innych
Lecz również Analiza sieci społecznych i eksploracja zawartości WWW Wyszukiwanie informacji (information retrieval), automatyczne tłumaczenie tekstów (statistical NLP) Rozpoznawanie obrazów Systemy uczące się (machine learning)
Pomiar cech i skale pomiarowe Model pominięcie części cech rzeczywistych badanego zdarzenia oraz akcentowanie tych aspektów, które są szczególnie użyteczne dla celu badania. Pomiar wybranych zmiennych niezbędnym aspektem definiowania modelu. Pomiar - przyporządkowanie liczb lub odpowiednich symboli obiektom zgodnie z określonymi regułami w taki sposób, aby odzwierciedlały one relacje zachodzące między tymi obiektami. Rodzaje pomiarów: 1. Liczba obiektów lub zdarzeń 2. Natężenie lub intensywność występowania pewnej właściwości, którą wykazuje obiekt lub zdarzenie. 3. Częstość (lub częstotliwość) występowania właściwości lub zdarzeń.
Jakie dane analizujemy?
Cechy zmienne - statystyczne Cecha statystyczna to podlegająca badaniu właściwość jednostki statystycznej Także - wielkość losowa charakteryzująca obiekty danej populacji lub interesująca badacza zmienna losowa Klasyfikacja Cechy statystyczne cech Mierzalne (ilościowe) Wyrażone za pomocą wartości liczbowych mianowanych Niemierzalne (jakościowe) Wyrażone w sposób opisowy Ciągłe Mogą przyjąć każdą wartość z pewnego przedziału liczbowego Skokowe (Dyskretne) Przyjmują skończoną, lub przeliczalną liczbę wartości
Skale pomiarowe SKALA NOMINALNA wartości na tej skali nie mają oczywistego uporządkowania (np. płeć), relacją umożliwiającą porównanie jest równoważność (równość) SKALA PORZĄDKOWA wartości mają jasno określony porządek (np. wykształcenie), oprócz równoważności możliwe są relacje porządkujące SKALA PRZEDZIAŁOWA (INTERWAŁOWA) różnice między wartościami mają sensowną interpretację, ale ich iloraz nie ma sensu (np. data urodzenia, temperatura w stopniach Celsjusza) SKALA ILORAZOWA (STOSUNKOWA) nie tylko różnice, ale także ilorazy wielkości mają interpretację (np. masa coś może być dwa razy cięższe), wielkości w skali ilorazowej można dodawać, odejmować i dzielić przez siebie
Skala nominalna
Skala porządkowa
Skale metryczne
zajmuje się metodami Gromadzenia danych statystycznych, (zbiorowości statystyczne), Statystyka opisowa Prezentacji danych statystycznych ( w sposób tabelaryczny i graficzny), Sumarycznego opisu danych statystycznych (za pomocą parametrów statystycznych)
Szereg statystyczny prezentacja danych Zmienna skokowa rzut kostką Jak czytelnie prezentować takie surowe dane? Opis tabelaryczny rozkładu
Inne szeregi statystyczne
Opracowanie materiału statystycznego Klasyfikacja szeregów statystycznych Szeregi statystyczne szczegółowe rozdzielcze czasowe cechy ilościowej cechy jakościowej momentów okresów punktowe przedziałowe geograficzne inne proste skumulowane proste skumulowane
Przykład. W 30 rzutach kostką sześcienną otrzymano liczby oczek: 3 5 6 1 4 6 2 3 5 6 2 6 5 3 5 4 6 6 5 1 5 2 4 3 6 1 1 2 1 3 3 6 wartość ( liczba oczek ) 1 2 3 4 5 6 liczność ( liczba wystąpień ) 5 4 6 3 5 7 częstość 5 30 4 30 6 30 3 30 5 30 7 30
Histogram liczebności grafika prezentacyjna 8 6 4 2 0 1 2 3 4 5 6 Liczba oczek
Tabele czy wykresy Tabele Konieczna analiza pojedynczych wartości Porównywanie wartości Wymagana precyzja przedstawienia danych Lecz na ogół ograniczona liczba punktów pomiarowych Wykresy Przekazanie wiadomości ukrytej w kształcie danych (trendy, wzorce, anomalie, ) Bardziej ogólne spojrzenie na dane niż precyzyjne wartości Pokazanie zależności między wieloma wartościami Częściej większa liczba pomiarów Tabele odwołują się do werbalnego systemu człowieka Bezpośrednie odwołanie sie do wizualnej percepcji
Inne rodzaje wykresów statystycznych Kiedy stosować, który rodzaj wykresu?
Podstawowe wykresy statystyczne 20 15 10 5 0 100% 80% 60% 40% 20% 15 10 R 2 = 0.87 0% 0.0 0.2 0.4 5 0 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 Wykres liniowy (typu szeregu czasowego) Ilustracja zmian wartości zmiennej liczbowej w funkcji czasu (+ porównanie kilku zmiennych) Poszukiwanie trendów, wzorców w przebiegu zmiennej Wykres rozrzutu (Scatter Plot) Badanie współzależności między zmiennymi liczbowymi Wykres słupkowy (Bar Graph) Względne porównanie wielu wartości (zmienne jakościowe lub dyskretyzowane liczbowe) Wiele odmian wykresów Wykres pudełkowy (Box plots) Porównywanie wartości zmiennych liczbowych i ich statystyk opisowych Wykres Kołowy (Pie Chart) Podkreślenie różnicy proporcji części do całości (skala ilorazowa) Stosuj b. ostrożnie, ale rzadko
Jak tworzyć szeregi / histogramy? Szereg rozdzielczy dla zmiennej / cechy liczbowej Tzw. szereg przedziałowy
Przykład. Wiek 25 osób, które ubezpieczyły się w III filarze emerytalnym w pewnym zakładzie pracy: 30, 49, 33, 35, 37, 20, 31, 30, 36, 46, 39, 40, 38, 41, 35, 37, 24, 27, 36, 43, 45, 25, 32, 29, 28. q 21 różnych wartości: diagram rozkładu lat nieczytelny. q Agregacja danych: przedziały wiekowe zawierające wszystkie obserwacje, liczba obserwacji w tych przedziałach.
Przedział Obserwacje Liczność Częstość (klasa) [18,23) 20 1 1/25 = 0,04 [23,28) 24, 27, 25 3 3/25 = 0,12 [28,33) 30, 30, 31, 32, 29, 28 6 6/25 = 0,24 [33,38) 33, 35, 37, 36, 35, 37, 36 7 7/25 = 0,28 [38,43) 39, 40, 38, 41 4 4/25 = 0,16 [43,48) 43, 45, 46 3 3/25 = 0,12 [48,53) 49 1 1/25 = 0,04
procent 30 25 20 15 10 5 0 Histogram 18 28 38 48 58 wiek Prezentacja graficzna wieku pracowników
Przykład doboru przedziałów w szeregu Za książką J.Koronacki, J.Mielniczuk
Opracowanie materiału statystycznego Tworzenie szeregu rozdzielczego z przedziałami klasowymi wymaga ustalenia: liczby klas (k), rozpiętości przedziałów klasowych Rekomendowane wartości liczby klas zależą od liczebności danych (n): według tabeli Liczba obserwacji Liczba klas według wzorów 40-60 60-100 100-200 200-500 6-8 7-10 9-12 11-17 k k k n, 1+ 3,322log n, < 5log n, (W praktyce liczba przedziałów klasowych waha się od kilku do kilkunastu) Przy tworzeniu szeregów rozdzielczych, G. U. Yule i J. S. Neyman zalecają na ogół podział całej zbiorowości na niewielką liczbę klas, około 10-20 (porównaj K. Zając [1994] s. 85).
KONSTRUKCJA HISTOGRAMU q Początkowy wybór długości przedziałów: h = 2,64 IQR n 1/ 3 n = liczność próbki, IQR = rozstęp międzykwartylowy = zakres 50% "środkowych" wartości w próbce q Obserwacja wpływu stopniowego zwiększania lub zmniejszania długości przedziałów na kształt histogramu: 2 α h, α 2 h,... lub α h, α h,... ; α > 1 1
R project tworzenie histogramów Prosty przykład > dane<-c(3,4,5,6,7,7,7,8,8,8,9) > hist(dane,col="red",xlab="wartosci",main="histogram")
Co będzie dalej? Miary statystyki opisowej Wartości centralne / przeciętne Rozproszenie Ocena empirycznych rozkładów zmiennych Związki z rozkładem normalnym zmiennej losowej Asymetria rozkładu Kurtoza Wsparcie obliczeniowe Inne miary
Parametry opisowe -- określanie: przeciętnego poziomu zmiennych - tj. miary przeciętnej (położenia), reprezentującej wszystkie wartości szeregu, zmienności (dyspersji, rozproszenia) wartości zmiennych w obserwowanej zbiorowości, tj. określenie miary zmienności, rozmieszczenia wariantów cechy w zbiorze, przez obliczenie momentów oraz wskazanie skupienia (koncentracji) i spłaszczenia (ekscesu) w stosunku do kształtu krzywej normalnej, przez obliczenie wskaźnika spłaszczenia. w jakim stopniu badany szereg odbiega od idealnej symetrii, tj. określenie miary asymetrii.
Literatura Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyka w zarządzaniu, Amir D. Aczel (tłum), PWN, Warszawa 2000. Przystępny kurs statystyki, Stanisz A., 1997. Po prostu statystyka, Clegg F., 1994. Statystyczna analiza wyników badań, Dobosz M., 2001. I wiele innych
Dziękuję za uwagę Więcej możesz znaleźć na http://www.cs.put.poznan.pl/jstefanowski Czytaj także podręczniki