Podstawy statystyki opisowej JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Aktualizacja 2015/16
Literatura Podstawowa: Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001 (kolejne wydania w ost. latach). Statystyka w zarządzaniu, Amir D. Aczel (tłum), PWN, Warszawa 2000. Uzupełniająca Statystyka praktyczna, Starzyńska Wacława, PWN, 2000. Przystępny kurs statystyki, Stanisz A., 1997.
Literatura Podstawowa: Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, Statystyka w zarządzaniu, Amir D. Aczel (tłum), PWN, Warszawa 2000.
Wiele innych źródeł
Cóż to jest ta Statystyka?
Cele przedmiotu Praktyczne: Przedstawienie przystępnego wprowadzenia do metod statystycznej analizy danych i zdobycie umiejętności PRAKTYCZNEGO wykorzystania tych metod. Świadomość poprawnego wykorzystania metod (jakie informacje są niezbędnie, aby daną metodę użyć; założenia do spełnienienia; jakie obliczenia należy wykonać) oraz interpretacji wyników. Formalne karta ECTS / KRK Dostępne na stronie WWW Wydziału
Wyciąg z karty przedmiotu Celem przedmiotu jest praktyczne wprowadzenie w zagadnienia statystycznej analizy danych i jej zastosowań w informatyce i naukach technicznych: 1. Przekazać studentom postawy wiedzy ze statystyki obejmujące: wstępną analizę danych (w zakresie graficznego przetwarzania danych i miar statystyki opisowej); przejście od modelu probabilistycznego do wnioskowania statystycznego; testowanie hipotez; analizę regresji oraz analizę zależności zmiennych jakościowych. 2. Rozwijać u studentów umiejętności rozwiązywania prostych problemów z zakresu planowania eksperymentów, pozyskania danych łącznie z wykorzystaniem technik losowego wyboru prób, obliczania podstawowych miar statystycznych, oceny wiarygodności wartości tych miar, doboru właściwych testów statycznych dla wyjaśnienia zjawisk reprezentowanych przez dane oraz interpretacji ich wyników. Ponadto zwraca się uwagę na poprawne opracowywanie wyników badania statystycznego. 3. Kształtować umiejętności wykorzystania oprogramowania statystycznego oraz algorytmizacji przetwarzania danych eksperymentalnych.
Forma wykładu Slajdy? Inne materiały?
Plan wykładu 1. Uwagi wstępne 2. Cel przedmiotu 3. Statystyka i pojęcia z nią związane 4. Statystyka opisowa i wnioskowanie statystyczne 5. Pomiar cech i skale pomiarowe 6. Opracowywanie materiału statystycznego (szeregi ) 7. Graficzne przedstawianie danych 8. Podsumowanie
Statystyka przedmiot i historia Terminy statystyka, statystyk, statystyczny w ich obecnym znaczeniu liczą stokilkadziesiąt lat. Słowo statystyka pochodzi od łacińskiego status, oznaczającym stan państwa. XVI wiek Włochów, których zadaniem było opisanie stanu państwa (włoskie stato ) za pomocą liczb nazywano statiti, a pracę, którą wykonywali statystyką. Statystyka rozumiana jako metoda liczbowego opisu stanu państwa, rozwinęła się dopiero w XVII i XVIII wieku, głównie w Niemczech i Anglii. Spojrzenie spisowo-państwowe książka pruskiego barona Jacoba Friedricha von Bielfelda The Elements of Universal Erudition (1770).
Sir John Sinclair (1754-1835) angielski ekonomista i agronom, założyciel i pierwszy prezes angielskiego urzędu do spraw rolnictwa, wydawca i organizator pierwszego spisu statystycznego Szkocji (1791-99). W liście do duchownych Kościoła Szkocji (1790) wyjaśnia, że w Niemczech..badania statystyczne...są prowadzone na bardzo szeroką skalę i dodaje iż badania statystyczne dotyczą...ludności, warunków politycznych, produkcji kraju i innych spraw państwa.. W swojej pionierskiej 21 tomowej pracy Statistical Accounts of Scotland jako pierwszy użył słowa statystyka w języku angielskim
W okresie, gdy powstawały metody statystyki opisowej, rozwijana była równolegle metodologia rachunku prawdopodobieństwa. Matematycy: Pascal (1623-1662), James Bernoulli (1654-1705), Abraham De Moivre (1667-1754), Laplace (1749-1827), Gaus (1777-1855), Joseph Louis Lagrange (1736-1813), Leonhard Euler (1707-1783) wnieśli ogromny wkład do rozwoju teorii prawdopodobieństwa. Połączenie tych dwóch dziedzin wiedzy zaowocowało powstaniem statystyki matematycznej, i teorią wnioskowania statystycznego.
Współczesne definicje Statystyka nauka zajmująca się metodami badania przedmiotów i zjawisk w ich masowych przejawach oraz ich ilościową, lub jakościową analizą z punktu widzenia dyscypliny naukowej, w której zakres wchodzą (Encyklopedia Powszechna PWN, W-wa, 1987) Zjawiska masowe procesy powtarzające się dużą ilość razy Przykłady: * Procesy gospodarcze (produkcja, konsumpcja, marketing, ), * Zjawiska demograficzne (urodzenia, starzenie się ludności, ), * Produkcja (kontrola jakości), pomiary eksperymentalne,...
Można poszukiwać innych definicji Statystyka [łac.], pojęcie używane przede wszystkim w dwóch znaczeniach: numerycznych danych dotyczących wybranej zbiorowości oraz nauki zajmującej się zbieraniem, analizą i interpretacją takich danych. (Wielka Encyklopedia Powszechna stwowe Wydawnictwo Naukowe) Statystyka nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska masowe. (Wikipedia )
Podstawowe pojęcia statystyki Statystyczna analiza danych to przetwarzanie danych oparte na metodach statystycznych. Z uwagi na zróżnicowany charakter danych reprezentujących badane zbiorowości jak i różne cele badań, w praktyce stosuje się różne metody statystyczne. Dwa podstawowe działy statystyki: Statystyka opisowa - obejmuje, metody gromadzenia, danych, ich prezentacji oraz sumarycznego (syntetycznego) opisu zebranego materiału. Statystyka matematyczna - (wnioskowanie statystyczne) zajmuje się metodami wnioskowania o populacji generalnej na podstawie danych pochodzących od jednostek stanowiących jedynie część tej populacji
Zbiorowość, populacja i próba Zbiorowość statystyczna - zbiór elementów (osób, obserwacji, przedmiotów,...) podobnych do siebie pod względem określonych cech (ale nie identycznych) i objętych badaniem statystycznym. Jednorodność badanej grupy - składa się z jednostek, które nie różnią się od siebie z punktu widzenia celu badania. Populacja - zbiór elementów obejmujący wszystkie jednostki będące przedmiotem badań. Badanie pełne vs. częściowe. Próba - podzbiór populacji, obejmujący część jej elementów wybranych w określony sposób (losowy lub celowy). Reprezentatywność badanie, które przeprowadza się na części danych, może być również odniesione wszystkich elementów, które nie są badane.
Badanie statystyczne Celem badania statystycznego jest realizacja jednego, lub kilku wymienionych zadań: poznanie rozkładu zbiorowości pod względem wybranej cechy, lub wybranych cech (analiza struktury), ocena rodzajów związków występujących między cechami (analiza współzależności), poznanie zmian zbiorowości w czasie (analiza dynamiki).
Typowe obszary badań statystycznych Analiza wyników eksperymentalnych Pomiary charakterystyk algorytmów, programów Ocena jakości produkcji Badania marketingowe Analiza skuteczności nowego leku Badania sondażowe Zarządzanie, ocena grup ludzkich Ekonometria Wiele innych
Lecz również Analiza sieci społecznych i eksploracja zawartości WWW Wyszukiwanie informacji (information retrieval), automatyczne tłumaczenie tekstów (statistical NLP) Rozpoznawanie obrazów Systemy uczące się (machine learning)
Pomiar cech i skale pomiarowe Model pominięcie części cech rzeczywistych badanego zdarzenia oraz akcentowanie tych aspektów, które są szczególnie użyteczne dla celu badania. Pomiar wybranych zmiennych niezbędnym aspektem definiowania modelu. Pomiar - przyporządkowanie liczb lub odpowiednich symboli obiektom zgodnie z określonymi regułami w taki sposób, aby odzwierciedlały one relacje zachodzące między tymi obiektami. Rodzaje pomiarów: 1. Liczba obiektów lub zdarzeń 2. Natężenie lub intensywność występowania pewnej właściwości, którą wykazuje obiekt lub zdarzenie. 3. Częstość (lub częstotliwość) występowania właściwości lub zdarzeń.
Jakie dane analizujemy?
Cechy zmienne - statystyczne Cecha statystyczna to podlegająca badaniu właściwość jednostki statystycznej Także - wielkość losowa charakteryzująca obiekty danej populacji lub interesująca badacza zmienna losowa Klasyfikacja Cechy statystyczne cech Mierzalne (ilościowe) Wyrażone za pomocą wartości liczbowych mianowanych Niemierzalne (jakościowe) Wyrażone w sposób opisowy Ciągłe Mogą przyjąć każdą wartość z pewnego przedziału liczbowego Skokowe (Dyskretne) Przyjmują skończoną, lub przeliczalną liczbę wartości
Przykłady cech statystycznych mierzalne ciągłe: wzrost waga czas realizacji mierzalne skokowe liczba pracowników liczba dzieci liczba przedmiotów niemierzalne płeć wykształcenie marka samochodu
Skale pomiarowe SKALA NOMINALNA wartości na tej skali nie mają oczywistego uporządkowania (np. płeć), relacją umożliwiającą porównanie jest równoważność (równość) SKALA PORZĄDKOWA wartości mają jasno określony porządek (np. wykształcenie), oprócz równoważności możliwe są relacje porządkujące SKALA PRZEDZIAŁOWA (INTERWAŁOWA) różnice między wartościami mają sensowną interpretację, ale ich iloraz nie ma sensu (np. data urodzenia, temperatura w stopniach Celsjusza) SKALA ILORAZOWA (STOSUNKOWA) nie tylko różnice, ale także ilorazy wielkości mają interpretację (np. masa coś może być dwa razy cięższe), wielkości w skali ilorazowej można dodawać, odejmować i dzielić przez siebie
zajmuje się metodami Gromadzenia danych statystycznych, (zbiorowości statystyczne), Statystyka opisowa Prezentacji danych statystycznych ( w sposób tabelaryczny i graficzny), Sumarycznego opisu danych statystycznych (za pomocą parametrów statystycznych)
Szereg statystyczny prezentacja danych Zmienna skokowa rzut kostką Jak czytelnie prezentować takie surowe dane? Opis tabelaryczny rozkładu
Inne szeregi statystyczne
Opracowanie materiału statystycznego Klasyfikacja szeregów statystycznych Szeregi statystyczne szczegółowe rozdzielcze czasowe cechy ilościowej cechy jakościowej momentów okresów punktowe przedziałowe geograficzne inne proste skumulowane proste skumulowane
Opracowanie materiału statystycznego Szereg szczegółowy (wyliczający) uporządkowany ciąg obserwowanych wartości badanej cechy statystycznej. Szereg rozdzielczy (strukturalny) materiał statystyczny podzielony na grupy (klasy) według wybranego kryterium, zapisany w postaci tabelarycznej, z podaniem liczebności (lub częstości) każdej z wyodrębnionych grup,. Szeregi rozdzielcze są wynikiem operacji grupowania danych. W przypadku cechy mierzalnej z małą liczbą wariantów cechy tworzy się szeregi rozdzielcze punktowe. Gdy wariantów jest dużo buduje się szeregi rozdzielcze przedziałowe. Szereg rozdzielczy cechy mierzalnej opisuje rozkład empiryczny badanej cechy.
Opracowanie materiału statystycznego Szereg geograficzny (terytorialny) przedstawia rozmieszczenie elementów w przestrzeni. Szereg czasowy (dynamiczny, chronologiczny) przedstawia zmiany wartości badanej cechy w czasie. Szereg skumulowany szereg rozdzielczy, w którym każdej z wyodrębnionych grup została przypisana liczebność (lub częstość) skumulowana.
Przykład. W 30 rzutach kostką sześcienną otrzymano liczby oczek: 3 5 6 1 4 6 2 3 5 6 2 6 5 3 5 4 6 6 5 1 5 2 4 3 6 1 1 2 1 3 3 6 wartość ( liczba oczek ) 1 2 3 4 5 6 liczność ( liczba wystąpień ) 5 4 6 3 5 7 częstość 5 30 4 30 6 30 3 30 5 30 7 30
Histogram liczebności grafika prezentacyjna 8 6 4 2 0 1 2 3 4 5 6 Liczba oczek
Tabele czy wykresy Tabele Konieczna analiza pojedynczych wartości Porównywanie wartości Wymagana precyzja przedstawienia danych Lecz na ogół ograniczona liczba punktów pomiarowych Wykresy Przekazanie wiadomości ukrytej w kształcie danych (trendy, wzorce, anomalie, ) Bardziej ogólne spojrzenie na dane niż precyzyjne wartości Pokazanie zależności między wieloma wartościami Częściej większa liczba pomiarów Tabele odwołują się do werbalnego systemu człowieka Bezpośrednie odwołanie sie do wizualnej percepcji
Inne rodzaje wykresów statystycznych Kiedy stosować, który rodzaj wykresu?
Podstawowe wykresy statystyczne 20 15 10 5 0 100% 80% 60% 40% 20% 15 10 R 2 = 0.87 0% 0.0 0.2 0.4 5 0 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 Wykres liniowy (typu szeregu czasowego) Ilustracja zmian wartości zmiennej liczbowej w funkcji czasu (+ porównanie kilku zmiennych) Poszukiwanie trendów, wzorców w przebiegu zmiennej Wykres rozrzutu (Scatter Plot) Badanie współzależności między zmiennymi liczbowymi Wykres słupkowy (Bar Graph) Względne porównanie wielu wartości (zmienne jakościowe lub dyskretyzowane liczbowe) Wiele odmian wykresów Wykres pudełkowy (Box plots) Porównywanie wartości zmiennych liczbowych i ich statystyk opisowych Wykres Kołowy (Pie Chart) Podkreślenie różnicy proporcji części do całości (skala ilorazowa) Stosuj b. ostrożnie, ale rzadko
Jak tworzyć szeregi / histogramy? Szereg rozdzielczy dla zmiennej / cechy liczbowej Tzw. szereg przedziałowy
Przykład. Wiek 25 osób, które ubezpieczyły się w III filarze emerytalnym w pewnym zakładzie pracy: 30, 49, 33, 35, 37, 20, 31, 30, 36, 46, 39, 40, 38, 41, 35, 37, 24, 27, 36, 43, 45, 25, 32, 29, 28. 21 różnych wartości: diagram rozkładu lat nieczytelny. Agregacja danych: przedziały wiekowe zawierające wszystkie obserwacje, liczba obserwacji w tych przedziałach.
Przedział Obserwacje Liczność Częstość (klasa) [18,23) 20 1 1/25 = 0,04 [23,28) 24, 27, 25 3 3/25 = 0,12 [28,33) 30, 30, 31, 32, 29, 28 6 6/25 = 0,24 [33,38) 33, 35, 37, 36, 35, 37, 36 7 7/25 = 0,28 [38,43) 39, 40, 38, 41 4 4/25 = 0,16 [43,48) 43, 45, 46 3 3/25 = 0,12 [48,53) 49 1 1/25 = 0,04
procent 30 25 20 15 10 5 0 Histogram 18 28 38 48 58 wiek Prezentacja graficzna wieku pracowników
Jak stworzyć szereg przedziałowy Rozważmy problem przedsiębiorstwa ALFA
Przedsiębiorstwo ALFA
Przedsiębiorstwo ALFA Inne możliwości prezentacji
Opracowanie materiału statystycznego Przybliżoną rozpiętość przedziałów klasowych (przy założeniu ich jednakowej rozpiętości) podaje wzór h x max k x min Rzeczywiste rozpiętości przedziałów powinny być nieco większe, ponieważ: muszą być rozłączne, ich suma powinna obejmować wszystkie obserwacje, najmniejsza obserwowana wartość cechy powinna znajdować się w pobliżu środka pierwszego przedziału klasowego. Dla cechy ciągłej nie mogą występować klasy bez elementów. Wykorzystując komputerowe pakiety statystyczne można w trybie interaktywnym modyfikować omawiane parametry i generować różne szeregi rozdzielcze, co umożliwia lepsze poznanie rozkładu empirycznego badanej cechy.
Opracowanie materiału statystycznego Tworzenie szeregu rozdzielczego z przedziałami klasowymi wymaga ustalenia: liczby klas (k), rozpiętości przedziałów klasowych Rekomendowane wartości liczby klas zależą od liczebności danych (n): według tabeli Liczba obserwacji Liczba klas według wzorów 40-60 60-100 100-200 200-500 6-8 7-10 9-12 11-17 k k k 1 n, 3,322log 5log n, n, (W praktyce liczba przedziałów klasowych waha się od kilku do kilkunastu) Przy tworzeniu szeregów rozdzielczych, G. U. Yule i J. S. Neyman zalecają na ogół podział całej zbiorowości na niewielką liczbę klas, około 10-20 (porównaj K. Zając [1994] s. 85).
KONSTRUKCJA HISTOGRAMU Początkowy wybór długości przedziałów: h 2,64 IQR n 1/ 3 n = liczność próbki, IQR = rozstęp międzykwartylowy = zakres 50% "środkowych" wartości w próbce Obserwacja wpływu stopniowego zwiększania lub zmniejszania długości przedziałów na kształt histogramu: 2 h h,,... lub h, h,... ; 1 1 2
Mała długość przedziału to : nieregularność histogramu Duża długość przedziału to: za duże wygładzenie histogramu Przy ustaleniu kompromisu pomiędzy zbyt dużym wygładzeniem histogramu (redukcją informacji) a dużą nieregularnością histogramu pomocne są dodatkowe informacje o naturze obserwowanego zjawiska, np. obserwacje z kilku różnych populacji mogą dawać histogramy wielomodalne. Początek histogramu: najmniejsza obserwacja stanowi środek pierwszego przedziału. Uśredniając kilka histogramów o nieznacznie przesuniętych początkach można uniezależnić się od wpływu początku histogramu na jego kształt.
Przykład doboru przedziałów w szeregu Za książką J.Koronacki, J.Mielniczuk
Przykład doboru przedziałów w szeregu Za książką J.Koronacki, J.Mielniczuk
R project tworzenie histogramów Prosty przykład > dane<-c(3,4,5,6,7,7,7,8,8,8,9) > hist(dane,col="red",xlab="wartosci",main="histogram")
Powoli.
Co będzie dalej? Miary statystyki opisowej Wartości centralne / przeciętne Rozproszenie Ocena empirycznych rozkładów zmiennych Związki z rozkładem normalnym zmiennej losowej Asymetria rozkładu Kurtoza Wsparcie obliczeniowe Inne miary
Miary położenia wartości przeciętne średnia arytmetyczna miary położenia klasyczne średnia harmoniczna średnia geometryczna pozycyjne modalna kwantyle kwartyl pierwszy mediana kwartyl trzeci centyle
Literatura Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyka w zarządzaniu, Amir D. Aczel (tłum), PWN, Warszawa 2000. Przystępny kurs statystyki, Stanisz A., 1997. Po prostu statystyka, Clegg F., 1994. Statystyczna analiza wyników badań, Dobosz M., 2001. I wiele innych
Dziękuję za uwagę Więcej możesz znaleźć na http://www.cs.put.poznan.pl/jstefanowski Czytaj także podręczniki