Podstawy statystyki opisowej

Podobne dokumenty
Podstawy statystyki opisowej

Wykład ze statystyki. Maciej Wolny

Podstawowe pojęcia statystyczne

W1. Wprowadzenie. Statystyka opisowa

Statystyka w pracy badawczej nauczyciela

Wstęp - Podstawowe pojęcia

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Próba własności i parametry

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka matematyczna i ekonometria

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Analiza Danych. Jerzy Stefanowski

Sposoby prezentacji problemów w statystyce

Statystyka Matematyczna Anna Janicka

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki Cz. 1. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Badania Statystyczne

Podstawowe pojęcia cd. Etapy badania statystycznego

Analiza Danych. Jerzy Stefanowski. Wykład dla kierunku Informatyka (1wsze spotkanie) Poznań, 2006/7

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka matematyczna dla leśników

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyczne metody analizy danych

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Wykład z dnia 8 lub 15 października 2014 roku

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

Literatura. Podgórski J., Statystyka dla studiów licencjackich, PWE, Warszawa 2010.

1 Podstawy rachunku prawdopodobieństwa

(C. Gauss, P. Laplace, Bernoulli, R. Fisher, J. Spława-Neyman) Wikipedia 2008

STATYSTYKA. dr Agnieszka Figaj

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Wykład Prezentacja materiału statystycznego. 2. Rodzaje szeregów statystycznych.

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Weryfikacja hipotez statystycznych testy t Studenta

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Biostatystyka, # 1 /Weterynaria I/

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Spis treści 3 SPIS TREŚCI

Wykład 10: Elementy statystyki

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Wykład 3: Prezentacja danych statystycznych

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

You created this PDF from an application that is not licensed to print to novapdf printer (

SYLABUS/ OPIS PRZEDMIOTU

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Przedmiot statystyki. Graficzne przedstawienie danych.

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

STATYSTYKA OPISOWA. Wykład 1

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Graficzna prezentacja danych statystycznych

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Załącznik Nr 1 KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Elementy statystyki i demografii. 2. KIERUNEK: Pedagogika. 3. POZIOM STUDIÓW: I stopień

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Wykład 5: Statystyki opisowe (część 2)

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Pozyskiwanie wiedzy z danych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka. Opisowa analiza zjawisk masowych

Metodologia badań psychologicznych

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Rodzaje badań statystycznych

Opis przedmiotu: Probabilistyka I

Transkrypt:

Podstawy statystyki opisowej JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Aktualizacja 2017

Literatura Podstawowa: Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, Statystyka w zarządzaniu, Amir D. Aczel (tłum), PWN, Warszawa 2000. Uzupełniająca Statystyka praktyczna, Starzyńska Wacława, PWN, 2000. Przystępny kurs statystyki, Stanisz A., 1997.

Wiele innych źródeł

Cóż to jest ta Statystyka?

Cele przedmiotu Praktyczne: Przedstawienie przystępnego wprowadzenia do metod statystycznej analizy danych i zdobycie umiejętności PRAKTYCZNEGO wykorzystania tych metod. Świadomość poprawnego wykorzystania metod (jakie informacje są niezbędnie, aby daną metodę użyć; założenia do spełnienienia; jakie obliczenia należy wykonać) oraz interpretacji wyników. Formalne karta ECTS / KRK Dostępne na stronie WWW Wydziału

Plan wykładu 1. Uwagi wstępne 2. Cel przedmiotu 3. Statystyka i pojęcia z nią związane 4. Statystyka opisowa i wnioskowanie statystyczne 5. Pomiar cech i skale pomiarowe 6. Opracowywanie materiału statystycznego (szeregi ) 7. Graficzne przedstawianie danych 8. Podsumowanie

Statystyka przedmiot i historia Terminy statystyka, statystyk, statystyczny w ich obecnym znaczeniu liczą stokilkadziesiąt lat. Słowo statystyka pochodzi od łacińskiego status, oznaczającym stan państwa. XVI wiek Włochów, których zadaniem było opisanie stanu państwa (włoskie stato ) za pomocą liczb nazywano statiti, a pracę, którą wykonywali statystyką. Statystyka rozumiana jako metoda liczbowego opisu stanu państwa, rozwinęła się dopiero w XVII i XVIII wieku, głównie w Niemczech i Anglii. Spojrzenie spisowo-państwowe książka pruskiego barona Jacoba Friedricha von Bielfelda The Elements of Universal Erudition (1770).

W okresie, gdy powstawały metody statystyki opisowej, rozwijana była równolegle metodologia rachunku prawdopodobieństwa. Matematycy: Pascal (1623-1662), James Bernoulli (1654-1705), Abraham De Moivre (1667-1754), Laplace (1749-1827), Gaus (1777-1855), Joseph Louis Lagrange (1736-1813), Leonhard Euler (1707-1783) - wkład do rozwoju teorii prawdopodobieństwa. Połączenie tych dwóch dziedzin wiedzy zaowocowało powstaniem statystyki matematycznej, i teorią wnioskowania statystycznego.

Współczesne definicje Statystyka nauka zajmująca się metodami badania przedmiotów i zjawisk w ich masowych przejawach oraz ich ilościową, lub jakościową analizą z punktu widzenia dyscypliny naukowej, w której zakres wchodzą (Encyklopedia Powszechna PWN, W-wa, 1987) Zjawiska masowe procesy powtarzające się dużą ilość razy Przykłady: * Procesy gospodarcze (produkcja, konsumpcja, marketing, ), * Zjawiska demograficzne (urodzenia, starzenie się ludności, ), * Produkcja (kontrola jakości), pomiary eksperymentalne,...

Podstawowe pojęcia statystyki Statystyczna analiza danych to przetwarzanie danych oparte na metodach statystycznych. Z uwagi na zróżnicowany charakter danych reprezentujących badane zbiorowości jak i różne cele badań, w praktyce stosuje się różne metody statystyczne. Dwa podstawowe działy statystyki: Statystyka opisowa - obejmuje, metody gromadzenia, danych, ich prezentacji oraz sumarycznego (syntetycznego) opisu zebranego materiału. Statystyka matematyczna - (wnioskowanie statystyczne) zajmuje się metodami wnioskowania o populacji generalnej na podstawie danych pochodzących od jednostek stanowiących jedynie część tej populacji

Zbiorowość, populacja i próba Zbiorowość statystyczna - zbiór elementów (osób, obserwacji, przedmiotów,...) podobnych do siebie pod względem określonych cech (ale nie identycznych) i objętych badaniem statystycznym. Jednorodność badanej grupy - składa się z jednostek, które nie różnią się od siebie z punktu widzenia celu badania. Populacja - zbiór elementów obejmujący wszystkie jednostki będące przedmiotem badań. Badanie pełne vs. częściowe. Próba - podzbiór populacji, obejmujący część jej elementów wybranych w określony sposób (losowy lub celowy). Reprezentatywność badanie, które przeprowadza się na części danych, może być również odniesione wszystkich elementów, które nie są badane.

Typowe obszary badań statystycznych Analiza wyników eksperymentalnych Pomiary charakterystyk algorytmów, programów Ocena jakości produkcji Badania marketingowe Analiza skuteczności nowego leku Badania sondażowe Zarządzanie, ocena grup ludzkich Ekonometria Wiele innych

Lecz również Analiza sieci społecznych i eksploracja zawartości WWW Wyszukiwanie informacji (information retrieval), automatyczne tłumaczenie tekstów (statistical NLP) Rozpoznawanie obrazów Systemy uczące się (machine learning)

Pomiar cech i skale pomiarowe Model pominięcie części cech rzeczywistych badanego zdarzenia oraz akcentowanie tych aspektów, które są szczególnie użyteczne dla celu badania. Pomiar wybranych zmiennych niezbędnym aspektem definiowania modelu. Pomiar - przyporządkowanie liczb lub odpowiednich symboli obiektom zgodnie z określonymi regułami w taki sposób, aby odzwierciedlały one relacje zachodzące między tymi obiektami. Rodzaje pomiarów: 1. Liczba obiektów lub zdarzeń 2. Natężenie lub intensywność występowania pewnej właściwości, którą wykazuje obiekt lub zdarzenie. 3. Częstość (lub częstotliwość) występowania właściwości lub zdarzeń.

Jakie dane analizujemy?

Cechy zmienne - statystyczne Cecha statystyczna to podlegająca badaniu właściwość jednostki statystycznej Także - wielkość losowa charakteryzująca obiekty danej populacji lub interesująca badacza zmienna losowa Klasyfikacja Cechy statystyczne cech Mierzalne (ilościowe) Wyrażone za pomocą wartości liczbowych mianowanych Niemierzalne (jakościowe) Wyrażone w sposób opisowy Ciągłe Mogą przyjąć każdą wartość z pewnego przedziału liczbowego Skokowe (Dyskretne) Przyjmują skończoną, lub przeliczalną liczbę wartości

Skale pomiarowe SKALA NOMINALNA wartości na tej skali nie mają oczywistego uporządkowania (np. płeć), relacją umożliwiającą porównanie jest równoważność (równość) SKALA PORZĄDKOWA wartości mają jasno określony porządek (np. wykształcenie), oprócz równoważności możliwe są relacje porządkujące SKALA PRZEDZIAŁOWA (INTERWAŁOWA) różnice między wartościami mają sensowną interpretację, ale ich iloraz nie ma sensu (np. data urodzenia, temperatura w stopniach Celsjusza) SKALA ILORAZOWA (STOSUNKOWA) nie tylko różnice, ale także ilorazy wielkości mają interpretację (np. masa coś może być dwa razy cięższe), wielkości w skali ilorazowej można dodawać, odejmować i dzielić przez siebie

Skala nominalna

Skala porządkowa

Skale metryczne

zajmuje się metodami Gromadzenia danych statystycznych, (zbiorowości statystyczne), Statystyka opisowa Prezentacji danych statystycznych ( w sposób tabelaryczny i graficzny), Sumarycznego opisu danych statystycznych (za pomocą parametrów statystycznych)

Szereg statystyczny prezentacja danych Zmienna skokowa rzut kostką Jak czytelnie prezentować takie surowe dane? Opis tabelaryczny rozkładu

Inne szeregi statystyczne

Opracowanie materiału statystycznego Klasyfikacja szeregów statystycznych Szeregi statystyczne szczegółowe rozdzielcze czasowe cechy ilościowej cechy jakościowej momentów okresów punktowe przedziałowe geograficzne inne proste skumulowane proste skumulowane

Przykład. W 30 rzutach kostką sześcienną otrzymano liczby oczek: 3 5 6 1 4 6 2 3 5 6 2 6 5 3 5 4 6 6 5 1 5 2 4 3 6 1 1 2 1 3 3 6 wartość ( liczba oczek ) 1 2 3 4 5 6 liczność ( liczba wystąpień ) 5 4 6 3 5 7 częstość 5 30 4 30 6 30 3 30 5 30 7 30

Histogram liczebności grafika prezentacyjna 8 6 4 2 0 1 2 3 4 5 6 Liczba oczek

Tabele czy wykresy Tabele Konieczna analiza pojedynczych wartości Porównywanie wartości Wymagana precyzja przedstawienia danych Lecz na ogół ograniczona liczba punktów pomiarowych Wykresy Przekazanie wiadomości ukrytej w kształcie danych (trendy, wzorce, anomalie, ) Bardziej ogólne spojrzenie na dane niż precyzyjne wartości Pokazanie zależności między wieloma wartościami Częściej większa liczba pomiarów Tabele odwołują się do werbalnego systemu człowieka Bezpośrednie odwołanie sie do wizualnej percepcji

Inne rodzaje wykresów statystycznych Kiedy stosować, który rodzaj wykresu?

Podstawowe wykresy statystyczne 20 15 10 5 0 100% 80% 60% 40% 20% 15 10 R 2 = 0.87 0% 0.0 0.2 0.4 5 0 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 Wykres liniowy (typu szeregu czasowego) Ilustracja zmian wartości zmiennej liczbowej w funkcji czasu (+ porównanie kilku zmiennych) Poszukiwanie trendów, wzorców w przebiegu zmiennej Wykres rozrzutu (Scatter Plot) Badanie współzależności między zmiennymi liczbowymi Wykres słupkowy (Bar Graph) Względne porównanie wielu wartości (zmienne jakościowe lub dyskretyzowane liczbowe) Wiele odmian wykresów Wykres pudełkowy (Box plots) Porównywanie wartości zmiennych liczbowych i ich statystyk opisowych Wykres Kołowy (Pie Chart) Podkreślenie różnicy proporcji części do całości (skala ilorazowa) Stosuj b. ostrożnie, ale rzadko

Jak tworzyć szeregi / histogramy? Szereg rozdzielczy dla zmiennej / cechy liczbowej Tzw. szereg przedziałowy

Przykład. Wiek 25 osób, które ubezpieczyły się w III filarze emerytalnym w pewnym zakładzie pracy: 30, 49, 33, 35, 37, 20, 31, 30, 36, 46, 39, 40, 38, 41, 35, 37, 24, 27, 36, 43, 45, 25, 32, 29, 28. q 21 różnych wartości: diagram rozkładu lat nieczytelny. q Agregacja danych: przedziały wiekowe zawierające wszystkie obserwacje, liczba obserwacji w tych przedziałach.

Przedział Obserwacje Liczność Częstość (klasa) [18,23) 20 1 1/25 = 0,04 [23,28) 24, 27, 25 3 3/25 = 0,12 [28,33) 30, 30, 31, 32, 29, 28 6 6/25 = 0,24 [33,38) 33, 35, 37, 36, 35, 37, 36 7 7/25 = 0,28 [38,43) 39, 40, 38, 41 4 4/25 = 0,16 [43,48) 43, 45, 46 3 3/25 = 0,12 [48,53) 49 1 1/25 = 0,04

procent 30 25 20 15 10 5 0 Histogram 18 28 38 48 58 wiek Prezentacja graficzna wieku pracowników

Przykład doboru przedziałów w szeregu Za książką J.Koronacki, J.Mielniczuk

Opracowanie materiału statystycznego Tworzenie szeregu rozdzielczego z przedziałami klasowymi wymaga ustalenia: liczby klas (k), rozpiętości przedziałów klasowych Rekomendowane wartości liczby klas zależą od liczebności danych (n): według tabeli Liczba obserwacji Liczba klas według wzorów 40-60 60-100 100-200 200-500 6-8 7-10 9-12 11-17 k k k n, 1+ 3,322log n, < 5log n, (W praktyce liczba przedziałów klasowych waha się od kilku do kilkunastu) Przy tworzeniu szeregów rozdzielczych, G. U. Yule i J. S. Neyman zalecają na ogół podział całej zbiorowości na niewielką liczbę klas, około 10-20 (porównaj K. Zając [1994] s. 85).

KONSTRUKCJA HISTOGRAMU q Początkowy wybór długości przedziałów: h = 2,64 IQR n 1/ 3 n = liczność próbki, IQR = rozstęp międzykwartylowy = zakres 50% "środkowych" wartości w próbce q Obserwacja wpływu stopniowego zwiększania lub zmniejszania długości przedziałów na kształt histogramu: 2 α h, α 2 h,... lub α h, α h,... ; α > 1 1

R project tworzenie histogramów Prosty przykład > dane<-c(3,4,5,6,7,7,7,8,8,8,9) > hist(dane,col="red",xlab="wartosci",main="histogram")

Co będzie dalej? Miary statystyki opisowej Wartości centralne / przeciętne Rozproszenie Ocena empirycznych rozkładów zmiennych Związki z rozkładem normalnym zmiennej losowej Asymetria rozkładu Kurtoza Wsparcie obliczeniowe Inne miary

Parametry opisowe -- określanie: przeciętnego poziomu zmiennych - tj. miary przeciętnej (położenia), reprezentującej wszystkie wartości szeregu, zmienności (dyspersji, rozproszenia) wartości zmiennych w obserwowanej zbiorowości, tj. określenie miary zmienności, rozmieszczenia wariantów cechy w zbiorze, przez obliczenie momentów oraz wskazanie skupienia (koncentracji) i spłaszczenia (ekscesu) w stosunku do kształtu krzywej normalnej, przez obliczenie wskaźnika spłaszczenia. w jakim stopniu badany szereg odbiega od idealnej symetrii, tj. określenie miary asymetrii.

Literatura Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyka w zarządzaniu, Amir D. Aczel (tłum), PWN, Warszawa 2000. Przystępny kurs statystyki, Stanisz A., 1997. Po prostu statystyka, Clegg F., 1994. Statystyczna analiza wyników badań, Dobosz M., 2001. I wiele innych

Dziękuję za uwagę Więcej możesz znaleźć na http://www.cs.put.poznan.pl/jstefanowski Czytaj także podręczniki