Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Podobne dokumenty
Materiał dotyczy generowania różnego typu wykresów w środowisku R.

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

1 Podstawy rachunku prawdopodobieństwa

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Analiza struktury i przeciętnego poziomu cechy

Próba własności i parametry

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Miary statystyczne w badaniach pedagogicznych

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka Matematyczna Anna Janicka

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka. Opisowa analiza zjawisk masowych

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

You created this PDF from an application that is not licensed to print to novapdf printer (

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Parametry statystyczne

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Wykład 4: Statystyki opisowe (część 1)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

W1. Wprowadzenie. Statystyka opisowa

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Statystyczne metody analizy danych

Statystyka matematyczna i ekonometria

Statystyczne metody analizy danych

Wykład Prezentacja materiału statystycznego. 2. Rodzaje szeregów statystycznych.

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Wykład 5: Statystyki opisowe (część 2)

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Pozyskiwanie wiedzy z danych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Podstawowe pojęcia statystyczne

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

Wykład 3: Prezentacja danych statystycznych

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wykład ze statystyki. Maciej Wolny

4.2. Statystyczne opracowanie zebranego materiału

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

99 wybranych pytań ze statystyki i odpowiedzi na nie

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Laboratorium 3 - statystyka opisowa

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Opisowa analiza struktury zjawisk statystycznych

Sposoby prezentacji problemów w statystyce

Graficzna prezentacja danych statystycznych

POLITECHNIKA OPOLSKA

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Podstawowe pojęcia cd. Etapy badania statystycznego

Przedmiot statystyki. Graficzne przedstawienie danych.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

POLITECHNIKA OPOLSKA

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Podstawowe definicje statystyczne

Estymacja punktowa i przedziałowa

Statystyki opisowe i szeregi rozdzielcze

Statystyka w pracy badawczej nauczyciela

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Transkrypt:

Statystyczne metody analizy danych Agnieszka Nowak - Brzezińska

SZEREGI STATYSTYCZNE SZEREGI STATYSTYCZNE odpowiednio usystematyzowany i uporządkowany surowy materiał statystyczny. Szeregi statystyczne dzielimy na szeregi: szczegółowe rozdzielcze (punktowe, przedziałowe) czasowe (momentów, okresów)

Szereg rozdzielczy Szereg rozdzielczy to uporządkowany i pogrupowany materiał statystyczny. Poszczególnym wariantom cech ilościowym lub jakościowym przyporządkowane są odpowiadające im liczebności. szereg rozdzielczy punktowy (buduje się przeważnie dla cechy skokowej). szereg rozdzielczy przedziałowy (budowany jest dla cech ciągłych. Złożony jest z przedziałów klasowych, ich granice mogą być domknięte lub otwarte. Rozpiętość przedziału (interwał), jest różnicą między górną i dolną granicą klasy).

Etapy budowy przedziałów w szeregach rozdzielczych przedziałowych mogą być następujące: ustalenie liczby klas Można skorzystać ze wzoru: gdzie: k liczba klas, N liczba obserwacji ustalenie wartości cechy minimalnej i maksymalnej Są to wartości cech odpowiednio najmniejsze (x max ) oraz (x min ), które mogą stanowić początek pierwszego przedziału (x min ) oraz koniec ostatniego (x max ). ustalenie rozpiętości przedziałów klasowych Rozpiętość można wyznaczyć następująco: gdzie: h - rozpiętość przedziału budowa przedziałów klasowych

szereg rozdzielczy punktowy - przykład Badaniu objęto 20 studentów pod względem liczby rodzeństwa. Otrzymano następujące wyniki: 2, 3, 1, 0, 4, 2, 3, 1, 0, 2, 3, 2, 4, 0, 0, 4, 2, 3, 1, 5. Badana cecha (liczba rodzeństwa) jest cechą skokową. W celu utworzeni szeregu rozdzielczego punktowego należy obliczyć liczebność związaną z wariantami badanej cechy.

szereg rozdzielczy przedziałowy - przykład Badaniu objęto 20 pracowników pewnej firmy ze względu na staż pracy. Otrzymano następujące wartości: 12, 20, 2, 15, 16, 30, 6, 21, 5, 13, 12, 25, 4, 16, 21, 23, 14, 18, 16, 9. W tym przypadku wskazana jest budowa szeregu rozdzielczego przedziałowego. Liczbę klas oraz rozpiętość można wyznaczyć z powyrzej podanych wzorów: N=20, xmin=2, xmax=30, k=4 (po zaokrągleniu), h=6 (po zaokrągleniu).

PRZYKŁAD 1 (szereg szczegółowy i szereg rozdzielczy)

SZEREG ROZDZIELCZY PUNKTOWY

ZALECENIA przy grupowaniu w szereg rozdzielczy przedziałowy

Średnia arytmetyczna Średnią arytmetyczną - definiuje się jako sumę wartości cechy mierzalnej podzieloną przez liczbę jednostek skończonej zbiorowości statystycznej. gdzie: n - liczebność zbiorowości próbnej (próby), x i - wariant cechy.

Y Należy pamiętać, że przy pogrupowaniu danych źródłowych w szereg rozdzielczy przedziałowy następuje pewna utrata informacji. Jeżeli policzymy średnią dla szeregu szczegółowego lub szeregu rozdzielczego punktowego, to wynik będzie dokładny i taki sam. Dla danych w postaci szeregu rozdzielczego przedziałowego średnia będzie już przybliżeniem. Tym większym, im szersze są przedziały klasowe, im jest ich mniej, itd.

Ważniejsze własności ŚREDNIEJ arytmetycznej

Średnia geometryczna Średnią geometryczną - stosuje się w badaniach średniego tempa zmian zjawisk, a więc gdy zjawiska są ujmowane dynamicznie.

Moda Modalna (dominanta D, moda, wartość najczęstsza) - jest to wartość cechy statystycznej, która w danym rozdziale empirycznym występuje najczęściej. Dla szeregów szczegółowych oraz szeregów rozdzielczych punktowych modalna odpowiada wartości cechy o największej liczebności (częstości). W szeregach rozdzielczych z przedziałami klasowymi bezpośrednio można określić tylko przedział, w którym modalna występuje, jej przybliżoną wartość wyznacza się graficznie z histogramu liczebności (częstości) lub ze wzoru interpolacyjnego: gdzie: m - numer przedziału (klasy), w którym występuje modalna, - dolna granica przedziału, w którym występuje modalna, n m - liczebność przedziału modalnej, tzn. klasy o numerze m, n m-1 ; n m+1 - liczebność klas poprzedzającej i następnej, o numerach m -1 i m + 1, h m - rozpiętość przedziału klasowego, w którym występuje modalna.

Modalna (Mo) zwana też dominantą (D) jest to wartość cechy, która występuje najczęściej w badanej zbiorowości.

Dominanta Dominanta (modalna, wartość najczęstsza) należy do średnich pozycyjnych i jest taką wartością zmiennej, która w danym rozkładzie empirycznym najczęściej występuje. Zastosowanie Dominanta stosowana jest do wskazania jaka wartość cechy statystycznej ma największą liczebność (jest najbardziej popularna) w określonej zbiorowości. Wyznaczenie modalnej możliwe jest gdy rozkład empiryczny posiada jeden ośrodek dominujący, asymetria rozkładu jest umiarkowana oraz gdy przedział dominanty i dwa sąsiednie mają taki sam interwał (rozpiętość przedziału, czyli wartość różnicy między górną i dolną granicą badanej cechy). dla szeregu szczegółowego i rozdzielczego punktowego W szeregach szczegółowych i rozdzielczych punktowych dominantą jest wartość cechy, której odpowiada największa liczebność. dla szeregu rozdzielczego przedziałowego W szeregach rozdzielczych przedziałowych modalna znajduję się w przedziale o największej liczebności. Dla wyznaczenia konkretnej wartości liczbowej wartości najczęstszej, znajdującej się w danym przedziale zastosowanie ma wzór:

Y Y

Y Y

Y

Modalna możemy wyznaczyć graficznie tak jak to pokazano na rysunku

Modalną wyznaczamy i sensownie interpretujemy tylko wtedy, gdy dane są pogrupowane w szereg rozdzielczy (punktowy lub przedziałowy). 2. Liczebność populacji powinna być dostatecznie duża. 3. Diagram lub histogram liczebności (częstości) ma wyraźnie zaznaczone jedno maksimum (rozkład jednomodalny). 4. Dla danych pogrupowanych w szereg rozdzielczy przedziałowy modalna nie występuje w skrajnych przedziałach (pierwszym lub ostatnim) - przypadek skrajnej asymetrii. Nie da się w takim przypadku analitycznie wyznaczyć modalnej. 5. Dla danych pogrupowanych w szereg rozdzielczy przedziałowy przedział modalnej oraz dwa sąsiednie przedziały (poprzedzający i następujący po przedziale modalnej) powinny mieć taką samą rozpiętość.

Mediana Mediana (Me) - wartość środkowa, inaczej: kwartyl 2 (QII). Jest to taka wartość cechy X, która dzieli zbiorowość na dwie równe części, tj. połowa zbiorowości charakteryzuje się wartością cechy X mniejszą lub równą medianie, a druga połowa większą lub równą. Mediana dla szeregu szczegółowego Szereg musi być posortowany rosnąco!!! Wartość mediany wyznacza się inaczej gdy liczebność populacji (n) jest nieparzysta, a inaczej gdy jest parzysta.

Y Y

Y Y

Kwartyl pierwszy i trzeci Dla szeregu szczegółowego kwartyl pierwszy i trzeci wyznacza się w ten sposób, że w dwóch częściach zbiorowości, które powstały po wyznaczeniu mediany, ponownie wyznacza się medianę; mediana w pierwszej części odpowiada kwartylowi pierwszemu, a w drugiej kwartylowi trzeciemu. Dla szeregu rozdzielczego wyznaczenie kwartyli poprzedza się ustaleniem ich pozycji:

gdzie: m - numer przedziału (klasy), w którym występuje odpowiadający mu kwartyl, - dolna granica tego przedziału, n m - liczebność przedziału, w którym występuje odpowiedni kwartyl, - liczebność skumulowana do przedziału poprzedzającego kwartyl, h m - rozpiętość przedziału klasowego, w którym jest odpowiedni kwartyl.

Dla szeregów szczegółowych

przykład Weźmy dane o liczbie braków: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4 Jak pamiętamy: n=50

Dla szeregów rozdzielczych punktowych

Dla szeregów rozdzielczych przedziałowych

czas dojazdu pracowników firmy Y

Rozstęp Najprostszą i najbardziej intuicyjną miarą zmienności przypadków w populacji próby jest rozstęp. Rozstęp - różnica pomiędzy wartością maksymalną, a minimalną cechy - jest miarą charakteryzującą empiryczny obszar zmienności badanej cechy. W związku z tym, że przy jego obliczeniu ignoruje się wszystkie dane (za wyjątkiem dwóch wartości - minimalnej i maksymalnej), nie daje on jednak informacji o zróżnicowaniu poszczególnych wartości cechy w zbiorowości.

Dla szeregów szczegółowych Weźmy dane z (liczba braków): 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,2, 2, 2, 2, 3, 3, 3, 3, 4, 4

Inny przykład Weźmy dane z innego przykładu 10, 10, 10, 12, 12, 12, 12, 13, 13, 13, 13, 13, 14, 14, 15, 15, 15

Dla szeregów rozdzielczych punktowych

Dla szeregów rozdzielczych przedziałowych

Graficzny opis danych histogramy i wykresy częstości wykresy rozrzutu (scatterplots) wykresy pudełkowe (boxplot)

histogramy Histogram to jeden z graficznych sposobów przedstawienia rozkładu empirycznego cechy. Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Na osi X mamy przedziały klasowe wartości cechy np. dla atrybutu płeć: K, M, na osi Y liczebność tych przedziałów. Dla danych jakościowych Porządkują wiedze o danych analizowanych Pokazują odchylenia w danych Pokazują dane dominujące w zbiorze

Histogram Najpopularniejsza statystyka graficzna. Przedstawia liczności pacjentów w poszczególnych przedziałach (nazywanych tez kubełkami) danej zmiennej. Domyślnie w funkcji histogram liczba kubełków dobierana jest w zależności od liczby obserwacji jak i ich zmienności. Możemy jednak subiektywnie wybrać interesującą nas liczbę kubełków.

Histogram a rodzaj danych Dane jakościowe Dane ilościowe

Wykres punktowy (rozrzutu)

Dla tych samych danych O tym która linia regresji lepiej odwzrowuje dane decyduje współczynnik determinacji R 2.

Wykresy rozrzutu pokazują relację między daną na osi X a daną na osi Y Wykresy rozrzutu też wskazują dobrze odchylenia w danych

Typ korelacji Nieliniowa zależność danych Scatterplot showing no discernable relationship Korelacja ujemna

Wykres pudełkowy Wykres pudełkowy można wyznaczać dla pojedynczej zmiennej, dla kilku zmiennych lub dla pojedynczej zmiennej w rozbiciu na grupy. Wykres przedstawia medianę (środek pudełka), kwartyle (dolna i górna granica pudełka), obserwacje odstające (zaznaczane kropkami) oraz maksimum i minimum po usunięciu obserwacji odstających. Wykres pudełkowy jest bardzo popularną metodą prezentacji zmienności pojedynczej zmiennej.

Co można odczytać z wykresów? Boxplot Kwantyl tak nie Mediana tak nie Wartość min tak tak Wartość max tak tak Wartość cechy tak tak Liczebność nie tak Częstość nie tak Wzajemna korelacja zmiennych nie Histogram tak

Wykres łodygowo-liściowy Diagram łodygowo-listkowy (ang. stemplot lub stemand-leaf diagram) jest graficznym sposobem prezentacji danych ilościowych. Podobnie jak histogram, służy on do przedstawiania kształtu rozkładu, ma jednak nad nim tę przewagę, że przedstawia wszystkie dane, które tworzą rozkład. Diagram łodygowo-listkowy rysuje się w bardzo prosty sposób. Ustalamy najpierw, jakie liczby stanowić będą łodygę, zwykle opuszczając jedną lub dwie cyfry w zapisie dziesiętnym, a następnie sortujemy je rosnąco. Uzyskane liczby zapisujemy w jednej kolumnie, oddzielamy pionową kreską i dopisujemy obok obcięte końcówki liście.

Histogram wykres częstości danych. Wykonamy go za pomocą polecenia: hist()

Scatter plot wykres rozrzutu Wykres rozrzutu punktów na osiach X i Y. plot(x-variable, y-variable)

Box-and-Whisker Plot wykres pudełkowy. boxplot(var1,var2) na wykresie zmienne będą zaprezentowane w takiej kolejności jak argument funkcji boxplot a więc najpierw var1 a potem var2. > boxplot(gnp,invest)

Wykres kołowy (Pie charts) świetnie przedstawiają procentowy rozkład danych. > pie(gnp)

Obowiązkowa lektura http://zsi.tech.us.edu.pl/~nowak/smad/smad_lab4.pdf