Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Podobne dokumenty
2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Przedmiot statystyki. Graficzne przedstawienie danych.

Laboratorium 3 - statystyka opisowa

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Statystyka opisowa- cd.

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

1 Podstawy rachunku prawdopodobieństwa

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Wykład 4: Statystyki opisowe (część 1)

Statystyka Matematyczna Anna Janicka

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Wykład 5: Statystyki opisowe (część 2)

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Miary statystyczne w badaniach pedagogicznych

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Parametry statystyczne

Analiza statystyczna w naukach przyrodniczych

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Próba własności i parametry

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Pozyskiwanie wiedzy z danych

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Podstawy statystyki - ćwiczenia r.

Statystyczne metody analizy danych

Opisowa analiza struktury zjawisk statystycznych

You created this PDF from an application that is not licensed to print to novapdf printer (

Wydział Nauki o Zdrowiu. Zakład Profilaktyki Zagrożeń Środowiskowych i Alergologii Marta Zalewska

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

W1. Wprowadzenie. Statystyka opisowa

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Rozkłady zmiennych losowych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyki opisowe i szeregi rozdzielcze

Xi B ni B

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Wykład 10. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Estymacja punktowa i przedziałowa

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Statystyka matematyczna dla leśników

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Skrypt 29. Statystyka. Opracowanie L2

Analizy wariancji ANOVA (analysis of variance)

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

STATYSTYKA POWTÓRZENIE WIADOMOŚCI

Statystyka. Opisowa analiza zjawisk masowych

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Statystyka matematyczna i ekonometria

Analiza struktury i przeciętnego poziomu cechy

Emerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł)

Statystyczne sterowanie procesem

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

Podstawowe definicje statystyczne

Wykład 2. Transformacje (przekształcenia) danych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład 2. Standaryzacja: Przykład: wpływ stałej addytywnej: odejmujemy 20. Liniowa transformacja zmiennych. Liniowa transformacja zmiennych, cd.

Transkrypt:

12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa Wykład 3 Dr inż. Adam Deptuła

METODY OPISU DANYCH ILOŚCIOWYCH SKALARNYCH Wykresy: diagramy, histogramy, łamane częstości, wykresy przebiegu. Przykład. W stu kolejnych rzutach kostką sześcienną otrzymano wyniki (próbkę cechy dyskretnej o liczności 100): 5 2 2 6 3 2 5 3 1 2 5 3 6 2 5 4 4 6 1 6 4 5 5 2 4 6 1 4 4 3 4 2 4 2 4 4 1 1 4 5 3 1 5 6 5 6 1 5 6 2 4 5 5 2 5 4 5 5 1 1 2 2 5 5 2 6 3 5 5 4 1 4 5 5 1 4 3 2 1 2 6 1 2 1 6 5 1 3 6 1 5 6 6 2 2 3 5 5 2 4 2

Rozkład liczby oczek w próbce Wartość (l. oczek) 1 2 3 4 5 6 Liczność (l. wystąpień) 16 19 9 17 25 14 Rozkład częstości liczby oczek w próbce Wartość (l. oczek) 1 2 3 4 5 6 Częstość 0,16 0,19 0,09 0,17 0,25 0,14

Przykład. Wiek 25 osób, które ubezpieczyły się w III filarze emerytalnym w pewnym zakładzie pracy: 30, 49, 33, 35, 37, 20, 31, 30, 36, 46, 39, 40, 38, 41, 35, 37, 24, 27, 36, 43, 45, 25, 32, 29, 28. 21 różnych wartości: diagram rozkładu lat nieczytelny. Aregacja danych: przedziały wiekowe zawierające wszystkie obserwacje, liczba obserwacji w tych przedziałach.

Przedział Obserwacje Liczność Częstość (klasa) [18,23) 20 1 1/25 = 0,04 [23,28) 24, 27, 25 3 3/25 = 0,12 [28,33) 30, 30, 31, 32, 29, 28 6 6/25 = 0,24 [33,38) 33, 35, 37, 36, 35, 37, 36 7 7/25 = 0,28 [38,43) 39, 40, 38, 41 4 4/25 = 0,16 [43,48) 43, 45, 46 3 3/25 = 0,12 [48,53) 49 1 1/25 = 0,04

procent 30 25 20 15 10 5 0 Histogram 18 28 38 48 58 wiek 28+16+12+4=60% pracowników ma co najmniej 33 lata

Na osiach poziomych: granice klas wiekowych ( przedziałów) wysokości słupków = procentowy udział każdej klasy w próbce Wysokość słupka = częstość klasy x 100%. Pole słupka = stała długość przedziału x częstość x 100 Histogram liczebności: wysokość słupka = liczność klasy Histogram częstości: wysokość słupka = częstość klasy

Na osiach poziomych: granice klas wiekowych ( przedziałów) wysokości słupków = procentowy udział każdej klasy w próbce Wysokość słupka = częstość klasy x 100%. Pole słupka = stała długość przedziału x częstość x 100 Histogram liczebności: wysokość słupka = liczność klasy Histogram częstości: wysokość słupka = częstość klasy

Mała długość przedziału to : nieregularność histogramu Duża długość przedziału to: za duże wygładzenie histogramu Przy ustaleniu kompromisu pomiędzy zbyt dużym wygładzeniem histogramu (redukcją informacji) a dużą nieregularnością histogramu pomocne są dodatkowe informacje o naturze obserwowanego zjawiska, np. obserwacje z kilku różnych populacji mogą dawać histogramy wielomodalne. Początek histogramu: najmniejsza obserwacja stanowi środek pierwszego przedziału. Uśredniając kilka histogramów o nieznacznie przesuniętych początkach można uniezależnić się od wpływu początku histogramu na jego kształt. 9

WSKAŹNIKI SUMARYCZNE WSKAŹNIKI POŁOŻENIA (miary położenia, parametry położenia ) charakteryzują najbardziej reprezentatywne dane, centralną tendencję danych, określają środek próbki: Niech : x 1, x 2,...,x n - próbka o liczności n. Wartość średnia w próbce ( średnia próbkowa, średnia próbki ) x 1 ( x n 1 x 2... x ) 1 n n x i n i1

Mediana w próbce (mediana próbki, mediana próbkowa) x x ( 1) (2)... ( n1) ( n) x x uporządkowane w sposób rosnący wartości próbki: x (1) = min{ x 1, x 2,...,x n },... x (n) = min{ x 1, x 2,...,x n } x med = x, gdy n jest nieparzyste (( n1) / 2) 1 x med = ( x ( n / 2) x( n / 21) ), gdy n jest parzyste. 2 11

Przykład. Miesięczny dochód 11-tu osób: Dochód (PLN) 2000 2500 3500 19000 Liczba osób 4 4 2 1 Średnie wynagrodzenie tej grupy osób to: 1 x (4 2000 4 2500 23500 19000) 4000 11 2000, 2000, 2000, 2000, 2500, 2500, 2500, 2500, 3500, 3500, 19000 Mediana = 2500 12

Średnia wrażliwa na obserwacje odstające: x 4000 3500 x, x 19000 typowego dochodu. (10) ( 11) - średnia nie odzwierciedla Mediana odporna ( mało wrażliwa ) na obserwacje odstające: x med x ( 6) 2500 - mediana jest lepszą miarą przeciętnego wynagrodzenia niż średnia 13

Średnia ucinana (ucięta) ( z parametrem k ) x tk n 1 2k n k i k1 x ( i), stosowana gdy wartości odstające są wynikiem błędu (błędne przetworzenie danych lub błędy przyrządów pomiarowych). Ostrzeżenie: obserwacje odstające mogą być bardzo istotne, np. są wynikiem rozregulowania procesu produkcji 14

Średnia winsorowska ( z parametrem k ) x wk 1 n k 1 n ik2 k 1 x( k1) x( i) ( k 1) x( nk) Stosowana w sytuacjach gdy wartości skrajne ( k najmniejszych lub k największych ) niepewne co do ich prawdziwych wartości (np. zostały utracone z bazy danych; nie mogły być zaobserwowane w przypadku badania czasu życia lub czasu bezawaryjnej pracy urządzenia gdy eksperymentator ma ograniczony czas obserwowania zjawiska. Moda najczęściej występująca wartość (lub wartości) w próbce. 15

Wskaźniki sumaryczne są charakterystykami (parametrami) liczbowymi obliczonymi dla analizowanych danych. Wskaźniki położenia (lub miary położenia, parametry położenia) charakteryzują wielkości najbardziej reprezentatywne dla danych, centralną "tendencję" danych, określają "centrum" lub "środek" próbki. Najważniejsze wskaźniki położenia obliczane dla próbki to: - wartość średnia, - mediana, - moda, - średnia ucięta i średnia winsorowska

Wartością średnią w próbce (lub średnią próbkową, średnią próbki): Wartość średnia próbki jest średnią arytmetyczną wszystkich elementów próbki. Niech x(1), x(2),..., x(n-1), x(n) będą ustawionymi w kolejności niemalejącej elementami próbki, więc x(1) jest najmniejszą, x(n) jest największą obserwacją w próbce, oraz x(1) <= x(2) <=... <= x(n 1) <= x(n). Medianą w próbce (lub medianą próbki, medianą próbkową), oznaczaną symbolem xmed, nazywamy wielkość 17

Przykład Wiek 25-ciu pracowników zgrupowano w przedziałach:

Obliczymy wartości poznanych wskaźników położenia.średnia wieku pracowników wynosi: Rozmiar próbki n=25, zatem (n+1)/2=13. Mediana wieku pracowników jest 13-tą co do wielkości obserwacją równą x(13)=35. Czasem dysponujemy obserwacjami od razu zgrupowanymi (zagregowanymi). Wówczas wartość średnią obliczamy na podstawie histogramu. Jest to: (suma liczności przedziałów pomnożonych przez środki przedziałów)/liczność próbki.

Przykład Miesięczne dochody 11-tu osób wynoszą (w zł.): 2000 dla czterech osób, 2500 dla czterech osób, 3500 dla dwu osób, oraz 19000. Średnie wynagrodzenie tej grupy osób to:

Zatem 10 osób spośród 11-tu ma dochód mniejszy od obliczonego średniego dochodu. Średni dochód pracowników nie odzwierciedla "typowego" dochodu dla analizowanych danych. Mówimy, że średnia jest wrażliwa na obserwacje odstające (tzn. znacznie mniejsze lub znacznie większe od większości obserwacji). Lepszą miarą przeciętnego wynagrodzenia jest mediana: x med = x (6) =2500, która jest odporna (mało wrażliwa) na obserwacje odstające. Średnią ucinaną (uciętą) (z parametrem k) nazywamy wielkość:

Średnia ucinana jest stosowana wówczas, gdy pewien procent (liczba) najmniejszych oraz największych wartości w próbce jest (może być) wynikiem błędu, np. w przypadku błędnego przetworzenia danych lub błędów przyrządów pomiarowych. Średnia ucinana może być lepszym parametrem położenia niż mediana, która jest niestabilna przy małej liczności próby i znacznie różniących się kolejnych obserwacjach. Średnią winsorowską (o parametrze k) nazywamy wielkość

Średnią winsorowską stosujemy wówczas, gdy wartości skrajne (k najmniejszych i k największych) są niepewne, co do ich prawdziwych wartości lub gdy zostały utracone z bazy danych, lub też nie mogły być zaobserwowane (np. w przypadku badania czasu życia, czasu bezawaryjnej pracy urządzenia gdy eksperymentator ma ograniczony czas obserwowania zjawiska). Modą nazywamy najczęściej występującą wartość (lub wartości) w próbce

Oblicz średnią próbkową, średnią ucinaną oraz medianę dla danych z przedostatniego przykładu po dodaniu 2 obserwacji: 31 i 32 (lata).

WSKAŹNIKI ROZPROSZENIA (miary rozproszenia, parametry rozproszenia ) charakteryzują rozrzut danych, rozproszenie wartości próbki wokół parametru położenia. Rozstęp próbki R x ( x, n) (1) Wariancja próbki (w próbce) s 2 1 n 1 n i1 ( x i x) 2,

Choroba A: 60, 60, 60, 60, 70, 70, 70, 80, 80, 80, 80 Choroba B: 50, 50, 50, 50, 70, 70, 70, 90, 90, 90, 90

Odchylenie standardowe w próbce (próbki) s 2 s Odchylenie przeciętne od wartości średniej d 1 1 n n i1 x i x Dolny (pierwszy) kwartyl Q 1= mediana podpróbki składającej się z połowy najmniejszych elementów próbki: x,..., 1) x ( med.

Górny (trzeci) kwartyl Q 3 = mediana podpróbki składającej się z połowy największych elementów próbki: x med,..., x( n) Rozstęp międzykwartylowy: IQR Q 3 Q 1

WYKRES RAMKOWY (pudełkowy) ilustruje wzajemne położenie pięciu wskaźników sumarycznych: x ( 1) xmin, Q1, xmed, Q3, x( n) xmax. Obserwacja odstająca 0 0,4 0,8 1,2 1,6