12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa Wykład 3 Dr inż. Adam Deptuła
METODY OPISU DANYCH ILOŚCIOWYCH SKALARNYCH Wykresy: diagramy, histogramy, łamane częstości, wykresy przebiegu. Przykład. W stu kolejnych rzutach kostką sześcienną otrzymano wyniki (próbkę cechy dyskretnej o liczności 100): 5 2 2 6 3 2 5 3 1 2 5 3 6 2 5 4 4 6 1 6 4 5 5 2 4 6 1 4 4 3 4 2 4 2 4 4 1 1 4 5 3 1 5 6 5 6 1 5 6 2 4 5 5 2 5 4 5 5 1 1 2 2 5 5 2 6 3 5 5 4 1 4 5 5 1 4 3 2 1 2 6 1 2 1 6 5 1 3 6 1 5 6 6 2 2 3 5 5 2 4 2
Rozkład liczby oczek w próbce Wartość (l. oczek) 1 2 3 4 5 6 Liczność (l. wystąpień) 16 19 9 17 25 14 Rozkład częstości liczby oczek w próbce Wartość (l. oczek) 1 2 3 4 5 6 Częstość 0,16 0,19 0,09 0,17 0,25 0,14
Przykład. Wiek 25 osób, które ubezpieczyły się w III filarze emerytalnym w pewnym zakładzie pracy: 30, 49, 33, 35, 37, 20, 31, 30, 36, 46, 39, 40, 38, 41, 35, 37, 24, 27, 36, 43, 45, 25, 32, 29, 28. 21 różnych wartości: diagram rozkładu lat nieczytelny. Aregacja danych: przedziały wiekowe zawierające wszystkie obserwacje, liczba obserwacji w tych przedziałach.
Przedział Obserwacje Liczność Częstość (klasa) [18,23) 20 1 1/25 = 0,04 [23,28) 24, 27, 25 3 3/25 = 0,12 [28,33) 30, 30, 31, 32, 29, 28 6 6/25 = 0,24 [33,38) 33, 35, 37, 36, 35, 37, 36 7 7/25 = 0,28 [38,43) 39, 40, 38, 41 4 4/25 = 0,16 [43,48) 43, 45, 46 3 3/25 = 0,12 [48,53) 49 1 1/25 = 0,04
procent 30 25 20 15 10 5 0 Histogram 18 28 38 48 58 wiek 28+16+12+4=60% pracowników ma co najmniej 33 lata
Na osiach poziomych: granice klas wiekowych ( przedziałów) wysokości słupków = procentowy udział każdej klasy w próbce Wysokość słupka = częstość klasy x 100%. Pole słupka = stała długość przedziału x częstość x 100 Histogram liczebności: wysokość słupka = liczność klasy Histogram częstości: wysokość słupka = częstość klasy
Na osiach poziomych: granice klas wiekowych ( przedziałów) wysokości słupków = procentowy udział każdej klasy w próbce Wysokość słupka = częstość klasy x 100%. Pole słupka = stała długość przedziału x częstość x 100 Histogram liczebności: wysokość słupka = liczność klasy Histogram częstości: wysokość słupka = częstość klasy
Mała długość przedziału to : nieregularność histogramu Duża długość przedziału to: za duże wygładzenie histogramu Przy ustaleniu kompromisu pomiędzy zbyt dużym wygładzeniem histogramu (redukcją informacji) a dużą nieregularnością histogramu pomocne są dodatkowe informacje o naturze obserwowanego zjawiska, np. obserwacje z kilku różnych populacji mogą dawać histogramy wielomodalne. Początek histogramu: najmniejsza obserwacja stanowi środek pierwszego przedziału. Uśredniając kilka histogramów o nieznacznie przesuniętych początkach można uniezależnić się od wpływu początku histogramu na jego kształt. 9
WSKAŹNIKI SUMARYCZNE WSKAŹNIKI POŁOŻENIA (miary położenia, parametry położenia ) charakteryzują najbardziej reprezentatywne dane, centralną tendencję danych, określają środek próbki: Niech : x 1, x 2,...,x n - próbka o liczności n. Wartość średnia w próbce ( średnia próbkowa, średnia próbki ) x 1 ( x n 1 x 2... x ) 1 n n x i n i1
Mediana w próbce (mediana próbki, mediana próbkowa) x x ( 1) (2)... ( n1) ( n) x x uporządkowane w sposób rosnący wartości próbki: x (1) = min{ x 1, x 2,...,x n },... x (n) = min{ x 1, x 2,...,x n } x med = x, gdy n jest nieparzyste (( n1) / 2) 1 x med = ( x ( n / 2) x( n / 21) ), gdy n jest parzyste. 2 11
Przykład. Miesięczny dochód 11-tu osób: Dochód (PLN) 2000 2500 3500 19000 Liczba osób 4 4 2 1 Średnie wynagrodzenie tej grupy osób to: 1 x (4 2000 4 2500 23500 19000) 4000 11 2000, 2000, 2000, 2000, 2500, 2500, 2500, 2500, 3500, 3500, 19000 Mediana = 2500 12
Średnia wrażliwa na obserwacje odstające: x 4000 3500 x, x 19000 typowego dochodu. (10) ( 11) - średnia nie odzwierciedla Mediana odporna ( mało wrażliwa ) na obserwacje odstające: x med x ( 6) 2500 - mediana jest lepszą miarą przeciętnego wynagrodzenia niż średnia 13
Średnia ucinana (ucięta) ( z parametrem k ) x tk n 1 2k n k i k1 x ( i), stosowana gdy wartości odstające są wynikiem błędu (błędne przetworzenie danych lub błędy przyrządów pomiarowych). Ostrzeżenie: obserwacje odstające mogą być bardzo istotne, np. są wynikiem rozregulowania procesu produkcji 14
Średnia winsorowska ( z parametrem k ) x wk 1 n k 1 n ik2 k 1 x( k1) x( i) ( k 1) x( nk) Stosowana w sytuacjach gdy wartości skrajne ( k najmniejszych lub k największych ) niepewne co do ich prawdziwych wartości (np. zostały utracone z bazy danych; nie mogły być zaobserwowane w przypadku badania czasu życia lub czasu bezawaryjnej pracy urządzenia gdy eksperymentator ma ograniczony czas obserwowania zjawiska. Moda najczęściej występująca wartość (lub wartości) w próbce. 15
Wskaźniki sumaryczne są charakterystykami (parametrami) liczbowymi obliczonymi dla analizowanych danych. Wskaźniki położenia (lub miary położenia, parametry położenia) charakteryzują wielkości najbardziej reprezentatywne dla danych, centralną "tendencję" danych, określają "centrum" lub "środek" próbki. Najważniejsze wskaźniki położenia obliczane dla próbki to: - wartość średnia, - mediana, - moda, - średnia ucięta i średnia winsorowska
Wartością średnią w próbce (lub średnią próbkową, średnią próbki): Wartość średnia próbki jest średnią arytmetyczną wszystkich elementów próbki. Niech x(1), x(2),..., x(n-1), x(n) będą ustawionymi w kolejności niemalejącej elementami próbki, więc x(1) jest najmniejszą, x(n) jest największą obserwacją w próbce, oraz x(1) <= x(2) <=... <= x(n 1) <= x(n). Medianą w próbce (lub medianą próbki, medianą próbkową), oznaczaną symbolem xmed, nazywamy wielkość 17
Przykład Wiek 25-ciu pracowników zgrupowano w przedziałach:
Obliczymy wartości poznanych wskaźników położenia.średnia wieku pracowników wynosi: Rozmiar próbki n=25, zatem (n+1)/2=13. Mediana wieku pracowników jest 13-tą co do wielkości obserwacją równą x(13)=35. Czasem dysponujemy obserwacjami od razu zgrupowanymi (zagregowanymi). Wówczas wartość średnią obliczamy na podstawie histogramu. Jest to: (suma liczności przedziałów pomnożonych przez środki przedziałów)/liczność próbki.
Przykład Miesięczne dochody 11-tu osób wynoszą (w zł.): 2000 dla czterech osób, 2500 dla czterech osób, 3500 dla dwu osób, oraz 19000. Średnie wynagrodzenie tej grupy osób to:
Zatem 10 osób spośród 11-tu ma dochód mniejszy od obliczonego średniego dochodu. Średni dochód pracowników nie odzwierciedla "typowego" dochodu dla analizowanych danych. Mówimy, że średnia jest wrażliwa na obserwacje odstające (tzn. znacznie mniejsze lub znacznie większe od większości obserwacji). Lepszą miarą przeciętnego wynagrodzenia jest mediana: x med = x (6) =2500, która jest odporna (mało wrażliwa) na obserwacje odstające. Średnią ucinaną (uciętą) (z parametrem k) nazywamy wielkość:
Średnia ucinana jest stosowana wówczas, gdy pewien procent (liczba) najmniejszych oraz największych wartości w próbce jest (może być) wynikiem błędu, np. w przypadku błędnego przetworzenia danych lub błędów przyrządów pomiarowych. Średnia ucinana może być lepszym parametrem położenia niż mediana, która jest niestabilna przy małej liczności próby i znacznie różniących się kolejnych obserwacjach. Średnią winsorowską (o parametrze k) nazywamy wielkość
Średnią winsorowską stosujemy wówczas, gdy wartości skrajne (k najmniejszych i k największych) są niepewne, co do ich prawdziwych wartości lub gdy zostały utracone z bazy danych, lub też nie mogły być zaobserwowane (np. w przypadku badania czasu życia, czasu bezawaryjnej pracy urządzenia gdy eksperymentator ma ograniczony czas obserwowania zjawiska). Modą nazywamy najczęściej występującą wartość (lub wartości) w próbce
Oblicz średnią próbkową, średnią ucinaną oraz medianę dla danych z przedostatniego przykładu po dodaniu 2 obserwacji: 31 i 32 (lata).
WSKAŹNIKI ROZPROSZENIA (miary rozproszenia, parametry rozproszenia ) charakteryzują rozrzut danych, rozproszenie wartości próbki wokół parametru położenia. Rozstęp próbki R x ( x, n) (1) Wariancja próbki (w próbce) s 2 1 n 1 n i1 ( x i x) 2,
Choroba A: 60, 60, 60, 60, 70, 70, 70, 80, 80, 80, 80 Choroba B: 50, 50, 50, 50, 70, 70, 70, 90, 90, 90, 90
Odchylenie standardowe w próbce (próbki) s 2 s Odchylenie przeciętne od wartości średniej d 1 1 n n i1 x i x Dolny (pierwszy) kwartyl Q 1= mediana podpróbki składającej się z połowy najmniejszych elementów próbki: x,..., 1) x ( med.
Górny (trzeci) kwartyl Q 3 = mediana podpróbki składającej się z połowy największych elementów próbki: x med,..., x( n) Rozstęp międzykwartylowy: IQR Q 3 Q 1
WYKRES RAMKOWY (pudełkowy) ilustruje wzajemne położenie pięciu wskaźników sumarycznych: x ( 1) xmin, Q1, xmed, Q3, x( n) xmax. Obserwacja odstająca 0 0,4 0,8 1,2 1,6