Wykład 3. Opis struktury zbiorowości 1. Parametry opisu rozkładu badanej cechy. 2. Miary połoŝenia rozkładu. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.
W praktycznych zastosowaniach bardzo często zachodzi konieczność dokonania porównania dwu lub wielu struktur przedstawionych czy to w formie tabelarycznej, czy teŝ graficznej w celu stwierdzenia występowania bądź nie występowania pomiędzy nimi róŝnic. Zadaniem statystyki jest m.in. wskazanie, na czym te róŝnice polegają, a następnie ich skwantyfikowanie. Rozkłady przyjęło się charakteryzować ze względu na cztery cechy: połoŝenie, zróŝnicowanie, skośność i spiczastość (kurtoza).
Cechy te opisuje się za pomocą parametrów opisowych, które dzielimy na: klasyczne obliczane na podstawie wszystkich obserwacji; pozycyjne przy ich wyznaczaniu brane są pozycyjne przy ich wyznaczaniu brane są pod uwagę tylko niektóre wartości zmiennej, stojące na określonej pozycji.
PołoŜenie rozkładu (zwane inaczej lokacją) pozwala stwierdzić, gdzie w zbiorze wartości liczbowych sytuują się wartości badanej cechy. Miary połoŝenia (miary średnie, miary przeciętne) określają tą wartość zmiennej opisanej przez rozkład, wokół której skupiają się wszystkie pozostałe wartości zmiennej (cechy).
Dwa rozkłady róŝniące się połoŝeniem: 0,25 0,2 0,15 0,1 0,05 0-0,05 0 20 40 60 80
Średnia arytmetyczna jest to miara klasyczna, która jest ilorazem sumy wartości zmiennej i liczebności badanej zbiorowości. Obliczamy ją następująco: dla szeregu szczegółowego N i= = = 1 dla szeregu rozdzielczego punktowego N i k i= = 1 N i n i
dla szeregu rozdzielczego przedziałowego gdzie Przykład & i = = k i= 1 + & n N id ig Obliczyć średnią arytmetyczną dla szeregu szczegółowego: 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 3, 3; 2 i. i,
dla szeregu rozdzielczego punktowego: Liczba filiŝanek kawy Liczba pracowników 0 4 1 5 2 3 3 2 Suma 14
dla szeregu rozdzielczego przedziałowego: Wysok. premii (id,ig> Liczba pracowników 750-770 290 770-790 910 790-810 1200 810-830 800 830-850 400 Razem 3600
Własności średniej arytmetycznej: 1. Jest wartością abstrakcyjną, która w ogóle moŝe się nie pojawić w rzeczywistości. 2. Zawiera się pomiędzy minimalną a maksymalną wartością cechy, tzn.:. min ma 3. Suma róŝnic pomiędzy poszczególnymi wartościami cechy aśrednią arytmetyczną: N ( ) i i= 1 = 0.
4. Suma kwadratów róŝnic pomiędzy poszczególnymi wartościami cechy a średnią arytmetyczną jest najmniejsza w porównaniu z sumą kwadratów odchyleń od dowolnej innej wartości: N ( ) i i= 1 5. Na średnią arytmetyczną silny wpływ wywierają wartości skrajne. 6. JeŜeli zbiorowość podzielimy na podzbiorowości, to średnia dla całej 2 min.
populacji będzie średnią waŝoną ze średnich ustalonych dla podzbiorowości: = k i= 1 N Przykład Obliczyć średnią płacę osobno dla kobiet i męŝczyzn w firmie DomokrąŜca w Katowicach w grudniu 2009 roku, a następnie średnią płacę w całej firmie, jeśli i n i.
Kowalska Anna 950 zł Maciejewska Barbara 1850 zł Tomczyk Ewa 1400 zł Balicki Piotr 1750 zł Pasternak Artur 1800 zł.
Kiedy naleŝy nie naleŝy stosować średniej arytmetycznej? 1. Średnia arytmetyczna jest miarą prawidłową w odniesieniu do zbiorowości jednorodnych, które charakteryzuje jedno wyraźnie zaznaczone maksimum, umiarkowane zróŝnicowanie i co najwyŝej umiarkowana asymetria. 2. Przedziały klasowe szeregu rozdzielczego powinny być domknięte.
Dominanta (moda, wartość najczęstsza) jedna z miar pozycyjnych, jest to wartość cechy występująca najczęściej. Wyznaczenie dominanty zaleŝy od sposobu prezentacji danych liczbowych. W przypadku szeregów szczegółowych i szeregów rozdzielczych punktowych po prostu poszukujemy wartości cechy najczęściej występującej.
Dla szeregu rozdzielczego przedziałowego, dominantę obliczamy ze wzoru: nd nd 1 D = 0D + h, ( ) ( ) D nd nd 1 + nd nd+ 1 gdzie 0D - dolna granica przedziału dominanty, n D - liczebność przedziału dominanty, n D 1 - liczebność przedziału poprzedzającego dominantę n D+1 - liczebność przedziału następującego po dominancie, - rozpiętość przedziału dominanty. h D
Wyznaczanie dominanty z szeregu przedziałowego jest uzasadnione, gdy: 1. Rozkład ma jedno wyraźnie zaznaczone maksimum; 2. Rozkład jest zbliŝony do symetrycznego, co oznacza w praktyce, iŝ maksimum to nie przypada ani w pierwszym, ani w ostatnim przedziale; 3. Rozpiętości przedziałów są równe (przynajmniej trzech: klasy dominującej i klas sąsiednich).
Przykład Obliczyć dominantę dla szeregu przedziałowego opisującego strukturę pracowników firmy PIASEK w IV kwartale 2007 roku wg wysokości premii. Wysok. premii (id,ig> Liczba pracowników 750-770 290 770-790 910 790-810 1200 810-830 800 830-850 400 Razem 3600
Mamy tutaj: D = 790 + 798,4057971 1200 910 ( 1200 910) + ( 1200 800) 20 = Otrzymany wynik oznacza, Ŝe najczęściej nasi badani otrzymali premię w wysokości 798,41 zł. Dominantę moŝna takŝe wyznaczyć graficznie. W tym celu na histogramie najwyŝszy słupek łączymy odcinkami z sąsiednimi. Z miejsca przecięcia się tych odcinków prowadzimy
prostą prostopadłą do osi odciętych. W miejscu przecięcia się tej prostej z osią znajduje się wartość najczęstsza, czyli dominanta.
Kwantyle pozycyjne miary połoŝenia, dzielą zbiorowość na równe części. W praktyce statystycznej najczęściej wykorzystuje się: kwartyle dzielą zbiorowość na 4 równe części; decyle dzielące zbiorowość na 10 równych części; centyle dzielą zbiorowość na 100 równych części.
Spośród wymienionych kwantyli do opisu zbiorowości najczęściej wyznacza się kwartyle: pierwszy kwartyl dzieli zbiorowość na dwie części w ten sposób, Ŝe 25% jednostek zbiorowości ma wartości cechy mniejsze lub równe kwartylowi pierwszemu, a 75% - równe lub większe od tego kwartyla; drugi kwartyl inaczej mediana dzieli zbiorowość na dwie części w ten sposób, Ŝe 50% jednostek ma wartości mniejsze lub równe medianie
oraz 50% - równe lub większe od mediany; trzeci kwartyl dzieli zbiorowość na dwie części w ten sposób, Ŝe 75% jednostek ma wartości zmiennej mniejsze lub równe trzeciemu kwartylowi, a 25% jednostek równe lub większe.
Mediana dla szeregu szczegółowego lub rozdzielczego punktowego: M = Q N + 1 2 = + N 2 2 2 N 2 dla N nieparzystego, + 1 dla N parzystego.
Mediana dla szeregu rozdzielczego przedziałowego: M = 0M + N 2 n ( ) M, 0M gdzie 0M - dolna granica przedziału mediany, n( ) 0M - liczebność skumulowana do momentu pojawienia się przedziału mediany, h M - rozpiętość przedziału mediany, - liczebność przedziału mediany. n M h n M
Pierwszy i trzeci kwartyl dla szeregu szczegółowego lub rozdzielczego punktowego bez poprawki na parzystość/nieparzystość N: Q = 1 N 4 Q = 3 3N 4
Pierwszy i trzeci kwartyl dla szeregu rozdzielczego przedziałowego: 0 0 1 1 1 1 1 3 ) ( 4 Q Q Q Q h N n h n N Q + = 3 0 0 3 3 3 3 ) ( 4 3 Q Q Q Q n h n N Q + =
gdzie 0Qi - dolna granica przedziału i tego kwartyla, n( ) - liczebność skumulowana do 0Q i momentu pojawienia się przedziału i tego kwartyla, h Qi - rozpiętość przedziału i tego kwartyla, - liczebność przedziału i kwartyla. n Qi
Przykład Obliczyć kwartyle dla szeregu rozdzielczego przedziałowego i zinterpretować je. Premia w zł (id,ig> Liczba pracowników Szereg skumulowany 750-770 290 290 770-790 910 1200 790-810 1200 2400 810-830 800 3200 830-850 400 3600 Razem 3600