Analiza zróżnicowania, asymetrii i koncentracji
Miary zróżnicowania Miary średnie, chociaż reprezentują wszystkie jednostki badanej zbiorowości, nie dają wyczerpującej charakterystyki szeregu statystycznego, nie pozwalają przeniknąć w wewnętrzny układ zbiorowości. Poznamy tu miary oceny zróżnicowania (inaczej: zmienności, rozproszenia, rozrzutu, dyspersji), które informują jak duże są odchylenia między wartościami cechy poszczególnych jednostek a średnią, którą najczęściej jest średnia arytmetyczna. Im mniejsze zróżnicowanie, tym większe jest znaczenie danej średniej.
Przykład Grupa I Grupa II 3 0 3 1 3 1 3 2 3 2 4 3 4 3 4 3 4 4 4 4 4 4 4 4 4 5 4 5 4 5 5 6 5 6 5 7 5 7 5 8 9 8 7 6 5 4 3 2 1 0 Grupa I Grupa II 0 1 2 3 4 5 6 7 8 Liczba błędów w dyktandzie Średnia arytmetyczna Grupy I: 4 Średnia arytmetyczna Grupy II: 4
Miary zróżnicowania Miary zróżnicowania Bezwzględne Względne Klasyczne: Odchylenie przeciętne Odchylenie standardowe Pozycyjne: Obszar zmienności (rozstęp) Odchylenie ćwiartkowe Klasyczne: Współczynnik zmienności (dla średniej arytmetycznej) Pozycyjne: Współczynnik zmienności (dla mediany)
Bezwzględne miary zróżnicowania Są miarami mianowanymi, tzn. wyrażone są w tych jednostkach co wartości cechy poszczególnych jednostek badanej zbiorowości, np. kg, szt., m, zł, pkt. Służą one do analizy zróżnicowania jednej zbiorowości pod względem jednej cechy. Porównanie zróżnicowania danej cechy w różnych zbiorowościach przy pomocy bezwzględnych miar jest uzasadnione tylko wtedy, gdy średni poziom cechy w tych zbiorowościach jest jednakowy lub bardzo podobny.
Względne miary zróżnicowania Zwane też współczynnikami zmienności, wykorzystywane są do porównania zróżnicowania kilku zbiorowości pod względem jednej cechy lub kilku cech jednej zbiorowości. Najczęściej wyrażone są w procentach i nie są to miary mianowane (nie mają jednostki).
Obszar zmienności (Rozstęp) Najprostszą miarą zróżnicowania jest obszar zmienności, zwany również rozstępem. Miarę tę oznaczamy O z. Obszar zmienności to różnica między największą a najmniejszą wartością cechy w szeregu statystycznym: gdzie: O z = x max x min, x min, x max, - najmniejsza wartość cechy, - największa wartość cechy.
Przykład Grupa I Grupa II 3 0 3 1 3 1 3 2 3 2 4 3 4 3 4 3 4 4 4 4 4 4 4 4 4 5 4 5 4 5 5 6 5 6 5 7 5 7 5 8 Grupa I O z = x max x min = 5 3 = 2, Grupa II O z = x max x min = 8 0 = 8. W grupie I zróżnicowanie pod względem popełnionych błędów w dyktandzie jest mniejsze niż w grupie II.
Obszar zmienności (Rozstęp) Obszar zmienności jest miarą pozycyjną, ponieważ w obliczeniach uwzględnia się nie wszystkie, lecz tylko te jednostki, które mają najmniejszą i największą wartość cechy. Miara ta jest prosta, łatwa do obliczenia. Jest ona jednak bardzo czuła na dwie skrajne wartości cechy, które często różnią się istotnie od wszystkich pozostałych wartości, a nierzadko są wartościami nietypowymi dla badanej zbiorowości, dlatego jest to miara o małej wartości poznawczej i wykorzystywana jest najczęściej do wstępnej oceny zróżnicowania badanej zbiorowości.
Odchylenie przeciętne Odchylenie przeciętne, które oznaczamy d x jest średnią arytmetyczną bezwzględnych odchyleń poszczególnych wartości zbiorowości statystycznej od średniej arytmetycznej. Innymi słowy: jest to średnie odchylenie od średniej arytmetycznej. Wybór wzoru na odchylenie przeciętne, podobnie jak dla średniej arytmetycznej, uzależnione jest od rodzaju szeregu statystycznego, a więc od przedstawienia danych.
Odchylenie przeciętne Dla szeregu szczegółowego N d x = 1 x N ( i x. i=1 ) x i, - poszczególne wartości cechy, x, - średnia arytmetyczna, N, - liczba obserwacji.
Odchylenie przeciętne Dla szeregu rozdzielczego punktowego k d x = 1 n N ( i x i x. i=1 ) n i, - liczebność i-tego przedziału, k, - liczba różnych wartości cechy.
Odchylenie przeciętne Dla szeregu rozdzielczego przedziałowego k d x = 1 n N ( i x i x. i=1 ) n i, - liczebność i-tego przedziału, k, - liczba przedziałów klasowych, x i, - środek i-tego przedziału klasowego.
Przykład Nr Grupa I Grupa II x i x i x x i x i x 1 3 1 0 4 2 3 1 1 3 3 3 1 1 3 4 3 1 2 2 5 3 1 2 2 6 4 0 3 1 7 4 0 3 1 8 4 0 3 1 9 4 0 4 0 10 4 0 4 0 11 4 0 4 0 12 4 0 4 0 13 4 0 5 1 14 4 0 5 1 15 4 0 5 1 16 5 1 6 2 17 5 1 6 2 18 5 1 7 3 19 5 1 7 3 20 5 1 8 4 Razem 80 10 80 34 Grupa I d x = 10 20 = 0,5 Grupa II d x = 34 20 = 1,7
Przykład Wysokość kredytów udzielonych przez jeden z oddziałów Banku PKO BP osobom fizycznym w kwietniu 2004 roku: Kwota udzielonych kredytów (w tys. zł) Liczba kredytów 10 20 5 20 30 10 30 40 20 40 50 40 50 60 20 60 70 4 70 80 1
Przykład x 0i x 1i n i xi n ixi x i x n i x i x 10 20 5 15 75 27,6 138 20 30 10 25 250 17,6 176 30 40 20 35 700 7,6 152 40 50 40 45 1800 2,4 96 50 60 20 55 1100 12,4 248 60 70 4 65 260 22,4 89,6 70 80 1 75 75 32,4 32,4 Razem 100 4260 932 x = 1 N ( k i=1 n i xi) = 1 100 4260 = 42,6 tys. zł
Przykład x 0i x 1i n i xi n ixi x i x n i x i x 10 20 5 15 75 27,6 138 20 30 10 25 250 17,6 176 30 40 20 35 700 7,6 152 40 50 40 45 1800 2,4 96 50 60 20 55 1100 12,4 248 60 70 4 65 260 22,4 89,6 70 80 1 75 75 32,4 32,4 Razem 100 4260 932 d x = 1 N ( k i=1 n i x i x ) = 1 100 932 = 9,32 tys. zł
Odchylenie standardowe Odchylenie standardowe, S x jest pierwiastkiem kwadratowym ze średniej arytmetycznej kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej. Informuje, o ile przeciętnie różnią się wartości cechy poszczególnych jednostek od ich średniej arytmetycznej. Wzór na odchylenie standardowe, podobnie jak na odchylenie przeciętne, zależy od rodzaju szeregu statystycznego.
Odchylenie standardowe Dla szeregu szczegółowego S x = N 1 (x N ( i x) 2 i=1 ). x i, - poszczególne wartości cechy, x, - średnia arytmetyczna, N, - liczba obserwacji.
Odchylenie standardowe Dla szeregu rozdzielczego punktowego S x = k 1 n N ( i (x i x) 2 i=1 ). n i, - liczebność i-tego przedziału, k, - liczba różnych wartości cechy.
Odchylenie standardowe Dla szeregu rozdzielczego przedziałowego S x = k 1 n N ( i ( x i x) 2 i=1 ). n i, - liczebność i-tego przedziału, k, - liczba przedziałów klasowych, x i, - środek i-tego przedziału klasowego.
Uwagi Kwadrat odchylenia standardowego zwany jest wariancją i również mierzy stopień rozproszenia obserwacji wokół średniej arytmetycznej. Jedna z powodu podniesienia jednostki do kwadratu traci się część interpretacji. Gdy liczymy wariancję w próbie oznaczamy ją jako S 2 x s 2 Natomiast, wariancję w populacji generalnej oznaczamy jako σ 2
Uwagi We wnioskowaniu statystycznym stosuje się również inny wzór na odchylenie standardowe S x = N 1 (x N 1 ( i x) 2 i=1 ). Przyczyną zastąpienia mianownika N przez N - 1 większa dokładność powyższego wzoru. Jednak przy dużych N różnica ta jest nieistotna.
Przykład Razem Grupa I Grupa II x i x i x (x i x) 2 x i x i x (x i x) 2 3-1 1 0-4 16 3-1 1 1-3 9 3-1 1 1-3 9 3-1 1 2-2 4 3-1 1 2-2 4 4 0 0 3-1 1 4 0 0 3-1 1 4 0 0 3-1 1 4 0 0 4 0 0 4 0 0 4 0 0 4 0 0 4 0 0 4 0 0 4 0 0 4 0 0 5 1 1 4 0 0 5 1 1 4 0 0 5 1 1 5 1 1 6 2 4 5 1 1 6 2 4 5 1 1 7 3 9 5 1 1 7 3 9 5 1 1 8 4 16 80 0 10 80 0 90
Przykład Grupa I Grupa II S x = 10 20 = 0,5 = 0,7 S x = 90 20 = 4,5 = 2,12
Przykład Grupa I Grupa II S x = 10 20 = 0,5 = 0,7 S x = 90 20 = 4,5 = 2,12 Z obliczonych wartości wynika, że w Grupie I liczba błędów popełnionych w dyktandzie odchyla się przeciętnie od średniej (4 błędy) o 0,7 błędów. Natomiast w Grupie II przeciętne odchylenie od średniej (również równej 4) jest większe i wynosi 2,12 błędów. Reasumując, uczniowie Grupy II są bardziej zróżnicowani pod względem popełnionych błędów.
Przykład Właściciel salonu fryzjerskiego dokonał oceny funkcjonowania placówki w lutym 2019 roku. Analizował m. in. liczbę klientów korzystających z usług w poszczególnych dniach lutego. Oto zebrane informacje Liczba klientów Liczba dni 10 1 11 3 14 7 15 8 18 3 20 3 Razem 25
Przykład Liczba klientów Liczba dni x i n i n i x i x i x (x i x) 2 n i (x i x) 2 10 1 10-5 25 25 11 3 33-4 16 48 14 7 98-1 1 7 15 8 120 0 0 0 18 3 54 3 9 27 20 3 60 5 25 75 Razem 25 375 182 x = k n i x i i=1 N = 375 25 = 15, S x = k n i (x i x) 2 i=1 N = 182 25 2,7
Przykład k n i x i n i x i x i x i=1 (x i x) 2 n i (x i x) 2 x i x = n= 375 n i (x i x) 2 N i 25 = 15, S x = i=1 182 = N 25 2,7 k Uzyskany wynik oznacza, że przeciętne odchylenie od średniej dziennej liczby klientów korzystających z usług salonu fryzjerskiego wynosi 2,7 klienta. Inaczej mówiąc, dzienne wahania liczby klientów korzystających z salonu wokół średniej (wynoszącej 15 klientów) wynoszą 2,7 klientów.
Przykład Na podstawie poniższego szeregu rozdzielczego przedziałowego obliczymy odchylenie standardowe wydajności pracowników mierzonej w liczbie sztuk wyprodukowanych wyrobów w ciągu dnia przez pracownika. Dzienna wydajność pracy w sztukach na dzień Liczba pracowników 2 4 9 4 6 29 6 8 45 8 10 27 10 12 10 Razem 120
Przykład Dzienna wydajność pracy w sztukach (x 0i x 1i ) Liczba pracowników n i x i n i x i xi x ( x i x) 2 n i ( x i x) 2 2 4 9 3 27-4 16 144 4 6 29 5 145-2 4 116 6 8 45 7 315 0 0 0 8 10 27 9 243 2 4 108 10 12 10 11 110 4 16 160 Razem 120 840 528 x = k n ixi i=1 N = 840 120 = 7, S x = k n i ( x i x) 2 i=1 N = 528 120 2,1
Przykład x = k n ixi i=1 N = 840 120 = 7, S x = k n i ( x i x) 2 i=1 N = 528 120 2,1 Obliczone odchylenie standardowe informuje, że dzienna wydajność pracy poszczególnych pracowników różni się przeciętnie o 2,1 sztuki od średniej wydajności pracowników tego zakładu (wynoszącej 7 sztuk). Przeciętne dzienne wahania wydajności pracy pracowników wokół średniej wynoszą 2,1 sztuk.
Własności odchylenia standardowego Odchylenie standardowe umożliwia ocenę przeciętnego wahania wartości wokół średniej arytmetycznej oraz wyznaczenie typowego klasycznego obszaru zmienności cechy, zwanego również obszarem wartości typowych. Statystycy wykazali, że w odpowiednio licznych zbiorowościach około 68% jednostek badanej zbiorowości charakteryzuje się wartościami cechy nieróżniącymi się (w dół i w górę) od średniej arytmetycznej więcej niż jedno odchylenie standardowe S x. Tzn. 68% jednostek mieści się w przedziale: (x S x, x + S x ) lub x S x < x typ < x + S x
Przykład x = k n ixi i=1 N = 840 120 = 7, S x = k n i ( x i x) 2 i=1 N = 528 120 2,1 Typowy obszar zmienności dla danych z ostatniego przykładu: 7 2,1 < x typ < 7 + 2,1 4,9 < x typ < 9,1 68% pracowników firmy wytwarza dziennie od 4,9 do 9,1 sztuk wyrobu.
Odchylenie ćwiartkowe Q i odstęp międzykwartylowy IQR Odstęp międzykwartylowy IQR jest rozpiętością przedziału, w którym znajduje się połowa obserwacji szeregu o wartościach najbliższych medianie. Połowa odstępu międzykwartylowego to tak zwane odchylenie ćwiartkowe Q. IQR = Q 3 Q 1, Q = IQR 2. Miary te są wykorzystywane wówczas, gdy do opisu tendencji centralnej zastosowano medianę. Obie są miarami pozycyjnymi.
Odchylenie ćwiartkowe Q Odchylenie ćwiartkowe Q informuje o ile przeciętnie wartości cechy 50% środkowych jednostek zbiorowości różnią się od mediany. Tym samym odchylenie ćwiartkowe nie mierzy zróżnicowania całej zbiorowości, ale tylko 50% środkowych jednostek. 25% jednostek o najniższych wartościach cechy i 25% o najwyższych wartościach cechy jest odrzucana, nie uwzględniana w obliczeniach. Na wartość odchylenia ćwiartkowego nie mają wpływu skrajne, często przypadkowe wartości szeregu statystycznego. Odchylenie ćwiartkowe ma przejrzystą interpretację i można je obliczyć nawet wtedy, gdy w szeregu rozdzielczym występują otwarte przedziały klasowe.
Przykład Oto dane o rozkładzie wieku pracowników pewnej firmy świadczącej usługi reklamowe. Wiek pracowników (w latach) Liczba pracowników Poniżej 20 18 20 30 45 30 40 70 40 50 38 50 i więcej 9 Razem 180
Przykład Wiek pracowników Liczba Liczebność (w latach) pracowników skumulowana (x 0i x 1i ) n i n isk Poniżej 20 18 18 20 30 45 63 30 40 70 133 40 50 38 171 50 i więcej 9 180 Razem 180 Nr Q1 = 180 4 = 45, Nr Q3 = 3 180 4 Q 1 = 20 + 10 45 = 135, Q 3 = 40 + 10 38 (45 18) = 26, (135 133) 40,5, Q = Q 3 Q 1 2 = 7,25.
Przykład Q = Q 3 Q 1 = 7,25. 2 (x 0i x 1i ) n i n isk Otrzymany wynik wskazuje, że przeciętne zróżnicowanie wieku pracowników analizowanej firmy po odrzuceniu 25% pracowników najmłodszych i 25% najstarszych wynosi około 7 lat (dokładniej 7 lat i kwartał). Interpretacja odchylenia ćwiartkowego jest podobna do interpretacji odchylenia standardowego: wiek poszczególnych pracowników różni się od średniego wieku (mierzonego medianą) o 7,25 lat, ale dotyczy to tylko środkowych 50% obserwacji. Odchylenie ćwiartkowe mierzy więc zróżnicowanie w zawężonym obszarze.
Względne miary zróżnicowania
Przykład Załóżmy, że chcemy porównać dokładność pracy dwóch automatów do pakowania: (x 0i x 1i ) n i n isk Automat do pakowania cukru Automat do pakowania cementu
Przykład Automat do pakowania cukru pakuje cukier do kilogramowych torebek. Odchylenie pakowania od normy (x 0i x 1i ) n i n isk wynosi ± 0,05 kg. Automat do pakowania cementu pakuje cement do 50 kilogramowych worków. Odchylenie pakowania od normy wynosi ± 0,2 kg. Czy możemy wykorzystać te przeciętne odchylenia od normy w celu porównania precyzji tych dwóch automatów?
Względne miary zróżnicowania Względne miary zróżnicowania noszą nazwę współczynników zmienności i oznaczane są wspólnie literą V. Współczynnik zmienności jest stosunkiem bezwzględnej miary zróżnicowania (to jest odchylenia przeciętnego d x, odchylenia standardowego S x, bądź odchylenia ćwiartkowego Q) do odpowiedniej miary średniej (średniej arytmetycznej, bądź mediany) wyrażony w procentach. Mówią one jaki jest procentowy udział odchylenia do wartości średniej.
Względne miary zróżnicowania Zależnie od wykorzystanych bezwzględnych miar zróżnicowania współczynniki zmienności obliczamy według wzorów: V dx = d x x 100 %, V Sx = S x x 100 %, V Q = Q Me 100 %.
Przykład Grupa I Grupa II x = 4 x = 4 S x = 0,7 S x = 2,12 V Sx = S x x 100 % = 17,5 % V S x = S x x 100 % = 53 %
Przykład Grupa I Grupa II x = 4 x = 4 S x = 0,7 S x = 2,12 V Sx = S x x 100 % = 17,5 % V S x = S x x 100 % = 53 % Obliczone miary względnego zróżnicowania świadczą o niewielkim zróżnicowaniu błędów dla Grupy I (17,5%) i średnim zróżnicowaniu błędów dla Grupy II (53%).
Miary asymetrii (skośności) Kolejnym etapem analizy struktury jest badanie asymetrii, czyli skośności (lewostronnej bądź prawostronnej) szeregu statystycznego. Analizując szeregi strukturalne można spotkać się z przypadkiem, gdy średni poziom badanej cechy i jej zróżnicowania nie obrazuje dostatecznie różnic między badanymi szeregami, a szczegółowa obserwacja szeregów wyklucza podobieństwo tych szeregów. W takim przypadku posługujemy się miarami asymetrii.
Przykład Analizując poziom płac w przedsiębiorstwie, obliczyliśmy średnią płacę i chcemy ustalić, czy liczba pracowników, których płaca jest wyższa od średniej jest większa czy mniejsza od liczby pracowników, których płaca jest niższa od średniej płacy. Okazuje się, że istotny jest nie tylko przeciętny poziom i zróżnicowanie cechy ale także to, czy przeważająca liczba badanych jednostek ma wartość cechy powyżej czy poniżej przeciętnego poziomu.
Przykład
Miary asymetrii (skośności) Zagadnienie asymetrii (skośności) można zbadać za pomocą miar asymetrii. Ich konstrukcja opiera się na spostrzeżeniu, że w szeregu symetrycznym wszystkie trzy miary średnie: średnia arytmetyczna, dominanta i mediana są równe. Rozkład symetryczny x = Me = D o
Miary asymetrii (skośności) Prawostronna asymetria D o Me x D o Me x Lewostronna asymetria x Me D o x Me D o
Wskaźnik asymetrii A S Jest to różnica między średnią arytmetyczną a dominantą: A S = x D o Mierzy on nie tylko stopień asymetrii lecz także wskazuje na jej kierunek: A S = 0 szereg jest symetryczny, A S > 0 asymetria prawostronna (dodatnia), A S < 0 asymetria lewostronna (ujemna).
Wskaźnik asymetrii A S Wskaźnik asymetrii jest miarą bezwzględną (mianowaną) i jego przydatność jest niewielka, ponieważ nie nadaje się do porównywania asymetrii cech, które mierzone są w różnych jednostkach miary. Wartość tego miernika zależy również od stopnia rozproszenia (zmienności) cechy w badanej zbiorowości.
Współczynnik asymetrii W S Współczynnik asymetrii oblicza się dzieląc wskaźnik asymetrii przez odchylenie standardowe: W S = A S S x = x D o S x. Współczynnik asymetrii jest liczbą niemianowaną. Na ogół przyjmuje wartość z przedziału od -1 do +1. Może się zdarzyć, że przy bardzo silnej asymetrii wartość bezwzględna współczynnika będzie większa od 1. Znak współczynnika informuje o kierunku asymetrii, natomiast wartość bezwzględna o sile asymetrii: im większa wartość bezwzględna, tym silniejsza asymetria.
Przykład Poziom płac szwaczek zatrudnionych w dwóch zakładach odzieżowych na terenie województwa łódzkiego: Płaca (w tysiącach zł) Zakład Claudia Odsetek szwaczek Zakład Linea 1,2 1,4 10 5 1,4 1,6 20 5 1,6 1,8 30 10 1,8 2,0 20 20 2,0 2,2 10 30 2,2 2,4 5 20 2,4 2,6 5 10 Razem 100 100
Przykład Płaca Claudia (x 0i x 1i ) w i xi w ixi xi x ( x i x) 2 w i ( x i x) 2 w isk 1,2 1,4 10 1,3 13-0,47 0,22 2,21 10 1,4 1,6 20 1,5 30-0,27 0,07 1,46 30 1,6 1,8 30 1,7 51-0,07 0,00 0,15 60 1,8 2,0 20 1,9 38 0,13 0,02 0,34 80 2,0 2,2 10 2,1 21 0,33 0,11 1,09 90 2,2 2,4 5 2,3 11,5 0,53 0,28 1,40 95 2,4 2,6 5 2,5 12,5 0,73 0,53 2,66 100 Razem 100 177 9,31 x = k w ixi i=1 100 = 177 100 = 1,77,
Przykład Płaca Claudia (x 0i x 1i ) w i xi w ixi xi x ( x i x) 2 w i ( x i x) 2 w isk 1,2 1,4 10 1,3 13-0,47 0,22 2,21 10 1,4 1,6 20 1,5 30-0,27 0,07 1,46 30 1,6 1,8 30 1,7 51-0,07 0,00 0,15 60 1,8 2,0 20 1,9 38 0,13 0,02 0,34 80 2,0 2,2 10 2,1 21 0,33 0,11 1,09 90 2,2 2,4 5 2,3 11,5 0,53 0,28 1,40 95 2,4 2,6 5 2,5 12,5 0,73 0,53 2,66 100 Razem 100 177 9,31 D o = x 0 + (n 0 n 1 )h 0 (n 0 n 1 ) + (n 0 n +1 ) = 1,6 + (30 20) 0,2 (30 20) + (30 20) = 1,7,
Przykład Płaca Claudia (x 0i x 1i ) w i xi w ixi xi x ( x i x) 2 w i ( x i x) 2 w isk 1,2 1,4 10 1,3 13-0,47 0,22 2,21 10 1,4 1,6 20 1,5 30-0,27 0,07 1,46 30 1,6 1,8 30 1,7 51-0,07 0,00 0,15 60 1,8 2,0 20 1,9 38 0,13 0,02 0,34 80 2,0 2,2 10 2,1 21 0,33 0,11 1,09 90 2,2 2,4 5 2,3 11,5 0,53 0,28 1,40 95 2,4 2,6 5 2,5 12,5 0,73 0,53 2,66 100 Razem 100 177 9,31 Nr Me = 50, Me = x 0 + h 0 (Nr w Me w isk 1 ) = 1,6 + 0,2 (50 30) = 1,73, 0 30
Przykład Płaca Claudia (x 0i x 1i ) w i xi w ixi xi x ( x i x) 2 w i ( x i x) 2 w isk 1,2 1,4 10 1,3 13-0,47 0,22 2,21 10 1,4 1,6 20 1,5 30-0,27 0,07 1,46 30 1,6 1,8 30 1,7 51-0,07 0,00 0,15 60 1,8 2,0 20 1,9 38 0,13 0,02 0,34 80 2,0 2,2 10 2,1 21 0,33 0,11 1,09 90 2,2 2,4 5 2,3 11,5 0,53 0,28 1,40 95 2,4 2,6 5 2,5 12,5 0,73 0,53 2,66 100 Razem 100 177 9,31 S x = k w i ( x i x) 2 i=1 100 = 9,31 100 = 0,305, W S = x D o S x = 1,77 1,7 0,305 = 0,23
Przykład Analogiczne rachunki przeprowadzamy dla drugiego zakładu. Jako proste ćwiczenie pozostawiamy je czytelnikowi. Wyniki obliczeń zbierzmy w tabeli Parametry Zakład Claudia Zakład Linea x Me D o S x A S W S Do Relacja między średnimi 1,77 2,03 1,73 2,07 1,7 2,1 0,305 0,305 0,07 > 0-0,07 < 0 0,23-0,23 < Me < x x < Me < Do
Przykład Parametry Zakład Claudia Zakład Linea x Me D o S x A S W S Do Relacja między 1,77 2,03 1,73 2,07 1,7 2,1 0,305 0,305 0,07 > 0-0,07 < 0 0,23-0,23 < Me < x x < Me < Do Z powyższego wynika, że oba zakłady charakteryzują się słabą asymetrią (A S = ±0,07). Siła asymetrii w tych zakładach jest taka sama, natomiast różny jest jej kierunek: w zakładzie Claudia asymetria dodatnia, w zakładzie Linea ujemna, co oznacza, że w zakładzie Claudia więcej szwaczek zarabia poniżej średniej, a w zakładzie Linea przeciwnie, więcej szwaczek zarabia powyżej średniej.
Przykład Zakład Claudia Zakład Linea 30 30 22,5 22,5 15 15 7,5 7,5 0 0 1,2 1,4 1,4 1,6 1,6 1,8 1,8 2,0 2,0 2,2 2,2 2,4 2,4 2,6 1,2 1,4 1,4 1,6 1,6 1,8 1,8 2,0 2,0 2,2 2,2 2,4 2,4 2,6
Pozycyjny współczynnik asymetrii A Q W przypadku, gdy średni poziom cechy mierzymy za pomocą miar pozycyjnych, stosujemy pozycyjny współczynnik asymetrii: A Q = (Q 3 Me) (Me Q 1 ) Q 3 Me) + (Me Q 1 ) = Q 3 + Q 1 2Me Q 3 Q 1. Wartości współczynnika ograniczają się do przedziału od -1 do +1. Miernik ten oparty jest na obserwacji, że w symetrycznym szeregu statystycznym kwartyl pierwszy jest tak samo oddalony od mediany jak kwartyl trzeci: Q 3 Me = Me Q 1.
Pozycyjny współczynnik asymetrii A Q (Q 3 Me) (Me Q 1 ) = 0 - rozkład symetryczny, (Q 3 Me) (Me Q 1 ) > 0 - asymetria dodatnia, (Q 3 Me) (Me Q 1 ) < 0 - asymetria ujemna, Podobnie jak W S,współczynnik asymetrii A Q określa siłę i kierunek asymetrii, ale tylko dla jednostek znajdujących się między pierwszym a trzecim kwartylem, a więc zawężonym obszarze 50% środkowych jednostek.
Miary Koncentracji Powyżej opisane miary średnie, miary zróżnicowania i miary asymetrii pozwalają w sposób wyczerpujący opisać strukturę badanej zbiorowości. W niektórych sytuacjach opis ten można uzupełnić (wzbogacić) miarami koncentracji. Zjawisko koncentracji nierównomierny podział ogólnej sumy wartości cechy pomiędzy poszczególne jednostki zbiorowości. Koncentracja jest przeciwieństwem równomierności podziału. Mówimy często o koncentracji kapitału, ludności, ziemi, dochodów ludności w pewnych grupach społecznych, rodzajów zanieczyszczeń itd.
Miary Koncentracji Skrajny przypadek absolutnej koncentracji zachodzi wtedy i tylko wtedy, gdy całą sumą wartości dysponuje tylko jedna jednostka zbiorowości, a pozostałe są ich całkowicie pozbawione. Drugi skrajny przypadek całkowitego braku koncentracji występuje wtedy, gdy każda jednostka zbiorowości otrzymuje taką samą część ogólnej sumy wartości, a więc wszystkie jednostki mają tę samą wartość rozpatrywanej cechy (podział równomierny). W praktyce do oceny stopnia koncentracji stosuje się dwie metody: graficzną i numeryczną.
Metoda graficzna oceny koncentracji Polega na wyznaczeniu krzywej Lorenza. Dane dotyczące liczby jednostek n i oraz łącznego poziomu cechy dla wszystkich jednostek danej grupy, czyli x i n i zastępujemy skumulowanymi wskaźnikami struktury: (x 0i x 1i ) - przedziały klasowe n i m i n i xi M = k i=1 m i z i = m i M 100 % w i = n i N 100 % z isk - wyrażone w % w isk - wskaźniki struktury wyrażone w %
Metoda graficzna oceny z isk (%) 100 80 koncentracji Linia równomiernego podziału Krzywa Lorenza 60 40 a 20 b 0 0 20 40 60 80 100 w isk (%)
Metoda numeryczna oceny koncentracji Precyzyjnie siłę koncentracji określamy obliczając współczynnik koncentracji Lorenza K. K = a a + b = (a + b) b a + b = 1 b a + b. Współczynnik koncentracji Lorenza jest względną miarą koncentracji zjawiska. Przyjmuje wartości z przedziału od 0 do 1. 0 K 1. Jeżeli K = 0, to koncentracja nie występuje, natomiast K = 1 oznacza koncentrację absolutną.
Metoda graficzna oceny koncentracji Pole trójkąta a + b jest równe a + b = 1 2 100 100 = 5000. Obszar pola b jest sumą trapezów (z czego pierwszy trapez ma jedną z podstaw długości 0, czyli jest trójkątem): zisk-1 zisk P = 1 2 (z isk 1 + z isk )w i wi
Przykład Ocenimy koncentrację powierzchni użytków rolnych w indywidualnych gospodarstwach rolnych w Polsce w czerwcu 2001 roku. Dane pochodzą z Rocznika Statystycznego GUS z 2002 roku. Powierzchnia gospodarstwa w hektarach Liczba gospodarstw w tysiącach 1 2 429 2 5 636 5 10 457 10 15 183 15 20 177 Ogółem 1882
Przykład Powierzchnia gospodarstwa w hektarach Liczba gospodarstw w tysiącach (x 0i x 1i ) n i x i m i w i z i w isk z isk Pola trapezów 1 2 429 1,5 643,5 22,79 5,51 22,79 5,51 62,80 2 5 636 3,5 2226 33,79 19,05 56,58 24,56 508,17 5 10 457 7,5 3427,5 24,28 29,34 80,87 53,90 952,73 10 15 183 12,5 2287,5 9,72 19,58 90,59 73,49 619,36 15 20 177 17,5 3097,5 9,40 26,52 100,00 100,00 815,82 Ogółem 1882 42,5 11682 100,00 100,00 2958,88 K = 1 b a + b = 1 2958,88 5000 = 0,41.
Przykład z isk (%) 100 80 Linia równomiernego podziału Krzywa Lorenza 60 40 20 0 0 20 40 60 80 100 w isk (%)
Przykład K = 1 b a + b = 1 2958,88 5000 = 0,41. Wartość współczynnika koncentracji Lorenza K wskazuje na umiarkowaną, ale bliską słabej, koncentrację użytków rolnych w gospodarstwach rolnych indywidualnych. Oznacza to, że znaczna część powierzchni użytków rolnych jest w dyspozycji stosunkowo niewielkiej liczby dużych gospodarstw indywidualnych.