Analiza struktury i przeciętnego poziomu cechy

Analiza struktury Pod pojęciem analizy struktury rozumiemy badanie budowy (składu) określonej zbiorowości, lub próby, tj. ustalenie, z jakich składa się elementów oraz jaką część stanowią owe elementy w całym zbiorze.

Wskaźniki struktury Wyrażają stosunek części zbiorowości statystycznej (n i ) do jej całości (N). Można je wyznaczyć za pomocą formuły w i = n i N 100 %, i = 1,2,, k. Wskaźniki struktury są liczbami względnymi (niemianowanymi). Ma to nie tylko duże znaczenie poznawcze, ale również praktyczne. Przykładowo: w przedsiębiorstwie A wykształcenie wyższe ma 10 na 1000 pracowników, natomiast w przedsiębiorstwie B 5 na 50 pracujących, zatem 1% pracowników w firmie A, a 10% w firmie B ma wykształcenie wyższe.

Wskaźniki struktury Wskaźniki struktury mówią jaką część stanowi wybrana grupa klasyfikacyjna w całej zbiorowości. Wskaźniki struktury, jako proste i zrozumiałe mierniki, znajdują szerokie zastosowanie w praktyce badań statystycznych. Istotną ich zaletą jest fakt, że mogą być stosowane dla dowolnych cech (mierzalnych i niemierzalnych), gdyż wykorzystują liczebności cząstkowe i łączną liczebność zbiorowości, bez udziału samych wariantów cechy. w i = n i N 100 %, i = 1,2,, k.

Przykład W pewnym łódzkim liceum do egzaminu maturalnego w 2009 roku przystąpiło 240 uczniów, z czego 162 osoby stanowiły kobiety. Aby obliczyć jaki procent zdających maturę stanowiły kobiety (w 1 ) stosujemy wzór: w 1 = 162 240 100 % = 0,675 100 % = 67,5 %. Z kolei w celu ustalenia, jaki odsetek stanowili mężczyźni (w 2 ) stosujemy wzór: w 2 = 240 162 240 100 % = 0,325 100 % = 32,5 %.

Wskaźnik podobieństwa struktur Czasami badacza interesuje nie tylko, jaka jest struktura danej zbiorowości, ale także to, czy jest ona podobna do innej (np. czy struktura zarobków kobiet i mężczyzn jest do siebie zbliżona). Syntetycznym miernikiem podobieństwa struktur jest wskaźnik podobieństwa struktur dany wzorem: w p = k i=1 min(w 1i, w 2i ), gdzie w 1i - wskaźnik struktury pierwszej zbiorowości, w 2i - wskaźnik struktury drugiej zbiorowości.

Wskaźnik podobieństwa struktur Warunkiem zastosowania tego wskaźnika jest takie samo grupowanie obu zbiorowości ze względu na badaną cechę mierzalną lub niemierzalną. Wartości wskaźnika podobieństwa struktur zawierają się w przedziale od 0 do 1 (lub w wyrażeniu procentowym od 0 do 100 procent). Im bliższe jedności (lub 100%) wartości tego wskaźnika, tym większe podobieństwo analizowanych struktur. Wartość wskaźnika równa 1 (100%) oznacza, że struktury są identyczne.

Przykład Poniższa tablica przedstawia liczbę osób ukaranych przez sąd grodzki w miejscowościach A i B. Zbadamy czy struktura wiekowa ukaranych w tych dwóch miejscowościach jest podobna. Wiek (w latach) A Liczba ukaranych 20 24 5 10 25 29 10 60 30 34 12 90 35 39 20 100 40 44 130 90 45 49 23 50 Razem 200 400 B

Przykład Wiek (w latach) Liczba ukaranych Wskaźniki struktury A B w1i w2i min(w1i, w2i) 20 24 5 10 0,025 0,025 0,025 25 29 10 60 0,05 0,15 0,05 30 34 12 90 0,06 0,225 0,06 35 39 20 100 0,1 0,25 0,1 40 44 130 90 0,65 0,225 0,225 45 49 23 50 0,115 0,125 0,115 Razem 200 400 1 1 0,575 Wskaźnik podobieństwa struktur wynosi w p = 0,575. Wielkość ta świadczy o umiarkowanym podobieństwie badanych struktur ze względu na wiek osób ukaranych przez sądy grodzkie w porównywanych miejscowościach.

Miary średnie Jeżeli cecha, którą analizujemy w zbiorowości jest cechą mierzalną, to zbiorowość możemy scharakteryzować w sposób syntetyczny za pomocą miar wyrażających jej przeciętny poziom. Miary przeciętne charakteryzują średni lub typowy poziom wartości cechy. Są to więc takie miary, wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy. Miary przeciętne dzielą się na miary klasyczne i pozycyjne. Pierwsze wyznaczane w oparciu o wszystkie wartości cechy drugie wskazują określoną pozycję jednostek (np. środkową lub dominującą).

Miary średnie Miary przeciętne Klasyczne Średnia arytmetyczna Średnia harmoniczna Średnia geometryczna Pozycyjne Dominanta Mediana

Średnia arytmetyczna Wyraża ona przeciętny poziom badanej cechy (zmiennej) w populacji, np. przeciętna miesięczna sprzedaż, średnia ocena na świadectwie szkolnym itp. Interpretacja średniej i metoda jej wyznaczania jest zawsze taka sama, jednak techniczny sposób obliczenia średniej zależy od typu szeregu statystycznego, z którym mamy do czynienia. Średnia jest sumą wartości cechy podzieloną przez liczbę jednostek zbiorowości. Średnią arytmetyczną oznaczamy symbolem: x μ - dla próby, - dla populacji.

Średnia arytmetyczna Wzór na średnią arytmetyczną dla szeregu szczegółowego: x = x 1 + x 2 + + x N N = N i=1 x i N. Wzór na średnią arytmetyczną ważoną, gdy wartości cechy występują więcej niż jeden raz (x i występuje n i razy): x = n 1 x 1 + n 2 x 2 + + n k x k N = k i=1 n i x i N.

Przykład Oceny z matematyki xi Liczba uczniów ni nixi 1 2 2 2 4 8 3 10 30 3,5 4 14 4 4 16 4,5 1 4,5 5 2 10 6 1 6 Razem 28 90,5 x = k i=1 N n i x i = 90,5 28 = 3,23.

Średnia arytmetyczna W szeregach rozdzielczych przedziałowych wartości cechy w każdej klasie nie są jednoznacznie określone, ale mieszczą się w pewnym przedziale. Możemy jednak przyjąć umowę, że wartości cechy wewnątrz każdego przedziału rozłożone są równomiernie, a wówczas środek przedziału jest jednocześnie średnią wartością cechy w danej klasie. Środek i-tego przedziału klasowego oznaczamy przez. x i = x 0i + x 1i 2 x i

Średnia arytmetyczna Jest to oczywiście pewne przybliżenie wartości cechy. x 0i, x 1i ) x 0i x i x 1i Do obliczenia średniej ważonej dla szeregu rozdzielczego przedziałowego stosujemy: x = k i=1 n i xi N.

Przykład W pewnym przedsiębiorstwie zatrudniającym 130 osób przeprowadzono badanie stażu pracy: Staż pracy (w latach) (x0i x1i) Liczba pracowników (ni) 2 4 10 4 6 20 6 8 35 8 10 45 10 12 15 12 14 5 Razem 130

Przykład Staż pracy (w latach) (x0i x1i) Liczba pracowników (ni) Środki przedziałów klasowych ( ) 2 4 10 3 30 4 6 20 5 100 6 8 35 7 245 8 10 45 9 405 10 12 15 11 165 12 14 5 13 65 Razem 130 1010 x = k i=1 N n i xi x i = 1010 130 7,77. n i xi

Średnia arytmetyczna Jeśli zamiast liczebnościami (n i ) dysponujemy wskaźnikami struktury (w i ), to średnią wyznaczamy przy pomocy wzoru: x = k i=1 w i xi albo wzoru x = k i=1 w i xi 100, gdy wskaźniki struktury wyrażone są w procentach.

Własności średniej arytmetycznej x min < x < x max, N i=1 (x i x) = 0, k i=1 n i (x i x) = 0, Nx = N i=1 x i, Nx = k i=1 n i x i, Jeżeli wszystkie wartości cech powiększymy o pewną stałą, to średnia powiększy się o tą stałą.

Dominanta Dominanta (wartość modalna, moda) jest to wartość, która w zbiorowości powtarza się najczęściej. Dominantę oznaczamy symbolem D o Stosujemy ją wtedy, gdy chcemy za pomocą jednej liczby wyrazić wariant lub wartość cechy najbardziej typowy, najczęściej spotykany. Sposób wyznaczania dominanty zależy od typu szeregu statystycznego, z którym mamy do czynienia. Dla szeregów szczegółowych lub rozdzielczych punktowych dominantę wystarczy wskazać, gdyż jest to wartość o największej liczebności.

Przykład W roku szkolnym 2017/2018 uczeń otrzymał następujące oceny: 2; 2; 3; 3; 3; 3,5; 3,5; 4; 4; 4,5; 4,5; 4,5; 4,5; 5; 5. D o = 4,5. Oznacza to, że uczeń najczęściej otrzymywał ocenę 4,5.

Przykład Wyniki kolokwium ze statystyki w jednej z grup przedstawia poniższa tabela Ocena Liczba uczniów 2 4 3 10 3,5 4 4 4 4,5 1 5 2 Razem 25 D o = 3. Oznacza to, że najwięcej studentów otrzymało ocenę dostateczną 3.

Dominanta W przypadku danych przedstawionych w postaci szeregu rozdzielczego przedziałowego wiemy, która grupa dominuje na tle całości, ale nie wiemy, która wartość przedziału jest rzeczywistą wartością dominującą. W takich przypadkach obliczamy tylko przybliżoną wartość dominanty: D o = x 0 + (n 0 n 1 )h 0 (n 0 n 1 ) + (n 0 n +1 ), x 0 n 0 dolna granica przedziału dominującego, częstość przedziału dominującego, n 1, n +1 częstości przedziałów: poprzedzającego i następującego, h 0 rozpiętość przedziału dominującego.

Dominanta Aby wyznaczyć dominantę w przypadku szeregu rozdzielczego przedziałowego muszą być spełnione następujące warunki: Musi występować jeden przedział klasowy z wyraźnie dominującą liczebnością w stosunku do pozostałych, Przedział klasowy, w którym znajduje się dominanta oraz przedziały z nią sąsiadujące muszą mieć jednakowe rozpiętości, Szereg nie może być skrajnie asymetryczny z otwartym przedziałem dominującym.

Przykład Wynagrodzenie miesięczne netto kadry kierowniczej dużego koncernu naftowego przedstawia poniższa tabela: Wynagrodzenie miesięczne netto w tys. Zł (x0i x1i) Liczba pracowników (ni) 2 4 10 4 6 20 6 8 35 8 10 45 10 12 15 12 14 5 Razem 130

Przykład Wynagrodzenie miesięczne netto w tys. Zł (x0i x1i) Liczba pracowników (ni) 2 4 10 4 6 20 6 8 35 8 10 45 10 12 15 12 14 5 Razem 130 x 0 = 8, n 0 = 45, n 1 = 35, n +1 = 15, h 0 = 10 8 = 2.

Przykład x 0 = 8, n 0 = 45, n 1 = 35, n +1 = 15, h 0 = 10 8 = 2. D o = x 0 + (n 0 n 1 )h 0 (n 0 n 1 ) + (n 0 n +1 ) = = 8 + = 8 + 20 40 (45 35) 2 (45 35) + (45 15) = = 8,5 tys. zł.

Mediana i pozostałe kwantyle Mediana jest to wartość, która jest umieszczona dokładnie w środku, pod warunkiem, że mamy do czynienia z uporządkowaną (z punktu widzenia badanej cechy) zbiorowością według wielkości jej elementów, tzn. od ich wartości najmniejszej do największej. Mediana dzieli zbiorowość na dwie równe części w ten sposób, że połowa jednostek ma wartość cechy niższe lub równe medianie, a połowa ma wartości cechy większe lub równe od mediany. Mediana zwykle jest oznaczana przez Me.

Mediana i pozostałe kwantyle 50% 50% x min Me x max Sposób wyznaczania mediany zależy od rodzaju szeregu statystycznego, z którym mamy do czynienia. Jeżeli informacje o wartościach cechy są przedstawione w postaci danych indywidualnych (niepogrupowane), to w celu wyznaczenia mediany należy uporządkować informacje rosnąco i ustalić, która z nich zajmuje miejsce środkowe. Wartość tej cechy będzie wartością mediany.

Mediana i pozostałe kwantyle W tym przypadku sposób wyznaczenia mediany zależy też od tego, czy liczba obserwacji jest parzysta czy nieparzysta. N jest nieparzysta, N jest parzysta, Me = x (N+1)/2 Me = x N/2 + x N/2+1 2

Przykład Zapytano o wiek dwie grupy osób i otrzymano odpowiedzi: Dla pierwszej grupy: 25, 32, 18, 22, 37 lat, Dla drugiej grupy: 43, 24, 26, 29, 32, 41 lat. 1 2 3 4 5 18 22 25 32 37 1 2 3 4 5 6 24 26 29 32 41 43 N = 5 N = 6 Me = x (N+1)/2 = x 3 = 25 Me = x N/2 + x N/2+1 = x 3 + x 4 2 2 29 + 32 = = 30,5 2

Mediana i pozostałe kwantyle W sytuacji, gdy informacje o wartościach cechy przedstawione są w postaci szeregu rozdzielczego punktowego medianę wyznaczamy na podstawie częstości (liczebności) skumulowanych n isk w następujący sposób: Wyznaczamy częstości skumulowane n isk, Obliczamy numer mediany ze wzoru N/2, gdy N jest parzyste, Nr Me = { (N + 1)/2, gdy N jest nieparzyste,

Mediana i pozostałe kwantyle Wyznaczamy klasę, w której znajduje się mediana, tzn. odszukujemy wartość numeru mediany Nr Me wśród częstości skumulowanych n isk. Jest to klasa o pierwszym numerze i, dla którego Nr Me n isk. Odczytujemy wartość mediany.

Przykład Wyniki klasówki w jednej z klas licealnych były następujące: Nr klasy Oceny xi Liczba ocen (ni) Częstości skumulowane (nisk) 1 1 1 1 2 2 3 4 3 3 10 14 4 3,5 4 18 5 4 3 21 6 4,5 1 22 7 5 2 24 8 6 1 25 Razem 25 Nr Me = (25 + 1)/2 = 13 14 = n 3sk, Me = 3.

Mediana i pozostałe kwantyle Medianę w szeregu rozdzielczym przedziałowym wyznaczamy graficznie lub analitycznie, korzystając ze wzoru: gdzie x 0 Me = x 0 + h 0 n 0 (Nr Me n isk 1 ), - dolna granica przedziału zawierającego medianę, h 0 n 0 - rozpiętość przedziału mediany, - częstość przedziału mediany, n isk 1 - częstość skumulowana przedziału poprzedzającego przedział mediany, Nr Me - numer mediany.

Przykład Poniżej podane są dane dotyczące wydajności pracy pracowników pewnego przedsiębiorstwa. Wyznaczymy medianę tej wydajności. Wydajność pracy w szt./godz. x0i x1i Liczba pracowników (ni) Częstości skumulowane (nisk) 2 4 10 10 4 6 20 30 6 8 37 67 8 10 45 112 10 12 15 127 12 14 5 132 Razem 132 Nr Me = N 2 = 132 2 = 66.

Przykład Wydajność pracy w szt./godz. x0i x1i Liczba pracowników (ni) Częstości skumulowane (nisk) 2 4 10 10 4 6 20 30 6 8 37 67 8 10 45 112 10 12 15 127 12 14 5 132 Razem 132 Nr Me = N 2 = 132 2 = 66, h 0 = 2, n 0 = 37, n isk 1 = 30, Me = x 0 + h 0 n 0 (Nr Me n isk 1 ) = 6 + 2 37 (66 30) = 7,95.

Przykład 140 Diagram częstości skumulowanych 120 Liczba pracowników 100 80 60 40 Nr mediany 20 0 2 4 6 Me 10 12 14 Wydajność pracy

Uwaga Jeśli mamy dostęp tylko do danych o liczebnościach względnych w i, to w poniżym wzorze przyjmujemy: x 0 Me = x 0 + h 0 n 0 (Nr Me n isk 1 ), - dolna granica przedziału zawierającego medianę, h 0 - rozpiętość przedziału mediany, n 0 = w 0 - częstość względna przedziału mediany, n isk 1 = w isk 1 - częstość skumulowana względna przedziału poprzedzającego przedział mediany, Nr Me = 50 - numer mediany.

Własności mediany Może być ona wyznaczana w szeregach o otwartych przedziałach klasowych, Można ją wyznaczać do opisania zbiorowości, których nie można określić liczbowo (do wyznaczenia mediany nie jest konieczna znajomość wszystkich wartości cechy mierzalnej), Jest jedyną średnią, którą można wyznaczyć dla rozkładów skrajnie asymetrycznych, Nie jest wrażliwa na wartości skrajne (w przeciwieństwie do średniej arytmetycznej), Może być wyznaczana w szeregach o nierównych rozpiętościach przedziałów klasowych, tj. w sytuacji, kiedy niemożliwe jest wyznaczenie dominanty.

Kwantyle Jeżeli konieczna jest bardziej szczegółowa analiza właściwości strukturalnych, oprócz mediany, która jest kwartylem drugim, znajdują zastosowanie kwartyl pierwszy i trzeci. Kwartyle należą do miar statystycznych zwanych kwantylami, które dzielą zbiorowość statystyczną w określonej proporcji. Kwantyle Kwartyle Q Decyle D Centyle (percentyle) C

Pierwszy kwartyl Q 1 Dzieli zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości (czyli 1/4) ma wartości cechy niższe bądź równe wartości Q 1, a 75% (czyli 3/4) równe lub wyższe od wartości tego kwartyla. 25% 75% x min Q 1 x max

Trzeci kwartyl Q 3 Dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości (czyli 3/4) ma wartości cechy niższe bądź równe wartości Q 3, a 25% (czyli 1/4) równe lub wyższe od wartości tego kwartyla. 75% 25% x min Q 3 x max

Kwartyle Kwartyle wyznaczamy w sposób analogiczny jak w przypadku mediany, z tym że należy uwzględnić konkretny numer kwantyla. W przypadku danych uporządkowanych rosnąco i przedstawionych w postaci szeregu szczegółowego wartości kwartyla pierwszego i trzeciego możemy wyznaczyć przez podzielenie zbiorowości na dwie części: pierwszą, złożoną z jednostek nie większych od mediany i drugą, złożoną z jednostek nie mniejszych od mediany. Mediana każdej z tych części jest odpowiednio kwartylem pierwszym i trzecim.

Przykład I 1 2 3 4 5 6 7 8 9 10 11 12 5 7 8 8 8 9 10 10 12 14 15 16 Me = 9,5 1 2 3 4 5 6 5 7 8 8 8 9 1 2 3 4 5 6 10 10 12 14 15 16 Q 1 = 8 + 8 2 = 8 Q 3 = 12 + 14 2 = 13

Przykład II 1 2 3 4 5 6 7 8 9 10 11 12 13 5 5 7 8 8 8 9 10 10 12 14 15 15 Me = 9 1 2 3 4 5 6 7 5 5 7 8 8 8 9 1 2 3 4 5 6 7 9 10 10 12 14 15 15 Q 1 = 8 Q 3 = 12

Kwartyle Wyznaczenie kwartyla w przypadku danych przedstawionych w postaci szeregu rozdzielczego punktowego sprowadza się do odszukania numeru kwartyla w liczebnościach skumulowanych. N/4, gdy N jest parzyste, Nr Q1 = { (N + 1)/4, gdy N jest nieparzyste, 3N/4, gdy N jest parzyste, Nr Q3 = { 3(N + 1)/4, gdy N jest nieparzyste,

Przykład Nr klasy Oceny xi Liczba ocen (ni) Częstości skumulowane (nisk) 1 1 1 1 2 2 3 4 3 3 10 14 4 3,5 4 18 5 4 3 21 6 4,5 1 22 7 5 2 24 8 6 1 25 Razem 25 Nr Q1 = N + 1 4 = 25 + 1 4 = 6,5, 6,5 14 = n 3sk, Q 1 = 3.

Przykład Nr klasy Oceny xi Liczba ocen (ni) Częstości skumulowane (nisk) 1 1 1 1 2 2 3 4 3 3 10 14 4 3,5 4 18 5 4 3 21 6 4,5 1 22 7 5 2 24 8 6 1 25 Razem 25 Nr Q3 = 3(N + 1) 4 = 3(25 + 1) 4 = 19,5, 19,5 21 = n 5sk, Q 3 = 4.

Kwartyle W przypadku materiału statystycznego przedstawionego w postaci przedziałowych szeregów rozdzielczych Q 1 i Q 3 wyznaczamy na podstawie wzorów: Q 1 = x Q1 + h Q 1 n Q1 ( Nr Q 1 n isk 1 ), Q 3 = x Q 3 + h Q 3 n Q3 ( Nr Q 3 n isk 1 ), x Q - dolna granica przedziału klasowego zawierającego Q, h Q n Q - rozpiętość przedziału kwartyla, - częstość przedziału kwartyla, n isk 1 Nr Q - częstość przedziału poprzedzającego przedział kwartyla, - numer kwartyla.

Przykład Wydajność pracy w szt./godz. x0i x1i Liczba pracowników (ni) Częstości skumulowane (nisk) 2 4 10 10 4 6 20 30 6 8 37 67 8 10 45 112 10 12 15 127 12 14 5 132 Razem 132 Nr Q1 = N 4 = 132 4 = 33, x Q 1 = 6, h Q1 = 2, n Q1 = 37, n isk 1 = 30. Q 1 = x Q1 + h Q 1 n Q1 ( Nr Q 1 n isk 1 ) = 6 + 2 37 (33 30) = 6,16.

Przykład Wydajność pracy w szt./godz. x0i x1i Liczba pracowników (ni) Częstości skumulowane (nisk) 2 4 10 10 4 6 20 30 6 8 37 67 8 10 45 112 10 12 15 127 12 14 5 132 Razem 132 Nr Q3 = 3N 4 = 3 132 4 = 99, x Q3 = 8, h Q3 = 2, n Q3 = 45, n isk 1 = 67. Q 3 = x Q3 + h Q 3 n Q3 ( Nr Q 3 n isk 1 ) = 8 + 2 45 (99 67) = 9,42.

Własności kwartyli Należy zauważyć, że znajomość wartości Q 1 i Q 3 w uporządkowanym szeregu pozwala nam na stwierdzenie, że połowa (50%) środkowych jednostek danej zbiorowości statystycznej przyjmuje wartość od Q 1 do Q 3. 25% 25% 25% 25% x min Q 1 Me Q 3 50% x max

Kwantyle Jeżeli zbiorowość jest bardzo liczna, może się okazać, że podział zbiorowości na ćwiartki jest niewystarczający. Stosujemy wówczas decyle (dzielące zbiorowość na subpopulacje dziesięcioprocentowe) lub percentyle (dzielące zbiorowość na subpopulacje jednoprocentowe). 10% 90% x min D 1 x max 95% 5% x min C 95 x max