Statystyka Wykład 5 Magdalena Alama-Bućko 20 marca 2017 Magdalena Alama-Bućko Statystyka 20 marca 2017 1 / 26
Koncentracja Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia, dyspersji) miary asymetrii miary koncentracji (miara spłaszczenia). Miara koncentracji (kurtoza) - miara skupienia obserwacji wokół średniej. Istnieje ścisły zwiazek pomiędzy koncentracja wartości cechy wokół średniej, a ich zróżnicowaniem. Im większe jest zróżnicowanie, tym mniejsza jest koncentracja. Magdalena Alama-Bućko Statystyka 20 marca 2017 2 / 26
K = m 4 s 4, gdzie m 4 = 1 n n (x i x) 4. Im wyższa wartość K, tym bardziej wysmukła krzywa liczebności, więc większa koncentracja wartości cechy wokół średniej. Małe wartości K wskazuja natomiast na spłaszczenie rozkładu zbiorowości względem badanej cechy. i=1 Jeżeli zbiorowość ma rozkład normalny, to K = 3. K < 3- rozkład bardziej spłaszczony od normalnego K > 3 - rozkład bardziej wysmukły od normalnego Zatem uzasadnione jest stosowanie zmodyfikowanej miary K = m 4 s 4 3. Magdalena Alama-Bućko Statystyka 20 marca 2017 3 / 26
kolor czerwony : K = 0 rozkład normalny kolor zielony : K > 0 rozkład bardziej wysmukły od normalnego kolor granatowy : K < 0 rozkład bardziej spłaszczony od normalnego Magdalena Alama-Bućko Statystyka 20 marca 2017 4 / 26
Przykład 4 Rozważmy jeszcze jeden histogram. A = m 3 s 3 = 0 0.733 3 = 0 - rozkład symetryczny K = m 4 s 4 3 = 1 0.733 4 3 = 0.464 > 0 zatem rozkład bardziej wysmukły od normalnego. Magdalena Alama-Bućko Statystyka 20 marca 2017 5 / 26
Obliczenia do przykładu 4. Legenda: xi - wartość cechy (1kolumna); ni - jej liczebność (2 kol.); 3 kolumna - służy do obliczenia średniej; 4 kol.- pomocniczo do obliczenia m 3 i m 4 ; 5 i 6 kol. - do obliczenia wariancji (czyli m 2 ), 7 i 8 - do obliczenia m 3, a 9 i 10 - do obliczenia m 4 Magdalena Alama-Bućko Statystyka 20 marca 2017 6 / 26
Krzywa koncentracji Lorenza w ekonometrii, ekologii, geografii ludności itp. koncentrację rozkładów cech badamy za pomoca krzywej koncentracji Lorenza. w zasadzie badamy czy cecha jest rozłożona równomiernie graficzna metoda badania koncentracji w ekonometrii np. do badania dystrybucji dochodów w społeczeństwie (tzn. czy wszyscy maja takie same dochody?) w geografii ludności : do obrazowania nierównomierności gęstości zaludnienia w podjednostkach terenowych. Magdalena Alama-Bućko Statystyka 20 marca 2017 7 / 26
Kwadrat o boku 1 (= 100%). na osi poziomej odkładamy skumulowane częstości względne (albo skumulowany procent) liczby obserwacji na osi pionowej odkładamy skumulowane częstości względne (albo skumulowany procent) wartości badanej cechy Przekatna kwadratu nosi nazwę linii równomiernego rozdziału. krzywa koncentracji to łamana łacz aca punkty (0, 0) i (1, 1) = (100%, 100%) oraz pewne punkty wyznaczone na podstawie danych (opisane wyżej). Magdalena Alama-Bućko Statystyka 20 marca 2017 8 / 26
Przykład: Dochody społeczeństwa USA w 1978 Rysunek: źródło : Wikipedia, Krzywa Lorenza punkt E : 80% łacznych dochodów otrzymuje 80% społeczeństwa punkt E : 80% społeczeństwa dysponuje zaledwie 50% dochodów. Magdalena Alama-Bućko Statystyka 20 marca 2017 9 / 26
punkt na przekatnej interpretujemy następujaco : jeżeli dana cecha rozłożona jest równomiernie w badanej grupie obiektów, to p% obiektów (o najmniejszych wartościach) przyjmuje dokładnie p% łacznej wartości danej cechy. jeśli rozkład równomierny, to 50% łacznej wartości cechy osiaga 50% obiektów 80% łacznej wartości cechy osiaga 80% obiektów jeżeli na krzywej Lorenza znajduje się punkt (50%,20%) 20% łacznej wartości cechy osiaga 50% obiektów występuje koncentracja danych ma znaczenie przeciwne do dane rozłożone równomiernie wzrost koncentracji oznacza, że dane sa mniej równomierne Magdalena Alama-Bućko Statystyka 20 marca 2017 10 / 26
Interpretacja Magdalena Alama-Buc ko Statystyka 20 marca 2017 11 / 26
na osi poziomej zaznaczamy skumulowane częstości względne liczby obserwacji Niech n = n 1 + n 2 +... + n k. Dla każdego i liczymy = n cum i 1 j i n j = n 1 + n 2 +... + n i oraz w i = ncum in = n 1 + n 2 +... + n i n Oczywiście w i [0, 1], i = 1, 2,..., k oraz w k = 1 = 100%. na osi pionowej zaznaczamy skumulowane częstości względne wartości danej cechy dla każdego i liczymy t i = x i n i. Niech t = n 1 x 1 + n 2 x 2 +... + n k x k. dla każdego i liczymy = t j = t 1 + t 2 +... + t i. oraz zi = t i cum t t cum i 1 j i = t 1 + t 2 +... + t i t = n 1x 1 + n 2 x 2 +... + n i x i n 1 x 1 + n 2 x 2 +... + n k x k Oczywiście z i [0, 1], i = 1, 2,..., k oraz z k = 1 = 100%. Magdalena Alama-Bućko Statystyka 20 marca 2017 12 / 26
dla i = 1, 2,..., k zaznaczamy punkty (w i, z i ) krzywa koncentracji Lorenza otrzymujemy łacz ac po kolei te punkty z soba. Magdalena Alama-Bućko Statystyka 20 marca 2017 13 / 26
Przykład Magdalena Alama-Bućko Statystyka 20 marca 2017 14 / 26
Powierzchnia koncentracji - powierzchnia pomiędzy linia równomiernego rozdziału (tzn. przekatn a) a krzywa Lorenza. Na podstawie wykresu można zorientować się jak silna koncentracja występuje. Im większe pole tym mniejsza równomierność w rozkładzie cechy. Współczynnik koncentracji Lorenza to stosunek pola powierzchni koncentracji do połowy pola kwadratu (tzn. pola pod przekatn a). Magdalena Alama-Bućko Statystyka 20 marca 2017 15 / 26
a - pole powierzchni koncentracji pole połowy kwadratu o boku (1=100%): jeśli jednostki w postaci ułamków (tzn. skala od 0 do 1), to 1 2 12 = 1 2 jeśli skala osi od 0% do 100% (pomijamy procenty) to 1 2 1002 = 1 5000 Wówczas w zależności od sposobu zapisu danych mamy: K L = a 0.5 albo K L = a 5000. K L = 0 - brak koncentracji K L = 1 - koncentracja zupełna Magdalena Alama-Bućko Statystyka 20 marca 2017 16 / 26
K L = a 0.5 albo K L = a 5000. K L = 0 - brak koncentracji (a = 0 czyli wszystkie punkty na przekatnej) K L = 1 - koncentracja zupełna Słaba koncentracja jest zwiazana z dość równomiernym podziałem łacznej wartości badanej cechy pomiędzy jednostki statystyczne opisywane przez dana cechę jak policzyć a? Magdalena Alama-Bućko Statystyka 20 marca 2017 17 / 26
a obliczamy odejmujac od trójkata pod przekatn a kwadratu trójkata (na brzegu) i trapezów. P 1 = 1 2 0.03 0.08 = 0.0012 P 2 = 1 2 (0.03 + 0.24) (0.38 0.08) = 1 2 0.27 0.3 = 0.0405 P 3 = 1 2 (0.24 + 0.65) (0.77 0.38) = 1 2 0.89 0.39 = 0.1735 P 4 = 1 2 (0.65 + 0.86) (0.92 0.77) = 1 2 1.51 0.15 = 0.1132 P 5 = 1 2 (0.86 + 1) (1 0.92) = 1 2 1.86 0.08 = 0.0744 K = a 0.5 = 0.5 (P 1 + P 2 + P 3 + P 4 + P 5 ) 0.5 0.4028 = = 0.1944. 0.5 0.5 Magdalena Alama-Bućko Statystyka 20 marca 2017 18 / 26
Możemy porównywać wyznaczony w ten sposób współczynnik koncentracji Lorenza dla różnych cech Magdalena Alama-Bućko Statystyka 20 marca 2017 19 / 26
Zadanie Wyznaczyć i porównać koncentrację utargów w dwóch sieciach sklepów. Pokażemy, że wartości współczynników koncentracji Lorenza dla odpowiednio pierwszej i drugiej sieci sklepów wynosza: K (1) L = 0.1955, K (2) L = 0.287. Stad utargi w sieci pierwszej sa mniej skoncentrowane niż w drugiej. Magdalena Alama-Bućko Statystyka 20 marca 2017 20 / 26
K L = 0.1955 Magdalena Alama-Bućko Statystyka 20 marca 2017 21 / 26
P 1 = 1 2 0.11 0.2 = 0.011 P 2 = 1 2 (0.11 + 0.55) (0.7 0.2) = 0.165 P 3 = 1 2 (0.55 + 0.74) (0.84 0.7) = 0.09675 P 4 = 1 2 (0.74 + 0.9) (0.95 0.85) = 0.082 P 5 = 1 2 (0.9 + 1) (1 0.95) = 0.0475 K L = 0.5 (P 1+P 2 +P 3 +P 4 +P 5 ) 0.5 = 0.5 0.40225 0.5 = 0.1955 Magdalena Alama-Bućko Statystyka 20 marca 2017 22 / 26
K L = 0.287 Magdalena Alama-Bućko Statystyka 20 marca 2017 23 / 26
P 1 = 1 2 0.19 0.45 = 0.04275 P 2 = 1 2 (0.19 + 0.23) (0.5 0.45) = 0.0105 P 3 = 1 2 (0.23 + 0.29) (0.55 0.5) = 0.013 P 4 = 1 2 (0.29 + 1) (1 0.55) = 0.29025 K L = 0.5 (P 1+P 2 +P 3 +P 4 ) 0.5 = 0.5 0.3565 0.5 = 0.287 Magdalena Alama-Bućko Statystyka 20 marca 2017 24 / 26
Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary zmienności miary asymetrii miary koncentracji. Analiza współzależności zjawisk. Analiza dynamiki zjawisk. Magdalena Alama-Bućko Statystyka 20 marca 2017 25 / 26
Dziękuję za uwagę! Magdalena Alama-Bućko Statystyka 20 marca 2017 26 / 26