STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2
Statystyka zbiór przetworzonych i zsyntetyzowanych danych liczbowych, nauka o ilościowych metodach badania zjawisk masowych, zmienna losowa będąca funkcją próby. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne), skokowe (dyskretne), quasi ciągłe, ciągłe, jakościowe (niemierzalne).
Skale słabe, niemetryczne, jakościowe: nominalna (kategoryjna, wariantowa): dwudzielna (dychotomiczna): np. kobieta/mężczyzna, tak/nie, 0/1, wielodzielna (politomiczna): np. kolor, marka, gatunek, porządkowa (rangowa), np. oceny, preferencje, nie/raczej nie/nie mam zdania/raczej tak/tak silne, metryczne, ilościowe: przedziałowa (interwałowa), np. temperatura w skali Celsjusza, ilorazowa (stosunkowa), np. temperatura w skali Kelvina, zamknięte/otwarte, Zmienna ze skali mocniejszej może być rozpatrywana w skali słabszej, ale nie odwrotnie.
Badanie statystyczne pełne, częściowe, ciągłe, okresowe, doraźne, badania ankietowe, monograficzne, próbkowe (metoda reprezentacyjna). szacunki: interpolacja, ekstrapolacja, Etapy badania statystycznego: przygotowanie badania (cel, populacja, jednostka, metoda), obserwacja statystyczna, opracowanie i prezentacja materiału statystycznego, opis lub wnioskowanie statystyczne.
Szeregi statystyczne Szeregi statystyczne szczegółowe rozdzielcze czasowe punktowe przedziałowe momentów okresów przestrzenne
Szereg szczegółowy (wyliczający, dane indywidualne) 3590, 1520, 2340, 1460, 1990, 1830, 1830, 1520, 1460, 1990, 2612, 1520, 2340, 2145, 1460, 1830, 1520, 2299, 1460, 1460, 1520, 2145, 1990, 1830, 1990, 1830, 1460, 1460, 1660, 1660, 1830, 1990, 1460, 1520, 1830, 1830, 1460, 1460, 1460, 1460, 1660, 1520, 2340, 1460, 2045, 1520, 2145, 2145, 2299, 1660, 1520, 2340, 1520, 1520, 1460, 2145, 2145, 1460, 1460, 1520, 1460, 1460, 4960, 2612
Szereg rozdzielczy punktowy i x i n i 1 1460 18 2 1520 12 3 1660 4 4 1830 8 5 1990 5 6 2045 1 7 2145 6 8 2299 2 9 2340 4 10 2612 2 11 3590 1 12 4960 1 Razem 64
Szereg rozdzielczy przedziałowy x i n i 1000 1999 47 2000 2999 15 3000 3999 1 4000 4999 1 x i n i mniej niż 1500 18 1500 2000 29 2000 2500 13 2500 3000 2 3000 i więcej 2
Empiryczny rozkład cechy wartości cechy: x i, i = 1,..., k, zakładamy dalej, że wartości są uporządkowane rosnąco: x min = x 1 < x 2 < < x k = x max, końce przedziałów klasowych: x 0i < x 1i, rozpiętość przedziału: h i = x 1i x 0i, środek przedziału: ẋ i = x 0i + x 1i. 2 liczebności: n i liczba obserwacji o wartościach równych x i, lub mieszczących się w i-tym przedziale klasowym, liczebność zbiorowości (próby, populacji): n = k n i, częstości: f i = n i n, k f i = 1,
Liczebność skumulowana, dystrybuanta empiryczna Liczebność skumulowana: liczba obserwacji nie większa od danej wartości cechy: n(x) = n i i:x i x Dystrybuanta empiryczna: frakcja (część) obserwacji nie większa od danej wartości cechy: F n (x) = i:x i x f i = n(x) n.
Liczba Liczebność Częstość Skumulowana Dystrybuanta zadań liczebność empiryczna x i n i f i n(x i ) F n (x i ) 0 7 0.175 7 0.175 1 14 0.35 21 0.525 2 6 0.15 27 0.675 3 9 0.225 36 0.900 4 4 0.1 40 1 5 0 0 40 1 Suma 40 1
Miary opisu struktury poziom przeciętny (położenie, średni poziom wartości): średnia, mediana, dominanta (moda), zróżnicowanie (rozproszenie, dyspersja, zmienność): wariancja, odchylenie standardowe, odchylenie przeciętne, odchylenie ćwiartkowe, rozstęp, asymetria (skośność): skośność, współczynnik Yule a-kendalla, koncentracja (spłaszczenie): kurtoza, współczynnik Giniego, entropia,
Średnia arytmetyczna dla danych indywidualnych: x = 1 n n x i = x 1 + + x n, n dla szeregów rozdzielczych punktowych: x = 1 n k x i n i = k x i f i, dla szeregów rozdzielczych przedziałowych: x = 1 n k x i n i = k x i f i. x min x x max, n x i = n x, n (x i x) = 0 (lub k (x i x)n i = 0 lub k ( x i x)n i = 0),
x i n i x i x i n i (20, 25] 11 22.5 247.5 (25, 30] 23 27.5 632.5 (30, 35] 16 32.5 520.0 Σ 50 1400 x = 1400 50 = 28.
Mediana wartość środkowa, kwantyle Medianą z próby Me nazywamy taką wartość, że co najmniej połowa obserwacji ma wartość nie większą niż Me i równocześnie co najmniej połowa obserwacji ma wartość nie mniejszą niż Me. Inaczej: jest to najmniejsza wartość, dla której F n (Me) 1 2 lub rownoważnie n(me) n 2. dla szeregów szczegółowych: Me = x n+1 2 x n 2 + x n 2 +1 2 gdy n jest nieparzyste, gdy n jest parzyste. kwantylem empirycznym rzędu p, gdzie 0 < p < 1, nazywamy najmniejszą wartość q p cechy, dla której zachodzi: F n (q p ) p.
Kwantyle, kwartyle dla szeregów przedziałowych kwantyle aproksymujemy wzorem q p x 0p + [pn n(x 0p )] hp n p = x 0p + [p F n (x 0p )] n h p n p p rząd kwantyla, x0p dolna granica przedziału kwantyla: F n (x 0p ) p < F n (x 1p ), np liczebność przedziału kwantyla, hp szerokość przedziału kwantyla, n(x 0p ) liczebność skumulowana w przedziale poprzedzającym przedział kwantyla, Fn (x 0p ) wartość dystrybuanty empirycznej na końcu przedziału poprzedzającego przedział kwantyla, kwartyle: Q 1 = q 0.25, Q 2 = Me = q 0.5, Q 3 = q 0.75, w szczególności dla p = 1 2 otrzymujemy wzór dla mediany: [ ] [ n Me x 0M + 2 n(x 0M) hm 1 = x 0M + n M 2 F n(x 0M)] n h M n M
1 x i n i F n (x i ) (20, 25] 11 0.22 (25, 30] 23 0.68 (30, 35] 16 1 0.75 0.5 0.25 20 25 30 35 Q 1 = 25 + [0.25 0.22] 50 5 23 25.33, Me = 25 + [0.5 0.22] 50 5 23 28.04, Q 3 = 30 + [0.75 0.68] 50 5 16 31.09.
Dominanta Dominantą (modą, modalną) nazywamy wartość zmiennej, która występuje najczęściej, można wyznaczać tylko w rozkładach jednomodalnych, w szeregach szczegółowych i punktowych jest to wartość cechy odpowiadająca największej liczebności, w szeregach przedziałowych aproksymujemy ją wzorem: D x 0D + n D n D 1 (n D n D 1 ) + (n D n D+1 ) h D, x 0D dolna granica przedziału dominanty (o największej liczebności), nd, n D 1, n D+1 odpowiednio liczebność przedziału dominanty, przedziału poprzedniego i następnego, hd rozpiętość przedziału dominanty. Wzór Pearsona : Me 1 3 D + 2 3 x.
25 x i n i (20, 25] 11 (25, 30] 23 (30, 35] 16 20 15 10 5 20 25 D 30 35 D = 25 + 23 11 (23 11) + (23 16) 5 28.16. Uwaga: w przypadku przedziałów o różnej szerokości liczebności n i zastępujemy gęstościami: g i = n i /h i.
Wariancja dla danych indywidualnych: S 2 = 1 n (x i x) 2 = 1 n xi 2 ( x) 2, n n dla szeregów rozdzielczych punktowych: S 2 = 1 k (x i x) 2 n i = 1 k xi 2 n i ( x) 2, n n dla szeregów rozdzielczych przedziałowych: S 2 = 1 k ( x i x) 2 n i = 1 k x 2 i n i ( x) 2, n n poprawka Shepparda: S 2 = S 2 h2 12,
odchylenie standardowe: S = S 2, współczynnik zmienności: odchylenie przeciętne: V = S x, d = 1 n x i x n ( d = 1 ) k x i x n i, n odchylenie ćwiartkowe: Q = Q 3 Q 1, 2 pozycyjny współczynnik zmienności: V = Q Me, rozstęp: R = x max x min, rozstęp ćwiartkowy (międzykwartylowy): IQR = Q 3 Q 1,
x = 1400 50 = 28, x i n i x i x i n i ( x i x) 2 ( x i x) 2 n i (20, 25] 11 22.5 247.5 30.25 332.75 (25, 30] 23 27.5 632.5 0.25 5.75 (30, 35] 16 32.5 520.0 20.25 324.00 Σ 50 1400 662.50 S 2 = 662.5 = 13.25, 50 S = 13.25 3.64, 31.09 25.33 Q = 2.88, 2
Równość wariancyjna mamy informacje o k grupach: ich liczebności n i, średnie x i oraz wariancje (wewnątrzgrupowe) S 2 i, średnia ogólna, to średnia ważona liczebnościami: x = k x i n i k n i. liczbę S 2 ( x i ) = k ( x x i ) 2 n i k n i nazywamy wariancją międzygrupową, wariancja ogólna wyraża się wzorem: S 2 = S 2 i + S 2 ( x i ) = k S 2 i n i k n i + k ( x x i ) 2 n i k n i.
Moment zwykły rzędu r: m r = 1 n xi r, n Moment centralny rzędu r: M r = 1 n (x i x) r, n ( m k = 1 ) k xi r n i n ( M k = 1 ) k (x i x) r n i n
Asymetria klasyczny współczynnik asymetrii: współczynnik Yule a-kendalla: γ 3 = M 3 S 3, A Q = (Q 3 Q 2 ) (Q 2 Q 1 ) (Q 3 Q 2 ) + (Q 2 Q 1 ), współczynnik skośności Pearsona: A S = x D, S
Asymetria wartości dodatnie asymetria prawostronna wartości ujemne asymetria lewostronna
Kurtoza γ 4 = M 4 S 4 3, wartości dodatnie rozkład wysmukły (leptokurtyczny) wartości ujemne rozkład spłaszczony (platokurtyczny)
Krzywa koncentracji Lorenza, współczynnik Giniego linia łamana powstała z połączenia punktów o współrzędnych: ( j j (x 0, y 0 ) = (0, 0), (x j, y j ) = n, z ) i n, j = 1,..., n. z i dla szeregu rozdzielczego: (x 0, y 0 ) = (0, 0), ( j (x j, y j ) = n j i, z ) i n i n k, j = 1,..., k. z i n i podwojone pole obszaru między krzywą Lorenza a przekątną kwadratu jednostkowego nazywamy współczynnikiem koncentracji Giniego: nj=1 (2j n 1)z j G = n 2. z współczynnik Giniego przyjmuje wartości z przedziału [0, 1], gdzie 0 oznacza rozkład równomierny, a wartość 1 rozkład skupiony w pojedynczej wartości,
j z j j z i x j y j 2j n 1 (2j n 1)z j 1 1 1 0.2 0.01-4 -4 2 2 3 0.4 0.03-2 -6 3 3 6 0.6 0.06 0 0 4 4 10 0.8 0.10 2 20 5 90 100 1 1 4 400 0.2 0.4 0.6 0.8 G = 4 6 + 20 + 400 5 2 20 = 410 500 = 0.82.
Źródło: en.wikipedia.org, dane: World Bank
Entropia dla zmiennej losowej dyskretnej: H = x p x ln(p x ), dla danych empirycznych w postaci szeregu rozdzielczego punktowego: k ( ) n i H = n ln ni, n Uwaga: przyjmujemy 0 ln(0) = 0, duża wartość entropii oznacza duże rozproszenie rozkład zbliżony do równomiernego mało informacji, Entropia nie bierze pod uwagę wartości tylko liczebności/prawdopodobieństwa.
Średnia harmoniczna Chcemy policzyć średnią wielkości stosunkowych (prędkość, gęstość, wydajność, zużycie na osobę, itp.) a i = b i c i, i = 1,..., k. Jeśli znamy wartości a i oraz c i, to b i = a i c i, zatem odpowiednia jest średnia arytmetyczna, ważona współczynnikami c i : ā = k b k i a i c i k = c k. i c i Jeśli znamy wartości a i oraz b i, to c i = b i a i, zaś właściwą średnią jest średnia harmoniczna z wagami b i : ā = k b i k c i = k b i. k b i a i
Średnia harmoniczna Jaka jest średnia gęstość zaludnienia w Trójmieście? Miasto Gdańsk Gdynia Sopot Ludność 461 489 247 820 37 654 Gęstość zaludnienia 1762 1834 2179 Licząc (zwykłą) średnią arytmetyczną otrzymujemy: x = 1762 + 1834 + 2179 3 podczas gdy prawidłowy wynik, to = 1925, x H = 461 489 + 247 820 + 37 654 1802.87. 461 489 1762 + 247 820 1834 + 37 654 2179
Średnia harmoniczna Przez n kolejnych dni kupujemy akcje pewnej spółki, po cenie x i w i-tym dniu, i = 1,..., n, za stałą kwotę c. Średnia cena zakupu jest średnią harmoniczną: n c n x H = n c = n 1. x i x i Przez n kolejnych dni sprzedajemy akcje pewnej spółki, w liczbie k sztuk każdego dnia, po cenie x i w i-tym dniu, i = 1,..., n. Średnia cena sprzedaży, to średnia arytmetyczna: n x i k n x i x = n =. k n Dla dowolnych 0 < x 1,..., x n zachodzi warunek: x H = n n 1 x i n x i = x. n