Statystyka zbiór przetworzonych i zsyntetyzowanych danych liczbowych, nauka o ilościowych metodach badania zjawisk masowych, zmienna losowa będąca funkcją próby. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne), skokowe (dyskretne), ciągłe, jakościowe (niemierzalne).
Skale słabe, niemetryczne, jakościowe: nominalna (kategoryjna, wariantowa): dwudzielna (dychotomiczna): np. kobieta/mężczyzna, tak/nie, 0/1, wielodzielna (politomiczna): np. kolor, marka, gatunek, porządkowa (rangowa), np. oceny, preferencje, nie/raczej nie/nie mam zdania/raczej tak/tak silne, metryczne, ilościowe: przedziałowa (interwałowa), np. temperatura w skali Celsjusza, ilorazowa (stosunkowa), np. temperatura w skali Kelvina, zamknięte/otwarte, Zmienna ze skali mocniejszej może być rozpatrywana w skali słabszej, ale nie odwrotnie.
Szeregi statystyczne Szeregi statystyczne szczegółowe rozdzielcze czasowe punktowe przedziałowe momentów okresów
Szereg szczegółowy (wyliczający, dane indywidualne) 3590, 1520, 2340, 1460, 1990, 1830, 1830, 1520, 1460, 1990, 2612, 1520, 2340, 2145, 1460, 1830, 1520, 2299, 1460, 1460, 1520, 2145, 1990, 1830, 1990, 1830, 1460, 1460, 1660, 1660, 1830, 1990, 1460, 1520, 1830, 1830, 1460, 1460, 1460, 1460, 1660, 1520, 2340, 1460, 2045, 1520, 2145, 2145, 2299, 1660, 1520, 2340, 1520, 1520, 1460, 2145, 2145, 1460, 1460, 1520, 1460, 1460, 4960, 2612
Szereg rozdzielczy punktowy i x i n i 1 1460 18 2 1520 12 3 1660 4 4 1830 8 5 1990 5 6 2045 1 7 2145 6 8 2299 2 9 2340 4 10 2612 2 11 3590 1 12 4960 1 Razem 64
Szereg rozdzielczy przedziałowy x i n i 1000 1999 47 2000 2999 15 3000 3999 1 4000 4999 1 x i n i mniej niż 1500 18 1500 2000 29 2000 2500 13 2500 3000 2 3000 i więcej 2
Empiryczny rozkład cechy wartości cechy: x i, i = 1,..., k, zakładamy dalej, że wartości są uporządkowane rosnąco: x min = x 1 < x 2 < < x k = x max, końce przedziałów klasowych: x 0i < x 1i, rozpiętość przedziału: h i = x 1i x 0i, środek przedziału: ẋ i = x 0i + x 1i. 2 liczebności: n i liczba obserwacji o wartościach równych x i, lub mieszczących się w i-tym przedziale klasowym, liczebność zbiorowości (próby, populacji): n = k n i, częstości względne: w i = n i n, k w i = 1,
Miary opisu struktury klasyczne, pozycyjne, poziomu przeciętnego (położenia), zróżnicowania (rozproszenia, dyspersji, zmienności), asymetrii (skośności), koncentracja (spłaszczenia),
Momenty Moment zwykły rzędu r: m r = 1 n xi r, n Moment centralny rzędu r: M r = 1 n (x i x) r, n ( m r = 1 ) k xi r n i n ( M r = 1 ) k (x i x) r n i n
Średnia arytmetyczna dla danych indywidualnych: x = 1 n n x i = x 1 + + x n, n dla szeregów rozdzielczych punktowych: x = 1 n k x i n i = k x i w i, dla szeregów rozdzielczych przedziałowych: x = 1 n k x i n i = k x i w i.
Średnia arytmetyczna - własności: x min x x max, n x i = n x, n (x i x) = 0 (lub k (x i x)n i = 0 lub k ( x i x)n i = 0). min a n (x i a) 2 = n (x i x) 2. Przykładowe obliczenia: x i n i x i x i n i (20, 25] 11 22.5 247.5 (25, 30] 23 27.5 632.5 (30, 35] 16 32.5 520.0 Σ 50 1400 x = 1400 50 = 28.
Średnia harmoniczna Dla wielkości stosunkowych czasem zamiast średniej arytmetycznej należy stosować średnią harmoniczną. Chcemy policzyć średnią wielkości stosunkowych (prędkość, gęstość, wydajność, zużycie na osobę, itp.) a i = b i c i, i = 1,..., k. Jeśli znamy wartości a i oraz c i, to b i = a i c i, zatem odpowiednia jest średnia arytmetyczna, ważona współczynnikami c i : k b k i a i c i ā = k = c k. i c i Jeśli znamy wartości a i oraz b i, to c i = b i, zaś właściwą średnią a i jest średnia harmoniczna z wagami b i : k b i ā = k b i k c i = k b i a i.
Średnia harmoniczna - przykład 1 Jaka jest średnia gęstość zaludnienia w Trójmieście? Miasto Gdańsk Gdynia Sopot Ludność 461 489 247 820 37 654 Gęstość zaludnienia 1762 1834 2179 Licząc (zwykłą) średnią arytmetyczną otrzymujemy: x = 1762 + 1834 + 2179 3 podczas gdy prawidłowy wynik, to = 1925, x H = 461 489 + 247 820 + 37 654 1802.87. 461 489 1762 + 247 820 1834 + 37 654 2179
Średnia harmoniczna - przykład 2 Przez n kolejnych dni kupujemy akcje pewnej spółki, po cenie x i w i-tym dniu, i = 1,..., n, za stałą kwotę c. Średnia cena zakupu jest średnią harmoniczną: n c n x H = n c = n 1. x i x i Przez n kolejnych dni sprzedajemy akcje pewnej spółki, w liczbie k sztuk każdego dnia, po cenie x i w i-tym dniu, i = 1,..., n. Średnia cena sprzedaży, to średnia arytmetyczna: n x i k n x i x = n =. k n Dla dowolnych 0 < x 1,..., x n zachodzi warunek: x H = n n 1 x i n x i = x. n
Wariancja dla danych indywidualnych: s 2 = 1 n (x i x) 2 = 1 n xi 2 ( x) 2, n n dla szeregów rozdzielczych punktowych: s 2 = 1 k (x i x) 2 n i = 1 k xi 2 n i ( x) 2, n n dla szeregów rozdzielczych przedziałowych: s 2 = 1 k ( x i x) 2 n i = 1 k x 2 i n i ( x) 2, n n poprawka Shepparda: s 2 = s 2 h2 12,
Wariancja c.d. wariancji nie interpretujemy!!!, odchylenie standardowe: s = s 2, współczynnik zmienności: V = s x [%], alternatywa odchylenie przeciętne: d = 1 n x i x n ( d = 1 ) k x i x n i, n rozstęp: R = x max x min.
Wariancja przykład obliczeń x i n i x i x i n i ( x i x) 2 ( x i x) 2 n i (20, 25] 11 22.5 247.5 30.25 332.75 (25, 30] 23 27.5 632.5 0.25 5.75 (30, 35] 16 32.5 520.0 20.25 324.00 Σ 50 1400 662.50 x = 1400 50 = 28, s 2 = 662.5 = 13.25, 50 s = 13.25 3.64.
Równość wariancyjna mamy informacje o k grupach: ich liczebności n i, średnie x i oraz wariancje (wewnątrzgrupowe) s 2 i, średnia ogólna, to średnia ważona liczebnościami: x = k x i n i k n i. wariancja ogólna wyraża się wzorem: s 2 = si 2 wariancją międzygrupowa: + s 2 ( x i ), gdzie s 2 ( x i ) = k ( x x i ) 2 n i k n i, wariancja wewnątrzgrupowa: s 2 i = k si 2 n i k. n i
Asymetria klasyczny współczynnik asymetrii: γ 3 = M 3 s 3, wartości dodatnie asymetria prawostronna wartości ujemne asymetria lewostronna
Kurtoza współczynnik kurtozy, ekscess: γ 4 = M 4 s 4 3, wartości dodatnie rozkład wysmukły (leptokurtyczny) wartości ujemne rozkład spłaszczony (platokurtyczny)
Krzywa koncentracji Lorenza, współczynnik Giniego linia łamana powstała z połączenia punktów o współrzędnych: ( j j (x 0, y 0 ) = (0, 0), (x j, y j ) = n, z ) i n, j = 1,..., n. z i dla szeregu rozdzielczego: (x 0, y 0 ) = (0, 0), ( j (x j, y j ) = n j i, z ) i n i n k, j = 1,..., k. z i n i podwojone pole obszaru między krzywą Lorenza a przekątną kwadratu jednostkowego nazywamy współczynnikiem koncentracji Giniego: nj=1 (2j n 1)z j G = n 2. z współczynnik Giniego przyjmuje wartości z przedziału [0, 1], gdzie 0 oznacza rozkład równomierny, a wartość 1 rozkład skupiony w pojedynczej wartości,
j z j j z i x j y j 2j n 1 (2j n 1)z j 1 1 1 0.2 0.01-4 -4 2 2 3 0.4 0.03-2 -6 3 3 6 0.6 0.06 0 0 4 4 10 0.8 0.10 2 20 5 90 100 1 1 4 400 0.2 0.4 0.6 0.8 G = 4 6 + 20 + 400 5 2 20 = 410 500 = 0.82.
Źródło: en.wikipedia.org, dane: World Bank
Liczebność skumulowana, dystrybuanta empiryczna Liczebność skumulowana: liczba obserwacji nie większa od danej wartości cechy: n(x) = {i : x i x} Dystrybuanta empiryczna: frakcja (część) obserwacji nie większa od danej wartości cechy: F n (x) = {i : x i x} n i w i = n(x) n.
Liczba Liczebność Częstość Skumulowana Dystrybuanta zadań względna liczebność empiryczna x i n i w i n(x i ) F n (x i ) 0 7 0.175 7 0.175 1 14 0.35 21 0.525 2 6 0.15 27 0.675 3 9 0.225 36 0.900 4 4 0.1 40 1 5 0 0 40 1 Suma 40 1
Mediana wartość środkowa Medianą z próby Me nazywamy taką wartość, że co najmniej połowa obserwacji ma wartość nie większą niż Me i równocześnie co najmniej połowa obserwacji ma wartość nie mniejszą niż Me. Inaczej: jest to najmniejsza wartość, dla której F n (Me) 1 2 lub rownoważnie n(me) n 2. dla szeregów szczegółowych: Me = x n+1 2 x n 2 + x n 2 +1 2 gdy n jest nieparzyste, gdy n jest parzyste.
Kwantyle, kwartyle kwantylem empirycznym rzędu p, gdzie 0 < p < 1, nazywamy najmniejszą wartość q p cechy, dla której zachodzi: F n (q p ) p. dla szeregów szczegółowych, np.: q p = x ( np +1), dla szeregów przedziałowych kwantyle aproksymujemy wzorem q p x 0p + [pn n(x 0p )] hp n p p rząd kwantyla, n(x 0p ) liczebność skumulowana w przedziale poprzedzającym przedział kwantyla, x0p dolna granica przedziału kwantyla: n(x 0p ) < np n(x 1p ), np liczebność przedziału kwantyla, hp szerokość przedziału kwantyla, kwartyle: Q 1 = q 0.25, Q 2 = Me = q 0.5, Q 3 = q 0.75,
1 x i n i F n (x i ) (20, 25] 11 0.22 (25, 30] 23 0.68 (30, 35] 16 1 0.75 0.5 0.25 20 25 30 35 Q 1 = 25 + [0.25 0.22] 50 5 23 25.33, Me = 25 + [0.5 0.22] 50 5 23 28.04, Q 3 = 30 + [0.75 0.68] 50 5 16 31.09.
Dominanta Dominantą (modą, modalną) nazywamy wartość zmiennej, która występuje najczęściej, można wyznaczać tylko w rozkładach jednomodalnych, w szeregach szczegółowych i punktowych jest to wartość cechy odpowiadająca największej liczebności, w szeregach przedziałowych aproksymujemy ją wzorem: D x 0D + n D n D 1 (n D n D 1 ) + (n D n D+1 ) h D, x 0D dolna granica przedziału dominanty (o największej liczebności), nd, n D 1, n D+1 odpowiednio liczebność przedziału dominanty, przedziału poprzedniego i następnego, hd rozpiętość przedziału dominanty. Wzór Pearsona : Me 1 3 D + 2 3 x.
25 x i n i (20, 25] 11 (25, 30] 23 (30, 35] 16 20 15 10 5 20 25 D 30 35 D = 25 + 23 11 (23 11) + (23 16) 5 28.16. Uwaga: w przypadku przedziałów o różnej szerokości liczebności n i zastępujemy gęstościami: g i = n i /h i.
Pozycyjne miary rozproszenia odchylenie ćwiartkowe: Q = Q 3 Q 1, 2 pozycyjny współczynnik zmienności: V = Q Me, rozstęp ćwiartkowy (międzykwartylowy): IQR = Q 3 Q 1,
Pozycyjne miary asymetrii współczynnik Yule a-kendalla: A Q = (Q 3 Q 2 ) (Q 2 Q 1 ) (Q 3 Q 2 ) + (Q 2 Q 1 ), współczynnik skośności Pearsona: A S = x D, S