Statystyka Wykład 2 Magdalena Alama-Bućko 27 lutego 2017 Magdalena Alama-Bućko Statystyka 27 lutego 2017 1 / 39
Banki danych: Bank danych lokalnych : Główny urzad statystyczny: https://bdl.stat.gov.pl/ http://stat.gov.pl/ Baza Demografia : demografia.stat.gov.pl/bazademografia/startintro.aspx Magdalena Alama-Bućko Statystyka 27 lutego 2017 2 / 39
Uwaga Jeżeli próba była wybrana w sposób reprezentatywny, wyliczajac pewne statystyki liczbowe (średnie, wskaźniki itp.) dla próby (czyli pewnego podzbioru populacji generalnej), otrzymujemy pewne przybliżenia odpowiadajacych im nieznanych parametrów całej populacji generalnej. średnia z próby jest estymatorem średniej całej populacji jeżeli rzucamy "sprawiedliwa" kostka do gry, to (w dużej liczbie prób) częstotliwość wyrzucenia każdej wartości {1, 2,..., 6} wynosi 1 6. jeżeli rzucamy "sprawiedliwa" moneta, to (w dużej liczbie prób) częstotliwości wyrzucenia Orła i Reszki sa równe i wynosza 1 2. Zatem, jeżeli próba była wybrana w sposób reprezentatywny, wnioski wyciagane na podstawie próby losowej opisuja również właściwości całej populacji generalnej. Magdalena Alama-Bućko Statystyka 27 lutego 2017 3 / 39
Wyniki można opracowywać za pomoca : wyliczania pewnych statystyk liczbowych (średnie, odchylenia, częstości,...) sporzadzania wykresów Magdalena Alama-Bućko Statystyka 27 lutego 2017 4 / 39
Wykresy Jest wiele typów wykresów kolumnowe słupkowe kołowe kolumnowo-liniowe... Poniżej przedstawimy kilka różnych wykresów dla danych (źródło: BDL) Magdalena Alama-Bućko Statystyka 27 lutego 2017 5 / 39
Wykres prezentujacy podział placówek gastronomicznych w 2015 roku Magdalena Alama-Bućko Statystyka 27 lutego 2017 6 / 39
Wykres prezentujacy liczbę restauracji w latach 2005-2015 Magdalena Alama-Bućko Statystyka 27 lutego 2017 7 / 39
Wykres prezentujacy liczbę poszczególnych lokali gastronomicznych w latach 2005-2007 ( kategoria podziału : rodzaj lokalu) Magdalena Alama-Bućko Statystyka 27 lutego 2017 8 / 39
Wykres prezentujacy liczbę poszczególnych lokali gastronomicznych w kolejnych latach 2005-2007 ( w kategoria podziału : lata) Magdalena Alama-Bućko Statystyka 27 lutego 2017 9 / 39
Jak widać, najczęstszym stosowanym typem wykresu jest wykres słupkowy, tzw. histogram. jest to zbiór prostokatów w przypadku danych ilościowych skokowych albo jakościowych prostokaty te sa przyległe albo rozdzielone (inwencja autora wykresu :) ) w przypadku danych ilościowych przedziałowych prostokaty sa przyległe w przypadku danych ilościowych przedziałowych podstawy prostokatów maja długość rozpiętości danej klasy wysokość każdego prostokata odpowiada liczebności danej kategorii ( n i ) albo częstości danej kategorii ( n i n ), n n = n i = n 1 + n 2 +... + n k. suma wag wynosi 1 i=1 Magdalena Alama-Bućko Statystyka 27 lutego 2017 10 / 39
Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności miary asymetrii miary koncentracji. Miary średnie (zwane też miarami położenia lub przeciętnymi) służa do określania tej wartości zmiennej opisanej przez rozkład, wokół której skupiaja się wszystkie pozostałe wartości zmiennej. Magdalena Alama-Bućko Statystyka 27 lutego 2017 11 / 39
Miary średnie dziela się na: a) średnie klasyczne: średnia arytmetyczna; średnia harmoniczna; średnia geometryczna; b) średnie pozycyjne: dominanta (modalna, wartość najczęstsza); kwantyle: kwartyle (dziela zbiorowość na cztery części); decyle (dziela zbiorowość na dziesięć części); percentyle (dziela zbiorowość na sto części). Magdalena Alama-Bućko Statystyka 27 lutego 2017 12 / 39
Miary klasyczne Magdalena Alama-Bućko Statystyka 27 lutego 2017 13 / 39
Wprowadzamy pewne pomocnicze zapisy operator "Sigma " oznacza sumę wyrażeń n f (i) i=1 f (1) + f (2) +... + f (n 1) + f (n), tzn. podstawiamy kolejno w funkcji f (i) w miejscu i wartości od 1 do n, a następnie wartości te sumujemy. 3 i = 1 + 2 + 3 = 6 i=1 3 i 2 = 1 + 4 + 9 = 14 i=1 Magdalena Alama-Bućko Statystyka 27 lutego 2017 14 / 39
operator produktowy oznacza iloczyn wyrażeń n f (i) i=1 f (1) f (2)... f (n 1) f (n), tzn. podstawiamy kolejno w funkcji f (i) w miejscu i wartości od 1 do n, a następnie mnożymy otrzymane wartości. 3 i = 1 2 3 = 3! = 6 i=1 3 i=1 1 i 2 = 1 1 1 4 1 9 = 1 36 Magdalena Alama-Bućko Statystyka 27 lutego 2017 15 / 39
Średnia arytmetyczna Średnia arytmetyczna n obserwacji to suma wszystkich obserwacji podzielona przez liczbę obserwacji, czyli x = x 1 + x 2 +... + x n n = 1 n Szereg rozdzielczy punktowy (próba zapisana jest w postaci tabeli z wartościami zmiennej x j i jej licznościami n j, j = 1, 2,..., k ) x = x 1 n 1 + x 2 n 2 +... + x k n k n n i=1 x i = 1 n k n i x i Szereg rozdzielczy przedziałowy (próba zapisana jest w postaci tabeli z przedziałami (x j, x j+1 ] i jej licznościami n j, j = 1, 2,..., k ) x = ˆx 1 n 1 + ˆx 2 n 2 +... + ˆx k n k n = 1 n i=1 k n i ˆx i i=1 gdzie ˆx j jest środkiem j- tego przedziału, czyli (x j, x j+1 ]. Magdalena Alama-Bućko Statystyka 27 lutego 2017 16 / 39
Przykłady (1, 1, 1, 2, 2, 3, 5) szereg rozdzielczy punktowy x = 1 + 1 + 1 + 2 + 2 + 3 + 5 7 = 15 7 x j n j x j n j 1 3 3 2 2 4 3 1 3 5 1 5 n = 7 15 x = 3 + 4 + 3 + 5 7 = 15 7 Magdalena Alama-Bućko Statystyka 27 lutego 2017 17 / 39
szereg rozdzielczy przedziałowy przedział n j ˆx j ˆx j n j [4.12, 4.55] 6 4.33 25.98 (4.55, 4.98] 6 4.76 28.56 (4.98, 5.41] 9 5.19 46.71 (5.41, 5.84] 13 5.62 73.06 (5.84, 6.27] 11 6.05 66.55 (6.27, 6.7] 9 6.48 58.32 (6.7, 7.13] 7 6.91 48.37 (7.13, 7.56] 8 7.34 58.72 n =69 406.27 x = 1 69 8 i=1 n i ˆx i = 406.27 69 = 5.89. Magdalena Alama-Bućko Statystyka 27 lutego 2017 18 / 39
Uwagi wartość średniej arytmetycznej jest pewna wartościa abstrakcyjna i nie musi się ona znajdować w zbiorze wartości danej cechy. np. średnia liczba rodzeństwa może wynieść 2,35 średnia arytmetyczna wyliczona na podstawie szeregu rozdzielczego przedziałowego będzie się na ogół różniła od średniej wyliczonej na podstawie szeregu punktowego średnia arytmetyczna jest wrażliwa na wartości skrajne np. średnia płac : 3000, 3000, 5000, 17000 wynosi 7000 Magdalena Alama-Bućko Statystyka 27 lutego 2017 19 / 39
Średnia geometryczna - wykorzystywana przy badaniu średniego tempa zmian zjawisk w czasie. x G = n x 1 x 2... x n = n n Szereg rozdzielczy punktowy (próba zapisana jest w postaci tabeli z wartościami zmiennej x j i jej licznościami n j, j = 1, 2,..., k ) Ex. x = {1, 2, 3, 4} x G = x n n 1 1 x n 2 2... x n k k i=1 = n x G = 4 1 2 3 4 = 4 24 x j n j=1 x n j j Magdalena Alama-Bućko Statystyka 27 lutego 2017 20 / 39
Magdalena gdziealama-bućko ˆx jest środkiem j- tego Statystyka przedziału, czyli (x, x 27 lutego ]. 2017 21 / 39 Średnia harmoniczna - wykorzystywana gdy wartości zmiennej podane sa w jednostkach względnych (km/h, kg/osobę). x H = Szereg rozdzielczy punktowy n 1 x 1 + 1 x 2 +... + 1 = n. n x n 1 x j j=1 n x H = n 1 x 1 + n 2 x 2 +... + n = n k x k k n j. j=1 x j Szereg rozdzielczy przedziałowy n x H = n 1 + n 2 +... + n = n. k ˆx 1 ˆx 2 ˆx k k n j ˆx j j=1
Przykład x = {1, 2, 3, 4} 4 x H = 1 1 + 1 2 + 1 3 + 1 =? 4 Przykład szereg rozdzielczy punktowy x j n j 1 x j 1 x j n j 1 3 1 3 1 2 2 2 1 1 1 3 1 3 1 5 1 5 n = 7 3 1 5 x H = 7 3 + 1 + 1 3 + 1 5 =? Magdalena Alama-Bućko Statystyka 27 lutego 2017 22 / 39
Uwagi Średnia arytmetyczna jest miara prawidłowa dla zbiorowości w których rozkład cechy jest jednomodalny, symetryczny lub o niewielkiej asymetrii. (wyjaśnimy te pojęcia później) Jeśli tak nie jest, to dla scharakteryzowania średniego poziomu zjawiska należy wykorzystać średnie pozycyjne. Dla konkretnej cechy tylko jedna średnia klasyczna jest odpowiednia. Magdalena Alama-Bućko Statystyka 27 lutego 2017 23 / 39
Miary pozycyjne Magdalena Alama-Bućko Statystyka 27 lutego 2017 24 / 39
Dominanta (moda, modalna, wartość najczęstsza) to taka wartość cechy, która w danej próbie występuje najczęściej. dominantę można wyznaczyć tylko w rozkładach jednomodalnych dominanta może nie istnieć W szeregach szczegółowych i rozdzielczych punktowych dominanta jest wartościa cechy, której odpowiada największa liczebność. W szeregach rozdzielczych przedziałowych możemy tylko wyznaczyć przedział, w którym znajduje się dominanta. Jest to przedział z największa liczebnościa. Wartość Dominanty można wtedy wyznaczyć stosujac specjalny wzór (->patrz następny slajd) Magdalena Alama-Bućko Statystyka 27 lutego 2017 25 / 39
gdzie n D n D 1 D = x D + (n D n D 1 ) + (n D n D+1 ) i D x D - dolna granica przedziału, w którym występuje dominanta n D - liczebność przedziału zawierajacego dominantę n D 1 - liczebność przedziału poprzedzajacego przedział z dominanta n D+1 - liczebność przedziału następujacego po przedziale z dominanta i D - rozpiętość przedziału z dominanta Magdalena Alama-Bućko Statystyka 27 lutego 2017 26 / 39
Przykłady (1, 1, 1, 2, 2, 3, 5) D = 1 bo występuje najczęściej (3 razy ) szereg rozdzielczy punktowy x j n j 1 3 2 2 3 1 5 1 7 D = 1 bo n 1 = 3. Magdalena Alama-Bućko Statystyka 27 lutego 2017 27 / 39
inny szereg rozdzielczy punktowy x j n j 1 3 2 3 3 1 5 1 6 Dominanta nie istnieje, bo nie ma jednej wartości x i, która występowałaby najczęściej. Magdalena Alama-Bućko Statystyka 27 lutego 2017 28 / 39
szereg rozdzielczy przedziałowy przedział n j [4.12, 4.55] 6 (4.55, 4.98] 6 (4.98, 5.41] 9 (5.41, 5.84] 13 (5.84, 6.27] 11 (6.27, 6.7] 9 (6.7, 7.13] 7 (7.13, 7.56] 8 n =69 x D = 5.41, n D = 13, n D 1 = 9, n D+1 = 11, i D = 0.43 D = x D + D = 5.41 + n D n D 1 (n D n D 1 ) + (n D n D+1 ) i D 13 9 0.43 =... (13 9) + (13 11) Magdalena Alama-Bućko Statystyka 27 lutego 2017 29 / 39
Kwantyle rzędu p (0 < p < 1)- to ta wartość cechy, która dzieli uporzadkowan a próbę w pewnej określonej proporcji: wartość mniejsza badź równa kwantylowi rzędu p ma 100p% obserwacji wartość większa badź równa kwantylowi rzędu p ma 100(1 p)% obserwacji Szeregi, z których wyznacza się kwantyle musza być uporzadkowane rosnaco względem danych wartości cechy. Gdy wartości cechy się powtarzaja, po ich uporzadkowaniu otrzymujemy ciag niemalejacy. kwartyle, decyle, centyle,... Magdalena Alama-Bućko Statystyka 27 lutego 2017 30 / 39
kwartyle - podział próby na ćwiartki, czyli p = 1 4, p = 2 4, p = 3 4. Wyróżniamy tzw. kwartyl pierwszy (gdy p = 1 4 ), kwartyl drugi (gdy p = 2 4 = 1 2 )- zwany również median a, oraz kwartyl trzeci (gdy p = 3 4 ). Q 1 - kwartyl pierwszy, spełnia tę własność że 25% jednostek ma wartość mniejsza badź równa od Q 1, a 75% jednostek ma wartość większa badź równa od Q 1. Q 2 = Me kwartyl drugi=mediana, spełnia tę własność że 50% jednostek ma wartość mniejsza badź równa od Me, a 50% jednostek ma wartość większa badź równa od Me. Q 3 - kwartyl trzeci, spełnia tę własność że 75% jednostek ma wartość mniejsza badź równa od Q 3, a 25% jednostek ma wartość większa badź równa od Q 3. Magdalena Alama-Bućko Statystyka 27 lutego 2017 31 / 39
Mediana Zatem jeżeli mamy nieparzysta próbę (tzn. n - nieparzyste), to Me to wartość środkowa w uporzadkowanej próbie, czyli obserwacja o numerze n+1 2. jeżeli mamy parzysta próbę (tzn. n - parzyste), to Me to średnia arytmetyczna dwóch "środkowych" wartości obserwacji w uporzadkowanej próbie, czyli obserwacji o numerach n 2 i n 2 + 1. Me = { x( n+1 2 ), n nieparzyste 1 2 (x ( n 2 ) + x ( n 2 +1) ), n parzyste Magdalena Alama-Bućko Statystyka 27 lutego 2017 32 / 39
W przypadku szeregu rozdzielczego punktowego pomocniczo sumujemy liczbę obserwacji w każdym kolejnym wierszu, a następnie znajdujemy tę wartość cechy x j, w której w kolumnie ze skumulowanymi licznościami znajduje się odpowiednia wartość (czyli n 2, n+1 2, n 2 + 1). x j n j n sk x 1 n 1 n 1 x 2 n 2 n 1 +n 2...... x N n N n 1 +n 2 +...+n k =n w praktyce aby ustalić numer klasy z mediana obliczamy n+1 2 : jeśli całkowita to obserwacji o tym numerze szukamy, jeśli nie jest całkowita bierzemy średnia arytmetyczna obserwacji o numerze mniejszym i większym. dla Q 1 i Q 3 obliczamy n + 1 i 4 i postępujemy jak przy medianie. 3(n + 1) 4 Magdalena Alama-Bućko Statystyka 27 lutego 2017 33 / 39
Przykład szereg rozdzielczy punktowy - Me x j n j n sk 1 3 3 2 2 3 + 2 = 5 3 1 5 + 1 = 6 5 1 6 + 1 = 7 = n n = 7 n = 7, wyliczamy n+1 2 = 4, zatem szukamy czwartej obserwacji. ponieważ 3 4 5, to Me należy do drugiej klasy, czyli ma wartość 2. zatem 50% jednostek ma wartości nie większe niż 2 i 50% jednostek ma wartości nie mniejsze niż 2. Magdalena Alama-Bućko Statystyka 27 lutego 2017 34 / 39
Przykład szereg rozdzielczy punktowy - Q 1 i Q 3 x j n j n sk 1 3 3 2 2 3 + 2 = 5 3 1 5 + 1 = 6 5 1 6 + 1 = 7 = n n = 7 ponieważ n = 7, poszukujemy wartości o numerze n+1 4 = 2 obserwacji. Druga obserwacja znajduje się w pierwszej klasie, czyli Q 1 = 1. zatem 25% jednostek ma wartości nie większe niż 1 i 75% jednostek ma wartości nie mniejsze niż 1. Q 3 : n = 7, 3(n+1) 4 = 6. Szósta obserwacja znajduje się w trzeciej klasie, czyli Q 3 = 3. Magdalena Alama-Bućko Statystyka 27 lutego 2017 35 / 39
Szeregi rozdzielcze przedziałowe Po ustaleniu przedziału, w którym znajduje się j-ty kwartyl znajdujemy "dokładna" wartość według wzoru (j=1,2,3): Q j = x Qj + k 1 j 4 n gdzie n - liczebność próby x Qj - dolna granica przedziału, w którym znajduje się j-ty kwartyl n Qj - liczebność przedziału zawierajacego j-ty kwartyl suma liczebności wszystkich przedziałów poprzedzajacych przedział z j-tym kwartylem to i Qj n Qj i=1 n i i Qj k 1 n j = n 1 + n 2 +... + n Qj 1 j=1 - rozpiętość przedziału z j- tym kwartylem Magdalena Alama-Bućko Statystyka 27 lutego 2017 36 / 39
Inne stosowane kwantyle: (wyznaczane analogicznie jak kwartyle) decyle - podział próby na części dziesiate, czyli k, k = 1, 2, 3,..., 9 10 centyle - podział próby na części setne, czyli Zależności między kwantylami k, k = 1, 2, 3,..., 99 100 mediana = kwartyl drugi = decyl piaty = centyl pięćdziesiaty kwartyl pierwszy = 25 centyl kwartyl trzeci = 75 centyl decyl drugi = centyl dwudziesty... Magdalena Alama-Bućko Statystyka 27 lutego 2017 37 / 39
W przypadku rozkładów umiarkowanie niesymetrycznych ( wyjaśnienie później ) między średnia arytmetyczna, dominanta i mediana zachodzi zwiazek: x D 3(x Me). Magdalena Alama-Bućko Statystyka 27 lutego 2017 38 / 39
Dziękuję za uwagę! Magdalena Alama-Bućko Statystyka 27 lutego 2017 39 / 39