Statystyka Wykład 2 Magdalena Alama-Bućko 5 marca 2018 Magdalena Alama-Bućko Statystyka 5 marca 2018 1 / 34
Banki danych: Bank danych lokalnych : Główny urzad statystyczny: Baza Demografia : https://bdl.stat.gov.pl/ http://stat.gov.pl/ demografia.stat.gov.pl/bazademografia Magdalena Alama-Bućko Statystyka 5 marca 2018 2 / 34
Wyniki można opracowywać za pomoca : wyliczania pewnych statystyk liczbowych (średnie, odchylenia, częstości,...) sporzadzania wykresów Magdalena Alama-Bućko Statystyka 5 marca 2018 3 / 34
Wykresy Jest wiele typów wykresów kolumnowe słupkowe kołowe kolumnowo-liniowe... Poniżej przedstawimy kilka różnych wykresów dla danych (źródło: BDL) Magdalena Alama-Bućko Statystyka 5 marca 2018 4 / 34
Wykres prezentujacy podział placówek gastronomicznych w 2015 roku Magdalena Alama-Bućko Statystyka 5 marca 2018 5 / 34
Wykres prezentujacy liczbę restauracji w latach 2005-2015 Magdalena Alama-Bućko Statystyka 5 marca 2018 6 / 34
Wykres prezentujacy liczbę poszczególnych lokali gastronomicznych w latach 2005-2007 ( kategoria podziału : rodzaj lokalu) Magdalena Alama-Bućko Statystyka 5 marca 2018 7 / 34
Wykres prezentujacy liczbę poszczególnych lokali gastronomicznych w kolejnych latach 2005-2007 ( w kategoria podziału : lata) Magdalena Alama-Bućko Statystyka 5 marca 2018 8 / 34
Jak widać, najczęstszym stosowanym typem wykresu jest wykres słupkowy, tzw. histogram. jest to zbiór prostokatów w przypadku danych ilościowych skokowych albo jakościowych prostokaty te sa przyległe albo rozdzielone (inwencja autora wykresu :) ) w przypadku danych ilościowych przedziałowych prostokaty sa przyległe w przypadku danych ilościowych przedziałowych podstawy prostokatów maja długość rozpiętości danej klasy wysokość każdego prostokata odpowiada liczebności danej kategorii ( n i ) albo częstości danej kategorii ( n i n ), n n = n i = n 1 + n 2 +... + n k. suma wag wynosi 1 i=1 Magdalena Alama-Bućko Statystyka 5 marca 2018 9 / 34
Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności miary asymetrii miary koncentracji. Miary średnie (zwane też miarami położenia lub przeciętnymi) służa do określania tej wartości zmiennej opisanej przez rozkład, wokół której skupiaja się wszystkie pozostałe wartości zmiennej. Magdalena Alama-Bućko Statystyka 5 marca 2018 10 / 34
Miary średnie dziela się na: a) średnie klasyczne (wyliczone na podstawie wszystkich obserwacji): średnia arytmetyczna; średnia harmoniczna; średnia geometryczna; b) średnie pozycyjne (do ich wyliczenia bierzemy nie wszystkie, lecz wybrane wartości cechy): dominanta (modalna, wartość najczęstsza); kwantyle: kwartyle (dziela zbiorowość na cztery części); decyle (dziela zbiorowość na dziesięć części); percentyle (dziela zbiorowość na sto części). Magdalena Alama-Bućko Statystyka 5 marca 2018 11 / 34
Miary klasyczne Magdalena Alama-Bućko Statystyka 5 marca 2018 12 / 34
Wprowadzamy pewne pomocnicze zapisy operator "Sigma " oznacza sumę wyrażeń n f (i) i=1 f (1) + f (2) +... + f (n 1) + f (n), tzn. podstawiamy kolejno w funkcji f (i) w miejscu i wartości od 1 do n, a następnie wartości te sumujemy. 3 i = 1 + 2 + 3 = 6 i=1 3 i 2 = 1 + 4 + 9 = 14 i=1 Magdalena Alama-Bućko Statystyka 5 marca 2018 13 / 34
operator produktowy oznacza iloczyn wyrażeń n f (i) i=1 f (1) f (2)... f (n 1) f (n), tzn. podstawiamy kolejno w funkcji f (i) w miejscu i wartości od 1 do n, a następnie mnożymy otrzymane wartości. 3 i = 1 2 3 = 3! = 6 i=1 3 i=1 1 i 2 = 1 1 1 4 1 9 = 1 36 Magdalena Alama-Bućko Statystyka 5 marca 2018 14 / 34
Średnia arytmetyczna Średnia arytmetyczna n obserwacji to suma wszystkich obserwacji podzielona przez liczbę obserwacji, czyli x = x 1 + x 2 +... + x n n = 1 n Szereg rozdzielczy punktowy (próba zapisana jest w postaci tabeli z wartościami zmiennej x j i jej licznościami n j, j = 1, 2,..., k ) x = x 1 n 1 + x 2 n 2 +... + x k n k n n i=1 x i = 1 n k n i x i Szereg rozdzielczy przedziałowy (próba zapisana jest w postaci tabeli z przedziałami (x j, x j+1 ] i jej licznościami n j, j = 1, 2,..., k ) x = ˆx 1 n 1 + ˆx 2 n 2 +... + ˆx k n k n = 1 n i=1 k n i ˆx i i=1 gdzie ˆx j jest środkiem j- tego przedziału, czyli (x j, x j+1 ]. Magdalena Alama-Bućko Statystyka 5 marca 2018 15 / 34
Przykłady (1, 1, 1, 2, 2, 3, 5) szereg rozdzielczy punktowy x = 1 + 1 + 1 + 2 + 2 + 3 + 5 7 = 15 7 x j n j x j n j 1 3 3 2 2 4 3 1 3 5 1 5 n = 7 15 x = 3 + 4 + 3 + 5 7 = 15 7 Magdalena Alama-Bućko Statystyka 5 marca 2018 16 / 34
szereg rozdzielczy przedziałowy przedział n j ˆx j ˆx j n j [4.12, 4.55] 6 4.33 25.98 (4.55, 4.98] 6 4.76 28.56 (4.98, 5.41] 9 5.19 46.71 (5.41, 5.84] 13 5.62 73.06 (5.84, 6.27] 11 6.05 66.55 (6.27, 6.7] 9 6.48 58.32 (6.7, 7.13] 7 6.91 48.37 (7.13, 7.56] 8 7.34 58.72 n =69 406.27 x = 1 69 8 i=1 n i ˆx i = 406.27 69 = 5.89. Zauważmy, że każdej z obserwacji należacych do danego przedziału w obliczeniach przyporzadkowujemy wartość równa środkowi danego przedziału. Magdalena Alama-Bućko Statystyka 5 marca 2018 17 / 34
Uwagi wartość średniej arytmetycznej jest pewna wartościa abstrakcyjna i nie musi się ona znajdować w zbiorze wartości danej cechy. np. średnia liczba rodzeństwa może wynieść 2,35 średnia arytmetyczna wyliczona na podstawie szeregu rozdzielczego przedziałowego będzie się na ogół różniła od średniej wyliczonej na podstawie szeregu punktowego (danych dokładnych), bo następuje redukcja danych (w obliczeniach stosujemy ˆx- środek przedziału) średnia arytmetyczna jest wrażliwa na wartości skrajne np. średnia płac : 3000, 3000, 5000, 17000 wynosi 7000 Magdalena Alama-Bućko Statystyka 5 marca 2018 18 / 34
Średnia geometryczna - wykorzystywana przy badaniu średniego tempa zmian zjawisk w czasie. x G = n x 1 x 2... x n = n n Szereg rozdzielczy punktowy (próba zapisana jest w postaci tabeli z wartościami zmiennej x j i jej licznościami n j, j = 1, 2,..., k ) Ex. x = {1, 2, 3, 4} x G = x n n 1 1 x n 2 2... x n k k i=1 = n x G = 4 1 2 3 4 = 4 24 x j n j=1 x n j j Magdalena Alama-Bućko Statystyka 5 marca 2018 19 / 34
Magdalena gdziealama-bućko ˆx jest środkiem j- tego Statystyka przedziału, czyli (x, x 5 marca ]. 2018 20 / 34 Średnia harmoniczna - wykorzystywana gdy wartości zmiennej podane sa w jednostkach względnych (km/h, kg/osobę). x H = Szereg rozdzielczy punktowy n 1 x 1 + 1 x 2 +... + 1 = n. n x n 1 x j j=1 n x H = n 1 x 1 + n 2 x 2 +... + n = n k x k k n j. j=1 x j Szereg rozdzielczy przedziałowy n x H = n 1 + n 2 +... + n = n. k ˆx 1 ˆx 2 ˆx k k n j ˆx j j=1
Przykład x = {1, 2, 3, 4} 4 x H = 1 1 + 1 2 + 1 3 + 1 =? 4 Przykład szereg rozdzielczy punktowy x j n j 1 x j 1 x j n j 1 3 1 3 1 2 2 2 1 1 1 3 1 3 1 5 1 5 n = 7 3 1 5 x H = 7 3 + 1 + 1 3 + 1 5 =? Magdalena Alama-Bućko Statystyka 5 marca 2018 21 / 34
Uwagi Średnia arytmetyczna jest miara prawidłowa dla zbiorowości w których rozkład cechy jest jednomodalny, symetryczny lub o niewielkiej asymetrii. (wyjaśnimy te pojęcia później) Jeśli tak nie jest, to dla scharakteryzowania średniego poziomu zjawiska należy wykorzystać średnie pozycyjne. Dla konkretnej cechy tylko jedna średnia klasyczna jest odpowiednia. Magdalena Alama-Bućko Statystyka 5 marca 2018 22 / 34
Miary pozycyjne Magdalena Alama-Bućko Statystyka 5 marca 2018 23 / 34
Dominanta (moda, modalna, wartość najczęstsza) to taka wartość cechy, która w danej próbie występuje najczęściej. dominantę można wyznaczyć tylko w rozkładach jednomodalnych dominanta może nie istnieć W szeregach szczegółowych i rozdzielczych punktowych dominanta jest ta wartościa cechy, której odpowiada największa liczebność. W szeregach rozdzielczych przedziałowych możemy tylko wyznaczyć przedział, w którym znajduje się dominanta. Jest to przedział z największa liczebnościa. Wartość Dominanty można wtedy wyznaczyć stosujac specjalny wzór (->patrz następny slajd) Magdalena Alama-Bućko Statystyka 5 marca 2018 24 / 34
gdzie n D n D 1 D = x D + (n D n D 1 ) + (n D n D+1 ) i D x D - dolna granica przedziału, w którym występuje dominanta n D - liczebność przedziału zawierajacego dominantę n D 1 - liczebność przedziału poprzedzajacego przedział z dominanta n D+1 - liczebność przedziału następujacego po przedziale z dominanta i D - rozpiętość przedziału z dominanta Magdalena Alama-Bućko Statystyka 5 marca 2018 25 / 34
Przykłady (1, 1, 1, 2, 2, 3, 5) D = 1 bo występuje najczęściej (3 razy ) szereg rozdzielczy punktowy x j n j 1 3 2 2 3 1 5 1 7 D = 1 bo n 1 = 3. Interpretacja: Najczęściej spotykana wartościa cechy jest 1. Magdalena Alama-Bućko Statystyka 5 marca 2018 26 / 34
inny szereg rozdzielczy punktowy x j n j 1 3 2 3 3 1 5 1 6 Dominanta nie istnieje, bo nie ma jednej wartości x i, która występowałaby najczęściej. Magdalena Alama-Bućko Statystyka 5 marca 2018 27 / 34
szereg rozdzielczy przedziałowy D = x D + n D n D 1 (n D n D 1 )+(n D n D+1 ) i D przedział n j [4.12, 4.55] 6 (4.55, 4.98] 6 (4.98, 5.41] 9 (5.41, 5.84] 13 (5.84, 6.27] 11 (6.27, 6.7] 9 (6.7, 7.13] 7 (7.13, 7.56] 8 n =69 x D = 5.41, n D = 13, n D 1 = 9, n D+1 = 11, i D = 0.43 D = 5.41 + 13 9 0.43 = 5.7 (13 9) + (13 11) Najczęściej drzewa w tym drzewostanie miały wysokość 5.7m. Magdalena Alama-Bućko Statystyka 5 marca 2018 28 / 34
Kwantyle rzędu p (0 < p < 1)- to ta wartość cechy, która dzieli uporzadkowan a próbę w pewnej określonej proporcji: wartość mniejsza badź równa kwantylowi rzędu p ma 100p% obserwacji wartość większa badź równa kwantylowi rzędu p ma 100(1 p)% obserwacji Szeregi, z których wyznacza się kwantyle musza być uporzadkowane rosnaco względem danych wartości cechy. Gdy wartości cechy się powtarzaja, po ich uporzadkowaniu otrzymujemy ciag niemalejacy. Najczęściej stosowane kwantyle: kwartyle - podział 25%, 50%, 75% decyle - podział 10%, 20%,...80%, 90% centyle - podział 1%, 2%,..., 99% Magdalena Alama-Bućko Statystyka 5 marca 2018 29 / 34
kwartyle - podział próby na ćwiartki, czyli p = 1 4, p = 2 4, p = 3 4. Wyróżniamy tzw. kwartyl pierwszy (gdy p = 1 4 ), kwartyl drugi (gdy p = 2 4 = 1 2 )- zwany również median a, oraz kwartyl trzeci (gdy p = 3 4 ). Q 1 - kwartyl pierwszy, spełnia tę własność że 25% jednostek ma wartość mniejsza badź równa od Q 1, a 75% jednostek ma wartość większa badź równa od Q 1. Q 2 = Me kwartyl drugi=mediana, spełnia tę własność że 50% jednostek ma wartość mniejsza badź równa od Me, a 50% jednostek ma wartość większa badź równa od Me. Q 3 - kwartyl trzeci, spełnia tę własność że 75% jednostek ma wartość mniejsza badź równa od Q 3, a 25% jednostek ma wartość większa badź równa od Q 3. Magdalena Alama-Bućko Statystyka 5 marca 2018 30 / 34
Mediana Zatem jeżeli mamy nieparzysta próbę (tzn. n - nieparzyste), to Me to wartość środkowa w uporzadkowanej próbie, czyli obserwacja o numerze n+1 2. jeżeli mamy parzysta próbę (tzn. n - parzyste), to Me to średnia arytmetyczna dwóch "środkowych" wartości obserwacji w uporzadkowanej próbie, czyli obserwacji o numerach n 2 i n 2 + 1. Me = { x( n+1 2 ), n nieparzyste 1 2 (x ( n 2 ) + x ( n 2 +1) ), n parzyste Magdalena Alama-Bućko Statystyka 5 marca 2018 31 / 34
W przypadku szeregu rozdzielczego punktowego pomocniczo sumujemy liczbę obserwacji w każdym kolejnym wierszu, a następnie znajdujemy tę wartość cechy x j, w której w kolumnie ze skumulowanymi licznościami znajduje się odpowiednia wartość (czyli n 2, n+1 2, n 2 + 1). x j n j n sk x 1 n 1 n 1 x 2 n 2 n 1 +n 2...... x N n N n 1 +n 2 +...+n k =n w praktyce aby ustalić numer klasy z mediana obliczamy n+1 2 : jeśli całkowita to obserwacji o tym numerze szukamy, jeśli nie jest całkowita bierzemy średnia arytmetyczna obserwacji o numerze mniejszym i większym. Magdalena Alama-Bućko Statystyka 5 marca 2018 32 / 34
Przykład szereg rozdzielczy punktowy - Me x j n j n sk 1 3 3 2 2 3 + 2 = 5 3 1 5 + 1 = 6 5 1 6 + 1 = 7 = n n = 7 n = 7, wyliczamy n+1 2 = 4, zatem szukamy czwartej obserwacji. ponieważ 3 4 5, to Me należy do drugiej klasy, czyli ma wartość 2. zatem 50% jednostek ma wartości nie większe niż 2 i 50% jednostek ma wartości nie mniejsze niż 2. Magdalena Alama-Bućko Statystyka 5 marca 2018 33 / 34
Dziękuję za uwagę! Magdalena Alama-Bućko Statystyka 5 marca 2018 34 / 34