1 Agata Boratyńska WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.
Agata Boratyńska Wykłady ze statystyki 2 Literatura J. Koronacki i J. Mielniczuk Statystyka WNT 2004 J. Jóźwiak i J. Podgórski, Statystyka od podstaw, PWE 1994 lub inne wydania H. Kassyk-Rokicka, Statystyka, zbiór zadań, 2005 lub inne wydania Jaworski S. i in., Zbiór zadań z podstaw statystyki i ekonometrii, Wyd. WSEI, Warszawa W. Krysicki Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, cz. 2. PWN 1998 Bobecka K., Grzegorzewski P., Pusz J., Zadania z rachunku prawdopodobieństwa i statystyki, WSISiZ A.D. Aczel, Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN W. Zieliński Tablice statystyczne.
Agata Boratyńska Wykłady ze statystyki 3 Statystyka jest bardziej sposobem myślenia lub wnioskowania niż pęczkiem recept na młócenie danych w celu odsłonięcia odpowiedzi C. R. Rao... statystyka jest nauką o tym, jak wykorzystywać informacje do analizy i wytyczania kierunków działania w warunkach niepewności. V. Barnett Comparative Statistical Inference Nauka nie stara się wyjaśniać, a nawet niemal nie stara się interpretować, zajmuje się ona głównie budową modeli. Model rozumiany jest jako matematyczny twór, który, po dodaniu słownej interpretacji, opisuje badane zjawiska. Jedynym i właściwym uzasadnieniem takiego tworu matematycznego jest oczekiwanie, że sprawdzi się on w działaniu. John von Neumann Kłamstwo, wierutne kłamstwo, statystyka Liczby nie kłamią ale kłamcy liczą Ch. H. Grosvenor Prawa naukowe nie są formułowane na mocy autorytetów ani uzasadniane przez wiarę czy średniowieczną filozofię. Jedynym sądem odwoławczym dla nowej wiedzy jest statystyka P.C. Mahanalobis
Agata Boratyńska Wykłady ze statystyki 4 STATYSTYKA - nauka poświęcona metodom badania i analizowania zjawisk masowych; polega na systematyzowaniu obserwowanych cech ilościowych i jakościowych oraz przedstawianiu wyników w postaci zestawień tabelarycznych, wykresów, diagramów itp. Zajmuje się zbieraniem, przetwarzanie, przedstawianiem danych oraz wniskowaniem na ich podstawie. STATYSTYKA MATEMATYCZNA - dział matematyki stosowanej oparty na rachunku prawdopodobieństwa, zajmuje się badaniem zbiorów i wnioskowaniem o pewnych charakterystykach cech (zmiennych losowych) na podstawie znajomości podzbiorów i obserwacji wartości zmiennej losowej w postaci próby losowej.
Agata Boratyńska Wykłady ze statystyki 5 STATYSTYKA OPISOWA, WSTĘPNA ANALIZA DANYCH. populacja - zbiór obiektów z wyróżnioną cechą, zbiorowość poddawana badaniu. cecha - wielkość losowa charakteryzująca obiekty danej populacji lub interesująca badacza zmienna losowa, cecha ilościowa (np waga, ocena, wiek, zarobki) i jakościowa (kolor oczu, płeć, wykształcenie) jednostka badania - element populacji poddany badaniu próba - wybrana część populacji poddana badaniu, zbiór jednostek badania jednostka cecha X cecha Y cecha Z... 1 x 1 y 1 z 1... 2 x 2 y 2 z 2... 3 x 3 y 3 z 3.................. badanie pełne - obejmuje całą populację (np. spis powszechny) badanie reprezentacyjne - obejmuje część populacji Wnioskowanie o całej populacji na podstawie próby losowej wymaga metod rachunku prawdopodobieństwa.
Agata Boratyńska Wykłady ze statystyki 6 PREZENTACJA DANYCH Szereg rozdzielczy punktowy (tablica kontyngencji) wartości cechy liczności (liczba jednostek) x 1 n 1 x 2 n 2...... x k n k PRZYKŁAD 1. W grupie 20 studentów oceny z egzaminu ze statystyki były następujące: Dane w szeregu 2 3 3.5 4 4.5 4 5 3 3 4 3.5 3 3 3.5 3 2 4 5 3.5 3.5 ocena liczba studentów 2 2 3 6 3.5 5 4 4 4.5 1 5 2 Razem 20 Przejrzystym sposobem prezentacji jest wykres słupkowy
Agata Boratyńska Wykłady ze statystyki 7 Szereg rozdzielczy przedziałowy Uwagi: c i = c i 1+c i 2 przedział środek przedziału liczności częstości (c 0, c 1 ] c 1 n 1 f 1 = n 1 n (c 1, c 2 ] c 2 n 2 f 2 = n 2 n............ (c k 1, c k ] c k n k f k = n k n Najczęściej klasy o jednakowej szerokości lub o zbliżonej liczności Liczba klas k spełnia 3 4 n k n liczbę klas można też dobierać ustalając szerokość, jedna z reguł to b 2, 64 IQR n 1 3 gdzie IQR - rozstęp międzykwartylowy Jeżeli liczba klas jest równa k i klasy są jednakowej długości, to długość b spełnia b X n:n X 1:n k gdzie X 1:n - najmniejsza obserwacja X n:n - największa obserwacja
Agata Boratyńska Wykłady ze statystyki 8 PRZYKŁAD 2. Powierzchnię mieszkań w pewnym osiedlu podaje tabela 32,45 33,21 34,36 35,78 37,79 38,54 38,91 38,96 39,50 39,67 39,80 41,45 41,55 42,27 42,40 42,45 44,25 44,50 44,70 44,83 44,90 45,10 45,90 46,52 47,65 48,10 48,55 48,90 49,00 49,24 49,55 49,65 49,70 49,90 50,90 51,40 51,50 51,65 51,70 51,80 51,98 52,00 52,10 52,30 53,65 53,89 53,90 54,00 54,10 55,20 55,30 55,56 55,62 56,00 56,70 56,80 56,90 56,95 57,13 57,45 57,70 57,90 58,00 58,50 58,67 58,80 59,23 63,40 63,70 64,20 64,30 64,60 65,00 66,29 66,78 67,80 68,90 69,00 69,50 73,20 76,80 77,10 77,80 78,90 79,50 82,70 83,40 84,50 84,90 85,00 86,00 89,10 89,60 93,00 96,70 98,78 103,00 107,90 112,70 118,90 przedział środek liczba mieszkań częstości 30 40 35 11 0.11 40 50 45 23 0.23 50 60 55 33 0.33 60 70 65 12 0.12 70 80 75 6 0.06 80 90 85 8 0.08 90 100 95 3 0.03 100 110 105 2 0.02 110 120 115 2 0.02 razem 100 1
Agata Boratyńska Wykłady ze statystyki 9 Histogram - jest to wykres słupkowy, którego podstawę stanowią przedziały klasowe, a wysokości słupków sa proporcjonalne do liczności n i poszczególnych klas. Jeżeli wysokości są równe licznościom klas to mamy histogram liczności, jeżeli są równe częstościom to histogram częstości. W sytuacji, gdy klasy nie mają równej długości wysokość słupków określa się wg wzoru h i = f i b i gdzie f i - to częstość, a b i - szerokość klasy. (porównaj histogramy - przykład 1,2,3) Łącząc punkty o współrzędnych ( c i, n i ) otrzymujemy łamaną liczności, a łącząc punkty o współrzędnych ( c i, f i ) albo ( c i, h i ) łamaną częstości. W szeregu rozdzielczym możemy również podawać liczności i częstości skumulowane. przedział liczności częstości skumulowane cn i skumulowane cf i (c 0, c 1 ] n 1 f 1 = n 1 n (c 1, c 2 ] n 1 + n 2 f 1 + f 2......... (c k 1, c k ] n 1 + n 2 +... + n k = n f 1 + f 2 +... + f k = 1
Agata Boratyńska Wykłady ze statystyki 10 Jeżeli wysokości słupków histogramu są równe licznościom (częstościom) skumulowanym to otrzymujemy histogram liczności (częstości) skumulowanych. Łącząc punkty o współrzędnych (c i, cn i ) otrzymujemy łamaną liczności skumulowanych, a łącząc punkty o współrzędnych (c i, cf i ) otrzymujemy łamaną częstości skumulowanych.
Agata Boratyńska Wykłady ze statystyki 11 CHARAKTERYSTYKI PRÓBKOWE MIARY POŁOŻENIA Średnia arytmetyczna X z próby losowej X 1, X 2,..., X n (dane surowe) X = X 1 + X 2 +... + X n n dane z szeregu rozdzielczego punktowego X = 1 n k i=1 x i n i dane z szeregu rozdzielczego przedziałowego X 1 n k i=1 c i n i PRZYKŁAD 1 cd. 2 2 + 6 3 + 5 3.5 + 4 4 + 1 4.5 + 2 5 X = = 3.5 20 PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego X = 1 (11 35+23 45+33 55+12 65+6 75+8 85+3 95+2 105+2 115) = 58.70 100 Uwaga: jeżeli dostępne są dane surowe zaleca się korzystanie ze wzoru pierwszego.
Agata Boratyńska Wykłady ze statystyki 12 Mediana Med z próby losowej jest to liczba, taka że co najmniej 50% obserwacji przyjmuje wartość nie większą od niej i co najmniej 50% obserwacji wartość nie mniejszą od niej. Wyliczamy ją w następujący sposób: dane surowe: ustawiamy rosnąco, i-tą obserwację w ciągu ustawionym rosnąco oznaczamy symbolem X i:n i nazywamy i-tą statystyką pozycyjną PRZYKŁAD 3. Dla danych 1, 7, 3, 12, 9 X 1:5 = 1 X 2:5 = 3 X 3:5 = 7 X 4:5 = 9 X 5:5 = 12 Med = 1 Xn+1 2 :n gdy n nieparzyste 2 (X n 2 :n + Xn+2 2 :n) gdy n parzyste dane z szeregu rozdzielczego przedziałowego Med c L + b n M gdzie c L - dolna granica klasy mediany b - szerokość klasy mediany n M - liczność klasy mediany M - numer klasy n 2 M 1 i=1 n i
Agata Boratyńska Wykłady ze statystyki 13 PRZYKŁAD 1 cd. Med = X 10:20+X 11:20 2 = 3,5+3,5 2 = 3, 5 PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego M = 3, n 3 = 33, c L = 50, b = 10 Med 50 + 10 (50 34) = 54, 85 33 Moda (dominanta) M o - wartość najczęściej powtarzająca się w próbie (często zakłada się, że nie może być to wartość największa ani najmniejsza) Przy danych z szeregu rozdzielczego n Mo n Mo 1 Mo c L + (n Mo n Mo 1 ) + (n Mo n Mo+1 ) b gdzie n Mo - liczność najliczniejszej klasy zwanej klasą mody, c L - lewy koniec klasy mody PRZYKŁAD 1 cd. Mo = 3 PRZYKŁAD 2 cd. Mo 50 + 33 23 33 23 + 33 12 10 = 53, 2 PRZYKŁAD 3 cd. 0, 0006771 0, 0004583 Mo 250+ = 354, 56 2 0, 0006771 0, 0004583 0, 0004774 200
Agata Boratyńska Wykłady ze statystyki 14 PRZYKŁAD 4. Miesięczne zarobki zasadnicze pracowników z wyższym wykształceniem w pewnej firmie zarobki liczba osób 2500 6 3000 8 3100 7 3500 4 4000 3 5000 2 12000 1 Razem 31 X = 3506 Med = X 16:31 = 3100 Mo = 3000 Uwaga: średnia jest nieodporna na obserwacje odstające
Agata Boratyńska Wykłady ze statystyki 15 Kwartyle Pierwszy kwartyl (dolny kwartyl) Q 1 - to taka wartość cechy, że co najmniej 25% obserwacji przyjmuje wartość nie większą od niej i co najmniej 75% obserwacji wartość nie mniejszą od niej. Drugi kwartyl = Mediana Trzeci kwartyl (kwartyl górny) Q 3 - to taka wartość cechy, że co najmniej 75% obserwacji przyjmuje wartość nie większą od niej i co najmniej 25% obserwacji wartość nie mniejszą od niej. W praktyce dolny kwartyl wyznacza się jako medianę podpróby złożonej z obserwacji o wartościach nie większych od mediany, a górny kwartyl jako medianę z podpróby złożonej z obserwacji nie mniejszych od mediany. PRZYKŁAD 1 cd. Q 1 = X 5:20 + X 6:20 2 Q 3 = X 15:20 + X 16:20 2 = 3 = 4
Agata Boratyńska Wykłady ze statystyki 16 Przy danych z szeregu rozdzielczego Q 1 c L + b n M1 gdzie c L - dolna granica klasy kwartyla b - szerokość klasy kwartyla n M1 - liczność klasy kwartyla M 1 - numer klasy Q 3 c L + b n M3 gdzie c L - dolna granica klasy kwartyla b - szerokość klasy kwartyla n M3 - liczność klasy kwartyla M 3 - numer klasy n 4 M1 1 i=1 3n 4 M3 1 i=1 n i n i PRZYKŁAD 2 cd. Za Q 1 odpowiada obserwacja o numerze n 4 = 25, stąd klasa kwartyla jest klasa druga M = 2 Q 1 40 + 10 (25 11) = 46.09 23 Za Q 3 odpowiada obserwacja o numerze 3 4n = 75, stąd klasą kwartyla jest klasa czwarta M = 4 Q 3 60 + 10 (75 65) = 66.67 12
Agata Boratyńska Wykłady ze statystyki 17 Kwartyle dzielą próbę na cztery równe części (ze względu na liczność), w każdej jest w przybliżeniu 25% obserwacji. Porównanie wskaźników dla danych surowych i szeregu rozdzielczego miara dane surowe szereg rozdzielczy średnia 59,58 58,70 mediana 55,25 54,85 Q 1 48,33 46,09 Q 3 67,29 66,67 Kwantyl próbkowy rzędu p Q p = X np:n +X np+1:n 2 gdy np Z X [np]+1:n w pp lub Q p = X [np]+1:n
Agata Boratyńska Wykłady ze statystyki 18 MIARY ROZPROSZENIA Rozstęp czyli odległość między największą i najmniejszą obserwacją r = X n:n X 1:n Rozstęp międzykwartylowy IQR = Q 3 Q 1 podaje długość odcinka, na którym leży 50% środkowych wartości w uporządkowanej niemalejąco próbie. Uwaga: rozstęp jest funkcją tylko krańcowych obserwacji, jest nieodporny na obserwacje odstające, tej wady pozbawiony jest rozstęp międzykwartylowy Wariancją z próby losowej X 1, X 2,..., X n (dane surowe) nazywamy liczbę Ŝ 2 = 1 n = 1 n n i=1 n i=1 (X i X) 2 Xi 2 n X 2 Dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy Ŝ 2 1 n k i=1 n i ( c i X) 2
Agata Boratyńska Wykłady ze statystyki 19 Odchylenie standardowe Ŝ = Ŝ 2 lub S = S2 Odchylenie przeciętne d = 1 n n i=1 X i X W sytuacji gdy chcemy porównać rozrzut dwóch lub więcej prób korzystamy ze współczynnika zmienności PRZYKŁAD 1 cd. V = Ŝ X 100% r = 5 2 = 3 IQR = 4 3 = 1 Ŝ 2 = 1 { 2(2 3, 5) 2 + 6(3 3, 5) 2 + 5(3, 5 3, 5) 2 20 +4(4 3, 5) 2 + 1(4, 5 3, 5) 2 + 2(5 3, 5) 2} = 0, 63 Ŝ = 0, 658 = 0, 79 d = 1 {2 2 3, 5 + 6 3 3, 5 + 5 3, 5 3, 5 20 +4 4 3, 5 + 1 4, 5 3, 5 + 2 5 3, 5 } = 0, 6 PRZYKŁAD 2 cd. Dla danych z szeregu rozdzielczego r 120 30 = 90 IQR 66, 67 46, 09 = 20, 58 Ŝ 2 331, 31 Ŝ 18, 20 d 13, 96
Agata Boratyńska Wykłady ze statystyki 20 WYKRES RAMKOWY, PUDEŁKO Z WĄSAMI Pozwala na jednym rysunku przedstawić wiadomości dotyczące położenia, rozproszenia i kształtu rozkładu empirycznego badanej cechy. Na wykresie zaznacza się kwartyle, średnią, medianę, największą i najmniejszą obserwację, obserwacje odstające. Obserwacje odstające są to obserwacje o wartościach x < x lub x > x gdzie x = min{x i : X i [Q 1 3 2 IQR, Q 1]} x = max{x i : X i [Q 3, Q 3 + 3 2 IQR]}
Agata Boratyńska Wykłady ze statystyki 21 WSKAŹNIKI ASYMETRII Współczynnik asymetrii (klasyczny) A = M 3 S 3 gdzie M 3 jest trzecim momentem centralnym równym dla danych surowych n M 3 = 1 (X i n X) 3, i=1 dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy M 3 1 n i ( c i n X) 3 i=1 Pozycyjny miernik asymetrii A 2 = Q 3 2Med + Q 1 Q 3 Q 1 Współczynnik skośności k A 1 = X Mo S Asymetria dodatnia (prawostronna) - wskaźniki asymetrii dodatnie Asymetria ujemna (lewostronna) - wskaźniki asymetrii ujemne PRZYKŁAD 1 cd. A = 0, 08, PRZYKŁAD 2cd. A = 1, 10 PRZYKŁAD 3cd. A 1 = 3506 3000 1671,57 = 0, 3 A 1 = 3,5 3,5 0,79 = 0 A 1 = 58,70 53,20 18,20 = 0, 3
Agata Boratyńska Wykłady ze statystyki 22 INDEKSY STATYSTYCZNE Zbiór wartości danej cechy lub wartości określonego zjawiska zaobserwowany w różnych (ale chronologicznych) momentach czasu nazywamy szeregiem czasowym. PRZYKŁAD. cena akcji w kolejnych dniach stycznia, zarobki w pewnej gałęzi przemysłu w kolejnych latach, wielkość produkcji w kolejnych miesiącach Indeksy statystyczne służą do badania dynamiki zjawiska na podstawie danych z kolejnych okresów czasowych (na podstawie szeregu czasowego). y t - poziom zjawiska (wartość cechy) w chwili (okresie) t, t {0, 1, 2,..., n} t = y t y t 1 - przyrost absolutny δ t = y t y t y t - przyrost względny względem wartości w chwili t. INDEKSY PROSTE - mierniki tempa zmian zjawiska Indeks łańcuchowy dynamiki i t t 1 = y t y t 1 Tempo zmian wartości zjawiska w okresie t w stosunku do okresu t 1 jest równe (i t t 1 1)100% Indeks jednopodstawowy dynamiki i t t = y t y t, gdzie t jest ustaloną chwilą (ustalonym okresem) czasu.
Agata Boratyńska Wykłady ze statystyki 23 Tempo zmian wartości zjawiska w okresie t w stosunku do okresu t jest równe (i t t 1)100% Związki między indeksami: i t t 1 = i t t i t 1 t, jeśli t > t to jeśli t < t to i t t = t i t t = t=t +1 t t=t +1 i t t 1, 1 i t t 1. Średnie tempo zmian wartości zjawiska r = ī g 1 = 1 n i t t 1 t=1 n 1 = y 1 n y 0 n 1 = ( in 0 ) 1 n 1 Średnie tempo zmian wartości zjawiska określa tempo zmian zjawiska jakie powinno występować przez cały okres (0, n), aby przyrost z okresu (0, n) rozłożyć równomiernie w czasie. Zatem y n = y 0 (r + 1) n.
Agata Boratyńska Wykłady ze statystyki 24 AGREGATOWE INDEKSY WARTOŚCI, ILOŚCI I CEN. Indeksy agragatowe oceniają dynamikę zjawiska w niejednorodnej zbiorowości (np. dynamika cen różnych artykułów, dynamika spożycia różnych produktów, dynamika sprzedaży, produkcji kilku dóbr). Dane z dwóch okresów (momentów) czasowych: t = 0 - okres podstawowy i t = 1 okres badany produkt cena jednostki ilość wartość t = 0 t = 1 t = 0 t = 1 t = 0 t = 1 1 p 10 p 11 q 10 q 11 w 10 = p 10 q 10 w 11 = p 11 q 11 2 p 20 p 21 q 20 q 21 w 20 = p 20 q 20 w 21 = p 21 q 21..................... j p j0 p j1 q j0 q j1 w j0 = p j0 q j0 w j1 = p j1 q j1..................... k p k0 p k1 q k0 q k1 w k0 = p k0 q k0 w k1 = p k1 q k1 Agregatowy indeks wartości I w = k j=1 w j1 k j=1 w j0 informuje o łącznej zmianie wartości wszystkich produktów w momencie badanym do momentu podstawowego
Agata Boratyńska Wykłady ze statystyki 25 Agregatowy indeks cen określa wpływ zmian cen na dynamikę wartości (gdyby ilości w obu momentach czasu były niezmienione), mówi o przeciętnych zmianach cen wszystkich rozważanych produktów Agregatowy indeks cen Laspeyresa LI p = k j=1 p j1 q j0 k j=1 p j0 q j0 = Agregatowy indeks cen Paaschego k j=1 p j1 p j0 p j0 q j0 k j=1 p j0 q j0 PI p = k j=1 p j1 q j1 k j=1 p j0 q j1 Agregatowy indeks cen Fishera FI p = LI pp I p Agregatowy indeks ilości określa wpływ zmian ilości na dynamikę wartości (gdyby w obu momentach ceny były niezmienione), informuje o przeciętnych zmianach ilości poszczególnych produktów w obu porównywanych momentach czasu Agregatowy indeks ilości Laspeyresa LI q = k j=1 p j0 q j1 k j=1 p j0 q j0 = Agregatowy indeks ilości Paaschego k PI q = j=1 p j1 q j1 k j=1 p j1 q j0 k j=1 q j1 q j0 p j0 q j0 k j=1 p j0 q j0
Agata Boratyńska Wykłady ze statystyki 26 Agregatowy indeks ilości Fishera FI q = LI qp I q Związki między indeksami I w = L I pp I q = L I qp I p = F I pf I q