WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE) Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 1 1 / 33
Warunki zaliczenia 1 Ćwiczenia OBOWIĄZKOWE (max. 3 nieobecności) 2 Zaliczenie ćwiczeń: kolokwium I (30 pkt), kolokwium II (40 pkt), kartkówki i prace domowe (30 pkt) 3 Ocena z ćwiczeń OC: ocena pozytywna min 50 pkt 4 Do egzaminu dopuszczeni wszyscy, którzy chodzili na ćw. 5 Egzamin: (zakres materiału z wykładu + ćw.) 8 zadań, każde po 2 pkt. Ocena z egzaminu OE =liczba zdobytych punktów /3 6 Ocena końcowa OK = max{oe; 1/3OC + 2/3OE}, zaokrąglona. Osoba mająca 2 z ćwiczeń (dopuszczona do egz.) musi mieć 9 pkt z egz. Przy zaliczonych ćwiczeniach, gdy OK 2, 5 ocena końcowa pozytywna 7 Gdy w I terminie 7 pkt z egz., zaliczone ćwiczenia. Agata Boratyńska Statystyka matematyczna, wykład 1 2 / 33
Literatura 1 W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, SNS 1999 2 W. Niemiro Statystyka, http://www-users.mat.umk.pl/ wniem/statystyka/statystyka.pdf 3 A. Boratyńska Wykłady ze statystyki matematycznej, http://web.sgh.waw.pl/ aborata/ekonomia/wykladsm.pdf 4 slajdy na str. http://web.sgh.waw.pl/ aborata 5 A. Boratyńska Zadania ze statystyki matematycznej, http://web.sgh.waw.pl/ aborata/ekonomia/zadsek2.pdf 6 J. Koronacki i J. Mielniczuk Statystyka WNT 2004 7 H. Kassyk-Rokicka, Statystyka, zbiór zadań, 2005 lub inne wyd. 8 R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN wojtek.zielinski.statystyka.info/moj ojciec/public html/7all.pdf 9 A. Jokiel-Rokita i R. Magiera, Modele i metody statystyki matematycznej w zadaniach, Oficyna Wyd. GiS, Wrocław 2005 10 inne: Jóźwiak i Podgórski, Silvey, Aczel, Rao Agata Boratyńska Statystyka matematyczna, wykład 1 3 / 33
Tematyka zajęć Statystyka opisowa Indeksy (tylko na ćwiczeniach) Model statystyczny, pojęcie statystyka Estymacja punktowa Estymacja przedziałowa Weryfikacja hipotez statystycznych Wstęp do statystyki bayesowskiej Agata Boratyńska Statystyka matematyczna, wykład 1 4 / 33
Wykład 1 - statystyka opisowa 1 Statystyka opisowa i statystyka matematyczna 2 Prezentacja danych: dane surowe tabela prezentacja graficzna 3 Miary położenia klasyczne pozycyjne Agata Boratyńska Statystyka matematyczna, wykład 1 5 / 33
Sławni o statystyce Statystyka jest bardziej sposobem myślenia lub wnioskowania niż pęczkiem recept na młócenie danych w celu odsłonięcia odpowiedzi C. R. Rao... statystyka jest nauką o tym, jak wykorzystywać informacje do analizy i wytyczania kierunków działania w warunkach niepewności. V. Barnett Comparative Statistical Inference Nauka...zajmuje się głównie budową modeli. Model rozumiany jest jako matematyczny twór, który, po dodaniu słownej interpretacji, opisuje badane zjawiska. Jedynym i właściwym uzasadnieniem takiego tworu... jest oczekiwanie, że sprawdzi się on w działaniu. John von Neumann Kłamstwo, wierutne kłamstwo, statystyka Liczby nie kłamią ale kłamcy liczą Ch. H. Grosvenor Prawa naukowe nie są formułowane na mocy autorytetów ani uzasadniane przez wiarę czy średniowieczną filozofię. Jedynym sądem odwoławczym dla nowej wiedzy jest statystyka P.C. Mahanalobis Agata Boratyńska Statystyka matematyczna, wykład 1 6 / 33
Statystyka a statystyka matematyczna STATYSTYKA - nauka poświęcona metodom badania i analizowania zjawisk masowych; polega na systematyzowaniu obserwowanych cech ilościowych i jakościowych oraz przedstawianiu wyników w postaci zestawień tabelarycznych, wykresów, diagramów itp. Zajmuje się zbieraniem, przetwarzanie, przedstawianiem danych oraz wniskowaniem na ich podstawie. STATYSTYKA MATEMATYCZNA - dział matematyki stosowanej oparty na rachunku prawdopodobieństwa, zajmuje się badaniem zbiorów i wnioskowaniem o pewnych charakterystykach cech (zmiennych losowych) na podstawie znajomości podzbiorów i obserwacji wartości zmiennej losowej w postaci próby losowej. Agata Boratyńska Statystyka matematyczna, wykład 1 7 / 33
Statystyka opisowa, dane populacja - zbiór obiektów z wyróżnioną cechą, zbiorowość poddawana badaniu. cecha - wielkość losowa charakteryzująca obiekty danej populacji lub interesująca badacza zmienna losowa: cecha ilościowa (mierzalna): skokowa np: ocena, liczba dzieci ciągła np: waga, zarobki jakościowa (niemierzalna) np: kolor oczu, płeć, wykształcenie jednostka badania - element populacji poddany badaniu próba - wybrana część populacji poddana badaniu, zbiór jednostek badania BADANIE badanie pełne - obejmuje całą populację (np. spis powszechny) badanie reprezentacyjne - obejmuje część populacji Wnioskowanie o całej populacji na podstawie próby losowej wymaga metod rachunku prawdopodobieństwa. Agata Boratyńska Statystyka matematyczna, wykład 1 8 / 33
PREZENTACJA DANYCH Cel: przejrzystość Sposób (zależy od danych): tabela wykres, prezentacja graficzna Dane surowe jednostka cecha X cecha Y cecha Z... 1 x 1 y 1 z 1... 2 x 2 y 2 z 2... 3 x 3 y 3 z 3.................. Agata Boratyńska Statystyka matematyczna, wykład 1 9 / 33
Prezentacja - cecha skokowa Tabela - szereg rozdzielczy punktowy (tablica kontyngencji) wartości cechy liczności częstość częstość (liczba jednostek) skumulowana x 1 n 1 f 1 = n 1 n f 1 x 2 n 2 f 2 = n 2 n f 1 + f 2............ x k n k f k = n k n 1 Razem n 1 Wykres - wykres słupkowy liczności - wykres słupkowy częstości - dystrybuanta empiryczna (wykres słupkowy skumulowany) Agata Boratyńska Statystyka matematyczna, wykład 1 10 / 33
Cecha skokowa - przykład PRZYKŁAD 1. W grupie 20 studentów oceny z egzaminu ze statystyki były następujące: Dane w szeregu 2 3 3.5 4 4.5 4 5 3 3 4 3.5 3 3 3.5 3 2 4 5 3.5 3.5 ocena liczba studentów częstość częstość skumulowana 2 2 0,10 0,10 3 6 0,30 0,40 3.5 5 0,25 0,65 4 4 0,20 0,85 4.5 1 0,05 0,90 5 2 0,10 1 Razem 20 1 Agata Boratyńska Statystyka matematyczna, wykład 1 11 / 33
liczba studentów częstość Przykład 1 cd, wykresy słupkowe Wykres słupkowy (diagram) liczności 7 ocena z egzaminu Wykres słupkowy (diagram) częstości 0,35 ocena z egzaminu 6 0,30 5 0,25 4 0,20 3 2 1 0,15 0,10 0,05 0 2,00 3,00 3,50 4,00 4,50 5,00 ocena 0,00 2,00 3,00 3,50 4,00 4,50 5,00 ocena Agata Boratyńska Statystyka matematyczna, wykład 1 12 / 33
częstość skumulowana Przykład 1 cd, dystrybuanta empiryczna 1,20 histogram częstości skumulowanych (dystrybuanta empiryczna) 1,00 0,80 0,60 0,40 0,20 0,00 0,00 1,00 2,00 3,00 4,00 5,00 6,00 ocena Agata Boratyńska Statystyka matematyczna, wykład 1 13 / 33
Prezentacja - cecha (zmienna) ciągła Tabela - szereg rozdzielczy przedziałowy Wykres: - histogram częstości - histogram liczności - dystrybuanta empiryczna - łamana częstości skumulowanych Agata Boratyńska Statystyka matematyczna, wykład 1 14 / 33
Szereg rozdzielczy przedziałowy przedział środek przedziału liczności częstości częstości skumulowane (c 0, c 1 ] c 1 n 1 f 1 = n 1 n f 1 (c 1, c 2 ] c 2 n 2 f 2 = n 2 n f 1 + f 2............... (c k 1, c k ] c k n k f k = n k ki=1 n f i = 1 Uwagi: c i = c i 1+c i 2 Najczęściej klasy o jednakowej długości lub o zbliżonej liczności Liczba klas k spełnia 3 4 n k n liczbę klas można też dobierać ustalając długość, jedna z reguł to b 2, 64 IQR n 1 3 gdzie IQR - rozstęp międzykwartylowy Klasy jednakowej długości, to b Xn:n X 1:n k X 1:n - najmniejsza obserwacja, X n:n - największa obserwacja Agata Boratyńska Statystyka matematyczna, wykład 1 15 / 33
Cecha ciągła - przykład PRZYKŁAD 2. Powierzchnię mieszkań w pewnym osiedlu podaje tabela 32,45 33,21 34,36 35,78 37,79 38,54 38,91 38,96 39,50 39,67 39,80 41,45 41,55 42,27 42,40 42,45 44,25 44,50 44,70 44,83 44,90 45,10 45,90 46,52 47,65 48,10 48,55 48,90 49,00 49,24 49,55 49,65 49,70 49,90 50,90 51,40 51,50 51,65 51,70 51,80 51,98 52,00 52,10 52,30 53,65 53,89 53,90 54,00 54,10 55,20 55,30 55,56 55,62 56,00 56,70 56,80 56,90 56,95 57,13 57,45 57,70 57,90 58,00 58,50 58,67 58,80 59,23 63,40 63,70 64,20 64,30 64,60 65,00 66,29 66,78 67,80 68,90 69,00 69,50 73,20 76,80 77,10 77,80 78,90 79,50 82,70 83,40 84,50 84,90 85,00 86,00 89,10 89,60 93,00 96,70 98,78 103,00 107,90 112,70 118,90 Agata Boratyńska Statystyka matematyczna, wykład 1 16 / 33
Przykład 2 cd przedział środek liczba mieszkań częstości 30 40 35 11 0.11 40 50 45 23 0.23 50 60 55 33 0.33 60 70 65 12 0.12 70 80 75 6 0.06 80 90 85 8 0.08 90 100 95 3 0.03 100 110 105 2 0.02 110 120 115 2 0.02 razem 100 1 Agata Boratyńska Statystyka matematyczna, wykład 1 17 / 33
Histogram i łamana skumulowana Histogram - wykres słupkowy, którego podstawę stanowią przedziały klasowe, a wysokości słupków są proporcjonalne do liczności n i poszczególnych klas. Jeżeli wysokości są równe licznościom klas to mamy histogram liczności, jeżeli częstościom to histogram częstości. Jeżeli klasy nie mają równej długości wysokość słupków określa się wg wzoru h i = f i b i gdzie f i - to częstość, a b i - długość klasy (porównaj histogramy - przykład 2, 3) Łamana skumulowana - łącząc punkty o współrzędnych (c i, cn i ) otrzymujemy łamaną liczności skumulowanych, a łącząc punkty o współrzędnych (c i, cf i ) otrzymujemy łamaną częstości skumulowanych. Agata Boratyńska Statystyka matematyczna, wykład 1 18 / 33
częstości częstość skumulowana Przykład 2 cd, wykresy 0,35 Histogram częstości Łamana częstości skumulowanych 0,30 0,25 1,20 1,00 0,20 0,80 0,15 0,60 0,10 0,40 0,05 0,20 0,00 35 45 55 65 75 85 95 105 115 powierzchnia mieszkania 0,00 0,00 20,00 40,00 60,00 80,00 100,00 120,00 powierzchnia mieszkania Agata Boratyńska Statystyka matematyczna, wykład 1 19 / 33
Przykład 3, dane asymetryczne 20 307 612 1272 2078 3631 26 324 669 1280 2240 4068 77 346 686 1351 2411 4520 86 359 691 1380 2412 5013 116 367 710 1501 2519 5065 120 370 757 1546 2588 5481 132 383 827 1565 2728 6046 165 384 829 1635 2799 7003 201 451 886 1671 2850 7275 240 475 893 1706 2987 7477 246 496 969 1825 3000 8738 252 505 1053 1830 3006 9197 265 529 1079 1850 3383 16370 272 546 1080 1871 3443 17605 282 560 1145 1916 3513 27320 300 595 1194 2029 3614 56788 Agata Boratyńska Statystyka matematyczna, wykład 1 20 / 33
Przykład 3 cd, wykresy Szereg rozdzielczy 0,0007 histogram c i 1 c i n i h i 1 0 250 11 0,000458 2 250 450 13 0,000677 3 450 690 11 0,000477 4 690 1100 11 0,000279 5 1100 1650 10 0,000189 6 1650 2400 10 0,000139 7 2400 3400 11 0,000115 8 3400 6500 10 0,000034 9 6500 >6500 9 0,000002 96 0,0006 0,0005 0,0004 histogram 0,0003 0,0002 0,0001 0 0 2000 4000 6000 8000 Agata Boratyńska Statystyka matematyczna, wykład 1 21 / 33
CHARAKTERYSTYKI PRÓBKOWE miary położenia miary zróżnicowania, zmienności, rozproszenia miary asymetrii miary koncentracji MIARY POŁOŻENIA: klasyczne - średnia arytmetyczna pozycyjne: mediana, moda, kwantyle Agata Boratyńska Statystyka matematyczna, wykład 1 22 / 33
Średnia arytmetyczna X z próby losowej X 1, X 2,..., X n (dane surowe) X = X 1 + X 2 + + X n n dane z szeregu rozdzielczego punktowego X = 1 k x i n i n i=1 dane z szeregu rozdzielczego przedziałowego X 1 k c i n i n i=1 Agata Boratyńska Statystyka matematyczna, wykład 1 23 / 33
Średnia - przykłady PRZYKŁAD 1 cd. X = 2 2 + 6 3 + 5 3.5 + 4 4 + 1 4.5 + 2 5 20 PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego = 3.5 X = 1 (11 35+23 45+33 55+12 65+6 75+8 85+3 95+2 105+2 115) = 58.70 100 Uwaga: jeżeli dostępne są dane surowe zaleca się korzystanie ze wzoru pierwszego. Agata Boratyńska Statystyka matematyczna, wykład 1 24 / 33
MEDIANA (wartość środkowa) Mediana Med to liczba, taka że co najmniej 50% obserwacji przyjmuje wartość nie większą od niej i co najmniej 50% obserwacji wartość nie mniejszą od niej. dane surowe, szereg rodzielczy punktowy: ustawiamy rosnąco, i-tą obserwację w ciągu ustawionym rosnąco oznaczamy symbolem X i:n i nazywamy i-tą statystyką pozycyjną. W szczególności X 1:n = min{x 1, X 2,..., X n } X n:n = max{x 1, X 2,..., X n } { X n+1 Med = 2 :n gdyn nieparzyste 1 2 (X n 2 :n + X n+2 :n) gdyn parzyste PRZYKŁAD 1 cd. Med = X 10:20 + X 11:20 2 2 = 3, 5 + 3, 5 2 = 3, 5 Agata Boratyńska Statystyka matematyczna, wykład 1 25 / 33
Mediana - dane z szeregu rozdzielczego przedziałowego Med c L + b ( ) n M 1 n M 2 n i i=1 c L - dolna granica klasy mediany b - szerokość klasy mediany n M - liczność klasy mediany M - numer klasy PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego M = 3, n 3 = 33, c L = 50, b = 10 Med 50 + 10 (50 34) = 54, 85 33 Agata Boratyńska Statystyka matematyczna, wykład 1 26 / 33
Moda (dominanta) Moda (dominanta) Mo - wartość najczęściej powtarzająca się w próbie (często zakłada się, że nie może być to wartość największa ani najmniejsza) Przy danych z szeregu rozdzielczego Mo c L + n Mo n Mo 1 (n Mo n Mo 1 ) + (n Mo n Mo+1 ) b n Mo - liczność najliczniejszej klasy zwanej klasą mody, c L - lewy koniec klasy mody PRZYKŁAD 1 cd. Mo = 3 PRZYKŁAD 2 cd. 33 23 Mo 50 + 10 = 53, 2 33 23 + 33 12 PRZYKŁAD 3 cd. 0, 0006771 0, 0004583 Mo 250 + 200 = 354, 56 2 0, 0006771 0, 0004583 0, 0004774 Agata Boratyńska Statystyka matematyczna, wykład 1 27 / 33
Porównanie średniej, mediany, mody PRZYKŁAD 4. Miesięczne zarobki zasadnicze pracowników z wyższym wykształceniem w pewnej firmie zarobki liczba osób 2500 6 3000 8 3100 7 3500 4 4000 3 5000 2 12000 1 Razem 31 X = 3506 Med = X 16:31 = 3100 Mo = 3000 Jeżeli z danych wyrzucimy największą obserwację to mediana i moda się nie zmienią a średnia będzie równa 3223 Agata Boratyńska Statystyka matematyczna, wykład 1 28 / 33
Średnia, moda, mediana - uwagi średnia jest nieodporna na obserwacje odstające, mediana jest najbardziej odporna na zaburzenia, niedokładności pomiaru, zmiany, wartości odstające moda - stosuje się do danych pogrupowanych Agata Boratyńska Statystyka matematyczna, wykład 1 29 / 33
Kwantyle Kwantyl próbkowy rzędu p ozn. Q p liczba taka, że odsetek wartości nie większych niż Q p wynosi co najmniej p, a wartości nie mniejszych co najmniej 1 p. Q p = { Xnp:n+X np+1:n 2 gdy np Z X [np]+1:n w pp lub Q p = X [np]+1:n Agata Boratyńska Statystyka matematyczna, wykład 1 30 / 33
Kwartyle Interpretacja Pierwszy kwartyl (dolny kwartyl) Q 1/4 - to taka wartość cechy, że co najmniej 25% obserwacji przyjmuje wartość nie większą od niej i co najmniej 75% obserwacji wartość nie mniejszą od niej. Drugi kwartyl = Mediana Trzeci kwartyl (kwartyl górny) Q 3/4 - to taka wartość cechy, że co najmniej 75% obserwacji przyjmuje wartość nie większą od niej i co najmniej 25% obserwacji wartość nie mniejszą od niej. Kwartyle dzielą próbę na cztery części (ze względu na liczność), w każdej jest w przybliżeniu 25% obserwacji. PRZYKŁAD 1 cd. Q 1/4 = X 5:20 + X 6:20 = 3 2 Q 3/4 = X 15:20 + X 16:20 2 = 4 Agata Boratyńska Statystyka matematyczna, wykład 1 31 / 33
Kwartyle, dane z szeregu rodzielczego Q 1/4 c L + gdzie c L - dolna granica klasy kwartyla b - szerokość klasy kwartyla n M1 - liczność klasy kwartyla M 1 - numer klasy Q 3/4 c L + gdzie c L - dolna granica klasy kwartyla b - szerokość klasy kwartyla - liczność klasy kwartyla n M3 M 3 - numer klasy b n M1 b n M3 n M 1 1 4 i=1 3n M 3 1 4 i=1 n i n i n Agata Boratyńska Statystyka matematyczna, wykład 1 32 / 33
Porównanie wskaźników dla danych surowych i szeregu rozdzielczego Przykład 2 cd. Przykład 3 cd. miara dane surowe szereg rozdzielczy średnia 59,58 58,70 mediana 55,25 54,85 Q 1/4 47,88 46,09 Q 3/4 67,29 66,67 miara dane surowe szereg rozdzielczy średnia 2992,43 4398,29 mediana 1233 1210 Q 1/4 417,5 450 Q 3/4 2824,5 2945,45 Agata Boratyńska Statystyka matematyczna, wykład 1 33 / 33