Podstawy statystyki opisowej. Szymon W sowicz

Podobne dokumenty
Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Statystyka matematyczna

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski.

1 Metody iteracyjne rozwi zywania równania f(x)=0

In»ynierskie zastosowania statystyki wiczenia

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Matematyka z elementami statystyki

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

Ekonometria - wykªad 8

Biostatystyka, # 5 /Weterynaria I/

Statystyka matematyczna - ZSTA LMO

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

2 Liczby rzeczywiste - cz. 2

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

1 Bª dy i arytmetyka zmiennopozycyjna

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Proste modele o zªo»onej dynamice

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

Wykªad 6: Model logitowy

Wykªad 4. Funkcje wielu zmiennych.

Metody dowodzenia twierdze«

Materiaªy do Repetytorium z matematyki

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Lab. 02: Algorytm Schrage

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Metody numeryczne i statystyka dla in»ynierów

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Funkcje, wielomiany. Informacje pomocnicze

Indeksowane rodziny zbiorów

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka

Metodydowodzenia twierdzeń

Ukªady równa«liniowych

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Próba własności i parametry

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

Funkcje. Šukasz Dawidowski. 25 kwietnia 2016r. Powtórki maturalne

Arkusz maturalny. Šukasz Dawidowski. 25 kwietnia 2016r. Powtórki maturalne

Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo

Bash i algorytmy. Elwira Wachowicz. 20 lutego

W1. Wprowadzenie. Statystyka opisowa

Vincent Van GOGH: M»czyzna pij cy li»ank kawy. Radosªaw Klimek. J zyk programowania Java

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

W zadaniach na procenty wyró»niamy trzy typy czynno±ci: obliczanie, jakim procentem jednej liczby jest druga liczba,

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

ELEMENTARNA TEORIA LICZB. 1. Podzielno±

Statystyczne metody analizy danych

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Modele wielorównaniowe. Problem identykacji

ROZWIĄZANIA PRZYKŁADOWYCH ZADAŃ. KORELACJA zmiennych jakościowych (niemierzalnych)

ZADANIA. Maciej Zakarczemny

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Podstawy statystycznego modelowania danych Analiza prze»ycia

1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy.

Wybrane poj cia i twierdzenia z wykªadu z teorii liczb

Ekonometria - wykªad 1

Interpolacja funkcjami sklejanymi

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

Lekcja 8 - ANIMACJA. 1 Polecenia. 2 Typy animacji. 3 Pierwsza animacja - Mrugaj ca twarz

Liniowe zadania najmniejszych kwadratów

KARTA PRZEDMIOTU. w języku polskim Statystyka opisowa Nazwa przedmiotu USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW. dr Agnieszka Krzętowska

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

1 Ró»niczka drugiego rz du i ekstrema

x y x y x y x + y x y

Biostatystyka, # 4 /Weterynaria I/

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Modele wielorównaniowe. Estymacja parametrów

Koªo Naukowe Robotyków KoNaR. Plan prezentacji. Wst p Rezystory Potencjomerty Kondensatory Podsumowanie

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Ekstremalnie fajne równania

Podstawy statystycznego modelowania danych - Wykªad 7

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

Rozwi zanie równania ró»niczkowego metod operatorow (zastosowanie transformaty Laplace'a).

Zbiory i odwzorowania

Elementy geometrii w przestrzeni R 3

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Optyka geometryczna. Soczewki. Marcin S. Ma kowicz. rok szk. 2009/2010. Zespóª Szkóª Ponadgimnazjalnych Nr 2 w Brzesku

Metody probablistyczne i statystyka stosowana

2. L(a u) = al( u) dla dowolnych u U i a R. Uwaga 1. Warunki 1., 2. mo»na zast pi jednym warunkiem: L(a u + b v) = al( u) + bl( v)

Wektory w przestrzeni

Wykªad 10. Spis tre±ci. 1 Niesko«czona studnia potencjaªu. Fizyka 2 (Informatyka - EEIiA 2006/07) c Mariusz Krasi«ski 2007

ZADANIA OTWARTE KRÓTKIEJ ODPOWIEDZI

Elementarna statystyka

Ekonometria Bayesowska

Stacjonarne szeregi czasowe

Informacje pomocnicze

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Transkrypt:

Podstawy statystyki opisowej Szymon W sowicz 2014

Przedmowa Niniejszy skrypt zawiera wykªad podstaw statystyki opisowej. Ta cz ± statystyki stanowi pierwszy etap w analizie danych. Nie stosuje si tu metod rachunku prawdopodobie«stwa (który jest j zykiem statystyki matematycznej). Prezentowane poj cia ilustrowane s szerok gam przykªadów. Zamieszczono te» zestaw wicze«do samodzielnego rozwi zania, a wszystkie wiczenia opatrzono odpowiedziami. Skrypt wyrósª na gruncie zaj z podstaw statystyki prowadzonych przez szereg lat i przeznaczonych dla studentów ró»nych kierunków: in»ynierskich, humanistycznych czy medycznych. Wyra»am nadziej,»e b dzie on pomocny w opanowaniu najprostszych metod statystyki opisowej. Niektóre zamieszczone w tym opracowaniu przykªady wzbogacono o obliczenia wykonane w ±rodowisku R. Jest to caªkowicie bezpªatny pakiet komputerowy przeznaczony gªównie do oblicze«statystycznych. Mo»na go pobra ze strony www.r-project.org. Skrypt nie stanowi jednak podr cznika ±rodowiska R. Czytelnicy zainteresowani jego u»yciem powinny samodzielnie zapozna si z jego podstawami np. z licznych podr czników dost pnych w Internecie. Inne osoby mog caªkowicie pomin zaprezentowane obliczenia bez szkody dla zrozumienia tre±ci statystycznych. Skªadam gor ce podzi kowanie Panu Sylwestrowi Bªaszczukowi za cenne sugestie merytoryczne i redakcyjne. Szymon W sowicz i

Spis tre±ci Przedmowa i 1 Uwagi o przedmiocie statystyki 1 2 Statystyka opisowa jednej zmiennej 3 2.1 Gromadzenie danych statystycznych..................... 3 2.2 Miary tendencji centralnej........................... 11 2.3 Miary zró»nicowania cechy........................... 24 2.4 Asymetria rozkªadu empirycznego....................... 31 2.5 Koncentracja warto±ci cechy.......................... 33 2.6 Analiza danych z u»yciem miar pozycyjnych................. 40 3 Statystyka opisowa dwóch zmiennych 46 3.1 Badanie wspóªzale»no±ci cech mierzalnych.................. 46 3.2 Badanie dwóch cech mierzalnych skorelowanych liniowo.......... 51 3.3 Badanie wspóªzale»no±ci cech niemierzalnych................ 59 4 Zbiór zada«68 Zadania........................................ 68 Rozwi zania...................................... 72 Literatura 78 Skorowidz 79

1 Uwagi o przedmiocie statystyki Populacja generalna Populacj generaln nazywamy zbiorowo±, której dotyczy badanie statystyczne. Mo»e to by zbiorowo± ludzka (jak np. w badaniu wzrostu czy masy ciaªa), ale niekoniecznie. W badaniu ±redniego przebiegu opon samochodowych danego typu populacj generaln jest zbiór wszystkich opon tego typu. Badanie statystyczne Cechy Badaniu statystycznemu podlegaj cechy. W populacji wszystkich Polaków badanymi cechami mog by np. wzrost, masa ciaªa, wysoko± zarobków, wyksztaªcenie, wyznanie, preferencje wyborcze itp. Bada si cechy zmienne, czyli takie, których warto±ci mog by ró»ne dla ró»nych elementów populacji.wymienione wy»ej cechy s oczywi±cie zmienne. Cechy staªe maj identyczne warto±ci w caªej populacji i jako takie nie s przedmiotem bada«statystycznych. Przykªadem cechy staªej w populacji wszystkich osób narodowo±ci polskiej jest wªa±nie narodowo±. Cechy mierzalne Cechy mierzalne (inaczej ilo±ciowe) wyra»aj si liczbami. S nimi np. wzrost, masa ciaªa, liczba posiadanych dzieci itp. Cechy niemierzalne Cechy niemierzalne (inaczej jako±ciowe) nie wyra»aj si warto±ciami liczbowymi. S nimi np. wyksztaªcenie, wyznanie, kolor oczu, preferencje wyborcze itp. 1

1. Uwagi o przedmiocie statystyki Badanie peªne Badaniu peªnemu podlega caªa populacja generalna. Prostymi przykªadami badania peªnego s Narodowy Spis Powszechny, a tak»e jakiekolwiek wybory. Badanie cz ±ciowe Badaniu cz ±ciowemu podlega podzbiór populacji generalnej zwany prób. Prób wybiera si z populacji generalnej, najcz ±ciej w sposób losowy. Losowo± zapewnia podobn struktur próby i populacji generalnej, np. to,»e w badanej próbie udziaª osób z wy»szym wyksztaªceniem b dzie podobny jak w populacji generalnej, analogicznie ze struktur wieku, zamieszkiwaniem w mie±cie czy we wsi itp. Cz sto w mediach sªyszymy stwierdzenia typu badanie przeprowadzono w grupie reprezentatywnej 967 osób dorosªych. Badanie cz ±ciowe przeprowadza si co najmniej z kilku powodów. Przede wszystkim dlatego,»e wykonanie badania peªnego cz sto jest zbyt kosztowne (spójrzmy na koszty przeprowadzenia wyborów) lub czasochªonne. Sama populacja generalna mo»e by bardzo liczna, co uczyni przeprowadzenie badania peªnego wr cz niemo»liwym. Inn przyczyn jest niszcz cy charakter badania (testy zderzeniowe samochodów, przydatno± do spo»ycia puszki z konserw rybn itp.). Rozkªad cechy Celem badania statystycznego jest poznanie rozkªadu badanej cechy w populacji generalnej. Je±li badanie jest peªne, poznajemy rozkªad dokªadny. Je±li badanie jest cz ±ciowe, poznajemy rozkªad cechy w badanej próbie, czyli rozkªad przybli»ony. Metody statystyki matematycznej (oparte na rachunku prawdopodobie«stwa) pozwalaj oceni, w jakim stopniu rozkªad przybli»ony zgodny jest z rozkªadem dokªadnym, który mo»na by byªo uzyska w badaniu peªnym. Metody te nie s przedmiotem niniejszego skryptu. Statystyka opisowa Statystyka opisowa zajmuje si wst pnym opracowaniem danych pochodz cych z badania statystycznego bez stosowania metod rachunku prawdopodobie«stwa. To opracowanie danych obejmuje ich odpowiedni prezentacj, a tak»e obliczenie ró»nych parametrów. Je±li badanie jest peªne, to poprzestaje si na etapie statystyki opisowej. Je±li badanie jest cz ±ciowe, to uzyskany w wyniku badania próby rozkªad empiryczny mo»e posªu»y do wnioskowania statystycznego, które nale»y ju» do statystyki matematycznej. 2

2 Statystyka opisowa jednej zmiennej W niniejszym rozdziale omawia si badania statystyczne ze wzgl du na jedn cech, tzn. w próbie b d¹ w populacji generalnej bada si tylko jedn cech. Jednoczesne badania dwóch cech omówione zostan w nast pnym rozdziale. 2.1 Gromadzenie danych statystycznych Szeregi statystyczne Dane uzyskane w badaniu statystycznym mog mie posta ci gu uporz dkowanego niemalej co, który nazywa si szeregiem szczegóªowym. Najcz ±ciej dane pochodz ce z szeregu szczegóªowego zapisujemy w tabeli zwanej szeregiem rozdzielczym. W±ród szeregów rozdzielczych wyró»niamy szeregi punktowe i szeregi przedziaªowe. Rodzaje cech mierzalnych Istniej dwa rodzaje cech mierzalnych: skokowe i ci gªe. Dla ka»dego z nich szereg rozdzielczy sporz dza si inaczej. Cechy skokowe Cechy te przyjmuj warto±ci nale» ce do pewnego zbioru sko«czonego lub przeliczalnego. Najcz ±ciej jest to zbiór liczb caªkowitych nieujemnych. Nie dopuszczaj one stanów po±rednich. Np. rodzina nie posiada dzieci, albo posiada jedno dziecko, dwójk dzieci itd. Dla cech skokowych konstruuje si szeregi punktowe. W najprostszej wersji zawieraj one wszystkie zaobserwowane warto±ci cechy oraz odpowiadaj ce im liczebno±ci, tj. liczby elementów badanej próby, dla których cecha przyjmuje konkretne warto±ci. 3

2. Statystyka opisowa jednej zmiennej Cechy ci gªe Cechy te mog przyjmuj (przynajmniej w teorii) wszystkie warto±ci nale» ce do pewnego przedziaªu liczbowego. W praktyce jeste±my ograniczeni dokªadno±ci przyrz - dów pomiarowych. Otó» w badaniu wzrostu mo»na oczywi±cie zaobserwowa warto± 171,2387 cm. Jednak podawanie wzrostu z tak dokªadno±ci nie ma sensu, wystarczy ograniczy si do peªnych centymetrów. Dla cech ci gªych buduje si szeregi przedziaªowe dziel c zbiór zaobserwowanych warto±ci cechy na pewn liczb klas. Liczba ta zale»y od liczno±ci badanej próby. Ka»dej klasie przyporz dkowuje si liczebno±, która w tym przypadku informuje, dla ilu elementów badanej próby warto± cechy le»y w danej klasie. Dla przykªadu mo»na poda pªace pracowników pewnego zakªadu uszeregowane nast puj co: poni»ej 1000 zª, 1000 1200 zª, 1200 1400 zª itd. W praktyce cechy skokowe od ci gªych odró»niamy przez powtarzalno± warto±ci cechy. Je±li jest du»a, jak np. przy ocenach z danego przedmiotu czy liczbie dzieci w rodzinie, cech traktuje si jak skokow. Je±li w szeregu szczegóªowym warto±ci cechy powtarzaj si rzadko lub w ogóle si nie powtarzaj, a badana próba jest wystarczaj co liczna (w praktyce ju» ok. 25elementowa), to cech traktujemy jako ci gª. Konstrukcja szeregu punktowego Przykªad 2.1. Zapytano 25 rodzin o liczb posiadanych dzieci otrzymuj c dane: 1, 3, 1, 2, 2, 1, 0, 3, 4, 1, 2, 3, 2, 5, 2, 3, 1, 0, 1, 2, 2, 4, 2, 6, 2. Zbudowa na ich podstawie szereg punktowy. Badan cech jest liczba dzieci w rodzinie. Badan prób jest 25 rodzin. Oczywi±cie dane tego rodzaju cechuje du»a powtarzalno±, cecha jest skokowa. Widzimy,»e w±ród 25 badanych rodzin liczba dzieci waha si od 0 do 6. Zatem w powy»szym ci gu danych jest 7 ró»nych warto±ci, tj. 0, 1, 2, 3, 4, 5 i 6. Liczb ró»nych warto±ci cechy oznaczymy przez k, wi c k = 7. Oznaczmy ró»ne warto±ci cechy przez x 1, x 2 itp. Zatem mamy x 1 = 0, x 2 = 1, x 3 = 2, x 4 = 3, x 5 = 4, x 6 = 5, x 7 = 6. Dalej, niech n oznacza liczb elementów badanej próby. W naszym przykªadzie mamy wi c n = 25. Ka»dej z danych x 1, x 2,..., x k przypiszemy teraz odpowiedni liczebno±, tj. liczb elementów badanej próby, dla której cecha ma tak, a nie inn warto±. Skoro zatem 6 rodzin miaªo po jednym dziecku, to n 2 = 6 (danej x 2 = 1 odpowiada liczebno± n 2 = 6). Pozostaªe liczebno±ci wyznaczamy podobnie. 4

2.2. Miary tendencji centralnej Omawianie przykªadu zako«czymy sporz dzeniem wykresu koªowego. Wykonuje si go identycznie jak dla szeregu punktowego, a warto±ci cechy zast puje si klasami. 0 20: 4% 20 40: 14% 40 60: 28% 60 80: 26% 80 100: 18% 100 120: 10% 2.2 Miary tendencji centralnej Miary te wskazuj na ±rodkowe warto±ci badanej cechy. Omówimy ±redni arytmetyczn, dominant i median. Oprócz tych miar zostan tak»e przedstawione kwantyle, w±ród których szczególn rol odgrywaj kwartyle i centyle. rednia arytmetyczna Z nauki szkolnej, a tak»e z»ycia codziennego wiemy,»e ±rednia arytmetyczna ilu± liczb to suma tych liczb podzielona przez ich ilo±. Podobnie oblicza si ±redni w statystyce. W szeregu szczegóªowym o warto±ciach cechy x 1, x 2,..., x n ±rednia arytmetyczna wyra»a si wzorem (1) x = 1 x i. n W szeregu punktowym o warto±ciach cechy x 1, x 2,..., x k z liczebno±ciami odpowiednio n 1, n 2,..., n k, ±rednia arytmetyczna wyra»a si wzorem (2) x = 1 k x i n i, n gdzie n = n 1 + n 2 + + n k jest liczb elementów badanej próby. Równowa»ny wzór ma posta k (3) x = x i w i, 11

2. Statystyka opisowa jednej zmiennej gdzie w 1, w 2,..., w k s cz sto±ciami (wagami) warto±ci cechy odpowiednio x 1, x 2,..., x k. Dlatego mówi si,»e ±redni arytmetyczn w szeregu punktowym oblicza si wedªug formuªy wa»onej. Im wi ksza cz sto± (waga) w i, tym wi kszy wpªyw na ±redni x wywiera odpowiednia warto± x i. W szeregu przedziaªowym ±redni arytmetyczn oblicza si analogicznie, zast puj c w powy»szych wzorach dane x 1, x 2,..., x k ±rodkami klas x 1, x 2,..., x k. Popeªniamy przy tym pewien bª d wynikaj cy z zast pienia rzeczywistych danych ±rodkami klas. Jak zobaczymy, bª d ten nie jest na ogóª zbyt du»y i zazwyczaj mie±ci si w granicach dokªadno±ci przyrz du pomiarowego. Przykªad 2.3. Dla danych z Przykªadu 2.1 obliczymy wedªug wzoru (2) ±redni liczb dzieci w rodzinie: x = 0 2 + 1 6 + 2 9 + 3 4 + 4 2 + 5 1 + 6 1 25 = 55 25 = 2,2. Wykonamy teraz obliczenia w ±rodowisku R. W tym celu wprowadzamy ci g danych, który nazwiemy dzieci. Nast pnie wywoªujemy funkcj mean, która wyznaczy ±redni arytmetyczn naszego ci gu danych. W konsoli ±rodowiska R wydajemy nast þuj ce komendy, zatwierdzaj c ka»d z nich klawiszem Enter. > dzieci=c(1,3,1,2,2,1,0,3,4,1,2,3,2,5,2,3,1,0,1,2,2,4,2,6,2) > mean(dzieci) [1] 2.2 Zadanie zostaªo wykonane. Poni»ej zaprezentujemy dodatkowo kilka mo»liwo±ci ±rodowiska R. Poni»ej wy±wietla si szereg punktowy dla cechy dzieci. > table(dzieci) dzieci 0 1 2 3 4 5 6 2 6 9 4 2 1 1 Spróbujmy teraz dowiedzie si jedynie tego, ile rodzin ma dwójk dzieci. > table(dzieci)[names(table(dzieci))==2] 2 9 Ci g danych mo»na uporz dkowa rosn co. > sort(dzieci) [1] 0 0 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3 3 4 4 5 6 12

2. Statystyka opisowa jednej zmiennej > kwantyl=function(dane,rzad){ + n=sum(dane[,2]) # liczebno± próby + k=1 # pocz tkowy numer klasy kwantyla + sk=0 # pocz tkowa poprzednia liczebno± skumulowana + while(sk+dane[k,2]<n*rzad) {sk=sk+dane[k,2];k=k+1} # klasa kwantyla + return(dane[k,1]+(n*rzad-sk)*(dane[2,1]-dane[1,1])/dane[k,2])} > Q=c(kwantyl(czasy,0.25),kwantyl(czasy,0.5),kwantyl(czasy,0.75)) > names(q)=c("q1","me","q3") > Q Q1 Me Q3 45.00000 63.07692 83.33333 Obliczymy jeszcze powy»sze kwantyle w oparciu o szereg szczegóªowy, na podstawie którego zbudowano szereg przedziaªowy. > czasy=c(12,17,23,25,27,28,28,30,36,41,42,48,49,50,52,52,53,54,55,57, + 58,59,60,61,63,64,64,65,67,69,70,71,73,74,76,80,81,82,86,89, + 90,90,93,95,96,101,108,110,112,116) > Q=quantile(czasy,c(0.25,0.5,0.75)) > names(q)=c("q1","me","q3") > Q Q1 Me Q3 49.25 63.50 81.75 Widzimy,»e zastosowanie szeregu przedziaªowego zamiast szczegóªowego rodzi pewne bª dy. 2.3 Miary zró»nicowania cechy Podstawow miar zró»nicowania cechy jest odchylenie standardowe. Istniej te» pozycyjne miary zró»nicowania cechy, a w±ród nich odchylenie wiartkowe. Wariancja B dziemy zakªada,»e szeregi statystyczne wyst puj ce w tym skrypcie pochodz z badania próby, a nie z badania peªnego. Wariancj w szeregu szczegóªowym o warto±ciach cechy x 1, x 2,..., x n (wariancj z próby) nazywamy liczb obliczan wedªug wzoru 24 s 2 = 1 n 1 (x i x) 2.

2.3. Miary zró»nicowania cechy Wariancj w szeregu punktowym o warto±ciach cechy x 1, x 2,..., x k z liczebno±ciami odpowiednio n 1, n 2,..., n k takimi,»e n 1 + n 2 + n k = n i cz sto±ciami w 1, w 2,..., w k nazywamy liczb obliczan wedªug jednego dwóch równowa»nych wzorów (6) (7) s 2 = 1 n 1 s 2 = n n 1 k (x i x) 2 n i, k (x i x) 2 w i. Aby wyznaczy wariancj w szeregu przedziaªowym, nale»y warto±ci cechy x 1, x 2,..., x k zast pi ±rodkami klas x 1, x 2,..., x k. Wariancj mo»na te» oblicza wedªug wzorów (8) s 2 = 1 n k (x i x) 2 n i lub s 2 = k (x i x) 2 w i. które stosujemy, gdy badanie jest peªne, tj. obejmuje caª populacj generaln. Mówimy wtedy o wariancji z populacji. Wielko±ci obliczane wedªug wzorów (8) s nieco mniejsze ni» te wyznaczone wedªug wzorów (6), (7). Dla du»ych warto±ci n ró»nice s niewielkie. Oprogramowanie statystyczne (m. in. ±rodowisko R) posªuguje si jednak wzorem (6). Równie» w tym skrypcie b dziemy w ten sposób wyznacza wariancj, jako»e prezentowane przykªady omawiaj badania prób, a nie badania peªne. W ±rodowisku R wariancj z próby obliczamy za pomoc funkcji var (od nazwy angielskiej variance). Wariancj z populacji wylicza si nieco inaczej. > dzieci=c(1,3,1,2,2,1,0,3,4,1,2,3,2,5,2,3,1,0,1,2,2,4,2,6,2) > # Wariancja z próby > var(dzieci) [1] 2.083333 > # Wariancja z populacji > mean((dzieci-mean(dzieci))^2) [1] 2 Odchylenie standardowe Odchyleniem standardowym nazywamy pierwiastek kwadratowy z wariancji: s = s 2. Informuje ono o tym, jak ±rednio ró»ni si warto±ci badanej cechy od ±redniej arytmetycznej. Im mniejsze odchylenie standardowe, tym bardziej warto±ci cechy skupiaj 25

3 Statystyka opisowa dwóch zmiennych Dotychczas zajmowali±my si badaniem statystycznym dotycz cym tylko jednej cechy. Cz sto wykonuje si te» badania pod wzgl dem dwóch lub wi kszej liczby cech. W niniejszym skrypcie ograniczymy si do wa»nego przypadku dwóch cech. W takiej sytuacji jedna z badanych cech mo»e zale»e w jaki± sposób od drugiej lub cechy s od siebie niezale»ne. Np. wydatki gospodarstw domowych zapewne zale» od ich dochodów, w pewnej mierze masa ciaªa mo»e zale»e od wzrostu, kolor oczu dziecka (który jest cech dziedziczn ) zale»y od koloru oczu rodzica itp. Natomiast masa ciaªa danej osoby oraz liczba jej dzieci z pewno±ci nie b d wykazywaªy»adnej zale»no±ci. Badanie wspóªzale»no±ci cech rozdzielimy na dwa przypadki: w pierwszym z nich obie cechy b d mierzalne, a w drugim przynajmniej jedna cecha b dzie niemierzalna. 3.1 Badanie wspóªzale»no±ci cech mierzalnych Zaªó»my,»e dana jest nelementowa próba, w której bada si dwie cechy mierzalne umownie oznaczone przez X, Y. Niech x 1, x 2,..., x n b d warto±ciami cechy X, a y 1, y 2,..., y n warto±ciami cechy Y. Aby dostrzec mo»liw wspóªzale»no± obu cech, zaznaczamy w ukªadzie wspóªrz dnych punkty (x i, y i ), gdzie i = 1, 2,..., n. Y Y Y Brak korelacji X X Korelacja dodatnia X Korelacja ujemna 46

3.1. Badanie wspóªzale»no±ci cech mierzalnych Na powy»szym rysunku wida po lewej stronie cechy nieskorelowane ukªad punktów nie wykazuje jakiej± regularno±ci. Natomiast po±rodku i po prawej stronie mo»na zauwa»y wyra¹n regularno± ukªadu punktów: skupiaj si one wokóª pewnych linii prostych. Cechy zobrazowane na tych rysunkach s niew tpliwie skorelowane: cecha Y zale»y od cechy X. Na rysunku ±rodkowym zale»no± ma kierunek dodatni (wraz ze wzrostem warto±ci cechy X nast puje wzrost warto±ci cechy Y). Zale»no± na prawym rysunku ma charakter ujemny (wraz ze wzrostem warto±ci cechy X nast puje spadek warto±ci cechy Y). Przyjmijmy nast puj ce oznaczenia: x ±rednia arytmetyczna cechy X, y ±rednia arytmetyczna cechy Y, s X odchylenie standardowe cechy X, s Y odchylenie standardowe cechy Y. Kowariancj cech X i Y nazywamy wielko± (12) cov(x, Y) = 1 n 1 Wspóªczynnik korelacji (x i x)(y i y). Wspóªczynnikiem korelacji cech X i Y nazywamy liczb r = cov(x, Y) s X s Y. W praktyce u»ywa si wzoru równowa»nego (13) r = (x i x)(y i y) (x i x) 2. (y i y) 2 Je±li r > 0, to ewentualna zale»no± cech X i Y ma kierunek dodatni (wzrostowi warto±ci cechy X towarzyszy wzrost warto±ci cechy Y), a je±li r < 0, to ujemny. (wzrostowi warto±ci cechy X towarzyszy spadek warto±ci cechy Y). Wªasno±ci wspóªczynnika korelacji 1. Liczba r speªnia nierówno± 1 r 1. 47

3.1. Badanie wspóªzale»no±ci cech mierzalnych Obliczenia przeprowadzimy w tabeli. i x i y i x i x y i y (x i x) 2 (y i y) 2 (x i x)(y i y) 1 2 1 0,3 0,5 0,09 0,25 0,15 2 1 2 0,7 0,5 0,49 0,25 0,35 3 1 2 0,7 0,5 0,49 0,25 0,35 4 0 2 1,7 0,5 2,89 0,25 0,85 5 4 1 2,3 0,5 5,29 0,25 1,15 6 2 2 0,3 0,5 0,09 0,25 0,15 7 3 1 1,3 0,5 1,69 0,25 0,65 8 1 0 0,7 1,5 0,49 2,25 1,05 9 0 1 1,7 0,5 2,89 0,25 0,85 10 3 3 1,3 1,5 1,69 2,25 1,95 Razem 16,10 6,50 0,50 Obliczamy wspóªczynnik korelacji wedªug wzoru (13) (str. 47): r = (x i x)(y i y) (x i x) 2 = (y i y) 2 0,50 16,10 6,50 = 0,049. Warto± wspóªczynnika r jest bardzo bliska zeru. Dlatego badane cechy s praktycznie nieskorelowane. Rozwi zanie w ±rodowisku R. > kawa=c(2,1,1,0,4,2,3,1,0,3) > dzieci=c(1,2,2,2,1,2,1,0,1,3) > r=cor(kawa,dzieci) > # Wspóªczynnik korelacji liniowej Pearsona > r [1] 0.04887653 Przykªad 3.2. Poni»sze dane dotycz miesi cznych dochodów i wydatków dziesi ciu wybranych gospodarstw domowych. Dochód w tys. zª 2,0 2,2 2,3 2,6 2,9 3,0 3,2 3,5 4,0 5,0 Wydatki w tys. zª 1,8 1,7 2,0 2,3 2,4 2,3 3,0 3,0 3,5 4,0 Zbada czy cechy te s skorelowane. 49

3. Statystyka opisowa dwóch zmiennych zmiennych b dzie obja±niana, a która obja±niaj ca, decyduj intuicja i zdrowy rozs - dek. Mówi c np. o dochodach i wydatkach, to raczej wydatki zale» od dochodów, a nie na odwrót. Dysponujemy jakim± dochodem i w zale»no±ci od niego projektujemy nasze wydatki. Je±li X jest zmienn czasow, to zamiast o regresji mówimy o trendzie liniowym. Pisz c t zamiast X otrzymujemy równanie trendu liniowego o postaci gdzie t oznacza czas. Y = at + b, Parametry strukturalne modelu regresji liniowej Parametry strukturalne a, b prostej regresji (15) wyznaczamy wedªug wzorów (16) a = cov(x, Y) s 2 X, b = y ax. W praktyce u»ywa si wzoru równowa»nego (x i x)(y i y) a =. (x i x) 2 Przykªad 3.3. Jak widzieli±my w Przykªadzie 3.2 (str. 49), wspóªczynnik korelacji r pomi dzy dochodami X a wydatkami Y byª bardzo bliski 1 (r = 0,975). Mo»na wi c powiedzie,»e wydatki badanych gospodarstw domowych zale» od ich dochodów (zob. te» rysunek na str. 50). Wyznaczymy parametry strukturalne a, b modelu regresji. Wszystkie potrzebne dane zawiera tabela w Przykªadzie 3.2 (str. 50). a = (x i x)(y i y) = (x i x) 2 6,060 7,5410 = 0,804, b = y ax = 2,60 0,804 3,07 = 0,132. Dlatego równanie prostej regresji ma posta Y = 0,804X + 0,132. Wzór ten opisuje w przybli»ony sposób zale»no± wydatków od dochodów w badanych gospodarstwach domowych. Prost regresji przedstawia poni»szy rysunek. 52

3.2. Badanie dwóch cech mierzalnych skorelowanych liniowo Wydatki 4 3 2 1 1 2 3 4 5 Dochody Na podstawie równania regresji mo»na przewidywa warto±ci zmiennej obja±nianej na podstawie warto±ci zmiennej obja±niaj cej. Mowa tu o prognozowaniu. Gdyby np. gospodarstwo domowe z badanej populacji osi gn ªo dochód 2,1 tys. zª, to jego wydatki mo»na okre±li na poziomie Y = 0,804X + 0,132 = 0,804 2,1 + 0,132 = 1,8204 1,8 tys. zª. Na zako«czenie wyznaczymy równanie prostej regresji liniowej w ±rodowisku R. > dochody=c(2.0,2.2,2.3,2.6,2.9,3.0,3.2,3.5,4.0,5.0) > wydatki=c(1.8,1.7,2.0,2.3,2.4,2.3,3.0,3.0,3.5,4.0) > a=cov(dochody,wydatki)/var(dochody) > b=mean(wydatki)-a*mean(dochody) > # Równanie prostej regresji > # Wspóªczynnik a > a [1] 0.8036069 > # Wspóªczynnik b > b [1] 0.1329267 Do wyznaczania równania regresji mo»na te» u»y specjalnej funkcji. > lm(wydatki~dochody) Call: lm(formula = wydatki ~ dochody) Coefficients: 53

4 Zbiór zada«zadania Zadanie 1. W pewnym mie±cie przez 50 kolejnych dni notowano liczb kolizji drogowych otrzymuj c dane: 2, 1, 1, 4, 2, 3, 2, 0, 5, 0, 0, 0, 0, 1, 2, 0, 2, 1, 1, 2, 1, 2, 2, 1, 1, 3, 0, 0, 2, 2, 0, 3, 0, 1, 1, 1, 3, 2, 1, 4, 2, 0, 1, 1, 1, 0, 1, 0, 1, 0. a) Zbudowa na podstawie powy»szych danych szereg punktowy. b) Obliczy ±redni arytmetyczn, median i dominant. c) Obliczy kwartyle oraz decyle. d) Obliczy odchylenie standardowe. e) Wyznaczy przedziaª typowych warto±ci cechy. f) Obliczy klasyczny wspóªczynnik zmienno±ci, wspóªczynnik sko±no±ci oraz klasyczny wspóªczynnik asymetrii. Zadanie 2. Zmierzono wzrost 80 studentek pewnego kierunku i otrzymano dane: 169, 153, 148, 154, 170, 157, 175, 159, 160, 165, 156, 160, 151, 174, 169, 186, 170, 159, 161, 173, 163, 164, 159, 158, 169, 155, 159, 148, 163, 161, 171, 171, 167, 180, 183, 162, 163, 177, 166, 159, 172, 162, 172, 161, 145, 162, 168, 155, 145, 154, 153, 167, 166, 153, 179, 162, 163, 162, 166, 168, 165, 163, 161, 177, 170, 149, 160, 164, 148, 154, 161, 172, 163, 149, 159, 155, 171, 156, 170, 154. Zbudowa na ich podstawie szereg przedziaªowy oraz wykona polecenia b)f) z Zadania 1. 68