Materał do wkładu 7 ze Statstk Aalza ZALEŻNOŚCI pomędz CECHAMI (Aalza KORELACJI REGRESJI) korelacj wkres rozrzutu (korelogram) rodzaje zależośc (brak, elowa, lowa) pomar sł zależośc lowej (współczk korelacj Pearsoa, współczk korelacj rag Spearmaa) lowa fukcja regresj Badam jedostk statstcze pod kątem dwóch różch cech - cech X oraz cech Y. Ptae jake sobe stawam to: cz steje zależość pomędz cechą X cechą Y? Jeżel taka zależość steje, to poszukujem odpowedz a koleje ptaa: jak jest charakter tej zależośc oraz jaka jest jej sła? Zależość korelacja pomędz cecham X Y charakterzuje sę tm, że wartoścom jedej cech są przporządkowae ścśle określoe wartośc średe drugej cech. Iformacja statstcza ezbęda do zbadaa zależośc pomędz cecham X Y przjmuje ajczęścej 2 form: szereg() szczegółow par formacj o cechach X oraz Y; ma o postać cągu par { (x, ) }, szereg rozdzelcz w postac tzw. tablc korelacjej.
Materał do wkładu 7 ze Statstk Korelacj wkres rozrzutu KORELOGRAM Jeżel obe cech X Y są merzale, to aalzę zależośc rozpoczam od sporządzea korelogrmamu. Korelogram jest to wkres puktow par { (x, ) }. (Excel azwa tak wkres: wkresem XY ). W kartezjańskm układze współrzędch x0 par te odpowadają puktom o współrzędch ( x )( x ) L ( ) x PRZYKŁADY korelogramów (każd pukt ozaczoo x) (a) (b) (c) (d)
Materał do wkładu 7 ze Statstk Jeżel otrzmam bezład zbór puktów, któr e przpoma kształtem wkresu zaego zwązku fukcjego, to powem że pomędz cecham X Y e ma zależośc. Ilustruje to rsuek (a). Na rsuku (b) wdać, że smuga puktów układa sę w kształt parabol. Powem zatem, że steje zależość pomędz cecham X Y jest to zwązek elow; zależość elowa. Na rsukach (c) (d) smuga puktów układa sę wzdłuż l prostej. Powem zatem, że steje zależość pomędz cecham X Y jest to zwązek low; zależość lowa. Rsuk (e) (f) lustrują przpadk błędów we woskowau o zależośc cech X Y a podstawe korelogramu. Rsuek (e) za mało dach. Zebrao dae (pukt obwedzoe kwadratem) z korelogramu wka brak zależośc. W rzeczwstośc jest zależość lowa. Rsuek (f) etpowe dae. Trz ostate pukt (odseparowae) to dae etpowe. Sugerują zależość elową (parabola). Po odrzuceu tch etpowch formacj wdać, że jest wraźa zależość lowa. (e) (f)
Materał do wkładu 7 ze Statstk Pomar KIERUNKU SIŁY zależośc lowej Szereg szczegółowe WSPÓŁCZYNNIK KORELACJI (Pearsoa) Współczk korelacj (Pearsoa) r x oblczam dla cech loścowch wg astępującego wzoru: r x C s ( X Y) gdze: C(X,Y) kowaracja pomędz cecham X Y s x (s ) odchlee stadardowe cech X (cech Y) Kowaracja jest kluczowm parametrem rozkładu dwóch cech w badau zależośc cech loścowch X Y. Wlcza sę ją wg astępującego wzoru (dla szeregu(ów) szczegółowego): C ( X Y) ( x )( ) x Współczk korelacj (Pearsoa) r x speła zawsze waruek: x s r x Współczk korelacj (Pearsoa) jest marą smetrczą, tz. r x r x
Materał do wkładu 7 ze Statstk INTERPRETACJA współczka korelacj r x Zak współczka r x mów am o keruku zależośc. I tak: zak plus zależość lowa dodata, tz. wraz ze wzrostem wartośc jedej cech rosą średe wartośc drugej z cech, zak mus zależość lowa ujema, tz. wraz ze wzrostem wartośc jedej cech maleją średe wartośc drugej z cech. Wartość bezwzględa współczka korelacj, czl r x, mów am o sle zależośc. Jeżel wartość bezwzględa r x : jest mejsza od 0,2, to praktcze brak zwązku lowego pomędz badam cecham, 0,2 0,4 - zależość lowa wraźa, lecz ska, 0,4 0,7 - zależość lowa umarkowaa, 0,7 0,9 - zależość lowa zacząca, powżej 0,9 - zależość lowa bardzo sla. PRZYKŁAD 1 W grupe 7 studetów badao zależość pomędz oceą z egzamu ze statstk (Y), a lczbą d pośwęcoch a aukę (X). r studeta ocea z egzamu (Y) lczba d auk (X) x 1 2,0 5 2 2,5 13 3 2,5 16 4 4,0 28 5 5,0 42 6 3,0 16 7 2,0 6
Sporządzam korelogram. Materał do wkładu 7 ze Statstk 6,0 5,0 ocea (Y ) 4,0 3,0 2,0 1,0 0,0 0 5 10 15 20 25 30 35 40 45 d auk (X ) Wdać tutaj wraźą zależość lową (dodatą). Oblczam współczk korelacj (Pearsoa). UWAGA! Lczebość populacj jest mała (7). Użjem tak małego przkładu tlko dlatego, ab sprawe zlustrować procedurę lczea. Oblczae średch, waracj oraz kowaracj. x ( ) ( x x) 1 2,0 5-1,0-13 1,00 169 13,0 2 2,5 13-0,5-5 0,25 25 2,5 3 2,5 16-0,5-2 0,25 4 1,0 4 4,0 28 1,0 10 1,00 100 10,0 5 5,0 42 2,0 24 4,00 576 48,0 6 3,0 16 0,0-2 0,00 4 0,0 7 2,0 6-1,0-12 1,00 144 12,0 razem 21,0 126 x x 7,50 1022 86,5 x
Materał do wkładu 7 ze Statstk s x s s s x C ( X Y) Współczk korelacj (Pearsoa) wos dla dach z przkładu 1: r x C ( X Y) s x s + INTERPRETACJA W badaej grupe studetów wstąpła bardzo sla dodata (zak plus) zależość lowa pomędz czasem auk (cecha X), a uzskaą oceą z egzamu (cecha Y). Ozacza to, że wraz ze wzrostem czasu pośwęcoego a aukę rosła w tej grupe uzskwaa ocea.
Materał do wkładu 7 ze Statstk WSPÓŁCZYNNIK KORELACJI RANG (Spearmaa) Współczk korelacj rag (Spearmaa) r S użwam w przpadku gd: 1. choć jeda z badach cech jest cechą jakoścową (emerzalą), ale steje możlwość uporządkowaa (poumerowaa) waratów każdej z cech; 2. cech mają charakter loścow (merzal), ale lczebość zborowośc jest mała (<30). Numer jake adajem waratom cech oszą azwę rag. UWAGA! W procese adawaa rag stmulat porządkujem malejąco, a destmulat rosąco. UWAGA! W procese adawaa rag może zdarzć sę węcej ż 1 jedostka o takej samej wartośc cech (p. k jedostek). Wówczas ależ a chwlę adać tm jedostkom koleje rag. Następe ależ zsumować take rag podzelć przez k (otrzmam w te sposób średą ragę dla tej grup k jedostek). W ostateczośc każda jedostka z tch k jedostek otrzma detczą ragę (średą dla daej grup k jedostek). Współczk korelacj rag (Spearmaa) r S wzaczam wg astępującego wzoru: r S d ( ) d różca pomędz ragam dla cech X cech Y
Materał do wkładu 7 ze Statstk Współczk korelacj rag (Spearmaa) r S speła zawsze waruek: r S INTERPRETACJA Aalogcza jak dla współczka korelacj (Pearsoa). PRZYKŁAD 2 Dla dach z przkładu 1 oblczea współczka korelacj rag (Spearmaa) są astępujące: x rag cech Y rag cech X d d 1 2,0 5 6,5 7 0,5 0,25 2 2,5 13 4,5 5 0,5 0,25 3 2,5 16 4,5 3,5-1,0 1,00 4 4,0 28 2 2 0,0 0,00 5 5,0 42 1 1 0,0 0,00 6 3,0 16 3 3,5 0,5 0,25 7 2,0 6 6,5 6-0,5 0,25 razem x x x x x 2,00 r S d ( ) ( ) + Wartość współczka korelacj rag (Spearmaa) potwerdza bardzo slą, dodatą (zak plus) zależość pomędz czasem auk (X), a uzskaą oceą (Y).
Materał do wkładu 7 ze Statstk Pomar KIERUNKU SIŁY zależośc lowej Szereg rozdzelcze TABLICA KORELACYJNA Schemat tablc korelacjej Warat cech X Warat cech Y ( j ) (x ) 1 1 s (razem) x 1 11 12 1s 1 x 2 21 22 2s 2 x r r1 r2 rs r (razem) j 1 2 s Ozaczea: j - lczba jedostek, która charakterzuje sę wartoścą x cech X oraz wartoścą j cech Y - lczba jedostek, która charakterzuje sę wartoścą x cech X j s j - lczba jedostek, która charakterzuje sę wartoścą j cech Y - lczebość populacj r s j j r j j j r s j j
Materał do wkładu 7 ze Statstk PRZYKŁAD 3 Podobe jak w przkładze 1 zbadam zależość pomędz czasem auk (X), a uzskaą oceą (Y). W tablc korelacjej zestawoo formację o 400 studetach (400). Ocea Czas auk (X) w dach (Y) 0-7 7-14 14-21 21-28 2 80 80 3 10 80 90 3,5 60 10 70 4 20 30 50 4,5 50 10 60 5 50 50 j 90 160 90 60 400 Oblczam osobo dla każdej z cech: średe, waracje odchlea stadardowe. Ocea Czas auk (X) (a) (Y) 0-7 7-14 14-21 21-28 (b) (c) (b)*(b) (d) (c)*(a) 2 80 80 160-1,5 2,25 180 3 10 80 90 270-0,5 0,25 22,5 3,5 60 10 70 245 0 0 0 4 20 30 50 200 0,5 0,25 12,5 4,5 50 10 60 270 1 1 60 5 50 50 250 1,5 2,25 112,5 j 90 160 90 60 400 1395 x x 387,5 x& j 3,5 10,5 17,5 24,5 x x x x x x & j j 315 1680 1575 1470 5040 x x x x x& j x -9,1-2,1 4,9 11,9 x x x x x ( x& j x) 82,81 4,41 24,01 141,61 x x x x x ( x j x) j & 7452,9 705,6 2160,9 8496,6 18816 x x x x
Materał do wkładu 7 ze Statstk x s x s s x s Przechodzm do oblczaa kowaracj C(X,Y). ( )( ) Na początek polczm wszstke locz x& j x x& j x -9,1-2,1 4,9 11,9-1,5 13,65 3,15-7,35-17,85-0,5 4,55 1,05-2,45-5,95 0 0 0 0 0 0,5-4,55-1,05 2,45 5,95 1-9,1-2,1 4,9 11,9 1,5-13,65-3,15 7,35 17,85 Wkorzstam tabelę początkową: Ocea (Y) Czas auk (X) w dach 0-7 7-14 14-21 21-28 2 80 0 0 0 3 10 80 0 0 3,5 0 60 10 0 4 0 20 30 0 4,5 0 0 50 10 5 0 0 0 50
Materał do wkładu 7 ze Statstk x ( )( ) polczm wszstke locz j j x& x& j x -9,1-2,1 4,9 11,9 razem -1,5 1092 0 0 0 1092-0,5 45,5 84 0 0 129,5 0 0 0 0 0 0 0,5 0-21 73,5 0 52,5 1 0 0 245 119 364 1,5 0 0 0 892,5 892,5 razem 1137,5 63 318,5 1011,5 2530,5 Zatem kowaracja wos: C ( X Y) Współczk korelacj (Pearsoa) wos dla dach z przkładu 3: r x C ( X Y) s x s + INTERPRETACJA W badaej grupe 400 studetów wstąpła bardzo sla dodata (zak plus) zależość lowa pomędz czasem auk (cecha X), a uzskaą oceą z egzamu (cecha Y).
Materał do wkładu 7 ze Statstk Ie mar zależośc wlczale a podstawe tablc korelacjej Obok współczka korelacj Persoa stosowae są e mar zależośc pomędz cechą Y cechą X. Są to: Stosuek korelacj (e x ) Mar oparte a ch-kwadrat (χ 2 ) Stosuek korelacj Mara ta jest oparta a spostrzeżeu, że prz braku zależośc średe pozom cech Y wewątrz grup (klas) pokrwają sę ze średą ogólą cech Y. Mara ta speła waruk < e x < rx e x Warukem polczea stosuku korelacj jest merzalość cech Y. Jest to mara zalecaa w przpadku badaa zależośc dla zwązków elowch. Mar oparte a ch-kwadrat Mar te oparte są a badau różc pomędz lczeboścam emprczm a lczeboścam teoretczm, które wlczae są prz założeu ezależośc cech Y cech X. Do tej grup ależą współczk (por. wkład 10): C Persoa Q Yule a T Czuprowa V - Cramera
Materał do wkładu 7 ze Statstk REGRESJA PROSTA Ważm uzupełeem zagadea badaa keruku sł zależośc pomędz cecham X Y jest aalza regresj. Przez aalzę regresj rozumem metodę badaa wpłwu zmech uzach za ezależe (przcz) a zmeą uzaa za zależą (skutek). Jeżel w aalze uwzględm tlko 1 zmeą ezależą, to mówm o REGRESJI PROSTEJ. Cecha X (zmea ezależa) - przcza. Cecha Y (zmea zależa) - skutek. Przpadek wększej lczb zmech ezależch będze rozwęt w przedmoce Ekoometra (dla słuchacz keruku Zarządzae). Podstawowm arzędzem badaa jest tutaj fukcja regresj. Rozważm tlko przpadek zależośc lowej dla regresj prostej. Narzędzem będze zatem fukcja regresj postac: ax + - teoretcza wartość zmeej zależej (Y) x - emprcza wartość zmeej ezależej (X) a współczk regresj (współczk kerukow) INTERPRETACJA: jeżel wartość zmeej ezależej X wzrośe o jedostkę, to wartość zmeej zależej Y : wzrośe (jeżel a>0) o a jedostek lub spade (jeżel a<0) o a jedostek. b wraz wol INTERPRETACJA: stał pozom wartośc zmeej zależej Y ezależ od zma wartośc zmeej ezależej X. Uwaga! Iterpretacja wrazu wolego e zawsze ma ses ekoomcz. b
Materał do wkładu 7 ze Statstk Zauważm, że lowa fukcja tredu (omówoa w wkładze 6) t at+ b może bć róweż traktowaa jako lowa fukcja regresj prostej. Zmea zależa Y opsuje tam pozom badaego zjawska Y. Zmeą ezależą X jest tam czas (zmea czasowa t). W efekce podstawając x zamast t oraz zmeając wskaźk t a wskaźk otrzmam fukcję regresj ax + b W owm układze fukcja tredu może bć traktowaa jako fukcja regresj Y względem czasu t. Szacowae parametrów a b fukcj regresj a b C ( X Y) s x ax PRZYKŁAD 4 Dla dach z przkładu 1 szacowae parametrów fukcj regresj przebega astępująco: x x C( X Y) a b s x ax s C ( X Y) Fukcja regresj w przkładze 1 ma węc postać: x +
INTERPRETACJA: współczk regresj (a0,085 > 0) - jeżel lczba d auk wzrośe o jedostkę (o 1 dzeń), to ocea z egzamu wzrośe o 0,085 (aczej: każd dzeń auk podos średo oceę o 0,085) wraz wol (b1,47) - stał, ezależ od lczb d auk (x0) pozom uzskaej oce z egzamu to 1,47 (pożej edostateczej) Materał do wkładu 7 ze Statstk Otrzmaą fukcję regresj, wkreśloą a korelograme pokazao a rsuku: 6,0 5,0 ocea (Y ) 4,0 3,0 2,0 0,085x + 1,47 R 2 0,976 1,0 0,0 0 5 10 15 20 25 30 35 40 45 d auk (X ) Wkorzstae fukcj regresj do progozowaa Słuchacz o umerze 8 (przpomjm, że badae przeprowadzoo dla 7 studetów) pośwęcł a aukę 20 d (x 8 20). Jakej oce może spodzewać sę (średo) prz takm akładze czasu a aukę? x + + Pośwęcając 20 d a aukę słuchacz może spodzewać sę (średo!!!) oce 3,17 czl dst+.
Materał do wkładu 7 ze Statstk Ocea dopasowaa fukcj regresj do dach emprczch Problem oce dopasowaa bł już częścowo omawa (wkład 6) prz okazj aaltczego wgładzaa szeregu czasowego za pomocą lowej fukcj tredu. Podstawowm maram dobroc dopasowaa l regresj do dach emprczch są: współczk zbeżośc (ϕ 2 ) współczk determacj (R 2 ) śred błąd szacuku (perwastek z tzw. waracj resztowej) Współczk zbeżośc (ϕ 2 ): ϕ ( ) ( ) gdze ϕ Im ϕ 2 jest blższ 0, tm dopasowae jest lepsze. Współczk determacj (R 2 ): R ϕ gdze R Prz zależośc lowej moża go wzaczć róweż jako: R r x lub R rx Im R 2 jest blższ 1, tm dopasowae jest lepsze.
Śred błąd szacuku (S e ): Materał do wkładu 7 ze Statstk S e S e ( ) k gdze: k lczba szacowach parametrów fukcj regresj (tutaj k2; szacujem dwa parametr: a b ) Jest to perwastek z waracj resztowej (S e 2 ). Nazwa berze sę od reszt (e ), którą defuje sę jako: różcę pomędz wartoścą emprczą, a wartoścą teoretczą cech zależej Y: PRZYKŁAD 5 e Ocea dopasowaa fukcj regresj dla dach z przkładu 1. x + x ( ) ( ) ( ) ( ) 1 2,0 5 1,90-1,0 0,10 1,00 0,0100 2 2,5 13 2,58-0,5-0,08 0,25 0,0064 3 2,5 16 2,83-0,5-0,33 0,25 0,1089 4 4,0 28 3,85 1,0 0,15 1,00 0,0225 5 5,0 42 5,04 2,0-0,04 4,00 0,0016 6 3,0 16 2,83 0,0 0,17 0,00 0,0289 7 2,0 6 1,98-1,0 0,02 1,00 0,0004 razem x x x x x 7,50 0,1787
Współczk zbeżośc ϕ Współczk determacj R lub wg ego wzoru R ( ) ( ) ϕ r x ( ) Materał do wkładu 7 ze Statstk Uwaga! Różce w wartośc współczka determacj wkają z błędów zaokrągleń a etape lczea współczków: zbeżośc korelacj Śred błąd szacuku S e ( ) k W celu wrobea sobe poglądu t. welkośc tego błędu odesem go średego pozomu cech Y: S e Uwaga! Ne moża użć zaego współczka zmeośc (V x ) poeważ średa wartość reszt jest teoretcze rówa 0. Wstąpłob zatem dzelee przez zero. PODSUMOWANIE (przkład 5) Wszstke polczoe mar dopasowaa potwerdzają bardzo dobre dopasowae fukcj regresj do dach emprczch.
PRZYKŁAD 6 Na zakończee wzaczm fukcję regresj dla dach z przkładu 3. Badau poddao tam 400 studetów. Wcześej otrzmalśm tam: Materał do wkładu 7 ze Statstk x s C ( X Y) r x x Parametr fukcj regresj woszą: a C b ax ( X Y) s x Fukcja regresj w przkładze 3 ma postać: x + Dobroć dopasowaa do dach emprczch merzoa współczkem determacj wos: R r x ( ) Powższa fukcja regresj w 88,7% objaśa kształtowae sę oce z egzamu (Y) w zależośc od czasu auk (X). WYKORZYSTANIE fukcj regresj do PROGNOZY oce. Słuchacz o umerze 401 pośwęcł a aukę 20 d (x 401 20). Jakej oce może sę spodzewać (średo)? x + Pośwęcając 20 d a aukę słuchacz może spodzewać sę (średo!!!) oce 4,499 czl db+. +