D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [] Aalza ZALEśNOŚCI pomędz CECHAMI (Aalza KORELACJI REGRESJI) korelacj wkres rozrzutu (korelogram) rodzaje zaleŝośc (brak, elowa, lowa) pomar sł zaleŝośc lowej (współczk korelacj Pearsoa, współczk korelacj rag Spearmaa) lowa fukcja regresj Badam jedostk statstcze pod kątem dwóch róŝch cech - cech X oraz cech Y. Ptae jake sobe stawam to: cz steje zaleŝość pomędz cechą X cechą Y? JeŜel taka zaleŝość steje, to poszukujem odpowedz a koleje ptaa: jak jest charakter tej zaleŝośc oraz jaka jest jej sła? ZaleŜość korelacja pomędz cecham X Y charakterzuje sę tm, Ŝe wartoścom jedej cech są przporządkowae ścśle określoe wartośc średe drugej cech. Iformacja statstcza ezbęda do zbadaa zaleŝośc pomędz cecham X Y przjmuje ajczęścej form: szereg() szczegółow par formacj o cechach X oraz Y; ma o postać cągu par { (x, ) }, szereg rozdzelcz w postac tzw. tablc korelacjej.
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [] Korelacj wkres rozrzutu KORELOGRAM JeŜel obe cech X Y są merzale, to aalzę zaleŝośc rozpoczam od sporządzea korelogrmamu. Korelogram jest to wkres puktow par { (x, ) }. (Excel azwa tak wkres: wkresem XY ). W kartezjańskm układze współrzędch x0 par te odpowadają puktom o współrzędch ( x, ), ( x, ),, ( x, ) L PRZYKŁADY korelogramów (kaŝd pukt ozaczoo x) (a) (b) (c) (d)
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [3] JeŜel otrzmam bezład zbór puktów, któr e przpoma kształtem wkresu zaego zwązku fukcjego, to powem Ŝe pomędz cecham X Y e ma zaleŝośc. Ilustruje to rsuek (a). Na rsuku (b) wdać, Ŝe smuga puktów układa sę w kształt parabol. Powem zatem, Ŝe steje zaleŝość pomędz cecham X Y jest to zwązek elow; zaleŝość elowa. Na rsukach (c) (d) smuga puktów układa sę wzdłuŝ l prostej. Powem zatem, Ŝe steje zaleŝość pomędz cecham X Y jest to zwązek low; zaleŝość lowa. Rsuk (e) (f) lustrują przpadk błędów we woskowau o zaleŝośc cech X Y a podstawe korelogramu. Rsuek (e) za mało dach. Zebrao dae (pukt obwedzoe kwadratem) z korelogramu wka brak zaleŝośc. W rzeczwstośc jest zaleŝość lowa. Rsuek (f) etpowe dae. Trz ostate pukt (odseparowae) to dae etpowe. Sugerują zaleŝość elową (parabola). Po odrzuceu tch etpowch formacj wdać, Ŝe jest wraźa zaleŝość lowa. (e) (f)
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [4] Pomar KIERUNKU SIŁY zaleŝośc lowej Szereg szczegółowe WSPÓŁCZYNNIK KORELACJI (Pearsoa) Współczk korelacj (Pearsoa) r x oblczam dla cech loścowch wg astępującego wzoru: r x C s ( X, Y ) gdze: C(X,Y) kowaracja pomędz cecham X Y s x (s ) odchlee stadardowe cech X (cech Y) Kowaracja jest kluczowm parametrem rozkładu dwóch cech w badau zaleŝośc cech loścowch X Y. Wlcza sę ją wg astępującego wzoru (dla szeregu(ów) szczegółowego): C ( X, Y ) ( x )( ) x Współczk korelacj (Pearsoa) r x speła zawsze waruek: x s r Współczk korelacj (Pearsoa) jest marą smetrczą, tz. r x x r x
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [5] INTERPRETACJA współczka korelacj r x Zak współczka r x mów am o keruku zaleŝośc. I tak: zak plus zaleŝość lowa dodata, tz. wraz ze wzrostem wartośc jedej cech rosą średe wartośc drugej z cech, zak mus zaleŝość lowa ujema, tz. wraz ze wzrostem wartośc jedej cech maleją średe wartośc drugej z cech. Wartość bezwzględa współczka korelacj, czl r x, mów am o sle zaleŝośc. JeŜel wartość bezwzględa r x : jest mejsza od 0,, to praktcze brak zwązku lowego pomędz badam cecham, 0, 0,4 - zaleŝość lowa wraźa, lecz ska, 0,4 0,7 - zaleŝość lowa umarkowaa, 0,7 0,9 - zaleŝość lowa zacząca, powŝej 0,9 - zaleŝość lowa bardzo sla. PRZYKŁAD W grupe 7 studetów badao zaleŝość pomędz oceą z egzamu ze statstk (Y), a lczbą d pośwęcoch a aukę (X). r studeta ocea z egzamu (Y) lczba d auk (X) x,0 5,5 3 3,5 6 4 4,0 8 5 5,0 4 6 3,0 6 7,0 6
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [6] Sporządzam korelogram. 6,0 5,0 ocea (Y ) 4,0 3,0,0,0 0,0 0 5 0 5 0 5 30 35 40 45 d auk (X ) Wdać tutaj wraźą zaleŝość lową (dodatą). Oblczam współczk korelacj (Pearsoa). UWAGA! Lczebość populacj jest mała (7). UŜjem tak małego przkładu tlko dlatego, ab sprawe zlustrować procedurę lczea. Oblczae średch, waracj oraz kowaracj. () () (3) (4) (5) (6) (7) (8) x ( ) ( x) x (4)*(4) (5)*(5) (4)*(5),0 5 -,0-3,00 69 3,0,5 3-0,5-5 0,5 5,5 3,5 6-0,5-0,5 4,0 4 4,0 8,0 0,00 00 0,0 5 5,0 4,0 4 4,00 576 48,0 6 3,0 6 0,0-0,00 4 0,0 7,0 6 -,0 -,00 44,0 razem,0 6 x x 7,50 0 86,5 7 6 x 8 3 7 7
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [7] 0 7,5 sx 46 s, 07 7 7 s 46,08 s,07, 03 x C 86,5 7 ( X, Y ), 36 Współczk korelacj (Pearsoa) wos dla dach z przkładu : r x C ( X, Y ) s x s,36,08,03 + 0,993 INTERPRETACJA W badaej grupe studetów wstąpła bardzo sla dodata (zak plus) zaleŝość lowa pomędz czasem auk (cecha X), a uzskaą oceą z egzamu (cecha Y). Ozacza to, Ŝe wraz ze wzrostem czasu pośwęcoego a aukę rosła w tej grupe uzskwaa ocea.
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [8] WSPÓŁCZYNNIK KORELACJI RANG (Spearmaa) Współczk korelacj rag (Spearmaa) r S uŝwam w przpadku gd:. choć jeda z badach cech jest cechą jakoścową (emerzalą), ale steje moŝlwość uporządkowaa (poumerowaa) waratów kaŝdej z cech;. cech mają charakter loścow (merzal), ale lczebość zborowośc jest mała (<30). Numer jake adajem waratom cech oszą azwę rag. UWAGA! W procese adawaa rag stmulat porządkujem malejąco, a destmulat rosąco. UWAGA! W procese adawaa rag moŝe zdarzć sę węcej Ŝ jedostka o takej samej wartośc cech (p. k jedostek). Wówczas aleŝ a chwlę adać tm jedostkom koleje rag. Następe aleŝ zsumować take rag podzelć przez k (otrzmam w te sposób średą ragę dla tej grup k jedostek). W ostateczośc kaŝda jedostka z tch k jedostek otrzma detczą ragę (średą dla daej grup k jedostek). Współczk korelacj rag (Spearmaa) r S wzaczam wg astępującego wzoru: r S 6 d ( ) d róŝca pomędz ragam dla cech X cech Y
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [9] Współczk korelacj rag (Spearmaa) r S speła zawsze waruek: r INTERPRETACJA Aalogcza jak dla współczka korelacj (Pearsoa). PRZYKŁAD Dla dach z przkładu oblczea współczka korelacj rag (Spearmaa) są astępujące: () () (3) (4) (5) (6) (7) rag rag x d d cech Y cech X,0 5 6,5 7 0,5 0,5,5 3 4,5 5 0,5 0,5 3,5 6 4,5 3,5 -,0,00 4 4,0 8 0,0 0,00 5 5,0 4 0,0 0,00 6 3,0 6 3 3,5 0,5 0,5 7,0 6 6,5 6-0,5 0,5 razem x x x x x,00 S r S 6 d 6 ( ) 7( 7 ) + 0,964 Wartość współczka korelacj rag (Spearmaa) potwerdza bardzo slą, dodatą (zak plus) zaleŝość pomędz czasem auk (X), a uzskaą oceą (Y).
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [0] Pomar KIERUNKU SIŁY zaleŝośc lowej Szereg rozdzelcze TABLICA KORELACYJNA Schemat tablc korelacjej Warat cech X Warat cech Y ( j ) (x ) s (razem) x s x s x r r r rs r (razem) j s Ozaczea: j - lczba jedostek, która charakterzuje sę wartoścą x cech X oraz wartoścą j cech Y - lczba jedostek, która charakterzuje sę wartoścą x cech X j s j - lczba jedostek, która charakterzuje sę wartoścą j cech Y - lczebość populacj r s j j r j j j r s j j
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [] PRZYKŁAD 3 Podobe jak w przkładze zbadam zaleŝość pomędz czasem auk (X), a uzskaą oceą (Y). W tablc korelacjej zestawoo formację o 400 studetach (400). Ocea Czas auk (X) w dach (Y) 0-7 7-4 4 - - 8 80 80 3 0 80 90 3,5 60 0 70 4 0 30 50 4,5 50 0 60 5 50 50 j 90 60 90 60 400 Oblczam osobo dla kaŝdej z cech: średe, waracje odchlea stadardowe. Ocea Czas auk (X) (a) (Y) 0-7 7-4 4 - - 8 (b) (c) (b)*(b) (d) (c)*(a) 80 80 60 -,5,5 80 3 0 80 90 70-0,5 0,5,5 3,5 60 0 70 45 0 0 0 4 0 30 50 00 0,5 0,5,5 4,5 50 0 60 70 60 5 50 50 50,5,5,5 j 90 60 90 60 400 395 x x 387,5 x& j 3,5 0,5 7,5 4,5 x x x x x x & j j 35 680 575 470 5040 x x x x x& j x -9, -, 4,9,9 x x x x x ( x& ) j x 8,8 4,4 4,0 4,6 x x x x x ( x j x) j & 745,9 705,6 60,9 8496,6 886 x x x x
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [] 400 5040 395 x,6 3, 400 400 5 886 387,5 sx 47,04 s 0, 97 400 400 s 47,04 6,86 s 0,97 0, 98 x Przechodzm do oblczaa kowaracj C(X,Y). & : ( )( ) Na początek polczm wszstke locz x j x x& j x -9, -, 4,9,9 -,5 3,65 3,5-7,35-7,85-0,5 4,55,05 -,45-5,95 0 0 0 0 0 0,5-4,55 -,05,45 5,95-9, -, 4,9,9,5-3,65-3,5 7,35 7,85 Wkorzstam tabelę początkową: Ocea (Y) Czas auk (X) w dach 0-7 7-4 4 - - 8 80 0 0 0 3 0 80 0 0 3,5 0 60 0 0 4 0 0 30 0 4,5 0 0 50 0 5 0 0 0 50
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [3] x ( )( ) polczm wszstke locz j j x& x& j x -9, -, 4,9,9 razem -,5 09 0 0 0 09-0,5 45,5 84 0 0 9,5 0 0 0 0 0 0 0,5 0-73,5 0 5,5 0 0 45 9 364,5 0 0 0 89,5 89,5 razem 37,5 63 38,5 0,5 530,5 Zatem kowaracja wos: C 530,5 400 ( X, Y ) 6, 33 Współczk korelacj (Pearsoa) wos dla dach z przkładu 3: r x C ( X, Y ) s x s 6,33 6,86 0,98 + 0,94 INTERPRETACJA W badaej grupe 400 studetów wstąpła bardzo sla dodata (zak plus) zaleŝość lowa pomędz czasem auk (cecha X), a uzskaą oceą z egzamu (cecha Y).
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [4] Ie mar zaleŝośc wlczale a podstawe tablc korelacjej Obok współczka korelacj Persoa stosowae są e mar zaleŝośc pomędz cechą Y cechą X. Są to: Stosuek korelacj (e x ) Mar oparte a ch-kwadrat (χ ) Stosuek korelacj Mara ta jest oparta a spostrzeŝeu, Ŝe prz braku zaleŝośc średe pozom cech Y wewątrz grup (klas) pokrwają sę ze średą ogólą cech Y. Mara ta speła waruk 0 e < < x rx e x Warukem polczea stosuku korelacj jest merzalość cech Y. Jest to mara zalecaa w przpadku badaa zaleŝośc dla zwązków elowch. Mar oparte a ch-kwadrat Mar te oparte są a badau róŝc pomędz lczeboścam emprczm a lczeboścam teoretczm, które wlczae są prz załoŝeu ezaleŝośc cech Y cech X. Do tej grup aleŝą współczk (por. wkład 0): C Persoa Q Yule a T Czuprowa V - Cramera
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [5] REGRESJA PROSTA WaŜm uzupełeem zagadea badaa keruku sł zaleŝośc pomędz cecham X Y jest aalza regresj. Przez aalzę regresj rozumem metodę badaa wpłwu zmech uzach za ezaleŝe (przcz) a zmeą uzaa za zaleŝą (skutek). JeŜel w aalze uwzględm tlko zmeą ezaleŝą, to mówm o REGRESJI PROSTEJ. Cecha X (zmea ezaleŝa) - przcza. Cecha Y (zmea zaleŝa) - skutek. Przpadek wększej lczb zmech ezaleŝch będze rozwęt w przedmoce Ekoometra (dla słuchacz keruku Zarządzae). Podstawowm arzędzem badaa jest tutaj fukcja regresj. RozwaŜm tlko przpadek zaleŝośc lowej dla regresj prostej. Narzędzem będze zatem fukcja regresj postac: ˆ ax + ŷ - teoretcza wartość zmeej zaleŝej (Y) x - emprcza wartość zmeej ezaleŝej (X) a współczk regresj (współczk kerukow) INTERPRETACJA: jeŝel wartość zmeej ezaleŝej X wzrośe o jedostkę, to wartość zmeej zaleŝej Y : wzrośe (jeŝel a>0) o a jedostek lub spade (jeŝel a<0) o a jedostek. b wraz wol INTERPRETACJA: stał pozom wartośc zmeej zaleŝej Y ezaleŝ od zma wartośc zmeej ezaleŝej X. Uwaga! Iterpretacja wrazu wolego e zawsze ma ses ekoomcz. b
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [6] ZauwaŜm, Ŝe lowa fukcja tredu (omówoa w wkładze 6) ˆ t at + b moŝe bć róweŝ traktowaa jako lowa fukcja regresj prostej. Zmea zaleŝa Y opsuje tam pozom badaego zjawska Y. Zmeą ezaleŝą X jest tam czas (zmea czasowa t). W efekce podstawając x zamast t oraz zmeając wskaźk t a wskaźk otrzmam fukcję regresj ˆ ax + b W owm układze fukcja tredu moŝe bć traktowaa jako fukcja regresj Y względem czasu t. Szacowae parametrów a b fukcj regresj a b C ( X, Y ) s x ax PRZYKŁAD 4 Dla dach z przkładu szacowae parametrów fukcj regresj przebega astępująco: 46 x 8 3 C( X, Y ),36 a 46 b ax s x s C ( X, Y ), 36 x 0,085 3 0,085 8,47 Fukcja regresj w przkładze ma węc postać: ˆ 0,085 x +,47
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [7] INTERPRETACJA: współczk regresj (a0,085 > 0) - jeŝel lczba d auk wzrośe o jedostkę (o dzeń), to ocea z egzamu wzrośe o 0,085 (aczej: kaŝd dzeń auk podos średo oceę o 0,085) wraz wol (b,47) - stał, ezaleŝ od lczb d auk (x0) pozom uzskaej oce z egzamu to,47 (poŝej edostateczej) Otrzmaą fukcję regresj, wkreśloą a korelograme pokazao a rsuku: 6,0 5,0 ocea (Y ) 4,0 3,0,0 0,085x +,47 R 0,976,0 0,0 0 5 0 5 0 5 30 35 40 45 d auk (X ) Wkorzstae fukcj regresj do progozowaa Słuchacz o umerze 8 (przpomjm, Ŝe badae przeprowadzoo dla 7 studetów) pośwęcł a aukę 0 d (x 8 0). Jakej oce moŝe spodzewać sę (średo) prz takm akładze czasu a aukę? ˆ 8 8 0,085 x +,47 0,085 0+,47 3,7 Pośwęcając 0 d a aukę słuchacz moŝe spodzewać sę (średo!!!) oce 3,7 czl dst+.
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [8] Ocea dopasowaa fukcj regresj do dach emprczch Problem oce dopasowaa bł juŝ częścowo omawa (wkład 6) prz okazj aaltczego wgładzaa szeregu czasowego za pomocą lowej fukcj tredu. Podstawowm maram dobroc dopasowaa l regresj do dach emprczch są: współczk zbeŝośc (ϕ ) współczk determacj (R ) śred błąd szacuku (perwastek z tzw. waracj resztowej) Współczk zbeŝośc (ϕ ): ϕ ( ˆ ) ( ) Im ϕ jest blŝsz 0, tm dopasowae jest lepsze. gdze 0 ϕ Współczk determacj (R ): R ϕ gdze 0 R Prz zaleŝośc lowej moŝa go wzaczć róweŝ jako: R r x lub R r x Im R jest blŝsz, tm dopasowae jest lepsze.
Śred błąd szacuku (S e ): D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [9] S e S e ( ˆ ) k gdze: k lczba szacowach parametrów fukcj regresj (tutaj k; szacujem dwa parametr: a b ) Jest to perwastek z waracj resztowej (S e ). Nazwa berze sę od reszt (e ), którą defuje sę jako: róŝcę pomędz wartoścą emprczą, a wartoścą teoretczą cech zaleŝej Y: PRZYKŁAD 5 e Ocea dopasowaa fukcj regresj dla dach z przkładu. ˆ 0,085 x +,47 3 () () (3) (4) (5) (6) (7) (8) x ˆ ŷ ( ) ( ˆ ) ( ) ( ),0 5,90 -,0 0,0,00 0,000,5 3,58-0,5-0,08 0,5 0,0064 3,5 6,83-0,5-0,33 0,5 0,089 4 4,0 8 3,85,0 0,5,00 0,05 5 5,0 4 5,04,0-0,04 4,00 0,006 6 3,0 6,83 0,0 0,7 0,00 0,089 7,0 6,98 -,0 0,0,00 0,0004 razem x x x x x 7,50 0,787 ˆ
Współczk zbeŝośc D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [0] ϕ Współczk determacj R lub wg ego wzoru R ( ˆ ) ( ) ϕ r x 0,787 7,5 0,04 0,04 0,976 ( 0,993) 0, 986 Uwaga! RóŜce w wartośc współczka determacj wkają z błędów zaokrągleń a etape lczea współczków: zbeŝośc korelacj Śred błąd szacuku S e ( ˆ ) k 0,787 7 0,89 W celu wrobea sobe poglądu t. welkośc tego błędu odesem go średego pozomu cech Y: S e 00 % 0,89 00% 6,3% 3 Uwaga! Ne moŝa uŝć zaego współczka zmeośc (V x ) poewaŝ średa wartość reszt jest teoretcze rówa 0. Wstąpłob zatem dzelee przez zero. PODSUMOWANIE (przkład 5) Wszstke polczoe mar dopasowaa potwerdzają bardzo dobre dopasowae fukcj regresj do dach emprczch.
D. Mszczńska, M.Mszczńsk, Materał do wkładu 7 ze Statstk (wersja poprawoa), WSEH, Skerewce 009/0 [] PRZYKŁAD 6 Na zakończee wzaczm fukcję regresj dla dach z przkładu 3. Badau poddao tam 400 studetów. Wcześej otrzmalśm tam: x 3, 5 s 47, 04 400, 6 x C r 0, 94 ( X, Y ) 6, 33 Parametr fukcj regresj woszą: b a C ax ( X, Y ) x 6,33 47,04 s x Fukcja regresj w przkładze 3 ma postać: 0,35 3,5 0,35,6,799 ˆ 0,35 x +,799 Dobroć dopasowaa do dach emprczch merzoa współczkem determacj wos: ( 0,94) R r x 0, 887 PowŜsza fukcja regresj w 88,7% objaśa kształtowae sę oce z egzamu (Y) w zaleŝośc od czasu auk (X). WYKORZYSTANIE fukcj regresj do PROGNOZY oce. Słuchacz o umerze 40 pośwęcł a aukę 0 d (x 40 0). Jakej oce moŝe sę spodzewać (średo)? ˆ 40 Pośwęcając 0 d a aukę słuchacz moŝe spodzewać sę (średo!!!) oce 4,499 czl db+. 40 0,35 x +,7999 0,35 0+,799 4,499