KORELACJA I REGRESJA. KORELACJA X, Y - cech badae rówocześe. Dae statstcze zapsujem w szeregu statstczm dwóch cech......
lub w tablc korelacjej. X Y... l.... l.... l................... k k k... kl k..j......l gdze,,..., k - warat lub środk klas dla cech X,,,..., l - warat lub środk klas dla cech Y,.j - sum lczebośc kolum,. - sum lczebośc wersz.
Wstępe słę kształt zależośc mędz cecham możem oceć a podstawe dagramu korelacjego: Y Y X X korelacja lowa dodata Y korelacja lowa ujema Y X X korelacja krzwolowa brak korelacj 3
Słę zależośc mędz cecham merzm współczkem korelacj lowej Pearsoa Uwaga. r X Y cov (, ) S X SY r ; 4
gdze cov ( X, Y ) ( )( ) lub (gd dae w tablc korelacjej) cov ( X, Y ) k l j j j ( )( ) k l j j j jest kowaracją mędz cecham X Y (kowaracja też merz słę zależośc mędz cecham, jej zak określa keruek zależośc lecz jest welkoścą euormowaą) 5
6 ( ) ( ) s X ( ) ( ) S Y
7 lub (gd dae w tablc korelacjej) ( ) ( ).. s k k X ( ) ( ).. s l j j l j j Y są odchleam stadardowm dla cech X Y.
Uwaga: a) ( )( ) ( ) ( ) b) 8
Karl Pearso (857-936), agelsk matematk, prekursor statstk matematczej 9
Jeśl r > 0 to mówm, że cech są skorelowae dodato (wzrostow cech X towarzsz wzrost cech Y), Jeśl r < 0 to mówm, że cech są skorelowae ujeme,(wzrostow cech X towarzsz spadek cech Y), Jeśl r 0 to mówm, że cech są eskorelowae, (zma wartośc cech X e powodują zma wartośc cech Y), 0
Jeśl 0 < r < 0, 3to mówm, że cech są skorelowae słabo, Jeśl 0, 3 r < 0, 5 to mówm, że cech są skorelowae średo, Jeśl 0, 5 r < 0, 7 to mówm, że cech są skorelowae moco, Jeśl 0, 7 r to mówm, że cech są skorelowae bardzo moco. Powższe przedzał mają zakres umow.
Iterpretując powższ współczk korelacj ależ pamętać, że jego wartość blska zera e zawsze ozacza brak zależośc a jede brak zależośc lowej. W tm przpadku ależ skorzstać z wkresu lub skorzstać z ch mar zależośc p. polczć tzw. stosuk korelacje. Wartość współczka korelacj zależ od zakresu zmeośc badach cech, podobe jak średa artmetcza podlega wpłwom skrajch wartośc.
Przkład Badao zależość wartośc zużtch surowców (w ts. zł.) Y od welkośc produkcj (ts. szt.) X w 6-cu zakładach produkcjch. t,5 3 0,5 t 5 4 4 7 Wzaczam wartość współczka korelacj. 3
Oblczea wkoam w tabel ( )( ) ( ) ( ),5 3 0,5 5 4 4 7-0,5 0,5 0-0,5,5 - - 0 0 3-0,5 0 0 4,5 0,5 0,5 0 0,5,5 4 0 0 9 4 9 4 0 0 8 4 8 9 4 8, 5; 4 ; r 6 6 4 8 0, 948 zatem zwązek pomędz wartoścą zużtch surowców a welkoścą produkcj jest bardzo sl (korelacja dodata). 4
Przkład. Badao zależość lczb błędów a stroe maszopsu Y od stażu prac X (podao środek przedzału stażu prac) w grupe 50 sekretarek. Y 0 3. X 4 5 0 5 0 0 0 0 5 5 8 5 5 0.j 5 5 0 0 50 5
4 5 + 0 +... + 8 0 50 0 5 + 5 +... + 3 0 50 85 50 760 50,7 5,; 6
S X 4 5 + 0+... + 8 0 50 550, 5, 79, 36 50 5 S Y 0 5 + 5+... + 3 0 50 85,, 7 0, 8 50 7 7
4... cov( X, Y ) 5 + 4 3 0 + 0 + 8 5 5,, 7 7, 04 50 8
7, 04 r 0, 878 79, 36 0, 8 zatem zwązek pomędz stażem a loścą błędów jest bardzo sl (korelacja ujema). 9
Słę zależośc możem róweż merzć współczkem korelacj rag Spearmaa: Obserwacje umerujem od ajmejszej do ajwększej (adajem rag). Jeśl dae powtarzają sę to przpsujem m jedakowe rag rówe średej artmetczej z kolejch umerów. Q gdze d - różce rag. d 6 3 0
Charles Edward Spearma (863-945) agelsk pscholog statstk
Współczk te stosujem w przpadku małej lczb dach lub w przpadku cech emerzalch, którch wartośc moża uporządkować. W przpadku cech emerzalch moża merzć słę zależośc współczkem Cramera lub Czuprowa (defcja będze podaa prz teśce ezależośc ch kwadrat).
Przkład. Dwóch człoków komsj przetargowej A B oceało adesłae ofert. Człoek A oceał jakość ofert opsowo atomast człoek B przdzelał m pukt od 0 do 00. Oferta Ocea A Ocea B Raga oce A I mej ż 50 przecęta II słaba 45 III dobra 5 IV przecęta 30 V bardzo 5 dobra VI bardzo słaba 4 VII przecęta 40 Razem Raga oce B d d 3
Oferta Ocea A Ocea B Raga oce A Raga oce B I mej ż 50 3 7 przecęta II słaba 45 6 III dobra 5 6,5 IV przecęta 30 4,5 3 V bardzo dobra 5 7,5 VI bardzo słaba 4 5 VII przecęta 40 4,5 4 Razem d d 4
Oferta Ocea A Ocea B Raga oce A Raga oce B d d I mej ż 50 3 7-4 6 przecęta II słaba 45 6-4 6 III dobra 5 6,5 4,5 0,5 IV przecęta 30 4,5 3,5,5 V bardzo dobra 5 7,5 5,5 30,5 VI bardzo słaba 4 5-4 6 VII przecęta 40 4,5 4 0,5 0,5 Razem 0 0 Q 6 0 7 7 0, 8 3 Wka stąd zupeł brak zgodośc oce obu człoków komsj (bardzo sla korelacja ujema). 5
REGRESJA LINIOWA Regresja to kształt zależośc mędz badam cecham. Iteresuje as ajprostsza zależość w postac fukcj lowej. Wzaczm prostą Yˆ b0 + b X Najlepej dopasowaą do dach (, ) 6
Y - zmea objaśaa, - wartośc (obserwacje) zmeej Y;,..., - umer obserwacj, X - zmea objaśająca, - wartośc zmeej X, b0,b - parametr strukturale (ch wartość wzacza sę a podstawe obserwacj (, )) 7
Ab wzaczć wartość parametrów strukturalch b 0,b a podstawe prób stosujem metodę ajmejszch kwadratów (MNK). MNK polega a wzaczeu takch b 0,b ab dla dach obserwacj (, ) suma kwadratów odchleń zaobserwowach wartośc od wartośc Yˆ b0 + b X bła mmala, tz. chcem wzaczć mmum fukcj: 8
ŷ e ˆ $Y b 0 +b X (prosta regresj z prób) e 9
30 b b e b b S 0 0 ) ( ) ˆ ( ), ( (*) e ˆ azwam resztam modelu regresj Uwaga. 0 e Należ wzaczć prostą regresj tak ab suma pól kwadratów bła mmala.
3 Oblczając pochode cząstkowe fukcj (*) przrówując do zera otrzmujem (układ rówań ormalch) 0 ) )( ( 0 ) )( ( 0 0 0 0 0 b b b b b S b b b b b S
3 rozwązując otrzma układ rówań otrzmam wzor a przblżoe wartośc parametrów strukturalch ( ) ( )( ) ( ) ), cov( ) ( X X Y S Y X r S S b b b 0
Prostą Yˆ b0 + b X azwam prostą regresj z prób. 33
Mar dopasowaa. Waracja resztowa: Waracja resztowa to uśredee pól kwadratów zbudowach a resztach odzwercedla stopeń dopasowaa prostej regresj do dach statstczch. 34
35 Nech, e $, gdze $ b b + 0 wted S e e czl ( ) 0 Y e S r b b S e S e S ozacza średe (stadardowe) odchlee od prostej regresj.
Dopasowae modelu do dach emprczch moża oceać odchleem stadardowm reszt lecz jest to mara bezwzględa euormowaa, dlatego do porówań lepsze są mar względe lub uormowae. 36
Najprostszą względą marą dopasowaa jest współczk zmeośc resztowej: V e S Y e 00% Współczk te formuje jaką część średej wartośc badaego zjawska staow odchlee stadardowe reszt. Mejsze wartośc tego współczka wskazują a lepsze dopasowae modelu do dach emprczch, eked żąda sę ab p. V e < 0,. 37
{ Zmeość całkowta } } Zmeość przpadkowa Zmeość wjaśoa modelem regresj Wprowadzam ozaczea: Całkowta suma kwadratów (zmeość całkowta): CSK ( ) Wjaśoa suma kwadratów (zmeość wjaśoa): WSK ( ˆ ) Newjaśoa suma kwadratów (zmeość przpadkowa): NSK e gdze : ˆ b0 + b 38
Własość: Czl ( ) ( ˆ ) CSK WSK + NSK + e 39
Marą dopasowaa modelu do rzeczwstośc (wartośc zaobserwowach) jest róweż współczk determacj R Współczk determacj: R WSK CSK R 0, współczk te określa jaka część całkowtej zmeośc zmeej objaśaej została wjaśoa przez model regresj lowej. 40
4 ( ) ( ) ( ) 0 ), ( cov ) ( ) ( ) ˆ ( r S S Y X b b b e R Y X +
Przkład Badao zależośc kosztów całkowtch (w ts. zł.) Y od welkośc produkcj (ts. szt.) X w 6-cu zakładach produkcjch. 4 8 6 4 5 4 4 7 ˆ + Dla Y b0 b wzaczam przblżoe wartośc parametrów strukturalch współczk determacj. 4
Oblczea wkoam w tabel ( )( ) ( ) ( ) 4 8 5 6 4 4 4 7 36 4 43
( )( ) ( ) ( ) 4 8 6 4 5 4 4 7 4 0 0 8 8 4 4 0 4 36 6 4 0 0 9 4 36 4 3 64 8 44
36 4 6; 4 ; 6 6 3 b 0,5; b0 4 0,5*6 64 zatem zwązek pomędz kosztam całkowtm a welkoścą produkcj wraża sę zależoścą lową w postac Współczk determacj Yˆ + 0, 5X R 6 0,89 8 ależ oczekwać, że rozpatrwa model wjaśa 89% całkowtej zmeośc badaego zjawska. 45
46 Stadardowe błęd oszacowaa parametrów strukturalch. X e e S S S b S ) ( ) ( ( ) ( ) 0 ) ( ) ( ) ( ) ( X e X e S S S b S b S S b S + + Stosujem eked zaps ) ( ˆ )) ( ( )) ( ( 0 0 e b S b S S X b b Y ± + ± ±
Uwaga. W celu dokładejszego zbadaa kształtu zależośc mędz cecham moża wkoać wkres emprczch l regresj. Są to łamae wzaczoe przez średe warukowe: j k. j j (tz. oblczam średą wartość X prz ustaloej wartośc j ) l j j. j (tz. oblczam średą wartość Y prz ustaloej wartośc ) Regresja Y względem X ( ); (, );...; (, ), Regresja X względem Y k k ( ); (, );...; (, ), Łamae te przecają sę w pukce ( ) l l,. Im blżej sebe są położoe tm slejsz jest zwązek medz cecham. 47
Przkład. Badao zależość wartośc sprzedaż Y (ml zł) od wdatków a reklamę X (ts. zł) w grupe 00 frm. Y 3-5 5-7 7-9 9- -3 3-5. X 50-00 0 3 3 00-50 0 7 48 50-00 9 8 0 00-50 4 5 9.j 0 3 8 0 7 00 350 3,5; 00 844 00 8,44 Zestawee średch warukowch: (, ) (, ) j j 7 5 4 7 5 5, 9 6, 7 6 5 8 6, 8 8 7 5, 4 7, 5 0 5 3, 9, 7 0, 7 4 Wkres emprczch l regresj. j j Le regresj Regresja Y względem X Regresja X względem Y 6 4 0 8 Wartośc cech Y 6 4 0 0 50 00 50 00 50 Wartośc cech X 48
W przpadku gd wkres dach w układze współrzędch wskazuje a brak zależośc lowej możem próbować dobrać fukcję elową do opsu zależośc mędz cecham. Rówość waracja. S ( ) S ( ) + S ( ) gdze S ( ) - waracja cech Y S ( ) - waracja mędzgrupowa S ( ) k ( ). merz zróżcowae cech Y wwołae oddzałwaem cech X. Jest to waracja średch warukowch Y(X ). S ( ) - waracja wewątrzgrupowa S ( ) k s ( ). merz zróżcowae cech Y wwołae oddzałwaem czków poza cechą X. Jest to średa ważoa rozkładów warukowch Y(X ). 49
Stosuek korelacj e S( ) S( ) merz słę zależośc cech Y względem cech X. Aalogcze stosuek korelacj e S( ) S( ) merz słę zależośc cech X względem cech Y. Stosuk korelacje pokazują słę zwązku, lecz e formują o jego keruku. Przjmują wartośc z przedzału [0, ]. Wartośc e e są a ogół róże. Różca mędz kwadratem stosuku korelacjego a kwadratem współczka korelacj Pearsoa (zwa wskaźkem krzwolowośc) merz stopeń krzwolowośc regresj: m m e r zmeej Y względem X, e r zmeej X względem Y, Neked przjmuje sę, że jeśl wskaźk krzwolowośc jest e wększ ż 0, to wpłw jedej cech a drugą jest low moża stosować regresję lową, w przecwm przpadku lepej stosować regresję elową. 50
Progoza. Progoza puktowa τ - momet (okres progoz) τ - wartość cech X w okrese progoz * 0 b + b τ τ 5
5 Stadardow błąd progoz ( ) ( ) + + + + e e S S S τ τ τ τ
Uwaga ) S τ > Se ) S τ jest mmale dla τ 53
błąd względ progoz: δ τ S τ * τ 00% 54
Model tedecj rozwojowej Gd X jest zmeą czasową t (t,,..., ) tz. model regresj ma postać Yˆ b0 + bt wówczas tak model azwam modelem tedecj rozwojowej lub modelem tredu lowego. 55
Wted korzstając z własośc: ( + ) (*) t t ( + )(, t 6 t + ), t ( ) t t t ( t ) + 56
57 mam ( ) ( ) ) ( ) ( ) ( t t t t t t t t b t t t t t
b 0 b t b + 58
Waracja resztowa Nech e $, (gdze ˆ b 0 + b t ) to reszt modelu, wted s e e t b0 t b t t czl se t e s e s ozacza średe (stadardowe) odchlee od tredu lowego. t t 59
60 Dopasowae modelu do dach emprczch oceam też współczkem determacj ( ) ( ) ( ) 0 ) ( ) ( ) (ˆ r t t b t b b e R t t t t +
Progoza dla modelu tredu Nech t τ okres progoz. * Progoza puktowa τ to przewdwaa wartość cech Y w okrese t τ. * b + bt τ 0 τ 6
6 Stadardow błąd progoz puktowej ( ) ( ) + + + + t t t t e t e t t t t t t s t t t t s s τ τ τ τ
63 Wzór te moża uproścć korzstając z własośc (*). t t s t t s s e e + + + + + + + + + + + + ) ( 4 ) ( 6 ) )( ( ) ( 6 ) )( ( τ τ τ τ τ
Zatem ależ traktować wartość progoz jako * ± τ s τ Jakość progoz puktowej możem oceć względm błędem progoz puktowej δ pukt τ sτ 00% * 64
Przkład Y welkość sprzedaż (ts. szt.). Dae z kolejch półrocz 003-008: 05, 5, 8, 9, 8, 30, 39, 4, 46, 56, 60, 64. Wzaczć progozę a perwsze półrocze 00 roku oceć jej dokładość. 65
66
t t t t 05 5 3 8 4 9 5 8 6 30 7 39 8 4 9 46 0 56 60 64 t 67
t t t t t 05 05 05 5 30 35 3 8 354 394 4 9 56 664 5 8 640 6384 6 30 780 6900 7 39 973 93 8 4 8 988 9 46 34 36 0 56 560 4336 60 760 5600 64 968 6896 78 63 38 5449 68
tśr 6,5 śr 35,967 b 5,0804 b0 0,8939 Se^ 7,79984 Se,7970 tt 5 t* 79,00 St 3,667 d pkt,04% 69
70