06-05-08 Probablstyka statystyka Korelacja Probablstyka statystyka - wykład 9 dla Elektrok Korelacja Aalza korelacj zajmuje sę badaam stea zależośc lowej mędzy dwema cecham X Y. Podstawową marą jest współczyk korelacj Pearsoa r XY mara zwązku lowego mędzy cecham: r xy = ( x x)( y y) = = ( x x) ( y y) = = cov( x, y) s s gdze: lczebość próby (x, y ) poszczególe obserwacje w próbe x, y (z daszkem) średa arytmetycza cechy X Y cov(x,y) współczyk kowaracj cov( x, y) = ( x x)( y y) s x, s y estymatory odchylea stadardowego cechy X Y Czyl ogóle współczyk korelacj lowej dwóch zmeych jest lorazem kowaracj loczyu odchyleń stadardowych tych zmeych. Probablstyka statystyka - wykład 9 dla Elektrok = x y
06-05-08 Założea korelacj r-pearsoa ) zmee mają charakter loścowy ) W przypadku, gdy zmee mają rozkład porządkowy ależy skorzystać z eparametryczych testów korelacyjych, p. rho-spearmaa. Bardzo często moża spotkać sę z formacją, że założeem korelacj r-pearsoa jest to, aby korelowae zmee mały rozkłady zblżoe do rozkładu ormalego. Jest to pożądaa cecha, jedakże e jest oblgatoryja. Współczyk r-pearsoa możemy oblczyć róweż dla zmeych ze złamaym założeem o rozkładze ormalym. Należy róweż zwrócć uwagę a przypadk odstające, mogące zaburzać uzyskay wyk korelacj. Probablstyka statystyka - wykład 9 dla Elektrok 3 Właścwośc współczyka korelacj - r xy zak współczyka korelacj formuje o keruku korelacj (korelacja dodata wraz ze wzrostem jedej zmeej rośe wartość drugej zmeej; korelacja ujema wraz ze wzrostem jedej zmeej druga zmea maleje) wartość bezwzględa formuje as o sle zwązku: r xy =0 brak korelacj pomędzy zmeym X Y r xy = lub r xy =- wówczas mędzy zmeym zachodz zależość w postac fukcj lowej Przykładowa korelacja lowa ujema Populacja, N Probablstyka statystyka - wykład 9 dla Elektrok 4
06-05-08 O czym formuje współczyk korelacj? Stadardowo wyk aalzy korelacj współczyk korelacj dostarcza am trzech formacj: czy wyk jest stoty statystycze? jaka jest sła zwązku? jak jest keruek zwązku? Jeżel zwązek jest stoty statystycze to możemy powedzeć, że zachodz zwązek pomędzy dwema cecham, zmeym. Współczyk korelacj mów am o sle zwązku. Jest oa określaa jako wartość w przedzale od - do. Im współczyk jest "dalej" od 0 (zarówo a plus jak a mus) tym sła zwązku jest wększa. Probablstyka statystyka - wykład 9 dla Elektrok 5 Iterpretacja współczyka w aalzach statystyczych W aalzach statystyczych z reguły przyjmuje sę, że jeżel r xy : - <0, brak zwązku lowego mędzy badaym cecham - 0,-0,4 zależość lowa wyraźa lecz ska - 0,7-0,9 zależość lowa zacząca - >0,9 zależość lowa bardzo sla Uwag do terpretacj: - wartość współczyka blska zeru e mus ozaczać braku zależośc, a jedye brak zależośc lowej - welkość współczyka zależy od zakresu zmeośc badaych cech Probablstyka statystyka - wykład 9 dla Elektrok 6 3
06-05-08 Współczyk korelacj - terpretacja Klasyfkacja według J. Gulford'a (amerykańsk statystyk, zmarł w 987 roku): r =0 brak korelacj 0,0< r 0, korelacja kła 0,< r 0,3 korelacja słaba 0,3< r 0,5 korelacja przecęta 0,5< r 0,7 korelacja wysoka 0,7< r 0,9 korelacja bardzo wysoka 0,9< r <,0 korelacja emal peła r = korelacja peła Korelację pełą moża azwać róweż zależoścą fukcyją, co ozacza, że pomędzy x y steje fukcja, która odwzorowuje x w y bez występowaa jakejkolwek reszty, błędu. Probablstyka statystyka - wykład 9 dla Elektrok 7 Współczyk korelacj - terpretacja Moża róweż spotkać sę z astępującą klasyfkacją: 0,0 r 0, brak korelacj 0, < r 0,4 korelacja słaba 0,4 < r 0,7 korelacja średa 0,7 < r 0,9 korelacja sla 0,9 < r,0 korelacja bardzo sla Należy pamętać, że sama terpretacja sły zwązku jest mej waża ż formacja czy daa zależość jest stota statystycze. Jeżel e jest stota, to stwerdzamy, że według statystyk (przyjętego pozomu stotośc) uzyskaa wartość jest bardzej dzełem błędu ż prawdzwej zależośc. Jeżel przyjmemy jedą czy drugą klasyfkację e popełmy błędu jeżel posługujemy sę daą skalą sły korelacj, ależy a wstępe zazaczyć, z której z ch korzystamy w przedstaweu wyków. Probablstyka statystyka - wykład 9 dla Elektrok 8 4
06-05-08 Regresja lowa Ustalee, czy mędzy rozważaym cecham steje zależość korelacyja, pozwala oszacować parametry lowej fukcj regresj Możlwe jest wyzaczee: fukcj regresj zmeej zależej (objaśaej) Y przy daych wartoścach zmeej ezależej (objaśającej) W (regresja Y względem X) y = a x + y b y fukcję regresj zmeej X względem Y x = a x + x b x Probablstyka statystyka - wykład 9 dla Elektrok 9 Metoda ajmejszych kwadratów Parametry rówaa regresj z próby szacuje sę metodą ajmejszych kwadratów (MNK). Polega oa a takm oszacowau fukcj y^ x^, aby dla daych z próby spełoy był waruek: dla regresj Y względem X ( y y ) = = = ( y a x b ) gdze y wartośc emprycze (z próby) wartośc teoretycze (z rówaa) y dla regresj X względem Y ( x x ) = = = m Probablstyka statystyka - wykład 9 dla Elektrok 0 y y ( x a y b ) x x m Parametry a x, a y oszą azwę współczyków regresj (ag. Slope). Wartość współczyka a x, a y określa o le jedostek przecęte wzrośe (lub zmaleje, gdy a x <0, a y <0) wartość zmeej zależej, gdy wartość zmeej ezależej wzrośe o jedą jedostkę. Parametry b są to wyrazy wole (ag. Itercept). 5
06-05-08 Ocea dopasowaa reszty Do ocey dopasowaa prostej regresj do puktów empryczych wykorzystuje sę tzw. reszty, które staową różce pomędzy wartoścam empryczym a teoretyczym fukcj regresj: dla regresj Y względem X z, dla =,,..., = y y dla regresj X względem Y z = x x, dla =,,..., Fukcja regresj jest poprawe oszacowaa, jeżel wartośc reszt są ewelke (w stosuku do wartośc zmeych) mają charakter losowy. Współczyk determacj R : R = r xy (dla regresj lowej) określa w jakm stopu zmay jedej zmeej są wyjaśoe przez zmay drugej zmeej. Im wartość R jest blższa jedośc, tym dopasowae fukcj regresj do daych empryczych jest lepsze. Probablstyka statystyka - wykład 9 dla Elektrok Ograczea stosowalośc gdy współczyk jest podaty a obserwacje skraje, terpretacja jest oczywsta tylko dla welowymarowego rozkładu ormalego (jest wtedy estymatorem elemetu macerzy współczyków tego rozkładu). Dodatkowo ależy zachować czujość czy zależość x y e jest tylko zwązkem pozorym. Zwązek pozory występuje wtedy, gdy pod względem aaltyczym zachodz stoty statystycze zwązek pomędzy dwema zmeym, jedakże zwązek te spowodoway jest zwązkem tych zmeych z ą, trzecą zmeą, e zawsze aalzowaą. Pozore korelacje, zwązk bardzo często występują w śwece auk. Dopók e wykażemy, że daa korelacja jest pozora, dopóty może oa fukcjoować jako stoty zwązek mędzy zmeym. Na szczęśce część takch pozorych zwązków możemy "wykryć" za pomocą zdrowego rozsądku... Probablstyka statystyka - wykład 9 dla Elektrok 6
06-05-08 Zwązek pozory Przykład : Wykrywamy zależość pomędzy wekem badaych osób a welkoścą zarobków (mesęczej pesj). Im ktoś jest starszy tym węcej zaraba... czy rzeczywśce wek ma wpływ a welkość zarobków? Czy a podstawe samego weku badaej osoby pracodawcy wyceają welkość zarobków? Itucyje wydaje am sę, że w grę wchodz staż pracy - kluczowa zmea, rozbjająca pozorą zależość pomędzy wekem a welkoścą zarobków. Jeżel wzęlbyśmy pod uwagę staż pracy, zwązek pomędzy wekem a zarobkam przy uwzględeu stażu mógłby okazać sę całkowce estoty statystycze. Probablstyka statystyka - wykład 9 dla Elektrok 3 Zwązek pozory Przykład : Wykryto wpływ kursu dolara a samopoczuce osób pracujących w Polsce. Wraz z otowaam zmea sę samopoczuce badaych osób. Czy faktycze sam kurs dolara ma a to wpływ? Wszyscy Polacy sedzą patrzą a kurs jak osąga day pozom wpadają w euforę lub depresję? Tylko ekoomśc bądź przedsęborcy... reszty to e obchodz... ale, kurs dolara może odzwercedlać kodycję śwatowej gospodark, a co za tym dze, polskej gospodark. Im gospodarka jest w lepszej kodycj, tym ludze węcej zarabają czują sę lepej. Gdy gospodarka jest w gorszej kodycj, ludze tracą pracę, mej zarabają, mej wydają czują sę gorzej.. To e sam kurs dolara ma wpływ... to zwązek pozory pomędzy tym zmeym. Probablstyka statystyka - wykład 9 dla Elektrok 4 7
06-05-08 Dlaczego korelacja jest waża? Korelacja staow jedą z ajbardzej popularych mar statystyczych: Za pomocą korelacj określae jest podobeństwo pomędzy parą zmeych, co ma zastosowae w welu dzedzach auk oraz bzesu, p. czy zachodz zwązek pomędzy otowaam ropy aftowej a akcjam PKN Orle? Staow podstawę zaawasowaych metod aaltyczych, p: aalza czykowa, aalza regresj, aalza dyskrymacyja Najbardzej popularą odmaą korelacj jest korelacja lowa. Dotyczy oa zależośc lowej (jeżel coś rośe to druge też rośe albo spada). Jedakże moża oblczać róweż zależośc kwadratowe, sześcee td. Korelacja może dotyczyć zarówo zmeych loścowych (p: korelacja r- Pearsoa), jak róweż korelacj dla zmeych porządkowych (p: korelacja rho- Spearmaa), korelacj dla zmeych omalych (p: V Cramera) Grafczą terpretacją współczyka korelacj jest wykres rozrzutu. Neparametryczym odpowedkem aalzy korelacj r-pearsoa jest korelacja rho- Spearmaa bądź korelacja tau-b Kedalla. Na podstawe korelacj skostruowao wele bardzej zaawasowaych techk aaltyczych, co sprawa, że jest oa jedą z ajbardzej popularych obecych mar statystyczych. Warto róweż zapozać sę z tematem korelacj cząstkowej, semcząstkowej, autokorelacj czy aalzy regresj, która bazuje a merze korelacj r-pearsoa. Probablstyka statystyka - wykład 9 dla Elektrok 5 Korelacja rho-spearmaa Korelacja rho-spearmaa traktowaa jest jako korelacja eparametrycza, co staow odpowedk parametryczej korelacj r-pearsoa. W przypadku korelacj rho-spearmaa wyk są ajperw poddawae ragowau. Poszczególym obserwacjom przypsywae są rag. Tak "przelczoe" wyk poddawae są aalze korelacj. Ragowae wyków pozwala przeaalzować zwązek pomędzy zmeym merzoym a skal porządkowej (e tylko loścowej, jak ma to mejsce w przypadku korelacj r-pearsoa). W przypadku tej korelacj e ma zaczea fakt, czy aalzowae zmee mają rozkłady zblżoe do ormalego, czy też do ego. Dlatego właśe korelacja rho-spearmaa traktowaa jest jako korelacja eparametrycza. ZALETA: współczyk korelacj rho-spearmaa (który róweż przyjmuje wartośc od - do +) jest bardzej odpory a przypadk odstające w próbe. Ragowae wyków sprawa, że wartośc odstające e są odstającym. Mają oe ajższą bądź ajwyższą ragę, aczkolwek wartość odstawaa daej obserwacj od zboru wyków trac a zaczeu. W przypadku, gdy w aszym badau steje wele obserwacj odstających, to aalza korelacj rho-spearmaa będze lepszym testem do aalzy zwązku ż korelacja r-pearsoa. Probablstyka statystyka - wykład 9 dla Elektrok 6 8