Statstka opracowane danch W 5: Odkrwane analza zależnośc pomędz zmennm losowm (danm emprcznm) Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl
Odkrwane analza zależnośc pomędz zmennm loścowm(lczowm) Przedmotem kolejnch dwóch wkładów ędą zależnośc dla Zmennch jednowmarowch Korelacja lnowa Korelacja lnowa test stotnośc współcznnka korelacj lnowej regresja prosta Współcznnk regresj, wznaczane ch MNK Ocena dopasowana modelu Współcznnk determnacj Standardow łąd estmacj Współcznnk zmennośc losowej Zmennch welowmarowch Macerz korelacj Korelacje cząstkowe regresja weloraka
Metod statstczne stosuje sędo adana struktur zorowośc zależnośc pomędz jej cecham Metod statstczne dotczące analz struktur zorowośc operał sę na oserwacjach tlko jednej cech, a jeśl rano pod uwagę klka cech, to każdą analzowano oddzelne. W welu przpadkach, do poznana całokształtu zagadnena potrzena jest analza zorowośc z punktu wdzena klku cech, pomędz którm wstępują pewne zależnośc Odkrwane postac sł zależnośc wstępującch pomędz cecham zorowośc są przedmotem analz korelacj regresj. Uwzględnając lczę zmennch (analzowanch cech zorowośc) rozróżna sę następujące odman zależnośc Rodzaj zmennej zależna (ojaśnana) jednowmarowa jednowmarowa welowmarowa welowmarowa nezależna (ojaśnająca) jedna zmenna wele zmennch jedna zmenna wele zmennch
Wprowadzene do analz zależnośc pomędz danm statstcznm Celem analz jest stwerdzene, cz mędz adanm zmennm zachodzą jakeś zależnośc, jaka jest ch: sła (współcznnk determnacj, współcznnk korelacj) postać ( dopasowane funkcj reprezentującch zależność - aproksmacja) kerunek (monotonczność) Współzależność mędz zmennm może ć dwojakego rodzaju: funkcjna stochastczna (proalstczna).
Przkład zwązków funkcjnch statstcznch
Rodzaje zależnośc pomędz danm - zależność funkcjna Istota zależnośc funkcjnej polega na tm, że zmana wartośc jednej zmennej powoduje ścśle określoną zmanę wartośc drugej zmennej. W przpadku zależnośc funkcjnej: f (), każdej wartośc zmennej (X) odpowada jedna tlko jedna wartość zmennej (Y). Smolem X oznaczam zmenną ojaśnającą (nezależną), natomast smolem Y - zmenną ojaśnaną (zależną ).
Rodzaje zależnośc pomędz danm Zależność korelacjna Zależność stochastczna wstępuje wted, gd wraz ze zmaną wartośc jednej zmennej zmena sę rozkład prawdopodoeństwa drugej zmennej Szczególnm przpadkem zależnośc stochastcznej jest zależność korelacjna (statstczna). Zależność korelacjna polega na tm, że określonm wartoścom jednej zmennej odpowadają ścśle określone średne wartośc drugej zmennej. Zwązk tpu statstcznego są możlwe do wkrca oraz loścowego opsu w przpadku, ked mam do cznena z weloma oserwacjam, opsującm adane oekt, zjawska cz też proces
Badane zależnośc statstcznch pomędz danm emprcznm W adanach statstcznch zależnośc pomędz cecham najczęścej sprowadza sę do funkcj lnowch. Nelnowe zwązk pomędz zmennm mogą ć opswane przez weloman drugego wższch stopn alo przez nne funkcje (wkładncze, logartmczne, trgonometrczne tp.). Prz podejmowanu deczj o worze funkcj aproksmacjnej, opsującej w przlżenu zwązek pomędz analzowanm cecham, pomocne jest sporządzene wkresu rozrzutu wartośc adanch zmennch. Jeśl okaże sę, że pomędz zmennm wdoczna jest zależność ne jest ona lnowa, wówczas trzea znaleźć odpowedne rozwązane nelnowe
Przkład układów punktów prz różnch wartoścach współcznnka korelacj lnowej
Marąsł kerunku zależnośc lnowej jest współcznnk korelacj lnowej Statstką, która opsuje słę lnowego zwązku pomędz dwema zmennm jest współcznnk korelacj z pró (ρ r). ρ cov( X, Y ) D( X ) D( Y ) Przjmuje on wartośc z przedzału domknętego <-; >. Wartość - oznacza wstępowane doskonałej korelacj ujemnej (to znacz stuację, w której punkt leżą dokładne na prostej, skerowanej w dół), a wartość oznacza doskonałą korelację dodatną (punkt leżą dokładne na prostej, skerowanej w górę). Wartość 0 oznacza rak korelacj lnowej
Wzór do olczana emprcznego współcznnka korelacj ma postać gdze: oraz oznaczają emprczne wartośc zmennch, odpowedno, X Y, natomast oraz oznaczają średne wartośc tch zmennch. Współcznnk korelacj daje też nformację o kerunku zależnośc, o jeśl małm wartoścom X odpowadają przeważne małe wartośc zmennej Y, a dużm wartoścom X duże wartośc Y, to lcznk wrażena dla r ędze dodatn, manownk jest zawsze dodatn, zatem r>0 oznacza zależność rosnącą, r<0 malejącą.
Test stotnośc współcznnka korelacj lnowej (Pearsona) Badane zmenne (X, Y) mają dwuwmarow rozkład normaln, o neznanm współcznnku korelacj ρ. Z populacj wlosowano n elementową próę wlczono r Zwerfkować hpotezę H 0 : ρ 0 woec jednej z hpotez alternatwnch H : ρ 0 lu H : ρ < 0 alo H : ρ > 0 Funkcja testowa ma postać: t r r n a gd n>00 to u r r n zmenna t ma rozkład Studenta z n- stopnam swood; u ma rozkład normaln. Hpotezę H 0 odrzucam lekroć wartość olczona funkcj testowej znajdze sę w oszarze krtcznm (zdefnowanm przez hpotezę H )
Nejednoznaczność nformacj przekazwanej przez współcznnk korelacj - przkład R0.985 Zależność pomędz lczą ocanow lczą urodzn dzec Lcza urodzonch dzec 0 8 6 4 0 8 6 4 0 0,8 +,305 R 0,9654 0 0 40 60 80 00 Lcza ocanow Interpretacja: przez analogę do flmu Seksmsja: jeśl ocan to mejsce wrał mus to ć zdrow regon pomślel młodz postanowl sę tu osedlć
Regresja prosta (regresja lnowa) Analza regresj stanow w stosunku do analz korelacj dalsz krok w zakrese loścowego opsu powązań zachodzącch mędz zmennm. Model regresj lnowej prostej przjmuje postać: Y β 0 + β + ε gdze β 0 oznacza wraz woln, β współcznnk kerunkow, a ε łąd. Zazwczaj ne wszstke punkt układają sę dokładne na prostej regresj. Źródłem łędu są wpłw nnch ne uwzględnonch w modelu zmennch, takch jak np. łęd pomarowe. Zakłada sę prz tm, że łęd mają średną wartość równą zero neznaną warancję oraz, że łęd ne są nawzajem skorelowane. Współcznnk regresj β 0 β można wznaczć korzstając z metod najmnejszch kwadratów.
Istota metod najmnejszch kwadratów- MNK Wprowadzona przez Legendre'a Gaussa, jest najczęścej stosowaną w praktce metodą statstczną Jej stota jest następująca: Wnk kolejnego pomaru można przedstawć jako sumę (neznanej) welkośc merzonej oraz łędu pomarowego ε, Od welkośc oczekujem, a suma kwadratów ła jak najmnejsza: ε ( ) ˆ mn
Dopasowane modelu matematcznego do danch rzeczwstch Zasadncz cel analz regresj polega na ocene neznanch parametrów modelu regresj. Ocena ta jest dokonwana za pomocą metod najmnejszch kwadratów (MNK). MNK sprowadza sę do mnmalzacj sum kwadratów odchleń wartośc teoretcznch od wartośc rzeczwstch (czl tzw. reszt modelu). Dopasowan model regresj prostej, któr daje punktową ocenę średnej wartośc dla określonej wartośc przjmuje postać: (r r l) ˆ f ( ) 0 + gdze f() oznacza teoretczną wartość zmennej zależnej, 0 odpowedno ocen wrazu wolnego współcznnka kerunkowego, uzskane na podstawe wnków z pró.
Metoda Najmnejszch Kwadratów ( ) + 0 ) ( 0 0 ( ) ( ) mn ) ( ˆ 0 + Wrażene Osągne mn wted tlko wted gd ( ) + 0 ) ( 0
Współcznnk równana regresj lnowej 0 ) ( ) )( ( n n n n n
Wkres lustrując zależnośćpomędz średną temperaturą a zużcem gazu
Interpretacja równana regresj (r r l) 0 jest punktem przecęca prostej regresj z osa wartośc (rzędnch) oznacza przrost wartośc prostej prz jednakowm przrośce argumentu Łatwo wlczć zwązek współcznnka z wartoścą współcznnka korelacj prókowej + + + + ) ( ) ( )) ( ( 0 0 n n n n s s r s s s s n s n ) ( ) )( ( ) ( ) )( ( ) ( ) )( (
Interpretacja równana regresj (r r l) Prosta regresj przechodz przez punkt o współrzędnch odpowadającm średnm wartoścom zmennch X Y Z faktu, że MNK mnmalzuje sumę kwadratów różnc e wnka, że Stąd wnka, że reszt ne mogą ć dowolne, w szczególnośc ne mogą ć jednakowego znaku + + 0 ) ( ) ˆ( e ˆ 0 ) ( ( ) ˆ ( 0 + e n n n
Analza modelu regresj lnowej Model regresj lnowej prostej przjmuje postać: Y E(Y/X) β 0 + β + ε gdze: E(Y/X) oznacza wartość zmennej Y oczekwana prz warunku, że zmenna X przjme wartość β 0, β są współcznnkam regresj lnowej, ε oznacza składnk losow (łąd).
Założena modelu lnowego Estmator 0 współcznnków regresj β 0 β wznaczone metodą najmnejszch kwadratów mają pożądane własnośc (efektwność, neocążoność) jeśl spełnone są warunk: Model jest lnow względem parametrów, tzn. : β 0 + β Lcza oserwacj n mus wększa lu równa lcze szacowanch parametrów (współcznnków regresj) Składnk losow e ma wartość oczekwaną równą zero dla wszstkch,..,n, tzn. E(e ) 0 Warancja składnka losowego e (warancja reszt) jest taka sama dla wszstkch oserwacj War (e ) σ dla wszstkch,,n Składnk losowe są neskorelowane, czl e oraz e j są od see nezależne j każd ze składnków losowch ma rozkład normaln
Interpretacja wnków olczeńdla regresj lnowej
Werfkacja modelu Najważnejsze etap werfkacj modelu to: werfkacja mertorczna werfkacja statstczna W trakce werfkacj mertorcznej sprawdzam zgodność wnków uzskanch z modelu z wedzą teoretczną. Jeśl werfkacja statstczna wskazuje na nedopasowane modelu, zwkle potwerdza sę to podczas werfkacj mertorcznej
Analza reszt Warancja resztowa ędąca oceną warancj składnka losowego wraża sę wzorem Perwastek z warancj resztowej, czl odchlene standardowe reszt S e, zwane standardowm łędem estmacj jest najczęścej stosowaną marą zgodnośc modelu z danm emprcznm. e ˆ m n e S n e
Werfkacja statstczna modelu S e n e n s e 0,64385 Średne zużce palwa olczane z równana regresj różną sę od wartośc emprcznch średno orąc o 0,64385 l Olczone estmator współcznnków regresj odchlają sę od parametru 0 3,830 4 o wartość S 0 0,45085, tj.o około % 0,00386 o wartość S 0,0003, tj. o około 3% 0,45085 3,8304 0,7703 0,0003 0,00386 0,30344 Można zwerfkować dopasowane modelu na podstawe funkcj testowej t t /S, t 0 8,495987 t 7,668 4 Najardzej popularną marodajną oceną dopasowana modelu do danch emprcznch jest współcznnk determnacj R
Współcznnk zmennośc losowej Welkość S e wskazuje na przecętną różncę mędz zaoserwowanm wartoścam zmennej ojaśnanej wartoścam teoretcznm olczonm z prostej regresj. Współcznnk W, olczan według wzoru W S e 0. 64385 7. 38 0. 090 9 % nformuje o tm jaką część średnej wartośc zmennej ojaśnanej stanow łąd standardow estmacj. Po wznaczenu równana regresj ( modelu) należ sprawdzć hpotezę o stotnośc otrzmanch współcznnków regresj, W tm celu przeprowadzam test stotnośc t.
Interpretacja współcznnka determnacj R Można pokazać, że n ( Całkowta suma kwadratów - CSK ) n ( ˆ ) Wjaśnona przez model suma kwadratów - WSK ŷ RSK CSK WSK + n e Resztkowa suma kwadratów RSK Zmenność newjaśnona przez model + 0
Interpretacja współcznnka determnacj R R R 0,777 oznacza, że 7,77% ogólnej zmennośc zmennej zależne zużca palwa, jest ojaśnona przez równane regresj, w którm zmenną ojaśnającą jest pojemność slnka. Uwag: wspólcznnk determnacj w pewnch okolcznoścach może dawać łędne wjaśnen zmennośc Y, np: gd n wted zawsze R gd n jest newele wększe od lepej stosować tzw poprawon R poprawone R, mów jak dorze ło dopasowane nasze równane do nnej pró z tej samej populacj, zawsze jest mnejsze od R z pró gd w modelu ne uwzględnlśm wrazu wolnego tzn gd model jest nelnow n n ( ( WSK CSK gd zastosowano nną metodę nż MNK ˆ ) )
Inne wskaźnk dopasowana modelu Współcznnk zmennej zależnej względem zmennej nezależnej eta Wlczonch wartośc współcznnków regresj ne można porównwać ze względu na nne jednostk mar. Normalzujem równane regresj otrzmujem s β Jeśl β 0,853 oznacza to, że zmana zmennej nezależnej o jedno odchlene standardowe powoduje zmanę wartośc zależnej zmennej o 0,853 jej odchlena standardowego. Zaletą tej nterpretacj jest nezależność od jednostek mar Zauważm, że β 0,853070 r (współcznnkow korelacj lnowej. s + e
Inne wskaźnk dopasowana modelu Olczane elastcznośc Y względem X według wzoru X Y Pokazuje o le procent zmena sę wartość Y gd wartość X zmen sę o % 0,00386 * 385,97/7,38 0,463 oznacza to, że w otoczenu średnch zmana pojemnośc slnka o % powoduje zmanę zużca palwa o około 0,5%
Werfkacja hpotez Należ zadać stotność współcznnka kerunkowego; Neodrzucene hpotez o raku wpłwu na śwadcz o wadlwośc modelu stotność współcznnka determnacj stotność lnowego zwązku pomędz analzowanm zmennm
Regresja weloraka
Regresja weloraka W celu wkonana wkresu należ prawm przcskem msz klknąć w oręe zmennej - średna temperatura doowa
Wkres rozrzutu z dopasowaną lną regresj
Postać zwązków przkład dla jednowmarowej zmennej ojaśnanej (), gd jedna jest zmenna ojaśnająca () + EXP() 6 5 4 3 0 0 0,5,5,5 8,00 7,00 6,00 5,00 4,00 3,00,00,00 0,00 0 0,5,5,5 a log +cos(),00 0,50 0,00 0 0,5,5,5 3 3,5 4-0,50,00,00 0,00 0 3 4 -,00 -,00 -,00-3,00 c -,50 d
Lnearzacja funkcj nelnowch a a log log log + a ae + ln ln a a ln ln ln + gdze c a c a + + + +
Regresja welomanowa dla n ( ) ( ) mn ˆ 0 0 ) ( ˆ f + + Współcznnk 0, wznaczm z układu trzech równań utworzonch z trzech pochodnch olczonch względem zmennch 0, przrównanch do zera
Regresja welomanowa
Tpowane postac zależnośc- Statstca/wkres/ wkres rozrzutu W
Analza zoru danch
Odkrwane analza zależnośc
Odkrwane analza zależnośc
Interpretacja wkresów powerzchnowch
Macerz korelacj
Korelacje cząstkowe Gd nteresuje nas zwązek pomędz dwema wranm zmennm prz włączenu wpłwu pozostałch zmennch lczm współcznnk korelacj cząstkowej r.3 r ( r 3 r 3 r 3 )( r 3 ) Zwązek korelacjn pomędz zmennm X X, z włączenem dzałana zmennej X 3
Analza wpłwu wranch zmennch na zużce palwa