WSPÓŁZALEŻNOŚĆ PROCESÓW MASOWYCH Co w Sylabuse?. Aalza korelacj. Testy ezależośc 3. Aalza regresj 4. Regresja perwszego drugego rodzaju 5. Woskowae statystycze
WSPÓŁCZYNNIK KORELACJI (PEARSONA) Aalza korelacj regresj dzał statystyk zajmujący sę badaem zwązków zależośc mędzy rozkładam dwu lub węcej badaych cech w populacj geeralej. Przykłady z życa wzęte : czy steje zależość mędzy ceą a popytem? mędzy ceą a podażą? m wo starsze tym lepsze? co ma perk do watraka?..???? Współczyk korelacj podstawowa mara sły zależośc mędzy badaym cecham w populacj. Ozaczamy go przez r. Może o przyjmować wartośc z przedzału ; Współczyk korelacj: cov( x, y) r s x s y gdze: cov( x, y) x x y y, s x x x s x - odchylee stadardowe zmeej X s y y y sy - odchylee stadardowe zmeej Y Pamętaj! r ;
Waże są: Sła korelacj Keruek korelacj Sła korelacj W przypadku gdy: r 0,9 mówmy o bardzo slej zależośc łączącej cechy X Y. r 0, mówmy od braku zwązku mędzy badaym cecham 0, r 0,9 w zależośc od lczby elemetów próby woskujemy o umarkowaej, względe zaczącej zależośc łączącej obe zmee Keruek korelacj dla r 0 ( r 0) mówmy o korelacj dodatej (ujemej) X zmea ezależa (objaśająca) Y- zmea zależa (objaśaa)
Jak to może wyglądać grafcze?. Korelacja dodata. Korelacja ujema 3. Brak korelacj 4. Korelacja krzywolowa Źródło: Ecyklopeda zarządzaa, https://mfles.pl/pl/dex.php/korelacja
Przykład: Badao zależość mędzy wzrostem a rozmarem buta. Na podstawe 0 par obserwacj uzyskao astępujące wyk: wzrost rozmar 89 45 60 38 70 39 7 36 80 4 6 39 90 45 8 46 55 36 75 43 Od czego moża zacząć? Od sporządzea poglądowego wykresu par obserwacj: Buty 48 46 44 4 40 38 36 34 3 30 50 55 60 65 70 75 80 85 90 95 Sądząc z rozkładu puktów a wykrese możemy spodzewać sę korelacj dodatej. (kolokwale: m ktoś wyższy, tym ma wększy rozmar buta) > buty.wzrost<-c(89,60,70,7,80,6,90,8,55,75) > buty.rozmar<-c(45,38,39,36,4,39,45,46,36,43) > plot(buty.wzrost,buty.rozmar)
> plot(buty.wzrost, buty.rozmar, ma="buty",pch=9, col="blue")
Oblczymy teraz r współczyk korelacj. ozacza lczbę par obserwacj, u as jest ch 0. W przypadku dużych plków moża to polczyć wykorzystując język R. > =legth(buty.wzrost) > [] 0 Oblczamy teraz x x oraz y y ze wzorów: > x.sr<-sum(buty.wzrost)/ > x.sr [] 73.3 > y.sr<-sum(buty.rozmar)/ > y.sr [] 40.9 albo wykorzystując pozae wcześej mary statystycze: mea() > x.sr<-mea(buty.wzrost) > x.sr [] 73.3 > y.sr<-mea(buty.rozmar) > y.sr [] 40.9 waracja zmeej losowej x (wzrostu) > var.x<-sum((buty.wzrost-x.sr)^)/ > var.x [] 3.8 s x x x waracja zmeej losowej y (rozmaru) s y y > var.y<-sum((buty.rozmar-y.sr)^)/ > var.y [].89 y jeśl skorzystamy z gotowej fukcj var() > var.x<-var(buty.wzrost) > var.x [] 47.5667 Czy coś tutaj e gra????
Wszystko gra R (tak jak Excel, Access, SAS, Statstca e) lczy warację ze s x x x wzoru Węcej formacj a temat obcążoej eobcążoej waracj moża zaleźć tu: http://bol.uw.edu.pl/formatyka/for/cz4/for08.html Jak sę ma var.x do var.x? var.x=(-)*var.x/ już. Żeby użyć var() wystarczy var.x=(-)*var()/. Po sprawdzeu w R jest ok. > var.x<-(-)*var(buty.wzrost)/ > var.x [] 3.8 Podobe dla drugej zmeej: > var.y<-var(buty.rozmar) > var.y [] 4.3 > var.y<-(-)*var(buty.rozmar)/ > var.y [].89 s - odchylee stadardowe zmeej X to s x x s x s - odchylee stadardowe zmeej Y to s y > s.x<-sqrt(var.x) > s.x [].543 > s.y<-sqrt(var.y) > s.y [] 3.59065 y s y a co z fukcją sd()? > s.x<-sd(buty.wzrost) [].477 > s.x<-sqrt((-)/)*sd(buty.wzrost) > s.x [].543 > s.y<-sd(buty.rozmar) > s.y [] 3.78447 > s.y<-sqrt((-)/)*sd(buty.rozmar) > s.y
[] 3.59065 cov( x, y) x x y y polczmy w R: cov.xy=sum((buty.wzrost-x.sr)*(buty.rozmar-y.sr))/ > cov.xy [] 35.73 Wykorzystamy fukcję cov() tutaj też wzór jest cov( x, y) x x y y > cov.xy<-cov(buty.wzrost, buty.rozmar) > cov.xy [] 39.7 > cov.xy<-(-)*cov(buty.wzrost, buty.rozmar)/ > cov.xy [] 35.73 cov( x, y) r s x s y > r.xy<-cov.xy/(s.x*s.y) > r.xy [] 0.8635573 Namęczylśmy sę trochę, teraz wykorzystajmy fukcję cor() > r.xy<-cor(buty.rozmar,buty.wzrost) > r.xy [] 0.8635573 Wdać, jak bardzo moża przyspeszyć oblczea używając gotowych fukcj, ale teraz wadomo, skąd to sę wzęło Współczyk korelacj wyszedł rówy 0.86 możemy woskować o slej korelacj dodatej (czyl m ktoś wyższy, tym wększe buty os) Iterpretacja wartośc ocey współczyka korelacj powa być poprzedzoa jego testowaem. Istotość współczyka korelacj jest dość moco uzależoa od lczebośc próby, a podstawe której wyzaczoo jego wartość. Bywa, że stosukowo ewysoka (dodata lub ujema) wartość r przy dużej próbe jest statystycze stota, atomast współczyk korelacj rzędu 0,6 lub 0,7 może sę okazać statystycze estoty przy małej próbe.
W Excelu oblczea wyglądają astępująco:
Test stotośc dla współczyka korelacj H : 0 statystyka : t 0 r r H H H : 0 : 0 : 0 obszar krytyczy K K K ( ; t ( t, ( ; t, ; ), ) ( t ), ; ) (gdze ozacza lość par) Przeprowadźmy teraz test stotośc dla współczyka korelacj: Na pozome stotośc alfa 0.05 zweryfkuj hpotezę o steu dodatej korelacj mędzy wzrostem a rozmarem buta. Stawamy hpotezy zerową alteratywą: H : 0 (brak korelacj) 0 H : 0 (steje korelacja dodata) r Oblczamy wartość statystyk ze wzoru t r 0.8635 U as: t 0 4. 84 0.8635 Wyzaczamy obszar krytyczy: K ( t ;, ). Kwatyl odczytujemy z tablc (patrz żej): t t t, 860, 0.05,0 0.;8 Kwatyle rozkładu t- Studeta k 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, 0,05 0,04 0,0 0,0 0,58 0,35 0,50 0,77,000,376,963 3,078 6,34,706 5,895 3,8 63,657 0,4 0,89 0,445 0,67 0,86,06,386,886,90 4,303 4,849 6,965 9,95 3 0,37 0,77 0,44 0,584 0,765 0,978,50,638,353 3,8 3,48 4,54 5,84 4 0,34 0,7 0,44 0,569 0,74 0,94,90,533,3,776,999 3,747 4,604 5 0,3 0,67 0,408 0,559 0,77 0,90,56,476,05,57,757 3,365 4,03
6 0,3 0,65 0,404 0,553 0,78 0,906,34,440,943,447,6 3,43 3,707 7 0,30 0,63 0,40 0,549 0,7 0,896,9,45,895,365,57,998 3,499 8 0,30 0,6 0,399 0,546 0,706 0,889,08,397,860,306,449,896 3,355 9 0,9 0,6 0,398 0,543 0,703 0,883,00,383,833,6,398,8 3,50 0 0,9 0,60 0,397 0,54 0,700 0,879,093,37,8,8,359,764 3,69 0,9 0,60 0,396 0,540 0,697 0,876,088,363,796,0,38,78 3,06 0,8 0,59 0,395 0,539 0,695 0,873,083,356,78,79,303,68 3,055 Obszar krytyczy wyos węc: ( ; ),860; K t, Oblczoa wartość statystyk ależy do obszaru krytyczego, węc odrzucamy hpotezę zerową a korzyść hpotezy alteratywej. Możemy węc twerdzć, że cechy są skorelowae dodato (czyl: wzrost ma wpływ a rozmar buta, m ktoś wększy, tym wększy rozmar obuwa) Teraz wracamy do R: Zastosujemy cor.test() Ścąga: Najpopularejszą marą zależośc medzy dwema zmeym loścowym są współczyk korelacj Pearsoa, Spearmaa oraz Kedalla. X,Y - zmee o wartoścach lczbowych. cor.test(x, y, alteratve = c("two.sded", "less", "greater"), method = c("pearso", "kedall", "spearma"), cof.level = 0.95,...) alteratve - wybór hpotezy alteratywej method - współczyk korelacj, którego stotość będze testowaa (domyśle jest Pearsoa) cof.level - wskazuje pozom ufośc (domyśle jest 0,95) cor.test(buty.rozmar,buty.wzrost,alteratve ="greater",method="pearso", cof.level =.95) Pearso's product-momet correlato data: buty.rozmar ad buty.wzrost t = 4.8438, df = 8, p-value = 0.0006409 alteratve hypothess: true correlato s greater tha 0 95 percet cofdece terval: 0.5950657.0000000 sample estmates: cor 0.8635573
Łatwej (o le odpowada am pozom ufośc) - efekt jest te sam. > cor.test(buty.rozmar,buty.wzrost,alteratve ="greater") Pearso's product-momet correlato data: buty.rozmar ad buty.wzrost t = 4.8438, df = 8, p-value = 0.0006409 alteratve hypothess: true correlato s greater tha 0 95 percet cofdece terval: 0.5950657.0000000 sample estmates: cor 0.8635573 p-value dla doceklwych tych, co chcą wedzeć węcej: http://pogotowestatystycze.pl/stotosc-statystycza/ https://pl.wkpeda.org/wk/warto%c5%9b%c4%87_p Regresja, fukcja regresj podstawowe arzędze do badaa charakteru kształtu zwązku mędzy rozkładam cech. Regresja lowa fukcja regresj, która ma postać fukcj lowej y b 0 b x Regresja krzywolowa fukcja regresj, która jest dowolą fukcją elową. Może być p. fukcją potęgową, wykładczą, logarytmczą, td. Metoda ajmejszych kwadratów metoda aproksymacj fukcj określoego typu, do zboru puktów empryczych. Metoda ta polega a takm doborze parametrów aproksymowaej fukcj, by suma kwadratów odchyleń rzędych puktów empryczych od wykresu tej fukcj była ajmejsza. Sprowadza sę oa do rozwązaa odpowedego, dla daego typu aproksymacj, układu rówań.
Prosta regresj y x cov( x, y) 0 gdze: s x y x 0 Wyzaczymy teraz prostą regresj ze wzoru: > beta.<-cov.xy/var.x > beta. [] 0.690309 > beta.0<-y.sr-beta.*x.sr > beta.0 [] -5.73063 Mamy węc prostą regresj y 5.73063 0. 690309x Z dokładoścą do trzech mejsc po przecku: y 5.73 0. 69x > x<-buty.wzrost > y<-buty.rozmar prostą regresj (model lowy zależośc) > ft.lm<-lm(y~x) > ft.lm Call: lm(formula = y ~ x) Coeffcets: (Itercept) x -5.73 0.69 Współczyk prostej regresj: > beta0<-coef(ft.lm)[] > beta0 (Itercept) -5.73063 > beta<-coef(ft.lm)[] > beta x 0.690309 Wykres prostej regresj > curve(beta0+beta*x, from = m(x), to = max(x), col='red', ylm=c(m(y), max(y)), xlab='wzrost', ylab='rozmar buta') > pots(x,y)
Stopeń dopasowaa modelu Współczyk determacj R² jeda z podstawowych mar jakośc dopasowaa modelu. 0,0 0,5 dopasowae ezadowalające 0,5 0,6 dopasowae słabe 0,6 0,8 dopasowae zadowalające 0,8 0,9 dopasowae dobre 0,9,0 dopasowae bardzo dobre Iformuje o tym, jaka część zmeośc zmeej objaśaej została wyjaśoa przez model. Jest o węc marą stopa, w jakm model wyjaśa kształtowae sę zmeej objaśaej. Moża róweż powedzeć, że współczyk determacj opsuje tę część zmeośc objaśaej, która wyka z jej zależośc od uwzględoych w modelu zmeych objaśających. Współczyk determacj przyjmuje wartośc z przedzału [0;] jeśl w modelu występuje wyraz woly, a do estymacj parametrów wykorzystao metodę ajmejszych kwadratów. Jego wartośc ajczęścej są wyrażae w procetach. Dopasowae modelu jest tym lepsze, m wartość R² jest blższa jedośc. Wyraża sę o wzorem:
R gdze: ŷ SSM SST yˆ y y y wartość teoretycza zmeej objaśaej (a podstawe modelu) Oblczamy wartośc modelowe: > y.m<-beta0+beta*x > y.m [] 45.379 37.389 40.00 40.83 4.705 37.5909 45.398 43.405 7 35.97673 4.35735 Które możemy porówać teraz z wartoścam uzyskaym z próby: > y [] 45 38 39 36 4 39 45 46 36 43 Możemy wartośc zestawć obok sebe: > cbd(buty.wzrost,buty.rozmar,y.m) buty.wzrost buty.rozmar y.m [,] 89 45 45.379 [,] 60 38 37.389 [3,] 70 39 40.00 [4,] 7 36 40.83 [5,] 80 4 4.705 [6,] 6 39 37.5909 [7,] 90 45 45.398 [8,] 8 46 43.4057 [9,] 55 36 35.97673 [0,] 75 43 4.35735 > cbd(buty.wzrost,buty.rozmar,roud(y.m,)) buty.wzrost buty.rozmar [,] 89 45 45. [,] 60 38 37.3 [3,] 70 39 40.0 [4,] 7 36 40.3 [5,] 80 4 4.7 [6,] 6 39 37.6 [7,] 90 45 45.4 [8,] 8 46 43. [9,] 55 36 36.0 [0,] 75 43 4.4 Czy te różce są duże? > roz.y_y.m<-buty.rozmar-y.m > roz.y_y.m [] -0.378586 0.67859 -.09788-4.888-0.7050734.4090806 4-0.39868.75943077 [9] 0.03663.6464739
> cbd(buty.wzrost,buty.rozmar,y.m, roz.y_y.m) buty.wzrost buty.rozmar y.m roz.y_y.m [,] 89 45 45.379-0.378586 [,] 60 38 37.389 0.67859 [3,] 70 39 40.00 -.09788 [4,] 7 36 40.83-4.888 [5,] 80 4 4.705-0.7050734 [6,] 6 39 37.5909.40908064 [7,] 90 45 45.398-0.39868 [8,] 8 46 43.4057.75943077 [9,] 55 36 35.97673 0.03663 [0,] 75 43 4.35735.6464739 Polczmy zatem SSM SST w języku R > ssm<-sum((y.m-y.sr)^) > ssm [] 96.476 > sst<-sum((y-y.sr)^) > sst [] 8.9 Współczyk determacj > R.=ssm/sst > R. [] 0.74573 R SSM SST yˆ y y y Iformuje as, że rozmar buta moża w ok 75% wyjaść wzrostem, pozostałe 5% to będą e czyk (gey?, waga?...) Uwaga: przy regresj prostej (jedowymarowej) zachodz zwązek: R r Tutaj: R 0.8635573 0. 74573 > r.xy [] 0.8635573 > r.xy^ [] 0.74573 Skorygoway współczyk determacj R R R (dokłade R R R, gdze k to lczba zmeych objaśających (u as ( k ) k=) jest to cea, którą sę płac za lczbę zmeych objaśających. > R._skor <- R.-(-R.)/(-) > R._skor [] 0.739476
Błędy oszacowaa w regresj lowej e Odchylee stadardowe składka resztowego Se, gdze e y yˆ Odchylee stadardowe składka resztowego jeda ze statystyczych mar jakośc progozy. Wartość odchylea stadardowego reszt formuje, jake są przecęte odchylea wartośc rzeczywstych zmeej progozowaej od teoretyczych. Im mejsza jest wartość tego merka, tym lepsza jakość modelu. > se<-sqrt(sum((roz.y_y.m)^)/(-)) > se [].0408 Błędy stadardowe współczyków regresj: S s e x x S 0 e s x x x > s.beta<-sqrt(se^/(var.x*)) > s.beta [] 0.05554086 > s.beta0<-sqrt(se^*sum(x^)/(*var.x*)) > s.beta0 [] 9.646489 Test t-studeta pozwala zweryfkować stotość oszacowaa parametru dla każdej zmeej objaśającej (x) osobo, tz.: H H 0 : 0 : 0 statystyka: Obszar krytyczy: K ; t ) t (, k, k ; t s
U as: Dla parametru Natomast dla 0 5,7396 mamy: 0, 593 9,64649 0,6903 dostajemy: t 4, 844 0,05554 t, kwatyl z tablc:,306 (dla 0, 05 ) a węc w przypadku e odrzucamy H 0, w przypadku 0 odrzucamy H 0 Łącza stotość oszacowań parametrów może być weryfkowaa przy pomocy testu Walda: H 0 :... 0 H : k 0 k Statystyka: ( R R / k ) /( k ) F. F Kwatyl rozkładu F-Sedecora:, k, ( k) U as: 0.7457 / F 3,46 ( 0.7457) /( ) F F 5, Kwatyl: 3 0.05,,0( ) 0.05,,8 A węc odrzucamy hpotezę zerową, model jest stoty. Zróbmy to jeszcze w języku R: > t.beta0<-beta.0/s.beta0 > t.beta0 [] -0.593794 > t.beta<-beta./s.beta > t.beta [] 4.843839 > F.par<-(R./)/((-R.)/(-(+))) > F.par [] 3.4677 Kwatyl z rozkładu t-studeta: > qt(0.975,8) [].306004 Kwatyl z rozkładu F-Sedecora: > qf(0.95,,8) [] 5.37655
I już wszystko jase: > summary(ft.lm) Call: lm(formula = y ~ x) Resduals: M Q Meda 3Q Max -4.8-0.65-0.0503.63.7594 Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) -5.7306 9.64649-0.593 0.56938 x 0.6903 0.05554 4.844 0.008 ** --- Sgf. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. Resdual stadard error:.04 o 8 degrees of freedom Multple R-squared: 0.7457, Adjusted R-squared: 0.739 F-statstc: 3.46 o ad 8 DF, p-value: 0.008
Wykres rozkładu reszt w R > roz.y_y.m [] -0.378586 0.67859 -.09788-4.888-0.7050734.4090806 4-0.39868.75943077 [9] 0.03663.6464739 > plot(x,roz.y_y.m);able(h=0) Albo: > plot(x,ft.lm$resduals);able(h=0) Predykcja parametrów (progozowae z modelu) Jakego teoretycze rozmaru buta ależy sę spodzewać w przypadku osoby o wzrośce 7cm? Nasza prosta regresj to y 5.73 0. 69x Wystarczy za x podstawć 7 mamy predykcję >y.m<-beta0+beta*x > beta0+beta*7 (Itercept) 40.5506 Moża to zrobć wykorzystując fukcję predct()
>predct(lm(y~x)) 3 4 5 6 7 8 9 0 45.379 37.389 40.00 40.83 4.705 37.5909 45.398 43.4057 35. 97673 4.35735 Porówaj z: > y.m [] 45.379 37.389 40.00 40.83 4.705 37.5909 45.398 43.405 7 35.97673 4.35735 Ne bardzo podobają am sę rozmary z dokładoścą do 5 mejsc po przecku. Możemy zaokrąglć (do góry, bo przeceż kt e os za małych butów ) > rozm.teor<-celg( predct(lm(y ~ x))) > rozm.teor 3 4 5 6 7 8 9 0 46 38 4 4 43 38 46 44 36 4 > cbd(buty.rozmar, rozm.teor) buty.rozmar rozm.teor 45 46 38 38 3 39 4 4 36 4 5 4 43 6 39 38 7 45 46 8 46 44 9 36 36 0 43 4 > predct(lm(y~x),data.frame(x=7)) 40.5506 > celg(predct(lm(y~x),data.frame(x=7))) 4 Progozy moża dokoać też dla wększej lczby parametrów: > ew<-data.frame(x=c(60,70,80,90)) > ew x 60 70 3 80 4 90 > pred<-predct(lm(y~x),ew) > pred 3 4 37.389 40.00 4.705 45.398 Albo z zaokrągleem:
> pred=celg(predct(lm(y~x),ew)) > pred 3 4 38 4 43 46 Zestawamy razem: > cbd(ew,pred) x pred 60 38 70 4 3 80 43 4 90 46 > pred<-predct(lm(y ~ x), ew, terval = "cofdece") > pred ft lwr upr 37.389 35.06794 39.57583 40.00 38.47687 4.54753 3 4.705 40.9958 44.40983 4 45.398 4.79408 47.9956 > cbd(ew, pred) x ft lwr upr 60 37.389 35.06794 39.57583 70 40.00 38.47687 4.54753 3 80 4.705 40.9958 44.40983 4 90 45.398 4.79408 47.9956 Co dla 7cm?? > predct(lm(y ~ x), data.frame(x=7), terval = "cofdece") ft lwr upr 40.5506 39.06489 4.03563 Stadardowy błąd progozy wylcza sę ze wzoru: s yˆ x s e x x x x U as dla x=7 otrzymamy 7 73,3 s yˆ 7,04 0,644 0 38, Przy daym współczyku ufośc przedzał ufośc ma krańce: yˆ x t, s yˆ x Zakładając pozom ufośc 0,95, t t, 306 oraz yˆ7 0, 644 t ˆ, s yx,306 0,644, 485 przedzał ufośc dla x=7, 40,55,485 ; 40,55,485 39,065 ; 4,035, 0,05,8 s dostajemy
Co dla 7cm?? > predct(lm(y ~ x), data.frame(x=7), terval = "cofdece") ft lwr upr 40.5506 39.06489 4.03563 > predct(lm(y ~ x),data.frame(x=7),terval = "cofdece", se.ft=true) $`ft` ft lwr upr 40.5506 39.06489 4.03563 $se.ft [] 0.644303 $df [] 8 $resdual.scale [].0408 Dla klku wybraych wartośc zmeej: > pred<-predct(lm(y ~ x), ew, terval = "cofdece") > pred ft lwr upr 37.389 35.06794 39.57583 40.00 38.47687 4.54753 3 4.705 40.9958 44.40983 4 45.398 4.79408 47.9956 > cbd(ew, pred) x ft lwr upr 60 37.389 35.06794 39.57583 70 40.00 38.47687 4.54753 3 80 4.705 40.9958 44.40983 4 90 45.398 4.79408 47.9956 > cbd(ew, roud(pred,)) x ft lwr upr 60 37.3 35. 39.6 70 40.0 38.5 4.5 3 80 4.7 4.0 44.4 4 90 45.4 4.8 48.0