Analza zależnośc zmennych loścowych korelacja regresja JERZY STEFANOWSKI Instytut Informatyk Poltechnka Poznańska
Plan wykładu 1. Lnowa zależność mędzy dwoma zmennym: Prosta regresja Metoda najmnejszych kwadratów Właścwośc 2. Zastosowane różnego oprogramowana 3. Weryfkacja równana regresj R2, testy dagnostyczne Analza reszt 4. Inne zagadnena Regresja weloraka Dagnostyka obserwacje odstające
Wykrywane korelacj mędzy zmennym W analze korelacj zadaje sę, m.n. pytana: Czy stneje zwązek współzależność mędzy dwoma zmennym? Jaka jest skala tej zależnośc. Czy jest ona słaba czy slna? Czy stneją możlwośc wyrażena tej zależnośc w postac lczbowej?
Regresja o czym rozmawamy? Główne zadane analzy korelacj Stwerdzene faktu występowana zależnośc mędzy zmennym oraz zbadane sły kerunku tej zależnośc. Analza regresj? Hstora termn użyty przez F.Galtona dla oznaczena pewnych zależnośc w teor dzedzczena. Statystyczne rozumene tego termnu? http://galton.org/
Zadane analzy regresj Wyjaśnene w sposób analtyczny kształtowana sę wartośc jednej zmennej losowej (zmennej zależnej lub objaśnanej) pod wpływam nnej zmennej (nezależnej lub objaśnającej) lub nnych zmennych. Jeżel zmenna losowa Y składa sę z dwóch składowych: pewnej zmennej losowej ε oraz elementu systematycznego f(x) zależnego od zmennej X, to regresją zmennej losowej Y względem X jest równane E(Y X) = f(x), przy czym zakłada sę, że E(ε)=0 Defncja [Słownk statystyczny. Kendall, Buckland] Y = Yˆ + ε Regresja prosta gdze Y ˆ = f ( X ) oznacza teoretyczne pozomy zmennej odczytane z funkcj regresj Funkcje kształt lnowy lub nelnowy
Regresja dalsze uwag Modelowane regresyjne teoretyczne (populacja); przyjęce welu założeń. W rzeczywstych sytuacjach dysponujemy jedyne wynkam obserwacj dla zmennych X Y z próby. [ x y ] = [ x1 y1, x2 y2,, xn yn] Przykład: Na podstawe pomarów przedstawonych na wykrese w forme dagramu rozproszena poszukuje sę pewnej krzywej (często ln prostej), którą można uznać za najlepej obrazująca ogólną tendencję zmany wartośc jednej zmany wartośc jednej zmennej Y w marę jak zmenają sę wartośc drugej zmennej X.
Model regresj Metoda szacowana wartośc lczbowej zmennej zależnej (objaśnanej, wynkowej) y na podstawe wartośc zmennych nezależnych x. Badamy zależność warunkową Formalne poszukujemy modelu y = f ( x, β) y x
Analza regresj Z populacj dzec (w zakrese weku 7-19 lat) wybrano losowo 175 próbę 15 osobową określono dla nch dwe cechy: x wek w 165 latach oraz y wzrost w cm: (7,120),(9,125),(18,164), 155 (11.5,140), (8,122),(11,135), (13,145), (17,162), (10,131), (19,170), 145 (14,150), (12,142), (18.5,168), (15,154), (16,159) WZROST Wykres rozrzutu (Regrwzrost15.STA 2v*15c) y=88,689+4,305*x+eps 175 165 155 Wykres rozrzutu (Regrwzrost15.STA 2v*15c) 135 Wykonaj analzę zależnośc 125 tych zmennych WZROST 145 135 125 115 6 8 10 12 14 16 18 20 Korelacja 0,99 115 6 8 10 12 14 16 18 20 WIEK WIEK
Model predykcj zmennej lczbowej Ilustracja: 209 konfguracj systemów komputerowych Cycle tme (ns) Man memory (Kb) Cache (Kb) Channels Performance MYCT MMIN MMAX CACH CHMIN CHMAX PRP 1 125 256 6000 256 16 128 198 2 29 8000 32000 32 8 32 269 208 480 512 8000 32 0 0 67 209 480 1000 4000 0 0 0 45 Model lnowy PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
Regresja model lnowy Analtyczny sposób przyporządkowana wartośc zmennej zależnej konkretnym wartoścom zmennych nezależnych. Lnowa regresja prosta najprostszy rodzaj regresj, w których zależność zmennych można opsać za pomocą ln prostej. ŷ = a x + b + ε gdze a jest współczynnkem kerunkowym, b wyraz wolny (punkt przecęca z osą rzędnych); x zmenna nezależna, y zmenna zależna (objaśnana, przewdywana), ε - błąd losowy.
Założena modelu regresj Zwązek mędzy x y jest lnowy. Wartośc zmennej nezależnej ne są losowe. Losowość wartośc y pochodz wyłączne ze składnka losowego. Składnk (błędy) losowe mają rozkład normalny o średnej 0 2 o stałej warancj σ Cekawa dyskusja założeń w A.Aczel Statystyka w zarządzanu.
Intucja poszukwana regresj lnowej Przykład z wykładu z Ekonometr (UCI Berkley): Do hgh ncome households consume more or less electrcty than lower ncome households? Take a sample of households. Observe the energy consumpton and ncome of each household. Która lna podsumowująca ogólny trend w danych jest najlepsza?
Lnowa prosta regresj - MNK Rzeczywste dane Wartość teoretyczna funkcj regresj Błąd oszacowana lub rezyduum. ( x, y 1),...,( x n, y y 1 n ˆ y y ˆ = ( x) tzw. wartość resztowa Lnowa regresja prosta wartośc rezyduów pownny być jak najmnejsze dla wszystkch =1,,n. Wskaźnk rozproszena suma kwadratów rezyduów. S 2 = n = 1 ( y yˆ ) Dla lnowego wykresu dużych rezyduów ne ma być zbyt wele metoda najmnejszych kwadratów! (F.Gauss) daje ona najlepsze lnowe neobcążone estymatory parametrów regresj ). f
Przykład Intucja MNK Które resdua (suma kwadratów) są najmnejsze? Proste sumowane: I -5+2+3=0; II -1+2-1=0; III -2+2+0 MNK: I 25+4+9=38; II: 1+4+1=6; III 4+4=8
MNK jak to sę lczy? Sprawdź w J.Koronack, J.Melnczuk, str. 266. S b S a n = = 2 1 ( y ( b + ax )) = n = = 2 1 x ( y ( b + ax )) = 0 0
Szacowane MNK Dokonując odpowednch przekształceń otrzymujemy ) ( ), cov( ) ( ) ( ) ( 2 1 2 1 x S y x x x y y x x a n n = = = = x a y b =
Trochę dyskusj właścwośc: Współczynnk regresj a można zapsać jako cov( x, y) a = S 2 x = r xy S S y x Interpretacja wartośc współczynnka regresj: Ujemna wartość wskazuję na to, że pod wpływem wzrostu zmennej nezależnej x o jednostkę, zmenna zależna y maleje średno o a jednostek Dodatna wartość wzrost y wraz ze wzrostem x o a jedn. a = 0 brak wpływu zmennej nezależnej na zależną! Wyraz wolny rzadko posada sensowną nterpretację.
Przykład lustracyjny (samochody) W frme produkującej samochody przeprowadzono analzę sprzedaży samochodów z ostatnego mesąca. Zebrano dane od 12 dealerów zajmujących sę sprzedażą samochodów tej frmy o welkośc sprzedaży za ostatn mesąc (zmenna zależna Y) oraz czase wykuponej reklamy w ostatnm mesęcy (zmenna nezależna X). Nr dealera y x 1 129 18 2 119 15 3 159 22 4 148 23 5 131 17 6 120 16 7 161 25 8 174 26 9 134 20 10 163 24 11 143 19 12 155 25
Samochody 2 Wykres XY 28 26 24 22 20 18 16 14 12 10 115 120 125 130 135 140 145 150 155 160 165 170 175 180 Oblczene współczynnka korelacj: r xy = 0.9465. (statyst st.) Model lnowy z oszacowanym parametram: y = 51.584 + 4.468 x Wartość a oznacza, że wzrost (spadek) czasu wykuponej reklamy radowej o jedną mnutę spowoduje wzrost (spadek) sprzedaży w przyblżenu o 4.468 sztuk samochodów.
Samochody 3 Model y^ = 51.584 + 4.468 x 185 Wykres rozrzutu (samochody.sta 10v*12c) y=51.582+4.468*x+eps 175 165 155 Y 145 135 125 115 14 16 18 20 22 24 26 28 X Nr dealera x y y^=f(x) 1 18 129 132,01 2 15 119 118,60 3 22 159 149,88 4 23 148 154,35 5 17 131 127,54 6 16 120 123,07 7 25 161 163,28 8 26 174 167,75 9 20 134 140,94 10 24 163 158,82 11 19 143 136,48 12 25 155 163,28
Co zrobmy w Excelu? Funkcje stat. REGLINP
Co zrobmy w Excelu? Dodatek Analza Danych X 1 2 3 4 5 6 7 Y 1 2 3 4 4 5 5 Tak przy okazj jak nterpretować wynk?
Przykład wzrost = f(wek) / Statstca (Statsoft)
Weryfkacja modelu regresj Ocena dopasowana funkcj regresj do danych emprycznych. Składnk resztowy tym wększy, m wększy jest składnk losowy ε, może także wynkać z błędnego przyjęca danej funkcj regresj. Rozkład całkowtej zmennośc zmennej objaśnanej Ocenamy za pomocą warancj sumy kwadratów różnc SST 2 SST = n = 1 ( y y) e = y yˆ 2 S y lub całkowtej
Ocena modelu regresj Całkowtą sumę kwadratów odchyleń (SST) w analze regresj dzel sę na dwe częśc: gdze SST = SSR + 2 SSE ( y y) = ( yˆ y) + ( y SSR regresyjna suma kwadratów odchyleń (część wyjaśnona przez zbudowany model), SSE resztowa suma kwadratów odchyleń (część ne wyjaśnona przez zbudowany model). 2 yˆ) 2
Mary dopasowana modelu regresj do danych Współczynnk determnacj: R 2 SSR = = 1 SST SSE SST Najważnejsza mara dopasowana funkcj regresj do danych emprycznych; Jest to stosunek zmennośc wyjaśnanej przez model do zmennośc całkowtej. Średn błąd kwadratowy: SSE MSE = n 2 Warancja resztowa (k lczba zmennych) 2 1 S = e n k + e 2 ( 1) Błędy standardowe parametrów b : S( b j ) S( b ) = S( b 2 T 1 1 ( ) T = Se X X jj = Se ( X X) jj 0 1 ) = S n = ( x x 1 1 n + odchylene standardowe składnka resztowego standardowy błąd oszacowana SSE S = n 2 S x ) 2 2 n = ( x x 1 ) 2
Na le dobra jest regresja? Współczynnk determnacj jest opsową marą sły lnowego zwązku mędzy zmennym, czyl marą dopasowana ln regresj do danych. współczynnk determnacj --- przyjmuje wartośc z przedzału [0,1] wskazuje jaka część zmennośc zmennej y jest wyjaśnana przez znalezony model. Na przykład dla R 2 =0.619 znalezony model wyjaśna około 62% zmennośc y. Przy okazj: pomyśl o zwązku współczynnka R 2 oraz współczynnka korelacj r.
Testy stotnośc
Hpotezy dotyczące poszczególnych parametrów modelu Ocena poszczególnych parametrów β w modelu (ocena zachodzena zwązku lnowego mędzy zmenną x a y). Test statystyczny Statystyka testowa: Intucja H H t 0 1 : : β = β ( Badamy dla każdego parametru strukturalnego osobno, czy stotne różn sę on od zera. Jeśl ne uda nam sę odrzucć hpotezy zerowej, będze to oznaczało, że zmenna objaśnająca przy której sto dany parametr ne wpływa na zmenną objaśnaną, węc można ją usunąć z modelu (jednakże to wymaga powtórnego oszacowana modelu, z już z aktualnym zestawem zmennych objaśnających). β = S β ) 0 0
Testy hpotez zwązanych z regresją Pojęce modelu statystycznego prosty model regresj lnowej. Testy stotnośc parametrów modelu oraz analza reszt ważne zagadnene ale poczekaj do czwartego roku. Jeśl jesteś necerplwy, to zajrzyj np. rozdzał 10.6 ksążk Aczel Statystyka w zarządzanu.
Samochody 3 Model y^ = 51.584 + 4.468 x 185 Wykres rozrzutu (samochody.sta 10v*12c) y=51.582+4.468*x+eps 175 165 155 Y 145 135 125 115 14 16 18 20 22 24 26 28 X Nr dealera x y y^=f(x) 1 18 129 132,01 2 15 119 118,60 3 22 159 149,88 4 23 148 154,35 5 17 131 127,54 6 16 120 123,07 7 25 161 163,28 8 26 174 167,75 9 20 134 140,94 10 24 163 158,82 11 19 143 136,48 12 25 155 163,28
Samochody 4 R 2 = 0.8958, S = 6.1258 R 2 ozn., że 89.58% zmennośc zmennej y zostało wyjaśnone przez zbudowany model. S przecętne odchylene wartośc emprycznych od wartośc teoretycznych (wynkających ze zbudowanego modelu) wynos 6.1258 sztuk samochodów.
Istotność modelu regresj dla przykładu samochodowego. Model y = 51.584 + 4.468 x Źródło zmennośc Model (część wyjaśnona) Błąd (część newyjaśnona) Lczba stopn swobody (k=1) 1 (n k 1 = n-2) 10 Suma kwadratów odchyleń SSR 3227.4151 SSE 375.2515 Całkowta (n-1) 11 SST 3602.67 Przecętna suma kwadratów odchyleń (MSR=SSR/1) 3227.4151 (MSE=SSE/(n-2)) 37.5252 R2 = 0.8958, S = 6.1258, F = 86.0067 Wartość krytyczna statystyk z tablc rozkładu F przy pozome stotnośc α = 0.05 wynos 4.96 Podsumujmy wynk: Model jest statystyczne stotny.
Rozkłady reszt Sposób szybkej oceny (jakość reszt). Założena modelu lnowego: Składnk (błędy) losowe mają rozkład normalny o średnej 0 o stałej warancj czyl reszty pownny meć charakterystyczny rozrzut; najlepej obserwować to na wykresach rozrzutu reszt Reszty są neskorelowane ze sobą (nezależność) Cekawa dyskusja założeń w A.Aczel Statystyka w zarządzanu
Wykres rozkładu reszt Składnk resztowe w zależnośc od y Składnk resztowe 10 5 0-5 0 5 10 15 20 25 Reszty przypuszczalne spełnają założena modelu regresj. Rozproszene neregularne ale w pase o pewnej szerokośc. Brak korelacj wzajemnej kolejnych składnków.
Wykres rozkładu reszt zestaw 2 Inny przykład wykresu składnków resztowych. t Rozkład reszt 10 0-10 0 20 40 60 80 100 120-20 Układ ln wykresu wskazuje, że reszty następne zależą od poprzednch rozbegają sę poza ogranczony pas.
Model lnowy regresj welokrotnej (welowymarowej) Założene: wpływ każdej rozpatrywanej zmennej objaśnającej na zmenną y jest lnowy ne zależy od wartośc nnych zmennych y Zaps macerzowy: xm odpowada y; wyraz wolny dodatkowa zmenna x 0 =1 Rozwązane MNK = 0 1 1 2 2 m m β + β x + β x + + β x + ε Y = X β + ε b ( ' ) 1 ' X X X Y Zasady oceny testowana podobne = Węcej A.Aczel: Statystyka w zarządzanu (rozdzał 11)
Zaps wektorowy Ogólna postać Rozwązane MNK b X y = ˆ y X X X b T T 1 ) ( = = = = = = = = = n n n n n n n y x y n x x x x x n b b 1 1 1 1 1 2 2 1 1 2 1 0 ) ( 1
Przykład W celu zbadana zależnośc mędzy zyskam pewnej frmy a wydatkam na szkolena handlowców, dokonano porównana wynków dla 5 kwartałów (x - wydatk na szkolena handlowców w tys. zł, y zysk frmy w tys. zł): x 1 2 3 4 5 y 100 100 200 250 350
400 350 y = 65x + 5 R 2 = 0,9389 300 250 200 150 100 50 0 0 2 4 6
y= 100 100 200 250 350 X= 1 1 1 2 1 3 1 4 1 5 X T = 1 1 1 1 1 1 2 3 4 5 X T X= 5 15 15 55 detx T X= 50 (X T X) -1 = 1,1-0,3-0,3 0,1 X T y= 1000 3650 b= 5 65 y = 5 + 65x
2 e y = 70 135 200 265 330 917 e= e T e= 30-35 0-15 20 2750 S = (X T X) -1 = e T = 1,1-0,3-0,3 0,1 30-35 0-15 20 S = e 30,3 S ( b 0 ) = 31,75 S ( b 1 ) = 9,58 S = 9,74 2 = 95 y S y R 2 = 1 2750 5* 9000 = 1 0, 06 = 0, 94 = 94%
Regresja welokrotna Dane są nformacje o budżece reklamowym pewnego produktu, jego cena jednostkowa oraz fnalna sprzedaż jednostkowa. BUDŻET CENA SPRZEDAZ 1 3500 88 16523 2 10073 110 6305 3 11825 85 1769 4 33550 28 30570 5 37200 101 7698 6 55400 71 9554 7 55565 7 54154 8 66501 82 54450 9 71000 62 47800 10 82107 24 74598 11 83100 91 25257 12 90496 40 80608 13 100000 45 40800 14 102100 21 63200 15 132222 40 69675 16 136297 8 98715 17 139114 63 75886 18 165575 5 83360
Regresja nelnowa Dane nt. polskego rybołówstwa dalekomorskego (lata 90te).
Regresja nelnowa cd. Model funkcj kwadratowej (estymacja?) Polowy Model regresj 400 350 300 250 200 150 100 50 0 20 30 40 50 60 70 80 90 Statk y = 0,25071 x + 30,7079 x 2 581,49
Regresja obserwacje odstające / skrajne 180 Wykres rozrzutu (Regr1.STA 2v*16c) y=87.723+4.148*x+eps 170 160 150 WZROST 140 130 120 odcagane 110 100 Obserwacja odstająca 90 6 8 10 12 14 16 18 20 WIEK
Ogólny schemat postępowana Ustalene założeń postac modelu Szacowane parametrów strukturalnych modelu na podstawe wynków próby Weryfkacja modelu: czy parametry są stotne? czy zależność jest lnowa? NIE TAK Wykorzystane modelu: 1. Predykcja zmennej Y 2. Ops zależnośc mędzy zmennym
Klka uwag dla zanteresowanych: Analza regresj to cekawe praktyczne teoretyczne zagadnene. Ne powedzelśmy za dużo o: Analze reszt badanu poprawnośc modelu. Regresj welowymarowej (welorakej). Wykorzystanu modelu regresj do prognozowana. Regresj nelnowej. Selekcj zmennych w modelach welowymarowej. Zawsze możesz sam poszukać czytaj ksążk!
Lteratura Statystyka dla studentów kerunków techncznych przyrodnczych, Koronack Jacek, Melnczuk Jan, WNT, 2001. Statystyka w zarządzanu, A.Aczel, PWN 2000. Statystyka praktyczna. W.Starzyńska, Statystyka. Wprowadzene do analzy danych sondażowych eksperymentalnych. G.Weczorkowska, Scholar, 2004. Przystępny kurs statystyk, Stansz A., 1997. Tom 2 pośwęcony wyłączne analze regresj! I wele nnych
Dzękuję za uwagę Czytaj także podręcznk!