ANALIZA KORELACJI IREGRESJILINIOWEJ 1. ZALEŻNOŚCI STOCHASTYCZNE Badajac zjawiska o charakterze masowym, w tym szczególie zjawiska spo leczo-ekoomicze, stwierdzamy, że każde z ich jest uwarukowae dzia laiem iych zjawisk. Na przyk lad, produkt krajowy brutto (ozaczmy go przez Y ) zależy od takich zmieych, jak: stopa bezrobocia (X 1 ), liczba mieszkańców (X 2 ), stopa iwestycji (X 3 )itp. Na ogó lpowiazaia pomiedzy cechami ie majacharakterumatematyczego, który da loby siezapisaćwpostaci Y = f(x 1,X 2,...,X s ), gdzie f ozacza pewa fukcjezmieychx 1,X 2,...,X s. Zapis taki ozacza lby, że zależość pomiedzy cecha Y a pozosta lymi cechamy jest ściśle fukcyja, tj. kokretym wartościom x 1,x 2,...,x s cech X 1,X 2,...,X s,zwaychzmieymi objaśiajacymi, odpowiada dok ladie jeda wartość cechy Y,zwaejzmieaobjaśia a. W praktyce ściśle fukcyje zależości miedzy zmiea objaśiaa Y a zmieymi objaśiajacymi X 1,X 2,...,X s rzadko siezdarzaj a, gdyż ay a ogó l oddzia lujaróże dodatkowe zmiee, czestooróżokierukowych wp lywach. Ztegopowoduzależość pomiedzy zmieymi zapisujemy w postaci Y = f(x 1,x 2,...,x s )+ɛ, (1) gdzie x 1,x 2,...,x s reprezetuja tu kokrete (ustaloe) wartości zmieych objaśiajacych X 1,X 2,...,X s, atomiast ɛ jest tzw. sk ladikiem b l edu, reprezetujacym sumaryczy wp lyw iych zmieych, które ie sa bezpośredio obserwowae. Na ogó l zak lada sie, że sk ladik ɛ ma wartość średiarów a0 oraz pewadodati awariacj e. Uwzgledieie w modelu (1) sk ladika b l edu ɛ powoduje, że kokretym wartościom x 1,x 2,...,x s zmieych objaśiajacych moga odpowiadaćietakie same, ale róże wartości zmieej objaśiaej Y. O zależości tego rodzaju mówimy, że jest zależościa stochastycza. W przypadku, gdy przyajmiej zmiea objaśiaa jest zmiea ilościowa, zależość określamy miaem korelacyjej. 1
2. MODEL REGRESJI LINIOWEJ W dalszych rozważaiach przyjmiemy, że fukcja f ależy do klasy fukcji liiowych oraz za lożymy, że mamy (obok ilościowej zmieej objaśiaej Y )tylko jeda ilościowazmie aobjaśiaj ac a X. Wówczas rówaie (1) sprowadza sie do postaci Y = a + b x + ɛ, (2) gdzie a i b sapewymista lymi. Rówaie (2) azywamy modelem regresji liiowej zmieej Y wzgledem zmieej X. Fukcje f(x) =a + bx azywamy prostaregresjii ozaczamy w skrócie symbolem ŷ. Wartość ŷ i = a + bx i, wyzaczoa dla zadaej wartości x i, azywamy przewidywaawartości a zmieej objaśiaej Y, w przypadku gdy zmiea objaśiajaca X rówa jest x i. Wspó lczyiki a i b azywamy odpowiedio wyrazem wolym i wspó lczyikiem regresji. 3. METODA NAJMNIEJSZYCH KWADRATÓW Podstawowym problemem, jaki pojawia sie w badaiu zależości stochastyczych, jest określeie wartości wspó lczyików a i b w modelu (2). Dokoujemy tego a podstawie obserwacji wartości cech Y i X. Niech (y 1,x 1 ), (y 2,x 2 ),...,(y,x ), bedzie ciagiem wartości zmieych Y oraz X zaobserowowaych w -elemetowej zbiorowości (wartości x i moga być zadae z góry). Jako kryterium dopasowaia fukcji f do daych empiryczych przyjmiemy sumepostaci S(a, b) = (y i ŷ i ) 2 = (y i (a + bx i )) 2. (3) Prostaregresjiŷ = a + bx, której wartości wspó lczyików a i b wyzaczoe zosta ly w drodze miimalizacji sumy (3), azywamy prosta regresji oparta a metodzie ajmiejszych kwadratów lub w skrócie prostaregresji MNK. W celu zalezieia miimum fukcji S(a, b) obliczymy pochode czastkowe wzgledem iewiadomych a i b S(a, b) a S(a, b) b = 2 = 2 (y i (a + bx i )), x i (y i (a + bx i )). 2
Po przyrówaiu obu pochodych do 0 i po dokoaiu prostych przekszta lceń, otrzymujemy astepuj acy uk lad dwóch rówań y i a b x i =0, (4) x i y i a x i b x 2 i =0. (5) Zrówaia (4) atychmiast otrzymujemy, że ( a = 1 ) y i b x i =ȳ b x, (6) gdzie x = 1 x i, ȳ = 1 y i. Wstawmy powyższe wyrażeie do rówaia (5). Mamy x i y i (ȳ b x) x i b x 2 i =0, co po prostych przekszta lceiach daje b = (x i x)(y i ȳ) (x i x) 2, przy za lożeiu, że (x i x) 2 0. (7) Tak wiec prosta regresji ŷ = a+bx oparta a metodzie MNK jest jedozaczie wyzaczoa przez wspó lczyiki a i b określoe wzorami (6), (7). Wspó lczyik regresji b iformuje, o ile średio zmieia sie(rośie lub maleje) wartość zmieej Y,jeśli x zwiekszymy o jedostke. Fukcje regresji możemy wykorzystać do przewidywaia wartości zmieej objaśiaej Y dla zadaych wartości x zmieej objaśiajacej X (przy za lożeiu, że postać zależości korelacyjej zmieej Y wzgledem zadaych wartości zmieej X ie ulega zmiaie). Przewidywaie to musi dodatkowo uzwglediaćtzw. b l ad przewidywaia. B l ad te przybliżamy za pomocaśredie- go b l edu szacuku S ɛ,októrym mowa w astepym pukcie. 3
4. OCENA DOBROCI DOPASOWANIA FUNKCJI REGRESJI Wiadomo, że zmieość dowolej cechy ilościowej moża oceić zapomocajej wariacji. Dyspoujac wartościami y 1,y 2,...,y zmieej objaśiaej Y,wariacje s 2 y tej cechy wyzaczymy ze wzoru s 2 y = 1 (y i ȳ) 2 lup pomijajac sk ladik 1/, zapomoca sumy kwadratów (total sum of squares) SST = (y i ȳ) 2. Moża pokazać, że SST daje si eroz lożyćadwiesumy,które też iterpretujemy w kategoriach zmieości, miaowicie SST = ɛ 2 i {}}{ (y i ŷ i ) 2 + (ŷ i ȳ) 2, gdzie ŷ i = a + bx i. Pierwsza suma osi azwe sumy kwadratów b l edów (error sum of squares) i jest ozaczaa symbolem SSE, a druga suma osi miao regresyjej sumy kwadratów (regressio sum of squares) i jest ozaczaa przez SSR. Sume SSR możemy iterpretować jakomiare zmieości wartości przewidywaych ŷ i wokó l ichpoziomuśrediego, rówego ȳ. Zatem SSR określa te cześci a zmieości ca lkowitej SST,któramoża objaśić zapomoca wyzaczoej fukcji regresji (opisujacej charakter zależości miedzy zmieaobjaśia a Y iobjaśiajac a X). Druga suma SSE ozacza tecz eść zmieości ca lkowitej SST, która ie jest wyjaśioa przez model regresji. Tym samym iloraz R 2 = SSR SST = (ŷ i ȳ) 2 (y i ȳ) 2, (zak ladamy tu, że ) (y i ȳ) 2 0 zway wspó lczyikiem determiacji, określa, w jakim stopiu ca lkowita zmieość zmieej Y jest objaśiaa przez fukcjeregresji. Mówimy, że wspó lczyik determiacji jest miara dobroci dopasowaia fukcji regresji do daych empiryczych. Rozważmy jeszcze pierwiastek kwadratowy z sumy kwadratów b l edów SSE podzieloej przez liczebość badaej zbiorowości, pomiejszoa o liczbe parametrów fukcji regresji (w przypadku regresji liiowej jedej zmieej mamy tylko dwa parametry a i b). Ozaczmy te pierwiastek symbolem S ɛ.mamy SSE S ɛ = 2 = 1 (y i ŷ i ) 2 2 = 1 ɛ 2 i 2. (8) 4
Wielkość (8)azywamyśredim b l edem szacuku i iterpretujemy jako średi b l ad przewidywaia poziomu zmieej Y a podstawie fukcji regresji. 5. ANALIZA SI LY I KIERUNKU KORELACJI LINIOWEJ Za lóżmy, że miedzy cechami ilościowymi Y i X wystepuje zależość korelacyja o charakterze liiowym. Możemy mieć do czyieia z korelacja liiowa dodatia lub korelacja liiowa ujema. Jeśli wraz ze wzrostem wartości zmieej X rosa średie wartości zmieej Y,wówczas mówimy o korelacji liiowej dodatiej, w przeciwym przypadku, tj. gdy wraz ze wzrostem wartości zmieej X maleja średie wartości zmieej Y,wówczas mamy do czyieia z korelacja liiowaujem a. Wspó lczyikiem s lużacym do pomiaru si ly korelacji liiowej i ustaleia jej zaku (kieruku) jest wspó lczyik korelacji liiowej Pearsoa, zdefiioway wzorem 1 r XY = (x i x)(y i ȳ), (zak ladamy, że s X 0,s Y 0) (9) s X s Y gdzie s X = 1 (x i x) 2, s Y = 1 (y i ȳ) 2, x = 1 x i, ȳ = 1 y i. Wspó lczyik r XY jest uormoway, przyjmuje wartości z przedzia lu [ 1, 1]. Zak wspó lczyika iformuje o kieruku, atomiast wartość bezwzgleda o sile korelacji liiowej. Wartość r XY = 0 ozacza brak korelacji liiowej (ale może mieć miejsce korelacja krzywoliiowa). Gdy r XY =1lubr XY = 1, wówczas mówimy o fukcyjej zależości liiowej pomiedzy cechami Y i X (ma to miejsce wtedy, gdy a wykresie pukty empirycze uk ladajasi edok ladie wzd luż liii prostej). Porówujac formu ly (7) i (9), zauważymy, że pomiedzy wspó lczyikiem regresji b w modelu regresji liiowej (2) i wspó lczyikiem korelacji r XY wystepuje zwiazek b = r XY sy, s X przy za lożeiu aalogiczym, jak w formule (9). Poieważ odchyleia stadardowe s X i s Y, z defiicji, ie mogabyćujeme,wi ec wioskujemy z ostatiego wzoru, że wspó lczyiki b oraz r XY sa zawsze tego samego zaku. Warto zauważyć, że b ie musi zawierać sie w przedziale [ 1, 1], tak jak ma to miejsce w przypadku wspó lczyika korelacji liiowej r XY. 5