Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Liniowy model regresji wielorakiej y = β0 + β1x1 + β2x2 +.. + βkxk + ε gdzie: β j parametry modelu (współczynniki regresji) ε składnik losowy Parametry modelu szacuje się metodą najmniejszych kwadratów tj. tak, aby suma kwadratów zaobserwowanych odchyleń (reszt) od hiperpłaszczyzny regresji była najmniejsza. s = s j 2 = (y j b 0 b 1 x 1j b k x kj ) 2 = min j j Aby model był jak najbardziej wiarygodny należy wprowadzić do modelu jak największą liczbę zmiennych niezależnych. W modelu powinny się znaleźć zmienne silnie skorelowane ze zmienną zależną i jednocześnie jak najsłabiej skorelowane między sobą. Weryfikacja modelu: 1. liniowość modelu; 2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. n > k + 1. (liczba n powinna być wielokrotnie większa od liczby oszacowanych parametrów); 3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości); 4. Składnik losowy ε i ma wartość oczekiwaną równą zeru (E(ε i ) = 0 dla wszystkich i = 1, 2,..., n); 5. wariancja składnika losowego (reszt ε i ) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji. 6. brak autokorelacji reszt;
7. każdy ze składników losowych (reszty) ma rozkład normalny N(0, σ) tj. średniej 0 i wariancji σ 2 ; Zadania: Zadanie 1. Dane z badań przeprowadzonych w 1996 roku przez Uniwersytet Warszawski i Akademię Ekonomiczną w Krakowie. Rozesłano ankiety do do 5000 pracowników wylosowanych przez GUS. Ankiety zwróciło 1255 osób. Arkusz danych zawiera wybrane informacje o badanych osobach. (place.sta). Zbuduj, zweryfikuj i zinterpretuj model regresji wielorakiej opisujący zależność płacy brutto od wieku i stażu pracy. Zaprognozuj zarobki dla wieku 25 lat i doświadczenia 1 rok. Rozwiązanie: dla modelu regresji wielorakiej używamy: -- Statystyka -- Regresja wieloraka
model istotny statystycznie zmienna zależna istotność wyrazu wolnego wiek istotny statystycznie staż pracy istotny statystycznie oszacowany model regresji: Płaca brutto = 342,28 + 14,9*Wiek 10,6*Staż pracy ± 357,1 R 2 =0,11 1. liniowość modelu: WERYFIKACJA modelu badanie istotności korelacji wykresy rozrzutu
prawy przycisk myszy 2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. n > k + 1. (liczba n powinna być wielokrotnie większa od liczby oszacowanych parametrów); n = 1218; k = 3 3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości); macierz korelacji nadmiarowość (Statystyka->Regresja wieloraka->zakładka: Więcej-> Nadmiarowość)
Im mniejsza jest tolerancja zmiennej tym bardziej nadmiarowy jest jej wkład w równanie regresji. Jeśli tolerancja = 0 - nie można obliczyć współczynników równania regresji. Jeśli tolerancja dla zmiennej spada poniżej 0,1 to wówczas taki model regresji staje się mało przydatny. wartość R 2 informuje nas, ile zmienności danej zmiennej jest wyjaśnione przez pozostałe zmienne. Im bliżej jedności, tym bardziej nadmiarowa jest zmienna 4. Składnik losowy ε i ma wartość oczekiwaną równą zeru (E(ε i ) = 0 dla wszystkich i = 1, 2,..., n); można utworzyć wykres normalności reszt (zakładka Reszty->Wykonaj analizę reszt-> Wykres normalności reszt) 4 Wykres normalności reszt 3 2 Wartość normalna 1 0-1 -2-3 -4-1000 -500 0 500 1000 1500 2000 2500 Reszty 5. wariancja składnika losowego (reszt ε i ) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji. Statystyka->Regresja wieloraka->analiza reszt-> zakładka: Wykresy rozrzutu- >Reszty względem przewidywanych/kwadraty reszt względem przewidywanych
Płaca brutto Założenie homoscedastyczności jest naruszone jeśli wartości reszt są bardziej zróżnicowane (rozrzucone) dla pewnych wartości przewidywanych niż dla innych lub kiedy wartości wariancji zdają się rosnąć wraz ze wzrostem wartości przewidywanej. 6. brak autokorelacji reszt; H 0 : autokorelacja = 0 H 1 : autokorelacja 0 Statystyka->Regresja wieloraka->analiza reszt-> zakładka: Więcej-> Statystyka Durbina - Watsona 7. każdy ze składników losowych (reszty) ma rozkład normalny N(0, σ) tj. średniej 0 i wariancji σ 2 ; wykres normalności reszt (pkt. 4) Interpretacja modelu: obie zmienne objaśniające są istotne w modelu (ich wpływ jest istotny) dodatnie oddziaływanie wieku na płacę b*: standaryzowany wskaźnik siły powiązania wskazuje, że wiek jest silniej związany z płacą niż staż pracy Staż pracy (wbrew przewidywaniom) wpływa ujemnie na płacę, co oznacza, że w przypadku badanych pracowników wraz z wiekiem płaca rośnie, ale liczba lat pracy spowalnia ten efekt współczynnik determinacji (miara dopasowania modelu - wartość tego współczynnika mieści się w przedziale < 0; 1 >, gdzie 1 oznacza doskonałe dopasowanie modelu, 0 zupełny bark dopasowania) R 2 = 0,11, czyli jedynie 11% ogólnej zmienności PŁACY wyjaśnione jest przez model. Należy poszukiwać innych czynników wpływających na płacę. Interpretacja graficzna: Wykresy->Wykresy XYX 3W-> Wykresy powierzchniowe Wykres powierzchniowy 3W Płaca brutto względem Wiek i Staż pracy place.sta 5v*1255c Płaca brutto = 342,2797+14,8865*x-10,5938*y 3500 3000 2500 2000 1500 1000 500 0 7 0 8 0 6 0 5 0 4 5 4 0 3 5 3 0 2 5 2 0 S ta ż p r a c y 1 5 1 0 5 0-5 1 0 2 0 3 0 4 0 Wiek > 1500 < 1100 < 600 < 100
Prognoza zmiennej zależnej: Statystyka->Regresja wieloraka-> zakładka: Reszty, założenia, predykcja->predykcja zmiennej zależnej Zadanie 3 Pośrednik w handlu nieruchomościami jest zainteresowany oszacowaniem wpływu powierzchni budynku i jego odległości od centrum miasta na wartość budynku. Plik nieruchomości.sta zawiera informacje o dziewięciu losowo wybranych budynkach. Zbuduj, zweryfikuj i zinterpretuj model regresji wielorakiej opisujący zależność wartości budynku od jego powierzchni i odległości od centrum.