REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji (r). Regresja odnosi się natomiast do modelu matematycznego ( w postaci równania lub wykresu) opisującego współzależność zmiennych (objaśnianej i objaśniającej). Regresja linowa Zakłada, że pomiędzy zmiennymi objaśniającymi (wejściowymi) i objaśnianymi (wyjściowymi) istnieje mniej lub bardziej wyrazista zależność liniowa. Mając zatem zbiór danych do analizy, informacje opisujące te dane możemy podzielić na objaśniane i objaśniające. Wtedy też wartości tych pierwszych będziemy mogli zgadywać znając wartości tych drugich. Oczywiście tak się dzieje tylko w sytuacji, gdy faktycznie między tymi zmiennymi istnieje zależność liniowa. Przewidywanie wartości zmiennych objaśnianych (y) na podstawie wartości zmiennych objaśniających (x) jest możliwe dzięki znalezieniu tzw. modelu regresji. W praktyce polega to na znalezieniu równania prostej, zwanej prostą regresji o postaci: Y = b0 + b1 x, r =? gdzie: y - jest zmienną objaśnianą, x - objaśniającą. W równaniu tym bardzo istotną rolę odgrywają współczynniki b0 i b1, gdzie b1 jest nachyleniem linii regresji, zaś b0 punktem przecięcia linii regresji z osią x (wyrazem wolnym) a więc przewidywaną wartością zmiennej objaśnianej gdy zmienna objaśniająca jest równa 0. r współczynnik korelacji liniowej Pearsona. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych r =0 zmienne nie są skorelowane 0,0 r < 0,1 korelacja nikła 0,1 r < 0,3 korelacja słaba 0,3 r < 0,5 korelacja przeciętna 0,5 r < 0,7 korelacja wysoka 0,7 r < 0,9 korelacja bardzo wysoka 0,9 r < 1 korelacja prawie pełna r 2 współczynnik determinacji, przyjmujący wartości z przedziału [0,1], jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y.
dla modelu liniowego regresji prostej używamy: -- Statystyka -- Statystyki podstawowe i tabele -- Macierze korelacji Zadania: Zadanie 1. Plik reg_gaz.sta zawiera dane do budowy modelu opisującego dzienne zużycie gazu w zależności od średniej temperatury dobowej, dobowej prędkości wiatru oraz dni wolnych. Dane dotyczą jednego sezonu grzewczego w kilku miastach. a. Sporządź macierz korelacji. b. Sprawdź, czy ZUŻYCIE gazu jest skorelowane z PRĘDKOŚCIĄ WIATRU oraz faktem, czy dzień jest wolny czy pracujący; c. Zbuduj model regresji liniowej do oceny wpływu średniej temperatury dobowej na zużycie gazu. Zweryfikuj i zinterpretuj otrzymany model; korelacja istotna statystycznie ad. (b) Wykres rozrzutu dla dwóch zmiennych:
Budowanie modelu regresji: MODEL REGRESJI: Zużycie = 237,10 6,94 * Śr. temp; r = 0,96; r 2 = 0,91; p=0,00 p = 0,00 < 0,05 skąd wniosek, że współczynnik korelacji liniowej istnieje i jest istotny statystycznie
INTERPRETACJA modelu i WNIOSKI: współczynnik korelacji: r istnieje korelacja? jeśli r=0, brak zależności liniowej jaki jest jej kierunek? jaki jest jej stopień? współczynnik determinacji: R 2 jaki procent zmienności zmiennej zależnej wyjaśniony jest przez model regresji liniowej? co możemy powiedzieć o tej zależności na podstawie wyrazu wolnego? co możemy powiedzieć na podstawie współczynnika regresji? Interpretacja i WNIOSKI: współczynnik korelacji: r = 0,96 korelacja istnieje (jest istotna statystycznie) jest ujemna, co oznacza, że wraz ze spadkiem temperatury wzrasta zużycie gazu jest prawie pełna współczynnik determinacji: r 2 = 0,91 91% zmienności zmiennej zużycia gazu wyjaśniono przez model regresji liniowej przy temperaturze 0 C zużycie wynosi 237,1 (wyraz wolny) każdy spadek temperatury o 1 C oznacza wzrost zużycia gazu o 6,94 (współczynnik regresji) Odpowiedź: Zużycie gazu skorelowane jest jedynie ze średnią temperaturą. Pozostałe zmienne: Prędkość wiatru i dni wolne nie wykazują korelacji ze zużyciem gazu. W obu przypadkach korelacja nie jest istotna statystycznie, p> 0,05 (podpowiedź: STATISTICA oznacza istotne statystycznie korelacje kolorem czerwonym). Model regresji dla zużycia względem średniej temperatury: MODEL REGRESJI: Zużycie = 237,10 6,94 * Śr. temp; r = 0,96; r 2 = 0,91; p=0,00
Zadanie 2. Aby ocenić efektywność szkolenia sprzedawców, postanowiono przeprowadzić następujący eksperyment. Grupę wylosowanych 18 sprzedawców podzielono na 6 podgrup po 3 osoby. Pierwsza podgrupa była szkolona przez okres 5 dni, druga 10 dni, trzecia 15 dni itd. Następnie rejestrowano sprzedaż osiąganą przez każdego ze sprzedawców w ciągu miesiąca. Wyniki eksperymentu przedstawiono w pliku reg_sprzedawcy.sta a. Zbuduj model regresji liniowej do oceny wpływu czasu trwania szkolenia sprzedawców na uzyskiwane przez nich wyniki sprzedaży Zweryfikuj i zinterpretuj otrzymany model. b. Pan Nowak będzie szkolony przez okres 12 dni. Jakich wyników sprzedaży można się spodziewać po zakończeniu szkolenia? Zadanie 3. Zespół badawczy złożony ze studentów pewnego uniwersytetu postanowił sprawdzić, czy istnieje zależność pomiędzy ceną produktu sprzedawanego w różnych sieciach supermarketów a ilością oferowanych marek (rodzajów) tego produktu. Jako przykład pilotażowy wybrano wodę mineralną Dobra Woda. Badania przeprowadzono w 12 supermarketach obserwując w nich cenę tej wody mineralnej i liczbę rodzajów sprzedawanych wód mineralnych. Wyniki badań przedstawiono w pliku reg_ceny_oferta.sta. Zbuduj model regresji liniowej opisujący badaną zależność. Zweryfikuj otrzymany model.