REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Podobne dokumenty
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Wprowadzenie do analizy korelacji i regresji

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

MODELE LINIOWE. Dr Wioleta Drobik

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Analiza współzależności zjawisk

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Analiza składowych głównych. Wprowadzenie

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

POLITECHNIKA OPOLSKA

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

ANALIZA REGRESJI SPSS

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Zmienne zależne i niezależne

Wykład 4 Związki i zależności

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka i Analiza Danych

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

(x j x)(y j ȳ) r xy =

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Metodologia badań psychologicznych. Wykład 12. Korelacje

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Analiza współzależności dwóch cech I

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

R-PEARSONA Zależność liniowa

Dopasowanie prostej do wyników pomiarów.

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

PDF created with FinePrint pdffactory Pro trial version

Regresja linearyzowalna

Rozdział 8. Regresja. Definiowanie modelu

Metody Ilościowe w Socjologii

Modelowanie glikemii w procesie insulinoterapii

Elementy statystyki wielowymiarowej

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

3. Modele tendencji czasowej w prognozowaniu

Ćwiczenia 10. Analiza regresji. Część I.

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza zależności liniowych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Regresja i Korelacja

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) ,5 6,6

Sposoby prezentacji problemów w statystyce

Rachunek prawdopodobieństwa i statystyka

Etapy modelowania ekonometrycznego

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Analiza autokorelacji

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Funkcja liniowa - podsumowanie

Analiza składowych głównych

STATYSTYKA MATEMATYCZNA

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Wyznacz łączne zmiany wartości, ilości i cen sprzedaży w październiku i listopadzie oraz zinterpretuj otrzymane wyniki.

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Statystyka matematyczna i ekonometria

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

Ekonometria. Zajęcia

Staże Ośrodka RENOWATOR

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Metody statystyki medycznej stosowane w badaniach klinicznych

Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych. Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Transkrypt:

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji (r). Regresja odnosi się natomiast do modelu matematycznego ( w postaci równania lub wykresu) opisującego współzależność zmiennych (objaśnianej i objaśniającej). Regresja linowa Zakłada, że pomiędzy zmiennymi objaśniającymi (wejściowymi) i objaśnianymi (wyjściowymi) istnieje mniej lub bardziej wyrazista zależność liniowa. Mając zatem zbiór danych do analizy, informacje opisujące te dane możemy podzielić na objaśniane i objaśniające. Wtedy też wartości tych pierwszych będziemy mogli zgadywać znając wartości tych drugich. Oczywiście tak się dzieje tylko w sytuacji, gdy faktycznie między tymi zmiennymi istnieje zależność liniowa. Przewidywanie wartości zmiennych objaśnianych (y) na podstawie wartości zmiennych objaśniających (x) jest możliwe dzięki znalezieniu tzw. modelu regresji. W praktyce polega to na znalezieniu równania prostej, zwanej prostą regresji o postaci: Y = b0 + b1 x, r =? gdzie: y - jest zmienną objaśnianą, x - objaśniającą. W równaniu tym bardzo istotną rolę odgrywają współczynniki b0 i b1, gdzie b1 jest nachyleniem linii regresji, zaś b0 punktem przecięcia linii regresji z osią x (wyrazem wolnym) a więc przewidywaną wartością zmiennej objaśnianej gdy zmienna objaśniająca jest równa 0. r współczynnik korelacji liniowej Pearsona. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych r =0 zmienne nie są skorelowane 0,0 r < 0,1 korelacja nikła 0,1 r < 0,3 korelacja słaba 0,3 r < 0,5 korelacja przeciętna 0,5 r < 0,7 korelacja wysoka 0,7 r < 0,9 korelacja bardzo wysoka 0,9 r < 1 korelacja prawie pełna r 2 współczynnik determinacji, przyjmujący wartości z przedziału [0,1], jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y.

dla modelu liniowego regresji prostej używamy: -- Statystyka -- Statystyki podstawowe i tabele -- Macierze korelacji Zadania: Zadanie 1. Plik reg_gaz.sta zawiera dane do budowy modelu opisującego dzienne zużycie gazu w zależności od średniej temperatury dobowej, dobowej prędkości wiatru oraz dni wolnych. Dane dotyczą jednego sezonu grzewczego w kilku miastach. a. Sporządź macierz korelacji. b. Sprawdź, czy ZUŻYCIE gazu jest skorelowane z PRĘDKOŚCIĄ WIATRU oraz faktem, czy dzień jest wolny czy pracujący; c. Zbuduj model regresji liniowej do oceny wpływu średniej temperatury dobowej na zużycie gazu. Zweryfikuj i zinterpretuj otrzymany model; korelacja istotna statystycznie ad. (b) Wykres rozrzutu dla dwóch zmiennych:

Budowanie modelu regresji: MODEL REGRESJI: Zużycie = 237,10 6,94 * Śr. temp; r = 0,96; r 2 = 0,91; p=0,00 p = 0,00 < 0,05 skąd wniosek, że współczynnik korelacji liniowej istnieje i jest istotny statystycznie

INTERPRETACJA modelu i WNIOSKI: współczynnik korelacji: r istnieje korelacja? jeśli r=0, brak zależności liniowej jaki jest jej kierunek? jaki jest jej stopień? współczynnik determinacji: R 2 jaki procent zmienności zmiennej zależnej wyjaśniony jest przez model regresji liniowej? co możemy powiedzieć o tej zależności na podstawie wyrazu wolnego? co możemy powiedzieć na podstawie współczynnika regresji? Interpretacja i WNIOSKI: współczynnik korelacji: r = 0,96 korelacja istnieje (jest istotna statystycznie) jest ujemna, co oznacza, że wraz ze spadkiem temperatury wzrasta zużycie gazu jest prawie pełna współczynnik determinacji: r 2 = 0,91 91% zmienności zmiennej zużycia gazu wyjaśniono przez model regresji liniowej przy temperaturze 0 C zużycie wynosi 237,1 (wyraz wolny) każdy spadek temperatury o 1 C oznacza wzrost zużycia gazu o 6,94 (współczynnik regresji) Odpowiedź: Zużycie gazu skorelowane jest jedynie ze średnią temperaturą. Pozostałe zmienne: Prędkość wiatru i dni wolne nie wykazują korelacji ze zużyciem gazu. W obu przypadkach korelacja nie jest istotna statystycznie, p> 0,05 (podpowiedź: STATISTICA oznacza istotne statystycznie korelacje kolorem czerwonym). Model regresji dla zużycia względem średniej temperatury: MODEL REGRESJI: Zużycie = 237,10 6,94 * Śr. temp; r = 0,96; r 2 = 0,91; p=0,00

Zadanie 2. Aby ocenić efektywność szkolenia sprzedawców, postanowiono przeprowadzić następujący eksperyment. Grupę wylosowanych 18 sprzedawców podzielono na 6 podgrup po 3 osoby. Pierwsza podgrupa była szkolona przez okres 5 dni, druga 10 dni, trzecia 15 dni itd. Następnie rejestrowano sprzedaż osiąganą przez każdego ze sprzedawców w ciągu miesiąca. Wyniki eksperymentu przedstawiono w pliku reg_sprzedawcy.sta a. Zbuduj model regresji liniowej do oceny wpływu czasu trwania szkolenia sprzedawców na uzyskiwane przez nich wyniki sprzedaży Zweryfikuj i zinterpretuj otrzymany model. b. Pan Nowak będzie szkolony przez okres 12 dni. Jakich wyników sprzedaży można się spodziewać po zakończeniu szkolenia? Zadanie 3. Zespół badawczy złożony ze studentów pewnego uniwersytetu postanowił sprawdzić, czy istnieje zależność pomiędzy ceną produktu sprzedawanego w różnych sieciach supermarketów a ilością oferowanych marek (rodzajów) tego produktu. Jako przykład pilotażowy wybrano wodę mineralną Dobra Woda. Badania przeprowadzono w 12 supermarketach obserwując w nich cenę tej wody mineralnej i liczbę rodzajów sprzedawanych wód mineralnych. Wyniki badań przedstawiono w pliku reg_ceny_oferta.sta. Zbuduj model regresji liniowej opisujący badaną zależność. Zweryfikuj otrzymany model.