Analiza zależności zmiennych ilościowych regresja

Podobne dokumenty
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Badanie współzależności zmiennych liczbowych korelacja

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Wprowadzenie do analizy korelacji i regresji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Stosowana Analiza Regresji

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

MODELE LINIOWE. Dr Wioleta Drobik

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

PDF created with FinePrint pdffactory Pro trial version

Analiza współzależności dwóch cech I

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Rozdział 8. Regresja. Definiowanie modelu

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

KORELACJE I REGRESJA LINIOWA

Regresja i Korelacja

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Weryfikacja hipotez statystycznych testy t Studenta

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

STATYSTYKA MATEMATYCZNA

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Analiza regresji elementy zaawansowane (cz. 2)

Analiza współzależności zjawisk

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ekonometria. Zajęcia

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

R-PEARSONA Zależność liniowa

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

POLITECHNIKA OPOLSKA

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyczna analiza danych

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Analiza Współzależności

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Testowanie hipotez statystycznych.

Metody Ilościowe w Socjologii

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Statystyka i Analiza Danych

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Wykład 9 Wnioskowanie o średnich

Testowanie hipotez statystycznych.

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

STATYSTYKA MATEMATYCZNA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Ćwiczenia IV

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zmienne zależne i niezależne

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Analiza autokorelacji

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Spis treści 3 SPIS TREŚCI

Testowanie hipotez statystycznych

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Transkrypt:

Analiza zależności zmiennych ilościowych regresja JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Wersja dla stud. niestacj 2010 / akt. 2017

Plan wykładu 1. Wykrywanie zależności między zmiennymi 2. Współczynnik korelacji próbkowej (Pearsona). 3. Liniowa zależność między dwoma zmiennymi: Prosta regresja Metoda najmniejszych kwadratów Właściwości 4. Zastosowanie różnego oprogramowania

Motywacje Dotychczas badanie jednej zmiennej Badania struktury zbiorowości opierały się na obserwacjach tylko jednej cechy (zmiennej), a jeśli brano pod uwagę kilka cech, to każdą analizowano oddzielnie. Testy dla pojedynczych wymiarów (zmiennych) Wiele zjawisk dotyczy jednak danych wielowymiarowych Typowe zainteresowania w spojrzeniu na rzeczywistość oraz w badaniach naukowych Potrzeba badania wielu zmiennych oraz ich wzajemnej interakcji! W tym wykładzie współzależności dwóch zmiennych

Przykład Zrób wykres XY Za Anna Raifuna SGGW

Wykres korelacyjny rozrzutu XY Inny rodzaj związku między wartościami zmiennych X i Y

Funkcyjny związek deterministyczny Nie to samo co zależność korelacyjna Związek funkcyjny odznacza się tym, że każdej wartości jednej zmiennej niezależnej (będziemy ją oznaczać X) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej zależnej (oznaczamy ją przez Y). Wiadomo na przykład, że pole kwadratu jest funkcją jego boku (P=a 2 ). Wynik można przewidzieć od razu

Czego oczekujemy od związku między zmiennymi? Większość punktów tutaj Większość punktów tutaj Pozytywna (dodatnia) współzależność

Czego oczekujemy od związku między zmiennymi? Większość punktów tutaj Większość punktów tutaj Negatywna (ujemna) współzależność

Różne zależności między zmiennymi

Wykrywanie korelacji między zmiennymi W analizie korelacji zadaje się, m.in. pytania: Czy istnieje związek współzależność między dwoma zmiennymi? Jaka jest skala tej zależności. Czy jest ona słaba czy silna? Czy istnieją możliwości wyrażenia tej zależności w postaci liczbowej?

Pojęcie korelacji Związek w zakresie współzmienności między dwoma (lub większą) liczbą zmiennych liczbowych Pytanie badawcze czy ze wzrostem wartości jednej zmiennej rosną (lub maleją) wartości drugiej zmiennej np. czy średnio ze zwiększającą się wysokością osoby rośnie (lub maleje) jej waga Intuicyjnie, zależność dwóch zmiennych X i Y oznacza, że znając wartość jednej z nich, dałoby się przynajmniej w niektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez posiadania tej informacji Uwaga wyniku badania korelacyjnego nie wolno interpretować w terminach związków przyczynowo skutkowych!!!

Jaka korelacja Nas dziś interesuje? Jaki typ zależności między wartościami zmiennych? Zmienne liczbowe Statystyczna i monotoniczna Liniowa Czy istnieją inne możliwości wyrażenia zależności między zmiennymi? Związki nieliniowe Inne zmienne (porządkowe, nominalne) Będą (?) korelacja rangowa Spearmana, współczynnik tau-kendalla; statystka gamma, miary siły związku wykorzystujące test χ 2,

Korelacja liniowa miara kierunku i siły współzależności między dwiema zmiennymi X i Y. Współczynnik korelacji liniowej Pearsona: r xy = n i= 1( xi x) ( yi y) C( x, y) = n 2 n 2 S i xi x i yi y x S = 1( ) = 1( ) y gdzie x, y- średnie art. zmiennych x i y, a Sx i S y ich odchylenia standardowe; kowariancja 1 n C( x, y) = i = 1 ( xi x)( yi y) n r xy [ 1, Interpretacja zakresu wartości. 1] Zakres stosowalności: zależność dwóch zmiennych ilościowych o charakterze liniowym.

Własności współczynnika korelacji liniowej Pearsona 1. Miara symetryczna 2. Miara niemianowana i unormowaną Można porównywać korelacje dla różnych zestawów zmiennych 3. Pozwala na określenie nie tylko siły, ale i kierunku zależności między zmiennymi 4. Interpretacja wartości współczynnika korelacji: im 1 tym silniejsza korelacja. r xy 5. Ograniczenia Podatny na obserwacje skrajne (ang. outliers)

Współczynniki korelacji dla przykładowych zależności X i Y Wykres za A.Adrian AGH

Przykładowa interpretacja wartości jako siły związku Pamiętając o liczności próby interp. wartości bezwzględnych Lecz sprawdź inne źródła dziedzinowe

Przykłady obliczania korelacji Zbadaj zależność dwóch zmiennych opisujących odpowiedzi respondentów w pewnej ankiecie X - liczba randek w ostatnim tygodniu Y ocena satysfakcji z życia na skali punktowej 1,2,3,..,5 X 1 2 5 Y 1 2 4 Dla każdego zestawu odpowiedzi narysuj wykres korelacyjny (każda para wartości odpowiedzi dla jednej osoby przedstawiona jest jako punkt na płaszczyźnie x,y)

Przykłady Grupa nastolatków X 1 2 3 4 5 6 7 Y 1 2 3 4 4 5 5 Wykres korelacyjny - nastolatki Korelacja = 0.97 6 5 satysfakcja 4 3 2 1 0 0 2 4 6 8 liczba randek

Przykłady 2 Grupa dwudziestoparo-latków X 1 2 2 3 3 4 5 6 7 Y 1 2 1 3 4 4 3 2 1 Korelacja =?? satysfakcja 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Trzydziestolatki 0 1 2 3 4 5 6 7 8 liczba randek

Przykłady 3 Grupa troszkę starszych-latków X 1 2 3 3 3 4 4 4 5 5 7 Y 4 3 2 3 4 1 2 3 2 1 1 Korelacja = -0.77 Satysfakcja 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 troche pozniej 0 1 2 3 4 5 6 7 8 liczba spotkań

Ocena współczynnika korelacji ρ w populacji r współczynnik korelacji w próbie czy może być użyty w odniesieniu do populacji? Estymator punktowy? Może być także użyty do testowania hipotezy o korelacji zmiennych w populacji. Założenia: zmienne (X,Y) populacji mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji ρ. Na podstawie n - elementowej próby wyznaczono r. Testowany układ hipotez: 0 : ρ = Statystyka testowa: test z = H 0 H : ρ 0 r xy 1 r 2 xy n 1 lub test = rxy t n 2 2 1 r xy

Przykład testowania istotności współczynnika korelacji Współczynnik korelacji między liczbą randek w tygodniu a satysfakcją z życia wynosi r=0.493 (N = 16 par pomiarów). Czy możemy podjąć decyzję wobec populacji H0: ρ=0. Schemat postępowania: Testowany układ hipotez: 0 : ρ = 0 H1 : ρ Wybór statystyki testowej = rxy t n 2 2 1 r Ma rozkład t - Studenta z n-2 stopni swobody (14) Poziom α=0.05 tkryt=2.145 t=2.11 H 0 Podjęcie decyzji xy

Test w Statsoft Statistica Przykład biostatystyczny

Problemy w interpretacji współczynnika korelacji Uwagi po analizie przykładu: Należy oglądać dane! Współczynnik służy do badania związku liniowego! Jeśli związek nie jest liniowy stosuj regresję krzywoliniową. Współczynnik korelacji jest nieistotny można stwierdzić wyłącznie brak związku liniowego. Ponadto pamiętaj: Wrażliwość na obserwacje skrajne i ograniczenie zakresy zmienności zmiennej niezależnej.

Gdzie jesteśmy w trakcie wykładu? 1. Wykrywanie zależności między zmiennymi 2. Współczynnik korelacji próbkowej (Pearsona). 3. Liniowa zależność między dwoma zmiennymi: Prosta regresja Metoda najmniejszych kwadratów Właściwości 4. Zastosowanie różnego oprogramowania

Regresja o czym rozmawiamy? Główne zadanie analizy korelacji Stwierdzenie faktu występowania zależności między zmiennymi oraz zbadanie siły i kierunku tej zależności. Analiza regresji? Historia termin użyty przez F.Galtona dla oznaczenia pewnych zależności w teorii dziedziczenia. Statystyczne rozumienie tego terminu? http://galton.org/

Regresja dalsze uwagi Modelowanie regresyjne teoretyczne (populacja); przyjęcie wielu założeń. W rzeczywistych sytuacjach dysponujemy jedynie wynikami obserwacji dla zmiennych X i Y z próby. [ x i yi ] = [ x1 y1, x2 y2,, xn yn] Przykład: Na podstawie pomiarów przedstawionych na wykresie w formie diagramu rozproszenia poszukuje się pewnej krzywej (często linii prostej), którą można uznać za najlepiej obrazująca ogólną tendencję zmiany wartości jednej zmiany wartości jednej zmiennej Y w miarę jak zmieniają się wartości drugiej zmiennej X.

Analiza regresji Z populacji dzieci (w zakresie wieku 7-19 lat) wybrano losowo 175 próbę 15 osobową i określono dla nich dwie cechy: x wiek w 165 latach oraz y wzrost w cm: (7,120),(9,125),(18,164), 155 (11.5,140), (8,122),(11,135), (13,145), (17,162), (10,131), (19,170), 145 (14,150), (12,142), (18.5,168), (15,154), (16,159) WZROST Wykres rozrzutu (Regrwzrost15.STA 2v*15c) y=88,689+4,305*x+eps 175 165 155 Wykres rozrzutu (Regrwzrost15.STA 2v*15c) 135 Wykonaj analizę zależności 125 tych zmiennych WZROST 145 135 125 115 6 8 10 12 14 16 18 20 Korelacja 0,99 115 6 8 10 12 14 16 18 20 WIEK WIEK

Regresja model liniowy Analityczny sposób przyporządkowania wartości zmiennej zależnej konkretnym wartościom zmiennych niezależnych. Liniowa regresja prosta najprostszy rodzaj regresji, w których zależność zmiennych można opisać za pomocą linii prostej. ŷ = a x + b + ε gdzie a jest współczynnikiem kierunkowym, b wyraz wolny (punkt przecięcia z osią rzędnych); x zmienna niezależna, y zmienna zależna (objaśniana, przewidywana), ε - błąd losowy.

Liniowa prosta regresji - MNK Rzeczywiste dane Wartość teoretyczna funkcji regresji Błąd oszacowania lub rezyduum. ( x, y 1),...,( x n, y y 1 n ˆ i y i y ˆ = ( x) tzw. wartość resztowa Liniowa regresja prosta wartości rezyduów powinny być jak najmniejsze dla wszystkich i=1,,n. Wskaźnik rozproszenia suma kwadratów rezyduów. S 2 = i n = 1 ( y i yˆ i) Dla liniowego wykresu dużych rezyduów nie ma być zbyt wiele metoda najmniejszych kwadratów! (F.Gauss) daje ona najlepsze liniowe nieobciążone estymatory parametrów regresji (BLUE) ). f

Przykład Intuicja MNK Które residua (suma kwadratów) są najmniejsze? Proste sumowanie: I -5+2+3=0; II -1+2-1=0; III -2+2+0 MNK: I 25+4+9=38; II: 1+4+1=6; III 4+4=8

MNK jak to się liczy? Sprawdź w J.Koronacki, J.Mielniczuk, str. 266. S b S a n i = = 2 1 ( y ( b + ax )) = n i = i = 2 1 x ( y ( b + ax )) = i i i i 0 0

Szacowanie MNK Dokonując odpowiednich przekształceń otrzymujemy ) ( ), cov( ) ( ) ( ) ( 2 1 2 1 x S y x x x y y x x a n i i n i i i = = = = x a y b =

Trochę dyskusji właściwości: Współczynnik regresji a można zapisać jako cov( x, y) a = S 2 x = r xy S S y x Interpretacja wartości współczynnika regresji: Ujemna wartość wskazuję na to, że pod wpływem wzrostu zmiennej niezależnej x o jednostkę, zmienna zależna y maleje średnio o a jednostek Dodatnia wartość wzrost y wraz ze wzrostem x o a jedn. a = 0 brak wpływu zmiennej niezależnej na zależną! Wyraz wolny rzadko posiada sensowną interpretację.

Przykład ilustracyjny (samochody) W firmie produkującej samochody przeprowadzono analizę sprzedaży samochodów z ostatniego miesiąca. Zebrano dane od 12 dealerów zajmujących się sprzedażą samochodów tej firmy o wielkości sprzedaży za ostatni miesiąc (zmienna zależna Y) oraz czasie wykupionej reklamy w ostatnim miesięcy (zmienna niezależna X). Nr dealera y x 1 129 18 2 119 15 3 159 22 4 148 23 5 131 17 6 120 16 7 161 25 8 174 26 9 134 20 10 163 24 11 143 19 12 155 25

Samochody 2 Wykres XY 28 26 24 22 20 18 16 14 12 10 115 120 125 130 135 140 145 150 155 160 165 170 175 180 Obliczenie współczynnika korelacji: r xy = 0.9465. (statyst ist.) Model liniowy z oszacowanymi parametrami: y = 51.584 + 4.468 x Wartość a oznacza, że wzrost (spadek) czasu wykupionej reklamy radiowej o jedną minutę spowoduje wzrost (spadek) sprzedaży w przybliżeniu o 4.468 sztuk samochodów.

Samochody 3 Model y^ = 51.584 + 4.468 x 185 Wykres rozrzutu (samochody.sta 10v*12c) y=51.582+4.468*x+eps 175 165 155 Y 145 135 125 115 14 16 18 20 22 24 26 28 X Nr dealera x y y^=f(x) 1 18 129 132,01 2 15 119 118,60 3 22 159 149,88 4 23 148 154,35 5 17 131 127,54 6 16 120 123,07 7 25 161 163,28 8 26 174 167,75 9 20 134 140,94 10 24 163 158,82 11 19 143 136,48 12 25 155 163,28

Co zrobimy w Excelu? Funkcje stat. REGLINP

Co zrobimy w Excelu? Dodatek Analiza Danych X 1 2 3 4 5 6 7 Y 1 2 3 4 4 5 5 Tak przy okazji jak interpretować wyniki?

Przykład wzrost = f(wiek) / Statistica (Statsoft)

Ocena modelu regresji Całkowitą sumę kwadratów odchyleń (SST) w analizie regresji dzieli się na dwie części: gdzie SST = SSR + 2 SSE ( y y) = ( yˆ y) + ( y SSR regresyjna suma kwadratów odchyleń (część wyjaśniona przez zbudowany model), SSE resztowa suma kwadratów odchyleń (część nie wyjaśniona przez zbudowany model). 2 yˆ) 2

Na ile dobra jest regresja? Współczynnik determinacji jest opisową miarą siły liniowego związku między zmiennymi, czyli miarą dopasowania linii regresji do danych. współczynnik determinacji --- przyjmuje wartości z przedziału [0,1] i wskazuje jaka część zmienności zmiennej y jest wyjaśniana przez znaleziony model. Na przykład dla R 2 =0.619 znaleziony model wyjaśnia około 62% zmienności y. Przy okazji: pomyśl o związku współczynnika R 2 oraz współczynnika korelacji r.

Testy istotności

Samochody 3 Model y^ = 51.584 + 4.468 x 185 Wykres rozrzutu (samochody.sta 10v*12c) y=51.582+4.468*x+eps 175 165 155 Y 145 135 125 115 14 16 18 20 22 24 26 28 X Nr dealera x y y^=f(x) 1 18 129 132,01 2 15 119 118,60 3 22 159 149,88 4 23 148 154,35 5 17 131 127,54 6 16 120 123,07 7 25 161 163,28 8 26 174 167,75 9 20 134 140,94 10 24 163 158,82 11 19 143 136,48 12 25 155 163,28

Samochody 4 R 2 = 0.8958, S = 6.1258 R 2 ozn., że 89.58% zmienności zmiennej y zostało wyjaśnione przez zbudowany model. S przeciętne odchylenie wartości empirycznych od wartości teoretycznych (wynikających ze zbudowanego modelu) wynosi 6.1258 sztuk samochodów.

Istotność modelu regresji dla przykładu samochodowego. Model y = 51.584 + 4.468 x Źródło zmienności Model (część wyjaśniona) Błąd (część niewyjaśniona) Liczba stopni swobody (k=1) 1 (n k 1 = n-2) 10 Suma kwadratów odchyleń SSR 3227.4151 SSE 375.2515 Całkowita (n-1) 11 SST 3602.67 Przeciętna suma kwadratów odchyleń (MSR=SSR/1) 3227.4151 (MSE=SSE/(n-2)) 37.5252 R2 = 0.8958, S = 6.1258, F = 86.0067 Wartość krytyczna statystyki z tablic rozkładu F przy poziomie istotności α = 0.05 wynosi 4.96 ; Także oba testy lokalne są istotne Podsumujmy wyniki: Model jest statystycznie istotny.

Kilka uwag dla zainteresowanych: Analiza regresji to ciekawe praktycznie i teoretycznie zagadnienie. Nie powiedzieliśmy za dużo o: Analizie reszt i badaniu poprawności modelu. Regresji wielowymiarowej (wielorakiej). Wykorzystaniu modelu regresji do prognozowania. Regresji nieliniowej. Selekcji zmiennych w modelach wielowymiarowej. Zawsze możesz sam poszukać czytaj książki!

Model liniowy regresji wielokrotnej (wielowymiarowej) Założenie: wpływ każdej rozpatrywanej zmiennej objaśniającej na zmienną y jest liniowy i nie zależy od wartości innych zmiennych y Zapis macierzowy: xm odpowiada y; wyraz wolny dodatkowa zmienna x i0 =1 Rozwiązanie MNK = 0 1 1 2 2 m m β + β x + β x + + β x + ε Y = X β + ε b ( ' ) 1 ' X X X Y Zasady oceny i testowania podobne = Więcej A.Aczel: Statystyka w zarządzaniu (rozdział 11)

Przykład Zebrano następujące pomiary x1 5 3 5 3 x2 0,5 0,5 0,3 0,3 f(x1,x2) 1,5 3,5 6,2 3,2 Założono model regresji liniowej y = b 0 + b1 x1 + b2 x2

Przykład rozwiązujemy y = 1,5 3,5, 6,2 3,2 X = 1 1 1 1 5 3 5 3 0,5 0,5, 0,3 0,3 b = b0 b 1... b m Po przekształceniu: b b b 7,0 0,25 11 Komentarz: liczba obserwacji n powinna być większa niż parametrów do oszacowania m. 0 1 2 Kolumny macierzy liniowo niezależne jednoznaczne rozwiązanie Diagnostyka modelu wielokrotnego przedstawione metody stat. = = =

Regresja wielokrotna Dane są informacje o budżecie reklamowym pewnego produktu, jego cena jednostkowa oraz finalna sprzedaż jednostkowa. BUDŻET CENA SPRZEDAZ 1 3500 88 16523 2 10073 110 6305 3 11825 85 1769 4 33550 28 30570 5 37200 101 7698 6 55400 71 9554 7 55565 7 54154 8 66501 82 54450 9 71000 62 47800 10 82107 24 74598 11 83100 91 25257 12 90496 40 80608 13 100000 45 40800 14 102100 21 63200 15 132222 40 69675 16 136297 8 98715 17 139114 63 75886 18 165575 5 83360

Regresja nieliniowa Dane nt. polskiego rybołówstwa dalekomorskiego (lata 90te).

Regresja nieliniowa cd. Model funkcji kwadratowej (estymacja?) Polowy Model regresji 400 350 300 250 200 150 100 50 0 20 30 40 50 60 70 80 90 Statki y = 0,25071 x + 30,7079 x 2 581,49

Regresja obserwacje odstające / skrajne 180 Wykres rozrzutu (Regr1.STA 2v*16c) y=87.723+4.148*x+eps 170 160 150 WZROST 140 130 120 odciaganie 110 100 Obserwacja odstająca 90 6 8 10 12 14 16 18 20 WIEK

Ogólny schemat postępowania Ustalenie założeń i postaci modelu Szacowanie parametrów strukturalnych modelu na podstawie wyników próby Weryfikacja modelu: czy parametry są istotne? ocena założeń modelu (reszty) czy zależność jest liniowa? TAK NIE Wykorzystanie modelu: 1. Predykcja zmiennej Y 2. Opis zależności między zmiennymi

Literatura Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyka w zarządzaniu, A.Aczel, PWN 2000. Statystyka praktyczna. W.Starzyńska, Statystyka. Wprowadzenie do analizy danych sondażowych i eksperymentalnych. G.Wieczorkowska, Scholar, 2004. Przystępny kurs statystyki, Stanisz A., 1997. Tom 2 poświęcony wyłącznie analizie regresji! I wiele innych

Dziękuję za uwagę Czytaj także podręczniki!