Analiza zależności zmiennych ilościowych regresja JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Wersja dla stud. niestacj 2010 / akt. 2017
Plan wykładu 1. Wykrywanie zależności między zmiennymi 2. Współczynnik korelacji próbkowej (Pearsona). 3. Liniowa zależność między dwoma zmiennymi: Prosta regresja Metoda najmniejszych kwadratów Właściwości 4. Zastosowanie różnego oprogramowania
Motywacje Dotychczas badanie jednej zmiennej Badania struktury zbiorowości opierały się na obserwacjach tylko jednej cechy (zmiennej), a jeśli brano pod uwagę kilka cech, to każdą analizowano oddzielnie. Testy dla pojedynczych wymiarów (zmiennych) Wiele zjawisk dotyczy jednak danych wielowymiarowych Typowe zainteresowania w spojrzeniu na rzeczywistość oraz w badaniach naukowych Potrzeba badania wielu zmiennych oraz ich wzajemnej interakcji! W tym wykładzie współzależności dwóch zmiennych
Przykład Zrób wykres XY Za Anna Raifuna SGGW
Wykres korelacyjny rozrzutu XY Inny rodzaj związku między wartościami zmiennych X i Y
Funkcyjny związek deterministyczny Nie to samo co zależność korelacyjna Związek funkcyjny odznacza się tym, że każdej wartości jednej zmiennej niezależnej (będziemy ją oznaczać X) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej zależnej (oznaczamy ją przez Y). Wiadomo na przykład, że pole kwadratu jest funkcją jego boku (P=a 2 ). Wynik można przewidzieć od razu
Czego oczekujemy od związku między zmiennymi? Większość punktów tutaj Większość punktów tutaj Pozytywna (dodatnia) współzależność
Czego oczekujemy od związku między zmiennymi? Większość punktów tutaj Większość punktów tutaj Negatywna (ujemna) współzależność
Różne zależności między zmiennymi
Wykrywanie korelacji między zmiennymi W analizie korelacji zadaje się, m.in. pytania: Czy istnieje związek współzależność między dwoma zmiennymi? Jaka jest skala tej zależności. Czy jest ona słaba czy silna? Czy istnieją możliwości wyrażenia tej zależności w postaci liczbowej?
Pojęcie korelacji Związek w zakresie współzmienności między dwoma (lub większą) liczbą zmiennych liczbowych Pytanie badawcze czy ze wzrostem wartości jednej zmiennej rosną (lub maleją) wartości drugiej zmiennej np. czy średnio ze zwiększającą się wysokością osoby rośnie (lub maleje) jej waga Intuicyjnie, zależność dwóch zmiennych X i Y oznacza, że znając wartość jednej z nich, dałoby się przynajmniej w niektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez posiadania tej informacji Uwaga wyniku badania korelacyjnego nie wolno interpretować w terminach związków przyczynowo skutkowych!!!
Jaka korelacja Nas dziś interesuje? Jaki typ zależności między wartościami zmiennych? Zmienne liczbowe Statystyczna i monotoniczna Liniowa Czy istnieją inne możliwości wyrażenia zależności między zmiennymi? Związki nieliniowe Inne zmienne (porządkowe, nominalne) Będą (?) korelacja rangowa Spearmana, współczynnik tau-kendalla; statystka gamma, miary siły związku wykorzystujące test χ 2,
Korelacja liniowa miara kierunku i siły współzależności między dwiema zmiennymi X i Y. Współczynnik korelacji liniowej Pearsona: r xy = n i= 1( xi x) ( yi y) C( x, y) = n 2 n 2 S i xi x i yi y x S = 1( ) = 1( ) y gdzie x, y- średnie art. zmiennych x i y, a Sx i S y ich odchylenia standardowe; kowariancja 1 n C( x, y) = i = 1 ( xi x)( yi y) n r xy [ 1, Interpretacja zakresu wartości. 1] Zakres stosowalności: zależność dwóch zmiennych ilościowych o charakterze liniowym.
Własności współczynnika korelacji liniowej Pearsona 1. Miara symetryczna 2. Miara niemianowana i unormowaną Można porównywać korelacje dla różnych zestawów zmiennych 3. Pozwala na określenie nie tylko siły, ale i kierunku zależności między zmiennymi 4. Interpretacja wartości współczynnika korelacji: im 1 tym silniejsza korelacja. r xy 5. Ograniczenia Podatny na obserwacje skrajne (ang. outliers)
Współczynniki korelacji dla przykładowych zależności X i Y Wykres za A.Adrian AGH
Przykładowa interpretacja wartości jako siły związku Pamiętając o liczności próby interp. wartości bezwzględnych Lecz sprawdź inne źródła dziedzinowe
Przykłady obliczania korelacji Zbadaj zależność dwóch zmiennych opisujących odpowiedzi respondentów w pewnej ankiecie X - liczba randek w ostatnim tygodniu Y ocena satysfakcji z życia na skali punktowej 1,2,3,..,5 X 1 2 5 Y 1 2 4 Dla każdego zestawu odpowiedzi narysuj wykres korelacyjny (każda para wartości odpowiedzi dla jednej osoby przedstawiona jest jako punkt na płaszczyźnie x,y)
Przykłady Grupa nastolatków X 1 2 3 4 5 6 7 Y 1 2 3 4 4 5 5 Wykres korelacyjny - nastolatki Korelacja = 0.97 6 5 satysfakcja 4 3 2 1 0 0 2 4 6 8 liczba randek
Przykłady 2 Grupa dwudziestoparo-latków X 1 2 2 3 3 4 5 6 7 Y 1 2 1 3 4 4 3 2 1 Korelacja =?? satysfakcja 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Trzydziestolatki 0 1 2 3 4 5 6 7 8 liczba randek
Przykłady 3 Grupa troszkę starszych-latków X 1 2 3 3 3 4 4 4 5 5 7 Y 4 3 2 3 4 1 2 3 2 1 1 Korelacja = -0.77 Satysfakcja 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 troche pozniej 0 1 2 3 4 5 6 7 8 liczba spotkań
Ocena współczynnika korelacji ρ w populacji r współczynnik korelacji w próbie czy może być użyty w odniesieniu do populacji? Estymator punktowy? Może być także użyty do testowania hipotezy o korelacji zmiennych w populacji. Założenia: zmienne (X,Y) populacji mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji ρ. Na podstawie n - elementowej próby wyznaczono r. Testowany układ hipotez: 0 : ρ = Statystyka testowa: test z = H 0 H : ρ 0 r xy 1 r 2 xy n 1 lub test = rxy t n 2 2 1 r xy
Przykład testowania istotności współczynnika korelacji Współczynnik korelacji między liczbą randek w tygodniu a satysfakcją z życia wynosi r=0.493 (N = 16 par pomiarów). Czy możemy podjąć decyzję wobec populacji H0: ρ=0. Schemat postępowania: Testowany układ hipotez: 0 : ρ = 0 H1 : ρ Wybór statystyki testowej = rxy t n 2 2 1 r Ma rozkład t - Studenta z n-2 stopni swobody (14) Poziom α=0.05 tkryt=2.145 t=2.11 H 0 Podjęcie decyzji xy
Test w Statsoft Statistica Przykład biostatystyczny
Problemy w interpretacji współczynnika korelacji Uwagi po analizie przykładu: Należy oglądać dane! Współczynnik służy do badania związku liniowego! Jeśli związek nie jest liniowy stosuj regresję krzywoliniową. Współczynnik korelacji jest nieistotny można stwierdzić wyłącznie brak związku liniowego. Ponadto pamiętaj: Wrażliwość na obserwacje skrajne i ograniczenie zakresy zmienności zmiennej niezależnej.
Gdzie jesteśmy w trakcie wykładu? 1. Wykrywanie zależności między zmiennymi 2. Współczynnik korelacji próbkowej (Pearsona). 3. Liniowa zależność między dwoma zmiennymi: Prosta regresja Metoda najmniejszych kwadratów Właściwości 4. Zastosowanie różnego oprogramowania
Regresja o czym rozmawiamy? Główne zadanie analizy korelacji Stwierdzenie faktu występowania zależności między zmiennymi oraz zbadanie siły i kierunku tej zależności. Analiza regresji? Historia termin użyty przez F.Galtona dla oznaczenia pewnych zależności w teorii dziedziczenia. Statystyczne rozumienie tego terminu? http://galton.org/
Regresja dalsze uwagi Modelowanie regresyjne teoretyczne (populacja); przyjęcie wielu założeń. W rzeczywistych sytuacjach dysponujemy jedynie wynikami obserwacji dla zmiennych X i Y z próby. [ x i yi ] = [ x1 y1, x2 y2,, xn yn] Przykład: Na podstawie pomiarów przedstawionych na wykresie w formie diagramu rozproszenia poszukuje się pewnej krzywej (często linii prostej), którą można uznać za najlepiej obrazująca ogólną tendencję zmiany wartości jednej zmiany wartości jednej zmiennej Y w miarę jak zmieniają się wartości drugiej zmiennej X.
Analiza regresji Z populacji dzieci (w zakresie wieku 7-19 lat) wybrano losowo 175 próbę 15 osobową i określono dla nich dwie cechy: x wiek w 165 latach oraz y wzrost w cm: (7,120),(9,125),(18,164), 155 (11.5,140), (8,122),(11,135), (13,145), (17,162), (10,131), (19,170), 145 (14,150), (12,142), (18.5,168), (15,154), (16,159) WZROST Wykres rozrzutu (Regrwzrost15.STA 2v*15c) y=88,689+4,305*x+eps 175 165 155 Wykres rozrzutu (Regrwzrost15.STA 2v*15c) 135 Wykonaj analizę zależności 125 tych zmiennych WZROST 145 135 125 115 6 8 10 12 14 16 18 20 Korelacja 0,99 115 6 8 10 12 14 16 18 20 WIEK WIEK
Regresja model liniowy Analityczny sposób przyporządkowania wartości zmiennej zależnej konkretnym wartościom zmiennych niezależnych. Liniowa regresja prosta najprostszy rodzaj regresji, w których zależność zmiennych można opisać za pomocą linii prostej. ŷ = a x + b + ε gdzie a jest współczynnikiem kierunkowym, b wyraz wolny (punkt przecięcia z osią rzędnych); x zmienna niezależna, y zmienna zależna (objaśniana, przewidywana), ε - błąd losowy.
Liniowa prosta regresji - MNK Rzeczywiste dane Wartość teoretyczna funkcji regresji Błąd oszacowania lub rezyduum. ( x, y 1),...,( x n, y y 1 n ˆ i y i y ˆ = ( x) tzw. wartość resztowa Liniowa regresja prosta wartości rezyduów powinny być jak najmniejsze dla wszystkich i=1,,n. Wskaźnik rozproszenia suma kwadratów rezyduów. S 2 = i n = 1 ( y i yˆ i) Dla liniowego wykresu dużych rezyduów nie ma być zbyt wiele metoda najmniejszych kwadratów! (F.Gauss) daje ona najlepsze liniowe nieobciążone estymatory parametrów regresji (BLUE) ). f
Przykład Intuicja MNK Które residua (suma kwadratów) są najmniejsze? Proste sumowanie: I -5+2+3=0; II -1+2-1=0; III -2+2+0 MNK: I 25+4+9=38; II: 1+4+1=6; III 4+4=8
MNK jak to się liczy? Sprawdź w J.Koronacki, J.Mielniczuk, str. 266. S b S a n i = = 2 1 ( y ( b + ax )) = n i = i = 2 1 x ( y ( b + ax )) = i i i i 0 0
Szacowanie MNK Dokonując odpowiednich przekształceń otrzymujemy ) ( ), cov( ) ( ) ( ) ( 2 1 2 1 x S y x x x y y x x a n i i n i i i = = = = x a y b =
Trochę dyskusji właściwości: Współczynnik regresji a można zapisać jako cov( x, y) a = S 2 x = r xy S S y x Interpretacja wartości współczynnika regresji: Ujemna wartość wskazuję na to, że pod wpływem wzrostu zmiennej niezależnej x o jednostkę, zmienna zależna y maleje średnio o a jednostek Dodatnia wartość wzrost y wraz ze wzrostem x o a jedn. a = 0 brak wpływu zmiennej niezależnej na zależną! Wyraz wolny rzadko posiada sensowną interpretację.
Przykład ilustracyjny (samochody) W firmie produkującej samochody przeprowadzono analizę sprzedaży samochodów z ostatniego miesiąca. Zebrano dane od 12 dealerów zajmujących się sprzedażą samochodów tej firmy o wielkości sprzedaży za ostatni miesiąc (zmienna zależna Y) oraz czasie wykupionej reklamy w ostatnim miesięcy (zmienna niezależna X). Nr dealera y x 1 129 18 2 119 15 3 159 22 4 148 23 5 131 17 6 120 16 7 161 25 8 174 26 9 134 20 10 163 24 11 143 19 12 155 25
Samochody 2 Wykres XY 28 26 24 22 20 18 16 14 12 10 115 120 125 130 135 140 145 150 155 160 165 170 175 180 Obliczenie współczynnika korelacji: r xy = 0.9465. (statyst ist.) Model liniowy z oszacowanymi parametrami: y = 51.584 + 4.468 x Wartość a oznacza, że wzrost (spadek) czasu wykupionej reklamy radiowej o jedną minutę spowoduje wzrost (spadek) sprzedaży w przybliżeniu o 4.468 sztuk samochodów.
Samochody 3 Model y^ = 51.584 + 4.468 x 185 Wykres rozrzutu (samochody.sta 10v*12c) y=51.582+4.468*x+eps 175 165 155 Y 145 135 125 115 14 16 18 20 22 24 26 28 X Nr dealera x y y^=f(x) 1 18 129 132,01 2 15 119 118,60 3 22 159 149,88 4 23 148 154,35 5 17 131 127,54 6 16 120 123,07 7 25 161 163,28 8 26 174 167,75 9 20 134 140,94 10 24 163 158,82 11 19 143 136,48 12 25 155 163,28
Co zrobimy w Excelu? Funkcje stat. REGLINP
Co zrobimy w Excelu? Dodatek Analiza Danych X 1 2 3 4 5 6 7 Y 1 2 3 4 4 5 5 Tak przy okazji jak interpretować wyniki?
Przykład wzrost = f(wiek) / Statistica (Statsoft)
Ocena modelu regresji Całkowitą sumę kwadratów odchyleń (SST) w analizie regresji dzieli się na dwie części: gdzie SST = SSR + 2 SSE ( y y) = ( yˆ y) + ( y SSR regresyjna suma kwadratów odchyleń (część wyjaśniona przez zbudowany model), SSE resztowa suma kwadratów odchyleń (część nie wyjaśniona przez zbudowany model). 2 yˆ) 2
Na ile dobra jest regresja? Współczynnik determinacji jest opisową miarą siły liniowego związku między zmiennymi, czyli miarą dopasowania linii regresji do danych. współczynnik determinacji --- przyjmuje wartości z przedziału [0,1] i wskazuje jaka część zmienności zmiennej y jest wyjaśniana przez znaleziony model. Na przykład dla R 2 =0.619 znaleziony model wyjaśnia około 62% zmienności y. Przy okazji: pomyśl o związku współczynnika R 2 oraz współczynnika korelacji r.
Testy istotności
Samochody 3 Model y^ = 51.584 + 4.468 x 185 Wykres rozrzutu (samochody.sta 10v*12c) y=51.582+4.468*x+eps 175 165 155 Y 145 135 125 115 14 16 18 20 22 24 26 28 X Nr dealera x y y^=f(x) 1 18 129 132,01 2 15 119 118,60 3 22 159 149,88 4 23 148 154,35 5 17 131 127,54 6 16 120 123,07 7 25 161 163,28 8 26 174 167,75 9 20 134 140,94 10 24 163 158,82 11 19 143 136,48 12 25 155 163,28
Samochody 4 R 2 = 0.8958, S = 6.1258 R 2 ozn., że 89.58% zmienności zmiennej y zostało wyjaśnione przez zbudowany model. S przeciętne odchylenie wartości empirycznych od wartości teoretycznych (wynikających ze zbudowanego modelu) wynosi 6.1258 sztuk samochodów.
Istotność modelu regresji dla przykładu samochodowego. Model y = 51.584 + 4.468 x Źródło zmienności Model (część wyjaśniona) Błąd (część niewyjaśniona) Liczba stopni swobody (k=1) 1 (n k 1 = n-2) 10 Suma kwadratów odchyleń SSR 3227.4151 SSE 375.2515 Całkowita (n-1) 11 SST 3602.67 Przeciętna suma kwadratów odchyleń (MSR=SSR/1) 3227.4151 (MSE=SSE/(n-2)) 37.5252 R2 = 0.8958, S = 6.1258, F = 86.0067 Wartość krytyczna statystyki z tablic rozkładu F przy poziomie istotności α = 0.05 wynosi 4.96 ; Także oba testy lokalne są istotne Podsumujmy wyniki: Model jest statystycznie istotny.
Kilka uwag dla zainteresowanych: Analiza regresji to ciekawe praktycznie i teoretycznie zagadnienie. Nie powiedzieliśmy za dużo o: Analizie reszt i badaniu poprawności modelu. Regresji wielowymiarowej (wielorakiej). Wykorzystaniu modelu regresji do prognozowania. Regresji nieliniowej. Selekcji zmiennych w modelach wielowymiarowej. Zawsze możesz sam poszukać czytaj książki!
Model liniowy regresji wielokrotnej (wielowymiarowej) Założenie: wpływ każdej rozpatrywanej zmiennej objaśniającej na zmienną y jest liniowy i nie zależy od wartości innych zmiennych y Zapis macierzowy: xm odpowiada y; wyraz wolny dodatkowa zmienna x i0 =1 Rozwiązanie MNK = 0 1 1 2 2 m m β + β x + β x + + β x + ε Y = X β + ε b ( ' ) 1 ' X X X Y Zasady oceny i testowania podobne = Więcej A.Aczel: Statystyka w zarządzaniu (rozdział 11)
Przykład Zebrano następujące pomiary x1 5 3 5 3 x2 0,5 0,5 0,3 0,3 f(x1,x2) 1,5 3,5 6,2 3,2 Założono model regresji liniowej y = b 0 + b1 x1 + b2 x2
Przykład rozwiązujemy y = 1,5 3,5, 6,2 3,2 X = 1 1 1 1 5 3 5 3 0,5 0,5, 0,3 0,3 b = b0 b 1... b m Po przekształceniu: b b b 7,0 0,25 11 Komentarz: liczba obserwacji n powinna być większa niż parametrów do oszacowania m. 0 1 2 Kolumny macierzy liniowo niezależne jednoznaczne rozwiązanie Diagnostyka modelu wielokrotnego przedstawione metody stat. = = =
Regresja wielokrotna Dane są informacje o budżecie reklamowym pewnego produktu, jego cena jednostkowa oraz finalna sprzedaż jednostkowa. BUDŻET CENA SPRZEDAZ 1 3500 88 16523 2 10073 110 6305 3 11825 85 1769 4 33550 28 30570 5 37200 101 7698 6 55400 71 9554 7 55565 7 54154 8 66501 82 54450 9 71000 62 47800 10 82107 24 74598 11 83100 91 25257 12 90496 40 80608 13 100000 45 40800 14 102100 21 63200 15 132222 40 69675 16 136297 8 98715 17 139114 63 75886 18 165575 5 83360
Regresja nieliniowa Dane nt. polskiego rybołówstwa dalekomorskiego (lata 90te).
Regresja nieliniowa cd. Model funkcji kwadratowej (estymacja?) Polowy Model regresji 400 350 300 250 200 150 100 50 0 20 30 40 50 60 70 80 90 Statki y = 0,25071 x + 30,7079 x 2 581,49
Regresja obserwacje odstające / skrajne 180 Wykres rozrzutu (Regr1.STA 2v*16c) y=87.723+4.148*x+eps 170 160 150 WZROST 140 130 120 odciaganie 110 100 Obserwacja odstająca 90 6 8 10 12 14 16 18 20 WIEK
Ogólny schemat postępowania Ustalenie założeń i postaci modelu Szacowanie parametrów strukturalnych modelu na podstawie wyników próby Weryfikacja modelu: czy parametry są istotne? ocena założeń modelu (reszty) czy zależność jest liniowa? TAK NIE Wykorzystanie modelu: 1. Predykcja zmiennej Y 2. Opis zależności między zmiennymi
Literatura Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyka w zarządzaniu, A.Aczel, PWN 2000. Statystyka praktyczna. W.Starzyńska, Statystyka. Wprowadzenie do analizy danych sondażowych i eksperymentalnych. G.Wieczorkowska, Scholar, 2004. Przystępny kurs statystyki, Stanisz A., 1997. Tom 2 poświęcony wyłącznie analizie regresji! I wiele innych
Dziękuję za uwagę Czytaj także podręczniki!