Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014
Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki - Warsztaty - Statystyka i Analiza Danych
Plan wystąpienia Modelowanie statystyczne krótkie wprowadzenie Kryteria podziału modeli Model regresji liniowej prostej Przykład analizy regresji liniowej prostej Jakościowa zmienna niezależna w modelu (bez uwzględnienia interakcji i z interakcją) Przykłady budowy modeli nieliniowych
Co to jest analiza regresji Zestaw technik analizy danych stosowanych do badania wzajemnych związków występujących pomiędzy zmiennymi W analizie regresji związki pomiędzy zmiennymi są ujmowane w postaci równania lub modelu łączącego zmienną zależną (objaśnianą) i jedną lub większą liczbę zmiennych niezależnych (objaśniających, predyktorów)
Krótkie wprowadzenie do problematyki modelowania statystycznego Zagadnienie badania współzależności zjawisk Złożoność badanych zjawisk - modele deterministyczne a modele probabilistyczne Model jest zawsze uproszczeniem wycinka rzeczywistości Statystyczny model zjawiska Dane = MODEL + Błąd
Kryteria podziału modeli Parametryczne i nieparametryczne Regresyjne i klasyfikacyjne Proste (pojedyncza zmienna objaśniająca) i wielorakie (wiele zmiennych objaśniających) Interakcja w obrębie zm. objaśniających Liniowe i nieliniowe
Statystyczny model zjawiska Współzależności między zmiennymi mogą być dwojakiego rodzaju: funkcyjne lub stochastyczne (probabilistyczne). Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. Zależność stochastyczna występuje wtedy, gdy wraz ze zmianą jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej.
Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy zatem ustalić, jak zmieni się - średnio biorąc - wartość zmiennej zależnej Y w zależności od zmiany wartości zmiennej niezależnej X.
Przykładowe postacie związków funkcyjnych i statystycznych Związek funkcyjny, liniowy Związek funkcyjny, nieliniowy 46 140 42 120 100 38 80 Y 34 Y 60 40 30 20 26 3 4 5 6 7 8 9 10 11 12 X 0 3 4 5 6 7 8 9 10 11 12 X Związek statystyczny, liniowy Związek statystyczny, nieliniowy 44 140 42 40 120 38 100 Y 36 34 Y 80 32 60 30 28 40 26 3 4 5 6 7 8 9 10 11 X 20 3 4 5 6 7 8 9 10 11 12 X Związki typu statystycznego są możliwe do wykrycia i ilościowego opisu dla dużej liczby obserwacji, opisujących badane obiekty, zjawiska czy też procesy
Model regresji liniowej prostej Model, w którym bierze się pod uwagę tylko jedną zmienną niezależną Y = β 0 + β 1 x +ξ gdzie β 0 oznacza wyraz wolny, β 1 współczynnik kierunkowy a ξ składnik losowy (błąd) Jak to zostało już wcześniej powiedziane zazwyczaj nie wszystkie punkty układają się dokładnie na prostej regresji. źródłem błędu są wpływy innych nie uwzględnionych w modelu czynników, takich jak np. błędy pomiarowe
Przykłady zastosowań analizy regresji (w środowisku programu STATISTICA) Modelowane zjawisko: wpływ wieku, płci i palenia na skurczowe ciśnienie krwi Dane: 33 pacjentów z nadciśnieniem Budowa modeli regresji liniowej prostej i wielorakiej: Ciśn skurcz = f (Wiek) Ciśn skurcz = f (Wiek, Płeć, Płeć Wiek) Ciśn skurcz = f (Wiek, Palenie, Palenie Wiek)
Nieformalna ocena powiązania
Interpretacja wyników modelowania Ciśn skurcz = 125,11 + 1,355 Wiek R 2 [%] = 64,9 Błąd std. estymacji = ±14,9 (± 8,0%)
Standardowe założenia modelu regresji liniowej 1. Założenia dotyczące postaci modelu Zależność zmiennej objaśnianej (Y) i zmiennej objaśniającej jest liniowa względem parametrów modelu (β 0, β 1 ) 2. Założenia dotyczące składnika losowego Normalność: ξ i mają rozkład normalny dla wszystkich i Jego wartość przeciętna wynosi 0 Jego wariancji jest stała: var (ξ i ) = σ 2 dla wszystkich i Niezależność: ξ i i ξ j są niezależne dla wszystkich i j
Standardowe założenia modelu regresji liniowej, cd. 3. Założenia dotyczące zmiennej objaśniającej Zmienna objaśniająca nie jest zmienną losową (jej wartości są ustalane przez eksperymentatora Wartości zmiennej objaśniającej są mierzone bez błędu 4. Założenia dotyczące zmiennej objaśnianej Wszystkie obserwacje mają w przybliżeniu podobny wpływ na wyniki analizy regresji i wnioskowanie
Ocena normalności rozkładu składnika losowego
Graficzna ilustracja modelu i danych surowych
Jakościowa zmienna objaśniająca (przypadek bez interakcji)
Interpretacja wyników modelowania Ciśn skurcz = 115,09 + 1,366 Wiek + 20,93 Płeć R 2 [%] = 83,2 Błąd std. estymacji = ±10,48 (± 5,7%)
Graficzna ilustracja modeli i danych surowych
Jakościowa zmienna objaśniająca (przypadek z interakcją)
Interpretacja wyników modelowania Ciśn skurcz = 143,17 + 0,602 Wiek + 0,54 Wiek Palenie R 2 [%] = 81,8 Błąd std. estymacji = ±10,90 (± 5,9%)
Graficzna ilustracja modeli i danych surowych
Przykład modelowanie zależności nieliniowych Modelowane zjawisko: zmiana liczby abonentów tel. kom. (1992-2005) w Polsce Dane: liczby abonentów tel. kom. [w tys.] Budowa modeli regresji nieliniowej Abonenci TK = f (Czas) model wykładniczy: model potęgowy: Y = β 0 β 1 x Y = β 0 x β 1
Wyniki analizy - model wykładniczy War wyjaśn.: 98,39 %
45000 Model wykładniczy 40000 35000 30000 Abonenci TK (tys.) 25000 20000 15000 10000 5000 0 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Rok
Wyniki analizy - model potęgowy War wyjaśn.: 99,8 %
45000 Model potęgowy 40000 35000 30000 Abonenci TK (tys.) 25000 20000 15000 10000 5000 0 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Rok
Porównanie dopasowanych modeli 45000 40000 35000 30000 Abonenci TK (tys.) 25000 20000 15000 10000 5000 0 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Rok
Model logistyczny y 1 e x 2 1 ln
Wyniki analizy - model logistyczny War wyjaśn.: 99,9 %
Porównanie dopasowanych modeli
Dziękuję za uwagę! janusz.watroba@statsoft.pl