Statystyka i Analiza Danych

Podobne dokumenty
Wprowadzenie do analizy korelacji i regresji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka i Analiza Danych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

MODELOWNIE WSPÓŁZALEŻNOŚCI ZJAWISK W STATISTICA I STATISTICA DATA MINER

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Stosowana Analiza Regresji

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Regresja i Korelacja

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

MODELE LINIOWE. Dr Wioleta Drobik

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Statystyka matematyczna i ekonometria

Metoda najmniejszych kwadratów

Metody Ilościowe w Socjologii

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Stosowana Analiza Regresji

STATYSTYKA MATEMATYCZNA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

KORELACJE I REGRESJA LINIOWA

Spis treści 3 SPIS TREŚCI

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Ćwiczenie 5 PROGNOZOWANIE

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Ekonometria Ćwiczenia 19/01/05

Regresja liniowa wprowadzenie

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Rozdział 8. Regresja. Definiowanie modelu

WSPOMAGANIE ANALIZY DANYCH ZA POMOCĄ NARZĘDZI STATISTICA

STATYSTYKA MATEMATYCZNA

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Statystyka SYLABUS A. Informacje ogólne

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej. Modele nieliniowe Funkcja produkcji

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

Etapy modelowania ekonometrycznego

Wojciech Skwirz

3. Modele tendencji czasowej w prognozowaniu

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

WSPOMAGANIE STATYSTYCZNEJ ANALIZY WYNIKÓW BADAŃ EMPIRYCZNYCH W STATISTICA 9

STATYSTYKA MATEMATYCZNA

Ćwiczenia IV

Metody Ekonometryczne

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Uogólniony model liniowy

STATYSTYKA MATEMATYCZNA

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

STATYSTYKA MATEMATYCZNA

Podstawy opracowania wyników pomiarów z elementami analizy niepewności statystycznych

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Statystyka Matematyczna Anna Janicka

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Stanisław Cichocki. Natalia Nehrebecka

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Transkrypt:

Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014

Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki - Warsztaty - Statystyka i Analiza Danych

Plan wystąpienia Modelowanie statystyczne krótkie wprowadzenie Kryteria podziału modeli Model regresji liniowej prostej Przykład analizy regresji liniowej prostej Jakościowa zmienna niezależna w modelu (bez uwzględnienia interakcji i z interakcją) Przykłady budowy modeli nieliniowych

Co to jest analiza regresji Zestaw technik analizy danych stosowanych do badania wzajemnych związków występujących pomiędzy zmiennymi W analizie regresji związki pomiędzy zmiennymi są ujmowane w postaci równania lub modelu łączącego zmienną zależną (objaśnianą) i jedną lub większą liczbę zmiennych niezależnych (objaśniających, predyktorów)

Krótkie wprowadzenie do problematyki modelowania statystycznego Zagadnienie badania współzależności zjawisk Złożoność badanych zjawisk - modele deterministyczne a modele probabilistyczne Model jest zawsze uproszczeniem wycinka rzeczywistości Statystyczny model zjawiska Dane = MODEL + Błąd

Kryteria podziału modeli Parametryczne i nieparametryczne Regresyjne i klasyfikacyjne Proste (pojedyncza zmienna objaśniająca) i wielorakie (wiele zmiennych objaśniających) Interakcja w obrębie zm. objaśniających Liniowe i nieliniowe

Statystyczny model zjawiska Współzależności między zmiennymi mogą być dwojakiego rodzaju: funkcyjne lub stochastyczne (probabilistyczne). Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. Zależność stochastyczna występuje wtedy, gdy wraz ze zmianą jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej.

Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy zatem ustalić, jak zmieni się - średnio biorąc - wartość zmiennej zależnej Y w zależności od zmiany wartości zmiennej niezależnej X.

Przykładowe postacie związków funkcyjnych i statystycznych Związek funkcyjny, liniowy Związek funkcyjny, nieliniowy 46 140 42 120 100 38 80 Y 34 Y 60 40 30 20 26 3 4 5 6 7 8 9 10 11 12 X 0 3 4 5 6 7 8 9 10 11 12 X Związek statystyczny, liniowy Związek statystyczny, nieliniowy 44 140 42 40 120 38 100 Y 36 34 Y 80 32 60 30 28 40 26 3 4 5 6 7 8 9 10 11 X 20 3 4 5 6 7 8 9 10 11 12 X Związki typu statystycznego są możliwe do wykrycia i ilościowego opisu dla dużej liczby obserwacji, opisujących badane obiekty, zjawiska czy też procesy

Model regresji liniowej prostej Model, w którym bierze się pod uwagę tylko jedną zmienną niezależną Y = β 0 + β 1 x +ξ gdzie β 0 oznacza wyraz wolny, β 1 współczynnik kierunkowy a ξ składnik losowy (błąd) Jak to zostało już wcześniej powiedziane zazwyczaj nie wszystkie punkty układają się dokładnie na prostej regresji. źródłem błędu są wpływy innych nie uwzględnionych w modelu czynników, takich jak np. błędy pomiarowe

Przykłady zastosowań analizy regresji (w środowisku programu STATISTICA) Modelowane zjawisko: wpływ wieku, płci i palenia na skurczowe ciśnienie krwi Dane: 33 pacjentów z nadciśnieniem Budowa modeli regresji liniowej prostej i wielorakiej: Ciśn skurcz = f (Wiek) Ciśn skurcz = f (Wiek, Płeć, Płeć Wiek) Ciśn skurcz = f (Wiek, Palenie, Palenie Wiek)

Nieformalna ocena powiązania

Interpretacja wyników modelowania Ciśn skurcz = 125,11 + 1,355 Wiek R 2 [%] = 64,9 Błąd std. estymacji = ±14,9 (± 8,0%)

Standardowe założenia modelu regresji liniowej 1. Założenia dotyczące postaci modelu Zależność zmiennej objaśnianej (Y) i zmiennej objaśniającej jest liniowa względem parametrów modelu (β 0, β 1 ) 2. Założenia dotyczące składnika losowego Normalność: ξ i mają rozkład normalny dla wszystkich i Jego wartość przeciętna wynosi 0 Jego wariancji jest stała: var (ξ i ) = σ 2 dla wszystkich i Niezależność: ξ i i ξ j są niezależne dla wszystkich i j

Standardowe założenia modelu regresji liniowej, cd. 3. Założenia dotyczące zmiennej objaśniającej Zmienna objaśniająca nie jest zmienną losową (jej wartości są ustalane przez eksperymentatora Wartości zmiennej objaśniającej są mierzone bez błędu 4. Założenia dotyczące zmiennej objaśnianej Wszystkie obserwacje mają w przybliżeniu podobny wpływ na wyniki analizy regresji i wnioskowanie

Ocena normalności rozkładu składnika losowego

Graficzna ilustracja modelu i danych surowych

Jakościowa zmienna objaśniająca (przypadek bez interakcji)

Interpretacja wyników modelowania Ciśn skurcz = 115,09 + 1,366 Wiek + 20,93 Płeć R 2 [%] = 83,2 Błąd std. estymacji = ±10,48 (± 5,7%)

Graficzna ilustracja modeli i danych surowych

Jakościowa zmienna objaśniająca (przypadek z interakcją)

Interpretacja wyników modelowania Ciśn skurcz = 143,17 + 0,602 Wiek + 0,54 Wiek Palenie R 2 [%] = 81,8 Błąd std. estymacji = ±10,90 (± 5,9%)

Graficzna ilustracja modeli i danych surowych

Przykład modelowanie zależności nieliniowych Modelowane zjawisko: zmiana liczby abonentów tel. kom. (1992-2005) w Polsce Dane: liczby abonentów tel. kom. [w tys.] Budowa modeli regresji nieliniowej Abonenci TK = f (Czas) model wykładniczy: model potęgowy: Y = β 0 β 1 x Y = β 0 x β 1

Wyniki analizy - model wykładniczy War wyjaśn.: 98,39 %

45000 Model wykładniczy 40000 35000 30000 Abonenci TK (tys.) 25000 20000 15000 10000 5000 0 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Rok

Wyniki analizy - model potęgowy War wyjaśn.: 99,8 %

45000 Model potęgowy 40000 35000 30000 Abonenci TK (tys.) 25000 20000 15000 10000 5000 0 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Rok

Porównanie dopasowanych modeli 45000 40000 35000 30000 Abonenci TK (tys.) 25000 20000 15000 10000 5000 0 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Rok

Model logistyczny y 1 e x 2 1 ln

Wyniki analizy - model logistyczny War wyjaśn.: 99,9 %

Porównanie dopasowanych modeli

Dziękuję za uwagę! janusz.watroba@statsoft.pl