Analiza regresji - weryfikacja założeń

Podobne dokumenty
Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Regresja linearyzowalna

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Wprowadzenie do analizy korelacji i regresji

MODELE LINIOWE. Dr Wioleta Drobik

Rozdział 8. Regresja. Definiowanie modelu

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Ekonometria Ćwiczenia 19/01/05

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Natalia Neherbecka. 11 czerwca 2010

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria. Zajęcia

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

KORELACJE I REGRESJA LINIOWA

Estymacja parametrów w modelu normalnym

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Metody Ilościowe w Socjologii

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Ekonometria egzamin 07/03/2018

7.4 Automatyczne stawianie prognoz

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

3. Modele tendencji czasowej w prognozowaniu

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Wprowadzenie do analizy dyskryminacyjnej

Analiza autokorelacji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

POLITECHNIKA OPOLSKA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Własności statystyczne regresji liniowej. Wykład 4

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMAT

Stanisław Cichocki. Natalia Nehrebecka

Analiza regresji część II. Agnieszka Nowak - Brzezińska

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Ćwiczenia IV

Stanisław Cichocki. Natalia Nehrebecka

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada

Sposoby prezentacji problemów w statystyce

Analiza współzależności dwóch cech I

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Stosowana Analiza Regresji

Weryfikacja hipotez statystycznych

Zmienne zależne i niezależne

Testowanie hipotez statystycznych

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Przykład 1. (A. Łomnicki)

Analiza współzależności zjawisk

Testowanie hipotez statystycznych.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Testowanie hipotez statystycznych

Dopasowywanie modelu do danych

ANALIZA REGRESJI SPSS

Statystyka i Analiza Danych

Transkrypt:

Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. med. Andrzej Żarnecki) Data utworzenia: 27.12.2001 Ostatnia modyfikacja: 30.04.2007 Opublikowano w Medycyna Praktyczna 2001/05 W poprzednich odcinkach omawialiśmy różne modele regresji. Kolejne kroki ich budowania można przedstawić w postaci schematu (rys. 1). Inne ABC raportu statystycznego Analiza log-liniowa Analiza dyskryminacyjna Analiza kanoniczna Rys. 1. Trzecim etapem tworzenia modelu jest sprawdzenie, po estymacji i weryfikacji, czy jest on poprawny, to znaczy, czy spełnione są wszystkie założenia analizy regresji. Większość tych założeń dotyczy reszt. Analizując reszty, możemy bowiem wykryć i ewentualnie wyeliminować wszystkie odstępstwa od poprawnej analizy. Na początku przypomnimy więc definicję reszt ei związanych z modelem regresji. Jak wiemy (patrz: Analiza regresji - regresja liniowa), funkcja regresji przyjmuje następującą postać: gdzie odpowiednio: i = 1, 2..., n to kolejne numery elementów obserwacji, e i to tzw. reszty (zmienna losowa) definiowane jako e i = y i - Reszty to różnica pomiędzy wartością teoretyczną leżącą na linii regresji i odpowiadającą wartości x i a wartością obserwowaną y i. Analiza reszt pozwala szybko sprawdzić podstawowe założenia modelu regresji. Poprawnie skonstruowany model to taki, który charakteryzuje się pewnymi pożądanymi własnościami reszt. Procedurę sprawdzenia założeń modelu stosuje się ex post, tzn. po oszacowaniu parametrów metodą najmniejszych kwadratów. Gdy się okaże, że niektóre z tych założeń nie są spełnione, parametry modelu szacuje się ponownie, stosując inną metodę albo inną postać modelu. Nasuwa się pytanie, jak można sprawdzić, czy spełnione są założenia oraz jak zaradzić konsekwencjom niespełnienia wszystkich założeń metody najmniejszych kwadratów. Aby na nie odpowiedzieć, omówię te założenia, kładąc główny nacisk na interpretację graficzną. Dokładne bowiem przedstawienie problemu oraz omówienie wszystkich testów

wykracza poza ramy tego cyklu. Czytelników zainteresowanych tą problematyką odsyłam do zaawansowanych podręczników ze statystyki. Pakiet STATISTICA zawiera szeroki bardzo różnorodny zestaw statystyk i wykresów potrzebnych do analizy reszt. Możemy obliczyć między innymi surowe wartości reszt, reszty standaryzowane, odległości Mahalanobisa i Cooka oraz wartości statystyki Durbina i Watsona. Te wszystkie wspomniane statystki i wykresy dostępne są po kliknięciu przycisku w oknie Wyniki regresji wielokrotnej. Otworzy się wówczas okno Analiza reszt widoczne na rysunku 2. Rys. 2. Okno analizy reszt Aby estymatory otrzymane metodą najmniejszych kwadratów istniały i miały pożądane własności (efektywność, nieobciążoność), muszą być spełnione pewne warunki. Omówimy je po kolei. Założenie 1. Model jest liniowy względem parametrów, tzn. = b 0 + b 1 x 1i + b 2 x 2i +... + b k x ki dla i = 1, 2,..., n. Liniowość sprawdzamy testem F, którego wyniki możemy znaleźć w oknie Regresja wielokrotna (opisanym w poprzednim odcinkach). Do weryfikacji tego założenia pomocny jest wykres rozrzutu reszt względem wartości przewidywanych. Wykres ten jest dostępny po kliknięciu przycisku w oknie Analiza reszt. Dwa takie wykresy są przedstawione na rysunku 3.

Rys. 3A i B. Wykresy rozrzutu wartości przewidywanych względem wartości resztowych Jeżeli założenie jest spełnione, to reszty układają się w postaci równomiernej chmury (rys. 3A). Jeżeli zaś założenie nie jest spełnione, to na wykresie mogą się pojawić charakterystyczne układy punktów (rys. 3B). Jeśli nieliniowość jest oczywista, możemy dokonać przekształcenia zmiennych (sprowadzając do liniowości) albo zastosować techniki nieliniowe, które będą omówione w jednym z następnych odcinków. Założenie 2.

Liczba obserwacji n musi być większa od liczby oszacowanych paramertów, tj. n > k + 1. Bez spełnienia tego warunku nie możemy rozwiązać układu równań gwarantujących istnienie parametrów modelu. W praktyce, w celu wyciągnięcia sensownych wniosków staramy się, aby liczba n była wielokrotnie większa od liczby oszacowanych parametrów. Założenie 3. Żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych. Jest to założenie o braku współliniowości. Mówiąc ogólnie, chodzi o to, aby żadna ze zmiennych nie dostarczała do modelu informacji, które już są zawarte w innych zmiennych. Założenia 2. i 3. gwarantują otrzymanie jednoznacznie określonych parametrów, toteż wiele pakietów statystycznych automatycznie ostrzega przed silną współliniowością. Również większość pakietów umożliwia obliczenie macierzy korelacji między zmiennymi niezależnymi, która pozwala określić stopień współliniowości danych. W pakiecie STATISTICA macierz korelacji otrzymamy po kliknięciu przycisku Zagadnienie to omówiłem dokładnie w odcinku 24. (patrz: Regresja wielokrotna - część 1). Założenie 4. Składnik losowy e i ma wartość oczekiwaną równą zeru (E(e i ) = 0 dla wszystkich i = 1, 2,..., n) Założenie to mówi, że czynniki nieuwzględnione w modelu nie oddziałują w istotny sposób na średnią wartość zmiennej niezależnej Y. Założenie 5. Wariancja składnika losowego (reszt e i ) jest taka sama dla wszystkich obserwacji (War(e i ) = σ 2 dla wszystkich i = 1, 2,..., n) Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki nieujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji. Najlepszy sposób sprawdzenia, czy heteroscedastyczność (naruszenie założenia) jest obecna, to utworzenie odpowiednich wykresów rozrzutu. Jeśli się spodziewamy różnych wariancji składnika losowego, najlepiej sporządzić wykres rozrzutu reszt względem wartości przewidywanych lub rozrzutu wartości przewidywanych względem kwadratów reszt. Wykresy te otrzymamy po kliknięciu przycisku Przykłady takich wykresów widoczne są na rysunku 4.

Rys. 4A i B. Wykresy rozrzutu wartości przewidywanych względem wartości resztowych Na rysunku 4A widać wyraźnie, że wartości reszt są bardziej zróżnicowane (rozrzucone) dla pewnych wartości przewidywanych niż dla innych. Wartości wariancji zdają się rosnąć wraz ze wzrostem wartości przewidywanej. Założenie zostało więc naruszone. Natomiast tak się nie dzieje, gdy założenie o homoscedastyczności jest zachowane (rys. 4B). W przypadku heteroscedastyczności można dokonać takiej transformacji modelu, by otrzymać model hemoscedastyczny

lub zastosować ważoną metodę najmniejszych kwadratów. Założenie 6. Składniki losowe (reszty) są nieskorelowane czyli e i oraz e j są od siebie niezależne dla wszystkich par i oraz j, gdzie i, j = 1, 2,..., n oraz i różne od j. Założenie to jest najczęściej naruszone w równaniach regresji zależnych od zmiennej czasowej (tzw. szeregach czasowych). W zjawiskach medycznych mamy często do czynienia z przypadkami, w których obserwowana wielkość zmiennej zależnej w momencie t silnie zależy od wartości w momentach wcześniejszych. Jeśli to założenie nie jest spełnione, to mówimy o autokorelacji. Stwierdziwszy ją, staramy się zastosować uogólnioną metodę najmniejszych kwadratów. Czasami autokorelacja wynika ze złej postaci funkcyjnej modelu. W pakiecie STATISTICA do wykrywania autokorelacji służy test Durbina i Watsona dostępny po kliknięciu przycisku Założenie 7. Każdy ze składników losowych (reszty) ma rozkład normalny. Uwzględniając poprzednie założenia, możemy powiedzieć, że e i ma rozkład N(0, Σ) dla każdego i = 1, 2,..., n. Niespełnienie tego założenia powoduje, że nie mamy możliwości weryfikacji hipotez dotyczących istotności wyliczonych parametrów b 0 i b 1 Sprawdzenie normalności rozkładu omówiłem w jednym z pierwszych odcinków. Przypomnę więc tylko, że tu pomocne mogą być normalne wykresy prawdopodobieństwa reszt oraz histogramy reszt. Wywołamy je, klikając odpowiednio przycisk albo przycisk Normalny wykres prawdopodobieństwa na rysunku 5 pokazuje sytuację, w której rozkład wartości reszt nie jest zbliżony do normalnego (punkty nie układają się wzdłuż linii prostej). Rys. 5. Wykres normalny reszt

Więcej informacji znajdą Państwo na stronie http://www.mp.pl Copyright 1996-2004 Medycyna Praktyczna