Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. med. Andrzej Żarnecki) Data utworzenia: 27.12.2001 Ostatnia modyfikacja: 30.04.2007 Opublikowano w Medycyna Praktyczna 2001/05 W poprzednich odcinkach omawialiśmy różne modele regresji. Kolejne kroki ich budowania można przedstawić w postaci schematu (rys. 1). Inne ABC raportu statystycznego Analiza log-liniowa Analiza dyskryminacyjna Analiza kanoniczna Rys. 1. Trzecim etapem tworzenia modelu jest sprawdzenie, po estymacji i weryfikacji, czy jest on poprawny, to znaczy, czy spełnione są wszystkie założenia analizy regresji. Większość tych założeń dotyczy reszt. Analizując reszty, możemy bowiem wykryć i ewentualnie wyeliminować wszystkie odstępstwa od poprawnej analizy. Na początku przypomnimy więc definicję reszt ei związanych z modelem regresji. Jak wiemy (patrz: Analiza regresji - regresja liniowa), funkcja regresji przyjmuje następującą postać: gdzie odpowiednio: i = 1, 2..., n to kolejne numery elementów obserwacji, e i to tzw. reszty (zmienna losowa) definiowane jako e i = y i - Reszty to różnica pomiędzy wartością teoretyczną leżącą na linii regresji i odpowiadającą wartości x i a wartością obserwowaną y i. Analiza reszt pozwala szybko sprawdzić podstawowe założenia modelu regresji. Poprawnie skonstruowany model to taki, który charakteryzuje się pewnymi pożądanymi własnościami reszt. Procedurę sprawdzenia założeń modelu stosuje się ex post, tzn. po oszacowaniu parametrów metodą najmniejszych kwadratów. Gdy się okaże, że niektóre z tych założeń nie są spełnione, parametry modelu szacuje się ponownie, stosując inną metodę albo inną postać modelu. Nasuwa się pytanie, jak można sprawdzić, czy spełnione są założenia oraz jak zaradzić konsekwencjom niespełnienia wszystkich założeń metody najmniejszych kwadratów. Aby na nie odpowiedzieć, omówię te założenia, kładąc główny nacisk na interpretację graficzną. Dokładne bowiem przedstawienie problemu oraz omówienie wszystkich testów
wykracza poza ramy tego cyklu. Czytelników zainteresowanych tą problematyką odsyłam do zaawansowanych podręczników ze statystyki. Pakiet STATISTICA zawiera szeroki bardzo różnorodny zestaw statystyk i wykresów potrzebnych do analizy reszt. Możemy obliczyć między innymi surowe wartości reszt, reszty standaryzowane, odległości Mahalanobisa i Cooka oraz wartości statystyki Durbina i Watsona. Te wszystkie wspomniane statystki i wykresy dostępne są po kliknięciu przycisku w oknie Wyniki regresji wielokrotnej. Otworzy się wówczas okno Analiza reszt widoczne na rysunku 2. Rys. 2. Okno analizy reszt Aby estymatory otrzymane metodą najmniejszych kwadratów istniały i miały pożądane własności (efektywność, nieobciążoność), muszą być spełnione pewne warunki. Omówimy je po kolei. Założenie 1. Model jest liniowy względem parametrów, tzn. = b 0 + b 1 x 1i + b 2 x 2i +... + b k x ki dla i = 1, 2,..., n. Liniowość sprawdzamy testem F, którego wyniki możemy znaleźć w oknie Regresja wielokrotna (opisanym w poprzednim odcinkach). Do weryfikacji tego założenia pomocny jest wykres rozrzutu reszt względem wartości przewidywanych. Wykres ten jest dostępny po kliknięciu przycisku w oknie Analiza reszt. Dwa takie wykresy są przedstawione na rysunku 3.
Rys. 3A i B. Wykresy rozrzutu wartości przewidywanych względem wartości resztowych Jeżeli założenie jest spełnione, to reszty układają się w postaci równomiernej chmury (rys. 3A). Jeżeli zaś założenie nie jest spełnione, to na wykresie mogą się pojawić charakterystyczne układy punktów (rys. 3B). Jeśli nieliniowość jest oczywista, możemy dokonać przekształcenia zmiennych (sprowadzając do liniowości) albo zastosować techniki nieliniowe, które będą omówione w jednym z następnych odcinków. Założenie 2.
Liczba obserwacji n musi być większa od liczby oszacowanych paramertów, tj. n > k + 1. Bez spełnienia tego warunku nie możemy rozwiązać układu równań gwarantujących istnienie parametrów modelu. W praktyce, w celu wyciągnięcia sensownych wniosków staramy się, aby liczba n była wielokrotnie większa od liczby oszacowanych parametrów. Założenie 3. Żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych. Jest to założenie o braku współliniowości. Mówiąc ogólnie, chodzi o to, aby żadna ze zmiennych nie dostarczała do modelu informacji, które już są zawarte w innych zmiennych. Założenia 2. i 3. gwarantują otrzymanie jednoznacznie określonych parametrów, toteż wiele pakietów statystycznych automatycznie ostrzega przed silną współliniowością. Również większość pakietów umożliwia obliczenie macierzy korelacji między zmiennymi niezależnymi, która pozwala określić stopień współliniowości danych. W pakiecie STATISTICA macierz korelacji otrzymamy po kliknięciu przycisku Zagadnienie to omówiłem dokładnie w odcinku 24. (patrz: Regresja wielokrotna - część 1). Założenie 4. Składnik losowy e i ma wartość oczekiwaną równą zeru (E(e i ) = 0 dla wszystkich i = 1, 2,..., n) Założenie to mówi, że czynniki nieuwzględnione w modelu nie oddziałują w istotny sposób na średnią wartość zmiennej niezależnej Y. Założenie 5. Wariancja składnika losowego (reszt e i ) jest taka sama dla wszystkich obserwacji (War(e i ) = σ 2 dla wszystkich i = 1, 2,..., n) Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki nieujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji. Najlepszy sposób sprawdzenia, czy heteroscedastyczność (naruszenie założenia) jest obecna, to utworzenie odpowiednich wykresów rozrzutu. Jeśli się spodziewamy różnych wariancji składnika losowego, najlepiej sporządzić wykres rozrzutu reszt względem wartości przewidywanych lub rozrzutu wartości przewidywanych względem kwadratów reszt. Wykresy te otrzymamy po kliknięciu przycisku Przykłady takich wykresów widoczne są na rysunku 4.
Rys. 4A i B. Wykresy rozrzutu wartości przewidywanych względem wartości resztowych Na rysunku 4A widać wyraźnie, że wartości reszt są bardziej zróżnicowane (rozrzucone) dla pewnych wartości przewidywanych niż dla innych. Wartości wariancji zdają się rosnąć wraz ze wzrostem wartości przewidywanej. Założenie zostało więc naruszone. Natomiast tak się nie dzieje, gdy założenie o homoscedastyczności jest zachowane (rys. 4B). W przypadku heteroscedastyczności można dokonać takiej transformacji modelu, by otrzymać model hemoscedastyczny
lub zastosować ważoną metodę najmniejszych kwadratów. Założenie 6. Składniki losowe (reszty) są nieskorelowane czyli e i oraz e j są od siebie niezależne dla wszystkich par i oraz j, gdzie i, j = 1, 2,..., n oraz i różne od j. Założenie to jest najczęściej naruszone w równaniach regresji zależnych od zmiennej czasowej (tzw. szeregach czasowych). W zjawiskach medycznych mamy często do czynienia z przypadkami, w których obserwowana wielkość zmiennej zależnej w momencie t silnie zależy od wartości w momentach wcześniejszych. Jeśli to założenie nie jest spełnione, to mówimy o autokorelacji. Stwierdziwszy ją, staramy się zastosować uogólnioną metodę najmniejszych kwadratów. Czasami autokorelacja wynika ze złej postaci funkcyjnej modelu. W pakiecie STATISTICA do wykrywania autokorelacji służy test Durbina i Watsona dostępny po kliknięciu przycisku Założenie 7. Każdy ze składników losowych (reszty) ma rozkład normalny. Uwzględniając poprzednie założenia, możemy powiedzieć, że e i ma rozkład N(0, Σ) dla każdego i = 1, 2,..., n. Niespełnienie tego założenia powoduje, że nie mamy możliwości weryfikacji hipotez dotyczących istotności wyliczonych parametrów b 0 i b 1 Sprawdzenie normalności rozkładu omówiłem w jednym z pierwszych odcinków. Przypomnę więc tylko, że tu pomocne mogą być normalne wykresy prawdopodobieństwa reszt oraz histogramy reszt. Wywołamy je, klikając odpowiednio przycisk albo przycisk Normalny wykres prawdopodobieństwa na rysunku 5 pokazuje sytuację, w której rozkład wartości reszt nie jest zbliżony do normalnego (punkty nie układają się wzdłuż linii prostej). Rys. 5. Wykres normalny reszt
Więcej informacji znajdą Państwo na stronie http://www.mp.pl Copyright 1996-2004 Medycyna Praktyczna