1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia: 24.03.2002 Ostatnia modyfikacja: 30.04.2007 Opublikowano w Medycyna Praktyczna 2001/09 Inne ABC raportu statystycznego Analiza log-liniowa Analiza dyskryminacyjna Analiza kanoniczna W poprzednich odcinkach przedstawiliśmy metody estymacji regresji liniowej. Łatwa konstrukcja takiego modelu i jego prosta interpretacja czyni go bardzo popularnym. W badaniach biologiczno-medycznych wiele zagadnień ma jednak charakter nieliniowy. Na przykład, opisując zależność między wiekiem człowieka a tempem wzrostu możemy rozważyć zależność nieliniową. W pierwszych latach życia mamy bowiem do czynienia z największym wzrostem, a później, w okresie dojrzałości, praktycznie wzrost nie następuje. Taką zależność możemy przedstawić w postaci: wzrost = exp(-b 1 wiek) gdzie b 1 pewien parametr Wykres takiej zależności jest pokazany na rysunku 1. Rys. 1. Dynamika wzrostu Oczywiście wspomnieć należy o popularnej dzisiaj w medycynie regresji logistycznej. Ma ona postać wybitnie nieliniową Funkcja logistyczna znalazła zastosowanie przede wszystkim w modelowaniu zmiennych jakościowych. W wielu innych zagadnieniach model regresji liniowej nie będzie dobrze przedstawiał zależności między zmiennymi. Musimy wówczas zrezygnować z funkcji liniowej i wykorzystać regresję nieliniową. Powinniśmy więcpoznać podstawy zagadnień związanych z budową nieliniowych modeli regresji. Stąd dwa najbliższe odcinki poświęcimy modelom tego typu. Dotychczas analizowaliśmy tylko modele liniowe postaci: y = b 0 + b 1 x 1 + b 2 x 2 +...+ b k x k W regresji nieliniowej modele możemy ogólnie wyrazić zależnością: y = F(x 1, x 2,..., x k ), gdzie F(x 1,...) oznacza dowolną funkcję, za pomocą której sami możemy określić typ zależności. Na przykład możemy przyjąć, że zmienna zależna jest funkcją logarytmiczną lub wykładniczą zmiennych niezależnych. Jednak z tą dowolnością związane są problemy: Jak wywnioskować o postaci modelu, czyli jaka faktycznie występuje zależność pomiędzy zmiennymi? Ma to zasadnicze konsekwencje dla uzyskiwanych później oszacowań parametrów. Jaki rodzaj estymacji zastosować?
2 z 5 2007-05-09 23:22 Jak otrzymane zależności sensownie zinterpretować? W tym odcinku poznamy modele linearyzowalne, czyli takie, które poprzez odpowiednią transformację zmiennych lub parametrów możemy sprowadzić do postaci liniowej. Musimy tu postępować bardzo rozważnie, gdyż stosując "złą" transformację, możemy doprowadzić do nietrafnego modelu. Regresja nieliniowa nie jest łatwa do rozpoznania i zastosowania w eksploracyjnej analizie danych. Dlatego w celu łatwiejszego zrozumienia jej metod wszędzie tam, gdzie to jest możliwe, wykorzystujemy szereg różnorodnych wykresów. O tym, że badany związek dwóch zmiennych ma charakter krzywoliniowy, przekonamy się, oglądając wykres rozrzutu. Od niego powinniśmy więc rozpocząć analizę regresji. Chmura punktów pomoże dobrać typ funkcji krzywoliniowej. Analizę modeli linearyzowalnych prześledzimy w oparciu o dane przedstawiające stężenie tyroksyny (T 4 ) w kolejnych dniach leczenia chorych z nadczynnością tarczycy. Dane z 16 dni eksperymentu przedstawia tabela. DNI 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 T 4 74 70 64 63 63 60 59 61 59 58 60 58 57 54 45 36 Tabela Chcemy określić model regresji opisujący przebieg leczenia oraz umożliwiający przewidywanie dalszych jego efektów. W celu wstępnego rozpoznania typu krzywej rozpoczniemy od wykresu rozrzutu (rys. 2). Rys. 2. Wykres rozrzutu dla przykładowych danych Pokazana krzywa przypomina poznany w czasach szkolnych wykres wielomianu stopnia trzeciego. Spodziewamy się więc modelu z funkcją regresji postaci a 0 + a 1 x + a 2 x 2 + a 3 x 3. Dlatego spróbujemy ocenić istotność takiego modelu. W programie STATISTICA do przeprowadzania analizy modeli linearyzowalnych wykorzystujemy moduł REGRESJA WIELOKROTNA. Po wybraniu tego modułu otwiera się opisywane w poprzednich odcinkach wstępne okno dialogowe (rys. 3).
3 z 5 2007-05-09 23:22 Rys. 3. Okno wstępne regresji linearyzowalnej Następnie na rozwijalnej liście Tryb wybieramy opcję Regresja ustalona nieliniowa. Wybranie tej opcji umożliwia przeprowadzenie różnych transformacji zmiennych niezależnych i zmiennej zależnej. Wyboru dokonujemy w oknie Nieliniowe składniki regresji otwierającym się po kliknięciu przycisku OK. Okno dialogowe wyboru transformacji pokazane jest na rysunku 4. Rys. 4. Okno wyboru transformacji Oczywiście możemy wybrać więcej niż jedną transformację. Dla każdej naszej zmiennej zostanie utworzona nowa zmienna tymczasowa (w pamięci komputera) zawierająca wynik transformacji danej zmiennej. Nowa zmienna ma nazwę będącą kombinacją numeru zmiennej i wybranej transformacji, na przykład V10**2 (kwadrat zmiennej V10), LOGV4 (logarytm z V10). Następnie, wybierając oryginalne i(lub) transformowane zmienne, przeprowadzamy, jak opisano to w poprzednim odcinku, analizę regresji wielokrotnej. Dla danych z naszego przykładu wybierzemy dwie transformacje nieliniowe - podnoszenie do kwadratu oraz do trzeciej potęgi. Sytuacja taka jest pokazana na rysunku 4. Następnie klikając OK przechodzimy do okna Definicja Modelu. Do analizy wybieramy zmienne DNI, T4, DNI**2 oraz DNI**3, czyli tak jak pokazuje rysunek 5.
4 z 5 2007-05-09 23:22 Rys. 5. Okno wyboru zmiennych dla przykładowych danych Następnie jeszcze raz klikamy OK. Aby się przekonać, jak wyglądają współczynniki regresji, klikamy w otwierającym się oknie Wyniki regresji wielokrotnej przycisk Podsumowanie regresji. Otrzymamy wówczas arkusz wyników (rys. 6). Pozwala to zapisać równanie regresji w postaci: T 4 = 82,91-9,05DNI + 1,17DNI 2-0,049DNI 3 ±1,57 (2,02) (1,00) (0,13) (0,005) R 2 = 0,9745 Rys. 6. Arkusz wyników z estymatorami Wszystkie parametry modelu są statystycznie wysoce istotne (p <0,000001), a dopasowanie modelu prawie doskonałe. Tłumaczy on bowiem aż 97% zmienności stężenia tyroksyny. W większości przypadków wykres rozrzutu nie podpowiada jednoznacznie rodzaju krzywej. Nie jesteśmy wówczas pewni, czy wybrać na przykład funkcję potęgową, wykładniczą czy wielomianową. Tak często bywa, gdy dysponujemy niewielką próbą. Musimy wówczas rozważyć różne modele i wybrać najlepszy, wykorzystując R 2 (R 2 poprawione) jako miarę dopasowania. Wprawdzie nasz model jest idealnie dopasowany, ale porównajmy go na przykład z modelem potęgowym postaci Y = ax b. Model taki poprzez transformację logarytmiczną możemy sprowadzić do następującego modelu liniowego: logy = loga + b logx (lub Y = a + b X, gdzie Y = logy i a = loga) Tym razem do oceny istotności współczynników modelu wybieramy transformację logarytmiczną. Nowy arkusz wyników pokazany jest na rysunku 7. Rys. 7. Arkusz wyników dla modelu potęgowego Tym razem otrzymaliśmy model postaci: T 4 = 78,936 DNI -0,1598, również o istotnych współczynnikach. Jednakże współczynnik R 2 (miara dopasowania modelu) jest wyraźnie niższy. Nowy model tylko w 57% tłumaczy zmienności stężenia tyroksyny. Z tych dwóch przedstawionych modeli wybieramy oczywiście ten pierwszy - model w postaci wielomianu stopnia trzeciego. Jest on bowiem najlepiej dopasowany do obserwowanych danych. Wielomian ten
5 z 5 2007-05-09 23:22 przedstawiony jest na wykresie (rys. 8). Rys. 8. Wykres regresji wielomianowej Więcej informacji znajdą Państwo na stronie http://www.mp.pl Copyright 1996-2004 Medycyna Praktyczna