Regresja linearyzowalna

Podobne dokumenty
Analiza regresji - weryfikacja założeń

Regresja i Korelacja

FUNKCJA POTĘGOWA, WYKŁADNICZA I LOGARYTMICZNA

Dopasowywanie modelu do danych

ANALIZA REGRESJI SPSS

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Rozdział 8. Regresja. Definiowanie modelu

Funkcje Andrzej Musielak 1. Funkcje

Jak korzystać z Excela?

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

7.4 Automatyczne stawianie prognoz

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

KREATOR REGRESJI LOGISTYCZNEJ

x a 1, podając założenia, przy jakich jest ono wykonywalne. x a 1 = x a 2 ( a 1) = x 1 = 1 x.

2) R stosuje w obliczeniach wzór na logarytm potęgi oraz wzór na zamianę podstawy logarytmu.

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Instrukcja obsługi programu Do-Exp

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

Ekonometria. Regresja liniowa, dobór postaci analitycznej, transformacja liniowa. Paweł Cibis 24 marca 2007

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Wprowadzenie do analizy korelacji i regresji

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

PLAN WYNIKOWY DLA KLASY DRUGIEJ POZIOM PODSTAWOWY I ROZSZERZONY. I. Proste na płaszczyźnie (15 godz.)

PROGNOZOWANIE SPRZEDAŻY STUDIUM PRZYPADKU

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

1. Równania i nierówności liniowe

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

WYMAGANIA WSTĘPNE Z MATEMATYKI

Regresja nieparametryczna series estimator

Stanisław Cichocki. Natalia Nehrebecka

ZAGADNIENIA PROGRAMOWE I WYMAGANIA EDUKACYJNE DO TESTU PRZYROSTU KOMPETENCJI Z MATEMATYKI DLA UCZNIA KLASY II

Diagnostyka obrazowa

WYKŁAD 8 ANALIZA REGRESJI

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Zagadnienie 1: Prognozowanie za pomocą modeli liniowych i kwadratowych przy wykorzystaniu Analizy regresji wielorakiej w programie STATISTICA

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Funkcje elementarne. Ksenia Hladysz Własności 2. 3 Zadania 5

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Po zapoznaniu się z funkcją liniową możemy przyjśd do badania funkcji kwadratowej.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Regresja logistyczna (LOGISTIC)

CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE

Statystyka matematyczna i ekonometria

3. Modele tendencji czasowej w prognozowaniu

Grupowanie materiału statystycznego

FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;(

Ćwiczenie 5 PROGNOZOWANIE

Modelowanie glikemii w procesie insulinoterapii

Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych klasa druga zakres rozszerzony

Stanisław Cichocki. Natalia Nehrebecka

Wymagania edukacyjne z matematyki w klasie III A LP

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Wprowadzenie do analizy dyskryminacyjnej

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Wykład 4: Statystyki opisowe (część 1)

Co to jest analiza regresji?

Wymagania edukacyjne z matematyki klasa II technikum

Rozkład materiału KLASA I

Systemy Wspomagania Decyzji

Wymagania edukacyjne z matematyki w XVIII Liceum Ogólnokształcącym w Krakowie, zakres podstawowy. Klasa druga.

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada

TABELE WIELODZIELCZE

Estymacja w regresji nieparametrycznej

Janusz Górczyński. Moduł 3. Estymacja modeli krzywoliniowych dwóch zmiennych

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań:

Graficzne opracowanie wyników pomiarów 1

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej

LABORATORIUM Z FIZYKI

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

MODELE LINIOWE. Dr Wioleta Drobik

Rozkład materiału: matematyka na poziomie rozszerzonym

Propozycja szczegółowego rozkładu materiału dla 4-letniego technikum, zakres podstawowy. Klasa I (60 h)

Propozycja szczegółowego rozkładu materiału dla 4-letniego technikum, zakres podstawowy i rozszerzony. Klasa I (90 h)

WYMAGANIA Z WIEDZY I UMIEJĘTNOŚCI NA POSZCZEGÓLNE STOPNIE SZKOLNE DLA KLASY CZWARTEJ H. zakres rozszerzony. Wiadomości i umiejętności

PORÓWNANIE TREŚCI ZAWARTYCH W OBOWIĄZUJĄCYCH STANDARDACH EGZAMINACYJNYCH Z TREŚCIAMI NOWEJ PODSTAWY PROGRAMOWEJ

Układ RLC z diodą. Zadanie: Nazwisko i imię: Nr. albumu: Grzegorz Graczyk. Nazwisko i imię: Nr. albumu:

e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

JAK EFEKTYWNIE I POPRAWNIE WYKONAĆ ANALIZĘ I RAPORT Z BADAŃ BIEGŁOŚCI I WALIDACJI PRAKTYCZNE WSKAZÓWKI

Analiza przeżycia. Wprowadzenie

Statystyka i Analiza Danych

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Transkrypt:

1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia: 24.03.2002 Ostatnia modyfikacja: 30.04.2007 Opublikowano w Medycyna Praktyczna 2001/09 Inne ABC raportu statystycznego Analiza log-liniowa Analiza dyskryminacyjna Analiza kanoniczna W poprzednich odcinkach przedstawiliśmy metody estymacji regresji liniowej. Łatwa konstrukcja takiego modelu i jego prosta interpretacja czyni go bardzo popularnym. W badaniach biologiczno-medycznych wiele zagadnień ma jednak charakter nieliniowy. Na przykład, opisując zależność między wiekiem człowieka a tempem wzrostu możemy rozważyć zależność nieliniową. W pierwszych latach życia mamy bowiem do czynienia z największym wzrostem, a później, w okresie dojrzałości, praktycznie wzrost nie następuje. Taką zależność możemy przedstawić w postaci: wzrost = exp(-b 1 wiek) gdzie b 1 pewien parametr Wykres takiej zależności jest pokazany na rysunku 1. Rys. 1. Dynamika wzrostu Oczywiście wspomnieć należy o popularnej dzisiaj w medycynie regresji logistycznej. Ma ona postać wybitnie nieliniową Funkcja logistyczna znalazła zastosowanie przede wszystkim w modelowaniu zmiennych jakościowych. W wielu innych zagadnieniach model regresji liniowej nie będzie dobrze przedstawiał zależności między zmiennymi. Musimy wówczas zrezygnować z funkcji liniowej i wykorzystać regresję nieliniową. Powinniśmy więcpoznać podstawy zagadnień związanych z budową nieliniowych modeli regresji. Stąd dwa najbliższe odcinki poświęcimy modelom tego typu. Dotychczas analizowaliśmy tylko modele liniowe postaci: y = b 0 + b 1 x 1 + b 2 x 2 +...+ b k x k W regresji nieliniowej modele możemy ogólnie wyrazić zależnością: y = F(x 1, x 2,..., x k ), gdzie F(x 1,...) oznacza dowolną funkcję, za pomocą której sami możemy określić typ zależności. Na przykład możemy przyjąć, że zmienna zależna jest funkcją logarytmiczną lub wykładniczą zmiennych niezależnych. Jednak z tą dowolnością związane są problemy: Jak wywnioskować o postaci modelu, czyli jaka faktycznie występuje zależność pomiędzy zmiennymi? Ma to zasadnicze konsekwencje dla uzyskiwanych później oszacowań parametrów. Jaki rodzaj estymacji zastosować?

2 z 5 2007-05-09 23:22 Jak otrzymane zależności sensownie zinterpretować? W tym odcinku poznamy modele linearyzowalne, czyli takie, które poprzez odpowiednią transformację zmiennych lub parametrów możemy sprowadzić do postaci liniowej. Musimy tu postępować bardzo rozważnie, gdyż stosując "złą" transformację, możemy doprowadzić do nietrafnego modelu. Regresja nieliniowa nie jest łatwa do rozpoznania i zastosowania w eksploracyjnej analizie danych. Dlatego w celu łatwiejszego zrozumienia jej metod wszędzie tam, gdzie to jest możliwe, wykorzystujemy szereg różnorodnych wykresów. O tym, że badany związek dwóch zmiennych ma charakter krzywoliniowy, przekonamy się, oglądając wykres rozrzutu. Od niego powinniśmy więc rozpocząć analizę regresji. Chmura punktów pomoże dobrać typ funkcji krzywoliniowej. Analizę modeli linearyzowalnych prześledzimy w oparciu o dane przedstawiające stężenie tyroksyny (T 4 ) w kolejnych dniach leczenia chorych z nadczynnością tarczycy. Dane z 16 dni eksperymentu przedstawia tabela. DNI 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 T 4 74 70 64 63 63 60 59 61 59 58 60 58 57 54 45 36 Tabela Chcemy określić model regresji opisujący przebieg leczenia oraz umożliwiający przewidywanie dalszych jego efektów. W celu wstępnego rozpoznania typu krzywej rozpoczniemy od wykresu rozrzutu (rys. 2). Rys. 2. Wykres rozrzutu dla przykładowych danych Pokazana krzywa przypomina poznany w czasach szkolnych wykres wielomianu stopnia trzeciego. Spodziewamy się więc modelu z funkcją regresji postaci a 0 + a 1 x + a 2 x 2 + a 3 x 3. Dlatego spróbujemy ocenić istotność takiego modelu. W programie STATISTICA do przeprowadzania analizy modeli linearyzowalnych wykorzystujemy moduł REGRESJA WIELOKROTNA. Po wybraniu tego modułu otwiera się opisywane w poprzednich odcinkach wstępne okno dialogowe (rys. 3).

3 z 5 2007-05-09 23:22 Rys. 3. Okno wstępne regresji linearyzowalnej Następnie na rozwijalnej liście Tryb wybieramy opcję Regresja ustalona nieliniowa. Wybranie tej opcji umożliwia przeprowadzenie różnych transformacji zmiennych niezależnych i zmiennej zależnej. Wyboru dokonujemy w oknie Nieliniowe składniki regresji otwierającym się po kliknięciu przycisku OK. Okno dialogowe wyboru transformacji pokazane jest na rysunku 4. Rys. 4. Okno wyboru transformacji Oczywiście możemy wybrać więcej niż jedną transformację. Dla każdej naszej zmiennej zostanie utworzona nowa zmienna tymczasowa (w pamięci komputera) zawierająca wynik transformacji danej zmiennej. Nowa zmienna ma nazwę będącą kombinacją numeru zmiennej i wybranej transformacji, na przykład V10**2 (kwadrat zmiennej V10), LOGV4 (logarytm z V10). Następnie, wybierając oryginalne i(lub) transformowane zmienne, przeprowadzamy, jak opisano to w poprzednim odcinku, analizę regresji wielokrotnej. Dla danych z naszego przykładu wybierzemy dwie transformacje nieliniowe - podnoszenie do kwadratu oraz do trzeciej potęgi. Sytuacja taka jest pokazana na rysunku 4. Następnie klikając OK przechodzimy do okna Definicja Modelu. Do analizy wybieramy zmienne DNI, T4, DNI**2 oraz DNI**3, czyli tak jak pokazuje rysunek 5.

4 z 5 2007-05-09 23:22 Rys. 5. Okno wyboru zmiennych dla przykładowych danych Następnie jeszcze raz klikamy OK. Aby się przekonać, jak wyglądają współczynniki regresji, klikamy w otwierającym się oknie Wyniki regresji wielokrotnej przycisk Podsumowanie regresji. Otrzymamy wówczas arkusz wyników (rys. 6). Pozwala to zapisać równanie regresji w postaci: T 4 = 82,91-9,05DNI + 1,17DNI 2-0,049DNI 3 ±1,57 (2,02) (1,00) (0,13) (0,005) R 2 = 0,9745 Rys. 6. Arkusz wyników z estymatorami Wszystkie parametry modelu są statystycznie wysoce istotne (p <0,000001), a dopasowanie modelu prawie doskonałe. Tłumaczy on bowiem aż 97% zmienności stężenia tyroksyny. W większości przypadków wykres rozrzutu nie podpowiada jednoznacznie rodzaju krzywej. Nie jesteśmy wówczas pewni, czy wybrać na przykład funkcję potęgową, wykładniczą czy wielomianową. Tak często bywa, gdy dysponujemy niewielką próbą. Musimy wówczas rozważyć różne modele i wybrać najlepszy, wykorzystując R 2 (R 2 poprawione) jako miarę dopasowania. Wprawdzie nasz model jest idealnie dopasowany, ale porównajmy go na przykład z modelem potęgowym postaci Y = ax b. Model taki poprzez transformację logarytmiczną możemy sprowadzić do następującego modelu liniowego: logy = loga + b logx (lub Y = a + b X, gdzie Y = logy i a = loga) Tym razem do oceny istotności współczynników modelu wybieramy transformację logarytmiczną. Nowy arkusz wyników pokazany jest na rysunku 7. Rys. 7. Arkusz wyników dla modelu potęgowego Tym razem otrzymaliśmy model postaci: T 4 = 78,936 DNI -0,1598, również o istotnych współczynnikach. Jednakże współczynnik R 2 (miara dopasowania modelu) jest wyraźnie niższy. Nowy model tylko w 57% tłumaczy zmienności stężenia tyroksyny. Z tych dwóch przedstawionych modeli wybieramy oczywiście ten pierwszy - model w postaci wielomianu stopnia trzeciego. Jest on bowiem najlepiej dopasowany do obserwowanych danych. Wielomian ten

5 z 5 2007-05-09 23:22 przedstawiony jest na wykresie (rys. 8). Rys. 8. Wykres regresji wielomianowej Więcej informacji znajdą Państwo na stronie http://www.mp.pl Copyright 1996-2004 Medycyna Praktyczna