Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VII: Regresja logistyczna

Podobne dokumenty
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Rozdział 8. Regresja. Definiowanie modelu

Wprowadzenie do analizy korelacji i regresji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Własności statystyczne regresji liniowej. Wykład 4

Wprowadzenie do analizy dyskryminacyjnej

Regresja logistyczna (LOGISTIC)

MODELE LINIOWE. Dr Wioleta Drobik

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Weryfikacja hipotez statystycznych

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

5. Model sezonowości i autoregresji zmiennej prognozowanej

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

4. Średnia i autoregresja zmiennej prognozowanej

7.4 Automatyczne stawianie prognoz

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Wnioskowanie statystyczne. Statystyka w 5

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

KORELACJE I REGRESJA LINIOWA

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Analiza regresji - weryfikacja założeń

Przypomnienie: Ćwiczenie 1.

STATYSTYKA MATEMATYCZNA

Analiza Statystyczna

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Instrukcja obsługi programu Do-Exp

Zadania ze statystyki, cz.6

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Uogólniony model liniowy

18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.

Grupowanie materiału statystycznego

Analiza niepewności pomiarów

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

STUDIA I STOPNIA EGZAMIN Z EKONOMETRII

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Wydział Matematyki. Testy zgodności. Wykład 03

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

PDF created with FinePrint pdffactory Pro trial version

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Regresja liniowa wprowadzenie

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

POLITECHNIKA OPOLSKA

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Rozkłady statystyk z próby

Estymacja punktowa i przedziałowa

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Testowanie hipotez statystycznych.

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Statystyka i Analiza Danych

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Regresja linearyzowalna

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności.

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

ZARZĄDZANIE DANYMI W STATISTICA

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

WNIOSKOWANIE STATYSTYCZNE

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Testy nieparametryczne

WYKŁAD 8 ANALIZA REGRESJI

Kolokwium ze statystyki matematycznej

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Sposoby prezentacji problemów w statystyce

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

166 Wstęp do statystyki matematycznej

KREATOR REGRESJI LOGISTYCZNEJ

Niestacjonarne zmienne czasowe własności i testowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Transkrypt:

1 Laboratorium VII: Regresja logistyczna Spis treści Laboratorium VII: Regresja logistyczna... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 1.1. Wprowadzenie.... 2 2. Regresja logistyczna w STATISTICE... 4 Ćwiczenia... 8

2 Wiadomości ogólne 1. Wstęp teoretyczny. 1.1. Wprowadzenie. W naukach biologiczno-medycznych często mamy do czynienia ze zmiennymi typu dychotomicznego, jak np. zmienna Występowanie_Nowotworu (1-tak, 0-nie), czy zmienna Przeżycie (1-tak, 0-nie). Takiej sytuacji istotnym może okazać się pytanie, jakie zmienne istotnie wpływają na przeżycie czy wystąpienie nowotworu. W tego typu zagadnieniach świetnie sprawdza się regresja logistyczna. Analiza i interpretacja wyników regresji logistycznej jest bardzo podobna do metod klasycznej regresji. Najważniejszymi różnicami pomiędzy tymi dwiema metodami są: Bardziej skomplikowane i czasochłonne obliczenia, Wyliczanie wartości i sporządzanie wykresów reszt zazwyczaj nie wnosi nic nowego do modelu. Ogólnie rzecz ujmując, regresja logistyczna jest modelem matematycznym, pozwalającym opisać wpływ kilku zmiennych,,, na dychotomiczną zmienną. Model regresji logistycznej oparty jest o funkcję logistyczną postaci: 1 1 1 Funkcja logistyczna przyjmuje wartości od 0 (gdy x dąży do minus nieskończoności) do 1 (gdy x zmierza do plus nieskończoności): Własności funkcji logistycznej są następujące: Przyjmuje wartości od 0 do 1. Model może opisywać wartości prawdopodobieństwa, najczęściej określającego ryzyko zachorowania lub szansę na wyzdrowienie Kształt funkcji przypomina rozciągniętą literę S. Oznacza to, że do osiągnięcia pewnej wartości progowej zmiany wartości funkcji są minimalne, potem gwałtownie wzrastają do 1 i utrzymują się na bardzo wysokim poziomie (bliskim 1). Model logistyczny Niech oznacza zmienną dychotomiczną, przyjmującą wartości:

3 1 najczęściej dla zdarzeń pożądanych, jak np. przeżycie, wyzdrowienie, sukces 0 w przeciwnym przypadku, np. zgon lub choroba, porażka Wówczas logistyczny model regresji określa równanie: 1,,, ) = () = 1 + Gdzie:,! = 0,,# są współczynnikami regresji,,,, - zmienne niezależne (ilościowe lub jakościowe). Lewa strona równania to prawdopodobieństwo warunkowe, że zmienna przyjmie wartość równą 1 dla wartości niezależnych,,,. W niniejszym modelu regresji staramy się tak oszacować współczynniki regresji, aby opierając się na wartościach pewnej grupy danych dopasować jak najlepszy model. Warunkiem zastosowania regresji logistycznej jest odpowiednio duża próba, co w tym przypadku oznacza, że liczność próby $ > 10(# + 1), gdzie # jest liczbą parametrów. W regresji logistycznej do znalezienia współczynników &,,, stosuje się metodę największej wiarygodności MNW (ang. maximum likelihood). Ogólnie mówiąc MNW maksymalizuje funkcję wiarygodności lub jej kwadrat. Zakładając, że wszystkie obserwacje są od siebie niezależne, wiarygodność (prawdopodobieństwo) to iloczyn prawdopodobieństw pojawienia się poszczególnych obserwacji z próby przy danych parametrach modelu. Za oceny szacowanych parametrów bierze się te wartości, dla których wiarygodność jest największa. Im większa wiarygodność, tym lepsze dopasowanie modelu do danych. Iloraz szans W regresji logistycznej, oprócz współczynników regresji i ich statystycznej istotności, dochodzi jeszcze dodatkowy parametr: iloraz szans (odds ratio) dany wzorem: '(() = )(*) )(*). W przypadku, gdy mamy dwie cechy jakościowe, stosujemy podwójną klasyfikację. Pierwsza klasyfikacja może być przykładowo postaci: Narażeni i nienarażeni, Palący i niepalący, Leczeni metodą A i metodą B, Szczepieni i nieszczepieni, Itp. Natomiast druga klasyfikacja jest najczęściej postaci: Zachorowali, nie zachorowali Przeżyli, zmarli Parametr biochemiczny w normie, parametr biochemiczny poniżej/powyżej normy, itd. Taką klasyfikację można zapisać w tabeli 2x2, jak w poniższym przykładzie:

4 Narażenie Nowotwór płuc wystąpił Nie wystąpił Palący 243 30 Niepalący 48 240 Wówczas dla obu grup narażenia możemy policzyć jaka jest szansa wystąpienia nowotworu płuc. Natomiast dla dwóch grup porównywanych A i B iloraz szans +, *. definiowany jest jako stosunek wystąpienia szansy A do szansy B: +, *. = '(() '(/) = (() 1 (() : (/) 1 (/) Dla przykładu z tabeli, oznaczając przez A grupę palaczy, a przez B grupę osób niepalących, korzystając z powyższego wzoru możemy obliczyć iloraz szans rozwoju nowotworu płuc u palących i niepalących. Podstawiając dane otrzymujemy, że szansa rozwoju nowotworu płuc u palaczy jest 40 razy większa niż szansa rozwoju nowotworu u niepalących. Iloraz szans równy 1 oznacza równoważność ryzyka porównywanych grup. Większy od 1 wskazuje, że szansa wystąpienia danego zdarzenia zdrowotnego w grupie A jest większa niż w grupie B. Założenia regresji logistycznej Losowy dobór próby; Odpowiednie kodowanie (model regresji logistycznej wylicza prawdopodobieństwo, że zmienna zależna przyjmuje wartość 1); Uwzględnienie wszystkich istotnych zmiennych; Wyłączenie z modelu wszystkich nieistotnych zmiennych; Zależność transformacji logitowej od zmiennych niezależnych jest liniowa; Model regresji logistycznej nie wyjaśnia efektów interakcji zmiennych niezależnych; Zmienne niezależne nie mogą być współliniowe; Regresja logistyczna jest wrażliwa na występowanie punktów odstających. Przed rozpoczęciem analizy należy je usunąć (wykrycie przypadków odstających umożliwia analiza reszt); Próba musi być dostatecznie liczna (co najmniej n=100); 2. Regresja logistyczna w STATISTICE Analizę regresji logistycznej można przeprowadzić w module Estymacja nieliniowa. W tym celu z menu Statystyka wybieramy Zaawansowane modele liniowe i nieliniowe, a następnie Estymacja nieliniowa. Po uruchomieniu tego modułu pojawia się okno:

5 Rys. 1. Okno wyboru modelu. W tym oknie wybieramy typ regresji nieliniowej: regresja logistyczna. Po kliknięciu OK pojawia się okno Regresja logistyczna, przedstawione na rysunku 2: Rys. 2. Okno wyboru zmiennych. W tym oknie przede wszystkim wybieramy zmienne do analizy. W polu Plik wejściowy zawiera określamy rodzaj danych. Domyślnie wybrany jest plik zawierający dane surowe (Kody bez liczności) ze zmienną kodującą jako zmienną zależną. Drugi przypadek (Kody i liczności) wybieramy gdy mamy plik z danymi zawierający liczebności. Następnie przy pomocy przycisku Zmienne wybieramy zmienne do analizy pojawia się wówczas standardowe okno wyboru zmiennych. Następnie podajemy kody dychotomicznej zmiennej zależnej. Uwaga: Jako pierwszy kod wpisujemy ten, dla którego chcemy przypisać wartość 0, czyli symbol określający zdarzenie niepożądane. Po kliknięciu OK otwiera się okno Procedura estymacji (Rys. 3)

6 Rys. 3. Okno wyboru metody estymacji. W tym oknie możemy wybrać metodę estymacji oraz określić kryterium zbieżności, wartości początkowe, itd. Do obliczenia błędów standardowych dla estymowanych parametrów, w zakładce Więcej wybieramy opcję Asymptotyczne błędy standardowe. Po naciśnięciu przycisku Średnie i odchylenia standardowe na karcie Przegląd możemy przejrzeć podstawowe statystyki opisowe. Po kliknięciu OK zostanie przeprowadzona procedura estymacji i program wyświetli okno Wyniki: Rys. 4. Okno z wynikami regresji logistycznej. W górnej części okna wyświetlone są następujące wyniki: Liczba i procent zer i jedynek dla zmiennej zależnej Końcowa wartość funkcji straty (w przykładzie z rys. 4 jest to wartość 12,71)

7 Tzw. Logarytm wiarygodności służący do oceny dopasowania modelu. Statystyka ta ma rozkład zbliżony do rozkładu 2 i weryfikuje hipotezę zerową 3 & : = = = = 0. Statystyka ta jest miarą dopasowania modelu. Wartość statystyki dobroci dopasowania oraz liczba stopni swobody i poziom prawdopodobieństwa p. Analizowany model wnosi cos nowego, gdy 5 < 0,05. Oceny parametrów wyświetlają się po kliknięciu przycisku Parametry i błędy standardowe. Pojawia się wówczas arkusz (rys. 5): [2] [3] [4] [5] [6] [7] [8] [9] [10] [12] [11] Rys. 5. Arkusz wyników estymacji parametrów W arkuszu wynikowym na rys 5 mamy następujące wartości: [1] Wartość końcowa funkcji straty oraz wartość testu dobroci dopasowania chi-kwadrat i jego poziom p [2] Wartość ocen parametrów modelu [3] Asymptotyczne błędy standardowe ocen parametrów [4] wartości testu t-studenta testującego istotność parametrów [5] Poziomy prawdopodobieństwa p towarzyszące testom istotności [6] Dolna i górna granica 95% przedziału ufności dla ocen parametrów modelu [7] Wartość statystyki chi-kwadrat Walda sprawdzającej istotność parametrów regresji (statystyka Walda jest podstawą testu istotności współczynników regresji; bazuje ona na asymptotycznej normalności oceny największej wiarygodności); [8] poziom prawdopodobieństwa p dla testu Walda [1] [9] Iloraz szans dla jednostkowej zmiany poszczególnych parametrów [10] dolna i górna granica 95% przedziału ufności dla ilorazu szans (zmian jednostkowych) [1] [1] [1]

8 [11] iloraz szans dla zmiany równej obserwowanemu zakresowi wartości analizowanych zmiennych [12] dolna i górna granica 95% przedziału ufności dla ilorazu szans (zmian zakresowych) Przycisk Klasyfikacja przypadków i ilorazy szans (na karcie Reszty) otwiera tabelę z licznościami prawidłowo i niepoprawnie zaklasyfikowanych przypadków przy wyliczonym modelu (rys. 6). Iloraz szans obliczany jest jako stosunek iloczynu poprawnie zaklasyfikowanych przypadków do iloczynu niepopranie zaklasyfikowanych przypadków. Jest to klasyfikacja post-hoc, ponieważ oceny były tak wyliczane, aby zmaksymalizować prawdopodobieństwo obserwowanych danych. Rys. 6. Okno klasyfikacji przypadków Po kliknięciu na przycisk Wykres normalności reszt pojawia się wykres (rys. 7), który pozwala na ocenę normalności: Rys. 7. Wykres normalności reszt. Ćwiczenia Dane znajdują się w pliku dane7.sta. Zawierają informacje na temat matek i ich dzieci, u których wykryto pewną rzadko występującą wadę wrodzoną (grupa badana) lub zdrowych (grupa kontrolna). Zmienne niezależne to: MiejsceZam (2=miasto/1=wieś), Płeć (1=mężczyzna/0=kobieta) płeć dziecka MasaUr (w kilogramach z dokładnością do 0.5kg) masa urodzeniowa dziecka WiekM (w latach) wiek matki KolCiąży (dziecko z której ciąży),

9 PoronSamo (1=tak/0=nie) przebyte poronienia samoistne InfOddech (1=tak/0=nie) przebyte infekcje oddechowe Palenie (1=tak/0=nie) palenie tytoniu WyksztM (1=podstawowe lub niżej/2=zawodowe/3=średnie/4=wyższe) wykształcenie matki. 1. Wczytaj plik z danymi. Wskazówka: W kolejnych punktach przyjmuj zmienną GRUPA za zmienną zależna, a pozostałe zmienne jako niezależne. Sprawdź, czy odpowiednie wartości liczbowe odpowiadają etykietom tekstowym. 2. Utwórz model regresji logistycznej by sprawdzić, które zmienne mogą wywierać istotny wpływ na występowanie wady. Braki danych usuń przypadkami. 3. Wyświetl podstawowe statystyki opisowe dla analizowanych zmiennych, a następnie narysuj histogramy z nałożoną krzywą normalną dla zmiennych Wiek oraz MasaUr. Oceń rozkłady tych dwóch zmiennych. Wskazówka: Średnie i odchylenia standardowe można wyświetlić z zakładki w oknie regresji logistycznej. Histogramy można wybrać z menu rozwijanego po kliknięciu prawym klawiszem myszy w obrębie wiersza danej zmiennej. 4. Wyświetl oceny parametrów a następnie zapisz model wraz z błędami szacunku w postaci logitowej: Logit P = ocena wyrazu wolnego + ocena1 * parametr 1 + 5. Wyświetl wartości przewidywane zmiennej GRUPA. Odpowiedz na pytanie: w jakim zakresie powinny się znaleźć wartości przewidywane w modelu logitowym? Czy można je traktować jako prawdopodobieństwa? 6. Jaką wartość ilorazu szans otrzymujemy dla tego modelu? O czym to świadczy? 7. Wyświetl wykres normalności reszt. Czy reszty podlegają rozkładowi normalnemu? 8. Potwierdź swój wniosek z punktu 8 tworząc histogram reszt. 9. Czy zbudowany model pozwala przewidzieć występowanie wspomnianej choroby na podstawie dostępnych parametrów?