Regresja logistyczna (LOGISTIC)

Podobne dokumenty
P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Badanie zależności skala nominalna

Rozdział 8. Regresja. Definiowanie modelu

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Analiza wariancji. dr Janusz Górczyński

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

KORELACJE I REGRESJA LINIOWA

Metodologia badań psychologicznych. Wykład 12. Korelacje

Własności statystyczne regresji liniowej. Wykład 4

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

MODELE LINIOWE. Dr Wioleta Drobik

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wydział Matematyki. Testy zgodności. Wykład 03

ANALIZA REGRESJI SPSS

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Egzamin z ekonometrii wersja IiE, MSEMAT

WNIOSKOWANIE STATYSTYCZNE

Przykład 1 ceny mieszkań

e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

Wprowadzenie do analizy korelacji i regresji

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

PDF created with FinePrint pdffactory Pro trial version

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

5. Model sezonowości i autoregresji zmiennej prognozowanej

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

ANALIZA DANYCH W STATA 8.0 CZĘŚĆ II

Niestacjonarne zmienne czasowe własności i testowanie

Ćwiczenia IV

Zadania ze statystyki, cz.6

Statystyka i Analiza Danych

STATYSTYKA MATEMATYCZNA

Zmienne zależne i niezależne

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Przykład 1. (A. Łomnicki)

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Analiza wariancji jednej zmiennej (UNIANOVA)

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Hipoteza: Dziewczynki częściej niż chłopcy mają sprecyzowane plany dotyczące dalszego kształcenia (dlaczego?)

Wykład 3 Hipotezy statystyczne

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

4. Średnia i autoregresja zmiennej prognozowanej

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

3. Modele tendencji czasowej w prognozowaniu

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Proces modelowania zjawiska handlu zagranicznego towarami

Wnioskowanie statystyczne. Statystyka w 5

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015

Regresja liniowa wprowadzenie

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Zastosowanie Excela w matematyce

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Analizy wariancji ANOVA (analysis of variance)

Szkice rozwiązań z R:

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Przykład 2. Stopa bezrobocia

Ekonometria Ćwiczenia 19/01/05

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza niepewności pomiarów

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Prognozowanie na podstawie modelu ekonometrycznego

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

1 Modele ADL - interpretacja współczynników

Transkrypt:

Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim (WSCH) Dane: badanie sondażowe, przeprowadzone na Ukrainie w listopadzie 2005. Regresja logistyczna (LOGISTIC) Obserwacje nieważone a Informacja o analizowanych danych Wybrane obserwacje Niewybrane obserwacje Ogółem Uwzględnione w analizie Pominięte obserwacje Ogółem N 2026 00,0 0,0 2026 00,0 0,0 2026 00,0 a. Jeżeli jest używana waga, sprawdź tabelę klasyfikacji w celu uzyskania informacji o całkowitej liczbie obserwacji. Pokazuje podsumowanie danych wykorzystywanych w analizie. Należy zwrócić szczególną uwagę na ewentualne braki danych (Pominięte obserwacje). Kodowanie zmiennej zależnej Wartość oryginalna Wartość wewnętrzna 0 Pokazuje, której wartości zmiennej zależnej została przypisana wartość 0, a której. Jest to szczególnie istotne, gdy zmienną zależną jest dwuwartościowa zmienna jakościowa. W tym przykładzie zmienna zależna przyjmuje wartości 0 i, więc oczywiście te same wartości program pozostawił. Blok 0: Blok początkowy Tabela klasyfikacji a,b Przewidywane 0 Obserwowane ogółem a. Stała została włączona do modelu b. Punktem podziału jest wartość,500 poprawnych klasyfikacji 79 0 00,0 308 0,0 84,8 Powyższa tabela pokazuje poprawne i niepoprawne klasyfikacje respondentów do kategorii wyznaczonych przez zmienną zależną. W pierwszym kroku przewidywaną kategorią dla wszystkich respondentów jest kategoria najczęstsza. Tak więc, najczęstsza jest kategoria 0 (osoby wybierające inną niż zachodnia orientację w polityce zagranicznej), więc taka została przewidziana dla wszystkich badanych. Przy interpretacji wyników tej analizy regresji warto więc zdawać sobie

sprawę z tego, że ślepa klasyfikacja przypisująca wszystkim respondentom najczęstszą wartość ( 0 ) przynosi 84,8% poprawnych wyników. Zmienne w modelu 0 Stała B Błąd s tandardowy Wald df Istotnoś ć Exp(B) -,720,062 772,59 0,79 Powyższa tabela pokazuje wyniki wstępnego modelu, w którym współczynniki przy wszystkich zmiennych niezależnych zostały oszacowane jako przyjmujące wartość 0. Zmienne nie włączone do modelu Ocena df Istotność WIEDZA 4,925 0 0 Zmienne ZACH WSCH 272,202 0 68,089 0 Statystyki ogólne 304,503 3 0 Blok : Metoda = Wprowadzanie Test zbiorowy współczynników modelu Blok Model Chi-kwadrat df Istotność 28,093 3 0 28,093 3 0 28,093 3 0 Test chi-kwadrat sprawdza hipotezę zerową o tym, że kolejny krok ma sens. Tutaj jest to krok od modelu zerowego do modelu ze wszystkimi zmiennymi zależnymi. Jeśli tak jak tutaj krok polegał na dodaniu do modelu zmiennej lub zmiennych, to krok ten ma sens, jeśli jego istotność jest mniejsza niż 0.05. Jeśli krok polegałby na eliminacji zmiennych z modelu miałby sens wtedy, gdyby istotność zmiany była większą liczbą (np. większa niż 0.). Podsumowanie dla modelu -2 logarytm wiarygodnoś ci R kwadrat Coxa i Sne lla R kwadrat Nagelkerke'a 445,257,29,226-2 logarytm wiarygodności (-2LL) jest funkcją pozwalającą na ocenę istotności modelu logistycznego, analogiczną do sumy kwadratów błędu przewidywania w regresji liniowej. Miara ta jest zwana także m.in. dobrocią dopasowania (goodness of fit). Odzwierciedla ona istotność niewyjaśnionej wariancji zmiennej zależnej. -2LL oblicza się następująco: gdzie: L maksymalna wartość funkcji wiarygodności dla pełnego modelu (ze wszystkimi zmiennymi niezależnymi), a L 0 model o krok prostszy (u nas model zerowy) 2

R-kwadrat Coxa i Snella oraz R-kwadrat Nagelkerke'a są to miary, które próbują przeprowadzić analogię między współczynnikiem determinacji (R-kwadrat) dla zwykłej regresji wielokrotnej. Miara Nagelkerke'a jest skorygowaną miarą Coxa i Snella tak, aby przyjmowała wartości z przedziału od 0 do, tak jak współczynnik determinacji (R-kwadrat) równania regresji liniowej. Test Hosmera i Lemeshowa Chi-kwadrat df Istotność 6,584 5,253 2 3 4 5 6 7 Tabela kontyngencji dla testu Hosmera i Lemeshowa = = Obserwowane Oczekiwane Obserwowane Oczekiwane Ogółem 206 2053 3 3,877 209 22 22,903 8 7,87 230 557 544,483 35 47,67 592 289 295,52 42 35,598 33 77 82,965 40 34,95 27 43 45,284 76 73,956 29 26 24,46 02 04,664 229 Test Hosmera i Lemeshowa dzieli badane jednostki na decyle w oparciu o przewidywane prawdopodobieństwa, następnie oblicza chi-kwadrat dla obserwowanych i przewidywanych częstości. Wartość istotności w pierwszej tabeli (0.253) została obliczona dla wartości chi-kwadrat 6.584 przy pięciu stopniach swobody. Wartość ta wskazuje, że model nasz jest dobrze dopasowany do danych. Generalnie: jeśli istotność jest mniejsza niż 0.05 odrzucamy hipotezę zerową głoszącą, że nie ma różnicy między obserwowanymi i przewidywanymi wartościami zmiennej zależnej. Jeśli ta wartość jest większa (jak chcielibyśmy) nie mamy podstaw do odrzucenia hipotezy o braku różnic, a więc wynika z tego, że model pasuje do danych na akceptowalnym poziomie. Powyższa tabela kontyngencji jest wykorzystywana do obliczania statystyki chi-kwadrat umieszczonej w poprzedniej tabeli. Tabela klasyfikacji a Przewidywane Obserwowane ogółem a. Punktem podziału jest wartość,500 poprawnych klasyfikacji 699 20 98,8 303 4,4 84,0 3

Powyższa tabela prezentuje klasyfikację z uwzględnieniem całego modelu, razem ze zmiennymi niezależnymi. W modelu doskonałym wszystkie badane obiekty znajdowałyby się na głównej przekątnej. W tym modelu jedynie 4 przypadki osób, które wybrały zachodni wektor w polityce zagranicznej zostały na podstawie modelu poprawnie zaklasyfikowane do tej kategorii. Średni odsetek poprawnie zaklasyfikowanych jednostek to 84%. Badacz powinien zdawać sobie sprawę, że ślepa klasyfikacja na podstawie najczęściej występującej kategorii daje nawet nieco większy odsetek poprawnie zaklasyfikowanych obiektów (84,8%). To pokazuje, że wybór wektora polityki zagranicznej nie daje się poprawnie przewidywać na podstawie wiedzy o Unii Europejskiej i miejsca zamieszkania (na zachodzie lub wschodzie kraju). a WIEDZA ZACH WSCH Stała B Zmienne w modelu Błąd standardowy Wald df Istotność Exp(B),320,069 2,776 0,377,76,38 6,833 0 5,82 -,53,34 23,83 0,26-2,437,8 424,92 0,087 a. Zmienne wprowadzone w kroku : WIEDZA, ZACH, WSCH. Statystyka Wald w powyższej tabeli i odpowiadające jej istotności sprawdza istotność każdej zmiennej znajdującej się w modelu. Oblicza się ją następująco: gdzie: B współczynnik równania regersji; SE błąd standardowy. Otrzymaną wartość Z podnosi się następnie do kwadratu. Chodzi o to, aby otrzymana statystyka miała rozkład zbliżony do rozkładu chi-kwadrat. Jeśli wartość statystyki Wald jest istotna (czyli jej poziom istotności jest mniejszy od 0.05), to znaczy, że dany parametr jest istotny dla modelu. W zaprezentowanym tu modelu wszystkie parametry są istotne. Poniższy wykres jest alternatywnym sposobem oceny poprawnych i niepoprawnych przewidywań na podstawie modelu regresji logistycznej. Na osi poziomej przedstawiono przewidywane prawdopodobieństwa wartości zmiennej zależnej (wybór zachodniego wektora w polityce zagranicznej). Na osi pionowej przedstawiono częstość liczbę przypadków zaklasyfikowanych. Na wykresie widać też wartości obserwowane 0 i. Jeden symbol przedstawia 50 jednostek badanych. Na tym wykresie można zobaczyć na przykład, na ile dobrze model klasyfikuje przypadki trudne, to znaczy takie, dla których prawdopodobieństwa są bliskie 0.5. Na tym wykresie widać, że prawie wszystkie osoby są klasyfikowane jako należące do kategorii 0 (nie-zachodnia opcja w polityce zagranicznej), mimo, że niektóre z nich mają obserwowaną wartość. 4

Step number: Observed Groups and Predicted Probabilities 800 F R 600 E 0 Q 0 U 0 E 400 0 N 0 C 0 0 0 Y 0 0 0 200 0 0 0 00 0 0 0 00 0 0 0 0 00 0 0 0 0 0 0 0 Predicted Prob: 0,25,5,75 Group: 000000000000000000000000000000 Predicted Probability is of Membership for The Cut Value is,50 Symbols: 0 - - Each Symbol Represents 50 Cases. Opracowane na podstawie http://www2.chass.ncsu.edu/garson/pa765/logispss.htm 5