Wykªad 6: Model logitowy Ekonometria Stosowana SGH Model logitowy 1 / 18
Plan wicze«1 Modele zmiennej jako±ciowej idea 2 Model logitowy Specykacja i interpretacja parametrów Dopasowanie i restrykcje 3 Predykcja z modelu logitowego Model logitowy 2 / 18
Plan prezentacji 1 Modele zmiennej jako±ciowej idea 2 Model logitowy 3 Predykcja z modelu logitowego Model logitowy 3 / 18
Idea Zastosowanie modeli zmiennej jako±ciowej Zmienna obja±niana nie jest mierzona na skali ci gªej: dwumianowy model logitowy (o nim dzisiaj): gdy zmienna obja±niana mo»e przyj jedn z dwóch warto±ci (TAK/NIE, DOBRZE/ LE, PRZE YŠ/NIE PRZE YŠ itp.) wielomianowy uporz dkowany model logitowy: gdy zmienna obja±niana mo»e przyj jedn ze sko«czonej (i w praktyce niewielkiej) liczby mo»liwo±ci, wy»szej ni» 2, które mo»na logicznie uporz dkowa (np. BARDZO LE / LE / NEUTRALNIE / DOBRZE / BARDZO DOBRZE, ZUPEŠNIE SI NIE ZGADZAM / NIE ZGADZAM SI / NIE MAM ZDANIA / ZGADZAM SI / CAŠKOWICIE SI ZGADZAM itp.) wielomianowy nieuporz dkowany model logitowy:...gdy mo»liwo±ci nie da si logicznie uporz dkowa (np. partia popierana przez ankietowanego, jego ulubiony napój itd.) W zale»no±ci od dokªadnej specykacji, zamiast modeli logitowych mo»emy rozwa»a równie» modele probitowe. Model logitowy 4 / 18
Idea Zastosowanie modeli zmiennej jako±ciowej Zmienna obja±niana nie jest mierzona na skali ci gªej: dwumianowy model logitowy (o nim dzisiaj): gdy zmienna obja±niana mo»e przyj jedn z dwóch warto±ci (TAK/NIE, DOBRZE/ LE, PRZE YŠ/NIE PRZE YŠ itp.) wielomianowy uporz dkowany model logitowy: gdy zmienna obja±niana mo»e przyj jedn ze sko«czonej (i w praktyce niewielkiej) liczby mo»liwo±ci, wy»szej ni» 2, które mo»na logicznie uporz dkowa (np. BARDZO LE / LE / NEUTRALNIE / DOBRZE / BARDZO DOBRZE, ZUPEŠNIE SI NIE ZGADZAM / NIE ZGADZAM SI / NIE MAM ZDANIA / ZGADZAM SI / CAŠKOWICIE SI ZGADZAM itp.) wielomianowy nieuporz dkowany model logitowy:...gdy mo»liwo±ci nie da si logicznie uporz dkowa (np. partia popierana przez ankietowanego, jego ulubiony napój itd.) W zale»no±ci od dokªadnej specykacji, zamiast modeli logitowych mo»emy rozwa»a równie» modele probitowe. Model logitowy 4 / 18
Idea Zastosowanie modeli zmiennej jako±ciowej Zmienna obja±niana nie jest mierzona na skali ci gªej: dwumianowy model logitowy (o nim dzisiaj): gdy zmienna obja±niana mo»e przyj jedn z dwóch warto±ci (TAK/NIE, DOBRZE/ LE, PRZE YŠ/NIE PRZE YŠ itp.) wielomianowy uporz dkowany model logitowy: gdy zmienna obja±niana mo»e przyj jedn ze sko«czonej (i w praktyce niewielkiej) liczby mo»liwo±ci, wy»szej ni» 2, które mo»na logicznie uporz dkowa (np. BARDZO LE / LE / NEUTRALNIE / DOBRZE / BARDZO DOBRZE, ZUPEŠNIE SI NIE ZGADZAM / NIE ZGADZAM SI / NIE MAM ZDANIA / ZGADZAM SI / CAŠKOWICIE SI ZGADZAM itp.) wielomianowy nieuporz dkowany model logitowy:...gdy mo»liwo±ci nie da si logicznie uporz dkowa (np. partia popierana przez ankietowanego, jego ulubiony napój itd.) W zale»no±ci od dokªadnej specykacji, zamiast modeli logitowych mo»emy rozwa»a równie» modele probitowe. Model logitowy 4 / 18
Idea Zastosowanie modeli zmiennej jako±ciowej Zmienna obja±niana nie jest mierzona na skali ci gªej: dwumianowy model logitowy (o nim dzisiaj): gdy zmienna obja±niana mo»e przyj jedn z dwóch warto±ci (TAK/NIE, DOBRZE/ LE, PRZE YŠ/NIE PRZE YŠ itp.) wielomianowy uporz dkowany model logitowy: gdy zmienna obja±niana mo»e przyj jedn ze sko«czonej (i w praktyce niewielkiej) liczby mo»liwo±ci, wy»szej ni» 2, które mo»na logicznie uporz dkowa (np. BARDZO LE / LE / NEUTRALNIE / DOBRZE / BARDZO DOBRZE, ZUPEŠNIE SI NIE ZGADZAM / NIE ZGADZAM SI / NIE MAM ZDANIA / ZGADZAM SI / CAŠKOWICIE SI ZGADZAM itp.) wielomianowy nieuporz dkowany model logitowy:...gdy mo»liwo±ci nie da si logicznie uporz dkowa (np. partia popierana przez ankietowanego, jego ulubiony napój itd.) W zale»no±ci od dokªadnej specykacji, zamiast modeli logitowych mo»emy rozwa»a równie» modele probitowe. Model logitowy 4 / 18
Przykªad Przykªad: zbiór danych o pasa»erach Titanica Zmienna obja±niana: Survived (czy prze»yª?) Zmienne obja±niaj ce: Age: wiek Fare: cena za bilet Parch: liczba rodziców i dzieci pasa»era obecnych na pokªadzie SibSp: liczba rodze«stwa i wspóªmaª»onków pasa»era obecnych na pokªadzie Pclass: klasa, w której podró»owaª pasa»er (wysoka/±rednia/niska) Sex: pªe pasa»era Embark: miasto, w którym pasa»er wsiadª na pokªad Model logitowy 5 / 18
Przykªad Przykªad: zbiór danych o pasa»erach Titanica Zmienna obja±niana: Survived (czy prze»yª?) Zmienne obja±niaj ce: Age: wiek Fare: cena za bilet Parch: liczba rodziców i dzieci pasa»era obecnych na pokªadzie SibSp: liczba rodze«stwa i wspóªmaª»onków pasa»era obecnych na pokªadzie Pclass: klasa, w której podró»owaª pasa»er (wysoka/±rednia/niska) Sex: pªe pasa»era Embark: miasto, w którym pasa»er wsiadª na pokªad Model logitowy 5 / 18
Plan prezentacji 1 Modele zmiennej jako±ciowej idea 2 Model logitowy 3 Predykcja z modelu logitowego Model logitowy 6 / 18
Specykacja i interpretacja parametrów Model logitowy (1) Zmienna obja±niana: y i o warto±ciach {0; 1}. Prawdopodobie«stwo przyj cia warto±ci 1 przez y i zale»y od wektora cech i-tej jednostki, x i, i wyra»a si wzorem: p i = eβ 0 +β 1 x 1,i +β 2 x 2,i +...+β k x k,i 1+e β 0 +β 1 x 1,i +β 2 x 2,i +...+β k x k,i Dodatni znak parametru mówi,»e wzrost zmiennej zwi ksza prawdopodobie«stwo przyj cia przez zmienn y warto±ci 1. (Ujemny znak: wzrost zmiennej zwi ksza prawdopodobie«stwo warto±ci 0). Istotno± zmiennych mo»na testowa (podobnie jak w modelu regresji liniowej). Model logitowy 7 / 18
Specykacja i interpretacja parametrów Model logitowy (1) Zmienna obja±niana: y i o warto±ciach {0; 1}. Prawdopodobie«stwo przyj cia warto±ci 1 przez y i zale»y od wektora cech i-tej jednostki, x i, i wyra»a si wzorem: p i = eβ 0 +β 1 x 1,i +β 2 x 2,i +...+β k x k,i 1+e β 0 +β 1 x 1,i +β 2 x 2,i +...+β k x k,i Dodatni znak parametru mówi,»e wzrost zmiennej zwi ksza prawdopodobie«stwo przyj cia przez zmienn y warto±ci 1. (Ujemny znak: wzrost zmiennej zwi ksza prawdopodobie«stwo warto±ci 0). Istotno± zmiennych mo»na testowa (podobnie jak w modelu regresji liniowej). Model logitowy 7 / 18
Specykacja i interpretacja parametrów Model logitowy (1) Zmienna obja±niana: y i o warto±ciach {0; 1}. Prawdopodobie«stwo przyj cia warto±ci 1 przez y i zale»y od wektora cech i-tej jednostki, x i, i wyra»a si wzorem: p i = eβ 0 +β 1 x 1,i +β 2 x 2,i +...+β k x k,i 1+e β 0 +β 1 x 1,i +β 2 x 2,i +...+β k x k,i Dodatni znak parametru mówi,»e wzrost zmiennej zwi ksza prawdopodobie«stwo przyj cia przez zmienn y warto±ci 1. (Ujemny znak: wzrost zmiennej zwi ksza prawdopodobie«stwo warto±ci 0). Istotno± zmiennych mo»na testowa (podobnie jak w modelu regresji liniowej). Model logitowy 7 / 18
Specykacja i interpretacja parametrów Model logitowy (1) Zmienna obja±niana: y i o warto±ciach {0; 1}. Prawdopodobie«stwo przyj cia warto±ci 1 przez y i zale»y od wektora cech i-tej jednostki, x i, i wyra»a si wzorem: p i = eβ 0 +β 1 x 1,i +β 2 x 2,i +...+β k x k,i 1+e β 0 +β 1 x 1,i +β 2 x 2,i +...+β k x k,i Dodatni znak parametru mówi,»e wzrost zmiennej zwi ksza prawdopodobie«stwo przyj cia przez zmienn y warto±ci 1. (Ujemny znak: wzrost zmiennej zwi ksza prawdopodobie«stwo warto±ci 0). Istotno± zmiennych mo»na testowa (podobnie jak w modelu regresji liniowej). Model logitowy 7 / 18
Specykacja i interpretacja parametrów Model logitowy (2) Pytanie 1 Które czynniki istotnie zwi kszaªy, a które zmniejszaªy prawdopodobie«stwo prze»ycia katastrofy? Pytanie 2 Wyznacz prawdopodobie«stwo prze»ycia dla 20-letniego m»czyzny, podró»uj cego bez»adnych bliskich, w niskiej klasie, który wsiadª w Southampton (przyjmij cen biletu na poziomie ±rednim w próbie). Model logitowy 8 / 18
Specykacja i interpretacja parametrów Model logitowy (2) Pytanie 1 Które czynniki istotnie zwi kszaªy, a które zmniejszaªy prawdopodobie«stwo prze»ycia katastrofy? Pytanie 2 Wyznacz prawdopodobie«stwo prze»ycia dla 20-letniego m»czyzny, podró»uj cego bez»adnych bliskich, w niskiej klasie, który wsiadª w Southampton (przyjmij cen biletu na poziomie ±rednim w próbie). Model logitowy 8 / 18
Specykacja i interpretacja parametrów Interpretacja parametrów w modelu logitowym (1) Logit to liniowe wyra»enie w wykªadniku: ln p i 1 p i = β 0 + β 1 x 1,i + β 2 x 2,i +... + β k x k,i Wzrost x 1 o jednostk zwi ksza logit o β 1 (ceteris paribus). Nieintuicyjna interpretacja! Mamy dwa inne sposoby. Model logitowy 9 / 18
Specykacja i interpretacja parametrów Interpretacja parametrów w modelu logitowym (2) Sposób 1. Iloraz szans to stosunek prawdopodobie«stwa»e y i = 1 do prawdopodobie«stwa y i = 0: p i 1 p i = e β 0+β 1 x 1,i +β 2 x 2,i +...+β k x k,i Iloraz szans dla zmiennej: e β j Uzasadnienie: e β 0+β 1(x 1,i +1)+β 2 x 2,i +...+β k x k,i = e β 0+β 1 x 1,i +β 2 x 2,i +...+β k x k,i e β 1 = p i 1 p i e β 1 Wzrost x 1 o 1 zmienia iloraz szans razy e β 1. Np. je»eli e β 1 = 1, 05, to zwi ksza go o 5%, a gdy e β 1 = 0, 97, to zmniejsza go o 3%. Model logitowy 10 / 18
Specykacja i interpretacja parametrów Interpretacja parametrów w modelu logitowym (3) Pytanie 3 Oblicz i zinterpretuj ilorazy szans dla zmiennych oznaczaj cych wiek i klas. Model logitowy 11 / 18
Specykacja i interpretacja parametrów Interpretacja parametrów w modelu logitowym (4) Sposób 2. Efekt kra«cowy dla ±rednich. O ile zmienia si prawdopodobie«stwo»e y i = 1 przy wzro±cie zmiennej o jednostk? Odpowied¹ nie jest tak ªatwa, bo zale»y od poziomu wszystkich zmiennych obja±niaj cych. p i x j,i = β j p i (1 p i ) = β j e β 0+β 1x 1,i +β 2x 2,i +...+β k x k,i (1+e β 0 +β 1 x 1,i +β 2 x 2,i +...+β k x k,i ) 2 W praktyce cz sto posªugujemy si t miar wyznaczon przy wszystkich warto±ciach x j na poziomie ±rednim w próbie. Model logitowy 12 / 18
Specykacja i interpretacja parametrów Interpretacja parametrów w modelu logitowym (5) Pytanie 4 Wyznacz i zinterpretuj efekty kra«cowe dla zmiennych oznaczaj cych pªe i wiek przy zaªo»eniu,»e wszystkie zmienne obja±niaj ce s na poziomie ±rednim w próbie. Pytanie 5 Wyznacz i zinterpretuj efekt kra«cowy dla zmiennej oznaczaj cej wiek w przypadku 17-letniej kobiety, podró»uj cej z narzeczonym, bez rodze«stwa, z matk, w klasie 1, która wsiadªa w Southampton (cena biletu na poziomie ±rednim w próbie). Model logitowy 13 / 18
Specykacja i interpretacja parametrów Interpretacja parametrów w modelu logitowym (5) Pytanie 4 Wyznacz i zinterpretuj efekty kra«cowe dla zmiennych oznaczaj cych pªe i wiek przy zaªo»eniu,»e wszystkie zmienne obja±niaj ce s na poziomie ±rednim w próbie. Pytanie 5 Wyznacz i zinterpretuj efekt kra«cowy dla zmiennej oznaczaj cej wiek w przypadku 17-letniej kobiety, podró»uj cej z narzeczonym, bez rodze«stwa, z matk, w klasie 1, która wsiadªa w Southampton (cena biletu na poziomie ±rednim w próbie). Model logitowy 13 / 18
Dopasowanie i restrykcje Diagnostyka modelu (1) Niech: ln L logarytm warto±ci funkcji wiarygodno±ci dla rozwa»anego modelu ln L logarytm warto±ci funkcji wiarygodno±ci dla modelu tylko ze staª Miara dopasowania pseudo-r 2 (im wy»ej, tym lepsze dopasowanie do danych): pseudor 2 = 1 ln L ln L Test ilorazu wiarygodno±ci: 2 (ln L ln L ) χ 2 (k) H 0 : caªy zestaw zmiennych obja±niaj cych nieistotny Odrzucamy H 0 przy wysokich warto±ciach statystyki (prawostronny obszar krytyczny). Model logitowy 14 / 18
Dopasowanie i restrykcje Diagnostyka modelu (2) Pytanie 6 Czy nasz model poprawia jako± prognoz w stosunku do naiwnej predykcji, przypisuj cej ka»demu pasa»erowi prawdopodobie«stwo prze»ycia ok. 40% na podstawie danych o liczbie osób uratowanych w katastroe? Model logitowy 15 / 18
Plan prezentacji 1 Modele zmiennej jako±ciowej idea 2 Model logitowy 3 Predykcja z modelu logitowego Model logitowy 16 / 18
Predykcja Predykcja Dla ka»dej jednostki i mo»emy wyznaczy prawdopodobie«stwo p i zdarzenia y i = 1. Ustalamy { warto± progow δ i prognozujemy: 1 dla p i δ ŷ i = 0 dla p i < δ Intuicyjnie: δ = 0, 5. Ale taki sposób jest dobry jedynie wówczas, gdy oba warianty y i s mniej wi cej równoliczne. Pytanie 7 Optymalnie: δ = yi N. Czy b dziemy prognozowa,»e m»czyzna z pytania 2 prze»yª, czy nie? Model logitowy 17 / 18
Predykcja Predykcja Dla ka»dej jednostki i mo»emy wyznaczy prawdopodobie«stwo p i zdarzenia y i = 1. Ustalamy { warto± progow δ i prognozujemy: 1 dla p i δ ŷ i = 0 dla p i < δ Intuicyjnie: δ = 0, 5. Ale taki sposób jest dobry jedynie wówczas, gdy oba warianty y i s mniej wi cej równoliczne. Pytanie 7 Optymalnie: δ = yi N. Czy b dziemy prognozowa,»e m»czyzna z pytania 2 prze»yª, czy nie? Model logitowy 17 / 18
Predykcja Diagnostyka modelu (3) Tablica trafno±ci Y przewidywane ŷ i 0 1 zaobserwowane y i 0 n 00 n 01 1 n 10 n 11 zliczeniowe R 2 = n 00 +n 11 n 00 +n 01 +n 10 +n 11 Pytanie 8 W ilu % przypadków nasz model prognozowaª poprawnie? Model logitowy 18 / 18
Predykcja Diagnostyka modelu (3) Tablica trafno±ci Y przewidywane ŷ i 0 1 zaobserwowane y i 0 n 00 n 01 1 n 10 n 11 zliczeniowe R 2 = n 00 +n 11 n 00 +n 01 +n 10 +n 11 Pytanie 8 W ilu % przypadków nasz model prognozowaª poprawnie? Model logitowy 18 / 18