OGÓLNY MODEL REGRESJI BINARNEJ (LMP-Liniowy model prawdopodobieństwa) Dla k3 y α α α α + x + x + x 2 2 3 3 + α x x α x x + α x x + α x x + ε + x 4 2 5 3 6 2 3 7 2 3
Zał.: Wszystkie zmienne interakcyjne są binarne V
ESTYMACJA MNK wówczas: X T X V T DV oraz: X T y V T d
Macierz V jest macierzą kwadratową stopnia s Macierz D jest macierzą diagonalną rr Elementy wektora d, to n r n r n r d n. r liczba obserwacji, dla których y oraz wartości zmiennych objaśniajacych równają się r-temu wierszowi macierzy V y.. n. r nr + n r y lub y. n n, liczba obserwacji z y, y.
Estymatory współczynników a n n.. a a udział obserwacji z wartością y, wśród obserwacji, dla których wszyskie x
a n n.2.2 n n.. a 2 n n.3.3 n n.. n n n..2.3 a 4 + n. n.2 n.3 n n.5.5
Twierdzenie (Amundsen 974) Jeżeli w ogólnym binarnym LMP występuje k- zmiennych binarnych, wszystkie (2 k -k-) zmiennych interakcyjnych, w próbie obserwowana jest każda kombinacja tych zmiennych, Wtedy wartości teoretyczne Y otrzymane MNK: yˆ i P i ( y ) [, ]
Wady. Wymagana duża liczba obserwacji (muszą występować wszystkie kombinacje). 2. Nie zawszy układy interaktywne mają sens.
Zredukowany model regresji binarnej Usunięcie zmiennej, Usunięcie interakcji, Zmienne ortogonalne.
Zredukowany model regresji binarnej ze zmiennymi ortogonalnymi V
Twierdzenie Jeżeli w LMP wszystkie zmienne objaśniające są ortogonalne, to: yˆ i P i ( y ) [, ]
Model regresji binarnej z jedną zmienną y α + α + x ε Interpretacja parametrów: a a a + a» ocena prawdopodobieństwa dla x,» ocena przyrostu prawdopodobieństwa, gdy x: ->,» ocena prawdopodobieństwa dla x,
UOGÓLNIONY MODEL REGRESJI LINIOWEJ
Przykład l.p X-płeć X2-dochód X3-żyranci X4-majątek Y -decyzja k 8 t ś t 2 m 82 t ś t 3 m 95 t ś t 4 k 7 n ś n 5 k 9 n ś n 6 k 65 n m n 7 m 7 n m n 8 k 73 n m n 9 m 85 n m n m 2 n m t m 75 t d t 2 m 88 t d t 3 k t d t 4 m 78 n d t Źródło: Aczel A., Statystyka w zarządzaniu, PWN, Warszawa 2.
Przykład - dane do regresji l.p X-płeć X3-żyranci Y -decyzja 2 3 4 5 6 7 8 9 2 3 4
95,% confidence intervals for coefficient estimates (Y) -------------------------------------------------------------------------------------------- Standard Parameter Estimate Error Lower Limit Upper Limit V.I.F. -------------------------------------------------------------------------------------------- CONSTANT,6,94534,493,79987 Plec -,5,94534 -,34987,4987,2857 Zyranci -,35,94534 -,54987 -,593,2857 -------------------------------------------------------------------------------------------- The StatAdvisor --------------- This table shows 95,% confidence intervals for the coefficients in the model. Confidence intervals show how precisely the coefficients can be estimated given the amount of available data and the noise which is present. Also included are variance inflation factors, which can be used to measure the extent to which the predictor variables are correlated amongst themselves. VIF's above, of which there are, are usually considered to indicate serious multicollinearity. Serious multicollinearity greatly increases the estimation error of the model coefficients as compared with an orthogonal sample.
General Linear Models --------------------- Number of dependent variables: Number of categorical factors: 2 Number of quantitative factors: Analysis of Variance for Y ----------------------------------------------------------------------------- Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------- Model 2,22857 2,429,2,3 Residual,2,99 ----------------------------------------------------------------------------- Total (Corr.) 3,42857 3 Type III Sums of Squares ------------------------------------------------------------------------------------ Source Sum of Squares Df Mean Square F-Ratio P-Value ------------------------------------------------------------------------------------ Plec,3,3 2,75,255 Zyranci,63333,63333 4,97,26 Residual,2,99 ------------------------------------------------------------------------------------ Total (corrected) 3,42857 3 All F-ratios are based on the residual mean square error. R-Squared 65, percent R-Squared (adjusted for d.f.) 58,6364 percent Standard Error of Est.,33289 Mean absolute error,22857 Durbin-Watson statistic,75 Residual Analysis --------------------------------- Estimation Validation n 4 MSE,99 MAE,22857 MAPE ME -,5863E-7 MPE
l.p X-płeć X3-żyranci Y -decyzja Prognoza Y^ k t t,6,5 +,35,8 2 m t t,6 +,5 +,35, 3 m t t, 4 k n n,6,5,35, 5 k n n, 6 k n n, 7 m n n,6 +,5,35,4 8 k n n, 9 m n n,4 m n t,4 m t t, 2 m t t, 3 k t t,8 4 m n t,4 Nie ma wszystkich kombinacji!
Table of Least Squares Means for Y with 95, Percent Confidence Intervals ------------------------------------------------------------------------- Stnd. Lower Upper Level Count Mean Error Limit Limit ------------------------------------------------------------------------- GRAND MEAN 4,6,94534,493,799 Plec 6,45,387,4589,754 8,75,6775,49298,7 Zyranci 8,25,6775 -,7228,57 6,95,387,64589,254 ------------------------------------------------------------------------- The StatAdvisor --------------- This table shows the mean Y for each level of the factors. It also shows the standard error of each mean, which is a measure of its sampling variability. The rightmost two columns show 95,% confidence intervals for each of the means. You can display these means and intervals by selecting Means Plot from the list of Graphical Options.
Modele logitowe i probitowe Y zmienna losowa Y gdy dany wariant wystąpi, gdy dany wariant nie wystąpi Rozkład prawdopodobieństwa zmiennej losowej Y p( Y ) p p( Y ) p
Logitowy model prawdopodobieństwa p ( ) F( β + β x +... + β x + ξ ) P Y k k exp + exp ( β + βx +... + βk xk + ξ ) ( β + β x +... + β x + ξ ) k k W modelach logitowych zakłada się, że funkcja F jest dystrybuantą rozkładu logistycznego.,9,8,7,6,5,4,3,2, - -5 5
logity Logitami nazywamy wartości funkcji odwrotnej do F L ln p p L > < gdy gdy gdy p p > p <,5 p,5,5
W modelu logitowym wartość logitu szacuje się według zależności: L... x k k β + β x + + β + ξ
Uogólniona metoda najmniejszych kwadratów gdzie:» wariancja składników losowych ( ) L V X X V X b T T v k v v V... 2 ( ) i i i i p p n v
Wartości liczbowe dla zmiennych jakościowych Y (spłata kredytu) tak ; nie - Płeć m -, k Żyranci tak -; nie Majątek m ; ś 2; d - 3
Model logitowy Zbieżność osiągnięta po 24 iteracjach Model : Estymacja Logit z wykorzystaniem 4 obserwacji -4 Zmienna zależna: y_splata Zmienna Współczynnik Błąd stand. Statystyka t Nachylenie (do średniej) const -95,826 4689 -, plec 34,55 6923,,253324 dochod,35 387,77, 9,74838E-7 zyranci 58,9625 4689,,4386 majatek 27,5838 7744,,,2586 Srednia dla zmiennej y_splata,57 Liczba przypadków 'poprawnej predykcji' 4 (,%) f(beta'x) do średnich niezależnych zmiennych, McFaddena pseudo-r-kwadrat Logarytm wiarygodności -5,399e- Test ilorazu wiarygodności: Chi-kwadrat(4) 9,24 (wartość p,744) Kryterium informacyjne Akaika (AIC) Kryterium bayesowskie Schwarza (BIC) 3,953 Kryterium infor.hannana-quinna (HQC) 9,7422 Prognoza Empiryczne 6 8
l.p X-płeć X2-dochód X3-żyranci X4-majątek Y -decyzja Prognoza Y^ k 8 t ś t 2 m 82 t ś t 3 m 95 t ś t 4 k 7 n ś n 5 k 9 n ś n 6 k 65 n m n 7 m 7 n m n 8 k 73 n m n 9 m 85 n m n m 2 n m t m 75 t d t 2 m 88 t d t 3 k t d t 4 m 78 n d t
Probitowy model prawdopodobieństwa p ( ) F( β + β x +... + β x + ξ ) Φ( β + β x +... + β x + ξ ) P Y k k k k,2,8 W modelach probitowych zakłada się, że funkcja F jest dystrybuantą rozkładu normalnego.,6,4,2-8 -6-4 -2 2 4 6 8
Probity Probitami nazywamy wartości funkcji odwrotnej do F Pr Φ p ( ) + 5
W modelu probitowym wartość probitu szacuje się według zależności: Pr x k k β + β x +... + β + ξ
Uogólniona metoda najmniejszych kwadratów gdzie:» wariancja składników losowych» funkcja gęstości rozkładu normalnego standaryzowanego ( ) Pr V X X V X b T T v k v v V... 2 ( ) ( ) i i i i i p n p p v 2 ϕ ϕ
Wartości liczbowe dla zmiennych jakościowych Y (spłata kredytu) tak ; nie - Płeć m -, k Żyranci tak -; nie Majątek m ; ś 2; d - 3
Model logitowy Zbieżność osiągnięta po 24 iteracjach Model : Estymacja Logit z wykorzystaniem 4 obserwacji -4 Zmienna zależna: y_splata Zmienna Współczynnik Błąd stand. Statystyka t Nachylenie (do średniej) const -95,826 4689 -, plec 34,55 6923,,253324 dochod,35 387,77, 9,74838E-7 zyranci 58,9625 4689,,4386 majatek 27,5838 7744,,,2586 Srednia dla zmiennej y_splata,57 Liczba przypadków 'poprawnej predykcji' 4 (,%) f(beta'x) do średnich niezależnych zmiennych, McFaddena pseudo-r-kwadrat Logarytm wiarygodności -5,399e- Test ilorazu wiarygodności: Chi-kwadrat(4) 9,24 (wartość p,744) Kryterium informacyjne Akaika (AIC) Kryterium bayesowskie Schwarza (BIC) 3,953 Kryterium infor.hannana-quinna (HQC) 9,7422 Prognoza Empiryczne 6 8
Model probitowy Zbieżność osiągnięta po 24 iteracjach Model 2: Estymacja Probit z wykorzystaniem 4 obserwacji -4 Zmienna zależna: y_splata Zmienna Współczynnik Błąd stand. Statystyka t Nachylenie (do średniej) const -54,9835 9475,7 -, plec 9,57875 22644,,,594 dochod,3677 79,597, 6,772E-5 zyranci 6,5847 352,3,,275473 majatek 7,7477 632,7,,28592 Srednia dla zmiennej y_splata,57 Liczba przypadków 'poprawnej predykcji' 4 (,%) f(beta'x) do średnich niezależnych zmiennych,2 McFaddena pseudo-r-kwadrat Logarytm wiarygodności -2,7956e- Test ilorazu wiarygodności: Chi-kwadrat(4) 9,24 (wartość p,744) Kryterium informacyjne Akaika (AIC) Kryterium bayesowskie Schwarza (BIC) 3,953 Kryterium infor.hannana-quinna (HQC) 9,7422 Prognoza Empiryczne 6 8
l.p X-płeć X2-dochód X3-żyranci X4-majątek Y -decyzja Prognoza Y^ k 8 t ś t 2 m 82 t ś t 3 m 95 t ś t 4 k 7 n ś n 5 k 9 n ś n 6 k 65 n m n 7 m 7 n m n 8 k 73 n m n 9 m 85 n m n m 2 n m t m 75 t d t 2 m 88 t d t 3 k t d t 4 m 78 n d t