Modelowanie wielopoziomowe model z losowym nachyleniem Maciej Jakubowski Artur Pokropek październik 2008
Plan dzisiejszych zajęć 1) modelowanie edukacyjnej wartości dodanej 2) model EWD z losową stałą 3) szacowanie EWD szkół: empiryczne predykcje bayesowskie 4) testowanie założeń modelu z losową stałą 5) regresja liniowa EWD dla różnych szkół 6) model EWD z losowym nachyleniem 7) testowanie istotności modelu 8) przykład zastosowania: badanie efektywności wydatków na gimnazja 2
edukacyjna wartość dodana: dlaczego jej potrzebujemy chcemy jakiejś miary jakości nauczania (wysiłku nauczycieli, efektu organizacji, zastosowanych metod pedagogicznych itp..) odzwierciedlającej wpływ szkoły rozwój uczniów taką miarą nie są surowe wyniki szkół wykorzystywane do tworzenia rankingów wyniki ucznia odzwierciedlają w duŝej mierze jego pochodzenie społeczne i ogólne zdolności, a w znacznie mniejszym stopniu efekt pracy nauczyciela/szkoły procesy selekcji i segregacji dodatkowo utrudniają porównania szkół mamy szkoły spijające śmietankę i szkoły z odpadem szkolnym, podobnie z klasami wewnątrz szkół gdyby uczniowie byli losowo przypisywani do szkół, to nie byłoby problemu, ale nie są i nie będą 3
edukacyjna wartość dodana: intuicja moŝna wykorzystać wcześniejsze wyniki uczniów do określenia ich poziomu wiedzy, zanim zaczęli naukę w szkole, którą chcemy oceniać jeśli wyniki nie są na jednej skali pokazującej przyrost wiedzy ucznia między latami, to nie moŝna po prostu odjąć wyników późniejszych od wcześniejszych, Ŝeby taki przyrost ocenić takie skale są uŝywane na świecie, jednak mało kto wierzy, Ŝe moŝna po prostu odejmować punkty na nich uzyskane i oceniać przyrosty wiedzy uczniów pokazano teŝ, Ŝe nie moŝna tak oceniać jakości pracy szkół 4
edukacyjna wartość dodana: model regresji moŝemy jednak określić relację między wynikami końcowymi ucznia, a wynikami na wejściu wyniki mogą być na róŝnych skalach, choć dobrze by było, Ŝeby ich rozkłady były bliskie normalnemu dla duŝego zbioru danych moŝemy oszacować regresję liniową, gdzie zmienną zaleŝną jest wynik końcowy, a zmienną niezaleŝną jest wynik na wejściu tak liczona jest EWD gimnazjów w Polsce: y i = 0+ β1x i β + ξ i gdzie y to wynik egzaminu gimnazjalnego, a x to wynik sprawdzianu szóstoklasistów w szkole podstawowej wyniki są dla kaŝdego ucznia do równania dodajemy teŝ potęgi x, jeśli relacja między wynikami egzaminów jest nieliniowa 5
6
najprostszy sposób liczenia EWD z takiego modelu dostajemy oszacowanie zaleŝności między wynikami egzaminu gimnazjalnego i sprawdzianu dla populacji dla kaŝdego ucznia moŝemy obliczyć wynik oczekiwany na egzaminie gimnazjalnym średnia róŝnic między wynikiem uzyskanym a oczekiwanym określa jakość nauczania szkoły (EWD) yˆ = ˆ i β + ˆ 0 β1x 1 EWDj = n ( yi yˆ i) taki model przyjęto w Polsce, bo jego zaletą jest prostota: kaŝdy policzy EWD o ile dostanie tabele z przypisanym wynikiem oczekiwanym egzaminu dla kaŝdej wartości wyniku sprawdzianu w modelu dodajemy jeszcze kwadrat sprawdzianu i dummies dla płci i dysleksji j i S j i 7
poprawny sposób liczenia EWD poprawnym modelem jest regresja z efektem przypisanym kaŝdej szkole u j tutaj to efekt szkoły, czyli jej EWD y ij = 0 1 β + βx + u + ε moŝe to być efekt stały, czyli regresja z dummies dla kaŝdej szkoły przy załoŝeniu, Ŝe ich suma równa jest 0 taka metoda daje rezultaty niemal identyczne do uzyskanych metodą najprostszą moŝna szacować EWD zakładając, Ŝe mają rozkład losowy, wtedy jest model wielopoziomowy z losową stałą u j predykcje stanowią EWD szkoły są to tzw. empiryczne predykcje bayesowskie (EB) wykresy z ksiąŝki Rabe-Hesketh, Skrondal, 2008, str. 81 ij j u j ij 8
model z jedym regresorem model przew iduje w yniki uczniów dopiero po uw zględnieniu efektów szkół -6-4 -2 y 0 2 4-6 -4-2 0 2 regresja z efektami szkół regresja bez efektów szkół dla szkoły ze średnią +3 dla szkoły ze średnią -4 9
wynik w części ma atematyczno-przyrodniczej 10 20 30 40 50 EWD jako efekt stały 0 10 20 30 40 wynik sprawdzianu krzywa regresji dla całej populacji uczniów krzywa regresji dla wybranej szkoły z EWD ok.+5 pkt 10
11
12
jak uzyskać predykcje w Stata? szacujemy model z efektami losowymi xtreg, re xtreg, mle xtmixed, mle xtmixed, reml gllamm dokonujemy predykcji efektów losowych dla grup po procedurze xtreg- wykonujemy -predict, u- po procedurze xtmixed- wykonujemy -predict, reff- po procedurze gllamm- wykonujemy gllapred, u- -gllamm- i gllapred- są bardzo wolne, jednak tylko one dają zarówno predykcje, jak i ich błędy standardowe, dzięki czemu moŝna np. skonstruować przedziały ufności dla efektów szkół 13
xtmixed hum spr kod_g:, mle variance Mixed-effects ML regression Number of obs = 27900 Group variable: kod_g Number of groups = 200 ----------------------------------------------------------------------------- hum Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- spr.9244502.0052139 177.31 0.000.9142313.9346692 _cons 7.74778.1815359 42.68 0.000 7.391976 8.103584 ------------------------------------------------------------------------------ Random-effects Parameters Estimate Std. Err. [95% Conf. Interval] -----------------------------+------------------------------------------------ kod_g: Identity var(_cons) 2.599717.2873748 2.09331 3.228632 ----------------------------+------------------------------------------------ var(residual) 37.24533.3164822 36.63017 37.87082 predict ewd_re, reff egen ewd_standard=std(ewd_re) if pierwsza==1 predict std_resid, rstandard hist ewd_standard if pierwsza, normal title( bayesowskie predykcje EWD szkół ) hist std_resid, normal title( rozkład reszt na poziomie ucznia ) 14
Density.2.3.4 bayesowskie predykcje EWD szkół predict ewd_re, reff 0.1-3 -2-1 0 1 2 Standardized values of (ewd_re) 15
rozkład reszt na poziomie ucznia De ensity 0.1.2.3.4-5 0 5 Standardized residuals 16
Jaka jest róŝnica między oszacowaniami efektów stałych a predykcjami efektów losowych? Efekty stałe szacowane są jako warunkowe średnie wartości zmiennej zaleŝnej Są mało odporne na obserwacje odstające itp., jeśli grupy są mało liczne (prawie zawsze w przypadku szkół) empiryczne bayesowskie (EB) predykcje efektów losowych korzystają zarówno z informacji wewnątrz grup, jak i z wariancji między grupami tzw. shrinkage powoduje, Ŝe EB są ściągane do średniej (zera) im grupa jest mniej liczna a wariancja między grupami jest większa niŝ wariancja wewnątrz grup EB są BLUP, czyli Best Linear Unbiased Predictors w powtarzalnych próbach losowych dają najmniejszy błąd 17
EWD jako efekt losowy i efekt stały -10-5 EWD gimnazjum 0 5 10 0 50 100 150 200 250 liczba uczniów zdających egzamin w danej szkole efekt stały efekt losowy 18
przedziały ufności budowane na empirycznych predykcjach bayesowskich są węŝsze, co oddaje ich większą precyzję z drugiej strony szkoły z małą liczbą uczniów będą silnie ściągane do przeciętnej i trudno będzie odkryć małe szkoły o skrajnej efektywności 19
model z losowym nachyleniem zakładaliśmy dotąd, Ŝe relacja wyników sprawdzianu do wyników egzaminu gimnazjalnego jest stała w populacji co jeśli gimnazja róŝnią się pod względem tej relacji? to moŝemy sprawdzić odpowiednimi testami co to oznacza? jak interpretować fakt, Ŝe w jednej szkole nachylenie wyników sprawdzianu względem wyników egzaminu gimnazjalnego jest bardziej płaskie, a w innej bardziej strome? czy sensowne jest szacowanie osobnych regresji dla kaŝdego gimnazjum i ich porównywanie? jaka była zaleta szacowania efektów szkół przez efekty losowe a nie stałe? czy łatwiej jest oszacować średnią czy równanie regresji? 20
model z losowym nachyleniem model ten zakłada, Ŝe zaleŝność między x a y róŝni się istotnie między grupami y ij = β + βx + u x + u + ε ) 0 1 ij ( 1j ij 0j ij gdzie część losową pokazano w nawiasie - u to efekty losowe, o których zakładamy, Ŝe mają rozkład normalny i mogą być skorelowane równanie to pokazuje, Ŝe kaŝda szkoła ma nie tylko inną stałą, ale i inną relację x i y y ij = β β x ) + ε ( 0+ u0j ) + ( 1xij + u1j ij ij 21
EWD w modelu z losową stałą i nachyleniem Oszacowania krzywych regresji dla czterech przykładowych gimnazjów część matemat 10 20 30 40 50 tyczno-przyrodnicza 0 5 10 15 20 25 30 35 40 sprawdzian jedna ze szkół cała populacja 22
interpretacja predykcji w modelu z losowym nachyleniem w modelu z losową stałą EB to warunkowe średnie zmiennej zaleŝnej (po uwzględnieniu shrinkage) interpretacja nie zaleŝy od wycentrowania zmiennej zaleŝnej w modelu z losowym nachyleniem interpretacja zaleŝy od sposobu wycentrowania losowego predyktora nie ma sensu interpretacja dla zmiennej, która nie przyjmuje wartości 0 lub są to wartości skrajne (np. wynik sprawdzianu) w takiej sytuacji centrujemy zmienną zaleŝną wokół: 1. wartości średniej z całej populacji, tzw. grand-mean centering wtedy losowe stałe są podobne do modelu z nielosowym nachyleniem 2. innej statystyki z całej populacji, np. dolnego kwintyla wtedy w modelu EWD losowe stałe mierzą efektywność dla słabych uczniów 3. statystyki dla grup wtedy losowe stałe mierzą efekty względem pozycji w grupach (np. w modelu EWD efektywność dla najsłabszych uczniów w danej szkole) 23
EWD w modelu z losową stałą i nachyleniem Oszacowania krzywych regresji dla czterech przykładowych gimnazjów część matemat 10 20 30 40 50 tyczno-przyrodnicza 0 5 10 15 20 25 30 35 40 sprawdzian jedna ze szkół cała populacja 24
testowanie istotności modeli modele oszacowane przez maximum-likelihood moŝemy testować przez likelihood-ratio test chcemy dowiedzieć się czy model z losową stałą jest potrzebny a następnie czy model z losowym nachyleniem jest potrzebny szacujemy 3 modele przez xtmixed, mle- : pusty, z losową stałą, z losową stałą i losowym nachyleniem zapamiętujemy wyniki procedurą estimates store- porównujemy wyniki procedurą lrtest- modele muszą zawierać te same zmienne jako efekty stałe 25
xtmixed hum spr, mle Mixed-effects ML regression Number of obs = 27900 Log likelihood = -90982.572 hum Coef. Std. Err. z P>z [95% Conf. Interval] spr.9427688.0050955 185.02 0.000.9327819.9527558 _cons 7.283878.1389943 52.40 0.000 7.011455 7.556302 Random-effects Parameters Estimate Std. Err. [95% Conf. Interval] sd(residual) 6.309684.026711 6.257548 6.362254. estimates store bez 26
xtmixed hum spr kod_g:, mle Mixed-effects ML regression Number of obs = 27900 Group variable: kod_g Number of groups = 200 Log likelihood = -90289.518 hum Coef. Std. Err. z P>z [95% Conf. Interval] spr.9244502.0052139 177.31 0.000.9142313.9346692 _cons 7.74778.1815359 42.68 0.000 7.391976 8.103584 Random-effects Parameters Estimate Std. Err. [95% Conf. Interval] kod_g: Identity sd(_cons) 1.612364.089116 1.446828 1.79684 sd(residual) 6.102895.0259289 6.052286 6.153927 LR test vs. linear regression: chibar2(01) = 1386.11 Prob >= chibar2 = 0.0000 27
likelihood-ratio test. estimates store losowa_stala. lrtest bez losowa_stala Likelihood-ratio test LR chibar2(01) = 1386.11 (Assumption: bez nested in losowa_stala) Prob > chibar2 = 0.0000 28
xtmixed hum spr kod_g: spr, mle Log likelihood = -90240.519 hum Coef. Std. Err. z P>z [95% Conf. Interval] spr.9187095.007866 116.80 0.000.9032925.9341265 _cons 7.979133.2681283 29.76 0.000 7.453611 8.504655 Random-effects Parameters Estimate Std. Err. [95% Conf. Interval] kod_g: Unstructured sd(spr).0826903.0075861.0690819.0989793 sd(_cons) 3.201122.2344607 2.773048 3.695277 corr(spr,_cons) -.880203.024013 -.919475 -.8235391 sd(residual) 6.075114.0259117 6.024539 6.126112 LR test vs. linear regression: chi2(3) = 1484.11 Prob > chi2 = 0.0000 Note: LR test is conservative and provided only for reference 29
likelihood-ratio test. estimates store losowe_nachylenie. lrtest losowa_stala losowe_nachylenie Likelihood-ratio test LR chi2(2) = 98.00 (Assumption: losowa_stala nested in losowe_nachy~e) Prob > chi2 = 0.0000 Note: LR test is conservative Stata informuje, Ŝe LR test is conservative co znaczy, Ŝe jest zawyŝony moŝemy podzielić p-value przez 2 w tym przypadku to nie ma jednak znaczenia model jest istotną poprawą w stosunku do modelu z nielosowym nachyleniem 30
wyniki te moŝna uzyskać ściągając bazę z danymi EWD i uruchamiając do-file napisany do 3 zajęć 31
Ocena efektywności wydatków na ucznia gimnazjum Kontekst: decentralizacja finansowania oświaty w Polsce to jedna z największych reform Polska podąŝyła śladem innych krajów oczekujących, Ŝe decentralizacja przyniesie szereg korzyści: zwiększenie lokalnej odpowiedzialności za szkoły (lepsza gospodarność, dostosowanie do lokalnych potrzeb i warunków, nadzór jakości nauczania) wzrost bazy do finansowania oświaty Decentralizacja fiskalna ma z pewnością dobry wpływ na stabilność finansów państwa Na świecie brakuje ewidentnych przykładów, Ŝe decentralizacja podniosła jakość złoŝonych usług, takich jak edukacja
Ocena efektywności wydatków na ucznia gimnazjum Jakie efekty w Polsce? Z pewnością wzrosła baza do finansowania oświaty (ponad 30% dokładają samorządy) Być moŝe wzrosła gospodarność, choć koszty co roku rosną ze względu na wzrost pensji nauczycieli Ale czy decyzje samorządów przekładają się na jakość nauczania? W tym badaniu pytamy, czy wydatki samorządów wpływają na jakość nauczania? Nie jest to bezpośredni test efektów decentralizacji, ale moŝna zakładać, Ŝe jeśli samorządy głównie decydują o poziomie finansowania, to powinien się on przekładać na jakość nauczania
Ocena efektywności wydatków na ucznia gimnazjum Interesuje nas zróŝnicowanie między gminami Ale bezpośrednim testem na efektywność wydatków jest efekt zmiany w danej gminie/szkole Model EWD Modele dwu lub trzypoziomowe (na poziomie szkoły lub gminy, razem z efektami dla szkoły i gminy) Model z losowym efektem wpływ wydatków na jakość nauczania przeciętnego ucznia Model z losowym nachyleniem wpływ wydatków na efektywność nauczania uczniów słabych oraz na wyrównywanie poziomu edukacyjnego (nachylenia wyników sprawdzianu) Dane dla 3 kohort (2002/2005, 2003/2006, 2004/2007) zdeflowane całkowite wydatki na ucznia gimnazjum (Bank Danych Regionalnych GUS + HICP Eurostatu) średnia dla gminy - ta sama wartość w kaŝdej szkole
Zmienna zależna: łączny wynik egzaminu gimnazjalnego Sprawdzian 1.256*** 1.253*** Średnie wydatki na ucznia w trakcie nauki w gimnazjum -0.067*** -0.066*** Szkoła niepubliczna 2.569*** 2.934*** liczba uczniów w szkole -0.173** Rozstęp ćwiartkowy wyników sprawdzianu w gimnazjum -0.045*** liczba uczniów w gminie 0.259*** dochody na mieszkańca gminy 1.555*** Wydatki na ucznia w trakcie nauki w szkole podstawowej -0.337*** Procent dzieci 3-5 letnich, które korzystały z przedszkoli 0.008*** Oznaczenie typu miejscowości Tak Liczba uczniów 1324076 1322255 Liczba gimnazjów 6211 6211
Zmienna zależna: łączny wynik egzaminu gimnazjalnego Scentrowany wynik sprawdzianu (0 oznacza 1 decyl oryginalnych wyników) Średnie wydatki na ucznia w trakcie nauki w gimnazjum Średnie wydatki * sprawdzian Logarytm naturalny liczby uczniów w szkole Logarytm naturalny liczby uczniów w gminie Logarytm naturalny dochodów na mieszkańca gminy Rozstęp ćwiartkowy wyników sprawdzianu wśród uczniów gimnazjum Średni wynik sprawdzianu wśród uczniów gimnazjum 1.240*** (0.010) -0.055** (0.024) -0.001 (0.002) 1.213*** (0.010) -0.105*** (0.024) -0.002* (0.002) 0.279*** (0.022) -0.172*** (0.055) 1.648*** (0.221) -0.128*** (0.006) 0.180*** (0.006) Log restricted-likelihood -4993013-4991958 Liczba uczniów 1324076 1324076
Więcej moŝna przeczytać w artykułach do ściągnięcia z www.wne.uw.edu.pl/mjakubowski (ew. prześlę przez email) M. Jakubowski, 2008. Zastosowanie modeli EWD do ewaluacji polityki edukacyjnej M. Jakubowski, 2008. Decentralization and teaching quality M. Jakubowski, 2008. Czy wydatki na gimnazja są efektywne?, Gospodarka Narodowa 11-12/2007 37