Przyczynowość, selekcja i endogeniczne oddziaływanie
|
|
- Robert Kaczmarczyk
- 6 lat temu
- Przeglądów:
Transkrypt
1 Przyczynowość, selekcja i endogeniczne oddziaływanie Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych pstrawinski@wne.uw.edu.pl Kwiecień 2007 Streszczenie W modelach konstruowanych dla pomiaru efektów oddziaływania, lub uwzględniających problem nielosowej selekcji, czynniki nieobserwowane mogą wpływać jednocześnie na wartość zmiennej wynikowej oraz prawdopodobieństwo poddania oddziaływaniu. Ponadto, modele mogą zawierać zmienne endogeniczne. W artykule zdefiniowano pojęcie oddziaływania o endogenicznych charakterze, oraz pokazano, że model z endogenicznym oddziaływaniem oraz model uwzględniający nielosowy mechanizm doboru obserwacji do próby są wariantami wspólnego modelu strukturalnego. Przedstawiono sposób wykorzystania metody funkcji kontrolujących do zgodnego oszacowania parametrów modelu z endogenicznym oddziaływaniem. Słowa kluczowe: Przyczynowość, Selekcja, Egzogeniczność, Oddziaływanie, Program. 1
2 1 Wprowadzenie Jednym z podstawowych celów prowadzonych badań empirycznych jest wyizolowanie zależności przyczynowo-skutkowych pomiędzy zachodzącymi zjawiskami. W naukach społecznych takich jak socjologia, czy psychologia, oraz przyrodniczych często stosowanym podczas analizy tego zagadnienia narzędziem są kontrolowane eksperymenty. Pozwalają one, w warunkach laboratoryjnych, analizować różne możliwe scenariusze przebiegu zjawiska. Przeprowadzając eksperyment badacze są w stanie kontrolować wszystkie parametry. W empirycznych badaniach podstawowych dziedzin ekonomicznych metody eksperymentalne są stosunkowo rzadko używane. Dzieje się tak ze względu na występowanie ograniczeń technicznych, społecznych i etycznych. Trudno jest bowiem oddzielić część gospodarki w sposób zapewniający spełnienie warunków eksperymentalnych, bowiem funkcjonuje ona jako całość. Autarkia w czystej postaci w rzeczywistym świecie nie występuje. Nawet gdyby takie odizolowanie było technicznie możliwe, pozostaje pytanie natury etycznej i społecznej, czy wolno dla celów nauki eksperymentować na ludziach. Pomijamy tu kwestię wiarogodności uzyskanych rezultatów. Osoby uczestniczące w eksperymencie wiedząc, że wynik nie ma znaczenia dla ich sytuacji ekonomicznej, mogłyby zachowywać się inaczej niż w warunkach rzeczywistych. Z tego powodu podstawowym typem badania empirycznego w naukach ekonomicznych jest analiza danych ilościowych o charakterze przekrojowym. Z uwagi na ograniczoną możliwość prowadzenia badań eksperymentalnych często nadaje się jej charakter badania obserwacyjnego (ang. observational study [2]). Celem badania obserwacyjnego jest wyabstrahowanie związku przyczynowo-skutkowego, w sytuacji gdy nie można zastosować kontrolowanego eksperymentu [12]. Badanie obserwacyjne dotyczy programów, interwencji, czy analizy polityk oddziałujących na otoczenie. Polega ono na porównaniu zachowań jednostek, które są objęte programem czy interwencją z jednostkami, które pozostają poza bezpośrednim oddziaływaniem. Rezultatem podjęcia takich działań jest powstanie naturalnego eksperymentu. Podstawową cechą odróżniającą go od eksperymentu przeprowadzonego w warunkach laboratoryjnych, jest spontaniczne a nie zamierzone jego powstanie. 2
3 Z uwagi na spontaniczny charakter naturalnych eksperymentów, badacz nie jest w stanie kontrolować wszystkich parametrów eksperymentu i zweryfikować wszystkich możliwych scenariuszy. Ponadto, jednostki uczestniczące w eksperymencie nie są odizolowane od społeczeństwa i gospodarki, a pozostają jego częścią. W związku z tym narzędzia analityczne służące do analizy danych zostały zmodyfikowane, w sposób umożliwiający uogólnienie wniosków. Dalsza część artykułu jest zorganizowana jak następuje. W części drugiej przedstawiono problem identyfikacji zależności przyczynowo-skutkowych w badaniach ekonomicznych. W kolejnej części opisano źródła problemu selekcji. Część czwarta obejmuje opis model strukturalny, którego wariantami są model uwzględniający selekcję zaproponowany przez Heckmana, oraz model z endogenicznym oddziaływaniem. Skoncentrowano swoją uwagę na analogiach i istotnych różnicach między tymi wariantami. W części piątej przedstawiona jest metoda funkcji kontrolującej, pozwalająca uzyskać zgodne oszacowania dla parametrów modelu strukturalnego. W zakończeniu zawarte są wnioski i podsumowanie. 2 Przyczynowość Podstawowe znaczenie dla prawidłowości modelowania ma rozróżnienie na czynniki sprawcze (przyczyny) i efekty ich wystąpienia (skutki). Niejednokrotnie takie rozgraniczenie jest arbitralne. Problem ten głównie dotyczy badań makroekonomicznych, bowiem wiele zjawisk zachodzących na poziomie gospodarki współwystępuje i trudno jest określić pierwotną przyczynę. Badania prowadzone w skali mikro na poziomie jednostkowym też go doświadczają. Na przykład, w badaniach zachowań na rynku pracy i płac przyjmuje się, że status na rynku pracy (zatrudniony, nie zatrudniony) determinuje poziom zarobków. Może jednak relacja przyczynowa jest odwrotna, osoby o niskich dochodach nie chcą pracować, bowiem oczekują, ich ewentualne dochody z pracy nie będą dużo wyższe od obecnych? Relacja przyczynowo-skutkowe współczesnej statystyce i ekonometrii jest przedstawiana za pomocą notacji używającej wyników hipotetycznych (ang. counterfactual), które są sprzeczne z faktami, i nie mogą być obserwowane w rzeczywistości. 3
4 Ten sposób analizy przyczynowości wprowadził Neyman [11]. Współczesna wersja jest często w literaturze przypisywana Rubinowi [15]. Głównym elementem modelu jest zmienna losowa opisująca dwa potencjalnie zachodzące stany nazywane oddziaływaniem (ang. treatment) i brakiem oddziaływania (ang. non-treatment), i zapisywane d {0, 1}. Każdemu stanowi w którym jednostka się znajduje przypisywana jest odpowiednia wartość zmiennej wynikowej (Y 0, Y 1 ). Badacz obserwuje tylko jedną wartość wyniku Y. Zależność między obserwowanym wynikiem, a wynikami hipotetycznymi przedstawia się następująco Y = dy 1 + (1 d)y 0 (1) Taką sytuację można zilustrować klasycznym przykładem modelu płacy. Dla osób pracujących d = 1 dochody wynoszą Y. Oczywiście Y = Y 1. Gdyby jednak, ta osoba niepracowała to jej hipotetyczne dochody wyniosłyby Y 0. Problemem komplikującym model jest możliwość, że zarówno Y jak i d zależą od wspólnych (ang. confounders), nieobserwowanych czynników, takich jak indywidualne zdolności, oraz obserwowanych np. poziom wykształcenia. Wartość zmiennej wynikowej Y jest modelowana jako warunkowa wartość oczekiwana, przy znanej realizacji wektora obserwowanych charakterystyk X. Oczywiście stan poddania oddziaływaniu d może być traktowany jako charakterystyka determinująca wartość zmiennej Y. Zmienne zawarte w macierzy X w literaturze anglojęzycznej określa się mianem zmiennych kontrolnych. Ma to swoje uzasadnienie przez analogię do badań eksperymentalnych. Przez porównanie wartości zmiennej wynikowej przy różnych wartościach wektora obserwowanych charakterystyk odtwarzany jest eksperyment laboratoryjny. Tym co interesuje badaczy to pomiar przeciętnego efektu oddziaływania na jednostki poddane oddziaływaniu (ang. average treatment on treated) AT T = E(Y 1 d = 1, X) E(Y 0 d = 1, X) (2) i na jednostki nie poddane oddziaływaniu (ang. average treatment on non-treated) AT N = E(Y 1 d = 0, X) E(Y 0 d = 0, X) (3) 4
5 oraz przeciętny efekt oddziaływania (ang. average treatment effect) AT E = E(Y 1 X) E(Y 0 X) (4) Zgodnie z propozycją Rosembauma i Rubina [13] przyjmuje się, że oddziaływanie jest dobrze zdefiniowane. Oznacza to, że każda jednostka może albo być poddana oddziaływaniu, albo nie (wykluczone jest częściowe poddanie oddziaływaniu). Ponadto nie występuje współzależność między jednostkami poddanymi oddziaływaniu i jednostkami należącymi do grupy kontrolnej. Brak współzależności można utożsamić z brakiem wpływu programu na stan równowagi ogólnej. W celu identyfikacji efektów na podstawie zbioru danych empirycznych konieczne jest spełnienie dwóch dodatkowych założeń. Po pierwsze musi istnieć wspólny przedział określoności. Dla pewnego podzbioru X X: 0 < P r(d = 0 X = x) < 1 0 < P r(d = 1 X = x) < 1 (5) Oznacza to, że jednostka charakteryzowana przez wartość wektora X = x zarówno mogłaby znaleźć się w grupie poddanej oddziaływaniu, jak i grupie kontrolnej. Po drugie wartość zmiennej wynikowej musi być niezależna od stanu oddziaływania pod warunkiem znanego wektora X. Modelowany proces selekcji powinien być uzależniony wyłącznie od wielkości obserwowanych. Pomiar efektów oddziaływania komplikuje się, gdy stan poddania oddziaływaniu jest również funkcją obserwowanych charakterystyk. W ekonometrii zagadnienie egzogeniczności jest kluczowym problemem. Pomimo swojego podstawowego znaczenia dla modelowania ekonometrycznego, pojęcie nie posiada jedoznacznej definicji. Engle, Hendry i Richard [3] zdefiniowali egzogeniczność w odniesieniu do rozkładów obserwowanych zmiennych, funkcji wiarogodności i efektywnych metod estymacji. Zmienna losowa Z jest określana jako słabo egzogeniczna wobec estymatorów nieznanych parametrów λ, jeśli ocena λ pod warunkiem Z nie powoduje utraty informacji. Matematycznie można to wyrazić jako przedstawienie rozkładów łącznych za pomocą rozkładów warunkowych. Jeśli zmienne losowe (X, Z) posiadają łączny rozkład, a zmienna Z jest egzogeniczna, to F (X, Z) = F (X Z) F (Z) (6) 5
6 Jeśli dodatkowo zmienna Z nie jest skutkiem w sensie Grangera [4], co oznacza, że żadna inna zmienna nie wpływa Z, wtedy jest ściśle egzogeniczna. W sytuacji, gdy celem prowadzonego badania jest ekonomiczna analiza programu egzogeniczność jest definiowana w odmienny sposób. Jej definicja jest powiązana z przyczynowością. Przyjmuje się, że cechy badanych jednostek mogą wpływać na prawdopodobieństwo z jakim jednostka zostanie poddana oddziaływaniu, oraz, że zależność nie zachodzi w drugą stronę. Fakt poddania, bądź nie poddania oddziaływaniu nie powinien wpływać na, inne niż zmienna wynikowa, cechy rozpatrywanych jednostek. W tym przypadku egzogeniczność oznacza, że stan oddziaływania nie wpływa na wartość zmiennych niezależnych. Sytuację, w której conajmniej jedna z charakterystyk jednostek (zmiennych niezależnych) jednocześnie wpływa na oddziaływanie (ang. treatment) i wartość zmiennej wynikowej będziemy nazywać zjawiskiem endogeniczności. W takim przypadku, bez przyjęcia dodatkowych założeń, nie można odseparować wpływu czynnika endogenicznego, od zmiennej opisującej stan poddania oddziaływaniu. Lechner [9] pokazał, że w przypadku modelu selekcji problem endogeniczności zmiennych objaśniających można pominąć, ponieważ poprawka korygująca oszacowania o nielosową selekcję uwzględnia ewentualnie występującą endogeniczność. Z kolei [10] warunki, których spełnienie umożliwia identyfikację parametrów modelu. 3 Przyczyny występowania selekcji Prowadzenie programu pomocy czy podejmowanie interwencji na rynku powoduje oddziaływanie na część populacji. Z reguły takie działania są ukierunkowane do specyficznych grup odbiorców. Pojęcie selekcji zostało wprowadzone do słownika ekonometrii na początku lat siedemdziesiątych ubiegłego wieku. Badacze analizując ekonomiczne determinanty wysokości płacy zauważyli, że traktowanie grupy pracujących osób jako próby losowej prowadzi do nieprawidłowych wyników. Decyzja o partycypacji w sile roboczej jest zdeterminowana przez wybory i charakterystyki decydentów, a więc nie posiada losowego charakteru. W ogólnym przypadku badacz dysponuje próbą losową z populacji i wydzieloną z niej pod- 6
7 próbą. O selekcji, bądź samoselekcji mówimy, gdy obserwowane, lub nieobserwowane charakterystyki jednocześnie decydują o przynależności do próby i wielkości analizowanego zjawiska. Obciążenie związane z selekcją pojawia się wtedy, gdy nieobserwowane charakterystyki wpływają jednocześnie na fakt podjęcia pracy i wysokość płacy. W praktyce obciążenie próby spowodowane przez nielosową selekcję może pojawić się w rezultacie występowania jednego z wielu czynników. Do najważniejszych z nich, po pierwsze, należy zaliczyć samoselekcję. Występuje ona, gdy badane jednostki będą same decydować, czy znaleźć się w jednej grupie, czy w drugiej, np. dokonując wyboru pracuje-nie pracuje. Dużo częściej selekcja towarzyszy prowadzeniu programu pomocy. Instytucja prowadząca program, zebrawszy wstępne deklaracje uczestnictwa, może w trakcie dalszego postępowania arbitralnie zadecydować komu przydzielić pomoc. Oczywiście proces selekcji może być bardziej rozbudowany, np. mieć charakter wieloetapowy. Nawet w przypadku w pełni obiektywnej procedury przydzielania pomocy wystąpi selekcja. Jest ona związana ze sposobem rozstrzygnięcia problemu komu przydzielić pomoc. Posiada ona dwa źródła. Jeżeli pomoc zostanie przydzielona wszystkim jednostkom ubiegającym się o nią, to zaburzenie losowości wystąpi podczas składania deklaracji o chęci uczestnictwa w programie. Grupa ubiegających się o pomoc będzie składać się z jednostek aktywnych społecznie, a więc wystąpi samoselekcja. Gdy pomoc nie trafi do wszystkich, oczywiste jest, że wystąpi selekcja. W kontekście budowanego modelu ważne jest, że zarówno z punktu widzenia jednostek oczekujących pomocy, jak i osób lub instytucji oceniających skuteczność lub efektywność podejmowanych działań, proces ten można traktować jako samoselekcję niezależnie od jego prawdziwej natury. Kolejnym źródłem selekcji są arbitralne decyzje analityków prowadzących badania. Podejmowane są one podczas pracy z danymi empirycznymi. Czyszczenie zbiorów z obserwacji nietypowych lub mało wiarogodnych oraz przypadkowe usunięcia części obserwacji może powodować zaburzenie losowości próby. Powstałe zaburzenia zbioru danych mogą być przedstawione jako wynik występowania jednego z dwóch zjawisk. Po pierwsze, dane mogą być dobierane do próby za pomocą nieobserwowanego przez badaczy nielosowego procesu. Jeżeli proces jest niezależny 7
8 od działań podejmowanych przez badane jednostki, to mówi się w takim przypadku o występowaniu selekcji. Gdy proces doboru jest uzależniony od reakcji bądź cech jednostek, takie zjawisko nazywamy samoselekcją. Po drugie, zaburzenie losowego charakteru próby może wystąpić jako świadome lub przypadkowe pominięcie części obserwacji w momencie tworzenia modelu ekonometrycznego opisującego badane zjawisko. Problem, którego nie można odróżnić od selekcji, może pojawić się jako efekt niewłaściwej specyfikacji modelu. Jest nim brak egzogeniczności zmiennych. Jeżeli w grupie zmiennych objaśniających znajdują się zmienne endogeniczne to równanie będzie posiadało nieprawidłową specyfikację. Jednak testy statystyczne bardzo często będą wskazywać na wystąpienie problemu związanego z nielosowym doborem obserwacji do próby 4 Model selekcji Podstawą modelu selekcji jest teoria użyteczności. Zgodnie z nią jednostki dokonując wyboru kierują się wartością funkcji użyteczności dla danej alternatywy. Heckman przełożył na język matematyki koncepcję Roy a [14] zakładającą, że obserwowane są wyłącznie wybory najlepszych alternatyw. Pomysł potraktowania problemu nielosowej selekcji analogicznie do problemu błędnej specyfikacji formy funkcyjnej modelu, oraz powiązania go z mikroekonomiczną teorią użyteczności, wyznacza ramy metodologiczne analizy. Proces budowy podstawowej wersji modelu nielosowej selekcji rozpoczyna się od równania badanego zjawiska, które zazwyczaj jest tradycyjnym równaniem regresji yi = X iβ + ε i (7) gdzie X i jest wektorem obserwowanych charakterystyk, β wektorem szukanych parametrów modelu, a ε i składnikiem losowym. Tym co odróżnia (7) od równania regresji jest ocenzurowanie zmiennej zależnej. Obserwujemy wartości zmiennej wynikowej y i tylko dla wyselekcjonowanej części próby. Drugim składnikiem jest równanie opisujące mechanizm wyboru obserwacji do próby. Zakłada się, że zależy 8
9 od obserwowanych charakterystyk jednostek d i = Z iγ + ν i (8) gdzie Z i jest wektorem obserwowanych charakterystyk, γ wektorem nieznanych parametrów wymagających oszacowania, a ν i składnikiem losowym. Zmienna zależna d i jest wskaźnikiem podjętej decyzji o zaliczeniu obserwacji do próby. W celu uproszczenia postaci funkcyjnej i interpretacji parametrów równania (8) definiuje się wartość progową zmiennej decyzyjnej d i. Wykorzystuje się ją do zastąpienia nieobserwowanej wartości zmiennej decyzyjnej indykatorową zmienną zero-jedynkową 1 gdy d i d i d i = 0 gdy d i < d (9) i Czasem przyjmuje się normalizację d i = 0, ale nie jest to konieczne. Z reguły rozkłady prawdopodobieństwa definiowane są z dokładnością do stałej. Celem normalizacji jest uproszczenie wyprowadzenia postaci analitycznej formy funkcyjnej. Zmienna, której wartości obserwujemy w próbie y i powstaje jako y i = yi d i (10) Zestawiając powyższe równania możemy przedstawić model nielosowego doboru w postaci strukturalnej [1] yi = X iβ + ε i d i = Z iγ + ν i 1 gdy d i d i d i = 0 d i < d i y i = yi d i (11) W celu estymacji parametrów przyjmuje się, że ε i oraz ν i są składnikami losowymi o średniej zero, wariancjach odpowiednio σε 2 i σν 2 oraz kowariancji cov(ε i, ν i ) = σ εν. W przypadku, gdy kowariancja jest równa zero, równania (7) i (8) są niezależne i nie występuje problem selekcji w modelu. Dwa pierwsze równania w (11) 9
10 są matematycznym opisem zachodzącego zjawiska ekonomicznego lub społecznego. Dwa kolejne narzucają ograniczenia na parametry modelu. W populacji generalnej zachodzi zależność E(y i X i ) = X iβ (12) ale model nie jest tworzony na podstawie obserwacji całej populacji. Co więcej, nie jest on tworzony na podstawie próby losowej z tej populacji, lecz bazuje na wyselekcjonowanej w sposób nielosowy podpróbie. Metoda doboru obserwacji jest opisywana przez regułę selekcji d i d i. W związku z tym jest ona uwzględniania podczas obliczania wartości oczekiwanej. E(y i X i, d i d i ) = X iβ + E(ε i X i, d i d i ) (13) Przyjmuje się, że wartość progowa d i jest identyczna dla każdej jednostki. Ponieważ wartość d i nie jest bezpośrednio obserwowana, budowany jest probabilistyczny model determinujący jej wielkość. Bez utraty ogólności rozważań, możemy znormalizować wartość progową d i = 0. Ten zabieg upraszcza analityczny zapis modelu [5]. Po normalizacji parametrów modelu obserwujemy y i jeśli d i 0. Kontynuacja wyprowadzenia wzoru (13) polega na przekształcaniu jego prawej strony. Wstawiając wartości znormalizowane uzyskujemy X i β + E(ε i X i, d i d i ) = X iβ + E(ε i X i, ν i Z iγ) (14) Z założeń modelu wynika, że E(ε i X i ) = 0, ale E(ε ν i Z iγ) 0, ponieważ cov(ε, ν) = σ εi,ν i 0, czyli kowariancja między składnikami losowymi jest różna od zera. Z tego powodu obliczone metodą standardową estymatory modelu (12) będą obciążone i niezgodne. Model efektów oddziaływania (ang. treatment effect) jest bardzo zbliżony do modelu selekcji próby i może być traktowany jako jego wersja z nałożonymi restrykcyjami. Został on zaadaptowany do potrzeb nauk ekonomicznych w drugiej połowie lat dziewięćdziesiątych ubiegłego wieku. Jego zaletą jest łatwość wykorzystania w modelowaniu i ocenie skuteczności prowadzonych działań o charakterze programów. Nakłada on dodatkowe ograniczenia przyjmując, że nieznane wartości 10
11 parametrów są jednakowe w grupie poddanej oddziaływaniu i grupie kontrolnej. Model efektów oddziaływania traktowany jest jak model zawierający ocenzurowaną zmienną endogeniczną [16]. Zmodyfikowane równanie (7) przybiera formę: y i = X iβ + θd i + ε i (15) gdzie d i jest zmienną wskazującą czy badana jednostka została poddana oddziaływaniu. Jest ona endogeniczna, ponieważ jej wartość uzależniona jest od cech zapisanych w macierzy X. Model może być zapisany z wykorzystaniem następującej postaci strukturalnej y i = X iβ + θd i + ε i d i = Z iγ + ν i 1 gdy d i d i d i = 0 d i < d i Problem nielosowej selekcji obserwacji został sprowadzony do problemu endogenicznej zmiennej zero-jedynkowej. (16) Model endogenizujący efekt oddziaływania posiada jedną zasadniczą różnicę w stosunku do modelu selekcji próby. Inne jest założenie odnoszące się do rozkładu zmiennej zależnej równania zjawiska. W modelu z endogenicznym efektem oddziaływania zakłada się, że znany jest cały rozkład zmiennej zależnej, podczas gdy w modelu selekcji jest on ocenzurowany i dostępny wyłącznie dla wyselekcjonowanej podpróby. Drugie założenie, o jednakowych wartościach nieznanych parametrów dla grupy poddanej oddziaływaniu i pozostającej poza jego wpływem, może w prosty sposób zostać uchylone. W tym celu należy dołączyć do równania zjawiska dodatkowy zestaw zmiennych objaśniających X i, taki że X i = X id i. Wtedy równanie zjawiska zapiszemy jako y i = X iβ + X i β + η i (17) wówczas parametry β mierzą różnice między jednostkami poddanymi, a nie poddanymi oddziaływaniu. Efekt netto oddziaływania jest zdefiniowany jako θ = X i β = X id i β (18) 11
12 Jest to przeciętny efekt oddziaływania programu na jednostki poddane oddziaływaniu, skorygowany za pomocą zmiennej d i o mechanizm selekcji. W rezultacie otrzymywana jest wartość estymatora efektu netto. Parametry modelu będą zidentyfikowane o ile w każdym z równań występuję zmienna, która jest warunkowo niezależna od składnika losowego równania zjawiska [10]. Poważnym ograniczeniem modelu jest założenie o jednorodności mechanizmu selekcji. W praktyce selekcja ma bardzo zróżnicowaną naturę [7]. Jednostki poddane oddziaływaniu programu mogą w różnym stopniu odczuć jego działanie. Analogicznym problemem występującym w modelu efektów oddziaływania, który jest rozszerzeniem modelu selekcji, jest heterogeniczność reakcji na bodziec. Oba zjawiska powodują niezgodność estymatorów, pozostawiając nierozwiązanymi problemy wynikające ze zjawiska selekcji. 5 Metoda funkcji kontrolującej Metoda funkcji kontrolującej jest zastosowaniem sposobu korygowania estymatora z uwagi na występujący nielosowy dobór obserwacji do próby do rozwiązania problemu braku egzogeniczności zmiennych objaśniających. Istotą metody jest ustalenie pewnej formy funkcyjnej. W procesie budowy funkcji kontrolującej wykorzystywane są zarówno wielkości obserwowane X jak również takie, których nie są dostępne dla badaczy i z tego powodu nieobserwowane U. Zakłada się, że można je odseparować: X U = (19) Przez X i oznaczony jest wektor obserwowanych cech badanych jednostek. Dla każdej z nich obserwowany jest jeden z dwóch wyników (Y 0, Y 1 ). Niech g i (x 1,..., x n ) będzie addytywną funkcją swoich argumentów, taką że: i E(g i (X)) = E(X) (20) Czyli funkcja g i ( ) nie zmienia wartości oczekiwanej zmiennej losowej na którą działa. Każdy możliwy do osiągnięcia wynik może być przedstawiony jako funkcja wektora obserwowanych cech X i i czynników nieobserwowanych U i. Dla każdej 12
13 rozpatrywanej w badaniu jednostki obserwowane jest Y 0 = g 0 (X i, U 0 ) Y 1 = g 1 (X i, U 1 ) (21) Założenia (19),(20), oraz (21) definiują równania strukturalne, które są niezależne od czynników nieobserwowanych [8]. Używając notacji zdefiniowanej przez (21) do równania efektu oddziaływania na jednostki poddane działaniu programu można pokazać, że występuje zależność między tym efektem a błędem losowym. E(Y 1 Y 0 X, D = 1) = g 1 (X) g 0 (X) + E(U 1 U 0 X, D = 1) (22) W ten sposób uzyskany element po prawej stronie równania oznaczany jest w literaturze s(x) i nazywany jest obciążeniem związanym z nielosową selekcją, bądź nielosowym doborem obserwacji do próby. Metoda funkcji kontrolującej pozwala na jednoczesne uwzględnienie w modelu służącym do pomiaru oceny programu problemu endogeniczności zmiennych i problemu nielosowej selekcji do próby. Myśl ta po raz pierwszy, chociaż nie wprost, została sformułowana przez Heckmana [5]. Istotą modelu (22) jest fakt, że pozwala on w prosty sposób endogenizować, czyli włączyć do wnętrza modelu, mechanizm selekcji [8]. Dołączając selekcję do całkowitego efektu programu otrzymujemy: E(Y X, D, s(x)) = E(Y 1 p + Y 0 (1 p) X, D, s(x)) = (23) gdzie p jest proporcją jednostek poddanych działaniu programu. = g 0 (X) + p(g 1 (X) g 0 (X)) +p(e(u 1 X, D = 1, s(x))) (24) +(1 p)(e(u 0 X, D = 0, s(x))) Z założeń modelu wynika, że (X, D) (U 0, U 1 ) (X, p) (U 0, U 1 ) (25) ponieważ p jest skalarem, D jest endogeniczne, czyli jest funkcją czynników obserwowanych, a X U =. 13
14 Wykorzystując warunek (25), można zapisać warunkowe wartości oczekiwane składników nieobserwowanych jako funkcje procesu selekcji j {0, 1} E(U j X, D = j, s(x)) = k j (s(x)) (26) Nazywane są one funkcjami kontrolującymi [6]. Funkcje selekcji s(x) mogą być dla uproszczenia traktowane jako funkcje indykatorowe. W tym podejściu zakłada się racjonalność zachowań badanych jednostek. Przypisują one każdemu poziomowi zmiennej wynikowej (Y 0, Y 1 ) oraz każdemu stanowi uczestnictwa w programie pewne poziomy użyteczności. Jednostka staje się uczestnikiem programu, gdy oczekiwana użyteczność z faktu uczestnictwa w programie przekracza poziom graniczny Ū. Przyjmuje się, że poziomem granicznym jest maksymalna wartość funkcji użyteczności jaką może uzyskać jednostka bez konieczności uczestniczenia w programie lub oczekiwana użyteczność z faktu braku uczestnictwa w rozpatrywanym programie. Dodatkowo zakładana jest niezależność między graniczną wartością użyteczności a mechanizmem selekcji. s(x) Ū = (27) Szczegółowe założenia dotyczące rozkładów zmiennych losowych (U j, Ū) determinują formy funkcyjne k j ( ). Zapisując całkowite efekty programów za pomocą notacji (23) przedstawiamy je jako dwa równania selekcji zastosowane do subpopulacji poddanej oddziaływaniu programu i subpopulacji pozostającej poza programem j {0, 1} E(Y j X, D = j, s(x)) = g 0 (X) + k j (s(x)) (28) Jak zostało pokazane, aby stworzyć funkcję kontrolującą nie potrzebujemy dodatkowych zmiennych. Informacja zgromadzona w zbiorze danych jest zazwyczaj wystarczająca. Konieczność posiadania dodatkowych zmiennych zastępowana jest dodatkowym równaniem, które jest określane jako funkcja kontrolująca lub równanie selekcji. Metoda funkcji kontrolującej daje podobne wyniki do metody zmiennych instrumentalnych. Jej zaletą jest łatwość rozszerzenia na większą liczbę czynników 14
15 odpowiadających za proces selekcji. Należy jednak wziąć pod uwagę, że każde nowe równanie zwielokrotnia liczbę parametrów wymagających oszacowania. Ponadto oby otrzymać zgodne estymatory za pomocą metod parametrycznych należy założyć niezależność różnych funkcji kontrolujących [8]. Problemy te są bardziej związane ze sposobami estymacji niż z metodologią prowadzenia badań. Niewątpliwą zaletą funkcji kontrolujących jest fakt, iż nie jest wymagana egzogeniczność czynników kontrolujących. Rozpatrując to zagadnienie w bardziej szczegółowy sposób można zauważyć, że te same czynniki mogą być składnikami równania selekcji i równania modelu. Zostawia to większą swobodą działania badaczom, ponieważ dużo łatwiej jest przekonująco uzasadnić że dany czynnik wpływa na badane zjawisko, niż że jest tego wpływu pozbawiony i występuje zupełnie niezależnie od niego. W prostych modelach zawierających jedną funkcję kontrolującą z reguły nie ma problemu z doborem jej składników. Naturalnymi kandydatami są, np. zmienne które w literaturze ekonomicznej są przedstawiane jako dobre instrumenty w kontekście badanego zjawiska [17]. Jednakże do uwzględnienia bardziej skomplikowanych mechanizmów selekcji potrzebne są założenia a-priori wynikające z teorii ekonomicznej, albo trudne do spełnienia restrykcje dotyczące funkcyjnych. 6 Podsumowanie Metody analizy danych pochodzących z badania obserwacyjnego różnią się od standardowych narzędzi ekonometrycznych. Podstawowe znaczenie dla prawidłowości analizy ma rozróżnienie na zmienne sprawcze (przyczyny) i efekty działań. W sytuacji, gdy stan poddania oddziaływaniu nie zależy od charakterystyk jednostki i zmiennych sprawczych, to naturalny eksperyment posiada cechy kontrolowanego eksperymentu. Sytuacja jest bardziej skomplikowana, gdy stan oddziaływania jest skorelowany ze zmiennymi sprawczymi. Taką sytuację określamy jako oddziaływanie o endogenicznym charakterze. Przedstawiono rozwiązanie problemu selekcji zaproponowane przez Heckmana. Wyjaśniono dlaczego dane pochodzące z badań dotyczących naturalnych ekspe- 15
16 rymentów podlegają nielosowej selekcji. Ukazano sposób wykorzystania modeli uwzględniających nielosowy mechanizm selekcji do analizy danych z badań obserwacyjnych. Ponadto pokazano, że model uwzględniający nielosowy mechanizm doboru obserwacji do próby i model pomiaru efektów oddziaływania o endogenicznym charakterze można przekształcić do jednakowej postaci strukturalnej. W zasadzie te dwa modele, pomimo różnych podstaw teoretycznych, są dwoma wariantami tego samego zagadnienia. Przeprowadzona unifikacja pozwala powiązać fakt uczestnictwa w programie bezpośrednio z teorią użyteczności. Z drugiej strony model nielosowej selekcji może być rozpatrywany jako narzędzie pozwalające na uzyskanie oszacowań nieznanych parametrów modelu efektów oddziaływania w sytuacji, gdy informacja o rozkładzie zmiennej zależnej jest ograniczona. Co prawda uzyskane estymatory nie będą efektywne, ale będą zgodne. 16
17 Bibliografia [1] Amemyia Takeshi (1984) Tobit Models: A Survey, Journal of Econometrics, vol. 24. pp [2] Cochran W. (1965) The Plannig of Observational Studies of Human Populations, Journal of Royal Statistical Society, seria A, vol str [3] Engle R., Hendry D., Richard J-F. (1983) Exogeneity, Econometrica, vol. 51/2. str [4] Granger CW. (1969) Investigating Causal Relationship by Econometric Models and Cross-Spectral Methods, Econometrica, vol. 37/2. str [5] Heckman James J. (1979) Sample Selection Bias as a Specification Error, Econometrica, vol. 47/1. str [6] Heckman James, Robb Richard (1985) Alternative Indetifying Assumptions in Econometric Models of Selection Bias, Advances in Econometrics, vol 5. pp [7] Heckman James J. (1990) Varietes of Selection Bias, American Economic Review, vol. 80/2. pp [8] Heckman James J., LaLonde Robert, Smith Jeffrey (1999) The Economics and Econometrics of Active Labor Market Programs w Ashenfelfer, Orley, Card, David [red] Handook of Labor Economics vol 3a, Elsevier. [9] Lechner Michael (2005) Note on Edogenous Control Variables in Evaluation Studies, Universitat St. Gallen Discussion Paper, nr [10] Lewbel Artur (2005) Engogenous Selection or Treatment Model Estimation Boston College Working Paper [11] Neyman Jerzy (1923) On the Application of Probability Theory to Agricultural Experiments. Essay on Pronciples. Section 9, angielskie tłumaczenie z Roczniki Nauk Rolniczych, tom X, str
18 [12] Rosenbaum Paul (1999) Observational Studies, Springer-Veralg. New York- Berlin-Heidelberg. [13] Rosenbaum Paul, Rubin Donald B. (1983) The Central Role of the Propensity Score in Observational Studies for Causal Effects., Biometrika, vol. 70. str [14] Roy Andrew D. (1951) Some Thoughts on the Distribution of Earninigs Oxford Economic Papers New series, vol. 3/2. str [15] Rubin Donald B. (1973) Matching to Remove Bias in Observational Studies, Biometrics, vol. 29/1. str [16] Vella Francis (1998) Estimating Model with Sample Selection Bias: A Survey, Journal of Human Resources, vol. 33/1. str [17] Vella Francis, Verbeek Marno (1998) Estimating and Interpreting Models with Endogenous Treatment Effect, Journal of Business and Economic Statistics, vol. 17. str
Propensity Score Matching
Zajęcia 2 Plan dzisiejszych zajęć 1 Doświadczenia Idealne doświadczenie Nie-idealne doświadczenia 2 Idealne doświadczenie Nie-idealne doświadczenia Plan idealnego doświadczenia (eksperymentu) Plan doświadczenia
Propensity score matching (PSM)
Propensity score matching (PSM) Jerzy Mycielski Uniwersytet Warszawski Maj 2010 Jerzy Mycielski (Uniwersytet Warszawski) Propensity score matching (PSM) Maj 2010 1 / 18 Badania ewaluacyjne Ocena wpływu
Etapy modelowania ekonometrycznego
Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.
Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Metoda najmniejszych kwadratów
Model ekonometryczny Wykształcenie a zarobki Hipoteza badawcza: Istnieje zależność między poziomem wykształcenia a wysokością zarobków Wykształcenie a zarobki Hipoteza badawcza: Istnieje zależność między
Zadania ze statystyki cz.8. Zadanie 1.
Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.
STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
Zastosowanie schematu analizy difference-in-differences w badaniach politycznych. Adam Gendźwiłł Tomasz Żółtak Uniwersytet Warszawski
Zastosowanie schematu analizy difference-in-differences w badaniach politycznych Adam Gendźwiłł Tomasz Żółtak Uniwersytet Warszawski Potential outcomes framework Indywidualny efekt przyczynowy różnica
Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 12 Mikołaj Czajkowski Wiktor Budziński Dane panelowe Co jeśli mamy do dyspozycji dane panelowe? Kilka obserwacji od tych samych respondentów, w różnych punktach czasu (np. ankieta realizowana
Definicja danych panelowych Typy danych panelowych Modele dla danych panelowych. Dane panelowe. Część 1. Dane panelowe
Część 1 to dane, które jednocześnie posiadają cechy danych przekrojowych i szeregów czasowych to dane, które jednocześnie posiadają cechy danych przekrojowych i szeregów czasowych Czyli obserwujemy te
Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model
Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:
Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności
Wprowadzenie W ostatnich latach metody mikroekonometryczne zdobywają coraz większą popularność i uznanie badaczy. Jest to związane przede wszystkim z rozwojem technik gromadzenia i przetwarzania danych.
Metoda największej wiarogodności
Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm
Modele wielorownaniowe
Część 1. e e jednorównaniowe są znacznym uproszczeniem rzeczywistości gospodarczej e jednorównaniowe są znacznym uproszczeniem rzeczywistości gospodarczej e makroekonomiczne z reguły składają się z większej
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
Propensity Score Matching
Zajęcia 4 Plan na dziś 1 Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych 2 Angrist i Pischke, 2009 Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Mostly Harmless
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Metody Ilościowe w Socjologii
Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Statystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Stanisław Cichocki Natalia Nehrebecka. Wykład 7
Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Natalia Neherbecka. 11 czerwca 2010
Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.
imię, nazwisko, nr indeksu: Ekonometria egzamin 01/02/2019 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.
Analiza niepewności pomiarów
Teoria pomiarów Analiza niepewności pomiarów Zagadnienia statystyki matematycznej Dr hab. inż. Paweł Majda www.pmajda.zut.edu.pl Podstawy statystyki matematycznej Histogram oraz wielobok liczebności zmiennej
Metody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój
1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 14 Mikołaj Czajkowski Wiktor Budziński Symulacje Analogicznie jak w przypadku ciągłej zmiennej zależnej można wykorzystać metody Monte Carlo do analizy różnego rodzaju problemów w modelach
STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Modele zapisane w przestrzeni stanów
Modele zapisane w przestrzeni stanów Modele Przestrzeni Stanów (State Space Models) sa to modele, w których część parametrów jest nieobserwowalna i losowa. Zachowanie wielowymiarowej zmiennej y t zależy
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.
imię, nazwisko, nr indeksu: Ekonometria egzamin 0/0/0. Egzamin trwa 90 minut.. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu. Złamanie
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10
Metoda Monte Carlo Jerzy Mycielski grudzien 2012 Jerzy Mycielski () Metoda Monte Carlo grudzien 2012 1 / 10 Przybliżanie całek Powiedzmy, że mamy do policzenia następującą całkę: b f (x) dx = I a Założmy,
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
5. WNIOSKOWANIE PSYCHOMETRYCZNE
5. WNIOSKOWANIE PSYCHOMETRYCZNE Model klasyczny Gulliksena Wynik otrzymany i prawdziwy Błąd pomiaru Rzetelność pomiaru testem Standardowy błąd pomiaru Błąd estymacji wyniku prawdziwego Teoria Odpowiadania
Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski
Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
6.4 Podstawowe metody statystyczne
156 Wstęp do statystyki matematycznej 6.4 Podstawowe metody statystyczne Spóbujemy teraz w dopuszczalnym uproszczeniu przedstawić istotę analizy statystycznej. W szczególności udzielimy odpowiedzi na postawione
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Kalibracja. W obu przypadkach jeśli mamy dane, to możemy znaleźć równowagę: Konwesatorium z Ekonometrii, IV rok, WNE UW 1
Kalibracja Kalibracja - nazwa pochodzi z nauk ścisłych - kalibrowanie instrumentu oznacza wyznaczanie jego skali (np. kalibrowanie termometru polega na wyznaczeniu 0C i 100C tak by oznaczały punkt zamarzania
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Badania eksperymentalne
Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach
Pobieranie prób i rozkład z próby
Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.
Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 6 Mikołaj Czajkowski Wiktor Budziński Metody symulacyjne Monte Carlo Metoda Monte-Carlo Wykorzystanie mocy obliczeniowej komputerów, aby poznać charakterystyki zmiennych losowych poprzez
Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28
Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych
Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)
MODELE STATYSTYCZNE Punktem wyjścia w rozumowaniu statystycznym jest zmienna losowa (cecha) X i jej obserwacje opisujące wyniki doświadczeń bądź pomiarów. Zbiór wartości zmiennej losowej X (zbiór wartości
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
1.1 Klasyczny Model Regresji Liniowej
1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między
ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW
ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
STATYKA Z UWZGLĘDNIENIEM DUŻYCH SIŁ OSIOWYCH
Część. STATYKA Z UWZGLĘDNIENIEM DUŻYCH SIŁ OSIOWYCH.. STATYKA Z UWZGLĘDNIENIEM DUŻYCH SIŁ OSIOWYCH Rozwiązując układy niewyznaczalne dowolnie obciążone, bardzo często pomijaliśmy wpływ sił normalnych i
Regresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 4 Mikołaj Czajkowski Wiktor Budziński Regresja kwantylowa W standardowej Metodzie Najmniejszych Kwadratów modelujemy warunkową średnią zmiennej objaśnianej: E( yi Xi) = μ ( Xi) Pokazaliśmy,
Prawdopodobieństwo i statystyka
Wykład VIII: Przestrzenie statystyczne. Estymatory 1 grudnia 2014 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji r(x, Z) = 0, 986 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
OGŁOSZENIE O ZAMÓWIENIU nr 1/2013 (POWYŻEJ 14 tys. EURO)
Łódź, dn. 23.12.2013r. OGŁOSZENIE O ZAMÓWIENIU nr 1/2013 (POWYŻEJ 14 tys. EURO) 1. Zamawiający Firma i adres: PL Europa S.A. NIP: 725-195-02-28 Regon: 100381252 2. Tryb udzielenia zamówienia Zgodnie z
weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)
PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada
Stanisław Cichocki Natalia Nehrebecka Katarzyna Rosiak-Lada 1. Sprawy organizacyjne Zasady zaliczenia 2. Czym zajmuje się ekonometria? 3. Formy danych statystycznych 4. Model ekonometryczny 2 1. Sprawy
Analiza współzależności dwóch cech I
Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych
Uogólniona Metoda Momentów
Uogólniona Metoda Momentów Momenty z próby daż a do momentów teoretycznych (Prawo Wielkich Liczb) plim 1 n y i = E (y) n i=1 Klasyczna Metoda Momentów (M M) polega na szacowaniu momentów teoretycznych
WYKŁAD 8 ANALIZA REGRESJI
WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej
Uogolnione modele liniowe
Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,
Zawansowane modele wyborów dyskretnych
Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Stacjonarność Integracja. Integracja. Integracja
Biały szum AR(1) Słaba stacjonarność Szereg czasowy nazywamy słabo (wariancyjnie) stacjonarnym jeżeli: Biały szum AR(1) Słaba stacjonarność Szereg czasowy nazywamy słabo (wariancyjnie) stacjonarnym jeżeli:
Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania
Prognozowanie i Symulacje. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Szeregi czasowe 1 Szeregi czasowe 2 3 Szeregi czasowe Definicja 1 Szereg czasowy jest to proces stochastyczny z czasem dyskretnym
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 2 3 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety i ograniczenia 2. Modele ekonometryczne danych panelowych a) Model efektów
Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka
Wnioskowanie statystyczne Weryfikacja hipotez Statystyka Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 2 Mikołaj Czajkowski Wiktor Budziński Klasyczny Model Regresji Liniowej (KMRL) Postać modelu regresji liniowej: yi = Xiβ + εi Modelujemy liniową zależność y od zmiennych objaśniających