Propensity Score Matching

Podobne dokumenty
Wykład 2: Tworzenie danych

Zastosowanie schematu analizy difference-in-differences w badaniach politycznych. Adam Gendźwiłł Tomasz Żółtak Uniwersytet Warszawski

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

STATYSTYKA MATEMATYCZNA

METODY STATYSTYCZNE W BIOLOGII

Matematyka i statystyka matematyczna dla rolników w SGGW

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Prawdopodobieństwo i statystyka r.

Komputerowa analiza danych doświadczalnych

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Prawdopodobieństwo i statystyka r.

Ewaluacja w polityce społecznej

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Metody probabilistyczne

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

PDF created with FinePrint pdffactory Pro trial version

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Testowanie hipotez statystycznych

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Ważne rozkłady i twierdzenia c.d.

Testowanie hipotez statystycznych.

METODY STATYSTYCZNE W BIOLOGII

Wnioskowanie statystyczne. Statystyka w 5

METODY STATYSTYCZNE W BIOLOGII

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Metody probabilistyczne

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Prawdopodobieństwo i statystyka

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych.

Monte Carlo, bootstrap, jacknife

Wykład 3 Hipotezy statystyczne

Prawdopodobieństwo i rozkład normalny cd.

Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.

Statystyka w pracy badawczej nauczyciela

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

12DRAP - parametry rozkładów wielowymiarowych

Spis treści 3 SPIS TREŚCI

Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Rozkłady prawdopodobieństwa zmiennych losowych

Sterowanie wielkością zamówienia w Excelu - cz. 3

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Komputerowa Analiza Danych Doświadczalnych

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

LABORATORIUM Z FIZYKI

Rozkłady statystyk z próby

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Statystyka i eksploracja danych

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Statystyka Opisowa z Demografią oraz Biostatystyka. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

Pobieranie prób i rozkład z próby

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Ustalanie mocy testu i optymalnej wielkości próby

Pracownia Astronomiczna. Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu

Pomiar wpływu I: Jak mierzyć wpływ? Wstęp do projektowania ewaluacji

WYKŁAD 5 TEORIA ESTYMACJI II

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

METODOLOGIA I METODYKA NAUK PRZYRODNICZYCH. Paweł Szymański

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Wykład 9 Wnioskowanie o średnich

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

INFORMATYKA W CHEMII Dr Piotr Szczepański

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Badania eksperymentalne

Kolokwium ze statystyki matematycznej

Estymacja punktowa i przedziałowa

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Copyright by Wydawnictwo Naukowe Scholar, Warszawa 2000, 2008

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Statystyka Matematyczna Anna Janicka

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Statystyczne sterowanie procesem

Metody probabilistyczne

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

Projektowanie eksperymentu część 2

Transkrypt:

Zajęcia 2

Plan dzisiejszych zajęć 1 Doświadczenia Idealne doświadczenie Nie-idealne doświadczenia 2

Idealne doświadczenie Nie-idealne doświadczenia Plan idealnego doświadczenia (eksperymentu) Plan doświadczenia powinien pozwalać na ewidentne rozróżnienie pomiędzy różnymi hipotezami Doświadczenia powinny być możliwe do powtórzenia (replikowalność) Doświadczenia powinny być dobrze kontrolowane Wynik doświadczenia powinien być zmierzony dokładnie i precyzyjnie. Dokładność oznacza, że średni wynik eksperymentu powinien być nieobciążony, precyzja, że metoda pomiaru pozwala na uchwycenie różnic między grupami poddanymi różnym oddziaływaniom (ang. treatments) jeżeli one występują.

Idealne doświadczenie Nie-idealne doświadczenia Znaczenie ilościowe idealnego eksperymentu Interwencje (oddziaływania) muszą być dobrze zdefiniowane oraz niezależne (nie bierzemy pod uwagę oddziaływania ze zmienną dawką, dose treatments) Wynik doświadczenia powinien być ilościowy Obiekty/ przedmioty o identycznych zestawach cech, które mogą mieć wpływ na wynik doświadczenia powinny być przydzielone do różnych grup Nie występuje efekt spill-over. Oznacza to, na przykład, że wynik poddania oddziaływaniu nie powinien zależeć od liczby jednostek/obietków poddanych temu oddziaływaniu.

Randomizacja Doświadczenia Idealne doświadczenie Nie-idealne doświadczenia Randomizacja Randomizacja jest procesem czynienia losowym. W doświadczeniach (eksperymentach) randomizacja jest procesem przypisywania jednostek do różnych oddziaływań. Randomizacja jest jednym z zabiegów metodologicznych stosowanych w celu zniwelowania wpływu niekontrolowanych zmiennych na wyniki eksperymentu W praktyce, zazwyczaj rozpatrywane są dwie grupy poddane różnym oddziaływaniom Grupa doświadczalna, którą badacze są bardziej zainteresowani jest nazywana grupą poddaną oddziaływaniu (ang. treatment group) a druga grupą kontrolną (ang. control group)

Idealne doświadczenie Nie-idealne doświadczenia Randomizowane kontrolowane badania kliniczne Randomizowane kontrolowane badania kliniczne (ang. Randomised Control Trials) to rodzaj ilościowych, porównawczych kontrolowanych eksperymentów (często medycznych), w których rozmiar efektu oddziaływania może być ustalony z mniejszym obciążeniem niż w badaniach obserwacyjnych Randomizacja zapewnia, że średnio pozostałe czynniki są równe pomiędzy grupami, a zatem różnice w wyniku mogą być przypisane do interwencji (oddziaływania) Randomizacja usuwa obciążenie związane z selekcją i pozwala na wykorzystanie klasycznych metod wnioskowania statystycznego

Randomizowane eksperymenty Idealne doświadczenie Nie-idealne doświadczenia Eksperymenty, w których jednostki są w sposób losowy przydzielone do grup poddanych różnym oddziaływaniom (ang. treatment groups) Eliminują obciążenie związane z selekcją, ale niekoniecznie są kontrolowane Brak kontroli oznacza, że inne czynniki które mogą wpływać na wynik eksperymentu niekoniecznie są równe pomiędzy grupami

Inne typy eksperymentów Idealne doświadczenie Nie-idealne doświadczenia Naturalne eksperymenty są sytuacjami, kiedy po interwencji jednorodna grupa sprzed interwencji jest podzielona na część poddaną interwencji i nie poddaną interwencji. Podział odbywa się w sposób samoczynny bez interwencji eksperymentatora. Doświadczenia polowe (ang. field experiments) są eksperymentami obserwowanymi w naturalnym środowisku. Zaletą jest to, że jednostki znajdują się w swoim naturalnym środowisku, ale trudne jest kontrolowanie tych eksperymentów, szczególnie oddzielne grup poddanych różnym oddziaływaniom

Neyman (1923) Doświadczenia On the Application of Probability Theory to Agricultural Experiments. Essay on Principles. Section 9. Jerzy Splawa-Neyman, D. M. Dąbrowska, T. S. Speed Statistical Science vol. 5, No 4. pp. 465-472.

Neyman (1923) Doświadczenia Neyman zaproponował model statystyczny dla porównania plonu różnych odmian wysianych na pewnej liczbie działek na polu W artykule zdefiniowane jest pojęcie prawdziwej wartości, we współczesnej literaturze naukowej jest ono dyskutowane jako wielkość kontrfaktyczna (ang. counterfactual) Neyman wyprowadził wzór na wariancję różnicy średnich plonów dwóch odmian

Plan eksperymentu (1) Rozważmy pole podzielone na m identycznych działek Niech U 1, U 2,... U m będą prawdziwymi plonami wybranej odmiany na każdej z tych działek Jeżeli wszystkie wartości U i są sobie równe, każda z nich może być nazwana przeciętnym plonem z pola. W przeciwnym przypadku za przeciętny plon z pola można uważać średnią arytmetyczną m k=1 y = U i m Dokładnie zmierzony plon z działki i będzie traktowany jako oszacowanie U i Obserwowane różnie pomiędzy plonami z różnych działek powinny zostać przypisane różnicom w warunkach glebowych

Plan eksperymentu (2). Porównanie odmian Niech v będzie liczbą odmian rośliny wysianej na każdej działce Plon odmiany i z kolejnych działek oznaczamy U i1, U i2,... U im Powyższy model jest równoważny modelowi urnowemu, w którym i-ta urna zawiera m kul, z numerami oznaczającymi nieznany potencjalny plon Oszacowaniem plonu i-tej odmiany na k-tej działce pola jest U ik Najlepszym oszacowaniem plonu i-tej odmiany na polu jest y i = m k=1 U ik m

Ważna analogia Doświadczenia Cel doświadczenia polowego, którym jest porównanie v odmian może być traktowany jako równoważny do problemu porównania liczb y 1, y 2,... y v lub ich oszacowań poprzez losowanie z urn Najprostszą metodą oszacowania y i jest losowanie κ kul z i-tej urny ze zwracaniem W ten sposób można uzyskać κ niezależnych wyników doświadczenia Średnia tych wyników na mocy prawa wielkich liczb będzie oszacowaniem wartości oczekiwanej doświadczenia Jedynym problemem z tym modelem jest fakt, iż w praktyce losowanie odbywa się bez zwracania.

Częściowe wnioski Plon z różnych działek może być traktowany jako niezależny pomiar jednej wartości - prawdziwego plonu (kontrfaktycznego plonu w dzisiejszej terminologii) z odmiany na polu Jest to podejście metodologicznie usprawiedliwione, ponieważ każda odmiana została wysiana na dużej liczbie identycznych działek

Gdy liczba pomiarów jest niepomijalna (1) Gdy proporcja pomiarów κ do liczby działek m jest relatywnie duża doświadczeń nie można traktować jako niezależnych Liczba pomiarów nie ma wpływu na oszacowanie średniej wartości plonu Niech σu 2 będzie wariancją pojedynczego pomiaru Wariancja doświadczenia wynosi m k=1 (U k y) 2 var = m κ κ(m 1) m = m κ κ(m 1) σ2 U Wraz z rosnącą liczbą pomiarów (kul) κ, wariancja znika 1 κ/m lim var = lim κ κ κ(1 1/m) = 0 Zatem średnia wartość wielu doświadczeń może być traktowana jako E(y) (wartość oczekiwana prawdziwego wyniku)

Gdy liczba pomiarów jest niepomijalna (2) Oszacowanie wariancji jest dane przez var = m κ κ(m 1) σ2 U Ponownie, gdy wartość κ (liczba pomiarów, kul) wzrasta, wariancja zanika Jednakże, gdy celem jest obliczenie różnicy w plonach dwóch odmian problem staje się bardziej skomplikowany

Różnica w plonach dwóch odmian Niech x i będzie średnią wartością κ pomiarów odnoszących się do odmiany i Niech x j będzie średnią wartością κ pomiarów odnoszących się do odmiany j Jest oczywiste, że E(x i x j ) = y i y j

Wariancja różnicy w plonach E(x i x j (y i y j )) 2 E(x i y i ) 2 + E(x j y j )) 2 2E(x i y i (x j y j )) σi 2 + σj 2 2[Ex ix j y i y j ] Ostatni wyraz powyższego równania jest równoważny do [Ex i x j y i y j ] = 1 m 1 rσ iσ j gdzie r jest wartością współczynnika korelacji pomiędzy plonami dwóch odmian na tej samej działce Zatem, w przypadku niepomijalnej liczby pomiarów wariancja jest dużo niższa niż ta obliczona ze standardowych wzorów.