Wykład 5 Teoria eksperymentu Wrocław, 22.03.2017r
Co to jest teoria eksperymentu? eksperyment - badanie jakiegoś zjawiska polegające na celowym wywołaniu tego zjawiska lub jego zmian oraz obserwacji i pomiarach, umożliwiających wnioskowanie o jego własnościach badania doświadczalne - mają na celu pozyskanie informacji o faktach, obiektach, zjawiskach bądź procesach model zjawiska - reprezentacja w postaci użytkowej (istnieją modele matematyczne fizyczne, lingwistyczne) model matematyczny - opis zjawiska za pomocą liczb, zmiennych, zbiorów, funkcji, relacji, itd.
Co to jest teoria eksperymentu? Podstawy teoretyczne badań doświadczalnych obejmuje teoria eksperymentu, obejmująca następujące zagadnienia: planowanie eksperymentów metodykę planowania matematycznego technikę przeprowadzania pomiarów analizę wyników pomiarów Przykładowe cele eksperymentu Identyfikacja zmiennych o największym wpływie na wielkości wyjściowe Identyfikacja zbioru zmiennych, dla których zmienna wyjściowa przyjmuje pożądaną wartość Wyznaczenie zbioru zmiennych, dla których zmienność zmiennej wyjściowej jest mała Wyznaczenie zbioru zmiennych, dla których wpływ zmiennych niekontrolowanych jest najmniejszy
Co to jest eksperyment? Założenia eksperymentu: Replikacja Randomizacja Blokowanie
Analiza wariancji jednoczynnikowa - przypomnienie Obserwujemy model: y ij = µ + τ i + ɛ ij, i = 1, 2,..., a, j = 1, 2,..., n i µ - średnia τ i - efekt i-tego poziomu czynnika ɛ ij N(0, σ 2 ) - błąd losowy Podstawowe założenia: dla każdego poziomu czynnika rozkład zmiennej odpowiedzi jest normalny z tą samą wariancją σ 2 : σ 2 1 = σ 2 2 = = σ 2 a = σ 2 a τ i = 0 i=1
Analiza wariancji jednoczynnikowa - przypomnienie Testujemy hipotezę: lub równoważnie H 0 : µ 1 = µ 2 = = µ a H 1 : µ i µ j dla przynajmniej jednej pary i, j H 0 : τ 1 = τ 2 = = τ a = 0 H 1 : τ i 0 dla przynajmniej jednego i
Analiza wariancji jednoczynnikowa - przypomnienie Sprawdzenie założeń: Testowanie normalności: 1 test Shapiro-Wilka 2 wykres kwantyl-kwantyl Testy jednorodności wariancji dla więcej niż dwóch prób: 1 Test Bartletta 2 Test Hartleya 3 Test Cochrana
Analiza wariancji jednoczynnikowa - przypomnienie Sprawdzenie poprawności modelu: Residua e ij = y ij ŷ ij = y ij ȳ i. służą do wyznaczenia standaryzowanych obserwacji odstających: d ij = e ij MSE Jeżeli ɛ ij N(0, σ 2 ), to: 68% obserwacji d ij powinno mieścić się w przedziale [ 1, 1] 95% obserwacji d ij powinno mieścić się w przedziale [ 2, 2] 100% obserwacji d ij powinno mieścić się w przedziale [ 3, 3]
Analiza wariancji jednoczynnikowa - przypomnienie źródło suma stopnie średni zmienności kwadratów swobody kwadrat F pomiędzy grupami SS A a 1 MS A wewnątrz grup SS E N a MS E F 0 = MS A MS E całkowita SS T N 1 MS T SS T = i j y ij y.. 2 yi. 2 n y.. 2 N N SS A = i SS E = SS T SS A Przy prawdziwości H 0, F 0 = MS A MS E F (a 1, N a)
Analiza wariancji jednoczynnikowa - przypomnienie Estymacja parametrów modelu Estymatory punktowe: ˆµ = ȳ.. Estymatory przedziałowe: µ i y i. t α/2 (N a) ˆτ i = y i. ȳ.. ˆµ i = ˆµ + ˆτ i = y i. µ i µ j y i. y j. t α (N a) 2 MS E n ; y i. + t α/2 (N a) 2MS E n ; y i. y j. + t α 2 MS E n (N a) 2MS E n
Analiza wariancji jednoczynnikowa - przypomnienie Porównania parami: 1 Metoda najmniej znaczących różnic (ang.the Least Significant Diffrence Method, LSD) 2 Wielokrotny test rangowy Duncana 3 Porównywanie z grupą kontrolną - Test Dunnetta
Model bloków losowych (metoda bloków kompletnie zrandomizowanych) Przykład 5.1: Należy zbadać czy 4 różne końcówki dają różne odczyty na maszynie do badania twardości. Operator maszyny uderza końcówką w próbkę metalu i odczytuje głębokość depresji (wbicia końcówki). Eksperymentator decyduje się przeprowadzić po 4 eksperymenty dla każdej końcówki. Otrzymuje 16 wyników jednostkowych. próbka rodzaj końcówki 1 2 3 4 1 9.3 9.4 9.6 10.0 2 9.4 9.3 9.8 9.9 3 9.2 9.4 9.5 9.7 4 9.7 9.6 10.0 10.2
Model bloków losowych Ogólne założenia: 1 Z N jednostek tworzymy równoliczne (bloki) grupy tak aby jednostki możliwie mało różniły się wewnątrz grupy; mogą między grupami 2 a jednostek w bloku 3 losowy przydział do bloków
Model bloków losowych Analiza statystyczna: Zakładamy, że mamy a poziomów i b bloków, po jednej obserwacji w każdym z b bloków na każdym z a poziomów.
Model bloków losowych Analiza statystyczna: Zakładamy, że mamy a poziomów i b bloków, po jednej obserwacji w każdym z b bloków na każdym z a poziomów. Losowy porządek w jakim obserwacje trafiają do komórek w bloku.
Model bloków losowych Analiza statystyczna: Zakładamy, że mamy a poziomów i b bloków, po jednej obserwacji w każdym z b bloków na każdym z a poziomów. Losowy porządek w jakim obserwacje trafiają do komórek w bloku. Model: y ij = µ + τ i + β j + ɛ ij, i = 1, 2,..., a, j = 1, 2,..., b gdzie: τ i - efekt i-tego czynnika β j - efekt j-tego bloku ɛ ij N(0, σ 2 ) iid. Zakładamy, że a i=1 τ i = 0 oraz b i=1 β j = 0
Model bloków losowych Testujemy hipotezę: H 0 : µ 1. = µ 2. = = µ a. H 1 : µ i. µ j. dla przynajmniej jednej pary i, j Ponieważ średnia dla i - tego poziomu µ i = 1 b bj=1 (µ + τ i + β j ) = µ + τ i, stąd równoważny problem testowania hipotez: H 0 : τ 1 = τ 2 = = τ a = 0 H 1 : τ i 0 dla przynajmniej jednego i
Przebieg analizy wariancji: źródło suma stopnie średni zmienności kwadratów swobody kwadrat F y 2 i. poziom czynnika y.. 2 a 1 b N y 2.j bloki y.. 2 b 1 a N błąd SS T SS A SS B (a 1)(b 1) całkowita j y ij 2 y.. 2 N 1 N i SS A a 1 SS B b 1 SS E (a 1)(b 1) MS A MS E MS B MS E
Zmienne SS A χ 2 (a 1), SS σ 2 B χ 2 (a 1) oraz σ 2 SS E χ 2 ((a 1)(b 1)) są niezależne. σ 2 Przy ustalonych poziomach i blokach można pokazać: E(MS A ) = σ 2 + b b i=1 τi 2 a 1 E(MS B ) = σ 2 + b b j=1 β 2 j b 1 E(MS E ) = σ 2
Uwaga! Może nas interesować porównanie średnich w blokach. Jeżeli wymienione średnie nie różnią się znacznie blokowanie może okazać się niekonieczne w kolejnych eksperymentach. Testujemy H 0 : β j = 0. Statystyka testowa F 0 = MS B MS E przy prawdziwości H 0 ma rozkład Fishera - Snedecora F (b 1, (a 1)(b 1)).
Przykład 5.1 - cd Dla uproszczenia obliczeń przekształcamy dane odejmując 9.5 i mnożąc przez 10. Otrzymujemy wówczas 1 2 3 4 y i. 1 2 1 1 5 3 2 1 2 3 4 4 3 1 0 2 2 4 2 1 5 7 15 y.j 4 3 9 18 20 = y..
Przykład 5.1 - cd Obliczamy: 4 4 SS T = yij 2 y.. 2 N i=1 j=1 = 154 202 16 = 129 SS A = 4 i=1 y 2 i. b y.. 2 N SS B = = 9 + 16 + 4 + 225 4 4 j=1 y 2 i. a y.. 2 N = 82.5 SS E = SS T SS A SS B = 8 400 16 = 38.5
Przykład 5.1 - cd źródło suma stopnie średni zmienności kwadratów swobody kwadrat F poziom czynnika 38.5 3 12.83 14.44 bloki 82.5 3 27.50 13.89 błąd 8 9 0.89 całkowita 129 15 F 0 > f 0.95 (3, 9) = 3.86, zatem odrzucamy H 0
Estymacja brakującej danej Uwaga! W przypadku metody losowych bloków nie zawsze wyniki są kompletne. Załóżmy, że brakuje danej y ij. Oznaczmy brakującą daną przez x, tzn. y ij = x Niech y.. = a bj=1 i=1 y ij x - suma wszystkich obserwacji bez brakującej danej y i. - suma obserwacji w wierszu z brakującą daną. y.j - suma obserwacji w kolumnie z brakującą daną.
Estymacja brakującej danej Estymujemy wartość x tak aby miała jak najmniejszy wpływ na błąd, tj. szukamy takiej wartości x, która minimalizuje wyrażenie: SS E = a ( ) bj=1 i=1 y ij ȳ i. Ȳ.j + ȳ.. = == a bj=1 i=1 yij 2 1 ( ai=1 bj=1 ) 2 b y ij 1 bj=1 a ( a i=1 y ij ) 2 + lub + 1 ab ( ai=1 bj=1 y ij ) 2 SS E = x 2 1 b (y i. + x) 2 1 a (y.j + x) 2 + 1 ab (y.. + x) 2 + R, gdzie R - zawiera wszystkie składniki niezależne od x
Estymacja brakującej danej Z warunku dss E dx Wzór Yatesa = 0 otrzymujemy x = ay i. + by.j y.. (a 1)(b 1) Uwaga! Liczba stopni swobody dla błędu zmniejsza się o 1.
Przykład 5.1 - c.d. Załóżmy, że nie zanotowano obserwacji dla 2-giej końcówki i 3-ciej płytki metalu. Będziemy estymować brakującą daną. Obliczamy: y 2. = 1 y.3 = 6 y.. = 17 Zatem: x = 4 1 + 4 6 17 = 1.22 3 3 Dla tak wyestymowanej zmiennej przeprowadzamy analizę wariancji
Przykłąd 5.1 - c.d. źródło suma stopnie średni zmienności kwadratów swobody kwadrat F rodzaj końcówki 39.98 0.45 3 13.17 16.89 płytka 79.53 3 25.51 błąd 6.22 8 0.78 całkowita 125.73 14
Przykłąd 5.1 - c.d. źródło suma stopnie średni zmienności kwadratów swobody kwadrat F rodzaj końcówki 39.98 0.45 3 13.17 16.89 płytka 79.53 3 25.51 błąd 6.22 8 0.78 całkowita 125.73 14 Uwaga! Sumę kwadratów dla poziomów czynnika pomniejsza się o: H = (y.j (a 1)x)2 a(a 1)
Estymacja dwóch brakujących danych 1 Estymujemy pierwszą z brakujących danych korzystając ze wzoru Yatesa 2 Wstawiamy wyestymowaną daną do danych i estymujemy drugą 3 Ponownie traktujemy pierwszą brakującą daną jako nieznaną i estymujemy ją bazując na estymatorze drugiej z danych 4 Estymację przeprowadzamy do czasu aż otrzymamy zbieżność
Przykłąd 5.1 - c.d. Załóżmy, że brakuje obserwacji y 23 oraz y 42. Wówczas: Iteracja 2 - ga Iteracja 3 - cia y.. = 16 y 2. = 1 y.3 x 1 = 42 9 = 1.33 y.. = 17.33 y 4..2 x 1 = 22.67 9 = 2.52 y.. = 18.52 y.. (4) = 17.053 x 1 = 1.053 x 2 = 2.54 y.. (5) = 18.54 y.. (6) = 17.051 x 1 = 1.051 x 2 = 2.55
Polecane literatura: S. Czaja, T. Poskrobko et.al Wyzwania współczesnej ekonomii, 2012, Warszawa D.C. Montgomery Design and Analysis of Experiments, 1991 P.I. Good, Resampling Methods. A Practical Guide to Data Analysis, 2005 E.L. Lehmann,Teoria estymacji punktowej, PWN Warszawa 1991