Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji.
|
|
- Stanisława Kowal
- 8 lat temu
- Przeglądów:
Transkrypt
1 Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji. Anna Gambin 23 listopada 2013 Spis treści 1 Analiza regresji Historia Modele liniowe 2 3 Estymacja najmniejszych kwadratów 4 4 Twierdzenie Gaussa Markowa: optymalność ˆβ Jakość dopasowania Przykład: Model liniowy dla ekspresji genów 8 6 Jednoczynnikowa analiza wariancji (ANOVA) Testy post-hoc Analiza regresji Analiza regresji jest używana modelowania związków zachodzących pomiędzy zmienną losową Y (zwaną często odpowiedzią, zmienną zależną lub zmienna objaśniana), a jedną lub więcej zmiennymi objaśniajacymi (zwanymi też predyktorami): X 1, X 2,... X p. Dla p = 1 mamy do czynienia z prostą regresją, natomiast dla p > 1 mówimy o regresji wielorakiej. 1
2 Najczęściej przyjmujemy, że odpowiedź Y jest zmienną ciągłą, natomiast zmienne X 1, X 2,... X p mogą być zarówno ciągłe jak i dyskretne. Podstawowe cele jakie stawiamy sobie w zadaniu regresji to: przewidywanie przyszłych obserwacji; opisanie wpływu predyktorów na odpowiedź Y ; uzyskanie ogólnego opisu struktury posiadanych danych. Istnieje wiele uogólnień zadania regresji, których nie będziemy rozważać, zainteresowanych odsyłam do szerokiej literatury (również odpowiednich pakietów R-owych: http: //cran.r-project.org/). Wspomniane uogólnienia to: dopuszczenie wielu odpowiedzi Y 1, Y 2,... Y k, przypadek w którym odpowiedź Y jet binarna (regresja logistyczna), oraz regresja Poissona, gdzie zakłada się, że odpowiedź Y przyjmuje wartości całkowite nieujemne. 1.1 Historia Po raz pierwszy zadanie regresji zostało sformułowane w XVIII wieku w kontekście zastosowań wiedzy astronomicznej do nawigacji. Metoda najmniejszych kwadratów (którą przedstawimy poniżej) została zaproponowana przez francuskiego matematyka Adrien-Marie Legendre w roku Książe matematyków Carl Friedrich Gauss utrzymywał, że opracował tę metodę jeszcze wcześniej i w roku 1809 udowodnił, że najmniejsze kwadraty prowadzą do rozwiązania optymalnego przy założeniu, że błędy mają rozkład normalny. 2 Modele liniowe Zacznijmy od rozważenia (zupełnie nie bioinformatycznego) przykładu: niech zmienna objaśniana Y opisuje zużycie paliwa. Jako predyktory (zmienne objaśniające) posłużą nam dane o X 1, czyli wadze pojazdu, X 2 mocy silnika, oraz X 3 liczbie cylindrów. Załóżmy, że dysponujemy n obserwacjami (przypadkami): y 1 x 11 x 12 x 13 y 2 x 21 x 22 x y n x n1 x n2 x n3 Najbardziej ogólna postać modelu opisującego nasze dane mogłaby być następująca: y = f(x 1, X 2, X 3 ) + ɛ 2
3 gdzie f jest pewną nieznaną funkcją, ɛ addytywnym błędem. Zazwyczaj nie posiadamy wystarczającej liczby danych, żeby podjąć próbę estymacji dowolnie dzikiej funkcji f i dlatego przyjmujemy upraszczające założenia co do klasy rozważanych funkcji. Bardzo prostym, a jednocześnie wystarczająco elastycznym założeniem jest, że ma ona postać liniową: Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ɛ Stałe β i nazywamy parametrami, i całe zadanie zbudowania modelu liniowego sprowadza się do ich estymacji z danych. Zauważmy, że założenie liniowości dotyczy parametrów modelu, natomiast zmienne predyktory mogą występować w dowolnej postaci. Np model: Y = β 0 + β 1 X 1 + β 2 log X 2 + β 3 log X 3 + ɛ pozostaje modelem liniowym, natomiast model: Y = β 0 + β 1 X 1 + β 2 X β ɛ nie jest liniowy ze względu na parametry. Wróćmy do naszego samochodowego przykładu (oczywiście, jak bardzo nam zależy możemy zamiast o zużyciu paliwa myśleć o niezbędnej dawce leku, a parametry pojazdu zamienić na dane o stanie pacjenta). Dla i = 1, 2,... n możemy zapisać: y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 + ɛ i W postaci macierzowej równanie regresji wygląda bardziej przejrzyście: y = Xβ + ɛ gdzie y = (y 1,... y n ) T, ɛ = (ɛ 1,... ɛ n ) T, β = (β 0,... β 3 ) T oraz 1 x 11 x 12 x 13 X = 1 x 21 x 22 x x n1 x n2 x n3 Przykład 1 Zapiszmy w notacji macierzowej bardzo prosty model, w którym nie występuja żadne zmienne objaśniajace: y = µ + ɛ, czyli obserwacje opisujemy za pomoca wartości średniej oraz błędu (zmiennej losowej o zerowej wartości oczekiwanej). y 1 1 ɛ 1 1 y 2... = y n... 1 µ + ɛ 2... ɛ n 3
4 Przykład 2 Załóżmy, że badamy odpowiedź na określona terapię w dwóch rozłacznych grupach pacjentów. W pierwszej grupie odpowiedzi oznaczamy y 1,... y m a średnia odpowiedź wynosi µ y, natomiast w drugiej grupie obserwujemy odpowiedzi z 1,... z n ze średnia µ z. Macierz zmiennych objaśniajacych jest w tym przypadku zero-jedynkowa i wskazuje przynależność danego pacjenta do grupy. y y ɛ ( ) ɛ 2 y m z 1 = 1 0 µy µ z... z ɛ n+m z n Estymacja najmniejszych kwadratów Zastanówmy się teraz jak estymować parametry β i. Naszym zadaniem jest możliwie najdokładniejsza reprezentacja danych wymiaru n za pomocą modelu wymiaru p. Oczywiście pozostaną jeszcze losowe fluktuacje, czyli błąd. Geometrycznie możemy wyobrazić sobie optymalny model jako rzut ortogonalny wektora y (leżącego w przestrzeni n-wymiarowej na przestrzeń p wymiarową rozpinaną przez predyktory. Pozostawiając na chwile intuicję geometryczną (która nota bene jest zbieżna z poniższą metodą) załóżmy, że estymując β chcemy minimalizować sumę kwadratów błędów, czyli ɛ T ɛ. Szukamy wektora ˆβ minimalizującego: R = i ɛ 2 i = ɛ T ɛ = (y Xβ) T (y Xβ) Przekształcay powyższe, różniczkujemy ze względu na β i przyrównujemy do zera: R = y T y 2βX T y + β T X T Xβ R β = 0 = XT X ˆβ = X T y Przy założeniu, że macierz X T X jest odwracalna mamy: ˆβ = (X T X) 1 X T y 4
5 Zauważmy, że x ˆβ = X(X T X) 1 X T y jest po prostu rzutem ortogonalnym y na przestrzeń rozpinaną przez X. Macierz H = X(X T X) 1 X T jest macierzą rzutu prostopadłego, zgrabnym obiektem teoretycznych rozważań, jednak zupełnie nieprzydatnym w praktyce ze względu na jej wymiar n x n. Podsumujmy: wartości przewidywane przez model: ŷ = Hy = X ˆβ. residua modelu: ˆɛ = y X ˆβ = y ŷ = (I H)y. suma kwadratów residuów: ˆɛ T ˆɛ = y T (I H)y. Przykład 3 Policzmy teraz ˆβ dla prostego modelu bez zmiennych objaśniajacych: Mamy y = µ + ɛ, czyli X = 1 i β = µ, więc X T X = 1 T 1 = n. Dalej ˆβ = (X T X) 1 X T y = 1 n 1T y = ȳ 4 Twierdzenie Gaussa Markowa: optymalność ˆβ Podamy teraz argumenty za tym, że ˆβ uzyskane metodą najmniejszych kwadratów jest sensownym oszacowaniem dla parametrów modelu liniowego. Po pierwsze jak pokazaliśmy, odpowiada ono rzutowi prostopadłemu na przestrzeń modelu. Po drugie jeśli błędy są niezależne i pochodzą z rozkładu normalnego estymator uzyskany metodą najmniejszych kwadratów jest tożsamy z estymatorem największej wiarygodności, czyli jest takim oszacowaniem parametrów, które maksymalizuje prawdopodobieństwo zaobserwowania danych przy założeniu modelu. Jako trzeci argument przytoczymy twierdzenie Gaussa Markowa, które mówi, że jest to najlepszy (BEST), liniowy (LINEAR), nieobciążony (UNBIASED) Estymator (w angielskim sktócie: BLUE). Do sformułowania twierdzenia potrzebujemy pojęcia funkcji estymowalnej. Powiemy, że liniowa kombinacja parametrów Ψ = c T β jest estymowalna wtedy i tylko wtedy jeśli istnieje liniowa kombinacja a T y, taka że: E(a T y) = c T β Twierdzenie: Załóżmy teraz, że wartość oczekiwana błędu wynosi zero: E(ɛ) = 0 oraz wariancja var(ɛ) = σ 2 I. Dodatkowo załóżmy, że strukturalna część modelu E(y) = Xβ jest skonstruowana poprawnie. Niech Ψ = c T β będzie estymowalną funkcją, wtedy spośród wszystkich nieobciążonych liniowych estymatorów Ψ, estymator najmniejszych kwadratów ˆβ ma najmniejszą wariancję i jest wyznaczony jednoznacznie. 5
6 dowód: Załóżmy, że a T y jest pewnym nieobciążonym estymatorem c T β, czyli E(a T y) = c T β = a T Xβ β Wnioskujemy stąd, że a T X = c T, czyli wektor c leży w przestrzeni rozpiętej przez kolumny X T, a więc również przez X T X. Oznacza to, że istnieje wektor współczynników λ, pozwalający wyrazić c jako kombinację liniową wektorów z bazy: c = X T Xλ c T ˆβ = λ T X T X ˆβ = λ T X T y Pokażemy teraz, że nasz estymator ma najmniejszą wariancję. Weźmy dowolny estymator a T y i policzmy jego wariancję: var(a T y) = var(a T y c T ˆβ + c T ˆβ) = var(a T y λ T X T y + c T ˆβ) = = var(a T y λ T X T y) + var(c T ˆβ) + 2cov(a T y λ T X T y, λ T X T y) Można pokazać, że cov(a T y λ T X T y, λ T X T y) = 0 1, czyli var(a T y) = var(a T y λ T X T y) + var(c T ˆβ) Ponieważ wariancje są nieujemne, widzimy, że var(a T y) > var(c T ˆβ). Pozostaje jeszcze wykazać jednoznaczność estymatora ˆβ. Mamy var(a T y) = var(c T ˆβ) jedynie dla var(a T y λ T X T y) = 0, czyli a T y λ T X T y = 0, co oznacza, że a T y = λ T X T y = c T ˆβ. Powyższe twierdzenie uzasadnia, że estymator najmniejszych kwadratów jest dobrym wyborem, jednak jeśli błędy są skorelowane, albo mają różnicowaną wariancję mogą istnieć lepsze estymatory; podobnie jeśli błędy nie pochodzą z rozkładu normalnego. Policzymy jeszcze wartość oczekiwaną wariancję dla ˆβ. E( ˆβ) = (X T X) 1 X T Xβ = β czyli jak obiecywaliśmy, estymator jest nieobciążony. var( ˆβ) = (X T X) 1 X T σ 2 IX(X T X) 1 = (X T X) 1 σ 2 1 Przypomnijmy, że kowariancja dla dwóch zmiennych losowych X i Y jest zdefiniowana następująco: cov(x, Y ) = E(X Y ) EX EY 6
7 Rysunek 1: Strzałka kropkowana pokazuje rozrzut odpowiedzi y pod warunkiem, że znamy x, natomiast strzałka ciągła odpowiada zmienności odpowiedzi y, jeśli nie znamy zmiennej objaśniającej x. 4.1 Jakość dopasowania Jako miarę jakości dopasowania modelu do danych rozważmy współczynnik zwany procentem wyjaśnionej wariancji: R 2 (ŷi y i ) 2 = 1 (yi ȳ) 2 Współczynnik R 2 przyjmuje wartości od 0 do 1, przy czym wartości bliższe 1 odpowiadają lepszemu dopasowaniu modelu do danych. Intuicja stojąca za jego definicją jest następująca: załóżmy, że chcemy przewidzieć odpowiedź y. Jeśli nie znamy x to najlepszą predykcją będzie ȳ, ale jej rozrzut będzie duży. Jeżeli natomiast znamy x to za najlepszą predykcję uznamy dopasowanie przy pomocy regresji, czyli ŷ. Jeżeli istnieje jakaś systematyczna zależność między x i y to zmienność (rozrzut) takiej predykcji powinna być mniejsza (por. Rys. 1). Współczynnik R 2 wynosi 1 minus stosunek sum kwadratów dla tych obydwu predykcji. Jeżeli dopasowanie regresyjne jest idealne, to ten stosunek wynosi 0, a procent wyjaśnionej wariancji 1. 7
8 5 Przykład: Model liniowy dla ekspresji genów Poprzednio omawialiśmy T-test, który potrafi wskazać geny o zróżnicowanej ekspresji w dwóch grupach pacjentów. Nasuwa się oczywiste uogólnienie, co czynić jeśli interesują nas geny różnicujące trzy populacje. Pomoże nam w tym zadaniu odpowiedni model liniowy i technika zwana analizą wariancji (ANOVA). Jak zwykle poprawność naszego rozwiązania jest warunkowana założeniem, że poziomy ekspresji badanych genów mają rozkład normalny o identycznej wariancji we wszystkich grupach. Niech zmienna Y i oznacza oznacza poziom ekspresji. Rozważamy k grup pacjentów. Zakładamy następujący model liniowy: Y i = k x ij β j + ɛ i gdzie x ij = 1 jeśli pacjent i-ty należy do grupy j-tej i x ij = 0 wpp. W powyższym modelu rozpoznajemy omawiany już model bez predyktorów, dla którego parametry β 1, β 2,... β k odpowiadają wartościom średnim w grupach. Załóżmy, że chcemy przetestować hipotezę zerową mówiąca, że średnia ekspresja danego genu w trzech lub więcej rozważanych grupach jest równa, czyli H 0 : µ 1 = µ 2 = µ 3. Niech pomiary ekspresji badanego genu w pierwszej grupie będą oznaczane jako y 11, y 21,... y n1, w drugiej grupie odpowiednio y 12, y 22,..., y n2, i analogicznie w trzeciej grupie y 13, y 23,..., y n3. Policzmy średnie ekspresje genu w grupach: ȳ i = 1 n n y ji, dla i = 1, 2, 3 Niech ȳ oznacza średnią ekspresje we wszystkich grupach, czyli ȳ = 1 3 (ȳ 1 + ȳ 2 + ȳ 3 ) Policzymy teraz dwie sumy kwadratów odchyleń od średniej: wewnątrz grup (SSW) i pomiędzy grupami (SSB): 3 n SSW = (y ji ȳ i ) 2, 3 n 3 SSB = (ȳ i ȳ) 2 = n (ȳ i ȳ) 2. 8
9 Zdefiniujemy teraz f-statystykę jako: f = jeśli rozważamy k grup statystyka jest równa: f = SSB /(3 1) SSW /(3n 3) SSB /(k 1) SSW /(kn k) Przy założeniu, że dane pochodzą z rozkładu normalnego f-statystyka ma rozkład F k 1,kn k, czyli rozkład F o (k 1, kn k) stopniach swobody. Możemy teraz odrzucić hipotezę zerową jeżeli P (F k 1,kn k > f) < α. Intuicyjnie przy założeniu hipotezy zerowej (jeśli średnie w grupach są równe) to wartość statystyki SSB powinna być mała, podobnie jak wartość f- statystyki, co spowoduje przyjęcie H 0. 6 Jednoczynnikowa analiza wariancji (ANOVA) Analiza wariancji (w skrócie ANOVA) jest bardzo ważną techniką, której zastosowanie widzieliśmy w ostatnim przykładzie. Używana jest w wielu zagadnieniach, w bioinformatyce służy najczęściej porównywaniu średnich w wielu grupach, ale nie tylko. Analiza wariancji została stworzona w latach dwudziestych ubiegłego wieku przez Ronalda Fishera. Załóżmy, że dysponujemy modelem liniowym dla zbioru obserwacji. Przyjęło się w kontekście analizy wariancji nazywać zmienne objaśniające, czyli predyktory czynnikami, natomiast parametry będziemy nazywać efektami. Naszym celem jest wyodrębnić w całkowitej wariancji odpowiedzi Y, składniki pochodzące od poszczególnych czynników, oraz wariancję, za którą odpowiedzialny jest błąd. Oznacza to, że wariancja w danych może mieć zarówno przyczyny identyfikowalne (wtedy można próbować ja zmniejszyć, bo mamy na nią wpływ) oraz przyczyny pozostające poza naszą kontrolą. Analiza wariancji dostarcza informacji potrzebnych do wnioskowania na temat średnich w grupach: jeśli średnie w grupach się znacząco różnią możemy odrzucić hipotezę zerową zakładających ich równość, o ile wariancja w każdej próbie jest odpowiednio mała w odniesieniu do całkowitej wariancji. Sytuacja, w której wariancja w grupach jest duża w porównaniu z całkowitą wariancją nie pozwala nam na odrzucenie hipotezy zerowej. Podstawowe założenia pozwalające stosować F-test w powyższym przykładzie i ogólnie w analizie wariancji to: wszystkie obserwacje są niezależne, 9
10 pochodzą z populacji o rozkładach normalnych, rozważane efekty są addytywne. Ze względu na wymóg normalności rozkładów w badanych grupach możemy zaliczyć technikę ANOVA do testów parametrycznych. Sformułujemy teraz w pełnej ogólności metodę analizy wariancji dla jednego czynnika (predyktora). Rozważmy N obserwacji Y ij gdzie i = 1, 2... k oraz j = 1, 2... n i. Zmienna (właściwie próba) losowa Y jest pogrupowana w k klas o licznościach n 1, n 2,... n k, N = k n i. Możemy w kontekscie medycyny molekularnej myśleć o obserwacjach ekspresji genu w różnych tkankach. Oznaczmy: Ȳ i. = n i T i. = G = ni Y ij n i Y ij k T i = Często prezentujemy dane do analizy w postaci tabeli: Y ij grupa obserwacje średnie sumy 1 Y 11, Y 12,..., Y 1n1 Ȳ 1 T 1 2 Y 21, Y 22,..., Y 2n2 Ȳ 2 T k Y k1, Y k2,..., Y knk Ȳ k T k G Jeżeli badane klasy są równoliczne, czyli zachodzi n 1 = n 2 =... = n k, to mamy doczynienia z przypadkiem zrównoważnonym. Ponownie rozważmy model liniowy (i = 1, 2,..., k, j = 1, 2,..., n i ): Y ij = µ + α i + ɛ ij gdzie µ nazywane ogólnym efektem średnim wynosi: µ = k n iµ i N 10
11 natomiast µ i nazywamy efektem i-tej klasy (grupy). Zakładamy dodatkowo, że błąd ɛ ij ma rozkład normalny o średniej zero i ustalonej (niezależnej od klasy) wariancji σ 2 ɛ. Przyjmijmy, że chcemy przetestować hipotezę mówiącą, że średni efekt dla wszystkich tkanek jest taki sam, czyli mamy dwie równoważne hipotezy zerowe: H 0 : µ 1 = µ 2 =... = µ k = µ (1) H 0 : α 1 = α 2 =... = α k = 0 (2) Aby znaleźć µ i α i stosujemy metodę najmniejszych kwadratów: E = ɛ ij = (Y ij µ α i ) 2 Liczymy odpowiednie pochodne cząstkowe i przyrównujemy do zera: E µ = 0; E α i = 0 1 i k i otrzymujemy ˆµ = k ni Y ij k ni 1 = Ȳ.. oraz ˆα i = Ȳi. ˆµ Policzmy sumę kwadratów odchyleń od wartości średnich, czyli wartość TSS (Total Sum of Squares): TSS = (Y ij Ȳ..) 2 = (Y ij Ȳi. + Ȳi. Ȳ..) 2 = = (Y ij Ȳi.) 2 + Zauważmy, że czyli podsumowując: k k n i (Ȳi. Ȳ..) 2 + 2[ n i (Ȳi. Ȳ..) n i (Y ij Ȳi.) = 0 (Y ij Ȳi.)] (Y ij Ȳ..) 2 = (Y ij Ȳi.) k n i (Ȳi. Ȳ..) 2
12 Składnik k ni (Y ij Ȳi.) 2 nazwiemy SSE jako sumę kwadratów błędów (Sum of Squares of Errors), a składnik k n i(ȳi. Ȳ..) 2 określimy jako SST, czyli Sum of Squares due to Treatment. Używając wprowadzonych oznaczeń nasza zależność jest następująca: TSS = SSE + SST Zauważmy, że licząc statystykę TSS wykorzystujemy N zmiennych przy dodatkowym ograniczeniu: (Y ij Ȳ..) = 0 Wnioskujemy stąd, że ma ona (N 1) stopni swobody. Podobnie dla SST mamy (k 1) stopni swobody, gdyż dysponujemy k obserwacjami i dodatkowym warunkiem: k n i (Ȳi. Ȳ..) = 0 Statystyka SST ma (N k) stopni swobody, gdyż jest liczona z użyciem N obserwacji podlegających k ograniczeniom: n i (Y ij Ȳi.) = 0 i = 1, 2,... k W celu testowania hipotez zerowych (1) i (2) użyjemy F-testu, który bada czy wariancje w dwóch grupach są równe. Jako średnią sumę kwadratów przyjmiemy odpowiednią sumę kwadratów podzieloną przez liczbę stopni swobody, czyli MST = SST k 1 MSE = SSE N k gdzie MST jest skrótem od Mean Sum of Squares due to Treatment, a MSE oznacza Mean Sum of Squares. Dwie wprowadzone wielkości szacują wariancję w grupach i ogólną wariancję w danych, a ich iloraz ma rozkład F o k 1 i N k stopniach swobody: F = MST MSE F k 1,N k 12
13 6.1 Testy post-hoc Zauważmy, że test ANOVA pozwala jedynie odrzucić hipotezę zerową o równości średnich w grupach. Nie wskazuje jednak, które średnie znacząco różnią się między sobą. Dla znalezienia takich grup stosuje się testy typu post-hoc. Do takich testów należą m.in.: test HSD Tukeya (HSD - Honestly Significant Difference); test Studenta-Newmana-Keulsa; test LSD Fishera (LSD- Least Significant Difference). Literatura [1] Julian J. Faraway Practical Regression and Anova using R, [2] K. Seefeld, E. Linder, Statistics using R with biological examples, [3] W.P. Krijnen Applied statistics for bioinformatics using R, [4] S.K. Mathur, Statistical Bioinformatics with R, Elsevier Academic Press, [5] W. J. Ewens, G. R. Grant, Statistical Methods in Bioinformatics Springer-Verlag,
Statystyczna analiza danych (molekularnych) modele liniowe
Statystyczna analiza danych (molekularnych) modele liniowe Anna Gambin 14 kwietnia 2012 Spis treści 1 Analiza regresji 1 1.1 Historia..................................... 2 2 Modele liniowe 2 3 Estymacja
Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA
Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Anna Gambin 19 maja 2013 Spis treści 1 Przykład: Model liniowy dla ekspresji genów 1 2 Jednoczynnikowa analiza wariancji 3 2.1 Testy
Elementy statystyki STA - Wykład 5
STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 ANOVA 2 Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie
Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Statystyczna analiza danych
Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy
Statystyczna analiza danych 1
Statystyczna analiza danych 1 Regresja liniowa 1 Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski Ewa Szczurek Regresja liniowa 1 1 / 41 Dane: wpływ reklam produktu na sprzedaż
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Testy post-hoc. Wrocław, 6 czerwca 2016
Testy post-hoc Wrocław, 6 czerwca 2016 Testy post-hoc 1 metoda LSD 2 metoda Duncana 3 metoda Dunneta 4 metoda kontrastów 5 matoda Newman-Keuls 6 metoda Tukeya Metoda LSD Metoda Least Significant Difference
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Stosowana Analiza Regresji
prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Statystyczna analiza danych (molekularnych) estymacja bayesowska i MLE
Statystyczna analiza danych (molekularnych) estymacja bayesowska i MLE Anna Gambin 0 kwietnia 01 Spis treści 1 Estymacja bayesowska 1 Paradoks więźnia.1 Rozkład a priori.................................
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Natalia Neherbecka. 11 czerwca 2010
Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Analiza zależności cech ilościowych regresja liniowa (Wykład 13)
Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny
Wykład 5 Teoria eksperymentu
Wykład 5 Teoria eksperymentu Wrocław, 22.03.2017r Co to jest teoria eksperymentu? eksperyment - badanie jakiegoś zjawiska polegające na celowym wywołaniu tego zjawiska lub jego zmian oraz obserwacji i
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki
WYKŁAD 6 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Własności Wariancji Przypomnijmy, że VarX = E(X EX) 2 = EX 2 (EX) 2. Własności
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Analiza wariancji i kowariancji
Analiza wariancji i kowariancji Historia Analiza wariancji jest metodą zaproponowaną przez Ronalda A. Fishera. Po zakończeniu pierwszej wojny światowej był on pracownikiem laboratorium statystycznego w
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y
Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda
Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),
Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer
1.1 Klasyczny Model Regresji Liniowej
1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Metody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe
Zjazd 7. SGGW, dn. 28.11.10 r. Matematyka i statystyka matematyczna Tematy 1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe nna Rajfura 1 Zagadnienia Przykład porównania wielu obiektów w
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2
STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna
Metody Ekonometryczne
Metody Ekonometryczne Goodness of fit i wprowadzenie do wnioskowania statystycznego Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Metody Ekonometyczne Wykład 2 Goodness of fit i wprowadzenie do wnioskowania
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Prawdopodobieństwo i statystyka r.
Prawdopodobieństwo i statystyka 9.06.999 r. Zadanie. Rzucamy pięcioma kośćmi do gry. Następnie rzucamy ponownie tymi kośćmi, na których nie wypadły szóstki. W trzeciej rundzie rzucamy tymi kośćmi, na których
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n
Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu iowym, scenariusz p bliskie lub większe od n Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji: 1 Motywacja;
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 3 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.hedonic.dta przygotuj model oszacowujący wartość kosztów zewnętrznych rolnictwa 1. Przeprowadź regresję objaśniającą
Analiza wariancji - ANOVA
Analiza wariancji - ANOVA Analizę wariancji, często określaną skrótem ANOVA (Analysis of Variance), zawdzięczamy angielskiemu biologowi Ronaldowi A. Fisherowi, który opracował ją w 1925 roku dla rozwiązywania
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Stanisław Cichocki. Natalia Nehrebecka. Wykład 4
Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Agata Boratyńska Statystyka aktuarialna... 1
Agata Boratyńska Statystyka aktuarialna... 1 ZADANIA NA ĆWICZENIA Z TEORII WIAROGODNOŚCI Zad. 1. Niech X 1, X 2,..., X n będą niezależnymi zmiennymi losowymi z rozkładu wykładniczego o wartości oczekiwanej
Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war
Wykład 5 Estymatory nieobciążone z jednostajnie minimalną wariancją Wrocław, 25 października 2017r Statystyki próbkowe - Przypomnienie Niech X = (X 1, X 2,... X n ) będzie n elementowym wektorem losowym.
Własności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
Stanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Stanisław Cichocki Natalia Nehrebecka. Wykład 7
Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).
Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano
Estymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
Analiza wariancji. dr Janusz Górczyński
Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.
Hipotezy proste Zadanie 1. Niech X ma funkcję gęstości f a (x) = (1 + a)x a, dla 0 < x < 1, Testujemy H 0 : a = 1 przeciwko H 1 : a = 2. Dysponujemy pojedynczą obserwacją X. Wyznaczyć obszar krytyczny
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34
Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.
Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8
Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy
MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 3 1 / 8 ZADANIE z rachunku
Rozkłady statystyk z próby
Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010
STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego
SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania
SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru
Przykład 1. (A. Łomnicki)
Plan wykładu: 1. Wariancje wewnątrz grup i między grupami do czego prowadzi ich ocena 2. Rozkład F 3. Analiza wariancji jako metoda badań założenia, etapy postępowania 4. Dwie klasyfikacje a dwa modele
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 4 1 / 23 ZAGADNIENIE ESTYMACJI Zagadnienie
Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25
Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane
1.9 Czasowy wymiar danych
1.9 Czasowy wymiar danych Do tej pory rozpatrywaliśmy jedynie modele tworzone na podstawie danych empirycznych pochodzących z prób przekrojowych. Teraz zajmiemy się zagadnieniem budowy modeli regresji,
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Testowanie hipotez statystycznych
round Testowanie hipotez statystycznych Wyk lad 9 Natalia Nehrebecka Stanis law Cichocki 13 grudnia 2014 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie
Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi
Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski
Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:
WYKŁAD 8 ANALIZA REGRESJI
WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej
Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne
Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 4 Mikołaj Czajkowski Wiktor Budziński Regresja kwantylowa W standardowej Metodzie Najmniejszych Kwadratów modelujemy warunkową średnią zmiennej objaśnianej: E( yi Xi) = μ ( Xi) Pokazaliśmy,
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego