Metoda największej wiarygodności

Podobne dokumenty
Elementy statystyki wielowymiarowej

Ważne rozkłady i twierdzenia c.d.

Metoda największej wiarygodności

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Weryfikacja hipotez statystycznych

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Komputerowa analiza danych doświadczalnych

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Komputerowa Analiza Danych Doświadczalnych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Estymacja parametrów, przedziały ufności etc

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Wnioskowanie statystyczne. Statystyka w 5

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozkłady wielu zmiennych

Komputerowa Analiza Danych Doświadczalnych

Estymacja parametrów, przedziały ufności etc

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Prawdopodobieństwo i statystyka r.

Rozkłady statystyk z próby

PDF created with FinePrint pdffactory Pro trial version

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Metody systemowe i decyzyjne w informatyce

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Prawdopodobieństwo i statystyka r.

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

1 Podstawy rachunku prawdopodobieństwa

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Metody systemowe i decyzyjne w informatyce

Zmienne zależne i niezależne

Komputerowa Analiza Danych Doświadczalnych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Matematyka ubezpieczeń majątkowych r.

Wykład 3 Jednowymiarowe zmienne losowe

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Komputerowa analiza danych doświadczalnych

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Statystyka matematyczna dla leśników

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

KORELACJE I REGRESJA LINIOWA

Testowanie hipotez statystycznych.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Metody Statystyczne. Metody Statystyczne.

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Centralne twierdzenie graniczne

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Rachunek prawdopodobieństwa i statystyka

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Analiza składowych głównych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Podstawowe modele probabilistyczne

Metody systemowe i decyzyjne w informatyce

WYKŁAD 8 ANALIZA REGRESJI

Biostatystyka, # 3 /Weterynaria I/

Ważne rozkłady i twierdzenia

Komputerowa analiza danych doświadczalnych. Wykład dr inż. Łukasz Graczykowski

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Analiza składowych głównych. Wprowadzenie

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Stosowana Analiza Regresji

Rozkłady statystyk z próby. Statystyka

Rozkład normalny, niepewność standardowa typu A

Wprowadzenie do analizy korelacji i regresji

Testowanie hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

KADD Minimalizacja funkcji

Spis treści 3 SPIS TREŚCI

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Własności statystyczne regresji liniowej. Wykład 4

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Analiza kanoniczna w pigułce

METODY STATYSTYCZNE W BIOLOGII

Komputerowa analiza danych doświadczalnych

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Lista 6. Kamil Matuszewski 13 kwietnia D n =

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Transkrypt:

Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany rozkład prawdopodobieństwa. Na podstawie tegoż rozkładu możemy z kolei określić a posteriori prawdopodobieństwo próby x i. Logicznym wydaje się postulat, aby parametr(y) λ dobierać tak, aby zmaksymalizować prawdopodobieństwo a posteriori prób, z których je wyznaczamy. Funkcją wiarygodności nazywać możemy iloczyn prawdopodobieństwa a posteriori dla N dostępnych prób N L = f(x i, λ); l = ln(l) = ln f(x i, λ) (.) Szukamy jej maksimum, czyli (zwykle) zera pochodnej. Przykład Wyznaczanie stałej fizycznej na podstawie N różnych eksperymentów (o różnej dokładności). Niech błędy podlegają rozkładowi Gaussa. Estymowany parametr λ to wartość oczekiwana stałej. Prawdopdobieństwo a posteriori wyniku x i eksperymentu o danej wariancji σ i Funkcja wiarygodności f(x i, λ) = (x i λ) σ e i (.) πσi N L = f(x i, λ) = N e πσi (x i λ) σ i (.3) a jej logarytm (x i λ) l = ln( πσ j ) (.4) σ i Maksimum przewidujemy zwykle w zerze pochodnej δl N δλ = x i λ σi = x i σ i = λ σ i λ NW = x i σi σi (.5) c 999..3 P.J. Durka

ROZDZIAŁ. METODA NAJWIĘKSZEJ WIARYGODNOŚCI. Regresja liniowa Pary pomiarów (x i, y i ). Dla każdego x i, y i traktujemy jak zmienną losową z rozkładu normalnego o wartości średniej a + b x i i wariancji σi. Prawdopodobieństwo a posteriori otrzymania N wyników y i dla określonych x i przy założeniu wartości a i b. f(y x, a, b) = N e πσ i (y i a bx i ) σ i = N e (π) n σ i (y i a bx i ) σ i (.6) logarytmiczna funkcja wiarygodności: l = N N ln π + ln( ) (y i a bx i ) σ i σ i (.7) σ i zwykle nie znamy, możemy przyjąć iσ i = σ. Pozostaje szukanie minimum sumy S = N (y i a bx i ), w zerze pochodnej po parametrach a i b: S N a = (y i a bx i ), S N b = x i (y i a bx i ),... (.8) ( N ) D = N x i x i (.9) a = y i x i N x i x i y i N N, b = D ( x i y i ( ) i) y i x D (.) lub: b = (x i x)(y i y), a = y bx (.) (x i x) c 999..3 P.J. Durka

.. REGRESJA LINIOWA 3.. Interpretacja współczynnika korelacji Rozważmy wariancję zmiennej y z poprzedniego rozdziału. Niech y p i = a + bx i (y i y) = N (y i y p i + yp i y) = N (y i y p i ) + N (y p i y) + N (y i y p i )(yp i y) Całkowitą wariancię zmiennej y podzieliliśmy na dwa człony: wariancję estymaty y p i średniej y i wariancję obserwowanych y i wokół estymaty y p i (trzeci człon znika). Współczynnik korelacji możemy estymować jako wokół wartości ρ = ( ) (x i x)(y i y) (.) (x i x) N (y i y) Rozważmy czyli (y p i N y) = b (x i x) = ( (x i x)(y i y) = (x i x) ρ = ) ( (x i x)(y i y) ( N ) (x i x) ) (x i x) = (.3) (y i y) = ρ (y i y) (.4) (y i y) (y p i y) (.5) (y i y) c 999..3 P.J. Durka

4 ROZDZIAŁ. METODA NAJWIĘKSZEJ WIARYGODNOŚCI c 999..3 P.J. Durka

Rozdział Analiza Wariancji. Rozkład F Niech zmienne x i y mają rozkłady χ o odpowiednio f i f stopniach swobody. Zmienna F = f x f y = f x f y posiada rozkład F z f i f stopniami swobody (wartość oczekiwana E(f) = f(f ) = ( f Dla próby z rozkładu normalnego wielkość f ) f ( Γ (f + f ) ( ( ) ( ) F f + f ) f +f F Γ f Γ f f f (f ) ) (.) (.) f =, f =5 f =5, f = f =5, f =5 f =5, f = f =, f =5 f =, f = Rysunek.: Rozkład F Fischera dla przykładowych ilości stopni swobody f i f. χ = (x i x) σ (.3) podlega rozkładowi χ o f = N stopniach swobody. Jeśli dwie takie próby zostały pobrane z jednej populacji, to iloraz podlega rozkładowi F o f y i f x (N y ) N ( x i x) F = (.4) (N x ) N (y i y) stopniach swobody. c 999..3 P.J. Durka

6 ROZDZIAŁ. ANALIZA WARIANCJI. Analiza wariancji (ANalysis of VAriance - ANOVA) N obserwacji {x i }..N podzielonych na k grup wedle jakiegoś kryterium: N = n +n +...+n k. Średnie wewnątrz grup x i = n i x ij (.5) n i Rozważmy sumę kwadratów odchyleń wszystkich elementów próby od wartości średniej całej próby: = (x ij x) = j= (x ij x i ) + j= j= (x ij x i )(x i x) = j= (x ij x i ) = j= j= (x ij x i + x i x) = (.6) j= (x i x) + (x ij x i )(x i x) j= (x i x) (x ij x i ) = (.7) (x i x) = j= j= k n i (x i x) (.8) (x ij x i ) + j= Jeśli wszystkie pomiary pochodzą z tej samej populacji o wariancji σ, to s wew σ i k n i (x i x) = s wew + s pom (.9) s pom σ (.) podlegają rozkładom χ o odpowiednio n k i k stopniach swobody. Iloraz podlega rozkładowi F o k i n k stopniach swobody. Wyrażenia (n k) s pom (k ) s wew (.) n k (x ij x i ) oraz j= k n i (x i x) (.) k czyli są nieobciążonymi estymatami wariancji populacji. s wew n k oraz s pom k (.3) c 999..3 P.J. Durka

Rozdział 3 Elementy statystyki wielowymiarowej 3. Dwumianowy rozkład normalny t = (x, y) wektor zmiennej losowej µ = (µ, µ ) wektor wartości oczekiwanych k stała normalizjąca A odwrotność macierzy kowariancji C f(t) = ke (t µ)a(t µ)t (3.) [ σ A = x σ xy σ xy σ y ] = [ σxσ y (σ xy ) σy σ xy σ xy σx ] (3.) Rysunek 3.: Dwumianowy rozkład normalny, wartość prawdopodobieństwa jako wysokość nad płaszczyzną 3. Macierz kowariancji C = E[(x µ)(x µ) T ], c ij = E[(x i µ i )(x j µ j )] (3.3) c 999..3 P.J. Durka

8 ROZDZIAŁ 3. ELEMENTY STATYSTYKI WIELOWYMIAROWEJ dla x = (x, x ) i µ = (µ, µ ) [ [( ) ] x µ C = E E (x µ ) ] E [(x µ ) (x µ )] (x x µ µ, x µ ) = E [(x µ ) (x µ )] E [(x µ ) ] = [ ] σ σ σ σ (3.4) Interpretacja współczynnika korelacji znajduje się pod hasłem Regresja liniowa. 3.3 Analiza wariancji wielu zmiennych (Multivariate ANalysis of VAriance - MANOVA) Zmienna losowa X opisywana wektorem (x,..., x k ), podobnie wartość średnia staje się wektorem o tym samym wymiarze: (µ,..., µ k ). Macierz kowariancji (zdefiniowana w 3.) zmiennej losowej υar(x ) coυ(x, x )... coυ(x, x k ) S = coυ(x, x ) υar(x )... coυ(x, x k )............ (3.5) coυ (x k, x ) coυ(x k, x )... υar(x k ) gdzie: Wielowymiarowy rozkład normalny υar(x i ) = σ xi = E((x i µ i ) ) (3.6) coυ(x i, x k ) = σ xi,x k = E((x i µ i )(x k µ k )) (3.7) Φ(X) = (π) k S e (X µ) S (X µ) (3.8) Od tego momentu przyjmujemy, że zmienne X podlegają takiemu właśnie rozkładowi. Jeśli X pochodzą z próby podzielonej na grupy, to podobnie jak w AN OV A możemy skonstruować macierze wariancji wewnątrzgrupowych i międzygrupowych i dowieść, że S = S wew + S pom. Iloraz wyznaczników macierzy S wew S wew+s pom S wew i S podlega rozkładowi Λ Wilksa: Λ = Swew S = i służy testowaniu hipotezy o braku różnic między grupami. Ogólnie statystyki Wilksa można używać do testowania hipotezy h w postaci Λ = Swew S wew+s h, gdzie S h macierz kowariancji odpowiadająca testowanej hipotezie. c 999..3 P.J. Durka

Rozdział 4 Niektóre z pominiętych haseł w skrócie: 4. Analiza składowych głównych (Principal Components Analysis, PCA) Przedstawiamy macierz kowariancji w postaci diagonalnej r r... r k λ... S = r r... r k λ........................... r k r k... r kk... λ k r r... r k r r... r k............ r k r k... r kk (4.) Wielkości λ i są rozwiązaniami równania S λi =, a wektor r i osiami nowego układu współrzędnych. Składowe P CA są liniowymi kombinacjami obserwowanych zmiennych. Rysunek 4.: Kierunki składowych głównych (PCA) w dwóch wymiarach 4.. Analiza dyskryminacyjna (Discriminant Analysis) Wielowymiarowe wektory próby X mamy podzielone na grupy, szukamy funkcji najlepiej je rozdzielającej, która umożliwi zaklasyfikowanie nowej obserwacji. Rozdzielenie grup odpowiada w przypadku jednowymiarowym maksymalizacji stosunku wariancji międzygrupowej do wariancji wewnątrzgrupowej F = (n k) s pom (k ) s wew (4.) W przypadku wielowymiarowym mamy do czynienia z macierzami kowariancji; możemy rozpatrywać wielkość F a = a S pom a a (4.3) S wew a c 999..3 P.J. Durka

ROZDZIAŁ 4. NIEKTÓRE Z POMINIĘTYCH HASEŁ W SKRÓCIE: Maksymalizacja tej wielkości względem a daje wektor własny macierzy S wews pom odpowiadający największej wartości własnej. Wektory własne odpowiadające kolejnym wartościom własnym zwiemy współrzędnymi dyskryminacyjnymi, tworzącymi przestrzeń dyskryminacyjną. 4. Analiza czynnikowa (Factor Analysis) opiera się na założeniu istnienia ukrytych czynników, stara się przedstawić obserwowane zmienne w postaci: obserwowana zmienna = liniowa kombinacja czynników + błąd w odróżnieniu od PCA, realizującej model składowa = liniowa kombinacja obserwowanych zmiennych 4.3 Analiza skupień Cluster Analysis Wejściem dla tej procedury jest zestaw danych, a wyjściem ich podział na grupy. Można go zrealizować na wiele sposobów: N punktów x...x N, z których każdy opisany jest przez k cech x...x k. 4.3. Metody polegające na kolejnym łączeniu punktów Startujemy z N klastrów jednopunktowych, w każdym kroku łączymy najbliższe. Wynikiem działania jest drzewo łączenia, na którym sami musimy wybrać ilość klastrów. Wynik zależy silnie od przyjętych definicji odległości między klastrami oraz definicji odległości między punktami. Odległości między punktami: k Odległość Euklidesowa d(x, y) = (x i y i ) (czuła na różne skale cech). Odległość korelacyjna d(x, y) = ρ(x, y), gdzie ρ(x, y) = przedziału (,), mniejsza im lepiej skorelowane punkty). Odległości między klastrami: k (x x)(y y) σ xσ y (znormalizowana do Najbliższego sąsiada (single linkage) - odległość między dwoma najbliższymi elementami klastrów A i B: d(a, B) = min x,y d(x, y), x A, y B (complete linkage) - odległość między dwoma najbliższymi elementami klastrów A i B: d(a, B) = max x,y d(x, y), x A, y B (centroid) - odległość między środkami klastrów, (avarage) - średnia odległości, itd... 4.3. Metoda K-średnich (K - means) Wybieramy ilość klastrów, podział dokonywany jest w iteracyjnej procedurze dążącej do minimalizacji stosunku wariancji pomiędzy klastrami do wariancji wewnątrz klastrów - niejako AN OV A bez ustalonego wstępnie przyporządkowania, maksimum F poszukiwane drogą przemieszczania elementów między klastrami. 4.4 Scyzoryk (jacknife) Jest to metoda analogiczna do bootstrapu, w ktorej powtórzenia generowane są przez usuwanie z próby kolejno po jednym elemencie. W porównaniu z bootstrapem daje w niektórych przypadkach oszczędność ilości obliczeń, ale ze względu na generowanie prób o mniejszej liczebności niż oryginalna wymaga stosowania mniej intuicyjnych wzorów. Jeśli chodzi o efektywność, to w przypadku liniowym jest dokładnym przybliżeniem bootstrapu, jednak w pozostałych przypadkach może prowadzić do większych błędów. c 999..3 P.J. Durka