Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Wielkość: px
Rozpocząć pokaz od strony:

Download "Wprowadzenie do uczenia maszynowego. Jakub Tomczak"

Transkrypt

1 Wprowadzenie do uczenia maszynowego Jakub Tomczak 2014

2 ii

3 Rozdział 1 Pojęcia podstawowe 1.1 Wprowadzenie. Zmienne losowe ˆ Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy predykcję poprzez poznanie zjawiska lub naśladowanie zjawiska. ˆ W celu formalnego opisania zjawiska posługiwać się będziemy pojęciem zmiennej losowej. Rysunek 1.1: Idea reprezentowania stanu świata za pomocą związków między różnymi wielkościami. ˆ Chcielibyśmy móc mierzyć nasze przekonanie (ang. belief ) związane z obserwacją świata x. ˆ Postulaty dot. miary przekonania b(x) podane przez Coxa: 1. Siła przekonania wyrażona za pomocą liczb rzeczywistych, np. 0 b(x) 1. 1

4 2 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 2. Jakościowa zgodność ze zdrowym rozsądkiem, tj. b(x) + b( x) = Spójność, tzn. jeśli konkluzja może być otrzymana w różny sposób, to każdy z tych sposobów musi dawać tę samą odpowiedź, tj. b(x, y z) = b(x z) b(y x, z) = b(y z) b(x y, z). ˆ Okazuje się, że miara przekonania musi spełniać zasady rachunku prawdopodobieństwa, tj.: reguła brzegowa (ang. sum rule) p(x) = y p(x, y) reguła łańcuchowa (ang. product rule) p(x, y) = p(x y) p(y) ˆ Rozpatrzmy prosty przykład dla zmiennych dyskretnych: p(x, y) y = 1y = 2 x = p(x) x = 2 x = p(y) Rysunek 1.2: Przykład rozkładów prawdopodobieństwa. ˆ Przykład zastosowania reguły łańcuchowej: p(x y = 2) = p(x, y = 2) p(y = 2) ˆ Dla zmiennych ciągłych rozkład prawdopodobieństwa zadany jest przy pomocy funkcji gęstości. ˆ Interesuje nas, że zmienna losowa przyjmuje wartości z ustalonego zakresu (a, b): p(x (a, b)) = b a p(x)dx ˆ Funkcja gęstości p(x) całkuje się do 1 i spełnia reguły rachunku prawdopodobieństwa: reguła brzegowa: p(x) = p(x, y)dy reguła łańcuchowa: p(x, y) = p(x y)p(y)

5 1.1. WPROWADZENIE. ZMIENNE LOSOWE 3 p(x, y) y = 1y = 2 p(x y = 2) x = x = 2 x = p(y) p(x, y = 2) Rysunek 1.3: Przykład zastosowania reguł rachunku prawdopodobieństwa. Rysunek 1.4: Przykład funkcji gęstości i rozkładu prawdopodobieństwa (dystrybuanty).

6 4 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 1.2 Wnioskowanie ˆ Zakładamy dwa rodzaje zmiennych losowych: Zmienne wejściowe (ang. inputs): x Zmienne wyjściowe (ang. outputs): y ˆ Zmienne mają wspólny rozkład p(x, y), który dla nas jest nieznany. ˆ Wiemy, że istnieje zależność między zmiennymi x i y. ˆ Zakładamy, że ta zależność może być przybliżona zależnością funkcyjną y = f(x), tj. ustalonemu x odpowiada dokładnie jedna wartość y. Rysunek 1.5: Idea wnioskowania, tj. istnienia zależności między zmiennymi. ˆ Wyznaczenie wartości y na podstawie x nazywamy podejmowaniem decyzji (ang. decision making), wnioskowaniem (ang. inference) albo predykcją (ang. prediction). ˆ W celu znalezienia zależności f(x) minimalizować będziemy ryzyko: R[f] = L(y, f(x)) p(x, y)dxdy = E x,y [ L(y, f(x)) ].

7 1.3. MODELOWANIE 5 ˆ L oznacza funkcję straty (ang. loss function): 1, jeśli y f(x) L(y, f(x)) = 0, w p.p. (klasyfikacja) L(y, f(x)) = ( y f(x) ) 2 (regresja) ˆ Można pokazać, że w celu minimalizacji ryzyka R[f] wystarczy minimalizować E y [ L(y, f(x)) x ]. f (x) = arg max p(y x) y [ ] f (x) = E y y x = y p(y x)dy (klasyfikacja) (regresja) 1.3 Modelowanie ˆ Najogólniej relacja pomiędzy zmiennymi x i y może być opisana przy pomocy łącznego rozkładu p(x, y). Wtedy rozkład warunkowy p(y x), na podstawie którego wnioskujemy, wyznaczamy z zależności: p(y x) = p(x, y) p(x) = p(x, y) y p(x, y) ˆ Zakładamy, że rzeczywisty rozkład p(x, y) może być zamodelowany poprzez p(x, y θ ), gdzie parametry θ nie są dla nas znane. ˆ Znana jest jedynie postać modelu p(x, y θ). ˆ Przykładowo p(x, y θ) = N (x, y µ, Σ), gdzie postać modelu to rozkład normalny, a parametry θ = {µ, Σ}. ˆ Modele generujące (ang. generative models) modelujemy osobno rozkłady p(x y, θ) i p(y θ). Wtedy p(x, y θ) = p(x y, θ) p(y θ), skąd p(y x, θ) = p(x y, θ) p(y θ) y p(x y, θ) p(y θ). ˆ Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na zmienną decyzyjną, p(y x, θ). ˆ Modele funkcyjne (ang. discriminant functions) bezpośrednio modelujemy zależność funkcyjną y = f(x; θ), bez korzystania z prawdopodobieństw.

8 6 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 1.4 Uczenie Rysunek 1.6: Idea modelowania. ˆ Dysponujemy ciągiem niezależnych obserwacji D = {(x 1, y 1 ),..., (x N, y N )}, wygenerowanych z rzeczywistego rozkładu p(x, y). ˆ Uczenie polega na optymalizowaniu względem θ wybranej funkcji kosztu dopasowującej model p(x, y θ) do obserwacji D. ˆ Definiujemy wiarygodność (ang. likelihood) parametrów przy danym ciągu obserwacji: N p(d θ) = p(x n, y n θ) ˆ Wartość wiarygodności mówi o pewności z jaką nasz model o ustalonych parametrach θ mógł wygenerować obserwacje D. ˆ Niepewność parametru θ będziemy modelować rozkładem a priori p(θ) (ang. prior). ˆ Reguły prawdopodobieństwa (wzór Bayesa) pozwalają modyfikować niepewność parametru poprzez uwzględnienie obserwacji. ˆ Otrzymujemy rozkład a posteriori (ang. posterior): p(θ D) = p(d θ)p(θ) p(d) posterior likelihood prior ˆ Można pokazać, że jeśli θ jest rzeczywistym parametrem, który odpowiada za generowanie danych, to jeśli p(θ ) > 0, wtedy: lim p(θ D n) = δ(θ θ ) n

9 1.5. SYSTEMY DYNAMICZNE 7 Rysunek 1.7: Idea uwzględnienia niepewności parametrów w modelowaniu. ˆ Uczenie częstościowe (ang. frequentist learning) wyznaczenie estymatora punktowego parametrów θ: estymacja maksymalnej wiarygodności (ang. maximum likelihood estimation, ML): θ ML = arg max p(d θ), θ estymacja maksymalnej a posteriori (ang. maximum a posteriori estimation, MAP): θ MAP = arg max p(θ D). θ ˆ Uczenie bayesowskie (ang. Bayesian learning) wyznaczenie rozkładu predykcyjnego (ang. predictive distribution), tj. wycałkowanie względem nieznanych parametrów: p(y x, D) = 1.5 Systemy dynamiczne p(y x, θ) }{{} model p(θ D) dθ. }{{} posterior ˆ Dotychczas rozważaliśmy zjawiska, które nie zależały od czasu, tj. zakładaliśmy, że obserwowane dane są generowane niezależnie z tego samego rozkładu (independent and identically distributed i.i.d.). Jednakże w wielu przypadkach założenie to jest nieprawdziwe. Dlatego też rozważa się sytuacje dla danych sekwencyjnych. ˆ Dane sekwencyjne zazwyczaj pojawiają się przy okazji pomiarów szeregów czasowych, np. pomiarów opadów deszczu w kolejnych dniach na zadanym obszarze, dzienne wartości kursu walut, czy wartości cech akustycznych w kolejnych klatkach nagrania mowy. Sekwencyjność danych może nie zależeć od czasu, np. kolejność nukleotydów w DNA, kolejność liter czy wyrazów w tekście pisanym.

10 8 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE ˆ Warto również rozróżnić pomiędzy rozkładami stacjonarnymi a niestacjonarnymi. W przypadku stacjonarnym dane ewoluują w czasie, ale rozkład, z którego są generowane, pozostaje bez zmian. Natomiast w przypadku niestacjonarnym rozkład jest zmienny w czasie. ˆ Istnieje wiele sposobów pozwalających na modelowanie danych sekwencyjnych, np.: modelowanie deterministyczne: * równania różniczkowe (czas ciągły): * równania różnicowe (czas dyskretny): modelowanie probabilistyczne: dx dt = f(x) x n+1 = f(x n ) * modele (łańcuchy) Markowa, tzn. rozkład dla obecnego stanu zależy od stanów poprzednich, na przykład model Markowa pierwszego rzędu: i funkcja wiarygodności: * Systemy dynamiczne (szum: η x, η y ): p(x n+1 x 1,..., x n ) = p(x n+1 x n ) N p(x 1,..., x N ) = p(x 1 ) p(x n x n 1 ) n=2 x n+1 = f(x n, η x ) y n+1 = g(x n+1, η y ) oraz ich szczególny przypadek Liniowych Systemów Dynamicznych (zakłada się szum gaussowski η x i η y ): p(x n+1 x n ) = N (x n+1 Ax n, Σ x ) p(y n+1 x n+1 ) = N (y n+1 Bx n+1, Σ y )

11 Rozdział 2 Podstawowe problemy 2.1 Wstęp ˆ Interesuje nas poznanie rozważanego zjawiska. W tym celu chcemy odkryć zależności między wielkościami występującymi w zjawisku. Przez x X, gdzie X = X 1... X D, oznaczamy wielkości wejściowe (wejścia), zaś przez y Y wielkości wyjściowe (wyjście). Zależność zapisujemy jako f : X Y. x f(x) y Rysunek 2.1: Diagram blokowy opisujący rozpatrywaną zależność zjawiska. Przykłady: x cukier drożdże woda f(x) y etanol Rysunek 2.2: Diagram blokowy opisujący zależność zjawiska chemicznego. ˆ Opisanie zależności za pomocą zadanej klasy modeli nazywamy modelowaniem. ˆ W przypadku, gdy rozpatrujemy modele parametryczne (tj. takie, w których skończony zestaw parametrów koduje informacje o zjawisku), to wybór modelu polega na ustaleniu (uczeniu) parametrów. Wyszczególniamy parametry w R D w modelu ȳ(x; w). 9

12 10 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY x zdjęcie f(x) y twarz Rysunek 2.3: Diagram blokowy opisujący zależność zjawiska rozpoznawania twarzy. ˆ Zjawisko znane jest wyłącznie poprzez obserwacje (dane): D = {(x n, y n )} N. Ważne jest, czy rozważane zjawisko można traktować jako statyczne (zależność sekwencyjna danych jest pomijalna), czy sekwencyjne (w szczególnym przypadku dynamiczne, tj. sekwencyjność jest wyrażona poprzez zależność czasową). ˆ Czasem w literaturze przedmiotu złożony proces składający się z przeprowadzenia eksperymentu (zebranie danych), wyboru klasy modeli oraz uczenia nazywa się identyfikacją systemów. 2.2 Zjawiska deterministyczne ˆ W najprostszym przypadku mamy sytuację, gdy dokładnie wiemy jaka zależność nas interesuje, tj. znamy klasę modelu. Mniej restrykcyjny przypadek zakłada, że rzeczywistość może być prawie idealnie opisana pewną klasą modelu (patrz przykład z produkcją etanolu). ˆ Przypadek ten określany jest jako obiekt (zjawisko) w klasie modeli. ˆ Zadanie znalezienia opisu zjawiska w klasie modeli polega więc na dopasowaniu modelu do danych. ˆ Inne przykłady: wyznaczanie trendu liniowego (mimo że zjawisko może być silnie nieliniowe, to często wyznaczenie trendu liniowego jest wystarczające, żeby pobieżnie poznać charakter zjawiska), poznanie reguł gry w karty. ˆ W praktyce przypadek zjawiska w klasie modeli jest rzadko spotykany ze względu na występujące zakłócenia lub niemożność wyizolowania zjawiska, co wiąże się z niemożnością obserwacji wszystkich czynników wpływających na zjawisko. ˆ Wówczas rozpatruje się przypadek wyboru optymalnego modelu. Warto zaznaczyć, iż nadal traktujemy zjawisko jako deterministyczne, tj. zależności w nim występujące nie są losowe, ale dopuszczamy występowanie zakłóceń zewnętrznych.

13 2.2. ZJAWISKA DETERMINISTYCZNE 11 ˆ Wybór modelu (parametrycznego) polega na znalezieniu wartości parametrów, dla których dla występuje najlepsze dopasowanie modelu do danych. W tym celu należy zdefiniować funkcję dopasowania modelu do danych, np. (przyjmujemy zapis: ȳ(x n ; w) = ȳ n, ȳ(x; w) = ȳ): Q(w) = y ȳ 2 2 N = (y n ȳ n ) 2 (norma euklidesowa (l 2 )) Q(w) = y ȳ 1 N = y n ȳ n (norma l 1 ) ˆ Liniowe zadanie najmniejszych kwadratów. W przypadku, gdy model możemy wyrazić za pomocą funkcji bazowych φ(x), to wówczas dla kryterium kwadratowego (normy euklidesowej) mamy: Q(w) = y Φw 2 2 Licząc gradient i przyrównując do zera: w Q(w) = 0 otrzymujemy formę zamkniętą rozwiązania: w = (Φ Φ) 1 Φ y. ˆ Forma zamknięta może być uciążliwa do policzenia ze względu na problem z odwróceniem macierzy Φ Φ. Dodatkowo, w przypadku danych napływających w strumieniu danych, przydatne byłoby zastosowanie technik uczenia przyrostowego. W tym celu można stosować metodę optymalizacji stochastycznej (ang. stochastic gradient descent): w := w η w Q n (w) gdzie Q n (w) = (y n ȳ n ) 2. Dla modelu liniowego z funkcjami bazowymi: ( ) w := w η y n φ(x n ) w φ(x n ). ˆ Liniowe zadanie najmniejszych kwadratów z regularyzacją l 2. W celu uniknięcia zbytniego dopasowania (ang. overfitting) modyfikuje się kryterium kwadratowe poprzez dodanie drugiej normy na parametry, czyli regularyzacji: Q(w) = y Φw λ w 2 2,

14 12 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY gdzie λ > 0 współczynnik regularyzacji. Licząc gradient i przyrównując do zera otrzymyjemy formę zamkniętą rozwiązania (I macierz jednostkowa): w = (Φ Φ + λi) 1 Φ y. ˆ Dodanie regularyzacji powoduje ściąganie wartości parametrów do 0. Siła ściągania zależy od wartości λ. 2.3 Zjawiska probabilistyczne ˆ Bardziej naturalnym podejściem do modelowania jest założenie wprost, iż rozpatrywane wielkości są stochastyczne (są zmiennymi losowymi) ze względu na występujące zakłócenia i/lub niemożność obserwacji wszystkich wielkości występujących w zjawisku. ˆ Alternatywną formą reprezentowania zależności między zmiennymi losowymi są probabilistyczne modele grafowe, w których węzły reprezentują zmienne losowe, zaś krawędzie (łuki) warunkowe zależności stochastyczne. x y Rysunek 2.4: Probabilistyczny model grafowy opisujący rozpatrywaną zależność zjawiska. w x y Rysunek 2.5: Probabilistyczny model grafowy dla modelu parametrycznego opisującego rozpatrywaną zależność zjawiska. ˆ Przed przejściem do modelowania i uczenia wprowadzimy podstawowe techniki pojęcia na przykładzie obserwacji pojedynczej wielkości x, która jest zmienną losową. Możemy myśleć o obserwacji pewnej wielkości przy zakłóceniach z związanych z pomiarem. Zakłócenie może mieć np. charaketer addytywny.

15 2.3. ZJAWISKA PROBABILISTYCZNE 13 ˆ Załóżmy, że posiadamy N pomiarów D = {x n } N, które są niezależne i są generowane z tego samego rozkładu p(x) (tzw. założenie iid, ang. independent and identically distributed). ˆ Dalej przyjmujemy, że będziemy modelować rozkład prawdopodobieństwa zmiennej x za pomocą modelu p(x w) o parametrach w. ˆ Estymacja ML. Dopasowanie modelu do danych będziemy wyrażać za pomocą funkcji wiarygodności (lub krótko wiarygodności): l(w) = p(d w) N = p(x n w). Wartości parametrów będziemy szukali poprzez maksymalizację wiarygodności: w ML = arg max p(d w). w Otrzymane wartości nazywane są estymatorami maksymalnej wiarygodności. Ze względów praktycznych często wygodniej jest operować na negatywnym logarytmie wiarygodności (logarytm nie zmienia monotoniczności funkcji oraz jest funkcją wklęsłą): Licząc gradient i przyrównując do zera: log l(w) = log p(d w) N = log p(x n w). w log l(w) = 0 N w log p(x n w) = 0 otrzymamy wartości parametrów minimalizujące negatywny logarytm wiarygodności. ˆ Estymacja MAP. Dodatkowo możemy posiadać wiedzę aprioryczną (przed dokonaniem obserwacji) dot. wartości parametrów, p(w). Jest to rozkład a priori na parametry. Wówczas korzystając ze wzoru Bayesa możemy wyznaczyć rozkład a posteriori na parametry: p(w D) = p(d w)p(w) p(d) Wyznaczenie wartości parametrów maksymalizujących rozkład a posteriori: w MAP = arg max p(w D) w

16 14 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY prowadzi do estymatorów maksymalnego a posteriori (MAP). Wygodniej jest wyznaczać wartości parametrów dla logarytmu z rozkładu a posteriori: log p(w D) = log p(d w)p(w) p(d) = log p(d w)p(w) log p(d) Licząc następnie gradient i przyrównując do zera: = log p(d w) + log p(w) log p(d). w log p(w D) = 0 w log p(d w) + w log p(w) w log p(d) = 0 w log p(d w) + w log p(w) = 0. ˆ Estymacja Bayesa. W wielu zastosowaniach, np. w ekonomii czy medycynie, przyjęcie jednych wartości może wiązać się z dodatkowym kosztem lub stratą, dlatego też wprowadza się funkcję straty: L : W W R +. Wówczas definiuje się oczekiwaną funkcji strat, czyli tzw. ryzyko: R[w B ] = L(w, w B )p(w, x)dwdx = L(w, w B )p(w x)dw p(x)dx = E w,x [L(w, w B )] gdzie w B poszukiwane wartości parametrów. Zwróćmy uwagę, iż wystarczy rozpatrywać rozkład warunkowy, co prowadzi do ryzyka warunkowego: R[w B x] = L(w, w B )p(w x)dw = E w x [L(w, w B )]. Wówczas interesuje nas znalezienie takich wartości parametrów, które minimalizują ryzyko warunkowe: w B = arg min R[w B x]. w Wartości parametrów minimalizujące ryzyko warunkowe nazywa się estymatorami Bayesa. Zauważmy, że dla funkcji straty L(w, w B ) = δ(w w B ), gdzie δ( ) jest deltą Diraca, otrzymujemy przypadek estymatora MAP.

17 2.4. PROBLEM REGRESJI 15 Biorąc inną funkcję straty, tj. L(w, w B ) = (w w B ) 2, otrzymujemy estymator średniej a posteriori. Licząc ryzyko warunkowe: R[w B x] = E w x [(w w B ) 2 ] = E w x [w 2 ] 2w B E w x [w] + wb. 2 Wówczas licząc gradient po w B i przyrównując do zera otrzymujemy: wb R[w B x] = 0 2E w x [w] + 2w B = 0 w B = wp(w x)dw = E w x [w] 2.4 Problem regresji ˆ Rozkład normalny (ang. normal distribution) zadaje rozkład prawdopodobieństwa na zmiennej ciągłej x. x N (x µ, σ 2 ) oznacza, że zmienna została wygenerowana z rozkładu normalnego. Funkcja gęstości: Parametryzacja: N (x µ, σ 2 ) = 1 σ 2π exp ( ) (x µ)2 2σ 2 Parametr µ pokrywa się z wartością oczekiwaną (także z modą i medianą), tj. E[x] = µ Parametr σ 2 pokrywa się z wariancją, tj. var[x] = σ 2 ˆ Wielowymiarowy rozkład normalny (ang. multivariate normal distribution) zadaje rozkład na wektorze x R D Funkcja gęstości: Parametryzacja: N (x µ, Σ) = ( 1 (2π) D/2 Σ exp 1 ) 1/2 2 (x µ) Σ 1 (x µ)

18 16 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY Wektor parametrów µ pokrywa się z wartością oczekiwaną, tj. E[x] = µ Macierz parametrów Σ pokrywa się z kowariancją wektora x, tj. cov[x] = Σ Macierz Σ jest symetryczna i dodatnio określona. ˆ Problem regresji. Zmienne wejściowe (ang. input variables): x X (zazwyczaj X = R D lub X = {0, 1} D ). Zmienna wyjściowa (ang. target variable): y R. Problem: dla zadanego ciągu uczącego D = {(x n, y n )} N przewidzieć wartość y dla nowego x. Zgodnie z teorią decyzji pokazaliśmy, że wystarczy znać rozkład warunkowy p(y x), zatem musimy go modelować. ˆ Model regresji liniowej. Modelem regresji liniowej (ang. linear regression) nazywamy następujące wyrażenie: y = f(x, w) + ε gdzie funkcja f(x, w) = w φ(x) jest kombinacją liniową M funkcji bazowych φ m (x). Zmienna ε N (ε 0, β 1 ) modeluje niepewność obserwacji y. Zatem model rozkładu warunkowego p(y x) ma następującą postać: p(y x, w, β) = N (y w T φ(x), β 1 ). Parametrami modelu regresji liniowej są w R M i β R. Wartości funkcji φ 1 (x),..., φ M (x) nazywane są cechami (ang. features) wyekstrahowanymi z obserwacji x. Przykładowe cechy mogą mieć postać: φ 1 (x) = x (1), φ 2 (x) = ln(x (3) ), φ 3 (x) = x (3) x (2). Dzięki ekstrakcji cech mamy możliwość użycia nieliniowych przekształceń danych wejściowych oraz dalsze rozważania nie są zależne od postaci φ. Model regresji liniowej stosujemy: Gdy zbiór cech φ 1 (x),..., φ M (x) wynika w sposób naturalny. Inaczej istnieją lepsze modele.

19 2.4. PROBLEM REGRESJI 17 Gdy dane są wysokowymiarowe, N << D i potrafimy podać pewien niskowymiarowy sensowny zbiór cech. Gdy decydującym czynnikiem jest czas wyliczenia odpowiedzi modelu. ˆ Estymacja maksymalnej wiarygodności (ML) dla regresji liniowej Dysponujemy danymi X = {x 1,..., x N }, y = {y 1,..., y N }. Warunkowa funkcja wiarygodności jest następująca: N p(y X, w, β) = N (y n w φ(x n ), β 1 ). Logarytm funkcji wiarygodności N ln p(y X, w, β) = ln N (y n w φ(x n ), β 1 ) = N 2 ln β N ln(2π) βj(w) 2 gdzie J(w) jest sumą kwadratów błędów, J(w) = 1 N (y n w φ(x n )) 2. 2 Logarytm funkcji wiarygodności jest funkcją celu, którą optymalizujemy względem parametrów w. Przyrównując gradient z logarytmu funkcji wiarygodności do zera N ln p(y X, w, β) = y n φ(x n ) w i rozwiązując względem w otrzymujemy N φ(x n )φ(x n ) = 0 w ML = (Φ Φ) 1 Φ y (równania normalne) Φ = φ 1 (x 1 ) φ 2 (x 1 ) φ M (x 1 ) φ 1 (x N ) φ 2 (x N ) φ M (x N ) (design matrix) Optymalizując względem β: 1 β ML = 1 N N ( yn wmlφ(x n ) ) 2.

20 18 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY ˆ Estymacja ML: Rozwiązanie numeryczne. Algorytm gradientu prostego: Initialize w repeat for i = 1 M do w i w i α w i J(w) end for until convergence Dla przypadku regresji: J(w) = 1 N (y n w φ(x n )) 2 2 w i J(w) = N ( yn w i φ i (x n ) ) φ i (x n ). ˆ Estymator maksymalnej a posteriori dla regresji liniowej. Rozkład a priori parametrów uwzględnia przekonania odnośnie parametrów przed zaobserowaniem danych, p(w m 0, S 0 ) = N (w m 0, S 0 ). Rozkład a posteriori parametrów uaktualnienie apriorycznych przekonań o parametrach poprzez uwzględnienie danych, p(w y) p(y w) }{{} likelihood Estymator maksymalnej a posteriori (MAP): p(w). }{{} prior w MAP = arg max p(w y). w Rozkład a priori oraz wiarygodność są rozkładami normalnymi, tj. mamy do czynienia z liniowym modelem gaussowskim, więc (przy ustalonym β): p(w y) = N (w m N, S N ) m N = S N ( S 1 0 m 0 + βφ y ) S 1 N = S βφ Φ Skąd estymator MAP: w MAP = m N.

21 2.4. PROBLEM REGRESJI 19 Zakładając, że parametry są niezależnymi zmiennymi losowymi o jednakowej precyzji α 1, otrzymujemy szczególny przypadek m 0 = 0, S 0 = α 1 I, m N = βs N Φ y S 1 N = αi + βφ Φ ˆ Estymator MAP a regularyzacja Tichonowa. Zauważmy, że licząc logarytm z rozkładu a posteriori otrzymujemy sumę kwadratów błędów oraz dodatkowe wyrażenie: ln p(w y) = β N ( yn w φ(x n ) ) 2 α 2 2 w w +const. }{{}}{{} regularyzacja βj(w) Taki sam wynik otrzymamy, jeżeli w estymacji ML dodamy wyrażenie zwane regularyzatorem Tichonowa: gdzie λ parametr regularyzacji. J(w) + λ 2 w w. }{{} reg. Tichonowa Rozwiązując względem w: w λ = (λi + Φ Φ) 1 Φ y. Zauważmy, że w MAP = w λ dla λ = α β. Model ten nazywa się regresją grzbietową (ang. ridge regression).

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy

Bardziej szczegółowo

SPOTKANIE 3: Regresja: Regresja liniowa

SPOTKANIE 3: Regresja: Regresja liniowa Wrocław University of Technology SPOTKANIE 3: Regresja: Regresja liniowa Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.wroc.pl 22.11.2013 Rozkład normalny Rozkład normalny (ang. normal

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

WYKŁAD 2. Problem regresji - modele liniowe

WYKŁAD 2. Problem regresji - modele liniowe Wrocław University of Technology WYKŁAD 2 Problem regresji - modele liniowe Maciej Zięba Politechnika Wrocławska Regresja Regresja (ang. Regression): Dysponujemy obserwacjami z odpowiadającymi im wartościami

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

Podstawowe modele probabilistyczne

Podstawowe modele probabilistyczne Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji ML Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska Wrocław University of Technology WYKŁAD 2 i 3 Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne autor: Maciej Zięba Politechnika Wrocławska Pojęcie prawdopodobieństwa Prawdopodobieństwo

Bardziej szczegółowo

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna Wrocław University of Technology SPOTKANIE 4: Klasyfikacja: Regresja logistyczna Szymon Zaręba Studenckie Koło Naukowe Estymator 179226@student.pwr.wroc.pl 23.11.2012 Rozkład dwupunktowy i dwumianowy Rozkład

Bardziej szczegółowo

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

WYKŁAD 3. Klasyfikacja: modele probabilistyczne Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów

Bardziej szczegółowo

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11 Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 13 i 14 1 / 15 MODEL BAYESOWSKI, przykład wstępny Statystyka

Bardziej szczegółowo

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania Prognozowanie i Symulacje. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Szeregi czasowe 1 Szeregi czasowe 2 3 Szeregi czasowe Definicja 1 Szereg czasowy jest to proces stochastyczny z czasem dyskretnym

Bardziej szczegółowo

Fuzja sygnałów i filtry bayesowskie

Fuzja sygnałów i filtry bayesowskie Fuzja sygnałów i filtry bayesowskie Roboty Manipulacyjne i Mobilne dr inż. Janusz Jakubiak Katedra Cybernetyki i Robotyki Wydział Elektroniki, Politechnika Wrocławska Wrocław, 10.03.2015 Dlaczego potrzebna

Bardziej szczegółowo

Optymalizacja systemów

Optymalizacja systemów Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji

Bardziej szczegółowo

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y

Bardziej szczegółowo

Procesy stochastyczne

Procesy stochastyczne Wykład I: Istnienie procesów stochastycznych 2 marca 2015 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane są

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Agata Boratyńska Statystyka aktuarialna... 1

Agata Boratyńska Statystyka aktuarialna... 1 Agata Boratyńska Statystyka aktuarialna... 1 ZADANIA NA ĆWICZENIA Z TEORII WIAROGODNOŚCI Zad. 1. Niech X 1, X 2,..., X n będą niezależnymi zmiennymi losowymi z rozkładu wykładniczego o wartości oczekiwanej

Bardziej szczegółowo

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski Modelowanie zależności pomiędzy zmiennymi losowymi Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski P Zmienne losowe niezależne - przypomnienie Dwie rzeczywiste zmienne losowe X i Y

Bardziej szczegółowo

Procesy stochastyczne

Procesy stochastyczne Wykład I: Istnienie procesów stochastycznych 21 lutego 2017 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane

Bardziej szczegółowo

Wykład 3 Jednowymiarowe zmienne losowe

Wykład 3 Jednowymiarowe zmienne losowe Wykład 3 Jednowymiarowe zmienne losowe Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną Definicja 1 Jednowymiarowa zmienna losowa (o wartościach rzeczywistych), określoną na przestrzeni probabilistycznej

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Metoda największej wiarogodności

Metoda największej wiarogodności Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm

Bardziej szczegółowo

Modele zapisane w przestrzeni stanów

Modele zapisane w przestrzeni stanów Modele zapisane w przestrzeni stanów Modele Przestrzeni Stanów (State Space Models) sa to modele, w których część parametrów jest nieobserwowalna i losowa. Zachowanie wielowymiarowej zmiennej y t zależy

Bardziej szczegółowo

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki WYKŁAD 6 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Własności Wariancji Przypomnijmy, że VarX = E(X EX) 2 = EX 2 (EX) 2. Własności

Bardziej szczegółowo

SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA

SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA Wrocław University of Technology SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA Maciej Zięba Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 18.01.2013 Redukcja wymiarów Zmienne wejściowe

Bardziej szczegółowo

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja

Bardziej szczegółowo

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =. Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,

Bardziej szczegółowo

Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3

Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3 Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3 Przygotowując wykład korzystam głównie z książki Jakubowski, Sztencel Wstęp do teorii prawdopodobieństwa. Zmienna losowa i jej

Bardziej szczegółowo

x x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F ()

x x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F () . Przedmiot identyfikacji System () x (2) x * a z y ( s ) x y = F (x,z)=f(x,z,a ),gdziex = F () znane, a nieznane x () x (2) x (s) mierzone, a = a a 2 a s zestaw współczynników konkretyzujacych F () informacja

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K

Bardziej szczegółowo

Zawansowane modele wyborów dyskretnych

Zawansowane modele wyborów dyskretnych Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład II: i charakterystyki ich rozkładów 24 lutego 2014 Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa,

Bardziej szczegółowo

Metoda największej wiarygodności

Metoda największej wiarygodności Metoda największej wiarygodności Próbki w obecności tła Funkcja wiarygodności Iloraz wiarygodności Pomiary o różnej dokładności Obciążenie Informacja z próby i nierówność informacyjna Wariancja minimalna

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium ZALICZENIE Zadanie nr 3 Rozpoznawanie ręcznie pisanych cyfr autorzy: A. Gonczarek, P. Klukowski, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem

Bardziej szczegółowo

6. Identyfikacja wielowymiarowych systemów statycznych metodanajmniejszychkwadratów

6. Identyfikacja wielowymiarowych systemów statycznych metodanajmniejszychkwadratów 6. Identyfikacja wielowymiarowych systemów statycznych metodanajmniejszychkwadratów . Przedmiot identyfikacji System () x (2) x * a z y ( s ) x y = F (x,z)=f(x,z,a ),gdziex = F () znane, a nieznane x ()

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład VII: Rozkład i jego charakterystyki 22 listopada 2016 Uprzednio wprowadzone pojęcia i ich własności Definicja zmiennej losowej Zmienna losowa na przestrzeni probabilistycznej (Ω, F, P) to funkcja

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład IV: 27 października 2014 Współczynnik korelacji Brak korelacji a niezależność Definicja współczynnika korelacji Współczynnikiem korelacji całkowalnych z kwadratem zmiennych losowych X i Y nazywamy

Bardziej szczegółowo

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009 STATYSTYKA MATEMATYCZNA WYKŁAD 7 23 listopada 2009 Wykład 6 (16.XI.2009) zakończył się zdefiniowaniem współczynnika korelacji: E X µ x σ x Y µ y σ y = T WSPÓŁCZYNNIK KORELACJI ρ X,Y = ρ Y,X (!) WSPÓŁCZYNNIK

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie METODY ESTYMACJI PUNKTOWEJ X 1,..., X n - próbka z rozkładu P θ, θ Θ, θ jest nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie P θ. Definicja. Estymatorem

Bardziej szczegółowo

Jądrowe klasyfikatory liniowe

Jądrowe klasyfikatory liniowe Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie

Bardziej szczegółowo

Elementy inteligencji obliczeniowej

Elementy inteligencji obliczeniowej Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego

Bardziej szczegółowo

Metoda największej wiarygodności

Metoda największej wiarygodności Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład II: Zmienne losowe i charakterystyki ich rozkładów 13 października 2014 Zmienne losowe Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Definicja zmiennej losowej i jej

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

Rozkłady wielu zmiennych

Rozkłady wielu zmiennych Rozkłady wielu zmiennych Uogólnienie pojęć na rozkład wielu zmiennych Dystrybuanta, gęstość prawdopodobieństwa, rozkład brzegowy, wartości średnie i odchylenia standardowe, momenty Notacja macierzowa Macierz

Bardziej szczegółowo

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XIII: Prognoza. 26 stycznia 2015 Wykład XIII: Prognoza. Prognoza (predykcja) Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości

Bardziej szczegółowo

Dynamiczne stochastyczne modele równowagi ogólnej

Dynamiczne stochastyczne modele równowagi ogólnej Dynamiczne stochastyczne modele równowagi ogólnej mgr Anna Sulima Instytut Matematyki UJ 8 maja 2012 mgr Anna Sulima (Instytut Matematyki UJ) Dynamiczne stochastyczne modele równowagi ogólnej 8 maja 2012

Bardziej szczegółowo

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie

Bardziej szczegółowo

Układy stochastyczne

Układy stochastyczne Instytut Informatyki Uniwersytetu Śląskiego 21 stycznia 2009 Definicja Definicja Proces stochastyczny to funkcja losowa, czyli funkcja matematyczna, której wartości leżą w przestrzeni zdarzeń losowych.

Bardziej szczegółowo

#09. Systemy o złożonej strukturze

#09. Systemy o złożonej strukturze #09 Systemy o złożonej strukturze system składa się z wielu elementów, obiekty (podsystemy) wchodzące w skład systemu są ze sobą połączone i wzajemnie od siebie zależne mogą wystąpić ograniczenia w dostępności

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności

Bardziej szczegółowo

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych r.

Matematyka ubezpieczeń majątkowych r. Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k = Matematyka ubezpieczeń majątkowych 0.0.006 r. Zadanie. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k 5 Pr( N = k) =, k = 0,,,... 6 6 Wartości kolejnych szkód Y, Y,, są i.i.d.,

Bardziej szczegółowo

1 Gaussowskie zmienne losowe

1 Gaussowskie zmienne losowe Gaussowskie zmienne losowe W tej serii rozwiążemy zadania dotyczące zmiennych o rozkładzie normalny. Wymagana jest wiedza na temat własności rozkładu normalnego, CTG oraz warunkowych wartości oczekiwanych..

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła autokorelacji Łukasz Dębowski ldebowsk@ipipan.waw.pl Instytut Podstaw Informatyki PAN autokorelacji p. 1/25 Zarys referatu Co to sa procesy

Bardziej szczegółowo

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 4 Mikołaj Czajkowski Wiktor Budziński Regresja kwantylowa W standardowej Metodzie Najmniejszych Kwadratów modelujemy warunkową średnią zmiennej objaśnianej: E( yi Xi) = μ ( Xi) Pokazaliśmy,

Bardziej szczegółowo

Dystrybucje. Marcin Orchel. 1 Wstęp Dystrybucje Pochodna dystrybucyjna Przestrzenie... 5

Dystrybucje. Marcin Orchel. 1 Wstęp Dystrybucje Pochodna dystrybucyjna Przestrzenie... 5 Dystrybucje Marcin Orchel Spis treści 1 Wstęp 1 1.1 Dystrybucje................................... 1 1.2 Pochodna dystrybucyjna............................ 3 1.3 Przestrzenie...................................

Bardziej szczegółowo

Rachunek Prawdopodobieństwa i Statystyka

Rachunek Prawdopodobieństwa i Statystyka Rachunek Prawdopodobieństwa i Statystyka W 2. Probabilistyczne modele danych Zmienne losowe. Rozkład prawdopodobieństwa i dystrybuanta. Wartość oczekiwana i wariancja zmiennej losowej Dr Anna ADRIAN Zmienne

Bardziej szczegółowo

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014 Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu

Bardziej szczegółowo