Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Podobne dokumenty
Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Rozpoznawanie obrazów

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Podstawowe modele probabilistyczne

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

SPOTKANIE 3: Regresja: Regresja liniowa

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Metody systemowe i decyzyjne w informatyce

WYKŁAD 2. Problem regresji - modele liniowe

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Wnioskowanie bayesowskie

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Dynamiczne stochastyczne modele równowagi ogólnej

Fuzja sygnałów i filtry bayesowskie

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Agata Boratyńska Statystyka aktuarialna... 1

Metody systemowe i decyzyjne w informatyce

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Układy stochastyczne

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozpoznawanie obrazów

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3

Wprowadzenie. Data Science Uczenie się pod nadzorem

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Prawdopodobieństwo i statystyka r.

Wykład 3 Jednowymiarowe zmienne losowe

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Prawdopodobieństwo i statystyka

Statystyka w przykładach

Rachunek Prawdopodobieństwa i Statystyka

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Ważne rozkłady i twierdzenia c.d.

Prawdopodobieństwo i statystyka

Modele zapisane w przestrzeni stanów

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wykład 11: Martyngały: definicja, twierdzenia o zbieżności

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Estymacja w regresji nieparametrycznej

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Procesy stochastyczne

3. Generacja liczb losowych o różnych rozkładach

Metody probabilistyczne

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Metoda najmniejszych kwadratów

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Procesy stochastyczne

Rachunek Prawdopodobieństwa Rozdział 5. Rozkłady łączne

Komputerowa analiza danych doświadczalnych

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Biotechnologia, Chemia, Chemia Budowlana - Wydział Chemiczny - 1

Rozpoznawanie obrazów

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

2. P (E) = 1. β B. TSIM W3: Sygnały stochastyczne 1/27

2. Empiryczna wersja klasyfikatora bayesowskiego

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Matematyka ubezpieczeń majątkowych r.

1 Podstawy rachunku prawdopodobieństwa

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Własności statystyczne regresji liniowej. Wykład 4

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Systemy ekspertowe - wiedza niepewna

Metody probabilistyczne

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody systemowe i decyzyjne w informatyce

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Rozkłady zmiennych losowych

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Prawdopodobieństwo i statystyka

Matematyka ubezpieczeń majątkowych r.

Wykład 2 Zmienne losowe i ich rozkłady

Statystyka i eksploracja danych

Weryfikacja hipotez statystycznych

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Rozkłady wielu zmiennych

Klasyfikacja metodą Bayesa

Przestrzeń probabilistyczna

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Transkrypt:

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy predykcję poprzez poznanie zjawiska lub naśladowanie zjawiska. W celu formalnego opisania zjawiska posługiwać się będziemy pojęciem zmiennej losowej. Rysunek 1: Idea reprezentowania stanu świata za pomocą związków między różnymi wielkościami. Chcielibyśmy móc mierzyć nasze przekonanie (ang. belief ) związane z obserwacją świata x. Postulaty dot. miary przekonania b(x) podane przez Coxa: 1. Siła przekonania wyrażona za pomocą liczb rzeczywistych, np. 0 b(x) 1. 2. Jakościowa zgodność ze zdrowym rozsądkiem, tj. b(x) + b( x) = 1. 3. Spójność, tzn. jeśli konkluzja może być otrzymana w różny sposób, to każdy z tych sposobów musi dawać tę samą odpowiedź, tj. b(x, y z) = b(x z) b(y x, z) = b(y z) b(x y, z). Okazuje się, że miara przekonania musi spełniać zasady rachunku prawdopodobieństwa, tj.: 1

reguła brzegowa (ang. sum rule) p(x) = y p(x, y) reguła łańcuchowa (ang. product rule) p(x, y) = p(x y) p(y) Rozpatrzmy prosty przykład dla zmiennych dyskretnych: p(x, y) y = 1y = 2 p(x) x = 3 x = 2 x = 1 0.3 0.2 0.2 0.1 0.1 0.1 0.5 0.3 0.2 p(y) 0.6 0.4 Rysunek 2: Przykład rozkładów prawdopodobieństwa. Przykład zastosowania reguły łańcuchowej: p(x y = 2) = p(x, y = 2) p(y = 2) Dla zmiennych ciągłych rozkład prawdopodobieństwa zadany jest przy pomocy funkcji gęstości. Interesuje nas, że zmienna losowa przyjmuje wartości z ustalonego zakresu (a, b): p(x (a, b)) = b a p(x)dx Funkcja gęstości p(x) całkuje się do 1 i spełnia reguły rachunku prawdopodobieństwa: reguła brzegowa: p(x) = p(x, y)dy reguła łańcuchowa: p(x, y) = p(x y)p(y) 2

p(x, y) y = 1y = 2 p(x y = 2) x = 3 0.3 0.2 0.5 x = 2 x = 1 0.2 0.1 0.1 0.1 0.25 0.25 p(y) 0.6 0.4 p(x, y = 2) Rysunek 3: Przykład zastosowania reguł rachunku prawdopodobieństwa. Rysunek 4: Przykład funkcji gęstości i rozkładu prawdopodobieństwa (dystrybuanty). 3

2 Wnioskowanie Zakładamy dwa rodzaje zmiennych losowych: Zmienne wejściowe (ang. inputs): x Zmienne wyjściowe (ang. outputs): y Zmienne mają wspólny rozkład p(x, y), który dla nas jest nieznany. Wiemy, że istnieje zależność między zmiennymi x i y. Zakładamy, że ta zależność może być przybliżona zależnością funkcyjną y = f(x), tj. ustalonemu x odpowiada dokładnie jedna wartość y. Rysunek 5: Idea wnioskowania, tj. istnienia zależności między zmiennymi. Wyznaczenie wartości y na podstawie x nazywamy podejmowaniem decyzji (ang. decision making), wnioskowaniem (ang. inference) albo predykcją (ang. prediction). W celu znalezienia zależności f(x) minimalizować będziemy ryzyko: R[f] = L(y, f(x)) p(x, y)dxdy [ ] = E x,y L(y, f(x)). 4

L oznacza funkcję straty (ang. loss function): 1, jeśli y f(x) L(y, f(x)) = 0, w p.p. (klasyfikacja) L(y, f(x)) = ( y f(x) ) 2 (regresja) Można pokazać, że w celu minimalizacji ryzyka R[f] wystarczy minimalizować E y [ L(y, f(x)) x ]. f (x) = arg max p(y x) y [ ] f (x) = E y y x = y p(y x)dy (klasyfikacja) (regresja) 3 Modelowanie Najogólniej relacja pomiędzy zmiennymi x i y może być opisana przy pomocy łącznego rozkładu p(x, y). Wtedy rozkład warunkowy p(y x), na podstawie którego wnioskujemy, wyznaczamy z zależności: p(y x) = p(x, y) p(x) = p(x, y) y p(x, y) Zakładamy, że rzeczywisty rozkład p(x, y) może być zamodelowany poprzez p(x, y θ ), gdzie parametry θ nie są dla nas znane. Znana jest jedynie postać modelu p(x, y θ). Przykładowo p(x, y θ) = N (x, y µ, Σ), gdzie postać modelu to rozkład normalny, a parametry θ = {µ, Σ}. Modele generujące (ang. generative models) modelujemy osobno rozkłady p(x y, θ) i p(y θ). Wtedy p(x, y θ) = p(x y, θ) p(y θ), skąd p(y x, θ) = p(x y, θ) p(y θ) y p(x y, θ) p(y θ). Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na zmienną decyzyjną, p(y x, θ). Modele funkcyjne (ang. discriminant functions) bezpośrednio modelujemy zależność funkcyjną y = f(x; θ), bez korzystania z prawdopodobieństw. 5

Rysunek 6: Idea modelowania. 4 Uczenie Dysponujemy ciągiem niezależnych obserwacji D = {(x 1, y 1 ),..., (x N, y N )}, wygenerowanych z rzeczywistego rozkładu p(x, y). Uczenie polega na optymalizowaniu względem θ wybranej funkcji kosztu dopasowującej model p(x, y θ) do obserwacji D. Definiujemy wiarygodność (ang. likelihood) parametrów przy danym ciągu obserwacji: N p(d θ) = p(x n, y n θ) n=1 Wartość wiarygodności mówi o pewności z jaką nasz model o ustalonych parametrach θ mógł wygenerować obserwacje D. Niepewność parametru θ będziemy modelować rozkładem a priori p(θ) (ang. prior). Reguły prawdopodobieństwa (wzór Bayesa) pozwalają modyfikować niepewność parametru poprzez uwzględnienie obserwacji. Otrzymujemy rozkład a posteriori (ang. posterior): p(θ D) = p(d θ)p(θ) p(d) posterior likelihood prior Można pokazać, że jeśli θ jest rzeczywistym parametrem, który odpowiada za generowanie danych, to jeśli p(θ ) > 0, wtedy: lim p(θ D n) = δ(θ θ ) n 6

Rysunek 7: Idea uwzględnienia niepewności parametrów w modelowaniu. Uczenie częstościowe (ang. frequentist learning) wyznaczenie estymatora punktowego parametrów θ: estymacja maksymalnej wiarygodności (ang. maximum likelihood estimation, ML): θ ML = arg max p(d θ), θ estymacja maksymalnej a posteriori (ang. maximum a posteriori estimation, MAP): θ MAP = arg max p(θ D). θ Uczenie bayesowskie (ang. Bayesian learning) wyznaczenie rozkładu predykcyjnego (ang. predictive distribution), tj. wycałkowanie względem nieznanych parametrów: 5 Systemy dynamiczne p(y x, D) = p(y x, θ) }{{} model p(θ D) dθ. }{{} posterior Dotychczas rozważaliśmy zjawiska, które nie zależały od czasu, tj. zakładaliśmy, że obserwowane dane są generowane niezależnie z tego samego rozkładu (independent and identically distributed i.i.d.). Jednakże w wielu przypadkach założenie to jest nieprawdziwe. Dlatego też rozważa się sytuacje dla danych sekwencyjnych. Dane sekwencyjne zazwyczaj pojawiają się przy okazji pomiarów szeregów czasowych, np. pomiarów opadów deszczu w kolejnych dniach na zadanym obszarze, dzienne wartości kursu walut, czy wartości cech akustycznych w kolejnych klatkach nagrania mowy. Sekwencyjność danych może nie zależeć od czasu, np. kolejność nukleotydów w DNA, kolejność liter czy wyrazów w tekście pisanym. 7

Warto również rozróżnić pomiędzy rozkładami stacjonarnymi a niestacjonarnymi. W przypadku stacjonarnym dane ewoluują w czasie, ale rozkład, z którego są generowane, pozostaje bez zmian. Natomiast w przypadku niestacjonarnym rozkład jest zmienny w czasie. Istnieje wiele sposobów pozwalających na modelowanie danych sekwencyjnych, np.: modelowanie deterministyczne: równania różniczkowe (czas ciągły): równania różnicowe (czas dyskretny): modelowanie probabilistyczne: dx dt = f(x) x n+1 = f(x n ) modele (łańcuchy) Markowa, tzn. rozkład dla obecnego stanu zależy od stanów poprzednich, na przykład model Markowa pierwszego rzędu: i funkcja wiarygodności: Systemy dynamiczne (szum: η x, η y ): p(x n+1 x 1,..., x n ) = p(x n+1 x n ) N p(x 1,..., x N ) = p(x 1 ) p(x n x n 1 ) n=2 x n+1 = f(x n, η x ) y n+1 = g(x n+1, η y ) oraz ich szczególny przypadek Liniowych Systemów Dynamicznych (zakłada się szum gaussowski η x i η y ): p(x n+1 x n ) = N (x n+1 Ax n, Σ x ) p(y n+1 x n+1 ) = N (y n+1 Bx n+1, Σ y ) 8