Podstawowe modele probabilistyczne

Podobne dokumenty
WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Metody systemowe i decyzyjne w informatyce

Wykład 3 Jednowymiarowe zmienne losowe

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

SPOTKANIE 3: Regresja: Regresja liniowa

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

WYKŁAD 2. Problem regresji - modele liniowe

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Rozkłady prawdopodobieństwa

Zmienna losowa i jej rozkład Dystrybuanta zmiennej losowej Wartość oczekiwana zmiennej losowej

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Statystyka matematyczna dla leśników

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Prawdopodobieństwo i statystyka r.

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Szkice do zajęć z Przedmiotu Wyrównawczego

5 Przegląd najważniejszych rozkładów

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Zmienna losowa. Rozkład skokowy

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3.

Prawdopodobieństwo i statystyka

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Prawdopodobieństwo i statystyka

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Elementy Rachunek prawdopodobieństwa

PRAWDOPODOBIEŃSTWO. ZMIENNA LOSOWA. TYPY ROZKŁADÓW

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Prawdopodobieństwo i statystyka

Statystyka. Magdalena Jakubek. kwiecień 2017

Rachunek Prawdopodobieństwa Rozdział 5. Rozkłady łączne

Procesy stochastyczne

Ważne rozkłady i twierdzenia c.d.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Agata Boratyńska Statystyka aktuarialna... 1

12DRAP - parametry rozkładów wielowymiarowych

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Procesy stochastyczne

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Prawdopodobieństwo i statystyka

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Przestrzeń probabilistyczna

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Komputerowa analiza danych doświadczalnych

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Matematyka stosowana i metody numeryczne

Rachunek Prawdopodobieństwa i Statystyka

Dyskretne zmienne losowe

Zmienne losowe ciągłe i ich rozkłady

Wykład 2 Zmienne losowe i ich rozkłady

Rozkłady prawdopodobieństwa zmiennych losowych

Rachunek prawdopodobieństwa i statystyka

STATYSTYKA I DOŚWIADCZALNICTWO

Testowanie hipotez statystycznych.

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

Rachunek prawdopodobieństwa i statystyka

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Rachunek prawdopodobieństwa 1B; zadania egzaminacyjne.

Fuzja sygnałów i filtry bayesowskie

Rachunek prawdopodobieństwa- wykład 6

Transkrypt:

Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019

Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje częstość występowania pewnego zjawiska. Wyrażone jest pewną wartością rzeczywistą z przedziału [0, 1]. Suma prawdopodobieństw wszystkich możliwych zdarzeń jest równa 1. Możliwe zdarzenia reprezentowane są za pomocą zmiennej losowej X. 2/33

Zmienna losowa Zmienna losowa to funkcja X(ω) : Ω X, która danemu stanowi świata (zdarzeniu elementarnemu) ω przyporządkowuje pewną wartość x. Możemy poznać / zmierzyć jedynie wartości tej funkcji, nigdy argumenty. Najwięcej, co możemy odkryć, to rozkład zmiennej losowej p(x), czyli jak często pojawia się konkretna wartość zmiennej. Przykład: rzut kostką sześcienną X = {1, 2, 3, 4, 5, 6} p(x) = 1/6 3/33

Zmienne niezależne Mówimy, że dwie zmienne losowe X, Y są niezależne, gdy rozkład spełnia warunek p(x, y) = p(x)p(y) Możemy próbować przewidywać wartość y, obserwując x, jedynie wtedy, gdy istnieje zależność pomiędzy nimi. 4/33

Dyskretne zmienne losowe Zbiór możliwych wartości X jest co najwyżej przeliczalny. Suma prawdopodobieństw równa się 1: p(x = x) = p(x) = 1. x X x X Dla podzbioru A X : p(x) = 1 p(x), x A x A gdzie A stanowi dopełnienie zbioru A. 5/33

Ciągłe zmienne losowe Rozkład opisuje funkcją gęstości p(x). Prawdopodobieństwo X [a, b]: p(a X b) = Dystrybuanta: b a p(x)dx p(x b) = F (b) = b p(x)dx Funkcja gęstości spełnia reguły: brzegową: p(x) = p(x, y)dy łańcuchową: p(x, y) = p(x y)p(y) 6/33

Wartość oczekiwana Wartość oczekiwana jest średnią wartością zmiennej losowej. Dla rozkładu dyskretnego definiuje się następująco: E[X] = x X x p(x), dla rozkładu ciągłego definiuje się następująco: E[X] = x p(x)dx, x X Wartość oczekiwana dla rzutu niesymetryczną monetą: E[X] = 1 θ + 0 (1 θ) = θ. 7/33

Wariancja i odchylenie standardowe Wariancja opisuje rozpiętość rozkładu (jak bardzo odchylają się wartości x od średniej) i wyraża się następująco: V ar[x] = E[(X E[X]) 2 ] = E[X 2 ] (E[X]) 2 Odchylenie standardowe definiowane jest jako pierwiastek z wariancji: std[x] = Wariancja dla rzutu monetą: V ar[x] V ar[x] = θ (1 θ). 8/33

Korelacja i kowariancja Miarą liniowej zależności pomiędzy zmienną losową X i Y jest kowariancja zadana wzorem: cov[x, Y ] = E[(X E[X])(Y E[Y ])] = E[XY ] E[X]E[Y ]. Kowariancja przyjmuje wartości z przedziału (, ), w praktyce wygodniej jest operować na znormalizowanej postaci kowariancji nazywanej korelacją: corr[x, Y ] = cov[x, Y ] V ar[x]v ar[y ], która przyjmuje wartości z przedziału [ 1, 1]. 9/33

Korelacja i kowariancja Jeśli dwie zmienne są nieskorelowane, to nie oznacza, że są niezależne. 10/33

Rozkład dwupunktowy Zmienna losowa przyjmuje wartości ze zbioru x {0, 1}. Funkcja rozkładu prawdopodobieństwa: Bern(x θ) = θ I(x=1) (1 θ) I(x=0) = θ x (1 θ) 1 x Rozkład ma interpretację pojedynczego rzutu monetą. Parametr θ reprezentuje prawdopodobieństwo reszki w rzucie monetą. Podstawowe własności rozkładu: E[X] = θ, V ar[x] = θ (1 θ). 11/33

Rozkład wielopunktowy Wektory binarnych zmiennych losowych o wartościach x i {0, 1} spełniających warunek K i=1 x i = 1. Rozkład prawdopodobieństwa: Cat(x θ) = K i=1 θ I(x i=1) i Rozkład ma interpretację rzutu K-ścienną kostką. Parametr θ i reprezentuje prawdopodobieństwo wypadnięcia i oczek. Podstawowe własności rozkładu: E[X j ] = θ j, V ar[x j ] = θ j (1 θ j ), cov[x j, X i ] = θ j θ i 12/33

Rozkład jednostajny Funkcja gęstości, x R: 1 U(x a, b) =, x [a, b], b a 0, w.p.p. funkcja gęstości Podstawowe własności rozkładu: dystrybuanta E[X] = a + b 2 (b a)2, V ar[x] =. 12 13/33

Rozkład Gaussa / normalny Funkcja gęstości, x R: N (x µ, σ 2 ) = 1 (x µ)2 e 2σ 2 2πσ 2 Podstawowe własności rozkładu: E[X] = µ, V ar[x] = σ 2. 14/33

Wielowymiarowy rozkład Gaussa / normalny Funkcja gęstości, x R K : N (x µ, Σ) = 1 (2π) K 2 Σ 1 2 e 1 2 (x µ)t Σ 1 (x µ) Podstawowe własności rozkładu: E[x] = µ, cov[x] = Σ. Inną parametryzacją jest macierz precyzji Λ = Σ 1. 15/33

Rozkład Gamma Funkcja gęstości, x > 0: Ga(x a, b) = ba Γ(b) xa 1 e bx, Γ(b) = 0 u b 1 e u du. Podstawowe własności rozkładu: E[X] = a b, V ar[x] = a b. 2 16/33

Rozkład Beta Funkcja gęstości, x [0, 1]: Beta(x a, b) = xa 1 (1 x) b 1, B(a, b) B(a, b) = Γ(a)Γ(b) Γ(a + b) Podstawowe własności rozkładu: E[X] = V ar[x] = a a + b ab (a + b) 2 (a + b + 1). 17/33

Funkcja wiarygodności Dysponujemy niezależnymi obserwacjami D = {x n } N n=1. Rozpatrujemy model p(x θ) dla rozkładu, z którego pochodzą dane. Funkcję wiarygodności (ang. likelihood function) definiuje się następująco: N p(d θ) = p(x n θ). n=1 18/33

Funkcja wiarygodności - Przykład 1 Dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {0, 0, 0, 1, 1, 0, 1, 0, 1} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu Bern(x 0.5), czy też z rozkładu Bern(x 0.75). Wartości funkcji wiarygodności p(d θ) dla rozkładów wynoszą: p(d 0.5) = 0.5 9 = 0.001953125, p(d 0.75) = 0.75 4 0.25 5 = 0.00030899. 19/33

Funkcja wiarygodności - Przykład 1 Dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {0, 0, 0, 1, 1, 0, 1, 0, 1} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu Bern(x 0.5), czy też z rozkładu Bern(x 0.75). Wartości funkcji wiarygodności p(d θ) dla rozkładów wynoszą: p(d 0.5) = 0.5 9 = 0.001953125, p(d 0.75) = 0.75 4 0.25 5 = 0.00030899. 19/33

Funkcja wiarygodności- Przykład 2 Dysponujemy ciągiem obserwacji D = {0.24, 0.32, 0.21, 0.2, 0.87, 0.23, 0.12, 0.01} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu N (x 0, 1), czy też z rozkładu N (x 1, 0.1). Wartości funkcji wiarygodności p(d 0, 1) = 0.00037608, p(d 1, 0.1) = 2.15 10 20. 20/33

Funkcja wiarygodności- Przykład 2 Dysponujemy ciągiem obserwacji D = {0.24, 0.32, 0.21, 0.2, 0.87, 0.23, 0.12, 0.01} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu N (x 0, 1), czy też z rozkładu N (x 1, 0.1). Wartości funkcji wiarygodności p(d 0, 1) = 0.00037608, p(d 1, 0.1) = 2.15 10 20. 20/33

Estymator maksymalnej wiarygodności Interesuje nas znalezienie modelu o najwyższej wiarygodności. Formalnie, zadanie to formułujemy jako zadanie optymalizacji: θ ML = arg max p(d θ) θ N = arg max p(x n θ), θ n=1 gdzie θ ML nazywany jest estymatorem maksymalnej wiarygodności (ang. maximal likelihood estimate). 21/33

Estymator maksymalnej wiarygodności W praktyce definiuje się alternatywne zadanie optymalizacji: θ ML = arg min log p(d θ) θ N = arg min log p(x n θ). θ n=1 Okazuje się, że operacja logarytmu nie zmienia położenia punktu optymalnego! 22/33

Estymator ML - Przykład 1 Negatywny logarytm z funkcji wiarygodności dla rozkładu dwupunktowego: N log Bern(D θ) = {x n log θ + (1 x n ) log(1 θ)} n=1 = m log θ (N m) log(1 θ) gdzie m oznacza liczbę reszek. Estymator ML: θ ML = m N 23/33

Estymator ML - Przykład 2 Negatywny logarytm z funkcji wiarygodności dla rozkładu normalnego: log N (D µ, σ 2 ) = 1 2σ 2 N (x n µ) 2 N n=1 2 log σ2 N 2 log 2π Estymator ML parametru µ jest równy: N µ ML = 1 N x n n=1 Estymator ML parametru σ 2 : σ 2 ML = 1 N N (x n µ ML ) 2 n=1 24/33

Estymator maksymalnego a posteriori Załóżmy, że dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {1, 1, 1, 1, 1}. Jeżeli wykonamy estymację parametrów ML parametru θ wówczas: θ ML = m N = 5 5 = 1. W rezultacie otrzymujemy rozkład dwupunktowy dla którego prawdopodobieństwo reszki wynosi 1. W celu rozwiązania tego problemu załóżmy, że parametr θ charakteryzuje się niepewnością. 25/33

Estymator maksymalnego a posteriori Estymację formułujemy jako zadanie optymalizacji: θ MAP = arg max p(θ D), θ gdzie θ MAP nazywany jest estymatorem maksymalnego a posteriori (ang. maximal a posteriori estimate). Korzystając z reguły Bayesa mamy: θ MAP = arg max p(θ)p(d θ). θ 26/33

Estymator MAP - Przykład Wprowadźmy rozkład na parametr θ w rozkładzie Bern(x θ): Beta(θ a, b) = Γ(a + b) Γ(a)Γ(b) θa 1 (1 θ) b 1. Wówczas mamy dla rozkładu a posteriori: p(θ D) gdzie l = N m. Estymator MAP: Γ(a + b + N) Γ(a + m)γ(b + l) θm+a 1 (1 θ) l+b 1, θ MAP = m + a 1 N + a + b 2 27/33

Modele generujące Modele generujące (ang. generative models) zakładają, że modelujemy łączne prawdopodobieństwo korzystając z reguły łańcuchowej: p(x, y) = p(x y)p(y) Do modelowania komponentów p(y) i p(x y) wykorzystujemy elementarne modele i całość składamy jak z klocków. 28/33

Model GDA Model GDA (ang. Gaussian Discriminant Analysis) zakłada: Mamy K klas. Klasa reprezentowana jest w schemacie one-hot przez wektor y o rozkładzie: K p(y) = Cat(y θ) = k=1 Obserwacje x z każdej klasy modelowane przy pomocy wielowymiarowych rozkładów normalnych: K p(x y) = N (x µ k, Σ k ) y k k=1 θ y k k 29/33

Model GDA Estymatory parametrów {θ, µ 1,..., µ K, Σ 1,..., Σ K } wyznaczamy metodą największej wiarygodności. Wnioskowanie, czyli wyznaczenie rozkładu a posteriori na klasę robimy ze wzoru Bayesa: p(y k = 1 x) = N (x µ k, Σ k )θ k Kj=1 N (x µ j, Σ j )θ j Predykujemy poprzez wybór najbardziej prawdopodobnej klasy: k = arg max p(y k = 1 x) k 30/33

Model Naive Bayes Model Naiwnego Bayesa (ang. Naive Bayes) zakłada uproszczenie, że poszczególne obserwacje z wektora x są niezależne: D p(x y) = p(x d y) d=1 W przypadku ciągłym x R D, w modelu GDA używamy wtedy diagonalnych macierzy kowariancji postaci Σ k = diag(σ k ): K p(x y) = N (x µ k, diag(σ k )) y k k=1 K D = N (x d µ k,d, σ k,d ) y k k=1 d=1 31/33

Model Naive Bayes Uproszczenie prowadzi do istotnej redukcji liczby parametrów: Σ k D(D + 1) 2 VS. diag(σ k ) D Jest to szczególnie istotne w przypadku danych wysokowymiarowych. 32/33

Model Naive Bayes Dla danych dyskretnych x {0, 1} D zakładamy, że cechy modelujemy niezależnymi rozkładami dwupunktowymi: K D p(x y) = Bern(x d θ d,k ) y k k=1 d=1 Założenie o niezależności jej tutaj jeszcze bardziej istotne ze względu na liczbę parametrów: rozkład pełny 2 D 1 VS. niezależne cechy D Wnioskowanie i predykcja są analogiczne jak w modelu GDA. 33/33