WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

Podobne dokumenty
Podstawowe modele probabilistyczne

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Wykład 3 Jednowymiarowe zmienne losowe

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 3: Regresja: Regresja liniowa

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

12DRAP - parametry rozkładów wielowymiarowych

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Metody probabilistyczne

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Rozkłady prawdopodobieństwa zmiennych losowych

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Zmienna losowa i jej rozkład Dystrybuanta zmiennej losowej Wartość oczekiwana zmiennej losowej

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Dyskretne zmienne losowe

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyka matematyczna dla leśników

Rozkłady prawdopodobieństwa

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Przestrzeń probabilistyczna

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

II WYKŁAD STATYSTYKA. 12/03/2014 B8 sala 0.10B Godz. 15:15

Zmienna losowa. Rozkład skokowy

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Elementy Rachunek prawdopodobieństwa

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Agata Boratyńska Statystyka aktuarialna... 1

Szkice do zajęć z Przedmiotu Wyrównawczego

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

WYKŁAD 2. Problem regresji - modele liniowe

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Rachunek prawdopodobieństwa i statystyka

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

Prawdopodobieństwo i statystyka r.

Sieci Mobilne i Bezprzewodowe laboratorium 1

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Statystyka Opisowa z Demografią oraz Biostatystyka. Zmienne losowe. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA

Prawdopodobieństwo i statystyka

Wprowadzenie do uczenia maszynowego. Jakub Tomczak

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

STATYSTYKA I DOŚWIADCZALNICTWO

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3.

Komputerowa analiza danych doświadczalnych

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 2 ZADANIA - ZESTAW 2

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Metody systemowe i decyzyjne w informatyce

Testowanie hipotez statystycznych.

Najczęściej spotykane rozkłady dyskretne:

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Metody Rozmyte i Algorytmy Ewolucyjne

PRAWDOPODOBIEŃSTWO. ZMIENNA LOSOWA. TYPY ROZKŁADÓW

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Ważne rozkłady i twierdzenia c.d.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Statystyka w analizie i planowaniu eksperymentu

Prawdopodobieństwo i statystyka

Biostatystyka, # 3 /Weterynaria I/

Statystyka matematyczna

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Metody Statystyczne. Metody Statystyczne.

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

5 Przegląd najważniejszych rozkładów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Wykład 2 Zmienne losowe i ich rozkłady

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Rozpoznawanie obrazów

Wybrane rozkłady zmiennych losowych. Statystyka

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

Transkrypt:

Wrocław University of Technology WYKŁAD 2 i 3 Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne autor: Maciej Zięba Politechnika Wrocławska

Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje pewne przekonanie dotyczące zjawisk występujących w świecie. Przekonanie to wyraża się pewną wartością rzeczywistą z przedziału [0, 1]. Przyjmuje się, że suma przekonań odnośnie wszystkich możliwych zdarzeń dotyczących danego zjawiska jest równa 1. Możliwe zdarzenia reprezentowane są za pomocą zmiennej decyzyjnej X. Zmienna decyzyjna X przyjmuje wartości ze zbioru wartości X, gdzie każdy element zbioru reprezentuje jedno ze zdarzeń elementarnych. Przykład: rzut kostką sześcienną X = {1, 2, 3, 4, 5, 6}, gdzie każdy element odpowiada liczbie wyrzuconych oczek. 2/37

Pojęcie prawdopodobieństwa Częstościowa interpretacja prawdopodobieństwa Interpretacja częstościowa (ang. frequentist interpretation). Podstawą do wyznaczenia prawdopodobieństwa jest częstotliwość pojawiania się zdarzeń w przeszłości. Rzuciłem monetą 15 razy: 3 razy wypadła 1 2 razy wypadła 2, 2 razy wypadła 3 3 razy wypadła 4, 2 razy wypadła 5, 3 razy wypadła 6. Prawdopodobieństwo wylosowania 6 jest równe: p(x = 6) = p(6) = 3 15 = 1 5. 3/37

Pojęcie prawdopodobieństwa Bayesowska interpretacja prawdopodobieństwa Interpretacja Bayesowska (ang. Bayesian interpretation). Prawdopodobieństwo stanowi określony ilościowo stopień niepewności. Podstawą ustalenia prawdopodobieństwa nie jest doświadczenie, tylko informacja. Mamy informację, że ze względu na własności fizyczne kostek prawdopodobieństwo wylosowania 6 jest równe 1 6. Dla jednej na pięć kostek wykorzystywanych w kasynach prawdopodobieństwo wylosowania 6 równe 1 3. Prawdopodobieństwo wylosowania 6 jest równe: p(6) = 4 5 1 6 + 1 5 1 3 = 1 5. 4/37

Dyskretne zmienne losowe Zbiór możliwych wartości X jest co najwyżej przeliczalny. Suma wszystkich prawdopodobieństw równa się 1: p(x = x) = p(x) = 1. x X x X Jeżeli dany jest podzbiór A X, to wówczas: p(x) = 1 p(x), x A x A gdzie A stanowi dopełnienie zbioru A. Każdy rozkład dyskretny dla M-elementowego zbioru X można opisać M 1 parametrami. 5/37

Podstawowe reguły prawdopodobieństwa Niech dane będą dwie zmienne losowe Y i X: Prawdopodobieństwo, że zmienna losowa X przyjmie wartość x, lub też zmienna losowa Y będzie równa y: p(x = x Y = y) = p(x y) = p(x) + p(y) p(x y). Prawdopodobieństwo, że zmienna X przyjmie wartość x, i zmienna losowa Y będzie równa y - reguła łańcuchowa (ang. product rule): p(x y) = p(x, y) = p(x y)p(y) = p(y x)p(x). Jeżeli zmienne losowe są wzajemnie niezależne, to wówczas p(x, y) = p(x)p(y). 6/37

Podstawowe reguły prawdopodobieństwa Prawdopodobieństwo, że zmienna losowa X przyjmie wartość x - reguła brzegowa (ang. sum rule): p(x) = y Y p(x, y) = y Y p(x y)p(y). Prawdopodobieństwo, że zmienna losowa X przyjmie wartość x pod warunkiem, że zmienna losowa Y była równa y. p(x y) = p(x, y), p(y) > 0. p(y) Wykorzystując regułę brzegową i regułę łańcuchową możemy zdefiniować tzn. regułę Bayesa (ang. Bayes rule, theorem): p(x y) = p(y x)p(x) x X p(y x )p(x ). 7/37

Podstawowe reguły prawdopodobieństwa Przykład 1 Mamy do dyspozycji trzy niesymetryczne monety: m 1, m 2, m 3. Prawdopodobieństwa uzyskania reszki, dla każdej z monet są równe: 1 3 dla m 1, 1 2 dla m 2, 1 4 dla m 3. 1. W pierwszej kolejności wykonywany jest rzut monetą m 1. 2. Jeżeli wypadnie reszka, to wykonywany jest rzut monetą m 2, 3. w przeciwnym wypadku rzucamy monetą m 3. Zmienna losowa X reprezentuje pierwszy, a Y drugi rzut. 8/37

Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? 9/37

Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? p(y = r, X = r) = p(y = r X = r) p(x = r) = = 1 2 1 3 = 1 6 9/37

Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? p(y = r, X = r) = p(y = r X = r) p(x = r) = = 1 2 1 3 = 1 6 Jakie jest prawdopodobieństwo, że w drugim rzucie wypadnie reszka? 9/37

Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? p(y = r, X = r) = p(y = r X = r) p(x = r) = = 1 2 1 3 = 1 6 Jakie jest prawdopodobieństwo, że w drugim rzucie wypadnie reszka? p(y = r) = p(y = r X = x)p(x = x) = x {r,o} = 1 2 1 3 + 1 4 2 3 = 1 3 9/37

Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? p(y = r, X = r) = p(y = r X = r) p(x = r) = = 1 2 1 3 = 1 6 Jakie jest prawdopodobieństwo, że w drugim rzucie wypadnie reszka? p(y = r) = p(y = r X = x)p(x = x) = x {r,o} = 1 2 1 3 + 1 4 2 3 = 1 3 Jakie jest prawdopodobieństwo, że w pierwszym rzucie wypadnie reszka, jeżeli wiemy, że w drugim wypadnie orzeł? 9/37

Podstawowe reguły prawdopodobieństwa Przykład 2 Rozważamy problem wykonywania testów diagnostycznych dotyczących raka piersi. 10/37

Podstawowe reguły prawdopodobieństwa Przykład 2 Rozważamy problem wykonywania testów diagnostycznych dotyczących raka piersi. Jeżeli pacjentka ma raka piersi (Y = 1) to prawdopodobieństwo, że test diagnostyczny dał wynik pozytywny ( X = 1) wynosi: p(x = 1 Y = 1) = 0.8 10/37

Podstawowe reguły prawdopodobieństwa Przykład 2 Rozważamy problem wykonywania testów diagnostycznych dotyczących raka piersi. Jeżeli pacjentka ma raka piersi (Y = 1) to prawdopodobieństwo, że test diagnostyczny dał wynik pozytywny ( X = 1) wynosi: p(x = 1 Y = 1) = 0.8 Prawdopodobieństwo, że kobieta ma raka wynosi: p(y = 1) = 0.004 10/37

Podstawowe reguły prawdopodobieństwa Przykład 2 Rozważamy problem wykonywania testów diagnostycznych dotyczących raka piersi. Jeżeli pacjentka ma raka piersi (Y = 1) to prawdopodobieństwo, że test diagnostyczny dał wynik pozytywny ( X = 1) wynosi: p(x = 1 Y = 1) = 0.8 Prawdopodobieństwo, że kobieta ma raka wynosi: p(y = 1) = 0.004 Jeżeli pacjentka nie ma raka (Y = 0) to prawdopodobieństwo że test dał wynik pozytywny (błędnie wykazał raka, X = 1) jest równe: p(x = 1 Y = 0) = 0.1 10/37

Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? 11/37

Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? Wykorzystując regułę Bayesa możemy wyliczyć: p(y = 1 X = 1) = p(x = 1 Y = 1)p(Y = 1) p(x = 1) 11/37

Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? Wykorzystując regułę Bayesa możemy wyliczyć: p(x = 1 Y = 1)p(Y = 1) p(y = 1 X = 1) = p(x = 1) p(x = 1 Y = 1)p(Y = 1) = p(x = 1 Y = 0)p(Y = 0) + p(x = 1 Y = 1)p(Y = 1) 11/37

Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? Wykorzystując regułę Bayesa możemy wyliczyć: = p(x = 1 Y = 1)p(Y = 1) p(y = 1 X = 1) = p(x = 1) p(x = 1 Y = 1)p(Y = 1) p(x = 1 Y = 0)p(Y = 0) + p(x = 1 Y = 1)p(Y = 1) 0.8 0.004 = 0.8 0.004 + 0.1 0.996 = 0.031 11/37

Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? Wykorzystując regułę Bayesa możemy wyliczyć: = p(x = 1 Y = 1)p(Y = 1) p(y = 1 X = 1) = p(x = 1) p(x = 1 Y = 1)p(Y = 1) p(x = 1 Y = 0)p(Y = 0) + p(x = 1 Y = 1)p(Y = 1) 0.8 0.004 = 0.8 0.004 + 0.1 0.996 = 0.031 Prawdopodobieństwo że pacjenta ma raka, jeżeli test diagnostyczny był pozytywny wynosi 0.031!!!! 11/37

Ciągłe zmienne losowe Rozkład prawdopodobieństwa opisany jest funkcją gęstości p(x). Prawdopodobieństwo, że zmienna losowa X przyjmuje wartości z przedziału [a, b]: Rozkład jednostajny funkcja gęstości b p(a X b) = p(x)dx a Funkcja skumulowanej gęstości prawdopodobieństwa (dystrybuanta): p(x b) = P (b) = b p(x)dx dystrybuanta Funkcja gęstości spełnia reguły: brzegową: p(x) = p(x, y)dy łańcuchową: p(x, y) = p(x y)p(y) 12/37

Własności rozkładów prawdopodobieństwa Wartość oczekiwana Typową własnością rozkładu jest wartość oczekiwana (średnia), którą dla rozkładu dyskretnego definiuje się następująco: E[X] = x X x p(x), dla rozkładu ciągłego definiuje się następująco: E[X] = x p(x)dx, x X Wartość oczekiwana dla rozkładu dwupunktowego (rzut monetą): E[X] = 1 θ + 0 (1 θ) = θ. Wartość oczekiwana dla rozkładu jednostajnego: E[X] = b a 1 b a xdx = a + b 2 13/37

Własności rozkładów prawdopodobieństwa Wariancja i odchylenie standardowe Wariancja jest własnością która opisuje rozpiętość rozkładu (jak bardzo odchylają się wartości x od średniej) i definiuje się następująco: V ar[x] = E[(X E[X]) 2 ] = E[X 2 ] (E[X]) 2 Odchylenie standardowe definiowane jest jako pierwiastek z wariancji: std[x] = V ar[x] Wariancja dla rozkładu dwupunktowego: V ar[x] = θ (1 θ). Wariancja dla rozkładu jednostajnego: V ar[x] = (b a)2 12 14/37

Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Miarą liniowej zależności pomiędzy zmienną losową X i Y jest kowariancja zadana wzorem: cov[x, Y ] = E[(X E[X])(Y E[Y ])] = E[XY ] E[X]E[Y ]. Kowariancja przyjmuje wartości z przedziału [0, ), w praktyce wygodniej jest operować na znormalizowanej postaci kowariancji nazywanej korelacją: corr[x, Y ] = cov[x, Y ] V ar[x]v ar[y ], która przyjmuje wartości z przedziału [ 1, 1]. corr[x, Y ] = 1 wtedy, i tylko wtedy gdy zmienne losowe X i Y są liniowo zależne, t.j. istnieją takie wartości parametrów a i b, dla których zachodzi Y = ax + b. Jeżeli zmienne losowe X i Y są niezależne, t.j. p(x, Y ) = p(x)p(y ), wówczas corr[x, Y ] = 0. 15/37

Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Zmienna X pochodzi z rozkładu jednostajnego na przedziale [0, 1], zmienna Y z rozkładu jednostajnego na przedziale [ 2, 2]. Ile wynosi corr[x, Y ]?. 16/37

Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Zmienna X pochodzi z rozkładu jednostajnego na przedziale [0, 1], zmienna Y z rozkładu jednostajnego na przedziale [ 2, 2]. Ile wynosi corr[x, Y ]? Y = 4 X 2 corr[x, Y ] = 1. 16/37

Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Niech dana jest zmienna X rozkładu jednostajnego na przedziale [ 1, 1], oraz zmienna Y = X 2. Ile wynosi corr[x, Y ]?. 17/37

Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Niech dana jest zmienna X rozkładu jednostajnego na przedziale [ 1, 1], oraz zmienna Y = X 2. Ile wynosi corr[x, Y ]? corr[x, Y ] = E[XY ] E[X]E[Y ] = E[X3 ] E[X]E[X 2 ] = 0. V ar[x]v ar[y ] V ar[x]v ar[x2 ] 17/37

Podstawowe rozkłady prawdopodobieństwa Rozkłady dyskretne Rozkład dwupunktowy (ang. Bernoulli distribution): Zmienna losowa X Ber(θ) przyjmuje wartości ze zbioru: X = {0, 1}. Funkcja rozkładu prawdopodobieństwa: Ber(x θ) = θ I(x=1) (1 θ) I(x=0) = θ x (1 θ) 1 x Rozkład ma interpretację pojedynczego rzutu monetą. Parametr θ reprezentuje prawdopodobieństwo sukcesu w rzucie monetą. Podstawowe własności rozkładu: E[X] = θ, V ar[x] = θ (1 θ). 18/37

Podstawowe rozkłady prawdopodobieństwa Rozkłady dyskretne Rozkład dwumianowy (Bernoulliego, ang. binomial distribution): Zmienna losowa X Bin(n, θ) przyjmuje wartości ze zbioru: X = {0, 1,..., n}. Funkcja rozkładu prawdopodobieństwa: ( ) n Bin(x n, θ) = θ x (1 θ) n x, gdzie x ( ) n = x Rozkład ma interpretację n-krotnego rzutu monetą. n! x!(n x)! Parametr θ reprezentuje prawdopodobieństwo sukcesu w rzucie monetą. Podstawowe własności rozkładu: E[X] = nθ, V ar[x] = nθ (1 θ). 19/37

Podstawowe rozkłady prawdopodobieństwa Rozkłady dyskretne Rozkład wielopunktowy (ang. categorical, multinoulli distribution): Wektor zmiennych losowych X Cat(θ) przyjmuje wartości ze zbioru: X = {0, 1} K, x X spełnia warunek K i=1 x i = 1. Funkcja rozkładu prawdopodobieństwa: Cat(x, θ) = K i=1 θ I(xi=1) i Rozkład ma interpretację rzutu K-wymiarową kostką. Parametr θ i reprezentuje prawdopodobieństwo wypadnięcia i oczek. Podstawowe własności rozkładu: E[X j ] = θ j, V ar[x j ] = θ j (1 θ j ), cov[x j, X i ] = θ j θ i 20/37

Podstawowe rozkłady prawdopodobieństwa Rozkłady dyskretne Rozkład wielomianowy (ang. multinominal distribution): Wektor zmiennych losowych X Mu(n, θ) przyjmuje wartości ze zbioru: X = {0, 1,..., n} K, x X spełnia warunek K i=1 x i = n. Funkcja rozkładu prawdopodobieństwa: ( ) n K ( ) Mu(x n, θ) = θ xi i x 1... x, n n! = K x 1,... x K x 1!... x K! i=1 Rozkład ma interpretację n-krotnego rzutu K-wymiarową kostką. Parametr θ i reprezentuje prawdopodobieństwo wypadnięcia i oczek. Podstawowe własności rozkładu: E[X j ] = nθ j, V ar[x j ] = nθ j (1 θ j ), cov[x j, X i ] = nθ j θ i. 21/37

Podstawowe rozkłady prawdopodobieństwa Rozkłady ciągłe Rozkład Gaussa (ang. Gaussian distribution): Zmienna losowa X N (µ, σ 2 ) przyjmuje wartości ze zbioru liczb rzeczywistych. Funkcja rozkładu prawdopodobieństwa: N (x µ, σ 2 ) = 1 (x µ)2 e 2σ 2 2πσ 2 Podstawowe własności rozkładu: E[X] = µ, V ar[x] = σ 2. Rozkład N (0, 1) nazywany jest rozkładem normalnym. Stosowany w modelowaniu ze względu na własności analityczne. 22/37

Podstawowe rozkłady prawdopodobieństwa Rozkłady ciągłe Wielowymiarowy rozkład Gaussa: Wektor zmiennych losowych X N (µ, Σ) przyjmuje wartości ze zbioru R K. Funkcja rozkładu prawdopodobieństwa: N (x µ, Σ) = 1 Σ 1 (x µ) (2π) K/2 Σ 1 e (x µ)t Podstawowe własności rozkładu: E[X] = µ, cov[x] = Σ. Istotną własnością rozkładu jest macierz precyzji Λ = Σ 1. 23/37

Podstawowe rozkłady prawdopodobieństwa Rozkłady ciągłe Rozkład Gamma (ang. gamma distribution): Funkcja rozkładu prawdopodobieństwa: Ga(x a, b) = ba Γ(b) xa 1 e bx, gdzie czynnik normujący Γ(b) zdefiniowany jest następująco: Γ(b) = 0 u b 1 e u du. Podstawowe własności rozkładu: E[X] = a b, V ar[x] = a b 2. 24/37

Podstawowe rozkłady prawdopodobieństwa Rozkłady ciągłe Rozkład Beta (ang. beta distribution): Funkcja rozkładu prawdopodobieństwa: Beta(x a, b) = xa 1 (1 x) b 1, B(a, b) gdzie czynnik normujący B(a, b) zdefiniowany jest następująco: B(a, b) = Γ(a)Γ(b) Γ(a + b) Podstawowe własności rozkładu: E[X] = a a + b, V ar[x] = ab (a + b) 2 (a + b + 1). 25/37

Funkcja wiarygodności Dysponujemy szeregiem niezależnych obserwacji (danymi) D = {(x n )} N n=1. Rozpatrujemy model, który generuje dane z pewnego rozkładu p(x θ). Funkcja wiarygodności (ang. likelihood function) określa, na ile wiarygodne jest to, że dane D zostały wygenerowane z rozkładu p(x, θ): p(d θ) = N p(x n θ). n=1 26/37

Funkcja wiarygodności Przykład Dysponujemy ciągiem obserwacji D = {0.24, 0.32, 0.21, 0.2, 0.87, 0.23, 0.12, 0.01} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu N (0, 1), czy też z rozkładu N (1, 0.1). Wartości funkcji wiarygodności N (D µ, σ 2 ) dla rozkładów wynoszą: N (D 0, 1) = 0.00037608, N (D 1, 0.1) = 2.15 10 20. 27/37

Funkcja wiarygodności Przykład Dysponujemy ciągiem obserwacji D = {0.24, 0.32, 0.21, 0.2, 0.87, 0.23, 0.12, 0.01} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu N (0, 1), czy też z rozkładu N (1, 0.1). Wartości funkcji wiarygodności N (D µ, σ 2 ) dla rozkładów wynoszą: N (D 0, 1) = 0.00037608, N (D 1, 0.1) = 2.15 10 20. 27/37

Funkcja wiarygodności Przykład Dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {o, o, o, r, r, o, r, o, r} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu Ber(x 0.5), czy też z rozkładu Ber(x 0.75). Wartości funkcji wiarygodności Ber(D θ) dla rozkładów wynoszą: Ber(D 0.5) = 0.5 9 = 0.001953125, Ber(D 0.75) = 0.75 4 0.25 5 = 0.00030899. 28/37

Funkcja wiarygodności Przykład Dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {o, o, o, r, r, o, r, o, r} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu Ber(x 0.5), czy też z rozkładu Ber(x 0.75). Wartości funkcji wiarygodności Ber(D θ) dla rozkładów wynoszą: Ber(D 0.5) = 0.5 9 = 0.001953125, Ber(D 0.75) = 0.75 4 0.25 5 = 0.00030899. 28/37

Estymator maksymalnej wiarygodności Interesuje nas znalezienie takich parametrów θ rozkładu p(x θ), dla których funkcja wiarygodności p(d θ) dla danego zbioru danych D przyjmuje wartość najwyższą. Formalnie, zadanie to formułujemy jako zadanie optymalizacji: ˆθ MLE = arg max θ p(d θ) = arg max θ N p(x n θ), n=1 gdzie ˆθ MLE nazywany jest estymatorem maksymalnej wiarygodności (ang. maximal likelihood estimate, MLE). W praktyce definiuje się alternatywne zadanie optymalizacji, dla którego optymalne rozwiązanie jest równoważne optymalnemu rozwiązaniu rozważanego zadania: ˆθ MLE = arg min θ log p(d θ) = arg min θ N log p(x n θ), n=1 29/37

Estymator maksymalnej wiarygodności Przykład Funkcja wiarygodności dla rozkładu Gaussa wynosi: N (D µ, σ 2 ) = N n=1 1 (xn µ)2 e 2σ 2 2πσ 2 Negatywny logarytm z funkcji wiarygodności: log N (D µ, σ 2 ) = 1 2σ 2 N (x n µ) 2 N 2 log σ2 N 2 n=1 Estymator MLE parametru µ jest równy: log 2π µ MLE = 1 N N n=1 Estymator MLE parametru σ 2 jest równy: σ 2 MLE = 1 N x n N (x n µ MLE ) 2 n=1 30/37

Estymator maksymalnej wiarygodności Przykład Funkcja wiarygodności dla rozkładu dwupunktowego wynosi: N Ber(D θ) = θ xn (1 θ) (1 xn) n=1 Negatywny logarytm z funkcji wiarygodności: N log Ber(D θ) = {x n log θ + (1 x n ) log(1 θ)} n=1 Estymator MLE parametru θ jest równy: gdzie m oznacza liczbę sukcesów. θ MLE = m N, 31/37

Estymator maksymalnego a posteriori Wprowadzenie Załóżmy, że dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {r, r, r, r, r}. Jeżeli wykonamy estymację parametrów MLE parametru θ wówczas: θ MLE = m N = 5 5 = 1. W rezultacie otrzymujemy rozkład dwupunktowy dla którego prawdopodobieństwo wypadnięcia reszki wynosi 1. W celu rozwiązania tego problemu załóżmy, że parametr θ charakteryzuje się niepewnością. Innymi słowy zakładamy pewien rozkład prawdopodobieństwa a priori na parametr p(θ). 32/37

Estymator maksymalnego a posteriori Interesuje nas znalezienie takich parametrów θ, dla których prawdopodobieństwo a posteriori p(θ D) dla danego zbioru danych D przyjmuje wartość najwyższą. Formalnie, zadanie to formułujemy jako zadanie optymalizacji: ˆθ MAP = arg max p(θ D), θ gdzie ˆθ MAP nazywany jest estymatorem maksymalnego a posteriori (ang. maximal a posteriori estimate, MAP). Korzystając z reguły Bayesa mamy, że: Więc ostatecznie mamy, że: p(θ D) = p(θ)p(d θ) p(d) ˆθ MAP = arg max p(θ)p(d θ). θ 33/37

Estymator maksymalnego a posteriori Przykład Wprowadźmy rozkład na parametr θ: Beta(θ a, b) = Γ(a + b) Γ(a)Γ(b) θa 1 (1 θ) b 1. Wówczas mamy następujący rozkład a posteriori: p(θ D) = gdzie l = N m. Γ(a + b + N) Γ(a + m)γ(b + l) θm+a 1 (1 θ) l+b 1, Interpretacja a i b: aprioryczna liczba obserwacji. Estymator MAP: ˆθ MAP = m + a 1 N + a + b 2 34/37

Uczenie Bayesowskie i częstościowe Celem uczenia jest znalezienie rozkładu generującego p(x D), który określa, jakie jest prawdopodobieństwo, że dana obserwacja x wygenerowana została z danych D. W przypadku podejścia częstościowego konstrukcja rozkładu przebiega następująco: W pierwszym kroku wykonywana jest estymacja parametrów ˆθ z wykorzystaniem metody MLE lub MAP. W drugim kroku wstawiamy estymator ˆθ do rozkładu i mamy: p(x D) = p(x ˆθ) W przypadku podejścia Bayesowskiego następuje wycałkowanie względem parametrów θ: p(x D) = p(x θ)p(θ D)dθ 35/37

Uczenie Bayesowskie Przykład Interesuje nas znalezienie wartości p(x = r D): p(x = r D) = Podsumowując: = 1 0 1 0 p(x = r θ)p(θ D)dθ θp(θ D)dθ = m + a N + a + b Przykład: D = {r, r, r, r, r, o, r} a = 2, b = 3 θ MLE = m N ˆθ MAP = m + a 1 N + a + b 2 p(x = r D) = m + a N + a + b θ MLE = 6 7 ˆθ MAP = 7 10 p(x = r D) = 2 3 36/37

Literatura Należy zapoznać się z treścią książki (Rozdział 3, 5 i 6): Murphy, Kevin P. Machine learning: a probabilistic perspective. MIT Press, 2012. 37/37