2. Empiryczna wersja klasyfikatora bayesowskiego

Podobne dokumenty
5. Analiza dyskryminacyjna: FLD, LDA, QDA

7. Maszyny wektorów podpierajacych SVMs

1 Klasyfikator bayesowski

Analiza danych. TEMATYKA PRZEDMIOTU

10. Redukcja wymiaru - metoda PCA

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Metody systemowe i decyzyjne w informatyce

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

9. Praktyczna ocena jakości klasyfikacji

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

STATYSTYKA

Testowanie hipotez statystycznych.

Deska Galtona. Adam Osękowski. Instytut Matematyki, Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski

6.4 Podstawowe metody statystyczne

Spis treści 3 SPIS TREŚCI

Własności statystyczne regresji liniowej. Wykład 4

Statystyka matematyczna dla leśników

Regresyjne metody łączenia klasyfikatorów

Agnieszka Nowak Brzezińska Wykład III

166 Wstęp do statystyki matematycznej

Ważne rozkłady i twierdzenia c.d.

Wprowadzenie. Data Science Uczenie się pod nadzorem

Weryfikacja hipotez statystycznych

Statystyka opisowa- cd.

Statystyka w przykładach

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

POLITECHNIKA WARSZAWSKA

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Metody probabilistyczne

W4 Eksperyment niezawodnościowy

Agata Boratyńska Statystyka aktuarialna... 1

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

1 Estymacja przedziałowa

Wnioskowanie statystyczne. Statystyka w 5

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Estymacja w regresji nieparametrycznej

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Agnieszka Nowak Brzezińska Wykład III

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Estymacja punktowa i przedziałowa

Testowanie hipotez statystycznych. Wprowadzenie

Statystyka matematyczna i ekonometria

przedmiot podstawowy obowiązkowy polski drugi

Wydział Matematyki. Testy zgodności. Wykład 03

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Prawdopodobieństwo i statystyka r.

WYKŁAD: Perceptron Rosenblatta. Maszyny wektorów podpierających (SVM). Empiryczne reguły bayesowskie. Zaawansowane Metody Uczenia Maszynowego

CYFROWE PRZETWARZANIE SYGNAŁÓW

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Widzenie komputerowe (computer vision)

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Statystyka i Analiza Danych

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Komputerowa Analiza Danych Doświadczalnych

Rozkłady zmiennych losowych

STATYSTYKA MATEMATYCZNA

Prawdopodobieństwo czerwonych = = 0.33

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Metody probabilistyczne

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

PARAMETRY, WŁAŚCIWOŚCI I FUNKCJE NIEZAWODNOŚCIOWE NAPOWIETRZNYCH LINII DYSTRYBUCYJNYCH 110 KV

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Estymatory regresji rangowej oparte na metodzie LASSO

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Statystyka Matematyczna Anna Janicka

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Grupowanie materiału statystycznego

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Estymacja parametru rozkładu Rayleigha i logistycznego w terminach k-tych wartości rekordowych

WYKŁAD 6. Reguły decyzyjne

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Testowanie hipotez statystycznych

Wnioskowanie bayesowskie

Analiza przeżycia. Wprowadzenie

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Wykład Ćwiczenia Laboratorium Projekt Seminarium 30

Elementy modelowania matematycznego

Testowanie hipotez statystycznych.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Transkrypt:

Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1

1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski wymaga pełnej informacji probabilistycznej, tzn. muszą być znane prawdopodobieństwa a priori klas oraz funkcje gęstości prawdopodobieństwa w klasach. Nieznane rozkłady prawdopodobieństwa w klasach 1, 2,..., M można estymować na podstawie M ciągów uczących. { Każdy ciąg uczący zawiera N k obserwacji X (k) j } Nk j=1 z klasy k {1, 2,..., M}. klasa 1 klasa 2 klasa M ˆp 1 ˆp 2 ˆp M ˆf 1 (x) ˆf 2 (x) ˆf M (x) N 1 N 2 N M 2

2. Estymacja prawdopodobieństw a priori klas Prawdopodobieństwa a priori klas estymujemy za pomocą częstości ich występowania, tj. ˆp k = N k N 1 + N 2 + + N M. (1) dla każdej klasy k M, M = {1, 2,..., M}. 3

3. Estymacja funkcji gęstości prawdopodobieństwa Metody parametryczne - zakładamy pewien rozkład prawdopodobieństwa i estymujemy jego parametry. Metody nieparametryczne - umożliwiają estymację dowolnego rozkładu. 4

4. Histogram Standardowy histogram dzieli przestrzeń cech X na przedziały o szerokości, a następnie zlicza liczbę n i obserwacji, które wpadły do i-tego przedziału I i = (t i, t i + ], tzn. n i = # { X j I i } = # { Xj (t i, t i + ] } (2) = # { X j t i + } # { X j < t i } = N j=1 (3) ( 1 { Xj t i + } 1 { X j < t i }). (4) 5

Histogram to funkcja schodkowa h(x;, N) = n i 1{x I i }, (5) i która w punkcie x należącym do i-tego przedziału przyjmuje wartość n i (pozostałe elementy sumy są wtedy zerowe). Rysunek 1. Przykładowy histogram dla ciągu uczącego o liczności N = 1000. Źródło: opracowanie własne 6

Rysunek 2. Deska Galtona - przykład nieparametrycznej estymacji funkcji gęstości dla rozkładu normalnego. Źródło: [2] 7

5. Nieparametryczna estymacja funkcji gęstości prawdopodobieństwa Funkcja gęstości prawdopodobieństwa f (x) spełnia warunek ˆ f (x) = 1. (6) X Aby histogram estymował funkcję gęstości prawdopodobieństwa, należy go znormalizować poprzez podzielenie liczby n i obserwacji przez całkowitą liczbę obserwacji N oraz szerokość przedziału. Nieparametryczny estymator funkcji gęstości prawdopodobieństwa przyjmuje formę: ˆf (x) = ˆf (x;, N) = i 8 n i N 1{x I i}. (7)

Rysunek 3. Nieparametryczna estymacja gęstości dla różnych szerokości przedziałów histogramu. Źródło: [1] 9

5. Empiryczna wersja klasyfikatora bayesowskiego Korzystając z zasady plug-in, wstawiamy do algorytmu bayesowskiego odpowiednie estymatory: w miejsce prawdopodobieństw a priori wystąpienia klas p k - ich częstości ˆp k, k M, w miejsce funkcji gęstości prawdopodobieństwa w klasach f k (x) - ich nieparametryczne estymatory ˆf k (x), k M. Empiryczny klasyfikator bayesowski w przypadku dwóch klas przyjmuje wtedy postać 1, gdy ˆp 1 ˆf 1 (x) > ˆp 2 ˆf 2 (x), Ψ (x) = 2, w przeciwnym wypadku. (8) 10

Jeżeli w obu klasach przyjęto identyczny podział przestrzeni cech na przedziały I i, to empiryczny klasyfikator bayesowski w przypadku dwóch klas otrzymuje postać N 1, gdy 1 Ψ (N (x) = 1 +N 2 ) n (1) i i N 1 1{x I i} > N 2 (N 1 +N 2 ) n (2) i i N 2 1{x I i}, 2, w przeciwnym wypadku. (9) Regułę decyzyjną (9) można uprościć. Jeżeli zaobserwowano cechę o wartości x z i-tego przedziału histogramu, tzn. x I i, to empiryczny klasyfikator bayesowski bazuje jedynie na licznościach obserwacji w tym przedziale w klasie 1 i klasie 2 1, gdy n (1) Ψ i > n (2) i, (x) = 2, w przeciwnym wypadku. (10) 11

Przy założeniu, że analizowany obraz x (t i, t i + ], (11) empiryczny klasyfikator bayesowski przyjmuje ostatecznie postać opartą w jawny sposób { } o ciągi uczące X (1) N1 { } j oraz X (2) N2 j : j=1 j=1 1, gdy N 1 j=1 Ψ (x) = > N 2 j=1 ( { 1 ( 1 X (1) j 2, w przeciwnym wypadku. } { t i + 1 } { X (2) j t i + 1 }) X (1) j < t i { X (2) j < t i }), (12) 12

6. Zjawisko pustej przestrzeni Zjawisko pustej przestrzeni, inaczej zwane przekleństwem wymiarowości, występuje w przypadku: dużej liczby cech (dużego wymiaru zadania D 1), zbyt małej liczby obserwacji (liczności ciągów uczących N k w klasach k M ). 13

Rysunek 4. Ilustracja przekleństwa wymiarowości, obrazująca wykładniczy wzrost liczby obszarów, na które podzielono przestrzeń cech w zadaniu estymacji nieparametrycznej. Źródło: [1] 14

Literatura [1] C.M. Bishop, Pattern Recognition and Machine Learning, Springer Series: Information Science and Statistics (2006). [2] http://pl.wikipedia.org/wiki/deska_galtona [3] http://www.youtube.com (szukaj pod hasłem: Galton board) 15