Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Podobne dokumenty
Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

Metody systemowe i decyzyjne w informatyce

Agnieszka Nowak Brzezińska Wykład III

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Wnioskowanie bayesowskie

Rozpoznawanie obrazów

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Własności statystyczne regresji liniowej. Wykład 4

Metody systemowe i decyzyjne w informatyce

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Agnieszka Nowak Brzezińska

Metody systemowe i decyzyjne w informatyce

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Modele zapisane w przestrzeni stanów

Metody systemowe i decyzyjne w informatyce

Testowanie hipotez statystycznych.

Analiza danych. TEMATYKA PRZEDMIOTU

Prawdopodobieństwo i statystyka

Metody probabilistyczne klasyfikatory bayesowskie

2. Empiryczna wersja klasyfikatora bayesowskiego

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozpoznawanie obrazów

Prawdopodobieństwo czerwonych = = 0.33

1 Klasyfikator bayesowski

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

0 + 0 = 0, = 1, = 1, = 0.

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Regresja liniowa wprowadzenie

Metody systemowe i decyzyjne w informatyce

Uogolnione modele liniowe

Metody systemowe i decyzyjne w informatyce

Elementy modelowania matematycznego

Fuzja sygnałów i filtry bayesowskie

Podstawowe modele probabilistyczne

Zawansowane modele wyborów dyskretnych

Celem tych ćwiczeń jest zapoznanie się z klasyfikacją za pomocą sieci neuronowych.

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Lista 6. Kamil Matuszewski 13 kwietnia D n =

Spacery losowe generowanie realizacji procesu losowego

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Rozpoznawanie obrazów

Prawdopodobieństwo i statystyka r.

Drugie kolokwium z Rachunku Prawdopodobieństwa, zestaw A

Wstęp do Rachunku Prawdopodobieństwa, IIr. WMS

Klasyfikacja metodą Bayesa

Optymalizacja systemów

Elementy statystyki wielowymiarowej

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Analiza przeżycia. Wprowadzenie

Metody Rozmyte i Algorytmy Ewolucyjne

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Quick Launch Manual:

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Weryfikacja hipotez statystycznych

Procesy stochastyczne

Programowanie celowe #1

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Regresyjne metody łączenia klasyfikatorów

Prawdopodobieństwo i statystyka

Statystyka i Analiza Danych

Metody probabilistyczne

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Zadania z rysowania i dopasowania funkcji

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Klasyfikacja LDA + walidacja

Z52: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania, zagadnienie brzegowe.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Modelowanie niezawodności prostych struktur sprzętowych

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Kolokwium ze statystyki matematycznej

Natalia Neherbecka. 11 czerwca 2010

Transkrypt:

Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a Wstęp: generatywne algorytmy uczące Dotychczas mówiliśmy tylko o algorytmach uczących bazujących na modelowaniu rozkładów warunkowych zmiennych zależnych przy zadanym i sparametryzowanych przez :, np.: regresja liniowa, logistyczna czy softmax. Na podstawie przykładów z ciągu uczącego estymowana jest pewna granica między dwoma obszarami przestrzeni wejść. Decyzja co do klasy, którą reprezentuje nowy przypadek zależy tylko od tego, po której stronie granicy znajduje się ten przypadek. W tym wykładzie zajmiemy się odmiennym podejściem. Na podstawie ciągu uczącego stworzymy osobne modele tego, jakim rozkładom podlegają cechy w poszczególnych klasach. Po otrzymaniu nowego przypadku patrzymy, do której klasy jest on najbardziej podobny. Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Dziś będziemy mówić o drugiej grupie algorytmów, tzw. algorytmach generatywnych. Modelują one: rozkłady cech w klasach: oraz prawdopodobieństwa występowania klas:. Rozważmy przykład. Chcemy odróżniać psy ( ) od kotów ( ). Umiemy określać cechy tych zwierząt. Budujemy rozkłady tych cech dla psów: i dla kotów. Modelujemy także prawdopodobieństwo tego, że losowo wybrane zwierzę będzie psem lub kotem (np. na podstawie liczebności obu gatunków): (jest to tzw. prawdopodobieństwo apriori). Wtedy można na podstawie wzoru Bayesa obliczyć prawdopodobieństwo a posteriori: Prawdopodobieństwo można także wyrazić za pomocą prawdopodobieństwa i następująco:. Warto jednak zauważyć, że w problemie klasyfikacji nie interesuje nas tak naprawdę. Dlaczego? W klasyfikacji chcemy odpowiedzieć na pytanie, która z klas jest najbardziej prawdopodobna, czyli dla jakiego jest maksymalne. Ponieważ mianownik wyrażenia (%i 1), tzn. nie zależy od więc jest jednakowy

dla wszystkich klas. Można to zapisać tak: Gaussowska analiza dyskryminacyjna Pierwszym algorytmem generatywnym, z którym się zapoznamy będzie gaussowska analiza dyskryminacyjna (GAD). W tej analizie zakładamy, że dane niezależne, przy ustalonej klasie, pochodzą z wielowymiarowego rozkładu normalnego:. Dla przypomnienia funkcja gęstości prawdopodobieństwa dla -wymiarowego rozkładu o wektorze średnim i macierzy kowariancji dana jest przez: gdzie: oznacza wyznacznik macierzy. Oczywiście równe jest wartości oczekiwanej zmiennych z tego rozkładu: Macierz kowariancji natomiast dana jest wzorem: ''': Kod do prezentacji dwuwymiarowych rozkładów normalnych:''' # -*- coding: utf-8 -*- import numpy as np import pylab as py

#parametry rozkładu # wektor średnich: mu = [-2,-3] # macierz kowariancji: Sigma = np.array([[1, 0.5], [0.5, 1]]) # generujemy dane: z1 = np.random.multivariate_normal(mu, Sigma, 10) # # Rysujemy każdą realizację zmiennej jako punkt # z1 to macierz taka, że # kolejne współrzędne zmiennej losowej są ułożone w kolejnych kolumnach py.plot(z1[:,],z1[:,1],'g.') py.axis('equal') py.show() Dla pełnej specyfikacji modelu gaussowskiej analizy dyskryminacyjnej musimy założyć, że następujące zmienne mają wskazane rozkłady: zapisując to przy pomocy odpowiednich funkcji gęstości prawdopodobieństwa mamy: Oznacza to, że nasz model jest sparametryzowany przez,, i. (Zazwyczaj w modelu tym przyjmuje się, że średnie są różne ale macierz kowariancji jest dla obu klas taka sama.) Do wyznaczenie parametrów możemy zastosować metodę największej wiarygodności. Mając do dyspozycji zbiór uczący możemy zapisać funkcję log-wiarygodności: Wielkości występujące w tym wzorze dane są przez równania (%i 3). Porównajmy tą funkcję z analogiczną funkcją dla regresji logistycznej:

Zwróćmy uwagę, że w tym wzorze, jak i we wszystkich wzorach na funkcję log-wiarygodności w algorytmach dyskryminacyjnych, występuje prawdopodobieństwo warunkowe klasy mając dany :, zaś w przypadku algorytmów generatywnych mamy prawdopodobieństwa łączne. Maksymalizując tą funkcję (%i 4) względem parametrów otrzymujemy: Kiedy już mamy dopasowane parametry modelu możemy robić przy jego pomocy klasyfikację (przewidywania) co od nowych przypadków. Przewidywaną klasą będzie, zgodnie z tym co mówiliśmy na początku wykładu: Gaussowska analiza dyskryminacyjna a regresja logistyczna (Przykładowy rysunek w 1-D, dwa gaussy, pierwszy odpowiada klasie y = 0, a drugi klasie. Zastanówmy się jakie jest prawdopodobieństwo dla różnych wartości? : Otrzymujemy sigmiodę!) Istnieje ciekawa relacja między GAD a regresją logistyczną. Obie metody dają w efekcie pewną hiperpowierzchnię separującą obszary przestrzeni wejść na przynależną do klasy 0 bądź 1. Prawdopodobieństwo warunkowe klasy w modelu GAD można też wyrazić w postaci: przy czym jest pewną funkcją parametrów modelu. Co do formy uzyskujemy analogiczny wynik, chociaż w ogólności wynikające z tego proste (hiperpowierzchnie) decyzyjne będą różne dla GAD i regresji logistycznej, pomimo użycia tego samego zbioru uczącego. Który model jest lepszy? Możemy narysować taki schemat:

Dla wielu rozkładów należących do rodziny wykładniczej otrzymujemy w postaci logistycznej. Wynika stąd, że założenie gaussowskiej postaci logistyczna postać. jest mocniejszym założeniem niż Zatem odpowiedź, które podejście jest lepsze zależy od danych. Model GAD oparty jest o założenie, że rozkłady warunkowe danych są wielowymiarowymi rozkładami normalnymi. Jeśli to założenie jest prawdziwe, to model GAD wykorzystuje więcej informacji, bo zna cały rozkład danych - dane ze zbioru uczącego służą jedynie do estymacji parametrów tego rozkładu. Z drugiej strony regresja logistyczna robi znacznie słabsze założenia co do danych w związku z czym jest bardziej odporna na odstępstwa rozkładów danych wejściowych od założeń. Naiwny Klasyfikator Bayesa Klasyfikator GAD działał na danych ciągłych. Jak można zbudować kalsyfikator generatywny dla danych dyskretnych? Jako przykład omówimy naiwny klasyfikator Bayesa. Klasyfikator ten zaprezentujemy na przykładzie filtru antyspamowego. Załóżmy, że jako zbiór uczący mamy kolekcję listów oznaczonych jako spam albo nie-spam Najpierw musimy się zastanowić jak można reprezentować listy? Jednym z popularnych podejść jest metoda słownikowa. Przeglądamy duży zestaw listów, sporządzamy listę słów, które wystąpiły w tych listach, porządkujemy alfabetycznie i otrzymujemy słownik. Mając taki słownik możemy każdy list zakodować jako wektor kolumnowy złożony z zer i jedynek. Jedynka na i-tej pozycji oznacza, że w liście wystąpiło i-te słowo z naszego słownika. Przykładowy list mógłby wyglądać tak: Każdy ( -ta współrzędna wektora ) może przyjąć wartość 1 albo 0 w zależności od tego czy -te słowo ze słownika wystąpiło w liście czy też nie. Zauważmy, że kodowanie to pomija informację o częstości danego słowa w liście. Widać, że rozmiar może być bardzo duży. Jest on równy rozmiarowi słownika. Mając wybrany sposób reprezentacji listów możemy przystąpić do budowania modelu dyskryminacyjnego. Czyli potrzebjemy wyznaczyć. Jeśli rozmiar naszego słownika to 5000 słów to są 5000-wymiarowymi wektorami z wartościami 0 i 1. Gdzybyśmy chcieli zamodelować to rozkładem wielorakim to mielibyśmy możliwych stanów do zareprezentowania i tyle potrzebowalibyśmy oszacować parametrów. To zdecydowanie za dużo.

Aby sobie jakoś z tym problemem poradzić posłużymy się tzw. naiwnym założeniem Bayesa. Założymy mianowicie, że słowa są warunkowo niezależne. W praktyce oznacza to tyle, że jeśli wiem, że dany list jest spamem, to dodatkowa wiedza, że występuje w nim słowo 'wygrałeś' ( ) nie wpływa na moje oszacowanie prawdopodobieństwa, że w tym liście występuje słowo 'kliknij' ( ). Formalnie oznacza to, że. Uwaga: Nie jest to to samo co założenie, że słowa te są od siebie niezależne. Niezależność słów zapisalibyśmy jako. Dzięki założeniu warunkowej niezależności możemy zapisać: Ostatecznie nasz model jest sparametryzowany przez: Mając dany zbiór uczący możemy wypisać funkcję wiarygodności: Maksymalizując tą fuknkcję za względu na parametry otrzymujemy: Teraz aby sklasyfikować nowy list z cechami obliczamy:

(aby obliczyć prawdopodobieństwo przynależności do klasy 0 możemy skorzystać z: ) i wybieram klasę do której przynależność jest bardziej prawdopodobna. W tym przykładzie rozważaliśmy sytuację gdy prawdopodobieństwa warunkowe poszczególnych były modelowane rozkładem Bernoulliego. Widać, że gdyby mogło przyjmować dyskretnych wartości to należałoby modelować je za pomocą rozkładu wielorakiego. Wygładzanie Laplace'a Chociaż opisany przed chwilą model zazwyczaj działa dobrze, to jest z nim czasem w praktycznych zastosowaniach problem. Wyobraźmy sobie, że słownik zawiera słowo 'niezapominajka' ale, że zbiór uczący nie zawierał listu w którym słowo to by wystąpiło, załóżmy że ma ono indeks 2576 w naszym słowniku. Wówczas oszacowane parametry dla tego słowa to: bo nigdy się nie zdarzyło aby słowo to wystąpiło w klasie spam i w klasie nie-spam. Jeżeli teraz policzymy dla tego słowa prawdopodobieństwo klasy 1 to : ponieważ w każdym z iloczynów występuje czynnik. Czyli nie da się określić prawdopodobieństwa przynależności listu do klasy spam albo nie-spam ze względu na jedno słowo, które nie występowało w zbiorze uczącym! W tym przykładzie można by oczywiście zaproponować inny sposób konstrukcji słownika aby do takiej sytuacji nie doszło. Można też przyjrzeć się temu problemowi bardziej ogólnie. Problem ten bierze się ze sposobu szacowania parametrów. Rozważmy zagadnienie oszacowania średniej w rozkładzie wielorakim, w którym zmienna przyjmuje jedną z wartości i rozkład ten jest sparametryzowany przez

. Do dyspozycji mamy niezależnych obserwacji. Z metody największej wiarygodności otrzymujemy estymaty (stosunek liczby do liczby wszystkich obserwacji): Jednak fakt, że w skończonym zbiorze obserwacji nie wystąpiła ani razu któraś z możliwych wartości nie powinien skutkować tym, że przypisujemy zerowe prawdopodobieństwo tej możliwości. Metodą powszechnie stosowaną na poprawę tej estymaty jest tzw. wygładzanie Laplacea. Modyfikuje ono estymatę otrzymaną metodą największej wiarygodności w następujący sposób: Łatwo zauważyć, że ten estymator też spełnia warunki narzucone przez interpretację probabilistyczną: