Elementy modelowania matematycznego

Podobne dokumenty
Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Analiza danych. TEMATYKA PRZEDMIOTU

Klasyfikacja LDA + walidacja

Sztuczna inteligencja : Algorytm KNN

Testowanie modeli predykcyjnych

Prawdopodobieństwo czerwonych = = 0.33

Metody probabilistyczne klasyfikatory bayesowskie

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Klasyfikacja metodą Bayesa

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Agnieszka Nowak Brzezińska

Mail: Pokój 214, II piętro

Metody klasyfikacji danych - część 1 p.1/24

METODY INŻYNIERII WIEDZY

Algorytmy klasyfikacji

ALGORYTM RANDOM FOREST

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Systemy uczące się Lab 4

4. Postęp arytmetyczny i geometryczny. Wartość bezwzględna, potęgowanie i pierwiastkowanie liczb rzeczywistych.

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Elementy modelowania matematycznego

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Analiza danych. Grupowanie (analiza skupień). Powtórzenie i podsumowanie. ZADANIE GRUPOWANIA

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Testowanie hipotez statystycznych.

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

1 Klasyfikator bayesowski


Wnioskowanie bayesowskie

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Spis treści 3 SPIS TREŚCI

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych.

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Sztuczna Inteligencja Projekt

Dr inż. Robert Wójcik, p. 313, C-3, tel Katedra Informatyki Technicznej (K-9) Wydział Elektroniki (W-4) Politechnika Wrocławska

Wykład 9 Wnioskowanie o średnich

Sprawozdanie z zadania Modele predykcyjne (2)

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Propensity score matching (PSM)

A Zadanie

166 Wstęp do statystyki matematycznej

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

Optymalizacja ciągła

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Spacery losowe generowanie realizacji procesu losowego

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

PRZEWODNIK PO PRZEDMIOCIE

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zapisywanie algorytmów w języku programowania

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Rozkłady statystyk z próby

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III

Wykład 3 Hipotezy statystyczne

Metody systemowe i decyzyjne w informatyce

Metody oceny podobieństwa

EKSPLORACJA DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Testy nieparametryczne

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Weryfikacja hipotez statystycznych

Rozpoznawanie obrazów

METODY INŻYNIERII WIEDZY

Statystyka Matematyczna Anna Janicka

Metody systemowe i decyzyjne w informatyce

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Algebra Liniowa 2 (INF, TIN), MAP1152 Lista zadań

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II

Kolokwium ze statystyki matematycznej

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Transkrypt:

Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TESTOWANIE MODELU Mamy dany zbiór danych podzielony na klasy decyzyjne, oraz pewien algorytm klasyfikujący. Problem: zbadać skuteczność algorytmu na tych danych. Kryterium skuteczności: liczba (procent) prawidłowo rozpoznanych obiektów testowych, niebiorących udziału w treningu. Dane treningowe (znana decyzja) o o2 o3 2.3 AAC -5 6.87 AAA -2.2 BBB budowa modelu Skąd wziąć dane testowe? Dane testowe (znana decyzja) Klasyfikator o o2 o3 25. BBA - 5.8 BBB -2 7.6 BAB -4 liczymy prawidłowe odpowiedzi klasyfikatora

WYBÓR PRÓBKI TESTOWEJ - Testowanie algorytmu wykonujemy, gdy chcemy porównać jego wyniki z innymi, ale również podczas optymalizacji parametrów samego algorytmu, np. w celu wyboru właściwej opcji. - Wielkość próbki testowej nie powinna być zbyt mała, jeśli np. chcemy uzyskać dokładność,%, próbka powinna mieć ponad obiektów. Techniki statystyczne pomagają nam oszacować wielkość próbki do porównań na danym poziomie istotności. - Możemy podzielić dane na część treningową (zwykle ok. 7%) i testową. Dane używane do testowania nie mogą być użyte do trenowania klasyfikatora. - Niektóre dane referencyjne mają z góry zdefiniowaną część testową. Obiektów z tej części możemy użyć tylko raz, do określenia końcowej jakości naszego klasyfikatora. SCHEMAT CV-n Zbiór treningowy Losowy podział (CV-5) Konstruowanie klasyfikatora Testowanie Cross-validation (CV-n, walidacja krzyżowa) Zbiór treningowy dzielimy losowo na n części. W n kolejnych fazach testu każda z n części pełni rolę próbki testowej, a pozostałe - próbki treningowej. Wyniki klasyfikacji są sumowane. 2

METODA LEAVE-ONE-OUT Zbiór treningowy jest wykorzystywany w całości jako zbiór testowy: - Dla każdego obiektu o konstruujemy klasyfikator wykorzystujący wszystkie obiekty z wyjątkiem o. - Obiekt o klasyfikujemy i zapamiętujemy wynik. - Po przetestowaniu wszystkich obiektów sumujemy wyniki. Metoda równoważna CV-n dla n równego liczbie obiektów w zbiorze. Metoda zwykle bardzo wolna, jednak można ją stosować w sytuacjach, gdy trening klasyfikatora jest czynnością bardzo prostą (np. naiwny klasyfikator bayesowski - wystarczy tak zmodyfikować prawdopodobieństwa, by ominąć obiekt o). KLASYFIKATOR -R Algorytm -R: Oznaczmy przez d=d i ) prawdopodobieństwo (częstość względną na zbiorze treningowym) wartości decyzyjnej d i. - Znajdujemy d* takie, że d=d*) jest największe. - Każdy nowy obiekt otrzymuje decyzję d*. Uwagi: - wersja dla decyzji ciągłej: odpowiedzią jest zawsze średnia decyzja na zbiorze treningowym; - niewielka skuteczność, ale możemy użyć tego klasyfikatora jako punktu odniesienia dla innych metod. 3

KLASYFIKATOR -R Dodatkowe założenie: wartości atrybutów warunkowych i decyzji są dyskretne. Algorytm -R: Oznaczmy przez d=d i a j =v k ) prawdopodobieństwo warunkowe (częstość względną na zbiorze treningowym), że wśród obiektów o wartości atrybutu a j równej v k decyzja przyjmuje wartość d i. - Dla każdego atrybutu a i i wartości v k znajdujemy d ik takie, że d=d ik a i =v k ) jest największe. - Dla każdego atrybutu a i liczymy średni błąd powyższego sposobu klasyfikacji, tzn. liczbę obiektów o własności a i =v k, ale o innej niż d ik wartości decyzji. - Niech a x będzie atrybutem o najniższym błędzie. - Nowy obiekt klasyfikujemy na podstawie wartości a x, tzn. jeśli a x =v y, to przypisujemy mu decyzję d xy. a a2 a3 a4 d red 2 green red 3 PRZYKŁAD Dane treningowe red 3 green Klasyfikujemy nowy obiekt: o* = {, red, 3, } Klasyfikator -R: odpowiedź. Klasyfikator -R: najlepszy atrybut a, odpowiedź.,8,6,4,2 2 3 Statystyki: błąd a - obiektów błąd a2-2 obiekty błąd a3-2 obiekty błąd a4 - obiekt Proste reguły: a= => d= a= => d= 4

KLASYFIKATOR OPARTY NA WSZYSTKICH CECHACH Rozszerzymy zasadę działania klasyfikatora -R na więcej niż jeden atrybut. Od tej chwili dla uproszczenia zamiast d=d i a j =v k ) będziemy pisali d i v jk ) Klasyfikator -R: d(o*) = d i, gdzie d i v jk ) - największe, dla ustalonego j. Gdybyśmy chcieli wykorzystać wszystkie atrybuty, powinniśmy przyjąć: d(o*) = d i, gdzie d i v a, v 2b v nz ) - największe, przy czym: o* = {v a, v 2b v nz } Problem: jak oszacować to prawdopodobieństwo warunkowe? WZÓR BAYESA Dodatkowe założenie: wartości atrybutów warunkowych i decyzji są dyskretne. Nie możemy d i v a, v 2b v nz ) oszacować częstością na próbce treningowej, bo zwykle nie będzie ani jednego obiektu spełniającego te warunki. Wzór Bayesa: P ( A B) = B A) A) B) W naszym przypadku: P ( d v, v ) = i a nz va, v v a di ) di ), v ) nz nz Liczbę w mianowniku możemy uznać za pewną stałą. Wartość d i ) możemy wyznaczyć z próbki. Pozostaje oszacowanie trzeciego składnika wzoru. 5

NAIWNY KLASYFIKATOR BAYESOWSKI Dodatkowe naiwne założenie: prawdopodobieństwa warunkowe v a d i ), v nz d i ) są niezależne. Warunek zwykle niespełniony, ale jako przybliżenie sprawdza się nadspodziewanie dobrze. Wówczas: P v, v d ) = v d ) v d ) v d ) ( a nz i a i 2b i nz i Więc ostatecznie: di v a, vnz ) C v dla pewnej stałej C. d ) v d ) d a i nz i i ) ALGORTYM - Wyznaczamy z próbki wartości v jk d i ) oraz d i ) dla wszystkich występujących v jk oraz d i. - Dla każdego nowego obiektu o* = {v a, v 2b v nz } wyliczamy wartość pomocniczej funkcji: NBay( o*, di ) = v a di ) vnz di ) di ) - Wybieramy takie d i, dla którego wartość funkcji NBay jest największa i przyjmujemy, że jest to decyzja obiektu o*. 6

UWAGI TECHNICZNE Liczymy statystyki a d d 2 d 3 v,23,2 v 2 v 2 d 2 ) v 3 - Jeżeli obiekt testowy ma pewną wartość v jk nieobecną w zbiorze treningowym, odpowiadający jej czynnik iloczynu pomijamy. - Żeby uniknąć nieklasyfikowania niektórych obiektów, zamiast prawdopodobieństwa używa się czasem pewnej małej (poniżej /n) liczby dodatniej. PRZYKŁAD Zbiór danych: letter_trn.tab - zbiór treningowy, 5 obiektów, letter_tst.tab - zbiór testowy, 5 obiektów http://www.jakubw.pl/zajecia/dm/letter.zip Dane zawierają 6 cech, z których każda ma jedną z 6 wartości. Decyzja to liczba 26 (numer rozpoznanej litery). Wielkość danych na dysku: 65 KB. Wielkość tablic pomocniczych: 6*26 statystyk dla każdego z 6 atrybutów oraz statystyki dla decyzji, czyli 6656+26 liczb. Liczba poprawnie rozpoznanych obiektów testowych: 374 (74,8%). 7

KLASYFIKACJA OPARTA NA ODLEGŁOŚCI Załóżmy, że analizowany zbiór danych zawiera obiekty opisane wektorami liczb (cech) rzeczywistych: x= x,, Będziemy zakładać, że obiekty podobne z punktu widzenia wszystkich cech mają tę samą decyzję. Podobieństwo obiektów określa odległość w przestrzeni R m, czyli metryka, np: x m Metryka euklidesowa: ρ m ( x, y) = ( ) i= x i y i 2 Metryka miejska (Manhattan): ρ m ( x, y) = i= x i y i ESTYMACJA ROZKŁADU DECYZJI Problem klasyfikacji można sprowadzić do pytania: jaka jest najbardziej prawdopodobna decyzja w pewnym punkcie x* przestrzeni? Metoda: - ustalamy pewne otoczenie punktu x*, tzn. kilka najbliższych znanych obiektów - konstruujemy histogram decyzji, - wybieramy największą wartość histogramu. 3 zielone 2 czerwone 8

ALGORTYM k-nn Ustalamy wartość k (najlepiej liczbę nieparzystą, zwykle ok. 5-5). Dla każdego obiektu testowego o*: - wyznaczamy odległośćρ(o*,x) pomiędzy o* i każdym obiektem treningowym x, - znajdujemy k obiektów treningowych najbliższych o*, - wśród wartości decyzji odpowiadających tym obiektom wykonujemy głosowanie, - najczęściej występującą wartość decyzji przypisujemy obiektowi o*. UWAGI TECHNICZNE - Parametr k możemy dobrać eksperymentalnie. Licząc na próbce testowej wyniki dla pewnego k, otrzymujemy przy okazji wyniki dla wszystkich wartości mniejszych. - Czas uczenia (w wersji podstawowej algorytmu) jest bardzo krótki, gdyż nauka polega na zapamiętaniu całej próbki treningowej. Łatwo stosować metodę leave-one-out. - Klasyfikacja nowych przypadków jest dosyć powolna. Sposoby na przyspieszenie: - selekcja obiektów wybór pewnego podzbioru dającego zbliżone wyniki klasyfikacji - podział zbioru obiektów na podzbiory i przeszukiwanie tylko niektórych z nich. 9

PRZYKŁAD k= k=3