Informatyka Techniczna Rozpoznawanie obrazów

Podobne dokumenty
Elementy modelowania matematycznego

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

ALGORYTM RANDOM FOREST

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

METODY INŻYNIERII WIEDZY

Hierarchiczna analiza skupień

Metody klasyfikacji danych - część 1 p.1/24

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

2. Empiryczna wersja klasyfikatora bayesowskiego

Metody oceny podobieństwa

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Metody systemowe i decyzyjne w informatyce

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

9. Praktyczna ocena jakości klasyfikacji

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Drzewa decyzyjne i lasy losowe

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy klasyfikacji

Adrian Horzyk

Agnieszka Nowak Brzezińska Wykład III

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Pattern Classification

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

CLUSTERING. Metody grupowania danych

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Testowanie modeli predykcyjnych

Systemy uczące się Lab 4

Agnieszka Nowak Brzezińska Wykład III

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

7. Maszyny wektorów podpierajacych SVMs

Zaawansowane programowanie w języku C++ Zarządzanie pamięcią w C++

10. Redukcja wymiaru - metoda PCA

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Klasyfikacja metodą Bayesa

Optymalizacja ciągła

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Analiza danych. TEMATYKA PRZEDMIOTU

Rozpoznawanie obrazów

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Systemy uczące się wykład 2


Zadania ze statystyki, cz.6

Agnieszka Nowak Brzezińska

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

METODY INŻYNIERII WIEDZY

Regresyjne metody łączenia klasyfikatorów

Jakość uczenia i generalizacja

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

KLASYFIKACJA. Słownik języka polskiego

Sztuczna inteligencja : Algorytm KNN

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Co to jest grupowanie

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Metody systemowe i decyzyjne w informatyce

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Rozpoznawanie obrazów

1 Klasyfikator bayesowski

Multiklasyfikatory z funkcją kompetencji

Projekt Sieci neuronowe

Systemy uczące się wykład 1

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Klasyfikacja LDA + walidacja

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Testowanie hipotez statystycznych.

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich

Inteligentna analiza danych

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Zaawansowane programowanie w języku C++ Wyjątki

Architektura komputerów Reprezentacja liczb. Kodowanie rozkazów.

Metody systemowe i decyzyjne w informatyce

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Propensity score matching (PSM)

Pobieranie prób i rozkład z próby

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Architektura komputerów Wprowadzenie do algorytmów

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Zaawansowane programowanie w języku C++ Funkcje uogólnione - wzorce

Sieć przesyłająca żetony CP (counter propagation)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

METODY INŻYNIERII WIEDZY

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Transkrypt:

Prezentacja jest współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń - zintegrowany rozwój Politechniki Łódzkiej - zarządzanie Uczelnią, nowoczesna oferta edukacyjna i wzmacniania zdolności do zatrudniania osób niepełnosprawnych Prezentacja dystrybuowana jest bezpłatnie Politechnika Łódzka, ul. Żeromskiego 116, 90-924 Łódź, tel. (042) 631 28 83 w ramach Europejskiego www.kapitalludzki.p.lodz.pl Funduszu Społecznego

Autorzy dr inż. Łukasz Sturgulewski dr inż. Artur Sierszeń

Rozpoznawanie obrazów Rozpoznawanie obrazów (ang. Pattern Recognition) oferuje metody komputerowego wspomagania procesu podejmowania decyzji, analizy i przetwarzania danych. Przyporządkowywanie obiektom, rozumianym bardzo ogólnie, kategorii czyli klas na podstawie wartości cech opisujących te obiekty.

4 Literatura DUDA, R.O., HART, P.E., STORK, D.G. (2000) Pattern Classification and Scene Analysis (Second Edition). John Wiley and Sons, New York. TADEUSIEWICZ, R., FLASIŃSKI, M. (1991) Rozpoznawanie obrazów. PWN, Warszawa. KURZYŃSKI, M. (1997) Rozpoznawanie Obiektów. Oficyna Wydawnicza Politechniki Wrocławskiej, Wrocław. KORONACKI, J., ĆWIK, J. (2005) Statystyczne systemy uczące się. WNT, Warszawa.

Obraz W tej dziedzinie pod pojęciem obraz rozumie się ilościowy opis obiektu, zdarzenia, zjawiska, procesu, sygnału, sytuacji.

Podstawowe pojęcia Cechy ilościowe i jakościowe Wektor cech: x=[x 1,x 2,...,x n ] Przestrzeń cech P Zbiór uczący Klasyfikator: ( D i ) x = { x P : Y ( x ) = i }, i L szerokość długość kolor

Cechy 7

8 Wektor cech obraz obiektu = wzorzec (punkt, próbka, obiekt) obraz obiektu przedstawiany jest za pomocą m-wymiarowego wektora cech:

Przestrzeń cech P 9 Zbiór wszystkich wartości cech, jakie mogą przyjmować wzorce w ramach zadania klasyfikacyjnego nazywamy przestrzenią cech P

Zbiór uczący 10 Zbiór wszystkich wzorców, jakimi dysponujemy w ramach zadania konstrukcji klasyfikatora, nosi nazwę zbioru danych (próby uczącej) i jest oznaczany jak poniżej:

Zadanie rozpoznawania obrazów Wydzielenie cech x=[x 1,x 2,...,x n ] Obiekt Klasyfikacja KLASA Zbiór reguł i Zbiór uczący

Kluczowe elementy układu rozpoznającego obrazy blok wydzielania cech, wydzielanie cech czyli bezpośredni ich pomiar i ewentualnie przetworzenie cech zmierzonych w nowe cechy, blok klasyfikacji, zwany krótko klasyfikatorem.

Zbiory danych 13 Do przeprowadzenia eksperymentów i testów opracowanych algorytmów oraz do weryfikacji istniejących algorytmów wykorzystuje się często zbiory należące do repozytorium Uniwersytetu Kalifornijskiego w Irvine (Machine Learning Repository, University of California, Irvine), ze względu na ich powszechne stosowanie i wykorzystywanie w literaturze przedmiotu.

Zbiory danych 14 http://archive.ics.uci.edu/ml/

15 Przykładowe zbiory Phoneme Satimage Waveform Glass Iris Wine Ferrites Liver

Przykładowe zbiory 16 Nazwa zbioru Liczba klas Liczba cech Liczba próbek Liczebność poszczególnych klas w zbiorze Klasa 1 Klasa 2 Klasa 3 Klasa 4 Klasa 5 Klasa 6 Klasa 7 Klasa 8 Phoneme 2 5 5404 3818 1586 - - - - - - Satimage 6 36 6435 1533 703 1358 626 707 1508 - - Waveform 3 21 5000 1657 1647 1696 - - - - - Ferrites 8 30 5903 1382 324 479 1195 1249 888 181 205 Liver 2 13 81968 40000 41968 - - - - - - Glass 6 9 214 70 76 17 13 9 29 - - Iris 3 4 150 50 50 50 - - - - - Pima 2 8 768 500 268 - - - - - - Wine 3 13 178 59 71 48 - - - - -

17 Satimage Zestaw danych został wygenerowany na podstawie analizy obrazów satelitarnych wspartej innymi metodami obserwacji (dane radarowe, mapy topograficzne, dane na temat uprawy roli). Poszczególne klasy określają rodzaj gleby bądź uprawę. Charakterystyka zbioru: - liczba klas: 6 - liczba cech: 36 - liczba próbek: 6435

18 Iris Zbiór próbek trzech podgatunków kosaćca, klasyfikowanych na podstawie czterech geometrycznych cech. (Fishera, 1936; Wiley, 1950) Charakterystyka zbioru: - liczba klas: 3 - liczba cech: 4 - liczba próbek: 150

Przykładowy zbiór danych (iris.txt) 19

Algorytm rozpoznawania Algorytm rozpoznawania Ψ odwzorowuje przestrzeń cech P w zbiór numerów klas L: Ψ: P L Algorytm rozpoznawania Ψ generuje podział przestrzeni cech P na obszary decyzyjne D, gdzie L zbiór numerów klas: ( D i ) x = { x P : Y( x) = i}, i L

Algorytm rozpoznawania Algorytm rozpoznawania musi być jednoznaczny i kompletny tzn. rozpoznaje każdy obiekt i zalicza go do jednej i tylko jednej klasy ze zbioru L.

22 Klasyfikacja przyjmujemy, że nie znamy definicji rozważanych klas, czyli nie znamy postaci funkcji, która na podstawie wartości cech wzorca przyporządkowywałaby go do właściwej klasy taka definicja ma być dopiero "zaszyta" w klasyfikatorze, który skonstruujemy konstrukcja klasyfikatora polega na możliwie najdokładniejszym wyprowadzeniu definicji klas, na podstawie informacji zawartej w zbiorze danych zależy nam by odsetek nowych obiektów poprawnie klasyfikowanych był możliwie najwyższy

Proces klasyfikacji g 1 (x) x g 2 (x) MAX decyzja(i)... g c (x)

Ocena klasyfikatora Na ocenę klasyfikatora składają się przede wszystkim takie elementy jak: jakość klasyfikacji, szybkość klasyfikacji, szybkość uczenia, zapotrzebowanie na pamięć.

Jakość klasyfikacji Jakość klasyfikacji ocenia się za pomocą estymowanej frakcji błędnych klasyfikacji wyrażonej wzorem: = r m r liczba próbek mylnie klasyfikowanych, m liczba wszystkich poddanych klasyfikacji próbek.

Metody estymacji błędu klasyfikacji Metody estymacji błędu klasyfikacji: resubstytucja, wydzielanie, minus jeden element, rotacja.

Wydzielanie i redukcja cech Wydzielenie cech obiektów jest bardzo istotne z punktu widzenia jakości klasyfikacji podobnie jak zastosowany algorytm klasyfikacji.

Wydzielanie i redukcja cech Zazwyczaj wydzielenia cech dokonuje się we współpracy ze specjalistami z dziedziny w jakiej klasyfikator ma być zastosowany. Poza szczególnymi przypadkami zadań, nie istnieją żadne ogólne metody wydzielania cech. W zbiorze uczącym uwzględnia się cechy, których użyteczności nie można wykluczyć.

Wydzielanie i redukcja cech W literaturze istnieje wiele algorytmów doboru (selekcji) cech, jednak żaden z nich nie gwarantuje otrzymania optymalnego zestawu cech.

Metody selekcji cech Wśród metod selekcji cech można wyróżnić dwie grupy algorytmów: 1. pozwalające wyróżnić lub osłabić pewne cechy poprzez ich ważenie, 2. pozwalające pominąć pewne z cech, a dokładnie wybrać takie, dla których błąd klasyfikacji będzie najmniejszy.

Wyróżnianie lub osłabianie cechy Ustalenie wag dla cech może odbywać się na poziomie całego zbioru uczącego, klasy lub pojedynczego obiektu. Określenie wartości wag jest złożonym i trudnym zadaniem. Dobrym rozwiązaniem jest także standaryzacja cech.

32 Standaryzacja cech Przydatna w momencie jeśli wartości bezwględne pewnej cechy są znacznie większe lub znacznie mniejsze od wartości bezwględnych pozostałych wartości cech. Dzięki standaryzacji każda cech ma taką samą wagę przy liczeniu odległości co pozostałe cechy.

STANDARYZACJA KLASYCZNA CECH 33 Standaryzacja klasyczna polega na wyliczeniu średniej i odchylenia standardowego każdej cechy (niezależnie od klasy!) a następnie na dokonaniu poniższej transformacji dla każdej wartości cechy:

STANDARYZACJA KLASYCZNA CECH 34 średnia i-tej cechy: odchylenie standardowe i-tej cechy:

35 STANDARYZACJA KLASYCZNA CECH Standaryzacja klasyczna zachowuje typ rozkładu cechy, powoduje jedynie zmianę jego parametrów: średniej i odchylenia standardowego. Po standaryzacji klasycznej średnia rozkładu jest równa 0, zaś odchylenie standardowe jest równe 1.

36 Inne metody standaryzacji STANDARYZACJA MEDIANOWA zamiast średniej używana jest mediana, zaś zamiast odchylenia standardowego medianowe odchylenie bezwzględne STANDARYZACJA SKALUJĄCA LINIOWO standaryzacja skalująco liniowo to liniowa transformacja zakresu cech ze starego zakresu na nowy zakres

Minimalizacja błędu klasyfikacji Wybór cech, dla których błąd klasyfikacji będzie najmniejszy. Najczęściej część cech jest bezużyteczna, bądź ze sobą skorelowana, a więc są one nadmiarowe. Cechy takie powinny zostać usunięte, w wyniku czego klasyfikator będzie działał w oparciu o cechy wyselekcjonowane.

Minimalizacja błędu klasyfikacji Najważniejsze algorytmy w tej grupie to: metoda kolejnego odrzucania cech SBS (ang. Sequential Backward Selection) i jej modyfikacje np. SBFS (ang. Sequential Backward Floating Search); metoda kolejnego dołączania cech SFS (ang. Sequential Forward Selection) i jej modyfikacje np. SFFS (ang. Sequential Forward Floating Search); metoda Plus-L-Minus-R; schemat z projekcją cech NNFP (ang. Nearest Neighbor with Feature Projection); metody oparte na algorytmach genetycznych; wyszukiwanie oscylacyjne OSA (ang. Oscillating Search Algorithm); metody oparte na wykorzystaniu wymiaru fraktalnego; metody oparte na teorii informacji.

Podział metod klasyfikacji Rozpoznawanie Obrazów Rozpoznawanie syntaktyczne Rozpoznawanie decyzyjno-teoretyczne Klasyfikacja nienadzorowana Klasyfikacja nadzorowana Rozpoznawanie z regułami eksperta Algorytmy k-średnich Algorytm ISODATA Algorytmy aglomeratywne Algorytm parametryczny Algorytm GAP Algorytm kombinowany Metody klasyfikacji liniowej Metody klasyfikacji nieliniowej Algorytm zunifikowany Algorytm Fishera Sieci perceptronowe Metody wektorów podpierających Algorytmy rekurencyjne badania rozdzielności liniowej Algorytmy k-nn i ich odmiany Sieci neuronowe Drzewa decyzyjne Algorytmy funkcji potencjałowych

Podział metod klasyfikacji Wśród metod rozpoznawania obrazów można wyróżnić dwie główne grupy: Rozpoznawanie strukturalne, znane także jako lingwistyczne lub syntaktyczne. Rozpoznawanie decyzyjno-teoretyczne, nazywane często deterministycznym.

Rozpoznawanie strukturalne W tej metodzie konstruktor, wykorzystując swoją wiedzę i doświadczenie, dokonuje opisu klas. Jeżeli wyprowadzony ze zbioru uczącego opis pozwala wystarczająco dobrze rozpoznawać obiekty, to uważa się, że konstrukcja klasyfikatora zakończyła się sukcesem. W tym podejściu najtrudniejsza część zadania spoczywa na bloku wydzielania cech, a klasyfikator ma wówczas bardzo prostą budowę.

Rozpoznawanie decyzyjno-teoretyczne Ten rodzaj konstrukcji klasyfikatora opiera się na apriorycznej wiedzy o związku pomiędzy klasami a wektorami cech opisującymi rzeczywiste obiekty.

Rozpoznawanie decyzyjno-teoretyczne Rozpoznawanie decyzyjno-teoretyczne można podzielić na trzy podgrupy: Klasyfikacja nienadzorowana (ang. unsupervised learning) polega na łączeniu obiektów w klasy tak, aby te, które znajdą się w jej obrębie były do siebie jak najbardziej podobne. Klasyfikacja nadzorowana (ang. supervised learning), w której kluczowy jest element uczenia opierający się na znanych wcześniej przykładach, tworzących zbiór uczący. Klasyfikacja z regułami eksperta często wykorzystywana w przypadku informacji niepełnej lub całkowitego braku informacji o przynależności obiektów do klas.

Klasyfikacja nadzorowana 44 Każdy wzorzec w zbiorze danych zawiera informację o przynależności do klasy w klasyfikacji nadzorowanej w przypadku p- klasowym, zbiór danych przyjmie postać:

Klasyfikacja nienadzorowana 45 Stosowana do zbiorów danych, w których brakuje przyporządkowania wzorców do klas na podstawie właściwości statystycznych wzorców z próby uczącej wydzielane są skupiska (tzw. klastry) wzorców do siebie podobnych (najczęstszą miarą podobieństwa jest metryka).

Wybrane metod klasyfikacji Drzewa decyzyjne Metody k-nn

Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees) są jednym z empirycznych sposobów pozyskiwania wiedzy. Podjęcie decyzji polega na podziale złożonego problemu na prostsze podzadania i rekursywny podział na kolejne, aż do momentu możliwości rozstrzygnięcia zagadnienia. Jest to tzw. zasada dziel i rządź.

Drzewa decyzyjne Drzewem decyzyjnym nazywamy graf-drzewo pozwalające na określenie klasy, do której przynależy obiekt. Korzeniem drzewa jest węzeł, w którym dokonuje się pierwszy podział zbioru uczącego. Kolejne węzły drzewa są atrybutami wybieranymi dalej w następnych iteracjach. Liście drzewa definiują klasy.

Drzewa decyzyjne - Przykładowe zadanie decyzyjne y < a 1 a 1 y O O + O O O O O O O + O O + + + + + + + a 2 + + + + + + + + + + + + + + + + + + x + tak nie x < a 2 tak nie O +

Drzewa decyzyjne Krytyczne dla skutecznego działania drzew decyzyjnych są: Kryterium stopu, Kryterium wyboru atrybutu dla poszczególnych węzłów.

Drzewa decyzyjne Kryterium stopu Kryterium stopu warunkuje, czy dany węzeł drzewa powinien być traktowany jako końcowy liść drzewa zawierający w swoim opisie etykietę klasy-decyzji.

Drzewa decyzyjne Kryterium stopu Końcowy liść drzewa musi zwrócić wartość etykiety w dwóch przypadkach: gdy w trakcie wywołań rekurencyjnych w zestawie przykładów znajdują się już tylko przykłady opisujące jedną klasę-decyzji. gdy zestaw atrybutów argumentów osiągnie zero, wtedy następuje: błąd, gdyż na podstawie przykładów nie można jednoznacznie ustalić odpowiedniej klasy-odpowiedzi albo zwrot etykiety klasy-decyzji, która najliczniej występuje w zestawie przykładów.

Drzewa decyzyjne Kryterium wyboru atrybutu dla poszczególnych węzłów Algorytm wyboru atrybutów dla węzłów ma kluczowy wpływ na wygląd drzewa decyzyjnego. Od atrybutów i ich kolejności wyboru zależy w głównej mierze głębokość i stopień rozbudowy drzewa.

Drzewa decyzyjne Kryterium wyboru atrybutu dla poszczególnych węzłów Wybór odpowiedniego atrybutu ze zbioru atrybutów, jest dokonywany dzięki wprowadzeniu systemu ocen. System ocen atrybutów opiera się na założeniu, iż najbardziej bezużytecznym atrybutem jest taki, w którym rozkład częstości występowania kolejnych klas-wyboru jest taki sam przed i po podziale zbioru danych przykładów wg ocenianego atrybutu.

Drzewa decyzyjne Funkcje oceniające Funkcje oceniające mierzące różnicę między zbiorem (przykładów), a zbiorami, na jakie dzieli się ten zbiór wg wartości ocenianego atrybutu ze względu na rozkład częstotliwości klas-decyzji. Do tej grupy zaliczane są algorytmy: CLS (ang. Concept Learning System); ID3 - Dychotomizer Interaktywny, wersja 3 (ang. Interactive Dichotomizer, version 3). Koncepcja algorytmu ID3 doczekała się wielu modyfikacji, z których warto wymienić koncepcje drzewa decyzyjnego CART (ang. Classification and Decision Trees) oraz C4.5.

KLASYFIKATOR MINIMALNO-ODLEGŁOŚCIOWY 56 Rodzina klasyfikatorów, do której zaliczane są metody k-nn (ang. k Nearest Neighbors, k-nn) k najbliższych sąsiadów.

KLASYFIKATOR MINIMALNO-ODLEGŁOŚCIOWY 57 niech Xl to zbiór wzorców reprezentujących l-tą klasę, czyli: niech Pl to środek ciężkości l-tej klasy, czyli:

KLASYFIKATOR MINIMALNO-ODLEGŁOŚCIOWY niech x punkt, który ma zostać zaklasyfikowany, jeśli: 58 to punkt x klasyfikowany do klasy l0. jeśli mamy kilka równych najmniejszych odległości, wybieramy losową klasę wśród tych najbliższych lub klasę o najmniejszym indeksie (o ile mamy relację porządku wśród etykiet klas)

KLASYFIKATOR MINIMALNO-ODLEGŁOŚCIOWY LICZENIE ODLEGŁOŚCI (RÓŻNE METRYKI): metryka euklidesowa: 59 metryka miejska (taksówkowa, Manhattan): metryka maksimum:

Przykład 60 dany jest zbiór danych, zawierający wzorce: zaklasyfikować punkt (używając metryki euklidesowej):

Metody k-nn Klasyfikatory k najbliższych sąsiadów (ang. k Nearest Neighbors, k-nn) są najpopularniejszymi przedstawicielami grupy klasyfikatorów minimalnoodległościowych. W literaturze jako pierwsi opublikowali tą metodę klasyfikacji Fix i Hodges w roku 1951.

Metody k-nn Idea działania reguły k-nn polega na przypisaniu nieznanego, badanego wektora cech x do klasy najliczniej reprezentowanej wśród k jego najbliższych obiektów, tj. sąsiadów, pochodzących ze zbioru uczącego. Stosunek obiektów z danej klasy i, gdzie i L, do liczby k estymuje warunkowe prawdopodobieństwo a posteriori p(i x) przynależności badanego obiektu x do klasy i.

Metody k-nn - Idea działania reguły k-nn (k = 5) 4-NN 5-NN 2-NN x 1-NN 3-NN

Metody k-nn - przypadki szczególne Należy podkreślić, że przypadki szczególne nie stanowią większego problemu dla jednoznaczności działania reguły k-nn.

Metody k-nn - przypadki szczególne Problem remisu, gdy mamy więcej niż jedną klasę najliczniej reprezentowaną w zbiorze uczącym. Rozwiązanie: Sposób podejmowania decyzji o zaklasyfikowaniu badanego obiektu do jednej z równo reprezentowanych klas określa autor implementujący algorytm.

Metody k-nn - przypadki szczególne Sytuacja, gdy przy wyznaczaniu k-tego, najbliższego punktu okazuje się, że istnieje więcej niż jeden punkt o takiej samej odległości od badanego obiektu. Rozwiązanie: Przy klasyfikacji uwzględnia się także te dodatkowe punkty, które znalazły się w tej samej odległości co k-ty najbliższy sąsiad.

Metody k-nn - Zalety Wśród wielu zalet reguły k-nn należy podkreślić kilka najważniejszych: Zbieżność błędu klasyfikacji do błędu klasyfikatora Bayesa (gdy k, m ). Klasyfikator Bayesa jest klasyfikatorem optymalnym ze względu na generowany błąd klasyfikacji, jednak w praktyce niemożliwym do zastosowania ze względu na brak wiedzy o gęstości rozkładów prawdopodobieństw dla rzeczywistych zbiorów.

Metody k-nn - Zalety Potwierdzona wieloma eksperymentami i badaniami wysoka jakość klasyfikacji. Wysoka stabilność, czyli mały wpływ lokalnych zmian w zbiorze danych na wynik działania klasyfikatora. Możliwość estymacji błędu już na etapie uczenia klasyfikatora (np. metodą minus jednego elementu). Prostota. Intuicyjność.

Metody k-nn - Wady W przypadku reguły k-nn występuje kilka istotnych wad: Mała szybkość klasyfikacji. Konieczność przechowywania w pamięci całego zbioru odniesienia w czasie całego procesu rozpoznawania. Duża wrażliwość na zbędne cechy. Warto podkreślić, iż w ostatnich latach dwie pierwsze, wymienione powyżej, wady stają się coraz mniej istotne, za sprawą coraz wydajniejszych i pojemniejszych systemów komputerowych.

Metody k-nn - Metryka W przypadku reguł k-nn, najbliższych sąsiadów wyznacza się poprzez obliczenie odległości pomiędzy badanym punktem a punktami ze zbioru odniesienia. Kluczową rolę odgrywa więc zastosowana metryka, która będzie wpływała na jakość oraz szybkość klasyfikacji.

71 REGUŁA NAJBLIŻSZEGO SĄSIADA (1-NN) najprostszy rodzaj reguły k-nn (dla k = 1) przypisuje klasyfikowanemu wzorcowi etykietę klasy jego najbliższego sąsiada bardzo popularna szybsza niż k-nn dla k > 1 przeważnie wysoka jakość klasyfikacji (dla dostatecznie dużego zbioru uczącego, prawdopodobieństwo błędu klasyfikacji reguły 1-NN nigdy nie przekroczy podwojonej wartości prawdopodobieństwa błędu klasyfikatora Bayesa) bardziej podatna na błędy klasyfikacji spowodowane szumem niż reguła k-nn (dla większych wartości parametru k)

ESTYMACJA PRAWDOPODOBIEŃSTWA POPRAWNEJ DECYZJI 72 aby oszacować prawdopodobieństwo poprawnej klasyfikacji klasyfikatora stosuje się tzw. metodę zbioru testującego. polega ona na klasyfikacji wzorców z tzw. zbioru testującego Xt, czyli wzorców nie użytych przy konstrukcji klasyfikatora. wzorce służące do budowy klasyfikatora tworzą zbiór uczący Xu. otrzymane wyniki klasyfikacji służą do wyznaczenia frakcji poprawnych klasyfikacji (sprawności klasyfikatora, jakości klasyfikacji). miara ta najczęściej jest wyrażana w procentach.

WYBÓR OPTYMALNYCH PARAMETRÓW KLASYFIKATORA 73 do zadania wyboru optymalnych parametrów klasyfikatora stosuje się dodatkowy zbiór wyznaczony ze zbioru uczącego część wyznaczoną ze zbioru uczącego, służącą do konstrukcji klasyfikatora, będziemy dalej nazywać zbiorem konstrukcyjnym Xk, zaś część służącą do walidacji parametrów klasyfikatora zbiorem walidacyjnym Xw

PODZIAŁ ZBIORU DANYCH 74

METODY WYBORU ZBIORU WALIDACYJNEGO METODA HOLDOUT pierwszą z metod wyboru zbioru walidacyjnego jest metoda holdout wzorce ze zbioru uczącego są jednokrotnie dzielone na część konstrukcyjną i część walidacyjną w pewnej proporcji (najczęściej 2:1) oceną klasyfikatora jest, zdefiniowana wcześniej, frakcja poprawnych klasyfikacji wzorców ze zbioru walidacyjnego głównymi wadami tej metody są: zmienność wyników w zależności od podziału zaniżone oceny jakości klasyfikatora 75 zastosowanie głównie w przypadku większych zbiorów uczących

METODY WYBORU ZBIORU WALIDACYJNEGO KROSWALIDACJA inną z metod, nie posiadającą wad metody holdout, jednak oznaczającą się większą złożonością czasową, jest kroswalidacja (ang. k-fold cross validation) inaczej zwana walidacją krzyżową. zbiór uczący zostaje losowo podzielony na k równolicznych, rozłącznych podzbiorów. następnie dla każdego i tworzy się parę zbiorów konstrukcyjnego i walidacyjnego. oceną klasyfikatora jest uśredniona wartość ocen uzyskanych na wszystkich k parach zbiorów. 76 parametr k powinien być dobrany w zależności od wielkości zbioru uczącego.

METODY WYBORU ZBIORU WALIDACYJNEGO KROSWALIDACJA najczęściej przyjmuje się k = 10 77 przypadek graniczny k = liczność zbioru uczącego, daje popularną metodę minus jednego elementu (ang. leave-one-out)

78 REGUŁA K-NN USTALENIE WARTOŚCI K znanym sposobem ustalenia wartości parametru k jest przeprowadzenie metodą holdout, kroswalidacją lub metodą bootstrap estymacji jakości klasyfikacji reguły k-nn dla k z wybranego przedziału wartość parametru k, dla której otrzymamy najwyższą jakość klasyfikacji, uważana jest za optymalną na danym zbiorze uczącym w przypadku dwóch klas często spotyka się rozważanie tylko nieparzystych wartości parametru k

Metody k-nn - Zwiększenie szybkości klasyfikacji W celu poprawy szybkości klasyfikacji metod k-nn: wykonuje się ich aproksymacje regułą 1-NN, a następnie stosuje się redukcję zbioru odniesienia (czyli usunięcie obiektów nie mających lub mających znikomy wpływ na jakość klasyfikacji).

Metody k-nn - Algorytmy redukcji zbioru odniesienia Spośród najważniejszych algorytmów redukcji zbioru odniesienia należy wymienić algorytmy: Harta, Gowdy-Krishny, Gatesa, Tomeka, Skalaka, selektywne, genetyczne.

Metody k-nn - Rozwój metod k-nn Idea działania klasyfikatora k-nn została zaproponowana w roku 1951 i od tego czasu doczekała się wielu modyfikacji (także dzięki swojej prostocie i łatwości implementacji). Celem zmian są głównie dwa najważniejsze parametry oceny klasyfikatora czyli jakość i szybkość klasyfikacji.

Metody k-nn - Rozwój metod k-nn Spośród wielu prac w tym zakresie warto wymienić: koncepcję symetrycznego sąsiedztwa, algorytm k dyplomatycznych sąsiadów, wykorzystanie metryk lokalnych, algorytmy z lokalnym wyborem klasyfikatora, klasyfikatory z głosowaniem, dekompozycja zadania wielo-decyzyjnego na sieć dychotomizerów, klasyfikatory kaskadowe.

Przegląd literatury Monografie z dziedziny rozpoznawania obrazów (tylko metody statystyczne): Michie i in., 1994; Devroye i in., 1996; Duda, Hart i Stork, 2000; Web, 2002; Bishop, 2006; Tadeusiewicz i Flasiński, 1991; Kurzyński, 1997; Cichosz, 2000; Koronacki i Ćwik, 2005; Stąpor, 2005, Jóźwik, 2006.

Prezentacja jest współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń - zintegrowany rozwój Politechniki Łódzkiej - zarządzanie Uczelnią, nowoczesna oferta edukacyjna i wzmacniania zdolności do zatrudniania osób niepełnosprawnych Prezentacja dystrybuowana jest bezpłatnie Politechnika Łódzka, ul. Żeromskiego 116, 90-924 Łódź, tel. (042) 631 28 83 w ramach Europejskiego www.kapitalludzki.p.lodz.pl Funduszu Społecznego