Adrian Horzyk

Podobne dokumenty
METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

SZTUCZNA INTELIGENCJA

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

WIEDZA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

TRANSFORMACJE I JAKOŚĆ DANYCH

Hierarchiczna analiza skupień

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Asocjacyjna reprezentacja danych i wnioskowanie

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

BAZY DANYCH. NIERELACYJNE BAZY DANYCH NoSQL I ASOCJACYJNE STRUKTURY DANYCH. Adrian Horzyk. Akademia Górniczo-Hutnicza

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

Agnieszka Nowak Brzezińska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

BAZY DANYCH. Microsoft Access NAWIGACJA, MENU I PARAMETRY WYSZUKIWANIA. Adrian Horzyk. Akademia Górniczo-Hutnicza

Metody Inżynierii Wiedzy

Systemy uczące się Lab 4

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Adrian Horzyk

Agnieszka Nowak Brzezińska Wykład III


Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Agnieszka Nowak Brzezińska Wykład III

KLASYFIKACJA. Słownik języka polskiego

Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

BAZY DANYCH MAKRA I PRZYCISKI. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

Sztuczna inteligencja : Algorytm KNN

Elementy modelowania matematycznego

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Co to jest grupowanie

BIOCYBERNETYKA PROLOG

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

QualitySpy moduł persystencji

Sieci Kohonena Grupowanie

ALGORYTM RANDOM FOREST

Pattern Classification

USING A PROBABILISTIC NEURAL NETWORK AND THE NEAREST NEIGHBOUR METHOD TO IDENTIFY SHIP RADIOSTATIONS

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Metody systemowe i decyzyjne w informatyce

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

SIECI REKURENCYJNE SIECI HOPFIELDA

A Zadanie

Lekcja 5: Sieć Kohonena i sieć ART

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Klasa I gimnazjum. PK nr 4 semestr II. Recenzja pracy. pieczątka/nazwa szkoły FIZYKA I ASTROMINA /2010/2011

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Metody Sztucznej Inteligencji II

Rozpoznawanie obrazów

Adrian Horzyk

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

METODY INŻYNIERII WIEDZY

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMY SZTUCZNEJ INTELIGENCJI

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

PODSTAWY INFORMATYKI wykład 5.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

AKADEMIA GÓRNICZO-HUTNICZA im. St. Staszica w Krakowie

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Metody klasyfikacji danych - część 1 p.1/24

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Systemy uczące się wykład 2

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

PODSTAWY INFORMATYKI wykład 10.

Projektowanie obiektowe Wzorce projektowe. Gang of Four Wzorce rozszerzeń

Prawdopodobieństwo czerwonych = = 0.33

Obliczenia inteligentne Zadanie 4

Neuroasocjacyjne modele obliczeniowe w sztucznej inteligencji dla celów formowania się wiedzy i skojarzeń

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

KOMPUTEROWE TECHNIKI ANALIZY INFORMACJI ZAWARTEJ W SYGNAŁACH AKUSTYCZNYCH MASZYN ELEKTRYCZNYCH DLA CELÓW DIAGNOSTYKI STANÓW PRZEDAWARYJNYCH

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Uczenie sieci radialnych (RBF)

Klasyfikacja województw według ich konkurencyjności przy pomocy metod taksonomicznych oraz sieci neuronowych.

ANALIZA WARUNKÓW ZASILANIA (JEE) WYBRANE PRZYPADKI

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Drzewa decyzyjne i lasy losowe

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Transkrypt:

Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium Biocybernetyki 30-059 Kraków, al. Mickiewicza 30, paw. C3/205

WSTĘP Metoda K Najbliższych Sąsiadów (k-nearest Neighbors) należy do grupy algorytmów leniwych (lazy algorithms), czyli takich, które nie tworzą wewnętrznej reprezentacji danych uczących, lecz szukają rozwiązania dopiero w momencie pojawienia się wzorca testującego, np. do klasyfikacji. Przechowuje wszystkie wzorce uczące, względem których wyznacza odległość wzorca testowego. Do którego zbioru należy gwiazdka? Do grupy metod gorliwych (eager learning algorithms) należą zaś takie algorytmy uczące, które na podstawie danych uczących tworzą wewnętrzną ich reprezentację (swoisty rodzaj wiedzy o problemie). W momencie pojawienia się wzorca testującego korzystając z tej wewnętrznej reprezentacji dokonują jego np. klasyfikacji. Do tej grupy metod należą wszystkie rodzaje sieci neuronowych oraz rozwiązania oparte na logice rozmytej, drzewach decyzyjnych i wiele innych. Po zakończonej nauce (adaptacji modelu), dane uczące mogą być usunięte.

ZBIÓR WZORCÓW UCZĄCYCH Zbiór wzorców uczących (learning patterns, training examples) składa się ze zbioru par <x i, y i >, gdzie x i jest zbiorem parametrów x i ={x i 1,,x i n} definiujących obiekty (zwykle w postaci wektora lub macierzy danych), zaś y i jest wartością przewidywaną/powiązaną/skojarzoną, np. indeksem lub nazwą klasy, do której obiekt x i należy i którą razem z innymi obiektami tej klasy definiuje. Na rysunku mamy obiekty należące do 3 klas: kółeczka, trójkąciki i kwadraciki. Gwiazdka jest nowym obiektem, który chcemy sklasyfikować, czyli przyporządkować do jednej z istniejących klas obiektów. Do którego zbioru należy gwiazdka? Co nam podpowiada intuicja? Można np. badać odległość gwiazdki od pozostałych obiektów, dla których klasa jest znana, korzystając z jednej ze znanych metryk, np. odległości Euklidesa:

DIAGRAMY VORONOI Diagramy Voronoi (Voronoi diagrams) ilustrują obszary przyciągania (attraction areas) do najbliższych pojedynczych elementów w przestrzeni:

METODA K NAJBLIŻSZYCH SĄSIADÓW Metoda k Najbliższych Sąsiadów (k-nearest Neighbors) wyznacza k sąsiadów, do których badany element (gwiazdka) ma najbliżej dla wybranej metryki (np. Euklidesowej), a następnie wyznacza wynik w oparciu o głos większości: Do którego zbioru należy gwiazdka? Zależy to od tego ilu najbliższych sąsiadów weźmiemy pod uwagę.

METODA K NAJBLIŻSZYCH SĄSIADÓW Metoda k Najbliższych Sąsiadów (k-nearest Neighbors) daje różne wyniki w postaci obszarów przyciągania, co determinuje wynik klasyfikacji: Większe wartości k umożliwiają wygładzenie obszarów podziału, usunięcie szumu i artefaktów, lecz również prowadzą do błędów w klasyfikacji rzadszych wzorców. Pojawia się problem ich poprawnej dyskryminacji i uogólniania.

Dobieranie wartości k Jeślibyśmy wzięli pod uwagę k=n, gdzie N to ilość wszystkich elementów zbioru wzorców uczących, wtedy zawsze wynik klasyfikacji będzie określony przez najliczniej reprezentowaną klasę w tym zbiorze uczących, a więc w tym przykładzie: kwadraciki. Przykładowy wykres zależności wyników adaptacji od wartości k:

MODYFIKACJE METODY K NAJBLIŻSZYCH SĄSIADÓW Metoda Ważonych Odległości Najbliższych Sąsiadów (Distance Weighted Nearest Neighbors) prowadzi do głosowania na temat klasyfikacji gwiazdki biorąc pod uwagę k najbliższych sąsiadów lub nawet wszystkie wzorce, lecz ich głosy są ważone w zależności od ich odległości (dla wybranej metryki) do gwiazdki: im dalej jest głosujący wzorzec tym ma mniejszą wagę. A więc wzorce położone najbliżej będą miały największy wpływ na wynik klasyfikacji: w 2 w1 w 3 w 4 w 5 w7 w6

TRUDNOŚCI METOD K NAJBLIŻSZYCH SĄSIADÓW Metody Najbliższych Sąsiadów ponoszą karę za swoje lenistwo, związane z brakiem budowy modelu generalizującego wzorce uczące. Wymagają przeglądania w pętlach wszystkich wzorców uczących po wszystkich wymiarach. W przypadku dużej ilości wzorców lub dużego wymiaru danych klasyfikacja wymaga zwykle porównania z każdym wzorcem, co wiąże się z ogromnym narzutem czasowym w trakcie klasyfikacji. Od tego wolne są inne modele, które dla wzorców uczących raz budują model (pewnym nakładem czasowym), lecz potem klasyfikacja przebiega już bardzo szybko! Nawet w przypadku poindeksowania wzorców względem każdego wymiaru/parametru w bazie danych, trzeba przejść po każdym z wymiarów, w celu określenia najbliższych sąsiadów, co też jest czasochłonne w zależności od wyboru k. W metodach sprawdzających ważone odległości do wszystkich wzorców i tak trzeba przejść po nich wszystkich każdorazowo. Metoda jest wrażliwa na dane zaszumione lub błędne, np. w odniesieniu do niektórych cech wzorców (noisy features). Mogą one zmienić wynik klasyfikacji. Metoda k-nn natomiast dosyć dobrze działa dla dużej ilości klas. PRÓBY ROZWIĄZANIA: Adaptacja sposobu określania odległości poprzez adaptacyjne ważenie cech, odległości, wartości k.

MODYFIKACJE METODY K NAJBLIŻSZYCH SĄSIADÓW Korzystając z asocjacyjnego sortowania oraz neuronowych struktur AANG można by było bardzo szybko wyznaczyć najbliższych sąsiadów na podstawie podobieństwa do prezentowanego wzorca na wejściu, lecz po co, skoro sama sieć AANG również umożliwia klasyfikację, zwykle nie gorszą niż k-nn, a w dodatku tworzy model na podstawie danych uczących, co znacznie przyspiesza końcowy proces klasyfikacji. ZEWNĘTRZNE POBUDZANIE WEJŚĆ SENSORYCZNYCH 4 3 MIN AANG 1 N1 N2 N3 N4 MIN 1 2 ACON 3 3 SENSIN : A1 4 6 5 8 SENSIN : A2 8 9 MAX N5 N6 N8 N9 ACON 9 MAX ZEWNĘTRZNE POBUDZANIE NEURONU MIN AANG 1 N1 N2 N3 N4 MIN 1 2 ACON 3 3 SENSIN : A1 4 6 5 8 SENSIN : A2 8 9 9 MAX N5 N6 N8 N9 ACON MAX

PORÓWNANIE WYNIKÓW KLASYFIKACJI AANG i knn

PORÓWNANIE WYNIKÓW KLASYFIKACJI AANG i knn