Sztuczna inteligencja : Algorytm KNN

Podobne dokumenty
Prawdopodobieństwo czerwonych = = 0.33

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Mail: Pokój 214, II piętro

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Elementy modelowania matematycznego

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Systemy uczące się wykład 2

KLASYFIKACJA. Słownik języka polskiego

Klasyfikacja metodą Bayesa

METODY INŻYNIERII WIEDZY

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

METODY INŻYNIERII WIEDZY

Hierarchiczna analiza skupień

Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Sztuczna inteligencja : Naiwny klasyfikator Bayesa

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Systemy uczące się Lab 4

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Dokumentacja formuł cenowych

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

EGZAMIN MATURALNY Z INFORMATYKI WYBRANE: ... (system operacyjny) ... (program użytkowy) ... (środowisko programistyczne)

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Metody probabilistyczne klasyfikatory bayesowskie

Algorytmy klasyfikacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Określanie ważności atrybutów. RapidMiner

Excel - podstawa teoretyczna do ćwiczeń. 26 lutego 2013

Sztuczna Inteligencja Projekt

Zadanie 1. Suma silni (11 pkt)

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Podstawy Automatyki. Wykład 7 - obiekty regulacji. dr inż. Jakub Możaryn. Warszawa, Instytut Automatyki i Robotyki

Macierze. Rozdział Działania na macierzach

Adrian Horzyk

Asocjacyjna reprezentacja danych i wnioskowanie

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Metody systemowe i decyzyjne w informatyce

5. Rozwiązywanie układów równań liniowych

METODY INŻYNIERII WIEDZY

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Klasyczne zagadnienie przydziału

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

ZAGADNIENIE TRANSPORTOWE(ZT)

Programowanie Współbieżne. Algorytmy

EGZAMIN MATURALNY Z INFORMATYKI. 10 maja 2017 POZIOM ROZSZERZONY. Godzina rozpoczęcia: 14:00 CZĘŚĆ I

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Zaawansowane metody numeryczne

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Programowanie 3 - Funkcje, pliki i klasy

SZTUCZNA INTELIGENCJA

METODYKA POSTĘPOWANIA W ZAKRESIE WYZNACZANIA KLASY MLC DLA NOWOBUDOWANYCH I PRZEBUDOWYWANYCH OBIEKTÓW MOSTOWYCH NA DROGACH PUBLICZNYCH

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

R Z G W REGIONALNY ZARZĄD GOSPODARKI WODNEJ W KRAKOWIE. Załącznik F Formuła opadowa wg Stachý i Fal OKI KRAKÓW

Zadanie 1. Korale (8 pkt) Rozważamy następującą rekurencyjną procedurę Korale, której parametrem jest dodatnia liczba całkowita n.

Pracownia Informatyczna Instytut Technologii Mechanicznej Wydział Inżynierii Mechanicznej i Mechatroniki. Podstawy Informatyki i algorytmizacji

Przetwarzanie obrazów wykład 4

Metody klasyfikacji i klasteryzacji obiektów wielocechowych.

UKŁADY RÓWNAŃ LINIOWYCH - Metody dokładne

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

Wykład 5. Metoda eliminacji Gaussa

Testowanie modeli predykcyjnych

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.


Excel na lekcjach matematyki

Metody systemowe i decyzyjne w informatyce

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Zajęcia: VBA TEMAT: VBA PROCEDURY NUMERYCZNE Metoda bisekcji i metoda trapezów







46 Olimpiada Biologiczna

Co to jest grupowanie

Jeszcze o algorytmach

Sztuczna inteligencja: zbiory rozmyte

Pobieranie prób i rozkład z próby

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Prawdopodobieństwo. Prawdopodobieństwo. Jacek Kłopotowski. Katedra Matematyki i Ekonomii Matematycznej SGH. 16 października 2018

Excel zadania sprawdzające 263

TRANSFORMACJE I JAKOŚĆ DANYCH

Wprowadzenie do klasyfikacji

Wymagania edukacyjne z matematyki klasa IV technikum

det[a 1,..., A i,..., A j,..., A n ] + det[a 1,..., ka j,..., A j,..., A n ] Dowód Udowodniliśmy, że: det[a 1,..., A i + ka j,..., A j,...

Analiza matematyczna i algebra liniowa Macierze

Transkrypt:

Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012

1 Algorytm 1 NN 2 Algorytm knn 3 Zadania

Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr wejściowy, to zbiór obiektów, na podstawie których będzie przebiegała klasyfikacja. obiekt do zaklasyfikowania Parametr wyjściowy to klasa decyzyjna, do której zaklasyfikowany zostanie obiekt. Schemat algorytmu: 1 Poszukaj obiektu najbliższego w stosunku do obiektu klasyfikowanego. 2 Określenie klasy decyzyjnej na podstawie obiektu najbliższego.

Algorytm k-nn - k najbliższych sąsiadów. Podobny do powyższego algorytmu Bardziej odporny na szumy - w poprzednim algorytmie obiekt najbliższy klasyfikowanemu może być zniekształcony - tak samo zostanie zaklasyfikowany nowy obiekt. Konieczność ustalenia liczby najbliższych sąsiadów. Wyznaczenie miary podobieństwa wsród obiektów (wiele miar podobieństwa).

Dobór parametru k - liczby sąsiadów: Jeśli k jest małe, algorytm nie jest odporny na szumy - jakość klasyfikacji jest niska. Jeśli k jest duże, czas działania algorytmu rośnie - większa złożoność obliczeniowa. Należy wybrać k, które daje najwyższą wartość klasyfikacji.

Wyznaczanie odległości obiektów: odległość euklidesowa odległość miejska odległość taksówkowa Manhattan Pierwsza z nich wyraża się wzorem: d ij = Σ p k=1 (x ik x jk ) 2 Z kolei odległość miejska: d ij = Σ p k=1 x ik x jk

Przykład: Tablica: Tabela danych Tablica: Tabela danych X1 X2 Y 5 5 + 7 7 + 5 3 + 7 3 + 3 3 + 5 4 + 5 2 + 3 1 + 7 5 + 5 1 + X1 X2 Y 8 4-4 6-4 6-10 8-10 6-8 5-7 4-4 9-5 5-4 8-9 10-10 7-6 4-4 10-3 6?

Obiekt klasyfikowany podany jako ostatni : X 1 = 3, X 2 = 6 Teraz obliczmy odległości poszczególnych obiektów od wskazanego. Dla uproszczenia obliczeń posłużymy się wzorem: d ij = (X 1 2 i ˆX 1 2 ) + (X 2 2 i ˆX 2 2 )

Przykład: Tablica: Tabela danych Tablica: Tabela danych X1 X2 Y d 5 5 + 26 7 7 + 40 5 3 + 17 7 3 + 2 3 3 + 13 5 4 + 45 5 2 + 8 3 1 + 58 7 5 + 17 5 1 + 18 X1 X2 Y d 8 4-20 4 6-13 4 6-8 10 8-29 10 6-10 8 5-5 7 4-17 4 9-2 5 5-26 4 8-10 9 10-0 10 7-5 6 4-40 4 10-36 3 6?

Wybranie K= 9 najbliższych sąsiadów i określenie ich decyzji: Tablica: Tabela danych Tablica: Tabela danych X1 X2 Y d znak 5 5 + 26 7 7 + 40 5 3 + 17 7 3 + 2 + 3 3 + 13 5 4 + 45 5 2 + 8 + 3 1 + 58 7 5 + 17 5 1 + 18 X1 X2 Y d znak 8 4-20 4 6-13 4 6-8 - 10 8-29 10 6-10 - 8 5-5 - 7 4-17 4 9-2 - 5 5-26 4 8-10 - 9 10-0 - 10 7-5 - 6 4-40 4 10-36 3 6?

Ostatnim krokiem jest obliczenie liczby sąsiadujących obiektów w danych klasach decyzyjnych: Obiekty w klasie dodatniej 2 Obiekty w klasie ujemnej 7 Klasyfikowany obiekt będzie najprawdopodobniej w klasie ujemnej.

Zadanie pierwsze Przygotować dowolny zbiór danych, a następnie dla tego zbioru zbudować naiwny klasyfikator Bayesa. help Stworzyć zbiór danych z klasą decyzyjną Tak/Nie Stworzyć dodatkową kolumnę określającą, czy dany obiekt ma jednocześnie określoną klasę decyzyjną i wybrany atrybut (przy pomocy formuły = JEZELI (ORAZ(Warunek1; Warunek2); 1; 0)) Np: Tablica: Tabela danych Pogoda Temperatura Wilgotność Wietrznie Klasa Słonecznie Gorąco Duża Nie N Słonecznie Gorąco Duża Tak N = JEZELI (ORAZ(Pogoda = Slonecznie ; Klasa = N ); 1; 0) (Patrz przykład z początku zajęć dotyczący gry w tenisa).

help Przy pomocy formuły = LICZ.JEZELI (zakres; warunek) obliczyć jaki odsetek obiektów w zbiorze zawiera podaną wartość atrybutu (liczba obiektów o zadanym atrybucie do całkowitej liczby obiektów) Obliczyć prawdopodobieństwo na to, że obiekt zostanie zaklasyfikowany do klasy N lub T.

Zadanie drugie Przygotować szablon w excelu klasyfikujący obiekt, działający zgodnie z algorytmem k-nn. help Stworzyć zbiór danych z klasą decyzyjną Tak/Nie Dołożyć dodatkową kolumnę do obliczania dystansu pomiędzy obiektem klasyfikowanym, a aktualnym obiektem. Określenie klasy decyzyjnej obiektów najbliższych - przy pomocy formuły = JEZELI (aktualny <= MIN.K(Przedzial; k); decyzja; ), gdzie: aktualny, to odległość pomiędzy aktualnym obiektem, a klasyfikowanym - kolumna wyliczona w poprzednim punkcie. MIN.K zwraca k-tą najmniejszą wartość w zadanym przedziale. Ustawiając k=8, formuła zwróci nam 8 obiektów o minimalnej odległości z zadanego przedziału. Decyzja to klasa decyzyjna wybranego obiektu. Formuła ustawi decyzję obiektu tylko w przypadku, gdy ten należy do zbioru ośmiu obiektów najbliższych obiektowi klasyfikowanemu.

help Wykres dla danych: pierwsza seria to obiekty z klasą decyzyjną Tak, druga seria to klasa decyzyjna Nie, a trzecia to wartość nieznana, czyli?. Przy pomocy formuły LICZ.JEZELI określamy liczbę obiektów z decyzją dodatnią i liczbę obiektów z decyzją ujemną (tylko z k sąsiadów!!). Jeżeli liczba obiektów dodatnich jest większa, to decyzja klasyfikowanego obiektu = Tak, w przeciwnym wypadku Nie.