4.3 Grupowanie według podobieństwa



Podobne dokumenty
Algorytm grupowania danych typu kwantyzacji wektorów

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

CLUSTERING. Metody grupowania danych

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Hierarchiczna analiza skupień

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Podstawy grupowania danych w programie RapidMiner Michał Bereta

Techniki grupowania danych w środowisku Matlab

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Text mining w programie RapidMiner Michał Bereta

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

46 Olimpiada Biologiczna

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Analiza składowych głównych. Wprowadzenie

3.2 Wykorzystanie drzew do generowania pytań

Spacery losowe generowanie realizacji procesu losowego

Pojęcia to. porównanie trzech sposobów ujmowania pojęć. Monika Marczak IP, UAM

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Elementy modelowania matematycznego

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Wstęp do grupowania danych

Grupowanie stron WWW. Funkcje oceniające.

1. Grupowanie Algorytmy grupowania:

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Agnieszka Nowak Brzezińska Wykład III

Optymalizacja systemów

Metody systemowe i decyzyjne w informatyce

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Procesy ETL. 10maja2009. Paweł Szołtysek

PROPOZYCJA ZASTOSOWANIA WYMIARU PUDEŁKOWEGO DO OCENY ODKSZTAŁCEŃ PRZEBIEGÓW ELEKTROENERGETYCZNYCH

Co to jest grupowanie

Przestrzeń algorytmów klastrowania

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Ćwiczenia z Zaawansowanych Systemów Baz Danych

Grupowanie danych. Wprowadzenie. Przykłady

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Algorytm grupowania danych typu kwantyzacji wektorów

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Agnieszka Nowak Brzezińska Wykład III

SZTUCZNA INTELIGENCJA

Supervised Hierarchical Clustering with Exponential Linkage. Nishant Yadav

Sztuczna inteligencja : Algorytm KNN

Przykłady wybranych fragmentów prac egzaminacyjnych z komentarzami Technik elektronik 311[07]

Testowanie hipotez statystycznych

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

0.1. Diagram klas i pakietów

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

Algorytm memetyczny w grach wielokryterialnych z odroczoną preferencją celów. Adam Żychowski

Uczenie sieci radialnych (RBF)

CLUSTERING METODY GRUPOWANIA DANYCH

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

ALGORYTMY GENETYCZNE ćwiczenia

Materiały dla finalistów

Generowanie liczb o zadanym rozkładzie. ln(1 F (y) λ

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3

Programowanie i struktury danych

Aproksymacja funkcji a regresja symboliczna

10. Wstęp do Teorii Gier

Metody systemowe i decyzyjne w informatyce

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Wprowadzenie do uczenia maszynowego

Rozpoznawanie obrazów

Rozpoznawanie obrazów

PODOBIEŃSTWA RYNKÓW PRACY W GRUPIE KRAJÓW UE-28

METODY OBLICZENIOWE. Projekt nr 3.4. Dariusz Ostrowski, Wojciech Muła 2FD/L03

Programowanie w C++ Wykład 7. Katarzyna Grzelak. 23 kwietnia K.Grzelak (Wykład 7) Programowanie w C++ 1 / 40

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Drzewa BST i AVL. Drzewa poszukiwań binarnych (BST)

Klasteryzacja danych

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Metody klasyfikacji danych - część 1 p.1/24

Instrukcje dla zawodników

Próbny egzamin maturalny z matematyki Poziom rozszerzony

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

46 Olimpiada Biologiczna

CLUSTERING II. Efektywne metody grupowania danych

Porównanie dwóch rozkładów normalnych

Przybliżone algorytmy analizy ekspresji genów.

Podejmowanie decyzji - sztuka dobrego wyboru

W jakim stopniu uczniowie opanowali umiejętność Wykorzystywania wiedzy w praktyce? Analiza zadań otwartych z arkusza Sprawdzian 2012

Zachowania odbiorców. Grupa taryfowa G

Czym jest analiza skupień?

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)

Egzamin gimnazjalny z matematyki 2016 analiza

Analiza Skupień Cluster analysis

Jak przekształcać zmienne jakościowe?

METODY INŻYNIERII WIEDZY

Podstawy MATLABA, cd.

Transkrypt:

4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi danymi dysponujemy. Czy informacje jakie posiadamy odzwierciedlają naturalną hierarchię ras. Jednym ze sposobów na znalezienie odpowiedzi, jest zastosowania algorytmów grupowania według podobieństwa. Ten proces uczenia powoduje wyznaczenie pewnego podziału zbioru trenującego na kategorie. Podział odbywa sie przy wykorzystaniu oceny podobieństwa pomiędzy obiektami. W rezultacie otrzymujemy zbiór grup, który możemy wykorzystać nie tylko do oceny poprawności danych. Jednym z możliwych zastosowań jest porównanie różnych metod grupowania i wygenrowanie na tej podstawie wag, określających istotność pewnych cech w ocenie podobieństwa psów. Przykładowo intuicyjnie wielkość psa wydaje się bardziej istotna dla ludzie, niż cecha określająca długość ogona. 4 3 1 Definicja grupowania Grupowanie jest jednym z rodzajów uczenia bez nadzoru. Zbiór trenujący składa się z przykładów nieetykietowanych. Algorytm polega na zaproponowaniu podziału przykładów na kategorię (inaczej zwane grupami, lub też klastrami) i dodatkowo skonstrułowaniu dobrego opisu każdej grupy. Obiekty we wspólnej kategorii powinny być maksymalnie podobne i maksymalnie zróżnicowane między różnymi grupami. Wybór algroytmu grupowania ogranicza się do nastpujących kroków[6]: definicja funkcji podobieństwa określenie metody grupowania Dodatkowo niektóre algorytmy wymagają jeszcze kroku wstępnego, polegającego na selekcji cech, które mają być wykrzystywane w procesie grupowania. Ale nie jest to krok zawsze wymagany. 4 3 2 Grupowanie hierarchiczne Wynikiem grupowania hierarchicznego jest dendrogram. Dendrogram jest diagramem w kształcie drzewa ukazującym związki pomiędzy grupami na podstawie przyjętego kryterium określającego podobieństwo. Standardowy algorytm grupowania przyrostowego 59

Algorithm 4.1 Standard Agglomerative Clustering function agglomerative( E: zbiór_przykładów) returns dendrogram, dla k = 1 do E begin i C i = x i } for k = E down to 1 endloop dendrogram k = C 1... C k i j d i j) = D C i C j ) l m = argmin a b d a b) C l = Join C l C m ) Remove(C m ) end Źródło: Agglomerative Hierarchical Clustering with Constraints: Theoretical and Empirical Results [5] został przedstawiony w listingu 4.1. W pierwszym kroku, każdy z przykładów x i jest umieszczony w osobnej grupie C i. Następnie tworzone są poszczególne elementy dendrogramu. Funkcja odległości D C i C j ) określa podobieństwo pomiędzy parami klastrów. Następnie wybierane są i łączone w jedną, dwie najbardziej podobne grupy. Kryterium stopu, może być umieszczenie wszystkich przykładów w jednym klastrze, lub otrzymanie określonej liczby grup. Większość hierarchicznych algorytmów grupowania opiera się na trzech podstawowych metodach: single-link, complete-link i minimum-variance. Najpopularniejsze są single-link i complete-link. Różnią się one sposobem okreslania odległości pomiędzy kategoriami[6]: single-link: odległość pomiędzy dwiema kategoriami to minimalna odległość pomiędzy wszystkimi parami z tych kategorii (jeden przykład z pierwszej grupy, drugi z drugiej) complete-link: odległość pomiędzy dwiema kategoriami to maksymalna odległość pomiędzy wszystkimi parami z tych kategorii Single-link cierpi na efekt zwany: chaining effect. Ma tendencję do wytwarzania grup, które są nadmiernie wydłużone. Natomiast metoda complete-ling cierpi na inny problem. 60

Wykres 4.1: Maltańczyk i pekińcznyk Źródło: http://images.google.pl/ Poświęca za dużo uwagi wartościom skrajnym, punktów, które nie mieszczą się w globalnej strukturze klastra. 4 3 3 Przykładowe dendrogramy Przy użyciu programu Orange w wersji 1.0b 1 został wykonany dendrogram dla danych psy_29.csv. Jako funkcję oceny wykorzystano jedną z najprostszych miar, każda różnica w wartościach cech podowodwuje wzrost odległości o 1. Algorytm korzysta z metody single-link. W rezultacie otrzymano dendrogram zaprezetowanty na rysunku 4.2. Bardzo podobne do siebie psy zostały połączone w prawidłowe kategorię. Przykładowo maltese i pekingese trafiły do jednego klastra. Podkreślone zostało ich spore podobieństwo, co widać między innymi na rysunku 4.1. W bardziej ogólnej analizie, można zauważyć utworzenie dwóch dużych grup. Jedna zawiera psy rasy od poodle do otterhound, druga resztę psów z wyjątkiem komodora. Jednak ten podział zawiera już błędy. W jednym klastrze znalazły się zarówno shih tzu oraz rottweiler, w drugim np. pekingese i newfoundland. Rasy te są bardzo odmienne i małe jest prawdopodobieństwo, by zostały uznane za podobne. Przyczyną takich pomyłek mogą być: błędy w danych, czyli złe wartości niektórych atrybutów zbyt mała liczba cech 1 Orange: http://www.ailab.si/orange/ 61

Wykres 4.2: Dendrogram dla danych psy_25.csv Źródło: Opracowanie własne 62

jednakowe traktowanie wszystkich atrybutów Jednym z możliwych sposobów radzenia sobie z błędami jest przypisywanie atrybutom wag, które mogą być użyte do obliczania podobieństwa. Wyznaczanie wag, może być wykonane poprzez analizę ocen podobieństwa ras, jakie dokonują ludzie. Powinno zapobiec to umieszczaniu skrajnie niepodobnych psów w jednej grupie. 63