Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Podobne dokumenty
Elementy modelowania matematycznego

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

ALGORYTM RANDOM FOREST

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Sprawozdanie z zadania Modele predykcyjne (2)

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Systemy uczące się wykład 2

Systemy uczące się Lab 4

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Co to jest grupowanie

Systemy uczące się wykład 1

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Sieci Kohonena Grupowanie

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

KLASYFIKACJA. Słownik języka polskiego

Wprowadzenie do klasyfikacji

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Asocjacyjna reprezentacja danych i wnioskowanie

Kurs Chemometrii Poznań 28 listopad 2006

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Metody klasyfikacji danych - część 1 p.1/24

Spacery losowe generowanie realizacji procesu losowego

Algorytmy klasyfikacji

Obliczenia iteracyjne

Drzewa decyzyjne i lasy losowe

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Analiza danych. TEMATYKA PRZEDMIOTU

Sieci neuronowe w Statistica

Plan wykładu. Przykład. Przykład 3/19/2011. Przykład zagadnienia transportowego. Optymalizacja w procesach biznesowych Wykład 2 DECYZJA?

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

KURS PRAWDOPODOBIEŃSTWO

Data Mining Wykład 4. Plan wykładu

Przykładowa analiza danych

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Algorytm grupowania danych typu kwantyzacji wektorów

Prawdopodobieństwo czerwonych = = 0.33

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Sztuczna inteligencja : Algorytm KNN

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Algorytm grupowania danych typu kwantyzacji wektorów

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

Laboratorium 4. Naiwny klasyfikator Bayesa.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

METODY INŻYNIERII WIEDZY

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

Testy nieparametryczne

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Spis treści WSTĘP... 9

Programowanie dynamiczne. Tadeusz Trzaskalik

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Metody Sztucznej Inteligencji II

Adrian Horzyk

Klasyfikacja LDA + walidacja

9. Praktyczna ocena jakości klasyfikacji

Agnieszka Nowak Brzezińska Wykład III

Skalowanie wielowymiarowe idea

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

METODY INŻYNIERII WIEDZY

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Wprowadzenie do uczenia maszynowego

Matematyczne Podstawy Informatyki

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

Klasyfikacja i regresja Wstęp do środowiska Weka

Agnieszka Nowak Brzezińska Wykład III

Metody selekcji cech

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

INSTRUKCJA DO ĆWICZENIA NR 4

Zagadnienie transportowe

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Reprezentacja i analiza obszarów

Algorytmy i struktury danych. Wykład 4

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Na podstawie dokonanych obserwacji:

Wnioskowanie bayesowskie

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Laboratorium 6. Indukcja drzew decyzyjnych.

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Algorytmy zrandomizowane

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Transkrypt:

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów ciągłych (wartości z R) na dyskretne (przyjmujące jedną ze z góry ustalonych możliwych wartości). Terminu używa się także w przypadku agregacji atrybutów porządkowych, tzn. rzutowaniu atrybutów przyjmujących wartości całkowite na mniejszą liczbę reprezentantów.

Dyskretyzacja - cele Dyskretyzacja umożliwia zastosowanie klasyfikatorów, które nie obsługują wartości ciągłych. W przypadku klasyfikatorów obsługujących atrybuty ciągłe, dyskretyzacja pozwala na uproszczenie modelu klasyfikatora, a także pozwala osiągnąć lepsze wyniki klasyfikacji.

Pomysł Algorytmy klasteryzacji dzielą zbiór danych na grupy (klasy), w taki sposób, żeby zmaksymalizować podobieństwo próbek w ramach jednej klasy i zminimalizować podobieństwo grup między sobą. Pozwala to na: równomierne pokrycie próbek reprezentantami klas, uproszczenie rozwiązywanego problemu dzięki użyciu reprezentantów zamiast pełnego zakresu danych. Dlaczego więc nie zastosować klasteryzacji jako metody dyskretyzacji?

Ogólny algorytm 1. Posiadamy macierz M (n,m+1) z próbkami uczącymi. W n wierszach znajdują się kolejne próbki, które opisane są m atrybutami i klasą decyzyjną. 2. Dla każdego i=1,,m: 1. Przypisz do X i-tą kolumnę z M; 2. Przeprowadź dyskretyzacje dla X; 3. Wyznacz przedziały dyskretyzacji na podstawie wyniku dyskretyzacji; 4. Rzutuj wartości z X na odpowiadające im przedziały dyskretyzacji. 3. Uruchom algorytm klasyfikacji na zdyskretyzowanych danych.

Korzyści Wartości, których występuje więcej mają większy wpływ na wynik klasyfikacji. Pokrywamy zakres danych przedziałami dyskretyzacji w taki sposób, że: Każda liczna grupa posiada swojego reprezentanta; Grupy o małej liczbie próbek także posiadają swoich reprezentantów*; Duże grupy mogą zostać rozdzielone na wiele przedziałów dyskretyzacji. *w zależności od maksymalnej liczby przedziałów dyskretyzacji;

Badane algorytmy i ich warianty Dyskretyzacja równych przedziałów; Dyskretyzacja równych częstotliwości; Rosnący gaz neuronowy: Warunek stopu: liczba spójnych składowych topologii równa zadanej liczbie przedziałów dyskretyzacji -1; Warunek stopu: liczba neuronów równa zadanej liczbie przedziałów dyskretyzacji -1; Algorytm k-średnich: Klasyczne rzutowanie próbek na przedziały dyskretyzacji wykorzystując diagramy Woronoja; Ważone rzutowanie próbek.

Klasyfikacja metod dyskretyzacji

Algorytm k-średnich 1. Wybierz k początkowych środków i przyporządkuj każda próbkę do najbliższego środka. 2. Oblicz środki ciężkości dla każdej z grup. 3. Przyporządkuj każdą próbkę do najbliższego środka ciężkości. 4. Powtarzaj punkty 2 i 3 tak długo, póki występują zmiany przyporządkowania.

Dyskretyzacja na podstawie algorytmu k-średnich

Algorytm k-średnich

Pozostałe algorytmy (1) Dyskretyzacja równych przedziałów Dzieli dziedzinę atrybutu na zadaną liczbę przedziałów o równej długości. Dyskretyzacja równych częstotliwości Sortuje wartości atrybutu, a następnie przydziela kolejno do przedziałów dyskretyzacji tak długo, aż liczba wartości w przedziale nie przekroczy (liczba próbek/liczba przedziałów).

Pozostałe algorytmy (2) Rosnący gaz neuronowy Dla rozkładu P tworzy indukowaną triangulacje Delaunay (ang. induced Delaunay triangulation) graf, który posiada spójne składowe w obszarach, na których gęstość P przyjmuje wysokie wartości.

Histogram

Dyskretyzacja równoczęstotliwościowa

Dyskretyzacja równoprzedziałowa

Pożądany wynik dyskretyzacji wykorzystującej klasteryzację

Miara efektów (1) Nie istnieje jedna właściwa miara efektów dyskretyzacji. Często używa się miar bazujących na entropii. Pozwala to na szybką ocenę podziału i jest możliwe do zastosowania np. w k krotnej walidacji krzyżowej.

Miara efektów (2) Miary bazujące na entropii nie są jednak idealne. Stosowanie ich oznacza przyjęcie założenia o niezależności zmiennych, podobnego jak w naiwnym klasyfikatorze Bayesa. W przypadku klasyfikatorów regułowych może to utrudniać budowę poprawnego modelu.

Miara efektów (3) Celem przeprowadzenia dyskretyzacji jest skorzystanie z klasyfikatora. Z tego też względu jako najbardziej rzetelną miarę efektów dyskretyzacji postanowiliśmy przyjąć procent poprawnie sklasyfikowanych próbek przy użyciu różnych klasyfikatorów, jednocześnie budując model klasyfikatora przy użyciu 10 krotnej walidacji krzyżowej.

Metodyka badań i wyniki (1) Testy przeprowadziliśmy dla zbiorów danych: Ionosphere, iris, wheather Użyliśmy klasyfikatorów: Tabele decyzyjne, PART, Ridor Zbadaliśmy następujące liczby przedziałów: 5,6,7 I wykonaliśmy 10-krotną walidację krzyżową dla każdego możliwego zestawienia parametrów.

Metodyka badań i wyniki (2) Poskutkowało to przeprowadzeniem 270 testów. Badania zostały wykonane przy użyciu środowiska Weka, zaś testowane algorytmy dyskretyzacji zostały zaimplementowane jako filtry danych.

Wyniki: Rosnący gaz neuronowy (1) Wyniki pokazują, że rosnący gaz neuronowy nie nadaje się do zastosowania jako metoda jednowymiarowej klasteryzacji. W żadnym z wariantów nie udało się uzyskać satysfakcjonujących wyników. Wariant pierwszy aby uzyskać zadaną liczbę spójnych składowych musiał korzystać z takich wartości parametrów, które powodowały, że spójne składowe były wyznaczone losowo.

Wyniki: Rosnący gaz neuronowy (2) Wariant drugi także nie przyniósł pożądanych efektów. Sąsiedztwo topologiczne w jednowymiarowej przestrzeni powodowało, że wszystkie neurony były skupione w jednym obszarze, nie pokrywając równomiernie całego przedziału. W wyniku otrzymywaliśmy histogram z wysoką wartością w jednym przedziale i bliskimi zeru wartościami w pozostałych.

Tabela wyników zbiorczych

Średni wynik w zależności od algorytmu i zbioru danych 100 95 90 85 80 75 70 ionosphere iris weather 65 60 55 50 EqualFrequency EqualWidth KMeans KMeansWeighted

Praktyczne zastosowania

Dalsze możliwości rozwoju Dyskretyzacja wieloatrybutowa dyskretyzacja połączona z redukcją wymiarowości. Uruchamia się proces klasteryzacji dla większej liczby wymiarów, przeprowadza klasteryzacje i na podstawie uzyskanych klastrów przeprowadza dyskretyzacje wielu atrybutów w jeden.

Dziękuję za uwagę