Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Podobne dokumenty
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Elementy modelowania matematycznego

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Zadania laboratoryjne i projektowe - wersja β

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Testowanie modeli predykcyjnych

Text mining w programie RapidMiner Michał Bereta

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Data Mining z wykorzystaniem programu Rapid Miner

Metody selekcji cech

Wprowadzenie do programu RapidMiner Studio 7.6, część 9 Modele liniowe Michał Bereta

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.


Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

WYKŁAD 6. Reguły decyzyjne

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Optymalizacja ciągła

Wprowadzenie do klasyfikacji

A Zadanie

Optymalizacja optymalizacji

Wprowadzenie do uczenia maszynowego

Klasyfikacja LDA + walidacja

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

1. Należy zalogować się w systemie podając identyfikator oraz hasło

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Sztuczna inteligencja : Algorytm KNN

Klasyfikacja publikacji biomedycznych w konkursie JRS 2012 Data Mining Competition - Szkic koncepcji

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Klasyfikacja i regresja Wstęp do środowiska Weka

Systemy uczące się wykład 1

TOUCAN Team Evaluator OPIS FUNKCJONALNOŚCI

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Sieci obliczeniowe poprawny dobór i modelowanie

Machine learning Lecture 6

Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny

Budowa aplikacji ASP.NET współpracującej z bazą dany do obsługi przesyłania wiadomości

Systemy uczące się Lab 4

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

LABORATORIUM 7: Problem komiwojażera (TSP) cz. 2

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wprowadzenie do programu RapidMiner, częśd 1 Michał Bereta Program RapidMiner (RM) ma trzy główne widoki (perspektywy):

Automatyczna klasyfikacja zespołów QRS

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Hierarchia cen w systemie humansoft HermesSQL

Bioinformatyka Laboratorium, 30h. Michał Bereta

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

Klasyfikacja metodą Bayesa

Algorytmy klasyfikacji

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Technologie Informacyjne

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

PROGRAM SZKOLENIA. Excel w Analizach danych.

Agnieszka Nowak Brzezińska Wykład III

Uczenie sieci neuronowych i bayesowskich

Strategie VIP. Opis produktu. Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie. Strategia stworzona wyłącznie dla Ciebie

Mateusz Kobos Seminarium z Metod Inteligencji Obliczeniowej, MiNI PW

Wnioskowanie bayesowskie

ALGORYTM RANDOM FOREST

Metody Optymalizacji: Przeszukiwanie z listą tabu

Optymalizacja. Przeszukiwanie lokalne

Wprowadzenie do programu RapidMiner, część 5 Michał Bereta

Systemy uczące się wykład 2

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

8. Neuron z ciągłą funkcją aktywacji.

Program szkolenia EXCEL ŚREDNIOZAAWANSOWANY.

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

METODY INŻYNIERII WIEDZY

Program szkolenia EXCEL W ANALIZACH DANYCH.

Program Qmak Podręcznik użytkownika

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Propensity score matching (PSM)

E-REZERWACJE24.PL. Internetowy System Rezerwacji Online. Konfiguracja usług dodatkowych w systemie rezerwacji online

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Sprawozdanie z zadania Modele predykcyjne (2)

Obsługa Programu Operacyjnego Pomoc Żywnościowa w POMOST Std

Problemy z ograniczeniami

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Algorytm grupowania danych typu kwantyzacji wektorów

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Selekcja cech. Wprowadzenie Metody selekcji cech. Przykład zastosowania. Miary niepodobieństwa. Algorytmy przeszukiwania

Zasady wystawiania ocen klasyfikacyjnych szkoła podstawowa.

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Online Workbook Przewodnik dla nauczycieli

METODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski

LEGISLATOR. Data dokumentu:24 maja 2013 Wersja: 1.3 Autor: Paweł Jankowski, Piotr Jegorow

Transkrypt:

Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora. Przy ocenie wartości atrybutu kierować można się empiryczną oceną jakości działania konkretnego klasyfikatora, który wykorzystuje dany atrybut, a raczej cały zestaw atrybutów. Istnieją dwa główne podejścia: a.) Forward selection - dodawaj kolejne atrybuty jeśli ich dodanie poprawia działanie klasyfikatora danego typu b.) Backward elimination - usuwaj po kolei kolejne atrybuty, i akceptuj usunięcie, jeśli wytrenowany na pozostających atrybutach klasyfikator danego typu poprawia się / nie pogarsza swojego działania Porównaj działanie tych dwóch operatorów. Wykorzystują one wewnętrzny operator walidacji (kros- lub splitwalidacja) jako sposób oceny aktualnie wybranego zestawu atrybutów. Charakter przeszukiwania przestrzeni wszystkich możliwych podzbiorów atrybutów pozwala stwierdzić, że oba te algorytmy (forward i backward) są przykładami optymalizacji zachłannej. Metody takie charakteryzują się tym, że kolejne rozwiązania generowane są przez stosunkowo niewielkie modyfikacje aktualnego rozwiązania. Otrzymane nowe rozwiązanie jest akceptowane jeśli jest lepsze od aktualnego. Jako że ocena każdego kolejnego rozważanego podzbioru atrybutów wymaga wykonania np. kroswalidacji, metoda ta może szybko stać się wymagająca obliczeniowo. Z drugiej strony, zestaw atrybutów jest optymalizowany pod kątem konkretnego modelu klasyfikacyjnego. Jako metodę ewaluacji użyjemy 10-krotnej kroswalidacji dla naiwnego klasyfikatora Bayesa, który jest stosunkowo szybkim modelem klasyfikacyjnym, co ma tu duże znaczenie. 1

Dla ForwardSelection : 2

Dla Backward Elimination : 3

Przykładowe wyniki osiągnięte przez obie metody: Dla ForwardSelection: Dla BackwardElimination: Przykładowe wybrane atrybuty: Dla ForwardSelection : / Dla Backward Elimination : Jak widać, wyniki są zbliżone, jednak metody różnią się wybranym zestawem atrybutów. Czy metody te poprawiają działanie modelu w stosunku do sytuacji, gdy wszystkie atrybuty zostały użyte? Wykonaj poniższy projekt. 4

Przykładowe wyniki dla naiwnego klasyfikatora Bayesa z wykorzystaniem wszystkich atrybutów: Średnia jest niższa niż dla Forward oraz Backward, jednak według testu ANOVA, nie ma podstaw by twierdzić, że różnice są znaczące (Prob=0.519 > 0.05). Obu metodom udało się pozbyć części atrybutów i zachować średnią jakość działania. 5

Uwaga: Użycie wymagającego obliczeniowo klasyfikatora (np. sieci neuronowej) jako bazowego modelu dla metod forward oraz backward, może być zbyt wymagające i czasochłonne. Można jednak próbować użyć szybszego modelu w środku operatora forward i backward, a zoptymalizowane przez te metody zestawy atrybutów użyć do trenowania wolniejszego klasyfikatora. Liczymy przy tym, że zestaw atrybutów, który dobrze działał dla np. naiwnego klasyfikatora Bayesa, będzie również całkiem niezły dla np. sieci neuronowej. Wypróbuj poniższe podejście dla bazy ionosphery. W trzech widocznych operatorach kroswalidacji używamy sieci neuronowej 6

natomiast w operatorach forward i backward, używamy kroswalidacji, ale z naiwnym klasyfikatorem Bayesa (szybki klasyfikator). Aby przyspieszyć obliczenia, można spróbować użyć splitwalidacji zamiast kroswalidacji. Należy jednak pamiętać, że oszacowanie kroswalidacyjne jest ogólnie dokładniejsze. Przykładowe wyniki sieci neuronowej: Dla wszystkich atrybutów: Dla ForwardSelection: Dla BackwardElimination: 7

Wyniki testu ANOVA: Według testu ANOVA, różnice nie są znaczące, nawet spadek do 88% dla metody forward nie jest statystycznie istotny. Ile atrybutów usunęły metody forward oraz backward w tym przypadku? Przypomnijmy, że w bazie ionosphere są 33 atrybuty + 1 atrybut klasy. Atrybuty wybrane (podgląd): Forward (4 wybrane) / Backward (3 odrzucone) Biorąc pod uwagę, że różnice nie są statystycznie istotne, metoda forward zadziałała tu bardzo dobrze. 8

Uwaga: Kosztem zwiększenia ilości obliczeń, można skorzystać z opcji speculative rounds. Pozwala to kontynuować obliczenia metodom forward oraz backward, mimo braku poprawy przez kilka dodatkowych iteracji. Czasami pozwala to algorytmowi uciec z tzw. lokalnego minimum. 9

Generowanie wag atrybutów za pomocą metod ForwardSelection oraz BackwardElimination Podobne procedury mogą być wykorzystane do generowania wag atrybutów. Przykładowo, wypróbuj operatory Optimize Weights (Forward) oraz Optimize Weights (Backward) do bazy sonar. Operatory te również wymagają zdefiniowania podprocesu (w tym przykładzie jest to kroswalidacja z klasyfikatorem k-nn). Z dokumentacji RMS: Synopsis This operator calculates the relevance of the attributes of the given ExampleSet by calculating the attribute weights. This operator assumes that the attributes are independent and optimizes the weights of the attributes with a linear search. 10

Przykładowe wagi otrzymane z tych operatorów: Forward / Backward Sposób postępowania z tak otrzymanymi wagami jest taki sam jak w przypadku wag otrzymanych z metod wykorzystujących analizę korelacji omawianych na poprzednim laboratorium. 11

Zadanie Wykorzystując poznane metody wyboru atrybutów oraz optymalizacji parametrów algorytmów, zaprojektuj jak najlepszy (dobre wyniki klasyfikacji i jak najmniej atrybutów) klasyfikator SVM dla bazy messidor (ostatnia kolumna jest etykietą klasy). 12