Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Podobne dokumenty
Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Testowanie modeli predykcyjnych

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Text mining w programie RapidMiner Michał Bereta

Data Mining z wykorzystaniem programu Rapid Miner

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Elementy modelowania matematycznego

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Rys. 1 Okno startowe programu RapidMiner

ALGORYTM RANDOM FOREST

Wprowadzenie do programu RapidMiner, częśd 1 Michał Bereta Program RapidMiner (RM) ma trzy główne widoki (perspektywy):

Bioinformatyka. Program UGENE

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Systemy uczące się Lab 4

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Wprowadzenie do klasyfikacji

Sieci neuronowe w Statistica

Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Wprowadzenie do uczenia maszynowego

Instrukcja użytkownika. Aplikacja dla WF-Mag

Automatyczne wyodrębnianie reguł

Instrukcja użytkownika. Aplikacja dla Comarch Optima

SPIS ILUSTRACJI, BIBLIOGRAFIA

AKTYWNY SAMORZĄD. Instrukcja użytkownika.

MODUŁ INTEGRUJĄCY ELEKTRONICZNEGO NADAWCĘ Z WF-MAG SPIS TREŚCI

6. Formularze tabelaryczne, obiekty nawigacji - rozgałęzienia


MS Excell 2007 Kurs podstawowy Filtrowanie raportu tabeli przestawnej

Palety by CTI. Instrukcja

POCZTA POLSKA. v Strona 1 z 9

1. Wywiadówka. A. Zawiadomienia dla rodziców

Program Qmak Podręcznik użytkownika

Instrukcja użytkownika. Aplikacja dla Comarch Optima

Dokumentacja Końcowa

Podstawy grupowania danych w programie RapidMiner Michał Bereta

Python wstęp. Michał Bereta

POCZTA POLSKA. v Strona 1 z 9

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Bazy danych Karta pracy 1

Użytkownik zewnętrzny (UZ) może wykonywać następujące czynności:

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

System wizyjny OMRON Xpectia FZx

Zadanie 1 Przygotuj algorytm programu - sortowanie przez wstawianie.

KURIER XL BY CTI DLA SIÓDEMKA

Kurier DPD by CTI. Instrukcja

Zamówienia algorytmiczne

1. Odkrywanie asocjacji

NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.

Panel Produkcyjny by CTI. Instrukcja

Laboratorium 11. Regresja SVM.

Praca z systemem POL-on. Zaznaczanie toków do eksportu.

Metody selekcji cech

Zadania do wykonania. Rozwiązując poniższe zadania użyj pętlę for.

Praca z systemem POL-on. Zaznaczanie toków do eksportu.

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Ćwiczenie 23 Praca z plikiem.psd

Zastępstwa Optivum. Jak rozpocząć pracę z programem Zastępstwa Optivum w nowym roku szkolnym? Przewodnik. Zakładanie nowej księgi zastępstw

Instrukcja użytkownika. Aplikacja dla Comarch ERP XL

Tworzenie nowych pytań materiał dla osób prowadzących kursy

r. Warszawa UCZENIE SIĘ MASZYN. Drzewa i lasy losowe Dokumentacja końcowa. Autor: Krzysztof Marcinek Prowadzący: Paweł Cichosz

Portal Płatności. Wygodne, pewne i bezpieczne rozliczenia

Integracja programów LeftHand z systemem Skanuj.to

Księgowość Optivum. Jak wykonać eksport danych z programu Księgowość Optivum do SIO?

OBSŁUGA ZA POMOCĄ PROGRAMU MAMOS.EXE

Data Mining Wykład 4. Plan wykładu

8. Listy wartości, dodatkowe informacje dotyczące elementów i przycisków

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Recenzja rozprawy doktorskiej mgr Łukasza Gadomera pt. Rozmyte lasy losowe oparte na modelach klastrowych drzew decyzyjnych w zadaniach klasyfikacji

Rozpoznawanie obrazu. Teraz opiszemy jak działa robot.

o nazwie: adresy.xls. Fragment danych źródłowych przestawiono na rysunku 1. Rysunek 1. Dane źródłowe - plik "adresy.xls"

Przejrzystość, intuicyjny charakter i łatwość oprogramowania sterowników FATEK.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

1 Moduł Modbus ASCII/RTU

APACZKA. (Moduł Magento) v Strona 1 z 11

4. Budowa prostych formularzy, stany sesji, tworzenie przycisków

Rozdział ten zawiera informacje na temat zarządzania Modułem Modbus TCP oraz jego konfiguracji.

OPIS TECHNICZNY I INSTRUKCJA OBSŁUGI PROGRAMU DO MIERNIKA ZOT4. PM wer. 5.0

Systemy operacyjne. Laboratorium 9. Perl wyrażenia regularne. Jarosław Rudy Politechnika Wrocławska 28 lutego 2017

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Obok mamy przycisk Edytuj który umożliwia edycję danych już istniejącego użytkownika.

Jako lokalizację, w której będzie kontynuowana praca w przyszłym roku szkolnym, warto wybrać tę, w której zgromadzonych jest więcej danych.

UONET+ moduł Dziennik

Symulator tabletu z systemem Windows 8.

Metody radzenia sobie z brakującymi obserwacjami

Optimizing Programs with Intended Semantics

Zadanie Wstaw wykres i dokonaj jego edycji dla poniższych danych. 8a 3,54 8b 5,25 8c 4,21 8d 4,85

Rozdział 17. Zarządzanie współbieżnością zadania

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Podstawy technologii WWW

FURGONETKA. v Strona 1 z 10. FUTURE-SOFT SP. Z O.O. ul. Gosławicka2/ , Opole tel NIP:

KURIER BY CTI. Instrukcja do programu DATA Informatycznej Zygmunt Wilder w Gliwicach WERSJA mgr Katarzyna Wilder DLA DPD

Tworzenie tabeli przestawnej krok po kroku

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz

Transkrypt:

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety klas) Filtrowanie danych (brakujące wartości atrybutów) uzupełnianie brakujących wartości Dobieranie parametrów modelu w sposób systematyczny 1

1. Zachowanie wytrenowanego modelu w celu późniejszego użytku Z poniższego schematu wynika, że za każdym razem, kiedy będziemy chcieli wygenerować odpowiedzi naszego klasyfikatora (sieci neuronowej) dla danych testowych, będziemy musieli tę sieć wytrenować. Jest to kosztowne obliczeniowo. Lepiej jest wytrenować klasyfikator, zachować go i w razie konieczności załadować do pamięci. W tym celu można użyć operatora Store. Wypróbuj poniższe podejście. Pierwszy projekt odpowiada za wytrenowanie sieci i jej zapis do fizycznego pliku. 2

3

Drugi projekt wczytuje sieć neuronową a następnie używa jej do wygenerowania etykiet klas dla danych testowych. 4

Otrzymujemy przewidziane przez sieć etykiety klas w kolumnie prediction. 5

2. Filtrowanie danych (brakujące etykiety klas) Załóżmy, że w naszych danych (plik iris_missing.csv ), brakuje informacji o etykietach klas dla pewnych przykładów. Nie mogą one być zatem wykorzystane do trenowania klasyfikatorów. Musimy je najpierw odfiltrować, a następnie (ewentualnie) po wytrenowaniu modelu na pozostałych przykładach (ze znaną klasą), możemy otrzymany model klasyfikacyjny wykorzystać by przewidzieć etykiety klas również dla nich. Przykładowa zawartość pliku: 6

Zaimportuj dane iris_missing.csv. 7

Brakujące wartość RapidMiner przedstawia jako?. 8

W zakładce Statistics widać, że mamy 31 przykładów z nieznaną etykietą klasy. Do wybrania jedynie przykładów posiadających etykietę klasy, wykorzystamy operator Filter Examples. 9

W ustawieniach filtra ustawiamy warunek, że att5 (etykieta klasy) nie może mieć brakującej wartości ( is not missing ) Z portu wyjściowego exa operatora Filter Examples otrzymamy jedynie 119 przykładów ze znaną etykietą klasy. 10

Na porcie unm (unmatched) dostępne są przykłady, które nie spełniły warunku filtrowania. 11

Poniższy schemat pokazuje, jak wykorzystać przykłady ze znaną klasą do trenowania drzewa decyzyjnego, a następnie jak wykorzystać to drzewo do przewidzenia klasy dla pozostałych przykładów. 12

3. Filtrowanie danych (brakujące wartości atrybutów) Załóżmy, że w danych brakuje wartości atrybutów dla niektórych przykładów (plik iris_missing_atts.csv ). Po zaimportowaniu danych: 13

W tej sytuacji mamy kilka opcji. - wykorzystać algorytmy, które mogą się uczyć na tego typu niekompletnych danych (nie omawiamy tego jednak w tym miejscu), - pozbyć się niekompletnych przykładów (jeśli nie jest ich zbyt wiele i możemy sobie na to pozwolić), - spróbować uzupełnić brakujące wartości. Pozbycie się przykładów niekompletnych jest proste jeśli wykorzystamy ponownie operator Filter Examples. 14

Z zakładki Statistics wiemy, że brakujące wartości występują dla atrybutów att1, att2 oraz att3. Alternatywnie, jeśli mamy wiele atrybutów do analizy, można ustawić globalny warunek: Wynik jedynie przykłady bez brakujących wartości atrybutów. 15

Można również spróbować zastąpić brakujące wartości. Jest na to kilka pomysłów. Można wstawić pewną zadeklarowaną przez nas wartość, wartość minimalną, średnią lub maksymalną dla danego atrybutu. W RM wykonać to możemy za pomocą operatora Replace Missing Values. Dla przypomnienia oryginalne dane: 16

Można zdefiniować sposób postępowania dla każdego atrybutu z osobna, lub wykorzystać podejście default. 17

Sprawdź jakie wartości zostały wstawione. 18

Jakie wyniki osiągnie klasyfikator na tak naprawionych danych? Sprawdź za pomocą kroswalidacji. Jak widać, wyniki są porównywalne do wcześniejszych z bazą iris. Można również spróbować bardziej wyrafinowanego sposobu na uzupełnienie brakujących wartości. Mianowicie, na podstawie przykładów o znanych wartościach atrybutów, można zbudować model regresyjny, którego zadaniem jest nauczyć się wartości wybranego atrybutu numerycznego. Taki model uczy się przywidywać wartości pewnego atrybutu na podstawie wartości pozostałych atrybutów. Jest on użyty następnie do przewidzenia jaka powinna być brakująca wartość tego atrybutu. 19

Aby zrealizować to podejście w RM, wykorzystamy operator Impute Missing Values. Musimy zdefiniować, jaki model ma być uczony przewidywania wartości atrybutów (nie chodzi tu o etykietę klasy!). W tym przypadku wykorzystamy sieć neuronową dlatego, że mamy atrybuty numeryczne, a sieć jest w stanie na wyjściu dostarczyć wartości tego typu. 20

Sprawdź, jakie wartości wstawiła sieć neuronowa (a raczej kilka sieci, po jednej dla każdego atrybutu, który miał brakujące wartości). Operator k-nn również może być użyty do przewidzenia wartości numerycznej, zatem można go wykorzystać jako podproces operatora Impute Missing Values. 21

Porównaj wartości wstawione przez k-nn z wcześniejszymi. 22

4. Dostrajanie parametrów modelu Jeśli obiecującym typem klasyfikatora w danym problemie klasyfikacyjnym jest np. drzewo decyzyjne, nadal możemy próbować dostrajać różne parametry. Operator Optimize Parameters (Grid) pozwala to zrobić w systematyczny sposób. Operator ten wymaga, by zdefiniować podproces, który będzie wykorzystany do testowania kolejnych zestawów wartości parametru. Będzie to operator kroswalidacji z drzewem decyzyjnym. Zostanie on uruchomiony wielokrotnie, jeden raz dla każdego zestawu parametrów. 23

W ustawieniach tego operatora wybieramy, które parametry danego klasyfikatora bierzemy pod uwagę i w jakim zakresie. Przykładowo, dla drzewa chcemy przetestować różne wartości parametrów criterion, minimal gain oraz minimal size for split. Dla criterion: 24

Dla minimal gain - zakres od 0.01 do 1, 20 różnych wartości. Dla minimal size for split od 2 do 15, 14 różnych wartości. Zwróć uwagę jak szybko otrzymujemy wiele kombinacji każda to operacja kroswalidacji do wykonania! 25

Po uruchomieniu: Otrzymujemy informację o tym, jakie parametry dały największe oszacowanie kroswalidacyjne. Można je wykorzystać podczas przygotowywania ostatecznego modelu klasyfikacyjnego na podstawie wszystkich danych trenujących. 26

Możemy również otrzymać bardziej szczegółowe informacje za pomocą operatora logowania. Wybieramy, które wartości chcemy logować dla każdego zestawu testowanych parametrów. 27

Wynik bardziej szczegółowe informacje. Można je wizualizować i analizować na odpowiednich wykresach. 28