Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Podobne dokumenty
Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Wprowadzenie do programu RapidMiner Studio 7.6, część 9 Modele liniowe Michał Bereta

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Hard-Margin Support Vector Machines

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Wprowadzenie do programu RapidMiner, część 5 Michał Bereta

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Reguły asocjacyjne w programie RapidMiner Michał Bereta

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Tychy, plan miasta: Skala 1: (Polish Edition)

Zarządzanie sieciami telekomunikacyjnymi

SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

OpenPoland.net API Documentation

tum.de/fall2018/ in2357

Wyk lad 8: Leniwe metody klasyfikacji

A Zadanie

Drzewa decyzyjne i lasy losowe

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Knovel Math: Jakość produktu

Revenue Maximization. Sept. 25, 2018

Dealing with continuous-valued attributes

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Drzewa klasyfikacyjne algorytm podstawowy

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Multiklasyfikatory z funkcją kompetencji

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

deep learning for NLP (5 lectures)

Stargard Szczecinski i okolice (Polish Edition)



Rolki i arkusze stosowane w handlu Commercial rolls and sheets. ko-box.pl

Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 Zofia Kruczkiewicz

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Wykaz linii kolejowych, które są wyposażone w urządzenia systemu ETCS

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Wykaz linii kolejowych, które są wyposażone w urzadzenia systemu ETCS

Agnostic Learning and VC dimension

Wykład 5_2 Arkusze stylów dziedziczenie. Technologie internetowe Zofia Kruczkiewicz

Szkolenie Analiza dyskryminacyjna

Few-fermion thermometry

Previously on CSCI 4622

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Convolution semigroups with linear Jacobi parameters


Camspot 4.4 Camspot 4.5

General Certificate of Education Ordinary Level ADDITIONAL MATHEMATICS 4037/12

Boosting. Sewoong Oh. CSE/STAT 416 University of Washington

ARKUSZ PRÓBNEJ MATURY Z OPERONEM

Polska Szkoła Weekendowa, Arklow, Co. Wicklow KWESTIONRIUSZ OSOBOWY DZIECKA CHILD RECORD FORM

Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

Compressing the information contained in the different indexes is crucial for performance when implementing an IR system

Instrukcja obsługi User s manual

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

y = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.

Laboratorium 6. Indukcja drzew decyzyjnych.

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

Inverse problems - Introduction - Probabilistic approach

Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

ZDANIA ANGIELSKIE W PARAFRAZIE

ELF. system: pokój młodzieżowy / teenagers room MEBLE MŁODZIEŻOWE / YOUTH ROOM FURNITURE ELF

Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)

SNP SNP Business Partner Data Checker. Prezentacja produktu

GRY EDUKACYJNE I ICH MOŻLIWOŚCI DZIĘKI INTERNETOWI DZIŚ I JUTRO. Internet Rzeczy w wyobraźni gracza komputerowego

OSI Data Link Layer. Network Fundamentals Chapter 7. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

MATLAB Neural Network Toolbox przegląd

Jak zasada Pareto może pomóc Ci w nauce języków obcych?

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Neural Networks (The Machine-Learning Kind) BCS 247 March 2019

utrzymania swoich obecnych klientów i dowiedzia la sie, że metody data mining moga

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

SNP Business Partner Data Checker. Prezentacja produktu

Test sprawdzający znajomość języka angielskiego

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

Typ VFR. Circular flow adjustment dampers for the adjustment of volume flow rates and pressures in supply air and extract air systems

Wroclaw, plan nowy: Nowe ulice, 1:22500, sygnalizacja swietlna, wysokosc wiaduktow : Debica = City plan (Polish Edition)

Strategic planning. Jolanta Żyśko University of Physical Education in Warsaw

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 5. Adaptatywna sieć Bayesa.

Typ VFR. Circular flow adjustment dampers for the adjustment of volume flow rates and pressures in supply air and extract air systems

ABOUT NEW EASTERN EUROPE BESTmQUARTERLYmJOURNAL

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

European Crime Prevention Award (ECPA) Annex I - new version 2014

Transkrypt:

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta www.michalbereta.pl 1. W programie RapidMiner mamy do dyspozycji kilka dyskryminacyjnych modeli liniowych jako operatory: a. LDA Linear Discriminant Analysis b. QDA Quadratic Linear Analysis c. RDA Regularized Discriminant Analysis d. Classification by Regression (może użyć dowolny model regresyjny jako subproces) e. Perceptron Z Dokumentacji RM: Linear Discriminant Analysis (RapidMiner Core) This operator performs linear discriminant analysis (LDA). This method tries to find the linear combination of features which best separate two or more classes of examples. The resulting combination is then used as a linear classifier. Discriminant analysis is used to determine which variables discriminate between two or more naturally occurring groups, it may have a descriptive or a predictive objective. Quadratic Discriminant Analysis (RapidMiner Core) This operator performs a quadratic discriminant analysis (QDA). QDA is closely related to linear discriminant analysis (LDA), where it is assumed that the measurements are normally distributed. Unlike LDA however, in QDA there is no assumption that the covariance of each of the classes is identical. To estimate the parameters required in quadratic discrimination more computation and data is required 1

than in the case of linear discrimination. If there is not a great difference in the group covariance matrices, then the latter will perform as well as quadratic discrimination. Quadratic Discrimination is the general form of Bayesian discrimination. Regularized Discriminant Analysis (RapidMiner Core) The regularized discriminant analysis (RDA) is a generalization of the linear discriminant analysis (LDA) and the quadratic discreminant analysis (QDA). Both algorithms are special cases of this algorithm. If the alpha parameter is set to 1, this operator performs LDA. Similarly if the alpha parameter is set to 0, this operator performs QDA. Classification by Regression (RapidMiner Core) This operator builds a polynominal classification model through the given regression learner. The Classification by Regression operator is a nested operator i.e. it has a subprocess. The subprocess must have a regression learner i.e. an operator that generates a regression model. This operator builds a classification model using the regression learner provided in its subprocess. Here is an explanation of how a classification model is built from a regression learner. For each class i of the given ExampleSet, a regression model is trained after setting the label to +1 if the label is i and to -1 if it is not. Then the regression models are combined into a classification model. This model can be applied using the Apply Model operator. In order to determine the prediction for an unlabeled example, all regression models are applied and the class belonging to the regression model which predicts the greatest value is chosen. Perceptron (RapidMiner Core) This operator learns a linear classifier called Single Perceptron which finds separating hyperplane (if existent). This operator cannot handle polynominal attributes. The perceptron is a type of artificial neural network invented in 1957 by Frank Rosenblatt. It can be seen as the simplest kind of feed-forward neural network: a linear classifier. Beside all biological analogies, the single layer perceptron is simply a linear classifier which is efficiently trained by a simple update rule: for all wrongly classified data points, the weight vector is either increased or decreased by the corresponding example values. 2

Zadanie: Porównajmy działanie tych modeli liniowych na danych pima-indians-diabetes.csv. Użyjemy prostego Split Validation Validation LDA: 3

Validation QDA: Validation RDA: Validation regression: Operator Classification by Regression posiada jako podproces regresję liniową (operator Linear Regression ), która będzie zastosowana do każdej klasy z osobna: 4

Validation perceptron: Przykładowe wyniki: LDA QDA 5

RDA Regresja liniowa Perceptron Jakie będą wyniki, jeśli zmienią się parametry operatorów? Np. lub 6

Zadanie: Wykonaj powyższe porównanie dla problemu klasyfikacji szkła (zmień nazwę pliku glass.data na glass.csv przed zaimportowaniem do RM): http://archive.ics.uci.edu/ml/machine-learning-databases/glass/ Baza glass posiada 7 klas jak to wpływa na możliwość wykorzystania powyższych operatorów? 7

2. Bagging zastosowanie próbkowania bootstrap do generowania klasyfikatora opartego na głosowaniu większościowym prostych klasyfikatorów. Z dokumentacji RM: Bagging Bootstrap aggregating (bagging) is a machine learning ensemble meta-algorithm to improve classification and regression models in terms of stability and classification accuracy. It also reduces variance and helps to avoid overfitting. Although it is usually applied to decision tree models, it can be used with any type of model. The Bagging operator is a nested operator i.e. it has a subprocess. The subprocess must have a learner i.e. an operator that expects an ExampleSet and generates a model. This operator tries to build a better model using the learner provided in its subprocess. Empirically, ensembles tend to yield better results when there is a significant diversity among the models. Many ensemble methods, therefore, seek to promote diversity among the models they combine. Although perhaps non-intuitive, more random algorithms (like random decision trees) can be used to produce a stronger ensemble than very deliberate algorithms (like entropy-reducing decision trees). Using a variety of strong learning algorithms, however, has been shown to be more effective than using techniques that attempt to dumb-down the models in order to promote diversity. Wykorzystując Split Validation : 8

Iterations liczba bazowych klasyfikatorów=iteracji generowania pseudoprób uczących. Jako podstawowy klasyfikator w metodzie bagging ustawiamy DecisionTree : 9

Inne metody tworzenia klasyfikatorów agregujących Agregowanie słabych klasyfikatorów daje najlepsze wyniki jeśli agregowane są różnorodne słabe modele, tzn. mające słaby poziom accuracy, lecz jak najbardziej niezależne od siebie (mylące się niezależnie od siebie). Agregować można tak słabe klasyfikatory jak np. DecisionStump, czyli proste drzewo decyzyjne z pojedynczym warunkiem w korzeniu i jedynie dwoma liśćmi. Z dokumentacji: Decision Stump (RapidMiner Core) Synopsis This operator learns a Decision Tree with only one single split. This operator can be applied on both nominal and numerical data sets. Description The Decision Stump operator is used for generating a decision tree with only one single split. The resulting tree can be used for classifying unseen examples. This operator can be very efficient when boosted with operators like the AdaBoost operator. The examples of the given ExampleSet have several attributes and every example belongs to a class (like yes or no). The leaf nodes of a decision tree contain the class name whereas a non-leaf node is a decision node. The decision node is an attribute test with each branch (to another decision tree) being a possible value of the attribute. For more information about decision trees, please study the Decision Tree operator. 10

Przykładowo w RapidMinerze: Wynik: DecisionStump można wykorzystać w operatorze Bagging zamiast drzewa decyzyjnego. Jak wskazano w dokumentacji, dobre wyniki często osiąga się wykorzystują inną metodę budowy klasyfikatora zagregowanego, AdaBoost. W tej metodzie każdy kolejny klasyfikator zwraca większą uwagę na te przykłady uczące, które sprawiały trudność poprzednim słabym klasyfikatorom (były przez nie źle klasyfikowane). Dodatkowo, każdy model ma przypisaną swoją wagę i ostateczna decyzja modelu zagregowanego podejmowana jest w wyniku głosowania ważonego (w metodzie Bagging jest to zwykłe głosowanie większościowe). Przykład: 11

Jako podproces AdaBoost wymaga zdefiniowania bazowego klasyfikatora, np. DecisionStump lub innego niebyt mocnego klasyfikatora. Parametr iterations oznacza liczbę modeli bazowych, które zostaną utworzone, jeden po drugim. Innym znanym modelem są lasy losowe (operator Random Forest). Metoda ta oparta jest na Baggingu, jednak zawsze wykorzystane jest drzewo decyzyjne jako bazowy klasyfikator. Dodatkowo, podczas tworzenia każdego drzewa, wprowadza się element losowości: podczas rozwijania każdego węzła drzewa tylko losowy podzbiór atrybutów dostępny jest do wyboru tego optymalnego. Sprawia to, że zbiór modeli bazowych jest jeszcze bardziej różnorodny. Agregacja, jak w metodzie Bagging, to głosownie większościowe. Parametr number of trees pozwala ustalić ile drzew ma się znaleźć w tworzonym lesie. Algorytmy Bagging oraz RandomForest w sposób naturalny pozwalają na zrównoleglenie obliczeń, czego nie da się powiedzieć o metodzie AdaBoost. 12

Zadanie: a. Porównaj czy / o ile Bagging/AdaBoost/RandomForest poprawia działanie w stosunku do pojedynczego drzewa? Porównaj dla bazy Pima, Sonar oraz Glass. Wypróbuj różne ustawienia parametrów drzewa decyzyjnego (ustawienia drzewa jako pojedynczego klasyfikatora nie muszą byćtakei same jak dla drzewa użytego w operatorze Bagging/AdaBoost/RandomForest), np. wyłącz prepruning. b. Czy zwiększanie liczby podstawowych klasyfikatorów przynosi poprawę? Jeśli tak, to czy dla pewnej liczby następuje nasycenie tej tendencji? c. Jak działa bagging/boosting dla klasyfikatorów liniowych z poprzedniego zadania jako podstawowych klasyfikatorów? Porównaj np. Perceptron z Bagging opartym na perceptronach. d. Czy z oceny kroswalidacyjnej wynika, że klasyfikatory zagregowane mają zazwyczaj mniejszą wariancję niż pojedynczy klasyfikator? e. Czy operator DecisionStump sprawdza się w roli bazowego klasyfikatora w rozważanych problemach klasyfikacyjnych? Jeśli nie, to czy jesteś w stanie zasugerować, co może być tego przyczyną? Przykładowe wyniki dla porównania Perceptrona z Bagging + Perceptron dla baz Indian Pima: Dla Perceptron : Dla Bagging + Perceptron : 13

Co można powiedzieć o wynikach? Zwróć uwagę nie tylko na accuracy. 14