Wprowadzenie do programu RapidMiner Studio 7.6, część 9 Modele liniowe Michał Bereta

Podobne dokumenty
Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Hard-Margin Support Vector Machines

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Wprowadzenie do programu RapidMiner, część 5 Michał Bereta

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

tum.de/fall2018/ in2357

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Reguły asocjacyjne w programie RapidMiner Michał Bereta

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Previously on CSCI 4622

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

OpenPoland.net API Documentation

Zarządzanie sieciami telekomunikacyjnymi

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

Convolution semigroups with linear Jacobi parameters

Tychy, plan miasta: Skala 1: (Polish Edition)

Helena Boguta, klasa 8W, rok szkolny 2018/2019

deep learning for NLP (5 lectures)

Stargard Szczecinski i okolice (Polish Edition)

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

y = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.

Rev Źródło:

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Installation of EuroCert software for qualified electronic signature

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Camspot 4.4 Camspot 4.5

Maximum A Posteriori Chris Piech CS109, Stanford University

DUAL SIMILARITY OF VOLTAGE TO CURRENT AND CURRENT TO VOLTAGE TRANSFER FUNCTION OF HYBRID ACTIVE TWO- PORTS WITH CONVERSION

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

A Zadanie

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Agnostic Learning and VC dimension

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)


Rolki i arkusze stosowane w handlu Commercial rolls and sheets. ko-box.pl

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

Realizacja systemów wbudowanych (embeded systems) w strukturach PSoC (Programmable System on Chip)

Zasady rejestracji i instrukcja zarządzania kontem użytkownika portalu

INSTRUKCJE JAK AKTYWOWAĆ SWOJE KONTO PAYLUTION

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Knovel Math: Jakość produktu

Neural Networks (The Machine-Learning Kind) BCS 247 March 2019

General Certificate of Education Ordinary Level ADDITIONAL MATHEMATICS 4037/12

Strategic planning. Jolanta Żyśko University of Physical Education in Warsaw

Inverse problems - Introduction - Probabilistic approach

Metodyki projektowania i modelowania systemów Cyganek & Kasperek & Rajda 2013 Katedra Elektroniki AGH

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Typ VFR. Circular flow adjustment dampers for the adjustment of volume flow rates and pressures in supply air and extract air systems

Revenue Maximization. Sept. 25, 2018

Instrukcja obsługi User s manual

Typ VFR. Circular flow adjustment dampers for the adjustment of volume flow rates and pressures in supply air and extract air systems

Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 Zofia Kruczkiewicz

MATLAB Neural Network Toolbox przegląd

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków


Polski Krok Po Kroku: Tablice Gramatyczne (Polish Edition) By Anna Stelmach

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and

Wykaz linii kolejowych, które są wyposażone w urządzenia systemu ETCS

POLITECHNIKA ŚLĄSKA INSTYTUT AUTOMATYKI ZAKŁAD SYSTEMÓW POMIAROWYCH

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

Instrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX

FORMULARZ REKLAMACJI Complaint Form

ABOUT NEW EASTERN EUROPE BESTmQUARTERLYmJOURNAL

Wykaz linii kolejowych, które są wyposażone w urzadzenia systemu ETCS

Extraclass. Football Men. Season 2009/10 - Autumn round


SNP SNP Business Partner Data Checker. Prezentacja produktu

PLSH1 (JUN14PLSH101) General Certificate of Education Advanced Subsidiary Examination June Reading and Writing TOTAL

OSI Data Link Layer. Network Fundamentals Chapter 7. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Wykład 5_2 Arkusze stylów dziedziczenie. Technologie internetowe Zofia Kruczkiewicz

Few-fermion thermometry

Klasyfikacja Support Vector Machines

SG-MICRO... SPRĘŻYNY GAZOWE P.103

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)

PORTS AS LOGISTICS CENTERS FOR CONSTRUCTION AND OPERATION OF THE OFFSHORE WIND FARMS - CASE OF SASSNITZ

OSI Network Layer. Network Fundamentals Chapter 5. ITE PC v4.0 Chapter Cisco Systems, Inc. All rights reserved.

SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS

Surname. Other Names. For Examiner s Use Centre Number. Candidate Number. Candidate Signature

Baptist Church Records

Planning and Cabling Networks

METHOD 2 -DIAGNOSTIC OUTSIDE

Compatible cameras for NVR-5000 series Main Stream Sub stream Support Firmware ver. 0,2-1Mbit yes yes yes n/d


Gradient Coding using the Stochastic Block Model

OSI Network Layer. Network Fundamentals Chapter 5. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Transkrypt:

Wprowadzenie do programu RapidMiner Studio 7.6, część 9 Modele liniowe Michał Bereta www.michalbereta.pl Modele liniowe W programie RapidMiner mamy do dyspozycji kilka dyskryminacyjnych modeli liniowych jako operatory: LDA Linear Discriminant Analysis QDA Quadratic Linear Analysis RDA Regularized Discriminant Analysis Classification by Regression (może użyć dowolny model regresyjny jako subproces) Perceptron SVM (bez nieliniowej funkcji jądrowej; pamiętaj by kernel type ustawić na dot ) Regresja logistyczna, uogólniony model liniowy (mimo słowu regresja w nazwie, jest to klasyfikator!) 1

Z Dokumentacji RM: Linear Discriminant Analysis (RapidMiner Core) This operator performs linear discriminant analysis (LDA). This method tries to find the linear combination of features which best separate two or more classes of examples. The resulting combination is then used as a linear classifier. Discriminant analysis is used to determine which variables discriminate between two or more naturally occurring groups, it may have a descriptive or a predictive objective. Quadratic Discriminant Analysis (RapidMiner Core) This operator performs a quadratic discriminant analysis (QDA). QDA is closely related to linear discriminant analysis (LDA), where it is assumed that the measurements are normally distributed. Unlike LDA however, in QDA there is no assumption that the covariance of each of the classes is identical. To estimate the parameters required in quadratic discrimination more computation and data is required than in the case of linear discrimination. If there is not a great difference in the group covariance matrices, then the latter will perform as well as quadratic discrimination. Quadratic Discrimination is the general form of Bayesian discrimination. Regularized Discriminant Analysis (RapidMiner Core) The regularized discriminant analysis (RDA) is a generalization of the linear discriminant analysis (LDA) and the quadratic discreminant analysis (QDA). Both algorithms are special cases of this algorithm. If the alpha parameter is set to 1, this operator performs LDA. Similarly if the alpha parameter is set to 0, this operator performs QDA. Classification by Regression (RapidMiner Core) This operator builds a polynominal classification model through the given regression learner. The Classification by Regression operator is a nested operator i.e. it has a subprocess. The subprocess must have a regression learner i.e. an operator that generates a regression model. This operator builds a classification model using the regression learner provided in its subprocess. 2

Here is an explanation of how a classification model is built from a regression learner. For each class i of the given ExampleSet, a regression model is trained after setting the label to +1 if the label is i and to -1 if it is not. Then the regression models are combined into a classification model. This model can be applied using the Apply Model operator. In order to determine the prediction for an unlabeled example, all regression models are applied and the class belonging to the regression model which predicts the greatest value is chosen. Perceptron (RapidMiner Core) This operator learns a linear classifier called Single Perceptron which finds separating hyperplane (if existent). This operator cannot handle polynominal attributes. The perceptron is a type of artificial neural network invented in 1957 by Frank Rosenblatt. It can be seen as the simplest kind of feed-forward neural network: a linear classifier. Beside all biological analogies, the single layer perceptron is simply a linear classifier which is efficiently trained by a simple update rule: for all wrongly classified data points, the weight vector is either increased or decreased by the corresponding example values. Generalized Linear Model (nie jest tak naprawdę modelem liniowym) Generalized linear models (GLMs) are an extension of traditional linear models. This algorithm fits generalized linear models to the data by maximizing the log-likelihood. The elastic net penalty can be used for parameter regularization. The model fitting computation is parallel, extremely fast, and scales extremely well for models with a limited number of predictors with non-zero coefficients. Logistic Regression(nie jest tak naprawdę modelem liniowym) This operator is a simplified version of the Generalized Linear Model operator. To perform Logistic Regression, the Family parameter is set automatically to binomial, and the link parameter to logit. Only the most crucial parameters can be adjusted for this operator to provide an easy-to-use logistic regression. If you need a fine-tuned model, please use the Generalized Linear Model operator instead. The Logistic Regression implementation can handle training data with binominal (or 2-class polynominal) label, and both nominal and numerical feature attributes. 3

Przygotuj project: 4

kernel type: linear!!! 5

W modelu klasyfikacyjnym Classification by regression, należy wskazać jako podproces, jaki konkretnie model regresyjny ma być użyty. W tym przykładzie wykorzystujemy model regresji liniowej. Zwróć uwagę, że operator liniowej regresji ma wbudowane algorytmy wyboru atrybutów. Pytanie: czy jakość modelu pogorszy się, jeśli wyłączymy te funkcjonalności? Zbadaj dla różnych problemów klasyfikacyjnych. 6

Zwróć uwagę na duże możliwości dostrajania modelu GLM: Prostszą implementacją GLM jest operator Logistic regression : 7

Przykładowe wyniki: Perceptron SVM linear LDA QDA RDA 8

Classification by regression + linear regression Regresja logistyczna (Logistic regression) Uogólniony model liniowy (Generalized Linear model) Wynik testu ANOVA: Wyniki t-testów parami: Wniosek: pomiędzy modelami są statystycznie istotne różnice. 9

Zadanie Wykonaj obliczenia dla bazy messidor. Możesz natrafić na problemy numeryczne. W tym konkretnym uruchomieniu, źródłem problemów były operatory QDA oraz RDA. Co może być ich źródłem? Wyniki dla pozostałych modeli. Perceptron SVM linear 10

LDA Classification by regression Logistic regression GLM 11

ANOVA t-testy 12

Zadanie: 1. Które z powyższych modeli są zaimplementowane w RMS w sposób umożliwiający ich użycie dla problemów wieloklasowych? Wykonaj obliczenia dla bazy Glass: https://archive.ics.uci.edu/ml/datasets/glass+identification 2. Czy w rozważanych problemach klasyfikacyjnych uda Ci się dobrać model nieliniowy (np. NeuralNetwork, SMV z nieliniowym kernel type, drzewo decyzyjne, klasyfikator bayerowski, itd.), który byłby lepszy niż dobrze przygotowany model liniowy? 13