Wprowadzenie do programu RapidMiner, część 5 Michał Bereta

Podobne dokumenty
Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Tychy, plan miasta: Skala 1: (Polish Edition)

Revenue Maximization. Sept. 25, 2018

Wprowadzenie do programu RapidMiner Studio 7.6, część 9 Modele liniowe Michał Bereta

Hard-Margin Support Vector Machines

Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005.

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Zarządzanie sieciami telekomunikacyjnymi

The Overview of Civilian Applications of Airborne SAR Systems

Reguły asocjacyjne w programie RapidMiner Michał Bereta

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)

Knovel Math: Jakość produktu

Cracow University of Economics Poland. Overview. Sources of Real GDP per Capita Growth: Polish Regional-Macroeconomic Dimensions

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

OpenPoland.net API Documentation

DUAL SIMILARITY OF VOLTAGE TO CURRENT AND CURRENT TO VOLTAGE TRANSFER FUNCTION OF HYBRID ACTIVE TWO- PORTS WITH CONVERSION

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Instrukcja obsługi User s manual

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)


Cracow University of Economics Poland

Wykaz linii kolejowych, które są wyposażone w urządzenia systemu ETCS

Marzec: food, advertising, shopping and services, verb patterns, adjectives and prepositions, complaints - writing

Wykaz linii kolejowych, które są wyposażone w urzadzenia systemu ETCS

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

DO MONTAŻU POTRZEBNE SĄ DWIE OSOBY! INSTALLATION REQUIRES TWO PEOPLE!

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

deep learning for NLP (5 lectures)

OSI Network Layer. Network Fundamentals Chapter 5. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and

POLITECHNIKA ŚLĄSKA INSTYTUT AUTOMATYKI ZAKŁAD SYSTEMÓW POMIAROWYCH

INSPECTION METHODS FOR QUALITY CONTROL OF FIBRE METAL LAMINATES IN AEROSPACE COMPONENTS

HAPPY ANIMALS L01 HAPPY ANIMALS L03 HAPPY ANIMALS L05 HAPPY ANIMALS L07

HAPPY ANIMALS L02 HAPPY ANIMALS L04 HAPPY ANIMALS L06 HAPPY ANIMALS L08

Helena Boguta, klasa 8W, rok szkolny 2018/2019

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Analiza Sieci Społecznych Pajek

Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)

Stargard Szczecinski i okolice (Polish Edition)

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

Metodyki projektowania i modelowania systemów Cyganek & Kasperek & Rajda 2013 Katedra Elektroniki AGH

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

Jak zasada Pareto może pomóc Ci w nauce języków obcych?

JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE

January 1st, Canvas Prints including Stretching. What We Use

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

DM-ML, DM-FL. Auxiliary Equipment and Accessories. Damper Drives. Dimensions. Descritpion

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

DOI: / /32/37

Czy mogę podjąć gotówkę w [nazwa kraju] bez dodatkowych opłat? Asking whether there are commission fees when you withdraw money in a certain country

Wykład 5_2 Arkusze stylów dziedziczenie. Technologie internetowe Zofia Kruczkiewicz


EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Egzamin maturalny z języka angielskiego na poziomie dwujęzycznym Rozmowa wstępna (wyłącznie dla egzaminującego)

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

OSI Network Layer. Network Fundamentals Chapter 5. ITE PC v4.0 Chapter Cisco Systems, Inc. All rights reserved.

(duzo, przeczytac raz i zrozumiec powinno wystarczyc. To jest proste.)

Dominika Janik-Hornik (Uniwersytet Ekonomiczny w Katowicach) Kornelia Kamińska (ESN Akademia Górniczo-Hutnicza) Dorota Rytwińska (FRSE)

Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 Zofia Kruczkiewicz

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Raport bieżący: 44/2018 Data: g. 21:03 Skrócona nazwa emitenta: SERINUS ENERGY plc

INSTRUKCJE JAK AKTYWOWAĆ SWOJE KONTO PAYLUTION

Język angielski. Poziom rozszerzony Próbna Matura z OPERONEM i Gazetą Wyborczą CZĘŚĆ I KRYTERIA OCENIANIA ODPOWIEDZI POZIOM ROZSZERZONY CZĘŚĆ I

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO

(LMP-Liniowy model prawdopodobieństwa)

Presented by. Dr. Morten Middelfart, CTO

EXCEL PL PROGRAMOWANIE PDF

Traceability. matrix

dr Krzysztof Korus partner, radca prawny, ekonomista

Ukryte funkcjonalności w oprogramowaniu i urządzeniach elektronicznych. mgr inż. Paweł Koszut

Few-fermion thermometry

17-18 września 2016 Spółka Limited w UK. Jako Wehikuł Inwestycyjny. Marek Niedźwiedź. InvestCamp 2016 PL

Wpływ dyrektywy PSD II na korzystanie z instrumentów płatniczych. Warszawa, 15 stycznia 2015 r. Zbigniew Długosz

1. CZYM JEST SERIALIZACJA

Instrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

Transkrypt:

Wprowadzenie do programu RapidMiner, część 5 Michał Bereta www.michalbereta.pl 1. Przekształcenia atrybutów (ang. attribute reduction / transformation, feature extraction). Zamiast wybierad częśd atrybutów z oryginalnego zbioru atrybutów, można utworzyd nowe atrybuty na podstawie istniejących. Każdy nowy atrybut powstaje poprzez pewne przekształcenie, w ogólnym przypadku wszystkich, oryginalnych atrybutów. Jednym z częstych podejśd jest tworzenie nowych atrybutów poprzez liniową kombinację istniejących. W ten sposób można spojrzed na przekształcenie dokonywane przez metodę LDA Fishera. Inną, bardzo popularną metodą jest metoda PCA (ang. Principal Component Analysis). Celem jej jest znaleźd liniowe przekształcenia oryginalnych atrybutów tak by w kolejnych tak wyznaczonych kierunkach rzutowania wychwytywały jak najwięcej zmienności (wariancji) w danych. Każdy kolejny kierunek jest ortogonalny do wcześniejszych. W metodzie PCA nie zwraca się uwagi na przynależnośd klasową danych. Mimo wszystko jest to często przynoszący poprawę krok wstępny. Jest on korzystny zwłaszcza gdy liczba atrybutów oryginalnych jest bardzo duża. W RM możemy ustalid ile nowych atrybutów chcemy dostad. Można ich użyd zamiast atrybutów oryginalnych. Zadanie: Porównaj działanie operatora PCA dla różnych danych: Możemy ustalid, że chcemy otrzymad 2 nowe atrybuty (w celu wygodnej wizualizacji): 1

Przykładowo dla Iris: Zwród uwagę to nie są wybrane dwa atrybuty, to są całkiem nowe dwa atrybuty. 2

Dla Glass: Dla Pima: Jeśli celem jest wizualizacja danych to częstym wyborem jest utworzenie 2 lub 3 nowych atrybutów przez PCA. Można jednak ustawid takie kryterium wyboru liczby nowych atrybutów, by w nowych danych zachowany był odpowiedni procent (np. 95%) wariancji obecnej w danych oryginalnych. 3

Przykładowo dla Pima otrzymamy dwa nowe atrybuty (z ośmiu oryginalnych): A dla Glass okazuje się, że już jeden atrybut PCA (na 10 oryginalnych) wychwytuje >=95% zmienności oryginalnych danych: Zadanie: Jak metoda PCA poradzi sobie z całkiem nieużytecznymi (losowymi) atrybutami? Dodamy np. 5 losowych atrybutów (uwaga: nie dodawaj szumu do istniejących) : 4

Nowy zestaw atrybutów: Wynik PCA (dwa atrybuty): 5

Widad, że jedna klasa jest nadal dobrze oddzielona od pozostałych, sytuacja jest gorsza dla pozostałych dwóch, jednak mimo dużej ilości losowych danych, PCA nadal jest w stanie uchwycid istotne informacje. Powtórz powyższy przykład dla innych danych. Zadanie: Przetestuj inne dostępne operatory do przekształcania cech: A zwłaszcza: Independent Component Analysis Independent component analysis (ICA) is a very general-purpose statistical technique in which observed random data are linearly transformed into components that are maximally independent from each other, and simultaneously have "interesting" distributions. Such a representation seems to capture the essential structure of the data in many applications, including feature extraction. ICA is used for revealing hidden factors that underlie sets of random variables or measurements. ICA is superficially related to principal component analysis (PCA) and factor analysis. ICA is a much more powerful technique, however, capable of finding the underlying factors or sources when these classic methods fail completely. This operator implements the FastICA-algorithm of A. Hyvärinen and E. Oja. The FastICA-algorithm has most of the advantages of neural algorithms: It is parallel, distributed, computationally simple, and requires little memory space. Generalized Hebbian Algorithm 6

This operator is an implementation of the Generalized Hebbian Algorithm (GHA) which is an iterative method for computing principal components. The user can specify manually the required number of principal components. PCA (Kernel) This operator performs Kernel Principal Component Analysis (PCA) which is a non-linear extension of PCA. SVD Singular Value Decomposition Singular Value Decomposition (SVD) can be used to better understand an ExampleSet by showing the number of important dimensions. It can also be used to simplify the ExampleSet by reducing the number of attributes of the ExampleSet. This reduction removes unnecessary attributes that are linearly dependent in the point of view of Linear Algebra. It is useful when you have obtained data on a number of attributes (possibly a large number of attributes), and believe that there is some redundancy in those attributes. In this case, redundancy means that some of the attributes are correlated with one another, possibly because they are measuring the same construct. Because of this redundancy, you believe that it should be possible to reduce the observed attributes into a smaller number of components (artificial attributes) that will account for most of the variance in the observed attributes. The Principal Component Analysis technique is a specific case of SVD. It is a mathematical procedure that uses an orthogonal transformation to convert a set of observations of possibly correlated attributes into a set of values of uncorrelated attributes called principal components. The number of principal components is less than or equal to the number of original attributes. This transformation is defined in such a way that the first principal component's variance is as high as possible (accounts for as much of the variability in the data as possible), and each succeeding component in turn has the highest variance possible under the constraint that it should be orthogonal to (uncorrelated with) the preceding components. 7