Data Mining z wykorzystaniem programu Rapid Miner



Podobne dokumenty
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Korespondencja seryjna

Text mining w programie RapidMiner Michał Bereta

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Zajęcia nr VII poznajemy Rattle i pakiet R.

Podręcznik użytkownika. Instrukcje

Kadry Optivum, Płace Optivum

Przed rozpoczęciem pracy otwórz nowy plik (Ctrl +N) wykorzystując szablon acadiso.dwt

1. Odkrywanie asocjacji

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Programowanie Obiektowe GUI

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Arkusz Optivum. Jak eksportować do SIO dane z Arkusza Optivum?

Podstawy grupowania danych w programie RapidMiner Michał Bereta

Instrukcja. importu dokumentów. z programu Fakt do programu Płatnik. oraz. przesyłania danych do ZUS. przy pomocy programu Płatnik

Jak eksportować dane z Arkusza do SIO?

Rejestr Personelu Medycznego

Księgowość Optivum. Jak wykonać eksport danych z programu Księgowość Optivum do SIO?

Solid Edge. Zrozumieć Technologię Synchroniczną

Wprowadzenie do programu RapidMiner, częśd 1 Michał Bereta Program RapidMiner (RM) ma trzy główne widoki (perspektywy):

5.3. Tabele. Tworzenie tabeli. Tworzenie tabeli z widoku projektu. Rozdział III Tworzenie i modyfikacja tabel

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

S P I S T R E Ś C I. Instrukcja obsługi

Laboratorium 6. Indukcja drzew decyzyjnych.

SPIS ILUSTRACJI, BIBLIOGRAFIA

Instrukcja użytkowania

MagicInfo Express instrukcja obsługi

Tomography Tracking Instrukcja użytkownika

Niestandardowa tabela częstości

Instrukcja importu dokumentów z programu Fakt do programu Płatnik

Microsoft Access materiały pomocnicze do ćwiczeń cz. 1

Instrukcja importu deklaracji pacjentów. do dreryka

Google Earth. Co to jest Google Earth? Co to jest KML? Skąd można pobrać Google Earth?

WOJEWÓDZTWO PODKARPACKIE

Eksploracja danych w środowisku R

Python wstęp. Michał Bereta

Archiwum DG 2016 PL-SOFT

Stosowanie, tworzenie i modyfikowanie stylów.

Word. Korespondencja seryjna

Instalacja i obsługa generatora świadectw i arkuszy ocen

Pakiet Świadczeniodawcy

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

8. Generowanie raportów

Dokumentacja administratora

Ocenianie opisowe Optivum. Jak przygotować i wydrukować świadectwa lub arkusze ocen?

Spis treści. Analiza Ryzyka Instrukcja Użytkowania

Bazy danych raporty. 1. Przekopiuj na dysk F:\ bazę M5BIB.mdb z dysku wskazanego przez prowadzącego.

1. Opis. 2. Wymagania sprzętowe:

Edytor Edit+ - dodawanie zdjęć i. załączników. Instrukcja użytkownika

Operacje. instrukcja obsługi wersja 2.9.2

KS-APTEKA WINDOWS KOREKTY SPRZEDAŻY Z OKRESU DO ROKU, TYPY GENEROWANIA KOREKT ZESTAWIEŃ REFUNDACYJNYCH START. KAMSOFT S.A.

Jak utworzyć plik SIO dla aktualnego spisu?

Systemy uczące się wykład 2

Instrukcja obsługi dziennika elektronicznego dla trenerów uczestniczących. w ogólnopolskim projekcie MultiSport. Luty 2015 r.

edycja szablonu za pomocą serwisu allegro.pl

Instalacja Webroot SecureAnywhere przy użyciu GPO w Active Directory

Podręcznik użytkownika programu. Ceremonia 3.1

Nagrywamy podcasty program Audacity

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Bioinformatyka Laboratorium, 30h. Michał Bereta

Kostki OLAP i język MDX

Laboratorium 4. Naiwny klasyfikator Bayesa.

Opis aktualizacji programu Kancelaria Komornika

Przewodnik... Tworzenie ankiet

Bazy danych Ćwiczenie 1 Instrukcja strona 1 Wersja ogólna

(wersja robocza) Spis treści:

Katedra Inżynierii Komputerowej Politechnika Częstochowska. Trasowanie i protokół RIP Laboratorium Podstaw sieci komputerowych

PIERWSZE URUCHOMIENIE PROGRAMU ITNC PROGRAMMING STATION

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

PORADNIK. Przygotowanie pracy konkursowej do przeniesienia na zewnętrzny nośnik lub wysyłki

Spis treści. Integracja programu LeftHand Kadry i Płace z programami LeftHand Pełna Księgowość i LeftHand Mała Firma

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Laboratorium 11. Regresja SVM.

Przygotowanie spisów zdawczo-odbiorczych w aplikacji Kancelaria Komornika

Sudoku Tutor 1.0 Podręcznik Użytkownika

Pracownia internetowa w szkole ZASTOSOWANIA

1. Dockbar, CMS + wyszukiwarka aplikacji Dodawanie portletów Widok zawartości stron... 3

Aby przejść do edycji w tym module należy wybrać zakładkę "Dla Pracowników" -> "Sprawdziany".

DODAJEMY TREŚĆ DO STRONY

Instrukcja użytkownika. Aplikacja dla Comarch ERP XL

konspekt pojedynczy slajd sortowanie slajdów strona notatek 1. Widok normalny/konspekt 2. Widok sortowania slajdów 3.

Instrukcja obsługi dla studenta

Instrukcja instalacji programu SYSTEmSM

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

KS-ZSA. Mechanizm aktualizacji kartotek lokalnych w aptece na podstawie zmian w kartotece CKT. Data aktualizacji:

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

System imed24 Instrukcja Moduł Analizy i raporty

Automatyzowanie zadan przy uz yciu makr języka Visual Basic

Program RMUA. Instrukcja konfiguracji i pracy w programie. (Wersja 2)

- 1 Laboratorium fotografii cyfrowej Foto Video Hennig

Instrukcja użytkownika STUDENTA AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

Certyfikat kwalifikowany

DWM-157. Modem USB HSPA+ Podręcznik użytkownika

URLOPY BY CTI. Instrukcja obsługi

Instrukcja obsługi dla studenta

Backend Administratora

Księgowość Optivum. Import planu finansowego wygenerowanego w Sigmie do programu Księgowość

Bazy danych Karta pracy 1

Księgowość Optivum. Jak zweryfikować poprawność kwot w zestawieniu budżetowym?

Systemy operacyjne. Zasady lokalne i konfiguracja środowiska Windows 2000

Transkrypt:

Data Mining z wykorzystaniem programu Rapid Miner Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community Edition Zalecane jest obejrzenie video tutorialu: http://rapid-i.com/videos/rapidminer_tour_3_4_en.html Uwaga! Tutorial odnosi się do starszej wersji programu. Najważniejsze elementy GUI programu Rapid Miner: Edit mode Result mode (F9) - tryb edycji (przygotowania eksperymentu) oraz tryb wyników. Beginner mode Expert mode wiele opcji dostępnych jest dopiero po przejściu w tryb eksperta. Struktura łaocuchowa eksperymentów każdy eksperyment składa się z połączonych ze sobą operatorów.

Zapis eksperymentu do pliku XML Break pointy pozwalają zatrzymad eksperyment we wskazanym momencie i przyjrzed się wynikom pośrednim (ustawianie za pomocą menu kontekstowego lub poprzez podwójne kliknięcie na operator)

Uruchamianie eksperymentu Uzyskiwanie informacji o zastosowanym operatorze

Zadanie 1. Wczytanie i wyświetlanie danych Przygotuj następujący operator: Ustaw ścieżkę do pliku z danymi: Wybierz dobrze znaną bazę danych irysów:

Możesz edytowad wczytane dane: Edytor: Po uruchomieniu eksperymentu otrzymamy: Metadane dane o danych, czyli podsumowanie danych: rodzaj i liczba atrybutów, liczba przykładów w bazie oraz podstawowe statystyki, takie jak wartośd średnia. Wylistowane wszystkie dane:

Podstawową formą wstępnej analizy danych jest wizualna inspekcja. We wczytanych danych mamy przykłady trzech gatunków kwiatów irysów, każdy opisana czterema atrybutami. Sprawdź, czy za pomocą dowolnych dwóch atrybutów klasy te można od siebie łatwo oddzielid (np. czy są liniowo-separowalne). W tym celu dobrze jest wykorzystad wykres Scatter Matrix :

Wypróbuj inne rodzaje wizualizacji danych i spróbuj dowiedzied się o danych jak najwięcej, np. które atrybuty (oceniając wizualnie) są najbardziej korzystne w klasyfikacji. Przykład: Wykres Bubble wizualizacja trzeciego wymiaru za pomocą wielkości baoki, kolor oznacza etykietę klasy:

Zadanie 2. Generowanie przykładowych danych i zapis do pliku. Spróbuj zaprojektowad poniższy eksperyment, gdzie Rapid Miner generuje nam przykładowe dane (operator ExampleSetGenerator) i zapisuje do pliku (operator ExampleSetWriter). Jest to czasami przydatne do testowania nowych operatorów (np. klasyfikatorów), gdzie potrzebne są dane o pewnych cechach. Wybierz rodzaj danych jakie mają zostad wygenerowane. Musisz podad nazwę pliku: Naciśnij Start i zobacz jakie dane zostały wygenerowane i zapisane do pliku.

Zadanie 3. Wykorzystanie drzewa decyzyjnego do analizy danych. Drzewo decyzyjne podejmuje w każdym węźle decyzję o podziale danych, które dotarły do tego węzła. Decyzja ta zazwyczaj podejmowana jest na podstawie jednego tylko atrybutu. Atrybut ten jest wybierany tak, by zapewnid możliwie jak największy spadek różnorodności klas w węzłach potomnych. Stosuje się w tym celu różne miary różnorodności, np. entropię, czy wskaźnik Giniego. Podział następuje dotąd, dopóki w każdym liściu nie występuje tylko jedna klasa. Wtedy następuje etap przycinania drzewa, jako, że jest ono zbyt mocno dostosowane do danych trenujących, co nie zapewnia dobrego działania na danych przyszłych. Możliwe jest też wcześniejsze zatrzymanie podziału, np. jeśli w danym węźle jest zbyt mało przykładów (parametr minimal_leaf_size) lub jeśli drzewo jest zbyt duże (parametr maximal_depth). Zaprojektuj następujący eksperyment: Jako źródło danych wykorzystamy dane o pogodzie dobrej i niedobrej do gry w golfa: Drzewo decyzyjne można znaleźd w:

Ustaw break point po wczytaniu danych, by obejrzed, zanim zacznie się indukcja drzewa decyzyjnego: Naciśnij Start i zapoznaj się z nowymi danymi:

Następnie naciśnij Dalej: I zobacz, jakie drzewo decyzyjne powstało:

Zadanie 4. Indukcja reguł decyzyjnych Zaprojektuj następujący eksperyment (na podstawie zadania 3), pozwalający uzyskad zestaw reguł decyzyjnych na podstawie danych: Zawsze możesz przeczytad krótki opis operatora, klikając F1: Kliknij Start i przeanalizuj otrzymany zestaw reguł:

Zauważ, że drzewo decyzyjne z wcześniejszego przykładu można odczytad jako zbiór reguł. Każda droga od korzenia drzewa decyzyjnego do liścia, to jedna reguła. Dodaj do eksperymentu dodatkowe kroki:

ModelApplier pozwala sprawdzid odpowiedzi naszego klasyfikatora (zbioru reguł w tym przypadku) dla danych, które zostają mu przekazane (odpowiedzi są w kolumnie prediction): Można również uzyskad informacje o jakości działania klasyfikatora. Rozbuduj system poprzez dodanie operatora ClassificationPerformance: Wybierz, za pomocą jakich kryteriów będzie oceniany klasyfikator:

Operator ClassificationPerformance pozwala sprawdzid błąd klasyfikatora. Kliknij Start: Co jest zapisane w ConfusionMatrix? ZADANIE DO WYKONANIA: Zastosuj powyższy eksperyment dla danych o kwiatach irysa, wykorzystaj do tego Drzewo Decyzyjne:

Powinieneś otrzymad następujące drzewo (pamiętaj by zaznaczyd break point w odpowiednim miejscu): oraz wyniki:

Zadanie 5. Grupowanie danych. Często zadanie polega nie na nauce poprawnej klasyfikacji danych do istniejących klas, a raczej na wykryciu naturalnych skupisk w danych. Zadanie takie nazywa się zadaniem grupowania (lub klasteryzacji). W naszym przykładzie wykorzystamy ponownie dane o irysach, lecz teraz pominiemy informacje o przynależności klasowej danych. Załaduj dane irysów: Dodaj operator grupowania K-Średnich: Przełącz w tryb eksperta i zaznacz, że chcemy podzielid nasze dane na 3 grupy: Wykonaj eksperyment. W wyniku grupowania dostajemy współrzędne centrów trzech grup danych:

Możemy również sprawdzid, do której grupy należy każdy przykład irysa:

Jeszcze lepiej jest ocenid wynik grupowania wizualnie. Sprawdź jak wygląda przydział do grup dokonany przez algorytm grupowania: a jak wygląda prawdziwa przynależnośd do klas (na podstawie znanych etykiet klas, które jednak nie były użyte w trakcie grupowania ):

Jak widad jedną z klas irysów łatwo automatycznie wykryd i oddzielid od dwóch pozostałych. Oczywiście, w ogólności ciężko oszacowad prawdziwą liczbę grup w danych. Służą do tego odpowiednie indeksy jakości uzyskanego grupowania. ZADANIE DO WYKONANIA: Spróbuj podzielid dane na inną liczbę grup (np. 2, 4, itd.). Wypróbuj inne metody grupowania.

Zadanie 6. Redukcja wymiarowości Redukcja wymiarowości nie polega na prostym odrzuceniu części atrybutów. Proces ten polega raczej na przeniesieniu danych do nowej przestrzeni o mniejszej liczbie wymiarów, ale takich które jak najlepiej zachowują strukturę oryginalnej przestrzeni o większej liczbie wymiarów. Zaprojektuj eksperyment dla danych o irysach: Dodaj operator SVDReduction: Ustaw parametr dimensions tego operator na 2 (sprowadzamy problem z czterech wymiarów do dwóch). Wykonaj eksperyment. d0 oraz d1 to nowe atrybuty otrzymane na podstawie czterech oryginalnych.

W nowej przestrzeni 2D nasze dane wyglądają tak: Pamiętaj każdy irys jest teraz reprezentowany jedynie przez dwa atrybuty, a jednak struktura klas została w dużym stopniu zachowana. ZADANIE DO WYKONANIA: Zamiast SVDReduction zastosuj operator PrincipalComponentsGenerator:

Oczekiwany wynik:

Zadanie 7. Brakujące wartości atrybutów. Często jest tak, że dane nie są kompletne. Można wtedy próbowad wypełnid puste miejsca na podstawie znanych wartości danego atrybutu w innych przykładach, np. przypisując w puste miejsce średnią wartośd tego atrybutu dla wszystkich przykładów należących do tej samej klasy, dla których wartośd tego atrybutu jest znana. Załaduj dane labor-negotiations.aml. Edytuj dane. Jak widad, w wielu miejscach występują pytajniki, co oznacza brak wiedzy o wartości danego atrybutu dla danego przypadku. Dodaj operator MissingValueReplenishment:

Zaznacz wypełnianie średnią wartością: Wynikowy zestaw danych, uzupełniony o estymowane brakujące wartości, otrzymamy korzystając z operatora ExampleSetWriter: Ustaw ścieżkę do pliku wynikowego:

Ostatecznie, eksperyment wygląda następująco: Wykonaj. Możemy teraz porównad oryginalne dane z brakującymi wartościami (pamiętaj o ustawieniu break pointa)

.. z nowym, uzupełnionym zestawem, jaki otrzymaliśmy: Tak uzupełnione dane można wykorzystad w dalszych etapach drążenia danych, np. do uczenia klasyfikatora.