1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.

Podobne dokumenty
b) Umiejętność wykonania analizy zależności zmiennych i interpretacji uzyskanych wyników.

1. Przygotowanie danych do analizy. Transformacja danych

1. Grupowanie Algorytmy grupowania:

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Laboratorium 11. Regresja SVM.

Zajęcia nr VII poznajemy Rattle i pakiet R.

Założenia do ćwiczeń: SQL Server UWM Express Edition: \SQLEXPRESS. Zapoznaj się ze sposobami użycia narzędzia T SQL z wiersza poleceń.

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Laboratorium 2. Określanie ważności atrybutów.

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4

Zarządzanie kontami użytkowników w i uprawnieniami

author: Andrzej Dudek

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

Instrukcja użytkownika ARSoft-WZ3

Dane wejściowe. Oracle Designer Generowanie bazy danych. Wynik. Przebieg procesu

Plan. Aplikacja. Architektura aplikacji. Architektura aplikacji Tworzenie aplikacji Application Builder podstawy

7. Formularze master-detail

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Data Mining z wykorzystaniem programu Rapid Miner

Instrukcja obsługi DHL KONWERTER 1.6

Laboratorium 13. Eksploracja danych tekstowych.

Ćwiczenie 2 GEODA i5 ogólne informacje i obliczanie statystyki Morana

Instrukcja laboratoryjna

Wprowadzenie do analizy dyskryminacyjnej

Mail: Pokój 214, II piętro

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

KNIME podstawy obsługi programu. Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG

Import danych w formacie txt

2. Wprowadzenie do oprogramowania gretl. Podstawowe operacje na danych.

Analiza danych i data mining.

Instrukcja obsługi Multiconverter 2.0

Ćwiczenie 12. Metody eksploracji danych

INFORMATOR TECHNICZNY WONDERWARE. Ograniczenie wyświetlania listy zmiennych w przeglądarce zmiennych ActiveFactory

KURIER XL BY CTI DLA SIÓDEMKA

Laboratorium 4. Naiwny klasyfikator Bayesa.

Instrukcjaaktualizacji

Import danych z plików CSV

BACKUP BAZ DANYCH FIREBIRD

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Implementacja metod eksploracji danych - Oracle Data Mining

Instalacja Pakietu R

Zasady transformacji modelu DOZ do projektu tabel bazy danych

Proces ETL MS SQL Server Integration Services (SSIS)

Rys. 1 Okno startowe programu RapidMiner

Wdrożenie modułu płatności eservice. dla systemu Magento

Systemy baz danych Prowadzący: Adam Czyszczoń. Systemy baz danych. 1. Import bazy z MS Access do MS SQL Server 2012:

Przewodnik po pakiecie R / Przemysław Biecek. Wyd. 4 rozsz. Wrocław, Spis treści

Hurtownie danych - przegląd technologii

ShopGold Integrator by CTI. Instrukcja

Oracle Label Security

Instrukcja tworzenia aplikacji bazodanowej opartej o technologię Oracle i platformę.net

Zadania do wykonania na laboratorium

Wykład XII. optymalizacja w relacyjnych bazach danych

Bazy danych. Plan wykładu. Rozproszona baza danych. Fragmetaryzacja. Cechy bazy rozproszonej. Replikacje (zalety) Wykład 15: Rozproszone bazy danych

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Instalacja Oracle Designera ( )

Instrukcjainstalacji KS-CRM

Załącznik nr 2. Zasady pracy aplikacji InteGrRej.

Projektowanie baz danych za pomocą narzędzi CASE

Bazy danych. Andrzej Łachwa, UJ, /15

Arkusz Optivum. Jak eksportować do SIO dane z Arkusza Optivum?

Ćwiczenie 4. Użytkownicy

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Wymagane jest podłączenie serwera do Internetu (konieczne do zdalnego dostępu).

INFORMATOR TECHNICZNY WONDERWARE. Odczytywanie danych z arkusza Excel za pomocą zapytań SQL do aplikacji InTouch

Aquarius Podręcznik uz ytkownika

Zmiany funkcjonalne i lista obsłużonych zgłoszeń Comarch DMS

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

startup pfile= '$HOME/admin/pfile/initDBx.ora'; create spfile from pfile= '$HOME/admin/pfile/initDBx.ora';

Kostki OLAP i język MDX

Płace Optivum. 1. Zainstalować serwer SQL (Microsoft SQL Server 2008 R2) oraz program Płace Optivum.

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Wdrożenie modułu płatności eservice. dla systemu Gekosale 1.4

Oracle11g: Wprowadzenie do SQL

JPK.guru Excel (podgląd JPK) Instrukcja Użytkownika


Automatyka i Robotyka ROK III TEMAT: TWORZENIE I ZARZĄDZANIE INTERNETOWĄ BAZĄ DANYCH

SymSync integracja danych Opencart/Prestashop Symfonia Handel Instrukcja obsługi

Program Lojalnościowy by CTI. Instalacja

asist Uproszczona procedura migracji danych aplikacji asist przy błędnych ustawieniach zestawu znaków bazy danych Oracle

Systemy uczące się Lab 4

Odnawialne Źródła Energii I rok. Tutorial PostgreSQL

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

KOMISJE WYBORCZE PIT EKSPORT E-PITY

nowe idee nowe inspiracje City Network wersja demonstracyjna

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Załącznik 1 instrukcje instalacji

Oracle Designer. Oracle Designer jest jednym z głównych komponentów pakietu Oracle Developer Suite. Oracle Designer wspiera :

Instrukcja konfiguracji programu KS-ASW do pracy w trybie wielopodmiotowym

Programowanie komponentowe. Przykład 1 Bezpieczeństwo wg The Java EE 5 Tutorial Autor: Zofia Kruczkiewicz

Pracownia internetowa w każdej szkole (edycja Jesień 2007)

Instrukcja instalacji aplikacji PlanSoft.org

Dokumentacja instalacyjna i konfiguracyjna Aplikacja ADR. Wersja dokumentu 1.0. Strona 1/9

Transkrypt:

Spis treści: 1. Cele eksploracyjnej analizy danych...1 2. Rapid Miner zasady pracy i wizualizacja danych...3 3. Oracle Data Miner -zasady pracy.12 3.1 ODM PL/SQL.......12 3.2 ODM JAVA API......12 3.2.1 Import danych 17 3.2.2 Tworzenie tabel i perspektyw 19 4. Zadania..21 1. Cele eksploracyjnej analizy danych Nie istnieje jedyna, optymalna ścieżka eksploracji danych. Proces ten różni się w zależności od posiadanego zbioru danych, jak i od postawionego pytania. Warto jednak, aby jednym z pierwszych kroków było przyjrzenie się danym wejściowym. Umożliwia to eksploracyjna analiza danych (EDA), której celem jest stworzenie ogólnej charakterystyki danych obejmującej: zgłębienie danych, które polega na określeniu liczby rekordów, typu atrybutów i dziedziny wartości atrybutów, sprawdzenie relacji pomiędzy atrybutami, identyfikację podzbiorów obserwacji, rozwinięcie wstępnej idei ewentualnych powiązań pomiędzy atrybutami i docelową. Opis danych jest przeprowadzany na podstawie: badania zmiennych, obliczania statystyk opisowych, obserwacji histogramów zmiennych numerycznych, badania rozkładów zmiennych jakościowych, badania zależności pomiędzy zmiennymi. W przypadku zmiennych numerycznych: oblicza się podstawowe statystyki takie jak: wartość minimalna, maksymalna, średnia, mediana, położenie kwartyli (Q1, Q3), moda, odchylenie standardowe, odchylenie ćwiartkowe (Q3-Q1), -1-

bada symetrię rozkładu zmiennych histogram znormalizowany, oblicza współczynnik asymetrii i kurtozę, sprawdza zależności pomiędzy zmiennymi numerycznymi: kowariancja, współczynnik korelacji. Eksploracyjna analiza danych pozwala stwierdzić czy zbiór danych jest odpowiedniej jakości. Jakość danych jest sprawa kluczową dla efektywności eksploracji danych. W technikach komputerowych wyraża się to akronimem GIGO (garbage in garbage out). Dane kiepskiej jakości utrudniają klarowne myślenie i racjonalne podejmowanie decyzji. Dane obciążone, i wywodzone z nich zależności, mogą mieć poważne konsekwencje, jeśli chodzi o formułowanie praw i reguł. praw i reguł. [Hunter 1980, wg. D.Hand i inni, Eksploracja danych, 2005] Dane poddawane analizie z wykorzystaniem technik eksploracji danych nie mogą zawierać: zbędnych pól, przeterminowanych wartości, rekordów z brakującymi wartościami, tzw. Outliers tj. punktów oddalonych, odstających, danych w nieodpowiednim formacie, wartości niezgodnych z zasadami lub logiką. Szczególne miejsce w badaniu danych zajmują metody wizualne. Przedstawienie danych metodami wizualnymi pozwala na wykorzystanie naturalnej zdolności ludzkiego oka i mózgu do przetwarzania wzorców. Wszelkiego rodzaju wykresy pozwalają nie tylko na wychwycenie tzw. punktów odstających (outliers) ale również sprawdzenia zależności między zmiennymi. Najbardziej podstawowym sposobem przedstawienia danych jednowymiarowych jest histogram. Przy przedstawianiu wizualnym rozkładów dla kilku zmiennych wykorzystuje się często wykresy pudełkowe (box plot). Wykres rozrzutu jest standardowym narzędziem umożliwiającym przedstawienie zależności pomiędzy dwoma zmiennymi. Sprawdzają się one jednak przy niewielkiej liczbie danych pomiarowych, w przeciwnym wypadku stają się nieczytelne. Wówczas wykorzystuje się wykresy warstwicowe. Przy przedstawianiu zależności pomiędzy więcej niż dwoma zmiennymi wykorzystuje się: macierze rozrzutu, wykresy warunkowe, wykresy współrzędnych równoległych, metodę rzutowania na przestrzeń dwuwymiarową zdefiniowana przez dwie główne składowe, rysunki symboliczne: krzywe Andrewsa, twarze Czernowa. Literatura: D.Hand, H.Mannila, P.Smyth, Eksploracja danych, 2005, PWN, Warszawa -2-

AiED RAPID MINER?? 2. RapidMiner zasady prac, eksploracyjna analiza danych Po zgłoszeniu się Rapid Minera, korzystając z RapidMiner Tutorial (Help->RapidMiner Tutorial / Video Tutorials) zapoznaj się z zasadami pracy. Utwórz nową perspektywę np. DMUSER (VIEW New Perspectives) -3-

AiED RAPID MINER?? A. Import danych 1. Wyświetl Repozytoria. 2. Utwórz nowe repozytorium danych np. DMUSER Add a connection to a new repository server 3. Importuj dane np. dmbase.csv Import -4-

AiED RAPID MINER?? 4. Zwróć uwagę, czy użyty został właściwy separator (w tym przypadku: semicolon) 5. W pierwszym wierszu kolumny Annotation wprowadź Name. 6.Określ status zmiennych: id jako unikalny atrybut powinna mieć status id, zmienna division - status label. -5-

AiED RAPID MINER?? 7. Wyświetl podgląd danych. Sprawdź czy są brakujące dane. 8. Utwórz nowy proces. Stosując kliknij/upuść zamieść operator Retrive umożliwiający wczytanie danych np. z tabeli dmbase, a następnie Uruchom proces uruchom 9. Wyświetl tabelę z danymi (Example Set -DataView) -6-

AiED RAPID MINER?? 10. Wyświetl metadane (MetaData View) 11. Sprawdź czy są wszystkie dane. 12. Wyświetl histogram dla zmiennej no_rbi Wygeneruj odpowiednie wykresy i przeprowadź dyskusję wyników. 12. Wyświetl histogram dla zmiennej no_rbi a następnie eksportuj go do pliku np. jpg -7-

AiED RAPID MINER?? 13. Wyświetl histogram dla zmiennej no_rbi z uwzględnieniem podziału na East i West division) wykres Histogram Color (zmienna 14. Wyświetl histogram pudełkowy (Quartile) no_rbi, a następnie wykres pudełkowy z podziałem na East i West -8-

AiED RAPID MINER?? 15. Wyświetl macierz wykresów pudełkowych z podziałem ze względu na zmienna Division Color Matrix) (Quartile 16. Wyświetl wykres odchyleń (Deviation) dla color kolumn- no_rbi -9-

AiED RAPID MINER?? 17. Wyświetl wykres rozproszenia (Scatter) dla zmiennych no_runs i no_rbi, dla color - division 18. Wyświetl macierz wykresów rozproszenia - 10 -

AiED RAPID MINER?? 19. Wyświetl wykresy równoległych (Parallel) np. dla color kolumn - no_rbi - 11 -

AiED Oracle Data Miner rozpoczęcie pracy 3. Oracle10g Data Mining (ODM) Oracle10g Data Mining umożliwia integrację mechanizmów eksploracji analizy danych (data mining) wbudowanych w bazę danych Oracle10g z aplikacjami tworzonymi przez programistów. ODM udostępnia dwie grupy funkcji do budowy aplikacji zawierających analizy eksploracyjne: ODM PL/SQL API, ODM Java API. 3.1. ODM PL/SQL - rozpoczęcie pracy. Tworzenie użytkownika i nadawanie uprawnień Uruchom Oracle SQLPlus Połącz się z bazą Nazwa użytkownika:sys as sysdba Hasło: masterkey Utwórz użytkownika np. dmuser create user USERNAME identified by USERPASSWORD default tablespace users temporary tablespace temp quota unlimited on users; Użytkownikowi USERNAME nadaj przywileje dostępu do obiektów schematu SH, w tym celu uruchom skrypt dmhgrants: @ %ORACLE_HOME%\RDBMS\demo\dmshgrants SH username 3.2. ODM Java API - rozpoczęcie pracy. Tworzenie tabeli/perspektywy. Wyświetlanie danych. Uruchom aplikację odminer (na pulpicie w katalogu odminer102043\bin) Połącz się z serwerem bazy danych używając następujących parametrów: Host: Port: SID: aied 1521 orcl -12-

AiED Oracle Data Miner rozpoczęcie pracy Oracle Data Miner umożliwia tworzenie tabel poprzez wykonanie skryptów PL/SQL lub import danych. Opcja Data umożliwia miedzy innymi: tworzenie perspektyw, kopiowanie tabel, import danych. a także wyświetlenie danych z tabeli/perspektywy: -13-

AiED Oracle Data Miner rozpoczęcie pracy Pozwala też na wykonanie transformacji -14-

AiED Oracle Data Miner rozpoczęcie pracy Z kolei opcja Activity umożliwia wykorzystanie algorytmów maszynowego uczenia się. Pozwala na budowę modeli, testowanie ich i wykorzystanie do analizy danych. ODM pozwala na szukanie asocjacji, wykorzystanie algorytmów klasyfikacyjnych (Naiwny Klasyfikator Bayesa, Adaptatywna Sieć Bayesa, Drzewa Decyzyjne, SVM metoda wektorów nośnych) oraz algorytmów grupowania (K-średnich, ortogonalnego partycjonowania). Opcja Tools umożliwia między innymi skorzystanie z narzędzia SQL Worksheet, -15-

AiED Oracle Data Miner rozpoczęcie pracy a także zapewnia możliwość odpowiedniej konfiguracji środowiska pracy poprzez Preferences -16-

AiED - Oracle Data Miner Import danych, Tworzenie tabeli, perspektywy Oracle Data Miner - Uruchomienie i połączenie z serwerem bazy danych Uruchom Microsoft Virtual PC Uruchom aplikację odminer (na pulpicie w katalogu odminer102043\bin) Połącz się z serwerem bazy danych Oracle Data Miner umożliwia tworzenie tabel poprzez wykonanie skryptów PL/SQL lub import danych. 3.2.1 Oracle Data Miner - Import danych Plik churners Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. Z menu głównego wybierz Tools Preferences. Wybierz plik SQL*Loader C:\oracle\product\10.2.0\db\BIN\sqlldr.exe -17 - AJK

AiED - Oracle Data Miner Rozpoczęcie pracy, Import danych, Tworzenie tabeli, perspektywy Z menu głównego wybierz Data Import. Wybierz plik, który importujesz, a następnie określ format danych importowanych. Zawsze masz możliwość skorzystania z Opcji Preview, która umożliwia podgląd danych. Po wybraniu właściwego separatora uzyskasz następujące dane: Następnie podaj nazwę tabeli i zakończ import. - 18 - AJK2

AiED - Oracle Data Miner Rozpoczęcie pracy, Import danych, Tworzenie tabeli, perspektywy 3.2.2. Oracle Data Miner - Tworzenie i przeglądanie tabeli/perspektywy Z menu głównego wybierz Tools SQL WorkSheat. Wprowadź kod w PL/SQL i wykonaj Oracle Data Miner - Tworzenie perspektywy Z menu głównego wybierz Tools Create View. Wybierz właściwy schemat użytkownika i tabelę -19 - AJK

AiED - Oracle Data Miner Rozpoczęcie pracy, Import danych, Tworzenie tabeli, perspektywy Wybierz kolumny, które mają się znaleźć w perspektywie (Opcje pozwala min. na wyświetlenie powiązanych tabel) Określ klauzulę WHERE -20 - AJK

AiED - Oracle Data Miner Rozpoczęcie pracy, Import danych, Tworzenie tabeli, perspektywy Pokaż wyniki Pokaż kod SQL - 21 - AJK

4. Zadania 1. Korzystając z aplikacji Rapid Miner zaimportuj plik dmbase i przeprowadź wizualizację danych, rozdział 2. 2. Korzystając z Oracle Data Miner (PL/SQL) połącz się z bazą danych jako użytkownik o uprawnieniach administratora, utwórz użytkownika i nadaj mu uprawnienia do obiektów w schemacie SH, rozdział 3.1. 3. Korzystając z Oracle Data Miner (Java API) wyświetl dane z tabeli PRODUCTS (ze schematu SH) 4. Korzystając z Oracle Data Miner (Java API) zaimportuj dane z pliku churners.csv, wyświetl dane, rozdział 3.2.1. Wygeneruj histogramy i statystyki dla wybranych zmiennych, np. INCOME. Przeprowadź analizę wyników.