Laboratorium 2. Określanie ważności atrybutów.

Podobne dokumenty
Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Laboratorium 11. Regresja SVM.

Laboratorium 4. Naiwny klasyfikator Bayesa.

Określanie ważności atrybutów. OracleData Miner

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 12. Odkrywanie osobliwości.

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Laboratorium 5. Adaptatywna sieć Bayesa.

Laboratorium 13. Eksploracja danych tekstowych.

1. Odkrywanie asocjacji

2. Ocena dokładności modelu klasyfikacji:

Laboratorium 7. Support Vector Machines (klasyfikacja).

Ćwiczenie 5. Eksploracja danych

1. Grupowanie Algorytmy grupowania:

Założenia do ćwiczeń: SQL Server UWM Express Edition: \SQLEXPRESS. Zapoznaj się ze sposobami użycia narzędzia T SQL z wiersza poleceń.

Tworzenie modelu logicznego i fizycznego danych.

Instytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny Politechnika Śląska

Systemy baz danych Prowadzący: Adam Czyszczoń. Systemy baz danych. 1. Import bazy z MS Access do MS SQL Server 2012:

Wykład 05 Bazy danych

Gromadzenie danych. Przybliżony czas ćwiczenia. Wstęp. Przegląd ćwiczenia. Poniższe ćwiczenie ukończysz w czasie 15 minut.

System Obsługi Zleceń

Jak przenieść bazę danych na zdalny serwer?

Instytut Mechaniki i Inżynierii Obliczeniowej fb.com/groups/bazydanychmt/

Język SQL, zajęcia nr 1

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

Laboratorium - Narzędzie linii uruchamiania w systemie Windows Vista

3. Budowa prostych raportów opartych o bazę danych

CitiDirect BE Portal Eksport

Dane wejściowe. Oracle Designer Generowanie bazy danych. Wynik. Przebieg procesu

Instrukcja migracji PREMIUM. Mendeley_Migration_Guide_Polish.indd 1

Ćwiczenie 2. Opcja przestrzenna bazy danych

Microsoft.NET: LINQ to SQL, ASP.NET AJAX

Bazy danych kwerendy (moduł 5) 1. Przekopiuj na dysk F:\ bazę M5KW.mdb z dysku wskazanego przez prowadzącego

CitiDirect EB Portal Eksport

Oracle Application Express

Kostki OLAP i język MDX

Laboratorium nr 4. Temat: SQL część II. Polecenia DML

Bazy Danych i Usługi Sieciowe

Laboratorium - Harmonogramowanie zadania przy użyciu GUI i polecenia AT w systemie Windows 7

ORACLE. System Zarządzania Bazą Danych Oracle. Oracle Advanced SQL

Widok Connections po utworzeniu połączenia. Obszar roboczy

Inżynieria Programowania Laboratorium 3 Projektowanie i implementacja bazy danych. Paweł Paduch paduch@tu.kielce.pl

Cover sheet. WinCC (TIA Portal) FAQ Listopad 2012

1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.

Laboratorium - Narzędzia linii uruchamiania w systemie Windows 7

Wdrożenie modułu płatności eservice. dla systemu Zen Cart

Bazy danych. Wykład IV SQL - wprowadzenie. Copyrights by Arkadiusz Rzucidło 1

Wykład 8. SQL praca z tabelami 5

Wdrożenie modułu płatności eservice. dla systemu oscommerce 2.3.x

Instrukcja korzystania z konta pracownika na stronie www

Komunikacja z bazą danych psql

Instrukcja instalacji programu STATISTICA

Laboratorium - Archiwizacja i odzyskiwanie danych w Windows Vista

Aplikacje WWW - laboratorium

Instalacja programu dreryk

mfaktura Instrukcja instalacji programu Ogólne informacje o programie biuro@matsol.pl

Wdrożenie modułu płatności eservice. dla systemu Gekosale 1.4

Bazy danych i usługi sieciowe

Oracle Application Express

Integracja z Subiekt GT

Budowa aplikacji ASP.NET współpracującej z bazą dany do obsługi przesyłania wiadomości

Laboratorium - Podgląd informacji kart sieciowych bezprzewodowych i przewodowych

2. Podstawy narzędzia Application Builder, budowa strony, kreatory aplikacji

Ćwiczenie 4. Użytkownicy

Programowanie MSQL. show databases; - pokazanie jakie bazy danych są dostępne na koncie

Oracle Application Express

Laboratorium - Konserwacja dysku twardego w Windows Vista

Laboratorium - Harmonogramowanie zadania przy użyciu GUI i polecenia AT w systemie Windows Vista

Skrócona instrukcja funkcji logowania

Konfiguracja imiennej skrzynki pocztowej Komornika Sądowego

Bazy danych - Materiały do laboratoriów VIII

Instalacja Moodle na serwerze SBS2000/2003. Opiekun pracowni internetowej SBS

I Tworzenie prezentacji za pomocą szablonu w programie Power-Point. 1. Wybieramy z górnego menu polecenie Nowy a następnie Utwórz z szablonu

WYDAWANIE CZYTNIKAMI BY CTI Instrukcja

System magazynowy małego sklepu.

BAZY DANYCH. CREATE TABLE dbo.wydzialy (ID INT, Akronim VARCHAR(4) NOT NULL, Wydzial VARCHAR(30) NOT NULL, CONSTRAINT Kluczyk PRIMARY KEY(ID) )

Laboratorium - Tworzenie partycji w Windows XP

Zaawansowane aplikacje internetowe - laboratorium

3 Przygotowali: mgr inż. Barbara Łukawska, mgr inż. Maciej Lasota

Przed skonfigurowaniem tego ustawienia należy skonfigurować adres IP urządzenia.

Aplikacje internetowe - laboratorium

LAB 6 BEGIN TRANSACTION, COMMIT, ROLLBACK, SET TRANSACTION ISOLATION LEVEL,

Architektura komunikacji

Temat: Windows 7 Panel sterowania - Ekran

Palety by CTI. Instrukcja

Potwierdzenie zamówienia za pomocą metody przesyłania plików PL

Instrukcjainstalacji KS-CRM

Uruchamianie bazy PostgreSQL

Instalacja platformy Magento CE wersja szybka

Instrukcja instalacji wtyczki Przelewy24

NetDrive czyli jak w prosty sposób zarządzać zawartością FTP

Programowanie w SQL procedury i funkcje. UWAGA: Proszę nie zapominać o prefiksowaniu nazw obiektów ciągiem [OLIMP\{nr indeksu}] Funkcje użytkownika

Podręcznik użytkownika Platformy Edukacyjnej Zdobywcy Wiedzy (zdobywcywiedzy.pl)

Java EE: JSF + EJB + JPA

strukturalny język zapytań używany do tworzenia i modyfikowania baz danych oraz do umieszczania i pobierania danych z baz danych

7. Formularze master-detail

MultiBoot Instrukcja obsługi

Bazy danych. Polecenia SQL

CitiDirect Online Banking Eksport

Transkrypt:

Laboratorium 2 Określanie ważności atrybutów. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z listy Function Type wybierz Attribute Importance. Jedyny dostępny algorytm, Minimum Description Length, zostaje automatycznie wybrany jako algorytm przetwarzający. Kliknij przycisk Dalej>. 4. Z listy dostępnych schematów wybierz schemat STUDENT. Wybierz tabelę MINING_DATA_BUILD_V. Jako klucz podstawowy (Unique identifier) zaznacz przycisk radiowy Single Key i z listy wybierz atrybut CUST_ID. Upewnij się, że wszystkie atrybuty na liście Selected Columns są wybrane. Kliknij przycisk Dalej>.

5. Kolumna Target zawiera informację o atrybucie decyzyjnym, względem którego staramy się określić ważność pozostałych atrybutów (predyktorów). Wskaż atrybut AFFINITY_CARD (oznacza, czy dany klient skorzysta z karty lojalnościowej) jako atrybut decyzyjny w kolumnie Target. Atrybut PRINTER_SUPPLIES został automatycznie odrzucony, ponieważ zawiera tylko jedną wartość. Włącz atrybut PRINTER_SUPPLIES do przetwarzania. Kliknij przycisk Dalej>. 6. Wprowadź nazwę i opis dla procesu eksploracji. Kliknij przycisk Dalej>.

7. Kliknij przycisk Advanced Settings. Na zakładce Sample włącz opcję Enable Step. Zmień rodzaj próbkowania na losowy (opcja Sampling Type, wartość Random). 8. Przejdź na zakładkę Discretize. Upewnij się, że dyskretyzacja jest włączona i zostanie wykonana automatycznie przed uruchomieniem się właściwego algorytmu. Zmień sposób dyskretyzacji atrybutów numerycznych na Equal Width Binning.

9. Kliknij przycisk OK. Upewnij się, że jest zaznaczona opcja Run upon finish. Kliknij klawisz Zakończ. Ekran powinien mieć w tej chwili następujący wygląd. Bloki w prawym panelu reprezentują następujące po sobie etapy procesu eksploracji danych. Dla każdego etapu można zobaczyć dane stanowiące wynik działania danego etapu (odnośnik Output Data). Przycisk Run Activity powoduje uruchomienie całego procesu eksploracji. Istnieje też możliwość zmiany parametrów i usunięcia poprzednich wyników dla dowolnego procesu i uruchomienie całej eksploracji w sposób przyrostowy (przyciski Reset, Options i Run). 10. Kliknij na odnośnik Output Data w bloku Discretize. Kliknij na odnośnik do tymczasowej tabeli. W nowym okienku kliknij na zakładce Data. Zwróć uwagę, że atrybuty numeryczne (AGE, YRS_RESIDENCE) zostały automatycznie dyskretyzowane. Zamknij okienko z tabelą tymczasową.

11. Kliknij na odnośnik Result w bloku Build. Przeanalizuj uzyskane wyniki. Które atrybuty są najbardziej przydatne do predykcji wartości atrybutu decyzyjnego? Atrybuty o ważności mniejszej niż 0 są uznawane za całkowicie nieprzydatne. Jaką ważność ma atrybut PRINTER_SUPPLIES posiadający tylko jedną wartość?

12. Kliknij na umieszczoną w prawym górnym rogu. Jako format pliku graficznego do eksportu wybierz GIF. Kliknij przycisk OK. Zapisz plik na dysku lokalnym. Obejrzyj wygenerowany plik. Zamknij okienko prezentujące wynik działania algorytmu. 13. W bloku Sample kliknij przycisk Reset. W okienku z pytaniem o potwierdzenie usunięcia wyniku działania kroku próbkowania (i wszystkich kroków następujących po próbkowaniu) kliknij przycisk Tak. Wyniki wszystkich kroków zostaną usunięte. W bloku Sample kliknij przycisk Options i zmień sposób próbkowania na próbkowanie warstwowane (opcja Sampling Type, wartość Stratified). Kliknij przycisk OK. Odznacz pole wyboru obok nazwy bloku Discretize (w ten sposób w trakcie kolejnego uruchomienia algorytmu nie zostanie przeprowadzona automatyczna dyskretyzacja). Kliknij przycisk Run Activity umieszczony w prawej górnej części ekranu. Po wykonaniu tych czynności ekran powinien wyglądać jak na obrazku poniżej. Porównaj uzyskany wynik z poprzednim wynikiem. Czy obserwujesz jakieś zmiany?

14. Z menu głównego wybierz Tools SQL Worksheet. W górnym oknie wprowadź po kolei następujące komendy: CREATE TABLE ATTRIBUTE_IMPORTANCE_TEST AS SELECT * FROM MINING_DATA_BUILD_V; ALTER TABLE ATTRIBUTE_IMPORTANCE_TEST ADD COL1 ; ALTER TABLE ATTRIBUTE_IMPORTANCE_TEST ADD COL2 ; UPDATE ATTRIBUTE_IMPORTANCE_TEST SET COL1 = 1 - AFFINITY_CARD; UPDATE ATTRIBUTE_IMPORTANCE_TEST SET COL2 = DBMS_RANDOM.RANDOM; COMMIT; 15. W nowo utworzonej tabeli znajdują się dwa dodatkowe atrybuty: COL1 i COL2. Atrybut COL1 jest liniowo zależny od atrybutu decyzyjnego (czyli pozwala ze 100% dokładnością przewidzieć wartości atrybutu decyzyjnego), podczas gdy atrybut COL2 jest całkowicie losowy (czyli nie posiada żadnej wartości informacyjnej). 16. Utwórz nowe zadanie eksploracji (z głównego menu wybierz Activity Build) i określ ważność atrybutów względem atrybutu decyzyjnego AFFINITY_CARD w tabeli ATTRIBUTE_IMPORTANCE_TEST. W procesie eksploracji wykorzystaj próbkowanie i automatyczną dyskretyzację atrybutów. Sprawdź, w którym miejscu w rankingu atrybutów znajdą się atrybuty COL1 i COL2. 17. Połącz się z bazą danych wykorzystując isqlplus. Wykonaj skrypt ai.sql. Po każdym kroku przeanalizuj uzyskane wyniki (komentarz jest umieszczony wewnątrz skryptu).

Ćwiczenie samodzielne W schemacie użytkownika sh znajdują się tabele CUSTOMERS,COUNTRIES,SALES o następujących schematach: SQL> desc sh.customers Name Null? Type ----------------------------------------- -------- ------------ CUST_ID CUST_FIRST_NAME NOT NULL VARCHAR2(20) CUST_LAST_NAME CUST_GENDER NOT NULL CHAR(1) CUST_YEAR_OF_BIRTH (4) CUST_MARITAL_STATUS VARCHAR2(20) CUST_STREET_ADDRESS CUST_POSTAL_CODE NOT NULL VARCHAR2(10) CUST_CITY NOT NULL VARCHAR2(30) CUST_CITY_ID CUST_STATE_PROVINCE CUST_STATE_PROVINCE_ID COUNTRY_ID CUST_MAIN_PHONE_ NOT NULL VARCHAR2(25) CUST_INCOME_LEVEL VARCHAR2(30) CUST_CREDIT_LIMIT CUST_EMAIL VARCHAR2(30) CUST_TOTAL NOT NULL VARCHAR2(14) CUST_TOTAL_ID CUST_SRC_ID CUST_EFF_FROM DATE CUST_EFF_TO DATE CUST_VALID VARCHAR2(1) SQL> desc sh.countries Name Null? Type ----------------------------------------- -------- ------------- COUNTRY_ID COUNTRY_ISO_CODE NOT NULL CHAR(2) COUNTRY_NAME COUNTRY_SUBREGION NOT NULL VARCHAR2(30) COUNTRY_SUBREGION_ID COUNTRY_REGION NOT NULL VARCHAR2(20) COUNTRY_REGION_ID COUNTRY_TOTAL NOT NULL VARCHAR2(11) COUNTRY_TOTAL_ID COUNTRY_NAME_HIST VARCHAR2(40) SQL> desc sh.sales Name Null? Type ----------------------------------------- -------- ------------ PROD_ID CUST_ID TIME_ID NOT NULL DATE CHANNEL_ID PROMO_ID QUANTITY_SOLD (10,2) AMOUNT_SOLD (10,2) Stwórz we własnym schemacie perspektywę przedstawiającą wszystkie informacje o klientach. Perspektywa powinna zawierać wszystkie atrybuty opisujące klienta (wraz z atrybutami opisującymi miasto i kraj klienta). Dodatkowo, perspektywa powinna zawierać atrybut FLAG, którego wartością jest 1 (jeżeli dany klient dokonał więcej niż 200 zakupów)

lub 0 (jeżeli dany klient dokonał mniej niż 200 zakupów). Oczywiście liczbę zakupów można wyznaczyć na podstawie zawartości tabeli SALES. Zastanów się, które atrybuty, Twoim zdaniem, najlepiej nadają się do przewidywania czy dany klient będzie kupował dużo towarów, a które nie niosą takiej informacji wcale. Następnie wykorzystaj Oracle Data Mining PL/SQL API lub narzędzie Oracle Data Miner do określenia ważności wszystkich atrybutów względem atrybutu docelowego FLAG. Na ile Twoja intuicja się sprawdziła? Na potrzeby eksploracji dane wejściowe powinny znajdować się w schemacie: SQL> desc customers_v Name Null? Type ----------------------------------------- -------- ------------ COUNTRY_ID CUST_ID CUST_FIRST_NAME NOT NULL VARCHAR2(20) CUST_LAST_NAME CUST_GENDER NOT NULL CHAR(1) CUST_YEAR_OF_BIRTH (4) CUST_MARITAL_STATUS VARCHAR2(20) CUST_STREET_ADDRESS CUST_POSTAL_CODE NOT NULL VARCHAR2(10) CUST_CITY NOT NULL VARCHAR2(30) CUST_CITY_ID CUST_STATE_PROVINCE CUST_STATE_PROVINCE_ID CUST_MAIN_PHONE_ NOT NULL VARCHAR2(25) CUST_INCOME_LEVEL VARCHAR2(30) CUST_CREDIT_LIMIT CUST_EMAIL VARCHAR2(30) CUST_TOTAL NOT NULL VARCHAR2(14) CUST_TOTAL_ID CUST_SRC_ID CUST_VALID VARCHAR2(1) COUNTRY_ISO_CODE NOT NULL CHAR(2) COUNTRY_NAME COUNTRY_SUBREGION NOT NULL VARCHAR2(30) COUNTRY_SUBREGION_ID COUNTRY_REGION NOT NULL VARCHAR2(20) COUNTRY_REGION_ID COUNTRY_TOTAL NOT NULL VARCHAR2(11) COUNTRY_TOTAL_ID COUNTRY_NAME_HIST VARCHAR2(40) FLAG UWAGA: nie kopiuj danych do własnego schematu koniecznie pomiń w utworzonej przez siebie perspektywie atrybuty CUST_EFF_FROM i CUST_EFF_FROM, oba atrybuty są typu DATE, który nie jest obsługiwany przez ODM