Laboratorium 7. Support Vector Machines (klasyfikacja).



Podobne dokumenty
Laboratorium 11. Regresja SVM.

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 5. Adaptatywna sieć Bayesa.

2. Ocena dokładności modelu klasyfikacji:

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Laboratorium 12. Odkrywanie osobliwości.

Laboratorium 2. Określanie ważności atrybutów.

Laboratorium 13. Eksploracja danych tekstowych.

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Podręcznik użytkownika MetaTrader 4 dla TraderNovo:

Zdalne odnawianie certyfikatów do SWI

Pracownia internetowa w każdej szkole. Opiekun pracowni internetowej SBS 2003 PING

Instrukcja programu PControl Powiadowmienia.

Oracle OLAP. Przygotowanie danych

CELAB. System Informatyczny. Punkt przyjęć krok po kroku LTC 1

1. Grupowanie Algorytmy grupowania:

Zerowe składki na FP i FGŚP

Wtedy wystarczy wybrać właściwego Taga z listy.

Przeniesienie lekcji SITA z płyt CD na ipoda touch

Użytkowanie elektronicznego dziennika UONET PLUS.

Symfonia Produkcja Instrukcja instalacji. Wersja 2013

Instrukcja obsługi platformy zakupowej PHU VECTOR SP. Z O.O.

System zarządzania bazą danych (SZBD) Proces przechodzenia od świata rzeczywistego do jego informacyjnej reprezentacji w komputerze nazywać będziemy

1. Korzyści z zakupu nowej wersji Poprawiono Zmiany w słowniku Stawki VAT Zmiana stawki VAT w kartotece Towary...

Nowe funkcjonalności

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Metody opracowywania dokumentów wielostronicowych. Technologia Informacyjna Lekcja 28

System Zarządzania Relacyjną Bazą Danych (SZRBD) Microsoft Access 2010

KALENDARZE. Ćwiczenie 1 Tworzenie nowego, edycja kalendarza. 1. Uruchom nowy projekt. 2. W menu Narzędzia kliknij polecenie Zmień czas pracy

enova Workflow Obieg faktury kosztowej

Instrukcja. 1 Zamawiając kuriera. W Paczkomacie lub POK. 3 Nadając list polecony. nadawania przesyłek z Allegro: (Punkt Obsługi Klienta)

Instalacja Plugin. Rys. 1. Folder Plugin.

Sterownik AVerMedia i instalacja tunera TV w systemie Windows Media Center

ATEKO, s.r.o. E-learning. Instrukcje dla studentów

PERSON Kraków

1. Odkrywanie asocjacji

Tomasz Greszata - Koszalin

PAKIET MathCad - Część III

PILNE Informacje dotyczące bezpieczeństwa Aparat ultrasonograficzny AFFINITI 70 firmy Philips

Instrukcja procesu aktywacji oraz obsługi systemu Banku Internetowego dla BS Mikołajki

OGÓLNODOSTĘPNE IFORMACJE O WYNIKACH EGZAMINÓW I EFEKTYWNOŚCI NAUCZANIA W GIMNAZJACH przykłady ich wykorzystania i interpretowania

Pracownia internetowa w ka dej szkole (edycja 2004)

Ashampoo Rescue Disc

Procedura weryfikacji badania czasu przebiegu 1 paczek pocztowych

Organizator badania biegłości ma wdrożony system zarządzania wg normy PN-EN ISO/IEC 17025:2005.

SKRÓCONA INSTRUKCJA OBSŁUGI ELEKTRONICZNEGO BIURA OBSŁUGI UCZESTNIKA BADANIA BIEGŁOŚCI

INTERAKTYWNA APLIKACJA MAPOWA MIASTA RYBNIKA INSTRUKCJA OBSŁUGI

INSTRUKCJA KORZYSTANIA Z ELEKTRONICZNEJ ŚCIEŻKI WYKAZÓW

Uchwała Nr XXII / 242 / 04 Rady Miejskiej Turku z dnia 21 grudnia 2004 roku

Pracownia internetowa w ka dej szkole (edycja 2004/2005)

Pracownia internetowa w ka dej szkole (edycja 2004)

STRONA GŁÓWNA SPIS TREŚCI. Zarządzanie zawartością stron... 2 Tworzenie nowej strony... 4 Zakładka... 4 Prawa kolumna... 9

Podstawy pracy w arkuszu kalkulacyjnym MS Excel

Następnie kliknąć prawym klawiszem myszy na Połączenie sieci bezprzewodowej i wybrać Wyłącz.

Instrukcja instalacji oraz wykorzystania podpisu cyfrowego

Karta adaptacyjna GSM

Twierdzenie Bayesa. Indukowane Reguły Decyzyjne Jakub Kuliński Nr albumu: 53623

emszmal 3: Eksport wyciągów do Subiekt (Su\Re\Ra) nexo (plugin dostępny wraz z dodatkiem Biznes)

1. LOGOWANIE do portalu studenta/doktoranta

INFORMATOR TECHNICZNY WONDERWARE. Konfiguracja komputera klienckiego do łączenia się z serwerem IndustrialSQL

elektroniczna Platforma Usług Administracji Publicznej

Instalacja programu. Omówienie programu. Jesteś tu: Bossa.pl

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

Pierwsze kroki. Krok 1. Uzupełnienie danych własnej firmy

Konfiguracja historii plików

INFORMATOR TECHNICZNY WONDERWARE

Instrukcja dotycząca generowania klucza dostępowego do Sidoma v8

Kancelaris - Zmiany w wersji 2.50

Media Organizer v1.0b

Udoskonalona wentylacja komory suszenia

Opis Najważniejsze cechy modułu: Predefiniowane opcje wysyłki Rozszerzony podgląd zamówień... 2

Posiadane punkty lojalnościowe można również wykorzystać na opłacenie kosztów przesyłki.

Komunikacja sterownika z rodziny Micro800 z Falownikiem PowerFlex40 przy pomocy sieci DeviceNet.

RUCH KONTROLI WYBORÓW. Tabele pomocnicze w celu szybkiego i dokładnego ustalenia wyników głosowania w referendum w dniu 6 września 2015 r.

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

Pracownia internetowa w ka dej szkole (edycja 2004)

Konfiguracja programu Outlook 2007 do pracy z nowym serwerem poczty (Exchange)

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

Komunikacja w sieci Industrial Ethernet z wykorzystaniem Protokołu S7 oraz funkcji PUT/GET

Wydział Elektrotechniki, Elektroniki, Informatyki i Automatyki Katedra Przyrządów Półprzewodnikowych i Optoelektronicznych.

7. OPRACOWYWANIE DANYCH I PROWADZENIE OBLICZEŃ powtórka

Zintegrowane Systemy Zarządzania Biblioteką SOWA1 i SOWA2 SKONTRUM

Oprogramowanie klawiatury matrycowej i alfanumerycznego wyświetlacza LCD

Platforma zamówień personelu JOBMAN.pl

Przewodnik Google Cloud Print

Instrukcja instalacji programu Plantator oraz transferu pliku danych z/do PC kolektor danych PT-20

INFORMATOR TECHNICZNY. Pierwsze uruchomienie przemiennika częstotliwości Astraada Drive UWAGA!

System Informatyczny CELAB. Przygotowanie programu do pracy - Ewidencja Czasu Pracy

Centrum Informatyki "ZETO" S.A. w Białymstoku. Instrukcja użytkownika dla urzędników nadających uprawnienia i ograniczenia podmiotom w ST CEIDG

Temat: Co to jest optymalizacja? Maksymalizacja objętości naczynia prostopadłościennego za pomocą arkusza kalkulacyjngo.

Pracownia internetowa w szkole podstawowej (edycja 2004)

Konspekt lekcji otwartej

OptiMore Importer Rejestru VAT. Instrukcja obsługi programu

PRESTASHOP INTEGRATOR XL BY CTI INSTRUKCJA

Instrukcja do ćwiczeń laboratoryjnych Numeryczne metody analizy konstrukcji

db powernet Instalacja czytnika kart mikroprocesorowych (instrukcja)

Ćwiczenie 5. Eksploracja danych

Parowanie urządzeń Bluetooth. Instrukcja obsługi

Wstęp. Logowanie. Zalecane jest wykonanie wdrożenia dokładnie według punktów opisanych poniżej.

Transkrypt:

Laboratorium 7 Support Vector Machines (klasyfikacja). 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z listy Function Type wybierz Classification. Rozwiń listę Algorithm i wybierz z niej algorytm Support Vector Machines. Kliknij przycisk Dalej>. 4. Wskaż schemat STUDENT i tabelę MINING_DATA_BUILD_V jako źródło danych do eksploracji. Jako klucz podstawowy wskaż atrybut CUST_ID. Kliknij przycisk Dalej>.

5. Jako atrybut decyzyjny zaznacz atrybut AFFINITY_CARD (pole radiowe w kolumnie Target). Zwróć uwagę, aby wartość atrybutu decyzyjnego została wyłączona z budowy klasyfikatora (pole wyboru Input dla atrybutu AFFINITY_CARD musi być odznaczone). Upewnij się, że atrybuty CUST_ID i PRINTER_SUPPLIES są wyłączone z eksploracji (są bezwartościowe i nie niosą żadnej informacji). Kliknij przycisk Dalej>. 6. Z listy rozwijanej wybierz wartość 1 jako preferowaną wartość atrybutu decyzyjnego (jest to wartość, której poprawne przewidywanie jest najważniejsze, interesuje nas dokładna identyfikacja klientów którzy prawdopodobnie skorzystają z oferowanej im karty lojalnościowej). Kliknij przycisk Dalej>. Wprowadź nazwę i komentarz do procesu eksploracji. Kliknij przycisk Dalej>.

7. Kliknij przycisk Advanced Settings. Upewnij się, że na zakładce Sample opcja próbkowania jest wyłączona (pole wyboru Enable Step jest odznaczone). Przejdź na zakładkę Outlier Treatment. Algorytm SVM jest bardzo czuły na występowanie osobliwości. Oznacz jako osobliwości po 5% wartości z każdego końca przedziału wartości zastępując usuwane osobliwości wartościami brzegowymi. 8. Przejdź na zakładkę Missing Values. Upewnij się, że przetwarzanie brakujących wartości jest włączone (pole wyboru Enable Step musi być zaznaczone). Wartości puste występujące w atrybutach numerycznych zamień na wartość średnią (Mean), a wartości puste występujące w atrybutach kategorycznych zamień na wartość modalną (Mode).

9. Przejdź na zakładkę Normalize. Algorytm SVM wymaga, aby wszystkie atrybuty numeryczne były znormalizowane. Jako metodę normalizacji wybierz wyrażenie wartości w liczbie odchyleń standardowych od średniej (zaznacz pole radiowe Z- Score). 10. Przejdź na zakładkę Split. Dokonaj podziału zbioru wejściowego na zbiór uczący i testujący w proporcjach 60%-40%, podział powinien wykorzystywać tabelę.

11. Przejdź na zakładkę Build. Upewnij się, że algorytm będzie się starał osiągnąć maksymalną średnią dokładność (w polu Accuracy Goal wybierz opcję Maximum Average Accuracy). Kliknij na zakładkę Algorithm Settings. Jako rodzaj funkcji jądrowej wskaż funkcję liniową. Koniecznie wyłącz opcję aktywnego uczenia (pole radiowe Do you want Active Learning?, opcja No). 12. Przejdź na zakładkę Test Metrics i upewnij się, że generowanie miar oceny jest włączone (pole Enable Step jest włączone). Pozostaw domyślną liczbę kwantyli dla wykresu krzywej lift. Upewnij się, że włączona jest opcja generowania danych do wykresu Receiver-Operator Characteristic (pole ROC result jest włączone). Jako wartość badaną wskaż wartość 1 (lista rozwijana Target Value). Kliknij przycisk Edit aby zdefiniować macierz kosztów.

13. Wskaż, że ważniejsze do uniknięcia są błędy klasyfikacji polegające na tym, że osoba potencjalnie zainteresowana kartą lojalnościową (AFFINITY_CARD=1) zostanie niepoprawnie sklasyfikowana jako osoba niezainteresowana ofertą (taki błąd wiąże się z utratą potencjalnego zysku). Zaznacz pole radiowe False Negative: Incorrectly identifying a case as a non-target. W pole Weight wpisz wartość 5 i kliknij przycisk Apply. Kliknij przycisk OK. 14. Kliknij przycisk OK. Upewnij się, że opcja Run upon finish jest włączona. Kliknij przycisk Zakończ.

15. Kliknij na odnośnik Result w bloku Build. Współczynniki przy każdej wartości predyktorów definiują hiperpłaszczyznę najlepiej separującą instancje należące do klas decyzyjnych. Zauważ, że uzyskany wynik w praktyce nie poddaje się naturalnej interpretacji i stanowi rodzaj czarnej skrzynki. 16. Zamknij okno z wynikami budowy klasyfikatora i powróć do głównego okna. Kliknij odnośnik Result w bloku Test Metrics. Na zakładce Predictive Confidence przedstawiona jest dokładność klasyfikatora liczona względem naiwnego klasyfikatora 0-R, który zawsze przewiduje najczęstszą wartość atrybutu decyzyjnego.

17. Przejdź na zakładkę Accuracy. Zaznacz pole wyboru Show Cost. Kliknij przycisk More Detail. Przeanalizuj uzyskaną macierz pomyłek. Zauważ, że instancje należące do klasy 1 są praktycznie wszystkie przewidywane prawidłowo (98,68%), natomiast instancje należące do klasy 0 są przewidywane prawidłowo w połowie przypadków (50,8%). 18. Przejdź na zakładkę ROC. Obejrzyj uzyskaną krzywą Receiver-Operator-Characteristic przedstawiającą stosunek liczby poprawnie sklasyfikowanych instancji (przykładów z wartością atrybutu decyzyjnego 1) do liczby pomyłek (instancji sklasyfikowanych jako należące do klasy 1 podczas gdy w rzeczywistości należą do klasy 0). Zauważ, że klasyfikator SVM bardzo szybko i z dużym prawdopodobieństwem oznacza instancje należące do klasy 1. Z wykresu wynika, że wybranie ok. 80% instancji należących do klasy 1 pociągnie za sobą popełnienie jedynie 20% pomyłek.

19. Powróć do głównego okna programu. Zaobserwuj zmianę jakości wygenerowanego klasyfikatora po korekcie parametrów algorytmu. Kliknij przycisk Reset w bloku Build (spowoduje to zresetowanie tego i wszystkich kolejnych kroków procesu odkrywania wiedzy). 20. Kliknij przycisk Options w bloku Build. Przejdź na zakładkę Algorithm Settings. Zmień rodzaj funkcji jądrowej na Gaussowską. Upewnij się, że opcja aktywnego uczenia się jest wyłączona.

21. Powróć do głównego okna programu. Kliknij przycisk Run Activity (prawy górny okna). Po zakończeniu się procesu odkrywania wiedzy kliknij odnośnik Result w bloku Test Metrics. Czy nowy klasyfikator jest lepszy czy gorszy od poprzedniego? 22. Przejdź do okna nawigatora z lewej strony. Rozwiń gałęzie Miting Activities Classification. Kliknij prawym klawiszem myszy w nazwę SVM_MINING_DATA_BUILD i z menu kontekstowego wybierz opcję Apply Activity 23. Kliknij przycisk Dalej> na ekranie powitalnym. W drugim kroku wybierz tabelę MINING_DATA_APPLY_V. Kliknij przycisk Dalej>. Jako atrybuty które powinny zostać przekopiowane do tabeli wynikowej wybierz CUST_ID oraz AGE.

24. Zaznacz pole radiowe Number of Best Target Values z wartością 2. Kliknij przycisk Dalej>. 25. Podaj nazwę i opis czynności. Kliknij przycisk Dalej>. Upewnij się, że zaznaczona jest opcja Run upon finish. Kliknij przycisk Zakończ. Kliknij odnośnik Result. Obejrzyj wynik zastosowania klasyfikatora do danych wejściowych.

Ćwiczenie samodzielne Korzystając z programu isqlplus połącz się z bazą danych i wykonaj skrypt svm.clas.sql. Przeanalizuj uzyskane współczynniki hiperpłaszczyzny i na ich podstawie, korzystając z poniższej wizualizacji danych, narysuj uzyskaną hiperpłaszczyznę. Dodaj dane testowe i przetestuj jakość klasyfikatora. Zwróć uwagę na wykorzystanie funkcji PREDICTION do zastosowania modelu do danych.