WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Podobne dokumenty
WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

1 Wstęp. 2 Uruchomienie programu

Klasyfikacja i regresja Wstęp do środowiska Weka

Ćwiczenie 12. Metody eksploracji danych

Metody eksploracji danych Laboratorium 1. Weka + Python + regresja

Instalacja i obsługa aplikacji MAC Diagnoza EW

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

etrader Pekao Podręcznik użytkownika Strumieniowanie Excel

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

INSTRUKCJA OTWIERANIA PLIKU DPT (data point table)

Instrukcja wczytywania i przekazywania zbiorów centralnych w Centralnej Aplikacji Statystycznej (CAS) przez użytkowników podobszaru PS

Analiza Statystyczna

PRZYGOTOWANIE HARMONOGRAMU WEWNĘTRZNEGO EGZAMINÓW PISEMNYCH W OŚRODKU.

Kadry Optivum, Płace Optivum

Instrukcja użytkownika ARSoft-WZ3

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji

Systemy uczące się wykład 2

Zastosowania sieci neuronowych

Instrukcja realizacji ćwiczenia

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Instalacja i obsługa generatora świadectw i arkuszy ocen

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows XP

Dokumentacja Końcowa

OPROGRAMOWANIE DEFSIM2

Projekt ZSWS. Instrukcja uŝytkowania narzędzia SAP Business Explorer Analyzer. 1 Uruchamianie programu i raportu. Tytuł: Strona: 1 z 31

Program dla praktyki lekarskiej

Sieci neuronowe w Statistica

1. Opis. 2. Wymagania sprzętowe:

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Edytor tekstu OpenOffice Writer Podstawy

System Obsługi Zleceń

WYKONANIE APLIKACJI OKIENKOWEJ OBLICZAJĄCEJ SUMĘ DWÓCH LICZB W ŚRODOWISKU PROGRAMISTYCZNYM. NetBeans. Wykonał: Jacek Ventzke informatyka sem.

Instrukcja obsługi. Generatora CSV

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

Płace Optivum. Jak wykonać eksport danych do SIO z programu Płace Optivum? Przygotowanie pliku dla SIO w programie Płace Optivum

Usługi Informatyczne "SZANSA" - Gabriela Ciszyńska-Matuszek ul. Świerkowa 25, Bielsko-Biała

Instalacja i obsługa aplikacji MAC Diagnoza EP w celu wykonania Diagnozy rozszerzonej

Finanse VULCAN. Jak wprowadzić fakturę sprzedaży?

Laboratorium 11. Regresja SVM.

Instrukcja wczytywania i przekazywania zbiorów centralnych w Centralnej Aplikacji Statystycznej przez użytkowników podobszaru FA

Rys.1. Technika zestawiania części za pomocą polecenia WSTAWIAJĄCE (insert)

Instrukcja wczytywania i przekazywania zbiorów centralnych w Centralnej Aplikacji Statystycznej przez użytkowników podobszaru SR

Instrukcja wczytywania i przekazywania sprawozdań resortowych w Centralnej Aplikacji Statystycznej (CAS) przez użytkowników podobszaru PS

Kadry Optivum. Jak wykonać eksport danych do SIO z programu Kadry Optivum?

Instalacja i obsługa aplikacji MAC Diagnoza EP w celu wykonania Arkusza obserwacji

3S TeleCloud - Aplikacje Instrukcja użytkowania usługi 3S SMS SYSTEM

System imed24 Instrukcja Moduł Analizy i raporty

Tabele przestawne tabelą przestawną. Sprzedawcy, Kwartały, Wartości. Dane/Raport tabeli przestawnej i wykresu przestawnego.

Włączanie/wyłączanie paska menu

Szybka instrukcja tworzenia testów dla E-SPRAWDZIAN-2 programem e_kreator_2

INSTRUKCJA OBSŁUGI DLA FUNKCJONALNOŚCI PIELĘGNIARKI AMBULATORYJNEJ PIELĘGNIARKI ŚRODOWISKOWEJ. Wersja 1.0

Uruchomienie aplikacji elektronicznych na platformie epuap

Program dla praktyki lekarskiej

Program dla praktyki lekarskiej. Instrukcja korzystania z panelu pielęgniarki szkolnej

Tworzenie pliku źródłowego w aplikacji POLTAX2B.

5.2. Pierwsze kroki z bazami danych

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Wprowadzenie do analizy dyskryminacyjnej

ADVANCE ELECTRONIC. Instrukcja obsługi aplikacji. Modbus konfigurator. Modbus konfigurator. wersja 1.1

INSTRUKCJA UŻYTKOWNIKA PORTALU SIDGG

Wykład 4: Statystyki opisowe (część 1)

Nowa płatność Dodaj nową płatność. Wybierz: Płatności > Transakcje > Nowa płatność

Stawiamy pierwsze kroki

TIME MARKER. Podręcznik Użytkownika

Cash Flow System Instrukcja

Tworzenie szablonów użytkownika

Przy wykonywaniu rozliczeń obowiązują pewne zasady, do których nie zastosowanie się będzie skutkowało odrzuceniem raportów ze strony NFZ:

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA

Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych

Data Mining Wykład 4. Plan wykładu

PODRĘCZNIK UŻYTKOWNIKA PEŁNA KSIĘGOWOŚĆ. Płatności

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Lokalizacja jest to położenie geograficzne zajmowane przez aparat. Miejsce, w którym zainstalowane jest to urządzenie.

Instrukcja obsługi Konfigurator MLAN-1000

Stosowanie, tworzenie i modyfikowanie stylów.

Instrukcja obsługi dla Wnioskodawcy

Przed przystąpieniem do czytania dokumentu, proszę o zapoznanie się z podstawowym dokumentem Instrukcja obsługi AZU dla użytkownika zewnętrznego.

KOMPUTEROWY SYSTEM WSPOMAGANIA OBSŁUGI JEDNOSTEK SŁUŻBY ZDROWIA KS-SOMED

Rozwiązanie ćwiczenia 8a

Instrukcja użytkownika. Aplikacja dla WF-Mag

1. Umieść kursor w miejscu, w którym ma być wprowadzony ozdobny napis. 2. Na karcie Wstawianie w grupie Tekst kliknij przycisk WordArt.

Edytor materiału nauczania

Instrukcja obsługi aplikacji MobileRaks 1.0

11. Rozwiązywanie problemów

Pakiet Świadczeniodawcy

Instrukcja importu przesyłek. z Menedżera Sprzedaży do aplikacji Webklient

Program. Pielęgniarki ambulatoryjnej. Pielęgniarki rodzinnej. Położnej. Copyright Ericpol Telecom sp. z o.o.

Import danych z plików CSV

OBSŁUGA PRACY DYPLOMOWEJ W APD PRZEZ RECENZENTA

Program dla praktyki lekarskiej. Instrukcja korzystania z panelu pielęgniarki szkolnej

Kleos Mobile Android

SUBIEKT GT IMPORT XLS Towarów

Dokumentacja programu. Zoz. Uzupełnianie kodów terytorialnych w danych osobowych związanych z deklaracjami POZ. Wersja

Transkrypt:

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych 1 WEKA elementy potrzebne do zadania WEKA (Data mining software in Java http://www.cs.waikato.ac.nz/ml/weka/) jest narzędziem zawierającym zbiór narzędzi do wykonywania zadań drążenia danych (data mining). Program należy pobrać i zainstalować na swoim dysku. Uruchomić WEKA Explorer. W niniejszym rozdziale omówione zostaną pokrótce elementy systemu WEKA Explorer, które wykorzystane zostaną do badań. 1.1 Przygotowanie danych Zakładka [Preprocess] pozwala na załadowanie danych z pliku, strony, bazy danych, wygenerowanie danych. Grupa [Current relation] podaje nazwę wczytanego zbioru, liczbę atrybutów i liczbę rekordów. Grupa [Attributes] pozwala na zarządzanie atrybutami, które są podane w liście. Można je dowolnie wybierać i usuwać. Grupa [Selected attribute] podaje szczegółowe informacje dla wybranego atrybutu z listy w tym: nazwę typ liczba i procent brakujących danych (oznaczonych w pliku znakiem? ) liczbę różnych wartości dla atrybutu liczba i procent rekordów niepowtarzalnych, czyli takich, które posiadają taką wartość atrybutu, że inne rekordy takiej nie mają) inne dane: statystyczne (minimum, maksimum, średnia odchylenie standardowe) dla danych numerycznych i wartości i liczność rekordów z daną wartością dla danych nominalnych. 1

[Histogram] wyświetlany jest w dole okna w prawej jego części. Przycisk [Visualize all] otwiera okno z histogramami dla wszystkich atrybutów. Lista z wyborem atrybutu decyzyjnego (klasy) dla metod nadzorowanych znajduje się nad histogramem. Zastosowanie filtrów [Apply] w sekcji [Filter] wpływa na zbiór danych w zależności od tego jaką metodę się zastosuję. Jest to między innymi zależne, czy wybrany jest atrybut klasy (decyzyjny). 1.2 Klasyfikator Zakładka [Classify] pozwala na zastosowanie dla danych jednego z klasyfikatorów (wbudowanych i własnych). Przycisk [Choose] służy do wyboru z drzewa jednej z metod. Jeżeli klasyfikator jest sparametryzowany, to w polu edycji pojawi się polecenie wywołania klasyfikatora z domyślną listą parametrów. Kliknięcie w owo pole otwiera dialog, gdzie można owe parametry zmieniać. W grupie [Test] można dokonać testowania modelu na jeden z wybranych sposobów: testować na danych, na których odbyło się uczenie klasyfikatora podać niezależny plik z danymi do testowania użyć walidacji krzyżowej (http://pl.wikipedia.org/wiki/sprawdzian_krzyåijowy) dzieląc zbiór danych na grupę uczącą i testową określając ile procent przypada na dane uczące. W liście należy wybrać zmienną atrybut wyjściowy (może być tylko jeden). Metody, które są zaimplementowane w WEKA mogą działać tylko dla zmiennych nominalnych i numerycznych lub dla obu. Uczenie klasyfikatora rozpocznie się, gdy naciśnie się przycisk [Start]. Wyniki z uczenia i testowania modeli podawane są w oknie [The Classifier Output Text] i mogą zawierać: Run information: lista informacji o opcjach schematu uczenia modeli w tym: nazwa relacji, rekordów i trybu testowania. Classifier model (full training set): tekstowa reprezentacja modelu utworzonego wskutek uczenia. Summary: statystyki podsumowujące jak dobrze model działa na danych testowych. Detailed Accuracy By Class: dokładne statystyki rozdzielone na klasy. Confusion Matrix: pokazuje ile rekordów przypisano do każdej klasy. Właściwa klasa jest w wierszu, a wybrana przez model w kolumnie. W [The Result List] widoczne są tworzone w trakcie pracy systemu modele. Kliknięcie prawym klawiszem myszki w tym obszarze powoduje dostęp do takich opcji jak: podgląd w głównym oknie, podgląd w oddzielnym oknie, zapisanie wyników, załadowanie nauczonego modelu, wykresy z błędem klasyfikacji (poprawna klasyfikacja - krzyżyk, niepoprawna kwadrat) i inne. 2

2 Dane uczące i testujące W zadaniu wykorzystane zostaną dane medyczne, które zawierają dane o pacjencie (dane ogólne) i zarejestrowane podczas wizyty u lekarza symptomy oraz wyniki testów np. pomiar ciśnienia, czy wyniki diagnostyczne. Wszystkie dane z baz medycznych muszą być przekonwertowane na dane numeryczne. Bardzo często wartości atrybutów opisujących symptomy są binarne (1 symptom wystąpił, 0 - nie wystąpił). Do badań wykorzystane zostaną dwa zbiory: 1. Korzystając z http://archive.ics.uci.edu/ml/ UCI Repository of Machine Learning Databases pobrać zbiór danych: Wisconsin Diagnostic Breast Cancer (WDBC) (Original) z dziesięcioma atrybutami. 2. W pobranym pakiecie WEKA w folderze data znajduje się plik diabetes.arff. Dane stanowią zbiór uczący/testujący dla sztucznej sieci neuronowej. Należy odpowiednio go przygotować przystosowując do formatu akceptowanego przez WEKA. Należy przygotować oba formaty: 1. Plik WDBC otworzyć plik w dowolnym arkuszu kalkulacyjnym i zapisać do formatu csv dodając uprzednio wiersz z opisem atrybutów (opis atrybutu na stronie www). 2. Plik DAIBETES jest zapisany w formacie arff. Otworzyć w dowolnym edytorze i zobaczyć jego konstrukcję. Opis formatu arff na stronie http://weka.wikispaces.com/ ARFF. W sprawozdaniu należy opisać zbiory danych w następujący sposób: 1. Jakiego problemu klasyfikacji dotyczą dane (jakie są atrybuty i jakie są klasy)? 2. Jakiego typu są atrybuty? 3. Czy w pliku są brakujące wartości? Ile procent? 4. Jaka jest liczność zbioru próbek? 5. Ile jest próbek w poszczególnych klasach? 6. Czy można z góry określić, że w zbiorze są atrybuty nie wpływające na klasyfikację? 3 Zadania do wykonania Głównym celem badań jest zastosowanie wielowarstwowego perceptronu do zadania klasyfikacji raka piersi i chorych na cukrzycę. Pośrednim celem jest zbadanie wrażliwości modelu na różne parametry: architektura sieci, współczynnik uczenia, współczynnik momentum. Należy pamiętać, by uczciwie ocenić wyniki powinno się uruchomić każdy z wariantów chociaż kilkukrotnie z różną wartością [seed] (parametr klasyfikatora). Takie zmiany spowodują zróżnicowanie w kolejności danych uczących i testowych oraz w wartościach początkowych 3

wag, co spowoduje różne poziomy dopasowania modelu. Do wielokrotnych testów wygodniej wykorzystać moduł [Experimenter], który pozwala na wielokrotne przeprowadzanie badań i testowanie kilku modeli oraz zapisuje wyniki wraz ze statystyki i średnim dopasowaniem każdego modelu (można też uzyskać informacje, czy różnice pomiędzy modelami są istotne statystycznie. 3.1 Szczegółowy opis zadania 1. Wykonać klasyfikację (5-krotną kroswalidację) dla każdego zbioru bez jego wstępnego przygotowania. Pozwolić zbudować automatyczny (autobuild=true) model wyświetlając jego graficzną postać (GUI true). Wizualizacja ułatwia zrozumienie działania modelu i pozwala na ręczną jego modyfikację. W ramach tego zadania wykonać wybór najlepszych parametrów uczenia i architekturę SSN: (a) Zamienić architekturę sieci: ustalanie różnej liczby neuronów w warstwach ukrytych (w sprawozdaniu zawrzeć wyjaśnienie dla opcji): a, i, o, t, oraz wartości 0 i 2,2. W sprawozdaniu zawrzeć wyniki z badań nad tymi parametrami. (b) Wpływ współczynnika uczenia na model. Zmiana parametru z wybranym zakresie (0-1). Ustawić współczynnik uczenia na 1 i pozwolić mu się automatycznie zmniejszać [decay - True]. (c) Wpływ współczynnika momentum na model. Zmiana parametru z zakresie (0-1). 2. Wybierając najlepsze parametry z poprzedniego zadania wykonać dla danych następujące filtry (przed wykonaniem filtru przywrócić zbiór danych do postaci pierwotnej) i opisać jaki przyniosły wpływ na klasyfikator. (a) NumericToNominal Zamiana wartości numerycznych na nominalne, wykonać na zbiorze WDBC. (b) Normalize normalizacja zemiennych. (c) NominalToBinary w każdym ze zbiorów zbinaryzować pewien atrybut wyliczeniowy o najliczniejszej dziedzinie. (d) Center wyśrodkować zbiór. (e) Discretize (supervised) podział zmiennej rzeczywistoliczbowej na dyskretne przedziały. (f) Attribute Selection selekcja atrybutów silnie skorelowanych ze zmienną wyjściową. 3.2 Sprawozdanie Sprawozdanie w formacie i o nazwie imie_nazwisko.pdf należy przesłać na adres jkolodziejczyk[at]wi.zut.edu.pl. Opóźnienia będą wpływały na obniżenie punktacji za sprawozdanie. Każde badanie powinno być krótko opisane (wartości parametrów, liczba prób, itd.) i prezentować przebieg prób modelowania w postaci czytelnej tabeli i/lub wykresu oraz zawierać interpretację wyników (wnioski). Postarać się zauważyć jakieś tendencje. Wszelkie plagiaty oceniane będą na 0 punktów (niezależnie od autora). 4

4 Pytania na wejściówkę 1. Na czym polega walidacja krzyżowa? 2. Jakie stosuje się sposoby testowania klasyfikatora (w tym walidacja krzyżowa)? 3. Z jakiego powodu i jak przeprowadza się normalizację danych przed ich modelowaniem? 4. Co to jest i na czym polega wybór atrybutów? 5. Jaka jest różnica pomiędzy formatem arff i sparse arff? 6. Jakie znaczenie ma współczynnik uczenia, jakie wartości tego współczynnika stosuje się najczęściej i dlaczego? 7. Jak momentum wpływa na uczenie modelu i jakie wartości tego współczynnika stosuje się najczęściej i dlaczego? 8. Co to jest architektura sieci neuronowej? 9. Co opisuje Confusion matrix? 10. Co to jest histogram dla zmiennej? 11. Co to jest dyskretyzacja? 12. Jak jest obliczane True Positive Rate i jaka jest jego interpretacja? 13. Jak jest obliczane False Positive Rate i jaka jest jego interpretacja? 14. Jak jest obliczane Precision i jaka jest jego interpretacja? 15. Jak jest obliczane Recall i jaka jest jego interpretacja? 16. Jakie miary wykorzystuje się przy ocenie klasyfikatora? 5