Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Podobne dokumenty
Metody eksploracji danych Laboratorium 1. Weka + Python + regresja

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Ćwiczenie 12. Metody eksploracji danych

Jak korzystać z Excela?

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania KOMPUTEROWE SYSTEMY STEROWANIA (KSS)

Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Baltie 3. Podręcznik do nauki programowania dla klas I III gimnazjum. Tadeusz Sołtys, Bohumír Soukup

Pracownia internetowa w każdej szkole (edycja Jesień 2007)

Dodawanie i modyfikacja atrybutów zbioru

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

Wymagania edukacyjne z informatyki w klasie VIII

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Menu Plik w Edytorze symboli i Edytorze widoku aparatów

Instrukcja korzystania ze skryptu kroswalidacja.py

ALGORYTM RANDOM FOREST

Zaawansowane aplikacje WWW - laboratorium

Laboratorium 11. Regresja SVM.

Przewodnik użytkownika (instrukcja) AutoMagicTest

INSTRUKCJA PIERWSZEGO URUCHOMIENIA I KONFIGURACJI PROGRAMU StartStop w wersji SaaS. 1 S t r o n a

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Testowanie modeli predykcyjnych

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

1 Rejestrator czasu pracy

CZĘŚĆ A PIERWSZE KROKI Z KOMPUTEREM

Instrukcja wczytywania i przekazywania zbiorów centralnych w Centralnej Aplikacji Statystycznej (CAS) przez użytkowników podobszaru PS

RF-graph 1.2 POMOC PROGRAMU

EXCEL Prowadzący: dr hab. inż. Marek Jaszczur Poziom: początkujący

2. Wprowadzenie do oprogramowania gretl. Podstawowe operacje na danych.

KGGiBM GRAFIKA INŻYNIERSKA Rok III, sem. VI, sem IV SN WILiŚ Rok akademicki 2011/2012. Przygotowanie do druku

KASK by CTI. Instrukcja

Układ równań liniowych

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

UONET+ - moduł Sekretariat

Klasyfikacja i regresja Wstęp do środowiska Weka

Krótki kurs obsługi środowiska programistycznego Turbo Pascal z 12 Opracował Jan T. Biernat. Wstęp

1. Sporządzić tabele z wynikami pomiarów oraz wyznaczonymi błędami pomiarów dotyczących przetwornika napięcia zgodnie z poniższym przykładem

Zad. 5: Układ równań liniowych liczb zespolonych

Programowanie w języku Python. Grażyna Koba

Interpolacja i aproksymacja, pojęcie modelu regresji

Mini Produkcja by CTI. Instrukcja

D:\DYDAKTYKA\ZAI_BIS\_Ćwiczenia_wzorce\04\04_poprawiony.doc 2009-lis-23, 17:44

Przypomnienie: Ćwiczenie 1.

Instrukcja obsługi programu PLOMP PLUS FM

Dokumentacja Końcowa

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Wprowadzenie do klasyfikacji

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ćwiczenie 1. Wprowadzenie do programu Octave

2. Podstawy narzędzia Application Builder, budowa strony, kreatory aplikacji

Zad. 3: Układ równań liniowych

Lab 10. Funkcje w argumentach funkcji metoda Newtona. Synonimy nazw typów danych. Struktury. Tablice struktur.

Wiadomości i umiejętności

xchekplus Przewodnik Użytkownika

Instrukcja obsługi funkcji specjalnych szablonu C01 v.1.0

Elementy modelowania matematycznego

Materiały oryginalne: ZAWWW-2st1.2-l11.tresc-1.0kolor.pdf. Materiały poprawione


WOJEWÓDZTWO PODKARPACKIE

Budowa aplikacji z graficznym interfejsem użytkownika - GUI (Graphic User Interface)

KOŁO MATEMATYCZNE LUB INFORMATYCZNE - klasa III gimnazjum, I LO

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

2. Podstawy narzędzia Application Builder, budowa strony, kreatory aplikacji

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Dodawanie, edycja i usuwanie zbioru kolekcji

Symfonia Produkcja Instrukcja instalacji. Wersja 2013

Warsztaty dla nauczycieli

Laboratorium 9 (Więcej Aktywności, w Androidzie)

Zespół Szkół Technicznych w Suwałkach. Pracownia Systemów Komputerowych. Ćwiczenie Nr 15 PRACA W TRYBIE MS-DOS. Opracował Sławomir Zieliński

WYKŁAD 8 ANALIZA REGRESJI

Instrukcja obsługi serwera FTP v

Dokąd on zmierza? Przemieszczenie i prędkość jako wektory

Wyszukiwanie plików w systemie Windows

Optymalizacja systemów

A Zasady współpracy. Ocena rozwiązań punktów punktów punktów punktów punktów

Przykład rozwiązania tarczy w zakresie sprężysto-plastycznym

Rozdział ten zawiera informacje o sposobie konfiguracji i działania Modułu OPC.

Rys.2.1. Drzewo modelu DOM [1]

Metody systemowe i decyzyjne w informatyce

Visual Basic for Applications Wprowadzenie, makra

DBE DataBase Engineering

Ćwiczenie Konfiguracja statycznych oraz domyślnych tras routingu IPv4

WYKONANIE APLIKACJI OKIENKOWEJ OBLICZAJĄCEJ SUMĘ DWÓCH LICZB W ŚRODOWISKU PROGRAMISTYCZNYM. NetBeans. Wykonał: Jacek Ventzke informatyka sem.

Pracownia internetowa w każdej szkole (edycja jesień 2005)

Usługi Informatyczne "SZANSA" - Gabriela Ciszyńska-Matuszek ul. Świerkowa 25, Bielsko-Biała

Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski SYSTEMY SCADA

Scenariusz lekcji opartej na programie Program nauczania informatyki w gimnazjum DKW /99

Instrukcja korzystania z portalu. Diagnoza z Nową Erą

Rozpoznawanie obrazów

Sprawdzian wiedzy i umiejętności ucznia z informatyki po ukończeniu gimnazjum

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

Instrukcja wczytywania i przekazywania zbiorów centralnych w Centralnej Aplikacji Statystycznej przez użytkowników podobszaru SR

Robert Barański, AGH, KMIW MathScript and Formula Nodes v1.0

THP-100 su Obsługa oprogramowania oraz instrukcja wzorcowania

Obliczenie pola wieloboku na podstawie współrzędnych wierzchołków

Temat: Organizacja skoroszytów i arkuszy

Płace VULCAN. Jak na podstawie wbudowanego szablonu utworzyć własny szablon wydruku seryjnego?

Transkrypt:

Metody eksploracji danych Laboratorium 2 Weka + Python + regresja

KnowledgeFlow KnowledgeFlow pozwala na zdefiniowanie procesu przetwarzania danych Komponenty realizujące poszczególne czynności można konfigurować, np. podać nazwę pliku do odczytu, parametry operacji lub algorytmu Edytor zapewnia poprawność połączeń Uruchom Weka korzystając z Java 1.7 Oracle (patrz wiki) Uruchom z poziomu okna startowego

2.1 KnowledgeFlow prosty proces Spróbuj zdefiniować pokazany proces Skonfiguruj ArffLoader tak, aby czytał zbiór danych xy-009.arff Kliknij prawym klawiszem na źródłowym komponencie, aby utworzyć połączenia Po uruchomieniu procesu możesz kliknąć na komponent i wybrać prawym klawiszem dostępne polecenia

KnowledgeFlow - po co TrainTestSplitMaker? Dane train Algorytm parametry Model test Wykonanie modelu Ocena jakości modelu Wyznaczanie modelu nie powinno ograniczać się wyłącznie do uczenia. Cały proces obejmuje także jego ocenę przeprowadzaną z użyciem innych danych niż użyte do uczenia. Edytor KnowledgeFlow nie pozwala na dostarczenie całego zbioru na wejście algorytmu uczenia (musimy dostarczyć trainingset)

KnowledgeFlow poprawiony proces Po uruchomieniu pojawiają się błędy? Algorytm nie wie, który atrybut jest wyjściowy. Zmień workflow Oczekiwany wynik: Linear Regression Model Y = -1.6615 * X + 13.2711

2.2 KnowledgeFlow dodajemy ocenę Rozszerz workflow Nie zapomnij dołączyć przepływu testset

KnowledgeFlow wyniki Sprawdź, co oznaczają poszczególne wskaźniki: http://stats.stackexchange.com/questions/131267/how-to-interpreterror-measures-in-weka-output Dlaczego Total Number of Instances = 340?

2.3 KnowledgeFlow dodatkowa wizualizacja Dodaj kolejne elementy i uruchom. Wyświetl wynik Dlaczego prostokąty oznaczające błędy układają się w elipsę? Skąd biały pasek pośrodku?

2.4 KnowledgeFlow zmień sposób ewaluacji Użyj elementu CrossValidationFoldMaker CV (cross validation) polega na podziale zbioru na k (k=10) podzbiorów Uczenie i testowanie zachodzi w k iteracjach k-1 części (folds) użyte do uczenia 1 część użyta do testowania W sumie: do uczenia i walidacji użyte są wszystkie instancje Obliczane są średnie wyniki

2.5 Rozszerzanie zbioru cech Przetwarzany plik: xy-004.arff Uruchom zadanie regresji i odczytaj równanie krzywej Wyświetl dane + przebieg funkcji za pomocą odpowiednio zmodyfikowanego skryptu w języku Python Oczekiwany rezultat:

Rozszerzanie zbioru cech Zimplementuj poniższy proces konfigurując odpowiednio kolejne operacje: Skopiowanie atrybutu X Zmiana nazwy na X2 Zmiana porządku tak, aby Y był ostatni Podniesienie X2 do kwadartu Zapis do pliku (aby sprawdzić poprawność). Wybierz np. nazwę xy-004-01.arff

Zgrupuj fragment procesu

Dodaj komponenty odpowiedzialne za przeprowadzenie regresji Uruchom i sprawdź wynik. Jeśli ma on postać X2 = a*x Źle Jeśli ma postać Y = stała Źle, ale to kwestia konfiguracji algorytmu

Konfiguracja algorytmu regresji Zmień parametr na false Spójrz na wykres X/X2 W tym zakresie atrybuty są bliskie liniowym. Równanie regresji powinno mieć współczynniki bliskie rzeczywistej funkcji Sprawdź błędy walidacji. Błąd względny powinien być kilkuprocentowy Użyj kodu Pythona do narysowania danych oraz zależności x->y

2.6 Wprowadź cechy 3 stopnia Zbuduj KnowledgeFlow dla pliku XY-005.arff Wprowadź cechę 3 stopnia (x 3 ) Znajdź współczynniki regresji Wyświetl dane i wyznaczoną krzywą posługując się skryptem w języku Python

2.7 Rozwiązanie w języku Python Przetwarzamy xy-004.arff: zapisz w KnowledgeFlow plik z dodatkowym atrybutem X2, np. jako xy-004a.arff Skopiuj zawartość pliku do skryptu Pythona lub wczytaj z pliku x, x2, y = np.loadtxt(inp, delimiter=',', usecols=(0, 1, 2 ), unpack=true,skiprows=?) Utwórz dwuwymiarową macierz cech: features = np.stack((x,x2),axis=-1) Dopasuj krzywą regr = linear_model.linearregression() regr.fit(features, y) Wyświetl wynik i równanie regeresji

2.8 Przetwarzanie cech w języku Python 2.8.1 Przetwarzamy xy-004.arff: wczytaj dane z oryginalnego pliku x, y = np.loadtxt(inp, delimiter=',', usecols=(0, 1, 2 ), unpack=true,skiprows=?) Utwórz dwuwymiarową macierz cech: features = np.stack((x,x*x),axis=-1) Dopasuj krzywą regr = linear_model.linearregression() regr.fit(features, y) Wyświetl wynik i podaj równanie regresji 2.8.2 Analogicznie wyznacz model dla xy-005.arff features = np.stack((x,x**2,x**3),axis=-1) Parametry modelu są umieszczone w tablicy coef_ i zmiennej intercept_: fy= regr3.coef_[0]* fx + regr3.coef_[1]* fx*fx + + regr3.coef_[2]* fx*fx*fx + regr3.intercept_