Metody eksploracji danych Laboratorium 1. Weka + Python + regresja

Podobne dokumenty
Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Jak korzystać z Excela?

Instrukcja obsługi programu Do-Exp

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

author: Andrzej Dudek

Baltie 3. Podręcznik do nauki programowania dla klas I III gimnazjum. Tadeusz Sołtys, Bohumír Soukup

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

1 Wstęp. 2 Uruchomienie programu

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Utworzenie pliku. Dowiesz się:

EXCEL Prowadzący: dr hab. inż. Marek Jaszczur Poziom: początkujący

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do Python

SYSTEMY OPERACYJNE ĆWICZENIE POLECENIA SYSTEMU MSDOS

Odczytywanie i zapisywanie obrazów rastrowych do plików, operacje punktowe na tablicach obrazów

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania KOMPUTEROWE SYSTEMY STEROWANIA (KSS)

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Rozpoznawanie obrazów

Memeo Instant Backup Podręcznik Szybkiego Startu

Laboratorium - Planowanie zadania przy użyciu GUI i polecenia AT w systemie Windows XP

Instrukcja generowania certyfikatu PFRON i podpisywania dokumentów aplikacji SODiR w technologii JS/PKCS 12

Nawigacja po trasie wycieczki

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

Wypełnianie protokołów w USOSweb. Instrukcja dla osób prowadzących zajęcia dydaktyczne.

INSTRUKCJA OBSŁUGI PROGRAMU LOGGER PRO

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

WYKŁAD 8 ANALIZA REGRESJI

Rozdział 8. Regresja. Definiowanie modelu

Wyświetlanie publikacji w formacie DjVu. Wyświetlanie publikacji w Bałtyckiej Bibliotece Cyfrowej można realizować na 3 sposoby:

Temat: Organizacja skoroszytów i arkuszy

Instalowanie VHOPE i plików biblioteki VHOPE

Uruchomienie aplikacji elektronicznych na platformie epuap

Podstawy Automatyki ćwiczenia Cz.1. Środowisko Matlab

e-podręcznik dla seniora... i nie tylko.

POMIARY WIDEO W PROGRAMIE COACH 5

RF-graph 1.2 POMOC PROGRAMU

Instrukcja podstawowego uruchomienia sterownika PLC LSIS serii XGB XBC-DR20SU

Instalacja i obsługa aplikacji MAC Diagnoza EP w celu wykonania Diagnozy rozszerzonej

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Interpolacja i aproksymacja, pojęcie modelu regresji

Problemy techniczne. Jak umieszczać pliki na serwerze FTP?

Spis treści. I. Skuteczne. Od autora... Obliczenia inżynierskie i naukowe... Ostrzeżenia...XVII

Instrukcja obsługi serwera FTP v

Aplikacja Dodatkowe zakładki Shoper Appstore REALIZACJA

KATEGORIA OBSZAR WIEDZY

Aplikacje WWW - laboratorium

Tworzenie pliku źródłowego w aplikacji POLTAX2B.

BAZY DANYCH MAKRA I PRZYCISKI. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

Wspólne Zaawansowana tabela

Podstawy technologii WWW

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji

Przedmiot: Informatyka w inżynierii produkcji Forma: Laboratorium Temat: Zadanie 5. MessageBox, InputBox, instrukcja Select Case i instrukcje pętli.

Laboratorium - Zarządzanie systemem plików poprzez wbudowane oprogramowanie w systemie Windows Vista

Wprowadzenie do programowania w języku Visual Basic. Podstawowe instrukcje języka

PekaoBIZNES 24 Szybki START. Przewodnik dla Użytkowników z dostępem podstawowym

INSTRUKCJA obsługi certyfikatów

Aproksymacja linią prostą. dane. X dane 0. Y dane 1. p q. line X, Y. Tablica z danymi do aproksymacji

I. Program II. Opis głównych funkcji programu... 19

PORADNIK KORZYSTANIA Z SERWERA FTP ftp.architekturaibiznes.com.pl

System operacyjny UNIX Ćwiczenie 1. Podstawowe polecenia systemu Unix

Easy CD/DVD Recorder Instrukcja

1. INSTALACJA I URUCHOMIENIE KOMUNIKATORA

Laboratorium : Tworzenie partycji w Windows XP Pro

Projekt ZSWS. Instrukcja uŝytkowania narzędzia SAP Business Explorer Analyzer. 1 Uruchamianie programu i raportu. Tytuł: Strona: 1 z 31

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Rys.1. Technika zestawiania części za pomocą polecenia WSTAWIAJĄCE (insert)

Utworzenie aplikacji mobilnej Po uruchomieniu Visual Studio pokazuje się ekran powitalny. Po lewej stronie odnośniki do otworzenia lub stworzenia

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Mobilna Aplikacja Handlowa

wersja 1.0 ośrodek komputerowy uj cm ul. mikołaja kopernika 7e, Kraków tel


AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE. QuIDE Quantum IDE PODRĘCZNIK UŻYTKOWNIKA

Sieci i systemy operacyjne I Ćwiczenie 1. Podstawowe polecenia systemu Unix

Usługi Informatyczne "SZANSA" - Gabriela Ciszyńska-Matuszek ul. Świerkowa 25, Bielsko-Biała

Zdalny podgląd wizualizacji z panelu XV100 przez przeglądarkę internetową (WebServer)

INSTRUKCJA DO OPROGRAMOWANIA KOMPUTEROWEGO

PROGRAM GEO Folder ten naleŝy wkleić do folderu osobistego: D:\inf1\nazwisko\GEO89

Sylabus Moduł 2: Przetwarzanie tekstów

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Zadania rachunkowe z termokinetyki w programie Maxima

Wstęp 5 Rozdział 1. Instalacja systemu 13. Rozdział 2. Logowanie i wylogowywanie 21 Rozdział 3. Pulpit i foldery 25. Rozdział 4.

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla Windows

Obszar Logistyka/Zamówienia Publiczne

Excel w obliczeniach naukowych i inżynierskich. Wydanie II.

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Elementy metod numerycznych - zajęcia 9

Szkolenie dla nauczycieli SP10 w DG Operacje na plikach i folderach, obsługa edytora tekstu ABC. komputera dla nauczyciela. Materiały pomocnicze

PODRĘCZNIK UŻYTKOWNIKA PRACOWNIK SPZOZ

UONET+ - moduł Sekretariat

Wymagania edukacyjne z informatyki w klasie VIII

Finanse VULCAN. Jak wprowadzić fakturę sprzedaży?

Instalacja i obsługa aplikacji MAC Diagnoza EW

WTYCZKA FARA-TCM Dane techniczne dla twórców zewnętrznych aplikacji do obsługi map cmentarza

Transkrypt:

Metody eksploracji danych Laboratorium 1 Weka + Python + regresja

Zasoby Cel Metody eksploracji danych Weka (gdzieś na dysku) Środowisko dla języka Python (Spyder, Jupyter, gdzieś na dysku) Zbiory danych (dostępne na stronie http://home.agh.edu.pl/~pszwed/wiki/doku.php?id=metody_eksplora cji_danych ) Poznanie możliwości Weki Wykonanie klika przykładów regresji Alternatywne środowisko i biblioteki języka Python Typowy workflow podczas analizy danych

Część 1 Nawigacja po GUI Weka + nieco bibliotek Pythona 1.1 W oknie startowym Weka uruchom opcję Explorer Załaduj plik xy-001.arff w zakładce Preprocess Możesz wyświetlić dane w tabeli Edit Wyświetl zawartość danych w zakładce Visualize W zakładce Classify wybierz Choose: functions -> LinearRegression Naciśnij Start. Powinno się pojawić równanie prostej Niestety za pomocą Weka nie można wyświetlić prostej, co najwyżej zakres błędów klasyfikacji. Kliknij prawym klawiszem na result list i wybierz jedną z opcji wizualizacji.

1.2. Wyświetlamy dane i krzywą Korzystamy z bibliotek w języku Python 1. Używamy IDE Spyder lub Jupyter. Można też przygotować plik tekstowy i uruchomić z poziomu konsoli (mając nadzieję, że biblioteki są zainstalowane). Czasem też działa https://try.jupyter.org/ 2. Kopiujemy fragment kodu ze strony: http://home.agh.edu.pl/~pszwed/wiki/doku.php?id=metody_eksploracji_danych 3. Wpisujemy dane w osobnych liniach. """ to specjalny zapis dla tekstu wprowadzanego w wielu wierszach. 4. x, y = np.loadtxt(inp, delimiter=',', usecols=(0, 1), unpack=true,skiprows=6) ładuje tekst z kolumn 0 i 1 do tablic x,y 5. plt.scatter(x,y,s=80, marker='+') rysuje punkty 6. fx=np.linspace(-10,60,100) 100 równomiernie rozłożonych punktów w zakresie [-10,60] 7. fy=2.3702*fx+6.1973 - wartości funkcji regresji (to są operacje na wektorach) 8. ftrue=2.37*fx+7 prawdziwa funkcja użyta do generacji danych 9. plt.plot(fx,fy,linewidth=2,color='r') wykres liniowy 10. plt.xlim(-10,60) zakres wyświetlanych zmiennych

Oczekiwany wynik Wykres może być osadzony na stronie HTML w Jupyter: usuń komentarze z pierwszej linii: %matplotlib notebook Wykres można zapisać w jednym z formatów (bitmapowych/wektorowych) Wartość r która jest wyświetlana dodatkowo? Jest to współczynnik korelacji. Przeczytaj tekst i obejrzyj przykłady: https://en.wikipedia.org/wiki/corr elation_and_dependence Jeśli r 0, zazwyczaj równanie regresji będzie miało postać: y = 0x + c

Inne pliki Analogicznie załaduj pliki,wyznacz równanie regresji, oceń błędy i wyświetl przebieg krzywej regresji dla: 1.3 Pliku xy-002.arff 1.4 Pliku xy-003.arff 1.5 Pliku xy-005.arff 1.6 Pliku xy-006.arff 1.7 Pliku xy-007.arff 1.8 Pliku xy-008.arff [Skomentuj przebieg krzywej regresji] 1.8 Pliku xy-009.arff 1.9 Pliku xy-010.arff Zajrzyj do 1.10. Może będzie bardziej efektywnie?

1.10 Realizacja za pomocą bibliotek Python Najprostsza forma ładowania pliku arff inp = "xy-001.arff x, y = np.loadtxt(inp, delimiter=',', usecols=(0, 1), unpack=true,skiprows=6) Liczba wierszy do przeskoczenia zależy od pliku Tworzenie macierzy cech features=x.reshape(x.size,1) Musi być to macierz dwuwymiarowa m 1 (w ogólnym przypadku m n) Dopasowanie krzywej regr = linear_model.linearregression() regr.fit(features, y) Parametry modelu (regr.coef_ jest tablicą) print('coefficients: ', regr.coef_, ' Intercept: ',regr.intercept_) fy= regr.coef_[0]* fx + regr.intercept_

Metody regresji Metoda najmniejszych kwadratów regr = linear_model.linearregression() regr.fit(features, y) Regresja grzbietowa: metoda gradientu prostego z regularyzacją współczynników, norma L 2 regr = linear_model.ridge (alpha =.5) regr.fit(features, y) Lasso: metoda gradientu prostego z regularyzacją współczynników, norma L 1 regr = linear_model.lasso(alpha=0.1) regr.fit(features, y)