Ćwiczenie 12. Metody eksploracji danych



Podobne dokumenty
Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Metody eksploracji danych Laboratorium 1. Weka + Python + regresja

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Klasyfikacja i regresja Wstęp do środowiska Weka

Laboratorium 11. Regresja SVM.

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Krótka instrukcja opracowania danych w programie SciDAVis v. 1-D013-win

Symulacje inwertera CMOS

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Sieci neuronowe w Statistica

Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski SYSTEMY SCADA

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Laboratorium 4. Naiwny klasyfikator Bayesa.

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Jak korzystać z Excela?

INSTRUKCJA OBSŁUGI PROGRAMU LOGGER PRO

EXCEL TABELE PRZESTAWNE

Laboratorium 6. Indukcja drzew decyzyjnych.

Kultywator rolniczy - dobór parametrów sprężyny do zadanych warunków pracy

Podstawy programowania. Ćwiczenie. Pojęcia bazowe. Języki programowania. Środowisko programowania Visual Studio

Kondensator, pojemność elektryczna

Rozdział 5. Administracja kontami użytkowników

Lekcja 1: Origin GUI GUI to Graficzny interfejs użytkownika (ang. GraphicalUserInterface) często nazywany też środowiskiem graficznym

11. Rozwiązywanie problemów

5. Administracja kontami uŝytkowników

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Walec na równi pochyłej

1. Import środków trwałych z pliku w formacie MS-EXCEL o określonej strukturze.

Edytor tekstu OpenOffice Writer Podstawy

Laboratorium - Utwórz partycję w Windows Vista

Wprowadzenie do analizy dyskryminacyjnej

Jak ciężka jest masa?

Laboratorium - Utwórz partycję w Windows 7

Obliczanie wartości średniej i odchylenia standardowego średniej w programie Origin

Orientacja pojedynczego zdjęcia

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Zadanie 3. Praca z tabelami

Programowanie w środowisku graficznym GUI

Testowanie modeli predykcyjnych

Przywracanie parametrów domyślnych. Przycisnąć przycisk STOP przez 5 sekund. Wyświetlanie naprzemienne Numer parametru Wartość parametru

TwinCAT 3 konfiguracja i uruchomienie programu w języku ST lokalnie

Program Qmak Podręcznik użytkownika

Przewodnik dla użytkownika do systemu STUDIO

Analiza Statystyczna

Łukasz Januszkiewicz Technika antenowa

Ćwiczenie Zmiana sposobu uruchamiania usług

Projekt ZSWS. Instrukcja uŝytkowania narzędzia SAP Business Explorer Analyzer. 1 Uruchamianie programu i raportu. Tytuł: Strona: 1 z 31

Kadry Optivum, Płace Optivum

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Ćwiczenie 1. Modelowanie prostego procesu

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows Vista

TRUST AMI MOUSE WIRELESS 300

Sortowanie i filtrowanie list

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows XP

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Synchronizator plików (SSC) - dokumentacja

Zadanie 9. Projektowanie stron dokumentu

Badanie zależności położenia cząstki od czasu w ruchu wzdłuż osi Ox

AutoPROFIL R 6 Dodatek do opisu programu Współpraca z programem AutoCAD 2004, 2005, LT 2004 i LT 2005

Laboratorium - Tworzenie partycji w Windows XP

Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji

LABORATORIUM SYSTEMÓW POMIAROWYCH KTP IR PW MATERIAŁY POMOCNICZE DO ĆWICZENIA 1 SYMULATOR SYSTEMU POMIAROWEGO W STANDARDZIE IEC-625.

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna

Spis treść Nazwy użytkownika Hasła Jeśli posiadają Państwo router, protokół PPPoE należy skonfigurować na routerze.

Praca i energia Mechanika: praca i energia, zasada zachowania energii; GLX plik: work energy

AutoPROFIL R 6 Dodatek do opisu programu Współpraca z programem AutoCAD 2006 i LT 2006

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

9. Praktyczna ocena jakości klasyfikacji

TURNINGPOINT KROKI DO URUCHOMIENIA TESTU NA PC

Instrukcja obsługi Kalkulator 15st.C ELATECH 2010

Wstęp - Prosta aplikacja internetowa w technologii Java EE 5. Programowanie komponentowe 1

ALGORYTM RANDOM FOREST

Instrukcja instalacji i obsługi makra Excel_Table w wersji 10

Archiwizowanie nagrań i naprawa bazy danych

Import danych z plików CSV

Ćwiczenie 5 PROGNOZOWANIE

Ćwiczenie 5. Metody eksploracji danych

Ćwiczenie 3: Rysowanie obiektów w programie AutoCAD 2010

1. Otwórz pozycję Piston.iam

LABORATORIUM INTELIGENTNYCH SYSTEMÓW ELEKTRYCZNYCH

Sekretariat Optivum. Jak przygotować listę uczniów zawierającą tylko wybrane dane, np. adresy ucznia i jego opiekunów? Projektowanie listy

INSTRUKCJA UZUPEŁNIAJĄCA DO CENTRAL DUPLEX ZE STEROWANIEM RD4

Systemy zarządzania produkcją - MES

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows 7

Gromadzenie danych. Przybliżony czas ćwiczenia. Wstęp. Przegląd ćwiczenia. Poniższe ćwiczenie ukończysz w czasie 15 minut.

Okno logowania. Okno aplikacji. 1. Logowanie i rejestracja

Rysunek 8. Rysunek 9.

Krótki kurs obsługi środowiska programistycznego Turbo Pascal z 12 Opracował Jan T. Biernat. Wstęp

Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej. Laboratorium cyfrowej techniki pomiarowej. Ćwiczenie 4

Rozdział 8. Sieci lokalne

Problemy techniczne. Jak umieszczać pliki na serwerze FTP?

Projektowanie baz danych za pomocą narzędzi CASE

Co nowego w wersji 3.7 programu Invest for Excel

Instrukcja redaktora strony

MS Excell 2007 Kurs podstawowy Filtrowanie raportu tabeli przestawnej

Instrukcja obsługi programu Do-Exp

Rozdział 7. Drukowanie

Transkrypt:

Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych metod regresji należą: 1) regresja liniowa, 2) regresja wielokrotna, 3) regresja logistyczna (model logistyczny). Ad 1) Zadanie regresji liniowej (ang. linear regression) polega na znalezieniu pojedynczej linii prostej, która w przybliżeniu opisuje relację pomiędzy pojedynczą ciągłą zmienną objaśniającą a pojedynczą ciągłą zmienną odpowiedzi. Ad 2) Zadanie regresji wielokrotnej (ang. multiple regression modeling), w miejsce prostej używa się powierzchni liniowej lub hiperpłaszczyzny zamiast linii prostej, jak to ma miejsce w regresji liniowej stosowanej dla ustalenia zależności pomiędzy zbiorem ciągłych zmiennych objaśniających a zbiorem ciągłych zmiennych odpowiedzi. Ad 3) Zadanie logistyczne polega na znalezieniu nieliniowej ciągłej funkcji, np. funkcji wykładniczej, która przypisuje określonym wartościom x i (obserwacjom) tworzącym wektor x, wartość funkcji przynależności do określonej klasy. Znaleziona funkcja logistyczna przyjmuje wartości z przedziału [0, 1], stąd może być interpretowana jako prawdopodobieństwo wystąpienia określonego zdarzenia przy znanej obserwacji wyrażonej poprzez zmienne pomiarowe x i. Regresja logistyczna ma przewagę nad regresją liniową i wielokrotną, gdzie zmienna wyjściowa może przyjmować dowolne wartości i nie może być bezpośrednio interpretowana jako prawdopodobieństwo. Literatura: 1. Norman Draper, Hary Smith, Applied Regression Analysis, Wiley, New York 1998. 2. Fredereic Mosteller, John Tukey, Data Analysis and Regression, Addison-Wesley, Reading, MA 1977. 3. Wikipedia: Regression Analysis, http://en.wikipedia.org/wiki/regression_analysis 4. Wikipedia: Regresja logistyczna, http://pl.wikipedia.org/wiki/regresja_logistyczna Ćwiczenie 1 Zastosowanie systemu Weka 1. Otwórz Explorer w systemie Weka. 2. Wybierz Pre-process, a następnie otwórz plik z danymi. W tym celu otwórz plik Open File -> cereals.arff. 1

3. Następnie naciśnij Classify, a potem wybierz Test options -> Suplied test set. Powinieneś uzyskać następujące okno: 2

4. Następnie naciśnij Set.. Gdy otworzy się formatka, jak poniżej. Naciśnij buton Open file. W tej formatce i wybierz plik train-ache-t3abl2u3.arff, a następnie stosowne wartości do przeprowadzenia testu. Następnie naciśnij Close dla zamknięcia okna. 5. Wybierz metodę weka -> classifiers -> functions -> LinearRegression z drzewa hierarchii pod uprzednim naciśnięciu Choose. 6. Następnie naciśnij słowo LinearRegression. Pojawi się edytor, pozwalający na ustawienie parametrów metody. Po wyświetleniu edytora zmień opcję attributeselectionmethod na No attribute selection. Powinieneś otrzymać okno: 3

7. Naciśnij buton OK. dla zamknięcia okna, a następnie kliknij na Start dla uruchomienia metody MLR. 4

8. Naciśnij prawy klawisz myszy na niebieską belkę i wybierz Visualize classifier errors. Uzyskasz wykres błędu predykcji, jak na rysunku poniżej. Zastosowanie systemu RapidMiner Ćwiczenie 2 1. Uruchom narzędzie RapidMiner 5.3 2. Wczytaj dane plik credit_scornig, które dotyczą sprawdzenia zwrotu kredytów. Celem ćwiczenia jest przewidzenie, czy kredytobiorca zwróci pobrany kredyt DEFAULT (Y lub N) w oparciu o dwa parametry business usage (busage) oraz liczbę dni przekroczenia terminu zwrotu. Próbka zawiera 100 przykładów. Uwaga. Ustaw kolumnę DEFAULT na Label. 3. Rozdziel dane przy użyciu operatora Split Validation na dwa zbiory: jeden, który będzie przesłany do badania przy użyciu operatora Regression operator, oraz drugi, który będzie użyty do uczenia. Przyjmij, że zbiór uczący zawiera 30% danych zbioru wejściowego. 5

4. Dodaj operator Logistic Regressionm w oknie training operatora Split validation, czyli naciśnij dwukrotnie przycisk myszy w miejscu pokazanym na rysunku poniżej i następnie wybierz Logistic Regression. 5. Dodaj operator Apply Model w oknie operatora Split validation operator, czyli naciśnij dwukrotnie przycisk myszy w miejscu pokazanym jak na rysunku powyżej, i wybierz Apply Model. 6. Dodaj operator Performance evaluation w oknie testing operatora Split validation operator, tak jak to pokazano na rysunku powyżej, a następnie wybierz operator Performance evaluation. 7. Połącz wszystkie punkty, tak aby uzyskać przepływ uzyskany poniżej. 6

8. Uruchom model naciskając na niebieską strzałkę w głównym menu i zobacz rezultaty. W szczególności wskaż na Model Kernel, który pokazuje współczynniki dla dwóch wartości przewidywanych numerów transakcji oraz wartości liczby dni przekroczenia. Wybierz też macierz pomyłek (confusion matrix) dla operatora Accuracy sensitivity. Oznacz AUC dla zbadania krzywej ROC, tak jak to pokazano poniżej. Przyjmując, że rating dla zbioru testującego wynosił 30% krzywa ROC powinna uzyskać wartość 0.863, co jest akceptowalnym rezultatem dla tego rodzaju badań. 7

Zadanie 1 Wykonaj ćwiczenie 1 dla zbioru danych adult.arff, którym jest zbiór osób podany przez U.S. Census Bureau. Celem badania przy użyciu regresji logistycznej (wybierz Logistic zamiast LinearRegression) jest znalezienie cech demograficznych, które wskazują, czy dana osoba osiągnęła roczny dochód powyżej 50 000 USD (zmienna dochód income). Ogranicz badanie tylko do zmiennej kapitał netto (cap net), która jest równa różnicy zmiennych zysk kapitału i strata kapitału wyrażonej w dolarach. Ponieważ w zbiorze danych nie ma danych dla osób powyżej 50 000 USD, dokonaj analizy dla 3000 USD. Powinieneś uzyskać po kategoryzacji wyniki regresji logistycznej względem kapitał netto powinny zawierać: Logistic Regression Table Predictor Coef SE Coef Capitalgain < 5000 $ -0.136894 0.0943471 Capitalgain >= 5000 $ Capitalloss 3.67595 1.46472 0.0968562 0.0613110 Teraz można zastosować wzór na regresję logistyczną i obliczyć wymagane prawdopodobieństwa. Zadanie 2 Wykonaj ćw. 2, tzn. korzystając z systemu RapidMiner zbuduj model regresji logistycznej dla zbioru credit_scoring. Uzyskaj krzywą ROC, tak jak to pokazano powyżej. 8