Drzewa decyzyjne w SAS Enterprise Miner



Podobne dokumenty
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Przykład Rezygnacja z usług operatora

Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018

Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa

Niestandardowa tabela częstości

Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

Obliczanie wartości średniej i odchylenia standardowego średniej w programie Origin

Testowanie modeli predykcyjnych

INSTRUKCJA KONFIGURACJI DOSTĘPU DO INTERNETU za pomocą protokołu PPPoE

Konfigurowanie konta pocztowego w programie Netscape (wersja 7.2)

ALGORYTM RANDOM FOREST

Metoda Automatycznej Detekcji Interakcji CHAID

PODRĘCZNIK UŻYTKOWNIKA PEŁNA KSIĘGOWOŚĆ. Płatności

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Nowa płatność Dodaj nową płatność. Wybierz: Płatności > Transakcje > Nowa płatność

Instalacja i opis podstawowych funkcji programu Dev-C++

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Instrukcja obsługi programu Do-Exp

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

3.7. Wykresy czyli popatrzmy na statystyki

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

FAQ: /PL Data: 16/11/2007 Programowanie przez Internet: Konfiguracja modułów SCALANCE S 612 V2 do komunikacji z komputerem przez VPN

INSTRUKCJA OTWIERANIA PLIKU DPT (data point table)

WSCAD. Wykład 5 Szafy sterownicze

6.4. Efekty specjalne

Tworzenie zespołu. Ustalenie aktualnego projektu. Laboratorium Technik Komputerowych I, Inventor, ćw. 4

Qtiplot. dr Magdalena Posiadała-Zezula

Sieci neuronowe w Statistica

1. Otwórz pozycję Piston.iam

I Tworzenie prezentacji za pomocą szablonu w programie Power-Point. 1. Wybieramy z górnego menu polecenie Nowy a następnie Utwórz z szablonu

Rys. 1. DuŜa liczba nazw zakresów. Rys. 2. Procedura usuwająca wszystkie nazwy w skoroszycie

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Instrukcja obsługi programu Creative Fotos

Rozdział 2. Konfiguracja środowiska pracy uŝytkownika

Aby pobrać program FotoSender naleŝy na stronę lub i kliknąć na link Program do wysyłki zdjęć Internetem.

Okno logowania. Okno aplikacji. 1. Logowanie i rejestracja

Jak korzystać z przeglądarki danych ESS SoftReport

W tym ćwiczeniu zostanie wykonany prosty profil cienkościenny, jak na powyŝszym rysunku.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Jedno okienkowy GIMP.

zmiany w aplikacji abcpanel MoŜliwość wysyłania informacji podatkowych SMS-em.

Podstawowe funkcjonalności interfejsu. - co warto wiedzieć o interfejsie Mozart-a

Typ danych. Karta ogólne. Rozmiar pola Liczba całkowita długa. Autonumerowanie. Rozmiar pola 50. Tekst. Rozmiar pola 50. Tekst. Zerowa dł.

Wymiarowanie i teksty. Polecenie:

Formatowanie tekstu za pomocą zdefiniowanych stylów. Włączanie okna stylów. 1. zaznaczyć tekst, który chcemy formatować

Lekcja 1: Origin GUI GUI to Graficzny interfejs użytkownika (ang. GraphicalUserInterface) często nazywany też środowiskiem graficznym

Ćwiczenie 2 Warstwy i kształty podstawowe

Jak korzystać z systemu Daymaker?

Przewodnik dla użytkownika do systemu STUDIO

Praca w programie Power Draft

Programowanie sterowników

Przed rozpoczęciem pracy otwórz nowy plik (Ctrl +N) wykorzystując szablon acadiso.dwt

Laboratorium z Grafiki InŜynierskiej CAD. Rozpoczęcie pracy z AutoCAD-em. Uruchomienie programu

MATLAB Prowadzący: dr hab. inż. Marek Jaszczur Poziom: początkujący

Arkusz strona zawierająca informacje. Dokumenty Excela są jakby skoroszytami podzielonymi na pojedyncze arkusze.

Zajęcia nr VII poznajemy Rattle i pakiet R.

ANALIZA DANYCH PIERWOTNYCH mgr Małgorzata Kromka

Oferta na samochód nowy Oferta na samochód nowy spis kroków

Roboty Przemysłowe. Rys. 1. Główne okno Automation Studio.

Jak przekształcać zmienne jakościowe?

Współpraca Integry z programami zewnętrznymi

PRZYKŁAD ROZWIĄZANIA ZAGADNIENIA PREDYKCYJNEGO ZA POMOCĄ TECHNIK DATA MINING

Obliczenie kratownicy przy pomocy programu ROBOT

Wczytywanie cenników z poziomu programu Norma EXPERT Tworzenie własnych cenników w programie Norma EXPERT... 4

Podstawy tworzenia prezentacji w programie Microsoft PowerPoint 2007

Galileo v10 pierwszy program

Aplikacje WWW - laboratorium

Przeglądanie, drukowanie i eksportowanie raportów.

1.1 Wykorzystanie programu Microsoft Excel w rekonstrukcji wypadków drogowych - wprowadzenie.

b) Dorysuj na warstwie pierwszej (1) ramkę oraz tabelkę (bez wymiarów) na warstwie piątej (5) według podanego poniżej wzoru:

Temat: Kopiowanie katalogów (folderów) i plików pomiędzy oknami

Jak rozpocząć pracę? Mapa

Prezentacja multimedialna MS PowerPoint 2010 (podstawy)

Rys. 1. Zestawienie rocznych kosztów ogrzewania domów

Kopiowanie, przenoszenie plików i folderów

Instrukcja wyłączenia cookies w przeglądarce

Wybieramy File->New->Project Wybieramy aplikację MFC->MFC Application jak na rysunku poniżej:

Ćw. I Projektowanie opakowań transportowych cz. 1 Ćwiczenia z Corel DRAW

Indukowane Reguły Decyzyjne I. Wykład 3

Serwis Członkowski Polskiej Izby Ubezpieczeń Instrukcja obsługi UŜytkownik

Tworzenie dokumentacji 2D

Wprowadzenie do analizy dyskryminacyjnej

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

Wykresy. Informatyka Arkusz kalkulacyjny Excel dla WINDOWS. Excel. cz.4. Wykresy. Wykresy. Wykresy. Wykresy

FAQ: /PL Data: 19/11/2007 Programowanie przez Internet: Przekierowanie portu na SCALANCE S 612 w celu umo

Diagnoza Szkolna Pearsona. Instrukcja obsługi

Dokumentacja Końcowa

Zadanie 1. Stosowanie stylów

1 Raporty - wstęp. 1. Wstążka. 2. Podgląd listy raportów wraz z menu kontekstowym:

Modelowanie obiektowe - Ćw. 1.

Dopasowywanie czasu dla poszczególnych zasobów

Opis warunków synchronizacji UONET > YDP

Polsko-Niemiecka Współpraca MłodzieŜy Podręcznik uŝytkownika Oprogramowania do opracowywania wniosków PNWM

Mariusz Piotrowski Barbara Fatyga Zespół Węzła Centralnego OŻK-SB

Trik 1 Wartości prognozowane bardziej czytelne na wykresie

PODRĘCZNIK UŻYTKOWNIKA KSIĘGA PRZYCHODÓW I ROZCHODÓW. Płatności

2. Tworzenie tabeli przestawnej. W pierwszym oknie dialogowym kreatora określamy źródło danych, które mamy zamiar analizować.

Konfiguracja panelu ASTRAADA HMI z sterownikiem ASTRADA ONE

Transkrypt:

Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń tworzenie zbioru uczącego i walidacyjnego; model domyślny drzewa klasyfikacyjnego; drzewa regresyjne; domyślne informacje dla ilościowej zmiennej objaśnianej; interaktywne tworzenie drzewa; wybór ostatecznego modelu; ocena jakości utworzonego drzewa; 2

Zbiór danych HMEQ Przygotujemy projekt trees, a w nim diagram tree1. Celem projektu jest wspomóc podejmowanie decyzji dotyczących przyznawania lub odmowy kredytu przez bank. Zbiór danych: HMEQ zawiera dane dotyczące 5960 klientów banku wraz z informacją, czy dany klient spłacił terminowo kredyt w przeszłości. Będzie to binarna zmienna objaśniana. Zmienne: BAD REASON DEBTINC CLNO NINQ CLAGE DELINQ DEROG YOJ VALUE MORTDUE LOAN JOB - 1, gdy klient nie spłacił kredytu, 0 - gdy spłacił kredyt - przyczyna wzięcia kredytu (binarna, tekstowa) - stosunek kredytu do dochodu - liczba linii handlowych - liczba ostatnich zapytań - czas najdłuŝszej linii (w miesiącach) - liczba linii z zalegającą zapłatą - liczba krytycznych raportów - liczba lat bieŝącej pracy - wartość własności - wysokość hipoteki - wysokość kredytu - kategoria zawodu (zmienna tekstowa) 3 Prognozowaną zmienną jest BAD 1, klient nie spłacił kredytu, 0, klient spłacił kredyt. NaleŜy nadać jej rolę Target Zmienne Reason i Job są tekstowe. Zmienna Reason jest binarna, a zmienna Job jest nominalna. Pozostałe zmienne mają skalę pomiaru Interval. Wszystkie zmienne objaśniające mają rolę Input. NaleŜy zmienić odpowiednio ustawienia. 4

Diagram tree1 Zbudujemy dwa modele drzew klasyfikacyjnych i porównamy je między sobą. Do diagramu dodamy węzły Multiplot i StatExplore. Aby zmienić nazwę węzła na diagramie, naleŝy kliknąć prawym przyciskiem myszy i wybrać opcję Rename 5 Podział na zbiór treningowy i walidacyjny Podzielimy zbiór na część: treningową 67%, walidacyjną 33%. Nie będziemy tworzyć zbioru testowego Zostawimy domyślną metodę losowania 6

Rozkład zmiennej DEBTINC Zmienna DEBTINC (stosunek kredytu do dochodu) ma 1267 braków danych. 7 Model domyślny drzewa klasyfikacyjnego Zastosujemy domyślne kryterium podziału Braki danych będą brać udział w analizie jako osobna kategoria Zmienne objaśniające mogą być wielokrotnie uŝyte w etapach podziału Domyślnie jest tworzone drzewo binarne Maksymalna głębokość tworzonego drzewa wynosi 6 KaŜdy liść musi zawierać przynajmniej 5 obserwacji 8

Wyniki Wyniki są domyślnie przedstawiane w sześciu oknach: 9 Score Ranking Overlay Jest to porównanie wykresów wzrostu lift (korzyści, pozytywnych odpowiedzi) dla zbioru treningowego i walidacyjnego. Obie krzywe nie powinny duŝo róŝnić się. JeŜeli tak jest, świadczy to o przetrenowaniu lub niedotrenowaniu modelu 10

Leaf Statistics Wykres porównuje udział procentowy wartości y = 1 zmiennej objaśnianej we wszystkich liściach dla danych treningowych i walidacyjnych. JeŜeli są duŝe róŝnice w wysokościach słupków, wskazuje to, Ŝe dany liść naleŝy przyciąć 11 Tree Map Wykres pokazuje strukturę drzewa. Powierzchnia prostokątów odpowiada liczebności w danych węzłach drzewa. Kolory wskazują jednorodność populacji w węzłach (czerwone najbardziej jednorodne) 12

Klikając na dany obszar moŝna zobaczyć liczebność węzłów i rozkład zmiennej objaśnianej w zbiorze treningowym i walidacyjnym 13 Fit Statistics Tabela pokazuje porównanie statystyk dopasowania w zbiorze treningowym, walidacyjnym i ewentualnie testowym. DuŜe róŝnice w wartościach statystyk dopasowania mogą wskazywać na przetrenowanie lub niedotrenowanie modelu. Przykładowo, stopa błędnej klasyfikacji wynosi 11,02% dla zbioru treningowego i 10,77% dla zbioru walidacyjnego 14

Tree 15 UŜywając prawego przycisku myszy moŝna zmieniać rozmiar widoku na ekranie. Na ogół trudno zmieścić całe drzewo i opis węzłów na ekranie. 16

Korzeń drzewa Dane treningowe Dane walidacyjne Wartości zmiennej objaśnianej Udział procentowy dla kaŝdej wartości zmiennej objaśnianej 20% klientów nie spłaciło kredytu Liczba obserwacji ogółem 17 Tree Pierwszą zmienną, która spowodowała podział populacji jest zmienna DEBTINC. W populacji jest około 20% złych kredytów, natomiast dla DEBTINC < 45,1848 jest około 7% złych kredytów. Następnie ten węzeł jest dzielony według zmiennej Value. Gdy Value < 299746, mamy około 6,5% złych kredytów. Grubość linii wskazuje na liczebność podzbioru Dla DEBTINC > 45,1848 jest około 64% złych kredytów. Oznacza to, Ŝe kredyty o wielkości ponad 45-krotnego dochodu są trudno spłacalne. 18

Iteration Plot Po wybraniu z menu Results polecenia View Model Iteration Plot otrzymujemy wykres statystyk błędu (tu: Average Squared Error) wraz ze wzrostem liczby liści Pionowa linia wskazuje najlepszą liczbę liści - wtedy model minimalizuje statystykę dopasowania na zbiorze walidacyjnym 19 Drzewa regresyjne. Domyślne informacje dla ilościowej zmiennej objaśnianej KaŜdy węzeł zawiera domyślnie: liczbę obserwacji w zbiorze treningowym i w zbiorze walidacyjnym, średnią wartość zmiennej objaśnianej w węźle na podstawie danych treningowych i danych walidacyjnych. 20

Interaktywne tworzenie drzewa Zaznaczamy opcję Interactive. Zostaje otwarta aplikacja SAS Enterprise Miner Tree Desktop Application. Jest to aplikacja niezaleŝna od SAS Enterprise Miner 21 Interaktywne tworzenie drzewa W pierwszym oknie jest pokazany rozkład zmiennej zaleŝnej oraz liczba obserwacji w zbiorze treningowym (N = 3992) 22

Interaktywne tworzenie drzewa Klikamy na węźle drzewa (korzeń) prawym przyciskiem myszy i wybieramy opcję Split Node. 23 Otwiera się okno dialogowe Split Node 1. Okno pokazuje malejąco wartości -Log(p) lub logworth wskazujące względną waŝność zmiennej objaśniającej dla pięciu najlepszych zmiennych. Tutaj widać, Ŝe najlepszą zmienną decydującą o podziale zbioru jest Debtinc. Klikając na Edit Rule wywołamy następne okno dialogowe 24

W oknie widzimy, jaki jest najlepszy punkt podziału węzła. Gałąź 1 będzie zawierać obserwacje, dla których zachodzi Debtinc<45,1848, gałąź 2 będzie zawierać obserwacje, dla których zachodzi Debtinc>=45,1848. JeŜeli pojawią się braki danych, to obserwacje zostaną przypisane do drugiej gałęzi. MoŜemy to zaakceptować (Apply) 25 Zbiór treningowy został podzielony na dwie części. Ich liczebności wynoszą 3099 i 893. W pierwszej części mamy 7% złych kredytów, w prawej części 64%, podczas gdy w całym zbiorze treningowym udział ten wynosi 20%. 26

Wykonajmy te same czynności (Split Node) odpowiednio dla lewej i prawej części drzewa. Lewa gałąź została podzielona według wartości zmiennej Value (299746), a prawa część według wartości zmiennej Delinquencies (0,5). 27 Niekiedy dla lepszej interpretacji warto zmienić punkt podziału. Po wybraniu węzła 2 i zmiennej Value i wciśnięciu Edit Rule naleŝy wprowadzić nowa wartość punktu podziału, np. 300000, a następnie wcisnąć przycisk Add Branch. Poprzedni punkt podziału naleŝy usunąć. Następnie kliknąć przycisk OK. 28

Wartości nieznacznie zmieniły się (3072 obserwacje zamiast 3071 jest lewym liściu). 29 MoŜna teŝ zmienić zmienną będącą kryterium podziału. Zamiast zmiennej Delinq weźmy zmienną Derog, drugą pod względem waŝności. Po zaznaczeniu zmiennej i wciśnięciu Edit Rule pojawia się okno dialogowe, w którym moŝna wpisać nową wartość podziału. Tutaj braki danych są zaliczane do pierwszego węzła, ale moŝna to zmienić. 30

Po zaznaczeniu zmiennej i wciśnięciu Edit Rule pojawia się okno dialogowe, w którym moŝna wpisać nową wartość podziału. Tutaj braki danych są zaliczane do pierwszego węzła, ale moŝna to zmienić. 31 Wartości w węzłach drzewa zmieniają się 32

Ocena jakości utworzonego drzewa Drzewo jest budowane w oparciu o zbiór uczący, Ocena jakości jest dokonywana na podstawie zbioru walidacyjnego, Kryteria oceny są uzaleŝnione od skali pomiaru zmiennej objaśnianej (przedziałowa, porządkowa, nominalna, binarna). Uwzględnia się: udział błędnie zaklasyfikowanych obiektów, koszt błędnej klasyfikacji. 33 Wybór lepszego modelu Model Comparison Zaznaczamy kryterium wyboru modelu, w naszym przypadku ROC 34

35 Model drzewa 1 jest lepszy od modelu drzewa 2 ze względu na wyŝszą wartość ROC. Model drzewa 2 zawiera tylko dwie zmienne objaśniające. 36