Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa

Podobne dokumenty
Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Drzewa decyzyjne w SAS Enterprise Miner

Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98

Eksploracja danych. Definicja (Eksploracja danych)

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Projekt Sieci neuronowe

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Indukowane Reguły Decyzyjne I. Wykład 8

ALGORYTM RANDOM FOREST

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Laboratorium 4. Naiwny klasyfikator Bayesa.

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Sieci neuronowe w Statistica

Przykład Rezygnacja z usług operatora

Laboratorium 6. Indukcja drzew decyzyjnych.

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Wprowadzenie do analizy korelacji i regresji

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Systemy uczące się wykład 2

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do uczenia maszynowego

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Testy nieparametryczne

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Indukowane Reguły Decyzyjne I. Wykład 3

Jak korzystać z Excela?

Regresja linearyzowalna

Badanie zależności skala nominalna

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań:

Ćwiczenie 12. Metody eksploracji danych

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Testowanie modeli predykcyjnych

MODELE LINIOWE. Dr Wioleta Drobik

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Dokumentacja Końcowa

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Regresja logistyczna (LOGISTIC)

Data Mining Wykład 4. Plan wykładu

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Optymalizacja ciągła

Analiza składowych głównych. Wprowadzenie

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Ekonometria. Regresja liniowa, dobór postaci analitycznej, transformacja liniowa. Paweł Cibis 24 marca 2007

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Analiza zależności liniowych

Tworzenie szablonów użytkownika

Ćwiczenie 6. Transformacje skali szarości obrazów

Wydział Matematyki. Testy zgodności. Wykład 03

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Algorytm grupowania danych typu kwantyzacji wektorów

Próba własności i parametry

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI

Rozkład materiału nauczania

Systemy uczące się Lab 4

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

4. Średnia i autoregresja zmiennej prognozowanej

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

WYMAGANIA Z MATEMATYKI NA POSZCZEGÓLNE OCENY KLASYFIKACYJNE DLA UCZNIÓW KLAS TRZECICH. Sposoby sprawdzania wiedzy i umiejętności uczniów

5. Model sezonowości i autoregresji zmiennej prognozowanej

Analiza korespondencji

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

1. Opis okna podstawowego programu TPrezenter.

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Algorytmy klasyfikacji

Katalog wymagań na poszczególne stopnie szkolne klasa 3

Dopasowywanie modelu do danych

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Wykład 4 Związki i zależności

Drzewa decyzyjne i lasy losowe

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Monte Carlo, bootstrap, jacknife

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Metody Sztucznej Inteligencji II

Agnieszka Nowak Brzezińska Wykład III

Testowanie hipotez statystycznych

Wojciech Skwirz

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Transkrypt:

Statystyka w SAS Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki Matematyka Finansowa 15 czerwca 2015

Plan prezentacji 1 Wstęp - czym jest 2 3 4 5 Sieci neuronowe 6

Czym jest? Czym jest Omówienie danych Definicja (eksploracja danych) jest to jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Polega na wykorzystaniu zaawansowanych metod do modelowania relacji w dużych zbiorach danych.

Techniki eksploracji danych Czym jest Omówienie danych Techniki eksploracji danych: regresja drzewa decyzyjne sieci neuronowe metody uczenia maszynowego metody ewolucyjne

Metody przetwarzania Czym jest Omówienie danych Metody przetwarzania: poszukiwanie asocjacji analiza jakościowa danych analiza ilościowa danych klasyfikacja grupowanie

Etapy procesu w SAS Czym jest Omówienie danych Wszystkie omawiane w prezentacji kroki stanowią składowe metodologi SEMMA (Sample, Explore, Modify, Model, Assess), która opisuje całość Data Mining z poziomu narzędzi analitycznych SAS. Jest ona rozumiana jako rozbicie tego procesu na pięć powiązanych ze sobą etapów: 1 Sample - przygotowanie i podział wejściowej próby danych. 2 Explore - eksploracja danych, służąca ocenie ich jakości oraz wstępnej identyfikacji zależności pomiędzy zmiennymi. 3 Modify - modyfikacja danych, służąca poprawie ich jakości, spełnieniu założeń metod modelowania lub zwiększaniu ich elastyczności poprzez transformację zmiennych. 4 Model - modelowanie przy użyciu takich metod jak wspomniane drzewa decyzyjne, regresja czy sieci neuronowe. 5 Assess - ocena jakości budowanych modeli i wybór najlepszego z nich, a następnie monitorowanie jego skuteczności na nowo napływających danych.

Import danych Wstęp Czym jest Omówienie danych Po otwarciu nowego projektu w SAS Enterprise Miner Workstation ukazuje nam się okno diagramu, na którym będziemy pracować. Analizować będziemy dane dotyczące kredytobiorców. Aby zaimportować dane należy wybrać Plik Nowy Źródło danych.

Import danych Wstęp Czym jest Omówienie danych Pojawia się tabela z atrybutami zmiennych. Analizować będziemy zmienną BAD objaśniającą czy kredytobiorca spłacił pożyczkę, dlatego rolę zmiennej określamy jako Zmienną celu.

Wyświetlanie zbioru danych Czym jest Omówienie danych Aby wyświetlić zaimportowany zbiór należy przeciągnąć źródło danych HMEQ z lewego górnego okna na pole diagramu zaznaczyć kafelkę w lewym dolnym oknie nacisnąć [...] obok pola Importowane dane nacisnąć Przegladaj...

Rodzaj i rola zmiennych Czym jest Omówienie danych W zakresie ról zmiennych najczęściej wykorzystywanymi są: Wejściowa (Input) - zmienna objaśniająca Zmienna celu (Target) - zmienna objaśniana Odrzucona (Rejected) - nie bierze udziału w analizie ID - identyfikator Dostępne jest pięć skal pomiarowych: Przedziałowa (Interval) - zmienna ciągła Nominalna (Nominal) Porządkowa (Ordinal) Binarna (Binary) Unarna (Unary) - zmienna o jednej wartości

Omówienie badanych zmiennych Czym jest Omówienie danych Analizowany zbiór danych przedstawia informację na temat kredytobiorców: BAD - zmienna celu - przyjmuje wartość 1, gdy kredytobiorca nie spłacił kredytu CLADGE - długość trwania najdłuższego z aktywnych zobowiązań kredytowych zaciągniętych przez kredytobiorcę (w miesiącach) CLNO - ilość aktywnych zobowiązań kredytowych DEBTINC - współczynnik zadłużenia do przychodu DELINQ - historyczna liczba zaległości kredytowych DEROG - ilość negatywnych informacji kredytowych JOB - wykonywany zawód LOAN - kwota pozostała do spłaty MORTDUE - kwota do spłaty bieżącej hipoteki NINQ - ilość ostatnio złożonych wniosków kredytowych REASON - przyjmuje wartość DebCon, gdy kredyt jest przeznaczony na konsolidację innego kredytu, wartość HomeImp, gdy jest przeznaczony na zwiększenie wartości hipoteki VALUE - wartość obecna hipoteki YOJ - staż w obecnej pracy (w latach)

Węzeł Partycjonowanie Węzeł Partycjonowanie Aby wykonać partycjonowanie przeciągamy ikonę Partycjonowania na pole diagramu łączymy węzeł Zbioru danych z węzłem Partycjonowania uruchamiamy.

Podział zbioru Wstęp Węzeł Partycjonowanie Zbiór dzielimy na trzy części: treningowa - służy do zbudowania modelu. Liczność tej próby powinna być pomiędzy 40% a 70% próby wejściowej walidacyjna - służy do porównania różnych modeli między sobą, powinna być między 20% do 30% próby wejściowej testowa - próba używana do ostatecznej oceny modelu wybranego na podstawie danych walidacyjnych, powinna być między 20% do 30% próby wejściowej

Metody partycjonowania Węzeł Partycjonowanie Wyróżniamy następujące metody: losowanie warstwowe (Stratified) - pozwala utrzymać rozkład zmiennej objaśnianej w powstających próbach losowanie klastrowe (Cluster) - losowanie proporcjonalne z klastrów wykrytych w badanej populacji prosta próba losowa (Simple random)

Węzeł Budowa modelu Współczynnik Giniego Entropia W zakładce Modelowanie wybieramy ikonę i przeciągamy na pole diagramu analogicznie jak w przypadku Partycjonowania łączymy węzeł go z węzłem Partycjonowania.

Budowa modelu Współczynnik Giniego Entropia Analiza danych za pomocą drzewa decyzyjnego 1 Wartość zmiennej objaśnianej. 2 Dane treningowe. 3 Dane walidacyjne. 4 Liczba obserwacji. 5 Udział procentowy dla każdej wartości zmiennej objaśnianej.

Budowa modelu Współczynnik Giniego Entropia Analiza danych za pomocą drzewa decyzyjnego

Wykres klasyfikacji Wstęp Budowa modelu Współczynnik Giniego Entropia Wybieramy Rezultaty Widok Ocena Wykres klasyfikacji.

Postać modelu Wstęp Budowa modelu Współczynnik Giniego Entropia Budując model drzewa dokonujemy podziału za pomocą wzoru: Z = Z 0 r i=1 n i n 0 Z i, gdzie Z 0 - stopień niejednorodności dzielonego elementu, n 0 - liczność dzielonego elementu, r - liczba elementów powstających w wyniku podziału, Z i - niejednorodność i-tego elementu powstałego w wyniku podziału, n i - liczność i-tego elementu powstałego w wyniku podziału. Wybieramy ten podział, dla którego różnica Z jest największa.

Stopień niejednorodności Budowa modelu Współczynnik Giniego Entropia Stopień niejednorodności (zanieczyszczenia) może być oceniany przy użyciu następujących miar: Współczynnik Giniego Z = 1 k pi 2, gdzie k - liczba kategorii przyjmowanych przez zmienną objaśnianą, p i - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej. i=1 Współczynnik entropii Z = H(p 1,..., p k ) = k p i log 2 (p i ) i=1

Współczynnik Giniego - przykład Rozważmy tabelę z danymi: Budowa modelu Współczynnik Giniego Entropia Chcemy wyznaczyć czy dana osoba należy do grupy wysokiego czy niskiego ryzyka. Atrybutami, względem których możemy podzielić zbiór wejściowy są Wiek oraz Typ samochodu. Możliwe punkty podziału dla wieku to: Wiek 17, Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68 oraz dla typu samochodu: {sport}, {truck}, {family}. Klasy to Low oraz High.

Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Punkt podziału g split dany jest wzorem: m1 + n1 m2 + n2 g split = Z1 + Z2, gdzie m + n m + n m 1, n 1 - liczba elementów w S 1 należących do klas odpowiednio High i Low, m 2, n 2 - liczba elementów w S 2 należących do klas odpowiednio High i Low. W przypadku Wiek 17 mamy: Wartości współczynników Giniego oraz punktu podziału wynoszą: Z 1 = Z(S 1) = Z(Wiek 17) = 1 (1 2 + 0 2 ) = 0, Z 2 = Z(S 2) = Z(Wiek 17) = 1 ((3/5) 2 + (2/5) 2 ) = 0.73, g split = m1 + n1 m + n m2 + n2 Z1 + Z2 = (1/6) 0 + (5/6) 0.73 = 0.61 m + n

Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Postępując analogicznie dla kolejnych punktów podziału: Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68 otrzymamy: Wiek 20, g split = 0.33 Wiek 23, g split = 0.22 Wiek 32, g split = 0.29 Wiek 43, g split = 0.27 Wiek 68, g split = 0.44

Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Podobnie postępujemy przy podziale ze względu na typ samochodu. Z(Typ sam {sport}) = 1 ((2/2) 2 + 0 2 ) = 0, Z(Typ sam {family, truck}) = 1 ((2/4) 2 + (2/4) 2 ) = 0.5, g split = (2/6) 0 + (4/6) 0.5 = 0.33, Z(Typ sam {truck}) = 0, Z(Typ sam {family, sport}) = 0.32, g split = (1/6) 0 + (5/6) 0.32 = 0.27, Z(Typ sam {family}) = 0.44, Z(Typ sam {truck, sport}) = 0.44, g split = (3/6) 0.44 + (3/6) 0.44 = 0.44.

Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Najmniejsza wartość g split = 0.22 jest przyjmowana w przypadku punktu podziału Wiek 23. Ostatecznie, ze względu na dużą rozpiętość między kolejnymi danymi na temat wieku, punkt podziału ustalamy na g split = (23 + 32)/2 = 27.5. Na skutek takiego podziału dostajemy drzewo postaci: Możemy zauważyć, że w każdym przypadku gdy Wiek 27.5 Ryzyko wpada do klasy High, więc lewa gałąź nie będzie rozwijana - doszliśmy do liścia.

Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Podział prawego węzła ze względu na Typ samochodu przebiega analogicznie z uwzględnieniem, że Wiek > 27.5, czyli na danych:

Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Ostatecznie drzewo ma postać:

Współczynnik entropii Budowa modelu Współczynnik Giniego Entropia Do wyboru atrybutu testowego w wierzchołku drzewa decyzyjnego wykorzystujemy miarę zysku informacyjnego. W tym celu wybieramy atrybut o największej wartości zysku (lub o największej redukcji entropii) Atrybut testowy minimalizuje ilość informacji niezbędnej do klasyfikacji przykładów w partycjach uzyskanych w wyniku podziału

Współczynnik entropii Budowa modelu Współczynnik Giniego Entropia Dany jest zbiór przykładów S, zbiór kategorii C i oraz zbiory s i należące do C i. Wartość współczynnika entropii możemy obliczyć przy użyciu poniższego wzoru: Współczynnik entropii m H(s 1,..., s 2) = p i log 2 (p i ), i=1 gdzie: m - liczba różnych wartości przyjmowanych przez zmienną objaśniającą p i = s i - odsetek obserwacji przyjmujących i-tą wartość zmiennej s objaśnianej. UWAGA Przyjmuje się 0 log 2 0 = 0.

Entropia Wstęp Budowa modelu Współczynnik Giniego Entropia Entropię podziału zbioru S, ze względu na atrybut A definiujemy następująco: Entropia E(a 1,..., a k ) = k j=1 (s 1j + +s mj ) s H(s 1j,..., s mj ), gdzie: m H(s 1j,..., s mj ) = p ij log 2 (p ij ) i=1 p ij = s ij S j, S j - dana partycja. Im mniejsza wartość entropii, tym mniejsze zanieczyszczenie podziału zbioru S na partycje.

Zysk informacyjny Wstęp Budowa modelu Współczynnik Giniego Entropia Zysk informacyjny, wynikający z podziału zbioru S, ze względu na atrybut A, definiujemy: Zysk informacyjny Gain(A) = H(s 1,..., s m) E(A).

Przykład Wstęp Budowa modelu Współczynnik Giniego Entropia Jako atrybut decyzyjny przyjmujemy kupi komputer.

Przykład Wstęp Budowa modelu Współczynnik Giniego Entropia Atrybut kupi komputer posiada dwie wartości: tak i nie, stąd otrzymujemy dwie klasy: C 1 - odpowiada wartości tak i zawiera s 1 = 9 elementów C 2 - odpowiada wartości nie i zawiera s 2 = 5 elementów Otrzymujemy: H(s 1, s 2) = H(9, 5) = 9 14 log 2 9 14 5 14 log 2 5 14 = 0.94.

Budowa modelu Współczynnik Giniego Entropia Kolejnym krokiem jest obliczenie entropii każdego atrybutu testowego. Pierwszym będzie wiek, który składa się z 3 partycji. wiek= 30 s 11 = 2 s 21 = 3 H(s 11, s 21) = 0.971. wiek= 31..40 s 12 = 4 s 22 = 0 H(s 12, s 22) = 0. wiek= >40 s 13 = 2 s 23 = 3 H(s 13, s 23) = 0.971.

Budowa modelu Współczynnik Giniego Entropia Entropia atrybutu wiek wynosi: E( wiek ) = 5 4 5 H(s11, s21) + H(s12, s22) + H(s13, s23) = 0.694 14 14 14 Zysk informacyjny wynikający z podziału zbioru S, ze względu na atrybut wiek wynosi: Gain( wiek ) = I (s 1, s 2) E( wiek ) = 0.94 0.694 = 0.277

Budowa modelu Współczynnik Giniego Entropia Analogicznie postępujemy z pozostałymi atrybutami. W ten sposób otrzymujemy: Zysk informacyjny wszystkich atrybutów Gain( wiek ) = 0.277 Gain( dochód )= 0.029 Gain( student ) = 0.151 Gain( status ) = 0.048 Jako pierwszy atrybut testowy wybieramy ten z największym zyskiem informacyjnym, w tym przypadku wiek.

Budowa modelu Współczynnik Giniego Entropia Tworzymy wierzchołek o etykiecie wiek oraz łuki wychodzące łączące wierzchołek wiek z wierzchołkami odpowiadającymi partycjom utworzonym zgodnie z podziałem zbioru S wg atrybutu wiek.

Budowa modelu Współczynnik Giniego Entropia Postępując analogicznie dla wierzchołków S 1 oraz S 3, okazuje się, że najlepszym atrybutem testowym dla wierzchołka odpowiadającym dla pierwszej partycji jest atrybut student, a dla trzeciej partycji - atrybut status. Ostateczny kształt drzewa decyzyjnego przedstawiono na rysunku poniżej.

Przygotowanie danych Węzeł Imputacja Węzeł Aby wykonać regresję należy uzupełnić braki danych. W tym celu posłużymy się węzłem Imputacja. Wybrać zakładkę Modyfikacja Imputacja, przeciągnąć na pole diagramu oraz połączyć z węzłem Partycjonowanie.

Metody uzupełniania danych Węzeł Imputacja Węzeł Spośród metod uzupełniania danych są między innymi: Dominanta Średnia Mediana Wartość wylosowana zgodnie z rozkładem Wartość uzyskana na podstawie drzewa decyzyjnego

Węzeł Imputacja Węzeł W zakładce Modelowanie wybieramy przeciągamy na pole diagramu i łączymy z węzłem Imputacja. Dodatkowo z naszego modelu regresji wyrzucamy zmienne tekstowe. W tym celu klikamy prawym przyciskiem na węzeł Edytuj zmienne dla zmiennych IMP JOB oraz IMP REASON wybieramy w kolumnie użyj - Nie.

Węzeł Imputacja Węzeł

Węzeł Imputacja Węzeł Wykres efektów pokazuje wartości współczynników regresji. Zaznaczone są osobnymi kolorami współczynniki dodatnie i ujemne. Dodatkowo po zaznaczeniu okna wykresu, klikając w lewym górnym rogu na ikonę Tabela wyświetlają się rezultaty z dokładnymi watościami współczynników oraz test istotności dla parametrów.

Postać modelu Wstęp Węzeł Imputacja Węzeł W naszym przypadku jako funkcji łączącej (link function) użyliśmy funkcji logitowej. Zatem wartość oczekiwana w naszym modelu przyjmuje postać: G(E(BAD)) = k a i X i, gdzie k - liczba zmiennych, i=1 a i - wartość współczynnika, x i - wartość zmiennej, funkcja G(x) = log( x 1 x ).

Czym jest sieć neuronowa? Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Sieci neuronowe w założeniu są to obiekty, które swoim działaniem naśladują aktywność rzeczywistych układów nerwowych. Poniżej jest przedstawiony prosty model regresyjny w postaci sieci neuronowej. Warstwa wejściowa zawiera n neuronów (odpowiadających zmiennym) oraz warstwę wyjściową sumującą ważone impulsy i transformującą je do skali oryginalnej zmiennej Y.

Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Podstawowym rozszerzeniem tak opisanej architektury jest model perceptronu wielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowo zawiera warstwę ukrytą. Składa się ona z określonej ilości neuronów, które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów. Pojedynczy neuron z warstwy ukrytej składa się z dwóch elementów: sumatora i funkcji aktywacji. Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwy wejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształca przy użyciu określonej funkcji ciągłej.

Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Schemat sieci neuronowej z jedną warstwą ukrytą zawierającą n neuronów. Model opisany dla m zmiennych objaśniających

Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach W zakładce Modelowanie wybieramy Sieć neuronowa przeciągamy na pole diagramu i łączymy z węzłem Imputacja w lewym dolnym oknie wybieramy przycisk [...] w wierszu Sieć ustawiamy Liczbę jednostek ukrytych na 20.

Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Wykres klasyfikacji.

Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach W Rezultatach wybieramy Widok Model Wagi końcowe.

Przetwarzanie informacji w neuronach Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Pobudzeniem neuronu p domyślnie jest liniowa funkcja sygnałów wejściowych z wagami połączeń jako współczynnikami (combination function). gdzie x i - wartość zmiennej w i - waga zmiennej. p = n w i x i, i=1 Sygnał wyjściowy y jest zależny od całkowitego pobudzenia neuronu, transformowanego przez funkcję aktywacji. Pozwala to wprowadzić nieliniowość. y = f (p) = f ( n w i x i ) i=1

Węzeł porównanie modeli Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli W zakładce Ocena wybieramy Porównanie modeli przeciągamy na pole diagramu i łączymy z węzłami wszystkich prezentowanych metod.

Statystyki dopasowania Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Dopasowanie modelu może być ocenione przy użyciu różnych statystyk. Przykładowe to: Skuteczność klasyfikacji Błąd średniokwadratowy (ASE) ASE = 1 n n (yi y i ) 2 Statystyka Kołmogorowa-Smirnowa KS = max{t : F 1(t) F 0(t) } Indeks ROC Wzrost (lift) i=1

Porównanie modeli Wstęp Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Krzywe ROC dla trzech modeli dla każdej partycji. Miarą dopasowania jest pole pod wykresem - im wartość bliższa 1 tym lepiej dopasowany model.

Krzywa ROC - przykład Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli W badaniach dopasowania zmiennej binarnej korzysta się z takich miar jak specyficzność i wrażliwość. Załóżmy, że przeprowadzamy test na HIV. W populacji są osoby zdrowe oraz chore. Osoby zarażone oznaczymy y i = 1. Jeśli nasz test wskaże, że osoba jest chora oznaczymy ŷ i = 1, a gdy zdrowa ŷ i = 0 Wrażliwość (czułość) jest to prawdopodobieństwo, że chorą osobę test zakwalifikuje jako rzeczywiście chorą P(ŷ i = 1 y i = 1) w przybliżeniu jest to udział osób, które są chore i u których test wyszedł poprawnie spośród wszystkich chorych osób. P(ŷ i = 1 y i = 1) n 11 n 11 +n 01 Wrażliwość to true positive. Specyficzność (swoistość) jest to prawdopodobieństwo, że zdrową osobę test zakwalifikuje jako rzeczywiście zdrową P(ŷ i = 0 y i = 0) w przybliżeniu jest to udział osób, które są zdrowe i u których test wyszedł poprawnie spośród wszystkich zdrowych osób. P(ŷ i = 0 y i = 0) n 00 n 00 +n 10 Wrażliwość to true negative.

Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Na wykresie krzywej ROC na jednej osi odkłada się wrażliwość, a na drugiej 1-specyficzność. 1-specyficzność to udział osób, które są zdrowe ale test wykazał, że są chore P(ŷ i = 1 y i = 0) = 1 P(ŷ i = 0 y i = 0). 1-specyficzność to false positives. Zatem krzywa ROC obrazuje stosunek true positives do false positives. W przypadku idealnego modelu krzywa ROC przedstawia lewą i górną krawędź. Jeśli losowo byśmy podawali wyniki testu to krzywa byłaby przekątną kwadratu. Natomiast krzywa leżąca pod przekątną oznacza, że lepsze prognozy uzyskalibyśmy gdybyśmy losowo mówili osobom czy są chore czy nie, niż przeprowadzali test. Dlatego używa się pola pod krzywą ROC jako miary dopasowania.

Wykres liftu łącznego Wstęp Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Wykres przyrostu pokazuje o ile częściej niż w danych źródłowych przewidywana klasa występuje w próbie wskazanej przez dany model. Uzyskana w ten sposób krzywa powinna gładko spadać od największej wartości do 1. Gwałtowne skoki w górę sugerują, że model jest nieodpowiedni (oznaczają one, że model niezgodnie z rzeczywistością przewiduje szansę przynależności do klasy: tam gdzie wg modelu jest ona mniejsza, w rzeczywistości jest większa).

Statystyki dopasowania Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Na podstawie przedstawionych poniżej kryteriów najlepszym modelem jest drzewo decyzyjne.

Instalacja i uruchomienie. Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Ze względu na często niepoprawną instalację, Miner niekiedy nie działa. Dokładną instrukcję instalacji można znaleźć pod linkiem: http://www.sas.com/pl pl/support/dokumenty.html Włączając Minera należy uruchomić go jako Administrator.