Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa

Transkrypt

1 Statystyka w SAS Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki Matematyka Finansowa 15 czerwca 2015

2 Plan prezentacji 1 Wstęp - czym jest Sieci neuronowe 6

3 Czym jest? Czym jest Omówienie danych Definicja (eksploracja danych) jest to jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Polega na wykorzystaniu zaawansowanych metod do modelowania relacji w dużych zbiorach danych.

4 Techniki eksploracji danych Czym jest Omówienie danych Techniki eksploracji danych: regresja drzewa decyzyjne sieci neuronowe metody uczenia maszynowego metody ewolucyjne

5 Metody przetwarzania Czym jest Omówienie danych Metody przetwarzania: poszukiwanie asocjacji analiza jakościowa danych analiza ilościowa danych klasyfikacja grupowanie

6 Etapy procesu w SAS Czym jest Omówienie danych Wszystkie omawiane w prezentacji kroki stanowią składowe metodologi SEMMA (Sample, Explore, Modify, Model, Assess), która opisuje całość Data Mining z poziomu narzędzi analitycznych SAS. Jest ona rozumiana jako rozbicie tego procesu na pięć powiązanych ze sobą etapów: 1 Sample - przygotowanie i podział wejściowej próby danych. 2 Explore - eksploracja danych, służąca ocenie ich jakości oraz wstępnej identyfikacji zależności pomiędzy zmiennymi. 3 Modify - modyfikacja danych, służąca poprawie ich jakości, spełnieniu założeń metod modelowania lub zwiększaniu ich elastyczności poprzez transformację zmiennych. 4 Model - modelowanie przy użyciu takich metod jak wspomniane drzewa decyzyjne, regresja czy sieci neuronowe. 5 Assess - ocena jakości budowanych modeli i wybór najlepszego z nich, a następnie monitorowanie jego skuteczności na nowo napływających danych.

7 Import danych Wstęp Czym jest Omówienie danych Po otwarciu nowego projektu w SAS Enterprise Miner Workstation ukazuje nam się okno diagramu, na którym będziemy pracować. Analizować będziemy dane dotyczące kredytobiorców. Aby zaimportować dane należy wybrać Plik Nowy Źródło danych.

8 Import danych Wstęp Czym jest Omówienie danych Pojawia się tabela z atrybutami zmiennych. Analizować będziemy zmienną BAD objaśniającą czy kredytobiorca spłacił pożyczkę, dlatego rolę zmiennej określamy jako Zmienną celu.

9 Wyświetlanie zbioru danych Czym jest Omówienie danych Aby wyświetlić zaimportowany zbiór należy przeciągnąć źródło danych HMEQ z lewego górnego okna na pole diagramu zaznaczyć kafelkę w lewym dolnym oknie nacisnąć [...] obok pola Importowane dane nacisnąć Przegladaj...

10 Rodzaj i rola zmiennych Czym jest Omówienie danych W zakresie ról zmiennych najczęściej wykorzystywanymi są: Wejściowa (Input) - zmienna objaśniająca Zmienna celu (Target) - zmienna objaśniana Odrzucona (Rejected) - nie bierze udziału w analizie ID - identyfikator Dostępne jest pięć skal pomiarowych: Przedziałowa (Interval) - zmienna ciągła Nominalna (Nominal) Porządkowa (Ordinal) Binarna (Binary) Unarna (Unary) - zmienna o jednej wartości

11 Omówienie badanych zmiennych Czym jest Omówienie danych Analizowany zbiór danych przedstawia informację na temat kredytobiorców: BAD - zmienna celu - przyjmuje wartość 1, gdy kredytobiorca nie spłacił kredytu CLADGE - długość trwania najdłuższego z aktywnych zobowiązań kredytowych zaciągniętych przez kredytobiorcę (w miesiącach) CLNO - ilość aktywnych zobowiązań kredytowych DEBTINC - współczynnik zadłużenia do przychodu DELINQ - historyczna liczba zaległości kredytowych DEROG - ilość negatywnych informacji kredytowych JOB - wykonywany zawód LOAN - kwota pozostała do spłaty MORTDUE - kwota do spłaty bieżącej hipoteki NINQ - ilość ostatnio złożonych wniosków kredytowych REASON - przyjmuje wartość DebCon, gdy kredyt jest przeznaczony na konsolidację innego kredytu, wartość HomeImp, gdy jest przeznaczony na zwiększenie wartości hipoteki VALUE - wartość obecna hipoteki YOJ - staż w obecnej pracy (w latach)

12 Węzeł Partycjonowanie Węzeł Partycjonowanie Aby wykonać partycjonowanie przeciągamy ikonę Partycjonowania na pole diagramu łączymy węzeł Zbioru danych z węzłem Partycjonowania uruchamiamy.

13 Podział zbioru Wstęp Węzeł Partycjonowanie Zbiór dzielimy na trzy części: treningowa - służy do zbudowania modelu. Liczność tej próby powinna być pomiędzy 40% a 70% próby wejściowej walidacyjna - służy do porównania różnych modeli między sobą, powinna być między 20% do 30% próby wejściowej testowa - próba używana do ostatecznej oceny modelu wybranego na podstawie danych walidacyjnych, powinna być między 20% do 30% próby wejściowej

14 Metody partycjonowania Węzeł Partycjonowanie Wyróżniamy następujące metody: losowanie warstwowe (Stratified) - pozwala utrzymać rozkład zmiennej objaśnianej w powstających próbach losowanie klastrowe (Cluster) - losowanie proporcjonalne z klastrów wykrytych w badanej populacji prosta próba losowa (Simple random)

15 Węzeł Budowa modelu Współczynnik Giniego Entropia W zakładce Modelowanie wybieramy ikonę i przeciągamy na pole diagramu analogicznie jak w przypadku Partycjonowania łączymy węzeł go z węzłem Partycjonowania.

16 Budowa modelu Współczynnik Giniego Entropia Analiza danych za pomocą drzewa decyzyjnego 1 Wartość zmiennej objaśnianej. 2 Dane treningowe. 3 Dane walidacyjne. 4 Liczba obserwacji. 5 Udział procentowy dla każdej wartości zmiennej objaśnianej.

17 Budowa modelu Współczynnik Giniego Entropia Analiza danych za pomocą drzewa decyzyjnego

18 Wykres klasyfikacji Wstęp Budowa modelu Współczynnik Giniego Entropia Wybieramy Rezultaty Widok Ocena Wykres klasyfikacji.

19 Postać modelu Wstęp Budowa modelu Współczynnik Giniego Entropia Budując model drzewa dokonujemy podziału za pomocą wzoru: Z = Z 0 r i=1 n i n 0 Z i, gdzie Z 0 - stopień niejednorodności dzielonego elementu, n 0 - liczność dzielonego elementu, r - liczba elementów powstających w wyniku podziału, Z i - niejednorodność i-tego elementu powstałego w wyniku podziału, n i - liczność i-tego elementu powstałego w wyniku podziału. Wybieramy ten podział, dla którego różnica Z jest największa.

20 Stopień niejednorodności Budowa modelu Współczynnik Giniego Entropia Stopień niejednorodności (zanieczyszczenia) może być oceniany przy użyciu następujących miar: Współczynnik Giniego Z = 1 k pi 2, gdzie k - liczba kategorii przyjmowanych przez zmienną objaśnianą, p i - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej. i=1 Współczynnik entropii Z = H(p 1,..., p k ) = k p i log 2 (p i ) i=1

21 Współczynnik Giniego - przykład Rozważmy tabelę z danymi: Budowa modelu Współczynnik Giniego Entropia Chcemy wyznaczyć czy dana osoba należy do grupy wysokiego czy niskiego ryzyka. Atrybutami, względem których możemy podzielić zbiór wejściowy są Wiek oraz Typ samochodu. Możliwe punkty podziału dla wieku to: Wiek 17, Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68 oraz dla typu samochodu: {sport}, {truck}, {family}. Klasy to Low oraz High.

22 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Punkt podziału g split dany jest wzorem: m1 + n1 m2 + n2 g split = Z1 + Z2, gdzie m + n m + n m 1, n 1 - liczba elementów w S 1 należących do klas odpowiednio High i Low, m 2, n 2 - liczba elementów w S 2 należących do klas odpowiednio High i Low. W przypadku Wiek 17 mamy: Wartości współczynników Giniego oraz punktu podziału wynoszą: Z 1 = Z(S 1) = Z(Wiek 17) = 1 ( ) = 0, Z 2 = Z(S 2) = Z(Wiek 17) = 1 ((3/5) 2 + (2/5) 2 ) = 0.73, g split = m1 + n1 m + n m2 + n2 Z1 + Z2 = (1/6) 0 + (5/6) 0.73 = 0.61 m + n

23 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Postępując analogicznie dla kolejnych punktów podziału: Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68 otrzymamy: Wiek 20, g split = 0.33 Wiek 23, g split = 0.22 Wiek 32, g split = 0.29 Wiek 43, g split = 0.27 Wiek 68, g split = 0.44

24 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Podobnie postępujemy przy podziale ze względu na typ samochodu. Z(Typ sam {sport}) = 1 ((2/2) ) = 0, Z(Typ sam {family, truck}) = 1 ((2/4) 2 + (2/4) 2 ) = 0.5, g split = (2/6) 0 + (4/6) 0.5 = 0.33, Z(Typ sam {truck}) = 0, Z(Typ sam {family, sport}) = 0.32, g split = (1/6) 0 + (5/6) 0.32 = 0.27, Z(Typ sam {family}) = 0.44, Z(Typ sam {truck, sport}) = 0.44, g split = (3/6) (3/6) 0.44 = 0.44.

25 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Najmniejsza wartość g split = 0.22 jest przyjmowana w przypadku punktu podziału Wiek 23. Ostatecznie, ze względu na dużą rozpiętość między kolejnymi danymi na temat wieku, punkt podziału ustalamy na g split = ( )/2 = Na skutek takiego podziału dostajemy drzewo postaci: Możemy zauważyć, że w każdym przypadku gdy Wiek 27.5 Ryzyko wpada do klasy High, więc lewa gałąź nie będzie rozwijana - doszliśmy do liścia.

26 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Podział prawego węzła ze względu na Typ samochodu przebiega analogicznie z uwzględnieniem, że Wiek > 27.5, czyli na danych:

27 Budowa modelu Współczynnik Giniego Entropia Współczynnik Giniego - przykład c.d. Ostatecznie drzewo ma postać:

28 Współczynnik entropii Budowa modelu Współczynnik Giniego Entropia Do wyboru atrybutu testowego w wierzchołku drzewa decyzyjnego wykorzystujemy miarę zysku informacyjnego. W tym celu wybieramy atrybut o największej wartości zysku (lub o największej redukcji entropii) Atrybut testowy minimalizuje ilość informacji niezbędnej do klasyfikacji przykładów w partycjach uzyskanych w wyniku podziału

29 Współczynnik entropii Budowa modelu Współczynnik Giniego Entropia Dany jest zbiór przykładów S, zbiór kategorii C i oraz zbiory s i należące do C i. Wartość współczynnika entropii możemy obliczyć przy użyciu poniższego wzoru: Współczynnik entropii m H(s 1,..., s 2) = p i log 2 (p i ), i=1 gdzie: m - liczba różnych wartości przyjmowanych przez zmienną objaśniającą p i = s i - odsetek obserwacji przyjmujących i-tą wartość zmiennej s objaśnianej. UWAGA Przyjmuje się 0 log 2 0 = 0.

30 Entropia Wstęp Budowa modelu Współczynnik Giniego Entropia Entropię podziału zbioru S, ze względu na atrybut A definiujemy następująco: Entropia E(a 1,..., a k ) = k j=1 (s 1j + +s mj ) s H(s 1j,..., s mj ), gdzie: m H(s 1j,..., s mj ) = p ij log 2 (p ij ) i=1 p ij = s ij S j, S j - dana partycja. Im mniejsza wartość entropii, tym mniejsze zanieczyszczenie podziału zbioru S na partycje.

31 Zysk informacyjny Wstęp Budowa modelu Współczynnik Giniego Entropia Zysk informacyjny, wynikający z podziału zbioru S, ze względu na atrybut A, definiujemy: Zysk informacyjny Gain(A) = H(s 1,..., s m) E(A).

32 Przykład Wstęp Budowa modelu Współczynnik Giniego Entropia Jako atrybut decyzyjny przyjmujemy kupi komputer.

33 Przykład Wstęp Budowa modelu Współczynnik Giniego Entropia Atrybut kupi komputer posiada dwie wartości: tak i nie, stąd otrzymujemy dwie klasy: C 1 - odpowiada wartości tak i zawiera s 1 = 9 elementów C 2 - odpowiada wartości nie i zawiera s 2 = 5 elementów Otrzymujemy: H(s 1, s 2) = H(9, 5) = 9 14 log log = 0.94.

34 Budowa modelu Współczynnik Giniego Entropia Kolejnym krokiem jest obliczenie entropii każdego atrybutu testowego. Pierwszym będzie wiek, który składa się z 3 partycji. wiek= 30 s 11 = 2 s 21 = 3 H(s 11, s 21) = wiek= s 12 = 4 s 22 = 0 H(s 12, s 22) = 0. wiek= >40 s 13 = 2 s 23 = 3 H(s 13, s 23) =

35 Budowa modelu Współczynnik Giniego Entropia Entropia atrybutu wiek wynosi: E( wiek ) = H(s11, s21) + H(s12, s22) + H(s13, s23) = Zysk informacyjny wynikający z podziału zbioru S, ze względu na atrybut wiek wynosi: Gain( wiek ) = I (s 1, s 2) E( wiek ) = = 0.277

36 Budowa modelu Współczynnik Giniego Entropia Analogicznie postępujemy z pozostałymi atrybutami. W ten sposób otrzymujemy: Zysk informacyjny wszystkich atrybutów Gain( wiek ) = Gain( dochód )= Gain( student ) = Gain( status ) = Jako pierwszy atrybut testowy wybieramy ten z największym zyskiem informacyjnym, w tym przypadku wiek.

37 Budowa modelu Współczynnik Giniego Entropia Tworzymy wierzchołek o etykiecie wiek oraz łuki wychodzące łączące wierzchołek wiek z wierzchołkami odpowiadającymi partycjom utworzonym zgodnie z podziałem zbioru S wg atrybutu wiek.

38 Budowa modelu Współczynnik Giniego Entropia Postępując analogicznie dla wierzchołków S 1 oraz S 3, okazuje się, że najlepszym atrybutem testowym dla wierzchołka odpowiadającym dla pierwszej partycji jest atrybut student, a dla trzeciej partycji - atrybut status. Ostateczny kształt drzewa decyzyjnego przedstawiono na rysunku poniżej.

39 Przygotowanie danych Węzeł Imputacja Węzeł Aby wykonać regresję należy uzupełnić braki danych. W tym celu posłużymy się węzłem Imputacja. Wybrać zakładkę Modyfikacja Imputacja, przeciągnąć na pole diagramu oraz połączyć z węzłem Partycjonowanie.

40 Metody uzupełniania danych Węzeł Imputacja Węzeł Spośród metod uzupełniania danych są między innymi: Dominanta Średnia Mediana Wartość wylosowana zgodnie z rozkładem Wartość uzyskana na podstawie drzewa decyzyjnego

41 Węzeł Imputacja Węzeł W zakładce Modelowanie wybieramy przeciągamy na pole diagramu i łączymy z węzłem Imputacja. Dodatkowo z naszego modelu regresji wyrzucamy zmienne tekstowe. W tym celu klikamy prawym przyciskiem na węzeł Edytuj zmienne dla zmiennych IMP JOB oraz IMP REASON wybieramy w kolumnie użyj - Nie.

42 Węzeł Imputacja Węzeł

43 Węzeł Imputacja Węzeł Wykres efektów pokazuje wartości współczynników regresji. Zaznaczone są osobnymi kolorami współczynniki dodatnie i ujemne. Dodatkowo po zaznaczeniu okna wykresu, klikając w lewym górnym rogu na ikonę Tabela wyświetlają się rezultaty z dokładnymi watościami współczynników oraz test istotności dla parametrów.

44 Postać modelu Wstęp Węzeł Imputacja Węzeł W naszym przypadku jako funkcji łączącej (link function) użyliśmy funkcji logitowej. Zatem wartość oczekiwana w naszym modelu przyjmuje postać: G(E(BAD)) = k a i X i, gdzie k - liczba zmiennych, i=1 a i - wartość współczynnika, x i - wartość zmiennej, funkcja G(x) = log( x 1 x ).

45 Czym jest sieć neuronowa? Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Sieci neuronowe w założeniu są to obiekty, które swoim działaniem naśladują aktywność rzeczywistych układów nerwowych. Poniżej jest przedstawiony prosty model regresyjny w postaci sieci neuronowej. Warstwa wejściowa zawiera n neuronów (odpowiadających zmiennym) oraz warstwę wyjściową sumującą ważone impulsy i transformującą je do skali oryginalnej zmiennej Y.

46 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Podstawowym rozszerzeniem tak opisanej architektury jest model perceptronu wielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowo zawiera warstwę ukrytą. Składa się ona z określonej ilości neuronów, które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów. Pojedynczy neuron z warstwy ukrytej składa się z dwóch elementów: sumatora i funkcji aktywacji. Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwy wejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształca przy użyciu określonej funkcji ciągłej.

47 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Schemat sieci neuronowej z jedną warstwą ukrytą zawierającą n neuronów. Model opisany dla m zmiennych objaśniających

48 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach W zakładce Modelowanie wybieramy Sieć neuronowa przeciągamy na pole diagramu i łączymy z węzłem Imputacja w lewym dolnym oknie wybieramy przycisk [...] w wierszu Sieć ustawiamy Liczbę jednostek ukrytych na 20.

49 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Wykres klasyfikacji.

50 Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach W Rezultatach wybieramy Widok Model Wagi końcowe.

51 Przetwarzanie informacji w neuronach Informacje ogólne Węzeł Sieci neuronowe Przetwarzanie informacji w neuronach Pobudzeniem neuronu p domyślnie jest liniowa funkcja sygnałów wejściowych z wagami połączeń jako współczynnikami (combination function). gdzie x i - wartość zmiennej w i - waga zmiennej. p = n w i x i, i=1 Sygnał wyjściowy y jest zależny od całkowitego pobudzenia neuronu, transformowanego przez funkcję aktywacji. Pozwala to wprowadzić nieliniowość. y = f (p) = f ( n w i x i ) i=1

52 Węzeł porównanie modeli Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli W zakładce Ocena wybieramy Porównanie modeli przeciągamy na pole diagramu i łączymy z węzłami wszystkich prezentowanych metod.

53 Statystyki dopasowania Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Dopasowanie modelu może być ocenione przy użyciu różnych statystyk. Przykładowe to: Skuteczność klasyfikacji Błąd średniokwadratowy (ASE) ASE = 1 n n (yi y i ) 2 Statystyka Kołmogorowa-Smirnowa KS = max{t : F 1(t) F 0(t) } Indeks ROC Wzrost (lift) i=1

54 Porównanie modeli Wstęp Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Krzywe ROC dla trzech modeli dla każdej partycji. Miarą dopasowania jest pole pod wykresem - im wartość bliższa 1 tym lepiej dopasowany model.

55 Krzywa ROC - przykład Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli W badaniach dopasowania zmiennej binarnej korzysta się z takich miar jak specyficzność i wrażliwość. Załóżmy, że przeprowadzamy test na HIV. W populacji są osoby zdrowe oraz chore. Osoby zarażone oznaczymy y i = 1. Jeśli nasz test wskaże, że osoba jest chora oznaczymy ŷ i = 1, a gdy zdrowa ŷ i = 0 Wrażliwość (czułość) jest to prawdopodobieństwo, że chorą osobę test zakwalifikuje jako rzeczywiście chorą P(ŷ i = 1 y i = 1) w przybliżeniu jest to udział osób, które są chore i u których test wyszedł poprawnie spośród wszystkich chorych osób. P(ŷ i = 1 y i = 1) n 11 n 11 +n 01 Wrażliwość to true positive. Specyficzność (swoistość) jest to prawdopodobieństwo, że zdrową osobę test zakwalifikuje jako rzeczywiście zdrową P(ŷ i = 0 y i = 0) w przybliżeniu jest to udział osób, które są zdrowe i u których test wyszedł poprawnie spośród wszystkich zdrowych osób. P(ŷ i = 0 y i = 0) n 00 n 00 +n 10 Wrażliwość to true negative.

56 Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Na wykresie krzywej ROC na jednej osi odkłada się wrażliwość, a na drugiej 1-specyficzność. 1-specyficzność to udział osób, które są zdrowe ale test wykazał, że są chore P(ŷ i = 1 y i = 0) = 1 P(ŷ i = 0 y i = 0). 1-specyficzność to false positives. Zatem krzywa ROC obrazuje stosunek true positives do false positives. W przypadku idealnego modelu krzywa ROC przedstawia lewą i górną krawędź. Jeśli losowo byśmy podawali wyniki testu to krzywa byłaby przekątną kwadratu. Natomiast krzywa leżąca pod przekątną oznacza, że lepsze prognozy uzyskalibyśmy gdybyśmy losowo mówili osobom czy są chore czy nie, niż przeprowadzali test. Dlatego używa się pola pod krzywą ROC jako miary dopasowania.

57 Wykres liftu łącznego Wstęp Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Wykres przyrostu pokazuje o ile częściej niż w danych źródłowych przewidywana klasa występuje w próbie wskazanej przez dany model. Uzyskana w ten sposób krzywa powinna gładko spadać od największej wartości do 1. Gwałtowne skoki w górę sugerują, że model jest nieodpowiedni (oznaczają one, że model niezgodnie z rzeczywistością przewiduje szansę przynależności do klasy: tam gdzie wg modelu jest ona mniejsza, w rzeczywistości jest większa).

58 Statystyki dopasowania Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Na podstawie przedstawionych poniżej kryteriów najlepszym modelem jest drzewo decyzyjne.

59 Instalacja i uruchomienie. Węzeł porównanie modeli Statystyki dopasowania Porównanie modeli Ze względu na często niepoprawną instalację, Miner niekiedy nie działa. Dokładną instrukcję instalacji można znaleźć pod linkiem: pl/support/dokumenty.html Włączając Minera należy uruchomić go jako Administrator.