Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018

Data mining Maciej Jędrzejczyk Paulina Konecka Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska 14 czerwca 2018 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 1 / 79

Spis treści 1 Wstęp Definicja SAS Enterprise SEMMA Opis Danych 2 Sample Wczytywanie danych Partycjonowanie 3 Explore 4 Modify 5 Model Drzewa decyzyjne Regresja Sieci neuronowe 6 Assess Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 2 / 79

Czym jest Data Mining? Data Mining (eksploracja danych) - jest to proces odkrywania wzorców w dużych zbiorach danych. Jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 3 / 79

Cel Data Mining u Ogólnym celem procesu eksploracji danych jest wydobycie informacji z zestawu danych i przekształcenie go w zrozumiałą strukturę. Termin jest mylący, ponieważ celem jest wydobywanie wzorców i wiedzy z dużych ilości danych, a nie eksploracja (wydobywanie) samych danych. Rzeczywiste zadanie eksploracji danych to półautomatyczna lub automatyczna analiza dużych ilości danych w celu wyodrębnienia wcześniej nieznanych, interesujących wzorców, takich jak grupy rekordów danych (analiza skupień), nietypowe rekordy (wykrywanie anomalii) i zależności (wyszukiwanie reguł asocjacyjnych, sekwencyjne modelowanie). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 4 / 79

Zastosowanie Data Mining u Wzorce te można następnie postrzegać jako rodzaj podsumowania danych wejściowych i można je wykorzystać w dalszej analizie, uczeniu maszynowym, analizie predykcyjnej itp.. Na przykład, etap eksploracji danych może identyfikować wiele grup w danych, które można następnie wykorzystać do uzyskania bardziej dokładnych wyników prognozowania za pomocą systemu wspomagania decyzji. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 5 / 79

Metody Data Mining u Data Mining nie narzuca nam konkretnej metody działania, możemy posłużyć się wieloma metodami statystycznymi takimi jak: Drzewa decyzyjne, Regresja, Sieci neuronowe, Metody ewolucyjne, Metody uczenia maszynowego, Zbiory przybliżone. W prezentacji przybliżymy trzy pierwsze metody. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 6 / 79

SAS Enterprise Miner SAS Enterprise Miner jest narzędziem umożliwiającym tworzenie modeli predykcyjnych i opisywania dużych zbiorów danych. Jest jednym z popularniejszych programów używanych do Data Mining u. Dodatkowo mamy możliwość wygenerowania kodu w języku SAS 4GL. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 7 / 79

SEMMA SEMMA(Sample, Explore, Modify, Model, Asses) opisuje calość Data Mining u z poziomu narzędzi analitycznych SAS. Jest ona rozumiana jako rozbicie tego procesu na pięc powiązanych ze sobą etapów: Sample -przygotowanie i podział wejściowej próby danych, Explore-exploracja danych, służąca ocenie ich jakokści oraz wstęonej identyfikacji zależności pomiędzy zmiennymi, Modify- modyfikacja danych, służąca poprawie ich jakości, spełnieniu założeń metod modelowania, Model-modelowanie przy użyciu takich metod jak drzewa decyzyjne, regresja czy sieci neuronowe, Assess- ocena modeli i wybór najlepszego z nich. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 8 / 79

Dane Analizie poddany zostanie zbiór HMEQ, zanjdujący się w bibliotece SAMPSIO. ZAwiera on 13 zmiennych. Poniżej przedstawiono opis tych zmiennych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 9 / 79

Dane Nazwa Typ Opis BAD Binarna 1 gdy kredutobiorca nie spłacił kredytu CLADGE Przedziałowa czas najdłuższego kredytu w miesiącach CLNO Przedziałowa ilość zobowiązań kredytowych DEBTINC Przedziałowa stosunek kredytu do dochodu DELINQ Przedziałowa liczba zobowiązań z zalegającą zapłatą DEROG Przedziałowa liczba krytycznych raportów JOB Nominalna rodzaj wykonywanego zawodu LOAN Przedziałowa kwota pozostała do spłaty MORTDUE Przedziałowa wysokość hipoteki NINQ Przedziałowa ilość złożónych wniosków kredytowych REASON Binarna powód wzięcia kredytu VALUE Przedziałowa wartośc obecna hipoteki YOJ Przedziałowa staż w obecnej pracy w latach Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 10 / 79

Rysunek: Wczytywanie danych Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 11 / 79 Sample Import danych Aby wczytać zródło danych przechodzimy do Utwórz źrodło danych Tabela sasowa Przeglądaj Sampsio HMEQ. Następnie musimy zmienić rolę i poziom danych,tak jak jest to przedstawione poniżej.

Sample Partycjonowanie Kolejnym etapem jest partycjonowanie. Węzeł ten jest węzłem podziału zbioru danych na zbiory: treningowy, walidacyjny i testowy. Gdzie zbiór: treningowy jest zbiorem danych, na podstawie których wykrywamy możliwe zależności między zmiennymi, jest używany do wstępnego oszacowania parametrów modelu, liczebność tej próby powinna wynosić od 40% do 70% próby wejściowej walidacyjny jest używany do dostrojenia parametrów modelu, które zostały oszacowane w oparciu o zbiór treningowy, testowy jest zbiorem, który służy do zbadania, na ile wykryte zaleności są prawdziwe dla innych zbiorów danych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 12 / 79

Sample Metody partycjonowania Simple Random dokonuje podziału zbioru danych na podzbiory: treningowy, walidacyjny i testowy w sposób losowy, oparty na losowaniu, gdzie prawdopodobieństwo wejścia do każdego z podzbiorów jest dla każdej obserwacji takie samo, Stratified czyli losowanie warstwowe, Cluster czyli losowanie klastrowe, Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 13 / 79

Sample Partycjonowanie Jeżeli mamy wybraną zmienną celu(objaśnianą) to wybieramy domyślną metodę partycjonowania: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 14 / 79

Explore Eksploracja danych W tej części zajmiemy się badaniem danych, czyli zaprezentowaniem statystyk opisowych. W tym celu posłużymy się wezłęm o nazwie Exploracja statystyk. Aby korelacje pomiędzy zmiennymi o różnych typach były obliczne tą samą metodą, trzeba umożliwić oblicznie statystyki Chi-kwadrat dla zmiennych przedziałowych: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 15 / 79

Explore Statystyki opisowe Rysunek: Statystyki opisowe Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 16 / 79

Explore Statystyka Chi-kwadrat SAS wyświetla nam również statystykę Chi-kwadrat dzięki której możemy określić istotność zmiennych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 17 / 79

Informacje na temat zmiennych możemy także uzyskać poprzez : HMEQ Edytuj zmienne Eksploruj W ten sposób np dla zmiennej CLAGE uzyskujemy następujący wykres rozkładu : Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 18 / 79

Explore Wykresy Ważną rolę podczas eksploracji danych pełnią wykresy dzięki kórym możemy zobaczyć dane. Użyjemy do tego węzła Wykresy różne, węzeł ten generuje wykresy słupkowe zliczające ilość wystąpień wartości danej zmiennej. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 19 / 79

Explore Wykresy Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 20 / 79

Explore Korelacja Silne korelacje między niezależnymi zmiennymi mogą działać na niekorzyść tworzonych modeli, macierz korelacji możemy wywołać za pomocą edytora programów i poniższego kodu. Rysunek: Korelacja Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 23 / 79

Explore Korelacja Rysunek: Korelacja Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 24 / 79

Modify Gdy już posiadamy pewną wiedzę o danych, należy przygotować zbiór do modelowania. Zajmiemy się porzuceniem nieistotnych oraz silnie skorelowanych zmiennych. Na tym etapie obserwujemy pierwsze różnice między wybranymi przez nas modelami. Dzieje się tak, ponieważ drzewa decyzyjne radzą sobie z brakami danych, natomiast regresja logistyczna i sieci neuronowe pomijają zmienne, w których występują braki danych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 25 / 79

Modify Porzucanie zmiennych Podczas eksploracji statystyk otrzymaliśmy, że zmienna Reason jest nieistotna oraz można spróbować usunąć zmienną Mortdue, która jest silnie skorelowana ze zmienną Value (korelacja wynosi około 0,88). Robimy to za pośrednictwem węzła Porzucanie w następujący sposób: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 26 / 79

Drzewa decyzyjne W praktycznych zastosowaniach modeli predykcyjnych istotna jest łatwość interpretacji i wyjaśnienia generowanych wyników. Bardzo pomocne są przy tym drzewa decyzyjne, które generują zależności w postaci zbioru warunków logicznych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 27 / 79

Drzewa decyzyjne Budowa drzewa Budowa drzewa rozpoczyna się od podziału korzenia. Szukamy takiego podziału. który pozwoli znaleźć grupę charakteryzującą się wysoką jednorodnością ze względu na wartość zmiennej objaśnianej. Zatem dokonujemy podziału za pomocą wzoru: Wzór Z = Z 0 + r n=i n i n 0 Z i Z 0 -stopień niejednorodności dzielonego elementu, Z i - stopień niejeednorodności i-tego elementu powstającego w wyniku podziału, n 0 -liczebność dzielonego elementu, n i -liczebność i-tego elementu powstającego w wyniku podziału, r-liczba elementów powstających w wyniku podziału. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 28 / 79

Drzewa decyzyjne Miary niejednorodności Współczynnik Giniego k Z = 1 pi 2 n=i Współczynnik Entropii k Z = H(p 1,..., p k ) = pi 2 log 2 (p i ) n=i Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 29 / 79

Współczynnik Giniego - przykład Weźmy przykładowy zbiór danych: Id Wiek Typ sam Ryzyko 0 23 family high 1 17 sport high 2 43 sport high 3 68 family low 4 32 truck low 5 20 family high Zmienna Ryzyko jest naszą zmienną celu, atrybutami względem, których będziemy dzielić zbiór wejściowy to Wiek i Typ sam. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 30 / 79

Współczynnik Giniego - przykład Punkt podziału g split dany jest wzorem: g split = m 1 + n 1 m + n Z 1 + m 2 + n 2 m + n Z 2, gdzie: m i, n i - liczba elementów w S i należących do klas High i Low. Dla wieku mamy następujące punkty podziału: Wiek 17, Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68, Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 31 / 79

Współczynnik Giniego - przykład Rozważmy Wiek 23, otrzymujemy tabelę: High Low Wiek 23 3 0 Wiek> 23 1 2 Wartości współczynników Ginniego oraz punkt podziału wynoszą: Z 1 = Z(Wiek 23) = 1 (( 3 3 )2 + 0 2 ) = 0 Z 2 = Z(Wiek > 23) = 1 (( 1 3 )2 + ( 2 3 )2 ) = 4 9 g split = 0 + 3 6 4 9 = 2 9 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 32 / 79

Współczynnik Giniego - przykład Analogicznie liczymy współczynniki Giniego i punkty podziału dla pozostałych przedziałów wieku. Wyniki prezentują się następująco: Wiek 17, g split = 0, 4, Wiek 20, g split = 0, 33, Wiek 32, g split = 0, 42, Wiek 43, g split = 0, 4, Wiek 68, g split = 0, 44. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 33 / 79

Współczynnik Giniego - przykład Najmniejszą wartość g split = 0, 22 otrzymaliśmy dla podziału Wiek 23 więc dostajemy drzewo postaci: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 34 / 79

Współczynnik Giniego - przykład Zauważamy, że dla Wiek 23 Ryzyko zawsze jest wysokie więc tej gałęzi już nie rozwijamy. Przyjrzyjmy się przypadku, gdy Wiek>23, jeżeli Typ sam={sport} to ryzyko jest wysokie, a dla pozostałych ryzyko jest niskie. Co ostatecznie do drzewa postaci: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 35 / 79

Entropia i zysk informacyjny Do wyboru atrybutu testowego w wierzchołku drzewa decyzyjnego wykorzystujemy miare zysku informacyjnego. W tym celu wybieramy atrybut o najwiekszej wartosci zysku (lub o najwiekszej redukcji entropii). Niech S oznacza zbiór przykładów, oraz atrybut decyzyjny posiada m różnych wartości(definującyh klasy C i, i = 1, 2,..., m). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 36 / 79

Entropia i zysk informacyjny Entropia Entropię podziału zbioru S, ze względu na atrybut A definiujemy: gdzie: E(a 1, a 2,..., a k ) = k j=1 (s 1j + s 2j +... + s mj ) H(s 1j, s 2j,..., s mj ), s a i - wartości przyjmowane przez argument A, H - współczynnik entropii. Zysk inforacyjny Gain(A) = H(s 1, s 2,..., s m ) E(A) A = {a 1, a 2,..., a k } Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 37 / 79

Entropia i zysk informacyjny - przykład Rozważmy tabelę: Niech atrybutem decyzyjnym będzie atrybut kupi komputer. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 38 / 79

Entropia i zysk informacyjny - przykład Atrybut kupi komputer przyjmuje dwie wartości, stąd otrzymujemy dwie klasy: C 1 - kupi komputer= tak, zawiera 9 elementów, C 2 - kupi komputer= nie, zawiera 5 elementów. Obliczmy współczynnik entropi dla zmiennej kupi komputer: H(9, 5) = 9 14 log 2( 9 14 ) 5 14 log 2( 5 ) = 0, 94 14 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 39 / 79

Entropia i zysk informacyjny - przykład Następnie obliczmy entropię dla zmiennych. Przyjżyjmy się zmiennej Dochód, widzimy że przyjmuje 3 wartości więc musimy obliczyć trzy następujące współczynniki entropi. wysoki s 11 = 2-ilość osób z wysokim dochodem, które kupią komputer, s 21 = 2-ilość osób z wysokim dochodem, które nie kupią komputera H(2, 2) = 1 średni s 12 = 4, s 22 = 2 H(4, 2) = 0, 918 niski s 13 = 3, s 23 = 1 H(3, 1) = 0, 811 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 40 / 79

Entropia i zysk informacyjny - przykład Entropię dla dochodu wynosi: E( Dochód ) = 4 14 1 + 6 4 0, 918 + 0, 811 = 0, 911 14 14 Kolejno podstawiamy otrzymane wartości do wzoru na zysk informacyjny: Gain( Dochód ) = 0, 94 0, 911 = 0, 029 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 41 / 79

Entropia i zysk informacyjny - przykład Analogicznie liczymy zysk informacyjny dla pozostałych zmiennych: Zysk informacyjny Gain( Wiek ) = 0, 277 Gain( student ) = 0, 151 Gain( Status ) = 0, 048 Jako pierwszy wybieramy atrybut z największym zyskiem informacyjnym. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 42 / 79

Entropia i zysk informacyjny - przykład Więc pierwszego podziału dokonamy dla zmiennej Wiek. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 43 / 79

Entropia i zysk informacyjny - przykład Dalej postępując analogicznie obliczamy zysk informacyjny dla pozostałych zmiennych dla zmiennej Wiek przyjmującej wartość 30 oraz > 40. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 44 / 79

Drzewa decyzyjne Ustawienia drzewa Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 45 / 79

Drzewa decyzyjne Score Ranking Overlay Jest to porównanie wykresów wzrostu lift(korzysci, pozytywnych odpowiedzi) dla zbioru treningowego i walidacyjnego. Obie krzywe nie powinny dużo różnić się od siebie, jesli tak jest, świadczy to o przetrenowaniu lub niedotrenowaniu modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 46 / 79

Drzewa decyzyjne Score Ranking Overlay Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 47 / 79

Drzewa decyzyjne Statystyki liściowe Kolejne kryterium to statystyki liściowe. Poniższy wykres porównuje w tym przypadku udział procentowy wartości Unknown zmiennej objasnianej we wszystkich lisciach dla danych treningowych i walidacyjnych. Jeżeli są duże różnice w wysokościach słupków, to dany liść należy przyciąć. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 48 / 79

Frame Title Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 49 / 79

Drzewa decyzyjne Fit Statistics Kolejnym elementem, który omówimy sa statystyki dopasowania. Poniższa tabela pokazuje porównanie statystyk dopasowania w zbiorze treningowym i walidacyjnym. Duże różnice w wartościach statystyk dopasowania mogą wskazywać na przetrenowanie lub niedotrenowanie modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 50 / 79

Drzewa decyzyjne Mapa drzewa Wykres pokazuje strukturę drzewa. Powierzchnia prostokątów odpowiada liczebności w danych węzłach drzewa. Kolory wskazują jednorodność populacji w węzłach (czerwone najbardziej jednorodne) Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 51 / 79

Drzewa decyzyjne Mapa drzewa Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 52 / 79

Drzewa decyzyjne Drzewo Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 53 / 79

Drzewa decyzyjne Interpretacja Na wykresie widzimy nazwę zmiennej oraz warunek według, których dokonywany jest podział. Widzimy również procentowy rozkład danych w zbiorze uczącym i walidacyjnym informuje nas o tym także kolor węzła (im ciemniejszy tym mniej różnorodne dane). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 54 / 79

Regresja Węzeł Regresja umożliwia dopasowanie do danych zarówno modeli regresji liniowej, jak i logistycznej. Jako danych wejściowych można używać zmiennych ciągłych i dyskretnych. Węzeł obsługuje metody wybierania krokowego, do przodu i do tyłu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 55 / 79

Regresja Przygotowanie danych Zanim przejdziemy do regresji musimy odpowiednio przygotować dane. Zatem na początek za pomocą węzła Imputacja uzupełnimy braki danych. Można to zrobic na kilka sposobów: Wykorystująć miary tendencji centralnej, czyli średnią,modę, medianę, Wylosowując wartości zgodnie z rozkładem zmiennej, Wykorzystując drzewo decyzyjne, W tym przykładzie do zastąpienia braków danych zastosowano medianę. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 56 / 79

Regresja Przygotowanie danych Aby zastosować regresje logistyczną, ważne jest żeby rozkład zmiennych ciągłych miał skośność bliską zeru. Jeśli w statystykach opisowych wartości skośności wyszły powyżej 5 trzeba zastosować węzęł Przekształcenie zmiennych Dla węzła Przekształcenia zmiennych wszelkie ustawienia pozastawiamy domyślne. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 57 / 79

Regresja Często przy dużej ilości zmiennych klasyfikujących możemy mieć problem z ich optymalnym doborem do modelu. Można je wyselekcjonować następującymi metodami: Krokowa wprzód(forward)-najpierw dobieramy wyraz wolny, następnie dobieramy pojedynczo zmienne, Krokowa wstecz(backward)- Zaczynamy od doboru wszystich zmiennych i usuwamy kolejno najmniej istotne, Krokowa- Metoda analogiczna do metody Forward, z różnicą, że po każdym kroku bada się istotność zmiennych obecnych już w modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 58 / 79

Regresja Ustawienia modelu Dodatkowo z naszego modelu regresji wyrzucamy zmienne tekstowe. W tym celu klikamy prawym przyciskiem na węzeł Regresja Edytuj zmienne dla zmiennych IMP JOB wybieramy w kolumnie użyj - Nie. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 59 / 79

Regresja Skumulowany lift Tak jak w przypadku drzew decyzyjnych tak i w tym przypadku obie krzywe nie powinny znacząco różnić się od siebie. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 60 / 79

Regresja Wykres wyników Wykres efektów pokazuje wartości współczynników regresji. Zaznaczone są osobnymi kolorami współczynniki dodatnie i ujemne. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 61 / 79

Regresja Statystyki dopasowania Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 62 / 79

Regresja Ostateczny wzór modelu Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 63 / 79

Sieci neuronowe Definicja Zbiór połączonych ze sobą jednostek wejściowo-wyjściowych. Z każdym połączeniem skojarzona jest waga, która może zostać zmieniona w trakcie uczenia. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 64 / 79

Sieci neuronowe W założeniu są to obiekty, które swoim działaniem naśladują aktywność rzeczywistych układów nerwowych w mózgach organizmów żywych. W skutek połączenia szeregu neuronów o stosunkowo prostej budowie i niewielkich możliwościach uzyskuje się strukturę zdolną do przeprowadzania bardzo skomplikowanych procesów rozpoznawania wzorców i klasyfkacji. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 65 / 79

Sieci neuronowe Prosta sieć neuronowa składa się z warstwy wejściowej zawierającej n neuronów (odpowiadających zmiennym) oraz warstwy wyjściowej sumującej ważone impulsy i transformującą je do skali oryginalnej zmiennej Y. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 66 / 79

Sieci neuronowe Podstawowym rozszerzeniem tak opisanej architektury jest model perceptronu wielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowo zawiera warstwę ukrytą. Składa się ona z określonej ilości neuronów, które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów. Pojedynczy neuron z warstwy ukrytej składa się z dwóch elementów: sumatora i funkcji aktywacji. Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwy wejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształca przy użyciu określonej funkcji ciągłej. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 67 / 79

Sieci neuronowe Schemat sieci neuronowej z jedną warstwą ukrytą zawierającą n neuronów. Model opisany dla m zmiennych objaśniających Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 68 / 79

Sieci neuronowe Ustawienia Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 69 / 79

Sieci neuronowe Ustawienia Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 70 / 79

Sieci neuronowe Wyniki Tak jak w poprzednich modelach, również tu wyświetla nam się wykres skumulowanego liftu. Najlepiej jakby obie krzywe nie różniły się znacząco od siebie. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 71 / 79

Sieci neuronowe Wyniki Kolejnym wykresem jaki się ukazuje jest wykres błędu średnokwadratowego. Pionowa kreska pokazuje nam w którym kroku iteracyjnym osiągnięto najlepszy model. W tym przupadku jest to 6 krok. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 72 / 79

Sieci neuronowe Wyniki Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 73 / 79

Porównywanie modeli Statystyki dopasowania Po wybudowaniu kilku modeli należy wybrać, który z nich jest najlepszy i może być wukorystany dla danych. Dopasowanie modelu może być ocenione za pomocą stytystyk dopasowania, oto niektóre z nich Skuteczność klasyfkacji - odsetek poprawnie zaklasyfikowanych przypadków. Miara często używana do oceny modeli klasyfikacyjnych wtedy, gdy każdy z obserwowanych przypadków można traktować z równą wagą. Błąd średniokwadratowy - średnia wartość kwadratu różnicy pomiędzy predykcją a rzeczywistą wartością. W przypadku binarnych zagadnień klasyfikacyjnych wartością przewidywaną jest prawdopodobieństwo, a wartością rzeczywistą 0 lub 1. Maksymalny błąd bezwzględny - wartość bezwzględna największej różnicy pomiędzy wartością przewidywaną a rzeczywistą. Miara oceniająca maksymalny spodziewany błąd predykcji. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 74 / 79

Porównywanie modeli Statystyki dopasowania Statystyka Kołmogorowa-Smirnowa - określa, jak dobrze dwie klasy zmiennej objaśnianej są rozróżniane przez model. Jej wartość obliczana jest jako: max t F 1 (t) F 0 (t) gdzie F 1 (t), F 0 (t) wartości dystrybuanty empirycznej predykcji dla grup obserwacji, w których zmienna objaśniana przyjmuje odpowiednio wartoci 0 i 1. Im większa wartość tej statystyki, tym większe różnice w prawdopodobieństwach przydzielanych obu grupom, a więc tym większa moc dyskryminacyjna modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 75 / 79

Porównywanie modeli Statystyki dopasowania Wzrost (Lift) - miara dla określonego odsetka populacji będącej przedmiotem zagadnienia klasyfikacyjnego. Obliczana jest poprzez podzielenie odsetka zaobserwowanych zdarzeń w górnych n % populacji posortowanej malejąco według przewidywanych prawdopodobieństw przez procent tych samych zdarzeń w całej populacji. Indeks ROC - miara określająca skuteczność modelu w rozpoznawaniu różnic pomiędzy podpopulacjami o różnych wartościach zmiennej objaśnianej. Powstaje poprzez obliczenie pola pod krzywą ROC, im bardziej wykres krzywej skierowany jest w stronę lewego górnego rogu, tym lepsze własności klasyfikacyjne badanego modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 76 / 79

Porównanie modeli Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 77 / 79

Porównanie modeli Wykres ROC Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 78 / 79

Porównanie modeli Lift Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 79 / 79