Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018

Podobne dokumenty
Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa

Drzewa decyzyjne w SAS Enterprise Miner

Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98

Eksploracja danych. Definicja (Eksploracja danych)

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

ALGORYTM RANDOM FOREST

Projekt Sieci neuronowe

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Zastosowania sieci neuronowych

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Wprowadzenie do analizy korelacji i regresji

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Próba własności i parametry

Badanie zależności skala nominalna

Zmienne zależne i niezależne

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Analiza składowych głównych. Wprowadzenie

MODELE LINIOWE. Dr Wioleta Drobik

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Elementy statystyki wielowymiarowej

5. Model sezonowości i autoregresji zmiennej prognozowanej

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Rozkład materiału nauczania

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

You created this PDF from an application that is not licensed to print to novapdf printer (

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Regresja linearyzowalna

Wydział Matematyki. Testy zgodności. Wykład 03

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Sieci neuronowe w Statistica

Wojciech Skwirz

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wprowadzenie do analizy dyskryminacyjnej

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Regresja logistyczna (LOGISTIC)

Jak przekształcać zmienne jakościowe?

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

4. Średnia i autoregresja zmiennej prognozowanej

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sposoby prezentacji problemów w statystyce

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Wykład 4 Związki i zależności

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

Analiza danych. TEMATYKA PRZEDMIOTU

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Drzewa decyzyjne i lasy losowe

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Przykład Rezygnacja z usług operatora

Rozkład materiału nauczania

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Testowanie modeli predykcyjnych

Algorytmy klasyfikacji

8. Neuron z ciągłą funkcją aktywacji.

Rozkład materiału nauczania

Ćwiczenie 6. Transformacje skali szarości obrazów

Analiza autokorelacji

Wprowadzenie do uczenia maszynowego

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza składowych głównych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

3. Modele tendencji czasowej w prognozowaniu

Systemy uczące się Lab 4

Analiza regresji - weryfikacja założeń

Niestandardowa tabela częstości

Grupowanie materiału statystycznego

Systemy uczące się wykład 2

Monte Carlo, bootstrap, jacknife

Transkrypt:

Data mining Maciej Jędrzejczyk Paulina Konecka Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska 14 czerwca 2018 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 1 / 79

Spis treści 1 Wstęp Definicja SAS Enterprise SEMMA Opis Danych 2 Sample Wczytywanie danych Partycjonowanie 3 Explore 4 Modify 5 Model Drzewa decyzyjne Regresja Sieci neuronowe 6 Assess Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 2 / 79

Czym jest Data Mining? Data Mining (eksploracja danych) - jest to proces odkrywania wzorców w dużych zbiorach danych. Jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 3 / 79

Cel Data Mining u Ogólnym celem procesu eksploracji danych jest wydobycie informacji z zestawu danych i przekształcenie go w zrozumiałą strukturę. Termin jest mylący, ponieważ celem jest wydobywanie wzorców i wiedzy z dużych ilości danych, a nie eksploracja (wydobywanie) samych danych. Rzeczywiste zadanie eksploracji danych to półautomatyczna lub automatyczna analiza dużych ilości danych w celu wyodrębnienia wcześniej nieznanych, interesujących wzorców, takich jak grupy rekordów danych (analiza skupień), nietypowe rekordy (wykrywanie anomalii) i zależności (wyszukiwanie reguł asocjacyjnych, sekwencyjne modelowanie). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 4 / 79

Zastosowanie Data Mining u Wzorce te można następnie postrzegać jako rodzaj podsumowania danych wejściowych i można je wykorzystać w dalszej analizie, uczeniu maszynowym, analizie predykcyjnej itp.. Na przykład, etap eksploracji danych może identyfikować wiele grup w danych, które można następnie wykorzystać do uzyskania bardziej dokładnych wyników prognozowania za pomocą systemu wspomagania decyzji. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 5 / 79

Metody Data Mining u Data Mining nie narzuca nam konkretnej metody działania, możemy posłużyć się wieloma metodami statystycznymi takimi jak: Drzewa decyzyjne, Regresja, Sieci neuronowe, Metody ewolucyjne, Metody uczenia maszynowego, Zbiory przybliżone. W prezentacji przybliżymy trzy pierwsze metody. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 6 / 79

SAS Enterprise Miner SAS Enterprise Miner jest narzędziem umożliwiającym tworzenie modeli predykcyjnych i opisywania dużych zbiorów danych. Jest jednym z popularniejszych programów używanych do Data Mining u. Dodatkowo mamy możliwość wygenerowania kodu w języku SAS 4GL. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 7 / 79

SEMMA SEMMA(Sample, Explore, Modify, Model, Asses) opisuje calość Data Mining u z poziomu narzędzi analitycznych SAS. Jest ona rozumiana jako rozbicie tego procesu na pięc powiązanych ze sobą etapów: Sample -przygotowanie i podział wejściowej próby danych, Explore-exploracja danych, służąca ocenie ich jakokści oraz wstęonej identyfikacji zależności pomiędzy zmiennymi, Modify- modyfikacja danych, służąca poprawie ich jakości, spełnieniu założeń metod modelowania, Model-modelowanie przy użyciu takich metod jak drzewa decyzyjne, regresja czy sieci neuronowe, Assess- ocena modeli i wybór najlepszego z nich. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 8 / 79

Dane Analizie poddany zostanie zbiór HMEQ, zanjdujący się w bibliotece SAMPSIO. ZAwiera on 13 zmiennych. Poniżej przedstawiono opis tych zmiennych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 9 / 79

Dane Nazwa Typ Opis BAD Binarna 1 gdy kredutobiorca nie spłacił kredytu CLADGE Przedziałowa czas najdłuższego kredytu w miesiącach CLNO Przedziałowa ilość zobowiązań kredytowych DEBTINC Przedziałowa stosunek kredytu do dochodu DELINQ Przedziałowa liczba zobowiązań z zalegającą zapłatą DEROG Przedziałowa liczba krytycznych raportów JOB Nominalna rodzaj wykonywanego zawodu LOAN Przedziałowa kwota pozostała do spłaty MORTDUE Przedziałowa wysokość hipoteki NINQ Przedziałowa ilość złożónych wniosków kredytowych REASON Binarna powód wzięcia kredytu VALUE Przedziałowa wartośc obecna hipoteki YOJ Przedziałowa staż w obecnej pracy w latach Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 10 / 79

Rysunek: Wczytywanie danych Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 11 / 79 Sample Import danych Aby wczytać zródło danych przechodzimy do Utwórz źrodło danych Tabela sasowa Przeglądaj Sampsio HMEQ. Następnie musimy zmienić rolę i poziom danych,tak jak jest to przedstawione poniżej.

Sample Partycjonowanie Kolejnym etapem jest partycjonowanie. Węzeł ten jest węzłem podziału zbioru danych na zbiory: treningowy, walidacyjny i testowy. Gdzie zbiór: treningowy jest zbiorem danych, na podstawie których wykrywamy możliwe zależności między zmiennymi, jest używany do wstępnego oszacowania parametrów modelu, liczebność tej próby powinna wynosić od 40% do 70% próby wejściowej walidacyjny jest używany do dostrojenia parametrów modelu, które zostały oszacowane w oparciu o zbiór treningowy, testowy jest zbiorem, który służy do zbadania, na ile wykryte zaleności są prawdziwe dla innych zbiorów danych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 12 / 79

Sample Metody partycjonowania Simple Random dokonuje podziału zbioru danych na podzbiory: treningowy, walidacyjny i testowy w sposób losowy, oparty na losowaniu, gdzie prawdopodobieństwo wejścia do każdego z podzbiorów jest dla każdej obserwacji takie samo, Stratified czyli losowanie warstwowe, Cluster czyli losowanie klastrowe, Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 13 / 79

Sample Partycjonowanie Jeżeli mamy wybraną zmienną celu(objaśnianą) to wybieramy domyślną metodę partycjonowania: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 14 / 79

Explore Eksploracja danych W tej części zajmiemy się badaniem danych, czyli zaprezentowaniem statystyk opisowych. W tym celu posłużymy się wezłęm o nazwie Exploracja statystyk. Aby korelacje pomiędzy zmiennymi o różnych typach były obliczne tą samą metodą, trzeba umożliwić oblicznie statystyki Chi-kwadrat dla zmiennych przedziałowych: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 15 / 79

Explore Statystyki opisowe Rysunek: Statystyki opisowe Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 16 / 79

Explore Statystyka Chi-kwadrat SAS wyświetla nam również statystykę Chi-kwadrat dzięki której możemy określić istotność zmiennych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 17 / 79

Informacje na temat zmiennych możemy także uzyskać poprzez : HMEQ Edytuj zmienne Eksploruj W ten sposób np dla zmiennej CLAGE uzyskujemy następujący wykres rozkładu : Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 18 / 79

Explore Wykresy Ważną rolę podczas eksploracji danych pełnią wykresy dzięki kórym możemy zobaczyć dane. Użyjemy do tego węzła Wykresy różne, węzeł ten generuje wykresy słupkowe zliczające ilość wystąpień wartości danej zmiennej. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 19 / 79

Explore Wykresy Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 20 / 79

Explore Wykresy Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 21 / 79

Explore Wykresy Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 22 / 79

Explore Korelacja Silne korelacje między niezależnymi zmiennymi mogą działać na niekorzyść tworzonych modeli, macierz korelacji możemy wywołać za pomocą edytora programów i poniższego kodu. Rysunek: Korelacja Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 23 / 79

Explore Korelacja Rysunek: Korelacja Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 24 / 79

Modify Gdy już posiadamy pewną wiedzę o danych, należy przygotować zbiór do modelowania. Zajmiemy się porzuceniem nieistotnych oraz silnie skorelowanych zmiennych. Na tym etapie obserwujemy pierwsze różnice między wybranymi przez nas modelami. Dzieje się tak, ponieważ drzewa decyzyjne radzą sobie z brakami danych, natomiast regresja logistyczna i sieci neuronowe pomijają zmienne, w których występują braki danych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 25 / 79

Modify Porzucanie zmiennych Podczas eksploracji statystyk otrzymaliśmy, że zmienna Reason jest nieistotna oraz można spróbować usunąć zmienną Mortdue, która jest silnie skorelowana ze zmienną Value (korelacja wynosi około 0,88). Robimy to za pośrednictwem węzła Porzucanie w następujący sposób: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 26 / 79

Drzewa decyzyjne W praktycznych zastosowaniach modeli predykcyjnych istotna jest łatwość interpretacji i wyjaśnienia generowanych wyników. Bardzo pomocne są przy tym drzewa decyzyjne, które generują zależności w postaci zbioru warunków logicznych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 27 / 79

Drzewa decyzyjne Budowa drzewa Budowa drzewa rozpoczyna się od podziału korzenia. Szukamy takiego podziału. który pozwoli znaleźć grupę charakteryzującą się wysoką jednorodnością ze względu na wartość zmiennej objaśnianej. Zatem dokonujemy podziału za pomocą wzoru: Wzór Z = Z 0 + r n=i n i n 0 Z i Z 0 -stopień niejednorodności dzielonego elementu, Z i - stopień niejeednorodności i-tego elementu powstającego w wyniku podziału, n 0 -liczebność dzielonego elementu, n i -liczebność i-tego elementu powstającego w wyniku podziału, r-liczba elementów powstających w wyniku podziału. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 28 / 79

Drzewa decyzyjne Miary niejednorodności Współczynnik Giniego k Z = 1 pi 2 n=i Współczynnik Entropii k Z = H(p 1,..., p k ) = pi 2 log 2 (p i ) n=i Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 29 / 79

Współczynnik Giniego - przykład Weźmy przykładowy zbiór danych: Id Wiek Typ sam Ryzyko 0 23 family high 1 17 sport high 2 43 sport high 3 68 family low 4 32 truck low 5 20 family high Zmienna Ryzyko jest naszą zmienną celu, atrybutami względem, których będziemy dzielić zbiór wejściowy to Wiek i Typ sam. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 30 / 79

Współczynnik Giniego - przykład Punkt podziału g split dany jest wzorem: g split = m 1 + n 1 m + n Z 1 + m 2 + n 2 m + n Z 2, gdzie: m i, n i - liczba elementów w S i należących do klas High i Low. Dla wieku mamy następujące punkty podziału: Wiek 17, Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68, Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 31 / 79

Współczynnik Giniego - przykład Rozważmy Wiek 23, otrzymujemy tabelę: High Low Wiek 23 3 0 Wiek> 23 1 2 Wartości współczynników Ginniego oraz punkt podziału wynoszą: Z 1 = Z(Wiek 23) = 1 (( 3 3 )2 + 0 2 ) = 0 Z 2 = Z(Wiek > 23) = 1 (( 1 3 )2 + ( 2 3 )2 ) = 4 9 g split = 0 + 3 6 4 9 = 2 9 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 32 / 79

Współczynnik Giniego - przykład Analogicznie liczymy współczynniki Giniego i punkty podziału dla pozostałych przedziałów wieku. Wyniki prezentują się następująco: Wiek 17, g split = 0, 4, Wiek 20, g split = 0, 33, Wiek 32, g split = 0, 42, Wiek 43, g split = 0, 4, Wiek 68, g split = 0, 44. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 33 / 79

Współczynnik Giniego - przykład Najmniejszą wartość g split = 0, 22 otrzymaliśmy dla podziału Wiek 23 więc dostajemy drzewo postaci: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 34 / 79

Współczynnik Giniego - przykład Zauważamy, że dla Wiek 23 Ryzyko zawsze jest wysokie więc tej gałęzi już nie rozwijamy. Przyjrzyjmy się przypadku, gdy Wiek>23, jeżeli Typ sam={sport} to ryzyko jest wysokie, a dla pozostałych ryzyko jest niskie. Co ostatecznie do drzewa postaci: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 35 / 79

Entropia i zysk informacyjny Do wyboru atrybutu testowego w wierzchołku drzewa decyzyjnego wykorzystujemy miare zysku informacyjnego. W tym celu wybieramy atrybut o najwiekszej wartosci zysku (lub o najwiekszej redukcji entropii). Niech S oznacza zbiór przykładów, oraz atrybut decyzyjny posiada m różnych wartości(definującyh klasy C i, i = 1, 2,..., m). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 36 / 79

Entropia i zysk informacyjny Entropia Entropię podziału zbioru S, ze względu na atrybut A definiujemy: gdzie: E(a 1, a 2,..., a k ) = k j=1 (s 1j + s 2j +... + s mj ) H(s 1j, s 2j,..., s mj ), s a i - wartości przyjmowane przez argument A, H - współczynnik entropii. Zysk inforacyjny Gain(A) = H(s 1, s 2,..., s m ) E(A) A = {a 1, a 2,..., a k } Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 37 / 79

Entropia i zysk informacyjny - przykład Rozważmy tabelę: Niech atrybutem decyzyjnym będzie atrybut kupi komputer. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 38 / 79

Entropia i zysk informacyjny - przykład Atrybut kupi komputer przyjmuje dwie wartości, stąd otrzymujemy dwie klasy: C 1 - kupi komputer= tak, zawiera 9 elementów, C 2 - kupi komputer= nie, zawiera 5 elementów. Obliczmy współczynnik entropi dla zmiennej kupi komputer: H(9, 5) = 9 14 log 2( 9 14 ) 5 14 log 2( 5 ) = 0, 94 14 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 39 / 79

Entropia i zysk informacyjny - przykład Następnie obliczmy entropię dla zmiennych. Przyjżyjmy się zmiennej Dochód, widzimy że przyjmuje 3 wartości więc musimy obliczyć trzy następujące współczynniki entropi. wysoki s 11 = 2-ilość osób z wysokim dochodem, które kupią komputer, s 21 = 2-ilość osób z wysokim dochodem, które nie kupią komputera H(2, 2) = 1 średni s 12 = 4, s 22 = 2 H(4, 2) = 0, 918 niski s 13 = 3, s 23 = 1 H(3, 1) = 0, 811 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 40 / 79

Entropia i zysk informacyjny - przykład Entropię dla dochodu wynosi: E( Dochód ) = 4 14 1 + 6 4 0, 918 + 0, 811 = 0, 911 14 14 Kolejno podstawiamy otrzymane wartości do wzoru na zysk informacyjny: Gain( Dochód ) = 0, 94 0, 911 = 0, 029 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 41 / 79

Entropia i zysk informacyjny - przykład Analogicznie liczymy zysk informacyjny dla pozostałych zmiennych: Zysk informacyjny Gain( Wiek ) = 0, 277 Gain( student ) = 0, 151 Gain( Status ) = 0, 048 Jako pierwszy wybieramy atrybut z największym zyskiem informacyjnym. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 42 / 79

Entropia i zysk informacyjny - przykład Więc pierwszego podziału dokonamy dla zmiennej Wiek. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 43 / 79

Entropia i zysk informacyjny - przykład Dalej postępując analogicznie obliczamy zysk informacyjny dla pozostałych zmiennych dla zmiennej Wiek przyjmującej wartość 30 oraz > 40. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 44 / 79

Drzewa decyzyjne Ustawienia drzewa Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 45 / 79

Drzewa decyzyjne Score Ranking Overlay Jest to porównanie wykresów wzrostu lift(korzysci, pozytywnych odpowiedzi) dla zbioru treningowego i walidacyjnego. Obie krzywe nie powinny dużo różnić się od siebie, jesli tak jest, świadczy to o przetrenowaniu lub niedotrenowaniu modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 46 / 79

Drzewa decyzyjne Score Ranking Overlay Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 47 / 79

Drzewa decyzyjne Statystyki liściowe Kolejne kryterium to statystyki liściowe. Poniższy wykres porównuje w tym przypadku udział procentowy wartości Unknown zmiennej objasnianej we wszystkich lisciach dla danych treningowych i walidacyjnych. Jeżeli są duże różnice w wysokościach słupków, to dany liść należy przyciąć. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 48 / 79

Frame Title Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 49 / 79

Drzewa decyzyjne Fit Statistics Kolejnym elementem, który omówimy sa statystyki dopasowania. Poniższa tabela pokazuje porównanie statystyk dopasowania w zbiorze treningowym i walidacyjnym. Duże różnice w wartościach statystyk dopasowania mogą wskazywać na przetrenowanie lub niedotrenowanie modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 50 / 79

Drzewa decyzyjne Mapa drzewa Wykres pokazuje strukturę drzewa. Powierzchnia prostokątów odpowiada liczebności w danych węzłach drzewa. Kolory wskazują jednorodność populacji w węzłach (czerwone najbardziej jednorodne) Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 51 / 79

Drzewa decyzyjne Mapa drzewa Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 52 / 79

Drzewa decyzyjne Drzewo Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 53 / 79

Drzewa decyzyjne Interpretacja Na wykresie widzimy nazwę zmiennej oraz warunek według, których dokonywany jest podział. Widzimy również procentowy rozkład danych w zbiorze uczącym i walidacyjnym informuje nas o tym także kolor węzła (im ciemniejszy tym mniej różnorodne dane). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 54 / 79

Regresja Węzeł Regresja umożliwia dopasowanie do danych zarówno modeli regresji liniowej, jak i logistycznej. Jako danych wejściowych można używać zmiennych ciągłych i dyskretnych. Węzeł obsługuje metody wybierania krokowego, do przodu i do tyłu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 55 / 79

Regresja Przygotowanie danych Zanim przejdziemy do regresji musimy odpowiednio przygotować dane. Zatem na początek za pomocą węzła Imputacja uzupełnimy braki danych. Można to zrobic na kilka sposobów: Wykorystująć miary tendencji centralnej, czyli średnią,modę, medianę, Wylosowując wartości zgodnie z rozkładem zmiennej, Wykorzystując drzewo decyzyjne, W tym przykładzie do zastąpienia braków danych zastosowano medianę. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 56 / 79

Regresja Przygotowanie danych Aby zastosować regresje logistyczną, ważne jest żeby rozkład zmiennych ciągłych miał skośność bliską zeru. Jeśli w statystykach opisowych wartości skośności wyszły powyżej 5 trzeba zastosować węzęł Przekształcenie zmiennych Dla węzła Przekształcenia zmiennych wszelkie ustawienia pozastawiamy domyślne. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 57 / 79

Regresja Często przy dużej ilości zmiennych klasyfikujących możemy mieć problem z ich optymalnym doborem do modelu. Można je wyselekcjonować następującymi metodami: Krokowa wprzód(forward)-najpierw dobieramy wyraz wolny, następnie dobieramy pojedynczo zmienne, Krokowa wstecz(backward)- Zaczynamy od doboru wszystich zmiennych i usuwamy kolejno najmniej istotne, Krokowa- Metoda analogiczna do metody Forward, z różnicą, że po każdym kroku bada się istotność zmiennych obecnych już w modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 58 / 79

Regresja Ustawienia modelu Dodatkowo z naszego modelu regresji wyrzucamy zmienne tekstowe. W tym celu klikamy prawym przyciskiem na węzeł Regresja Edytuj zmienne dla zmiennych IMP JOB wybieramy w kolumnie użyj - Nie. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 59 / 79

Regresja Skumulowany lift Tak jak w przypadku drzew decyzyjnych tak i w tym przypadku obie krzywe nie powinny znacząco różnić się od siebie. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 60 / 79

Regresja Wykres wyników Wykres efektów pokazuje wartości współczynników regresji. Zaznaczone są osobnymi kolorami współczynniki dodatnie i ujemne. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 61 / 79

Regresja Statystyki dopasowania Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 62 / 79

Regresja Ostateczny wzór modelu Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 63 / 79

Sieci neuronowe Definicja Zbiór połączonych ze sobą jednostek wejściowo-wyjściowych. Z każdym połączeniem skojarzona jest waga, która może zostać zmieniona w trakcie uczenia. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 64 / 79

Sieci neuronowe W założeniu są to obiekty, które swoim działaniem naśladują aktywność rzeczywistych układów nerwowych w mózgach organizmów żywych. W skutek połączenia szeregu neuronów o stosunkowo prostej budowie i niewielkich możliwościach uzyskuje się strukturę zdolną do przeprowadzania bardzo skomplikowanych procesów rozpoznawania wzorców i klasyfkacji. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 65 / 79

Sieci neuronowe Prosta sieć neuronowa składa się z warstwy wejściowej zawierającej n neuronów (odpowiadających zmiennym) oraz warstwy wyjściowej sumującej ważone impulsy i transformującą je do skali oryginalnej zmiennej Y. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 66 / 79

Sieci neuronowe Podstawowym rozszerzeniem tak opisanej architektury jest model perceptronu wielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowo zawiera warstwę ukrytą. Składa się ona z określonej ilości neuronów, które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów. Pojedynczy neuron z warstwy ukrytej składa się z dwóch elementów: sumatora i funkcji aktywacji. Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwy wejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształca przy użyciu określonej funkcji ciągłej. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 67 / 79

Sieci neuronowe Schemat sieci neuronowej z jedną warstwą ukrytą zawierającą n neuronów. Model opisany dla m zmiennych objaśniających Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 68 / 79

Sieci neuronowe Ustawienia Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 69 / 79

Sieci neuronowe Ustawienia Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 70 / 79

Sieci neuronowe Wyniki Tak jak w poprzednich modelach, również tu wyświetla nam się wykres skumulowanego liftu. Najlepiej jakby obie krzywe nie różniły się znacząco od siebie. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 71 / 79

Sieci neuronowe Wyniki Kolejnym wykresem jaki się ukazuje jest wykres błędu średnokwadratowego. Pionowa kreska pokazuje nam w którym kroku iteracyjnym osiągnięto najlepszy model. W tym przupadku jest to 6 krok. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 72 / 79

Sieci neuronowe Wyniki Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 73 / 79

Porównywanie modeli Statystyki dopasowania Po wybudowaniu kilku modeli należy wybrać, który z nich jest najlepszy i może być wukorystany dla danych. Dopasowanie modelu może być ocenione za pomocą stytystyk dopasowania, oto niektóre z nich Skuteczność klasyfkacji - odsetek poprawnie zaklasyfikowanych przypadków. Miara często używana do oceny modeli klasyfikacyjnych wtedy, gdy każdy z obserwowanych przypadków można traktować z równą wagą. Błąd średniokwadratowy - średnia wartość kwadratu różnicy pomiędzy predykcją a rzeczywistą wartością. W przypadku binarnych zagadnień klasyfikacyjnych wartością przewidywaną jest prawdopodobieństwo, a wartością rzeczywistą 0 lub 1. Maksymalny błąd bezwzględny - wartość bezwzględna największej różnicy pomiędzy wartością przewidywaną a rzeczywistą. Miara oceniająca maksymalny spodziewany błąd predykcji. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 74 / 79

Porównywanie modeli Statystyki dopasowania Statystyka Kołmogorowa-Smirnowa - określa, jak dobrze dwie klasy zmiennej objaśnianej są rozróżniane przez model. Jej wartość obliczana jest jako: max t F 1 (t) F 0 (t) gdzie F 1 (t), F 0 (t) wartości dystrybuanty empirycznej predykcji dla grup obserwacji, w których zmienna objaśniana przyjmuje odpowiednio wartoci 0 i 1. Im większa wartość tej statystyki, tym większe różnice w prawdopodobieństwach przydzielanych obu grupom, a więc tym większa moc dyskryminacyjna modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 75 / 79

Porównywanie modeli Statystyki dopasowania Wzrost (Lift) - miara dla określonego odsetka populacji będącej przedmiotem zagadnienia klasyfikacyjnego. Obliczana jest poprzez podzielenie odsetka zaobserwowanych zdarzeń w górnych n % populacji posortowanej malejąco według przewidywanych prawdopodobieństw przez procent tych samych zdarzeń w całej populacji. Indeks ROC - miara określająca skuteczność modelu w rozpoznawaniu różnic pomiędzy podpopulacjami o różnych wartościach zmiennej objaśnianej. Powstaje poprzez obliczenie pola pod krzywą ROC, im bardziej wykres krzywej skierowany jest w stronę lewego górnego rogu, tym lepsze własności klasyfikacyjne badanego modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 76 / 79

Porównanie modeli Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 77 / 79

Porównanie modeli Wykres ROC Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 78 / 79

Porównanie modeli Lift Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 79 / 79