Data Mining Wykład 4. Plan wykładu

Podobne dokumenty
Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

9. Praktyczna ocena jakości klasyfikacji

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Indukowane Reguły Decyzyjne I. Wykład 8

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Systemy uczące się wykład 2

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Laboratorium 6. Indukcja drzew decyzyjnych.

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Laboratorium 4. Naiwny klasyfikator Bayesa.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Wprowadzenie do klasyfikacji

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

Ocena dokładności diagnozy

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

2. Ocena dokładności modelu klasyfikacji:

ALGORYTM RANDOM FOREST

Jakość uczenia i generalizacja

Wprowadzenie do uczenia maszynowego

Laboratorium 5. Adaptatywna sieć Bayesa.

Krzywe ROC i inne techniki oceny jakości klasyfikatorów

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Metody klasyfikacji danych - część 1 p.1/24

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Metody Eksploracji Danych. Klasyfikacja

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS


Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Wprowadzenie do uczenia maszynowego

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Algorytm grupowania danych typu kwantyzacji wektorów

Ćwiczenie 12. Metody eksploracji danych

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

Algorytmy klasyfikacji

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Klasyfikacja. Wprowadzenie. Klasyfikacja (1)

Drzewa decyzyjne i lasy losowe

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Klasyfikacja LDA + walidacja

WYKŁAD 6. Reguły decyzyjne

Automatyczne wyodrębnianie reguł

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Laboratorium 11. Regresja SVM.

TEORETYCZNE PODSTAWY INFORMATYKI

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

Indukowane Reguły Decyzyjne I. Wykład 3

Systemy uczące się Lab 4

Barycentryczny układ współrzędnych

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Technologie Informacyjne

Klasyfikacja. Obcinanie drzewa Naiwny klasyfikator Bayes a knn Dokładność klasyfikacji. Eksploracja danych. Klasyfikacja wykład 3

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Indukcja drzew decyzyjnych

Uczenie maszynowe w zastosowaniu do fizyki cząstek

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Agnieszka Nowak Brzezińska Wykład III

Optymalizacja ciągła

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Zaawansowana eksploracja danych: Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Grupowanie stron WWW. Funkcje oceniające.

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

r. Warszawa UCZENIE SIĘ MASZYN. Drzewa i lasy losowe Dokumentacja końcowa. Autor: Krzysztof Marcinek Prowadzący: Paweł Cichosz

Komitety sieci konwolucyjnych w zagadnieniu klasyfikacji przy jednoczesnym zaszumieniu danych wejściowych oraz etykiet klas. Stanisław Kaźmierczak

Metody Sztucznej Inteligencji II

Metody scoringowe w regresji logistycznej

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Teoria obliczeń i złożoność obliczeniowa

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Wprowadzenie. Data Science Uczenie się pod nadzorem

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Teoretyczne podstawy informatyki

Sprawozdanie z zadania Modele predykcyjne (2)

KRZYWE ROC, CZYLI OCENA JAKOŚCI KLASYFIKATORA I POSZUKIWANIE OPTYMALNEGO PUNKTU ODCIĘCIA

Elementy modelowania matematycznego

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Modelowanie interakcji helis transmembranowych

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Testowanie modeli predykcyjnych

Sztuczna inteligencja : Algorytm KNN

Drzewa Decyzyjne, cz.2

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Transkrypt:

Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje drzew decyzyjnych Co to jest klasyfikacja Polega ona na znajdowaniu odwzorowania danych w zbiór predefiniowanych klas. Budowany jest model (np. drzewo decyzyjne, reguły logiczne), który służy do klasyfikowania nowych obiektów lub głębszego zrozumienia istniejącego podziału obiektów na predefiniowane klasy. Klasyfikacja jest metoda eksploracji danych z nadzorem (z nauczycielem). Proces klasyfikacji składa się z kilku etapów: 1. Budowa modelu, 2. Walidacja modelu, 3. Testowanie modelu, 4. Predykcji nieznanych wartości. 1

Klasyfikacja - Założenia Dane wejściowe: Treningowy zbiór krotek (przykładów, obserwacji, próbek), będących lista wartości atrybutów opisowych (tzw. deskryptorów) i wybranego atrybutu decyzyjnego (ang. class label attribute) Dane wyjściowe: Model (klasyfikator), przydziela każdej krotce wartość atrybutu decyzyjnego w oparciu o wartości pozostałych atrybutów (deskryptorów) Klasyfikator Wartości atrybutu decyzyjnego dzielą zbiór krotek na predefiniowane klasy, składające się z krotek o tej samej wartości atrybutu decyzyjnego. Klasyfikator - Służy do predykcji wartości atrybutu decyzyjnego (klasy) krotek, dla których wartość atrybutu decyzyjnego, tj. przydział do klasy, nie jest znany Proces klasyfikacji Klasyfikacja danych jest 4-etapowym procesem: Etap 1: Budowa modelu (klasyfikatora) opisującego predefiniowany zbiór klas danych lub zbiór pojęć Etap 2: Walidacja modelu (klasyfikatora) na pewnej części danych treningowych Etap 3: Testowanie modelu (klasyfikatora) na nowych danych testowych Etap 4: Zastosowanie opracowanego modelu do klasyfikacji nowych danych 2

Proces uczenia i testowania Zbiór dostępnych krotek (przykładów, obserwacji, próbek) dzielimy na dwa zbiory: zbiór treningowy i zbiór testowy Model klasyfikacyjny (klasyfikator) jest budowany trzyetapowo: Uczenie (trening) klasyfikator jest budowany w oparciu o zbiór treningowy danych Walidacja modelu (klasyfikatora) na pewnej części danych treningowych Testowanie dokładność (jakość) klasyfikatora jest weryfikowana w oparciu o zbiór testowy danych Proces uczenia i testowania Wynik klasyfikacji: Reguły klasyfikacyjne postaci if then Formuły logiczne Drzewa decyzyjne Dokładność modelu: Dla przykładów testowych, dla których znane są wartości atrybutu decyzyjnego, wartości te są porównywane z wartościami atrybutu decyzyjnego generowanymi dla tych przykładów przez klasyfikator Współczynnik dokładności (ang. accuracy rate) = procent przykładów testowych poprawnie zaklasyfikowanych przez model Uczenie 3

Testowanie Dokładność = 3/4 = 75% Klasyfikacja (predykcja) Klasyfikacja a predykcja Dwie metody, które są stosowane do analizy danych i ekstrakcji modeli opisujących klasy danych lub do predykcji trendów: klasyfikacja: predykcja wartości atrybutu kategorycznego (predykcja klasy) predykcja: modelowanie funkcji ciągłych 4

Kryteria oceny metod klasyfikacji Trafność klasyfikacji (ang. Classification / Predictive accuracy) zdolność modelu do poprawnej predykcji wartości atrybutu decyzyjnego (klasy) nowego przykładu Szybkość i skalowalność (ang. Speed): czas uczenia się, szybkość samego klasyfikowania koszt obliczeniowy związany z wygenerowaniem i zastosowaniem klasyfikatora Odporność (ang. Robustness) szum (noise), Brakujące wartości (missing values), zdolność modelu do poprawnej predykcji klas w przypadku braku części danych lub występowania danych zaszumionych Kryteria oceny metod klasyfikacji Zdolności wyjaśniania / Interpretowalność (ang. Interpretability): np. drzewa decyzyjne vs. sieci neuronowe odnosi się do stopnia w jakim konstrukcja klasyfikatora pozwala na zrozumienie mechanizmu klasyfikacji danych Skalowalność / Złożoność struktury (ang. Scalability), np. rozmiar drzew decyzyjnego, miary oceny reguły zdolność do konstrukcji klasyfikatora dla dowolnie dużych wolumenów danych Kryteria dziedzinowo zależne Macierz pomyłek Analiza pomyłek w przydziale do różnych klas przy pomocy tzw. Macierz pomyłek (ang. Confusion matrix) Macierz r r, gdzie kolumny odpowiadają poprawnym klasom decyzyjnym, a wiersze decyzjom przewidywanym przez klasyfikator; na przecięciu wiersza i oraz kolumny j - liczba przykładów n-ij należących oryginalnie do klasy i-tej, a zaliczonej do klasy j-tej Przykład: Przewidywane klasy decyzyjne Rzeczywiste klasy K 1 K 2 K 3 K 1 50 0 0 K 2 0 48 2 K 3 0 4 46 5

Ocena klasyfikatora binarnego Niektóre problemy jedna z klas posiada szczególne znaczenie, np. diagnozowanie poważnej choroby klasyfikacja binarna. Wynik klasyfikacji Pozytywna (True) Rzeczywiste klasy Negatywna (False) Pozytywna (True) TP FP (Błąd typu I) Negatywna (False) FN (Błąd typu II) TN Nazewnictwo (inspirowane medycznie): TP (ang. true positive) liczba poprawnie sklasyfikowanych przykładów z wybranej klasy (ang. hit), FP (ang. false positive) liczba przykładów błędnie przydzielonych do wybranej klasy, podczas gdy w rzeczywistości do niej nie należą (fałszywy alarm z ang. false alarm). FN (ang. false negative) liczba błędnie sklasyfikowanych przykładów z tej klasy, tj. decyzja negatywna podczas gdy przykład w rzeczywistości jest pozytywny (błąd pominięcia - z ang. miss), TN (ang. true negative) liczba przykładów poprawnie nie przydzielonych do wybranej klasy (poprawnie odrzuconych z ang. correct rejection), Miary klasyfikatora Trafność klasyfikacji (ang. classification accuracy) (Acc) TP TN ACC 100% TP TN FP FN Błąd klasyfikowania (ang. failed detection) (FD) FN FP FD 100% TP FN Wrażliwość / czułość (ang. sensitivity) (Se) TP SE 100% TP FN Specyficzność (ang. specificity) (Sp) TN SP 100% FP TN Wnikliwszą analizę działania klasyfikatorów binarnych dokonuje się w oparciu o analizę krzywej ROC, (ang. Receiver Operating Characteristic). Miary klasyfikatora na Macierzy pomyłek 6

Analiza macierzy spróbuj rozwiązać TP TN SE 100%??? SP 100%??? TP FN FP TN Wynik klasyfikacji 1 Rzeczywiste klasy 0 1 60 80 0 30 20 60+30 = 90 przykładów w danych należało do Klasy 1 80+20 = 100 przykładów było w Klasy 0 90+100 = 190 łączna liczba przykładów Analiza krzywej ROC Każda technika budowy klasyfikatora może być scharakteryzowana poprzez pewne wartości miar sensitivity i specificity. Graficznie można je przedstawić na wykresie sensitivity vs. 1 specificity. Krzywa ROC Algorytm może być parametryzowany, i w rezultacie otrzymuje się serie punktów odpowiadających doborowi parametrów. Sensitivity Połącz punkty krzywą ciągła 1-Specificty Wykres nazywany krzywą ROC. 7

ROC - analiza Im krzywa bardziej wygięta ku górnemu lewemu narożnikowi, tym lepszy klasyfikator. Sensitivity Przekątna odpowiada losowemu zgadywaniu. Im bliżej niej, tym gorszy klasyfikator 1-Specificty Można porównywać działanie kilku klasyfikatorów. Miary oceny np. AUC pole pod krzywą,.. Sformułowanie problemu Dana jest baza danych przykładów, z których każdy należy do określonej klasy, zgodnie z wartością atrybutu decyzyjnego. Celem klasyfikacji jest znalezienie modelu dla każdej klasy Klasyfikacja poprzez indukcje drzew decyzyjnych (1) drzewo decyzyjne jest grafem o strukturze drzewiastej, gdzie każdy wierzchołek wewnętrzny reprezentuje test na atrybucie (atrybutach), każdy łuk reprezentuje wynik testu, każdy liść reprezentuje pojedyncza klasę lub rozkład wartości klas 8

Klasyfikacja poprzez indukcje drzew decyzyjnych (2) Drzewo decyzyjne rekurencyjnie dzieli zbiór treningowy na partycje do momentu, w którym każda partycja zawiera dane należące do jednej klasy, lub, gdy w ramach partycji dominują dane należące do jednej klasy Kady wierzchołek wewnętrzny drzewa zawiera tzw. punkt podziału (ang. split point), którym jest test na atrybucie (atrybutach), który dzieli zbiór danych na partycje Klasyfikacja poprzez indukcje drzew decyzyjnych (3) Algorytm podstawowy: algorytm zachłanny, który konstruuje rekurencyjnie drzewo decyzyjne metoda top-down w sposób dziel i rządź (ang. divide-and-conquer) Wiele wariantów algorytmu podstawowego. Podstawowa różnica: kryterium podziału czyli sposobu w jaki tworzone są nowe węzły wewnętrzne w drzewie decyzyjnym, używanego podczas fazy budowania drzewa decyzyjnego Metoda podziału powinna maksymalizować dokładność konstruowanego drzewa decyzyjnego, lub innymi słowy minimalizować błędna klasyfikacje rekordów danych. Fazy algorytmu Algorytm jest wykonywany w dwóch fazach: Faza 1: Konstrukcja drzewa decyzyjnego w oparciu o zbiór treningowy Faza 2: Obcinanie drzewa w celu poprawy dokładności, interpretowalności i uniezależnienia się od efektu przetrenowania 9

Konstrukcja drzewa W fazie konstrukcji drzewa, zbiór treningowy jest dzielony na partycje, rekurencyjnie, w punktach podziału do momentu, gdy każda z partycji jest czysta (zawiera dane należące wyłącznie do jednej klasy) lub liczba elementów partycji jest dostatecznie mała (spada poniżej pewnego zadanego progu) Postać testu stanowiącego punkt podziału zależy od kryterium podziału i typu danych atrybutu występującego w teście: dla atrybutu ciągłego A, test ma postać wartość(a) < x, gdzie x należy do dziedziny atrybutu A, x dom(a) dla atrybutu kategorycznego A, test ma postać wartość(a) X, gdzie X dom(a) Algorytm konstrukcji drzewa Make Tree (Training Data D) { Partition(D) } Partition(Data S) { if (all points in S are in the same class) then return for each attribute A do evaluate splits on attribute A; } use best split found to partition S into S1 and S2 Partition(S1) Partition(S2) Algorytm konstrukcji drzewa W trakcie budowy drzewa decyzyjnego, wybieramy taki atrybut i taki punkt podziału, określający wierzchołek wewnętrzny drzewa decyzyjnego, który najlepiej dzieli zbiór danych treningowych należących do tego wierzchołka Do oceny jakości punktu podziału zaproponowano szereg kryteriów (wskaźników) 10

Podsumowanie Metody klasyfikacji Kryteria oceny metod klasyfikacji Sformułowanie problemu Klasyfikacja poprzez indukcje drzew decyzyjnych 11