IX EKSPLORACJA DANYCH

Podobne dokumenty

ALGORYTM RANDOM FOREST

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Algorytmy klasyfikacji

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Analiza danych. TEMATYKA PRZEDMIOTU

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

SZTUCZNA INTELIGENCJA

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Metody selekcji cech

Drzewa decyzyjne i lasy losowe

Aproksymacja funkcji a regresja symboliczna

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Data Mining Wykład 4. Plan wykładu

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Widzenie komputerowe (computer vision)

Proces odkrywania wiedzy z baz danych

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Wprowadzenie do technologii informacyjnej.

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Szkolenie Analiza dyskryminacyjna

Szczegółowy opis przedmiotu zamówienia

Elementy modelowania matematycznego

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Automatyczne wyodrębnianie reguł

Indukowane Reguły Decyzyjne I. Wykład 3

Metody klasyfikacji danych - część 1 p.1/24

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Mail: Pokój 214, II piętro

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Systemy uczące się Lab 4

Optymalizacja systemów

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Spis treści WSTĘP... 9

data mining machine learning data science

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Statystyka matematyczna i ekonometria

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Pattern Classification

Drzewa decyzyjne w SAS Enterprise Miner

Transformacja wiedzy w budowie i eksploatacji maszyn

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Ewelina Dziura Krzysztof Maryański

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Testowanie modeli predykcyjnych

Opis efektów kształcenia dla modułu zajęć

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Statystyka i Analiza Danych

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

w ekonomii, finansach i towaroznawstwie

Projekt Sieci neuronowe

Drzewa Decyzyjne, cz.2

Systemy uczące się wykład 2

Klasyfikacja LDA + walidacja

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Zastosowania metod odkrywania wiedzy do diagnostyki maszyn i procesów

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Optymalizacja ciągła

Weryfikacja hipotez statystycznych

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Metody systemowe i decyzyjne w informatyce

Algorytmy klasyfikacji

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Metody Prognozowania

Metody systemowe i decyzyjne w informatyce

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Modelowanie glikemii w procesie insulinoterapii

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

SZTUCZNA INTELIGENCJA

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Transkrypt:

Zastosowanie drzew decyzyjnych do analizy danych Artur Soroczyński Politechnika Warszawska Instytut Technologii Materiałowych

Terminologia Datamining Drzewa decyzyjne Plan wykładu Przykład wykorzystania programu MineSet do analizy danych Wnioski

Czym jest Eksploracja danych? Definicja1: Nietrywialnie wydobywanie ukrytej, poprzednio nieznanej i potencjalnie użytecznej informacji z danych (W.Frawley, G. Piatetsky-Shapiro, C. Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, 1992) Definicja2: Nauka zajmująca się wydobywaniem informacji z dużych zbiorów danych lub baz danych (D. Hand, H. Mannila, P. Smyt. Principles of Data Mining. MIT Press, Cambridge, MA, 2001)

Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać

Czym Data mining nie jest Procesem nieodzownie związanym z hurtowniami danych; Typowym narzędziem analitycznym i środkiem do tworzenia sprawozdań; Całkowicie zautomatyzowanym procesem; Łatwym, tanim i szybkim do wdrożenia procesem;

Rodzaje problemów i właściwe dla nich metody Data maning Rodzaje problemu Opis zależności Klasyfikacja wzorcowa Metody Statystyczne metody pomiaru zależności Sieci neuronowe typu MLP lub RBF Metody analizy współwystępowania Zbiory przybliżone Funkcje dyskryminacyjne Sieci neuronowe typu MLP Drzewa decyzyjne Systemy regałowe Zbiory przybliżone Metoda k-najbliższych sąsiadów

Rodzaje problemów i właściwe dla nich metody Data maning cd. Klasyfikacja bez wzorcowa Metody taksonomiczne Sieci neuronowe samouczące się Metody redukcji wymiaru przestrzeni danych Metody graficzne Algorytmy genetyczne Analiza szeregów czasowych Problemy wyboru Sieci neuronowe typu MLP lub RBF Metoda analizy sygnałów Metody badań sekwencji Algorytmy genetyczne Sieci neuronowe typu Hopfielda Zbiory przybliżone

Wybór metody Empiryczna wiedza o danym zjawisku; Wielkość zbiorów danych; Sposób wykorzystania wyników ( funkcjonowanie badanego zjawiska, czarna skrzynka, wykres, reguły decyzyjne) ; Dostępność oprogramowania

Drzewo decyzyjne: jest to system operujący na danych typu nominalnego lub porządkowego. Jest strukturą logiczną (grafem) składającą się z elementów : Korzeń (początek drzewa), z którego wychodzą co najmniej dwie gałęzie do węzłów leżących na niższym poziomie Z każdym węzłem związany jest test sprawdzający wartości atrybutów opisujących przykłady (uczące lub zadane, dla których chcemy znaleźć odpowiedź systemu). Dla każdego z możliwych wyników testu odpowiadająca mu gałąź prowadzi do węzła leżącego na niższym poziomie. Węzły, z których nie wychodzą żadne gałęzie są to liście, którym przypisane są klasy.

Drzewo decyzyjne Klasycznym zastosowaniem drzew decyzyjnych jest klasyfikacja Możliwa jest również realizacja zadań typu regresji (aproksymacji funkcji) Uwzględnienie atrybutów o wartościach typu ciągłego wymaga przyjęcia granic przedziałów tych wartości dla testów w węzłach drzewa. Forma uzyskiwanych wyników (zazwyczaj w postaci nierówności) jest inna, niż w przypadku analizy regresji wykonanej innymi metodami, np. statystycznymi.

Drzewa decyzyjne-zalety Drzewa decyzyjne to jedna z najczęściej wykorzystywanych technik analizy danych. Mogą być budowane przy wykorzystaniu algorytmicznych technik "dziel i rządź". Metoda ta jest znana ze swej szybkości. Wykorzystują ją niemal wszystkie algorytmy drzew decyzyjnych uczenia. Doskonale bronią się przed szumem w danych. Mogą być wykorzystywane do selekcji i ekstrakcji cech. Modele drzew są względnie łatwe do zrozumienia przez ludzi. Sąłatwe do wizualizacji.

Drzewa decyzyjne-problemy Testuje się wartość jednego atrybutu na raz, co powoduje niepotrzebny rozrost drzewa dla danych gdzie poszczególne atrybuty zależą od siebie. Niższe partie drzewa mają b. mało danych, przypadkowe podziały. Nie wszystkie koncepcje dają się dobrze ująć za pomocą DT.

Drzewa decyzyjne ze wzmacnianiem (boosted trees) Dla trudnych zadań estymacji i predykcji, przewidywania generowane przez sekwencje prostych drzew są bliższe rzeczywistym wartościom, niż prognozy jednego, złożonego drzewa. Technikę polegającą na stosowaniu sekwencji prostych modeli, przy czym każdy kolejny model przykłada większą "wagę" do tych obserwacji, które zostały błędnie zaklasyfikowane przez poprzednie modele, nazywamy wzmacnianiem (ang. boosting). Drzewa decyzyjne ze wzmacnianiem lepiej modelują zależności złożone (w porównaniu do drzew prostych), ale są trudniejsze w interpretacji oraz wymagają większych nakładów obliczeniowych

Ogólne własności 1. Test (węzeł): - podział pojedynczej cechy lub kombinacji - cecha = {wartość} lub cecha > wartość 2. Kryteria rozbudowy: - maksymalizacja ilości informacji (information gain) - maksymalizacja poprawnie przydzielonej liczby obiektów - czystość węzła (purity of node) 3. Przycinanie (pruning): - usuwanie gałęzi które mają zbyt mało przypadków - ocena optymalnej złożoności na zbiorze walidacyjnym - prostsze drzewo jest łatwiejsze w generalizacji 4. Kryterium stopu (między innymi): -osiągnięta zakładana dokładność podziałów -osiągnięta zakładana ilość gałęzi

Obróbka danych Działania na danych Wizualizacja danych Narzędzia odkrywania wiedzy Zapisywanie danych

Wizualizacja danych- scatter

W. D. - Splat

W. D. - Statistics

W. D. Histogram

Odkrywanie reguł asocjacji Polega na znajdowaniu związków pomiędzy występowaniem grup atrybutów w bazie danych. Podstawowe do oceny reguły stanowią trzy statystyki (zakładamy, że zależność ma postać A=>B): wsparcie (ang. support), czyli procent klientów, którzy zakupili zarówno produkt A i B, ufność (ang. confidence), tj. prawdopodobieństwo, że klient zakupi produkt B, jeśli wiadomo, że posiada on już produkt A współczynnik podwyższenia (ang. lift), o który wzrasta prawdopodobieństwo zakupu produktu B, jeśli wiadomo, że klient posiada produkt A, w porównaniu do sytuacji, gdy nie wiadomo, czy klient ten produkt posiada. Znajdują one zastosowanie najczęściej do analizy koszyka zakupów, pozwalają podejmować decyzje dotyczące np. promocji obniżek cen, reklam i akcji marketingowych lub rozmieszczenia produktów

Odkrywanie reguł asocjacji Statystyczne wskaźniki ważności i siły

Odkrywanie reguł asocjacji -wizualizacja

Odkrywanie reguł asocjacji - tabela

Klastrowanie Polega na znajdowaniu skończonego zbioru kategorii opisujących dane. Kategorie mogą być rozłączne, zupełne, mogą też tworzyć struktury hierarchiczne i nakładające się. Przykładowo, zbiór danych o nieznanych chorobach może zostać w wyniku klastrowania podzielony na szereg grup cechujących się zastosowań klastrowania mogą być: określanie segmentów rynku dla produktu na podstawie informacji o klientach znajdowanie kategorii widmowych spektrum promieniowania nieba

Klastrowanie Single k-means podajemy liczbę klastrów na jaki ma być podzielony zbiór danych Iterative k-means podajemy zakres liczby oczekiwanych klastrów

Klasyfikacja Klasyfikacja polega na znajdowaniu sposobu odwzorowania danych w zbiór predefiniowanych klas. Na podstawie zawartości bazy danych budowany jest model (np. drzewo decyzyjne, reguły logiczne), który służy do klasyfikowania nowych obiektów w bazie danych lub głębszego zrozumienia istniejących klas. Przykładowo, w medycznej bazie danych znalezione mogą być reguły klasyfikujące poszczególne schorzenia, a następnie przy pomocy znalezionych reguł automatycznie może być przeprowadzone diagnozowanie kolejnych pacjentów. Inne przykłady zastosowań klasyfikacji to: rozpoznawanie trendów na rynkach finansowych, automatyczne rozpoznawanie obiektów w dużych bazach danych obrazów, wspomaganie decyzji przyznawania kredytów bankowych.

Klasyfikacja

Drzewo klasyfikacyjne Drzewo klasyfikacyjne jest drzewem, które posiada dodatkowa interpretacje dla węzłów, gałęzi i liści: węzły odpowiadają testom przeprowadzanym na wartościach atrybutów przykładów, węzeł drzewa, który nie ma żadnych węzłów macierzystych nazywamy korzeniem, gałęzie odpowiadają możliwym wynikom tych testów, liście odpowiadają etykietom klas danego problemu dyskryminacji (w konwencji drzewo klasyfikacyjne ma więcej niż 1 liść), drzewo rośnie od góry do dołu.

Drzewo klasyfikacyjne- wizualizacja

Przetrenowanie Model H jest zbytnio dopasowany do danych (overfits) gdy: Istnieje model H taki, że: Błąd-treningowy(H) < Błąd-treningowy(H ) Błąd-testowy(H) > Błąd-testowy(H ) Zbyt szczegółowe wnioski przy dla danej populacji przypadków treningowych. Dokładność jako funkcja liczby węzłów drzewa. Wyniki mogą być gorsze niż dla klasyfikatora większościowego!

Unikanie przetrenowanie Jak uniknąć przetrenowania i radzić sobie z szumem? 1. Zakończ rozwijanie węzła jeśli jest zbyt mało danych by wiarygodnie dokonać podziału. 2. Zakończ jeśli czystość węzłów (dominacja jednej klasy) jest większa od zadanego progu - forward pruning DT => drzewo prawd. klas. 3. Utwórz drzewo a potem je przytnij (backward pruning) 4. Przycinaj korzystając z wyników dla kroswalidacji lub dla zbioru walidacyjnego. 5. Korzystaj z MDL (Minimum Description Length): Min Rozmiar(Drzewa) + Rozmiar(Drzewa(Błędów)) 6. Oceniaj podziały zaglądając poziom (lub więcej) w głąb.

Przycinanie drzew Przycinanie drzew ma na celu rozwiązanie problemu ich nadmiernego dopasowania. Proces ten w uproszczeniu polega na zastąpieniu drzewa wyjściowego jego poddrzewem. Formułując to bardziej obrazowo powiemy, ze ucina się niektóre poddrzewa drzewa wyjściowego, zastępując je liśćmi, którym przypisuje się etykietę klasy najczęściej występującej wśród obserwacji związanych z tym poddrzewem. Drzewo przycięte ma wiec prostsza strukturę, co daje krótszy czas klasyfikacji. Oczywiście dokładność klasyfikacji zbioru uczącego się pogarsza. Przycinanie drzewa odbywa się najczęściej z pomocą zbioru etykietowanych przykładów.

Przycinanie drzew

Drzewa regresyjne Z regresją mamy do czynienie tam, gdzie chcemy poznać wartość zmiennej ciągłej, na podstawie znajomości wartości jednej lub większej liczby predykcyjnych zmiennych ciągłych oraz, ewentualnie zmiennych kategorialnych. Na przykład, interesuje nas cena domu (ciągła zmienna zależna), przy czym znamy różne ciągłe prefyktory (jak np. powierzchnia mieszkania), jak i predyktory kategorialne (jak np. styl architektoniczny, dzielnica miasta, albo kod pocztowy - zmienna na pozór liczbowa, a jednak, w istocie raczej kategorialna). Używając do predykcji ceny domu prostej regresji wielorakiej lub ogólnego modelu liniowego (GLM), poszukujemy linowego równania, za pomocą którego obliczymy interesującą nas cenę. Jest wiele różnych procedur analitycznych dopasowywania do danych liniowych modeli (GLM, GRM, Regresja), modeli nieliniowych (np. Uogólnione modele liniowe i nieliniowe (GLZ), Uogólnione modele addytywne (GAM), itp.), a także modeli nieliniowych, w pełni określanych przez użytkownika (patrz Estymacja nieliniowa), gdzie wpisać można dowolne równanie zawierające parametry, których wartości znajdzie program.

Algorytm umożliwia wybranie atrybutów (kolumn), które najlepiej wyznaczają jeden z atrybutów. Można określić liczbę takich atrybutów oraz takie, o których wiemy, że są istotne i wyszukać następne. Jakość wybranych atrybutów mierzy się współczynnikiem czystości purity. Wybrane kolumny podzielą rekordy na podzbiory. Jeżeli każdy z takich podzbiorów zawiera rekordy przynależne tylko do jednej klasy, to ten podzbiór ma czystość 100. Czystość podzbioru jest 0, jeżeli wszystkie klasy mają równą reprezentację. Wyznaczanie istotności

Wyznaczanie istotności (decyzja wizowa) Wpływ zmiennych na decyzję wizową Istotność zmiennej [%] 90 80 70 60 50 40 30 20 10 0 student drzewo wiek wykształcenie typ wykształcenia majątek

Operacje na danych

Operacje na danych Usuwanie kolumn Dyskretyzacja (Bin columns) - Umożliwia przekształcenie wartości ciągłych w kolumnie lub kolumnach na wartości dyskretne. Użytkownik określa sam wartości graniczne przedziałów lub umożliwia dobór automatyczny Agregacja (Aggregate) - Dodaje rekordy w bazie danych wykonując na ich polach proste operacje jak znalezienie sumy, maksimum, minimum, liczby agregowanych rekordów. Przydatne do usuwania danych nadmiarowych. Filtrowanie (Filter) - Pozwala na usunięcie z danych tych rekordów, które nie spełniają pewnych kryteriów. Kryteriami mogą być wyrażenia wyliczane na podstawie pól rekordu. Np.: usunięcie z bazy rekordów klientów, których wiek jest mniejszy niż 20 lat. Zmiana typu (Change Type) - Umożliwia zmianę nazw kolumn jak i konwersję typów danych. Dodanie kolumny (Add column) - -Podobnie jak filtrowanie umożliwia dodanie kolumny bazującej na wyrażeniu matematycznym z atrybutów pojedynczego rekordu. Zastosowanie modelu (Apply model) - Pozwala na sprawdzenie (zastosowanie) reguł Podział (Sample) - Pozwala wybrać ze zbioru rekordów (danych) przypadkowy podzbiór. Szczególnie przydatne przy dużych zestawach danych lub przy podziale danych na zbiór uczący i zbiór testowy.

Wnioski DT: szybkie i proste. Zalety: Zwykle bardzo dobre wyniki w porównaniu z innymi klasyfikatorami. Łatwe w użyciu, prawie nie mają parametrów do ustawiania. Dane nominalne lub numeryczne. Zastosowania: klasyfikacja i regresja. Prawie wszystkie pakiety Data Mining mają drzewa decyzji. Problemy z DT: mało danych, duża liczba ciągłych cech; niższe partie drzewa mają b. mało danych, przypadkowe podziały; nie wszystkie koncepcje dają się dobrze ująć za pomocą DT, np. większość jest za.

Wnioski Idee rozwoju Drzewa wieloczynnikowe: skośne granice decyzji; drzewa sieci neuronowych; rekursywny podział za pomocą LDA lub FDA Kryteria podziału: informacja w pobliżu korzenia, dokładność w pobliżu liści. przycinanie na podstawie reguł -działa również przy korzeniu; Komitety drzew: wielokrotne uczenie na randomizowanych danych (boosting) uczenie z różnymi parametrami obcinania Drzewa rozmyte

Dziękuję za uwagę!