Wybrane zagadnienia uczenia maszynowego

Podobne dokumenty
Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Drzewa decyzyjne i lasy losowe

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

ALGORYTM RANDOM FOREST

Algorytmy klasyfikacji

INDUKCJA DRZEW DECYZYJNYCH

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

KLASYFIKACJA. Słownik języka polskiego

Wprowadzenie do uczenia maszynowego

Indukowane Reguły Decyzyjne I. Wykład 3

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Metody klasyfikacji danych - część 1 p.1/24

INDUKCJA DRZEW DECYZYJNYCH

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Drzewa Decyzyjne, cz.2

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Wprowadzenie do klasyfikacji

Data Mining Wykład 4. Plan wykładu

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Agnieszka Nowak Brzezińska Wykład III

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Projekt Sieci neuronowe

Agnieszka Nowak Brzezińska Wykład III

Co to są drzewa decyzji

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Systemy uczące się wykład 2

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

TEORETYCZNE PODSTAWY INFORMATYKI

Agnieszka Nowak Brzezińska

Metody selekcji cech

Widzenie komputerowe (computer vision)

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,


Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Elementy modelowania matematycznego

Systemy uczące się Lab 4

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Systemy uczące się wykład 1

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Mail: Pokój 214, II piętro

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Wprowadzenie. Data Science Uczenie się pod nadzorem

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

ED Laboratorium 3. Drzewa decyzyjne

Wprowadzenie do uczenia maszynowego

CLUSTERING. Metody grupowania danych

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Indukcja drzew decyzyjnych

Sztuczna inteligencja : Algorytm KNN

Drzewa klasyfikacyjne algorytm podstawowy

WYKŁAD 1. Wprowadzenie w tematykę kursu

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wyk lad 8: Leniwe metody klasyfikacji

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Metody probabilistyczne klasyfikatory bayesowskie

SZTUCZNA INTELIGENCJA

ALGORYTMY SZTUCZNEJ INTELIGENCJI

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

SPOTKANIE 2: Wprowadzenie cz. I

Metody scoringowe w regresji logistycznej

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Metody oceny podobieństwa

Systemy agentowe. Uwagi organizacyjne. Jędrzej Potoniec

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Baza danych dla potrzeb zgłębiania DMX

Klasyfikacja LDA + walidacja

Analiza danych. TEMATYKA PRZEDMIOTU

Szkolenie Analiza dyskryminacyjna

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

A Zadanie

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Drzewa Decyzyjne, cz.1

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

WYKŁAD 6. Reguły decyzyjne

Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Pattern Classification

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Testowanie modeli predykcyjnych

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Adrian Horzyk

Transkrypt:

Przygotowane na podstawie Wybrane zagadnienia uczenia maszynowego Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec 1. T. Mitchell, Machine Learning 2. S.J. Russel, P. Norvig, Artificial Intelligence A modern approach 3. P. Cichosz, Systemy uczące się Plan 1. Wprowadzenie do UM 1. paradygmat uczenia sie z przykladow 2. problemy klasyfikacji i regresji 2. Klasyfikator minimalnoodleglosciowy 3. Drzewa decyzyjne 4. Rozwinięcia Definicja zadania uczenia Uczenie = automatyczne modyfikowanie (się) systemu uczącego w celu polepszania skuteczności Realizowane przez pozyskiwanie wiedzy z danych uczących Pojęcia podstawowe Dane uczące (training data): dane z których system uczący się uczy się, pozyskując wiedzę System uczący się (learning/induction algorithm) algorytm pozyskujący wiedzę z danych uczących Klasyfikator (classifier) ostateczna reprezentacja wiedzy wygenerowana przez system uczący się Typowy przypadek uŝycia systemu uczącego się Dane uczące Proces uczenia Algorytm uczący się Proces odpytywania Nowa dana (przykład) Nauczony system (np. klasyfikator) Decyzja systemu 1

W ramach tego wykładu ograniczymy się do: Uczenie się z przykładów (learning from examples): dane uczące to przykłady prawidłowych decyzji podjętych w przeszłości (Uczenie się z innych danych niŝ przykłady moŝliwe, ale rzadkie w praktyce) Reprezentacja przykładów w postaci par atrybutwartość (attribute-value) (Inne reprezentacje moŝliwe, np. teksty) Problem gry w tenisa/golfa Cel: Mając dane o warunkach pogodowych, podejmij decyzję czy grać w tenisa czy teŝ nie MoŜliwe sposoby osiągnięcia celu: 1. Ręczna konstrukcja algorytmu (reguły decyzyjnej) => system ekspercki (poza zakresem tego wykładu) 2. Automatyczne pozyskanie wiedzy z danych => uczenie maszynowe Problem gry w tenisa Analogie w terminologii statystycznej Przykłady obserwacje Atrybuty zmienne niezaleŝne Zmienna decyzyjna zmienna zaleŝna Skale atrybutów Nominalna szczególny przypadek: atrybut binarny Porządkowa Metryczne: Przedziałowa Ilorazowa Odmiany zadania uczenia się z przykładów Atrybut decyzyjny (zmienna zaleŝna) dyskretny -> klasyfikacja (classification) Atrybut decyzyjny ciągły -> regresja (regression) W ramach przedmiotu skupimy się na klasyfikacji 2

Motywacje Brak wiedzy o badanym zjawisku Np. robot poruszający się w nieznanym wcześniej środowisku Lenistwo projektanta systemu Czasami łatwiej nauczyć system niŝ konstruować go ręcznie od zera DuŜa liczba atrybutów DuŜa liczba przykładów Reprezentacje wiedzy... stosowane w systemach uczących się: Wybrane przykłady uczące Drzewa decyzyjne Reguły decyzyjne Sieci neuronowe Rozkłady prawdopodobieństw Cele uczenia 1. Skonstruuj moŝliwie prostą hipotezę moŝliwie dobrze opisującą (zgodną z) przykładami uczącymi 2. Skonstruuj model wyjaśniający obserwowane zjawisko Który system/algorytm uczący się jest lepszy? Miary skuteczności systemów uczących się: Trafność/błąd klasyfikowania: procent poprawnie/niepoprawnie zaklasyfikowanych przykładów Czułość/specyficzność Mniej istotne: czasochłonność procesu uczenia czasochłonność procesu testowania PoŜądane właściwości Reprezentacja graficzna PoŜądane właściwości systemów uczących się: Wysoka trafność klasyfikowania w tym na nowych przykładach, czyli => zdolność uogólniania Odporność na szumy (na atr. warunkowych i decyzyjnym) Szybkość działania: Szybkość uczenia Szybkość odpytywania Chwilowo załóŝmy Ŝe: 1. Atrybuty Temperature i Humidity są ciągłe 2. Inne atrybuty są nieistotne 3

Reprezentacja graficzna Humidity Przykłady negatywne (No) Przykłady pozytywne (Yes) Klasyfikatory minimalnoodległościo we Temp Idea Funkcja podobieństwa Klasyfikuj nowe przykłady na podstawie ich podobieństwa do przykładów uczących Uczenie: Zapamiętaj wszystkie przykłady uczące Odpytywanie: Dla nowego przykładu X: Znajdź przykład uczący Y najbardziej podobny do X Zaklasyfikuj X do tej samej klasy do której naleŝy Y Algorytm najbliŝszego sąsiada (nearest neighbour, NN) Zazwyczaj: podobieństwo = 1/odległość (np. odległość Euklidesowa) Im mniejsza odległość, tym większe podobieństwo Działanie klasyfikatora NN Działanie klasyfikatora NN Humidity Przykłady negatywne (No) Przykłady pozytywne (Yes) Humidity Przykłady negatywne (No) Przykłady pozytywne (Yes) Temp Temp 4

Cechy klasyfikatora NN Zalety: Prostota Bardzo szybki proces uczenia Wady: DuŜe zapotrzebowanie na pamięć Powolne odpytywanie Wiedza = przykłady uczące (brak reprezentacji wiedzy) Wszystkie atrybuty są tak samo istotne Znaczna podatność na przeuczenie Rozszerzenia NN knn: wykorzystaj k>1 najbliŝszych sąsiadów do zaklasyfikowania nowego przykładu k najbliŝszych sąsiadów przeprowadza głosowanie (większościowe) nad przynaleŝnością nowego przykładu Klasyfikator knn, k=5 Inne rozszerzenia Humidity Przykłady negatywne (No) Przykłady pozytywne (Yes) Specjalne definicje odległości dla atrybutów dyskretnych/nominalnych Metody zapamiętujące tylko niektóre przykłady uczące (instance-based learning, IBL) Krytyczne jest zapamiętanie przykładów uczących leŝących na granicach klas decyzyjnych Temp Idea IBL2 Humidity Przykłady negatywne (No) Przykłady pozytywne (Yes) Niepotrzebne przykłady uczące Drzewa decyzyjne Temp 5

Testowanie wartości atrybutów Problem gry w tenisa Elementarną operacją wykorzystywaną w drzewach decyzyjnych jest testowanie wartości pojedynczego atrybutu, np. Outlook = Sunny? Temperature > 24? Cechy drzew Cechy drzew decyzyjnych jako formy reprezentacji wiedzy: Węzły odpowiadają testom na atrybutach Krawędzie odpowiadają wartościom atrybutów KaŜdy liść ma przypisaną etykietę klasy decyzyjnej Które drzewo jest najlepsze? Hipotetycznie moŝna by wygenerować wszystkie moŝliwe drzewa i testować czy są zgodne (spójne) ze zbiorem przykładów uczących Problem: jest ich bardzo duŝo (wykładniczo względem liczby atrybutów, 2 2n dla n atrybutów binarnych) Potrzeba innego algorytmu (heurystyki) TDIDT Top-Down Induction of Decision Trees Dla bieŝącego węzła N: 1. Wybierz najlepszy* atrybut A dla N 2. Dla kaŝdej wartości A, utwórz nowy węzeł potomny 3. Skieruj przykłady do węzłów potomnych (stosownie do wartości A) 4. Powtarzaj powyŝsze kroki dla wszystkich węzłów potomnych, aŝ do uzyskania idealnie czystych węzłów 6

Przestrzeń hipotez (drzew) Właściwości TDIDT Rekurencyjna procedura Zachłanny charakter => zbudowane drzewo nie musi być optymalne (heurystyka) Co to znaczy najlepszy atrybut? Idea: 1. Sprawdź dla kaŝdego atrybutu A, co by było gdyby uŝyć go w bieŝącym węźle. 2. Dla kaŝdego takiego scenariusza oceń jakość wygenerowanego poddrzewa 3. Wybierz/zaakceptuj poddrzewo o najwyŝszej jakości Jak zdefiniować jakość poddrzewa? Entropia Entropia Entropia (zawartość informacyjna, information content): miara oceniająca zbiór przykładów pod kątem czystości (jednolitości przynaleŝności do klas decyzyjnych) Dla dwóch klas decyzyjnych (pozytywna, negatywna): p n p p n n I(, ) = log 2 log 2 p + n p + n p + n p + n p + n p + n 7

Information gain Entropia warunkowa: entropia po podziale zbioru przykładów przy pomocy atrybutu A (załóŝmy Ŝe A przyjmuje v moŝliwych wartości): v pi+ ni pi ni EntropiaWarunkowa( A) = I(, ) p + n p + n p n i= 1 i i i + i Zysk informacyjny (Information Gain): redukcja entropii przy wykorzystaniu danego atrybutu: Zalety drzew decyzyjnych Szybkie generowanie klasyfikatora Szybkie klasyfikowanie ( odpytywanie ) klasyfikatora Czytelność IG( A) = I EntropiaWarunkowa( A) Problem przeuczenia Przeuczenie drzewa decyzyjnego Indukowanie wiedzy z niekompletnych danych uczących pociąga za sobą w sposób nieunikniony ryzyko przeuczenia. Formalnie: przeuczenie zachodzi gdy: Trafność(zb_uczący) > Trafność(zb_testujący) Unikanie przeuczenia to jeden z podstawowych problemów w uczeniu maszynowym. Jak uniknąć przeuczenia? Obserwacja: Im dłuŝsza hipoteza (większa liczba warunków elementarnych), tym większe ryzyko przeuczenia Brzytwa Ockhama: preferuj najprostszą hipotezę która pasuje do danych (wyjaśnia dane) Dwie moŝliwości: Zatrzymywać budowanie drzewa gdy podział na węzłach stają się niestotne statystycznie => preprunning Budować pełne drzewo, a następnie je upraszczać => postprunning Przykłady warunków preprunningu Nie dziel dalej węzła N jeŝeli: liczba przykładów w N jest niewarygodnie mała zysk na kryterium jakości jest mało satysfakcjonujący 8

Które drzewo jest najlepsze? Miary oceny jakości drzewa: Trafność na zbiorze uczącym Trafność na osobnym podzbiorze walidującym Trafność + rozmiar drzewa Algorytmy ID3 C4.5 = ID3 + obsługa atrybutów ciągłych + inne metody upraszczania drzewa CART Rozszerzenia Obsługa atrybutów ciągłych Binaryzacja drzew (zwłaszcza w obecności atrybutów nominalnych o licznych dziedzinach) Wyrafinowane algorytmy upraszczania drzew Konwertowanie drzew na reguły decyzyjne Obsługa wartości brakujących (missing values) Uwzględnianie kosztów atrybutów Uzupełnienia Zastosowania Diagnostyka medyczna Diagnostyka techniczna Sterowanie robotami Finanse (np. klasyfikacja wniosków kredytowych, wniosków o karty kredytowe) Internet: filtry antyspamowe Wykrywanie włamań do systemów informatycznych Rozpoznawanie obrazów (np. klasyfikacja obiektów astronimocznych) Zastosowania wojskowe Przykład: Problem medyczny Cięcie cesarskie Drzewo wyindukowane z opisów 1000 pacjentek Przykłady negatywne: zastosowanie cięcia 9

Zadanie regresji Tym razem celem jest przewidywanie (predykcja) wartości ciągłej zmiennej f(x) na podstawie zmiennych niezaleŝnych (poniŝej: x) Zadanie regresji Prosty model (hipoteza) dokonujący w przybliŝeniu poprawnej predykcji Zadanie regresji Bardziej wyrafinowany model: zmniejszenie błędu na wielu przykładach kosztem polepszenia na jednym przykładzie Zadanie regresji Model perfekcyjnie dopasowany do danych uczących. Czy to jest najlepszy model? Zadanie regresji Odpowiedź: niekoniecznie, rzeczywiste zjawisko które wygenerowało obserwacje mogło wyglądać tak: Inne warianty zadania uczenia Uczenie opisywane tutaj to uczenie nadzorowane (supervised learning): dane uczące zawierają poprawną decyzję dla kaŝdego przykładu Inne warianty: Uczenie nienadzorowane (unsupervised learning): decyzje nieznane => m.in. analiza skupień Uczenie ze wzmacnianiem (reinforcement learning) 10