mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Podobne dokumenty
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Dariusz Brzeziński. Politechnika Poznańska

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

AUTOMATYKA INFORMATYKA

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

ALGORYTM RANDOM FOREST

Prof. Stanisław Jankowski

Metody klasyfikacji danych - część 1 p.1/24

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Systemy uczące się wykład 1

w ekonomii, finansach i towaroznawstwie

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Malware + Machine Learning (ML) - czy to ma sens? Kamil Frankowicz

Systemy uczące się wykład 2

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Jazda autonomiczna Delphi zgodna z zasadami sztucznej inteligencji

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Optymalizacja optymalizacji

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

PODEJMOWANIE DECYZJI KIEROWNICZYCH W PROCESIE NEGOCJACJI BIZNESOWYCH. Autor: mgr inż. Viktoriia Gromova. Wrocław 2012 r.

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Wprowadzenie do uczenia maszynowego

Transformacja wiedzy w budowie i eksploatacji maszyn

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

SZTUCZNA INTELIGENCJA

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Metody probabilistyczne klasyfikatory bayesowskie

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Optymalizacja ciągła

Widzenie komputerowe (computer vision)

SZTUCZNA INTELIGENCJA

PRZEWODNIK PO PRZEDMIOCIE

Schemat programowania dynamicznego (ang. dynamic programming)

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Algorytm genetyczny (genetic algorithm)-

Programowanie i techniki algorytmiczne

Pattern Classification

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Podstawy Sztucznej Inteligencji (PSZT)

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM

Sztuczna inteligencja

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

Modelowanie w projektowaniu maszyn i procesów cz.5

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni)

Strumieniowe bazy danych

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Klasyfikacja i regresja Wstęp do środowiska Weka

Mariusz Nowak Instytut Informatyki Politechnika Poznańska

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

z wyszczególnieniem usług automatyzacji procesów mgr inż. Adam Smółkowski mgr inż. Marcin Wójciuk Aspartus (Grupa ProService FINTECO)

WYKŁAD 6. Reguły decyzyjne

Elementy modelowania matematycznego

Metody Optymalizacji: Przeszukiwanie z listą tabu

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

sprowadza się od razu kilka stron!

NOWY MODEL PROMOCJI ZDROWIA I EDUKACJI ZDROWOTNEJ. Podręcznik metodologiczny dla personelu medycznego i paramedycznego

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Controlling operacyjny i strategiczny

Diagnostyka procesów przemysłowych Kod przedmiotu

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Algorytmy klasyfikacji

Wprowadzenie do teorii systemów ekspertowych

PL B BUP 14/16

Programowanie dynamiczne

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Laboratorium demonstrator bazowych technologii Przemysłu 4.0 przykład projektu utworzenia laboratorium przez KSSE i Politechnikę Śląską

Planowanie drogi robota, algorytm A*

Drzewa decyzyjne i lasy losowe

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Systemy eksperowe. Agnieszka Nowak Brzezińska Wykład I

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

W poszukiwaniu sensu w świecie widzialnym

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Sortowanie Shella Shell Sort

rozpoznawania odcisków palców

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

DWUKROTNA SYMULACJA MONTE CARLO JAKO METODA ANALIZY RYZYKA NA PRZYKŁADZIE WYCENY OPCJI PRZEŁĄCZANIA FUNKCJI UŻYTKOWEJ NIERUCHOMOŚCI

PL Zjednoczona w różnorodności PL A8-0005/4. Poprawka

KLASYFIKACJA. Słownik języka polskiego

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Efekt kształcenia. Wiedza

Recenzja rozprawy doktorskiej mgr Łukasza Gadomera pt. Rozmyte lasy losowe oparte na modelach klastrowych drzew decyzyjnych w zadaniach klasyfikacji

Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska

Jakość uczenia i generalizacja

Kompresja danych DKDA (7)

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Transkrypt:

mgr inż. Magdalena Deckert Poznań, 01.06.2010r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Plan prezentacji Wstęp Concept drift Typy zmian Podział algorytmów stosowanych w uczeniu się ze zmiennych środowisk Przykłady algorytmów Podsumowanie 2

Wstęp Schemat tworzenia klasyfikatorów Dane uczące Klasyfikator Algorytm uczący 3

Wstęp Strumienie danych 4

Wstęp Tradycyjne DBMS dane przechowywane w skończonych, trwałych zbiorach danych Strumienie danych ciągłe, uporządkowane, szybkie, zmieniające się, bardzo duże rozmiary Charakterystyka strumieni danych: Bardzo duże rozmiary danych, prawdopodobnie nieskończone Szybkie zmiany wymagają szybkiej reakcji Wielokrotny dostęp do wszystkich danych jest bardzo kosztowny minimalizacja liczby zapamiętanych przykładów uczących Niektóre algorytmy zapamiętują tylko meta dane związane z przetwarzanymi przykładami uczącymi 5

Wstęp Trudności w uczeniu ze strumieni danych: Czy zapamiętywać przykłady uczące? Full-instance memory Partial-instance memory No-instance memory Kiedy i w jaki sposób douczać? Uczenie przyrostowe (IIL) Uczenie po blokach (BBL) 6

Concept drift - definicja Concept drift oznacza, że właściwości klasy decyzyjnej, którą model próbuje przewidzieć, zmieniają się wraz z upływem czasu w nieprzewidziany sposób. Stwarza to problemy ponieważ trafność klasyfikacji maleje wraz z upływem czasu. 7

Concept drift - zastosowania Monitoring i kontrola Zindywidualizowane przetwarzanie informacji Wspomaganie decyzji Sztuczna inteligencja oraz robotyka 8

Concept drift - zastosowania Monitoring i kontrola monitorowanie w celu zapobiegania nieuprawnionym działaniom wykrywanie włamań wykrywanie defraudacji monitorowanie w zarządzaniu zarządzanie ruchem 9

Concept drift - zastosowania Zindywidualizowane przetwarzanie informacji filtrowanie informacji profile klientów marketing bezpośredni 10

Concept drift - zastosowania Wspomaganie decyzji przewidywanie bankructwa zastosowania biomedyczne - leczenie antybiotykami 11

Concept drift - zastosowania AI i robotyka concept drift = dynamiczne środowiska systemy inteligentnych domów 12

Rodzaje zmian nagłe stopniowe lub przyrostowe powracające 13

Rodzaje zmian 14

Rodzaje zmian Podczas wykrywania zmian napotkać można zjawiska niepożądane: 15

Algorytmy uczenia w zmiennych środowiskach 16

Detektory zmian triggers Dane etykietowane Trafność klasyfikacji DDM (ang. Drift Detection Method) obliczanie prawdopodobieństwa popełnienia błędu w momencie nadchodzenia przykładu poziom ostrzegawczy oraz poziom zmiany EDDM (ang. Early Drift Detection Method) bazuje na DDM, dodatkowo oblicza odległości między błędami dostosowany do powolnych zmian 17

Algorytmy przyrostowe Algorytmy przyrostowe powstały znacznie wcześniej niż pojęcie concept drift. Najbardziej znanym algorytmem dostosowanym do przetwarzania zmiennych środowisk jest FLORA zaproponowana przez Widmera i Kubata w 1996. 18

Algorytmy przyrostowe Składowe algorytmu FLORA okno czasowe z zapamiętanymi przykładami uczącymi wiedza nieuporządkowany zbiór reguł z każdą hipotezą związane są 3 zbiory ADES, NDES, PDES 19

Algorytmy przyrostowe Zbiór testowy pojęcia STAGGER: 20

Algorytmy przyrostowe Przykładowe wyniki algorytmu FLORA dla danych STAGGER: 21

Algorytmy przyrostowe Rodzaje algorytmu FLORA FLORA stały rozmiar okna czasowego FLORA2 dynamiczne dostosowywanie rozmiaru okna czasowego FLORA3 rozpoznawanie powracających opisów pojęć FLORA4 rozpoznawanie szumu 22

Inne propozycje Hiszpanie zaproponowali przyrostowy algorytm regułowy pamiętający przykłady graniczne. Maloof & Michalski zaproponowali algorytm AQ11PM WAH: przyrostowy algorytm AQ połączony z dynamicznym oknem czasowym Drzewa decyzyjne: VFDT, CVFDT. 23

Klasyfikatory złożone 24

Klasyfikatory złożone Horse Racing Jest to grupa klasyfikatorów, w których poszczególne klasyfikatory bazowe są tworzone z wyprzedzeniem, a dostosowywanie do zmian polega na modyfikacji reguły składania odpowiedzi, np. Weighted Majority 25

Klasyfikatory złożone Przykładowe wyniki algorytmu DWM dla danych STAGGER: 26

Klasyfikatory złożone Replace-the-oldest W przypadku wykrycia zmiany najstarszy z klasyfikatorów bazowych jest zastępowany klasyfikatorem zbudowanym na najnowszych danych. Replace-the-looser W przypadku wykrycia zmiany każdy z klasyfikatorów bazowych poddawany jest ponownej ocenie i najsłabszy z nich zostaje zastąpiony przez klasyfikator zbudowany na najnowszych danych. 27

Algorytmy oparte na selekcji przykładów uczących StreamMiner podejście polegające na systematycznym wyborze starych oraz nowych przykładów uczących W celu znalezienie optymalnego rozwiązania rozważane są 4 sytuacje: Brak CD i nowe dane są wystarczające Wykryto CD i nowe dane są wystarczające Brak CD ale nowe dane nie są wystarczające Wykryto CD i nowe dane nie są wystarczające W przypadku, gdy nowe dane nie są wystarczające uwzględniane są historyczne przykłady, na których budowany był ostatni klasyfikator. 28

MOA Massive Online Analysis Moa rdzenny ptak z Nowej Zelandii, niestety już wymarły, podobnie jak Weka jest nielotem Środowisko do przetwarzania olbrzymich zbiorów danych w tym strumieni danych Napisane w języku programowania Java Powiązane ze środowiskiem uczenia maszynowego WEKA 29

Podsumowanie Krótkie wprowadzenie do strumieni danych Definicja concept drift oraz zastosowania problemu zmiany definicji klas. Podział oraz przykłady algorytmów uczących się w zmiennych środowiskach. 30

Pytania 31

32