Synteza i eksploracja danych sekwencyjnych

Podobne dokumenty
Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Wymagania edukacyjne z fizyki II klasa Akademickie Gimnazjum Mistrzostwa Sportowego.

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Spacery losowe generowanie realizacji procesu losowego

Strategia "dziel i zwyciężaj"

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Algorytm. Krótka historia algorytmów

Generowanie i optymalizacja harmonogramu za pomoca

Wstęp do Sztucznej Inteligencji

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Metody badań w naukach ekonomicznych

ROZKŁAD MATERIAŁU NAUCZANIA KLASA 1, ZAKRES PODSTAWOWY

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Technologie informacyjne - wykład 12 -

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Rozkład materiału nauczania

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

WZORCE LOGIKI APLIKACJI Reużywalne składniki wymagań

METODY I TECHNIKI BADAŃ SPOŁECZNYCH

PageRank i HITS. Mikołajczyk Grzegorz

Zarządzanie projektami UE

MATEMATYKA Wymagania edukacyjne i zakres materiału dla klasy drugiej poziom podstawowy w roku szkolnym 2013/2014 ZAKRES MATERIAŁU, TREŚCI NAUCZANIA

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Badania marketingowe. Źródło:

DZIAŁ 1. STATYSTYKA DZIAŁ 2. FUNKCJE

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.)

Proces badawczy schemat i zasady realizacji

Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

Proces badawczy schemat i zasady realizacji

MATEMATYKA DYSKRETNA - MATERIAŁY DO WYKŁADU GRAFY

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Aproksymacja funkcji a regresja symboliczna

KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F

Proces badawczy schemat i zasady realizacji

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Zaawansowane algorytmy i struktury danych

2

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

WYMAGANIA Z WIEDZY I UMIEJĘTNOŚCI NA POSZCZEGÓLNE STOPNIE SZKOLNE DLA KLASY CZWARTEJ H. zakres rozszerzony. Wiadomości i umiejętności

Sieci Bayesa mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2011

Sieci Kohonena Grupowanie

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Segmentacja obrazów cyfrowych z zastosowaniem teorii grafów - wstęp. autor: Łukasz Chlebda

Podstawy programowania III WYKŁAD 4

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

a) 7 b) 19 c) 21 d) 34

Graf. Definicja marca / 1

Bezpieczne miasto. koncepcja i rozwiązania w projekcie Mayday Euro 2012

t i L i T i

Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji

Harmonogramowanie przedsięwzięć

zna wykresy i własności niektórych funkcji, np. y = x, y =

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe)

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY DRUGIEJ LICEUM OGÓLNOKSZTAŁCĄCEGO ZAKRES PODSTAWOWY

Metody Prognozowania

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

WYMAGANIA EDUKACYJNE NIEZBĘDNE DO OTRZYMANIA PRZEZ UCZNIA POSZCZEGÓLNYCH ŚRÓDROCZNYCH I ROCZNYCH OCEN KLASYFIKACYJNYCH Z MATEMATYKI

TECHNOLOGIE OBIEKTOWE WYKŁAD 2. Anna Mroczek

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Spis treúci. 1. Wprowadzenie... 13

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Matematyka dyskretna. Andrzej Łachwa, UJ, B/14

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

Diagramy obiegu dokumentów a UML w modelowaniu procesów biznesowych. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

Plan wynikowy z rozkładem materiału

MARKETINGOWY SYSTEM INFORMACJI

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

TEORETYCZNE PODSTAWY INFORMATYKI

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Rozkład materiału z matematyki dla II klasy liceum i technikum zakres podstawowy (37 tyg. 3 godz. = 111 godz.)

Programowanie dynamiczne i algorytmy zachłanne

Doskonalenie działalności marketingowej PRACA PROJEKTOWA I JEJ KONCEPCJA

Rozkład materiału: matematyka na poziomie rozszerzonym

Układy stochastyczne

(C. Gauss, P. Laplace, Bernoulli, R. Fisher, J. Spława-Neyman) Wikipedia 2008

Przybliżone algorytmy analizy ekspresji genów.

Kształcenie w zakresie podstawowym. Klasa 2

STATYSTYKA EKONOMICZNA

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Wymagania edukacyjne z matematyki klasa II technikum

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

TEORETYCZNE PODSTAWY INFORMATYKI

Systemy Wspomagania Decyzji

Transkrypt:

Synteza i eksploracja danych sekwencyjnych Definicja problemu i wstępne wyniki eksperymentalne Projekt finansowany z grantu nr DEC-2011/03/D/ST6/01621 otrzymanego z Narodowego Centrum Nauki

Plan prezentacji Motywacja i cel realizowanych badań Wprowadzenie do problemu Definicja problemu Własności Pierwsze wyniki eksperymentalne 4.12.12 SyCoMiE 2/29

Motywacja Integracja informacji z różnych mediów (monitoring) Nagranie video 2 Sekwencja zdarzeń Nagranie video 1 Nagranie audio Połączony zapis zdarzeń Opis tekstowy Wątki uzupełnione informacją z wielu źródeł 4.12.12 SyCoMiE 3/29

Motywacja Analiza danych biomedycznych (diagnostycznych) EEG KTG Stymulacja Temperatura Zapis zachowania się organizmu Ciśnienie Opis zdarzeń uzupełniony informacją z różnych rejestratorów 4.12.12 SyCoMiE 4/29

Motywacja Zbieranie danych przez agentów (zwiad, uzgodnienie relacji) Agent 1 Proces Agent 2 Połączona informacja o zdarzeniach Agent 3 Opis zdarzeń w procesie obserwowanych z różnych perspektyw 4.12.12 SyCoMiE 5/29

Własności zbioru danych Kilka źródeł informacji generujących strumienie danych opisujące aktywny proces z kilku perspektyw Strumienie danych mogą zawierać różne atrybuty np. wynikać może to z faktu, że obserwacja jest dokonywana przez różne urządzenia Dane opisują zjawiska są zależne od czasu, lecz może istnieć niepewność, co do oceny momentu zajścia zdarzenia lub do wartości atrybutów opisujących zdarzenie Dane mogą mieć nieprawidłową kolejność, mogą pojawiać się braki w dostarczonej informacji 4.12.12 SyCoMiE 6/29

Cel prowadzonych badań Opracowanie metody, która pozwoli dokładnie wyrazić i scalić informację pochodzącą z kilku strumieni danych Metoda powinna pozwolić na powiązanie podobnych lub współwystępujących prawidłowości w kilku strumieniach na podstawie ich podobieństwa lub współwystępowania Metoda powinna być odporna na braki w danych, szum, dane niepewne i nieprawidłowe, w tym nieprawidłową kolejność dostarczania danych o zdarzeniach Metoda powinna przetworzyć dane dostarczane w strumieniu na bieżąco 4.12.12 SyCoMiE 7/29

Reprezentacja danych Podstawowa informacja rejestrowana w strumieniu opisuje zdarzenia (atrybuty nominalne lub liczbowe) Sekwencja zbiorów przedmiotów nie pozwala wyrazić precyzyjnie interakcji prowadzących do wystąpienia zdarzenia (jednowymiarowość) z1 z2 z3 z4 Bardziej precyzyjnym sposobem zapisu jest graf określający związki między czynnościami i aktorami (acykliczny, skierowany (czas!)) t z1 z2 z3 z4 4.12.12 SyCoMiE 8/29 t

Reprezentacja danych Wyrażanie procesu przez graf acykliczny skierowany jest popularną metodą np.: w informatyce - diagram sekwencji UML 1.x w fizyce assembler przyrody: diagramy Feynmana (np. tworzenie cząstki Higgsa) g t h t t g Istnieje literatura opisująca znajdowanie wzorców w grafach ewoluujących (strumień zbudowany grafów) 4.12.12 SyCoMiE 9/29

I have no data yet. It is a capital mistake to theorise before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts. Sherlock Holmes Arthur Conan Doyle, The Adventures of Sherlock Holmes, 1891 4.12.12 SyCoMiE 10/29

Eksperyment naukowy Eksperyment ma na celu uwiarygodnienie przyjętej hipotezy dotyczącej badanego zjawiska fizycznego Eksperyment może być kontrolowany lub niekontrolowany (studium z obserwacji) Badane zjawisko ma charakter przyczynowoskutkowy, nie jest spontanicznym rezultatem istnienia przypadkowego szumu Eksperyment można powtórzyć - spełnieniu tych samych warunków początkowych i procedury otrzymując taki sam (lub zbliżony) wynik 4.12.12 SyCoMiE 11/29

Prawidłowość Prawidłowość to wzorzec (powtarzalny podgraf) znaleziony w danych W przypadku zaproponowanej reprezentacji prawidłowość opisuje podgraf powiązanych ze sobą zdarzeń Szum też jest częścią strumienia i można z elementów szumu utworzyć podgraf! Jak odróżnić szum od wzorca opisującego fakt? z1 z2 z3 z4 t 4.12.12 SyCoMiE 12/29

Prawidłowość - jak zidentyfikować? Prawidłowość jest to połączona krawędziami (zwarta) grupa węzłów opisująca przebieg zdarzeń, którą można wyodrębnić, ponieważ powtarza się w strumieniu Aby wyróżnić podobne zdarzenia należy zdefiniować funkcje podobieństwa (wiedza zewnętrzna o procesie!) Powtórzenia wymaga pojawienia się wybranego podgrafu wielokrotnie w strumieniu (znajdowanie powtórzeń nie wymaga wiedzy zewnętrznej!) Ile razy podgraf powinien się pojawić w strumieniu aby mógł być uważany za prawidłowość? 4.12.12 SyCoMiE 13/29

Prawidłowość czy przypadek? Graf opisuje macierz kwadratowa k x k, gdzie każdy wierzchołek z k może posiadać jedną z s wartości Wierzchołki są posortowane względem czasu wystąpienia zdarzenia Liczba możliwych grafów do utworzenia to: Załóżmy, że mamy n węzłów w strumieniu, które dzielimy na n/k ramek Jakie jest prawdopodobieństwo przypadkowego pojawienia się w strumieniu wzorca m razy w kolejnych n/k ramkach? n/ k m pm 1 p n/ k m p= 1 s k 2 k k s k 2 k k 4.12.12 SyCoMiE 14/29

Prawidłowość czy przypadek? s 2 p 1,56E-002 9,54E-007 2,12E-022 1,32E-082 m N k 64 2 4 8 16 1 0,30686534 0,00001526 1,69E-021 5,27E-082 2 0,07549862 1,09E-010 1,26E-042 1,04E-163 4 0,00137910 1,51E-021 1,41E-085 8 0,00000003 8,81E-045 16 5,90E-021 Prawdopodobieństwo, że powtórzenie podgrafu jest szumem maleje znacząco wraz z: liczbą powtórzeń rozmiarem podgrafu (większy wpływ!) Nie potrzeba wielu powtórzeń podgrafu o wielu wierzchołkach, aby uznać go z dużą dozą prawdopodobieństwa za prawidłowość 4.12.12 SyCoMiE 15/29

Monotoniczność wyst. prawidłowości Przypadkowe występowanie prawidłowości, na którą składają się dwie lub więcej prawidłowości o mniejszej złożoności lub mniejszej częstości występowania jest mniej prawdopodobna od występowania każdej z nich osobno (własność iloczynu ułamków). P A B =P A/ B P B P A B =P A P B 4.12.12 SyCoMiE 16/29

Definicja problemu Problem syntezy i eksploracji zbioru grafów/sekwencji w danym przedziale czasu polega na znalezieniu prawidłowości R w postaci zbioru zwartych podgrafów i zastąpieniu nimi wierzchołków K w sekwencjach tak, aby prawdopodobieństwo spontanicznego (losowego) wystąpienia złożonej prawidłowości było minimalne. t 1,t 2 T ;t 2 t 1 : min{p R t1, t 2 }: NG t1, t 2 =G t 1, t 2 K t1, t 2 R t 1, t 2 4.12.12 SyCoMiE 17/29

Rodzaje prawidłowości Oparte na podobieństwie Oparte na współwystępowaniu 4.12.12 SyCoMiE 18/29

Rodzaje prawidłowości Posiadające nietypowy rozkład danych (zaburzenie rozkładu) Sporadyczne nietypowe zdarzenia 4.12.12 SyCoMiE 19/29

Ograniczenia Acykliczność wiązań powiązane prawidłowości nie mogą tworzyć paradoksów czasowych Horyzont powiązań nie należy tworzyć prawidłowości odległych znacząco w czasie 4.12.12 SyCoMiE 20/29

Eksploracja Eksploracja polega na określeniu kontekstu dla prawidłowości łączących grafy/sekwencje prawidłowość 4.12.12 SyCoMiE 21/29

Powiązane pomysły Zwiastuny wystąpienia prawidłowości w połączonych strumieniach Prognoza zachowania się połączonego strumienia po wystąpieniu prawidłowości prawidłowość 4.12.12 SyCoMiE 22/29

Podobne problemy optymalizacyjne W literaturze znane są algorytmy pozwalające na powiązanie łańcuchów danych należących do kilku sekwencji (Multiple Sequence Alignment) Algorytmy dopasowują fragmenty sekwencji do siebie o tak, aby zmaksymalizować liczbę pasujących fragmentów Problem (dla N sekwencji) należy do klasy problemów optymalizacyjnych NP-zupełnych Koszt obliczeniowy wzrasta geometrycznie do liczby dopasowywanych sekwencji Rozwiązywany jest przy pomocy heurystyk 4.12.12 SyCoMiE 23/29

Ogólny algorytm i eksploracji Predyskretyzacja danych Grafy/sekwencje zawierające informację symboliczną Identyfikacja odpowiadających sobie wzajemnie symboli w strumieniach Grafy/sekwencje zawierające informację symboliczną Selekcja częstych przedmiotów Agregacja danych z grafów/strumieni Odkryte prawidłowości Identyfikacja podobnych prawidłowości Identyfikacja współwystępujących prawidłowości Identyfikacja zdarzeń sporadycznych Identyfikacja nietypowych rozkładów Zastąpienie odkrytych wzorców zgodnie z f. Kosztów (synteza) 4.12.12 SyCoMiE 24/29

Algorytm syntezy i eksploracji Zastąpienie odkrytych wzorców zgodnie z f. Kosztów (synteza) Odkryte prawidłowości Odkrycie okoliczności wystąpienia prawidłowości Analiza kolejności Występowania prawidłowości 4.12.12 SyCoMiE 25/29

Dane syntetyczne - model 4.12.12 SyCoMiE 26/29

Przykładowy graf przejść (fragment) 4.12.12 SyCoMiE 27/29

Pattern (support=5): Przykładowy wynik (<0050:spd:::0:::3>[43.93]-><0011:pos:::1::10>[49.31]) (<0011:pos:::1::10>[49.31]-><0010:pos:::0:::7>[61.09]) (<0010:pos:::0:::7>[61.09]-><0011:pos:::1::10>[65.82]) (<0011:pos:::1::10>[65.82]-><0050:spd:::0:::3>[65.82]) (<0050:spd:::0:::3>[65.82]-><0011:pos:::1::10>[65.82]) (<0011:pos:::1::10>[65.82]-><0010:pos:::0:::7>[74.44]) Pattern (support=16): (<0050:spd:::0:::3>[43.93]-><0011:pos:::1:::5>[48.46]) (<0011:pos:::1:::5>[48.46]-><0052:spd:::2:::3>[52.66]) (<0052:spd:::2:::3>[52.66]-><0012:pos:::2:::0>[67.36]) 4.12.12 SyCoMiE 28/29

Podsumowanie Metoda ma szerokie zastosowania praktyczne Zakłada ona syntezę informacji z eksploracją danych Problem jest trudny obliczeniowo (możliwość wykazania się pomysłowością przy budowaniu algorytmów) Przy pewnych założeniach co do przetwarzanych struktur danych problem można rozwiązać przy pomocy heurystyk Istnieje szereg dodatkowych tematów badawczych powiązanych z głównym wątkiem 4.12.12 SyCoMiE 29/29