Synteza i eksploracja danych sekwencyjnych Definicja problemu i wstępne wyniki eksperymentalne Projekt finansowany z grantu nr DEC-2011/03/D/ST6/01621 otrzymanego z Narodowego Centrum Nauki
Plan prezentacji Motywacja i cel realizowanych badań Wprowadzenie do problemu Definicja problemu Własności Pierwsze wyniki eksperymentalne 4.12.12 SyCoMiE 2/29
Motywacja Integracja informacji z różnych mediów (monitoring) Nagranie video 2 Sekwencja zdarzeń Nagranie video 1 Nagranie audio Połączony zapis zdarzeń Opis tekstowy Wątki uzupełnione informacją z wielu źródeł 4.12.12 SyCoMiE 3/29
Motywacja Analiza danych biomedycznych (diagnostycznych) EEG KTG Stymulacja Temperatura Zapis zachowania się organizmu Ciśnienie Opis zdarzeń uzupełniony informacją z różnych rejestratorów 4.12.12 SyCoMiE 4/29
Motywacja Zbieranie danych przez agentów (zwiad, uzgodnienie relacji) Agent 1 Proces Agent 2 Połączona informacja o zdarzeniach Agent 3 Opis zdarzeń w procesie obserwowanych z różnych perspektyw 4.12.12 SyCoMiE 5/29
Własności zbioru danych Kilka źródeł informacji generujących strumienie danych opisujące aktywny proces z kilku perspektyw Strumienie danych mogą zawierać różne atrybuty np. wynikać może to z faktu, że obserwacja jest dokonywana przez różne urządzenia Dane opisują zjawiska są zależne od czasu, lecz może istnieć niepewność, co do oceny momentu zajścia zdarzenia lub do wartości atrybutów opisujących zdarzenie Dane mogą mieć nieprawidłową kolejność, mogą pojawiać się braki w dostarczonej informacji 4.12.12 SyCoMiE 6/29
Cel prowadzonych badań Opracowanie metody, która pozwoli dokładnie wyrazić i scalić informację pochodzącą z kilku strumieni danych Metoda powinna pozwolić na powiązanie podobnych lub współwystępujących prawidłowości w kilku strumieniach na podstawie ich podobieństwa lub współwystępowania Metoda powinna być odporna na braki w danych, szum, dane niepewne i nieprawidłowe, w tym nieprawidłową kolejność dostarczania danych o zdarzeniach Metoda powinna przetworzyć dane dostarczane w strumieniu na bieżąco 4.12.12 SyCoMiE 7/29
Reprezentacja danych Podstawowa informacja rejestrowana w strumieniu opisuje zdarzenia (atrybuty nominalne lub liczbowe) Sekwencja zbiorów przedmiotów nie pozwala wyrazić precyzyjnie interakcji prowadzących do wystąpienia zdarzenia (jednowymiarowość) z1 z2 z3 z4 Bardziej precyzyjnym sposobem zapisu jest graf określający związki między czynnościami i aktorami (acykliczny, skierowany (czas!)) t z1 z2 z3 z4 4.12.12 SyCoMiE 8/29 t
Reprezentacja danych Wyrażanie procesu przez graf acykliczny skierowany jest popularną metodą np.: w informatyce - diagram sekwencji UML 1.x w fizyce assembler przyrody: diagramy Feynmana (np. tworzenie cząstki Higgsa) g t h t t g Istnieje literatura opisująca znajdowanie wzorców w grafach ewoluujących (strumień zbudowany grafów) 4.12.12 SyCoMiE 9/29
I have no data yet. It is a capital mistake to theorise before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts. Sherlock Holmes Arthur Conan Doyle, The Adventures of Sherlock Holmes, 1891 4.12.12 SyCoMiE 10/29
Eksperyment naukowy Eksperyment ma na celu uwiarygodnienie przyjętej hipotezy dotyczącej badanego zjawiska fizycznego Eksperyment może być kontrolowany lub niekontrolowany (studium z obserwacji) Badane zjawisko ma charakter przyczynowoskutkowy, nie jest spontanicznym rezultatem istnienia przypadkowego szumu Eksperyment można powtórzyć - spełnieniu tych samych warunków początkowych i procedury otrzymując taki sam (lub zbliżony) wynik 4.12.12 SyCoMiE 11/29
Prawidłowość Prawidłowość to wzorzec (powtarzalny podgraf) znaleziony w danych W przypadku zaproponowanej reprezentacji prawidłowość opisuje podgraf powiązanych ze sobą zdarzeń Szum też jest częścią strumienia i można z elementów szumu utworzyć podgraf! Jak odróżnić szum od wzorca opisującego fakt? z1 z2 z3 z4 t 4.12.12 SyCoMiE 12/29
Prawidłowość - jak zidentyfikować? Prawidłowość jest to połączona krawędziami (zwarta) grupa węzłów opisująca przebieg zdarzeń, którą można wyodrębnić, ponieważ powtarza się w strumieniu Aby wyróżnić podobne zdarzenia należy zdefiniować funkcje podobieństwa (wiedza zewnętrzna o procesie!) Powtórzenia wymaga pojawienia się wybranego podgrafu wielokrotnie w strumieniu (znajdowanie powtórzeń nie wymaga wiedzy zewnętrznej!) Ile razy podgraf powinien się pojawić w strumieniu aby mógł być uważany za prawidłowość? 4.12.12 SyCoMiE 13/29
Prawidłowość czy przypadek? Graf opisuje macierz kwadratowa k x k, gdzie każdy wierzchołek z k może posiadać jedną z s wartości Wierzchołki są posortowane względem czasu wystąpienia zdarzenia Liczba możliwych grafów do utworzenia to: Załóżmy, że mamy n węzłów w strumieniu, które dzielimy na n/k ramek Jakie jest prawdopodobieństwo przypadkowego pojawienia się w strumieniu wzorca m razy w kolejnych n/k ramkach? n/ k m pm 1 p n/ k m p= 1 s k 2 k k s k 2 k k 4.12.12 SyCoMiE 14/29
Prawidłowość czy przypadek? s 2 p 1,56E-002 9,54E-007 2,12E-022 1,32E-082 m N k 64 2 4 8 16 1 0,30686534 0,00001526 1,69E-021 5,27E-082 2 0,07549862 1,09E-010 1,26E-042 1,04E-163 4 0,00137910 1,51E-021 1,41E-085 8 0,00000003 8,81E-045 16 5,90E-021 Prawdopodobieństwo, że powtórzenie podgrafu jest szumem maleje znacząco wraz z: liczbą powtórzeń rozmiarem podgrafu (większy wpływ!) Nie potrzeba wielu powtórzeń podgrafu o wielu wierzchołkach, aby uznać go z dużą dozą prawdopodobieństwa za prawidłowość 4.12.12 SyCoMiE 15/29
Monotoniczność wyst. prawidłowości Przypadkowe występowanie prawidłowości, na którą składają się dwie lub więcej prawidłowości o mniejszej złożoności lub mniejszej częstości występowania jest mniej prawdopodobna od występowania każdej z nich osobno (własność iloczynu ułamków). P A B =P A/ B P B P A B =P A P B 4.12.12 SyCoMiE 16/29
Definicja problemu Problem syntezy i eksploracji zbioru grafów/sekwencji w danym przedziale czasu polega na znalezieniu prawidłowości R w postaci zbioru zwartych podgrafów i zastąpieniu nimi wierzchołków K w sekwencjach tak, aby prawdopodobieństwo spontanicznego (losowego) wystąpienia złożonej prawidłowości było minimalne. t 1,t 2 T ;t 2 t 1 : min{p R t1, t 2 }: NG t1, t 2 =G t 1, t 2 K t1, t 2 R t 1, t 2 4.12.12 SyCoMiE 17/29
Rodzaje prawidłowości Oparte na podobieństwie Oparte na współwystępowaniu 4.12.12 SyCoMiE 18/29
Rodzaje prawidłowości Posiadające nietypowy rozkład danych (zaburzenie rozkładu) Sporadyczne nietypowe zdarzenia 4.12.12 SyCoMiE 19/29
Ograniczenia Acykliczność wiązań powiązane prawidłowości nie mogą tworzyć paradoksów czasowych Horyzont powiązań nie należy tworzyć prawidłowości odległych znacząco w czasie 4.12.12 SyCoMiE 20/29
Eksploracja Eksploracja polega na określeniu kontekstu dla prawidłowości łączących grafy/sekwencje prawidłowość 4.12.12 SyCoMiE 21/29
Powiązane pomysły Zwiastuny wystąpienia prawidłowości w połączonych strumieniach Prognoza zachowania się połączonego strumienia po wystąpieniu prawidłowości prawidłowość 4.12.12 SyCoMiE 22/29
Podobne problemy optymalizacyjne W literaturze znane są algorytmy pozwalające na powiązanie łańcuchów danych należących do kilku sekwencji (Multiple Sequence Alignment) Algorytmy dopasowują fragmenty sekwencji do siebie o tak, aby zmaksymalizować liczbę pasujących fragmentów Problem (dla N sekwencji) należy do klasy problemów optymalizacyjnych NP-zupełnych Koszt obliczeniowy wzrasta geometrycznie do liczby dopasowywanych sekwencji Rozwiązywany jest przy pomocy heurystyk 4.12.12 SyCoMiE 23/29
Ogólny algorytm i eksploracji Predyskretyzacja danych Grafy/sekwencje zawierające informację symboliczną Identyfikacja odpowiadających sobie wzajemnie symboli w strumieniach Grafy/sekwencje zawierające informację symboliczną Selekcja częstych przedmiotów Agregacja danych z grafów/strumieni Odkryte prawidłowości Identyfikacja podobnych prawidłowości Identyfikacja współwystępujących prawidłowości Identyfikacja zdarzeń sporadycznych Identyfikacja nietypowych rozkładów Zastąpienie odkrytych wzorców zgodnie z f. Kosztów (synteza) 4.12.12 SyCoMiE 24/29
Algorytm syntezy i eksploracji Zastąpienie odkrytych wzorców zgodnie z f. Kosztów (synteza) Odkryte prawidłowości Odkrycie okoliczności wystąpienia prawidłowości Analiza kolejności Występowania prawidłowości 4.12.12 SyCoMiE 25/29
Dane syntetyczne - model 4.12.12 SyCoMiE 26/29
Przykładowy graf przejść (fragment) 4.12.12 SyCoMiE 27/29
Pattern (support=5): Przykładowy wynik (<0050:spd:::0:::3>[43.93]-><0011:pos:::1::10>[49.31]) (<0011:pos:::1::10>[49.31]-><0010:pos:::0:::7>[61.09]) (<0010:pos:::0:::7>[61.09]-><0011:pos:::1::10>[65.82]) (<0011:pos:::1::10>[65.82]-><0050:spd:::0:::3>[65.82]) (<0050:spd:::0:::3>[65.82]-><0011:pos:::1::10>[65.82]) (<0011:pos:::1::10>[65.82]-><0010:pos:::0:::7>[74.44]) Pattern (support=16): (<0050:spd:::0:::3>[43.93]-><0011:pos:::1:::5>[48.46]) (<0011:pos:::1:::5>[48.46]-><0052:spd:::2:::3>[52.66]) (<0052:spd:::2:::3>[52.66]-><0012:pos:::2:::0>[67.36]) 4.12.12 SyCoMiE 28/29
Podsumowanie Metoda ma szerokie zastosowania praktyczne Zakłada ona syntezę informacji z eksploracją danych Problem jest trudny obliczeniowo (możliwość wykazania się pomysłowością przy budowaniu algorytmów) Przy pewnych założeniach co do przetwarzanych struktur danych problem można rozwiązać przy pomocy heurystyk Istnieje szereg dodatkowych tematów badawczych powiązanych z głównym wątkiem 4.12.12 SyCoMiE 29/29