Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Podobne dokumenty
Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

Matematyczne Podstawy Informatyki

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Wstęp do Sztucznej Inteligencji

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Algorytmy wyznaczania centralności w sieci Szymon Szylko

G. Wybrane elementy teorii grafów

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Podstawowe własności grafów. Wykład 3. Własności grafów

Przykład planowania sieci publicznego transportu zbiorowego

TEORIA GRAFÓW I SIECI

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Algorytmy kombinatoryczne w bioinformatyce

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Programowanie obiektowe

Graf. Definicja marca / 1

MATEMATYKA DYSKRETNA - MATERIAŁY DO WYKŁADU GRAFY

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Przybliżone algorytmy analizy ekspresji genów.

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Bioinformatyka wykład 8, 27.XI.2012

Algorytmiczna teoria grafów

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Programowanie obiektowe

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

Algorytmiczna teoria grafów

KURS MATEMATYKA DYSKRETNA

Czy istnieje zamknięta droga spaceru przechodząca przez wszystkie mosty w Królewcu dokładnie jeden raz?

SPÓJNOŚĆ. ,...v k. }, E={v 1. v k. i v k. ,...,v k-1. }. Wierzchołki v 1. v 2. to końce ścieżki.

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Dopasowanie sekwencji (sequence alignment)

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Złożoność obliczeniowa klasycznych problemów grafowych

6. Wstępne pojęcia teorii grafów

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Digraf. 13 maja 2017

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Synteza i eksploracja danych sekwencyjnych

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Bioinformatyka wykład 3.I.2008

a) 7 b) 19 c) 21 d) 34

Optymalizacja. Przeszukiwanie lokalne

ROZPORZĄDZENIE KOMISJI (UE) / z dnia r.

Wstęp do programowania

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

TEORIA GRAFÓW I SIECI

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Ogólne wiadomości o grafach

Marek Miszczyński KBO UŁ. Wybrane elementy teorii grafów 1

Metoda List Łańcuchowych

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Programowanie celowe #1

SciFinder. Wyszukiwanie substancji chemicznych

AiSD zadanie trzecie

Sprawozdanie do zadania numer 2

NIFIED M L ODELLING ANGUAGE. Diagramy czynności

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Matematyka dyskretna

Matematyczne Podstawy Informatyki

Plan wykładu. Przykład. Przykład 3/19/2011. Przykład zagadnienia transportowego. Optymalizacja w procesach biznesowych Wykład 2 DECYZJA?

Projektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Modelowanie danych Diagramy ERD

Matematyczne Podstawy Informatyki

Wstęp. Krystalografia geometryczna

Matematyczne Podstawy Informatyki

Schemat programowania dynamicznego (ang. dynamic programming)

Wybrane techniki badania białek -proteomika funkcjonalna

Dokowanie molekularne. Karol Kamel Uniwersytet Warszawski

Bioinformatyka wykład 9

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

Teoria grafów dla małolatów

Wyznaczanie optymalnej trasy problem komiwojażera

Teoria grafów - Teoria rewersali - Teoria śladów

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Metody Programowania

Segmentacja obrazów cyfrowych z zastosowaniem teorii grafów - wstęp. autor: Łukasz Chlebda

5c. Sieci i przepływy

Matematyka dyskretna. Andrzej Łachwa, UJ, B/14

Programowanie dynamiczne i algorytmy zachłanne

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Algorytmy analizy skupień / Sławomir Wierzchoń, Mieczysław Kłopotek. wyd. 1, 1. dodr. (PWN). Warszawa, Spis treści

W poszukiwaniu sensu w świecie widzialnym

Transkrypt:

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Plan wykładu 1. Sieci jako modele interakcji pomiędzy obiektami 2. Graflety 3. Struktura biomolekuł jako rodzaj sieci przestrzennej 4. Deskryptory 5. Model kombinatoryczny problemu porównywania deskryptorów Strona przedmiotu: http://www.cs.put.poznan.pl/mkasprzak/doc/doc.html 2

Sieci Sieciami nazywane są grafy występujące w szczególnym kontekście jako modele np. zagadnień transportowych, komunikacyjnych, biologii systemowej. Mogą być skierowane lub nieskierowane Wierzchołki sieci nazywane są węzłami Zagadnienia z zakresu bieżącego wykładu odnoszą się do grafów nieskierowanych 3 Sieci biologiczne Informacja o interakcjach, jakie zachodzą pomiędzy biomolekułami, daje możliwość badania systemów biologicznych jako złożoną sieć zależności Sieci odwzorowujące powiązania funkcjonalne pomiędzy genami lub odpowiadającymi im białkami mogą opierać się przykładowo na: informacji o ekspresji genów informacji o interakcjach cząsteczek białkowych bazie danych ontologii genów Połączenie kilku źródeł danych daje bardziej kompleksowy obraz funkcjonowania systemu biologicznego 4

Sieci biologiczne Analiza sieci biologicznych może przykładowo polegać na: porównywaniu całych sieci wygenerowanych dla różnych organizmów lub na podstawie różnych eksperymentów porównywaniu fragmentów sieci grupowaniu obiektów o podobnej charakterystyce wyszukiwaniu aktywnych podsieci Wiele problemów kombinatorycznych związanych z analizą sieci biologicznych jest trudnych obliczeniowo (np. bazujących na izomorfizmie podgrafów, klastrowaniu). Dodatkowo dochodzi aspekt niepełnej i niepewnej informacji pozyskanej eksperymentalnie oraz zwykle duży rozmiar instancji 5 Graflety [N. Przulj i in., Bioinformatics 20 (2004) 3508 3515] Graflety (ang. graphlets) to małe spójne struktury grafowe, które jako indukowane podgrafy sieci służą do analizy ich topologii 6

Graflety [N. Przulj i in., Bioinformatics 20 (2004) 3508 3515] cd. Wektor liczby wystąpień grafletów w sieci daje przybliżoną informację o jej strukturze Dwie sieci o zbliżonych wartościach w wektorach lub zbliżonych częstościach wystąpień grafletów mogą charakteryzować się pewnymi podobieństwami strukturalnymi W celu zniwelowania różnicy pomiędzy bardzo często i bardzo rzadko występującymi grafletami obliczany jest logarytm z częstości ich wystąpień Przykładowa różnica w rzeczywistej sieci biologicznej: liczba wystąpień grafletu nr 9 = 23854301 liczba wystąpień grafletu nr 29 = 869 7 Graflety [T. Milenkovic i N. Przulj, Cancer Informatics 6 (2008) 257 273] Wektory grafletów można obliczać nie tylko dla całej sieci, ale także dla pojedynczych węzłów wtedy jest to liczba grafletów danego rodzaju, w skład których wchodzi dany węzeł Analiza grafletowa może dostarczyć więcej informacji, jeśli uwzględni się, które miejsce grafletu dany węzeł sieci pokrywa W grafletach wyróżniono tzw. orbity, czyli wierzchołki, które odwzorowują się na siebie w przekształceniu automorficznym. Są 73 różne orbity w grafletach o rozmiarach do pięciu wierzchołków i takiej długości wektory reprezentują węzły sieci 8

Graflety [T. Milenkovic i N. Przulj, Cancer Inform. 6 (2008) 257 273] cd. Graflety [T. Milenkovic i N. Przulj, Cancer Inform. 6 (2008) 257 273] cd. Przykład wyliczania wektorów orbit 0 1 2 3 4 5 6 7 8 w 1 1 2 0 0 3 0 1 0 0 w 1 w 2 w 3 w 2 3 3 3 0 0 4 1 1 1 w 3 2 3 1 0 2 1 1 0 1 10

Graflety [T. Milenkovic i N. Przulj, Cancer Inform. 6 (2008) 257 273] cd. Mniejsze graflety zawarte są w większych, a więc to samo miejsce w sieci wpływa na zawartość kilku pozycji wektora. Graflety, które zawierają mniej innych, są bardziej znaczące. Wektor orbit jest przeskalowywany wagami oddającymi tę właściwość wyższa waga niższa waga 11 Graflety Graflety o rozmiarze do 5 wierzchołków wydają się najbardziej odpowiednie do analizy sieci zapewniają dostateczną wartość informacyjną i akceptowalną złożoność obliczeniową Analiza sieci z użyciem grafletów może służyć różnym celom: grupowaniu węzłów mających zbliżone powiązania w swoich sąsiedztwach identyfikowaniu podobnych podstruktur w sieciach porównywaniu całych sieci Do reprezentacji większych części sieci wystarcza krótszy wektor wystąpień grafletów Poza topologią, nie bierze się tu pod uwagę innych informacji: wag krawędzi, etykiet węzłów, itp. 12

Graflety Nie zawsze podobne wektory orbit mogą być przesłanką do stwierdzenia, że dane węzły są bliskie funkcjonalnie 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 vs. 0 0 21 0 614 0 0 0 0 0 0 0 21 0 614 0 0 1 0 0 Miejsca typu środek długiej ścieżki bez bocznych odgałęzień czy krawędzie izolowane będą miały identyczne wektory, lecz znaczenie takiego podobieństwa zazwyczaj nie jest duże Wierzchołki mające bardzo liczne sąsiedztwo wnoszą wiele wystąpień w wektorze, ale niekoniecznie istotnych dla analizy 13 Struktura przestrzenna biomolekuł Cząsteczki biologiczne, np. RNA i białka, poprzez swoją strukturę przestrzenną wpływają na procesy zachodzące w organizmach. Rozpoznanie ich kształtu jest więc kluczowe, jeśli chcemy zrozumieć pełnioną przez nie funkcję Analiza struktury przestrzennej biomolekuł może polegać np. na dopasowywaniu całych struktur w celu odkrycia podobieństwa funkcjonalnego lub ich fragmentów w celu zidentyfikowania możliwych kompleksów cząsteczek Struktura przestrzenna RNA i białek jest efektem zwijania się liniowych polimerów: łańcucha rybonukleotydów (RNA) lub łańcucha aminokwasów (białko), pod wpływem oddziaływań międzyatomowych 14

Struktura przestrzenna biomolekuł Biomolekuły mogą być zwizualizowane jako sieć atomów z odwzorowanymi wiązaniami pomiędzy nimi, gdzie każdy atom stanowi węzeł o pewnych przestrzennych koordynatach [M. Antczak, rozprawa doktorska (2013)] 15 Deskryptory [T.R. Hvidsten i in., Bioinformatics 19 suppl. 2 (2003) ii81 ii91] Deskryptor jest swego rodzaju motywem przestrzennym w sieci strukturalnej. Pojęcie zostało zdefiniowane początkowo dla białek, ale może zostać rozszerzone na inne cząsteczki Deskryptor identyfikowany jest w cząsteczce białkowej jako strukturalne sąsiedztwo pewnego aminokwasu uznawanego za centrum deskryptora. W odróżnieniu od wcześniej rozważanych motywów strukturalnych, nie musi tworzyć jednej spójnej formy Dla zadanej odległości od centrum deskryptora wykreślana jest sfera o takim promieniu i wszystkie aminokwasy wewnątrz sfery wchodzą w skład deskryptora, wraz z ich sekwencyjnym sąsiedztwem o zadanej długości (zwykle po dwa aminokwasy z każdej strony) 16

Deskryptory Schemat tworzenia deskryptora białkowego [M. Antczak i in., BMC Bioinformatics 17 (2016) 383] 17 Deskryptory Deskryptory jako zbiory segmentów. Każdy segment powstaje przez złożenie elementów, a one przez rozszerzanie o sekwencyjne sąsiedztwo aminokwasów objętych sferą wokół centrum. [M. Antczak i in., BMC Bioinformatics 17 (2016) 383] 18

Miara odległości motywów Uogólniając do dowolnych sieci strukturalnych z węzłami o koordynatach przestrzennych, można przy konstruowaniu motywu pominąć odwołanie do sekwencji polimeru, motyw byłby wtedy podsiecią mieszczącą się wewnątrz pewnej sfery Miara RMSD (ang. root-mean-square deviation) służy ocenie odległości obiektów opisanych wartościami w n-elementowych wektorach, W odniesieniu do cząsteczek, miara RMSD zlicza odległości w przestrzeni pomiędzy zbiorami atomów po wcześniejszym ich przyporządkowaniu (uszeregowaniu w wektorach) 19 Miara odległości motywów Odległość pomiędzy motywami w dowolnych sieciach przestrzennych musiałaby uwzględnić dodatkowo różnice w obecności krawędzi pomiędzy danymi parami węzłów Samo przyporządkowanie węzłów dwóch sieci przestrzennych charakteryzuje się bardzo dużą złożonością obliczeniową. Złożoność jest mniejsza, jeśli założy się obecność pewnych konserwatywnych strukturalnie fragmentów w motywach, których odległość RMSD będzie bardzo mała Takie założenie obowiązuje w porównywaniu deskryptorów, gdzie klasyfikuje się jako niepodobne deskryptory o odległych w sensie RMSD elementach centalnych. Pozostałe deskryptory dużo łatwiej dopasować w przestrzeni na podstawie dopasowania strukturalnego ich elementów centralnych 20

Porównywanie deskryptorów [M. Antczak i in., BMC Bioinformatics 17 (2016) 383] Pierwsze zastosowanie modelu kombinatorycznego do rozwiązania tego problemu biologicznego Porównywane są pary deskryptorów po wstępnym odsianiu deskryptorów niepodobnych: o odległych strukturalnie elementach centralnych (wartość RMSD większa niż 1,2 Å) o znacznej różnicy w liczbie elementów (większej niż 4:5) W celu ustabilizowania względem siebie dwóch deskryptorów w przestrzeni wykorzystana została koncepcja dupleksów, które są parą elementów zawierającą zawsze element centralny 21 Porównywanie deskryptorów [M. Antczak i in., BMC Bioinformatics 17 (2016) 383] cd. Problem największego strukturalnego dopasowania dwóch deskryptorów został sformułowany jako odmiana problemu przydziału (ang. maximum-size assignment), w którym maksymalizowana jest liczba dopasowanych dupleksów tych deskryptorów przy zachowaniu ograniczeń: dupleks może zostać dopasowany w rozwiązaniu do co najwyżej jednego dupleksu drugiego deskryptora suma kosztów dopasowania par dupleksów, określonych jako ich odległość RMSD, nie może przekroczyć pewnego określonego limitu 22

Porównywanie deskryptorów [M. Antczak i in., BMC Bioinformatics 17 (2016) 383] cd. Ostatecznie rozwiązania problemu największego strukturalnego dopasowania są weryfikowane pod względem całościowej wartości RMSD, gdyż suma wartości dla poszczególnych dupleksów jest jedynie wskazówką w poszukiwaniu rozwiązania Problem dopasowania deskryptorów w podanym sformułowaniu może zostać rozwiązany z zastosowaniem np. metody węgierskiej albo poprzez sprowadzenie do problemu przepływu w sieci opartej na grafie dwudzielnym 23 Porównywanie deskryptorów Deskryptory A i B reprezentowane są zbiorami dupleksów. W macierzy kosztów wartości RMSD dla poszczególnych par dupleksów. d A1 d A2 d A3 d A4 d B1 d B2 d B3 d B4 d B5 2,1 1,9 M M M M 1,8 1,5 M 2,1 M M 2,6 2,2 M 3,0 M M 1,9 M s d A1 d A2 d A3 d B1 d B2 d B3 d B4 t d A4 d B5 Sieć przepływowa ma wszystkie pojemności równe 1. Koszty łuków incydentnych z s i t równe 0. 24