Algorytmy kombinatoryczne w bioinformatyce

Podobne dokumenty
prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Algorytmy kombinatoryczne w bioinformatyce

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Algorytmy kombinatoryczne w bioinformatyce

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PRZYRÓWNANIE SEKWENCJI

Algorytmy kombinatoryczne w bioinformatyce

Wykład 5 Dopasowywanie lokalne

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Przyrównywanie sekwencji

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Porównywanie i dopasowywanie sekwencji

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Dopasowanie sekwencji (sequence alignment)

Dopasowania par sekwencji DNA

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

D: Dopasowanie sekwencji. Programowanie dynamiczne

Wybrane podstawowe rodzaje algorytmów

Metody przeszukiwania

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Dopasowanie par sekwencji

Wstęp do programowania

Wstęp do Sztucznej Inteligencji

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wstęp do Biologii Obliczeniowej

Bioinformatyka Laboratorium, 30h. Michał Bereta

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Algorytm genetyczny (genetic algorithm)-

Programowanie celowe #1

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Schemat programowania dynamicznego (ang. dynamic programming)

Programowanie dynamiczne i algorytmy zachłanne

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Bioinformatyka Laboratorium, 30h. Michał Bereta

Porównywanie i dopasowywanie sekwencji

Statystyczna analiza danych

Struktury danych i złozoność obliczeniowa. Prof. dr hab. inż. Jan Magott

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

Wstęp do programowania

Optymalizacja. Przeszukiwanie lokalne

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Teoria grafów - Teoria rewersali - Teoria śladów

Metody Programowania

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

0 + 0 = 0, = 1, = 1, = 0.

Algorytmy genetyczne

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

Temat: Algorytm kompresji plików metodą Huffmana

Programowanie dynamiczne cz. 2

Wyróżniamy dwa typy zadań projektowych.

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Matematyczne Podstawy Informatyki

Wstęp do programowania

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Aproksymacja funkcji a regresja symboliczna

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Harmonogramowanie przedsięwzięć

Algorytmika Problemów Trudnych

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Kompresja bezstratna. Entropia. Kod Huffmana

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Plan wykładu. Przykład. Przykład 3/19/2011. Przykład zagadnienia transportowego. Optymalizacja w procesach biznesowych Wykład 2 DECYZJA?

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

46 Olimpiada Biologiczna

Pole wielokąta. Wejście. Wyjście. Przykład

Egzamin, AISDI, I termin, 18 czerwca 2015 r.

Metody bioinformatyki (MBI) projekt, dokumentacja końcowa

PRACA DYPLOMOWA MAGISTERSKA

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Podstawy programowania. Wykład 7 Tablice wielowymiarowe, SOA, AOS, itp. Krzysztof Banaś Podstawy programowania 1

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Algorytmy aproksymacyjne i parametryzowane

Programowanie liniowe

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Nierówność Krafta-McMillana, Kodowanie Huffmana

Programowanie dynamiczne (optymalizacja dynamiczna).

Generator testów Bioinformatyka wer / 0 Strona: 1

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Algorytmika dla bioinformatyki

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Twój wynik: 4 punktów na 6 możliwych do uzyskania (66,67 %).

Wykład z Technologii Informacyjnych. Piotr Mika

Wyznaczanie optymalnej trasy problem komiwojażera

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Programowanie dynamiczne

Algorytmy mrówkowe w dynamicznych problemach transportowych

Transkrypt:

lgorytmy kombinatoryczne w bioinformatyce wykład 4: dopasowanie sekwencj poszukiwanie motywów prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie podobieństwa sekwencji stanowi podstawę wielu gałęzi bioinformatyki: asemblacj konstrukcji drzew filogenetycznych, czy też znajdowania rodzin białek odpowiedzialnych za tę samą funkcję w różnych organizmach Ze względu na mutacje w sekwencjach lub błędy eksperymentalne popełnione na etapie ich odczytywania, dopasowanie dokładne sekwencji nie znajduje tu zastosowania. Należy założyć występowanie insercj delecji oraz substytucji pozycji w sekwencjach (nukleotydowych, aminokwasowych), co skutkuje dopasowaniem z pewnym odsetkiem niezgodności oraz wstawionych spacji 2

Odległość pomiędzy sekwencjami można mierzyć minimalną liczbą operacji (wstawienia, usunięcia, zamiany znaku) potrzebnych do przetransformowania jednej sekwencji w drugą (odległość Levenshteina) Taki schemat obliczania odległości nie premiuje dopasowanych znaków, a więc w efekcie długości dopasowania. Nie nadaje się do znajdowania dopasowania o nieustalonej długości Częściej stosowane podejście polega na maksymalizacji funkcji oddającej podobieństwo sekwencj w którym przyznaje się punkty za zgodność znaków i odejmuje punkty za ich niezgodność lub spację 3 Istnieje dokładny algorytm wielomianowy oparty na programowaniu dynamicznym, obliczający optymalne (przy założeniu pewnej przyjętej punktacji za każdą z operacji) dopasowanie dwóch sekwencji Sposób punktacji zależy od zastosowania dopasowania: sekwencje nukleotydowe vs. aminokwasowe, sekwencje homologiczne vs. niehomologiczne, sekwencje krótkie vs. długie, a także od rodzaju eksperymentu, w którym sekwencje zostały pozyskane (spodziewane błędy) Przykładowa punktacja: + za zgodność pary znaków, za niezgodność, za każdą wprowadzoną spację 4

Globalne dopasowanie dwóch sekwencji [S.B. Needleman i C.D. Wunsch, G C T C T J. Molecular Biology 48 (970)] M[0,0] 0 M[ i, j ] s( j) M[ max M[ i, g M[ j ] g i 0.. n, j 0.. m s( j), g TCC-GT G-CTCT- 0 - -2-3 -4-5 -6-7 -8-0 - -2-3 -4-5 -6 T -2 0 0 - -2 - -2-3 -4 C -3 - - - 0 - -2 - -2-4 -2-2 0 - - 0 - -2 C -5-3 -3-0 - 0-6 -4-4 -2 0 0 0 0 G -7-5 -3-3 - - 0 0 - T -8-6 -4-4 -2 0 - - -9-7 -5-3 -3-0 0 5 Lokalne dopasowanie dwóch sekwencji [T.F. Smith i M.S. Waterman, G C T C T J. Molecular Biology 47 (98)] M[ i, j ] s( j) M[ i, g M[ max M[ j ] g 0 i 0.. n, j 0.. m s( j), g TCTGT GC-TCT 0 0 0 0 0 0 0 0 0 T 0 0 0 0 0 0 0 0 0 0 0 2 0 C 0 0 0 0 2 3 2 0 0 2 2 2 T 0 0 0 0 0 2 3 0 0 0 3 2 2 G 0 0 2 0 0 2 2 T 0 0 0 3 0 0 2 0 2 2 6

Semiglobalne dopasowanie dwóch sekwencji s( j), g 2 TCG-CC GCTCTC G C T C T C 0 0 0 0 0 0 0 0 0 0 M[0,0] M[ 0] M[0, 0 0 - - - - - - M[ i, j ] s( j) T 0-0 - 0 0-0 0-2 M[ max M[ i, g C 0 - -2-0 - - 0 - M[ j ] g 0 - - -2-0 -2 - - i.. n, j.. m 0 0 0-2 -3 0 - -3-2 G 0-2 0 - -3-2 - -2-4 C 0-0 - -3 - -2-0 - 0 0 0-2 -2-3 0 0 0 0 - - -3-3 C 0-0 - - - 2 0-2 7 Dokładny algorytm programowania dynamicznego ma złożoność czasową i pamięciową O(n m). W praktycznych zastosowaniach, gdy wymagane jest obliczenie dopasowania dla wszystkich par sekwencji z dużego zbioru, lub też dopasowania dwóch długich sekwencj czas obliczeń staje się problemem. Dlatego podejmuje się próby ograniczenia liczby kroków algorytmu, co skutkuje podejściem heurystycznym Jednym z rozpowszechnionych podejść jest wypełnianie tablicy programowania dynamicznego jedynie w okolicy przekątnej. W wielu przypadkach wziętych z życia takie podejście daje wystarczająco satysfakcjonujące wyniki [W.J. Wilbur i D.J. Lipman, Proc. Natl. cad. Sci. US 80 (983)] 8

[M. Crochemore i in., SIM J. Comput. 32 (2003)] lgorytm wyliczający optymalne dopasowanie (globalne lub lokalne) dwóch sekwencji w czasie O(h n 2 /log n), gdzie n jest długością sekwencji a 0 < h jest entropią sekwencji Entropia mierzy stopień losowości ciągu znaków. Entropia jest mała, jeśli porządek w ciągu jest duży Obie dopasowywane sekwencje są na wstępie poddawane faktoryzacji LZ (Lempel-Ziv) Tablica programowania dynamicznego dzielona jest na bloki o zmiennej wielkośc w których porównywane jest słowo z pierwszej sekwencji ze słowem z drugiej sekwencj oba słowa będące rezultatem faktoryzacji 9 [M. Crochemore i in., SIM J. Comput. 32 (2003)] cd. G G C G C T G C T C G C T C T C G C G 0

[M. Crochemore i in., SIM J. Comput. 32 (2003)] cd. Fragmenty sekwencji są identyfikowane i przechowywane w słowniku i jeśli dane słowo powtórzy się w sekwencj jest kodowane przez odpowiednie wskaźniki Każde następne identyfikowane słowo jest jednym ze słów zidentyfikowanych wcześniej plus jeden znak. Przykładowo, sekwencja CGCG jest dzielona w faktoryzacji LZ na cztery słowa:, C, G, CG. Każde słowo jest kodowane jako indeks prefiksu plus ostatni znak Przyspieszenie jest osiągane przez wykorzystanie w trakcie wypełniania macierzy części obliczeń dokonanych wcześniej dla podobnego słowa. Bloki są tak konstruowane, że w każdym z nich porównywana jest tylko jedna nowa para znaków Poza opisanym wcześniej podejściem opartym na stałej punktacji za każdą zgodność, niezgodność czy spację, stosuje się w dopasowaniu sekwencji nukleotydowych i aminokwasowych tzw. afiniczne kary za spacje oraz macierze substytucji Model kar afinicznych polega na obarczeniu wysoką karą pierwszej spacji z rzędu i dużo niższymi karami kolejnych spacji. Uzasadnieniem biologicznym jest większe prawdopodobieństwo wystąpienia na skutek ewoluowania sekwencji takiej blokowej różnicy niż wielu pojedynczych insercji. Podobnie jak w modelu kar stałych, wysokość kary ustalana jest w zależności od rodzaju problemu i zamierzonego efektu 2

Dopasowanie literalne częściej stosowane jest w przypadku sekwencji nukleotydowych. W sekwencjach aminokwasowych trudniej o idealne dopasowanie pary znaków z uwagi na większy alfabet oraz podobieństwo różnych aminokwasów (substytucja w trakcie ewolucji). Zastosowanie punktacji z macierzy substytucji przybliża rezultat do stanu naturalnego Macierze substytucji dla aminokwasów zawierają wartości liczbowe odzwierciedlające prawdopodobieństwo zamiany w trakcie ewolucji jednego aminokwasu w drugi. Najpopularniejsze macierze to serie BLOSUM i PM. Przykładem macierzy substytucji dla nukleotydów jest EDNFULL/NUC4.4 [ftp.ncbi.nih.gov/blast/matrices/] 3 Problem dopasowania wielu sekwencji jest silnie NP-trudny i może zostać rozwiązany metodą programowania dynamicznego w sposób dokładny w czasie O(2 k n k ), gdzie k jest liczbą sekwencji a n ich długością Naturalną heurystyką jest obliczenie optymalnych dopasowań wszystkich par sekwencji i połączenie ich w całość, co nie jest łatwe w przypadku znacznych rozbieżności w dopasowaniach Wynikowe dopasowanie przełożyć można na postać sekwencji konsensusowej reprezentującej w jak najbardziej zbliżony sposób cały zbiór. Zwykle stosuje się w tym celu regułę względnej większośc rzadziej regułę bezwzględnej większości 4

Progresywna strategia dopasowania wielu sekwencji [M.S. Waterman i M.D. Perlwitz, Bull. Math. Biol. 46, 984] jest konstruowane począwszy od dopasowania najbliższej sobie pary sekwencj a następnie przez dodawanie kolejnych bliskich sekwencji. Strategia wynika z założenia, że najbliższe sobie sekwencje prawdopodobnie pochodzą z bliskich ewolucyjnie organizmów i że ich dopasowanie odpowiada najbardziej wiarygodnej informacji. Informacja ta jest następnie propagowana na kolejne etapy tworzenia dopasowania. Łączyć można zarówno sekwencję z podzbiorem dopasowanych już sekwencj jak i dwa podzbiory niezależnie dopasowanych sekwencji. 5 Strategia iteracyjnego poprawiania dopasowania [D. Sankoff i in., J. Mol. Evol. 7, 976] Początkowe dopasowanie, utworzone heurystyką, poprawiane jest w serii kroków optymalizacji lokalnej. Strategia gwiazdy [D. Gusfield, Bull. Math. Biol. 55, 993] Obliczane jest dopasowanie wszystkich par sekwencj a następnie wskazywana jest sekwencja najbliższa wszystkim innym ze zbioru, na której konstruowane jest dopasowanie wynikowe. Metoda nie sprawdza się na zbiorze mocno różniących się sekwencji. 6

[Y. Zhang i M.S. Waterman, J. Comput. Biol. 0 (2003)] Metoda Eulerlign zamodelowanie problemu za pomocą problemu poszukiwania ścieżki w grafie. Wykorzystuje graf Pevznera zastosowany wcześniej do rozwiązania problemu sekwencjonowania DN Nowość tego podejścia polega na pominięciu standardowo używanego schematu tworzenia sekwencji konsensusowej na podstawie dopasowania sekwencji. Tutaj generowana jest sekwencja konsensusowa przed poznaniem samego dopasowania. Co więcej, pomija się w ogóle etap obliczania dopasowania wszystkich par sekwencji 7 [Y. Zhang i M.S. Waterman, J. Comput. Biol. 0 (2003)] cd. lgorytm Eulerlign. Budowa grafu skierowanego z k-merami pochodzącymi z sekwencji umieszczonymi w łukach grafu 2. Transformacja grafu do postaci acyklicznej 3. Uzyskanie sekwencji konsensusowej z grafu jako tej, która odpowiada ścieżce o największej wadze 4. Dopasowanie wszystkich sekwencji wejściowych do uzyskanego rozwiązania 8

[Y. Zhang i M.S. Waterman, J. Comput. Biol. 0 (2003)] cd. sekwencje: CCTC, CCTCCT, CTCT k-mery (k=3): CC, CCT, CT, TC, C, CTC, TC, CC, CT C 2 CC 2 CT 2 T C TC Waga w łukach jest liczbą sekwencji zawierających dany k-mer, nie licznością k-merów w sekwencjach (patrz CT). 2 Rozwiązaniem jest acykliczna ścieżka w grafie o maksymalnej sumarycznej wadze. Transformacja grafu do postaci acyklicznej ma uprościć poszukiwanie ścieżki (co będzie możliwe w liniowym czasie) przy zachowaniu maksimum informacji o podobieństwie sekwencji wejściowych. Informacja ta jest reprezentowana przez łuki o dużej wadze. Transformacja realizowana jest procedurą heurystyczną. 9 [Y. Zhang i M.S. Waterman, J. Comput. Biol. 0 (2003)] cd. sekwencje: CCTC, CCTCCT, CTCT k-mery (k=3): CC, CCT, CT, TC, C, CTC, TC, CC, CT C CC 2 CT 2 T C TC 2 Dwa optymalne rozwiązania: CCTC, CCTCT CCT-C CCT-C -CCTCCT C-T-CT CCT-CT CCT-C -CCTCCT C-T-CT 20

Poszukiwanie motywów Poszukiwanie charakterystycznych ciągów w sekwencjach nukleotydowych lub aminokwasowych jest częstym problemem biologicznym. Dotyczy np. regionów promotorowych w sekwencjach nukleotydowych oraz fragmentów odpowiedzialnych za strukturę białka w sekwencjach aminokwasowych Poszukiwanie może dotyczyć motywów o stałej strukturze, identycznej w badanych sekwencjach (np. najdłuższe powtórzenia), ale najczęściej wystąpienia tego samego motywu w różnych organizmach różnią się w szczegółach (np. wskutek ewolucji), za to posiadają charakterystyczny wspólny szkielet odpowiedzialny za ich funkcję 2 Poszukiwanie motywów Przedmiotem poszukiwań może być pojedyncze wystąpienie motywu w sekwencji lub też cała seria różnych motywów. W tym drugim przypadku kolejne wystąpienia motywów mogą następować (bądź nie) w zadanym porządku Dodatkowo można nakładać ograniczenia na odległości pomiędzy wystąpieniami motywów. Przykładowo, region promotorowy ma pojawić się w przedziale zdefiniowanym w pewnej odległości przed kodonem startu, kluczowe fragmenty sekwencji białkowej mają zawierać się w oknach o zadanym położeniu wewnątrz sekwencji Można poszukiwać motywy znane lub nieznane 22

Poszukiwanie motywów Wystąpienia tego samego motywu w różnych sekwencjach mogą różnić się sekwencją znaków, długością (istotnie), pozycją (znacznie), może się także zdarzyć brak wystąpienia motywu w którejś z sekwencji ze zbioru W grupie problemów związanych z poszukiwaniem motywów można wyróżnić poszukiwanie najdłuższego motywu w zbiorze sekwencj poszukiwanie największej liczby motywów, poszukiwanie najbardziej zakonserwowanego zbioru motywów Problem poszukiwania motywów staje się trudny obliczeniowo przy wielu sekwencjach i zmiennych motywach 23 Poszukiwanie motywów [C. Boucher i in., Lect. Notes in Computer Science 4645 (2007)] Metoda poszukiwania w zbiorze sekwencji motywów słabych, zdegenerowanych, w których na stosunkowo wielu pozycjach dopuszcza się wystąpienie niezgodności Wykorzystywany jest tu model grafu nieskierowanego ważonego i w podejściu heurystycznym poszukiwane są gęste podgrafy o dużej wadze Zastosowanie wag daje nowej metodzie przewagę nad wcześniejszymi algorytmam w których poszukiwano struktury zbliżone do klik w grafach bez wag. utorzy wykryli widoczną różnicę w wagach klik odpowiadających i nieodpowiadających rzeczywistym motywom 24

Poszukiwanie motywów [C. Boucher i in., Lect. Notes in Computer Science 4645 (2007)] cd. W pierwszym etapie algorytm MarkovCluster poszukuje gęste i wysoko punktowane podgrafy w zdefiniowanym grafie, w drugim etapie dokładny algorytm znajduje w nich motywy Wierzchołki grafu odpowiadają wszystkim podciągom o długości l, krawędzie łączą wierzchołki z różnych sekwencj jeśli odległość Hamminga pomiędzy podciągami jest nie większa niż 2d, gdzie d jest liczbą dopuszczalnych zdegenerowanych pozycji w motywie. Waga krawędzi jest równa l k dla odległości Hamminga d < k 2d, lub 0(l k) dla k d Odległość Hamminga dla dwóch sekwencji o tej samej długości jest liczbą pozycj na których te sekwencje różnią się 25 Poszukiwanie motywów Zadanie Należy skonstruować graf ważony metodą Boucher i in. dla następującego zbioru sekwencji: {CCTC, CCTCCT, CTCT}. Wartości parametrów: długość podciągów l=4, liczba dopuszczalnych zdegenerowanych pozycji w motywie d=. każdy podciąg o długości l to osobny wierzchołek wierzchołki są łączone krawędziam jeśli reprezentujące je ciągi znaków pochodzą z różnych sekwencji oraz dzieli je odległość Hamminga k nie większa niż 2d waga krawędzi jest równa l k, jeżeli d < k 2d, lub 0(l k), jeżeli k d W grafie tym można wyróżnić wiele klik, ale wagi pozwalają łatwo wybrać preferowane czteroliterowe podciągi: CCT, CTC, TCT, i końcowy motyw: CCTCT 26