1 abbbaabaaabaa -wzorzec: aaba

Podobne dokumenty
Wykład 6. Wyszukiwanie wzorca w tekście

Temat: Algorytmy wyszukiwania wzorca w tekście

Algorytmy przeszukiwania wzorca

Wstęp do Programowania potok funkcyjny

Algorytmy i struktury danych. wykład 8

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Teoria obliczeń i złożoność obliczeniowa

Algorytmy tekstowe na przykładzie KMP

Sortowanie topologiczne skierowanych grafów acyklicznych

Zadanie 1 Przygotuj algorytm programu - sortowanie przez wstawianie.

Iteracje. Algorytm z iteracją to taki, w którym trzeba wielokrotnie powtarzać instrukcję, aby warunek został spełniony.

wstęp do informatyki i programowania część testowa (25 pyt. / 60 min.)

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott

Analiza algorytmów zadania podstawowe

Wstęp do Informatyki

Efektywna analiza składniowa GBK

Algorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny

a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8] a[9] a[10]

1 TEMAT LEKCJI: 2 CELE LEKCJI: 3 METODY NAUCZANIA. Scenariusz lekcji. 2.1 Wiadomości: 2.2 Umiejętności: Scenariusz lekcji

Imię, nazwisko, nr indeksu

ZŁOŻONOŚĆ OBLICZENIOWA ALGORYTMÓW

Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami

Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze,

Sortowanie przez scalanie

Pętle i tablice. Spotkanie 3. Pętle: for, while, do while. Tablice. Przykłady

Algorytmy i struktury danych. Wykład 6 Tablice rozproszone cz. 2

ALGORYTMY. 1. Podstawowe definicje Schemat blokowy

1 Wprowadzenie do algorytmiki

START. Wprowadź (v, t) S:=v*t. Wyprowadź (S) KONIEC

Zaawansowane algorytmy i struktury danych

Podstawy Programowania Algorytmy i programowanie

Aproksymacja funkcji a regresja symboliczna

Modele Obliczeń. Wykład 1 - Wprowadzenie. Marcin Szczuka. Instytut Matematyki, Uniwersytet Warszawski

Wykład 5. Metoda eliminacji Gaussa

PROBLEMY NIEROZSTRZYGALNE

Podstawy Informatyki. Sprawność algorytmów

RÓWNANIA NIELINIOWE Maciej Patan

Sztuczna Inteligencja Projekt

ALGORYTMY Algorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny

ALGORYTMY. 1. Podstawowe definicje Schemat blokowy

Informatyka I. Wykład 3. Sterowanie wykonaniem programu. Instrukcje warunkowe Instrukcje pętli. Dr inż. Andrzej Czerepicki

Struktury danych i złozoność obliczeniowa. Prof. dr hab. inż. Jan Magott

Zadanie 1. Potęgi (14 pkt)

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

ANALIZA PORÓWNAWCZA ALGORYTMÓW WYSZUKIWANIA WZORCA W TEKŚCIE

Algorytm - pojęcie algorytmu, sposób zapisu, poziom szczegółowości, czynności proste i strukturalne. Pojęcie procedury i funkcji.

Rekurencja. Rekurencja zwana także rekursją jest jedną z najważniejszych metod konstruowania rozwiązań i algorytmów.

Część I. Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania. Zadanie 1.1. (0 3)

Wykład VII. Kryptografia Kierunek Informatyka - semestr V. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej

Podstawowe algorytmy i ich implementacje w C. Wykład 9

Rozwiązywanie równań nieliniowych

Podstawy i języki programowania

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Wykład 4. Określimy teraz pewną ważną klasę pierścieni.

Wstęp do programowania

Wstęp do programowania. Listy. Piotr Chrząstowski-Wachtel

Maszyna Turinga języki

Analiza leksykalna 1. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Podstawy programowania. Wykład: 13. Rekurencja. dr Artur Bartoszewski -Podstawy programowania, sem 1 - WYKŁAD

METODY INŻYNIERII WIEDZY

Matematyczne Podstawy Informatyki

Zaawansowane metody numeryczne

Algorytm. a programowanie -

METODY INŻYNIERII WIEDZY

Algorytmy i struktury danych

Programowanie - wykład 4

Algorytmy i struktury danych.

Informatyka A. Algorytmy

Matematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne

Przeszukiwanie z nawrotami. Wykład 8. Przeszukiwanie z nawrotami. J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279

Algorytmika i kombinatoryka tekstów

Wprowadzenie do złożoności obliczeniowej

Instrukcje sterujące

Informatyka 1. Złożoność obliczeniowa

PRÓBNY EGZAMIN MATURALNY Z INFORMATYKI STYCZEŃ Arkusz I. Czas pracy: 60 minut Liczba punktów do uzyskania: 15

Sortowanie. Kolejki priorytetowe i algorytm Heapsort Dynamiczny problem sortowania:

Optymalizacja. Przeszukiwanie lokalne

Podstawy Programowania C++

Algorytmy i złożoności Wykład 5. Haszowanie (hashowanie, mieszanie)

Znajdowanie największego i najmniejszego elementu w zbiorze n liczb całkowitych

Temat: Algorytm kompresji plików metodą Huffmana

Podstawy Informatyki. Inżynieria Ciepła, I rok. Iteracja warunkowadopóki(while) Blok instrukcji. Pascal: begin instrukcja1; C: { end;

Algorytmy i Struktury Danych, 2. ćwiczenia

Hierarchia Chomsky ego Maszyna Turinga

Metody Numeryczne Wykład 4 Wykład 5. Interpolacja wielomianowa

Algorytmika i pseudoprogramowanie

Algorytmy i schematy blokowe

Wykład z Technologii Informacyjnych. Piotr Mika

Schemat programowania dynamicznego (ang. dynamic programming)

Informatyka 1. Wyrażenia i instrukcje, złożoność obliczeniowa

ZŁOŻONOŚĆ OBLICZENIOWA ALGORYTMÓW

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Algorytmy i struktury danych. wykład 2

Zaawansowane algorytmy i struktury danych

do instrukcja while(wyrażenie);

LABORATORIUM 7: Problem komiwojażera (TSP) cz. 2

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

Transkrypt:

Algorytmy i złożoność obliczeniowa Laboratorium 14. Algorytmy tekstowe. 1. Algorytmy tekstowe Algorytmy tekstowe mają decydujące znaczenie przy wyszukiwaniu informacji typu tekstowego, ten typ informacji jest szczególnie popularny w informatyce, np. w edytorach tekstowych i wyszukiwarkach internetowych. Tekst jest ciągiem symboli. Przyjmujemy, że jest on zadany tablicą skończonego zbioru A (zwanego alfabetem). Liczba (rozmiarem) tekstu., elementami której są symbole ze jest długością Typowe reprezentacje tekstów to reprezentacja listowa i reprezentacja tablicowa. Podstawowym problemem dotyczącym tekstów jest problem wyszukiwania wzorca. Problem ten polega na znalezieniu wszystkich wystąpień tekstu x, zwanego wzorcem w tekście y. Przyjmujemy, że x m, y n, n m. Wyszukiwanie wzorca było wszechstronnie badane ze względu na duże zastosowanie praktyczne. Poniżej zostaną zaprezentowane podstawowe algorytmy dla problemu wyszukiwania wzorca takie jak : algorytm N (algorytm naiwny ), Algorytm KMP (Knutha-Morrisa-Pratta), Algorytm GS' (wersja algorytmu Galila-Seiferasa dla pewnej klasy wzorców)- więcej algorytmów zostało omówione na wykładzie http://www.ipipan.waw.pl/~penczek. 2. Problem wyszukiwania wzorca Niech x, będzie wzorcem, a y tekstem, w którym szukamy wzorca. Dla słowa z przyjmijmy z[i..j] z[i]z[i 1] z[j], gdzie i j. Mówimy, że x występuje w y na pozycji i, gdy y[ i.. i m 1] x - inaczej mówiąc, gdy począwszy od i-tej pozycji, wzorzec pasuje do tekstu. Z tego powodu problem wyszukiwania wzorca jest również nazywany problemem dopasowywania wzorca. -alfabet: {a, b} wystąpienia: -tekst: abbbaabaabba 1 abbbaabaaabaa -wzorzec: aaba 2 abbbaabaabaa

2.1. Algorytm N( naiwny ) Schemat najbardziej bezpośredniego algorytmu, zwanego naiwnym, wygląda następująco: if x[1..m] = y[i..i + m -1] then write(i); i := i +1; (przesunięcie =1) Pełny algorytm otrzymamy, rozpisując instrukcję sprawdzenia równości tekstów. j := 0; while x[j+1] = y[i+j] do j := j + 1; if j = m then write(i); i := i +1; {przesunięcie =1} teskt=bbabbbaabb, n=10 wzorzec=aab, m=3 -i=1 nie nastąpi wejście do zagnieżdżonej pętli while, nie jest również spełniony warunek if. - i=2 nie nastąpi wejście do zagnieżdżonej pętli while, nie jest również spełniony warunek if. - i=3 nastąpi wejście do zagnieżdżonej pętli while, ale dla j=1 nastąpi wyjście, po tym wyjściu warunek if będzie niespełniony, - i=4..6 nie nastąpi wejście do zagnieżdżonej pętli while, nie jest również spełniony warunekif. - i=7 nastąpi wejście do zagnieżdżonej pętli while, która wykonywana będzie aż do j=3, po tym wyjściu warunek if jest spełniony tzn. znaleziono dopasowanie. - i=8 nie nastąpi wejście do zagnieżdżonej pętli while, nie jest również spełniony warunek if. - i=9 nie jest spełniony główny warunek, algorytm zostaje zakończony.

2.2. Algorytm KMP W algorytmie N początek wzorca przesuwamy zawsze o jeden, podczas gdy możliwe jest czasami dużo większe przesunięcie. Taką wartość przesunięcia można obliczyć, korzystając z informacji o maksymalnej wartości j, obliczonej w poprzednim kroku algorytmu. P[j] = max { 0 <= k < j x[1..k] jest sufiksem x[1..j]} Przyjmujemy P[0] = P[1] = 0. Jeśli tablica P jest już policzona, to problem wyszukiwania wzorca można efektywnie rozwiązać za pomocą algorytmu KMP, którego struktura jest podobna do struktury algorytmu N. Wartość przesunięcia początku wzorca w y jest określona teraz wzorem przesunięcie(j) = max(1,j P[j]). j := 0; {x[1..p[j]] = x[j-p[j]+1..j] = y[i..i+p[j]-1]} j := P[j]; while x[j+1] = y[i+j] do j := j + 1; if j = m then write(i); i := i + przesunięcie(j); {przesunięcie >= 1} end Pozostaje jeszcze problem obliczenia tablicy P. Dla każdego j 2 obliczamy P [ j], korzystając z następującej obserwacji: niech i 1 będzie minimalne, takie że x[ P ( i) [ j 1] 1] x[ j]. Jeśli takie i istnieje, to P[j] P razie P[j] = 0. i [j-1] 1; w przeciwnym

P[0] := P[1] := 0; t :=0; for j := 2 to m do {obliczamy wartość P[j]} {t = P[j - 1]} while (t > 0) and (x[t + 1] x[j]) do t := P[t]; if x[t + 1] = x[j] then t := t + 1; P[j] := t; wypełniania tablicy P wzorzec=abbabcabb obliczmy teraz dla takiego wzorca tablicę P Przyjmujemy P[0]=0 oraz P[1]=0, następnie: P[2]=0, P[3]=0, P[4]=1, gdyż a (początek wzorca) jest sufiksem abba (wzorzec[1..4]) P[5]=2, gdyż ab (początek wzorca) jest sufiksem abbab (wzorzec[1..5]) P[6]=0, P[7]=1, gdyż a (początek wzorca) jest sufiksem abbabca (wzorzec[1..7]) P[8]=2, gdyż ab (początek wzorca)jest sufiksem abbabcab (wzorzec[1..8]) P[9]=3, gdyż abb (początek wzorca) jest sufiksem abbabcabb (wzorzec[1..9]) 2.3. Algorytm GS' (wersja algorytmu Galila-Seiferasa dla pewnej klasy wzorców) Jednym z ciekawszych algorytmów wyszukiwania wzorca jest algorytm GS, który umożliwia rozwiązanie problemu w czasie liniowym i jednocześnie w pamięci. Mówimy, że wzorzec jest łatwy gdy żadne słowo niepuste postaci vvv nie jest jego prefiksem ( na przykład x = abababba nie jest łatwy a wzorzec x = abbabbbab jest łatwy).

W przypadku łatwych wzorców można skonstruować algorytm podobny do KMP, w którym tablicę P zastępuje się przez pewne przybliżone oszacowanie: P[j] < 2j/3, przesunięcie(j) >= j/3. {Algorytm GS : wersja algorytmu Galila-Seiferasa dla łatwych wzorców} j := 0; while x[j+1] = y[i+j +1] do j := j + 1; if j = m then write(i); i := i + max(1, [j/3]); {przesunięcie >= 1} Algorytm ten nie będzie działał prawidłowo dla wzorców, które nie są łatwe. Dla x = aaaaaaab i y = aaaaaaaab. Zostanie wypisane 0 wystąpień wzorca x w tekście y. Podczas gdy x występuje w y począwszy od pozycji i=2. Dla j = 7 otrzymamy przesunięcie równe 2 i następną badaną pozycją w y będzie i=i+2=3, a więc pozycja i = 2 zostanie pominięta. Zadania Dany jest tekst y oraz wzorzec x. Napisz program, który wypisze ile razy wzorzec wystąpił w tekście i na jakich pozycjach. Wykorzystaj algorytm: a) Naiwny [2p] b) GS [3p] c) KMP [3p]