Kolekcja prac KOMPUTEROWE PRZETWARZANIE WIEDZY Politechnika Wrocławska, 2011
Spis treści
R O Z D Z I A Ł 1 ODNAJDOWANIE TEKSTU NA MAPACH (NAZWY GEOGRAFICZNE NA SKANACH MAP) Z. Pietrowska, M. Puchalska, T. Płatek 1.1 Wprowadzenie Ze względu na to, że duża część informacji jest dostępna na papierze albo w formie fotografii, czy filmów wideo, odnajdowanie tekstu jest obiektem zainteresowań wielu badaczy. W szczególności istnieje wiele ważnych zasobów historycznych, które są czytelne tylko dla człowieka, dlatego ważne jest, aby stworzyć takie metody, które by pozwoliły na klasyfikacje informacji w sposób czytelny dla komputera, tak aby uzyskanie informacji z zasobów historycznych odbywało się w sposób efektowny. Mapa jest to uogólniony obraz powierzchni Ziemi lub jej części, wykonywany na płaszczyźnie, w skali, według zasad odwzorowania kartograficznego, przy użyciu umownych znaków graficznych. Mapa stanowi podstawowe narzędzie badań i prezentacji wyników w historii, przy czym mapy różnią się co do sposobu reprezentacji danych i sposobu wykonania w zależności od tego w jakim okresie historycznym zostały stworzone. Wyróżnia się następujący podział map ze względu na treść: ogólnogeograficzne: topograficzne; przeglądowo-topograficzne; przeglądowe. tematyczne: 5
6 1 Tytuł rozdziału w nagłówku społeczno-gospodarcze; przyrodnicze, fizyczno-geograficzne; polityczno-administracyjne. Kryterium podzialu może stanowić również skala mapy. Wyróżniamy: mapy wielkoskalowe (skala od 1:100 do 1:10 000); mapy średnioskalowe (od 1:20 000 do 1:300 000); mapy małoskalowe (poniżej 1:500 000). W przypadku rozpoznawania tekstu na mapach problem mogą stanowić m.in: czcionka, gęsta sieć dróg oraz inne specyficzne czynniki związane z charakterystyką danej mapy. W związku z dużą różnorodnością danych wejściowych konieczne jest szczegółowe wyspecyfikowanie rozważanego obszaru tematycznego. Warta uwagi jest aliancka kartografia Europy Środkowej i Wschodniej, ściśle związana z II wojna światową i okresem zimnej wojny w latach 50. XX wieku. Na stronie http://polski.mapywig.org/viewpage.php?page_id=45 udostępnione są skany map: brytyjskich, sygnowanych przez GSGS (Geographical Section General Staff) i amerykańskich, AMS (Army Map Service). W szczególności, projekt będzie tworzony z wykorzystaniem mapy "The World: polityczna mapa swiata, AMS (Army Map Service), 1944r, skala 1:25 mln.", przy czym ze względu na jej znaczny rozmiar zostanie ona podzielona na mniejsze fragmenty. Parametry pisma również bardzo zależą od rodzaju mapy, istnieją jednak pewne konwencje, które zostały podsumowane w tabeli??. Mimo, iż istnieje wiele metod, które zostały zaproponowane w ostatnich latach, wykrywanie tekstu jest nadal wyzwaniem, ponieważ rozmiary czcionki, style pisma oraz kolory zarówno tła jak i pisma mogą być bardzo różnorodne. Zgodnie z [?] podejścia do rozpoznawania tekstu mogą być zaklasyfikowane jako należące do dwóch głównych grup: oparte na wykorzystaniu tekstur oparte na analizie elementów połączonych (connected components). Znaczna część metod pozwala na bardzo dobre wykrywanie tekstu o różnych rozmiarach, czcionkach, ale pisanego w jednym kierunku. Przykładem mogą być algorytmy opisane w pozycjach [?],[?] i [?]. W przypadku odnajdywania tekstu na mapach metoda musi pozwalać na odnajdowanie tekstu napisanego w różnych kierunkach, często pofalowanego. Metody przedstawione w artykułach [?], [?] oraz [?] pozwalają na odnajdowanie tekstu w różnej orientacji, ale są o wiele trudniejsze pod względem implementacyjnym od poprzednio wymienionych. Na szczególną uwagę zasługuje [?], w którym autorzy proponują rozpoczęcie analizy obrazu od zastosowania w dziedzinie częstotliwości najpierw idealnego filtru dolnoprzepustowego, a następnie filtru Laplace a. Pozwala to na wstępne wyszczególnienie fragmentów, które potencjalnie mogą być tekstem z uwagi na fakt występowania na odpowiednich obszarach znacznych rozbieżności wartości między pikselami. Po utworzeniu mapy maksymalnych rozbieżności można podzielić mapę na dwa zbiory wykorzystując algorytm centroidów. Morfologiczna operacja otwarcia przygotowywuje obraz do dalszej obróbki, czyli klasyfikacji komponentów składowych na komponenty proste i złożone przez wykorzystanie szkieletu obszarów wstęp-
1.1 Wprowadzenie 7 Tablica 1.1: Parametry pisma Parametr Rodzaje Przykład Kategorie Rodzaj pisma Wersalik POLSKA, WAR- SZAWA tekst Gdańsk, Wyspa Sobieszewska Państwa, regiony, stolice większe miasta Wszystko pozostałe Krój bezszeryfowe Państwa, regiony, miasta, przylądki szeryfowe pochylenia proste Półwysep Skandynawski Morza, Oceany, rzeki, zatoki Państwa, regiony, miasta, przylądki, wyspy pochyłe Zatoka Pucka cieśniny, rzeki, zatoki grubość cieńkie Wieżyca szczyty pogrubione Województwo pomorskie Państwa, jednostki administracyjne. zwykłe Gdańsk Wszystko pozostałe kolor niebieski Wisła obiekty wodne zielony Trójmiejski Park Krajobrazowy sepia 140 Poziomice. Obiekty związane z lasami. zwykłe Gdańsk Wszystko pozostałe nie zaklasyfikowanych jako zawierające tekst. Po podziale komponentów złożonych na proste z wykorzystaniem punktów intersekcji szkieletów odpowiednich komponentów analizowana jest ich graniczna gęstość oraz liniowość co pozwala na eliminację elementów, które w pierwszej fazie nie zostały odrzucone, lecz nie stanowią napisów.