Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna

Transkrypt

1 Instytut Badań Systemowych Polskiej Akademii Nauk Mgr Studia Doktoranckie IBS PAN Techniki informacyjne - teoria i zastosowania Streszczenie rozprawy doktorskiej Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna Promotor: prof. dr hab. inż. Piotr S. Szczepaniak Warszawa 2012

2 1 Cel i zakres pracy Celem pracy jest opracowanie metody umożliwiającej wykorzystanie łańcuchów Browna do automatycznego opisu i rozpoznawania obiektów na obrazach cyfrowych. W niniejszej rozprawie doktorskiej postawiono i udowodniono następującą tezę: Dzięki łącznemu wykorzystaniu gramatyki ciągowej w postaci łańcuchów Browna oraz metody aktywnego konturu możliwe jest rozpoznawanie obiektów na obrazach cyfrowych. W rozprawie przedstawiono odpowiednie algorytmy autorskie i ich programowe implementacje. Uzyskane wyniki pozwalają stwierdzić, że podana teza jest prawdziwa w odniesieniu do obiektów, które można rozpoznać wyznaczając ich krawędzie. Osiągnięcie postawionego celu badawczego wymagało wykonania szeregu zadań, a w szczególności: Przeglądu badań, mechanizmów i rozwiązań już istniejących. Według najlepszej wiedzy autora nie zostało opracowane wykorzystanie łańcuchów Browna do rozpoznawania obiektów na obrazach. Zastosowania klasyfikacji hierarchicznej do rozpoznawania obiektów. Opracowania modyfikacji filtru Kuwahary. Zaproponowania nowego sposobu optymalizowania łańcuchów Browna (nowego generatora ruchu). Zmodyfikowania odległości Levensteina do potrzeb łańcuchów Browna. Opracowania metody porównywania obiektów opisanych przy pomocy łańcuchów Browna. Sprawdzenia działania opracowanych mechanizmów. Zoptymalizowania algorytmów pod względem szybkości działania. 2 Układ rozprawy Rozprawa została podzielona na pięć rozdziałów, których układ jest podporządkowany weryfikacji postawionej tezy. Praca rozpoczyna się od wstępu, gdzie umieszczony został cel i zakres badań oraz teza będąca przedmiotem rozprawy. Pierwsze dwa rozdziały mają charakter teoretyczny i stanową wprowadzenie w tematykę rozpoznawania kształtów na obrazach, metod aktywnego konturu oraz lingwistycznego opisu 2

3 obrazów. W rozdziale trzecim w sposób szczegółowy jest przedstawiana budowa oraz opracowane operacje na łańcuchach Browna. W kolejnym rozdziale znajduje się omówienie otrzymanych rezultatów przeprowadzonych badań oraz prezentacja stworzonego systemu komputerowego. Ostatni rozdział poświęcony został podsumowaniu rezultatów oraz przedstawieniu dalszych planów badawczych autora pracy. Rozprawę kończy bibliografia. 3 Tematyka rozprawy Ważnym aspektem automatyzacji rozumienia obrazów jest połączenie pomiędzy metodologią, a matematycznym językiem opisującym obraz. Powodem, dla którego często wybierany jest lingwistyczny opis obrazów, jest fakt nieznajomości a priori klas i wzorców, jakie mogą zostać rozpoznane. W związku z tym, że liczba kategorii obiektów może dążyć do nieskończoności, ponieważ nie narzucamy jeszcze żadnych ograniczeń na zbiór oczekiwanych rozwiązań, potrzebne jest narzędzie umożliwiające wygenerowanie potencjalnie nieskończenie wielu kategorii. Każdy mechanizm generujący skończony zbiór elementów jest w tym przypadku nieprzydatny. Dzięki nieskończonej liczbie kategorii jest możliwa klasyfikacja dowolnego obiektu na podstawie wektora cech opisującego dany obiekt do jednej ze zdefiniowanych kategorii. Kolejnym powodem użycia metod lingwistycznych jest fakt, że po wstępnym przetworzeniu obrazu otrzymamy opis zawartości obrazu wolny od jakiejkolwiek klasyfikacji znanej a priori. Jest to możliwe, ponieważ w proces konstrukcji opisu lingwistycznego wbudowany jest bardzo ogólny mechanizm generalizacji. Technologia matematycznej lingwistycznej generalizacji jest polecana jako najlepsza metoda generalizacji. Prace nad utworzeniem lingwistycznego modelu i wykorzystaniu go przy rozpoznawaniu obrazów prowadzone są od wielu lat. Już w roku 1962 powstała publikacja R. Narasimhana (A linguistic approach to pattern recognition, Digital Computer Laboratory University of Illinois) poruszająca tę tematykę. Tworzenie języka opisującego obrazy należy rozpocząć od zdefiniowania podstawowych elementów należących do budowanej gramatyki obrazowej. Analizując poszczególne obrazy dochodzimy do wniosku, że zawierają one pewne klasy podstawowych (pierwotnych) graficznych obiektów oraz klasy reprezentujące relacje pomiędzy tymi obiektami. Obiekty te możemy interpretować jak rzeczowniki, natomiast relacje między obiektami będą odpowiadać czasownikom. Używając zaproponowanego słownictwa możemy zastąpić każdy obraz równoważnym schematem. Wykorzystanie symbolicznej notacji dla elementów słownika, w rezultacie umożliwia otrzymanie dla każdego obrazu ciągu symboli opisujących 3

4 ten obraz przy pomocy napisów należących do tworzonego języka. Po wykonaniu symbolicznego opisu obrazu należy zbudować model kognitywnego wnioskowania, wyjaśniający procesy myślowe oraz umożliwiający ich symulację komputerową. Oczywiście jest to najtrudniejsza część całego zadania. Struktury symboliczne Podstawową ideą wykorzystania struktur symbolicznych jest odwzorowanie obiektu lub modelowanie klasy obiektów. Najprostszą strukturą symboliczną jest ciąg, nazywany również łańcuchem. Ciąg składa się z pojedynczych, prymitywnych elementów, będących najbardziej podstawowymi, niepodzielnymi częściami obrazu. Te niepodzielne elementy postrzegane są jako całość lub część większego obiektu lecz nigdy jako składające się z mniejszych części. Model obiektu tworzony jest poprzez łączenie ze sobą, pojedynczych prymitywnych elementów. Oprócz struktur ciągowych wyróżnia się również struktury drzewiaste, grafowe i relacyjne. Zostały one wprowadzone, ponieważ struktury ciągowe, mimo niewątpliwych zalet (np. łatwość generowania i porównywania), mają dość mocno ograniczone możliwości odwzorowywania obiektów dwu- i trójwymiarowych. Dysponując strukturą nieznanego obiektu możemy go porównać z prototypami różnych klas w celu określenia ich podobieństwa. W rzeczywistym świecie nigdy nie uzyskamy idealnego podobieństwa; dwie porównywane struktury zawsze będą się różniły. Celem porównania ma być określenie kosztu transformacji jednej struktury w drugą. Koszt transformacji może być traktowany jak miara podobieństwa i jest nazywany odległością strukturalną. Łańcuchy Browna Łańcuchy Browna (ang. Brownian Strings) powstały z połączenia metody Freemana i techniki segmentacji obrazów Kassa. Po raz pierwszy technika ta została opisana przez R. P. Grzeszczuka i D.N. Levina. Opracowali oni technikę segmentacji obrazu, w której arbitrażowo naszkicowany kontur był stochastycznie deformowany do momentu dopasowania się do żądanego kształtu obiektu. Segmentacja obiektów polega na poprowadzeniu zamkniętej skierowanej krzywej łamanej złożonej z tzw. segmentów crack edges. Wewnątrz tej krzywej powinien znaleźć się obiekt. Każdy z tych segmentów oddziela na obrazie dwa sąsiadujące ze sobą piksele. Ważny do odnotowania jest fakt, że skoro każdy segment oddziela dwa piksele, to również długość każdego segmentu jest identyczna i równa długości piksela na obrazie. 4

5 Ponieważ segmenty oddzielają piksele, więc istnieją cztery możliwe kierunki segmentów oddzielające piksele: z lewej na prawą, z prawej na lewą, z góry do dołu i z dołu do góry. Zostały one symbolicznie nazwane R (ang. Right), L (ang. Left), D (ang. Down) i U (ang. Up). Po wprowadzeniu skierowania segmentów można już zapisać kontur obiektu jako kod łańcuchowy krzywej łamanej składający się ze skierowanych segmentów. Łatwo można zauważyć następujące własności łańcuchów Browna: segmenty tworzą pary: R-L oraz D-U; liczba segmentów R i L tworzących kontur jest taka sama, analogicznie w przypadku segmentów U i D; po segmencie X może wystąpić dowolny inny segment oprócz segmentu tworzącego parę z segmentem X np.: po segmencie R może wystąpić R, D lub U ale nie L; kontur obiektu opisany za pomocą łańcucha Browna jest cyklem. W zależności od wyboru elementu początkowego (miejsca przecięcia cyklu) otrzymujemy inny łańcuch odpowiadający temu samemu obiektowi; postać łańcucha zależy też od kierunku, w którym poruszamy się po brzegu obiektu. Na rysunku 1 umieszczono przykładowy obiekt z różnie wybranym elementem początkowym. DDRDDDLDRRRURRUULLDDLUUURURULLLL LLLLDDRDDDLDRRRURRUULLDDLUUURURU a b Rys. 1: Wpływ wyboru elementu początkowego na wygląd łańcucha Browna. 5

6 Deformacja konturów Browna Zostało wprowadzone pojęcie energii konturu. Każdemu konturowi w przeszukiwanej przestrzeni można przypisać energię, która zależy od całościowej charakterystyki konturu. Energia ta określa prawdopodobieństwo wybrania konkretnego konturu, jako zarysu poszukiwanego obszaru. Optymalizacja konturu polega na minimalizacji wartości tej energii. Można rozpatrywać dwa typy energii: energię zewnętrzną związaną z lokalnymi cechami analizowanego obrazu, takimi jak jasność, gradient; energię wewnętrzną związaną wyłącznie z geometrycznymi charakterystykami konturu, takimi jak krągłość, długość lub pole. Deformacja konturu jest algorytmicznym iteracyjnym procesem automatycznej zmiany kształtu konturu. Algorytmy takie nazywane są generatorami ruchu (ang. move generator), natomiast ich zadaniem jest doprowadzenie do sytuacji kiedy obszar objęty konturem będzie w jak najlepszym stopniu przybliżać obiekt. Oczywiście na jakość tego przybliżenia będzie wpływać konkretna sytuacja, ostrość krawędzi obiektu oraz przyjęta metoda segmentacji. Autorzy łańcuchów Browna zaproponowali dwa algorytmy zmieniające kontur. W obu, nowy kontur tworzony jest na podstawie poprzedniego poprzez wprowadzenie lokalnych zaburzeń, polegających na wybraniu części konturu i zastąpieniu go innym, zmodyfikowanym. Niestety po dokładniejszych analizach okazało się, że zaproponowane generatory zmian nie są pozbawione wad. Może się zdarzyć, że kilka kolejnych iteracji nie przybliża użytkownika do osiągnięcia pożądanego rezultatu. Co więcej, może dojść do tak zwanego zapętlenia algorytmu tzn. poprawnie działający mechanizm może wygenerować taką serię kolejnych iteracji, że na początku i na końcu wystąpi identyczny kontur oraz, że nie pozyska się żadnych dodatkowych informacji o obiekcie lub poszukiwanym optymalnym konturze. Kolejnym problemem jest możliwość wygenerowania w kolejnych iteracjach konturów o energii gorszej niż aktualny kontur. W szczególnym przypadku w każdej iteracji może zostać wygenerowany ten sam mniej optymalny kontur. Oczywiście gorszy kontur zostanie odrzucony i nie będzie punktem wejścia kolejnej iteracji, ale sam fakt dopuszczenia do możliwości zajścia takiej sytuacji jest niepokojący. Ostatnim zauważonym problemem jest brak możliwości zrównoleglenia obliczeń. Większość nowoczesnych procesorów komputerowych wyposażona jest w więcej niż jeden rdzeń, przez co możliwe jest przeprowadzanie obliczeń równolegle na każdym ze rdzeni. 6

7 Takie podejście jest znacznie bardziej wydajne i umożliwia bardziej optymalne wykorzystanie zasobów sprzętowych. Autor niniejszej rozprawy opracował trzeci generator ruchu eliminujący wszystkie wymienione problemy. Proponowane rozwiązanie polega na rozdzieleniu energii wewnętrznej od zewnętrznej podczas procesu optymalizacji konturu. W tym celu przeprowadzane są następujące etapy: 1) poszukiwanie obszaru na obrazie posiadającego pożądane cechy, 2) przeprowadzenie analizy sąsiedztwa elementów zaklasyfikowanych, jako należących do obiektu, 3) odrzucenie obszarów zbyt małych, 4) optymalizacja geometrycznego kształtu konturu. W dwóch pierwszych etapach, analizując obraz, optymalizuje się energię zewnętrzną konturu. Drugi etap wpływa już na energię wewnętrzną poprzez sprawdzenie sąsiedztwa poszczególnych pikseli. Ma to na celu wygładzenie konturu. W trzecim etapie odrzucane są małe obszary zgodnie z przyjętym ograniczeniem. W ostatnim etapie należy zadbać, aby kontur miał pożądany kształt zgodnie z przyjętymi zasadami optymalizacji, np. aby był pozbawiony pojedynczych odstających elementów, bądź nie posiadał ostrych rogów. Opracowany algorytm umożliwia wykrycie wszystkich, nawet rozłącznych obiektów. Ponieważ łańcuchy Browna nie dopuszczają występowania niepewności, każdy piksel musi zostać jednoznacznie zaklasyfikowany jako należący do obiektu albo należący do tła. W związku z tym, że etap analizy obrazu został oddzielony od etapu optymalizacji geometrycznego kształtu konturu, to każdy piksel obrazu będzie analizowany i rozpoznawany jako należący do obiektu bądź tła co najwyżej jeden raz. Oznacza to, że procedura badania poszczególnych pikseli może zostać zrównoleglona, co w znaczący sposób wpływa na wydajność działania proponowanego rozwiązania. Porównywanie łańcuchów Istnieje wiele metod umożliwiających porównywanie łańcuchów. Do najpopularniejszych należą: odległość Hamminga, odległość Levenstaina, metoda n-gramów, uogólniona metoda n-gramów. 7

8 Niestety, żadna z tych metod nie sprawdzała się w przypadku konturów Browna. Głównym ograniczeniem istniejących metod jest nie uwzględnianie cyklicznej budowy łańcuchów Browna. Również proste operacje polegające na odbiciu lustrzanym figury, bądź obrocie o 90 stopni w sposób znaczący ograniczają możliwość wykorzystania znanych metod porównujących łańcuchy. Otrzymywane wyniki są znacząco różne od intuicyjnych oczekiwań. W celu usunięcia wymienionych problemów została opracowana modyfikacja odległości Levenstaina przystosowana do cyklicznej budowy konturów Browna. Operacje na łańcuchach Browna W celu umożliwienia porównywania łańcuchów zostało opracowanych kilkanaście metod przekształcających bądź opisujących cechy konturu i obiektu na podstawie, którego dany kontur został wygenerowany. Wspólnym wyróżnikiem wszystkich opracowanych metod jest założenie, że obliczenia wykonywane są wyłącznie w oparciu o łańcuch Browna bez żadnej wiedzy o oryginalnym obiekcie. Do najważniejszych opracowanych metod można zaliczyć: cykliczne przesunięcie konturu; wyznaczanie askonomicznej szerokości i wysokości obiektu; wyznaczanie pola obiektu; odtwarzanie obiektu na podstawie konturu; badanie konturu pod kontem występowania czterosegmentowych wierzchołków; określanie skierowania konturu; wyznaczanie projekcji obiektu; wyznaczanie Centroidy; zmiana kierunku skierowania konturu; obrót konturu o 90 stopni w prawo i w lewo; obrót konturu o 180 stopni; odbicie lustrzane konturu w pionie i w poziomie. Adaptacyjny filtr Kuwahary Podczas przeprowadzania badań i wstępnego przetwarzania zdjęć, mającego na celu poprawę jakości, pojawił się poważny problem. Dotyczył on nierównomiernego oświetlenia sceny oraz użycia trybu automatycznego podczas wykonywania zdjęć. Sprawiło to, że różnice pomiędzy kolejnymi obrazami były tak duże, a dokładniej, niedoskonałości na nich występujące były na tyle poważne, że nie udało się dopasować przekształcenia dostatecznie dobrze poprawiającego wszystkie niedoskonałości, a jednocześnie niezaburzającego kolejnych faz analizy. Wypróbowano użycie kilku efektów m.in.: 8

9 rozciąganie histogramu, wyrównywanie histogramu, filtr uśredniający, filtr selektywnie uśredniający, filtr uśredniający Gaussa, filtr selektywnie uśredniający Gaussa, filtr medianowy, adaptacyjny filtr medianowy, filtr Kuwahary. Rozwiązaniem tego problemu było opracowanie zupełnie nowego filtru posiadającego wszystkie pożądane cechy. Filtr ten został nazwany adaptacyjnym filtrem Kuwahary. Przed rozpoczęciem jakiejkolwiek analizy na każdym z przetwarzanych obrazów był stosowany zaproponowany filtr. Jego użycie dało najbardziej pożądane wyniki spośród wszystkich przebadanych metod. Algorytm adaptacyjnego filtru Kuwahary powstał z połączenia dwóch innych filtrów: adaptacyjnego filtru medianowego i filtru Kuwahary. Najważniejszą cechą adaptacyjnego filtru medianowego jest dostosowywanie rozmiaru okna działania filtru do wyników częściowej analizy uzyskanych w trakcie działania. Natomiast zadaniem filtru Kuwahary jest wygładzanie kolorów oraz usuwanie drobnych szumów przy jednoczesnym zachowaniu krawędzi. Niestety, oba te filtry nie są pozbawione wad. Pierwszy z nich rozmywa krawędzie, co bardzo utrudnia dalszą analizę. Ponadto, w związku ze zmiennym rozmiarem okna złożoność obliczeniowa tego filtru jest znacznie większa niż innych filtrów. Natomiast filtr Kuwahary wprawdzie zachowuje krawędzie, ale wymagane jest podanie rozmiaru okna. Niepożądanym efektem działania drugiego filtru jest bardzo wyraźna pikselizacja, czyli mozaika dużych, jednorodnych, często prostokątnych obszarów. Opracowany filtr ma następujące cechy: zachowuje krawędzie przetwarzanego obrazu, krawędzie obiektów po zastosowaniu adaptacyjnego filtru Kuwahary są znacznie mniej zmodyfikowane niż w przypadku użycia standardowego filtru Kuwahary z większym oknem, tendencja do pikselizacji w porównaniu ze standardowym filtrem Kuwahary została znacznie zmniejszona, posiada możliwości usuwania szumu z obrazu porównywalną do adaptacyjnego filtru medianowego oraz filtru Kuwahary, zachowuje większą różnorodność intensywności kolorów w odniesieniu do filtru 9

10 Kuwahary, jest bardzo szybką operacją, szczególnie w porównaniu z adaptacyjnym filtrem medianowym. Porównywanie obiektów Proces rozpoznawania obiektów został podzielony na dwie fazy: ograniczenie zbioru możliwych rezultatów za pomocą klasyfikacji hierarchicznej oraz porównywanie badanego konturu z konkretnymi reprezentacjami wzorcowych konturów zapamiętanych w bazie. Jest to zastosowanie wnioskowania na podstawie przykładów (ang. case-based reasoning). Druga z wymienionych faza może być przetwarzana równolegle. Każdy z możliwych rezultatów może być analizowany w osobnym wątku. Następnie po uzyskaniu informacji o wszystkich badanych wzorcach wyniki są porównywane i wybierany jest ten, który uzyskał najlepszą ocenę. Pierwsza faza jest modyfikacją klasyfikatora hierarchicznego. Rozpoczynając od pojedynczego skupienia zawierającego wszystkie elementy, poprzez kolejne etapy, w których skupienie początkowe jest ograniczane aż do uzyskania skupienia o minimalnej liczbie elementów. Jedyną różnicą pomiędzy proponowanym podejściem a standardową koncepcją klasyfikatorów jest dopuszczenie, aby na końcu procesu klasyfikacji ostatnie skupienie mogło składać się z więcej niż jednego elementu. Wynika to z faktu, że niektóre elementy mogą być bardzo zbliżone i nie zawsze możliwe jest jednoznaczne rozdzielenie skupień na tym etapie analizy. Oczywiście, pociąga to za sobą konieczność użycia dodatkowych mechanizmów, aby rozpoznać obiekt. Bardzo ważną cechą opracowanej klasyfikacji hierarchicznej jest znaczne uproszczenie całego procesu rozpoznawania oraz znaczna poprawa wydajności obliczeniowej. Dzięki określeniu pewnych uniwersalnych cech, jakie posiadają znane obiekty było istotne ograniczenie zbioru możliwych rezultatów. Zostały określone następujące etapy: porównywanie liczby elementów składających się na reprezentację obiektu, porównywanie rozpiętości, porównywanie zwartości, porównywanie pola, porównywanie długości, porównywanie centroidy. Każdy etap na wejściu otrzymuje listę dopuszczalnych skupień. Następnie porównuje się wartości wzorcowe, zapisane w bazie, z wartościami wyliczonymi dla konkretnego badanego 10

11 konturu. Ostatecznie, otrzymujemy listę dopuszczalnych skupień pomniejszoną o rozwiązania odrzucone w danym etapie. W ramach poszczególnych etapów następuje sprawdzenie, czy analizowany kontur ma cechy odpowiadające wcześniej znanym wzorcom lub czy dopuszczalnie różni się od tych wzorców. Optymalną sytuacją byłoby posiadanie wszystkich możliwych wzorców danej klasy obiektów bądź przynajmniej pewnej reprezentatywnej grupy zawierającej przypadki brzegowe. Jednakże zazwyczaj dysponujemy tylko pewną bardzo ograniczoną liczbą wzorców, dla której nie możemy stwierdzić, czy ma rozkład normalny czy jednorodny. Dodatkowo, jedną z cech gramatyk lingwistycznych jest możliwość generowania wzorców o praktycznie nieograniczonej postaci. Należy to rozpatrywać raczej jako zaletę niż wadę, gdyż dzięki temu metody lingwistyczne mogą w lepszy sposób odzwierciedlić rzeczywiste obiekty. Natomiast, najważniejszym zadaniem badacza jest opracowanie miary podobieństwa w taki sposób, aby uwzględniała charakter wzorców. Każdy z etapów klasyfikacji jest podobny i składa się z dwóch części. Na początku sprawdzamy, czy analizowany kontur, a właściwie wartości badanej cechy, zawierają się w zakresie: średnia ± 3*odchylenie standardowe. Zakres ten, zgodnie z własnościami rozkładu normalnego, powinien zawierać 99,73% wszystkich obserwacji. Tak jak zostało wspomniane wcześniej, nie mamy pewności, czy rozkład danych wzorcowych jest rozkładem normalnym, zatem musimy dopuścić również te obiekty, które nie zawierają się w określonym zakresie, ale są wystarczająco podobne do elementów wzorcowych. Określenie tego podobieństwa zostało wykonane poprzez sprawdzenie prawdziwości następującej pary nierówności: Wartość współczynnika została określona na poziomie 120% dla porównywania pola oraz 140% w pozostałych etapach. Jeśli para nierówności jest spełniona, to można przyjąć, że dana cecha analizowanego konturu jest podobna do wartości wzorcowej w sposób znaczący i badany kontur można dopuścić do dalszych etapów klasyfikacji. Oczywiście, pierwszy etap jest inny. Służy do identyfikacji obiektów składających się z większej liczby elementów. Na przykład podczas rozpoznawania znaków drukowanych umożliwia identyfikację liter i, j, ć, ń, ó, ś, ż i ź dzięki przekazaniu informacji, że składają się one z dwóch części. W fazie porównywania ze wzorcem można wyróżnić następujące etapy: ocena podobieństwa rozpiętości, ocena podobieństwa zwartości, 11

12 ocena podobieństwa pola, ocena podobieństwa długości, obliczanie odległości Levenstaina, ocena podobieństwa projekcji, wyliczanie ostatecznej oceny poprzez zastosowanie wag dla wcześniej wyliczonych ocen. Każda z ocen wyrażana jest w postaci liczby z przedziału [0,1] gdzie 0 oznacza całkowitą zgodność, natomiast 1 zupełnie odmienny charakter obiektu. Sposób oceny podobieństwa można interpretować jako wyznaczenie miary podobieństwa pomiędzy analizowanymi obiektami. Matematyczne postulaty miary nie były sprawdzane. Jak zostało wspomniane, druga faza może być realizowana równolegle, przy czym równolegle przetwarzane są nie poszczególne operacje oceniające cechy badanego konturu, ale operacje oceniające całe klasy wzorców. Praktyka pokazała, że nie opłaca się realizować zrównoleglenia na niższym poziomie, bo skutkowałoby to koniecznością zbyt częstego przełączania zadań, a w rezultacie zmniejszoną wydajnością. Opracowany proces jest na tyle uniwersalny, że został wykorzystany do analizy wszystkich badanych zagadnień. 4 Wyniki badań Celem badań było wykorzystanie gramatyki ciągowej w postaci łańcuchów Browna oraz metod aktywnego konturu do rozpoznawania obiektów na obrazach cyfrowych. Badania zostały podjęte, ponieważ: Nie istniały badania pokazujące możliwość wykorzystania ciągowych struktur symbolicznych do opisywania obiektów na obrazach cyfrowych. Obecnie wykorzystywane metody symboliczne używają gramatyk drzewiastych i grafowych. Gramatyki drzewiaste i grafowe są skomplikowane oraz mało intuicyjne. Użycie łańcuchów Browna znacznie upraszcza zapis oraz ułatwia interpretacje. Łańcuchy Browna łatwo można wykorzystać w bardzo różnorodnych zastosowaniach bez wprowadzania zmian w konstrukcji mechanizmu rozpoznawania obiektów. Metody ciągowe w zapisie komputerowym mają znacznie prostszą budowę, a obiekty zbudowane przy użyciu łańcuchów Browna wymagają znacznie mniej miejsca w pamięci. Nie zostały opracowane żadne operacje (np.: pole, aksonomiczna szerokość 12

13 i wysokość, centroid) na łańcuchach Browna, umożliwiające badanie cech oraz porównywanie obiektów. W niniejszej pracy przeprowadzono badania w oparciu o trzy zagadnienia: rozpoznawanie znaków tekstu drukowanego, rozpoznawanie liści wybranych drzew, rozpoznawanie kształtów dłoni dla wybranych liter języka migowego. Każdy z badanych problemów odnosi się do zupełnie innego zagadnienia, co ma na celu pokazanie, że jest możliwe wykorzystanie gramatyki ciągowej w postaci łańcuchów Browna oraz metod aktywnego konturu do rozpoznawania obiektów na obrazach cyfrowych. Jako przykład skuteczności opracowanej metody można rozważyć wyniki otrzymane podczas rozpoznawania liter tekstu drukowanego. Obrazy do tego eksperymentu zostały pozyskane poprzez wydrukowanie a następnie zeskanowanie fragmentu artykułu popularnonaukowego. Ze względu na chęć uproszczenia zagadnienia separacji tekstu na poszczególne znaki użyto czcionki Courier New, w której każdy znak ma stałą szerokość. Spośród wszystkich znaków w danym kroju ograniczono się do znaków alfanumerycznych. W poniższej tabeli umieszczono otrzymane rezultaty. Znak Poprawnie zaklasyfikowane Niepoprawnie zaklasyfikowane Procent poprawnie zaklasyfikowanych a ,00% ą ,00% b ,00% c ,00% ć ,00% d ,00% e ,00% ę ,00% f ,67% g ,00% h ,00% i ,00% 13

14 j ,00% k ,00% l ,00% ł ,00% m ,00% n ,66% ń ,00% o ,00% ó ,00% p ,00% r ,51% s ,00% ś ,00% t ,00% u ,74% w ,00% y ,00% z ,00% ż ,00% ź ,00% Łącznie ,58% Uzyskano doskonałą skuteczność, porównywalną z komercyjnymi narzędziami dostępnymi na rynku. Warty podkreślenia jest fakt, że podczas rozpoznawania nie były dostarczone żadne informacje dotyczące kontekstu tekstu. W zagadnieniu celowo pominięto możliwość wykorzystania słowników wyrazów oraz prawdopodobieństwa występowania poszczególnych znaków i par znaków. Miało to na celu uzyskanie jak najbardziej klarownych rezultatów, dotyczących tylko i wyłącznie możliwości wykorzystanie gramatyki ciągowej w postaci łańcuchów Browna oraz metod aktywnego konturu do rozpoznawania obiektów. Ponieważ poddany analizie został prawdziwy, posiadający sens artykuł, a nie spreparowany dokument, to liczba niektórych znaków, w szczególności diakrytycznych, była stosunkowo niewielka. Nie powinno jednak mieć to większego wpływu na całościową ocenę eksperymentu ponieważ budowa tych znaków jest bardzo charakterystyczna. Potwierdzają to również przeprowadzone dodatkowe badania. Jedynym problemem jest rozróżnienie 14

15 znaków ż i ź. Jednakże jak zostało wspomniane wcześniej, dołączając kontekstowe informacje możliwe byłoby osiągnięcie jeszcze lepszej skuteczności. Wyniki rozpoznawania liści najpopularniejszych drzew występujących w parkach były również satysfakcjonujące. Z przebadanych 109 obrazów tylko 6 zostało niepoprawnie zaklasyfikowanych bądź nie udało się zidentyfikować, żadnego obiektu. Oznacza to, że łączny procent poprawnie rozpoznanych liści wyniósł 94,50%. Najwięcej problemów pojawiło się podczas identyfikacji liści jarzębiny. Pojedynczy liść tego gatunku składa się tak jakby z kilkunastu mniejszych listków połączonych z ogonkiem (osadką). Jest to przykład liścia złożonego nieparzysto-pierzastego. W procesie przetwarzania i analizy obrazów czasami miała miejsce sytuacja, w której zamiast jednego pojedynczego obiektu system wykrywał wiele pojedynczych elementów niepołączonych ze sobą. Dodatkowo wiotkość liścia i sposób ułożenia na ekranie skanera w sposób znaczący wpływały na wynik rozpoznawania. Należy zwrócić uwagę na ogromną różnorodność obiektów, zarówno mnogość gatunków jak i odmian wewnątrz danego gatunku. Osoba bez odpowiedniego wykształcenia, bądź zamiłowania do roślin jest co najwyżej w stanie rozpoznać gatunek kilku rodzajów drzew. Usuwając informacje o fakturze, kolorystyce i przestrzennym ułożeniu nerwów zazwyczaj uniemożliwia dokładne określenie gatunku. Różnorodność jest tak ogromna, że często do pewnej identyfikacji konieczne jest również uwzględnienie wysokości drzewa, układu konarów drzewa oraz gęstości korony. Ostatnim analizowanym zagadnieniem było rozpoznawanie kształtów dłoni dla wybranych liter języka migowego. Głównym celem eksperymentu było sprawdzenie, czy możliwe jest usprawnienie komunikacji komputer-człowiek. Mysz i klawiatura komputerowa zostały wprowadzone w celu usprawnienia komunikacji (wcześniej wykorzystywano karty perforowane), ale nie są to naturalne kanały. Wszystko wskazuje na to, że w najbliższej przyszłości rozwój branży IT będzie podążał w kierunku eliminacji wszelkich kontrolerów, a komunikacja będzie odbywać się za pomocą głosu, dotyku, gestu a w przyszłości zapewni i myśli. Język migowy został wybrany w celu uściślenia i ujednolicenia wykonywanych gestów. Równie dobrym rozwiązaniem byłoby opracowanie innego zestawu gestów znacznie prostszych do identyfikacji. Wybór konkretnych gestów spośród wszystkich znaków polskiego alfabetu migowego miał zarówno pokazać różnorodność dostępnych gestów jak i stopień podobieństwa pomiędzy znakami. W poniższej tabeli umieszczono wyniki rozpoznawania wybranych znaków języka migowego. Uzyskano bardzo zadowalające wyniki, gdyż dla 380 przeanalizowanych zdjęć poprawny znak został rozpoznany w 323 przypadkach, co stanowi 85%. Głównym 15

16 problemem jest różny sposób wykonywania gestów przez różne osoby. Niestety mimo wkładanego wysiłku dwie osoby nie mogą w sposób identyczny pokazać złożonego gestu. Zostało rozpoznane A B C F M N O S T W Y Łącznie Procent poprawnych A ,00% B ,00% C ,30% Powinno zostać rozpoznane F ,76% M ,00% N ,00% O ,36% S ,73% T ,14% W ,11% Y ,24% Łącznie ,00% Rozpoznawanie przy użyciu łańcuchów Browna można porównać do próby rozpoznania obiektu na podstawie rzucanego przez niego cienia. Tracona jest w ten sposób informacja o wzajemnym ułożeniu palców dłoni, co często jest jedyną istotną różnicą odróżniającą dwa znaki. Dodatkowo, dysponując wiedzą specjalistyczną często usuwając ze zdjęć, teksturę pozostawiając jedynie obrys dłoni również nie można jednoznacznie określić jaki znak został poddany rozpoznawaniu. Należy też zauważyć, że człowiek również mylnie odczytuje pojedyncze znaki. Jednak składając je w słowa uwzględnia sąsiedztwo (kontekst) oraz wiedzę o temacie, na który prowadzona jest rozmowa migowa. Oczywiście, nic nie szkodzi na przeszkodzie, aby pominąć uniwersalność i stworzyć system dedykowany dla danej osoby. Należałoby stworzyć bazę wiedzy złożoną tylko i wyłącznie z łańcuchów Browna odpowiadającym gestom wykonywanym przez jedną osobę. Można przypuszczać, że system zbudowany o takie zasady posiadałby skuteczność bliską 100%. 16

17 Każdy z badanych problemów odnosił się do zupełnie innej tematyki, co miało na celu pokazanie, że łańcuchy Browna cechuje bardzo duża uniwersalność i możliwość wykorzystania w różnorodnych zastosowaniach. Bez wprowadzenia większych zmian w algorytmie było możliwe wykorzystanie opracowanych mechanizmów do rozpoznawania zupełnie różnych obiektów. Można stwierdzić, że zbudowany system posiada pożądane własności. Liczba danych treningowych, z jednej strony, nie była zbyt duża, natomiast z drugiej strony pozwoliła na ekstrakcję istotnych cech badanych obiektów, w taki sposób, aby wyniki klasyfikacji były zadowalające. System i sposób doboru cech posiada oczekiwane własności. Dostarcza potrzebnych i wyczerpujących informacji na temat badanych obiektów oraz umożliwia podzielenie badanej przestrzeni na klasy w sposób wyczerpujący oraz rozłączny. Cel pracy udało się zrealizować, a otrzymane rezultaty są satysfakcjonujące. 17

18 5 Wybrana literatura R. Tadeusiewicz, M. R. Ogiela, P. S. Szczepaniak, Notes on a Linguistic Description as the Basis for Automatic Image Understanding, Applied Mathematics and Computer Science, pp , R. Tadeusiewicz, P. S. Szczepaniak, Basic concepts of knowledge-based image understanding, Agent and Multi-Agent Systems: Technologies and Applications. Springer Berlin/Heidelberg, 2008, pp R. Tadeusiewicz, M. R. Ogiela, Medical Image Understanding Technology, Springer Berlin/Heidelberg, L. Ogiela, R. Tadeusiewicz, M. R. Ogiela, Cognitive techniques in medical information systems, Computers in Biology and Medicine, pp , K. Stępor, Automatyczna klasyfikacja obiektów. Warszawa: Exit, P. S. Szczepaniak, R. Tadeusiewicz, The Role of Artificial Intelligence, Knowledge and Wisdom in Automatic Image Understanding, Journal of Applied Computer Science, R. Narasimhan, A linguistic approach to pattern recognition, Digital Computer Laboratory University of Illinois, D. Lu, Q. Weng, A survey of image classification methods and techniques for improving classification performance, International Journal of Remote Sensing, vol. 28, no. 5, pp , Mar H. Birk, T. B. Moeslund, C. B. Madsen, Real-Time Recognition of Hand Alphabet Gestures Using Principal Component Analysis, in Proceedings of the 10th Scandinavian Conference on Image Analysis, M. H. Yang, N. Ahuja, M. Tabb, Extraction of 2-D Motion Trajectories and its Application to Hand Gesture Recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 29, no. 8, pp ,

19 S. P. Kaustubh, D. R. Sumantra, Hand gesture modelling and recognition involving changing shapes and trajectories, using a Predictive EigenTracker, Pattern Recognition Letters, vol. 28, no. 3, pp , P. Kakumanu, S. Makrogiannis, N. Bourbakis, A survey of skin-color modeling and detection methods, Pattern Recognition, vol. 40, p , P. Peer, J. Kovac, F. Solina, Human skin colour clustering for face detection, in EUROCON 2003 International Conference on Computer as a Tool, vol. 2, 2003, pp M. J. Jones, J. M. Rehg, Statistical color models with application to skin detection, in Proc. of the CVPR 99, vol. 1, 1999, p J. Brand, J. Mason, A comparative assessment of three approaches to pixel level human skin-detection, in ICPR01, vol. 1, 2000, p H. Freeman, On the encoding of arbitrary geometric configurations, IRE Trans. Electron. Computers EC-10, pp , M. Kass, W. Witkin, D. Terzopoulos, Snakes: Active Contour Models, International Journal of Computer Vision, R. P. Grzeszczuk, D. N. Levin, Brownian strings : Segmenting images with stochastically deformable contours, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp , A. Blake, M. Isard, Active Contours The Application of Techniques from Graphics, Vision, Control Theory and Statistics to Visual Tracking of Shapes in Motion. Springer-Verlag,