IDENTYFIKACJA NA PODSTAWIE PISMA I TEKSTU

Podobne dokumenty
Materiały dydaktyczne: Maciej Krzymowski. Biometryka

Grafika inżynierska i rysunek geodezyjny

Biometria podpisu odręcznego

Pattern Classification

Dwufazowy system monitorowania obiektów. Karina Murawko, Michał Wiśniewski

rozpoznawania odcisków palców

Odciski palców ekstrakcja cech

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Instrukcja dla autorów monografii

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Poszczególne kroki wymagane przez normę ISO celem weryfikacji tożsamości użytkownika

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Widzenie komputerowe (computer vision)

Wykład VII. Kryptografia Kierunek Informatyka - semestr V. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej

AUTOMATYKA INFORMATYKA

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Optymalizacja ciągła

Technologia dynamicznego podpisu biometrycznego

PROCES TWORZENIA DOKUMENTU

Zaznaczanie komórek. Zaznaczenie pojedynczej komórki polega na kliknięciu na niej LPM

Wykład XII. optymalizacja w relacyjnych bazach danych

SPOTKANIE 2: Wprowadzenie cz. I

TECHNIKI ROZPOZNAWANIA OBRAZU WSPOMAGAJĄCE ZARZĄDZANIE RELACJAMI Z KLIENTAMI

Zalogowanie generuje nowe menu: okno do wysyłania plików oraz dodatkowe menu Pomoc

Detekcja punktów zainteresowania

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Kancelaria rozpoczęcie pracy z programem

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 5.0

Dr hab. Marek Nahotko BADANIA NAUKOWE NAD WYDAWNICTWAMI ELEKTRONICZNYMI. Główne problemy badawcze

Formatowanie komórek

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Spis treści. Konwencje zastosowane w książce...5. Dodawanie stylów do dokumentów HTML oraz XHTML...6. Struktura reguł...9. Pierwszeństwo stylów...

Projekt badawczy. Zastosowania technologii dynamicznego podpisu biometrycznego

KEVIN SAM W BANKU SGB ZAGROŻENIA ZWIĄZANE Z BANKOWOŚCIĄ INTERNETOWĄ

10. Redukcja wymiaru - metoda PCA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Rozpoznawanie twarzy za pomocą sieci neuronowych

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Baza danych. Modele danych

Implementacja filtru Canny ego

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10).

Metody kodowania wybranych cech biometrycznych na przykładzie wzoru naczyń krwionośnych dłoni i przedramienia. Mgr inż.

Wstęp. osobniczo, takich jak odciski linii papilarnych, wygląd tęczówki oka, czy charakterystyczne cechy twarzy.

Krój czcionki można wybrać na wstążce w zakładce Narzędzia główne w grupie przycisków Cz cionka.

Fragment tekstu zakończony twardym enterem, traktowany przez edytor tekstu jako jedna nierozerwalna całość.

Elementy modelowania matematycznego

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Biometryczna Identyfikacja Tożsamości

7. Identyfikacja defektów badanego obiektu

Metody systemowe i decyzyjne w informatyce

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Rozpoznawanie twarzy - zasady funkcjonowania i praktyczne wykorzystanie -

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Rola i znaczenie biometrii w. Straży Granicznej. ppor. SG KUPTEL Dorota. Centrum Szkolenia. Straży Granicznej

Anna Fabijańska. Algorytmy segmentacji w systemach analizy ilościowej obrazów

Raport ze sprawdzianu 2012

KATEGORIA OBSZAR WIEDZY

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

ZASADY TWORZENIA PREZENTACJI. Daria Pieńkowska

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Import danych w formacie txt

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 6.0

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Jeżeli pole Krawędź będzie zaznaczone uzyskamy obramowanie w całej wstawianej tabeli

CPT-CAD - Program do tworzenia dokumentacji geologicznej i geotechnicznej

Sylabus Moduł 2: Przetwarzanie tekstów

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

2. Empiryczna wersja klasyfikatora bayesowskiego

Podstawowe definicje statystyczne

Identyfikacja człowieka metody kryminalistyczne i biologiczne - ogólnie

Inteligentna analiza danych

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Bazy danych TERMINOLOGIA

SKONTRUM_TCP. Program inwentaryzacji. (klient systemu SOWA) mgr inż. Leszek Masadyński. Instrukcja użytkowania. Poznań, kwiecień 2005r.

Procesy ETL. 10maja2009. Paweł Szołtysek

O LICZBACH NIEOBLICZALNYCH I ICH ZWIĄZKACH Z INFORMATYKĄ

Normalizacja baz danych

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Wymagania dotyczące pracy dyplomowej. Spis treści

Instrukcja aktualizacji programu Integra 7

Wymagania dotyczące pracy dyplomowej


autor poradnika - KS Jak zamieszczać i edytować artykuły na szkolnej stronie internetowej

Zastosowanie stereowizji do śledzenia trajektorii obiektów w przestrzeni 3D

ZAŁĄCZNIK 2. Specyfikacja Techniczna Oprogramowania Billon

I. Interfejs użytkownika.

0 + 0 = 0, = 1, = 1, = 0.

1. Znajdowanie miejsca zerowego funkcji metodą bisekcji.

Algorytm. a programowanie -

Dane w poniższej tabeli przedstawiają sprzedaż w dolarach i sztukach oraz marżę wyrażoną w dolarach dla:

ARYTMETYKA BINARNA. Dziesiątkowy system pozycyjny nie jest jedynym sposobem kodowania liczb z jakim mamy na co dzień do czynienia.

Technologia informacyjna

EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA

Uwagi dotyczące techniki pisania pracy

Transkrypt:

Scientific Bulletin of Che lm Section of Mathematics and Computer Science No. 1/2008 IDENTYFIKACJA NA PODSTAWIE PISMA I TEKSTU WITOLD MALINA, MACIEJ SMIATACZ Wydział Elektroniki, Telekomunikacji i Informatyki, Politechnika Gdańska Streszczenie. W pracy zamieszczono opis różnych technik identyfikacji tożsamości na podstawie pisma, tekstu i podpisów. Omówiono algorytmy ekstrakcji cech niezbędne do wykonania operacji rozpoznawania. Opisane systemy biometryczne odgrywają dużą rolę w identyfikacji i weryfikacji osobniczej. 1. Wprowadzenie Identyfikacja osób jest kluczowym problemem w wielu budynkach, urzędach administracji państwowej, systemach elektronicznych i komputerowych. Istnieje wiele metod identyfikacji, a różne instytucje lub organizacje stosują różne systemy. Metody identyfikacji można podzielić na 3 grupy: 1) bazujące na wiedzy użytkownika, 2) bazujące na posiadanych identyfikatorach, 3) stosujące charakterystyki biometryczne. Wymienione metody zostały zebrane i przedstawione w tabeli 1. Tabela 1: Technologie identyfikacyjne Metoda Przykłady Uwagi 1. wiedza użytkownika loginy, hasła, numery PIN często zapominane, współużytkowane, wielu haseł łatwo się domyślić 2. posiadane identyfi- karty, odznaki, klucze ryzyko zgubienia lub kradzie- katory 3. charakterystyki biometryczne odciski palców, twarz ży, mogą być podrabiane jednoznaczna identyfikacja Większość tradycyjnych metod identyfikacji (1 i 2), rozpowszechnionych w komercyjnych rozwiązaniach, posiada wiele wad, np. popularna metoda weryfikacji tożsamości, jaką jest podanie loginu lub hasła, wymaga naszego bezpośredniego udziału. Co więcej, wprowadzane w ten sposób kody faktycznie nie sprawdzają osób, a tylko ich wiedzę, którą można łatwo się podzielić - umyślnie lub całkowicie nieświadomie. Ponadto, wymienione metody są zawodne, gdyż ciężko jest zapamiętać wszystkie potrzebne hasła Treść artykułu była prezentowana w czasie VII Konferencji Informatyki Stosowanej 30-31 maja 2008 r.) 217 (Chełm

218 WITOLD MALINA, MACIEJ SMIATACZ czy numery PIN (Personal Identification Number), łatwo zgubić kartę identyfikacyjną czy klucze. Inną ich wadą jest to, że wspomniane karty mogą zostać skradzione (można też o nich zapomnieć czy źle umieścić w czytniku), a hasła zabezpieczające - złamane. Z uwagi na wymienione wady konwencjonalnych metod coraz większą popularność zyskują metody identyfikacji oparte na technologii biometrycznej. Technologia ta jest znacznie bardziej wiarygodna, dlatego staje się alternatywą dla tradycyjnych systemów identyfikacji [2,3,4]. Podstawową motywacją stosowania metod biometrycznych jest potrzeba uzyskania skuteczniejszych i wygodniejszych sposobów identyfikacji osób. Inną zaletą tego systemu rozpoznawania jest to, że atrybuty osobnicze nie mogą zostać zgubione lub skradzione, a użytkownik nie musi o nich ciągle pamiętać. Możemy przy tym wyróżnić dwa rodzaje systemów biometrycznych: systemy do identyfikacji i systemy do weryfikacji tożsamości. W systemach do identyfikacji wprowadza się biometryczne dane reprezentujące nieznaną osobę. Nowo pozyskany zestaw danych algorytm porównuje z danymi zawartymi w bazie osób znanych. Na podstawie tego porównania system wyznacza (lub określa w przybliżeniu) tożsamość rozpoznawanej osoby. Przykładami systemów tego typu mogą być wykorzystywane przez policję programy do identyfikowania przestępców na podstawie odcisków palców lub zdjęć. W przypadku systemów do weryfikacji użytkownik dostarcza określony zestaw danych biometrycznych, jednocześnie podając tożsamość osoby, której według niego dane te odpowiadają. Następnie algorytm może tę tożsamość potwierdzić lub odrzucić. Niekiedy systemy takie określają też stopień wiarygodności informacji podanej przez użytkownika. Przykładami zastosowań systemów do weryfikacji są programy kontrolujące dostęp do budynków lub komputerów. Niżej podamy krótką charakterystykę możliwości identyfikacji lub weryfikacji ludzi na podstawie pisma i tekstu. 2. Pismo ręczne W tej grupie wyróżnia się systemy, które działają jako urządzenia w pełni automatyczne albo jako interaktywne. Przy podejściu off-line wyróżniamy identyfikację autora pisma zależną od tekstu (dla ustalonego tekstu) i niezależną od tekstu. Metoda zależna od tekstu wymaga przepisania przez różne identyfikowane osoby tego samego fragmentu. Nie ma ona jednak niestety znaczenia w wielu praktycznych sytuacjach, np. przy identyfikacji autora archiwalnych dokumentów [5]. W tych przypadkach autor jest często identyfikowany przez grafologa. Metoda niezależna od tekstu używa zbioru cech, które określane są na bazie analizy teksturowej (cechy wydobywane są z obrazu badanego tekstu). Przykłady ręcznie napisanych tekstów pokazano na rysunku 1 [5,6]. Analiza teksturowa nie może być zastosowana bezpośrednio do obrazów przedstawiających pismo ręczne, ponieważ na ogół obrazy takie zawierają zakłócenia. Oznacza to, że tekstura może być zaburzana przez zmienne odstępy między wyrazami, różne odległości między linijkami itd. Dlatego wpływ tego typu czynników należy w pierwszej kolejności zminimalizować, stosując odpowiednią normalizację. Na wejście procedury normalizacyjnej podawany jest binarny obraz jakiegokolwiek ręcznie napisanego dokumentu. Dokument taki może zawierać litery różnej wielkości,

IDENTYFIKACJA NA PODSTAWIE PISMA I TEKSTU 219 zmieniać mogą się również odstępy między linijkami, wyrazami czy znakami. Natomiast operacja normalizacji może przebiegać w następujący sposób: - linie tekstu są lokalizowane przy użyciu profili rzutowania poziomego, - odległości pomiędzy liniami i wyrazami, a także marginesy, są ustawiane na domyślną wartość, - niekompletne linie są uzupełniane poprzez wstawianie losowo wybranych bloków wycinanych z obrazu już znormalizowanego. Rysunek 1. Przykłady pisma różnych autorów Dopiero po takiej wstępnej operacji obraz jest poddawany dalszemu przetwarzaniu, obejmującemu typowe dla analizy tekstury czynności, jak zastosowanie filtrów Gabora i utworzenie macierzy współwystąpień. Kolejne kroki procedury normalizacyjnej pokazano na rysunku 2.

220 WITOLD MALINA, MACIEJ SMIATACZ Rysunek 2. Normalizacja tekstu pisanego ręcznie: a) obraz źródłowy, b) profil rzutowania poziomego, c) normalizacja odstępów między wyrazami i linijkami, d) wynik normalizacji, e) blok używany do uzupełnienia tekstury 3. Pismo drukowane Problem identyfikacji znacznie się komplikuje, jeżeli dysponujemy tylko tekstem drukowanym, co niestety w obecnych czasach jest dość powszechne. Dla takiego przypadku próbę identyfikacji autorów tekstów przeprowadzano za pomocą sieci samoorganizującej SOM [7], w której uczenie odbywa się metodą bez nadzoru. Do tego celu użyto dużych baz dokumentów, a jako cechy autorów wykorzystano parametry lingwistyczne, które podzielono na 5 grup: cechy czasownikowe (związane z regionami, 22 parametry), cechy dotyczące części mowy (11 parametrów), cechy strukturalne, opisujące konstrukcję tekstu, np. histogramy długości słów, specyficzne mikrostruktury, używane znaki specjalne, takie jak pytajnik, kropka i inne elementy (27 parametrów), cechy negacji (8 parametrów), cechy w postaci specyficznych zwrotów czy haseł (17 parametrów). Trening sieci przeprowadzono drogą kompetencyjnego uczenia z 6-kierunkowym sąsiedztwem. Eksperymenty wykonano na tekstach przemówień parlamentarzystów, które należały do 5 autorów. Zastosowany pełny zestaw cech dawał najmniejszy błąd separacji tekstów, wynoszący 20%, natomiast dla wybranego zestawu 25 cech błąd osiągnął ok. 30%. Oznacza to, że można odkryć różne style autorów dokumentów i na tej podstawie przeprowadzić ich identyfikację. Podane wyniki otrzymano dla tekstów w języku greckim. Autor [7] uważa jednak, że nic nie stoi na przeszkodzie, aby metodę tę uogólnić i stosować do tekstów w języku angielskim czy francuskim. Zaletą zastosowania SOM jest pokazanie, że ręczna selekcja cech nie jest niezbędna i nie musi prowadzić do lepszej separacji i klasyfikacji tekstów. SOM może pracować w przestrzeni wielowymiarowej i dawać klasteryzację dobrej jakości.

IDENTYFIKACJA NA PODSTAWIE PISMA I TEKSTU 221 4. Podpisy Historia weryfikacji podpisów rozpoczęła się długo przed pojawieniem się komputerów. Weryfikację taką stosuje się do potwierdzania autentyczności dokumentów, czeków, kwitowania kosztów kredytowych itp. Podpisy można uważać za szczególny przypadek pisma ręcznego, chociaż w wielu przypadkach są one nieczytelne dla człowieka. W podpisach występują specyficzne znaki i ozdobniki, a stosunek szerokości podpisu do wysokości liter może być anormalny. Dlatego podpis można traktować jak rysunek (obraz), który składa się z pewnych segmentów i stref, a nie z liter (rysunek 3). Mimo że opis podpisu jest zawsze nieodwracalny, tzn. podpisu nie można zrekonstruować na podstawie jego opisu, zawiera on wystarczająco dużo informacji, aby przeprowadzić weryfikację. Dlatego cechy podpisu i ich relacje można określać ilościowo. Rysunek 3. Przykłady podpisów Podpis można w różny sposób konwertować na formę cyfrową - przez skanowanie dokumentu, na którym został złożony, albo za pomocą elektronicznego ołówka i tabliczki. Te dwa sposoby wprowadzania i konwersji podpisu prowadzą do dwóch kierunków ich weryfikacji: off-line (statycznej) i on-line (dynamicznej). W podejściu off-line cechy dzielimy na globalne i lokalne. Przy wyszukiwaniu cech globalnych podpis traktuje się jako całość, a potem dzieli się na pewne segmenty (rysunek 4) i oblicza wartości cech lokalnych dla tych segmentów. Do cech globalnych zalicza się: całkowitą długość podpisu, stosunek długości do szerokości podpisu, nachylenie, usytuowanie linii bazowej, podział podpisu na 3 strefy (górną, środkową, dolną) i proporcje między ich szerokościami. Cechy lokalne są atrybutami tylko pojedynczego segmentu. Do cech lokalnych zalicza się nachylenie i długość poszczególnych segmentów, nachylenia długich pociągnięć w podpisie i inne. Cechy te oraz występujące między nimi związki dzieli się na cechy permanentne (zawsze występują w segmencie) i opcjonalne. W odróżnieniu od podpisu statycznego podpis dynamiczny składa się piórem elektronicznym. Informacja generowana w trakcie wykonywania podpisu jest przekazywana bezpośrednio do komputera. Dla weryfikacji on-line wyróżnia się zwykle 24 cechy. Niektóre z nich to: średnia prędkość pisaka, średnia dodatnia prędkość wzdłuż osi x i wzdłuż osi y, średnia ujemna prędkość wzdłuż osi x i wzdłuż osi y, całkowity czas opuszczenia pisaka, nacisk pisaka (początkowy, minimalny, maksymalny, średni), całkowity czas składania podpisu itp.

222 WITOLD MALINA, MACIEJ SMIATACZ Rysunek 4. Podpis i jego histogramy: poziomy P h i pionowy P v Po wprowadzeniu podpisu do komputera wybiera się z bazy danych wszystkie wzorce, dla których liczba pociągnięć różni się o +/ 2 od analizowanego podpisu. Następnie oblicza się odległość aktualnego podpisu od mod wzorców i podejmuje decyzję. Systemy on-line dostarczają więcej informacji niż off-line (działają z dużą rozdzielczością nawet wtedy, kiedy pióro nie styka się z podłożem; ponadto można określić kąt ustawienia pióra i siłę nacisku), dlatego problem identyfikacji jest łatwiejszy. W systemie dynamicznym trudniej jest popełnić fałszerstwo. Systemy badania podpisów stosowane są głównie w celu przeprowadzania weryfikacji. 5. Zakończenie Z dotychczasowych doświadczeń wynika, że systemy biometryczne z pojedynczymi biometrykami nie spełniają ostrych wymagań jakości z uwagi na niedokładność rejestrowania obrazów, ekstrakcję cech i samo rozpoznawanie. Dlatego zwrócono uwagę na systemy, które wykorzystują kilka cech biometrycznych jednocześnie. Własności popularnych charakterystyk biometrycznych w zakresie identyfikacji osób są różne. Ogólne porównanie kosztów systemu i jakości podstawowych biometryk pokazuje rysunek 5 [1,3,4]. Rysunek 5. Porównanie 7 biometryk

IDENTYFIKACJA NA PODSTAWIE PISMA I TEKSTU 223 Bibliografia [1] de Luis-Garcia R. i inni, Biometric identification systems, Signal Proc. 83, s. 2539-2557, 2003. [2] Nowak M., Ciało jako klucz dostępu, Chip, Nr 7/1999, s. 38-41. [3] Pankanti S., Bolle R. M., Jain A., Biometrics: The Future of Identification, Computer, s. 46-49, 2000. [4] Ratha N. K., Bolle A., Bolle R. M., Automated Biometics. Advances in Pattern Recognition - ICAPR 2001, Second Ibter. Conf. Rio de Janeiro, March 2001. Proceedings, s. 445-453. [5] Said H., Tan T., Baker K., Personal identification based on handwriting, Pattern Recognition 33, s. 149-160, 2000. [6] Schomaker L., Bulacu M., Automatic writer identification using connected-component conturs, IEEE Trans. PAMI, No 6, 2004, s. 787-798. [7] Tambouratzis G., Assesing the effectivess of feature groups in author recognition tasks with the SOM model, IEEE Transactions on Systems, Man and Cybernetics, Part C, vol. 31, no 2, s. 249-259, 2006. PERSONAL IDENTIFICATION BASED ON HANDWRITING AND TEXT ANALYSIS WITOLD MALINA, MACIEJ SMIATACZ Abstract. The paper contains the characterization of several human identification techniques based on handwriting, text and signatures. The feature extraction algorithms necessary to perform the recognition are presented. The described systems play a very important role in personal identification and verification.