Nowy element w instrumentarium inteligencji obliczeniowej automatyczne rozumienie obrazów



Podobne dokumenty
Rozdział 6. Pakowanie plecaka. 6.1 Postawienie problemu

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

HAŚKO I SOLIŃSKA SPÓŁKA PARTNERSKA ADWOKATÓW ul. Nowa 2a lok. 15, Wrocław tel. (71) fax (71) kancelaria@mhbs.

revati.pl Drukarnia internetowa Szybki kontakt z klientem Obs³uga zapytañ ofertowych rozwi¹zania dla poligrafii Na 100% procent wiêcej klientów

Czy przedsiêbiorstwo, którym zarz¹dzasz, intensywnie siê rozwija, ma wiele oddzia³ów lub kolejne lokalizacje w planach?

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

Projektowanie bazy danych

(wymiar macierzy trójk¹tnej jest równy liczbie elementów na g³ównej przek¹tnej). Z twierdzen 1 > 0. Zatem dla zale noœci

Uwaga wstępna: Kognitywne Systemy Wspomagające Zarządzanie

gdy wielomian p(x) jest podzielny bez reszty przez trójmian kwadratowy x rx q. W takim przypadku (5.10)

Podstawa programowa kształcenia ogólnego informatyki w gimnazjum

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Komentarz do prac egzaminacyjnych w zawodzie technik administracji 343[01] ETAP PRAKTYCZNY EGZAMINU POTWIERDZAJĄCEGO KWALIFIKACJE ZAWODOWE

Motywuj świadomie. Przez kompetencje.

IDZ DO KATALOG KSI EK TWÓJ KOSZYK CENNIK I INFORMACJE CZYTELNIA PRZYK ADOWY ROZDZIA SPIS TREŒCI KATALOG ONLINE ZAMÓW DRUKOWANY KATALOG

Ogólna charakterystyka kontraktów terminowych

SYMULACJA STOCHASTYCZNA W ZASTOSOWANIU DO IDENTYFIKACJI FUNKCJI GÊSTOŒCI PRAWDOPODOBIEÑSTWA WYDOBYCIA

PODNOSZENIE EFEKTYWNOŒCI PRZEDSIÊBIORSTWA - PROJEKTOWANIE PROCESÓW

Ethernet VPN tp. Twój œwiat. Ca³y œwiat.

Efektywna strategia sprzedaży

W dobie postępującej digitalizacji zasobów oraz zwiększającej się liczby dostawców i wydawców

Bielsko-Biała, dn r. Numer zapytania: R WAWRZASZEK ISS Sp. z o.o. ul. Leszczyńska Bielsko-Biała ZAPYTANIE OFERTOWE

Uprawnienia do dysponentów/jednostek organizacyjnych Uprawnienia do operacji. System EUROBUDŻET Aplikacja Księga Główna Aplikacja Środki trwałe

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa


Techniki korekcyjne wykorzystywane w metodzie kinesiotapingu

OFERTA PROMOCYJNA

Harmonogramowanie projektów Zarządzanie czasem

Zamawiający potwierdza, że zapis ten należy rozumieć jako przeprowadzenie audytu z usług Inżyniera.

Zasady racjonalnego dokumentowania systemu zarządzania

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

DE-WZP JJ.3 Warszawa,

Temat: Funkcje. Własności ogólne. A n n a R a j f u r a, M a t e m a t y k a s e m e s t r 1, W S Z i M w S o c h a c z e w i e 1

POMOC PSYCHOLOGICZNO-PEDAGOGICZNA Z OPERONEM. Vademecum doradztwa edukacyjno-zawodowego. Akademia

Formularz Zgłoszeniowy propozycji zadania do Szczecińskiego Budżetu Obywatelskiego na 2016 rok

KOMISJA NADZORU FINANSOWEGO WNIOSEK O ZATWIERDZENIE ANEKSU NR 8 DO PROSPEKTU EMISYJNEGO

Informacje o omawianym programie. Założenia programu omawianego w przykładzie

Trendy i scenariusze rozwoju systemów wizyjnych i ich neurokognitywnych następców do roku 2025

Zespó Szkó Samochodowych

Spis treœci. Spis treœci

RZECZPOSPOLITA POLSKA. Prezydent Miasta na Prawach Powiatu Zarząd Powiatu. wszystkie

Automatyczne przetwarzanie recenzji konsumenckich dla oceny użyteczności produktów i usług

Zespó Szkó Samochodowych

Procedura weryfikacji badania czasu przebiegu 1 paczek pocztowych

Czy komputery potrafią mówić? Innowacyjne aplikacje wykorzystujące przetwarzanie dźwięku i mowy. Plan prezentacji.

Polska-Warszawa: Usługi w zakresie napraw i konserwacji taboru kolejowego 2015/S

Przygotowały: Magdalena Golińska Ewa Karaś

Eksperyment,,efekt przełomu roku

PRZETWARZANIE DANYCH OSOBOWYCH

Wyznaczanie charakterystyki widmowej kolorów z wykorzystaniem zapisu liczb o dowolnej precyzji

Fed musi zwiększać dług

ECDL Advanced Moduł AM3 Przetwarzanie tekstu Syllabus, wersja 2.0

Œwie e spojrzenie na miasto

Chmura obliczeniowa. do przechowywania plików online. Anna Walkowiak CEN Koszalin

Gra yna Œwiderska BIOZ. w budownictwie. poradnik

Zmiany w Podstawie programowej przedmiotów informatycznych

PLANY WYNIKOWE W ZAKRESIE III KLASY GIMNAZJUM. opracowane na podstawie materia³ów katechetycznych Jezus prowadzi i zbawia z serii W DRODZE DO EMAUS

System zarządzania bazą danych (SZBD) Proces przechodzenia od świata rzeczywistego do jego informacyjnej reprezentacji w komputerze nazywać będziemy

PK Panie i Panowie Dyrektorzy Izb Skarbowych Dyrektorzy Urzędów Kontroli Skarbowej wszyscy

Nowe funkcjonalności

Powiatowy Urząd Pracy w Trzebnicy. w powiecie trzebnickim w 2008 roku Absolwenci w powiecie trzebnickim

Krótka informacja o instytucjonalnej obs³udze rynku pracy

PREZENTACJA INFORMACJI FINANSOWEJ w analizach i modelowaniu finansowym. - dane z rynków finansowych DANE RÓD OWE

Sieci komputerowe cel

Aktualizacja CSP do wersji v7.2. Sierpień 2014

Skanowanie trójwymiarowej przestrzeni pomieszczeñ

Regulamin organizacji przetwarzania i ochrony danych osobowych w Powiatowym Centrum Kształcenia Zawodowego im. Komisji Edukacji Narodowej w Jaworze

Wytyczne Województwa Wielkopolskiego

Przepisy ogólne. KIERUNEK: SCENOGRAFIA studia pierwszego stopnia (licencjackie) wieczorowe

Dz.U Nr 47 poz. 480 ROZPORZĄDZENIE MINISTRA ZDROWIA I OPIEKI SPOŁECZNEJ

WZÓR SKARGI EUROPEJSKI TRYBUNAŁ PRAW CZŁOWIEKA. Rada Europy. Strasburg, Francja SKARGA. na podstawie Artykułu 34 Europejskiej Konwencji Praw Człowieka

STATUT SOŁECTWA Grom Gmina Pasym woj. warmińsko - mazurskie

EGZAMIN MATURALNY Z INFORMATYKI

Promocja i identyfikacja wizualna projektów współfinansowanych ze środków Europejskiego Funduszu Społecznego

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

Instrukcja zarządzania systemem informatycznym służącym do przetwarzania danych osobowych

Międzywydziałowy, priorytetowy kierunek studiów Inżynieria Biomedyczna na Politechnice Gdańskiej zostanie uruchomiony w roku akademickim 2009/2010!!!

Monopolistyczna konkurencja

Korzy ci wynikaj ce ze standaryzacji procesów w organizacjach publicznych a zarz dzanie jako ci

Warszawska Giełda Towarowa S.A.

1. Od kiedy i gdzie należy złożyć wniosek?

POMIAR STRUMIENIA PRZEP YWU METOD ZWÊ KOW - KRYZA.

KATEDRA INFORMATYKI STOSOWANEJ PŁ ANALIZA I PROJEKTOWANIE SYSTEMÓW INFORMATYCZNYCH

ROZPORZ DZENIE MINISTRA TRANSPORTU 1) z dnia r.

Administrator Konta - osoba wskazana Usługodawcy przez Usługobiorcę, uprawniona w imieniu Usługobiorcy do korzystania z Panelu Monitorującego.

I. INFORMACJA O KOMITECIE AUDYTU. Podstawa prawna dzialania Komitetu Audytu

ROZPORZ DZENIE MINISTRA GOSPODARKI z dnia 11 sierpnia 2000 r. w sprawie przeprowadzania kontroli przez przedsiêbiorstwa energetyczne.

Nasz kochany drogi BIK Nasz kochany drogi BIK

Tytuł. Autor. Dział. Innowacyjne cele edukacyjne. Czas. Przebieg. Etap 1 - Wprowadzenie z rysem historycznym i dyskusją

Projekt z dnia 2 listopada 2015 r. z dnia r.

Automatyczne Systemy Infuzyjne

Implant ślimakowy wszczepiany jest w ślimak ucha wewnętrznego (przeczytaj artykuł Budowa ucha

Gdynia: Księgowość od podstaw Numer ogłoszenia: ; data zamieszczenia: OGŁOSZENIE O ZAMÓWIENIU - usługi

Profilaktyka w zakresie udzielania pierwszej pomocy i ratownictwa

Ida Kurcz. Psychologia języka i komunikacji

Instrukcja obsługi platformy zakupowej e-osaa (klient podstawowy)

1.2. Zmiany prawne wp³ywaj¹ce na organizacjê pracy...

Reguła Życia. spotkanie rejonu C Domowego Kościoła w Chicago JOM

Transkrypt:

AUTOMATYKA 2008 Tom 12 Zeszyt 2 Ryszard Tadeusiewicz*, Marek R. Ogiela* Nowy element w instrumentarium inteligencji obliczeniowej automatyczne rozumienie obrazów 1. Wprowadzenie Zafascynowani ró nymi aspektami rozwoju i upowszechnienia informatyki i telekomunikacji, którego najbardziej dostrzegalnym przejawem jest b³yskawiczny rozwój Internetu, nie dostrzegamy jednego zjawiska, jakie temu rozwojowi towarzyszy. Zjawiskiem tym jest postêpuj¹ca migracja od cywilizacji pisma w kierunku cywilizacji obrazu, albo wyra aj¹c to samo inaczej od informacji tekstowych ku informacjom multimedialnym. Zwiastunem tego procesu by³o ca³kowite wyparcie powszechnie u ywanych (niegdyœ) interfejsów alfanumerycznych przez interfejsy graficzne typu Windows [1]. Jeszcze niedawno GUI (Graphical User Interface) by³ uto samiany z aplikacjami przeznaczonymi dla najmniej wykwalifikowanych u ytkowników informatyki. Profesjonaliœci u ywali komend tekstowych, które potrafili zreszt¹ splataæ w niezwykle wyrafinowane polecenia. Celowali w tym zw³aszcza administratorzy systemów opartych na Uniksie (a potem tak e Linuksie). Obecnie tak e te enklawy myœlenia i dzia³ania z wykorzystaniem wyrafinowanych kodów zosta³y ca³kowicie zdominowane przez obrazki, ikony, operacje wykonywane myszk¹. Obrazkowy jêzyk komunikacji z komputerem przesta³ byæ antytez¹ profesjonalizmu, poniewa tak e profesjonaliœci dostrzegli, e dziêki stosowaniu interfejsów graficznych mog¹ ³atwiej zapanowaæ nad z³o onymi systemami i skomplikowanymi procesami [2]. Co wiêcej, wszyscy przekonali siê, e polecenia wydawane metod¹ klikania myszk¹ s¹ nie tylko szybsze i wygodniejsze (z punktu widzenia cz³owieka) ni wpisywanie hase³ czy tekstowych poleceñ, ale wi¹ ¹ siê tak e z mniejszym prawdopodobieñstwem pope³nienia b³êdu (rys. 1). Zalety interfejsu graficznego doceniono tak e w kontekœcie sterowania wieloma innymi systemami technicznymi, dlatego obs³ugiwane dotykowo ikony zamiast napisów pojawi³y siê na wyœwietlaczach telefonów komórkowych, na panelach steruj¹cych ró nych maszyn i urz¹dzeñ, w kokpitach nowoczesnych samochodów i samolotów itd. * Katedra Automatyki, Akademia Górniczo-Hutnicza w Krakowie 365

366 Ryszard Tadeusiewicz, Marek R. Ogiela Rys. 1. Te same informacje przedstawione w formie graficznej i w formie tekstowej ujawniaj¹ zalety graficznej prezentacji Wspomniany wy ej GUI to przys³owiowy wierzcho³ek góry lodowej. Cz³owiek jest wzrokowcem i ponad 90% informacji pozyskuje za pomoc¹ percepcji i analizy ró nych obrazów. Dlatego w zakresie przekazywania ludziom dowolnych informacji ich prezentacja graficzna ma zdecydowan¹ przewagê nad wszelkimi innymi sposobami i formami prezentacji. Ogl¹daj¹c obraz, mo na ³atwiej przyswoiæ sobie liczne i z³o one informacje, skuteczniej dostrzega siê powi¹zania pomiêdzy ró nymi (na pozór) faktami, szybciej i poprawniej dociera siê do rzeczywistego znaczenia prezentowanych danych oraz ³atwiej mo na przeprowadziæ jakieœ z³o one rozumowanie, które siê do tych danych odnosi. 2. Zalety obrazów jako noœników informacji i ich konsekwencje Zalety graficznej prezentacji informacji najwczeœniej odkryli specjaliœci od nauczania, wœród których bardzo popularne jest powiedzenie jeden obraz to wiêcej, ni tysi¹c s³ów. Aktualnie graficzne prezentacje staj¹ siê coraz popularniejsze przy przedstawianiu ró nych wyników obliczeñ (na przyk³ad ekonomicznych) w ramach tzw. wizualizacji danych [3]. Graficzna forma prezentacji by³a, jest i bêdzie podstawow¹ form¹ prezentacji w odniesieniu do danych o terenie (plany geodezyjne, mapy geograficzne, zdjêcia lotnicze i satelitarne itp.). Zasygnalizowane wy ej zagadnienia sk³aniaj¹ do sformu³owania dwóch pytañ: 1) Dlaczego mimo tak licznych zalet obrazów jako noœnika informacji ludzie nie rozwinêli na szersz¹ skalê metod komunikacji obrazowej? 2) Co powoduje, e w miarê postêpu informatyzacji proporcje miêdzy informacjami przedstawianymi w formie tekstowej a informacjami przedstawianymi w formie obrazowej ustawicznie siê zmieniaj¹ na korzyœæ tych drugich? OdpowiedŸ na oba pytania opiera siê na konstatacji jednego, powszechnie znanego faktu. Otó cz³owiek nie posiada efektywnego narz¹du, z pomoc¹ którego móg³by szybko i wygodnie wytwarzaæ obrazy, zawieraj¹ce treœci, które chcia³by zakomunikowaæ innym

Nowy element w instrumentarium inteligencji obliczeniowej... 367 ludziom. Gdybyœmy potrafili œwiadomie i celowo wytwarzaæ na jakiejœ powierzchni wchodz¹cej w sk³ad naszego cia³a dowolne pomyœlane obrazy równie szybko, ³atwo i naturalnie, jak generujemy sygna³ mowy, to nasza cywilizacja prawdopodobnie wygl¹da³aby dziœ ca³kiem inaczej. Jest jednak inaczej. To z pomoc¹ mowy potrafimy wra aæ nasze myœli, dlatego utrwalanie tych myœli przybiera postaæ pisma, czyli mowy utrwalonej, zaœ obrazy, gdy ju zdecydujemy siê je sporz¹dzaæ, wytwarzamy z du ym nak³adem pracy, nie zawsze op³acalnej. W dodatku, eby rêcznie wytwarzaæ obrazy, potrzebny jest pewien talent oraz zasoby okreœlonych narzêdzi w sumie wiêc mowa (oraz pismo) s¹ przy przekazywaniu i gromadzeniu informacji regu³¹, a obrazy stanowi¹ wygodny, mi³y, chêtnie akceptowany przez odbiorcê dodatek do komunikatów jêzykowych. Tak by³o przez ca³e stulecia a do wynalezienia komputera oraz grafiki komputerowej jako dziedziny zastosowañ. Rozwój tej ostatniej w po³¹czeniu z powszechn¹ dostêpnoœci¹ urz¹dzeñ do cyfrowej rejestracji obrazów obiektów rzeczywistych (cyfrowe aparaty fotograficzne i kamery wideo, rozmaite skanery i urz¹dzenia do digitalizacji) spowodowa³y ³¹cznie, e dziœ wytworzenie obrazu komputerowego wymaga bardzo niewiele wysi³ku. Czasem wystarczy tylko prosta decyzja, jak w przypadku konwersji tabeli liczb do postaci wykresu dwu- lub nawet trójwymiarowego, co kiedyœ wymaga³o wielu godzin wytê onej pracy, a dziœ otrzymywane jest w u³amku sekundy po pojedynczym klikniêciu myszk¹. W dodatku dostêpne s¹ liczne i bardzo wygodne narzêdzia informatyczne, s³u ¹ce do tworzenia i przetwarzania obrazów, a u ywanie tych narzêdzi nie wymaga posiadania specjalnego talentu, tylko odrobiny wprawy i cierpliwoœci. atwoœæ rejestrowania obrazów obiektów rzeczywistych oraz wygoda tworzenia obrazów tworów pomyœlanych, powoduje, e w ró nych zasobach informacyjnych coraz czêœciej wystêpuj¹ g³ównie obrazy, a udzia³ tekstu bezustannie siê zmniejsza. Dobrym przyk³adem mo e tu byæ cyfrowo zarejestrowana dokumentacja pacjenta w nowoczesnym szpitalu, która dawniej mia³a charakter g³ównie tekstowy, a dziœ g³ównie obrazowy (rys. 2). Dawniej dokumentacja taka mia³a g³ównie postaæ okreœlonych zapisów tekstowych, w których mieœci³o siê wszystko: dane personalne, opis przypadku, opisy badañ, postawiona diagnoza, zastosowana terapia oraz osi¹gniête wyniki. Dziœ opisy tekstowe tak e wystêpuj¹, ale w reprezentacji komputerowej zajmuj¹ zaledwie kilkadziesi¹t kilobajtów. Natomiast w dokumentacji dominuj¹ ró ne formy cyfrowych zobrazowañ medycznych zapisy z tomografu, ultrasonografu, rezonansu magnetycznego, badañ PET i wielu innych. Zapisy te zajmuj¹ (najskromniej licz¹c) kilkadziesi¹t gigabajtów, a wiêc milion razy wiêcej, ni opis tekstowy. Co wiêcej, pewnych informacji medycznych, które s¹ widoczne i ewidentne na obrazach, nie powtarza siê, ani nie komentuje w tekœcie, bowiem osoba sporz¹dzaj¹ca dokumentacjê wychodzi z za³o enia, e jeœli dokumentacjê tê przegl¹daæ bêdzie fachowiec (inny lekarz), to z obrazów sam wywnioskuje wszystko, co trzeba, wiêc nie warto o rzeczach oczywistych pisaæ w tekœcie, zw³aszcza e taki opis mo e czasem wprawiæ pacjenta w stan przera enia jak wiadomo, w³aœnie dla zachowania spokoju pacjenta lekarze unikaj¹ jawnego podawania w dokumentacji medycznej diagnoz i prognoz, pos³uguj¹c siê w celu ich ukrycia miêdzy innymi terminologi¹ ³aciñsk¹. W dokumentacji elektronicznej ma to dodatkowe uzasadnienie zwi¹zane miêdzy innymi z ryzykiem nieuprawnionego dostêpu do danych ze strony ewentualnych hakerów.

368 Ryszard Tadeusiewicz, Marek R. Ogiela b) a) Rys. 2. Rekord pacjenta w systemie TMIS jednym z pierwszych systemów szpitalnych (a). Multimedialny rekord pacjenta na przyk³adzie systemu szpitalnego WorldVistA (b) ród³o: a) [22]; b) [23] Rys. 3. Obecnie czêsto spotyka siê sytuacje, w których g³ówna treœæ przekazu informacyjnego zawiera siê w obrazie, a nie w towarzysz¹cym mu tekœcie ród³o: [24]

Nowy element w instrumentarium inteligencji obliczeniowej... 369 Sytuacja opisana wy ej w odniesieniu do danych medycznych powtarza siê w przypadku ró nych innych rodzajów danych, w których coraz wiêcej merytorycznie istotnych informacji przedstawianych jest wy³¹cznie (lub prawie wy³¹cznie) w formie obrazów (rys. 3). Ze wzglêdu na wspomnian¹ wy ej informatywnoœæ obrazu, preferencje odbiorców informacji, a tak e coraz wiêksz¹ ³atwoœæ tworzenia cyfrowych obrazów ten trend bêdzie siê nasila³. 3. Problemy zwi¹zane z u ywaniem informacji obrazowej 3.1. Wyszukiwanie potrzebnych informacji obrazowych Obcowanie z pojedyncz¹ informacj¹ maj¹c¹ postaæ obrazow¹ jest w zasadzie wygodne i przyjemne. Maj¹c na ekranie (lub na wydruku z komputera) ³adnie zbudowany obrazek, mo emy go przeanalizowaæ (zak³adaj¹c, e wiemy, co on przedstawia), nastêpnie mo emy na tej podstawie zdobyæ pewne wiadomoœci, zaœ przyswoiwszy i zapamiêtawszy te wiadomoœci, mo emy podj¹æ jakieœ dzia³ania, które dziêki tej informacji bêd¹ skuteczniejsze. Podany wy ej schemat wygodnego i przyjemnego korzystania z informacji obrazowej przestaje byæ aktualny z chwil¹ konfrontacji z bardzo du ¹ liczb¹ obrazów, wœród których trzeba znaleÿæ ten, który w danej chwili jest nam potrzebny. Wyszukanie potrzebnej informacji tekstowej w bazie danych zawieraj¹cej setki czy tysi¹ce tekstów jest k³opotliwe, ale technicznie wykonalne. Korzystaj¹c ze s³ów kluczowych, mo emy dotrzeæ do potrzebnej informacji, bior¹c za podstawê nawet tak obszerny zasób przeszukiwanych informacji jak ca³y Internet. Przyk³adem stosownego narzêdzia, które tego rodzaju wyszukiwanie umo liwia, s¹ popularne Google. Oczywiœcie jak wszyscy wiedz¹ przy wyszukiwaniu danych tekstowych napotyka siê pewne trudnoœci, na przyk³ad zwi¹zane z istnieniem synonimów oraz niejednoznacznoœci¹ struktur jêzyka naturalnego. Ale wiadomo tak e, i trudnoœci te mo - na przezwyciê yæ stosuj¹c miêdzy innymi bardzo dobrze rozwijaj¹c¹ siê technikê ontologii i innych atrybutów tak zwanych sieci semantycznych [4]. Wi¹ e siê to faktem, e wnikniêcie do sfery znaczeniowej (semantyki) informacji tekstowej jest w miarê ³atwe i raczej oczywiste [5]. Odmienna sytuacja ma miejsce, kiedy rozwa amy du e zasoby informacyjne z³o one z obrazów. W takim przypadku jeœli chcemy dotrzeæ do jakiegoœ konkretnego obrazu zawieraj¹cego jak¹œ konkretn¹ treœæ to mo emy z tym mieæ bardzo powa ne k³opoty. Istniej¹ce systemy wyszukiwania informacji oferuj¹ w zasadzie jedynie dwa typy narzêdzi do wyszukiwania informacji obrazowej. Pierwsza z tych technik opiera siê na opiach tekstowych, jakie posiadaj¹ obrazy w wielu miejscach sieciowych, sk¹d mo na je pobieraæ. Idealna sytuacja wystêpuje w przypadku, gdy obraz ma podpis, a w tym podpisie wystêpuje poszukiwane s³owo (rys. 4).

370 Ryszard Tadeusiewicz, Marek R. Ogiela Rys. 4. Wyszukiwanie obrazów na podstawie ich podpisów Systemy wyszukuj¹ce obrazy wed³ug podanego schematu podlegaj¹ wielu ograniczeniom, dlatego ich dzia³anie jest z regu³y dalekie od doskona³oœci. Po pierwsze do czego jeszcze wrócimy ich dzia³anie ograniczone jest wy³¹cznie do takich baz z obrazami, w których obrazom towarzysz¹ opisy. Takie podejœcie mo na uznaæ za efektywne w odniesieniu do tych Ÿróde³ informacji, w których g³ównym noœnikiem treœci jest tekst, a obrazów u ywa siê wy³¹cznie jako ilustracji uzupe³niaj¹cych tê treœæ przekazywan¹ tekstem (w tym charakterze wystêpuj¹ miêdzy innymi rysunki w niniejszym artykule). Jak jednak wspomniano wy ej, wspó³czeœnie pojawiaj¹ siê w ró nych bazach danych (a tak e w Internecie) zasoby informacyjne z³o one g³ównie albo wy³¹cznie z obrazów, którym towarzysz¹ nieliczne i na ogó³ ma³o informatywne opisy tekstowe. W takim przypadku przedstawiona na rysunku 4 metoda wyszukiwania obrazów oka e siê nieskuteczna. Co wiêcej, ³atwo mo na siê przekonaæ, e nawet pozornie ca³kiem bezpieczne wyszukiwanie w dobrze opisanych zasobach informacji obrazowych na podstawie towarzysz¹cych obrazom tekstów mo e prowadziæ na manowce, czego przyk³adem mo e byæ wynik wyszukiwania przedstawiony na rysunku 5. Has³em wyszukiwanym by³a angielska nazwa Bengal Tiger. Oczywiœcie pokaza³y siê rozliczne mordki tygrysów (i o to chodzi³o), ale nieoczekiwanie wœród znalezionych obrazów pojawi³y siê kwiaty. Okaza³o siê, e nazwê Bengal Tiger nosi tak e piêkny kwiat roœliny zwanej po angielsku Canna (polska nazwa to kanna albo paciorecznik). Jak z tego widaæ, wyszukiwanie wykorzystuj¹ce zwi¹zek tekstu i obrazu mo e czasem dawaæ dziwne skutki. Systemy wyszukuj¹ce obrazy na podstawie ich tekstowych opisów mog¹ czasem zawieœæ z innych powodów, ni wczeœniej wymienione. Wynika to z faktu, e programiœci tych systemów staraj¹ siê wywi¹zaæ ze stawianych im zadañ w taki sposób, e nie ograniczaj¹ siê do przeszukiwania samych tylko podpisów pod obrazami (bo w wielu zasobach obrazy jako takie nie s¹ wcale podpisane), natomiast analizuj¹ tekst w otoczeniu obrazu, zak³adaj¹c, e wystêpowanie s³owa kluczowego (u ytego jako klucz wyszukiwania) w tekœcie, w którym obraz jest osadzony, wskazuje na to, e ten obraz i to s³owo s¹ ze sob¹ zwi¹zane znaczeniowo.

Nowy element w instrumentarium inteligencji obliczeniowej... 371 Rys. 5. Pomy³ki przy wyszukiwaniu obrazów na podstawie opisów, zaobserwowane przy zastosowaniu wyszukiwarki Google Niestety, za³o enie to nie zawsze sprawdza siê w praktyce. WyobraŸmy sobie, e chcemy znaleÿæ (przyk³adowo) obraz dendrytów otaczaj¹cych neuron. Wpisujemy w Google (w wersji wyszukuj¹cej obrazy) neural dendrites i ju po chwili mamy ca³¹ kolekcjê obrazów (rys. 6) w wiêkszoœci nie na temat! Na czo³owych miejscach listy znajduj¹ siê odwo³ania do zdjêæ osób lub sytuacji, w których ktoœ (pragn¹c siê wydaæ interesuj¹cym) u y³ okreœlenia, e wysila³ swoje dendryty neuronowe na przyk³ad w tym celu, eby prowadziæ konwersacje na przyjêciu a wyszukiwarka zaproponowa³a zdjêcie ludzi z tego przyjêcia jako zdjêcia dendrytów. Ca³kowity nonsens! Mo na sformu³owaæ hipotezê, e przyczyn¹ nieskutecznego wyszukiwania jest u ycie niew³aœciwego narzêdzia. W koñcu Google wyszukuj¹ strony WWW g³ównie na podstawie ich zawartoœci tekstowej, dlatego poszukiwanie adekwatnych merytorycznie obrazów mo e siê zakoñczyæ niepowodzeniem i to niczego nie dowodzi. Spróbowaliœmy wiêc wyszukiwaæ obrazy z wykorzystaniem narzêdzi opisywanych jako narzêdzia specjalizowane do tego w³aœnie celu (to znaczy do wyszukiwania obrazów). Na rysunku 7 pokazano skutek wyszukiwania obrazów maj¹cych zwi¹zek z medycyn¹ z pomoc¹ programu PicSearch, opisywanego jako w³aœnie specjalistyczne narzêdzie do wyszukiwania obrazów. Widaæ, e zaraz na pierwszej stronie rezultatów dostarczonych przez wyszukiwarkê w zbiorze wyszukanych obrazów mamy przynajmniej jeden obraz ca³kowicie nie na temat. Podobny test z podobnym wynikiem mo na by by³o przeprowadziæ dla ka dego z dostêpnych obecnie narzêdzi wyszukiwawczych, gdy wyszukiwanie obrazów na podstawie kryteriów zadanych w postaci tekstu po prostu nie mo e siê udaæ.

372 Ryszard Tadeusiewicz, Marek R. Ogiela Rys. 6. Niepowodzenie przy wyszukiwaniu obrazów zwi¹zanych z has³em neural dendrites Rys. 7. Nawet stosuj¹c specjalizowane narzêdzia do wyszukiwania obrazów, bardzo czêsto otrzymujemy nonsensowne wyniki

Nowy element w instrumentarium inteligencji obliczeniowej... 373 3.2. Próba wnikniêcia w g³¹b obrazu Opisane wy ej niepowodzenia, obserwowane wielokrotnie przy próbach odnajdywania potrzebnych obrazów na podstawie towarzysz¹cych im tekstów, wskazuj¹ na to, e przy budowie przysz³ych systemów informatycznych, zorientowanych na gromadzenie, przetwarzanie i wyszukiwanie informacji obrazowej, nie mo na bêdzie dalej traktowaæ obrazów jako jedynie dodatku do informacji tekstowej, lecz trzeba bêdzie zmierzyæ siê z koniecznoœci¹ wyszukiwania obrazów na podstawie cech tych e obrazów. Pojawia siê tu jednak pytanie, jakie to powinny byæ cechy. Bior¹c pod uwagê ró norodnoœæ mo liwych obrazów, znacznie wiêksz¹ ni ró norodnoœæ potencjalnie mo liwych tekstów, trzeba zdaæ sobie sprawê z tego, e próba mechanicznego wyszukiwania obrazów na podstawie koincydencji jakichœ wzorców graficznych jest raczej skazana na niepowodzenie. Przewidywanie to potwierdzaj¹ eksperymenty, jakie mo na przeprowadziæ przy u yciu programu VisualSEEk [6]. Program ten pozwala podaæ ogólne kryteria na temat w³aœciwoœci obrazów, które maj¹ byæ wyszukane, w formie przedstawionej przyk³adowo na rysunku 8, a nastêpnie pozwala wyszukiwaæ w bazie danych wszystkie obrazy, które spe³niaj¹ wskazane kryteria. Warto zauwa yæ, e kryteria, jakie s¹ podane (przyk³adowo) na rysunku 8, s¹ kryteriami œciœle odnosz¹cymi siê do w³aœciwoœci obrazu podaje siê wzorce kolorów, jakie powinny dominowaæ w okreœlonych regionach obrazu, przyk³adowe tekstury, cechy kszta³tu obiektów itp. Rys. 8. Przyk³ad zadawania kryteriów wyszukiwania obrazów na podstawie cech graficznych ród³o: [6]

374 Ryszard Tadeusiewicz, Marek R. Ogiela Niestety wyniki nadal nie s¹ zadowalaj¹ce. Okazuje siê, e w du ych bazach danych mog¹ wystêpowaæ liczne obrazy spe³niaj¹ce podane wy ej kryteria, a jednak nie odpowiadaj¹ce wymaganiom osoby formu³uj¹cej zapytanie (która, jak widaæ, zapewne chcia³a wydobyæ górskie pejza e). Równie iluzoryczna jest nadzieja na to, e problem wyszukania obrazów na jakiœ za³o- ony temat uda siê rozwi¹zaæ poprzez zaprezentowanie systemowi wyszukuj¹cemu przyk³adowego obrazu, jaki chcemy wyszukaæ. Na rysunku 9 pokazano zapytanie realizowane metod¹ query by example (zapytaniem jest obraz przedstawiaj¹cy tygrysa) w systemie Wisvi [7] oraz skutki wyszukiwania zainicjowanego tym zapytaniem. Widaæ, e komputerowa ocena podobieñstwa obrazów, bêd¹ca podstaw¹ do ich wyszukania i udostêpnienia, nie ca³kiem zgadza³a siê w rozwa anym przypadku z ocen¹, jakiej dokona³by cz³owiek na podstawie analizy zawartoœci przyk³adowego obrazu opartej na swojej wiedzy o tym, co przedstawia przyk³ad i co zawieraj¹ obrazy przeszukiwanej bazy danych. Jest to kolejny argument przemawiaj¹cy za tym, e przy operowaniu obrazami nie wystarczy skupiaæ siê na ich formie, lecz trzeba koniecznie siêgn¹æ do treœci, usi³owaæ wydobyæ i zrozumieæ ich znaczenie. Rys. 9. Nie ca³kiem udana próba wyszukiwania obrazów na podstawie ich podobieñstwa do wzorca podanego w zapytaniu

Nowy element w instrumentarium inteligencji obliczeniowej... 375 3.3. Co w istocie oznacza rozumienie obrazu? Postulat, jakim zakoñczyliœmy poprzedni podrozdzia³, wskazuje, e przy inteligentnym wyszukiwaniu danych w bazach danych, w których istota informacji zawarta jest w postaci obrazów trzeba d¹ yæ do tego, eby komputer dociera³ do znaczenia obrazu, czyli zmierza³ do jego automatycznego rozumienia. Pojêcia automatycznego rozumienia nie jest w informatyce czymœ szokuj¹co nowym, bowiem liczne prace zwi¹zane z pog³êbion¹ analiz¹ tekstów (w kontekœcie miêdzy innymi tak zwanych sieci semantycznych [2, 4]) wprowadzi³y to pojêcie do obiegu i nada³y mu okreœlone znaczenie, wykorzystywane na przyk³ad w systemach automatycznego t³umaczenia tekstów z jednego jêzyka na drugi (rys. 10). Rys. 10. Rozumienie wypowiedzi jest kluczem do automatycznego t³umaczenia z jednego jêzyka na inny bez utraty zrozumia³oœci treœci ród³o: [25] Narzêdzia do automatycznego rozumienia tekstów s¹ dziœ dosyæ mocno rozbudowane i s¹ wykorzystywane w ró nych celach, na przyk³ad do automatycznego wyszukiwania tekstów maj¹cych zwi¹zek z jakimœ zagadnieniem (niemo liwych do wyszukania za pomoc¹ s³ów kluczowych), automatycznego streszczania dokumentów, tworzenia reprezentacji wiedzy itd. Podstaw¹ do ich dzia³ania s¹ elementy specjalnie reprezentowanych w komputerze merytorycznych zwi¹zków pomiêdzy informacjami, zadawanych za pomoc¹ tak zwanych ontologii. Przyk³ad takiej bardzo prostej ontologii przedstawia rysunek 11. Inny przyk³ad nieco bardziej z³o onej ontologii (sporz¹dzonej na potrzeby mi³oœników Gwiezdnych wojen ) obejrzeæ mo na na rysunku 12.

376 Ryszard Tadeusiewicz, Marek R. Ogiela Rys. 11. Przyk³ad bardzo prostej ontologii przydatnej przy automatycznym rozumieniu tekstów ród³o: [26] Rys. 12. Przyk³adowy obraz semantycznych zale noœci wystêpuj¹cych w pewnej grupie wyrazów ród³o: [27]

Nowy element w instrumentarium inteligencji obliczeniowej... 377 Jednak rozumienie (a nawet automatyczne rozumienie) tekstów jest relatywnie ³atwe, naturalne i bezkonfliktowe, poniewa ka dy spodziewa siê w nich zawartoœci okreœlonej treœci, dziêki czemu rozwa anie ich w kategorii ich znaczeñ nikogo nie szokuje. Natomiast wyraÿnie czymœ innym jest rozumienie obrazów. Obraz ma okreœlon¹ formê: rozmiar, kolor, fakturê, kszta³ty obiektów itd. W tych kategoriach obraz mo na opisaæ i na przyk³ad w sposób automatyczny rozpoznaæ jeœli zajdzie taka potrzeba. Ale na pierwszy rzut oka wydaje siê, e obraz nie ma czegoœ takiego jak treœæ, która jest w znacznym stopniu niezale na od formy. Czy zatem mo na mówiæ o rozumieniu obrazów? Zanim odpowiemy na to pytanie pos³u ymy siê kilkoma przyk³adami. Rozwa my na pocz¹tku rysunek 13. Rys. 13. Obraz, który mo e byæ ³atwo zinterpretowany w sensie jego znaczenia Na rysunku tym pokazany jest jakiœ wykres, którego znaczenia na pozór nie mo na zrozumieæ, jeœli nie ma do niego dodatkowego opisu. Jeœli jednak przyjrzymy siê temu rysunkowi uwa niej, to zauwa ymy, e opis osi poziomej przypomina daty, a opis osi pionowej kojarzy siê z pieniêdzmi. ¹cz¹c te dwie obserwacje z wiedz¹, jak¹ prawie ka dy z Czytelników posiada na temat zawirowañ na gie³dzie papierów wartoœciowych na prze- ³omie 207 i 2008 roku, mo na zrozumieæ, e ogl¹damy spadek wartoœci jakiejœ inwestycji gie³dowej. Gdyby chcieæ to zrozumienie podsumowaæ jednym krótkim s³owem, to mo na by by³o napisaæ: bessa. Na rysunku 14 widoczny jest bardzo podobny wykres, który jednak mo e byæ podstaw¹ bardziej wyrafinowanego rozumienia pewnego zdarzenia. Otó na wykresie tym (który na podstawie analogii z wczeœniej rozwa anym obrazem identyfikujemy tak e jako obraz zmian wartoœci jakiegoœ waloru notowanego na gie³dzie) da siê zaobserwowaæ ciekawsze zjawisko. Widaæ na nim, jak po d³ugiej serii spadków notowania zaczê³y nieznacznie wzrastaæ (w okolicy daty 6 grudnia, czyli Œwiêtego Miko³aja).

378 Ryszard Tadeusiewicz, Marek R. Ogiela Inwestor zachêcony tym faktem przewidywa³, e zacz¹³ siê trend wzrostowy i dokupi³ za kilka tysiêcy walorów, co spowodowa³o gwa³towny skok wykresu do góry. Niestety nadzieja na wzrost (czy chocia by stabilizacjê kursu) okaza³a siê zwodnicza akcje zamiast wzrastaæ zaczê³y gwa³townie spadaæ i ca³a dop³ata zosta³a w istocie stracona. Gdyby chcieæ to zrozumienie znaczenia pokazanego wykresu podsumowaæ jednym krótkim s³owem, to mo na by by³o napisaæ: b³¹d inwestycyjny. Rys. 14. Obraz, który mo e byæ podstaw¹ zrozumienia pewnego zdarzenia Warto zauwa yæ, e na to lakonicznie spuentowane zrozumienie sytuacji z³o y³y siê dwie sk³adowe: to, co mo na by³o zobaczyæ na obrazie (wykresie) oraz to, co obserwator wiedzia³ o naturze procesów zachodz¹cych na gie³dzie papierów wartoœciowych. Dopiero konfrontacja tych dwóch Ÿróde³ informacji da³a podstawê do zrozumienia treœci, jakie niós³ rozwa any obraz. Jednoczeœnie fakt, e na podstawie samego obrazu (oraz posiadanej wiedzy) mo na by³o dotrzeæ do tej merytorycznej treœci wskazuje na to, e obraz mo e zawieraæ okreœlon¹ treœæ i e mo na siê staraæ tê treœæ zrozumieæ. A skoro cz³owiek mo e zrozumieæ tê treœæ to jest mo liwe, e tak e komputery potrafi¹ to zrobiæ, albowiem w ci¹gu wielu lat rozwoju sztucznej inteligencji (obecnie nazywanej inteligencj¹ obliczeniow¹) wielokrotnie wykazano, e ilekroæ jak¹œ formê intelektualnej aktywnoœci cz³owieka uda³o siê dobrze zdefiniowaæ i precyzyjnie opisaæ na gruncie psychologii, a zw³aszcza kognitywistyki, tylekroæ po krótkim czasie udawa³o siê tak e zbudowaæ program komputerowy, który tê aktywnoœæ intelektualn¹ cz³owieka potrafi³ naœladowaæ a w wielu wypadkach nawet wyprzedzaæ. Dyskusja obrazków pokazanych na rysunkach 13 i 14 dowiod³a, e w obrazach mo e byæ zwarta okreœlona treœæ, a odpowiednia analiza obrazu, po³¹czona z wykorzystaniem okreœlonych zasobów wiedzy mo e prowadziæ do tego, e treœæ ta zostaje wydobyta i zrozumiana. Jednak sceptyczny krytyk, w¹tpi¹cy w mo liwoœæ rozumienia obrazów

Nowy element w instrumentarium inteligencji obliczeniowej... 379 oraz docierania do ich sensu mo e nie byæ przekonany podanymi przyk³adami z tego powodu, e obrazy na rysunkach 13 i 14 by³y sztucznymi wykresami, rejestruj¹cymi jakieœ zdarzenia, natomiast ma³o maj¹cymi wspólnego z obrazami pochodz¹cymi z realnego œwiata. W takich sztucznych obrazach ludzie (znaj¹cy siê na rzeczy) z ³atwoœci¹ doszukuj¹ siê okreœlonych znaczeñ, ale to niczego nie dowodzi, bo te obrazy tak w³aœnie by³y tworzone, eby te ustalone znaczenia eksponowaæ. W kolejnym podrozdziale zajmiemy siê obrazami, które pochodz¹ z realnego œwiata, a jednak ponad wszelk¹ w¹tpliwoœæ nios¹ w sobie znaczenia, których nie mo na po prostu zobaczyæ na obrazie, tylko trzeba je w³aœnie zrozumieæ. 3.4. Jak rozumieæ obrazy realnego œwiata? Zacznijmy znowu od przyk³adu. Popatrzmy na fotografiê przytoczon¹ na rysunku 15. Rys. 15. Obraz, który wymaga zrozumienia, a nie tylko prostego przeanalizowania ród³o: [28] Na fotografii tej widaæ znane przedmioty skrzynki z napojami oraz butelki ca³e oraz pot³uczone. T³o dla tych obiektów te jest znane po prostu droga wiod¹ca przez las. A jednak mimo tych znanych obiektów i znanej scenerii coœ jest w tym obrazie niepokoj¹cego. Po prostu te obiekty w tej scenerii w taki sposób nie powinny wystêpowaæ! Mówi

380 Ryszard Tadeusiewicz, Marek R. Ogiela nam to wiedza, jak¹ posiadamy na temat tego, w jakich okolicznoœciach i gdzie mo na widywaæ butelki piwa oraz ich skrzynki, a tak e na temat tego, jak powinna wygl¹daæ normalna leœna droga. Dlatego wnikaj¹c w znaczenie tego obrazu (a nie poprzestaj¹c na samej jego formie), mo emy zrozumieæ, co ten obraz naprawdê oznacza mianowicie mo emy stwierdziæ, e te skrzynki musia³y spaœæ z jad¹cej ciê arówki. Na zdjêciu nie widaæ tej ciê- arówki, a jednak wiemy na pewno, e musi ona tam byæ, podobnie jak nie byliœmy œwiadkami samego zdarzenia, ale potrafimy sobie wyobraziæ jego przebieg. Ma³o tego mo emy odpowiedzieæ na pytanie, co by³o prawdopodobn¹ przyczyn¹ tego wypadku i kto ponosi odpowiedzialnoœæ. Przyk³adów, w których obraz zawiera (poza form¹) jak¹œ merytoryczn¹ treœæ, mo na by jeszcze podaæ bardzo wiele. Nie chodzi jednak o mno enie przyk³adów tylko o rozwi¹zanie problemu, w jaki sposób komputer mo e dotrzeæ do tej sfery znaczenia obrazu, ignoruj¹c sferê jego formy? Odpowiedzi¹ na tak sformu³owane pytanie jest technika automatycznego rozumienia obrazów, któr¹ w Katedrze Automatyki AGH rozwijamy ju od oko³o 10 lat, a która w skrócie przedstawiona jest ni ej. 4. Koncepcja automatycznego rozumienia obrazów Wa nym elementem ka dego rozumienia jest okolicznoœæ, e dla wnikniêcia w semantyczn¹ treœæ okreœlonej wiadomoœci trzeba zawartoœæ wiadomoœci jako takiej skonfrontowaæ z wiedz¹ posiadan¹ przez rozumiej¹cy podmiot. Dotyczy to wiadomoœci w ka - dej postaci (tak e w postaci obrazu) oraz ka dego podmiotu, który ma zmierzaæ do osi¹gniêcia stanu okreœlanego jako rozumienie, nawet jeœli podmiotem tym jest komputer, a wynikiem jego dzia³ania ma to byæ analiza kognitywna okreœlana jako automatyczne rozumienie. Rys. 16. Ogólny schemat automatycznego rozumienia

Nowy element w instrumentarium inteligencji obliczeniowej... 381 Najbardziej ogólny schemat rozumienia mo e wiêc byæ rozpatrywany w takiej formie, jaka zosta³a przedstawiona na rysunku 16. Schemat ten mo e byæ u yty dla rozumienia wiadomoœci dowolnego rodzaju. W odniesieniu do obrazów stosunkowo niewielu autorów (poza autorami niniejszej pracy, o czym bêdzie dodatkowo mowa nieco dalej) próbowa³o podj¹æ problem ich automatycznego rozumienia. Warto wspomnieæ o pracy [8] dotycz¹cej jednak rozumienia obrazów bardzo specjalnego rodzaju (zapisu nutowego) oraz o pracy [9], reprezentuj¹cej jednak podejœcie analityczno-geometryczne do próby zrozumienia kszta³tów, a nie takie, jakie proponuje siê w tej pracy, preferuj¹ce strukturalny (lingwistyczny) opis ca³ego obrazu. Ciekawe wyniki zawiera praca [10], skupiaj¹ca siê jednak wy³¹cznie na obrazach jednego rodzaju (têczówki oka dla celów biometrycznej identyfikacji osób). Równie o próbach rozumienia obrazów osób (g³ównie w sensie ich identyfikacji) traktuje praca [11], aczkolwiek prezentowane w niej podejœcie jest ca³kowicie inne od tego, jakie dyskutujemy w tym artykule. Natomiast podejœcie zbli one do prezentowanego tutaj (to znaczy oparte na konfrontacji nadchodz¹cej informacji wizyjnej z wiedz¹ wczeœniej zgromadzon¹ w systemie) znaleÿæ mo na w pracach [12, 13]. 5. Opis lingwistyczny jako baza automatycznego rozumienia obrazów Po dokonaniu tego skrótowego przegl¹du literatury spróbujemy przedstawiæ istotê proponowanej przez autorów koncepcji automatycznego rozumienia obrazów. Wyjdziemy od schematu podanego na rysunku 16 i spróbujemy go w kilku kolejnych krokach adaptowaæ do specyficznych potrzeb, jakie rodzi zadanie automatyczne rozumienie obrazów. We wczeœniejszych pracach autorów oraz Pani dr Lidii Ogieli (patrz m.in. [14] ) zaproponowano schemat wymyœlony przez tê ostatni¹, nieco bardziej ukierunkowany na cel, jakim jest automatyczne rozumienie w³aœnie obrazów (a nie na przyk³ad wiadomoœci tekstowych). Schemat ten przedstawiamy na rysunku 17. Warto zwróciæ uwagê na kilka elementów tego schematu, które chcemy tu skomentowaæ. Po pierwsze w stosunku do rysunku 16 pojawi³o siê tu nieco wiêcej konkretów w zakresie zarówno kana³u wejœciowego (pochodz¹cego od obrazu pozyskanego za pomoc¹ kamery), jak i wewnêtrznego ³¹cza informacyjnego, przenosz¹cego oczekiwania generowane przez zdeponowany w systemie zasób wiedzy. Jak widaæ, wejœciowy obraz powinien byæ w sposób specjalny reprezentowany w systemie, który ma go zrozumieæ, a nie tylko mechanicznie przetworzyæ albo rutynowo przeanalizowaæ (z ewentualnym przejœciem do automatycznego rozpoznawania, które jednak jest czymœ innym, ni automatyczne rozumienie). Obraz podlegaj¹cy komputerowej obróbce, której celem ma byæ zrozumienie jego zawartoœci, musi byæ w systemie prezentowany z wykorzystaniem metod lingwistycznych, czyli musi byæ przedstawiony jako ³añcuch symboli terminalnych pewnej gramatyki.

382 Ryszard Tadeusiewicz, Marek R. Ogiela Rys. 17. Sposób postêpowania z obrazami zmierzaj¹cy do automatycznego rozumienia ich zawartoœci Warto skupiæ siê na chwilê nad pytaniem, dlaczego do opisu obrazów przeznaczonych do analizy, której celem jest automatyczne rozumienie u ywane s¹ narzêdzia lingwistyczne. Otó powód jest zwi¹zany z sam¹ natur¹ procesu rozumienia, któr¹ warto w tym miejscu odró niæ od natury procesu rozpoznawania, z którym automatyczne rozumienie jest dosyæ czêsto mylone. Patrz¹c na rysunek 18, widzimy ogólnie znan¹ sekwencjê istot ywych. Gdy naszym zadaniem jest rozpoznawanie, wówczas najpierw ustalamy listê mo liwych klas, do których mo na zaliczyæ analizowane obiekty. Lista taka zawsze ma skoñczon¹, z góry okreœlon¹ liczbê pozycji (wliczaj¹c w to zazwyczaj pozycjê nie wiadomo, oznaczon¹ na rysunku znakiem zapytania), zaœ zadaniem algorytmu analizuj¹cego obraz jest stwierdzenie, do której z tych wczeœniej przewidzianych klas nale y zaliczyæ ten czy inny konkretny obiekt. Natomiast rozumienie obrazu (osi¹gane przez inteligentnego cz³owieka, studiuj¹cego obraz, lub uzyskiwane automatycznie, do czego zmierzaj¹ badania referowane w tej pracy) oznacza wydobycie z obrazu tych wszystkich znaczeñ, które s¹ w nim implicite zawarte, ale nie s¹ explicite widoczne (patrz rys. 18 w jego górnej czêœci). Warto zauwa yæ, e w odró - nieniu od rozpoznawania, dla którego zbiór odpowiedzi systemu jest z góry zdeterminowany, w przypadku rozumienia sposób interpretacji obrazu jest nieprzewidywalny i z tego powodu zbiór mo liwych opisów obrazu jest potencjalnie nieskoñczony. Jest to powa na trudnoœæ, gdy tê potencjalnie nieskoñczon¹ ró norodnoœæ musi wytworzyæ narzêdzie o bezspornie skoñczonych mo liwoœciach komputer (rys. 19).

Nowy element w instrumentarium inteligencji obliczeniowej... 383 Rys. 18. Ró nica miêdzy rozpoznawaniem i rozumieniem obrazu Rys. 19. Jêzyk jako narzêdzie umo liwiaj¹ce wytworzenie potencjalnie nieskoñczonej liczby zapisów przez urz¹dzenie o skoñczonej liczbie mo liwo ci (komputer) Otó jêzyk jest w³a nie takim narzêdziem, które pozwala na generowanie nieskoñczenie ró norodnych kombinacji, bazuj¹cych na skoñczonej liczbie elementów. Na przyk³ad jêzyk polski sk³ada siê ze skoñczonej liczby s³ów i oparty jest na gramatyce maj¹cej skoñczon¹ liczbê regu³ a jednak mo na w nim napisaæ nieskoñczon¹ liczbê artyku³ów, powie ci, poematów, pism urzêdowych itp. Równie jêzyki sztuczne (na przyk³ad C++) cechuj¹ siê tym, e maj¹c skoñczon¹ liczbê sk³adników oraz regu³ (³atw¹ do opanowania przez

384 Ryszard Tadeusiewicz, Marek R. Ogiela komputerowy kompilator) mog¹ s³u yæ do wytworzenia nieograniczonej liczby programów, potencjalnie nieskoñczonej, po napisaniu dowolnej liczby programów zawsze mo liwe jest napisanie jeszcze jednego, kolejnego. 6. Podsumowanie Ograniczone rozmiary tej pracy nie pozwalaj¹ na wnikniêcie we wszystkie szczegó³y sygnalizowanej tu koncepcji automatycznego rozumienia obrazów. Gramatyki s³u ¹ce do opisu obrazów podlegaj¹cych potem automatycznemu rozumieniu opisane zosta³y miêdzy innymi w pracach [15, 16], a nastêpnie by³o to obszernie przedyskutowane w ksi¹ ce [17]. Pojêcie rezonansu kognitywnego zosta³o wprowadzone w pracy [18], a obszernie przedyskutowane by³o w ksi¹ ce [19]. Zainteresowanego czytelnika odsy³amy do tych w³aœnie pozycji literatury, albo zachêcamy do poszukiwania najnowszych prac z tego zakresu poprzez wpisanie w Google has³a Automatic understanding of the images. Mimo wielu prac, o których wspomnieliœmy w treœci artyku³u, technika automatycznego rozumienia obrazów znajduje siê na bardzo wstêpnym etapie swego rozwoju. Poza opisanymi dok³adniej w cytowanej literaturze (patrz tak e prace [20, 21]) zastosowaniami w medycynie, które maj¹ jednak swoj¹ specyfikê metodologia automatycznego rozumienia obrazów w praktyce jeszcze nie istnieje. Opisane w tej pracy ogólne zasady mog¹ stanowiæ punkt wyjœcia do opracowania takiej metodyki, a tak e mog¹ stanowiæ zachêtê do podejmowania dalszych prac na ten temat. Literatura [1] Kaptelinin V., Czerwinski M. (eds.), Beyond the desktop metaphor. Cambridge MA, The MIT Press 2007. [2] Sieckenius de Suza C., The semiotic engineering of human-computer interactions. Cambridge MA, The MIT Press 2005. [3] Stiny G., Shape. Cambridge MA, The MIT Press 2008. [4] Antoniou G., van Harmelen F., A semantic web primer. Cambridge MA, The MIT Press 2008. [5] Tadeusiewicz R., Nowoczesne metody kognitywnej analizy danych ekonomicznych i dokumentów tekstowych oraz ich zastosowanie w zarz¹dzaniu przedsiêbiorstwem. Rozdzia³ w pracy zbiorowej: Waszkielewicz W.: Zarz¹dzanie organizacjami w gospodarce rynkowej, Kraków, UWND 2007, 239 260. [6] Smith J.R., Shih-Fu Chang, VisualSEEk: a fully automated content-based image query system. 1996, Dostêpny http://www.ee.columbia.edu/ln/dvmm/researchprojects/ MultimediaIndexing/VisualSEEk/acmmm96/acmfin.html. [7] Usage of Wisvi 2007, http://www.wiz.cs.waseda.ac.jp/~rim/usage-e.html. [8] Homenda W., Automatic understanding of images: integrated syntactic and semantic analysis of music notation. Proceedings of International Joint Conference on Neural Networks, Vancouver, 2006, 3026 3033. [9] Leœ Z., Tadeusiewicz R., Shape Understanding System, Polygon Class Processing Methods. In Hamza M.H. (ed.): Signal Processing and Communications, Anaheim, Calgary, Zurich, IASTED/ACTA Press 2000, 447 454.