ROZPOZNAWANIE ZNAKÓW POLSKIEGO ALFABETU PALCOWEGO
|
|
- Małgorzata Urbaniak
- 9 lat temu
- Przeglądów:
Transkrypt
1 ROZPOZNAWANIE ZNAKÓW POLSKIEGO ALFABETU PALCOWEGO Joanna Marnik Politechnika Rzeszowska, Katedra Informatyki i Automatyki Wprowadzenie Interakcja człowiek komputer staje się elementem naszej codzienności nabierającym coraz większego znaczenia. Można oczekiwać, że komunikacja ludzi z przyszłymi komputerami będzie się odbywać w naturalny sposób. W ostatnich latach ważnym wyzwaniem dla twórców systemów komputerowych stała się budowa systemów rozpoznawania gestów. Ludzie posługują się gestami na co dzień w celu przekazywania między sobą informacji. Gesty wykonywane przez człowieka dotyczą jego wyrazu twarzy, pozycji i, ewentualnie, ruchu całego ciała lub jego części, w szczególności rąk. W oparciu o gesty wykonywane rękami powstały języki migowe, którymi posługują się osoby głuchonieme. W językach tych danemu wyrażeniu, słowu czy znakowi (literze, liczbie) odpowiada jednoznacznie określony gest. Stworzenie systemu wizyjnego tłumaczącego gesty języka migowego na język mówiony lub pisany umożliwiłoby porozumiewanie się osób niesłyszących z ludźmi nie związanymi ze środowiskiem osób z tego typu niesprawnością, w szczególności z urzędnikami, pracownikami banków i innych instytucji. Polski Język Migany (PJM) i Polski Alfabet Palcowy (PAP) Osoby niesłyszące do porozumiewania się ze słyszącymi wykorzystują pewien charakterystyczny dla swojego kraju zestaw umownych znaków przekazywanych za pomocą rąk. W Polsce znaki te stanowią część kinestetyczną systemu językowo-migowego zwanego Polskim Językiem Miganym (PJM). Polski Język Migany [4] oparty jest na gramatyce języka polskiego. Stosowany jest w sytuacjach formalnych, np. przy tłumaczeniu programów telewizyjnych, referatów na sympozjach, wypowiedzi na naradach i konferencjach, a także podczas rozmów osób niesłyszących ze słyszącymi, którzy posługują się tylko Polskim Językiem Miganym. Znaki migowe PJM dzielą się na znaki ideograficzne i znaki daktylograficzne. Znaki ideograficzne są to znaki pojęciowe, oznaczające określone słowo lub zwrot. Podczas 51
2 przekazywania tych znaków ręka ustawiona jest w określonym miejscu względem ciała. Znaki określające litery alfabetu, liczby, działania arytmetyczne, skróty miar metrycznych i inne skrótowce to znaki daktylograficzne. Znaki migowe przyporządkowane literom alfabetu polskiego oraz głoskom Ch, Cz, Rz i Sz składają się na tzw. Polski Alfabet Palcowy (PAP). Znaki te wykorzystywane są w Polskim Języku Miganym do: przekazywania imion, nazw, skrótowców oraz literowania wyrazów, dla których nie ma znaku ideograficznego, przekazywania formantów w wyrazach pochodnych i końcówek fleksyjnych. W pierwszym przypadku ręka prezentująca znaki powinna znajdować się w odległości około 20 cm od twarzy, z prawej strony ust, natomiast w drugim na wysokości klatki piersiowej. Kompletny zestaw znaków Polskiego Alfabetu Palcowego przedstawiono na rys. 1. Rys. 1. Zestaw znaków Polskiego Alfabetu Palcowego Znaki PAP scharakteryzowane są przez układ dłoni i trajektorię ruchu dłoni przekazującej dany znak (na rys. 1 trajektorię oznaczono za pomocą strzałki określającej kształt i zakres ruchu). Znaki nieposiadające trajektorii to znaki statyczne, pozostałe to znaki dynamiczne. 52
3 Niektóre znaki dynamiczne są ruchomą wersją swoich odpowiedników statycznych, np. Ń jest ruchomą wersją znaku N. Cel pracy Celem pracy było opracowanie i praktyczna weryfikacja metody rozpoznawania znaków Polskiego Alfabetu Palcowego, wchodzącego w skład Polskiego Języka Miganego, na podstawie obrazów z kamery kolorowej. Przyjęto nie wykorzystywać rękawic ułatwiających wyodrębnienie poszczególnych części dłoni, zakładając jednak, że gesty są wykonywane starannie. Intencją pracy było całościowe przedstawienie problematyki z uwzględnieniem oryginalnych rozwiązań. Zastosowane metody wiążą się zasadniczo z przetwarzaniem i rozpoznawaniem obrazów cyfrowych, z akcentem na morfologię matematyczną i wykorzystanie sieci neuronowych. Problemy związane z rozpoznawaniem znaków PAP Dla rozpoznania danego znaku PAP konieczne jest określenie kształtu dłoni oraz stwierdzenie, czy przekazywany znak jest znakiem statycznym czy też dynamicznym. W przypadku znaków dynamicznych trzeba zazwyczaj określić także kształt trajektorii zakreślanej przez dłoń przekazującą znak. Zadanie rozpoznawania znaków PAP wymaga więc rozwiązania następujących problemów: wykrycia dłoni na obrazie kolorowym zawierającym dłoń prezentującą znak PAP, rozpoznania kształtu dłoni, rozpoznania kształtu trajektorii ruchu dłoni. Poniżej omówiono krótko sposoby rozwiązania powyższych problemów. Szczegóły można znaleźć w pracy [6]. Wykrywanie dłoni Przebadano trzy metody wykrywania dłoni: metodę znaną z literatury, opartą na modelu barwy skóry ludzkiej (oznaczaną w pracy symbolem MBS) oraz dwie inne metody, opracowane w ramach pracy (MKR i MSN). Metoda MBS polega na wydzieleniu z obrazu kolorowego pikseli odpowiadających dłoni w oparciu o model barwy skóry ludzkiej. Do stworzenia takiego modelu można wykorzystać jedną z wielu znanych przestrzeni barw [1, 5, 9]. W pracy przetestowano i porównano skuteczność metody MBS dla przestrzeni barw IHS, znormalizowanej przestrzeni RGB i przestrzeni YIQ, stosowanych najczęściej w literaturze. Testy wykazały, że najlepsze efekty daje użycie przestrzeni IHS, dla której otrzymano najmniejsze błędy w obszarze dłoni, bez względu na rodzaj oświetlenia. 53
4 W metodzie MBS model rozkładu koloru skóry ludzkiej generowany jest na podstawie wzorcowego obrazu, na którym ręcznie zaznaczano prostokątny obszar zawierający skórę (rys. 2 a). Utworzony model służy do przekształcenia obrazu, z którego należy wydzielić dłoń (rys. 2 b), do obrazu prawdopodobieństwa, na którym jasność piksela określa stopień jego przynależności do skóry (rys. 2 c). Obraz prawdopodobieństwa poddawany jest filtracji dolnoprzepustowej za pomocą maski Gaussa o wymiarach 3 3 i progowaniu z wykorzystaniem metody opartej na aproksymacji histogramu za pomocą dwóch krzywych Gaussa [10]. W efekcie otrzymywany jest obraz binarny (rys. 2 d), na którym biały obszar określa miejsce występowania pikseli należących do dłoni. a) b) c) d) Rys. 2. Proces rozpoznawania skóry: a) fragment obrazu wykorzystywany do obliczenia modelu; b) analizowany obraz wejściowy; c) obraz prawdopodobieństwa; d) obraz c) po binaryzacji Obrazy binarne otrzymywane metodą MBS często zawierały dłoń, w której występowały spore ubytki, ujawniające się zazwyczaj jako wybrakowane końcówki palców. Dlatego opracowano metodę MKR. Metoda ta ma na celu poprawę klasyfikacji uzyskiwanej metodą MBS, dzięki wykorzystaniu informacji o krawędziach. Obraz wynikowy metody MKR (ObrazMKR) powstaje w oparciu o następujące obrazy: 1. obraz obszarów odpowiadających dłoni (ObszarDłoni), 2. obraz powiększonej dłoni z obrazu wynikowego metody MBS (DłońPowiększona), 3. obraz wynikowy metody MBS (ObrazMBS), poprzez wyznaczenie iloczynu logicznego obrazów DłońPowiększona i ObszarDłoni, a następnie sumy logicznej powstałego obrazu i obrazu ObrazMBS. Obraz ObszarDłoni powstaje poprzez wypełnienie obszaru wyznaczonego przez krawędzie dłoni obecnej w analizowanym obrazie szarym, przy zastosowaniu algorytmu wypełniania obszarów na podstawie fragmentów brzegu [6, 10]. Do wyznaczenia obrazu krawędzi stosowano operator Sobela. Obraz DłońPowiększona tworzony był poprzez 15-krotne wykonanie morfologicznej operacji dylatacji [6, 8, 12] na obrazie ObrazMBS, z użyciem elementu strukturalnego o wymiarach 3 3. Przykładowy obraz otrzymany metodą MKR i obrazy pośrednie, z których powstał, pokazano na rys. 3. Zamierzone skutki działania metody można osiągnąć jedynie wtedy, gdy spełnione są warunki jednorodności tła i równomierności oświetlenia oraz wyraźnej różnicy poziomów szarości dłoni i tła. 54
5 a) b) c) d) e) f) g) Rys. 3. Ilustracja działania metody MKR: a) obraz dłoni; b) obraz krawędzi; c) obraz krawędzi po progowaniu; d) obraz binarny otrzymany metodą MBS; e) obraz d) po dylatacji; f) obraz dłoni powstały przez wypełnienie obszaru dłoni w oparciu o obraz krawędzi; g) obraz otrzymany metodą MKR Uzyskiwanie obrazów binarnych dłoni metodą MBS o jakości nie w pełni zadowalającej pod względem możliwości rozpoznawania kształtu dłoni oraz ograniczenia, jakie ma metoda MKR doprowadziły do powstania metody MSN. W metodzie tej do wydzielania dłoni wykorzystano trójwarstwową, jednokierunkową sieć neuronową o wejściach odpowiadających składowym R, G i B barwy analizowanego piksela obrazu i wyjściu wskazującym, czy piksel ten należy do dłoni czy do tła. Warstwa ukryta tej sieci składała się z 16 neuronów z logistyczną funkcją aktywacji. Struktura sieci zaprojektowana została z użyciem narzędzia Intelligent Problem Solver (IPS) pakietu STATISTICA Neural Networks (SNN) [11]. Sieć o strukturze ustalonej w wyniku działania procedury IPS dopasowywana była do warunków, w jakich pozyskiwano obrazy dłoni z wykorzystaniem 55
6 algorytmu Levenberga-Marquardta. Przykładowe obrazy binarne dłoni uzyskane metodą MSN przedstawiono na rys. 4. Obraz oryginalny Obraz wynikowy Rys. 4. Przykładowe obrazy otrzymane metodą MSN Testy porównawcze metod MBS, MKR i MSN wykazały, że najlepsze rezultaty daje metoda MSN, dla której uzyskiwano najmniejsze wartości błędów w obszarze tła, przy jednoczesnym dobrym odwzorowywaniu dłoni. Otrzymywanie niewielkich błędów w tle wynika z uwzględnienia w procesie uczenia sieci elementów tła obrazów testowych. Zbliżone do metody MSN efekty otrzymano dla metody MKR, jednakże metoda ta, jak wspomniano wcześniej, nie może być stosowana w każdych warunkach. Wyniki testów otrzymane dla 192 obrazów dłoni o rozdzielczości , pozyskanych w różnych warunkach oświetlenia, przedstawiono na rys. 5. Procent błędnie rozpoznanych pikseli 2,8 2,6 2,4 2,2 2,0 1,8 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 SE NSE E MBS MKR MSN Rys. 5. Porównanie metod wydzielania dłoni (SE (Skin Error) procent pikseli obrazu należących do skóry zakwalifikowanych do tła; NSE (Non Skin Error) procent pikseli obrazu należących do tła sklasyfikowanych jako piksele skóry; E = SE + NSE) 56
7 Rozpoznawanie kształtu dłoni W celu rozwiązania zadania rozpoznawania kształtu dłoni opracowano metodę opartą na morfologicznym przekształceniu trafi nie trafi, służącym do wykrywania cech geometrycznych obiektów binarnych [6, 7]. Zasada działania tej transformacji jest następująca [6, 8, 12]. Element strukturalny stanowiący podstawę operacji składa się z dwóch rozłącznych elementów B1 i B2 i ma wyróżniony punkt odniesienia Ω. Punkt ten jest przesuwany przez wszystkie piksele obrazu. W wyniku transformacji wartość 1 otrzymują piksele, dla których po umieszczeniu w nich punktu Ω, element B1 w całości znajduje się w obiekcie, element zaś B2 w tle. Pozostałym pikselom zostaje przypisana wartość 0. a) b) c) d) e) f) g) h) i) j) Rys. 6. Elementy strukturalne wykorzystywane przy analizie układu dłoni służące do wykrywania: a) pojedynczego palca; b) dwóch złączonych palców; c) czterech złączonych palców; d) dłoni z zaciśniętymi palcami; e) kształtu charakterystycznego dla znaków E i P; f) złączonych końcówek kciuka i palca wskazującego (układ palców dla znaków O i G); g) kciuka skrzyżowanego z palcem wskazującym (układ palców dla znaków F i T); h) palca wskazującego złączonego z kciukiem w jego środkowej części (układ palców dla znaku S); i) skrzyżowanych palców środkowego i wskazującego (układ palców dla znaku R); j) układu dłoni dla znaku Sz Dla analizy kształtu dłoni podstawowe znaczenie ma utworzenie bazy elementów strukturalnych. Elementy te przedstawiono na rys. 6. Każdy nich jest przeznaczony do detekcji innego fragmentu dłoni. Kolorem białym zaznaczone są części B1 elementów strukturalnych, które powinny zawierać się w obiekcie (trafi), kolorem czarnym części B2, które powinny znajdować się w tle (nie trafi), natomiast kolorem szarym obszary, w których wartość pikseli analizowanego obrazu nie ma wpływu na wynik transformacji. Transformacja trafi nie trafi z zadanym elementem strukturalnym wykrywa elementy obrazu o postaci zakodowanej w tym elemencie. Stąd np. wykrycie dwóch palców ułożonych poziomo przy użyciu elementu strukturalnego z rys. 6 b nie będzie możliwe, jeśli nie zostanie dokonany jego obrót o kąt 90. Dla rozróżnienia symboli Polskiego Alfabetu Palcowego do bazy elementów strukturalnych dołączono więc wszystkie wymienione elementy strukturalne obrócone o odpowiednie kąty. Zakresy obrotu i krok, z jakim zmieniano kąt obrotu, zostały podane w pracy [6]. 57
8 Kontury wykrywanych fragmentów dłoni mogą się zmieniać w zakresie określonym przez obszar znajdujący się pomiędzy częściami B1 i B2 elementów strukturalnych. Zdefiniowanie takiego obszaru neutralnego jest konieczne ze względu na różnice w proporcjach pomiędzy poszczególnymi fragmentami dłoni u różnych osób, wahania odległości od kamery oraz błędy segmentacji. Przykład wykrycia pojedynczego palca skierowanego do góry i dwóch złączonych palców skierowanych w bok podczas prezentacji znaku N pokazano na rys Rys. 7. Obiekty wynikowe transformacji trafi nie trafi powstałe przy użyciu: 1 elementu strukturalnego z rys. 6 a; 2 elementu strukturalnego z rys. 6 b obróconego o kąt 90º Poza kształtem zakodowanym w elemencie strukturalnym ważny jest także jego rozmiar. Dlatego konieczne jest dopasowanie wielkości obiektu znajdującego się na obrazie i kształtów opisanych za pomocą elementów strukturalnych. Przyjęto, że skalowaniu poddawany będzie obraz dłoni. Wartość skali ustalana jest na podstawie informacji o długości średnicy maksymalnego koła zawartego całkowicie w obiekcie reprezentującym dłoń z wyprostowanymi wszystkimi palcami i wewnętrzną częścią zwróconą w kierunku kamery. Obraz tak ułożonej dłoni prezentowany jest przed przystąpieniem do prezentacji znaków PAP. Szczegóły rozwiązania przedstawiono w pracy [6]. Kolejnym krokiem w procesie rozpoznawania kształtu dłoni jest formowanie wektora cech. W wektorze cech są zapisywane informacje o fragmentach dłoni wykrytych metodą trafi-nie trafi. Analizie podlegają wszystkie obiekty powstałe w wyniku transformacji. Dla każdego takiego obiektu są wyznaczane następujące parametry: (i) powierzchnia, (ii) kąt nachylenia półprostej mającej początek w środku ciężkości dłoni i przechodzącej przez środek ciężkości analizowanego obiektu do poziomu, (iii) odległość środka ciężkości analizowanego obiektu od środka ciężkości dłoni. Powyższe parametry wraz z kodem liczbowym elementu strukturalnego, z użyciem którego powstał obiekt im odpowiadający, stanowią czwórkę liczb opisujących pewien fragment dłoni. Wektor cech składa się z pięciu takich czwórek zapisanych w kolejności malejących kodów. Kod liczbowy przyporządkowany określonemu elementowi strukturalnemu odzwierciedla wagę kształtu reprezentowanego przez ten element w zestawie znaków PAP. Przykładowy wektor cech oraz sposób jego wyznaczania dla znaku N z rys. 7 przedstawiono na rys. 8. W wektorze tym zapełnione są tylko dwie czwórki określające kształt. Pierwsza z nich opisuje obiekt powstały w wyniku wykrycia dwóch złączonych palców skierowanych w bok. Kod elementu strukturalnego charakteryzującego taki kształt wynosi 5. Obiekt reprezentowany jest przez 19 pikseli. Odcinek łączący środki ciężkości tego obiektu i dłoni jest nachylony 58
9 do poziomu pod kątem 15, a jego długość wynosi 45 jednostek. Obiekt opisujący pojedynczy palec skierowany w górę został wykryty przez element strukturalny o kodzie 1. Kolejne trzy liczby związane z tym kodem należy interpretować jak poprzednio. Trzy pozostałe czwórki są wypełnione wartościami 1, co oznacza, że nie opisują żadnego obiektu wynikowego transformacji trafi nie trafi. Wektor cech: ( ) Rys. 8. Wektor cech dla symbolu znaku N z rys. 7 Jak widać z rys. 1, niektóre litery PAP mają identyczny układ dłoni, różniąc się jedynie występowaniem i kształtem ruchu. Tak więc rozpoznawano 20 następujących klas kształtu dłoni (obok przyjętej nazwy klasy w razie potrzeby podano w nawiasie odpowiadające jej litery): A(A, Ą), B, C(C, Ć), ChCz(CH, CZ), DZ(D, Z, Ż, Ź), EP(E, Ę, P), FT(F, T), GO(G, O, Ó), H, I(I, J), K, L, M, N(N, Ń), R(R, RZ), S(S, Ś), SZ, U, W, Y. Struktura sieci neuronowej służącej do rozpoznawania kształtu dłoni została zaprojektowana z użyciem narzędzia Intelligent Problem Solver (IPS) pakietu STATISTICA Neural Networks (SNN) [11]. Testowano na wstępie sieci perceptronowe z jedną i dwiema warstwami ukrytymi. Przy wyborze parametrów działania procedury IPS zaznaczono opcję uruchamiającą narzędzie automatycznego wyboru zmiennych wejściowych. Wejście sieci stanowiły wektory cech utworzone w oparciu o wyniki transformacji trafi nie trafi wygenerowane dla wybranych obrazów pochodzących z 8 filmów, na których prezentowany był kompletny zestaw znaków Polskiego Alfabetu Palcowego. Liczba elementów każdej klasy w zbiorze uczącym wynosiła około 300. Część wektorów cech zbioru uczącego została przeznaczona do weryfikacji poprawności uczenia sieci (w SNN, tzw. cross verification). Dzięki weryfikacji możliwe jest stwierdzenie, czy nie dochodzi do tzw. przeuczenia sieci, co wiąże się z utratą zdolności sieci do uogólniania zdobytej wiedzy. Rozmiar zbioru uczącego wynosił 5361 elementów, natomiast zbioru walidacyjnego 500 elementów. Dodatkowo wyodrębniono 500-elementowy zbiór testowy, dzięki któremu można upewnić się, czy otrzymana sieć działa poprawnie. Wyjście sieci stanowiło 20 neuronów, co odpowiada liczbie klas, które należy rozróżniać. Na podstawie szczegółowej analizy wrażliwości, którą umożliwia opcja Sensitivity Analysis pakietu SNN pominięto elementy wektora wejściowego, których wpływ na skuteczność rozpoznawania okazał się niewielki. Ostatecznie przyjęto do dalszych badań jedenastoelementowy wektor 59
10 cech. Dla uproszczonego wektora cech zaprojektowano jednokierunkową sieć perceptronową o 11 neuronach wejściowych, 25 neuronach w warstwie ukrytej i 20 neuronach wyjściowych. Neurony warstw ukrytej i wyjściowej miały logistyczną funkcję aktywacji. Sieć była uczona metodą wstecznej propagacji błędów ze zmiennym współczynnikiem uczenia przez 50 epok, a następnie metodą gradientów sprzężonych przez 52 epoki. Projektując sieć, wykorzystano zbiory scharakteryzowane poprzednio. Skuteczność rozpoznawania przebadano następnie dla bazy danych liczącej łącznie obrazów z 8 filmów, o których była mowa wyżej. Wśród tych danych było też wspomniane obrazów z etapu konstruowania sieci. Wyniki uzyskane dla obrazów otrzymanych metodami MBS, MKR i MSN przestawiono na rys. 9. Procent poprawnie rozpoznanych kształtów dłoni A B C ChCzDZ EP FT GO H I K L M N R S Sz U W Y A-Z MBS MKR MSN Rys. 9. Wyniki rozpoznawania układu dłoni Ze względu na duże podobieństwo obrazów binarnych odpowiadających układom dłoni dla znaków A, E i P Polskiego Alfabetu Palcowego konieczne było zastosowanie dodatkowej metody, służącej do rozróżniania obiektów o podobnym kształcie w oparciu o obraz krawędzi dłoni. Metoda ta polega na utworzeniu histogramu orientacji [2] dla danego znaku. Histogram orientacji klasyfikowano z użyciem perceptronowej sieci neuronowej o 36 neuronach wejściowych, 12 neuronach z logistyczną funkcją aktywacji w warstwie ukrytej i 3 neuronach z logistyczną funkcją aktywacji w warstwie wyjściowej. Neurony warstwy wyjściowej odpowiadały trzem klasom rozróżnianych z użyciem tej sieci kształtów dłoni (A, E, P). Sieć została zaprojektowana z użyciem narzędzia Intelligent Problem Solver pakietu STATISTICA Neural Networks. Histogramy orientacji stanowiące zbiór uczący otrzymano na bazie 8311 obrazów znaków A, E i P, przygotowanych specjalnie dla celów uczenia sieci. Do uczenia zastosowano metodę wstecznej propagacji błędów (50 epok), a następnie metodę gradientów sprzężonych (52 epoki). Wyniki rozpoznawania znaków A, E i P pochodzących z filmów, dla których otrzymano wyniki dla metody rozpoznawania kształtu dłoni wykorzystującej transformację trafi nie trafi, przedstawione na rys. 9, zestawiono w tab
11 Tabela 1. Wyniki rozpoznawania znaków A, E i P z wykorzystaniem histogramów orientacji A E P Liczba obrazów Błędnie sklasyfikowane Błąd w procentach 1,97 3,91 1,32 Zaproponowana w pracy metoda rozpoznawania kształtu dłoni, wykorzystująca transformację trafi nie trafi, histogramy orientacji i sieci neuronowe stanowi oryginalne rozwiązanie, nie stosowane dotychczas w systemach rozpoznawania gestów. Wyniki jej zastosowania do obrazów z 8 wspomnianych wcześniej filmów przedstawiono w tab. 2. Tab. 2. Wyniki rozpoznawania kształtu dłoni znaków PAP Osoby wykonujące gesty Metoda wydzielania dłoni MBS MKR MSN Autorka pracy 75,1 87,5 87,6 Osoby związane ze środowiskiem niesłyszących 80,1 68,7 77,7 Proces opracowywania metody oparty był na gestach wykonywanych przez autorkę pracy. Wyniki zamieszczone w tabeli dotyczą gestów niewykorzystywanych w tym procesie. Niska skuteczność otrzymana dla metody MKR, w przypadku gestów wykonywanych przez osoby związane ze środowiskiem niesłyszących, jest wynikiem niespełnienia założenia tej metody, dotyczącego równomierności oświetlenia dłoni, przy nagrywaniu filmów objętych analizą. Największe błędy rozpoznania otrzymywano dla układów dłoni charakterystycznych dla znaków H, C, Ch. Są one wynikiem przestrzennego charakteru tych znaków. Pewność rozpoznania tych znaków może zostać zwiększona przy zastosowaniu metod opartych na obrazach otrzymanych z dwóch kamer. Problemy występowały także dla kształtu dłoni otrzymanego metodą MSN, odpowiadającego znakowi R, który był mylony ze znakami D i Z. Problemy te są wynikiem dużego podobieństwa tych znaków w Polskim Alfabecie Palcowym. Metoda opisu kształtu dłoni oparta na transformacji trafi nie trafi posiada jednak szereg zalet. Oto one: niewrażliwość na niewielkie zakłócenia w tle i drobne niedoskonałości w odzwierciedleniu dłoni w postaci obrazu binarnego, brak konieczności odcinania fragmentów obrazu innych niż dłoń, możliwość zaadoptowania metody do gestów innych niż stanowiące przedmiot prezentowanej pracy. Wady metody są następujące: konieczność ręcznego doboru elementów strukturalnych, występowanie trudności dla znaków posiadających przestrzenny charakter. 61
12 Rozpoznawanie gestów dynamicznych Trajektoria zakreślana przez dłoń podczas przekazywania dynamicznych symboli PAP może przybrać jeden następujących kształtów: linia pozioma skierowana w prawo (znak Sz), linia pozioma skierowana w lewo (znaki K i Ł), linia pionowa skierowana w dół (znaki Ć, Ch, H, Ń, Ó i Ś), wycinek okręgu zakreślany w kierunku zgodnym z ruchem wskazówek zegara (znaki Ą, Ę i D), trajektoria dla znaków F i J, łamana o kształcie litery Z (znaki Z i Rz), trajektoria znaku Ż, trajektoria znaku Ź, trajektorie dla znaków Cz i G. Do wyznaczania trajektorii wykorzystano metodę przepływu optycznego [3]. Z jej użyciem, na bazie kolejnych trzech obrazów z sekwencji reprezentującej ruch, wyznaczane są obszary, w których wystąpił ruch (tzw. pole energii ruchu). Obszary takie można przedstawić w postaci obrazu, na którym białe piksele odpowiadają miejscom, w którym prędkość ruchu przekroczyła ustalony próg (rys. 10 c). Rys. 10. Wyznaczanie trajektorii ruchu dłoni: a) znak Z; b) obraz pola energii ruchu; c) pole energii ruchu po binaryzacji; d) otrzymana trajektoria Na podstawie ciągu obrazów pola energii ruchu generowana jest trajektoria zakreślona przez dłoń. Kolejne punkty trajektorii odpowiadają najwyżej położonym pikselom pola energii ruchu. Przykładową trajektorię otrzymaną dla znaku Z pokazano na rys. 10 d. Trajektoria opisywana jest za pomocą ciągu liczb, z których każda określa kierunek zmiany położenia dłoni w kolejnych chwilach czasu, kodowany z użyciem liczb, w sposób pokazany na rys. 11. Zakodowana trajektoria z rys. 10 d ma postać: [ ] 62
13 Rys. 11. Sposób kodowania kierunków Po zakodowaniu trajektoria poddawana jest filtracji mającej na celu usunięcie zakłóceń pojawiających się zazwyczaj wtedy, gdy dłoń zmienia gwałtownie kierunek ruchu lub porusza się zbyt wolno. Zakłócenia takie mają zazwyczaj postać punktów położonych daleko od trajektorii. W większości przypadków punkt taki reprezentowany jest przez dwa kolejne elementy odpowiadające przeciwnym kierunkom. Filtracja polega na usunięciu takich punktów. Trajektoria z rys. 10 d po filtracji przybiera postać: [ ] Trajektorie klasyfikowano z użyciem sieci neuronowej. W tym celu poddawano je przeskalowaniu z użyciem interpolacji metodą najbliższego sąsiada (zgodnie z algorytmem użytym w funkcji imresize pakietu MATLAB 4.2c) do długości 20 elementów. Przykładowa trajektoria z rys. 10 d po przeskalowaniu przyjmuje postać: [ ] Tak otrzymany ciąg stanowi wektor cech podawany na wejście perceptronowej sieci neuronowej zaprojektowanej z użyciem narzędzia IPS pakietu SNN. Sieć ta posiada 20 wejść, 16 neuronów o logistycznej funkcji aktywacji w warstwie ukrytej i 8 neuronów z logistyczną funkcją aktywacji w warstwie ukrytej. Liczba wyjść sieci odpowiada 8 pierwszym klasom kształtów trajektorii wymienionym wyżej. Ze względu na różnorodność kształtów trajektorii otrzymywanych dla znaków Cz i G, wynikającą z ich przestrzennego charakteru, trajektorii tych nie uwzględniano przy klasyfikacji. Jest to dopuszczalne, ponieważ stwierdzenie, że dłoń poruszała się podczas przekazywania znaku i zakreślona trajektoria ma kształt różny od linii skierowanej w dół, jednoznacznie wskazuje, że przekazywany znak to G lub Cz. Do uczenia sieci wykorzystano 2004 wektory cech odpowiadające trajektoriom otrzymanym dla dynamicznych znaków PAP, przygotowanych specjalnie dla celów uczenia sieci. Ze zbioru tego wydzielono 200- elementowy zbiór walidacyjny. Sieć uczona była najpierw metodą wstecznej propagacji błędów (50 epok), a następnie metodą gradientów sprzężonych (393 epoki). Skuteczność metody przebadano dla trajektorii znaków dynamicznych pochodzących z 8 zestawów znaków PAP, o których była mowa wyżej, spośród których 6 zestawów prezentowanych było przez autorkę pracy (grupa 1), a 2 zestawy przez osoby związane ze środowiskiem niesłyszących (grupa 2). Poprawnie sklasyfikowanych zostało 97,2% trajektorii z grupy 1 i 92,2% trajektorii z grupy 2. 63
14 Zalety zaproponowanej metody rozpoznawania kształtów trajektorii są następujące: niewrażliwość na umiejscowienie trajektorii w obrazie, niewrażliwość na wielkość ruchu, możliwość adaptacji metody dla innych zadań, w których konieczna jest znajomość kształtu trajektorii, niezależność od częstotliwości pobierania kolejnych obrazów z kamery. Informacja podana w ostatnim punkcie nie może być stosowana bezkrytycznie. Zakłada się bowiem, że czas trwania ruchu dla danego gestu obejmował będzie co najmniej 5 klatek. Metoda posiada następujące wady, które mogą mieć znaczenie w pewnych zastosowaniach: ze względu na przeskalowanie trajektorii do określonego rozmiaru dla potrzeb sieci neuronowej następuje utrata informacji o czasie trwania gestu, w opisie trajektorii nie jest uwzględniana szybkość ruchu. Wymienione wyżej wady wymagają wprowadzenia drobnych modyfikacji do zaproponowanej metody w zastosowaniach, w których istotna jest informacja o czasie trwania ruchu i szybkości poruszania się dłoni. Osiągnięte rezultaty Z użyciem zaproponowanych metod rozpoznawano znaki Polskiego Alfabetu Palcowego ze skutecznością ok. 94 %, jeśli gesty pokazywane były przez jedną osobę i ok. 80%, gdy wykonywały je różne osoby. Opracowane w pracy metody zostały przetestowane pod względem szybkości obliczeń na multikomputerze złożonym z czterech komputerów z procesorami Intel Celeron 466 MHz nadzorowanych przez serwer z procesorem Intel Celeron 366 MHz. Dla obrazów kolorowych uzyskano możliwość przetwarzania z częstotliwością 5 klatek/s. Podsumowanie Zaproponowane rozwiązania mogą być z powodzeniem stosowane dla innego zestawu gestów niż założony w pracy, np. gestów komunikacji z komputerem lub robotem. Baza elementów strukturalnych, zbudowana dla celów rozpoznawania znaków Polskiego Alfabetu Palcowego, ma bowiem charakter bardziej ogólny i może być pomocna także przy rozpoznawaniu innych układów dłoni. Jednocześnie wydaje się, że kształty dłoni obecne w Polskim Alfabecie Palcowym są na tyle skomplikowane, że trudno jest uformować palce tak, by uzyskać układ, któremu nie odpowiadałby żaden z elementów strukturalnych z zaprojektowanej bazy. 64
15 Zbudowanie systemu wizyjnego tłumaczącego gesty Polskiego Języka Miganego na język mówiony lub pisany umożliwiłoby porozumiewanie się osób niesłyszących z osobami niedotkniętymi tego typu niesprawnością, w szczególności z urzędnikami, pracownikami banków i innych instytucji. Powstałby równocześnie zbiór metod i narzędzi o ogólniejszym zastosowaniu w komunikacji człowieka z komputerem (robotem), np. w zadaniach sterowania urządzeniami. Przedstawiona praca stanowi krok w tym kierunku. Wykorzystanie programów z rodziny STATISTICA W pracy wykorzystano następujące narzędzia z rodziny STATISTICA: program STATISTICA Neural Networks oraz program STATISTICA. Pierwszy z wymienionych programów zastosowano do skonstruowania sieci neuronowych przeznaczonych do wydzielania dłoni z obrazu kolorowego, rozpoznawania kształtu dłoni oraz klasyfikacji kształtu trajektorii ruchu dłoni prezentującej dynamiczny znak PAP. Najczęściej stosowanymi funkcjami programu były: narzędzie Intelligent Problem Solver, z użyciem którego projektowano wstępną strukturę sieci neuronowych, funkcje związane z samodzielnym konstruowaniem sieci typu MLP, analiza wrażliwości sieci na zmienne wejściowe, funkcja Classification Statistics wykorzystana do wygenerowania wyników dla danych testowych. Wyniki klasyfikacji kształtów dłoni (opcja Classification Statistics programu STATISTICA Neural Networks) uzyskane dla filmów zawierających gesty PAP wchodzące w skład przygotowanej w ramach pracy bazy danych, łączone były w wyniki zbiorcze z wykorzystaniem programów przygotowanych w języku STATISTICA BASIC, dostępnym z poziomu programu STATISTICA. Dane uzyskane w ten sposób posłużyły do wygenerowania w programie STATISTICA wykresów obrazujących wyniki testów. Danych tych użyto także do utworzenia w programie MS Excel tabel z wynikami rozpoznawania kształtów dłoni. Wykorzystano tu możliwość przenoszenia danych z programu STATISTICA do programu MS Excel. Literatura 1. Domański M., Zaawansowane techniki kompresji obrazów i sekwencji wizyjnych, Wyd. Politechniki Poznańskiej, Poznań, Freeman W. T., Roth M., Orientation histograms for hand gesture recognition [w:] Proc. Of the IEEE Intl. Wkshp. On Automatic Face and Gesture Recognition, , Zürich, Hashimoto K., ed. Visual servoing, World Scientific Publ. Co. Pte. Ltd., London,
16 4. Hendzel J. K., Słownik Polskiego Języka Miganego, Wydawnictwo OFFER, Olsztyn, Luong Q.-T., Color in computer vision [w:] Chen C. H., Pau L. F., Wang P. S. P., eds, Handbook. of Pattern Recognition and Computer Vision, , World Scientific Publ. Co. Pte. Ltd., London, Marnik J., Rozpoznawanie znaków Polskiego Alfabetu Palcowego z wykorzystaniem morfologii matematycznej i sieci neuronowych, rozprawa doktorska, Akademia Górniczo-Hutnicza, Kraków, Marnik J., Rozpoznawanie znaków Polskiego Alfabetu Palcowego z wykorzystaniem morfologii matematycznej, Archiwum Informatyki Teoretycznej i Stosowanej, 11: , Nieniewski M., Morfologia matematyczna w przetwarzaniu obrazów, Akademicka Oficyna Wydawnicza, Warszawa, Sangwine S. J., Horne R. E. N., The colour Image Processing Handbook, Chapman & Hall, London, Sonka M., Hlavac V., Boyle R., Image Processing Analysis and Machine Vision, Chapman & Hall, London, StatSoft, STATISTICA Neural Networks, StatSoft Inc., Tadeusiewicz R., Korohoda P., Komputerowa analiza i przetwarzanie obrazów, Wyd. Fund. Post. Telekom., Kraków,
Interpretacja gestów dłoni w sekwencji obrazów cyfrowych. autor: Karol Czapnik opiekun: prof. dr hab. Włodzimierz Kasprzak
Interpretacja gestów dłoni w sekwencji obrazów cyfrowych autor: Karol Czapnik opiekun: prof. dr hab. Włodzimierz Kasprzak Plan prezentacji Cel pracy magisterskiej Zastosowanie pracy Założenia projektowe
Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski
Samochodowy system detekcji i rozpoznawania znaków drogowych Sensory w budowie maszyn i pojazdów Maciej Śmigielski Rozpoznawanie obrazów Rozpoznawaniem obrazów możemy nazwać proces przetwarzania i analizowania
Przetwarzanie obrazów rastrowych macierzą konwolucji
Przetwarzanie obrazów rastrowych macierzą konwolucji 1 Wstęp Obrazy rastrowe są na ogół reprezentowane w dwuwymiarowych tablicach złożonych z pikseli, reprezentowanych przez liczby określające ich jasność
Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy
Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy Wykorzystane materiały: Zadanie W dalszej części prezentacji będzie omawiane zagadnienie rozpoznawania twarzy Problem ten można jednak uogólnić
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
AUTOMATYCZNE ROZPOZNAWANIE PUNKTÓW KONTROLNYCH GŁOWY SŁUŻĄCYCH DO 3D MODELOWANIA JEJ ANATOMII I DYNAMIKI
AUTOMATYCZNE ROZPOZNAWANIE PUNKTÓW KONTROLNYCH GŁOWY SŁUŻĄCYCH DO 3D MODELOWANIA JEJ ANATOMII I DYNAMIKI Tomasz Huczek Promotor: dr Adrian Horzyk Cel pracy Zasadniczym celem pracy było stworzenie systemu
Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.
Filtracja nieliniowa może być bardzo skuteczną metodą polepszania jakości obrazów Filtry nieliniowe Filtr medianowy Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy
Implementacja filtru Canny ego
ANALIZA I PRZETWARZANIE OBRAZÓW Implementacja filtru Canny ego Autor: Katarzyna Piotrowicz Kraków,2015-06-11 Spis treści 1. Wstęp... 1 2. Implementacja... 2 3. Przykłady... 3 Porównanie wykrytych krawędzi
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
Analiza obrazów. Segmentacja i indeksacja obiektów
Analiza obrazów. Segmentacja i indeksacja obiektów Wykorzystane materiały: R. Tadeusiewicz, P. Korohoda, Komputerowa analiza i przetwarzanie obrazów, Wyd. FPT, Kraków, 1997 Analiza obrazu Analiza obrazu
Przygotowanie materiału uczącego dla OCR w oparciu o aplikację Wycinanki.
Przygotowanie materiału uczącego dla OCR w oparciu o aplikację Wycinanki. Zespół bibliotek cyfrowych PCSS 6 maja 2011 1 Cel aplikacji Aplikacja wspomaga przygotowanie poprawnego materiału uczącego dla
Parametryzacja obrazu na potrzeby algorytmów decyzyjnych
Parametryzacja obrazu na potrzeby algorytmów decyzyjnych Piotr Dalka Wprowadzenie Z reguły nie stosuje się podawania na wejście algorytmów decyzyjnych bezpośrednio wartości pikseli obrazu Obraz jest przekształcany
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
Automatyczna klasyfikacja zespołów QRS
Przetwarzanie sygnałów w systemach diagnostycznych Informatyka Stosowana V Automatyczna klasyfikacja zespołów QRS Anna Mleko Tomasz Kotliński AGH EAIiE 9 . Opis zadania Tematem projektu było zaprojektowanie
Detekcja twarzy w obrazie
Detekcja twarzy w obrazie Metoda na kanałach RGB 1. Należy utworzyć nowy obrazek o wymiarach analizowanego obrazka. 2. Dla każdego piksela oryginalnego obrazka pobiera się informację o wartości kanałów
Materiał pomocniczy dla nauczycieli kształcących w zawodzie:
Materiał pomocniczy dla nauczycieli kształcących w zawodzie: ASYSTENT OSOBY NIEPEŁNOSPRAWNEJ przygotowany w ramach projektu Praktyczne kształcenie nauczycieli zawodów branży hotelarsko-turystycznej Priorytet
WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)
WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO Stanisław Kowalik (Poland, Gliwice) 1. Wprowadzenie Wstrząsy podziemne i tąpania występujące w kopalniach
Reprezentacja i analiza obszarów
Cechy kształtu Topologiczne Geometryczne spójność liczba otworów liczba Eulera szkielet obwód pole powierzchni środek ciężkości ułożenie przestrzenne momenty wyższych rzędów promienie max-min centryczność
Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III
1 Niniejszy dokument zawiera materiały do wykładu z przedmiotu Cyfrowe Przetwarzanie Obrazów i Sygnałów. Jest on udostępniony pod warunkiem wykorzystania wyłącznie do własnych, prywatnych potrzeb i może
Grafika Komputerowa Wykład 2. Przetwarzanie obrazów. mgr inż. Michał Chwesiuk 1/38
Wykład 2 Przetwarzanie obrazów mgr inż. 1/38 Przetwarzanie obrazów rastrowych Jedna z dziedzin cyfrowego obrazów rastrowych. Celem przetworzenia obrazów rastrowych jest użycie edytujących piksele w celu
Przetwarzanie obrazu
Przetwarzanie obrazu Przegląd z uwzględnieniem obrazowej bazy danych Tatiana Jaworska Jaworska@ibspan.waw.pl www.ibspan.waw.pl/~jaworska Umiejscowienie przetwarzania obrazu Plan prezentacji Pojęcia podstawowe
6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT.
WYDZIAŁ: GEOLOGII, GEOFIZYKI I OCHRONY ŚRODOWISKA KIERUNEK STUDIÓW: INFORMATYKA STOSOWANA RODZAJ STUDIÓW: STACJONARNE I STOPNIA ROK AKADEMICKI 2014/2015 WYKAZ PRZEDMIOTÓW EGZAMINACYJNYCH: I. Systemy operacyjne
WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów
WYKŁAD 1 Analiza obrazu Wyznaczanie parametrów ruchu obiektów Cel analizy obrazu: przedstawienie każdego z poszczególnych obiektów danego obrazu w postaci wektora cech dla przeprowadzenia procesu rozpoznania
zna wybrane modele kolorów i metody transformacji między nimi zna podstawowe techniki filtracji liniowej, nieliniowej dla obrazów cyfrowych
Nazwa Wydziału Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia Kod modułu Język kształcenia Wydział Matematyki i Informatyki Instytut Informatyki Przetwarzanie i analiza obrazów cyfrowych w
Przetwarzanie obrazu
Przetwarzanie obrazu Przekształcenia kontekstowe Liniowe Nieliniowe - filtry Przekształcenia kontekstowe dokonują transformacji poziomów jasności pikseli analizując za każdym razem nie tylko jasność danego
Antyaliasing w 1 milisekundę. Krzysztof Kluczek
Antyaliasing w 1 milisekundę Krzysztof Kluczek Zasada działania Założenia: Metoda bazująca na Morphological Antialiasing (MLAA) wejście: obraz wyrenderowanej sceny wyjście: zantyaliasowany obraz Krótki
Przetwarzanie obrazów wykład 4
Przetwarzanie obrazów wykład 4 Adam Wojciechowski Wykład opracowany na podstawie Komputerowa analiza i przetwarzanie obrazów R. Tadeusiewicz, P. Korohoda Filtry nieliniowe Filtry nieliniowe (kombinowane)
PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**
Górnictwo i Geoinżynieria Rok 31 Zeszyt 3 2007 Dorota Pawluś* PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH** 1. Wstęp Eksploatacja górnicza złóż ma niekorzystny wpływ na powierzchnię
Cyfrowe przetwarzanie obrazów i sygnałów Wykład 10 AiR III
1 Niniejszy dokument zawiera materiały do wykładu z przedmiotu Cyfrowe Przetwarzanie Obrazów i Sygnałów. Jest on udostępniony pod warunkiem wykorzystania wyłącznie do własnych, prywatnych potrzeb i może
BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat
BIBLIOTEKA PROGRAMU R - BIOPS Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat Biblioteka biops zawiera funkcje do analizy i przetwarzania obrazów. Operacje geometryczne (obrót, przesunięcie,
System wizyjny OMRON Xpectia FZx
Ogólna charakterystyka systemu w wersji FZ3 w zależności od modelu można dołączyć od 1 do 4 kamer z interfejsem CameraLink kamery o rozdzielczościach od 300k do 5M pikseli możliwość integracji oświetlacza
Metody kodowania wybranych cech biometrycznych na przykładzie wzoru naczyń krwionośnych dłoni i przedramienia. Mgr inż.
Metody kodowania wybranych cech biometrycznych na przykładzie wzoru naczyń krwionośnych dłoni i przedramienia Mgr inż. Dorota Smorawa Plan prezentacji 1. Wprowadzenie do zagadnienia 2. Opis urządzeń badawczych
Przetwarzanie obrazów wykład 7. Adam Wojciechowski
Przetwarzanie obrazów wykład 7 Adam Wojciechowski Przekształcenia morfologiczne Przekształcenia podobne do filtrów, z tym że element obrazu nie jest modyfikowany zawsze lecz tylko jeśli spełniony jest
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Polcode Code Contest PHP-10.09
Polcode Code Contest PHP-10.09 Przedmiotem konkursu jest napisanie w języku PHP programu, którego wykonanie spowoduje rozwiązanie zadanego problemu i wyświetlenie rezultatu. Zadanie konkursowe Celem zadania
CECHY BIOMETRYCZNE: ODCISK PALCA
CECHY BIOMETRYCZNE: ODCISK PALCA Odcisk palca można jednoznacznie przyporządkować do osoby. Techniki pobierania odcisków palców: Czujniki pojemnościowe - matryca płytek przewodnika i wykorzystują zjawisko
POB Odpowiedzi na pytania
POB Odpowiedzi na pytania 1.) Na czym polega próbkowanie a na czym kwantyzacja w procesie akwizycji obrazu, jakiemu rodzajowi rozdzielczości odpowiada próbkowanie a jakiemu kwantyzacja Próbkowanie inaczej
Temat: Zastosowanie wyrażeń regularnych do syntezy i analizy automatów skończonych
Opracował: dr inż. Zbigniew Buchalski KATEDRA INFORMATYKI TECHNICZNEJ Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych ćwiczenie Temat: Zastosowanie wyrażeń regularnych do syntezy i analizy automatów
Filtracja obrazu operacje kontekstowe
Filtracja obrazu operacje kontekstowe Podział metod filtracji obrazu Metody przestrzenne i częstotliwościowe Metody liniowe i nieliniowe Główne zadania filtracji Usunięcie niepożądanego szumu z obrazu
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Reprezentacja i analiza obszarów
Cechy kształtu Topologiczne Geometryczne spójność liczba otworów liczba Eulera szkielet obwód pole powierzchni środek cięŝkości ułoŝenie przestrzenne momenty wyŝszych rzędów promienie max-min centryczność
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Odciski palców ekstrakcja cech
Kolasa Natalia Odciski palców ekstrakcja cech Biometria sprawozdanie z laboratorium 4 1. Wstęp Biometria zajmuje się rozpoznawaniem człowieka na podstawie jego cech biometrycznych. Jest to możliwe ponieważ
Diagnostyka obrazowa
Diagnostyka obrazowa 1. Cel ćwiczenia Ćwiczenie czwarte Przekształcenia morfologiczne obrazu Ćwiczenie ma na celu zapoznanie uczestników kursu Diagnostyka obrazowa z definicjami operacji morfologicznych
Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?
Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu? Po zainstalowaniu DigitLabu na komputerze otrzymujemy pakiet programów niezbędnych do przygotowania cyfrowych wersji obiektów tekstowych.
Oprogramowanie Systemów Obrazowania SIECI NEURONOWE
SIECI NEURONOWE Przedmiotem laboratorium jest stworzenie algorytmu rozpoznawania zwierząt z zastosowaniem sieci neuronowych w oparciu o 5 kryteriów: ile zwierzę ma nóg, czy żyje w wodzie, czy umie latać,
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: ANALIZA I PRZETWARZANIE OBRAZÓW CYFROWYCH Kierunek: Informatyka Rodzaj przedmiotu: moduł specjalności obowiązkowy: Programowanie aplikacji internetowych Rodzaj zajęć: wykład, laboratorium
NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.
Wykorzystanie sztucznych sieci neuronowych do rozpoznawania języków: polskiego, angielskiego i francuskiego Tworzenie i nauczanie sieci przy pomocy języka C++ i biblioteki FANN (Fast Artificial Neural
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne
i ruchów użytkownika komputera za i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Promotor: dr Adrian Horzyk
System śledzenia oczu, twarzy i ruchów użytkownika komputera za pośrednictwem kamery internetowej i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Mirosław ł Słysz Promotor:
Akademia Górniczo - Hutnicza im. Stanisława Staszica w Krakowie. Projekt. z przedmiotu Analiza i Przetwarzanie Obrazów
30 czerwca 2015 Akademia Górniczo - Hutnicza im. Stanisława Staszica w Krakowie Projekt z przedmiotu Analiza i Przetwarzanie Obrazów Wykrywanie tablic rejestracyjnych Jagieła Michał IS (GKiPO) Michał Jagieła
Wyższa Szkoła Informatyki Stosowanej i Zarządzania
Wyższa Szkoła Informatyki Stosowanej i Zarządzania WIT Grupa IZ06TC01, Zespół 3 PRZETWARZANIE OBRAZÓW Sprawozdanie z ćwiczeń laboratoryjnych Ćwiczenie nr 5 Temat: Modelowanie koloru, kompresja obrazów,
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 6 SYSTEMY ROZMYTE TYPU MAMDANIEGO
Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335
Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Wykład 10 Mapa cech Kohonena i jej modyfikacje - uczenie sieci samoorganizujących się - kwantowanie wektorowe
Zygmunt Wróbel i Robert Koprowski. Praktyka przetwarzania obrazów w programie Matlab
Zygmunt Wróbel i Robert Koprowski Praktyka przetwarzania obrazów w programie Matlab EXIT 2004 Wstęp 7 CZĘŚĆ I 9 OBRAZ ORAZ JEGO DYSKRETNA STRUKTURA 9 1. Obraz w programie Matlab 11 1.1. Reprezentacja obrazu
Diagnostyka obrazowa
Diagnostyka obrazowa Ćwiczenie drugie Podstawowe przekształcenia obrazu 1 Cel ćwiczenia Ćwiczenie ma na celu zapoznanie uczestników kursu Diagnostyka obrazowa z podstawowymi przekształceniami obrazu wykonywanymi
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego
IBS PAN, Warszawa 9 kwietnia 2008 Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego mgr inż. Marcin Jaruszewicz promotor: dr hab. inż. Jacek Mańdziuk,
Zastosowanie stereowizji do śledzenia trajektorii obiektów w przestrzeni 3D
Zastosowanie stereowizji do śledzenia trajektorii obiektów w przestrzeni 3D autorzy: Michał Dajda, Łojek Grzegorz opiekun naukowy: dr inż. Paweł Rotter I. O projekcie. 1. Celem projektu było stworzenie
Techniki multimedialne
Techniki multimedialne Digitalizacja podstawą rozwoju systemów multimedialnych. Digitalizacja czyli obróbka cyfrowa oznacza przetwarzanie wszystkich typów informacji - słów, dźwięków, ilustracji, wideo
Projekt Sieci neuronowe
Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków
12. Wprowadzenie Sygnały techniki cyfrowej Systemy liczbowe. Matematyka: Elektronika:
PRZYPOMNIJ SOBIE! Matematyka: Dodawanie i odejmowanie "pod kreską". Elektronika: Sygnały cyfrowe. Zasadę pracy tranzystorów bipolarnych i unipolarnych. 12. Wprowadzenie 12.1. Sygnały techniki cyfrowej
Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA)
Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA) Uwagi ogólne Raport nie wskazuje jednoznacznie plagiatu System antyplagiatowy stanowi jedynie narzędzie wspomagające ocenę
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Analiza obrazu. wykład 1. Marek Jan Kasprowicz Uniwersytet Rolniczy Marek Jan Kasprowicz Analiza obrazu komputerowego 2009 r.
Analiza obrazu komputerowego wykład 1 Marek Jan Kasprowicz Uniwersytet Rolniczy 2009 Plan wykładu Wprowadzenie pojęcie obrazu cyfrowego i analogowego Geometryczne przekształcenia obrazu Przekształcenia
9. OBRAZY i FILTRY BINARNE 9.1 Erozja, dylatacja, zamykanie, otwieranie
9. OBRAZY i FILTRY BINARNE 9.1 Erozja, dylatacja, zamykanie, otwieranie Obrazy binarne to takie, które mają tylko dwa poziomy szarości: 0 i 1 lub 0 i 255. ImageJ wykorzystuje to drugie rozwiązanie - obrazy
Cyfrowe przetwarzanie obrazów i sygnałów Wykład 9 AiR III
1 Na podstawie materiałów autorstwa dra inż. Marka Wnuka. Niniejszy dokument zawiera materiały do wykładu z przedmiotu Cyfrowe Przetwarzanie Obrazów i Sygnałów. Jest on udostępniony pod warunkiem wykorzystania
0. OpenGL ma układ współrzędnych taki, że oś y jest skierowana (względem monitora) a) w dół b) w górę c) w lewo d) w prawo e) w kierunku do
0. OpenGL ma układ współrzędnych taki, że oś y jest skierowana (względem monitora) a) w dół b) w górę c) w lewo d) w prawo e) w kierunku do obserwatora f) w kierunku od obserwatora 1. Obrót dookoła osi
Proste metody przetwarzania obrazu
Operacje na pikselach obrazu (operacje punktowe, bezkontekstowe) Operacje arytmetyczne Dodanie (odjęcie) do obrazu stałej 1 Mnożenie (dzielenie) obrazu przez stałą Operacje dodawania i mnożenia są operacjami
Diagnostyka obrazowa
Diagnostyka obrazowa Ćwiczenie czwarte Przekształcenia morfologiczne obrazu 1 Cel ćwiczenia Ćwiczenie ma na celu zapoznanie uczestników kursu Diagnostyka obrazowa z definicjami operacji morfologicznych
Wykrywanie twarzy ludzkich na kolorowych obrazach ze złożonym tłem
Wykrywanie ludzkich na kolorowych obrazach ze złożonym tłem Lech Baczyński www.baczynski.com Na podstawie artykułu panów: Yanjiang Wang, Baozong Yuan i in. Do czego przydatne jest wykrywanie (detekcja)?
Programowanie komputerów
Programowanie komputerów Wykład 1-2. Podstawowe pojęcia Plan wykładu Omówienie programu wykładów, laboratoriów oraz egzaminu Etapy rozwiązywania problemów dr Helena Dudycz Katedra Technologii Informacyjnych
Filtracja obrazu operacje kontekstowe
Filtracja obrazu operacje kontekstowe Główne zadania filtracji Usunięcie niepożądanego szumu z obrazu Poprawa ostrości Usunięcie określonych wad obrazu Poprawa obrazu o złej jakości technicznej Rekonstrukcja
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Metody komputerowego przekształcania obrazów
Metody komputerowego przekształcania obrazów Przypomnienie usystematyzowanie informacji z przedmiotu Przetwarzanie obrazów w kontekście zastosowań w widzeniu komputerowym Wykorzystane materiały: R. Tadeusiewicz,
Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III
1 Niniejszy dokument zawiera materiały do wykładu z przedmiotu Cyfrowe Przetwarzanie Obrazów i Sygnałów. Jest on udostępniony pod warunkiem wykorzystania wyłącznie do własnych, prywatnych potrzeb i może
Analiza obrazów - sprawozdanie nr 2
Analiza obrazów - sprawozdanie nr 2 Filtracja obrazów Filtracja obrazu polega na obliczeniu wartości każdego z punktów obrazu na podstawie punktów z jego otoczenia. Każdy sąsiedni piksel ma wagę, która
Algorytmy sztucznej inteligencji
Algorytmy sztucznej inteligencji Dynamiczne sieci neuronowe 1 Zapis macierzowy sieci neuronowych Poniżej omówione zostaną części składowe sieci neuronowych i metoda ich zapisu za pomocą macierzy. Obliczenia
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
WPŁYW KOMPRESJI BARW NA DZIAŁANIE NEURONOWEGO MODELU IDENTYFIKACYJNEGO
Inżynieria Rolnicza 3(121)/2010 WPŁYW KOMPRESJI BARW NA DZIAŁANIE NEURONOWEGO MODEU IDENTYFIKACYJNEGO Krzysztof Nowakowski, Piotr Boniecki, Andrzej Przybylak Instytut Inżynierii Rolniczej, Uniwersytet
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 CZĘŚĆ 2. ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 CZĘŚĆ 2. MATEMATYKA ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZE: GM-MX1, GM-M2, GM-M4, GM-M5 KWIECIEŃ 2018 Zadanie 1. (0 1) I. Wykorzystanie i
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium
8. Neuron z ciągłą funkcją aktywacji.
8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI
Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska
Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Sieci neuronowe w Statistica
http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej
Modelowanie krzywych i powierzchni
3 Modelowanie krzywych i powierzchni Modelowanie powierzchniowe jest kolejną metodą po modelowaniu bryłowym sposobem tworzenia części. Jest to też sposób budowy elementu bardziej skomplikowany i wymagający
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA Krzysztof Suwada, StatSoft Polska Sp. z o.o. Wstęp Wiele różnych analiz dotyczy danych opisujących wielkości charakterystyczne bądź silnie
Laboratorium Cyfrowego Przetwarzania Obrazów
Laboratorium Cyfrowego Przetwarzania Obrazów Ćwiczenie 5 Segmentacja Opracowali: - dr inż. Krzysztof Mikołajczyk - dr inż. Beata Leśniak-Plewińska - dr inż. Jakub Żmigrodzki Zakład Inżynierii Biomedycznej,
Metoda Karnaugh. B A BC A
Metoda Karnaugh. Powszechnie uważa się, iż układ o mniejszej liczbie elementów jest tańszy i bardziej niezawodny, a spośród dwóch układów o takiej samej liczbie elementów logicznych lepszy jest ten, który
Technologie informacyjne - wykład 12 -
Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą