Biometria WYKŁAD 7: ROZPOZNAWANIE I KLASYFIKACJA OBIEKTÓW

Biometria WYKŁAD 7: ROZPOZNAWANIE I KLASYFIKACJA OBIEKTÓW http://ryszardtadeusiewicz.natemat.pl/151007,klasyka-sztucznej-inteligencji-rozpoznawanie-obrazow

Cechy i przestrzenie cech Każda z właściwości wybrana do opisu obiektu/procesu/zjawiska (cecha) powinna dostarczyć jak najwięcej informacji do poprawnej i jednoznacznej identyfikacji (klasyfikacji) obiektu. Wybór odpowiedniej cechy (jako ilościowej reprezentacji obiektu) jest kluczowy dla zagwarantowania poprawności rozpoznania. Jedna cecha to za mało! Próbka to wektor cech; jego elementy wyznaczają kolejne kierunki wielowymiarowej przestrzeni, tzw. przestrzeni cech (feature space)

Cechy i przestrzenie cech

Cechy i przestrzenie cech Separowalność klas polega na takim doborze przestrzeni cech by próbki należące to jednej kategorii były maksymalnie skupione blisko siebie zaś te należące do różnych kategorii maksymalnie odległe i obszarowo łatwe do rozdzielenia Separowalność liniowa

Dlaczego nie warto zwiększać liczby cech? 1 cecha = k przykładów do konstruowania modelu => k cech=k*k przykładów KLĄTWA (PRZEKLEŃSTWO) WYMIAROWOŚCI (Curse of Dimensionality) W miarę wzrostu liczby wymiarów (zmiennych) liczba obiektów (obserwacji) potrzebnych do wiarygodnego oszacowania parametrów lub funkcji rośnie wykładniczo

Tworzenie przestrzeni cech Poszukiwane są metody konstruowania przestrzeni cech o jak najmniejszej liczbie cech dającą jak najlepszą Separowalność klas: Selekcja cech (feature selection) identyfikacja tych elementów zbioru charakterystyk które uważane są za najlepsze deskryptory danej kategorii (poznanie charakterystyk istotnych dla procesu rozpoznawania, za cenę znacznego i trudnego w ocenie uszczuplenia informacji i dublowanie pozostawianej wiedzy) Ekstrakcja cech (feature extraction)- przekształcanie zbioru początkowych charakterystyk i tworzenie nowej grupy deskryptorów (powszechniejsza metoda)

Selekcja cech Poszukiwanie takiego zestawu cech który najlepiej realizuje dane zadanie (testowanie podzbiorów zbioru cech (najlepiej wszystkich), ocena wynikowej przydatności) Jak tworzyć kolejne podzbiory? Jakie kryterium przydatności? Poszukiwanie takiego zestawu cech który najlepiej realizuje dane zadanie (testowanie podzbiorów zbioru cech, ocena wynikowej przydatności) Jak tworzyć kolejne podzbiory? Jakie kryterium przydatności?

Selekcja cech Metody SFS (Sequential Forward Selection) powiększanie zbioru cech o 1 elemenet i sprawdzanie przydatności nowego zbioru, powtarzana do momentu wykorzystanie wszystkich cech z puli początkowej. Złożoność liniowa dla zwiększania zbioru cech docelowych Metoda SBS (Sequential Backwad Selection)

Tworzenie modelu danego problemu rozpoznawania - powiązanie regionu przestrzeni z rozważanymi kategoriami rozpoznania: Niemożliwe a priori wybrane cechy mogą nie mieć interpretacji Trudne wskazać konkretne wartości liczbowe warunkujące przynależność do danej klasy UCZENIE (TRENOWANIE) (ustalanie parametrów algorytmu klasyfikacji)

Klasyfikacja danych Klasyfikacja danych to odpowiedź na pytanie do jakiej klasy należy zaliczyć wektor (sekwencje wektorów) opisujących obiekt/stan/proces. Kryterium 1 Przesłanki do rozstrzygania o przynależności próbki do klasy Klasyfikacja przez określenia podobieństwa próbki do reprezentanta klasy (wzorca/prototypu) Klasyfikacja przez określenie właściwości definiujących kategorię i sprawdzenie czy badana próbka ma takie właściwości Kryterium 2 Sposób traktowania analizowanych danych Klasyfikacja deterministyczna Klasyfikacja probabilistyczna

Klasyfikacja danych interpretacja geometryczna Założenia: Próbki punkty w wielowymiarowej przestrzeni cech Potrafimy w przestrzeni cech określić obszary odpowiadające obiektom wszystkich rozpoznawanych kategorii Klasyfikacja nowej próbki to odpowiedź na pytanie jaka etykieta jest przypisana obszarowi w przestrzeni w którym znajduje się ta próbka

Przykłady do konstruowania klasyfikatora Zbiór treningowy dane wejściowe stosowane w procesie iteracyjnego korygowania parametrów algorytmu klasyfikacji Zbiór testowy sprawdzenie jak wytrenowany klasyfikator radzi sobie z rozpoznawaniem nowych, nieznanych próbek

Co to znaczy nauczyć klasyfikator? Wyznaczenie takich parametrów algorytmu klasyfikacji które odzwierciedlają ogólną zasadę rozkładu próbek rozważanych klas w przestrzeni (generalizacja wiedzy zawartej w zbiorze uczącym) Liczebność przykładów zbioru treningowego musi być wielokrotnie wyższa od liczby wyznaczanych parametrów algorytmu (im więcej parametrów ma klasyfikator tym bardziej nieregularne granice między klasami): Co dla danej klasy jest typowe i charakterystyczne Odporność procedury na przypadkową obecność elementów niepożądanych w zbiorze uczącym Uwzględnienie istnienia niszowych form danej klasy

Co to znaczy nauczyć klasyfikator? Wymagana złożoność klasyfikator jest niewiadomą skorelowaną z danym problemem ALE preferowane są struktury o jak najmniejszej złożoności Zwiększaine liczby parametrów klasyfikatora o 1 i ponawianie treningu

KLASYFIKACJA MINIMALNOODLEGŁOŚCIOWA

Klasyfikacja minimalnoodległościowa Deterministyczna Podobieństwo badanej próbki do wzorca (wzorców) klas poprzez pomiar ich wzajemnej odległości w przestrzeni cech Próbka zostaje przypisana do tej kategorii d której jest jej najbliżej (w przyjętym sposobie oceny odległości, który może być różny). odległość = dystans próbki od najbliżej położonego elementu klasy => klasyfikacja metodą najbliższego sąsiada (nearest neighbour)

Klasyfikacja metodą najbliższego sąsiada (NN) Pomiar odległości między próbką p a wszystkimi klasami C i (rozważanymi w rozpoznawaniu) i wyborze najbliższej klasy (o etykiecie k) jako wyniku tej klasyfikacji: k = arg( min i {d p, C i ) ) d p, C i = min j d(p, C i j ) d p, C i - odległość elementu p od klasy Ci d(p, C i j )- odległość elementu p od i-go elementu klasy Ci

Klasyfikacja metodą najbliższego sąsiada (NN) Koncepcyjnie prosta, brak fazy uczenia klasyfikatora (algorytm wykorzystuje wszystkie posiadane elementy zbioru przykładów) Wady: Duża złożoność obliczeniowa (obliczana jest odległość od wszystkich elementów rozważanych kategorii, klasyfikator musi pamiętać cały zbiór przykładów) -> klasyfikacja metodą najbliższej średniej (Nearest Mean) Na wynik klasyfikacji ogromny wpływ ma obecność w zbiorze przykładów próbek nie będących typowymi reprezentantami klas (zakłócenia rejestracji danych przykładowych) -> klasyfikacja metodą k-najbliższych sąsiadów (k-nearest Neighbours): Nieostre zdjęcie w zbiorze zdjęć dobrej jakości Próbka krwi oznaczona na starym odczynniku Próbka głosy z dużym udziałem tła

Klasyfikacja metodą najbliższej średniej Zastąpienie wszystkich próbek danej klasy ich średnimi prototypami Mi Nieprzewidywalny, wielomodalny charakter rozkładu próbek (środek skupienia próbek treningowych w obszarze przestrzeni cech zupełnie innej klasy)

Klasyfikacja metodą k-najbliższych sąsiadów Polega na znalezieniu w zbiorze wszystkich przykładów pamiętanych przez klasyfikator, podzbioru k badanej próbki a następnie określenie jaka kategoria dominuje wśród elementów takiego podzbioru. Podstawowym elementem fazy uczenia klasyfikatora jest wybór odpowiedniego k: Zbyt mała wrażliwość na zbyt małą reprezentację zbioru treningowego Zbyt duża nieodzwierciedlenie skomplikowanej struktury obszarów reprezentujących próbki danej klasy w przestrzeni cech

Klasyfikacja metodą k-najbliższych sąsiadów 1. Policzenie odległości od wszystkich przykładów 2. Posortowanie wyników 3. Utworzenie i analiza k-elementowego zbioru etykiet próbek o najmniejszych odległościach Dla licznych zbiorów przykładów duża złożoność obliczeniowa (szereg metod przyspieszających np. branie pod uwagę tylko tych próbek o których wiadomo że znajdują się w bliskim sąsiedztwie)

Klasyfikacja metodą k-najbliższych sąsiadów Strategie podziału przestrzeni cech dla przyspieszenia algorytmu (redukcji przestrzeni poszukiwania najbliższych sąsiadów) próbki: Bucketing kwantyzacja przestrzeni cech przez podział na identyczne przylegające do siebie sześciany (indeksy przypisywane przykładom zapamiętywanym przez klasyfikator). Po identyfikacji w którym sześcianie jest próbka, tylko przykłady z tego sześcianu (i jego otoczenia) poddawane są dalszej analizie. Drzewa k-wymiarowe. Hiperpłaszczyzny dzielą przestrzeń w taki sposób by każda nowa podprzestrzeń zawierała zbliżoną liczbę próbek (lepsze odwzorowanie nierównomiernego rozkładu próbek, większa efektywność klasyfikacji)

Klasyfikacja metodą k-najbliższych sąsiadów Prosta, chętnie stosowana do modelowania klas nawet o bardzo złożonej strukturze Jak wszystkie metody oparte na odległości równocennie traktuje odległości we wszystkich kierunkach (bez względu na to jak dobrze opisują różnice między klasami) Niejednoznaczne powiązanie cecha-klasa wprowadza zaburzenie rozpoznania Duża alokacja pamięci Rozwiązania Klasyfikację knn należy zawsze poprzedzać redukcją wymiarowości problemu Algorytm k-średnich (gdy dana klasa nie jest skupiona w 1-ym obszarze przestrzeni cech)

Miary odległościowe Aby możliwe było określenie odległości przestrzeń musi być metryczna. Konieczna jest też wiedza o typowym rozkładzie wielkości próbek w obrębie klasy (wartość średnia, wariancje)

Metryka Minkowskiego L k (p 1, p 2) = D i=1 p 1 i p 2 i k 1/k L 1 - suma modułów różnic między współrzędnymi punktów (odległość Manhattan, blokowa, Hamminga) L 1 odległość Euklidesowa(konieczna normalizacja zakresów wszystkich elementów wektora cech: zerowanie wartości średniej, ważenie względem wariancji)

Metryka Machalanobiosa Dla przykładu 1-wymiarowego: R M = x μ σ Dla przykładu wielowymiarowego: R M = (x μ) T 1 (x μ) 1/2 1 macierze kowariancji próbek (odpowiednik odchylenia standardowego)

KLASYFIKACJA PRZEZ PODZIAŁ PRZESTRZENI CECH

Klasyfikacja przez podział przestrzeni cech Określenie powierzchni separującej przestrzeń cech na regiony przypisane klasom (przynależność do regionu=przynależność do klasy). Wykorzystanie zbiorów funkcji parametrycznych określających położenie powierzchni separujących (parametry określane przez uczenie). Liniowe funkcje dyskryminacyjne (hiperłaszczyzny): Sztuczne sieci neuronowe (Artificial Neural Networks, ANN) Maszyny wektorowe (Support Vector Machines, SVM)

Wyznaczanie hiperpłaszczyzny Równanie hiperpłaszczyzny w d-wymiarowej przestrzeni: v t p + c = 0 v=[v,v d-1 ] T - wektor normalny powierzchni p=[x 0,x d-1 ] dowolny punkt powierzchni x T w = 0 w = v c x= p 1 Wyrażenie f(w)=x T w powinno mieć różne znaki dla próbek różnych klas

Wyznaczanie hiperpłaszczyzny Separacja jest tym lepsza im niższa jest wartość wyrażenia (n-liczba przykładów): e = n 1 i=0 (x it w b i ) 2

Wyznaczanie hiperpłaszczyzny Nie istnieją przesłanki pozwalające na dobry wybór wartości elementów wektora b (przyjmowane są arbitralnie, zwykle b i =1) Skutek: Poszukiwana hiperpłaszczyzna jest jednakowo odległa od wszystkich próbek (uzyskiwane rozwiązania są nie zawsze poprawne nawet dla klas liniowo separowalnych). Outliners: metoda Ho-Kashyapa treningu klasyfikatora (przykłady zbioru treningowego stosowane do wyznaczenia elementów wektora w i b) pozwala znaleźć najlepsze rozwiązanie jeśli ono istnieje (klasy są liniowo-separowalne), w innych przypadkach przynajmniej rozsądne

Sztuczne sieci neuronowe, SNN Aksjomaty komputerowego przetwarzania danych do których SSN się nie stosują: Algorytmiczność Sekwencyjność Specjalizacja elementów systemu Struktury połączonych ze sobą identycznych, prostych elementów procesorowych (neuronów) równolegle przetwarzające informacje na ich wejściach

SNN Informacja wypracowana przez neuron ( aktywność ) jest liczbą z określonego przedziału wartości, najczęściej [0 1] Wejściom przypisane są współczynniki wagowe w modelujące połączenia synaptyczne rzeczywistych neuronów. Sprzężenia synaptyczne: Pobudzające ( + większa wartość sygnału na wejściu oznacza większą aktywność) Hamujące ( -, większa wartość sygnału na wejściu oznacza spadek aktywności)

SNN Poziom aktywności neuronu: wyznaczenie nieliniowego przekształcenia f(.) ważonej sumy sygnałów wejściowych neuronu (xtw) korygowanej a pomocą polaryzacji. Funkcja aktywacji f(.) Odpowiedź z przedziału [0 1] Skok jednostkowy Funkcja sigmoidalna Odpowiedź z przedziału [0 1] Funkcja signum Tangens hiperboliczny

SNN Sygnał na wyjściu jest wynikiem nieliniowej transformacji iloczynu skalarnego wektora wag i wektora wejściowego: d 1 y = f x i w i + θ = f(x T w + θ) i=0 Dla funkcji będącej binarną oceną znaku, neuron działa jak linowa funkcja dyskryminacyjna (neuron jako liniowy klasyfikator, hiperpłaszczyznę wyznacza jego wektor współczynników wagowych)

SNN Korekta wag odbywa się przez analizę kolejnych przykładów przez neuron. Poprawne działanie neuronu (korekta błędu niezerowego przez korektę wag): e i w = y i d i 2 = f(s i ) d i 2 = f(x it w) d i 2 xi- klasyfikowana próbka zbioru przykładowego y i wynik uzyskany, d i wynik oczekiwany

SSN: reguła delta (Widrowa-Hoffa) Dla funkcji skoku w perceptronie: w = ƞ(d i y i )x i Korekta wektora wag (zwiększanie poprawności klasyfikacji próbki bieżącej jest proporcjonalna do błędu jej klasyfikacji -1,0, 1) i wartości tej próbki (wszystkie dane są lokalnie dotępne)

SSN: klasyfikatory wielowarstwowe Dekompozycja problemu liniowo nieseparowalnego na serię cząstkowych problemów liniowo separowalnych (rozwiązywalnych za pomocą pojedynczych neuronów). Skokowa funkcja aktywacji- odpowiedzi neuronów binarne Sieć warstwowa: sygnały wyjściowe 1-ej warstwy wyznaczają przestrzeń cech dla operacji realizowanych przez dodatkowy neuron (neuron wyjściowy) -> dla k neuronów 1-ej warstwy przestrzeń ta jest k- wymiarowa.

SSN: klasyfikatory wielowarstwowe Próbki prezentowane neuronowi wyjściowemu są wektorami wartości binarnych (w przestrzeni cech są one lokowane w wierzchołkach jednostkowego hipersześcianu o krawędziach pokrywających się z osiami układów współrzędnych) Zadanie oddzielenia wierzchołka od pozostałych jest liniowo separowalne (wykonywane przez neuron jako operacja logiczna). Neuron wyjściowy jest w stanie wykrywać czy próba podawana na wejście sieci jest elementem obszaru będącego koniunkcją podprzestrzeni na które dziedzinę problemu klasyfikacji dzielą neurony warstwy wejściowej (rozwiązywanie problemów liniowo nieseparowalnych)

SSN: klasyfikatory wielowarstwowe Dwuwarstwowe sieci neuronowe rozwiązują problemy klasyfikacji z wypukłymi regionami decyzyzjnymi Trójwarstwowe sieci neuronowe są zdolne do rozwiązywania dowolnego problemu klasyfikacji (składanie obszarów wypukłych)

SSN: klasyfikatory wielowarstwowe Szczegółowa architektura sieci wielowarstwowej Wyznaczanie parametrów sieci (wektorów wag neuronów) tak by zapewnić rozwiązanie Liczba neuronów 1-ej warstwy = liczba ścian otaczających regiony decyzyjne Liczba neuronów 2-ej warstwy = liczba wypukłych komponentów ostatecznych regionów decyzyjnych budowanych przez neurony 3-ej warstwy. Metody przyrostowego zwiększania stopnia złożoności (aż do uzyskania skutecznej klasyfikacji)

SSN: uczenie sieci wielowarstwowej Trening pojedynczego neuronu (opracowanie koncepcji zajęło 20 lat) -> trening wszystkich warstw sieci. Minimalizacja funkcji kryterialnej (N- liczba neuronów warstwy wyjściowej) przez dobór parametrów sieci: E = N 1 i=0 Y i d i 2

SSN: algorytm wstecznej propagacji błędu 1. Sieci prezentowana jest przykładowa próbka 2. Dla bieżących wartości wag neuronów sieci obliczana jest odpowiedź porównywana z oczekiwanym wynikiem przetwarzania. Niewłaściwy inicjuje procedurę korekty współczynników rozpoczynana od neuronów warstwy wyjściowej (jedyne elementy dla których możliwe jest bezpośrednie oszacowanie popełnianego przez nie błędu i wyliczenie korekty wag) 3. Korekta wag warstwy przedostatniej odbywa się przez rzutowanie błędu warstwy wyższej ( wirtualny błąd) 4. Rozszerzenie procedury kroku 3-go na wcześniejsze warstwy sieci wielowarstwowej

SSN: wady i zalety Potencjalnie nieograniczona złożoność rozwiązywanych problemów Bardzo duża szybkość podejmowanych decyzji (mnożenia i dodawania w liczbie określonej liczbą neuronów i sprzężonych z nimi wag) Wyspecjalizowane układy scalone będące fizyczną reprezentacją architektury sieci neuronowej (jakościowe przyspieszenie analizy) Trudność efektywnego uczenia układu

Maszyny wektorowe SVM Separacja klas (także liniowo nieseparowalnych za pomocą optymalnej hiperpłaszczyzny) Linearyzacja problemu rozpoznawania (powiększenie wymiarowości przestrzeni cech) Jeśli 2 klasy są linowo separowalne to istnieje nieskończenie wiele prostych realizujących taką separację.ale jakość podziałów nie jest jednakowa

Maszyny wektorowe SVM

SVM: optymalna separacja Optymalny= zapewniający maksymalny margines separacji (najszerszy pas w obrębie którego nie znajdują się żadne próbki) O szerokości pasa decydują tzw. próbki mocujące (podtrzymujące, support vectors) Szerszy margines lepsze własności generalizacji, mniejsza podatność na ew. przeuczenie (overfitting) Wąski margines mała zmiana granicy, radykalne zmiany klasyfikacji