Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
|
|
- Mateusz Szydłowski
- 8 lat temu
- Przeglądów:
Transkrypt
1 Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl
2 Metoda PCA Analiza składników głównych PCA (ang. Principal Component Analysis) jest metodą statystyczną, określającą przekształcenie liniowe przekształcajace opis stacjonarnego procesu stochastycznego opisanego za pomocą wektora w wektor za pośrednictwem macierzy w ten sposób, że przestrzeo wyjściowa o zredukowanym wymiarze zachowuje najważniejsze informacje o procesie.
3 Metoda PCA Wzajemnie skorelowane składniki zostają zamienione w składniki nieskorelowane uszeregowane według ich ważności. Jest to zatem forma kompresji stratnej i jest znana w teorii komunikacji jako przekształcenie Karhunena-Loevego.
4 Metoda PCA Jeśli x jest wektorem losowym o zerowej wartości średniej to przez rozumiemy wartośd średnią (oczekiwaną) macierzy autokorelacji po wszystkich wektorach x. W i oznacza ortogonalne wektory własne stowarzyszone z wartościami własnymi macierzy tzn.
5 Metoda PCA Jeśli uszeregujemy wartości własne w kolejności malejącej i ograniczymy się jedynie do K największych, możemy stworzyd macierz W stworzoną z K wektorów stowarzyszonych z danymi wartościami własnymi. Zachowamy w ten sposób najważniejszą częśd informacji. Przekształcenie PCA jest wtedy określone przez macierz W jako Odtworzona informacja ma postad
6 Metoda PCA Wartośd funkcji błędu osiąga minimum, gdy wiersze W są złożone z pierwszych K wektorów własnych macierzy Otrzymujemy wówczas następujące zależności: Macierz korelacji wektorów y jest równa Oznacza to, że wszystkie składniki wektora y są nieskorelowane, z wariancjami równymi wartościom własnym
7 Metoda PCA Przekształcenie PCA określa zbiór wektorów ortogonalnych, które mają największy wkład w wariancję wektorów wejściowych. Celem tego przekształcenia jest określenie kierunków W i, zwanych głównymi wektorami własnymi, w taki sposób, by maksymalizowad wyrażenie przy spełnieniu warunku ortogonalności
8 Metoda PCA PCA i rozpoznawanie twarzy za pomocą wartości własnych 1. Opisana metoda może byd użyta w celu uchwycenia wariancji w zbiorze obrazów twarzy. 2. Każdy obraz może byd traktowany jako wektor (punkt) w przestrzeni o bardzo dużym wymiarze równym liczbie pikseli w danym obrazie. 3. Mając zbiór danych uczących (przykładowych obrazów twarzy) można stworzyd średnią macierz autokorelacji tych wektorów i wyliczyd jej wektory własne, jak zostało to opisane wcześniej. 4. Otrzymane w ten sposób wektory własne mają oczywiście ten sam wymiar, co dane wejściowe tj. wektory utworzone bezpośrednio z obrazów na podstawie wartości ich pikseli.
9 Metoda PCA 1. Każdy taki wektor własny przyczynia się do opisu wariancji w zbiorze przykładowych obrazów. 2. Każdy obraz ze zbioru uczącego przyczynia się w różnym stopniu do wartości każdego wektora własnego, a różny ich udział w tworzeniu różnych wektorów własnych może byd wykorzystany w celu ich opisu, odpowiedniego do zadania rozpoznania.
10 Metoda PCA 1. Wektory własne wyliczone w ten sposób tworzą nowy układ współrzędnych w przestrzeni początkowej, w której każdy wektor własny opisuje jedną oś tego nowego układu. 2. Zatem każda twarz określona początkowo jako wielowymiarowy wektor wartości pikseli może zostad zrzutowana na te osie i wyrażona jako liniowa kombinacja tych wektorów własnych. 3. Wektory własne tworzą zbiór obrazów bazowych i zwane są one eigenfaces (od angielskich słów eigenvalues i eigenvectors). 4. Każda twarz może byd również zrzutowana jedynie na najlepsze obrazy bazowe, czyli takie kierunki, które wyznaczone są przez wektory własne o największych wartościach własnych stowarzyszonych z nimi.
11 Metoda PCA 1. W przestrzeni wejściowej zostaje zatem wyznaczona podprzestrzeo, na którą rzutowane są wektory opisujce twarze. 2. Otrzymujemy redukcję wymiarowości, której stopieo zależy od liczby wybranych obrazów bazowych, na które odbywa się rzutowanie. 3. Każdy element nowopowstałego wektora cech określa współczynnik liniowej kombinacji odnoszący się do danego obrazu bazowego.
12 Metoda PCA 1. Kirby i Sirovich (Kirby, Sirovich, 1987, 1990) jako pierwsi wykorzystali tę technikę w celu efektywnego reprezentowania obrazów twarzy. 2. Używając metody PCA liczyli oni najlepszy układ współrzędnych użyty przez nich do kompresji obrazów, w którym każdy kierunek był wyznaczony przez obraz bazowy, zwany przez nich eigenpicture. 3. Twierdzili oni, że każdy obraz może byd przechowywany jako zbiór małej ilości wag liniowej kombinacji dokonywanej za pomoc pewnego zbioru bazowych obrazów. 4. Wagi takie znajdowane były przez rzutowanie każdego obrazu na każdy obraz bazowy.
13 Metoda PCA 1. Turk i Pentland (Turk, M., and Pentland, A., 1991) jako pierwsi zastosowali tę metodę do rozpoznawania twarzy. 2. Zauważyli oni, że jeśli wartości wag opisane powyżej charakteryzują daną twarz w stopniu wystarczającym do jej rekonstrukcji za pomocą obrazów bazowych, to byd może wagi te opisują globalne cechy twarzy, które mogą byd wykorzystane w celu znalezienia cech różniących poszczególne twarze między sobą. 3. Sposób ten okazał się niezwykle skuteczny. Pozostawiając jedynie niewielką liczbę najważniejszych wektorów własnych średniej macierzy autokorelacji wektorów wejściowych, dostaje się przez rzutowanie na te kierunki wektor wag, który jest właśnie poszukiwanym wektorem cech, użytym do rozpoznania. Ma on dużo mniejszy wymiar a jednocześnie zawiera wystarczającą ilośd informacji.
14 Metoda PCA Liczenie obrazów bazowych Załóżmy, że każdy obraz I( x, y) jest dwuwymiarową tablicą o elementach równych wartościom jasności pikseli. Może on byd również opisany jako wektor o wymiarze N 2. Tak wiec obraz o wymiarach np. 50x50 jest wektorem o wymiarze Zadaniem metody PCA jest znalezienie nowego układu współrzędnych, który najlepiej opisuje rozkład obrazów twarzy w tej wielowymiarowej przestrzeni. Każda twarz zostaje opisana w nowym układzie współrzędnych poprzez jej rzutowanie na nowy układ współrzędnych.
15 Metoda PCA
16 Metoda PCA
17 Metoda PCA
18 Metoda PCA Załóżmy, że dysponujemy zbiorem M obrazów twarzy opisanych jako N 2 - wymiarowe wektory które wykorzystane zostaną do wyliczenia wektorów własnych. Pierwszym krokiem jest obliczenie średniej twarzy Każda twarz zostaje opisana przez nowy wektor powstały przez odjęcie średniej twarzy
19 Metoda PCA Korzystając z tego zbioru wektorów, celem jest znalezienie M ortonormalnych wektorów u n, które najlepiej opisują rozkład danych wejściowych. Wektor k-ty u k jest tak dobrany, aby wyrażenie osiągnęło maximum pod warunkiem, że
20 Metoda PCA Wektory u k oraz skalary są odpowiednio wektorami i wartościami własnymi macierzy kowariancji
21 Metoda PCA 1. W przypadku jednak, gdy wymiar obrazu twarzy równa się np. 50x50, N 2 = 2500, wymiar macierzy symetrycznej C jest równy 2500x Z praktycznego punktu widzenia liczenie wartości i wektorów własnych tak dużej macierzy jest bardzo nieatrakcyjne. 3. Jeśli jednak danych wejściowych jest dużo mniej niż wymiar wejściowej przestrzeni (M<<N), istnieje tylko M-1 znaczących wektorów własnych. Pozostałe stowarzyszone są z wartościami własnymi bliskimi zeru, wiec nieprzydatnymi.
22 Metoda PCA Korzystny zatem jest następujący zabieg. Znajdźmy wektory własne v i macierzy A T A, czyli Jeżeli pomnożymy obie strony tego równania przez macierz A otrzymamy
23 Metoda PCA Stad wynika, że są szukanymi wektorami macierzy Konstruujemy zatem macierz o wymiarach MxM, gdzie i znajdujemy najpierw M wektorów własnych v i macierzy L. Ostatecznie, szukane wektory własne u l macierzy C otrzymujemy z równania
24 Metoda PCA 1. Za pomocą tej analizy obliczenia są znacznie zredukowane. 2. Liczenie wektorów własnych macierzy o wymiarach N 2 x N 2 ( NxN wymiar obrazu wejściowego) np. 2500x2500 jest zastąpione liczeniem wektorów własnych macierzy o wymiarach MxM ( M liczba dostępnych obrazów) np. 30x Wyliczone wartości własne pozwalają na uszeregowanie otrzymanych wektorów własnych zgodnie z ich ważnością.
25 Metoda PCA 1. Użytecznośd tego algorytmu wynika z postaci macierzy L. 2. Po pierwsze, ma ona o wiele niższy wymiar niż macierz C 3. Po drugie jest ona symetryczna i rzeczywista, wiec wektory i wartości własne są również rzeczywiste. 4. W praktyce liczenie wektorów i wartości własnych odbywa się za pomocą algorytmu QR, gdzie rzeczywista, symetryczna macierz A jest dekomponowana na iloczyn macierzy ortogonalnej Q oraz macierzy górnej trójkątnej R. 5. Algorytm QR jest rzędu O(N 3 ) dla każdej iteracji. Jednak ten sam algorytm jest rzędu jedynie O (N) dla każdej iteracji dla macierzy trójdiagonalnej. Zatem znaczne przyspieszenie obliczeo może byd osiągnięte przez przekształcenie macierzy L do postaci trójdiagonalnej za pomocą np. algorytmu Housholder a.
26 Metoda PCA Wynikiem obliczeo są obrazy bazowe tzw. eigenfaces, którymi są wektory własne macierzy C. Przykładowe twarze uczestniczące w tworzeniu obrazów bazowych.
27 Metoda PCA Otrzymano wektory bazowe znormalizowane, które w celu ich zaprezentowania przeskalowano na zakres [0,255] (zakres wartości pikseli). Otrzymane eigenfaces szeregowane są zgodnie z malejącymi wartościami stowarzyszonych wartości własnych. Przykładowe obrazy bazowe.
28 Średnia twarz Metoda PCA
29 Metoda PCA 1. Z powyższych rachunków otrzymano zbiór obrazów (wektorów) bazowych, które wyznaczaj podprzestrzeo przestrzeni początkowej. 2. Wymiarowośd problemu została znacznie ograniczona - w powyższym przykładzie obrazy miały wymiar 100x100, wiec wymiar przestrzeni wejściowej był równy 10000, natomiast uzyskano 25 wektorów bazowych, zatem podprzestrzeo, w której odbędzie się porównanie i rozpoznanie ma wymiar 24 ( M-1 wektorów znaczących), lub mniejszy, jako że nie ma konieczności rzutowania obrazów podlegających rozpoznaniu na wszystkie obrazy bazowe. 3. Często wystarczające jest wykorzystanie jedynie części z nich, np. takich z największymi stowarzyszonymi wartościami własnymi, jako takimi, które niosą najwięcej informacji o wariancji w zbiorze obrazów.
30 Metoda PCA 1. Często bowiem wektory własne z mniejszymi wartościami własnymi niosą informacje nieistotne, wręcz nieprzydatne, związane z szumem występującym w obrazach. 2. Niekiedy jednak nie jest to prawdą, gdyż, jeśli wśród obrazów istnieją duże różnice w jasności i oświetleniu, największe wektory własne mogą opisywad właśnie te cechy obrazów, które nie są istotne, a wręcz są niepożądane podczas rozpoznania.
31 Metoda PCA Każdy obraz, także nie uczestniczący w tworzeniu obrazów bazowych, jest rzutowany na powstałą podprzestrzeo poprzez prostą operację gdzie M jest liczbawybranych obrazów bazowych. Otrzymujemy wektor cech opisujący daną twarz Wektor ten zawiera wagi linowej kombinacji dla danego obrazu, jeśli ma on zostad zrekonstruowany na podstawie obrazów bazowych.
32 Metoda PCA Rekonstrukcja obrazu na podstawie wektora cech i obrazów bazowych odbywa się następująco:
33 Metoda PCA Rekonstrukcja obrazu za pomocą obrazów bazowych eigenfaces
34 Metoda PCA Rekonstrukcja ta obarczona jest błędem, który może byd w przybliżeniu określony jako Błąd ten rośnie, jeśli obrazy biorące udział w tworzeniu bazy różnią się znacząco miedzy sobą.
35 Metoda PCA Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych. Obraz brał udział w tworzeniu bazy.
36 Metoda PCA Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych. Obraz nie brał udziału w tworzeniu bazy.
37 Metoda PCA 1. Po obliczeniu obrazów bazowych, każdy obraz w bazie jest opisany za pomocą wektora cech. Wartości te są zapisywane w bazie w celu późniejszego ich wykorzystania. 2. Każdy nowy obraz pokazany systemowi jest opisywany za pomoc wektora cech poprzez dokonanie jego projekcji na te same obrazy bazowe. 3. Powstały wektor cech użyty jest do porównania danej twarzy z innymi. Dokonuje się tego za pomoc różnego rodzaju metryk (Euklidesa, iloczyn skalarny wektorów) lub stosując bardziej wymyślne metody klasyfikacji.
38 Metoda PCA
39 Metoda PCA
40 Metoda PCA Ekstrakcja składników głównych za pomocą sieci Hebba W celu dokonania analizy składników głównych PCA, można wykorzystad odpowiednio skonstruowaną i uczoną sied neuronów Hebba. W modelu Hebba wykorzystuje się obserwację neurobiologiczną, która zwraca uwagę na to, że waga połączenia między dwoma neuronami wzrasta przy jednoczesnym pobudzeniu obu neuronów, w przeciwnym wypadku maleje. Zmiana wag w takiej metodzie uczenia wygląda następująco: gdzie F(.) jest funkcją sygnału wejściowego (presynaptycznego) x j, oraz sygnału wyjściowego (postsynaptycznego) y i. W klasycznym wzorze Hebba reguła ta ma postad:
41 Metoda PCA Do wyznaczenia pierwszego składnika głównego y 1 i odpowiadającego mu wektora W 1 za pomocą sieci Hebba, Oja zaproponował sied złożonąz jednego neuronu liniowego, z którego otrzymuje się Adaptacja wag odbywa się po każdorazowym podaniu wzorca na wejście neuronu i przebiega według znormalizowanej reguły Hebba, zwanej regułą Oji: lub w postaci wektorowej
42 Metoda PCA W powyższym wzorze pierwszy składnik odpowiada regule Hebba, drugi natomiast zapewnia samonormalizację, tak aby Estymacja wielu składników głównych wymaga wielu neuronów w warstwie wyjściowej. Dobre rezultaty można otrzymad stosując regułę Sangera. Przy K neuronach liniowych w warstwie wyjściowej każdy z nich generuje sygnał będącym jednym ze składników głównych.
43 Metoda PCA Adaptacja wag następuje według wzoru Aby użyd powyższą metodę do uzyskania wektorów cech dla danych obrazów twarzy, należy na wejście sieci podawad znormalizowane wektory uzyskane identycznie jak w poprzednim rozdziale. Ustalając liczbę neuronów określamy liczbę składników głównych, które zostaną wyodrębnione kolejno przez wszystkie neurony.
44 Metoda PCA Odpowiednikiem wektorów własnych u i z poprzedniej metody są wagi danego neuronu W i. Wektor cech powstaje z odpowiedzi y i neuronów sieci na wzorzec przekazany na jej wejcie. Otrzymujemy zatem wektor cech w postaci Jeżeli przez W oznaczymy macierz to dla każdego obrazu. Rekonstrukcja odbywa się podobnie jak w poprzedniej metodzie
45 Metoda PCA Wagi każdego neuronu uczonego tą metodą podobnie jak w poprzedniej metodzie tworzą pewien obraz bazowy przypominający duchową twarz. Każdy obraz został utworzony z wag jednego neuronu przeskalowanych na zakres [0,255].
46 Metoda PCA Obraz oryginalny i zrekonstruowany za pomocą 25, 12, 5 oraz 3 obrazów bazowych otrzymanych z sieci Hebba. Obraz uczestniczył w uczeniu sieci.
47 Metoda PCA Obraz oryginalny i zrekonstruowany za pomocą kolejno 25, 12, 5 oraz 3 obrazów bazowych otrzymanych z sieci Hebba. Obraz nie uczestniczył w uczeniu sieci.
48 Metoda PCA Pytanie? Jak obliczyd wariancję wychwyconą przez kilka pierwszych składowych głównych, jeśli są one liczone za pomocą sieci neuronowej?
49 Wady PCA Metoda rozpoznawania twarzy za pomocą składników głównych PCA słusznie cieszy się powodzeniem wśród badaczy i twórców praktycznych systemów identyfikacji. Nie jest ona jednak metodą doskonałą, niepozbawioną pewnych wad, mimo swojej skuteczności. Według wielu badaczy, ICA (ang. Independent Component Analysis), przy odpowiednich założeniach, jest skuteczniejsza niż PCA. W praktyce wyodrębnianie statystycznie niezależnych składowych odbywa się poprzez odpowiednio skonstruowane i uczone sieci neuronowe.
50 Podsumowanie ogólnego podejścia Każdy obraz może byd przedstawiony jako liniowa kombinacja pewnych obrazów bazowych, które wyznaczają nowy układ współrzędnych w przestrzeni obrazów twarzy. Każdy obraz może byd zatem traktowany jako punkt w tej przestrzeni i opisany współrzędnymi przy wykorzystaniu rożnych układów współrzędnych (obrazów bazowych będących osiami w tej przestrzeni). Celem metody PCA jest dobranie takiego zbioru obrazów bazowych, aby w tym nowym układzie współrzędnych współczynniki PCA opisujące obrazy były nieskorelowane, to znaczy, aby żaden z nich nie mógł byd przedstawiony jako liniowa kombinacja pozostałych. Oznacza to, że zależności statystyczne pomiędzy pikselami w obrazach zawarte w łącznym rozkładzie prawdopodobieostwa są rozdzielone poprzez przeprowadzenie analizy PCA.
51 Wady metody PCA PCA jest w stanie usunąd jedynie zalżności statystyczne drugiego rzędu, co może byd intuicyjnie widoczne, jako że przy wyliczaniu PCA liczy się wektory własne macierzy autokorelacji, która jest w stanie opisad jedynie zależności drugiego rzędu. Z tego względu zależności statystyczne wyższego rzędu nadal pozostaną w opisie PCA.
52 W zadaniach typu rozpoznawanie twarzy lub analiza obrazów dużo ważnej informacji może byd zawartej w zależnościach statystycznych wyższego rzędu pomiędzy wartościami pikseli. Dlatego warto sprawdzid, czy metody, które byłyby uogólnieniami PCA i byłyby w stanie odseparowad te zależności na sygnały (w tym wypadku obrazy bazowe) statystycznie niezależne, nie byłyby skuteczniejsze. Jedną z takich metod jest metoda ICA.
53 PCA: Daje nieskorelowane współczynniki PCA Minimalizuje średniokwadratowy błąd rekonstrukcji danych wejściowych Jest to w pełni satysfakcjonujące jeśli dane wejściowe mają rozkład Gaussa. Wtedy bowiem cała informacja o rozkładzie jest zawarta w zależnościach statystycznych drugiego rzędu (macierz kowariancji). Problem pojawia się jeśli dane nie są gaussowskie.
54 Zaletey ICA w porównaniu do PCA Dostarcza lepszego probabilistycznego modelu zjawiska Wyznacza niekoniecznie ortogonalny układ współrzędnych, który pozwala na lepszą rekonstrukcję danych w przypadku wystąpienia dużych szumów Jest wrażliwa na zależności statystyczne wyższego rzędu występujące w danych wejściowych, nie tylko na zależności zawarte w macierzy kowariancji
55 Dwa pierwsze obrazy (po lewej) przedstawiają oryginalne twarze. Środkowe obrazy przedstawiają te same obrazy z zaszumioną fazą. Obrazy po prawej stronie przestawiają zrekonstruowane obrazy, z tym ze każdy z nich był zrekonstruowany w oparciu o wartości amplitudy własnego widma i fazy widma drugiego obrazu. Przekłamania, jakie pojawiają się w wyniku takiej operacji widad gołym okiem zrekonstruowana twarz bardziej podobna jest do twarzy, od której pochodziła składowa fazy widma. Eksperyment ten ukazuje jak ważna jest ta częśd informacji zawarta w fazie widma.
56 Związek miedzy tym eksperymentem a metodami PCA i ICA jest następujący: zależności statystyczne drugiego rzędu wychwytują informację zawartą jedynie w amplitudzie widma danego obrazu (czy tez ogólniej sygnału). Informacja niesiona przez fazę widma jest zawarte w zależnościach wyższego rzędu. W pokazanych powyżej obrazach zmiana wyglądu dla ludzkiego oka jest kolosalna, jednak zależności drugiego rzędu nie zostały zmienione.
57 Definicja ICA Metoda ICA (w swej podstawowej formie) jest definiowana jako przekształcenie liniowe Kryteria doboru macierzy tego przekształcenia (tzn. wektorów bazowych) są inne niż dla PCA, mianowicie parametrem, który jest maksymalizowany jest tutaj wzajemna statystyczna niezależnośd wektorów bazowych, lub też statystyczna niezależnośd współczynników ICA (odpowiedników parametrów linowej kombinacji z metody PCA).
58 W metodzie ICA zakłada się, że obserwowane są wektory których każda składowa jest liniową kombinacją pewnych niezależnych statystycznie komponentów Zakładamy, że każdy niezależny komponent s k oraz każda liniowa kombinacja x j jest zmienną losową (w innym podejściu może byd traktowana jako sygnał czasowy). Zakładamy, że wektory s oraz x mają zerową średnią wartośd. W przypadku, gdy nie jest to spełnione, zawsze można to osiągnąd poprzez odjeście od każdego wektora x wektora średniego. Powyższy model można zapisad w postaci macierzowej
59 ICA opisuje proces mieszania składników niezależnych s k poprzez pewien proces, tutaj założony jako proces liniowej kombinacji dokonywany za pomocą macierzy A. Przykładem takiego procesu jest nagrywanie za pomocą dwóch (lub więcej) mikrofonów dwóch osób mówiących jednocześnie. Dysponujemy dwoma nagraniami (składowe wektora x ), które powstały w wyniku zmieszania dwóch sygnałów mowy, które przebiegały w sposób niezależny (składowe wektora s ).
60 Procedura ICA W modelu ICA obserwujemy jedynie wektory x, nieznane są natomiast wektory s oraz macierz mieszająca A. Celem jest oszacowanie zarówno A jak i s. Punktem wyjścia analizy ICA umożliwiającym takie oszacowanie jest założenie statystycznej niezależności składowych s k wektora s. Zakłada się również, że składowe niezależne nie maja rozkładu prawdopodobieostwa Gaussa. Dla łatwości rozważao przyjęte jest, że macierz A jest kwadratowa.
61 Po oszacowaniu macierzy A można policzyd jej macierz odwrotną i otrzymad równanie którym szacuje się nieznane składniki niezależne. Z faktu iż zarówno macierz A jak i wektor s są nieznane, wynika, że nie można oszacowad wariancji oraz kolejności składników niezależnych.
62 Statystyczna niezależnośd Intuicyjnie rzecz ujmując, dwie zmienne losowe s 1 i s 2 są statystycznie niezależne, jeżeli wiedza o wartościach jednej z nich nie daje żadnej informacji o wartościach drugiej.
63 Statystyczna niezależnośd Formalnie niezależnośd statystyczną definiuje się przez funkcję gęstości prawdopodobieostwa. Jeśli przez p 1 (s 1 ) i p 2 (s 2 ) oznaczymy funkcje gęstości prawdopodobieostwa odpowiednio zmiennej s 1 i s 2, a przez p(s 1, s 2 ) łącznych rozkład prawdopodobieostwa s 1 i s 2, to s 1 i s 2 są statystycznie niezależne wtedy i tylko jeśli zachodzi związek p(s 1, s 2 ) = p 1 (s 1 ) * p 2 (s 2 ) przy czym
64 Z definicji wynika, że gdzie h i (.) są funkcjami skalarnymi Zmienne s 1 i s 2 są nieskorelowane, jeśli Widad więc, że niezależnośd zawiera w sobie nieskorelowanie zmiennych, natomiast zmienne nieskorelowane niekoniecznie muszą byd niezależne. Powyższe definicje rozciągnąd można na większą liczbę zmiennych s i.
65 Przykład: Statystyczna niezależnośd dwóch zmiennych oraz proces ich mieszania poprzez macierz A. Zmienne s 1 oraz s 2 mają rozkład jednostajny dany równaniem Zmienne x 1 i x 2 powstały przez zmieszanie s 1 i s 2 przez macierz
66 Z poniższych rysunków widad, że zmienne s 1 i s 2 są niezależne wartośd jednej z nich nic nie mówi o wartości drugiej. Natomiast widad, iż x 1 i x 2 nie są niezależne, gdyż jeśli jedna z nich zmierza do minimum lub maksimum, jednocześnie determinuje wartośd drugiej.
67 Widad, iż kolumny macierzy A wskazują kierunki brzegów równoległoboku (ich środki). Natomiast jeśli przyjmiemy rozkład prawdopodobieostwa Gaussa dla s 1 i s 2 oraz mieszającą macierz A ortogonalną, to również x 1 i x 2 mają rozkład Gaussa
68 Z rysunku takiego rozkładu widad (poniżej), że jest on całkowicie symetryczny i nie daje żadnej informacji o kierunkach kolumn macierzy A. Nie można zatem wyznaczyd macierzy A dla zmiennych gaussowskich. Jeśli jednak tylko jedna zmienna ma rozkład Gaussa, to analiza ICA jest możliwa.
69 Nie-gausowskośd a statystyczna niezależnośd Z powyższych wywodów wynika, że założenie, iż zmienne losowe podlegające analizie ICA nie mogą mied rozkładu Gaussa jest fundamentalne. Z twierdzenia znanego w statystyce jako Centralne Twierdzenie Graniczne, wynika, że pod pewnymi warunkami, łączny rozkład prawdopodobieostwa sumy niezależnych statystycznie zmiennych losowych dąży do rozkładu Gaussa. Z tego wynika, że suma zmiennych losowych niezależnych zazwyczaj ma rozkład bliższy rozkładowi Gaussa niż rozkład którejkolwiek z oryginalnych zmiennych losowych. Powyższe informacje są bardzo pomocne w analizie ICA.
70 Załóżmy, że macierz W jest macierzą odwrotnąmacierzy mieszającej A, oraz że chcemy oszacowad jeden z niezależnych składników oznaczony jako Szukamy zatem takiego wektora w, aby y j był estymacją jednego ze składników niezależnych s j. Okazuje się, że można do tego użyd Centralnego Twierdzenia Granicznego. Jeśli przez z oznaczymy otrzymamy następującą zależnośd
71 Wektor y jest zatem liniową kombinacją nieznanych niezależnych elementów s i. Jako, że są one niezależne, z Centralnego Twierdzenia Granicznego wynika, że jakakolwiek ich suma (także ważona z wagami z i ) będzie miała rozkład bardziej gaussowski niż jakikolwiek ze składników tej sumy. Zatem wynik operacji ma rozkład bardziej gausowski niż jakikolwiek składnik s i, z kolei najbardziej się on będzie różnił od rozkładu Gaussa, jeśli będzie się równał jednemu ze składników s i, co z kolei będzie spełnione, jeśli tylko jeden element wektora z będzie niezerowy.
72 Jeśli tak się stanie, zmiana w kierunku gausowskości w T x będzie osiągad minimum. W prosty zatem sposób można odwrócid rozumowanie i powiedzied, że jeśli dobierzemy taki wektor w, który maksymalizuje nie-gausowskośd w T x, to taki wektor w będzie odpowiadał wektorowi z z tylko jednym elementem niezerowym, zatem wynik mnożenia będzie jednym z szukanych składników niezależnych s i.
73 Powyższe rozumowanie jest w dużej części heurystyczne, jednak stanowi punkt wyjścia dla metod jak najbardziej nadających się do praktycznej estymacji składników niezależnych. Należy: zainicjowad wektor w zmieniad go iteracyjnie w kierunku, w którym gausowskośd w T x jest minimalizowana. Pytanie: Jaka jest miara gaussowskości rozkładu danej zmiennej losowej?
74 Istnieje wiele metod określania stopnia, w jakim rozkład danej zmiennej losowej jest podobny do rozkładu Gaussa. Zakładamy, że zmienna losowa y ma średnią wartośd równą zero i wariancję równą jeden.
75 Kurtoza Klasyczną metodą pomiaru gausowskości rozkładu jest moment statystyczny czwartego rzędu zwany kurtozą. Definicja: Kurtoza dla zmiennych losowych gausowskich jest równa zero, dla pozostałych w przeważającej większości przypadków jest różna od zera. Kurtoza może byd mniejsza lub większa od zera, zatem w celu określenia stopnia gausowskości rozkładu należy użyd jej absolutnej wartości.
76 Kurtoza Posiada ona dwie ważne z punktu widzenia analitycznego i praktycznego właściwości gdzie alfa to skalar W praktyce estymacje kurtozy mogą byd bardzo czułe na niewielkie błędy pomiarowe i sprawiad, że estymacje te obarczone są zbyt dużym błędem, by mogły byd praktycznie użyteczne.
77 Entropia Entropia zmiennej losowej może byd rozumiana jako ilośd informacji, jaką można otrzymad poprzez obserwacje danej zmiennej losowej. Im bardziej losowa jest ta zmienna (nieuporządkowana i nieprzewidywalna), tym większa jest jej entropia. Definicja entropii dla zmiennej losowej ciągłej Y jest następująca : a dla zmiennej losowej dyskretnej y - prawdopodobieostwo, że zmienna losowa y przyjmie wartośd a i
78 Fundamentalnym twierdzeniem teorii informacji jest stwierdzenie, że zmienna losowa o rozkładzie Gaussa ma największą entropię spośród wszystkich zmiennych losowych o zadanej wariancji. Z tego wynika, że entropia może byd miarą gausowskości danego rozkładu. Aby otrzymad miarę gausowskości równą zero dla rozkładu Gaussa oraz zawsze większ od zera dla pozostałych zmiennych losowych definiuje się pojęcie negentropii J gdzie y gauss jest zmienną losową o rozkładzie Gaussa oraz tej samej wariancji co zmienna y
79 Wada negentropii Negentropia jako miara gausowskości ma ważną wadę, a mianowicie wymaga estymacji funkcji rozkładu prawdopodobieostwa zmiennej losowej, co w praktyce może przysparzad problemy. Dlatego też, zamiast stosowad ją w praktyce bezpośrednio, używa się innych estymatorów. Poniższy estymator oparty jest na momentach statystycznych wyższego rzędu
80 Inne rozwiązanie to estymacja negentropii za pomocą równania gdzie v jest zmienną losową o rozkładzie Gaussa o zerowej średniej wartości i jednostkowej wariancji, a G to odpowiednio dobrana funkcja niekwadratowa. Dowiedziono, że następujące funkcje G dobrze sprawdzają się w praktyce
81 Przygotowanie danych wejściowych Podstawowym zabiegiem dokonywanym na danych wejściowych jest uczynienie z nich danych o zerowej średniej wartości. Jeśli danymi wejściowymi są wektory x, można tego dokonad poprzez odjęcie od każdego z nich średniego wektora rozumianego jako m=e{x} Następną operacją jest zabieg określany angielskim terminem wybielania (ang. whitening). Polega to na przekształceniu danych poprzez liniową transformację w nowe dane, które sąnieskorelowane oraz o zerowej wariancji tzn.
82 Jest to zawsze możliwe. Popularną metodą jest wykonanie dekompozycji do postaci gdzie B jest macierz ortogonalną złożoną z wektorów własnych macierzy a D jest macierz diagonalną z odpowiadającymi wektorom wartościami własnymi Następnie dokonuje się przekształcenia gdzie
83 Algorytm FastICA Estymacja składników ICA w metodzie FastICA polega na wyodrębnieniu tych składników poprzez siec neuronową uczoną bez nauczyciela (bez nadzoru). Podobnie jak w metodzie estymacji składników PCA siecią Hebba, tak i teraz każdy neuron ma za zadanie wyodrębnid jeden składnik ICA. W tym przypadku jednak kolejnośd wyodrębnianych składników ICA nie ma większego znaczenia i zależy ona od początkowych losowych wartości wag każdego neuronu. Sied ma za zadanie estymowad macierz W dokonując przekształcenia y =Wx, gdzie y jest poszukiwanym wektorem składników ICA. Wierszami macierzy W są wagi poszczególnych neuronów sieci.
84 Algorytm FastICA Neurony mają zdolnośd adaptacji swoich wag w zależności od przykładowych danych uczących oraz od składników ICA wyodrębnionych wcześniej przez inne neurony, co ma na celu zapobiec zbieżności różnych neuronów do tego samego składnika ICA. Algorytm opiera się na maksymalizowaniu nie gausowskości wyników mnożenia w T x dla każdego neuronu, gdzie w jest wektorem wag danego neuronu. Wariancja w T x musi byd równa jedności, co dla danych poddanych wstępnej obróbce opisanej wcześniej sprowadza się do ograniczenia normy w do jedności
85 Algorytm FastICA Poprzez funkcje g oznaczamy pochodne funkcji G wprowadzonych wcześniej dla estymacji gausowskości rozkładu zmiennych losowych. Dla przykładowych funkcji podanych wcześniej wynoszą one odpowiednio
86 Algorytm dla jednego neuronu przebiega następująco: 1. Zainicjuj losowo wagi w neuronu 2. Przeprowad adaptację wag neuronu zgodnie z równaniem 3. Normalizuj wektor wag 4. Jeśli aktualne rozwiązanie nie jest zbieżne, wród do punktu 2 Rozwiązanie jest zbieżne, jeśli nowe i stare wartości wag różnią się od siebie mniej niż pewna wartośd graniczna, np. ich iloczyn skalarny jest bliski jedności.
87 Powyższym sposobem można otrzymad estymację jednego składnika ICA. Dla estymacji każdego kolejnego, należy wprowadzid dodatkowy krok w algorytmie zapobiegający zbieganiu się rozwiązao kolejnych neuronów do już znalezionych rozwiązao. Aby to osiągnąd, wyjścia wszystkich neuronów muszą byd dekorelowane po każdej iteracji.
88 Jednym ze sposobów na dokonanie tego jest schemat Grama-Schmidta. W podejściu tym estymujemy kolejne składniki ICA jeden po drugim. Jeśli wektory wag zostały już obliczone, podczas liczenia wektora wag p w + 1 po każdej iteracji dokonujemy dodatkowych dwóch kroków
89 W ten sposób można otrzymad estymację dowolnej liczby wzajemnie niezależnych składników ICA. Powyższy algorytm ma tę zaletę nad algorytmami gradientowymi, iż nie występuje w nim współczynnik uczenia, zatem nie ma potrzeby doboru odpowiedniej długości kroku podczas adaptacji wag. Jego zbieżnośd również jest szybsza niż algorytmów gradientowych. Nie potrzebne jest również określenie estymacji funkcji rozkładu prawdopodobieostwa danych wejściowych. Algorytm można optymalizowad poprzez odpowiedni dobór funkcji g, jednak te przedstawione powyżej sąwystarczające w większości wypadków.
90 Algorytm InfoMax Jest to inny algorytm do liczenia składników ICA, również oparty na architekturze sieci neuronowej. Oparty jest na zasadzie minimalizowanie informacji wzajemnej (ang. Mutual information)
91 Dwie architektury ICA dla obrazów Celem jest znalezienie odpowiednich bazowych obrazów, za pomocą których można reprezentowad dowolny obraz poddawany analizie. Każdy obraz może byd zorganizowany jako długi wektor o długości równej liczbie jego pikseli. Istniej dwa sposoby, na jakie można z tych wektorów utworzyd macierz X.
92 W pierwszym sposobie każdy wiersz macierzy X utworzony jest z wektora reprezentującego jeden obraz. W tym podejściu obrazy są zmiennymi losowymi a wartości pikseli sąpomiarami (tworząkolejne kolumny macierzy X ). W tym przypadku możemy mówid o niezależności obrazów, co będzie miało miejsce wtedy, gdy nie będzie można powiedzied nic o wartości, jak przyjmuje dany piksel w obrazie na podstawie wartości odpowiedniego piksela w drugim obrazie.
93
94 W sposobie drugim każda kolumna macierzy X stanowi wektor reprezentujący jeden obraz. W tym podejściu piksele są zmiennymi losowymi a obrazy kolejnymi pomiarami. W tym przypadku mówi się o niezależności pikseli, co będzie miało miejsce wtedy, gdy nie można stwierdzid nic o wartości piksela i-tego na podstawie wartości piksela j-tego w tym samym obrazie.
95
96 Problemy Niezależnie od wyboru architektury, pojawia się problem, jeżeli dostępnych obrazów jest zbyt wiele, gdyż zadanie staje się wymagające obliczeniowo i bardzo szybko może stad się niepraktyczne z powodu dużych wymogów obliczeniowych. Dlatego tez zamiast stosowad powyższe architektury bezpośrednio na obrazach, wykorzystuje się metodę PCA jako pierwszy krok dla ICA. Przyspiesza to również działanie algorytmu.
97 Uwaga W architekturze pierwszej celem było otrzymanie niezależnych statystycznie obrazów bazowych, jednak gdy zostanie to osiągnięte, otrzymane współczynniki opisujące liniową kombinację obrazów bazowych ICA niekoniecznie są niezależne.
98
99 Powyższe obrazy należy interpretowad następująco: Architektura pierwsza ICA stara się wyodrębnid grupy pikseli, które mają podobne właściwości we wszystkich obrazach. Otrzymujemy, zatem obrazy bazowe niezależne od siebie (na tyle na ile było to możliwe dla algorytmu). Widad, że obrazy te przedstawiają bardziej lokalne cechy, na podstawie których następnie rekonstruowana jest dana twarz. W architekturze drugiej natomiast ICA stara się wykryd te obrazy, które mają podobne cechy analizując kolejno poszczególne piksele obrazów. Dlatego obrazy bazowe przypominają bardziej twarze niż obrazy z architektury pierwszej. ICA architektury drugiej stara się uśrednid obrazy należące do tej samej osoby. Obrazy bazowe nie są niezależne, niezależne są natomiast współczynniki ICA otrzymane poprzez rzutowanie obrazów na bazę.
100
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
10. Redukcja wymiaru - metoda PCA
Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component
ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU
ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU obraz dr inż. Jacek Naruniec Analiza Składowych Niezależnych (ICA) Independent Component Analysis Dąży do wyznaczenia zmiennych niezależnych z obserwacji Problem opiera
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych
Rozpoznawanie twarzy za pomocą sieci neuronowych
Rozpoznawanie twarzy za pomocą sieci neuronowych Michał Bereta http://torus.uck.pk.edu.pl/~beretam Praktyczna przydatność Bardzo szerokie praktyczne zastosowanie Ochrona Systemy bezpieczeństwa (np. lotniska)
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
5. Rozwiązywanie układów równań liniowych
5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Macierze. Rozdział Działania na macierzach
Rozdział 5 Macierze Funkcję, która każdej parze liczb naturalnych (i, j) (i 1,..., n; j 1,..., m) przyporządkowuje dokładnie jedną liczbę a ij F, gdzie F R lub F C, nazywamy macierzą (rzeczywistą, gdy
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0
Uczenie się pojedynczego neuronu W0 X0=1 W1 x1 W2 s f y x2 Wp xp p x i w i=x w+wo i=0 Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z=0 Wówczas: W 1 x 1 + w 2 x 2 + = 0 Algorytm
WYKŁAD 9 METODY ZMIENNEJ METRYKI
WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać
TRANSFORMACJE I JAKOŚĆ DANYCH
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH
Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać układu równań liniowych Układ liniowych równań algebraicznych
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Analiza składników podstawowych - wprowadzenie (Principal Components Analysis
Wartości i wektory własne
Dość często przy rozwiązywaniu problemów naukowych czy technicznych pojawia się konieczność rozwiązania dość specyficznego układu równań: Zależnego od n nieznanych zmiennych i pewnego parametru. Rozwiązaniem
Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG
Kodowanie transformacyjne Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG Zasada Zasada podstawowa: na danych wykonujemy transformacje która: Likwiduje korelacje Skupia energię w kilku komponentach
Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm
Rozdział 5 Macierze Funkcję, która każdej parze liczb naturalnych (i,j) (i = 1,,n;j = 1,,m) przyporządkowuje dokładnie jedną liczbę a ij F, gdzie F = R lub F = C, nazywamy macierzą (rzeczywistą, gdy F
Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335
Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Wykład 10 Mapa cech Kohonena i jej modyfikacje - uczenie sieci samoorganizujących się - kwantowanie wektorowe
Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań
... Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 Wyłączenie odpowiedzialności
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.
WYDZIAŁ ELEKTROTECHNIKI I AUTOMATYKI Katedra Inżynierii Systemów Sterowania PODSTAWY AUTOMATYKI MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
Prawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
Metoda eliminacji Gaussa. Autorzy: Michał Góra
Metoda eliminacji Gaussa Autorzy: Michał Góra 9 Metoda eliminacji Gaussa Autor: Michał Góra Przedstawiony poniżej sposób rozwiązywania układów równań liniowych jest pewnym uproszczeniem algorytmu zwanego
1 Układy równań liniowych
II Metoda Gaussa-Jordana Na wykładzie zajmujemy się układami równań liniowych, pojawi się też po raz pierwszy macierz Formalną (i porządną) teorią macierzy zajmiemy się na kolejnych wykładach Na razie
Metody numeryczne Wykład 4
Metody numeryczne Wykład 4 Dr inż. Michał Łanczont Instytut Elektrotechniki i Elektrotechnologii E419, tel. 4293, m.lanczont@pollub.pl, http://m.lanczont.pollub.pl Zakres wykładu Metody skończone rozwiązywania
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Analiza obrazów - sprawozdanie nr 2
Analiza obrazów - sprawozdanie nr 2 Filtracja obrazów Filtracja obrazu polega na obliczeniu wartości każdego z punktów obrazu na podstawie punktów z jego otoczenia. Każdy sąsiedni piksel ma wagę, która
Układy równań i nierówności liniowych
Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Statystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Uczenie sieci typu MLP
Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik
Rozwiązywanie równań nieliniowych
Rozwiązywanie równań nieliniowych Marcin Orchel 1 Wstęp Przykłady wyznaczania miejsc zerowych funkcji f : f(ξ) = 0. Wyszukiwanie miejsc zerowych wielomianu n-tego stopnia. Wymiar tej przestrzeni wektorowej
O MACIERZACH I UKŁADACH RÓWNAŃ
O MACIERZACH I UKŁADACH RÓWNAŃ Problem Jak rozwiązać podany układ równań? 2x + 5y 8z = 8 4x + 3y z = 2x + 3y 5z = 7 x + 8y 7z = Definicja Równanie postaci a x + a 2 x 2 + + a n x n = b gdzie a, a 2, a
KADD Minimalizacja funkcji
Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego
Układy równań liniowych
Układy równań liniowych Niech K będzie ciałem. Niech n, m N. Równanie liniowe nad ciałem K z niewiadomymi (lub zmiennymi) x 1, x 2,..., x n K definiujemy jako formę zdaniową zmiennej (x 1,..., x n ) K
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH
Transport, studia I stopnia rok akademicki 2011/2012 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Uwagi wstępne Układ liniowych równań algebraicznych można
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH
METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH Jednym z zastosowań metod numerycznych jest wyznaczenie pierwiastka lub pierwiastków równania nieliniowego. W tym celu stosuje się szereg metod obliczeniowych np:
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.
1 Wektory Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem. 1.1 Dodawanie wektorów graficzne i algebraiczne. Graficzne - metoda równoległoboku. Sprowadzamy wektory
Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn
Metody numeryczne Wykład 3 Dr inż. Michał Łanczont Instytut Elektrotechniki i Elektrotechnologii E419, tel. 4293, m.lanczont@pollub.pl, http://m.lanczont.pollub.pl Zakres wykładu Pojęcia podstawowe Algebra
Programowanie dynamiczne
Programowanie dynamiczne Ciąg Fibonacciego fib(0)=1 fib(1)=1 fib(n)=fib(n-1)+fib(n-2), gdzie n 2 Elementy tego ciągu stanowią liczby naturalne tworzące ciąg o takiej własności, że kolejny wyraz (z wyjątkiem
Rozwiązywanie układów równań liniowych
Rozwiązywanie układów równań liniowych Marcin Orchel 1 Wstęp Jeśli znamy macierz odwrotną A 1, to możęmy znaleźć rozwiązanie układu Ax = b w wyniku mnożenia x = A 1 b (1) 1.1 Metoda eliminacji Gaussa Pierwszy
Estymacja wektora stanu w prostym układzie elektroenergetycznym
Zakład Sieci i Systemów Elektroenergetycznych LABORATORIUM INFORMATYCZNE SYSTEMY WSPOMAGANIA DYSPOZYTORÓW Estymacja wektora stanu w prostym układzie elektroenergetycznym Autorzy: dr inż. Zbigniew Zdun
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
; B = Wykonaj poniższe obliczenia: Mnożenia, transpozycje etc wykonuję programem i przepisuję wyniki. Mam nadzieję, że umiesz mnożyć macierze...
Tekst na niebiesko jest komentarzem lub treścią zadania. Zadanie. Dane są macierze: A D 0 ; E 0 0 0 ; B 0 5 ; C Wykonaj poniższe obliczenia: 0 4 5 Mnożenia, transpozycje etc wykonuję programem i przepisuję
Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji.
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Centralne Twierdzenie Graniczne 1.1 Twierdzenie Lindeberga Levy'ego 1.2 Dowód 1.2.1 funkcja tworząca sumy zmiennych niezależnych 1.2.2 pochodna funkcji
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Aproksymacja. funkcji: ,a 2. ,...,a m. - są funkcjami bazowymi m+1 wymiarowej podprzestrzeni liniowej X m+1
Założenie: f(x) funkcja którą aproksymujemy X jest przestrzenią liniową Aproksymacja liniowa funkcji f(x) polega na wyznaczeniu współczynników a 0,a 1,a 2,...,a m funkcji: Gdzie: - są funkcjami bazowymi
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Algebra liniowa z geometrią
Algebra liniowa z geometrią Maciej Czarnecki 15 stycznia 2013 Spis treści 1 Geometria płaszczyzny 2 1.1 Wektory i skalary........................... 2 1.2 Macierze, wyznaczniki, układy równań liniowych.........
Zaawansowane metody numeryczne
Wykład 11 Ogólna postać metody iteracyjnej Definicja 11.1. (metoda iteracyjna rozwiązywania układów równań) Metodą iteracyjną rozwiązywania { układów równań liniowych nazywamy ciąg wektorów zdefiniowany
a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...
Wykład 15 Układy równań liniowych Niech K będzie ciałem i niech α 1, α 2,, α n, β K. Równanie: α 1 x 1 + α 2 x 2 + + α n x n = β z niewiadomymi x 1, x 2,, x n nazywamy równaniem liniowym. Układ: a 21 x
dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;
Wykłady 8 i 9 Pojęcia przestrzeni wektorowej i macierzy Układy równań liniowych Elementy algebry macierzy dodawanie, odejmowanie, mnożenie macierzy; macierz odwrotna dr Mariusz Grządziel 15,29 kwietnia
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Implementacja filtru Canny ego
ANALIZA I PRZETWARZANIE OBRAZÓW Implementacja filtru Canny ego Autor: Katarzyna Piotrowicz Kraków,2015-06-11 Spis treści 1. Wstęp... 1 2. Implementacja... 2 3. Przykłady... 3 Porównanie wykrytych krawędzi
3. Interpolacja. Interpolacja w sensie Lagrange'a (3.1) Dana jest funkcja y= f x określona i ciągła w przedziale [a ;b], która
3. Interpolacja Interpolacja w sensie Lagrange'a (3.1) Dana jest funkcja y= f x określona i ciągła w przedziale [a ;b], która przyjmuje wartości y 1, y 2,, y n, dla skończonego zbioru argumentów x 1, x
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
15. Macierze. Definicja Macierzy. Definicja Delty Kroneckera. Definicja Macierzy Kwadratowej. Definicja Macierzy Jednostkowej
15. Macierze Definicja Macierzy. Dla danego ciała F i dla danych m, n IN funkcję A : {1,...,m} {1,...,n} F nazywamy macierzą m n ( macierzą o m wierszach i n kolumnach) o wyrazach z F. Wartość A(i, j)
Co to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
8. Neuron z ciągłą funkcją aktywacji.
8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i
SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa
SIMR 06/07, Analiza, wykład, 07-0- Przestrzeń wektorowa Przestrzeń wektorowa (liniowa) - przestrzeń (zbiór) w której określone są działania (funkcje) dodawania elementów i mnożenia elementów przez liczbę
3. Wykład Układy równań liniowych.
31 Układy równań liniowych 3 Wykład 3 Definicja 31 Niech F będzie ciałem Układem m równań liniowych o niewiadomych x 1,, x n, m, n N, o współczynnikach z ciała F nazywamy układ równań postaci: x 1 + +
3. Macierze i Układy Równań Liniowych
3. Macierze i Układy Równań Liniowych Rozważamy równanie macierzowe z końcówki ostatniego wykładu ( ) 3 1 X = 4 1 ( ) 2 5 Podstawiając X = ( ) x y i wymnażając, otrzymujemy układ 2 równań liniowych 3x
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 10. WNIOSKOWANIE W LOGICE ROZMYTEJ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WNIOSKOWANIE W LOGICE DWUWARTOŚCIOWEJ W logice
Sieć przesyłająca żetony CP (counter propagation)
Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Pracownia Astronomiczna. Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu
Pracownia Astronomiczna Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu Każdy pomiar obarczony jest błędami Przyczyny ograniczeo w pomiarach: Ograniczenia instrumentalne
Metody numeryczne I Równania nieliniowe
Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem
Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji
Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji Adam Kiersztyn Lublin 2014 Adam Kiersztyn () Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji maj 2014 1 / 24 Zanim przejdziemy
Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.
Sieci rekurencyjne Ewa Adamus ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych 7 maja 2012 Jednowarstwowa sieć Hopfielda, z n neuronami Bipolarna funkcja przejścia W wariancie
D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO
D. Miszczyńska, M.Miszczyński KBO UŁ GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO Gra w sensie niżej przedstawionym to zasady którymi kierują się decydenci. Zakładamy, że rezultatem gry jest wypłata,
Wykład z równań różnicowych
Wykład z równań różnicowych 1 Wiadomości wstępne Umówmy się, że na czas tego wykładu zrezygnujemy z oznaczania n-tego wyrazu ciągu symbolem typu x n, y n itp. Zamiast tego pisać będziemy x (n), y (n) itp.
Estymacja parametrów, przedziały ufności etc
Estymacja parametrów, przedziały ufności etc Liniowa MNK przypomnienie Wariancja parametrów Postulat Bayesa: rozkłady p-stwa dla parametrów Przypadek nieliniowy Przedziały ufności Rozkłady chi-kwadrat,
Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska
Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites
Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.
. Metoda eliminacji. Treść wykładu i ich macierze... . Metoda eliminacji. Ogólna postać układu Układ m równań liniowych o n niewiadomych x 1, x 2,..., x n : a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21
Wykład 14. Elementy algebry macierzy
Wykład 14 Elementy algebry macierzy dr Mariusz Grządziel 26 stycznia 2009 Układ równań z dwoma niewiadomymi Rozważmy układ równań z dwoma niewiadomymi: a 11 x + a 12 y = h 1 a 21 x + a 22 y = h 2 a 11,
Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra
Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2012 Uwarunkowanie zadania numerycznego Niech ϕ : R n R m będzie pewna funkcja odpowiednio wiele
1 Metody rozwiązywania równań nieliniowych. Postawienie problemu
1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:
CMAES Covariance Matrix Adaptation Evolution Strategy Opracowanie: Lidia Wojciechowska W algorytmie CMAES, podobnie jak w algorytmie EDA, adaptowany jest rozkład prawdopodobieństwa generacji punktów, opisany
Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,
1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości