SPOTKANIE 9: Metody redukcji wymiarów

Podobne dokumenty
SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Stosowana Analiza Regresji

10. Redukcja wymiaru - metoda PCA

SPOTKANIE 2: Wprowadzenie cz. I

Analiza składowych głównych. Wprowadzenie

Metody systemowe i decyzyjne w informatyce

Analiza składowych głównych

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH

Geometria Lista 0 Zadanie 1

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wykład 10 Skalowanie wielowymiarowe

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Optymalizacja ciągła

Elementy statystyki wielowymiarowej

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

ALGEBRA LINIOWA Z ELEMENTAMI GEOMETRII ANALITYCZNEJ

Algebra Liniowa 2 (INF, TIN), MAP1152 Lista zadań

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Elementy Modelowania Matematycznego Wykład 7 Programowanie nieliniowe i całkowitoliczbowe

Lista. Przestrzenie liniowe. Zadanie 1 Sprawdź, czy (V, +, ) jest przestrzenią liniową nadr :

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Uczenie sieci typu MLP

Programowanie liniowe

Wykład 4 Udowodnimy teraz, że jeśli U, W są podprzetrzeniami skończenie wymiarowej przestrzeni V to zachodzi wzór: dim(u + W ) = dim U + dim W dim(u

KADD Minimalizacja funkcji

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Prawdopodobieństwo i statystyka

SPOTKANIE 1: Wprowadzenie do uczenia maszynowego

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Aproksymacja funkcji a regresja symboliczna

Modyfikacja schematu SCPF obliczeń energii polaryzacji

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Co to jest grupowanie

Rozpoznawanie obrazów

Uczenie sieci neuronowych i bayesowskich

TEORIA GRAFÓW I SIECI

Jak łatwo zauważyć, zbiór form symetrycznych (podobnie antysymetrycznych) stanowi podprzestrzeń przestrzeni L(V, V, K). Oznaczamy ją Sym(V ).

Metody systemowe i decyzyjne w informatyce

Układy równań liniowych

KADD Minimalizacja funkcji

Układy równań nieliniowych (wielowymiarowa metoda Newtona-Raphsona) f(x) = 0, gdzie. dla n=2 np.

Układy równań i równania wyższych rzędów

R n = {(x 1, x 2,..., x n ): x i R, i {1,2,...,n} },

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Hierarchiczna analiza skupień

5. Rozwiązywanie układów równań liniowych

PROGRAMOWANIE KWADRATOWE

2 1 3 c c1. e 1, e 2,..., e n A= e 1 e 2...e n [ ] M. Przybycień Matematyczne Metody Fizyki I

Informacja o przestrzeniach Hilberta

1 Podobieństwo macierzy

Lista. Algebra z Geometrią Analityczną. Zadanie 1 Przypomnij definicję grupy, które z podanych struktur są grupami:

Układy równań i nierówności liniowych

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Programowanie liniowe metoda sympleks

1 Pochodne wyższych rzędów

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Ważne rozkłady i twierdzenia c.d.

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Kombinacje liniowe wektorów.

Elementy Modelowania Matematycznego

. : a 1,..., a n F. . a n Wówczas (F n, F, +, ) jest przestrzenią liniową, gdzie + oraz są działaniami zdefiniowanymi wzorami:

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

WEKTORY I WARTOŚCI WŁASNE MACIERZY. = λ c (*) problem przybliżonego rozwiązania zagadnienia własnego dla operatorów w mechanice kwantowej

PROGRAMOWANIE NIELINIOWE

Przekształcanie równań stanu do postaci kanonicznej diagonalnej

Programowanie liniowe metoda sympleks

Plan wykładu. Przykład. Przykład 3/19/2011. Przykład zagadnienia transportowego. Optymalizacja w procesach biznesowych Wykład 2 DECYZJA?

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Metody systemowe i decyzyjne w informatyce

Zastosowania sieci neuronowych

Zaawansowane metody numeryczne

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Wielokryteriowa optymalizacja liniowa

Lokalna odwracalność odwzorowań, odwzorowania uwikłane

Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe.

Optymalizacja systemów

8. Neuron z ciągłą funkcją aktywacji.

Baza w jądrze i baza obrazu ( )

Teoretyczne podstawy programowania liniowego

Rozwiązania, seria 5.

Zaawansowane metody numeryczne

Spacery losowe generowanie realizacji procesu losowego

Uczenie sieci radialnych (RBF)

cx cx 1,cx 2,cx 3,...,cx n. Przykład 4, 5

ALGEBRA LINIOWA Z GEOMETRIĄ, LISTA ZADAŃ NR 8

Estymacja wektora stanu w prostym układzie elektroenergetycznym

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

7. Maszyny wektorów podpierajacych SVMs

1 Formy hermitowskie. GAL (Informatyka) Wykład - formy hermitowskie. Paweł Bechler

Agnieszka Nowak Brzezińska

Transkrypt:

Wrocław University of Technology SPOTKANIE 9: Metody redukcji wymiarów Piotr Klukowski* Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.wroc.pl 08.12.2015 *Część slajdów pochodzi z prezentacji dr Tomczaka z dnia 10.01.2014

Redukcja wymiarów: intuicja (1/3) Rysunek: Wizualizacja losowego podzbioru MNIST 2/27

Redukcja wymiarów: intuicja (2/3) Rysunek: Podzbiór MNIST po redukcji wymiarów Źródło: J. B. Tenenbaum, V. De Silva, and J. C. Langford, A global geometric framework for nonlinear dimensionality reduction, Science, vol. 290, no. 5500, pp. 2319 2323, 2000 3/27

Redukcja wymiarów: intuicja (3/3) Rysunek: Zbiór obrazów twarzy po redukcji wymiarów Źródło: J. B. Tenenbaum, V. De Silva, and J. C. Langford, A global geometric framework for nonlinear dimensionality reduction, Science, vol. 290, no. 5500, pp. 2319 2323, 2000 4/27

Redukcja wymiarów Zmienne wejściowe x R D. Nie dysponujemy etykietami, tj. nie posiadamy zmiennej wyjściowej. Problem: znalezienie niskowymiarowej podprzestrzeni (rozmaitości) z R M, na której leżą dane D = {x 1,..., x N }. Obserwacje mogą zostać zakodowane przy pomocy układu współrzędnych związanego z niskowymiarową podprzestrzenią (rozmaitością). 5/27

Przejścia między R D i R M Kluczową kwestią w zadaniu redukcji wymiarów jest: wyznaczenie przejścia z przestrzeni wysokowymiarowej do niskowymiarowej, g : R D R M ; wyznaczenie przejścia z przestrzeni niskowymiarowej do wysokowymiarowej, f : R M R D. Część metod redukcji wymiarów wyznacza oba przekształcenia, jedno lub żadne. 6/27

Liniowe podprzestrzenie Dalej skupiać się będziemy na liniowych podprzestrzeniach. Zakładamy, że dane rozkładają się na niskowymiarowej, liniowej podprzestrzeni. Przekształcenia g i f są przekształceniami liniowymi, tj. g(x) = Ax + b oraz f(z) = Cz + d UWAGA: problem redukcji wymiarów nie jest problemem regresji liniowej! 7/27

Principal Component Analysis (PCA) Analiza składowych głównych (ang. Principal Component Analysis, PCA) służy do redukcji wymiarów poprzez liniową transformację zbioru zmiennych zależnych w mniej liczny zbiór zmiennych niezależnych, zwanych składowymi głównymi. Istnieją dwa równoważne sformułowania problemu: maksymalizacja wariancji: pozostawiamy M < D najbardziej informacyjnych zmiennych, co w przypadku zmiennych gaussowskich jest równoznaczne ze zmiennymi o największej wariancji; x 2 x n x n u 1 minimalizacja błędu: pozostawiamy M < D zmiennych, dla których błąd rekonstrukcji jest najmniejszy (w sensie błędu średniokwadratowego). x 1 8/27

Maksymalizacja wariancji (ang. maximum variance formulation) Interesuje nas zrzutowanie danych na podprzestrzeń liniową o wymiarze M < D tak, aby maksymalizować wariancję zrzutowanych danych. Załóżmy na chwilę, że M = 1. Definiujemy kierunek podprzestrzeni za pomocą wektora jednostkowego u 1 R D, czyli u T 1 u 1 = 1. Każdy x jest zrzutowany w punkt u T 1 x. Średnia zrzutowanych danych wynosi u T 1 x, gdzie średnia z próby: x = 1 N N x n. n=1 9/27

Maksymalizacja wariancji (2) Wariancja zrzutowanych danych wynosi 1 N N { u T 1 x n u T 1 x} 2 = u T 1 Su 1 n=1 gdzie empiryczna macierz kowariancji: S = 1 N N (x n x)(x n x) T. n=1 Interesuje nas rozwiązanie następującego problemu optymalizacji: max u 1 u T 1 Su 1 p.o. u T 1 u 1 = 1 10/27

Maksymalizacja wariancji (3) Funkcja Lagrange a : u T 1 Su 1 + λ 1 (1 u T 1 u 1 ). Rozwiązując względem u 1 (licząc pochodną i przyrównując do 0): Su 1 = λ 1 u 1 czyli u 1 jest wektorem własnym S. Mnożąc lewostronnie przez u T 1 mamy u T 1 Su 1 = λ 1 u T 1 u 1 }{{} =1 Zauważmy, że wariancja zrzutowanych danych będzie maksymalna, jeśli u 1 będzie wektorem własnym o największej wartości własnej λ 1. 11/27

Maksymalizacja wariancji (4) Wartości własne λ m odpowiadają za wariancję danych zrzutowanych na prostą o kierunku wyznaczonym przez wektor własny u m. Wyznaczenie M-wymiarowej podrzestrzeni sprowadza się więc do znalezienia M wektorów własnych u 1,..., u M empirycznej macierzy kowariancji S, odpowiadających M największym wartościom własnym λ 1,..., λ M. Złożoność obliczeniowa metody sprowadza się do wyznaczenia wektorów i wartości własnych: algorytm do wyznaczenia wszystkich: O(D 3 ). algorytm do wyznaczenia tylko M pierwszych: O(MD 2 ). 12/27

Minimalizacja błędu (ang. minimum-error formulation) Teraz interesuje nas minimalizowanie błędu rekonstrukcji. Wprowadźmy zbiór bazowych wektorów ortonormalnych rozpinających D-wymiarową przestrzeń {u d }, czyli u T i u j = δ ij. Każdy punkt może być reprezentowany jako kombinacja liniowa wektorów bazowych: x 2 x n u 1 D x n = α nd u d, d=1 x n gdzie współczynniki α nd są różne dla różnych punktów. x 1 Transformacja polega na rotacji współrzędnych do nowych określonych przez {u d }, zaś oryginalne składowe {x n1,..., x nd } są zastąpione przez {α n1,..., α nd }. 13/27

Minimalizacja błędu (2) Licząc iloczyn skalarny i korzystając z założenia o ortonormalności otrzymujemy: α nd = x T n u d. Zatem możemy zapisać: u 1 x n = D ( ) x T n u d ud. d=1 Interesuje nas znalezienie przybliżonej reprezentacji punktu za pomocą M < D zmiennych, dlatego zapiszmy: x 2 x n x n M D x n = z nm u m + b m u m, m=1 m=m+1 x 1 gdzie z nm zależy od punktu, zaś b m są stałe dla wszystkich punktów. 14/27

Minimalizacja błędu (3) Chcemy minimalizować błąd rekonstrukcji, tj. J = 1 N N x n x n 2. n=1 Licząc pochodną względem z nm i przyrównując do 0: x 2 u 1 z nm = x T n u m x n dla m = 1... M i podobnie względem b m : x n b m = x T u m dla m = M + 1... D. x 1 Wstawiając otrzymujemy: x n x n = D m=m+1 {(x n x) T u m } u m. 15/27

Minimalizacja błędu (4) Ostateczna postać funkcji celu: J = 1 N D = N D n=1 m=m+1 m=m+1 u T msu m (x T n u m x T u m ) 2 Interesuje nas rozwiązanie następującego problemu optymalizacji: min {u m} p.o. D u T msu m m=m+1 u T i u j = δ ij Przykładowo dla D = 2 i M = 1 musimy znaleźć takie u 2, które minimalizuje J przy ograniczeniu u T 2 u 2 = 1. Funkcja Lagrange a: u T 2 Su 2 + λ 2 (1 u T 2 u 2 ). 16/27

Minimalizacja błędu (5) Licząc pochodną po u 2 i przyrównując do 0: Su 2 = λ 2 u 2, czyli λ 2 jest wartością własną, a u 2 wektorem własnym. Wstawiając do funkcji celu otrzymujemy J = λ 2, czyli minimum osiągamy dla wektora własnego odpowiadającego mniejszej wartości własnej. W ogólnym przypadku interesuje nas znalezienie D M wektorów własnych o najmniejszych wartościach własnych. Wynik ten jest identyczny jak w sformułowaniu maksymalizacji wariancji, tj. podprzestrzeń jest rozpięta przez M wektorów własnych o największych wartościach własnych. 17/27

Liniowa redukcja wymiarów nieliniowych rozmaitości L. J. van der Maaten, E. O. Postma, and H. J. van den Herik, Dimensionality reduction: A comparative review, Journal of Machine Learning Research, vol. 10, no. 1 41, pp. 66 71, 2009. 18/27

Isomap (1/3) Pozwala na nieliniową redukcję wymiarów Należy do grupy algorytmów grafowych, które to wykorzystują teorię grafów w procesie redukcji wymiarów Krok 1: budowa grafu sąsiedztwa Dla każdego punktu z analizowanego zbioru znajdź jego sąsiadów Zbuduj graf ważony sąsiedztwa punktów 19/27

Isomap (2/3) Krok 2: budowa macierzy sąsiedztwa na podstawie grafu Dla każdej pary wierzchołków, znajdź najkrótszą ścieżkę pomiędzy nimi (np. przy użyciu algorytmu Floyda-Warshalla lub Dijkstry) Źródło: Young Ki Baik Nonlinear Dimensionality Reduction Approach Zbuduj macierz sąsiedztwa M punktów w taki sposób, że Mij zawiera długość najkrótszej ścieżki pomiędzy punktami i i j Uwaga 1: Sposób definiowania odległości pomiędzy punktami (jako ścieżka w grafie, a nie Euklidesowa) jest źródłem nieliniowości przekształcenia Uwaga 2: Jeśli zbudujemy graf bazując na k-nn macierz sąsiedztwa punktów nie musi być symetryczna 20/27

Isomap (3/3) Krok 3: konstrukcja zanurzenia (ang. embedding) Zanurzenie jest pojęciem matematycznym określającym odwzorowanie jednego obiektu w inny z zachowaniem własności obiektu zanurzanego W przypadku redukcji wymiarów chodzi o odwzorowanie oryginalnej przestrzeni w niskowymiarowej przestrzeni Euklidesowej, która w sposób najlepszy zachowuje geometrię rozmaitości Niech τ(m) będzie dane wzorem: τ(m) = 1 2 (I 1 N )M 2 (I 1 N ) Niech λp będzie p-tą wartością własną τ(m), a v i p i-tym elementem odpowiadającego jej wektora własnego. Wtedy p-tą współrzędną punktu w zredukowanej przestrzeni wyliczamy wg wzoru: y i p = λ pv i p 21/27

Autoenkoder: architektura Jest siecią neuronową typu Feed-forward trenowaną w sposób nienadzorowany Zadaniem sieci jest reprodukcja na wyjściu danych, które były zadane na wejściu Enkoder h(x) = σ(b + W x) Dekoder ˆx = σ(c + W h(x)) Sposób uczenia podobny do uczenia zwykłej sieci typu feed forward - oparty o metodę SGD i funkcję straty postaci: l(x, ˆx) = 1 (ˆx k x k ) 2 2 k Rysunek: Architektura autoenkodera Źródło: Hugo Larochelle Neural networks 22/27

Autoenkoder: przykładowe wyniki Rysunek: Cechy warstwy ukrytej autoenkodera wyuczone na zbiorze MNIST Źródło: Hugo Larochelle Neural networks 23/27

Porównanie metod redukcji wymiarów (1/2) Rysunek: Porównanie jakości działania metod redukcji wymiarów - zbiór 1 24/27

Porównanie metod redukcji wymiarów (2/2) Rysunek: Porównanie jakości metod redukcji wymiarów - zbiór 2 25/27

Podsumowanie W bardzo podstawowym zakresie metody redukcji wymiarów można dzielić na liniowe i nieliniowe Spośród omawianych metod do liniowych zalicza się PCA, natomiast do nieliniowych isomap i autoenkoder W PCA podejście oparte o maksymalizację wariancji jest równoważne podejściu opartemu o minimalizację błędu Isomap jest metodą grafową, która wykorzystuje długości ścieżek w grafie sąsiedztwa do oceny odległości pomiędzy punktami 26/27

Dziękuję za uwagę 27/27