SkaiWD Laboratorium 5 PCA. Iwo Błądek. 18 maja [a 1... a N... = a 1 b a N b N

Podobne dokumenty
Podprzestrzeń wektorowa, baza, suma prosta i wymiar Javier de Lucas

Podstawowe działania w rachunku macierzowym

Zagadnienia transportowe

MATEMATYKA 9. INSTYTUT MEDICUS Kurs przygotowawczy do matury i rekrutacji na studia medyczne Rok 2017/2018 FUNKCJE WYKŁADNICZE, LOGARYTMY

RAPORT z diagnozy Matematyka na starcie

Matematyka:Matematyka I - ćwiczenia/granice funkcji

Karta pracy: Ćwiczenie 5.

Ćwiczenie nr 2 Zbiory rozmyte logika rozmyta Rozmywanie, wnioskowanie, baza reguł, wyostrzanie

Czy zdążyłbyś w czasie, w jakim potrzebuje światło słoneczne, aby dotrzeć do Saturna, oglądnąć polski hit kinowy: Nad życie Anny Pluteckiej-Mesjasz?

7. OPRACOWYWANIE DANYCH I PROWADZENIE OBLICZEŃ powtórka

PAKIET MathCad - Część III

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

STA T T A YSTYKA Korelacja

MATEMATYKA 4 INSTYTUT MEDICUS FUNKCJA KWADRATOWA. Kurs przygotowawczy na studia medyczne. Rok szkolny 2010/2011. tel

Metoda LBL (ang. Layer by Layer, pol. Warstwa Po Warstwie). Jest ona metodą najprostszą.

Rozdział 6. Pakowanie plecaka. 6.1 Postawienie problemu

1) TUnŻ WARTA S.A. i TUiR WARTA S.A. należą do tej samej grupy kapitałowej,

Temat: Funkcje. Własności ogólne. A n n a R a j f u r a, M a t e m a t y k a s e m e s t r 1, W S Z i M w S o c h a c z e w i e 1

14.Rozwiązywanie zadań tekstowych wykorzystujących równania i nierówności kwadratowe.

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

Bioinformatyka Laboratorium, 30h. Michał Bereta

Temat: Co to jest optymalizacja? Maksymalizacja objętości naczynia prostopadłościennego za pomocą arkusza kalkulacyjngo.

Regulamin Rady Rodziców

Warszawska Giełda Towarowa S.A.

Regresja i korelacja. Statystyka w medycynie. Dr inż. Janusz Majewski Katedra Informatyki

Logika I. Wykład 2. Działania na zbiorach

2.Prawo zachowania masy

KURS GEOMETRIA ANALITYCZNA

SPRAWDZIANY Z MATEMATYKI

tel/fax lub NIP Regon

1 Granice funkcji. Definicja 1 (Granica w sensie Cauchy ego). Mówimy, że liczba g jest granicą funkcji f(x) w punkcie x = a, co zapisujemy.

P 0max. P max. = P max = 0; 9 20 = 18 W. U 2 0max. U 0max = q P 0max = p 18 2 = 6 V. D = T = U 0 = D E ; = 6

WOJSKOWA AKADEMIA TECHNICZNA SYSTEMY WBUDOWANE

Praca na wielu bazach danych część 2. (Wersja 8.1)

Bazy danych. Andrzej Łachwa, UJ, /15

Zadanie 1. Liczba szkód w każdym z trzech kolejnych lat dla pewnego ubezpieczonego ma rozkład równomierny:

ZASADY WYPEŁNIANIA ANKIETY 2. ZATRUDNIENIE NA CZĘŚĆ ETATU LUB PRZEZ CZĘŚĆ OKRESU OCENY

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Projektowanie bazy danych

Eksperyment,,efekt przełomu roku

Technologie Informacyjne

ostatni dzień miesiąca (yyyy-mm-dd) miejsce zam. - ulica nr miejscowość wypełnienia oświadczenia

System zarządzania bazą danych (SZBD) Proces przechodzenia od świata rzeczywistego do jego informacyjnej reprezentacji w komputerze nazywać będziemy

Kurs wyrównawczy dla kandydatów i studentów UTP

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Warunki formalne dotyczące udziału w projekcie

Statystyki opisowe. Marcin Zajenkowski. Marcin Zajenkowski () Statystyki opisowe 1 / 57

Harmonogramowanie projektów Zarządzanie czasem

ROZWIĄZANIA ZADAŃ Zestaw P3 Odpowiedzi do zadań zamkniętych

Matematyka dla liceum/funkcja liniowa

BADANIE UMIEJĘTNOŚCI UCZNIÓW W TRZECIEJ KLASIE GIMNAZJUM CZĘŚĆ MATEMATYCZNO-PRZYRODNICZA

Specyfikacja techniczna banerów Flash

Wojewódzki Konkurs Matematyczny dla uczniów gimnazjów rok szkolny 2015/2016 Etap II rejonowy

EGZAMIN MATURALNY Z MATEMATYKI

2.1. Ruch, gradient pr dko ci, tensor pr dko ci odkszta cenia, Ruchem cia a B nazywamy dostatecznie g adko zale ne od czasu t jego odkszta cenie

Instrukcja obsługi platformy zakupowej e-osaa (klient podstawowy)

Wdrożenie modułu płatności eservice dla systemu Virtuemart 2.0.x

Automatyka. Etymologicznie automatyka pochodzi od grec.

Świat fizyki powtórzenie

Relacyjne Bazy Danych PODSTAWOWE POJĘCIA BAZODANOWE

REGULAMIN SAMORZĄDU UCZNIOWSKIEGO GIMNAZJUM W ZABOROWIE UL. STOŁECZNA 182

7. REZONANS W OBWODACH ELEKTRYCZNYCH

Wiedza niepewna i wnioskowanie (c.d.)

PROJEKTY UCHWAŁ NA NADZWYCZAJNE WALNE ZGROMADZENIE HETAN TECHNOLOGIES SPÓŁKA AKCYJNA W DNIU 25 MAJA 2016 ROKU

1. Koło Naukowe Metod Ilościowych,zwane dalej KNMI, jest Uczelnianą Organizacją Studencką Uniwersytetu Szczecińskiego.

Jan Olek. Uniwersytet Stefana Kardynała Wyszyńskiego. Procesy z Opóźnieniem. J. Olek. Równanie logistyczne. Założenia

Topologia I, Egzamin. II termin, Nr albumu: Nazwisko prowadzącego ćwiczenia: Nr grupy:

INSTRUKCJA DLA INSPEKTORÓW DS. REJESTRACJI

KONKURSY MATEMATYCZNE. Treść zadań

Regulamin rekrutacji w projekcie,,grupa PoMocowa SENIORÓW - usługi społeczne osób starszych dla osób starszych

Rozliczenia z NFZ. Ogólne założenia. Spis treści

2) Drugim Roku Programu rozumie się przez to okres od 1 stycznia 2017 roku do 31 grudnia 2017 roku.

40. Międzynarodowa Olimpiada Fizyczna Meksyk, lipca 2009 r. ZADANIE TEORETYCZNE 2 CHŁODZENIE LASEROWE I MELASA OPTYCZNA

Akademickie Centrum Informatyki PS. Wydział Informatyki PS

II.2) CZAS TRWANIA ZAMÓWIENIA LUB TERMIN WYKONANIA: Zakończenie:

BLOK I. 3. Korzystając z definicji pochodnej w punkcie, obliczyć pochodne podanych funkcji we wskazanych punktach:

3b. Rozwiązywanie zadań ze skali mapy

Gaz i jego parametry

Moduł 2/3 Projekt procesu technologicznego obróbki przedmiotu typu bryła obrotowa

Standardowe tolerancje wymiarowe

ROZPORZĄDZENIE MINISTRA ZDROWIA 1)

e-dziekanat Instrukcja użytkownika dydaktyk

EGZAMIN MATURALNY Z INFORMATYKI CZERWIEC 2011 POZIOM ROZSZERZONY WYBRANE: CZĘŚĆ I. Czas pracy: 90 minut. Liczba punktów do uzyskania: 20

Użytkowanie elektronicznego dziennika UONET PLUS.

Podstawy programowania

MATERIAŁY DIAGNOSTYCZNE Z MATEMATYKI

WZP.DZ.3410/35/1456/2011 Wrocław, 26 maja 2011 r.

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 6, strona 1. Format JPEG

SEKCJA I: ZAMAWIAJĄCY SEKCJA II: PRZEDMIOT ZAMÓWIENIA. file://d:\rckik-przetargi\103\ogłoszenie o zamówieniu - etykiety.htm

WYKRESY FUNKCJI NA CO DZIEŃ

STOWARZYSZENIE PRODUCENTÓW RYB ŁOSOSIOWATYCH

NOWELIZACJA USTAWY PRAWO O STOWARZYSZENIACH

Rekrutacją do klas I w szkołach podstawowych w roku szkolnym 2015/2016 objęte są dzieci, które w roku 2015 ukończą:

PODSTAWY METROLOGII ĆWICZENIE 4 PRZETWORNIKI AC/CA Międzywydziałowa Szkoła Inżynierii Biomedycznej 2009/2010 SEMESTR 3

DE-WZP JJ.3 Warszawa,

Stypendia USOS Stan na semestr zimowy 2013/14

Informator dla Rodziców dzieci rozpoczynających w roku szkolnym 2016/2017 naukę w szkole podstawowej

Regulamin Programu Karta Stałego Klienta Lovely Look

NUMER IDENTYFIKATORA:

Transkrypt:

SkaiWD Laboratorium PCA Iwo Błądek maja 9 Iloczyn skalarny jako projekcja Iloczyn skalarny (ang. dot product, inner product) to funkcja (R n, R n ) R przyjmująca jako argumenty dwa wektory i zwracająca skalar, zdefiniowana następująco: ] b dot(a,b) = a, b = a T b = [a... a N... = a b +... + a N b N Iloczyn skalarny wektorów a i b, w alternatywnym zapisie a, b, ma ważną interpretację: projekcję wektora a na b. Projekcja ta będzie dodatkowo przeskalowana przez długość wektora, na który projektujemy (dlatego w praktyce warto używać wektorów długości ). W ogólności zachodzi wzór: b N a, b = a b cos α () gdzie α to kąt między oboma wektorami. Zarówno z tego wzoru jak i interpretacji projekcji wynika między innymi to, że iloczyn skalarny wektorów prostopadłych zawsze wynosić będzie. Jeżeli mamy jakąś ortonormalną (tj. znormalizowaną i ortogonalną) bazę przestrzeni liniowej zawierającą wektory v,..., v n, to każdy wektor x w tej przestrzeni liniowej możemy reprezentować jako: x = x, v v +... + x, v n v n () Iloczyn skalarny x, v i mówi nam, w jakim punkcie prostej wektora v i znajdziemy się gdybyśmy prostopadle zrzutowali na niego wektor x. Przykład: Mamy wektor x = 3 i bazę ortonormalną {v = x, v = x, v = Wynika z tego, że możemy zapisać: 3 3 x = x, v v + x, v v = 3, v = = 3 + = 3 = 3 + = + = }. 3

WPROWADZENIE DO PCA Mnożenie macierzy można alternatywnie przedstawić jako projekcje wierszy pierwszej macierzy na kolumny drugiej: x a c a c x x = b d x = ax + cx ac, x = x bx + dx bd, x b d x Innymi słowy, standardowa perspektywa na mnożenie macierzy to perspektywa projekcyjna, dualna do perspektywy transformacji liniowej omówionej wcześniej. Dużo obliczeń na macierzach staje się łatwiejszymi do zrozumienia, kiedy ma się na uwadze właściwą perspektywę. Przy PCA będziemy mieć okazję zetknąć się z przypadkiem, gdy pomocna będzie perspektywa projekcyjna. Wprowadzenie do PCA Analiza składowych głównych, PCA (ang. Principal Component Analysis), przekształca dane z układu współrzędnych z wymiarami odpowiadającymi oryginalnym zmiennym (atrybutom) do układu współrzędnych, w którym wymiary są określone przez nowe zmienne będące pewnymi kombinacjami liniowymi oryginalnych zmiennych. Nowe zmienne są tak konstruowane, by każdy kolejny wymiar miał jak największą możliwą wariancję. PCA znajduje następujące zastosowania: kompresja danych, odkrywanie istotnych cech. Schemat działania PCA jest zaskakująco prosty. Można go przedstawić w następujących krokach, gdzie X to nasz zbiór danych: Oblicz macierz kowariancji/korelacji S X Znajdź wektory własne S X Utwórz macierz K zawierającą w kolumnach wektory własne S X posortowane malejąco po wartościach własnych Pomnóż oryginalne dane przez K Nasze przetransformowane dane Y = XK (uwaga: mnożenie przez K jest prawostronne; więcej o tym później) będą mieć tę własność, iż wariancja pierwszej zmiennej będzie maksymalna możliwa, wariancja drugiej zmiennej będzie maksymalna możliwa przy ograniczeniu, że pierwsza była maksymalna, itd. Kowariancja (i korelacja) między dowolnymi nowymi zmiennymi w Y będzie zawsze wynosić.. Macierze kowariancji i korelacji Wariancja (estymacja z próbki) zmiennej losowej A wyrażona jest wzorem: var(a) = ni= (A i Ā) n Przy ograniczeniu, że nowe zmienne tworzone są jako kombinacja liniowa oryginalnych zmiennych. Nie można wykluczyć, i zazwyczaj tak w praktyce będzie, iż istnieje nieliniowa zależność lepiej oddająca zmienność w danych

WPROWADZENIE DO PCA 3 gdzie A i to i ty zaobserwowany element, Ā to średnia, a n to liczba elementów w próbce. Kowariancja rozkładu łącznego dwóch zmiennych A i B zdefiniowana jest z kolei jako: cov(a,b) = ni= (A i Ā)(B i B) n Jeżeli mamy macierz X z danymi zawierającą w wierszach obserwacje (przypadki) a w kolumnach zmienne (atrybuty), to możemy obliczyć za pomocą operacji macierzowych kowariancje wszystkich par zmiennych naraz korzystając ze wzoru: S X = ) ((X c ) T X c n gdzie X c to macierz X z wycentrowanymi kolumnami powstała po odjęciu od każdego elementu danej kolumny jej średniej (tak więc średnia każdej kolumny w X c to ). Macierz S X nazywana jest macierzą kowariancji. Od tego po którym X C damy transpozycję zależeć będzie to, czy będzie to macierz kowariancji atrybutów (zazwyczaj pożądany efekt), czy też macierz kowariancji przypadków (bardzo rzadko jeżeli wcale pożądany efekt). Jako że cov(a,b) = cov(b,a) to w każdym wypadku będzie to macierz symetryczna (co gwarantuje nam ortogonalność jej wektorów własnych). Współczynnik korelacji liniowej rozkładu łącznego dwóch zmiennych losowych A i B liczony jest jako: r AB = cov(a,b) σ A σ B gdzie σ A i σ B to odchylenia standardowe zmiennych. Z perspektywy PCA użycie macierzy korelacji zamiast macierzy kowariancji wstępnie normalizuje wariancje zmiennych tak, by były jednolite dla wszystkich zmiennych. Nie zawsze jest to pożądany efekt, na przykład w przypadku gdy kolumny mają bardzo podobne interpretacje (np. zysk w kolejnych miesiącach) pewna informacja jest tracona. Z drugiej strony jeżeli atrybuty mają zupełnie różną charakterystykę i znaczenie, to atrybuty z dużymi wariancjami zdominują te ze słabszymi, co zazwyczaj nie będzie pożądanym wynikiem.. Redukcja wymiarowości PCA domyślnie nie redukuje wymiarowości danych, więc jako wynik uzyskamy macierze o następujących wymiarach: Y = X K (p,a) (p,a) (a,a) gdzie p to liczba przypadków, a to liczba atrybutów, a notacja (i,j) oznacza wymiary macierzy o i wierszach i j kolumnach. Można jednak zauważyć, że przez proces maksymalizacji wariancji (reprezentowanej przez wartości własne S x ) kolejnych nowych zmiennych, ostatnie z nich często będą mieć bardzo mały udział w zmienności danych. Można więc bez istotnej straty informacji usunąć z macierzy K kolumny odpowiadające najmniejszym wartościom własnym. Zakładając, że wzięliśmy po uwagę r kolumn, otrzymujemy:.3 Interpretacja Y = XK Y = X K (p,r) (p,a) (a,r) Nasze dane X mają w wierszach przypadki a w kolumnach atrybuty. Z kolei macierz K ma w kolumnach wektory własne macierzy S X, i są one zarówno ortogonalne jak i długości tworzą więc bazę ortogonalną. Najłatwiej wyjaśnić kolejność mnożenia korzystając z perspektywy projekcyjnej, czyli że każdy przypadek jest rzutowany na kolejne nowe zmienne. Jako że kolumny K stanowią bazę ortonormalną, to możemy zapisać przypadek p jako: p = p, k k +... + p, k a k a

3 ZADANIE DOMOWE ( PUNKTÓW) Zadanie.: Zrób Zadanie 3., które jest również zadaniem domowym dla nieobecnych (i tych, którzy nie zdążą go zrobić w trakcie zajęć). Zadanie.: Mamy dane X o następującej macierzy kowariancji:.7 Czy warto użyć dla tych danych PCA? Jak by się zmieniła macierz kowariancji po użyciu PCA (bez redukcji wymiarowości)? Zadanie.3: Pokaż, że macierz kowariancji S y dla Y = XK jest macierzą diagonalną z wartościami własnymi na przekątnej (czyli S y = L). Zadanie.: Prawo zachowania wariancji pokaż, że suma wariancji zmiennych nie zmienia się po zastosowaniu PCA, czyli tr(s y ) = tr(s x ), gdzie tr to ślad macierzy. Konieczne może być wykorzystanie własności cykliczności śladu iloczynu macierzy: tr(abc) = tr(cab) = tr(bca). Zadanie.: W metodzie PCA nowe dane tworzone są jako Y = XK. Wyjaśnij tę kolejność X i K w kontekście projekcji. 3 Zadanie domowe ( punktów) Zadanie 3.: ( pkt) Wypełnij ręcznie arkusz zadaniowy dostępny na stronie przedmiotu. Zadanie można oddać pokazując na zajęciach wydrukowaną i wypełnioną kartkę lub przesyłając jej skan/zdjęcie. Zadanie 3.: ( pkt) Zaimplementuj algorytm PCA korzystając z szablonu na stronie i wypełniając w nim ciało funkcji pca manual. Uzupełnij w niej również instrukcje print tak by wypisywały odpowiednie informacje. Zadanie 3.3: ( pkt) Uzupełnij w szablonie funkcję pca sklearn obliczającą PCA przy użyciu biblioteki scikit-learn (http://scikit-learn.org/stable/). Klasa odpowiedzialna w tej bibliotece za PCA to sklearn.decomposition.pca. Zapoznaj się z jej dokumentacją w internecie. Poniżej przedstawione są przykładowe wyniki, jakie można uzyskać. Dla drugiego zbioru danych można zauważyć, że wykresy dla implementacji PCA są różne wynika to z wybrania innych wektorów własnych w macierzy K (w szczególności: wektorów przeciwnych).

3 ZADANIE DOMOWE ( PUNKTÓW) Original data Transformed data (PCA custom) Transformed data (PCA scikit) Original data Transformed data (PCA custom) Transformed data (PCA scikit) Uwaga: kolumny macierzy K to wektory własne o długości równej. Oznacza to, że można przemnożyć w K dowolną kolumnę (wektor własny) przez i nie zmienić powyższych własności. Praktyczna konsekwencja jest taka, że różne implementacje PCA mogą dać różne wyniki zależnie od wybranych wektorów własnych (jednak wariancje zmiennych zawsze będą takie same). Widać to na rysunku powyżej, gdzie strzałka jest odwrócona wynikło to właśnie z tego, że wystąpiła różnica w znakach w kolumnach K. Zadanie 3.: ( pkt) Uczyń zajęcia lepszymi poprzez wypełnienie ankiety z zajęć.