Analiza głównych składowych- redukcja wymiaru, wykł. 12

Podobne dokumenty
Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Analiza składowych głównych

Analiza składowych głównych. Wprowadzenie

Analiza korespondencji

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Elementy statystyki wielowymiarowej

TRANSFORMACJE I JAKOŚĆ DANYCH

10. Redukcja wymiaru - metoda PCA

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Stosowana Analiza Regresji

Ruch jednostajnie zmienny prostoliniowy

ANALIZA CZYNNIKOWA Przykład 1

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Zmienne zależne i niezależne

Analiza zależności liniowych

FUNKCJE. Rozwiązywanie zadań Ćw. 1-3 a) b) str Ćw. 5 i 6 str. 141 dodatkowo podaj przeciwdziedzinę.

KORELACJE I REGRESJA LINIOWA

Rozkłady wielu zmiennych

Skalowanie wielowymiarowe idea

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Dopasowanie prostej do wyników pomiarów.

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

CELE ANALIZY CZYNNIKOWEJ

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Badanie zależności położenia cząstki od czasu w ruchu wzdłuż osi Ox

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Wykład 3. Rozkład normalny

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

FUNKCJA LINIOWA - WYKRES

Przekształcanie wykresów.

Wprowadzenie do programu Mathcad 15 cz. 1

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.

Wykład 10 Skalowanie wielowymiarowe

SPOTKANIE 9: Metody redukcji wymiarów

Analiza składowych głównych idea

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Metoda największej wiarygodności

Rozwiązywanie równań nieliniowych

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Z Wikipedii, wolnej encyklopedii.

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Estymacja parametrów w modelu normalnym

Inteligentna analiza danych

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Komputerowa Analiza Danych Doświadczalnych

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Programowanie liniowe

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

FUNKCJE. 1. Podstawowe definicje

Prawdopodobieństwo i statystyka

KLASYFIKACJA. Słownik języka polskiego

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

FORMUŁY AUTOSUMOWANIE SUMA

3. FUNKCJA LINIOWA. gdzie ; ół,.

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Kwantyzacja wektorowa. Kodowanie różnicowe.

Statystyczna analiza danych

Zaawansowane metody numeryczne

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

1 Wartości własne oraz wektory własne macierzy

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Programowanie liniowe metoda sympleks

Funkcja liniowa - podsumowanie

Elementy Modelowania Matematycznego

1. Zbadać liniową niezależność funkcji x, 1, x, x 2 w przestrzeni liniowej funkcji ciągłych na przedziale [ 1, ).

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

2. Definicja pochodnej w R n

Spacery losowe generowanie realizacji procesu losowego

Wprowadzenie do analizy dyskryminacyjnej

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Przekształcenia wykresów funkcji

KURS FUNKCJE. LEKCJA 2 PODSTAWOWA Przekształcenia wykresu funkcji ZADANIE DOMOWE. Strona 1

Rozwiązania, seria 5.

Zadanie 3 Oblicz jeżeli wiadomo, że liczby 8 2,, 1, , tworzą ciąg arytmetyczny. Wyznacz różnicę ciągu. Rozwiązanie:

Komputerowa analiza danych doświadczalnych

6. FUNKCJE. f: X Y, y = f(x).

Przekształcenia liniowe

Zagadnienie Dualne Zadania Programowania Liniowego. Seminarium Szkoleniowe Edyta Mrówka

Ważne rozkłady i twierdzenia c.d.

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Rozpoznawanie obrazów

Ruch prostoliniowy. zmienny. dr inż. Romuald Kędzierski

2 1 3 c c1. e 1, e 2,..., e n A= e 1 e 2...e n [ ] M. Przybycień Matematyczne Metody Fizyki I

Transkrypt:

Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki

Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają zwykle miliony rekordów i tysiące zmiennych; cześć zmiennych jest zwykle ze sobą powiązana, użycie dużej liczby zmiennych może prowadzić do nadmiernego dopasowania (ang. overfitting), w niektórych zadaniach (np. analiza obrazów) utrzymanie pełnej wymiarowości utrudnia rozwiązanie

Cele metod redukcji wymiaru zmniejszenie liczby elementów opisujących, dążenie do niezależności elementów, stworzenie szkieletu do interpretacji wyników

Analiza głównych składowych - jedna z metod redukcji wymiaru Analiza głównych składowych (ang. principal component analysis PCA) polega na zastąpieniu struktury zmiennych przy użyciu mniejszego zbioru kombinacji liniowych tzw głównych składowych załóżmy, że oryginalne zmienne (inaczej: atrybuty) tworzą układ współrzędnych w m-wymiarowej przestrzeni; składowe główne reprezentują nowy układ współrzednych, znaleziony poprzez rzutowanie oryginalnego układu wzdłuż kierunków maksymalnej zmienności,

Analiza głównych składowych - jedna z metod redukcji wymiaru Analiza głównych składowych (ang. principal component analysis PCA) polega na zastąpieniu struktury zmiennych przy użyciu mniejszego zbioru kombinacji liniowych tzw głównych składowych załóżmy, że oryginalne zmienne (inaczej: atrybuty) tworzą układ współrzędnych w m-wymiarowej przestrzeni; składowe główne reprezentują nowy układ współrzednych, znaleziony poprzez rzutowanie oryginalnego układu wzdłuż kierunków maksymalnej zmienności, oryginalne m zmiennych zostaje zamienione przez k < m nowych zmiennych

PCA - kroki początkowe standaryzacja zmiennych tak, aby średnia każdej zmiennej była 0,

PCA - kroki początkowe standaryzacja zmiennych tak, aby średnia każdej zmiennej była 0, jeżeli zmienna X jest wektorem wymiaru n (liczba rekordów), to zmienna standaryzowana jest także wymiaru n oraz powstaje przez odjęcie wartości średniej µ (od każdego rekordu),

PCA - kroki początkowe standaryzacja zmiennych tak, aby średnia każdej zmiennej była 0, jeżeli zmienna X jest wektorem wymiaru n (liczba rekordów), to zmienna standaryzowana jest także wymiaru n oraz powstaje przez odjęcie wartości średniej µ (od każdego rekordu), utworzenie macierzy kowariancji C; macierz jest symetryczna wymiaru mxm - na miejscu (i, j) stoi kowariancja między zmienną i-tą oraz j-tą (m jest liczbą zmiennych - atrybutów) cov(x, Y ) = n i=1 (X i µ X ) (Y i µ Y ) n 1

PCA - kroki początkowe, kowariancja n i=1 cov(x, Y ) = (X i µ X ) (Y i µ Y ) n 1 Kowariancja jest miarą tego, jak dwie zmienne różnią się od siebie. Dodatnia wartość kowariancji oznacza, że jeśli jedna zmienna rośnie, to druga ma również tendencję do wzrostu. Wartość ujemna oznacza, że jeśli jedna zmienna rośnie, to druga maleje. por. dane w arkuszu EXCEL

Przyklad

Przyklad, cd liczba zmiennych m = 2, macierz kowariancji jest wymiaru 2x2

PCA - kolejne kroki znalezienie wartości własnych macierzy kowariancji C oraz odpowiadających im wektorów własnych:λ jest wartością własną macierzy C odpowiadającą wektorowi własnemu x jeżeli C x = λ x dla danych z przykładu wartosciwlasne = wektorywlasne = ( 0, 049083 1, 284027 ) ( 0, 735170 0, 677873 0, 677873 0, 735178 )

PCA - kolejne kroki, sprawdzenie ( ) 0, 049083 wartosciwlasne = 1, 284027 ( ) 0, 735170 0, 677873 wektorywlasne = 0, 677873 0, 735178 sprawdzenie dla drugiej wartości: ( ) ( 0, 6165 0, 6154 0, 677873 0, 6154 0, 7166 0, 735178 ) ( 0, 677873 = 1, 28 0, 735178 wartości własne sortuje się w porządku nierosnącym (i odpowiadające im wektory własne) )

PCA - kolejne kroki, sprawdzenie ( ) 0, 049083 wartosciwlasne = 1, 284027 ( ) 0, 735170 0, 677873 wektorywlasne = 0, 677873 0, 735178 sprawdzenie dla drugiej wartości: ( ) ( 0, 6165 0, 6154 0, 677873 0, 6154 0, 7166 0, 735178 ) ( 0, 677873 = 1, 28 0, 735178 wartości własne sortuje się w porządku nierosnącym (i odpowiadające im wektory własne) - wektor własny odpowiadający największej wartości nazywany jest składową główną )

PCA - kolejne kroki Po uporządkowaniu wartości własnych (i odpowiadających im wektorów własnych) otrzymuje się uporządkowanie głównych składowych w kolejności od najbardziej istotnych.

PCA - kolejne kroki Po uporządkowaniu wartości własnych (i odpowiadających im wektorów własnych) otrzymuje się uporządkowanie głównych składowych w kolejności od najbardziej istotnych. Redukcja polega na zmniejszeniu wymiaru i odrzuceniu najmniejszych wartości własnych i odpowiadajacych im wektorów własnych.

Przyklad, cd naa wykresie poniżej umieszczono zmienne zestandaryzowane: skupienie danych wokół wektora własnego ( 0, 68; 0, 73) odpowiadajacego większej wartości własnej

PCA - nowe współrzędne Niech D nxm oznacza macierz danych początkowych, n - liczba rekordów, m - liczba atrybutów, X mxm - macierz zawierająca w wierszach wektory własne, nowe współrzędne: ˆD = X D T D T - oznacza macierz transponowaną

PCA - nowe współrzędne Niech D nxm oznacza macierz danych początkowych, n - liczba rekordów, m - liczba atrybutów, X mxm - macierz zawierająca w wierszach wektory własne, nowe współrzędne: ˆD = X D T D T - oznacza macierz transponowaną korzystając z tego, że macierz odwrotna X 1 jest równa X T (wynika z postaci X ) możemy wyrazic początkowe dane w terminach nowego układu D T = X T ˆD

Przyklad, cd Korzystając ze wzorów z poprzedniego przeźrocza i ograniczając się do jednej wartości własnej ˆD = ( 0.67 0.73 ) ( 0.69 1.31 0.39 0.09 1.29 0.49 0.19 0.81 0.31 0.71 0.49 1.21 0.99 0.29 1.09 0.79 0.31 0.81 0.31 1.01 = ( 0.83 1.78 0.99 0.27 1.68 0.91 0.10 1.14 0.44 1.22

Przyklad, cd stosujac wzór D T = X T ˆD otrzymujemy poczatkowy zbiór punktów skupionych wokół głównej składowej ( ) X T 0.67 ˆD = 0.73 ( 0.83 1.78 0.99 0.27 1.68 0.91 0.10 1.14 0.44 1.22 = ( 0.56 1.20 0.82 0.61 1.30 0.90 )

Przyklad, cd

PCA - ile składowych należy wybrać? kryterium wartości własnej, kryterium części wariancji wyjaśnionej przez składowe główne, kryterium wykresu osypiskowego.

Kryterium wartości własnej Każda składowa powinna wyjasniać przynajmniej taką zmienność, jak zmienna pierwotna i dlatego kryterium wartości własnej stwierdza, że tylko składowe o wartościach własnych większych od 1 należy pozostawić do analizy

Kryterium części wariancji wyjaśnionej przez składowe główne W tym kryterium analityk najpierw określa jaka część zmienności ma zostać wyjaśniona przez składowe główne. Wybiera się po kolei składowe, aż do momentu gdy zostanie osiągnieta oczekiwana wartość zmienności. Każda wartość własna zwraca wariancję względem odpowiedniej składowej. w przykładzie wartość własna 1.28 odpowiada wariancj 1.28/(1.28+0.049)=96,31%. Wartość może zależeć od dziedziny, w której prowadzone sa badania, np nauki socjologiczne versus przyrodnicze.

Kryterium wykresu osypiskowego Wykres osypiskowy stanowi graficzną prezentację wartości własnych względem numeru składowej. Wykresy osypiskowe są przydatne do znajdowania górnego kresu (maksimum) dla liczby składowych, które powinny zostać zachowane. Maksymalna liczba składowych, które powinny zostać uwzględnione, to wartość znajdująca się na osi x dokładnie przed tym miejscem, gdzie wykres po raz pierwszy jest zbliżony do linii poziomej.

Przykłady zastosowań PCA Załóżmy, że danych jest 20 obrazków. Każdy obrazek jest prostokątem złożonym z N N pikseli. Zatem każdy obrazek może być zapamiętany jako wektor zaś 20 obrazów jako macierz X = (x 1,, x N 2) macierzobrazow = X 1 X 2 X 20 Przypuśćmy dalej, że obrazki przedstawiają twarze i dla danego obrazka chcemy znaleźć jeden spośród danych 20, który jest najbardziej podobny. Po wykonaniu przekształcenia PCA możemy szukać szukać różnic nie wzgledem oryginalnych współrzędnych, tylko przekształconych i ograniczyć się do głównych składowych.

Przykłady zastosowań PCA - kompresja obrazu Jeżeli danych jest 20 obrazków, każdy złożony z N N pikseli, to można także rozpatrywać N 2 wektorów- każdy 20 wymiarowy. Czyli każdy wektor składa się z wartości dla tego samego piksela. Wykonując przekształcenie PCA otrzymujemy 20 wektorów własnych. Aby skompresować dane możemy w transformacji skorzystać np. z 15 wektorów - mamy do czynienia z kompresją stratną.