Analiza składowych głównych. Wprowadzenie

Podobne dokumenty
Analiza składowych głównych

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Analiza składowych głównych idea

Zmienne zależne i niezależne

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza głównych składowych- redukcja wymiaru, wykł. 12

MODELE LINIOWE. Dr Wioleta Drobik

PDF created with FinePrint pdffactory Pro trial version

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Elementy statystyki wielowymiarowej

ANALIZA CZYNNIKOWA Przykład 1

Prawdopodobieństwo i statystyka

Stosowana Analiza Regresji

Rozdział 8. Regresja. Definiowanie modelu

KORELACJE I REGRESJA LINIOWA

Statystyka i eksploracja danych

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

CELE ANALIZY CZYNNIKOWEJ

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Wprowadzenie do analizy korelacji i regresji

Analiza korespondencji

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Analiza współzależności dwóch cech I

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Regresja i Korelacja

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

POLITECHNIKA OPOLSKA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Agnieszka Nowak Brzezińska

R-PEARSONA Zależność liniowa

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Statystyczna analiza danych

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

I V X L C D M. Przykłady liczb niewymiernych: 3; 2

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Funkcja liniowa - podsumowanie

Wymagania edukacyjne matematyka klasa 1 zakres podstawowy 1. LICZBY RZECZYWISTE

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Aproksymacja funkcji a regresja symboliczna

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Analiza statystyczna trudności tekstu

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Analiza współzależności zjawisk

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

10. Redukcja wymiaru - metoda PCA

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Wybór optymalnej liczby składowych w analizie czynnikowej Test Równolegości Horn a i test MAP Velicera

Wymagania edukacyjne z matematyki klasa II technikum

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Matematyka licea ogólnokształcące, technika

Graficzna prezentacja danych statystycznych

Inteligentna analiza danych

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Wymagania kl. 3. Zakres podstawowy i rozszerzony

ANALIZA REGRESJI SPSS

Klasa 1 technikum. Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne:

RAPORT z diagnozy umiejętności matematycznych

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Transkrypt:

Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących się bez nadzoru, a więc każdy element zbioru uczącego składa się jedynie z wektora cech. Zadaniem systemu uczącego się bez nadzoru jest opisanie obserwowanych danych na podstawie wyłącznie nich samych. Można je określić jako zadanie wykrycia wewnętrznej struktury zbioru danych lub współzależności między tymi danymi.

Wprowadzenie Celem badacza może być redukcja danych, a dokładniej liczby zmiennych. Polega ona na poszukiwaniu takiego zbioru zmiennych, mniej licznego od zbioru zmiennych oryginalnych, na których podstawie można z pewnym, ale możliwie najmniejszym błędem, odtworzyć wartości zmiennych oryginalnych. Aby taka redukcja była możliwa między zmiennymi oryginalnymi muszą zachodzić zależności statystyczne. Nowe zmienne składowe główne są liniowymi funkcjami zmiennych oryginalnych.

Wprowadzenie Metoda składowych głównych ma głównie charakter ekploracyjny i umożliwia redukcję danych w przypadku zbioru skorelowanych ze sobą zmiennych. Zmienne te są traktowane w jednakowy sposób, tj.niesąonedzielone takjakwprzypadkuanalizyregresji na zmienne zależne i niezależne. Metoda ta przekształca oryginalne, skorelowane zmienne w nowe, nieskorelowane zmienne, tzw. składowe główne, które wyjaśniają w maksymalnym stopniu całkowitą wariancję z próby.

Wprowadzenie Każda nowa zmienna jest liniową funkcją oryginalnych zmiennych. Składowe główne są uporządkowane według udziału w redukcji wspólnego zróżnicowania oryginalnych zmiennych(wielkości całkowitej wariancji). Pierwsza składowa główna redukuje największą część tego zróżnicowania. Druga kolejną największą część tego zróżnicowania, którego nie redukowała pierwsza składowa główna, itd. Badacz może więc zredukować liczbę zmiennych ograniczając się do kilku pierwszych składowych głównych z możliwie małą stratą informacji. Oceną ograniczenia się tylko do kilku składowych głównych jest udział zredukowanej przez nie wariancji w wielkości całkowitej wariancji. W sytuacji gdy oryginalne zmienne nie są skorelowane, zastosowanie metody składowych głównych nie zapewnia możliwości redukcji danych przy ograniczonej stracie informacji.

Konstrukcja Pierwsza składowa główna jest definiowana jako unormowana kombinacja liniowa mająca maksymalną wariancję z próby spośród wszystkich unormowanych kombinacji liniowych zmiennych pierwotnychx 1,x 2,...,x p.dokładniej,dlawektoraobserwacji x = (x 1,x 2,...,x p ) wpróbieposzukujemykombinacjiliniowej której wariancja z próby z 1 =a 11 x 1 +a 12 x 2 + +a 1p x p =a 1x, s 2 z 1 =a 1 Sa 1 jest maksymalna, gdzie S jest macierzą kowariancji z próby, natomiastwektora 1 spełniawaruneka 1 a 1 =1,tj.kwadratjego długości jest równy jeden. Warunek ten wprowadzony jest po to, by zapewnić jednoznaczność(z wyjątkiem znaku) składowej głównej.

Konstrukcja Wektora 1,którymaksymalizujewariancjęs 2 z 1,przydodatkowym warunkua 1 a 1 =1,jestwektoremcharakterystycznym odpowiadającymnajwiększejwartościwłasnej λ 1 macierzys,lub inaczej największemu pierwiastkowi równania S λi =0. Wariancjaskładowejgłównejz 1 jestzatemnajwiększym pierwiastkiem tego równania.

Konstrukcja W celu wyznaczenia drugiej składowej głównej, konstruujemy kombinację liniową z 2 =a 2 x taką,żejestonanieskorelowanazz 1,mamaksymalnąwariancjęi spełniawaruneka 2 a 2 =1.Wariancjazpróbyz 2 jestrówna s 2 z 2 =a 2Sa 2. Stądposzukujemywektoraa 2 maksymalizującegos 2 z 2 przy dodatkowymwarunkacha 2 a 2 =1ia 2 a 1 =0. Wektora 2 jestwektoremwłasnymmacierzysodpowiadającym drugiejwartościwłasnej λ 2 < λ 1 ortogonalnymdowektoraa 1 i unormowanym tak, by kwadrat jego długości był równy jedności (a 2 a 2 =1).

Konstrukcja Ponieważ macierz S ma p wartości własnych, to otrzymujemy p składowych głównych: z 1 =a 1 x, z 2 =a 2 x,... z p =a p x. Składowegłównez 1,z 2,...,z p możnazapisaćwpostaci z =Ax, gdzie z = z 1 z 2. z p, A = a 1 a 2. a p.

Ładunki i wyniki W rezultacie otrzymujemy tyle składowych ile było zmiennych wejściowych, ale najczęściej jedynie kilka z nich wyjaśnia prawie całą zmienność oryginalnych danych. Jako wynik otrzymujemy najczęściej dwa typy parametrów: ładunki oraz wyniki. Ładunki to współczynniki pokazujące wkład poszczególnych zmiennych bazowych w tworzeniu składowych głównych. Im wartość bezwzględna z ładunku większa tym zmienna ma większy wkład w budowę składowej głównej. Wyniki nie są niczym innym jak współrzędnymi obserwacji w nowym układzie współrzędnych utworzonym przez składowe główne, to one najczęściej podlegają wizualizacji. Niestety przy większej liczbie pierwotnych zmiennych występują problemy z interpretacją ładunków.

Wizualizacja Na koniec możemy zwizualizować nowe dane na jednym wykresie, na którym jako punkty będą przedstawione poszczególne obserwacje w nowym układzie dwóch pierwszych składowych głównych, natomiast wektory oznaczać będą cechy. Kierunek wektorów pokazuje wpływ tych cech odpowiednio na pierwszą i drugą składową. Kąt przecięcia strzałek jest proporcjonalny do zależności pomiędzy cechami(dokładnie iloczyn skalarny odpowiednich wektorów wyznacza korelację), a ich długość odzwierciedla odchylenie standardowe. Tego typu wykres nazywa się biplotem. Żeby stwierdzić, czy taki wykres jest adekwatnym odzwierciedleniem położenia oryginalnych punktów, można na niego nanieść minimalne drzewo rozpinające(mst). MST to graf, którego wierzchołkami są obserwacje, dwa punkty połączone są dokładnie jedną ścieżką, a suma krawędzi jest minimalna. Punkty połączone krawędziami powinny być blisko siebie na wykresie.

Własności Jeżeliwektorwłasnya 1 macierzykowariancjizpróbysjest wyskalowanytak,bya 1 a 1 =1,towariancjazpróbypierwszej składowejgłównejz 1 jestrówna s 2 z 1 =a 1 Sa 1 = λ 1. Stądwartośćwłasna λ 1 macierzysjestrównawariancjizpróby pierwszejskładowejgłównejz 1 =a 1 x. Podobnie, wariancja z próby każdej innej składowej głównej jest równa odpowiedniej wartości własnej: s 2 z j =a j Sa j = λ j, j =2,3,...,p. Składowagłównaz 1 mamaksymalnąwariancję λ 1,natomiast składowagłównaz p manajmniejsząwariancję λ p,gdzie λ 1 > λ 2 > > λ p sąwartościamiwłasnymimacierzykowariancji zpróbys.

Własności Składowegłównesąwzajemnieortogonalne,tj.a j a k =0,dla wszystkich j k. Ortogonalność składowych głównych pociąga za sobą własność ich nieskorelowania.

Własności Suma wariancji z próby składowych głównych jest równa sumie wariancji z próby zmiennych pierwotnych: p sz 2 j = j=1 p λ j =tr(s). j=1 W analizie składowych głównych oczekujemy, że dla pewnego małegok,suma λ 1 +λ 2 + +λ k będziebliska tr(s) = λ 1 +λ 2 + +λ p.jeślitakjest,tokpierwszych składowych głównych wyjaśnia dobrze zmienność wektora x = (x 1,x 2,...,x p ) ipozostałep kskładowegłównewnoszą niewiele, ponieważ mają one małe wariancje z próby. Wskaźnik λ 1 + +λ k λ 1 + +λ p 100% jest procentową miarą wyjaśniania zmienności wektora x przez pierwszych k składowych głównych.

Własności Składowe główne nie są niezmiennicze względem zmiany skali zmiennych pierwotnych. Oznacza to, że przeskalowanie danych zmienia wyniki analizy metodą składowych głównych. Z tego względu składowe główne uzyskane z macierzy kowariancji oraz korelacji różnią się. Zaleca się wykorzystywać te uzyskane z macierzy kowariancji. W przypadku jednak dużych różnic w wariancjach lub cech mierzonych na różnych skalach należy wpierw przeskalować dane.

Metody pomijania składowych głównych Jeśli chcemy zredukować wymiar danych musimy się zastanowić ile składowych wybrać do dalszej analizy. Najczęściej decyzję tę podejmuje się bazując na wykresie osypiska, zwanym też wykresem piargowym. Wartości własne numerujemy w porządku malejącym. Na osi odciętych zaznaczamy numer wartości własnych, na osi rzędnych zaznaczamy wielkości wartości własnych i wielkości te łączymy odcinkami. Jako optymalną liczbę czynników wybieramy tę, gdzie wykres się znacząco spłaszcza. Kryterium osypiska prowadzi niekiedy do odrzucenia zbyt wielu czynników, ale w typowych sytuacjach(niezbyt dużo czynników i sporo obserwacji) radzi sobie całkiem dobrze.

Metody pomijania składowych głównych Drugim popularnym kryterium jest ustalenie pewnego poziomu wariancji jaki muszą wyjaśnić składowe główne(najczęściej 90%).

Metody pomijania składowych głównych Pomijamy te składowe główne, których wartości własne są mniejsze od średniej λ = 1 p λ j. p j=1 Jest to zarazem średnia wariancja zmiennych pierwotnych, ponieważ p j=1 λ j =tr(s).

Regresja składowych głównych i regresja częściowych najmniejszych kwadratów ma szerokie zastosowanie. Jej dwa popularne zastosowania to regresja składowych głównych(pcr) i regresja częściowych najmniejszych kwadratów(plsr). Pierwsza z nich polega na zastąpieniu oryginalnych zmiennych przez pewną liczbę składowych głównych. Metoda PLSR jest wariantem metody składowych głównych, w której szukamy pewnej liczby ortogonalnych do siebie kombinacji liniowych predyktorów dobrze prognozujących zmienną objaśnianą. Przewaga PCR/PLSR nad metodą najmniejszych kwadratów jest najczęściej widoczna w sytuacji, gdy liczba zmiennych objaśniających jest duża w stosunku do liczby obserwacji.