Analiza czynnikowa i wnioskowanie dla właściwości macierzy kowa
|
|
- Nadzieja Skowrońska
- 7 lat temu
- Przeglądów:
Transkrypt
1 Analiza czynnikowa i wnioskowanie dla właściwości macierzy kowariancji Wioleta Arym, Daria Szlagowska, Martyna Zarach, Andrzej Rebell Wydział FTiMS, Politechnika Gdańska 9 maja 2014
2 Początki analizy czynnikowej Istota i cel analizy czynnikowej Porównanie z analizą głównych składowych Początek analizy czynnikowej sięga pierwszej połowy XX wieku. Naukowcy w swoich badaniach stwierdzili, ze wyniki różnych testów, które badają uzdolnienia intelektualne są zawsze ze sobą dodatnio skorelowane. Charles Spearman wysunął hipotezę, że może istnieć jeden ogólny czynnik występujący w większości testów, którego istnienie miałoby wyjaśniać współzmienność wyników testów. W swojej pracy Spearman podał macierz korelacji między następującymi zmiennymi-wyniki testów uzdolnień w zakresach: C-języki klasyczne, F-język francuski, E-język angielski, M-matematyka, D-rozróżnianie tonacji, Mu-słuch muzyczny.
3 Początki analizy czynnikowej Istota i cel analizy czynnikowej Porównanie z analizą głównych składowych Zauważył on, że macierz ta ma interesującą własność: jakiekolwiek dwie jej kolumny(wiersze) są niemal proporcjonalne (pomijając wyrazy na przekątnej). Na przykład weźmy kolumny C i M: 0,83 0,67 0,78 0,64 0,66 0,45 0,63 0,51 1, 2
4 Początki analizy czynnikowej Istota i cel analizy czynnikowej Porównanie z analizą głównych składowych Równanie przedstawiające wyniki pewnej liczby testów uzdolnień według Spearmana wyraża się wzorem X i = a i F + e i F-wspólny czynnik dla wszystkich pomiarów a i -miara udziału wspólnego czynnika F w wyjaśnieniu i-tego testu uzdolnień e i -część X i, która jest charakterystyczna dla konkretnego testu uzdolnień i. Zakładamy, że F i e i są niezależne. F ma wariacje równą 1. Wówczas jeżeli X i są standaryzowane to: wariancja jest równa a 2 i + Var(e i ) = 1 czyli a 2 i jest częścią wariancji wyjaśnioną przez czynnik F.
5 Początki analizy czynnikowej Istota i cel analizy czynnikowej Porównanie z analizą głównych składowych Rozważania Spearmana o wpływie jednego czynnika głównego zostały rozszerzone na większą liczbę czynników przez L.L. Thurstone a w połowie XX wieku. Podał on teoretyczne podstawy analizy wieloczynnikowej, jak i możliwości praktycznych rozwiązań.
6 Istota i cel analizy czynnikowej Początki analizy czynnikowej Istota i cel analizy czynnikowej Porównanie z analizą głównych składowych Analiza czynnikowa jest metodą statystyczną. Tłumaczy korelacje i poszukuje przyczyn współzmienności, która jest generowana przez czynniki wspólne. Czynniki te nie są bezpośrednio obserwowane- są to wielkości abstrakcyjne. Celem analizy jest wykrycie tych wspólnych czynników i opisanie obserwowanych zmiennych za pomocą kombinacji liniowej tych czynników. Prowadzi to do redukcji wymiaru przestrzeni zmiennych.
7 Początki analizy czynnikowej Istota i cel analizy czynnikowej Porównanie z analizą głównych składowych Porównanie z analizą głównych składowych Analiza czynnikowa może być uznawana, jako rozszerzenie do analizy głównych składowych. Obie mogą być postrzegane, jako próby zbliżenia się do macierzy kowariancji Σ.
8 Porównanie dwóch metod Początki analizy czynnikowej Istota i cel analizy czynnikowej Porównanie z analizą głównych składowych Analiza czynnikowa orientacja kowariancyjna: punktem wyjścia jest zredukowana macierz korelacji lub macierz kowariancji model otwarty: obok wariancji cech uwzględnia się także wariancję nieobjaśnianą (zm. pominięte, losowość obserwacji) Analiza głównych składowych orientacja wariancyjna: punktem wyjścia jest zwykła macierz korelacji model zamknięty: uwzględnia się wyłącznie wariancję badanych zmiennych
9 Początki analizy czynnikowej Istota i cel analizy czynnikowej Porównanie z analizą głównych składowych każda zmienna pierwotna jest funkcją nieobserwowanych czynników wspólnych i czynnika swoistego buduje się teoretyczny model zjawiska i sprawdza, czy jest zgodny z danymi empirycznymi celem analizy jest identyfikacja ukrytych zmiennych zmienne pierwotne są liniową funkcją składowych głównych(a główne składowe można przedstawić jako kombinacje liniowe zmiennych pierwotnych) wychodzi się od obserwacji empirycznych, a następnie buduje model teoretyczny celem analizy jest uproszczenie struktury danych
10 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Model ten zakłada, że X-macierz zmiennych obserwowanych, jest liniowo zależny od kilku nieobserwowalnych zmiennych losowych F 1, F 2,..., F m. Szczegółowy wzór analizy czynnikowej Macierzowy wzór analizy czynnikowej
11 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania µ i -wartość oczekiwana zmiennej X i ; ɛ i -(i = 1, 2,..., p)czynnik specyficzny zmiennej X i ; odpowiada to interpretacji, że każda zmienna ma swój własny szczególny element niezależny od centralnego zjawiska; mówią one o cechach wyróżniających obserwowane zmienne, a często obejmują też efekt działania czynników losowych; F j -(j = 1, 2,..., m, gdzie m < p)czynnik wspólny; przyjmuje się, że opisuje on w więcej niż jedną zmienną, jeżeli opisuje wszystkie zmienne nazywamy go czynnikiem ogólnym; l ij -stałe parametry(współczynniki modelu) zwane ładunkami czynnikowymi; są one przedmiotem szacowania w analizie czynnikowej; ładunki te mają charakter podobny do współczynnika regresji i wskazują jak każdy z czynników wspólnych wpływa na konkretną zmienną obserwowaną.
12 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Założenia modelu czynniki wspólne są zestandaryzowane, czyli: E(F j ) = 0 i Var(F j ) = 1 dla j = 1, 2,..., m; czynniki wspólne F j nie są skorelowane ze sobą; dla czynników specyficznych zachodzi: E(ɛ i ) = 0, dla i = 1, 2,..., p oraz Cov(ɛ) = Ψ, gdzie Ψ jest macierzą diagonalną: ψ ψ 2 0 Ψ = ψ p czynniki wspólne F j nie są skorelowane z czynnikami specyficznymi ɛ i, czyli zachodzi: Cov(ɛ, F ) = 0
13 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Struktura kowariancji modelu
14 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Następuje podział wariancji poszczególnych zmiennych na wariancję wspólną i specyficzną: hi 2 - wariancja wspólna (communality), czyli ta część całkowitej wariancji, która jest wspólna z innymi zmiennymi, lub inaczej- która jest wyjaśniona przez wspólne czynniki. Zasób zmienności wspólnej i jest sumą kwadratów ładunków zmiennej i na m wspólnych czynnikach. ψ i - wariancja specyficzna (specific variance), czyli ta część wariancji całkowitej, która jest właściwa tylko tej konkretnej zmiennej.
15 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Zatem: Wariancja zmiennej X i Var(X i ) =wariancja wspólna + wariancja specyficzna
16 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Wzór na macierz wariancji- kowariancji wektora X zakłada, że p + p(p 1)/2 = p(p + 1)/2 wariancji i kowariancji X może być odtworzona z pm ładunków czynnikowych l ij i p wariancji specyficznych ψ i. Jeśli m = p, to każda macierz kowariancji Σ może być przedstawiona jednoznacznie z mnożenia macierzy LL, dlatego też Ψ może być macierzą zerową. Jednakże, analiza czynnikowa jest użyteczna wtedy, gdy m jest stosunkowo małe do p. W tym wypadku wzór na macierz kowariancji X umożliwia w prosty sposób wyliczenie wszystkich elementów p(p + 1)/2 za pomocą mniejszej liczby elementów. Na przykład jeśli X zawiera p=12 wartości i nasz podstawowy model analizy czynnikowej zawiera m=2 czynniki wspólne, wtedy p(p + 1)/2 = 12(13)/2 = 78 elementów Σ są opisane, w odniesieniu do mp + p = 2(12) + 12 = 36 parametrów l ij oraz ψ i z modelu.
17 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Przykład- brak odpowiedniego rozwiązania Niech p=3 i m=1 i niech zmienne losowe X 1, X 2 i X 3 mają dodatnio określoną macierz kowariancji: Σ = Wzór na macierz kowariancji zakłada, że: Σ = LL + Ψ, lub inaczej:
18 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Para równań:.70 = l 11 l 31 daje nam:.40 = l 21 l 31 l 21 = ( ).40 l Zastąpienie l 21 tym wynikiem w równaniu:.90 = l 11 l 21 daje l 11 = ± Niech Var(F 1 ) = 1 i Var(X 1 ) = 1, l 11 = Cov(X 1, F 1 ) = Corr(X 1, F 1 ). Teraz współczynnik korelacji(w wartości bezwzględnej) nie może być większy niż 1. Zatem z tego punktu widzenia l 11 = jest zbyt duże.
19 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Także równanie: 1 = l ψ 1 daje ψ 1 = 0.575, które jest niedostateczne, ponieważ daje wartość ujemną dla Var(ε 1 ) = ψ 1. Zatem dla tego przykładu z m=1, jest możliwe otrzymanie rozwiązania liczbowego dla równania Σ = LL + Ψ, jednakże rozwiązanie to nie jest zgodne z interpretacją statystyczną, a więc nie jest to poprawne rozwiązanie problemu.
20 Niejednoznaczność rozwiązania Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Jeśli m > 1 zawsze istnieje jakaś niejednoznaczność związana z wyznaczeniem modelu analizy czynnikowej. By to zauważyć, weźmy dowolną macierz ortogonalną T o wymiarach m x m, taką że: TT = T T = I. Wtedy wzór modelu można zapisać: X µ = LF + ε = LTT F + ε = L F + ε gdzie L = LT i F = T F. Zachodzi: E(F ) = T E(F ) = 0 i Cov(F ) = T Cov(F )T = T T = I
21 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Nie jest więc możliwe, żeby na postawie obserwacji X, rozróżnić ładunki L od L. Oznacza to, że współczynniki F i F = T F mają te same właściwości statystyczne i oba generują tę samą macierz kowariancji Σ. To znaczy, że: Σ = LL + Ψ = LTT L + Ψ = (L ) (L ) + Ψ
22 Założenia modelu analizy czynnikowej Struktura kowariancji modelu Przykład- brak odpowiedniego rozwiązania Niejednoznaczność rozwiązania Ta niejednoznaczność daje uzasadnienie dla rotacji czynników, ponieważ macierze ortogonalne odpowiadają za obroty (i odbicia) układu współrzędnych X. Analiza czynników modelu postępuje przez nakładanie warunków, które pozwolą na jednoznaczne określenie L i Ψ. Następnie modyfikujemy macierz ładunków mnożąc ją przez macierz ortogonalną, tak aby otrzymać łatwiejsze do interpretacji wyniki. Ale o tym powiemy dokładniej w dalszej części prezentacji...
23 Metoda Głównych Składowych Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Wśród metod obliczania ładunków czynnikowych wyróżniamy metodę znaną z analizy głównych składowych. Należy przyjrzeć się początkowym zmiennym. Jeżeli analizowane zmienne są porównywalne (wyrażają się w tych samych jednostkach i są tego samego rzędu), to w dalszej analizie wykorzystuje się macierz kowariancji. Jeżeli natomiast zmienne mają różne jednostki lub są różnego rzędu, analize składowych głównych przeprowadza się wykorzystując macierz korelacji.
24 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Przyjmijmy, ze punktem wyjścia w analizie czynnikowej jest macierz kowariancji Σ, która ma pary wartości i wektorów własnych (λ i, e i ), dla i = 1, 2,..., p, przy czym λ 1 λ 2... λ p 0. Wtedy Macierz Σ jest postaci
25 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Chociaż przedstawione w analizie czynnikowej Σ jest dokładne, nie jest ono szczególnie użyteczne: używa tyle samo wspólnych czynników ile jest zmiennych nie pozwala na jakąkolwiek wariancje specyficzną ψ (czyli ψ i = 0) Wolimy wzory, które wyjaśniają strukturę kowariancji w odniesieniu do kilku wspólnych czynników.
26 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Jednym sposobem, stosowanym kiedy ostatnie p-m wartości własne są małe, jest pominięcie udziału λ m+1 e m+1 e m λ pe p e p w Σ. Pomijając ten udział, otrzymujemy obliczenie przybliżone Przybliżona macierz Σ Zakłada się w ten sposób, ze czynniki specyficzne ɛ i mają małe znaczenie i mogą być pominięte w macierzy Σ.
27 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Jeśli specyficzne współczynniki są zawarte we wzorze, ich wariancje mogą być brane za elementy diagonalne Σ LL, gdzie LL równa się przybliżonej macierzy Σ. Ostatecznie okazuje się, że obliczeniem przybliżonym staje się Ostateczna przybliżona macierz Σ gdzie Ψ i = σ ii m j=1 l 2 ij dla i = 1, 2,..., p.
28 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności By zastosować tę metodę do zbioru danych x 1, x 2,..., x n najpierw trzeba odjąć od nich średnią z próby x. Skupione obserwacje mają taką samą macierz kowariancji próby S jak pierwotne obserwacje. W przypadkach, w których jednostki zmiennych nie są proporcjonalne, wskazane jest pracować z ujednoliconymi zmiennymi
29 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności których macierz kowariancji próby (S) jest macierzą korelacji próby (R) na obserwacjach x 1, x 2,..., x n. Ujednolicanie pozwala uniknąć problemów związanych z występowaniem jednej zmiennej z dużą wariancją nadmiernie wpływającą na określenie ładunków czynnikowych. Analiza czynnikowa głównego składnika dla macierzy kowariancji próby S jest określona w odniesieniu do jej par wartości i wektorów własnych macierzy ( λ 1, ê 1 ), ( λ 2, ê 2 ),..., ( λ p, ê p ), gdzie λ 1 λ 2... λ p. Niech m < p będzie liczbą wspólnych czynników. Wtedy macierz przybliżonych ładunków czynnikowych l ij jest dana przez [ ] L = λ 1 ê 1 ; λ 2 ê 2 ;...; λ m ê m
30 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Przybliżone wariancje specyficzne dostarczone są przez elementy diagonalne macierzy S L L, więc Ψ = gdzie ψ i = s ii m j=1 l2 ij ψ ψ ψ p
31 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Zasoby zmienności wspólnej są zatem określone wzorem h 2 i = m j=1 l2 ij = m j=1 λ j ê 2 ij Rozważmy macierz residuum S ( L L ) + Ψ wynikającą z przybliżenia S przez rozwiązanie głównego składnika. Elementy diagonalne są równe zeru i jeśli inne element są również małe, możemy subiektywnie uznać model m-czynnikowy za stosowny.
32 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Udziały pierwszych kilku czynników w wariancjach próbkowych zmiennych powinny być duże. Udział pierwszego wspólnego czynnika w wariancji próby s ii to l 2 i1. Stąd udział tego czynnika w całkowitej wariancji próby s 11 + s s pp jest równy l l l 2 p1 = ( λ 1 ê 1 ) ( λ 1 ê 1 ) = λ 1 ponieważ wektor własny macierzy ê i ma długość 1. część całkowitej wariancji próbki ze względu na j-ty czynnik dla analizy czynnikowej S i R λ j s 11 +s s pp i λ j p
33 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Kryterium to jest często używane, jako urządzenie heurystyczne dla określenia odpowiedniej liczby wspólnych czynników. Liczba wspólnych czynników zachowanych we wzorze jest zwiększana dopóki odpowiednia proporcja całkowitej próby wariancji zostanie wyjaśniona.
34 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Zmodyfikowane podejście- Rozwiązanie Głównego Czynnika Czasem rozważane jest zmodyfikowane podejście do głównego składnika. Opiszemy rozumowanie w odniesieniu do analizy czynnikowej dla R, chociaż procedura jest także odpowiednia dla S. Rozważmy dobrze określony model ρ = LL + Ψ. Wówczas: ρ ii = 1 = hi 2 + ψ i. Jeżeli udział ψ i z przekątnej jest usunięty, lub równoważnie- hi 2 = 1, to otrzymana macierz wygląda następująco: ρ Ψ = LL. Przypuśćmy teraz, że wstępne oszacowania ψi wariancji specyficznej są podane. Zastępując elementy diagonalne macierzy R przez hi 2 = 1 ψi otrzymujemy zredukowaną macierz korelacji próby.
35 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności R r = h 2 1 r 12 r 1p r 12 h2 2 r 2p r 1p r 2p hp 2 Zachodzi wówczas relacja: R r = L r L r, gdzie L r = {lij } są szacowanymi ładunkami. Metoda Głównych Składowych dla analizy czynnikowej używa szacunków: ] L r = [ λ λ 1ê 1 ; 2ê 2 ;...; λ mê m i ψ i = 1 m j=1 l 2 2 ij, h i = mj=1 l 2 ij
36 Krótkie przypomnienie Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Wartość własna Mówi nam jaka część całkowitej zmienności została wyjaśniona przez główną składową. Okazuje się, ze każda kolejna główna składowa określa coraz mniejszą część wariancji więc kolejne wartości własne maleją. Suma wartości własnych jest całkowitą wariancją więc można określić jaki procent wariancji wyjaśniają poszczególne składowe. Wektor własny Przedstawia jaki wpływ mają wartości pierwotne na główną składową. Pokazuje współczynniki kombinacji liniowej, które wyznaczają główną składową.
37 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Ładunki czynnikowe Również pokazują jaki mają wpływ poszczególne czynniki pierwotne na główną składową. Mówią jaką część zmiennej wariancji naszej składowej stanowią zmienne pierwotne. Naszym celem jest wyznaczenie takich ładunków, żeby składowa główna wyjaśniała maksymalną część wariancji zmiennych pierwotnych.
38 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Kryterium Kaisera Polega na tym, aby odrzucić wszystkie czynniki, których wartości własne są mniejsze bądź równe 1. Test osypiska To drugi sposób na określenie, ile czynników powinniśmy pozostawić. Szukamy miejsca, gdzie występuje łagodny spadek wartości własnych i na prawo od tego miejsca najprawdopodobniej znajduje się osypisko czynnikowe i możemy na podstawie wykresu odczytać, ile zmiennych należy pozostawić.
39 Kod w SAS Wstęp Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności data spearman (type=corr); _type_= corr ; if _n_=1 then _type_= N ; infile cards missover; input _name_ $ c f e m d mu; lines; n 33 c 1.0 f e m d mu ; proc factor data=spearman method=prin res scree; var c f e m d mu; title3 Principal Component Method ; run; proc factor data=spearman method=prin res nfact=2; title3 PC Method: Res matrix for nfact=2 ; run; proc factor data=spearman method=prin res nfact=3; title3 PC Method: Res matrix for nfact=3 ; run;
40 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności W procedurze PROC FACTOR używamy opcji PRINCIPAL, co zapisujemy METHOD = PRINCIPAL lub METHOD = PRIN. Możemy użyć jedną z trzech opcji wybory liczby czynników: NFACTOR=...lub NFAC=...lub N=... - tu podajemy od razu liczbę czynników, którą chcemy użyć; MINEIGE=...lub MIN=... - wybiera nam czynniki, których wartości własne większe bądź równe od wpisanej wartościdomyślnie jest to 1. PROPORTION=... lub P=... - aby wybrać wartości własne potrzebne do otrzymania zadanej proporcji całkowitej wariancji. Można również użyć opcji PRECENT =... czyli podajemy w procentach, gdzie najwyższa wartość to 100 ( w przypadku proporcji najwyższa wartość to 1)
41 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Wykres osypiska wskazuje, że powinniśmy przyjąć model z jednym czynnikiem.
42 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Biorąc pod uwagę również kryterium Kaisera, widzimy że tylko jedna wartość własna jest większa niż 1, zatem nasz model będzie jednoczynnikowy. Kolumna Udział pokazuje jaki udział w sumie bierze dana wartość własna, czyli w ilu procentach została wyjaśniona. Kolumna Skumulowany jest sumą udziału poprzedzających wartości własnych, aż dojdziemy do całkowitej wariancji równej 1.
43 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Nasz model jest jednoczynnikowy, zatem macierz L jest wektorem postaci: L = ( ; ;...; )
44 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Jest to pierwsza wartość własna, która wyjaśnia zmienność całkowitej wariancji w 68, 38%. Końcowe oszacowania ładunków to wartości początkowe podniesione do kwadratu- l 2 i. Suma daje nam wariancje wyjaśnioną przez nasz czynnik.
45 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Dzięki procedurze RES użytej w kodzie wyświetlna się nam macierz korelacji resztowej. Wzdłuż przekątnej znajdują się wartości 1 h 2 i, czyli nasza wariancja specyficzna lub inaczej wyjątkowość (uniquness).
46 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności
47 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Wartości te są obliczane według następującego wzoru:
48 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Gdy zwiększamy ręcznie w kodzie liczbę ładunków to wartości takie jak: łączne końcowe oszacowanie ładunków oraz procent całej zmienności wariancji, są coraz większe. Natomiast korelacje resztowe są coraz mniejsze. Należy jednak pamiętać, że nasz model analizy czynnikowej ma sens wtedy, gdy liczba czynników jest mała w porównaniu z liczbą zmiennych wejściowych.
49 Metoda największej wiarygodności Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Określenie największej wiarygodności dla ładunków czynnikowych i wariancji specyficznych możemy otrzymać, jeśli wspólne czynniki F i specyficzne czynniki ɛ mają rozkład normalny (przypomnienie: X j µ = LF j + ɛ j ) oraz X 1, X 2,..., X n są losową próbą z N p (µ, Σ). Funkcja prawdopodobieństwa przedstawia się wzorem co zależy od L i Ψ, występujące we wzorze Σ = LL + Ψ.
50 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Ten wzór wciąż nie jet dobrze zdefiniowany przez wielokrotność wyboru L (dzięki transformacjom ortogonalnym). Jednoznacznego wyboru L dokonujemy przez nałożenie dodatkowego warunku: = L Ψ 1 L, gdzie jest macierzą diagonalną. W metodzie największej wiarygodności należy maksymalizować wzór funkcji prawdopodobieństwa podany powyżej. Istnieją już skuteczne programy komputerowe, które umożliwiają łatwe otrzymanie tych estymacji. Zasoby zmienności wspólnej, określone metodą największej wiarygodności, wynoszą: ĥ2 i = l 2 i1 + l 2 i l 2 im dla i = 1, 2,..., p a więc Część całkowitej wariancji z próby ze względu na j-ty czynnik l 2 1j + l 2 2j l 2 pj s 11 + s s pp
51 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Do określenia liczby wspólnych czynników wykorzystujemy: badanie współczynnika wiarygodności (likelihood ratio test) - daje ono możliwość sprawdzenia hipotezy, że k-czynnikowy model jest właściwy, gdzie k jest znaną liczbą całkowitą. Używając tego testu można zweryfikować hipotezę zerową H 0 : Σ = LL + Ψ, Rank(L) = k kryterium informacyjne Akaike - model k-czynnikowy z k oznaczającym najmniejszą wartość AIC(k) jest uważany za najlepszy.
52 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Przykład2-Analiza czynnikowa dla danych cen akcji przy użyciu metody największej wiarygodności Rozważmy ceny akcji składające się z n=100 tygodniowych stóp zwrotu. Stopy zwrotu są określone następującym wzorem: (cena zamknięcia w bieżącym tygodniu - cena zamknięcia w poprzednim tygodniu)/(cena zamknięcia w poprzednim tygodniu). Mamy pięć zmiennych(akcji): X1 = J P MORGAN X2 = CITIBANK X3 = WELLS FARGO X4 = ROYAL DUTCH SHELL X5 = EXXON MOBILE
53 Kod SAS Wstęp Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności data set1; infile "G:\STATYSTYKA-PREZENTACJA\stocks.dat.txt"; input x1-x5; label x1 = J P MORGAN x2 = CITIBANK x3 = WELLS FARGO x4 = ROYAL DUTCH SHELL x5 = EXXON MOBILE; run; proc factor data=set1 method=ml nfact=1 res; var X1-X5; priors smc; run;
54 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Do użycia metody największej wiarygodności wykorzystujemy opcję METHOD=ML w procedurze FACTOR. Dla tego algorytmu, estymatory hi 2 muszą być podane używając opcji PRIOR=. Istnieje kilka możliwości wyboru estymatorów hi 2. Opcją domyślną jest wielokrotna korelacja kwadratowa,która jest definiowana przez procedurę PRIOR=SMC. Wyróżniamy również: PRIOR=ASMC - skorygowana wieloraka korelacja kwadratowa PRIOR=MAX - maksimum wartości bezwzględnej korelacji
55 Estymacja h 2 i Wstęp Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności metodą wielorakiej korelacji kwadratowej Niech R 1 = (r ij ) będzie macierzą odwrotną do macierzy korelacji R. Popularnym podejściem do estymowania Ψ i jest przyjęcie Ψ i = 1, i = 1,.., p r ii Jest to równoważne estymacji i-tego elementu h 2 i, którego estymator jest postaci ĥ 2 i = 1 Ψ i = 1 1 r ii = SMC i który jest równy współczynnikowi wielokrotnej korelacji kwadratowej między zmienną x i (i-tym elementem wektora zmiennych x) i pozostałymi p-1 elementami wektora x.
56 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Macierz pseudo korelacji R a zadana równaniem R a = R Ψ, gdzie elementy na diagonali ĥ2 i zastępują hi 2, jest teraz użyta do wykonania analizy czynnikowej. W SAS, używając opcji PRIORS = SMC w procedurze PROC FACTOR estymacja zasobów wariancji wspólnej jest realizowana za pomocą metody SMC. Całkowita wariancja wspólna jest wtedy estymowana przez p i=1 SMC i.
57 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Chcemy wyznaczyć najmniejszą liczbę czynników, które mogą opisać dane, za pomocą formalnych testów statystycznych oraz kryterium AIC. Hipoteza zerowa dla modelu k- czynnikowego H 0 : liczba czynników k jest wystarczająca W SASie liczbę czynników wybieramy procedurą NFACT=k lub NFACTORS=k
58 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Widzimy, że dla modelu jednoczynnikowego (k = 1) p = Stąd wniosek, że ten model jest niewystarczający.
59 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Model z k = 2 czynniki jest wystarczających, gdyż p jest dostatecznie duże i wynosi Dla tej wartości k, kryterium AIC osiąga swoje minimum równe
60 Model 1- czynnikowy Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności
61 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Dla modelu jednoczynnikowego ostateczne estymatory hi 2 to wartości w kolumnie Wspólna wariancja czynnikowa. Wariancja tłumaczona pojedynczym czynnikiem (podana w tabelce Wariancja wyjaśniona przez każdy z czynników- nieważone ) to Ważona suma wariancji, pokazana w kolumnie Ważona jest liczona za pomocą wzoru: 5 w i hi 2 = i=1 wynosi i=1 h 2 i ψ i = 5 i=1 h 2 i 1 h 2 i
62 Model 2- czynnikowy Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Pierwszy czynnik wyjaśnia całkowitej wariancji, a drugi Łącznie dwa czynniki wyjaśniają wariancji.
63 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności Interpretacja: Wszystkie zmienne mają ładunki dodatnie dla F 1 oraz ładunki te mają podobne (stosunkowo wysokie) wartości. Zatem czynnik F 1 przedstawia ogólne warunki ekonomiczne i może byc nazywany czynnikiem rynkowym. Drugi czynnik F 2 kontrastuje akcje bankowe z akcjami ropy naftowej- czy akcjach bankowych pojawiają się współczynniki ujemne, a przy akcjach ropy naftowej współczynniki dodatnie. Może być on nazwany czynnikiem sektorowym.
64 Kod SAS- kontynuacja przykładu 1. Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności data spearman (type=corr); _type_= corr ; if _n_=1 then _type_= N ; infile cards missover; input _name_ $ c f e m d mu; lines; n 33 c 1.0 f e m d mu ; proc factor data=spearman method=ml res scree; var c f e m d mu; title3 Maximum Likelihood Method ; run;
65 Wyniki w SAS Wstęp Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności
66 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności
67 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności
68 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności
69 Metoda Głównych Składowych Zmodyfikowane podejście- rozwiązanie głównych składowych Przykład1-metoda głównych składowych Metoda największej wiarygodności Przykład2 Przykład1-metoda największej wiarygodności
70 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Jak wspomnieliśmy wcześniej, macierz ładunków ˆL nie zmienia swoich własności po wymnożeniu jej przez dowolną macierz ortogonalną. Taką transformację utożsamiać można z obrotem osi układu współrzędnych, które w naszym przypadku odpowiadają kolejnym czynnikom F 1,...F m. Z tego powodu transformację tą nazywamy rotacją czynników.
71 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Jeśli jako ˆL oznaczymy p x m - wymiarową macierz wyestymowanych ładunków to macierz ˆL = ˆLT, gdzie TT = T T = I jest p x m - wymiarową macierzą obróconych ładunków. Równanie ˆLˆL + ˆψ = ˆLTT ˆL + ˆψ = ˆL ˆL + ˆψ. pokazuje, że macierz kowariancji (lub korelacji) nie ulega zmianie w wyniku tej transformacji. Również wariancje specyficzne ψ, wariancje wspólne ĥi 2 i macierz residuów nie zmieniają się. Dlatego z matematycznego punktu widzenia nie ma znaczenia której z macierzy, ˆL czy ˆL, użyjemy do obliczeń.
72 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Celem rotacji czynników jest uzyskanie macierzy ˆL, która pozwoliłaby na prostą interpretację zależności poszczególnych zmiennych od czynników F 1,..., F m. Idealna jest sytuacja, w której każda ze zmiennych ma duży ładunek na tylko jednym czynniku i małe ładunki na pozostałych. Zdarza się to bardzo rzadko, ale istnieje wiele sposobów rotacji macierzy ˆL, które pomagają w otrzymaniu możliwie prostych w interpretacji wyników.
73 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Aby zobrazować ideę rotacji posłużymy się prostym przykładem dla dwóch czynników (m=2). W tym przypadku problem można często rozwiązać graficznie: osie układu współrzędnych oznaczamy przez F 1 i F 2, a pary ładunków (l i1, l i2 ) dla i=1,..,p traktujemy jako punkty układu. Najprostszym przykładem rotacji jest obrót osi o kąt φ. Wówczas macierz obrotu T M 2x2 ma postać: [ ] cos φ sin φ T = sin φ cos φ
74 Przykład Wstęp Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Poniżej przedstawiona jest macierz korelacji wyników egzaminów z p=6 przedmiotów dla 220 studentów.
75 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Za pomocą metody największej wiarygodności estymujemy ładunki otrzymując następujące wyniki:
76 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Ładunki na czynniku F 1 są dodatnie na wszystkich zmiennych. Można interpretować go więc jako czynnik ogólnej inteligencji. Ładunki na czynniku F 2 są dodatnie dla przedmiotów humanistycznych, a ujemne dla matematycznych, więc można założyć, że wskazuje on na typ inteligencji (zdolności matematyczne lub humanistyczne). Rysunek na kolejnym slajdzie przedstawia graficznie umiejscowienie punktów (l i1, l i2 ) odpowiadających kolejnych zmiennym na układzie współrzędnych F 1, F 2.
77 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Układ współrzędnych obrócono o kąt φ = 20 tak, aby oś F1 przechodziła przez punkt 4. W ten sposób uzyskaliśmy układ, w którym zmienne 1,2,3 są skupione blisko osi F2, a zmienne 4,5,6 blisko osi F1.
78 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Możemy z tego wywnioskować, że zmienne 1,2 i 3 mają duże ładunki na F1, a zmienne 4,5 i 6 na F 2. Czynnik F 1 interpretujemy więc jako czynnik zdolności matematycznych, a F2 jako czynnik zdolności humanistycznych. Wpływ czynnika ogólnej inteligencji F 1 rozbił się więc na dwa nowe czynniki umożliwiając bardziej precyzyjną interpretację. Rezultaty otrzymane z graficznego przedstawienia problemu potwierdzić można wyliczając macierz ˆL [ ] ˆL = ˆL cos 20 sin 20 T = sin 20 cos
79 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne
80 Rotacja Varimax Wstęp Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne W bardziej złożonych przypadkach np. gdy mamy więcej niż trzy czynniki metoda graficzna jest nieskuteczna. Wtedy najczęściej stosowanym typem rotacji jest znormalizowana rotacja varimax. Procedura varimax polega na znalezieniu macierzy ortogonalnej T M mxm, która maksymalizuje wartość wyrażenia { V = m j=1 1 p p i=1 ( ) l 2 2 [ ij 1 h i p p i=1 ] } lij 2 2 h i gdzie l ij dla są elementami obróconej macierzy ładunków ˆL M pxm.
81 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Wyrażenie V to suma liczonych kolumnowo wariancji z podniesionych do kwadratu i skalowanych wartościami h i ładunków. Maksymalizacja V to próba jak największego zróżnicowania wartości l ij dla każdego czynnika F j tak, aby możliwe było zidentyfikowanie zmiennych, na które dany czynnik wpływa w dużym stopniu i takich, na które ma tylko śladowy wpływ.
82 Przykład Wstęp Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne W 1970 roku Sinha i Lee przeprowadzili badania prób ziaren pszenicy, owsa, jęczmienia i żyta pochodzących z różnych części kanadyjskiej prerii. Próby pobrane zostały w terminalach rozładunkowych Thunder Bay (Ontario)podczas rozładowywania wagonów kolejowych. Celem badania było ustalenie ewentualnych zależności między własnościami ziarna a jego zarobaczeniem pewnymi gatunkami stawonogów. Zebrano 165 próbek i nie rozróżniano ich pod względem gatunku zboża.
83 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Zmienne środowiskowe: GRADE - określa jakość ziarna w skali od 1 (najniższa) do 6 (najwyższa) MOIST - wyrażona w procentach wilgotność ziarna DOCK - (dockage - potrącenie) mierzy ilość ziaren chwastów, zniszczonych ziaren zbóż i innych niepożądanych materii w próbie Zmienne zliczające ilość znalezionych w próbie osobników stawonogów 6 wyróżnionych gatunków: roztocza: ACAR - Acarus, Rozkruszek, CHEY - Cheyletus, GLYC - Glycychagus, LARS - Larsonemus oraz CRYP - Cryptolestes - rodzaj chrząszcza PSOC -Psocoptera, Psotniki - rząd owadów (do kilku mm długości)
84 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Zmienne GRADE i DOCK przekształcono, jako nowe zmienne przyjmując pierwiastki kwadratowe wartości pierwotnych. 6 zmiennych określających ilość stawonogów przekształcono używając tranformacji logarytmicznej o podstawie 10. Wybrano estymację metodą głównych czynników METHOD=PRIN. Nie określamy z góry liczby czynników.
85 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Kod w SAS
86 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne
87 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne
88 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Na podstawie wyjściowej (nieobróconej) macierzy ˆL trudno jest znależć oczekiwane zależności między zmiennymi. Nie daje ona zadowalającego wyniku, więc konieczne jest zastosowanie rotacji. Po transformacji macierzy ˆL nowy czynnik F1 wskazuje na zależność między występowaniem roztoczy z gatunków Cheyletus i Larsonemus a wilgotnością ziarna - można wnioskować że rozwijają się one dobrze w wilgotnym środowisku. Czynnik F2 zdaje się opisywać szerzej pojętą jakość towaru: jakość ziarna GRADE i ilość odpadów DOCK. Zależność między tymi zmiennymi zdaje się logiczna. Czynnik F3 opisuje ilość stawonogów z gatunków Glycychagus i Cryptolestes. Ładunki na tych zmiennych mają przeciwne znaki, co sugeruje, że odpowiadają im skrajnie różne środowiska lub są naturalnymi wrogami.
89 Inne rotacje ortogonalne Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Poniżej prezentujemy inne powszechnie stosowane rotacje ortogonalne. Każda z nich polega na znalezieniu macierzy ortogonalnej T maksymalizującej wartość pewnego wyrażenia. surowa rotacja varimax maksymalizująca { V 2 = m 1 p ( ) [ ] } 2 p lij 2 1 p 2 p lij 2 j=1 i=1 i=1 czyli sumę liczonych po kolumnach wariancji z kwadratów ładunków. rotacja equamax maksymalizująca [ wyrażenie 1 m p ( p ) ] 2 p lij 2 j=1 lij 4 m 2p i=1 która próbuje przypisać każdej zmiennej duży ładunek na tylko jednym czynniku. i=1
90 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne rotacja quartimax maksymalizująca wartość wyrażenia ( ) 2 Q = 1 pm lij 4 1 pm lij 2 i, j czyli wariancję z kwadratów ładunków. rotacja orthomax maksymalizująca wyrażenie [ 1 m p ( p ) ] p lij 4 γ 2 p lij 2 j=1 i=1 i=1 dla dowolnie wybranego γ (0, 1) i, j
91 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Aby zastosować wybraną metodę rotacji w SAS-ie wystarczy wykorzystać opcję ROTATE= i wpisać nazwę rotacji. Dodatkowo, dla rotacji orthomax należy określić wartość parametru gamma opcją GAMMA=.
92 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Kod dla danych z poprzedniego przykładu
93 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne
94 Założenia i cel rotacji czynników Rotacja Varimax Inne rotacje ortogonalne Jeśli żadna z ortogonalnych rotacji nie da zadowalających rezultatów możemy zastosować rotację ukośną. Jej celem jest opisanie każdej ze zmiennych przy pomocy jak najmniejszej ilości czynników, w idealnym przypadku od jednego. Polega ona na takim przesunięciu osi, aby przechodziły one dokładnie przez skupiska punktów oznaczających ładunki. Osie wynikowe nie są względem siebie ortogonalne. Takie przekształcenie prowadzi do otrzymania czynników, które będą między sobą skorelowane.
95 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych W analizie czynnikowej najczęściej skupiamy się na interpretacji wpływu poszczególnych czynników na badane zmienne. Jednak czasem aby przeprowadzić dalszą analizę na zredukowanej ilości danych potrzebujemy oszacować wartości nieobserwowalnych zmiennych F i. Te estymacje nazywamy wartościami czynnikowymi. Nie należy ich jednak rozumieć jako zwykłej estymacji nieznanych parametrów, ale raczej jako estymacje wartości na m-wymiarowych nieobserwowalnych wektorach losowych F j, j = 1,.., n.
96 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych Oznaczenie ˆf j := estymacje wartości wektorów f j przyjętych przez zmienną F j Tak więc współrzędne wektora f j to wartości kolejnych czynników F 1,...F m przyjęte przez te zmienne dla j-tej obserwacji. Naszym zadaniem jest estymowanie wartości m-wymiarowych wektorów f j dla każdego j 1,..., n.
97 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych Przedstawimy dwie metody estymacji wartości czynnikowych: ważoną metodę najmniejszych kwadratów i metodę regresji. W obu musimy potraktować estymowane wartości ładunków ˆl ij oraz wariancji specyficznych ˆψ i jako wartości rzeczywiste. Potrzebne nam są wartości obserwacji na poszczególnych zmiennych X 1,..., X p, które zwykle przekształcamy odejmując wartość średnią lub standaryzując je. Zwykle do obliczeń wykorzystujemy macierz obróconą ˆL zamiast macierzy ˆL. Jak wiemy mają one te same własności, więc w dalszym opisie metod użyjemy dla uproszczenia zapisu ˆL.
98 Ważona metoda najmniejszych kwadratów Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych Załóżmy, że znane są wektor średnich µ, macierz ładunków czynnikowych L i wariancje specyficzne ψ dla modelu: X µ = LF + ɛ i niech ɛ = [ɛ 1, ɛ 2,..., ɛ p ] będą błędami. Wykorzystując fakt, że wariancje specyficzne Var(ɛ i ) = ψ i nie muszą być równe, chcemy wybrać taką macierz ˆf estymującą f, aby zminimalizować sumę kwadratów błędów ważonych przez ich wariancję, czyli wyrażenie: p i=1 ɛ 2 i ψ i = ɛ ψ 1 ɛ = (x µ Lf ) ψ 1 (x µ Lf )
99 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych Stosując ważoną metodę najmniejszych kwadratów otrzymujemy rozwiązanie: ˆf = (L ψ 1 L) 1 L ψ 1 (x µ) Podstawiając estymatory ˆL, ˆψ i ˆµ = x w miejsce odpowiednio L,ψ i µ otrzymujemy następującą estymację wektora wartości j-tego czynnika: Estymator wartości czynnikowych na j-tej obserwacji ˆf j = (ˆL ˆψ 1ˆL) 1ˆL ˆψ 1 (x j x)
100 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych Jeśli ˆL i ˆψ były estymowane metodą największej wiarygodności to muszą one spełniać założenie o jednoznaczności wyboru macierzy L : ˆL ˆψ 1ˆL = ˆ, gdzie ˆ jest macierzą diagonalną Stąd otrzymujemy: lub dla macierzy korelacji: ˆf j = ˆ 1ˆL ˆψ 1 (x j x) ˆf j = ˆ 1 z ˆL z ˆψ 1 z z j gdzie z j = D 1/2 (x j x) i ˆρ = ˆL z ˆL z + ˆψ z
101 Metoda Regresji Wstęp Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych W Metodzie regresji ponownie startujemy od modelu wyjściowego tzn. X µ = LF + ɛ oraz zakładamy, że macierz ładunków czynnikowych L oraz macierz specyficznych wariancji Ψ są znane. Przy założeniu łącznego rozkładu normalnego czynników F i ɛ otrzymujemy, że liniowa kombinacja X µ = LF + ɛ ma rozkład: N p (0, LL + Ψ). Dodatkowo łączny rozkład X µ oraz F to N m+p (0, Σ ) gdzie: a 0 jest (m + p) x 1 wekorem 0.
102 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych Rozkład warunkowy F x jest wielowymiarowy normalny z wartościami: Wartości L (LL + Ψ) 1 są współczynnikami w regresji czynników. Estymacja tych współczynników da nam wartości czynnikowe. Biorąc jakikolwiek wektor obserwacji x j oraz wyestymowane z Metody Największej Wiarygodności L i Ψ uzyskujemy, że j-te wartości czynnikowe wektora dane są przez:
103 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych Możemy uprościć to wyrażenie stosując następującą równość: dzięki temu uproszczeniu możemy porównywać wartości czynnikowe uzyskane obiema metodami, tj. metodą najmniejszych kwadratów oraz regresjii. Wykorzystujemy do tego poniższy wzór: Z estymacji metodą największej wiarygodności mamy ( L Ψ 1 L) 1 = 1 oraz łatwo zauważyć, że jeżeli elementy diagonalne tej macierzy są bliskie 0 to obie metody dają bliskie sobie wartości czynnikowe.
104 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych otrzymywane Metoda Regresji By zredukować możliwość otrzymania błędnej ilości wartościowych czynników, praktycy zamiast Σ korzystają z oryginalnej macierzy kowariancji S wtedy otrzymujemy wzór: f j = L S 1 (x j x) dla j = 1, 2,..., n lub gdy uwzględniamy macierz korelacji: f j = L zr 1 z j dla j = 1, 2,..., n dodatkowo jeżeli korzystamy z ładunków obróconych zamiast oryginalnych( L = LT ) to otrzymujemy wzór: f j = T f j dla j = 1, 2,..., n
105 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych
106 Podstawowe informacje Ważona metoda najmniejszych kwadratów Metoda Regresji Krótki przykład zależności Krótki przykład tworzenia różnych wyników sumarycznych
107 Przepis na sukces Przykład Najważniejszym problemem w Analizie Czynnikowej jest wybór odpowiedniego m, czyli ilości wspólnych czynników. Najczęściej końcowa decyzja o tym ile ich wziąć wynika z 3 rzeczy: jaki odsetek wariancji z próbki został wyjaśniony znajomości tematu sensowności wyników Wybór rotacji oraz metody rozwiązywania jest mniej skomplikowany, tak naprawdę najbardziej satysfakcjonująca analiza to taka w której rotację wypróbowano w paru metodach i wszystkie wyniki pokrywają się ze sobą, wtedy można uznać, że wykonaliśmy dobrą robotę.
108 Przepis na sukces Wstęp Przepis na sukces Przykład 1 Przeprowadź Metodę Głównych Składowych. Ta metoda jest najodpowiedniejsza do pierwszych zmagań z naszymi danymi.(np. nie potrzeba założeń o nieosobliwości R i S) 1 Zwróć uwagę na podejrzane obserwację robiąc np wykresy.warto również sprawdzić czy dane nie różnią się za bardzo. 2 Spróbuj rotacji varimax. 2 Przeprowadź Metodę Największej Wiarygodności, pamiętając o rotacji varimax. 3 Porównaj wyniki obu metod. 1 Sprawdź czy grupy ładunków są takie same 2 Sporządź wykres zależności wartości czynikowych z dwóch różnych metod.
109 Przepis na sukces Wstęp Przepis na sukces Przykład 4 Powtórz pierwsze 3 kroki dla innego m. Sprawdź czy istotnie poprawiło to interpretację wyników. 5 Dla dużej ilości danych, podziel je na pół i przeprowadź analizę na każdej grupie oddzielnie. Porównaj wyniki między sobą oraz poszczególne z całym zbiorem.(podział grupy według czasu ujawni dodatkowo zachodzące zmiany w czasie)
110 Oznaczenia Wstęp Przepis na sukces Przykład Badanie dotyczyło analizy kości i czaszki kogutów. Pełen zestaw danych zawierał n=276 wymiarów kości: Głowa: { X1 = długość czaszki X 2 = szerokość czaszki Noga: { X3 = długość kości udowej X 4 = długość kości piszczelowej Skrzydło: { X5 = długość kości ramienia X 6 = długość kości łokciowej
111 Przepis na sukces Przykład Kod w SAS DATA set1(type=corr); INPUT TYPE $ NAME $ X1-X6; Datalines; CORR X CORR X CORR X CORR X CORR X CORR X N N run; PROC PRINT data=set1; run; PROC FACTOR data=set1(type=corr) method=ml nfact=3 rotate=varimax res Heywood; run; PROC FACTOR data=set1(type=corr) method=prin nfact=3 rotate=varimax res Heywood; run;
112 Macierz korelacji Wstęp Przepis na sukces Przykład
113 Przepis na sukces Przykład Wyniki dla Metody Największej Wiarygodności
114 Przepis na sukces Przykład Wyniki dla Metody Głównych Składowych
115 Porównanie Wstęp Przepis na sukces Przykład
116 Macierze korelacji Wstęp Przepis na sukces Przykład Podzielmy teraz grupę badawczą na 2 zbiory.n 1 = 137 i n 2 = 139.Otrzymamy macierze korelacji odpowiednio:
117 Wyniki Wstęp Przepis na sukces Przykład
Prawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Statystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
ANALIZA CZYNNIKOWA Przykład 1
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn
Analiza czynnikowa Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmiennych, które są bezpośrednio obserwowalne
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Analiza Składowych Głównych i Czynnikowa
Analiza Składowych Głównych i Czynnikowa Agata Weltrowska Paulina Zalewska Wydział FTiMS, 12 kwiecień 2018 Wstęp oraz cele Wprowadzenie W jednej ze swoich prac, A.E. Maxwell podaje, że analiza składowych
Analiza czynnikowa i wnioskowanie o strukturze macierzy kowariancji
i wnioskowanie o strukturze macierzy kowariancji Katarzyna Hoffmann, Magdalena Czaplińska Paulina Filipiak, Szymon Flohr Politechnika Gdańska 20 maja 2014 i wnioskowanie o strukturze macierzy kowariancji
0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.
Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
3. Macierze i Układy Równań Liniowych
3. Macierze i Układy Równań Liniowych Rozważamy równanie macierzowe z końcówki ostatniego wykładu ( ) 3 1 X = 4 1 ( ) 2 5 Podstawiając X = ( ) x y i wymnażając, otrzymujemy układ 2 równań liniowych 3x
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
CELE ANALIZY CZYNNIKOWEJ
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Zaawansowane metody numeryczne
Wykład 10 Rozkład LU i rozwiązywanie układów równań liniowych Niech będzie dany układ równań liniowych postaci Ax = b Załóżmy, że istnieją macierze L (trójkątna dolna) i U (trójkątna górna), takie że macierz
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
3. FUNKCJA LINIOWA. gdzie ; ół,.
1 WYKŁAD 3 3. FUNKCJA LINIOWA FUNKCJĄ LINIOWĄ nazywamy funkcję typu : dla, gdzie ; ół,. Załóżmy na początek, że wyraz wolny. Wtedy mamy do czynienia z funkcją typu :.. Wykresem tej funkcji jest prosta
WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA I GIMNAZJUM Małgorzata Janik
WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA I GIMNAZJUM Małgorzata Janik DOPUSZCZAJĄCY DOSTATECZNY DOBRY BARDZO DOBRY LICZBY I DZIAŁANIA zna pojęcie liczby naturalnej, całkowitej, wymiernej. rozumie rozszerzenie
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Analiza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Układy równań i nierówności liniowych
Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:
ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań
1 Wartości własne oraz wektory własne macierzy
Rozwiązania zadania umieszczonego na końcu poniższych notatek proszę przynieść na kartkach Proszę o staranne i formalne uzasadnienie odpowiedzi Za zadanie można uzyskać do 6 punktów (jeżeli przyniesione
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
KADD Minimalizacja funkcji
Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Analiza składowych głównych i czynnikowa
Analiza składowych głównych i czynnikowa Martyna Kosna Katarzyna Gołota Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej Matematyka Finansowa 2018 1 / 89 Analiza Głównych Składowych
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
1.1 Klasyczny Model Regresji Liniowej
1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między
Natalia Neherbecka. 11 czerwca 2010
Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki
Analiza czynnikowa Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki Budowa wskaźnika Indeks był banalny I miał wady: o Czy
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących
Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Układy równań liniowych
Układy równań liniowych Niech K będzie ciałem. Niech n, m N. Równanie liniowe nad ciałem K z niewiadomymi (lub zmiennymi) x 1, x 2,..., x n K definiujemy jako formę zdaniową zmiennej (x 1,..., x n ) K
Przekształcanie równań stanu do postaci kanonicznej diagonalnej
Przekształcanie równań stanu do postaci kanonicznej diagonalnej Przygotowanie: Dariusz Pazderski Liniowe przekształcenie równania stanu Rozważmy liniowe równanie stanu i równanie wyjścia układu niesingularnego
istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy
MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Metoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji
Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Wykład z równań różnicowych
Wykład z równań różnicowych 1 Wiadomości wstępne Umówmy się, że na czas tego wykładu zrezygnujemy z oznaczania n-tego wyrazu ciągu symbolem typu x n, y n itp. Zamiast tego pisać będziemy x (n), y (n) itp.
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.
Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
Metoda największej wiarogodności
Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.
ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ. LICZBA TEMAT GODZIN LEKCYJNYCH Potęgi, pierwiastki i logarytmy (8 h) Potęgi 3 Pierwiastki 3 Potęgi o wykładnikach
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;(
Zad Przedstaw funkcję kwadratową w postaci ogólnej Przykład y = ( x ) + 5 (postać kanoniczna) FUNKCJA KWADRATOWA Postać ogólna funkcji kwadratowej to: y = ax + bx + c;( a 0) Aby ją uzyskać pozbywamy się
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Własności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
KONSPEKT FUNKCJE cz. 1.
KONSPEKT FUNKCJE cz. 1. DEFINICJA FUNKCJI Funkcją nazywamy przyporządkowanie, w którym każdemu elementowi zbioru X odpowiada dokładnie jeden element zbioru Y Zbiór X nazywamy dziedziną, a jego elementy
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;
Wykłady 8 i 9 Pojęcia przestrzeni wektorowej i macierzy Układy równań liniowych Elementy algebry macierzy dodawanie, odejmowanie, mnożenie macierzy; macierz odwrotna dr Mariusz Grządziel 15,29 kwietnia
KADD Minimalizacja funkcji
Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego
Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Metody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
Estymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Zawansowane modele wyborów dyskretnych
Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów
I. Liczby i działania
I. Liczby i działania porównywać liczby wymierne, zaznaczać liczby wymierne na osi liczbowej, zamieniać ułamki zwykłe na dziesiętne i odwrotnie, zaokrąglać liczby do danego rzędu, szacować wyniki działań,
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Wymagania edukacyjne z matematyki dla klasy VII
Wymagania edukacyjne z matematyki dla klasy VII Szkoły Podstawowej nr 100 w Krakowie Na podstawie programu Matematyka z plusem Na ocenę dopuszczającą Uczeń: rozumie rozszerzenie osi liczbowej na liczby
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
KADD Metoda najmniejszych kwadratów funkcje nieliniowe
Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...
Wykład 15 Układy równań liniowych Niech K będzie ciałem i niech α 1, α 2,, α n, β K. Równanie: α 1 x 1 + α 2 x 2 + + α n x n = β z niewiadomymi x 1, x 2,, x n nazywamy równaniem liniowym. Układ: a 21 x
Wymagania edukacyjne z matematyki dla uczniów klasy VII szkoły podstawowej
Wymagania edukacyjne z matematyki dla uczniów klasy VII szkoły podstawowej Ocenę dopuszczającą otrzymuje uczeń, który: rozumie rozszerzenie osi liczbowej na liczby ujemne umie porównywać liczby wymierne,
Funkcja kwadratowa. f(x) = ax 2 + bx + c,
Funkcja kwadratowa. Funkcją kwadratową nazywamy funkcję f : R R określoną wzorem gdzie a, b, c R, a 0. f(x) = ax 2 + bx + c, Szczególnym przypadkiem funkcji kwadratowej jest funkcja f(x) = ax 2, a R \
Wymagania edukacyjne z matematyki
Wymagania edukacyjne z matematyki Klasa I - program Matematyka z plusem" LICZBY I DZIAŁANIA POZIOM KONIECZNY - ocena dopuszczająca porównywać liczby wymierne, zaznaczać liczby wymierne na osi liczbowej,
Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe. P. F. Góra
Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2015 Co można zrobić z układem równań... tak, aby jego rozwiazania się nie zmieniły? Rozważam
Wymagania edukacyjne z matematyki
Wymagania edukacyjne z matematyki Klasa I - program Matematyka z plusem" Dział: LICZBY I DZIAŁANIA Poziom konieczny - ocena dopuszczająca porównywać liczby wymierne, zaznaczać liczby wymierne na osi liczbowej,
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Funkcja kwadratowa. f(x) = ax 2 + bx + c = a
Funkcja kwadratowa. Funkcją kwadratową nazywamy funkcję f : R R określoną wzorem gdzie a, b, c R, a 0. f(x) = ax + bx + c, Szczególnym przypadkiem funkcji kwadratowej jest funkcja f(x) = ax, a R \ {0}.
Wymagania edukacyjne z matematyki dla klasy I gimnazjum wg programu Matematyka z plusem
Wymagania edukacyjne z matematyki dla klasy I gimnazjum wg programu Matematyka z plusem pojęcie liczby naturalnej, całkowitej, wymiernej rozszerzenie osi liczbowej na liczby ujemne sposób i potrzebę zaokrąglania
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y
Zadanie 3 Oblicz jeżeli wiadomo, że liczby 8 2,, 1, , tworzą ciąg arytmetyczny. Wyznacz różnicę ciągu. Rozwiązanie:
Zadanie 3 Oblicz jeżeli wiadomo, że liczby 8 2,, 1, 6 11 6 11, tworzą ciąg arytmetyczny. Wyznacz różnicę ciągu. Uprośćmy najpierw liczby dane w treści zadania: 8 2, 2 2 2 2 2 2 6 11 6 11 6 11 26 11 6 11
Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 3 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.hedonic.dta przygotuj model oszacowujący wartość kosztów zewnętrznych rolnictwa 1. Przeprowadź regresję objaśniającą
Modele zapisane w przestrzeni stanów
Modele zapisane w przestrzeni stanów Modele Przestrzeni Stanów (State Space Models) sa to modele, w których część parametrów jest nieobserwowalna i losowa. Zachowanie wielowymiarowej zmiennej y t zależy
Wymagania eduka cyjne z matematyki
Wymagania eduka cyjne z matematyki Klasa I - program Matematyka z plusem" Dział: LICZ B Y I DZIAŁANIA porównywać liczby wymierne, zaznaczać liczby wymierne na osi liczbowej, zamieniać ułamki zwykłe na
Kształcenie w zakresie podstawowym. Klasa 2
Kształcenie w zakresie podstawowym. Klasa 2 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego działu, aby uzyskać poszczególne stopnie. Na ocenę dopuszczającą uczeń powinien opanować