Analiza składowych głównych i czynnikowa
|
|
- Paulina Nowak
- 6 lat temu
- Przeglądów:
Transkrypt
1 Analiza składowych głównych i czynnikowa Martyna Kosna Katarzyna Gołota Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej Matematyka Finansowa / 89
2 Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Ilustracja metody Załóżmy, że chcemy ocenić produkt (szminki do ust), który niedawno wszedł na rynek. Projektujemy kwestionariusz z różnymi wskaźnikami; między innymi pytamy respondentów o wygląd opakowania, gamę kolorystyczną, zapach, trwałość, sposób aplikacji, a nawet smak. Najprawdopodobniej odpowiedzi, na wskaźniki opakowanie, kolory, aplikacja, będą ze sobą wysoce skorelowane, gdyż wszystkie dotyczą wyglądu produktu. Jeśli otrzymamy wysoką korelację między dwoma wskaźnikami, możemy wnioskować, że są one redundantne. Aby uzyskać większą przejrzystość danych i uniknąć ich powielania czasami warto zastąpić pewną ilość zmiennych, jedną tzw. składową. 2 / 89
3 Populacja i próbka - główne składowe Etapy analizy Analiza głównych składowych (ang. principal component analysis) jest procedurą statystyczną, która polega na ortogonalnej trasformacji układu badanych zmiennych X w zbiór nowych nieobserwowanych zmiennych Y, które są w rzeczywistości kobinacją liniową tych obserwowanych zmiennych. Metoda często ujawnia zależności, których wcześniej się nie domyślano,a co za tym idzie PCA pozwala na zupełnie nową interperację danych. 3 / 89
4 Terminologia Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Współcześnie spotykamy się z nazwą analiza głównych składowych lub analiza składowych, bądź analiza składnikowa. Niekiedy można się spotkać z metodą składowych głównych. Wszystkie te określenia są wymienne. 4 / 89
5 Populacja i próbka - główne składowe Etapy analizy Główne składowe Główne składowe są tak wyznaczane, aby wariancje kolejnych składowych były coraz mniejsze. Gównych składowych można wyznaczyć tyle, ile było zmiennych pierwotnych. Jednak zazwyczaj kilka pierwszych wystarcza do wyjaśnienia większości wariancji układu zmiennych. Znaczenie i użyteczność głównej składowej jest mierzona wielkością wyjaśnianej przez nią całkowitej wielkości. 5 / 89
6 Populacja i próbka - główne składowe Etapy analizy Własności składowych głównych są liniową kombinacją obserwowanych zmiennych, są ortogonalne względem siebie, kolejne składowe wyjaśniają malejącą ilość łącznej wariancji zmiennych, suma wariancji sładowych jest równa sumie wariancji zmiennych pierwotnych. 6 / 89
7 Populacja i próbka - główne składowe Etapy analizy Geometryczna interpretacja głównych składowych Z geometrycznego punktu widzenia ideą analizy głównych składowych jest opisanie zmienności układu n punktów w pwymiarowej przestrzeni cech poprzez wprowadzenie nowego układu liniowych, ortogonalnych współrzędnych. Wariancje danych punktów względem wprowadzonych współrzędnych są uporządkowane malejąco. Rzuty punktów na pierwszą skaadową mają największą wariancję ze wszystkich możliwych liniowych współrzędnych. 7 / 89
8 Populacja i próbka - główne składowe Etapy analizy Rozważmy dwie zmienne X 1, X 2 oraz n pomiarów (x i1, x i2 ), (i = 1, 2,..., n). Pomiary sąprzedstawione na układzie współrzędnych na płaszczyźnie w formie diagramu korelacyjnego. Kierunek zgodnie z którym dane są bardziej rozproszone wyznacza nową oś, która reprezentuje pierwszą główną składową Y 1. Druga oś biegnąca pod kątem 90 stopni do pierwszej, wyznacza kierunek drugiej składowej Y 2. Obie osie współrzędnych X 1, X 2 są transformowane poprzez przesunięcie środka układu do punktu średnich ( x 1, x 2 ), a następnie obrócone w taki sposób, że otrzymujemy współrzędne Y 1, Y 2 głównych składowych. 8 / 89
9 Diagram korelacyjny Populacja i próbka - główne składowe Etapy analizy Rysunek: Graficzna ilustracja isoty wyobrędnienia głównych składowych - 9 / 89
10 Populacja i próbka - główne składowe Etapy analizy Macierz korelacji, macierz kowariancji Punktem wyjścia PCA są macierz korelacji bądź macierz kowariancji utworzone ze zbioru wyjściowego. Zawierają one całą informację niezbędną do wyznaczenia głónych składowych. Algorytm w obydwu wersjach jest identyczny, jednak uzyskane wyniki są zupełnie różne. Σ W przypadku użycia macierzy kowariancji (Σ) największy wpływ na wynik mają zmienne o największej wariancji. Stąd Σ możemy użyć, gdy analizujemy zbiór zmiennych o porównywalnych wielkościach (np. procentowe zmiany kursów akcji). ρ W przeciwnym przypadku decydujemy się na macierz korelacji (ρ). Użycie macierzy korelacji odpowiada wstępnej normalizacji zbioru pierwotnego, tak aby każda zmienna miała na wejściu identyczną wariancję. 10 / 89
11 Macierz kowariancji Σ Populacja i próbka - główne składowe Etapy analizy Jeżeli skala wyjściowych obserwacji jest ważna w intepretacji wyników analizy, to wybieramy macierz kowariancji Σ. Przekątna macierzy ma wariancje obserwowanych zmiennych, których suma wyraża łączną zmienność układu zmiennych, którą staramy się objaśnić możliwie małą liczbę głównych składowych. gdzie: σi 2 = σii - wariancja zmiennej X i σ ij = cov(x i, X j ) - kowariancja między zmiennymi losowymi X i, X j. 11 / 89
12 Macierz korelacji ρ Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Natomiast jeżeli zmienne są wyrażone w mocno rózniących się jednostkach (zakresach) bądź jeżeli nie są proporcjonalne, to powinniśmy zastosować macierz korelacji ρ. Macierz ta ma na przekątnej jedynki, które merytorycznie niczego sobą nie reprezentują (jest to stopień skorelowania zmiennej X i z sobą samą). gdzie: ρ ij = cov(x i,x j ) σ i σ j - współczynnik korelacji zmiennych X i, X j. 12 / 89
13 Cel przeprowadzenia PCA Populacja i próbka - główne składowe Etapy analizy redukcja liczby zmiennych opisujących zjawiska (bez utraty informacji), wykrywanie struktury w związkach między zmiennymi, weryfikacja wykrytych prawidłowości i powiązań, rozpoznawanie jednostek nietypowych, klasyfikacja obiektów w nowych przestrzeniach zdefiniowanych przez utworzone czynniki (grupowanie), graficzna prezentacja konfiguracji porównywanych zmiennych. 13 / 89
14 Zastosowanie Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Konieczność redukcji wymiaru eksploaracji danych wynika m. in. z: bazy danych nierzadko mają liczną ilość rekordów i zmiennych, z czego część zmiennych jest ze sobą ściśle powiązana (np. waga i wzrost), co może utrudnić analizę, użycie dużej liczby zmiennych może doprowadzić do nadmiernego dopasowania (overfitting), niekiedy utrzymanie pełnej wymiarowości zbioru danych utrudnia rozwiązanie. 14 / 89
15 Zastosowanie - podsumowanie Populacja i próbka - główne składowe Etapy analizy Analiza składnikowa jest głównie środkiem prowadzącym do celu, niż celem samym w sobie, ponieważ służą jako pośredni krok w bardziej złożonym badaniu. Przykładowo główne składowe mogą być danymi wyjściowymi do regresji wielokrotnej lub analizy skupień. PCA może być równeż użyte w celu dopasowania do modeli MANOVA lub w regresji, do grupowania próbek lub do tworzenia reguł klasyfikacji. Analiza składnikowa mogą być również wykorzystywane w badaniach diagnostycznych, aby znaleźć wartości odstające lub wysokie. 15 / 89
16 Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Rozpatrzmy p zmiennych losowych X 1, X 2,..., X p. Analiza głównych składowych ma na celu wybór nowego układu współrzędnych uzyskanego przez obrót oryginalnego układu za pomocą X 1,..., X p jako osiami układu współrzędnych. Nowe osie reprezentują kierunki z maksymalną zmiennością i zapewniają prostszy i bardziej oszczędny opis struktury kowariancji. 16 / 89
17 Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Ogólna postać Niech wektor losowy X = [X 1,... X p ] ma macierz kowariancji Σ z wartościami własnymi λ 1 λ 2... λ p 0 Rozważmy liniową kombinację: Y 1 = a 1X = a 11 X 1 + a 12 X a 1p X p Y 2 = a 2X = a 21 X 1 + a 22 X a 2p X p. Y p = a px = a p1 X 1 + a p2 X a pp X p 17 / 89
18 Populacja i próbka - główne składowe Etapy analizy Ogólna postać c.d. Otrzymujemy: Var(Y i ) = a iσa i ; i = 1, 2,..., p cov(y i, Y k ) = a iσa k ; k = 1, 2,..., p Głównymi składowymi są te nieskorelowane liniowe kombinacje Y 1, Y 2,..., Y p, których wariancja jest największa z możliwych. 18 / 89
19 Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Pierwsza główna składowa jest równa liniowej kombinacji a 1 X, która maksymalizuje Var(a 1 X) z zastrzeżeniem, że a 1 a 1 = 1. Druga główna składowa jest równa liniowej kombinacji a 2 X, która maksymalizuje Var(a 2 X) z zastrzeżeniem, że a 2 a 2 = 1 i cov(a 1 X, a 2X) = 0. I-ta główna składowa jest równa liniowej kombinacji a i X, która maksymalizuje Var(a i X) z zastrzeżeniem, że a i a i = 1 i cov(a i X, a kx) = 0 dla k < i. 19 / 89
20 Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Przedstawienie zmienności próbki przez główne składowe Przypuśćmy, że dane x 1, x 2,..., x n reprezentują n elementową próbkę losową z p wymiarowej populacji o wektorze średnich µ i macierzy kowariancji Σ. Niech: x wektor średnich próbki, S macierz kowariancji danych z próbki, R macierz korelacji danych z próbki. Celem jest wyznaczenie głównych składowych dla próbki, tzn. stworzenie nieskorelowanych liniowych kombinacji oryginalnych zmiennych pochodzących z próbki w taki sposób, aby tłumaczyły znaczną (dużą) część zmienności próbki. 20 / 89
21 Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Niech n wartości z dowolnej kombinacji liniowej: a 1 x j = a 11 x j1 + a 12 x j a 1p x jp, j = 1, 2,..., n ma wektor średnich z próbki a 1 x z wariancją daną wzorem a 1 Sa 1. Dla dwóch liniowych kombinacji, pary wartości (a 1 x j, a 2 x j) ma kowariancję określoną a 1 Sa 2. Wówczas głównymi składowymi dla próbki są te liniowe kombinacje, które posiadają największą wariancję, przy założeniu że wektor a spełnia równanie a 1 a 1 = / 89
22 Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Pierwsza główna składowa próbki jest równa liniowej kombinacji a 1 x j, która maksymalizuje Var(a 1 x j) z zastrzeżeniem, że a 1 a 1 = 1. Druga główna składowa próbki jest równa liniowej kombinacji a 2 x j, która maksymalizuje Var(a 2 x j) z zastrzeżeniem, że a 2 a 2 = 1 i cov(a 1 x j, a 2 x j) = 0. I-ta główna składowa próbki jest równa liniowej kombinacji a i x j, która maksymalizuje Var(a i x j) z zastrzeżeniem, że a j a i = 1 i cov(a 1 x j, a k x j) = 0 dla k < i. 22 / 89
23 Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy I Wybór zmiennych, które mają być objęte analizą. Wybierając zmienne do analizy należy uwzględnić takie apekty jak: zmienne musza wiązać się merytorycznie z badanym zjawiskiem i być jego cząstkowymi miarami, zgodnie z celem analizy, zmienne muszą być wspózależne, jednak nie mogą byc ze sobą skolerowane z stopniu niemal idealnym. 23 / 89
24 Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy II Sprawdzenie założeń Przed rozpoczęciem analizy składowych głównych należy sprawdzić podstawowe założenie, aby ocenić zasadność jej zastosowania, a mianowicie skorelowanie zmiennych im wyższe korelacje między zmiennymi pierwotnymi, tym bardziej uzasadnione jest wykorzystanie tej analizy. Normalność rozkładu Czy dane posiadają rozkład normalny? Założenie to nie jest konieczne, gdy analizuje się duży zbiór danych. Liczebność i reprezentatywność próby Wiarygodność otrzymanych wyników analizy zależy od wielkości próby, która z kolei zależy od siły korelacji między zmiennymi w populacji. Przyjmuje się, że minimalna liczebność próby to 50 obserwacji. Zbiór obserwacji musi być jednorodny. 24 / 89
25 Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy Punkty odstające Nietypowe, odstające punkty w zbiorze niestety często zniekształcają prawdziwe zależności między zmiennymi. Zwykle są wynikiem złego pomiaru danych. Wpływają negatywnie na wyniki analizy, mogą nawet sfałszować faktyczne zależności pomiędzy zmiennymi. Najlepszym sposobem by tego uniknąć, jest wcześniejsze usunięcie ich ze zbioru. Braki danych Zbiory danych z brakującymi informacjami również nie wpływają pozytywnie na analizę. Dlatego właśnie w sytuacji z brakami danych najlepiej zastąpić je przez średnie lub usunąć przypadki z brakującymi danymi. 25 / 89
26 Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy III Konstruowanie macierzy wyjściowych danych. Następnie należy przyjrzeć się początkowym zmiennym. Jeżeli analizowane zmienne są porównywalne (wyrażają się w tych samych jednostkach i są tego samego rzędu), to w dalszej analizie wykorzystuje się macierz kowariancji. Jeżeli natomiast zmienne mają różne jednostki lub są różnego rzędu, analizę składowych głównych przeprowadza się wykorzystując macierz korelacji. Jest to waż- ny krok rozpoczynający całą analizę, gdyż składowe główne otrzymane dla macierzy kowariancji i korelacji nie muszą być takie same. 26 / 89
27 Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy IV Wyznaczenie składowych głównych. V Redukcja wymiaru - kryteria wyboru. Ważną informacją jest to, że każda kolejna wyznaczona składowa główna wyjaśnia coraz mniejszą część zmienności początkowych zmiennych. W jakimś momencie okaże się, że któraś z kolei składowa określa znikomą część zmienności. Należy zatem dokonać redukcji składowych, stosując w dalszych rozważaniach tylko najważniejsze. Wybór odpowiedniego kryterium leży w gestii statystyka, dlatego też decyzja ta jest dosyć subiektywna i wpływa na rezultaty analizy. VI Interpretacja. Interpretację otrzymanych wyników przeprowadza się za pomocą tzw. ładunków czynnikowych. Ładunki czynnikowe są współczynnikami korelacji pomiędzy daną zmienną a składowymi. 27 / 89
28 Populacja i próbka - główne składowe Etapy analizy Trudności związane z danymi wybranymi do analizy Wielkość zbioru Analizowane dane mogą różnić się do wielkości zbioru. Trudnościom związanym z tymi różnicami można zapobiegać w różny sposób. W celu uniknięcia dużych liczb warto zmienić jednostki wyrażania nasilenia cechy (przykładowo zamiast wyrażać pole powierzchni w m 2 można podać je w ha). Jednak ponieważ proces ten wpływa na interpretacje wyników, a tego wolelibyśmy uniknąć, to najlepszym sposobem na sprostanie tym trudnościom standaryzacja zmiennych. Jeżeli zmienne są mierzone w bardzo różnych skalach (np. waga pacjenta w kg zmienia się od 40 do 100, a stężenie białka w ppm zmienia się od 1 do 10), wówczas dominują zmienne z większymi wariancjami i wtedy również decydujemy się na standaryzację. 28 / 89
29 Populacja i próbka - główne składowe Etapy analizy Trudności związane z danymi wybranymi do analizy c.d. Standaryzacja zmiennych Standaryzacja rodzaj normalizacji zmiennej losowej, w wyniku której zmienna zyskuje średnią wartość oczekiwaną równą zero i odchylenie standardowe równe jeden. Najczęściej spotykanym sposobem standaryzacji zmiennych jest tzw. standaryzacja Z, którą można wyrazić następującym wzorem: Z 1 = (X 1 µ 1 ) σ11 Z 2 = (X 2 µ 2 ) σ22. Z p = (X p µ p ) σpp 29 / 89
30 Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Standaryzacja zmiennych c.d. W postaci macierzowej możemy to zapisać jako: Z = (V 1\2 ) 1 (X µ) gdzie: σ (V 1\2 ) = 0 σ σpp 30 / 89
31 Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Uwaga Po wykonaniu standaryzacji zmiennych możemy korzystać zarówno z macierzy kowariancji, jak i macierzy korelacji. 31 / 89
32 Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Standaryzacja zmiennych dla próbki Główne składowe dla próbki również możemy wyznaczyć dla znormalzowanych zmiennych: x j = D 1\2 (x j x) = x j1 x 1 s11 x j2 x 2 s22.. x jp x p spp j = 1, 2,..., n 32 / 89
33 Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Macierz znormalizowanych obserwacji o wymierze n x p: 33 / 89
34 Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Otrzymujemy wektor średniej: z = 1 n = n j=1 n j=1 n j=1. x j1 x 1 s11 x j2 x 2 s22 x jp x p spp = 0 34 / 89
35 Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy oraz macierz kowariancji: 1 s11 s 12 s22... s11 s 12 S z = s s 2p s22 spp... 1 s 1p s11 spp s 1p s11 spp s 2p s22 spp = R 35 / 89
36 Populacja i próbka - główne składowe Etapy analizy Przykład 1 Załóżmy, że badamy 242 gmin miejskich, ze względu na wybrane zmienne charakteryzujące ich potencjał w 2010 r. Wejściowy zbiór zmiennych charakteryzujących gminy obejmował zmienne takie jak: X 1 liczba mieszkań ogółem na 1 mieszkańca, X 2 liczba gimnazjów dla dzieci i młodzieży na 100 osób w wieku lat, X 3 liczba jednostek (firm) zarejestrowanych w systemie REGON, X 4 dochody budżetu gminy w tys. zł. Stosując macierz kowariancji główna składowa zostanie zdominowana przez X 4, ponieważ przyjmuje ona znacznie większe wartości (ma wysoką wartość wariancji, stąd otrzyma dużą wagę). W takim przypadku powinniśmy zastosować macierz korelacji bądź standaryzaję zmiennych. 36 / 89
37 Populacja i próbka - główne składowe Etapy analizy Przykład 2 Jeżeli wysłalibyśmy do sklepu 100 osób i kazde miałoby kupić jedno jabłko, jedno mango i jedną gruszkę, a następnie poprosilibyśmy o zmierzenie długości, szerokości każdego z tych owoców, to z pewnością otrzymalibyśmy zbliżone wyniki w tej samej jednostce. W tym przypadku zastosowanie macierzy korelacji i standaryzacji zmiennych nie jest konieczne. Ponieważ badane zmienne mają porównywalne jednostki, to zastosowanie macierzy kowariancji przyniesie najlepszą interpretacje statystyczną. 37 / 89
38 Wielkość zbioru Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Liczba wyjściowych zmiennych powinna pozostawać w rozsądnej relacji do liczby obserwacji. Sytuacja, gdy liczba zmiennych przekracza liczbę obserwacji jest niedopuszczalna. Im jest więcej zmiennych, tym więcej korelacji, a co za tym idzie, tym łatwiej o niskie współczynniki korelacji. Aby te korelacje były istone, liczba obserwacji musi być odpowiednio duża. Z drugiej strony, tam gdzie liczba przypadków jest niewielka, analiza głównych składowych (podobnie jak większość metod analizy wielowymiarowej) nie jest właściwym narzedziem analizy. 38 / 89
39 Ilość głównych składowych Populacja i próbka - główne składowe Etapy analizy Jednym z głównych celów PCA jest redukcja wymiarowości zjawiska. Zwykle dużą ilość obserwowanych zmiennych (p) chcemy zastąpić mniejszą liczbą głónych składowych (m), bez utraty informacji. Jest kilka kryteriów, które pomagają podjąć decyzję, ile składowych wybieramy do dalszej analizy. Wykres osypiska Najczęsciej decyzję są podejmowane w oparciu o analizę wykresu osypiska (wykresu piargowego). Kryterium Cattella Kryterium bazujące na analizie wykresu osypiska nazywa się kryterium Cattella (1966). 39 / 89
40 Wykres osypiska - metoda działania Populacja i próbka - główne składowe Etapy analizy Jest to metoda graifczna, w której analityk konstruuje wykres liniowy, który przedstawia wartości własne, tempo ich spadku, czyli procentu wyjaśnionej wariancji. Wyznaczanie ilości pozostawionych składowych głównych odbywa się w taki sposób, ze analityk określa miejsce najłagodniejszego spadku, od tego momentu w prawo odrzucane zostają wartości własne, ponieważ reprezentują znikoma część wariancji. Wykresy osypiskowe są przyadetne do znajdowania górnego kresu (maksimum liczb składowych), które powinny zostać zachowane. 40 / 89
41 Wykresy osypiska - przykłady Populacja i próbka - główne składowe Etapy analizy Bardzo wyraźne kolanko występuje, gdy i = 2. Zatem możemy zakładać, że występuje jedna dominująca główna składowa. 41 / 89
42 Wykres osypiska - przykłady Populacja i próbka - główne składowe Etapy analizy Widzimy, że kolanko występuje, gdy i = 3, zatem możemy przypuszczać, że dwie pierwsza składowe tłumaczą znaczną część wariancji zbioru danych. 42 / 89
43 Populacja i próbka - główne składowe Etapy analizy Kryterium Kaisera Kolejnym kryterium jest tzw. kryterium Kaisera (1960), czyli kryterium związane z analizą macierzy korelacji. Kryterium Kaisera - metoda działania Wyodrębnianie istotnych składowych głównych odbywa się za pomocą interpretowania wysokości pojedynczych wariancji. Kryterium bierze tylko pod uwagę te składowe, których wartość własna przekracza lub jest bliska wartości 1. Metoda powinna być stosowana, gdy ilość zmiennych jest większa niż 20. Gdy liczba zmiennych jest mniejsza, to istnieją szansę wyodrębnienia zbyt małej ilości czynników. 43 / 89
44 Przykład żółwie Analiza Głównych Składowych Żółwie Przestępczość Zbiór danych zolwie zawiera trzy główne wymiary skorupy żółwia: długość, szerokość i wysokość. Celem badania było nadanie pewnego znaczenia pojęciom rozmiar i kształt. W tym zbiorze pomiarom poddane zostały skorupy 24 żółwic i 24 żółwi. Zajmiemy się przeanalizowaniem wymiarów skorup męskich osobników żółwi 44 / 89
45 Rezultaty Analiza Głównych Składowych Żółwie Przestępczość Dane wyrażone są w tych samych jednostkach. Do analizy wykorzystujemy macierz kowariancji. Zastosujemy logarytmiczną transformację danych, dla ustandaryzowania zmiennych. Analizując wartości kowariancji widzimy, że wartości nie spełniają przyjętych norm, jednak dla celów dydaktycznych przeprowadizmy analizę. 45 / 89
46 Żółwie Przestępczość 46 / 89
47 Żółwie Przestępczość Pierwsza składowa wyjaśnia ponad 96% zmienności i do niej ograniczamy interpretacje. Oznacza to, że rozmiary skorupy żółwi można wyrazić za pomocą pierwszej składowej, której możemy nadać nazwę wielkość. 47 / 89
48 Żółwie Przestępczość Rysunek: Wykres osypiska i wariancji objaśnianej Na podstawie wykresu osypiska zakładamy, że występuje jedna dominująca główna składowa. 48 / 89
49 Żółwie Przestępczość Pierwsza główna składowa jest postaci: ŷ 1 = 0.683ln(dlugosc) ln(szerokosc) ln(wysokosc) 49 / 89
50 Żółwie Przestępczość Druga i trzecia składowa mogą zostać określone jako miary kształtu skorupy, gdyż wyróżniają się w nich niektóre zmienne. W drugiej składowej wyraźny jest kontrast pomiędzy wysokością a długością i szerokością, zatem można ja nazwać miara wypiętrzenia skorupy. Natomiast trzecia składowa może opisywać płaskość skorupy (im dłuższa skorupa, tym mniejsza wysokość skorupy). 50 / 89
51 Przykład Przestępczość Żółwie Przestępczość Dane przedstawiają przestępczość na 100 tysięcy osób w każdym z 50 stanów z roku Ponieważ istnieje siedem zmiennych numerycznych, nie można jednocześnie sporządzić wykresu wszystkich zmiennych. 51 / 89
52 Rezultaty Analiza Głównych Składowych Żółwie Przestępczość Analizowane dane wyrażone są w różnych jednostkach. Do analizy wykorzystujemy macierz korelacji. 52 / 89
53 Żółwie Przestępczość 53 / 89
54 Żółwie Przestępczość Pierwsza główna składowa wyjaśnia około 58, 8% całkowitej wariancji. Druga główna składowa wyjaśnia około 17, 7%. Trzecia wyjaśnia około 10, 4%. Wartości własne wskazują, że trzy główne składowe zapewniają dobre podsumowanie danych, ponieważ objaśniają 87% całej wariancji. Kolejne składowe wyjaśniają mniej niż 5% każda. Na podstawie kryterium Kaisera stwierdzamy, że istnieją dwie istotne główne składowe. 54 / 89
55 Żółwie Przestępczość Rysunek: Wykres osypiska i wariancja objaśniana Na podstawie wykresu osypiska zakładamy, że występują dwie dominujące główne składowe. 55 / 89
56 Żółwie Przestępczość Dwie główne składowe są postaci: ŷ 1 = 0.3 Murder Rape Robbery Assault Burglary Larcery AutoTheft ŷ 2 = Murder Rape Robbery Assault Burglary Larcery Auto T heft 56 / 89
57 Żółwie Przestępczość Pierwsza składowa jest miarą ogólnego poziomu przestępczości, ponieważ pierwszy wektor własny wykazuje w przybliżeniu równe ładunki na wszystkich zmiennych. Drugi wektor własny ma wysokie ładunki dodatnie przy zmiennych kradzież samochodów i kradzieże oraz wysokie ujemne ładunki przy zmiennych morderstwo i napad. Istnieje również mały dodatni ładunek włamania i mały ujemny ładunek na gwałt. Ten składnik wydaje się mierzyć przewagę przestępczości intelektualnej nad przemocą. Interpretacja trzeciego składnika nie jest oczywista. 57 / 89
58 Analiza Głównych Składowych Ortogonalny model czynnikowy Struktura kowariancji Początek analizy czynnikowej to XX wiek. Twórcami są Karl Pearson i Charles Spearman. jest metodą statystyczną, która służy znajdowaniu struktur w zbiorze zmiennych losowych. Celem analizy jest znalezienie zbiorów wspólnych czynników oraz opisanie obserwowanych zmiennych za pomocą kombinacji liniowej tych czynników. Prowadzi to do redukcji wymiaru przestrzeni zmiennych. Analizę czynnikową można uznać za rozszerzenie analizy głównych składowych. Obie mogą być postrzegane, jako próby przybliżenia do macierzy kowariancji Σ. 58 / 89
59 Ortogonalny model czynnikowy Ortogonalny model czynnikowy Struktura kowariancji Podstawowy model X 1 µ 1 = l 11 F 1 + l 12 F l 1m F m + ɛ 1 X 2 µ 2 = l 21 F 1 + l 22 F l 2m F m + ɛ 2. X p µ p = l p1 F 1 + l p2 F l pm F m + ɛ p gdzie: X - obserwowalny wektor losowy z i- elementami µ 1,..., µ p - wartość oczekiwana zmiennej losowej X i F 1,..., F m - nieobserwowalne zmienne losowe zależne liniowo od X (tzw.czynniki wspólne) ɛ 1,..., ɛ p - źródła zmiennosci-błedy, zależne liniowo od X (tzw. czynniki specyficzne) l ij - czynnik ładunkowy (ładunek i- tej zmiennej na j- ty czynnik) 59 / 89
60 Ortogonalny model czynnikowy Struktura kowariancji Wzór macierzowy analizy czynnikowej X (p 1) µ (p 1) = L (p m) F (m 1) + ɛ (p 1) gdzie: L (p m) - macierz ładunków czynnikowych µ (p 1) - wektor średni F (m 1) - wektor czynników wspólnych ɛ (p 1) - wektor błędów 60 / 89
61 Ortogonalny model czynnikowy Struktura kowariancji Założenia modelu E(F) = 0 (m 1) Cov(F) = E(FF ) = I (m m) E(ɛ) = 0 (p 1) Cov(ɛ) = E(ɛɛ ) = ψ (p p) = F oraz ɛ są niezależne, więc ψ ψ ψ p Cov(ɛ, F) = E(ɛ, F ) = 0 (p m) 61 / 89
62 Ortogonalny model czynnikowy Struktura kowariancji Struktura kowariancji dla ortogonalnego modelu czynnikowego Macierz kowariancji Σ = Cov(X) = E(X µ)(x µ) = LL + ψ Dla modelu czynnikowego 1. Cov(X) = LL + ψ lub Var(X i ) = li lim 2 + ψ i Cov(X i, X k ) = l i1 l k1 + + l im l km 2. Cov(X, F) = L lub Cov(X i, F j ) = l ij 62 / 89
63 Ortogonalny model czynnikowy Struktura kowariancji Wariancja zmiennej X i lub σ ii }{{} Var(X i ) = li1 2 + li lim 2 }{{} wariancja wspólna + ψ i }{{} wariancja specyficzna h 2 i = l 2 i1 + l 2 i2 + + l 2 im σ ii = h 2 i + ψ i, i = 1, 2,..., p 63 / 89
64 Analiza Głównych Składowych Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Do wyznaczenia ładunków czynnikowych można zastosować metodę, którą stosuje się w analizie głównych składowych. Gdy zmienne analizowane sa porównywalne, czyli ich jednostki oraz rząd sa takie same, to w dalszej analizie należy korzystać z macierzy kowariancji. Jeżeli zmienne, które chcemy analizować maja rożne jednostki to wtedy możemy przeprowadzić metodę głównych składowych używając macierzy korelacji. Najpopularniejszymi metodami są: Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności 64 / 89
65 Metoda głównych składowych Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Macierz kowariancji Niech macierz kowariancji Σ zawiera pary wartości własnych i wektorów własnych (λ i, e i ), gdzie λ 1 λ 2 λ p 0. Wtedy macierz kowariancji jest w postaci Σ = λ 1 e 1 e 1 + λ 2 e 2 e λ p e p e p = [ λ1 e 1. λ 2 e 2.. ] λ p e p λ1 e 1... λ2 e λp e p 65 / 89
66 Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Przedstawiona wcześniej struktura macierzy kowariancji jest użyteczna jedynie do modelu analizy czynnikowej, w którym liczba czynników m jest równa ilości zmiennych p oraz µ i = 0. Σ (p p) = L (p p) L (p p) + 0 (p p) = LL Preferujemy modele, które wyjaśniają strukturę kowariancji w odniesieniu do kilku rożnych czynników. 66 / 89
67 Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Podejście do problemu: Kiedy p m wartości własne są małe, wtedy opuszczamy warunek: λ m+1 e m+1 e m λ pe p e p. W ten sposób otrzymujemy przybliżoną macierz kowariancji λ1 e 1... [ Σ λ1 e 1. λ 2 e 2.. ] λ2 e 2 λ m e m... = L (p m) L (m p).... λm e m 67 / 89
68 Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Ostateczna przybliżona macierz Σ Dodając do tego czynniki specyficzne, otrzymujemy [ Σ LL + ψ = λ1 e 1. λ 2 e 2.. ] λ m e m λ1 e 1... λ2 e ψ ψ ψ p λm e m gdzie: ψ i = σ ii m j=1 l ij 2, dla i = 1, 2,..., p. 68 / 89
69 Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Aby zastosować przedstawioną metodę do zbioru danych x 1,..., x n, najpierw musimy odjąć od nich średnią z próby x. x j1 x 1 x j2 x 2 x j x =. x jp. x p = x j1 x 1 x j2 x 2. x jp x p gdzie j = 1, 2,..., n Obserwacje maja macierz kowariancji S (taka sama jak pierwotne obserwacje). W przypadkach, w których jednostki zmiennych nie sa proporcjonalne, wskazane jest pracować z ujednoliconymi zmiennymi. Zazwyczaj stosuje się standaryzacje obserwacji. 69 / 89
70 Metoda głównego czynnika Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności głównego składnika dla macierzy kowariancji próby S jest określona w odniesieniu do jej par wartości i wektorów własnych (ˆλ 1, ê 1 ),..., (ˆλ p, ê p ), gdzie ˆλ 1 ˆλ 2 ˆλ p 0. Niech m < p będzie liczbą czynników wspólnych. Wtedy macierz przybliżonych ładunków czynnikowych jest w postaci [ ] L = ˆλ 1 ê 1. ˆλ 2 ê 2.. ˆλ m ê m 70 / 89
71 Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Wyestymowane wartości wariancji specyficznej są zapewnione przez diagonalne elementy macierzy S L L, więc: ψ ψ ψ = ψp gdzie: ψ i = s ii m l j=1 2 Wyestymowane czynniki: ij. h 2 i = l 2 i1 + l 2 i2 + + l 2 im 71 / 89
72 Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Rozważmy macierz residuum S ( L L ψ) wynikającą z przybliżenia S przez rozwiązanie głównego składnika. Elementy diagonalne sa równe zeru i jeśli inne element sa również małe, możemy subiektywnie uznać model m-czynnikowy za właściwy. Udziały pierwszych kilku czynników w wariancjach próbkowych zmiennych powinny być duże. Udział pierwszego wspólnego czynnika w wariancji próby s ii to l i1 2. Wobec tego udział czynnika w całkowitej wariancji próby s 11 + s s pp jest równy 2 l 11 + l l p1 2 = ( ˆλ 1 ê 1 ) ( ˆλ 1 ê 1 ) = ˆλ 1, ponieważ wektor własny macierzy ê 1 ma długość / 89
73 Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Kryterium Cześć całkowitej wariancji próbki ze względu na j - ty czynnik dla analizy czynnikowej S i R: ˆλ j s 11 + s s pp oraz ˆλ j p Kryterium to określa liczbę czynników wspólnych w modelu. Liczba wspólnych czynników zachowanych we wzorze jest zwiększana dopóki odpowiednia proporcja całkowitej próby wariancji zostanie wyjaśniona. 73 / 89
74 Metoda największej wiarygodności Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Określenie największej wiarygodności dla ładunków czynnikowych i wariancji specyficznych możemy otrzymać, jeżeli wspólne czynniki F i specyficzne czynniki ɛ maja rozkład normalny (X j µ = LF j + ɛ j ) oraz X 1, X 2,..., X n sa losowa próba z N(µ, Σ). Funkcja prawdopodobieństwa przedstawia się wzorem która zależy od L i ψ, występujące we wzorze Σ = LL + ψ 74 / 89
75 Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Przedstawiony model nie jest dobrze zdefiniowany przez wielokrotność wyboru L możliwej dzięki transformacjom ortogonalnym. Jednoznacznego wyboru L dokonujemy przez nałożenie dodatkowego warunku: = L ψ 1 L, gdzie jest macierzą diagonalna. W metodzie największej wiarygodności należy maksymalizować wzór funkcji prawdopodobieństwa podany wcześniej. Estymacje największej wiarygodności wspólnych czynników wynoszą: ĥ 2 i = l 2 i1 + l 2 i2 + + l 2 im dla i = 1, 2,..., p Cześć całkowitej wariancji z próby ze względu na j-ty czynnik l 2 1j + l 2 2j + + l 2 pj s 11 + s s pp 75 / 89
76 Analiza Głównych Składowych Przykład Macierz ładunków L nie zmienia swoich własności po wymnożeniu jej przez dowolna macierz ortogonalna. Taka transformacje utożsamiać można z obrotem osi układu współrzędnych, które w naszym przypadku odpowiadają kolejnym czynnikom F 1,..., F m. Z tego powodu transformacje tą nazywamy rotacją czynników. 76 / 89
77 Przykład Jeśli jako L oznaczymy p m wymiarową macierz wyestymowanych ładunków to macierz L = LT, gdzie TT = T T = I jest p m wymiarową macierzą obróconych ładunków. Estymacja macierzy kowariancji nie zmieni się L L + ψ = LTT L + ψ = L L + ψ Również nie zmieniają się wariancje specyficzne ψ i, wariancje wspólne ĥ2 1 i macierz residuów. Dlatego z matematycznego punktu widzenia nie ma znaczenia której z macierzy L czy L użyjemy do obliczeń. 77 / 89
78 Przykład Cel rotacji Celem rotacji czynników jest uzyskanie macierzy L, która pozwoliłaby na prostą interpretację zależności poszczególnych zmiennych od czynników F 1,..., F m. Doskonała jest sytuacja, w której każda ze zmiennych ma duży ładunek na tylko jednym czynniku i małe ładunki na pozostałych. Zdarza się to bardzo rzadko, ale istnieje wiele sposobów rotacji macierzy L, które pomagają w otrzymaniu możliwie prostych w interpretacji wyników. 78 / 89
79 Przykład Do przedstawienia rotacji posłużymy się przykładem dla dwóch czynników (m=2). W tym przypadku problem można często rozwiązać graficznie: osie układu współrzędnych oznaczamy przez F 1, F 2, a pary ładunków (l i1, l i2 ) dla i = 1, 2,..., p traktujemy jako punkty układu. Najprostszym przykładem rotacji jest obrót osi o kat φ. Macierz obrotu T ma postać [ ] cos φ sin φ T = sin φ cos φ 79 / 89
80 Przykład Analiza Głównych Składowych Przykład Przedstawiona poniżej macierz korelacji przedstawia wyniki z egzaminów z p=6 przedmiotów dla 220 studentów. 80 / 89
81 Przykład Za pomocą metody największej wiarygodności estymujemy ładunki i otrzymujemy Ładunki na czynniku F 1 sa dodatnie na wszystkich zmiennych. Można interpretować go wiec jako czynnik ogólnej inteligencji. Ładunki na czynniku F 2 sa dodatnie dla przedmiotów humanistycznych, a ujemne dla matematycznych, wiec można założyć, ze wskazuje on na typ inteligencji (zdolności matematyczne lub humanistyczne). 81 / 89
82 Przykład Wykres przedstawia graficznie umiejscowienie punktów (l i1, l i2 ) odpowiadających kolejnych zmiennym na układzie współrzędnych F 1, F 2. Układ współrzędnych obrócono o kat φ = 20 tak, aby os F 1 przechodziła przez punkt / 89
83 Przykład W ten sposób uzyskaliśmy układ, w którym zmienne 1, 2, 3 sa skupione blisko osi F2 a zmienne 4, 5, 6 blisko osi F 1. Możemy z tego wywnioskować, ze zmienne 1, 2, 3 maja duże ładunki na F2, a zmienne 4, 5, 6 na F1. Czynnik F 1 interpretujemy jako czynnik zdolności matematycznych, a F2 jako czynnik zdolności humanistycznych. 83 / 89
84 Przykład Rezultaty otrzymane z graficznego przedstawienia problemu potwierdzić można wyliczając macierz L [ ] L = LT = cos 20 sin sin 20 cos / 89
85 Przykład Analiza Głównych Składowych Przeanalizujemy dane społeczno-ekonomiczne zebrane przez Harman a w Mamy pięć zmiennych: całkowita populacja (Population), średnia liczba lat spędzonych w szkole (School), zatrudnienie (Employment), różnorodne profesjonalne usługi (Services), średnia wartość domu (House Value). Każda z obserwacji reprezentuje 1 z 12 obszarów spisu ludności w Los Angeles Standard Metropolitan Statistical Area (dane pochodzą z support sas). 85 / 89
86 Ten sam zbiór przeanalizujemy dwiema metodami estymacji: metodą głównych składowych oraz metodą najwększej wiarygodności. 86 / 89
87 Jak wykazaliśmy obie metody pokazują, że najbardziej odpowiedni będzie model dwuczynnikowy. 87 / 89
88 Analiza składowych głównych orientacja wariancyjna: punktem wyjścia jest zwykła macierz korelacji model zamknięty: uwzględnia się wyłącznie wariancję badanych zmiennych orientacja kowariancyjna: punktem wyjścia jest zredukowana macierz korelacji lub macierz kowariancji model otwarty: obok wariancji cech uwzględnia się także wariancję nieobjaśnianą (zm. pominięte, losowość obserwacji) 88 / 89
89 c.d Analiza składowych głównych zmienne pierwotne są liniową funkcją składowych głównych (a główne składowe można przedstawić jako kombinacje liniowe zmiennych pierwotnych) wychodzi się od obserwacji empirycznych, a następnie buduje model teoretyczny celem analizy jest uproszczenie struktury danych każda zmienna pierwotna jest funkcją nieobserwowanych czynników wspólnych i czynnika swoistego buduje się teoretyczny model zjawiska i sprawdza, czy jest zgodny z danymi empirycznym celem analizy jest identyfikacja ukrytych zmiennych 89 / 89
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
ANALIZA CZYNNIKOWA Przykład 1
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Prawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Statystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Analiza Składowych Głównych i Czynnikowa
Analiza Składowych Głównych i Czynnikowa Agata Weltrowska Paulina Zalewska Wydział FTiMS, 12 kwiecień 2018 Wstęp oraz cele Wprowadzenie W jednej ze swoich prac, A.E. Maxwell podaje, że analiza składowych
CELE ANALIZY CZYNNIKOWEJ
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
TRANSFORMACJE I JAKOŚĆ DANYCH
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn
Analiza czynnikowa Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmiennych, które są bezpośrednio obserwowalne
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Metoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
10. Redukcja wymiaru - metoda PCA
Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Estymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
Statystyczna analiza danych
Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Komputerowa Analiza Danych Doświadczalnych
Komputerowa Analiza Danych Doświadczalnych Prowadząca: dr inż. Hanna Zbroszczyk e-mail: gos@if.pw.edu.pl tel: +48 22 234 58 51 konsultacje: poniedziałek, 10-11, środa: 11-12 www: http://www.if.pw.edu.pl/~gos/students/kadd
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.
L a b o r a t o r i u m S P S S S t r o n a 1 W zbiorze Pytania zamieszczono odpowiedzi 25 opiekunów dzieci w wieku 8. lat na następujące pytania 1 : P1. Dziecko nie reaguje na bieżące uwagi opiekuna gdy
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach
Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki
Analiza czynnikowa Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki Budowa wskaźnika Indeks był banalny I miał wady: o Czy
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność
b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:
ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań
Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Rozkłady wielu zmiennych
Rozkłady wielu zmiennych Uogólnienie pojęć na rozkład wielu zmiennych Dystrybuanta, gęstość prawdopodobieństwa, rozkład brzegowy, wartości średnie i odchylenia standardowe, momenty Notacja macierzowa Macierz
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Korelacja krzywoliniowa i współzależność cech niemierzalnych
Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel
ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych
AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA
AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej KATEDRA MATEMATYKI TEMAT PRACY: ROZKŁAD NORMALNY ROZKŁAD GAUSSA AUTOR: BARBARA MARDOSZ Kraków, styczeń 2008 Spis treści 1 Wprowadzenie 2 2 Definicja
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań
... Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 Wyłączenie odpowiedzialności
LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.
LABORATORIUM 4 1. Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. I) WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Populacja
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
1 Podstawy rachunku prawdopodobieństwa
1 Podstawy rachunku prawdopodobieństwa Dystrybuantą zmiennej losowej X nazywamy prawdopodobieństwo przyjęcia przez zmienną losową X wartości mniejszej od x, tzn. F (x) = P [X < x]. 1. dla zmiennej losowej
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności
Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =
Matematyka ubezpieczeń majątkowych 0.0.006 r. Zadanie. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k 5 Pr( N = k) =, k = 0,,,... 6 6 Wartości kolejnych szkód Y, Y,, są i.i.d.,
Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne
Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne 5.2. Momenty rozkładów łącznych. Katarzyna Rybarczyk-Krzywdzińska rozkładów wielowymiarowych Przypomnienie Jeśli X jest zmienną losową o rozkładzie
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014
Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu
Analiza czynnikowa i wnioskowanie o strukturze macierzy kowariancji
i wnioskowanie o strukturze macierzy kowariancji Katarzyna Hoffmann, Magdalena Czaplińska Paulina Filipiak, Szymon Flohr Politechnika Gdańska 20 maja 2014 i wnioskowanie o strukturze macierzy kowariancji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
5. WNIOSKOWANIE PSYCHOMETRYCZNE
5. WNIOSKOWANIE PSYCHOMETRYCZNE Model klasyczny Gulliksena Wynik otrzymany i prawdziwy Błąd pomiaru Rzetelność pomiaru testem Standardowy błąd pomiaru Błąd estymacji wyniku prawdziwego Teoria Odpowiadania
Rozkłady statystyk z próby
Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
Statystyka opisowa. Wykład I. Elementy statystyki opisowej
Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Analiza składników podstawowych - wprowadzenie (Principal Components Analysis
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Wykład 4 Związki i zależności
Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).
STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.
STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno
WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
R-PEARSONA Zależność liniowa
R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe
W4 Eksperyment niezawodnościowy
W4 Eksperyment niezawodnościowy Henryk Maciejewski Jacek Jarnicki Jarosław Sugier www.zsk.iiar.pwr.edu.pl Badania niezawodnościowe i analiza statystyczna wyników 1. Co to są badania niezawodnościowe i
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Estymacja parametrów rozkładu cechy
Estymacja parametrów rozkładu cechy Estymujemy parametr θ rozkładu cechy X Próba: X 1, X 2,..., X n Estymator punktowy jest funkcją próby ˆθ = ˆθX 1, X 2,..., X n przybliżającą wartość parametru θ Przedział
Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34
Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności
DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM Procedura szacowania niepewności Szacowanie niepewności oznaczania / pomiaru zawartości... metodą... Data Imię i Nazwisko Podpis Opracował Sprawdził Zatwierdził
12DRAP - parametry rozkładów wielowymiarowych
DRAP - parametry rozkładów wielowymiarowych Definicja.. Jeśli h : R R, a X, Y ) jest wektorem losowym o gęstości fx, y) to EhX, Y ) = hx, y)fx, y)dxdy. Jeśli natomiast X, Y ) ma rozkład dyskretny skupiony
Wykład 3. Rozkład normalny
Funkcje gęstości Rozkład normalny Reguła 68-95-99.7 % Wykład 3 Rozkład normalny Standardowy rozkład normalny Prawdopodobieństwa i kwantyle dla rozkładu normalnego Funkcja gęstości Frakcja studentów z vocabulary
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)
Wykład 4 Próbkowanie i rozkłady próbkowe µ = średnia w populacji, µ=ey, wartość oczekiwana zmiennej Y σ= odchylenie standardowe w populacji, σ =(Var Y) 1/2, pierwiastek kwadratowy wariancji zmiennej Y,
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.
BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ. IDEA OPISU WSPÓŁZALEśNOŚCI CECH X, Y cechy obserwowane w doświadczeniu, n liczba jednostek doświadczalnych, Wyniki doświadczenia: wartości