Analiza czynników głównych i inne metody eksploracji danych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analiza czynników głównych i inne metody eksploracji danych"

Transkrypt

1 Analiza czynników głównych i inne metody eksploracji danych M. Daszykowski i B. Walczak Zakład Chemometrii, Instytut Chemii, Uniwersytet Śląski, ul. Szkolna 9, 4-6 Katowice WPROWADZENIE Proces badawczy jest zwykle procesem wieloetapowym. Składa się na niego planowanie eksperymentu, pobranie próbek, analiza chemiczna, kontrola jakości uzyskanych danych, ich chemometryczna analiza i interpretacja []. W niniejszym rozdziale, skupimy się jedynie na analizie danych, omawiając, w sposób ogólny i możliwie przystępny, niektóre techniki chemometryczne stosowane do eksploracji wielowymiarowych danych chemicznych. Obecnie, w wielu problemach analitycznych dane uzyskuje się jako rezultat analiz szeregu próbek. Wyniki analiz można zorganizować w macierz danych, X, gdzie m wierszy macierzy odpowiada m mierzonym próbkom, a n kolumn odpowiada n mierzonym parametrom. Schematycznie, macierz danych przedstawiono na Rys. a. W zależności od stosowanej techniki lub technik analitycznych do opisu badanej próbki lub układu fizyko-chemicznego, wiersze macierzy danych mogą tworzyć sygnały instrumentalne (np. widma UV-VIS zmierzone w określonym zakresie spektralnym, chromatogramy, widma masowe, etc.) lub wektory, o elementach reprezentujących wyniki n analiz (np. stężenia elementów śladowych w próbce, stężenia wybranych kwasów tłuszczowych, etc.). w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

2 a) n parametry n próbki m macierz danych X [m,n] b) n X = X* + X ~ m dane analityczne prawdziwy sygnał analityczny błąd pomiarowy Rys. a) Graficzne przedstawienie macierzy danych o m wierszach (nazywanych obiektami lub próbkami) i n kolumnach (nazywanych zmiennymi lub parametrami), b) poszczególne składowe macierzy danych X: prawdziwy sygnał analityczny i błąd pomiarowy. Każde dane analityczne obarczone są błędem pomiarowym, dlatego macierz danych możemy przedstawić jako sumę dwóch komponentów, co pokazano na Rys. b. Często zamiast słowa próbki używa się terminu obiekty, gdyż kolejne wiersze macierzy mogą zawierać pomiary dla tej samej próbki w różnych odstępach czasu, aby zaobserwować zachodzące w niej zmiany. Natomiast kolumny macierzy danych nazywa się zmiennymi lub parametrami. Rozważmy zbiór danych, który uzyskano oznaczając w próbkach stężenia jonów cynku i wapnia (zob. Rys. a). Macierz danych, X, ma wymiary. Każda próbka, opisana n parametrami, to punkt w n wymiarowej przestrzeni parametrów, a każdy parametr, to punkt w m wymiarowej przestrzeni próbek. Podobieństwa pomiędzy poszczególnymi próbkami można analizować w przestrzeni parametrów, a pomiędzy parametrami w przestrzeni próbek. Ponieważ, w przypadku omawianych danych, każdą próbkę opisują jedynie dwa parametry, dlatego dane możemy zwizualizować. Jednym ze sposobów jest przedstawienie próbek w dwuwymiarowym układzie współrzędnych, którego osie tworzą dwa parametry, tj. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

3 stężenie jonów cynku i wapnia, co pokazano na Rys. b. Dwie próbki są do siebie podobne, jeśli na projekcji znajdują się blisko siebie. Innymi słowy oznacza to, iż różnice pomiędzy odpowiednimi wartościami parametrów są małe. W przypadku parametrów, które opisane są wynikami pomiarów dla próbek, możliwa jest jedynie prezentacja projekcji parametrów, na płaszczyznę, zdefiniowaną dwoma obiektami. Taką przykładową projekcję parametrów na płaszczyznę zdefiniowaną przez próbki i przedstawiono na Rys. c. a) 3 parametry 4,74 5,363 3,8774 3,967 4,38 4,9 b) stężenie jonów wapnia próbki ,83 4,5799 4,6696 5,76 4,545 5,96 4,478 4,658 c) stężenie jonów cynku 4 8 stężenie jonów wapnia 8 3,6, ,5857 5,654 4,336 4,3 próbka stężenie jonów cynku macierz danych X [m,n] próbka Rys. a) Macierz danych, X, zawierająca próbek i parametry (odpowiednio stężenia jonów cynku i wapnia), b) projekcja próbek na płaszczyznę zdefiniowaną przez parametry i oraz c) projekcja parametrów na płaszczyznę zdefiniowaną przez próbki i. Zazwyczaj, jako miarę podobieństwa między dwiema próbkami używa się odległość euklidesową []. Odległość euklidesowa między dwiema próbkami, p i q, w przestrzeni n parametrów, określa następujący wzór: n ( p i q i ) d( p, q) = () i= w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3

4 Podobieństwa pomiędzy wszystkimi obiektami macierzy X można przedstawić za pomocą macierzy odległości, D. Jest ona kwadratowa (o wymiarze m m) i symetryczna, ponieważ d(p,q) = d(q,p), a każdy jej element to odległość euklidesowa obliczona pomiędzy i-tym, a j-tym obiektem macierzy X. Dla przedstawionych na Rys. a danych, macierz odległości ma wymiary, a jej elementy przedstawiono na Rys. 3.,6433,669,9587,376,68,97,77,487,93,6433,49,6896,934,489,74,77,3966,364,669,49,354,899,3776,369,373,3689,78,9587,6896,354,45,79,8,7865,75,363 indeks obiektu,376,934,899,45,5,935 3,93,567,5984,68,489,3776,79,5,6834,598,958,787,97,74,369,8,935,6834,8455,674,437,77,77,373,7865 3,93,598,8455,4767,43,487,3966,3689,75,567,958,674,4767,476,93,364,78,363,5984,787,437,43,476 indeks obiektu Rys. 3 Macierz odległości euklidesowych, D, obliczonych dla wszystkich par próbek macierzy danych X z Rys. a. Z analizy macierzy odległości wynika, iż próbki 4 i 7 są najbardziej do siebie podobne, a najbardziej różne, są próbki 5 i 8 (zob. Rys. b i 3). W równaniu, kluczową rolę odgrywają wkłady różnic pomiędzy poszczególnymi parametrami. Jeśli parametry są mierzone w różnych jednostkach i/lub mają różne zakresy zmienności wówczas badanie podobieństw pomiędzy próbkami na podstawie odległości euklidesowej nie prowadzi do poprawnych wniosków. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 4

5 Miarą zmienności parametru, mierzonego dla m badanych próbek, jest wariancja, która również wyraża jego zawartość informacyjną: ( ) m ( x x) i i= var x = () m Zmienne o wariancji bliskiej zeru nic nie wnoszą do opisu zróżnicowania danych i dlatego takie zmienne można usunąć z danych. Wariancja jest wielkością addytywną. Całkowitą wariancję danych wyrażamy jako sumę wariancji poszczególnych zmiennych. Jednakże, wariancja nie jest wyrażona w tej samej jednostce, co dany parametr, ze względu na obliczane kwadraty różnic pomiędzy elementami zmiennej, a jej wartością średnią. Pierwiastek z wariancji, czyli odchylenie standardowe, ma tą samą jednostkę co dana zmienna. W przypadku omawianych danych wariancje parametrów wynoszą odpowiednio,86 i,6786, a ich odchylenia standardowe,3586 i,838. W celu porównania dwóch parametrów, x k i x l, można użyć kowariancji, która ilościowo określa ich liniową zależność []. Kowariancja dwóch parametrów przyjmuje wartości z przedziału od - do +. Dodatnie wartości kowariancji świadczą o dodatniej ich zależności, a ujemne, o ujemnej: (, x ) m ( x x )( x x ) ik k il l i= cov x k l = (3) m W przypadku parametrów macierzy danych X (zob. Rys. a) ich kowariancja jest dodatnia i wynosi,844. Wadą tej miary podobieństwa jest jej zależność od skali w jakiej wyrażane są pomiary. Na przykład, podanie stężeń parametrów w ng g - zamiast µg g - zwiększa wartość obliczonej kowariancji o faktor 3. Z tego powodu, w celu porównania dwóch parametrów zmierzonych w różnych jednostkach i/lub różnej skali, stosuje się tzw. współczynnik korelacji Pearsona, gdyż pozwala on na porównanie parametrów w różnych jednostkach i skalach. Usuniecie efektu różnych jednostek i skal zmiennych uzyskuje się poprzez ich standardyzację. Operacja ta na w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 5

6 podzieleniu wszystkich elementów danej zmiennej przez jej odchylenie standardowe. Po autoskalowaniu, odchylenie standardowe zmiennej i jej wariancja są jednostkowe. r ( x, x ) k l ( x k, xl ) ( x ) var( x ) cov = (4) var k l Współczynniki korelacji przyjmują wartości pomiędzy -, a. Duża wartość współczynnika korelacji świadczy o silnej dodatniej zależności parametrów. W praktyce oznacza to, iż wraz ze wzrostem wartości jednego parametru obserwuje się wzrost wartości drugiego. Jeśli współczynnik korelacji jest bliski - to parametry są ujemnie skorelowane. Wartość współczynnika korelacji bliska zeru świadczy o niezależności dwóch parametrów. Ich wzajemne podobieństwa możemy przedstawić w postaci kwadratowej i symetrycznej macierzy kowariancji (cov(x k,x l ) = cov(x l,x k )) lub macierzy współczynników korelacji (r(x k,x l ) = r(x l,x k )), które mają wymiary n n. Na Rys. 4 przedstawiono macierz współczynników korelacji uzyskanych dla parametrów macierzy danych z Rys. a. Ma ona wymiary. Elementy jej przekątnej są równe jeden, gdyż pomiędzy dwiema tymi samymi zmiennymi istnieje idealna korelacja. Wartość współczynnika korelacji i jego znak świadczą o silnej zależności tych parametrów jak i dodatnim charakterze tej zależności.,968 indeks parametru,968 indeks parametru Rys. 4 Macierz współczynników korelacji uzyskana dla parametrów macierzy X, którą przedstawiono na Rys. a. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 6

7 Na Rys. 5 schematycznie przedstawiono dodatnią i ujemną korelację oraz jej brak dla dwóch symulowanych parametrów. a) 3 c) zmienna 9 8 zmienna zmienna zmienna b) zmienna zmienna Rys. 5 Projekcja 4 próbek na przestrzeń dwóch symulowanych parametrów, które są: a) skorelowane dodatnio (r =,839), b) skorelowane ujemnie (r = -,839) i c) praktycznie nieskorelowane (r =,75). Zależność pomiędzy parametrami, które tworzą wielowymiarowe dane chemiczne jest kluczową własnością i dzięki niej możliwa jest redukcja ich wymiarowości, a co za tym idzie możliwa jest ich wizualizacja. Parametry, które są zależne da się zastąpić kilkoma nowymi zmiennymi, które są liniowymi kombinacjami oryginalnych parametrów, bez utraty istotnej chemicznie informacji. Zmienna, silnie skorelowana z innymi, nie wnosi dodatkowej informacji o zróżnicowaniu danych, gdyż informacja, jaką opisuje jest już zawarta w innych zmiennych. Ilość tych nowych zmiennych, która wystarcza do opisu badanego układu lub zjawiska mówi o jego kompleksowości. W przypadku dużej liczby parametrów bezpośrednia wizualizacja wielowymiarowych danych jest niemożliwa. Do ich wizualizacji stosuje się różnego rodzaju techniki eksploracji danych. Mają one na celu ułatwić odpowiedzi na takie pytania jak: w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 7

8 Które próbki są do siebie podobne w przestrzeni mierzonych parametrów? Które z mierzonych parametrów zawierają podobną informację o badanych próbkach (są zależne)? Które z parametrów mają największy wkład do obserwowanych podobieństw (czy też różnic) pomiędzy próbkami? Jaka jest kompleksowość badanego układu lub zjawiska? Ogólnie wyróżniamy dwie główne grupy technik eksploracji wielowymiarowych danych: metody projekcji [3], wśród których analiza czynników głównych (z ang. principal component analysis, PCA) [4] ma swoje szczególne miejsce, oraz metody grupowania danych [5,6]. W wielu metodach projekcyjnych, redukcja wymiarowości danych oparta jest o konstrukcję nowych zmiennych, które są liniową kombinacją oryginalnych zmiennych. Jedną z metod projekcyjnych jest metoda poszukiwania projekcji (z ang. projection pursuit) [7]. To najbardziej uniwersalna metoda tego typu, ponieważ w zależności od użytego do poszukiwania projekcji kryterium, pozwala otrzymać rozwiązania innych technik projekcji [8,9,]. W metodzie poszukiwania projekcji konstruuje się w wielowymiarowej przestrzeni danych kierunki, które mają na celu ujawnić ciekawą strukturę danych. W rzeczywistości, to czy dany kierunek i odpowiadająca mu projekcja jest ciekawa określa tzw. indeks projekcji []. Wśród wielu możliwych indeksów projekcji znajdziemy wariancję, czy indeksy takie jak entropia [8] lub kurtoza [,3], opisujące na ile rozkład projekcji różni się od rozkładu normalnego. Projekcje o rozkładzie normalnym są uznawane za najmniej interesujące. Zależnie od użytego indeksu projekcji, metoda poszukiwania projekcji może prowadzić np. do konstrukcji czynników głównych (maksymalizacja wariancji projekcji), stabilnych czynników głównych (maksymalizacja stabilnej skali projekcji [4]) albo ukrytych zmiennych, które ujawniają grupy w danych (np. stosując jako indeks projekcji kurtozę []). Na Rys. 6, dla symulowanych dwuwymiarowych danych, zawierających dwie grupy obiektów (po 4 każda), przedstawiono dwa ciekawe kierunki i odpowiadające im projekcje, skonstruowane na podstawie w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 8

9 indeksów wariancji oraz entropii. Jak widać na Rys. 6b-e wybór indeksu projekcji pozwala na ujawnienie na projekcjach różnych aspektów struktury danych (np. podgrup obiektów czy obiektów odległych). W przypadku maksymalizacji wariancji projekcji, projekcja jest tak konstruowana, aby opisywała najlepiej wariancję danych. a) kierunek kierunek zmienna zmienna b) c) 5 4 ilość obiektów współrzędna obiektu na kierunku współrzędne obiektów na kierunku indeks obiektu d) e) ilość obiektów współrzędna obiektu na kierunku współrzędne obiektów na kierunku indeks obiektu Rys. 6 a) Dwa kierunki poprowadzone w dwuwymiarowej przestrzeni danych, b) histogram współrzędnych obiektów uzyskanych po ich ortogonalnej projekcji na pierwszy kierunek [,77 ] oraz c) współrzędne obiektów tej projekcji, d) histogram współrzędnych obiektów uzyskanych po ich ortogonalnej projekcji na drugi kierunek [ -,77] i e) wartości współrzędnych obiektów na tej projekcji. Dla rozważanych danych projekcja obiektów na pierwszy kierunek nie ujawnia grup w danych, gdyż te nie są rozmieszczone wzdłuż osi o największej wariancji, a w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 9

10 histogram tejże projekcji ma rozkład zbliżony do rozkładu normalnego (zob. Rys. 6b i c). Maksymalizując entropię projekcji, kładzie się nacisk na uchwycenie projekcji o rozkładzie dalekim od normalnego. W tym przypadku histogram projekcji ma rozkład bimodalny, co świadczy o obecności w danych dwóch grup (zob. Rys. 6d i e). Nie wszystkie indeksy projekcji mogą prowadzić do ujawnienia na projekcjach grup, jak np. dla projekcji danych prezentowanej na Rys. 6c.. ANALIZA CZYNNIKÓW GŁÓWNYCH Analiza czynników głównych, jest szczególnym przypadkiem metody poszukiwania projekcji, w której jako indeks projekcji używa się wariancję. PCA stosuje się głównie do modelowania, kompresji i wizualizacji wielowymiarowych danych [4,5,6,7]. Za pioniera PCA uważa się Pearsona. W 9 roku opublikował on pracę o prostych i płaszczyznach, które są najlepiej dopasowane do zbioru próbek w przestrzeni pomiarowej [ 8 ]. Następnie, po latach Fisher i MacKenzie [ 9 ] zaproponowali pierwszy algorytm do PCA, znany obecnie jako algorytm NIPALS, który ponownie odkrył Wold w 966 roku []. Kolejne modyfikacje metody PCA zawdzięczamy Hottelingowi []. Zadaniem PCA jest przedstawienie danych, X, o m obiektach i n zmiennych, jako iloczyn dwóch nowych macierzy T (m f) i P (n f), gdzie f<<n, które zawierają współrzędne obiektów i parametrów na kierunkach maksymalizujących opis wariancji danych. O liczbie kolumn macierzy T i P, czyli o kompleksowości modelu PCA, decyduje rząd chemiczny macierzy X, który jest co najwyżej równy jej rzędowi matematycznemu, o czym szerzej napiszemy w dalszej części rozdziału. Model PCA można wyrazić następująco: X = T P + E (5) T [ m, n] [ m, f ] [ f, n] [ m, n] gdzie E to macierz reszt od modelu PCA z f czynnikami głównymi. Kolumny macierzy T i P zawierają współrzędne obiektów i parametrów na nowych ukrytych zmiennych, nazywanych czynnikami głównymi. Czynniki główne są w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

11 konstruowane iteracyjnie tak, aby maksymalizować opis wariancji danych. Każdy kolejny czynnik główny opisuje niewyjaśnioną przez poprzednie czynniki wariancję danych i dlatego jego wkład do opisu całkowitej wariancji danych jest mniejszy. Kolumny T są ortogonalne, a kolumny P ortonormalane - czyli mają jednostkową długość i są ortogonalne. Biorąc pod uwagę wspomniane ograniczenia dotyczące konstrukcji czynników głównych równanie 5 ma rozwiązanie. Z każdym czynnikiem głównym jest stowarzyszona, tzw. wartość własna, v i. Oblicza się ją jako sumę kwadratów wartości wyników dla danego czynnika głównego. Wartości własne określają ilościowo wariancję danych opisaną przez kolejne czynniki. Procent całkowitej wariancji danych, I, jaką opisuje f kolejnych czynników głównych można obliczyć jako: I = f v i i= m n i= j= x ij (6) gdzie, x ij to poszczególne elementy centrowanej macierzy X. Schematycznie, model PCA przedstawiono na Rys. 7. n n n n n p p p f = + +,,, + + m Dane wyjściowe X [m,n] n m m m t t t f m Macierz reszt E [m,n] = + +,,, + + m Dane wyjściowe X [m,n] X [m,n] () X [m,n] () X [m,n] (f) m Macierz reszt E [m,n] dane wyjściowe zrekonstruowane z,,, f czynnikami głównymi Rys. 7 Model PCA o f czynnikach głównych. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

12 Model PCA ma stosunkowo prostą interpretację graficzną. Na Rys. 8a przedstawiono symulowany dwuwymiarowy zbiór danych, który zawiera sześć obiektów, oznaczonych jako ( ). Naszym zadaniem będzie skonstruowanie dwóch czynników głównych, mając na uwadze, że powinny one jak najlepiej opisać wariancję danych. Na Rys. 8a przedstawiono kierunek i odpowiadającą mu jednowymiarową projekcję, która maksymalizuje opis wariancji danych. a) + PC b) PC PC zmienna zmienna zmienna zmienna Rys. 8 Projekcje obiektów ( ) na płaszczyzny zdefiniowane przez zmienne i : a) kierunek, który maksymalizuje wariancję projekcji i projekcja (PC ) z zaznaczonymi wartościami wyników (+), oraz b) pierwsze dwa kierunki i projekcja obiektów (PC ) na drugi kierunek z zaznaczonymi wartościami wyników (+) (PC opisuje część informacji, jakiej nie modeluje pierwszy czynnik główny). Jeśli poprzestaniemy na modelu PCA tylko z jednym czynnikiem głównym, wówczas odległości prowadzone od każdego punktu ( ) prostopadle do PC, jak pokazano na Rys. 8a, będą odpowiadały resztom od modelu. Biorąc pod uwagę tylko pierwszą projekcję, wymiarowość danych zostanie zredukowana z dwóch wymiarów do jednego. Aby opisać pozostałą część wariancji danych, drugi kierunek musi być prostopadły do pierwszego (zob. Rys. 8b). Jeśli dane mają więcej niż dwa wymiary, wówczas następne kierunki są prostopadłe do tych już wytyczonych. Czynniki główne tworzą nowy układ współrzędnych, w którym odległości euklidesowe pomiędzy obiektami są zachowane (tzn. są równe odległościom w w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

13 przestrzeni oryginalnych zmiennych). Każdy obiekt ma współrzędne określone przez odpowiednie wyniki, [t i, t i,..., t if ]. Do konstrukcji czynników głównych można stosować różne algorytmy [], a wśród nich są takie jak np. NIPALS, SVD, EVD, [3]. Na szczególną uwagę zasługują szybkie algorytmy PCA, w których czynniki główne powstają poprzez dekompozycję kwadratowej macierzy XX T albo X T X [4]. Kwadratowa macierz tworzona jest tak, aby jej wymiar był najmniejszy, co zapewnia szybką konstrukcję czynników głównych. Macierz X T X dla danych centrowanych nazywana jest macierzą wariancjikowariancji [ 5 ]. Elementy diagonali tej macierzy to wariancje poszczególnych parametrów, a pozostałe elementy wyrażają ich kowariancje. Jeśli dane poddano autoskalowaniu, wówczas macierz X T X jest macierzą korelacji, a jej elementy to współczynniki korelacji Pearsona [].. Wstępne przygotowanie danych do dalszej analizy Wstępne przygotowanie danych ma na celu (i) podnieść ich jakość oraz (ii) poprawić interpretację danych. Istnieje wiele metod wstępnego przygotowania danych [3]. Metody przygotowania danych do dalszej analizy możemy podzielić na trzy grupy. Pierwsza z nich obejmuje metody stosowane do indywidualnych obiektów macierzy danych, np. sygnałów instrumentalnych (metody eliminacji szumu i linii bazowej, różnego rodzaju procedury normalizacyjne, pochodne, itp.). Do drugiej grupy metod zaliczamy techniki, których zadaniem jest modyfikacja indywidualnych zmiennych (metody centrowania i/lub skalowania indywidualnych zmiennych, np. standardyzacja, autoskalowanie i transformacja logarytmiczna), a także metody eliminacji zmiennych, które mogą być uznawane jako skrajny wariant modyfikacji zbioru zmiennych [6,7]). Trzecia grupa metod to metody stosowane do nakładania sygnałów instrumentalnych. Poniżej przedstawiono najczęściej stosowane metody wstępnego przygotowania danych. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3

14 .. Centrowanie i skalowanie danych Najczęściej stosowaną transformacją danych jest centrowanie. Ma ona na celu usunąć z danych stałe elementy, które nic nie wnoszą do wiedzy o zróżnicowaniu danych. Centrowanie polega na odjęciu od każdego elementu kolumny odpowiedniej wartości średniej. Kolejną możliwą operacją jest autoskalowanie. Stosuje się je, gdy parametry zmierzono w różnych jednostkach i/lub ich zakresy zmienności znacznie się różnią. Autoskalowanie polega na centrowaniu kolumn danych, a następnie podzieleniu każdego elementu określonej kolumny przez jej odchylenie standardowe. Wynikiem takiej operacji jest nadanie każdej zmiennej jednostkowej wariancji, a więc tej samej wagi w późniejszej analizie. Na Rys. 9 przedstawiono średnie i odchylenia standardowe zmiennych przed i po autoskalowaniu dla symulowanych danych zawierających sto próbek i dwadzieścia parametrów. a) 9 8 c) 9 średnia odchylenie standardowe b) indeks parametru d) indeks parametru średnia odchylenie standardowe indeks parametru indeks parametru Rys. 9 Wartości średnie dwudziestu parametrów symulowanych danych a) przed i b) po operacji autoskalowania oraz odpowiadające im odchylenia standardowe c) przed i b) po autoskalowaniu. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 4

15 Podkreślmy jeszcze raz, iż PCA prowadzona dla autoskalowanych parametrów oznacza, iż czynniki główne otrzymuje się w oparciu o macierz korelacji. Typowym przykładem danych, jakie zazwyczaj wymagają takiego właśnie przygotowania, są dane środowiskowe, gdyż tworzą je parametry fizyko-chemiczne mierzone w różnych jednostkach i zakresach. W literaturze, autoskalowanie nazywane jest także z- transformacją lub skalowaniem zmiennych do jednostkowej wariancji [3]. W przypadku danych, w których wyróżnia się bloki zmiennych, np. blok widm Ramana i blok widm UV-VIS, skalowaniu można poddać indywidualne bloki zmiennych tak, by wariancja każdego z nich była równa jedności [4,8]. Dla uzyskania bardziej symetrycznych rozkładów zmiennych, przypominających rozkład normalny, często stosuje się transformację logarytmiczną. Zazwyczaj, takiej transformacji wymagają dane zawierające informacje o elementach śladowych i niejednokrotnie dane środowiskowe [4]... Normalizacja sygnałów Normalizacja indywidualnych sygnałów macierzy danych ma na celu usunięcie efektu związanego z różną ilością próbki użytej w eksperymencie (np. w chromatografii - różna objętość wprowadzonej na kolumnę próbki). Normalizacja polega na podzieleniu każdego elementu wiersza macierzy przez jego długość (tj. pierwiastek sumy kwadratów wszystkich elementów danego wiersza macierzy). W wyniku normalizacji długość każdego wektora jest jednostkowa. Innym typem normalizacji jest transformacja SNV (z ang. standard normal variate) [9], często stosowana np. do korekcji widm z bliskiej podczerwieni. Jej celem jest transformacja poszczególnych sygnałów tak, aby ich wariancja była jednostkowa. W tym celu wiersze macierzy centruje się odpowiadającymi im wartościami średnimi, a następnie dzieli się przez ich odchylenia standardowe. Na Rys. przedstawiono zbiór widm z bliskiej podczerwieni przed i po transformacji SNV. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 5

16 a) b) absorbancja długość fali [nm] SNV-transformowana absorbancja długość fali [mn] Rys. Zbiór stu widm z bliskiej podczerwieni próbek zboża a) przed i b) po transformacji SNV. Wybór odpowiedniej metody wstępnego przygotowania danych nie jest oczywisty i wywiera wpływ na konstrukcję czynników głównych oraz na ich późniejszą interpretację, co zademonstrowano w paragrafie Efektywność kompresji danych Zastanówmy się teraz, kiedy kompresja danych do kilku czynników głównych będzie skuteczna. Zgodnie z regułami algebry liniowej, dla macierzy X można skonstruować f max czynników głównych, gdzie f max to matematyczny rząd macierzy danych. Rząd macierzy to maksymalna liczba wektorów bazowych, które wystarczają w zupełności do jej opisu [3]. Rząd macierzy może być równy, co najwyżej, minimum z jej dwóch wymiarów, min(n,m). Tak więc, w zależności od wymiarowości danych, macierz danych może mieć maksymalny rząd równy liczbie obiektów lub zmiennych. Dla centrowanej macierzy danych, gdzie m<n, jej maksymalny rząd wynosi m-, a dla centrowanej macierzy o większej liczbie wierszy niż kolumn, jej maksymalny rząd wynosi n [3]. W praktyce, faktyczny rząd macierzy, nazwijmy go rzędem chemicznym, jest często dużo mniejszy niż jej rząd matematyczny. Spowodowane jest to tym, iż wszystkie dane pomiarowe obarczone są błędem eksperymentalnym, a zatem tylko kilka pierwszych czynników głównych, o dużych wartościach własnych modeluje dane, a w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 6

17 pozostałe modelują jedynie błąd eksperymentalny. Kompresja danych do kilku czynników głównych jest tym skuteczniejsza im więcej jest w danych silnie skorelowanych zmiennych..3 Wybór kompleksowości modelu PCA W zależności od zastosowań PCA, wybór liczby czynników głównych do modelu PCA może mieć różne znaczenie. W przypadku użycia PCA do eksploracji danych, zazwyczaj skupiamy się na interpretacji projekcji obiektów i zmiennych na kilka pierwszych czynników głównych, gdyż właśnie one modelują przeważającą wariancję danych. Wówczas ustalenie liczby czynników głównych nie jest krytyczne. Inaczej jest, gdy metoda PCA jest użyta do kompresji danych, a macierz wyników ma zastąpić oryginalne dane. Wtedy, do modelu PCA należy wybrać optymalną liczbę czynników głównych. Wybór optymalnej liczby czynników do modelu PCA jest bardzo ważny, gdyż pozwala na eliminację części błędu eksperymentalnego z danych, a jednocześnie zapewnia, że nie nastąpi utrata istotnej chemicznie informacji. Istnieje wiele sposobów ułatwiających wybór optymalnej liczby czynników głównych, np. analiza wartości własnych lub wariancji, jaką opisują kolejne czynniki główne. Inne metody bazują na różnych indeksach, np. indeksie Malinowskiego [3] lub [3,3]. Kolejnym sposobem jest metoda kroswalidacji, zwana także walidacją krzyżową. Ma ona wiele wariantów, a wyczerpujący przegląd technik kroswalidacji czytelnik znajdzie w [33]. Najpopularniejszym typem kroswalidacji jest kroswalidacja typu wyrzuć jeden obiekt. W metodzie tej konstruuje się m modeli PCA o rosnącej liczbie czynników głównych. Modele te budowane są dla podzbiorów danych powstałych poprzez usuwanie z wyjściowych danych kolejno każdego obiektu. Usunięty obiekt to tzw. obiekt testowy i służy on do oceny mocy predykcyjnej modeli PCA o różnej liczbie czynników głównych na podstawie reszt od modelu dla tego obiektu. Reszty oblicza się jako różnice pomiędzy wartościami parametrów dla i-tego obiektu, a wartościami zrekonstruowanymi stosując model o f czynnikach głównych, gdzie f =,,..., f max : t = x P (8) e [, f ] [, n] [ n, f ] T ( ) x t n f = P (9) [, ] [, n] [, f ] [ f, n] w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 7

18 Dla każdego obiektu testowego, sumuje się uzyskane kwadraty reszt uzyskane od modeli z,,..., f max czynnikami głównymi (zob. równanie 9), otrzymując wektor kwadratów reszt, o wymiarze ( f max ). Następnie, te wektory zestawia się macierz CVE. Po zakończeniu procedury kroswalidacji wyrzuć jeden obiekt, macierz CV E ma wymiary (m f max ). Na jej podstawie oblicza się średni błąd kwadratowy kroswalidacji, RMSECV, zgodnie z wzorem: RMSECV = CV m e ij () m ( ) i= Idee procedury kroswalidacji typu wyrzuć jeden obiekt obrazuje Schemat. Z teoretycznego punktu widzenia, optymalna liczba czynników głównych w modelu PCA zapewnia możliwie najmniejszy błąd przewidywania modelu. m- n Usuwanie w kolejnych krokach i-tego obiektu z macierzy Konstrukcja modeli PCA o coraz większej liczbie czynników głównych Obliczenie kwadratów reszt od modelu dla i-tego obiektu w oparciu o modele z różną liczbą czynników głównych (,,..., f) RMSECV = m m i = m CV E f Obliczenie średniego błędu kwadratowego kroswalidacji na podstawie kwadratów reszt od modeli PCA dla każdego i-tego obiektu Schemat. Przedstawienie idei kroswalidacji typu wyrzuć jeden obiekt. Dla dużej liczby czynników głównych model dobrze rekonstruuje dane, ale jego przewidywanie dla nowych próbek jest złe. Stąd wykres wartości RMSECV od liczby w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 8

19 czynników powinien charakteryzować się minimum, które wskazuje optymalną kompleksowość modelu PCA. W praktyce, ze względu na szum w danych, wykresy RMSECV nie zawsze mają wyraźne minimum, a przez to wybór optymalnej liczby czynników nie jest oczywisty. Najczęściej spotykane typy krzywych RMSECV zaprezentowano na Rys.. Jedynie krzywa oznaczona jako ( ) pozwala pewnie stwierdzić, iż model PCA powinien zawierać cztery czynniki główne RMSECV liczba czynników głównych Rys. Przykładowe krzywe błędu kroswalidacji (RMSECV) w zależności od liczby czynników głównych w modelu PCA - z wyraźnym minimum ( ) i bez ( ). W porównaniu z krzywą ( ), na podstawie krzywej ( ) wybór optymalnej liczby czynników do modelu jest znacznie trudniejszy. Analizując zmiany kolejnych wartości RMSECV dla modeli z f i f+ czynnikami można stwierdzić, że model PCA najprawdopodobniej powinien mieć cztery lub pięć czynników głównych. W trudniejszych przypadkach należy się posiłkować innymi niż kroswalidacja metodami wyboru czynników głównych [3]. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 9

20 3. RÓŻNE ZASTOSOWANIA METODY PCA I JEJ MODYFIKACJE W literaturze można zaleźć szereg atrakcyjnych zastosowań PCA. Najczęściej metoda ta jest wykorzystywana jako technika wizualizacji danych. Obecnie, rutynowa analiza wielowymiarowych danych zakłada ich wstępną eksplorację, co zazwyczaj skutecznie umożliwia metoda PCA. Oprócz typowych zastosowań eksploracyjnych, PCA używa się także do kompresji danych, zastępując oryginalne zmienne kilkoma czynnikami głównymi, które opisują przeważającą część wariancji danych. Stąd PCA jest również traktowana jako etap wstępnego przygotowania danych do dalszej analizy, a zabieg kompresji danych ma na celu przyspieszenie lub uproszczenie kolejnych obliczeń. Przykłady takiego użycia PCA znajdujemy w modelowaniu danych sieciami neuronowymi [ 34 ], podczas grupowania danych [35], konstrukcji stabilnych czynników głównych [5] czy też w niektórych metodach regresji, np. [36,37]. Istnieją także metody, które wymagają nieskorelowanych zmiennych. Prostym sposobem na pozbycie się skorelowanych zmiennych jest zastąpienie ich czynnikami głównymi. Ma to miejsce, np. w przypadku obliczania odległości Mahalanobisa [38], regresji czynników głównych [36,37] oraz w technice minimalnego wyznacznika kowariancji [5]. Odpowiednie stosowanie metody PCA pozwala również na badanie czystości mieszanin, np. poprzez analizę sygnałów instrumentalnych otrzymanych sprzężonymi technikami chromatograficznymi [39]. 3.. Eksploracja danych zawierających obiekty odległe i/lub brakujące elementy PCA jest bardzo ogólną techniką modelowania danych. Jednakże, w niektórych przypadkach wymaga ona pewnych modyfikacji. Ma to miejsce w szczególności, gdy obiektem analizy są dane z obiektami odległymi (czyli z próbkami bardzo różniącymi się od pozostałych) i/lub brakującymi elementami. Poniżej omówiono stabilną metodę PCA, która pozwala na analizę danych z obiektami odległymi oraz modyfikację metody PCA stosowaną do analizy danych z brakującymi elementami. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

21 3.. Stabilny wariant PCA Jak już wspomniano, zadaniem PCA jest maksymalizować opis wariancji danych. Zatem, poszukuje się takich kierunków, aby projekcja obiektów na te kierunki charakteryzowała się maksymalną wariancją. W związku z tym, obiekty odległe wpływają na konstruowane czynniki główne, a model PCA opisuje głównie te obiekty [4,4]. Do tej pory w literaturze zaproponowano wiele algorytmów do konstrukcji tak zwanych stabilnych czynników głównych, na których konstrukcję nie wpływają obiekty odległe [4,43,44,45]. W tym rozdziale przedstawimy metodę Crouxa i Ruiz- Gazena [4], ze względu na jej dużą prostotę w porównaniu z innymi stabilnymi wariantami PCA. W metodzie Crouxa i Ruiz-Gazena zamiast maksymalizować wariancję projekcji, szuka się projekcji o największej wartości stabilnego estymatora skali, tzw. estymatora Qn [46]. Każdy stabilny estymator ma za zadanie poprawnie estymować określoną własność (np. średnią czy odchylenie standardowe) nawet, jeśli w danych występują obiekty odległe. Koncepcje stabilnych estymatorów oraz stabilnych metod zostały omówione w [47,48,49]. Kolejne kroki tworzenia stabilnych czynników głównych w oparciu o algorytm Crouxa i Ruiz-Gazena można przedstawić następująco:. centrowanie danych stosując stabilny estymator średniej (medianę lub L-medianę [5]),. konstrukcja m kierunków, będących znormalizowanymi wierszami macierzy danych, 3. projekcja m obiektów na m kierunków, 4. znalezienie takiego kierunku, dla którego projekcja obiektów na ten kierunek osiąga największą wartość stabilnego estymatora skali Qn, 5. usunięcie z macierzy danych informacji opisanej przez i-ty stabilny czynnik główny, 6. powrót do kroku, jeśli konieczna jest konstrukcja dodatkowych stabilnych czynników głównych. Ponieważ stabilny model PCA nie jest zaburzony obiektami odległymi, dlatego umożliwia on ich diagnostykę. Przeprowadza się ją zazwyczaj w oparciu o reszty od w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

22 stabilnego modelu PCA i odległości Mahalanobisa obliczone w przestrzeni f stabilnych czynników głównych [44]. Odległość Mahalanobisa [38] dla danych uprzednio centrowanych wyraża odległość i-tego obiektu od środka danych w przestrzeni stabilnego modelu: d i = f ( tij v j ) j= / () gdzie, t i to stabilne wartości f wyników dla i-tego obiektu, a v j to stabilne wartości własne j-tego czynnika głównego. Aby ułatwić diagnostykę obiektów odległych, zarówno wektor reszt od stabilnego modelu (pierwiastek sumy kwadratów reszt obliczonych zgodnie z równaniem 9) jak i wektor odległości Mahalanobisa każdego obiektu poddaje się z-transformacji. Z-transformowane elementy wektora to absolutne wartości różnic pomiędzy każdym elementem wektora (reszt i odległości Mahalanobisa), a jego medianą, podzielone następnie przez odchylenie standardowe wektora, oszacowane stabilnym estymatorem skali, np. estymatorem Qn [49]: dz i ( d) ( d) d i med = () Qn gdzie, dz i to z-transformowana wartość i-tej wartości wektora reszt lub odległości Mahalanobisa, med(d) oznacza medianę wektora d, a Qn(d) to estymowana wartość odchylenia standardowego wektora d stosując stabilny estymator skali Qn. Taki zabieg pozwala na łatwe wyznaczenie wartości progowych dla z- transformowanych reszt i odległości Mahalanobisa, zakładając, że ich rozkład jest normalny. Wtedy, dla 99,9% obiektów wartości z-transformowanych reszt i odległości Mahalanobisa będą poniżej wartości progowej równej trzy. Ze względu na wartości z-transformowanych reszt i odległości Mahalanobisa każdy obiekt można przypisać do jednej z czterech kategorii (zob. Rys. ). w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

23 reszty od modelu * 4 * * * ** ** * * * * * * * * * 3 * odległość Mahalanobisa Rys. Diagram reszt od stabilnego modelu PCA i odległości Mahalanobisa, obliczonych w przestrzeni f stabilnych czynników głównych. Mianowicie, wyróżniamy obiekty:. regularne, czyli te o małych wartościach reszt od stabilnego modelu i małych odległościach Mahalanobisa,. o dużych resztach od modelu, przekraczających wartość progową, 3. o wartościach odległości Mahalanobisa powyżej wartości progowej, oraz 4. obiekty o wartościach reszt od modelu i odległości Mahalanobisa większych od wartości progowych. Obiekty czwartej kategorii mają największy wpływ na konstrukcję czynników głównych. 3.. PCA dla danych z brakującymi elementami Metoda PCA do analizy danych z brakującymi elementami, EM-PCA, bazuje na procedurze maksymalizacji wartości oczekiwanych (z ang. expectation-maximization principal component analysis). Na początku, brakujące elementy zastępuje się wartościami oczekiwanymi (średnimi ze średnich wartości kolumn i wierszy macierzy w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3

24 danych). Następnie, iteracyjnie estymuje się brakujące elementy stosując model PCA z f czynnikami głównymi. Brakujące elementy estymuje się do momentu, gdy suma kwadratów różnic pomiędzy estymowanymi wartościami brakujących elementów w dwóch kolejnych iteracjach jest znikomo mała [5]. Kryterium zbieżności, S, w metodzie EM-PCA wyraża się jako: k + k S = ( e ij e ) (3) i j ij gdzie, S to suma kwadratów różnic reszt pomiędzy estymowanymi elementami macierzy o indeksach ij, których nie było w wyjściowej macierzy danych, uzyskane w k-tej ( k k+ e ij ) i k+ iteracji ( e ij ). Estymacja brakujących elementów jest skuteczna, jeśli w danych istnieje stosunkowo dobra struktura korelacyjna, a brakujące elementy są estymowane tak, aby nie zaburzać końcowego modelu PCA. Kolejne kroki algorytmu EM-PCA, w którym brakujące elementy estymowane są stosując model z f czynnikami głównymi, można przedstawić następująco (zob. Schemat ):. ustalenie wartości progowej kryterium zbieżności (np. S = -4 ) i wstępne podstawienie brakujących elementów macierzy danych ich wartościami oczekiwanymi (tzn. średnimi ze średnich wartości kolumn i średnich wartości wierszy macierzy),. przygotowanie danych (np. centrowanie lub autoskalowanie dla obserwowanych elementów), 3. dekompozycja macierzy danych do f czynników głównych, 4. rekonstrukcja danych stosując model PCA o f czynnikach głównych, 5. podstawienie brakujących elementów w macierzy danych estymowanymi wartościami w kroku 4 algorytmu, 6. sprawdzenie kryterium zbieżności algorytmu (równanie 3), a jeśli to konieczne powrót do kroku. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 4

25 Optymalną liczbę czynników w modelu EM-PCA ustala się stosując np. kroswalidację. m n Wstępne podstawienie brakujących elementów Dane wyjściowe X [m,n] TAK X = T P + E Konwergencja? T [ m, n] [ m, f ] [ f, n] [ m, n] Konstrukcja modelu PCA z f czynnikami głównymi NIE Podstawienie brakujących elementów wartościami przewidzianymi na podstawie modelu PCA o f czynnikach głównych Konstrukcja nowego modelu PCA z f czynnikami głównymi Dane z podstawionymi brakującymi elementami Schemat. Główne kroki iteracyjnej procedury EM-PCA. 4. KONSTRUKCJA MODELI PCA Do tej pory, zwróciliśmy uwagę na kilka ważnych własności PCA, a mianowicie:. PCA jest modelem, który aproksymuje dane. Jakość aproksymacji zależy od ilości czynników głównych użytych do konstrukcji modelu. Uwzględnienie optymalnej liczby czynników głównych w modelu pozwala na częściową eliminację szumu z danych eksperymentalnych,. czynniki główne są nowymi ortogonalnymi zmiennymi (wyrażane są jako liniowa kombinacja oryginalnych zmiennych) i maksymalizują opis wariancji danych, 3. czynniki główne tworzą nowy układ współrzędnych [5], w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 5

26 4. stosując metodę PCA, macierz danych jest przedstawiana jako iloczyn dwóch nowych macierzy, macierzy wyników, T, i wag, P. Zawierają one odpowiednio informacje o obiektach i zmiennych eksperymentalnych, 5. na konstrukcję czynników głównych istotny wpływ wywierają obiekty odległe. W tej części rozdziału skupimy się na zilustrowaniu w/w własności PCA oraz zaprezentujemy niektóre zastosowania PCA do analizy eksperymentalnych danych. 4. Opis danych eksperymentalnych, jakich użyto do dyskusji Praktyczne zalety metody PCA zademonstrujemy w oparciu o cztery zestawy danych, których wybór był podyktowany ich ogólną dostępnością. Dane tworzy widm próbek zboża, które zarejestrowano stosując technikę spektroskopii w bliskiej podczerwieni (NIR) [53]. Widma odbiciowe zmierzono w zakresie spektralnym - 5 nm, co nm. Dane są dostępne z [54]. Dane to wyniki analiz 78 próbek włoskich win takich jak Barolo (59 próbek), Grignolino (7 próbek) i Barbera (48 próbek). Dla każdej próbki oznaczono trzynaście parametrów (- zawartość alkoholu, - zawartość kwasu jabłkowego, 3- ilość popiołu, 4- zasadowość popiołu, 5- zawartość magnezu, 6- całkowita zawartość fenoli, 7- zawartość flawonoidów, 8- zawartość nieflawonoidowych fenoli, 9- zawartość związków proantycyjaninowych, - intensywność koloru próbek, - barwa próbek, - stosunek transmitancji mierzonych dla rozcieńczonych próbek win przy 8 i 35 nm i 3- zawartość proliny) [55]. Dane można pobrać z [56]. Dane 3 dane zawierają wyniki analiz 4 próbek opium, które zebrano w trzech prowincjach Indii (Madhya Pradesh, Uttar Pradesh i Rajasthan) [57]. W każdej próbce, za pomocą chromatografii cieczowej, oznaczono zawartości piętnastu aminokwasów takich jak cysteina, asparteina, treonina, seryna, kwas glutaminowy, glutamina, alanina, walina, izoleucyna, leucyna, tyrozyna, fenyloalanina, histydyna, lizyna i arginina. Dane, jak i dokładny opis procedury analitycznej znajduje się w [57]. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 6

27 Dane 4 zawierają profile stężeniowe ośmiu kwasów tłuszczowych 57 próbek oliwy z oliwek [58]. Oliwki zebrano w dziewięciu regionach uprawnych Włoch (Kalabrii, południowej Apulii, lądowej części Sardynii, nadmorskiej części Sardynii, wschodniej Ligurii, zachodniej Ligurii i Umbrii). Zawartości poszczególnych kwasów tłuszczowych (- kwas palmitynowy, - kwas 3- oleopalmitynowy, 4- kwas stearynowy, 5- kwas oleinowy, 6- kwas linolenowy, 7- kwas linolowy, 8- kwas arachidowy oraz 9- kwas gadoleinowy) oznaczono za pomocą chromatografii gazowej. Dane można pobrać z [59]. 4. Wizualizacja struktury danych i badanie zależności pomiędzy zmiennymi Bardzo cenną zaletą PCA jest umożliwienie wizualizacji wielowymiarowych danych oraz ich interpretacji. Macierz wyników, T, oraz macierz wag, P, dostarczają bowiem odpowiednio informacji o podobieństwach obiektów i zmiennych. Zobaczmy, jak PCA pomaga w uzyskaniu informacji na temat struktury danych i wzajemnych podobieństw pomiędzy próbkami. W tym celu posłużymy się drugim zestawem danych. Ze względu na różnice w jednostkach, w jakich zmierzono parametry, jak i ich różną skalę, przed analizą PCA dane zostały autoskalowane [3]. W przypadku danych, których zmienne autoskalowano, czynniki główne o wartościach własnych mniejszych od jedności nie wnoszą istotnej informacji do opisu danych [5]. Na Rys. 3a przedstawiono kumulacyjny procent wariancji danych dla pierwszych dziesięciu czynników głównych. Kompresja danych metodą PCA nie jest zbyt skuteczna, ponieważ pierwsze dwa czynniki opisują około 55,4% całkowitej wariancji danych. Mimo to, z całego arsenału liniowych technik projekcji metoda PCA zapewnia najlepszą kompresję danych. Pierwsze czynniki główne, modelujące możliwie największą wariancję danych, najlepiej przedstawiają ich strukturę. Aby ujawnić strukturę badanych danych i prześledzić ewentualne podobieństwa pomiędzy próbkami win posłużymy się macierzą wyników. Na Rys. 3b, przedstawiono położenie próbek w nowym układzie współrzędnych, zdefiniowanym przez odpowiednie czynniki główne. Już pierwsze dwa czynniki główne pozwalają ukazać niehomogeniczną strukturę danych (zob. Rys. 3b). Najczęściej, projekcje wyników są źródłem informacji o tendencji danych do grupowania i/lub o próbkach, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 7

28 które znacząco różnią się od pozostałych (tak zwanych obiektów odległych). Na płaszczyźnie PC - PC można wyróżnić trzy grupy próbek - Rys. 3b. Przy analizie poszczególnych projekcji wyników jako miarę podobieństwa pomiędzy próbkami wykorzystuje się odległość euklidesową. Tak więc, próbki są tym bardziej do siebie podobne pod względem chemicznym im mniejsze są pomiędzy nimi odległości euklidesowe. Na Rys. 3c różnymi symbolami oznaczono, jaki gatunek wina reprezentuje każda próbka. Grupy próbek nie są w pełni od siebie odseparowane, ale można zobaczyć, iż grupują się one ze względu na rodzaje win. Zatem, możemy wnioskować, iż pomiędzy gatunkami win istnieją wyraźne różnice ze względu na wartości mierzonych parametrów fizyko-chemicznych. Pierwsza grupa próbek win charakteryzuje się ujemnymi wartościami wyników wzdłuż pierwszej osi i dodatnimi wzdłuż drugiej. Dla drugiej grupy próbek wartości wyników przyjmują wzdłuż pierwszej osi zarówno ujemne jak i dodatnie wartości, a wzdłuż drugiej ujemne. Natomiast wartości wyników próbek trzeciej grupy są dodatnie wzdłuż obu osi. Aby zbadać, które z parametrów są do siebie podobne, a które różnicują próbki win dokonuje się projekcji wag na płaszczyzny zdefiniowane parami czynników głównych. Wzajemne podobieństwa określa się na podstawie kąta, jaki tworzą pomiędzy sobą dwa wektory wag o początku w punkcie [ ] i końcach zdefiniowanych przez odpowiednie wartości wag zmiennych na rozważanych projekcjach. Jeżeli kąt pomiędzy dwoma parametrami jest bliski wówczas są one silnie dodatnio skorelowane. Kiedy kąt pomiędzy dwoma parametrami jest bliski 8 to parametry są silnie skorelowane, ale przeciwnie. Dwa parametry są niezależne (ortogonalne), jeśli kąt pomiędzy nimi jest bliski 9. Dla analizowanych danych projekcje wag na pierwsze dwa czynniki główne przedstawia Rys. 3d. Wynika z niego, iż znaczny wkład do tworzenia pierwszego czynnika mają parametry 7 i 8 (flawonoidy i nieflawonoidy), gdyż ich absolutne wartości wag są największe. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 8

29 a) 9 c) 3 procent opisanej wariancji danych kolejne czynniki główne PC - 9,% Barolo Grignolino Barbera PC - 36,% b) 3 d).5 PC - 9,% - - wagi na czynniku głównym PC - 36,% wagi na czynniku głównym Rys. 3 a) Kumulacyjny procent wariancji danych opisanej przez pierwsze dziesięć czynników głównych, b) projekcja próbek na przestrzeń zdefiniowaną przez pierwsze dwa czynniki główne (obok czynników głównych podano procent opisanej wariancji danych przez każdy czynnik), c) ta sama projekcja, na której trzema symbolami oznaczono przynależność każdej próbki do jednego gatunku wina: Barolo ( ), Grignolino ( ) i Barbera ( ) i d) projekcja wag na przestrzeń pierwszych dwóch czynników głównych. Każdy symbol ( ) przedstawia wartości wag takich parametrów jak: - alkohol, - kwas jabłkowy, 3- popiół, 4- zasadowość popiołu, 5- magnez, 6- całkowita zawartość fenoli, 7- flawonoidy, 8- nieflawonoidowe fenole, 9- związki proantycyjaninowe, - intensywność koloru, - barwa, - stosunek transmitancji mierzonych dla rozcieńczonych próbek win przy 8 i 35 nm i 3- prolina. Z kolei te parametry praktycznie nie mają żadnego wkładu w konstrukcję drugiego czynnika, gdyż wartości wag na drugim czynniku są bliskie zeru. Dla drugiego czynnika największe znaczenie ma parametr (intensywność koloru próbek). Z projekcji wag wnioskujemy, iż parametry 6 i 7 są skorelowane dodatnio. Z tymi parametrami są przeciwnie (ujemnie) skorelowane parametry 4 i 8. W praktyce oznacza to, iż jeśli w badanych próbkach zawartość fenoli, flawonoidów i proantycyjanianów rośnie, to zarazem obniża się zasadowość popiołów oraz w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 9

30 zawartość nieflawonoidowych fenoli. Aby zobrazować te zależności, na Rys. 4 przedstawiono relacje pomiędzy autoskalowanymi parametrami 6 i 7 oraz 7 i 8. Dodatnia korelacja parametrów oznacza jednoczesny wzrost wartości obu parametrów, a korelacja przeciwna, wzrost wartości jednego, a obniżenie wartości drugiego. Jeśli kompresja danych metodą PCA nie jest efektywna, należy pamiętać o rozważnej interpretacji zarówno projekcji wyników jak i wag, mając na uwadze, iż przedstawiają one jedynie pewną część wariancji danych. Zatem ich analiza pozwala na formułowanie bardzo ogólnych wniosków, a te powinny znaleźć odzwierciedlenie w oryginalnych danych jak i dotychczasowej wiedzy o badanym problemie. W przypadku danych, Rys. 4a świadczy o stosunkowo silnej dodatniej korelacji pomiędzy parametrami 6 i 7 (współczynnik korelacji wynosi,86). a) 3 b).5 flawonoidy (zmienna 7) nieflawonoidowe fenole (zmienna 8) całkowita zawartość fenoli (zmienna 6) flawonoidy (zmienna 7) Rys. 4 Projekcje próbek na przestrzeń zdefiniowaną przez parametry: a) 6 (całkowita zawartość fenoli) i 7 (flawonoidy) oraz b) 7 (flawonoidy) i 8 (nieflawonoidowe fenole). Dla zmiennych 7 i 8, korelacja jest przeciwna, jak wskazuje projekcja wag, a jej współczynnik wynosi zaledwie -,54. Interpretując wagi parametrów rozważamy jedynie ich projekcję wag na przestrzeń wybranych dwóch czynników głównych. Najbardziej istotne z praktycznego punktu widzenia wydaje się być wskazanie parametrów, które mają bezpośredni wpływ na obserwowaną strukturę widoczną na projekcjach wyników. W tym celu należy równocześnie interpretować projekcje wyników i wag, patrząc na ich wzajemne położenia na obu projekcjach. Dla w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3

31 ułatwienia interpretacji, jeszcze raz, na Rys. 5 przedstawiono projekcje wyników i wag pierwszych dwóch czynników głównych. Podczas interpretacji projekcji wyników (opisujących określone próbki) jak i wag (opisujących zmienne) należy uwzględnić ich znaki. W przypadku, gdy wyniki i wagi badanych próbek mają ujemne lub dodatnie znaki ich iloczyn jest zawsze dodatni (zob. równanie 5). Dlatego można powiedzieć, iż w takiej sytuacji dla próbek opisanych dodatnimi wartościami wyników oraz dodatnimi wartościami wag lub ujemnymi wartościami wyników oraz ujemnymi wartościami wag, określony parametr będzie miał relatywnie dużą wartość w porównaniu z resztą obiektów. Skupmy się najpierw na grupie win Barbera. Z Rys. 5a wynika, iż te próbki opisane są dodatnimi wartościami wyników wzdłuż pierwszej osi. Ponadto, projekcja wag (Rys. 5b) informuje o dużym wkładzie w tworzenie pierwszego czynnika głównego parametrów 7 (flawonoidy) i 8 (nieflawonoidowe fenole). Są one opisane odpowiednio ujemną i dodatnią wartością wagi. Możemy powiedzieć, iż w stosunku do innych próbek, w winach Barbera jest relatywnie więcej fenoli, a także kwasu jabłkowego, a ph popiołów jest wyższe ze względu na korelacje parametrów, 4 i 8. Ze względu na przeciwną korelację parametru 7 z parametrem 8, wina Barbera mają małe zawartości flawonoidów. Wraz z parametrem 7 podobną tendencję będą wykazywały parametry 6, 9 i, gdyż są one ze sobą skorelowane. W przypadku próbek win Barolo, tendencje obserwowane dla parametrów 7 i 8 są przeciwne tych dla próbek win Barbera (zob. Rys. 5c i d). W próbkach tego wina obserwuje się stosunkowo duże wartości parametrów 6, 7, 9 i (ujemne wartości wag i dodatnie odpowiednich wyników), zaś małe wartości parametrów 4 i 8 (dodatnie wagi i ujemne wartości wyników). Odmienność próbek win Grignolino (ujemne wartości wyników wzdłuż drugiej osi) od pozostałych próbek win można głównie tłumaczyć ich relatywnie mniejszą intensywnością koloru (parametr dodatnia waga). w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza głównych składowych- redukcja wymiaru, wykł. 12 Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań ... Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 Wyłączenie odpowiedzialności

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Metody uczenia z nadzorem kalibracja, dyskryminacja i klasyfikacja

Metody uczenia z nadzorem kalibracja, dyskryminacja i klasyfikacja Metody uczenia z nadzorem kalibracja, dyskryminacja i klasyfikacja I. Stanimirova, M. Daszykowski i B. Walczak Zakład Chemometrii, Instytut Chemii, Uniwersytet Śląski, ul. Szkolna 9, 40-006 Katowice http://www.chemometria.us.edu.pl.

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Analiza współzależności dwóch cech I

Analiza współzależności dwóch cech I Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych

Bardziej szczegółowo

ANALIZA CZYNNIKOWA Przykład 1

ANALIZA CZYNNIKOWA Przykład 1 ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Wykład 10 Skalowanie wielowymiarowe

Wykład 10 Skalowanie wielowymiarowe Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów

Bardziej szczegółowo

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM Procedura szacowania niepewności Szacowanie niepewności oznaczania / pomiaru zawartości... metodą... Data Imię i Nazwisko Podpis Opracował Sprawdził Zatwierdził

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Analiza składników podstawowych - wprowadzenie (Principal Components Analysis

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

Kurs Chemometrii Poznań 28 listopad 2006

Kurs Chemometrii Poznań 28 listopad 2006 Komisja Nauk Chemicznych Polskiej Akademii Nauk Oddział w Poznaniu Wydział Technologii Chemicznej Politechniki Poznańskiej w Poznaniu GlaxoSmithKline Pharmaceuticals S.A. w Poznaniu Stowarzyszenie ISPE

Bardziej szczegółowo

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35 Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Procedura szacowania niepewności

Procedura szacowania niepewności DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM Procedura szacowania niepewności Stron 7 Załączniki Nr 1 Nr Nr 3 Stron Symbol procedury PN//xyz Data Imię i Nazwisko Podpis Opracował Sprawdził Zatwierdził

Bardziej szczegółowo

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy MIARY POŁOŻENIA Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

LABORATORIUM Z FIZYKI

LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

Niepewności pomiarów

Niepewności pomiarów Niepewności pomiarów Międzynarodowa Organizacja Normalizacyjna (ISO) w roku 1995 opublikowała normy dotyczące terminologii i sposobu określania niepewności pomiarów [1]. W roku 1999 normy zostały opublikowane

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.

Bardziej szczegółowo

5. Rozwiązywanie układów równań liniowych

5. Rozwiązywanie układów równań liniowych 5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego

Bardziej szczegółowo

Wykład 4 Związki i zależności

Wykład 4 Związki i zależności Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006 , transformacja liniowa i estymacja modelu KMNK Paweł Cibis pcibis@o2.pl 23 marca 2006 1 Miary dopasowania modelu do danych empirycznych Współczynnik determinacji Współczynnik zbieżności 2 3 Etapy transformacji

Bardziej szczegółowo

Układy równań i nierówności liniowych

Układy równań i nierówności liniowych Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +

Bardziej szczegółowo

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007 , transformacja liniowa i estymacja modelu KMNK Paweł Cibis pawel@cibis.pl 9 marca 2007 1 Miary dopasowania modelu do danych empirycznych Współczynnik determinacji Współczynnik zbieżności Skorygowany R

Bardziej szczegółowo

POLITECHNIKA OPOLSKA

POLITECHNIKA OPOLSKA POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38 Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. 1. Podstawy matematyki 1.1. Geometria analityczna W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. Skalarem w fizyce nazywamy

Bardziej szczegółowo

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska Funkcje liniowe i wieloliniowe w praktyce szkolnej Opracowanie : mgr inż. Renata Rzepińska . Wprowadzenie pojęcia funkcji liniowej w nauczaniu matematyki w gimnazjum. W programie nauczania matematyki w

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo

(x j x)(y j ȳ) r xy =

(x j x)(y j ȳ) r xy = KORELACJA. WSPÓŁCZYNNIKI KORELACJI Gdy w badaniu mamy kilka cech, często interesujemy się stopniem powiązania tych cech między sobą. Pod słowem korelacja rozumiemy współzależność. Mówimy np. o korelacji

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34 Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

3. FUNKCJA LINIOWA. gdzie ; ół,.

3. FUNKCJA LINIOWA. gdzie ; ół,. 1 WYKŁAD 3 3. FUNKCJA LINIOWA FUNKCJĄ LINIOWĄ nazywamy funkcję typu : dla, gdzie ; ół,. Załóżmy na początek, że wyraz wolny. Wtedy mamy do czynienia z funkcją typu :.. Wykresem tej funkcji jest prosta

Bardziej szczegółowo

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach. WYDZIAŁ ELEKTROTECHNIKI I AUTOMATYKI Katedra Inżynierii Systemów Sterowania PODSTAWY AUTOMATYKI MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Bardziej szczegółowo

Skalowanie wielowymiarowe idea

Skalowanie wielowymiarowe idea Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem. Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

ZAGADNIENIE TRANSPORTOWE

ZAGADNIENIE TRANSPORTOWE ZAGADNIENIE TRANSPORTOWE ZT jest specyficznym problemem z zakresu zastosowań programowania liniowego. ZT wykorzystuje się najczęściej do: optymalnego planowania transportu towarów, przy minimalizacji kosztów,

Bardziej szczegółowo

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy,

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

WYKŁAD 9 METODY ZMIENNEJ METRYKI

WYKŁAD 9 METODY ZMIENNEJ METRYKI WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40 Statystyka Wykład 9 Magdalena Alama-Bućko 7 maja 2018 Magdalena Alama-Bućko Statystyka 7 maja 2018 1 / 40 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie

Bardziej szczegółowo

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać układu równań liniowych Układ liniowych równań algebraicznych

Bardziej szczegółowo

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,

Bardziej szczegółowo

Funkcja liniowa - podsumowanie

Funkcja liniowa - podsumowanie Funkcja liniowa - podsumowanie 1. Funkcja - wprowadzenie Założenie wyjściowe: Rozpatrywana będzie funkcja opisana w dwuwymiarowym układzie współrzędnych X. Oś X nazywana jest osią odciętych (oś zmiennych

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH Jednym z zastosowań metod numerycznych jest wyznaczenie pierwiastka lub pierwiastków równania nieliniowego. W tym celu stosuje się szereg metod obliczeniowych np:

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12 Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn Analiza czynnikowa Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmiennych, które są bezpośrednio obserwowalne

Bardziej szczegółowo

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

Badania eksperymentalne

Badania eksperymentalne Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach

Bardziej szczegółowo