Metody uczenia z nadzorem kalibracja, dyskryminacja i klasyfikacja

Wielkość: px
Rozpocząć pokaz od strony:

Download "Metody uczenia z nadzorem kalibracja, dyskryminacja i klasyfikacja"

Transkrypt

1 Metody uczenia z nadzorem kalibracja, dyskryminacja i klasyfikacja I. Stanimirova, M. Daszykowski i B. Walczak Zakład Chemometrii, Instytut Chemii, Uniwersytet Śląski, ul. Szkolna 9, Katowice WSTĘP TECHNIKI UCZENIA Z NADZOREM Techniki uczenia bez nadzoru mają na celu w oparciu o zbiór zmiennych objaśniających X ułatwić zidentyfikowanie grup obiektów o podobnych właściwościach lub ujawnienie próbek znacznie różniących się od pozostałych. Do typowych technik uczenia bez nadzoru należą: analiza czynników głównych (PCA) [], metoda poszukiwania projekcji (PP) [], samoorganizujące się mapy Kohonena (SOM) [,4] czy też techniki grupowania danych [5,6]. Techniki uczenia z nadzorem, zależnie od problemu badawczego, stosuje się do konstrukcji modelu kalibracyjnego, dyskryminacyjnego lub klasyfikacyjnego. Do budowy tychże modeli, w przeciwieństwie do technik uczenia bez nadzoru, używa się zbioru zmiennych objaśniających, X, i macierz zmiennych zależnych Y. Ogólnie, tego typu modele można przedstawić jako: ( X[ m, n] ) [ m, ] Y [ m, k ] = f + E k () gdzie, m i n to odpowiednio liczba próbek i zmiennych objaśniających, X, k to liczba zmiennych zależnych, Y, a E jest macierzą reszt, która wyraża błąd jaki popełnia się stosując model wyrażony równaniem. Model ten jest jedynie pewną aproksymacją prawdziwej zależności, lecz ta, ze względu na ograniczoną liczbę próbek jak i błąd pomiarowy, nie może być poznana. Pomimo tego, model, który jest wystarczająco precyzyjny, znajduje zastosowanie do przewidywania zmiennej lub zmiennych zależnych. W zależności od celu modelowania danych, tj. rodzaju informacji, jaka zawarta jest w Y, wyróżniamy dwie podstawowe strategie uczenia z nadzorem, a mianowicie, kalibrację i dyskryminację/klasyfikację (Rys. ). Zadaniem metod kalibracji jest konstrukcja modelu, który pozwoli ilościowo ocenić określoną własność lub własności, bazując na zbiorze zmiennych objaśniających. W chemii, typowym przykładem modeli kalibracyjnych są modele

2 pozwalające przewidzieć np. stężenie jednego lub wielu składników w próbkach na podstawie ich widm. Skonstruowany model kalibracyjny umożliwia zastąpienie drogich i czasochłonnych pomiarów zmiennych zależnych, Y, pomiarami tańszymi i szybszymi, X, a następnie w oparciu o X przewidzenie wartości zmiennych zależnych. Jednymi z bardziej popularnych technik kalibracyjnych są regresja wieloraka (MLR), regresja czynników głównych (PCR) i regresja częściowych najmniejszych kwadratów (PLS) [7,8]. n metody uczenia bez nadzoru X Eksploracja danych (np. PCA, grupowanie danych) m n X y Kalibracja (np. PCR, PLS) metody uczenia z nadzorem m n X y Dyskryminacja/klasyfikacja (np. LDA, SIMCA) m Rys. Graficzne przedstawienie różnic pomiędzy metodami uczenia bez nadzoru i z nadzorem. Techniki dyskryminacyjne i klasyfikacyjne tworzą drugą grupę metod uczenia z nadzorem [9]. Ich celem jest opracowanie reguł logicznych, które pozwolą na podstawie zbioru próbek treningowych, należących do a priori znanych grup, przewidzieć przynależność nowych próbek do określonych grup. Do najczęstszych problemów klasyfikacyjnych możemy zaliczyć np. badanie autentyczności produktów spożywczych czy farmaceutycznych na podstawie ich składu chemicznego. Produkty spożywcze dzieli się na grupy ze względu na miejsce ich pochodzenia, warunki klimatyczne uprawy, metodologię produkcji lub też ze względu na inne czynniki, które są czynnikami różnicującymi je, a które można powiązać ze składem chemicznym próbek. Do analizy składu chemicznego próbek można zastosować

3 wiele technik analitycznych, a ich wybór przeważnie podyktowany jest względami ekonomicznymi. Do takich technik możemy zaliczyć spektroskopię w bliskiej podczerwieni (NIR), która dostarcza zmiennych objaśniających często stosowanych do budowy modeli kalibracyjnych, dyskryminacyjnych i klasyfikacyjnych. W metodach dyskryminacji/klasyfikacji, macierz Y zawiera informację o przynależności danej próbki do jednej z kilku możliwych grup. Sposób wyrażania przynależności próbki do danej grupy zależy od stosowanej metody uczenia z nadzorem. Dokładniej to zagadnienie zostanie omówione w dalszej części rozdziału. Techniki mające na celu przypisanie próbek do określonych grup można podzielić na dwie kategorie, a mianowicie, metody dyskryminacyjne oraz metody modelowania indywidualnych grup. W metodach dyskryminacyjnych, (z ang. discriminant techniques, hard-modeling techniques) [0], przestrzeń zmiennych eksperymentalnych zostaje podzielona na kilka wykluczających się podprzestrzeni, których liczba jest równa liczbie grup w danych. Ze względu na położenie próbki w przestrzeni zmiennych objaśniających jest ona zawsze przypisana do jednej z grup. Na Rys. zademonstrowano podział przestrzeni dwóch zmiennych objaśniających na cztery grupy oraz przypisano dwie próbki do odpowiednich grup ze względu na wartości mierzonych parametrów próbek. Próbka pierwsza została przypisana do grupy, a próbka do grupy (zob. Rys. a). W technikach modelowania indywidualnych grup (a ang. soft-modeling techniques, class-modeling techniques) model buduje się dla każdej grupy osobno. Zatem, nowa próbka może należeć do jednej z grup, do kilku z nich albo do żadnej (zob. Rys. b). a) b) próbka 4 4 próbka próbka nie należy do żadnej z grup przestrzeń zmiennych przestrzeń zmiennych Rys. Ilustracja różnić pomiędzy: a) technikami dyskryminacyjnymi, a b) technikami modelowania indywidualnych grup.

4 Z uwagi na metodę określania przynależności próbek wyróżniamy takie techniki dyskryminacyjne jak np., liniową analizę dyskryminacyjną (LDA) [], dyskryminacyjną metodę częściowych najmniejszych kwadratów (D-PLS) [7,8], drzewa klasyfikacji i regresji (CART) [], metodę k najbliższych sąsiadów (KNN), czy maszyny wektorów wspierających (SVM) [], oraz techniki modelowania indywidualnych grup, np. SIMCA [4], UNEQ [5] i M-CAIMAN [6] Techniki uczenia z nadzorem, możemy podzielić również, ze względu na rodzaj funkcji kosztów, na metody liniowe i nieliniowe. Niektóre z tych technik, jak np. PCR czy PLS, choć oryginalnie zostały zaproponowane by modelować liniowe zależności, mają swoje odpowiedniki stosowane do nieliniowych problemów kalibracyjnych i dyskryminacyjnych [7]. Przykładem bardzo ogólnych technik, jakich używa się do konstrukcji liniowych bądź nieliniowych modeli kalibracyjnych i/lub dyskryminacyjnych, są metody SVM i CART. Inny możliwy podział metod uczenia z nadzorem wynika z ich globalnego lub lokalnego charakteru. Metody globalne mają za zadanie skonstruować jeden model, który jest spełniony w całej domenie wyznaczonej przez zmienne objaśniające. W tym ujęciu metody takie jak MLR, PCR czy PLS są technikami globalnymi. Celem modeli lokalnych jest konstrukcja kilku modeli, które są poprawne w niektórych podprzestrzeniach zmiennych objaśniających. Do takich metod lokalnych możemy zaliczyć np. metodę lokalnie ważonej regresji (LWR) [8], sieci neuronowe z radialnymi funkcjami bazowymi [9] czy metodę częściowych najmniejszych kwadratów z radialnymi funkcjami bazowymi (RBF-PLS) [0]. Konstrukcja jakiegokolwiek modelu wymaga zdefiniowania celu modelowania, zaplanowania eksperymentu, dokonania pomiarów dla zbioru próbek, wyznaczenia parametrów modelu i oszacowania jego dokładności używając właściwą procedurę walidacji. Wiele czynników ma wpływ na jakość skonstruowanych modeli. Ponieważ wybór techniki modelowania zależy od rodzaju danych, dlatego do kolekcji omawianych metod włączyliśmy metody, które pozwalają objąć możliwie najwięcej aspektów modelowania danych. W tym rozdziale skupimy się na przedstawieniu technik modelowania z nadzorem i przedstawimy takie techniki jak MLR, PCR, PLS, LDA, CART i SIMCA. Wszystkie one, oprócz metody CART, należą do liniowych technik modelowania danych z nadzorem. Ich działanie zostanie omówione na przykładach symulowanych i eksperymentalnych danych chemicznych. 4

5 . METODY KALIBRACYJNE Dla przejrzystości prezentacji, zaczniemy od omówienia idei liniowej kalibracji, począwszy od kalibracji jednokrotnej. Następnie, wprowadzimy podstawowe założenia modelowania wielowymiarowych danych, w szczególności kładąc nacisk na metody regresji głównych składowych oraz regresji częściowych najmniejszych kwadratów, gdyż są one najczęściej stosowane w modelowaniu problemów chemicznych [7,8].. Regresja jednokrotna, wieloraka i wieloparametrowa Metoda liniowej regresji jednokrotnej prowadzi do konstrukcji najprostszego modelu kalibracyjnego. Można go wyrazić jako: y = + e () [ m,] b 0 + bx[ m,] [ m,] gdzie, b 0 i b to tzw. współczynniki regresji (wyraz wolny oraz współczynnik kierunkowy), a e to wektor reszt od modelu. Alternatywnie, równanie można przedstawić w zapisie wektorowo-macierzowym. Aby uwzględnić wyraz wolny, do kolumnowego wektora x po jego lewej stronie dodaje się wektor jedynek, przez co powstaje macierz X i wówczas: y = X b + e () T [ m,] [ m,] [,] [ m,] Taki model stosuje się na przykład, aby wyrazić liniową zależność absorbancji roztworu od stężenia danego składnika roztworu, w którym on występuje, mierzonej przy określonej długości fali. Opisanie tej zależności wymaga, aby sygnał pochodzący od danego komponentu nie nakładał się z sygnałami innych komponentów próbki. Na Rys. przedstawiono zbiór 0 widm UV-VIS roztworów, zarejestrowanych w zakresie nm co nm, w których stężenia oznaczanego składnika mieściły się w zakresie,8 6, mg dm -. Maksimum absorpcji analitu znajduje się przy 58 nm (Rys. a). Jak pokazuje Rys. b pomiędzy zbiorem stężeń składnika w badanych 0 próbkach, a odpowiadającymi im wartościami absorbancji, które odczytano dla 58 nm, istnieje stosunkowo silna dodatnia korelacja. 5

6 a) c) absorbancja absorbancja b) długość fali [nm] 0.9 d) stężenie absorbancja reszty od modelu stężenie indeks próbki Rys. a) Dwadzieścia widm UV-VIS roztworów zarejestrowanych w zakresie nm co nm, b) wartości stężeń analitu w próbkach względem absorpcji odczytanej dla 58 nm, c) model jednokrotnej regresji oraz d) wartości reszt od modelu regresji. Zależność ta jest liniowa, a jej wyznaczenie sprowadza się do znalezienia takich współczynników regresji, dla których prosta trendu najlepiej opisze punkty na wykresie, co obrazuje Rys. c. Jest to możliwe, gdy suma kwadratów różnic, czyli reszt pomiędzy znanymi wartościami stężeń, a tymi przewidzianymi na postawie modelu, będzie minimalna. Ten warunek nazywany jest kryterium najmniejszych kwadratów. Współczynniki regresji oblicza się wedle wzoru: b T T [ n,] ( X[ n, m] X[ m, n] ) X[ n, m] y[ m,] = (4) Rys. d przedstawia wartości reszt od modelu, wyrażającego zależność stężenia analitów od absorbancji, czyli różnice pomiędzy wartościami obserwowanymi, a przewidzianymi na podstawie modelu. 6

7 e i ( y yˆ ) = (5) i i Modele regresji jednokrotnej można przedstawić graficznie na dwa sposoby: rysując stężenia analitów, y i, względem odpowiadających im absorbancji, x i, lub względem wartości stężeń przewidzianych stosując dany model, ŷ i. W przypadku modeli, konstruowanych dla wielu zmiennych X, jedynie drugi sposób graficznej prezentacji modelu jest możliwy. O dopasowaniu modelu do danych eksperymentalnych mówią reszty od modelu, a suma ich kwadratów jest minimalna. Najczęściej stosowaną miarą dopasowania modelu do danych eksperymentalnych jest średni błąd kwadratowy zbioru modelowego, RMSEC, (z ang. root mean square error of calibration), wyrażany jako: m ( y i yˆ i ) RMSEC = / m (6) i= Jeśli wybór zmiennej, jaka ma posłużyć do konstrukcji modelu nie jest oczywisty, np. nie istnieje selektywna długość fali, lub jedna zmienna nie wystarcza, aby w granicach akceptowalnego błędu opisać modelowaną własność, wówczas jednokrotny model regresyjny będzie charakteryzował się złym dopasowaniem do danych oraz złym przewidywaniem dla nowych próbek. Z problemem wyboru selektywnej długości fali najczęściej spotykamy się w kalibracji w oparciu o widma z bliskiej podczerwieni. Do ilustracji tego zagadnienia użyjemy zbiór 69 próbek śruty rzepakowej, których widma zarejestrowano w zakresie spektralnym od 00 do 500 nm (zob. Rys. 4a), a następnie w tych próbkach, zgodnie z obowiązującymi normami oznaczono całkowitą zawartość tłuszczy metodą referencyjną. Naszym zadaniem będzie konstrukcja modelu kalibracyjnego, który pozwoli opisać całkowitą zawartość tłuszczy w próbkach w oparciu o ich widma NIR. Wiadomo, iż tłuszcze wykazują dużą absorpcję przy 740 nm oraz 00 nm (pasmo charakterystyczne dla kwasu stearynowego). Zatem, jak można przypuszczać, powinna istnieć liniowa relacja pomiędzy reflektancją, zmierzoną przy wspomnianych długościach fal, a całkowitym stężeniem tłuszczy w badanych próbkach. 7

8 a) 0 x c) log(/r) 6 5 stężenie b) długość fali [mn] log(/r) x stężenie log(/r) x 0 6 Rys. 4 a) Zbiór widm z bliskiej podczerwieni 69 próbek śruty rzepakowej; zależność całkowitego stężenia tłuszczy w próbkach (wyrażonego w procentach w przeliczeniu na suchą masę próbki) od reflektancji, R, wyrażonej jako log(/r), zmierzonej przy: b) 740 nm i c) 00 nm. Niestety, jak pokazują Rys. 4b i c, takie zależności nie istnieją. Powodem tego jest silne nakładanie się pasm absorpcyjnych w widmach rejestrowanych w obszarze bliskiej podczerwieni. Zdecydowanie lepsze wyniki modelowania dla tego typu danych można uzyskać, jeśli model regresji uwzględnia kilka, odpowiednio wybranych, zmiennych. W tym przypadku do jego konstrukcji stosuje się metodę wielorakiej regresji, MLR (z ang. multiple linear regression) [59], a współczynniki regresji modelu otrzymywane są również metodą najmniejszych kwadratów (zob. równanie 4). Model regresji wielorakiej wyraża równanie. Bardziej ogólną metodą niż regresja wieloraka jest metoda regresji, w której modeluje się wiele zmiennych zależnych równocześnie. Wówczas, aby przedstawić ten model, wystarczy w równaniu zastąpić wektor y, macierzą zmiennych zależnych Y, wektor b, macierzą, B, której kolumny tworzą współczynniki regresji dla każdej modelowanej własności (poszczególne kolumny Y), a wektor reszt od modelu, e, macierzą reszt, E. W tym miejscu, powinniśmy rozważyć, kiedy konstrukcja współczynników regresji modelu MLR jest możliwa. Jeśli macierz X tworzy wiele parametrów, to równanie 4 nie zawsze ma 8

9 rozwiązanie. Aby wyznaczyć macierz odwrotną (X T X) - koniecznym warunkiem jest, aby parametry macierzy X nie były skorelowane (zależne). Zgodnie z regułami algebry liniowej, macierz odwrotna (X T X) - nie istnieje, jeśli liczba parametrów w macierzy jest większa niż liczba próbek, ponieważ wyznacznik tej macierzy jest równy zero []. Najczęstszym sposobem przezwyciężenia tego problemu jest użycie do konstrukcji modelu kilku niezależnych zmiennych, których liczba jest mniejsza niż liczba obiektów. Jeśli równanie 4 ma rozwiązanie, tzn. gdy liczba próbek przewyższa liczbę zmiennych, należy pamiętać, że obecność w danych skorelowanych zmiennych znacznie osłabia stabilność współczynników regresji. W konsekwencji, model charakteryzuje się bardzo złymi własnościami predykcyjnymi dla nowych próbek, a doskonałym dopasowaniem do zbioru modelowego. To właśnie ze względu na problem korelacji zmiennych, w chemii, metoda MLR w swym podstawowym wariancie ma bardzo ograniczone zastosowanie, gdyż przeważnie dane chemiczne zawierają wiele skorelowanych zmiennych. Najczęściej stosowanym wariantem metody MLR do danych zawierających skorelowane zmienne jest metoda regresji krokowej [], gdzie zmienne dobierane są tak, by nie były zależne, a zarazem w najlepszy sposób modelowały daną własność. Powróćmy jednak do modelowania zawartości tłuszczy w śrucie rzepakowej w oparciu o ich widma NIR. Tym razem, założymy, iż model kalibracyjny powinien zawierać więcej niż jedną zmienną. Równocześnie uwzględnimy założenia metody MLR, a zmienne, jakich użyjemy do konstrukcji modelu, nie będą zależne. Bez wnikania w szczegóły procedury wyboru zmiennych, stosując metodę regresji krokowej wybraliśmy pięć zmiennych, które posłużyły do konstrukcji modelu MLR, który przedstawiono na Rys. 5. Dla tych zmiennych wartości reflektancji, R, wyrażonej jako log(/r), zmierzono odpowiednio przy 78, 74, 700, 4 oraz 704 nm. Całkowite stężenie kwasów tłuszczowych w badanych próbkach wyraża ważona suma pięciu reflektancji, co można opisać następującym wzorem: ŷ = b 0 +b log(/r 78 )+b log(/r 74 )+b log(/r 700 )+b 4 log(/r 4 )+b 5 log(/r 704 ) (7) gdzie, ŷ to całkowite stężenie tłuszczy w badanych próbkach przewidziane na podstawie modelu MLR. Współczynniki regresji tego modelu wynoszą: b 0 = 5,65, b = 6,09 0-5, b = -5,6 0-5, b = -,06 0-4, b 4 = -, i b 5 = 9, Wartości współczynników regresji mówią o wadze danej zmiennej w konstrukcji modelu, a ich znak o pozytywnym bądź negatywnym charakterze korelacji ze zmienną zależną. 9

10 0 9 stężenie przewidziane stężenie obserwowane Rys. 5 Model MLR skonstruowany dla pięciu zmiennych (reflektancje zmierzone przy 78, 74, 700, 4 oraz 704 nm) - całkowita przewidziana zawartość tłuszczy (wyrażona w procentach w przeliczeniu na suchą masę próbki) względem obserwowanego całkowitego stężenia tłuszczy w próbkach śruty rzepakowej.. Metody kalibracyjne oparte na ukrytych zmiennych Jak wspomnieliśmy wcześniej, konieczność pracy z dużą liczbą skorelowanych zmiennych powoduje, iż w chemii, modele MLR mają ograniczone zastosowanie. Głównymi metodami stosowanymi do konstrukcji liniowych modeli kalibracyjnych, które radzą sobie ze skorelowanymi zmiennymi, są metody regresji czynników głównych (PCR, z ang. principal component regression) oraz metoda częściowych najmniejszych kwadratów (PLS, z ang. partial least squares) [7,8]. W tych metodach problem modelowania skorelowanych zmiennych został przezwyciężony poprzez zastąpienie ich kilkoma nowymi zmiennymi, tzw. zmiennymi ukrytymi, które są ortogonalne. Owe nowe zmienne, w zależności od metody regresji są inaczej konstruowane... Regresja czynników głównych Koncepcyjnie, metoda PCR jest najprostszą spośród innych technik, w których do konstrukcji modelu kalibracyjnego używa się ukrytych zmiennych i dlatego od niej zaczniemy prezentację. W metodzie PCR do budowy modelu zamiast oryginalnych zmiennych używa się czynników głównych. Czynniki główne konstruowane są iteracyjnie poprzez dekompozycję wyjściowej macierzy danych, X, do macierzy wyników, T, oraz macierzy wag, P, i maksymalizują opis 0

11 wariancji danych. Sposób ich konstrukcji dokładnie omówiono w rozdziale Analiza czynników głównych i inne metody eksploracji danych. Ogólnie, model PCR o f czynnikach, który pozwala na przewidzenie zmiennych zależnych możemy przedstawić jako: X = T P + E (8) T [ m, n] [ m, f ] [ f, n] [ m, n] T [ m, k ] T[ m, f ] Q[ f, k ] G[ m, k] Y = + (9) gdzie współczynniki regresji modelu, Q, wyznacza się metodą najmniejszych kwadratów: Q T T ( T[ f, m] T[ m, f ] ) T[ f, m] Y[ m, ] = (0) [ f, k ] k Porównując równania 4 i 0 możemy zaobserwować, że Q to współczynniki regresji z równania 4, które oblicza się w przestrzeni czynników głównych. Schematycznie, model PCR przedstawiono na Rys. 6. Czynniki główne użyte do konstrukcji modelu PCR są ortogonalne. Ta własność zapewnia, że można wyznaczyć współczynniki regresji metodą najmniejszych kwadratów, gdyż istnieje macierz odwrotna (T T T) -. Dodatkowo, wybór kilku pierwszych czynników głównych do konstrukcji modelu umożliwia redukcję części błędu eksperymentalnego danych X. Liczba kolumn macierzy T, czyli liczba czynników głównych użytych do konstrukcji modelu, określa jego kompleksowość. Macierze E i G zawierają część wariancji X oraz Y, jaka nie została opisana przez model. Model PCR, wyrażony równaniami 8 i 9, jest stosunkowo trudny w interpretacji, ponieważ poszczególne czynniki główne są liniową kombinacją oryginalnych zmiennych. O wiele bardziej interesująca jest informacja na temat wkładu oryginalnych zmiennych do konstrukcji modelu. Współczynniki regresji Q, mówiące o wkładach poszczególnych czynników głównych, przekształca się tak, aby otrzymać informacje o wadze oryginalnych zmiennych, zgodnie z następującym równaniem: B Y [ n, k] [ m, k] = P = X [ n, f ] Q [ m, n] [ f, k ] B [ n, k] + G [ m, k] ()

12 gdzie G to macierz reszt od modelu. X n tworzenie ortogonalnych zmiennych metodą PCA T f f P T n m k m Y Ŷ k = T f f Q T k m konstrukcja modelu kalibracyjnego używając T Rys. 6 Schematyczne przedstawienie idei konstrukcji modelu PCR. Pomimo swych cennych zalet metoda PCR ma także pewne ograniczenie. Kilka pierwszych czynników głównych, które dobrze modelują wariancję X, nie zawsze wykazują dobrą korelację z Y. Ten problem został rozwiązany przez Wolda i Martensa, którzy zaproponowali metodę częściowych najmniejszych kwadratów, znaną także pod nazwą projekcje na zmienne ukryte (z ang. projections to latent structures) [8]... Regresja częściowych najmniejszych kwadratów Zadaniem metody PLS, podobnie jak i PCR, jest konstrukcja modelu kalibracyjnego w oparciu o kilka ukrytych zmiennych [7,8]. W PLS ukryte zmienne tworzone są jednak inaczej niż w PCR. W trakcie ich konstrukcji bierze się pod uwagę trzy aspekty, a mianowicie, ukryte zmienne są tak tworzone, aby:. dobrze opisywały wariancję X,. dobrze opisywały wariancję Y oraz. uwzględniały zależność pomiędzy X, a Y.

13 Innymi słowy, informacja zawarta w Y jest aktywnie używana do konstrukcji ukrytych zmiennych, aby te najlepiej opisywały kowariancję pomiędzy X, a Y. Należy jednak podkreślić, iż ukryte zmienne konstruowane w PLS nie są czynnikami głównymi. Najbardziej ogólnym modelem PLS jest model PLS-, który wyjaśnia zależność pomiędzy X, a blokiem kilku zmiennych zależnych Y: X = T P + E () T [ m, n] [ m, f ] [ f, n] [ m, n] T [ m, k ] U[ m, f ] H[ f, k ] G[ m, k ] Y = + () gdzie, E to macierz reszt od modelu, która zawiera nieopisaną informację X przez model o f czynnikach, U i H to odpowiednio macierze wyników i wag bloku zmiennych zależnych, a G to macierz reszt zawierająca nieopisaną część wariancji bloku zmiennych zależnych Y. Schematycznie ideę metody PLS- przedstawiono na Rys. 7. Najczęściej stosowany wariant PLS, gdzie modeluje się jedną zmienną zależną (PLS-) jest szczególnym przypadkiem PLS-. W trakcie konstrukcji modelu, dla zmiennych macierzy X uzyskuje się macierze wyników, T, wag, P, oraz macierz tak zwanych wag PLS, W. Interpretacja macierzy wyników i wag jest analogiczna jak w PCA. Także w PLS, macierz wag zawiera informację o zależności pomiędzy wynikami, a oryginalnymi zmiennymi macierzy X. Z kolei wagi PLS opisują relację, jaka istnieje pomiędzy Y, a oryginalnymi zmiennymi. Często kolejne wektory wag, p, oraz wag PLS, w, są do siebie bardzo podobne, co oznacza, że dany czynnik jest równie ważny do modelowania X oraz Y. Dla macierzy zmiennych zależnych również otrzymujemy zestaw macierzy wyników, U, oraz wag, H, gdzie wagi H wiążą T i Y. Wkłady poszczególnych zmiennych do modelowania Y określają ich współczynniki regresji, B. W każdej kolumnie macierzy B znajdują się współczynniki regresji dla każdej z k modelowanych własności: B Y [ n, k] [ m, k ] = W = X [ n, f ] [ m, n] T ( P W ) B [ f, n] [ n, k ] + F [ n, f ] [ m, k ] H T [ f, k] (4)

14 n f f k X T U Y m m f P T f Q T f W T Rys. 7 Zestawy ukrytych zmiennych tworzone w metodzie PLS. Choć zdecydowanie częściej konstruuje się modele PLS- to należy również zwrócić uwagę na własności modeli PLS-. Mianowicie, PLS- jest wypadkowym modelem, gdyż objaśnia wszystkie zmienne Y równocześnie. Model PLS-, zbudowany dla określonej liczby czynników, rzadko pozwala uzyskać optymalne wyniki modelowania dla wszystkich zmiennych zależnych. Nic nie stoi na przeszkodzie, aby skonstruować indywidualne modele PLS- dla każdej zmiennej zależnej osobno, co często prowadzi do dużo lepszych modeli. Można również konstruować model PLS- z różną liczbą czynników dla każdej zmiennej zależnej. Wyraźne korzyści stosowania modelu PLS- można zaobserwować jedynie, gdy pomiędzy zmiennymi Y istnieje stosunkowo silna korelacja.. Wstępne przygotowanie danych przed konstrukcją modeli kalibracyjnych Dane używane do konstrukcji modelu kalibracyjnego często wymagają wstępnego przygotowania. Ponieważ większość technik wstępnego przygotowania danych już została omówiona w rozdziale Analiza czynników głównych i inne metody eksploracji danych, dlatego teraz jedynie wymienimy te najczęściej stosowane w kalibracji. Wybór danej techniki nie jest oczywisty i zależy od rodzaju danych. Zazwyczaj, stosuje się różne techniki wstępnego przygotowania danych, a odpowiedź na pytanie czy daną technikę należy użyć można uzyskać dopiero po walidacji skonstruowanego modelu. Wśród wielu metod wstępnego przygotowania danych znajdują się techniki pozwalające na polepszenie stosunku sygnału do szumu [], specyficzne transformacje danych (np. SNV 4

15 [4]), których zadaniem jest eliminacja niekorzystnych efektów fizycznych, jakie obserwuje się podczas pomiaru widm (np. rozpraszanie promieniowania elektromagnetycznego) oraz metody filtrowania danych, np. [5,6]..4 Kolejne etapy konstrukcji modeli kalibracyjnych.4. Wybór próbek do zbioru modelowego Do konstrukcji modelu kalibracyjnego konieczny jest odpowiednio liczny zbiór próbek. Zbiór ten będziemy nazywali zbiorem modelowym. Aby zapewnić dobre zdolności predykcyjne modelu, zbiór modelowy powinien zawierać próbki, reprezentujące wszystkie możliwe źródła wariancji. Innymi słowy, należy mieć pewność, iż próbki zbioru modelowego dokładnie pokrywają całą domenę kalibracyjną. Jeśli reprezentatywność zbioru modelowego nie jest zapewniona to powstaje ryzyko ekstrapolacji lub interpolacji modelu, co nie jest wskazane. Reprezentatywność zbioru modelowego można zapewnić na ogół na dwa sposoby. Pierwszy sposób polega na odpowiednim zaplanowaniu eksperymentu, co wiąże się z przygotowaniem serii próbek o określonej charakterystyce. W tym celu można posłużyć się technikami planowania eksperymentu [7]. W niektórych sytuacjach, np. wówczas, gdy obiektem badań są próbki naturalne lub środowiskowe, użycie technik planowania eksperymentu jest niemożliwe. Jako drugie podejście pozostaje wybór reprezentatywnych próbek z zestawu tych dostępnych. Wybór ten ułatwiają algorytmy Kennarda i Stona [8] oraz jego modyfikacje [9,0]. Próbki wybrane do zbioru modelowego mają w przestrzeni eksperymentalnej rozkład zbliżony do rozkładu równomiernego, co zapewnia możliwie najlepszą reprezentatywność zbioru modelowego. Metody wyboru próbek są używane, gdy ich ilość jest odpowiednio duża, ponieważ zbiór modelowy powinien zawierać zdecydowanie więcej próbek niż zbiór testowy. Zazwyczaj przyjmuje się, iż zbiór modelowy powinno tworzyć pomiędzy 70%, a 75% całkowitej liczby dostępnych próbek. Algorytm Kennarda i Stona i algorytm duplex W celu zilustrowania działania algorytmu Kennarda i Stona oraz algorytmu duplex posłużymy się symulowanym zbiorem 0 próbek w dwuwymiarowej przestrzeni. W obu algorytmach, jako miarę podobieństwa pomiędzy próbkami przyjmuje się odległość 5

16 euklidesową. Najpierw, do zbioru modelowego ( ) jako pierwszą wybiera się najbardziej reprezentatywną próbkę. Jest to próbka nr, położona najbliżej arytmetycznego środka danych (zob. Rys. 8a). Numery na Rys. 8a to kolejność, w której próbki były włączane do zbioru modelowego. Kolejną próbką dodaną do zbioru modelowego jest próbka, która znajduje się najdalej od pierwszej (próbka nr ). Jako trzecią próbkę, do zbioru modelowego włącza się próbkę położoną najdalej od tych już wybranych (próbka nr ). W tym celu oblicza się odległości euklidesowe pomiędzy m-k próbkami, a każdą próbką zbioru modelowego i wyznacza minimalne odległości. Następnie, na podstawie tych odległości wybiera się próbkę najbardziej odległą od próbek zbioru modelowego i włącza się ją do zbioru modelowego. Wybór kolejnych próbek do zbioru modelowego jest kontynuowany do momentu, gdy wybierzemy ich określoną liczbę. Na Rys. 8a możemy zauważyć, iż wybrane próbki do zbioru modelowego reprezentują możliwie wszystkie źródła wariancji i są równomiernie rozłożone w przestrzeni pomiarowej. W omawianym przykładzie do zbioru modelowego wybrano 4 próbek, co stanowiło 70% całkowitej ich ilości. Pozostałe próbki utworzyły zbiór testowy oznaczony na Rys. 8 jako ( ). W odróżnieniu od algorytmu Kennarda i Stona, algorytm duplex ma na celu zapewnić reprezentatywność zbioru modelowego i testowego. Na początku, znajduje się dwie próbki najbardziej od siebie oddalone i włącza je do zbioru modelowego. Są to próbki i (zob. Rys. 8b). W kolejnym kroku poszukuje się innej pary próbek, które są od siebie najbardziej oddalone (próbki i 4) i dodaje się je do zbioru testowego. Następnie, na przemian, wybiera się próbki do zbioru modelowego i testowego, poszukując próbek najbardziej odległych w stosunku do próbek zbioru modelowego i testowego stosując takie samo kryterium wyboru jak w algorytmie Kennarda i Stona. Na przykład, próbki 5 i 6 są kolejnymi włączonymi odpowiednio do zbioru modelowego i testowego. Procedurę kontynuuje się, aż określona liczba próbek znajdzie się w zbiorze testowym. Pozostałe próbki, jakich nie wybrano, są dodane do zbioru modelowego. 6

17 a) b) zmienna zmienna zmienna zmienna Rys. 8 Kolejność wyboru próbek do zbioru modelowego ( ) i testowego ( ) stosując: a) algorytm Kennarda i Stona oraz b) algorytm duplex..4. Wybór metody kalibracyjnej Oprócz omawianych metod istnieje wiele innych liniowych technik kalibracji []. Jednakże, ze względu na silną korelację zmiennych, w zdecydowanej większości problemów chemicznych, stosuje się metody PCR i PLS. Niewątpliwie przewagą PLS nad PCR jest uwzględnienie na etapie konstrukcji ukrytych zmiennych korelacji pomiędzy zbiorem zmiennych X, a Y. To powoduje, że modele PLS zazwyczaj pozwalają osiągnąć mniejsze błędy przewidywania dla nowych próbek w porównaniu do modeli PCR [] i/lub modele są bardziej stabilne ze względu na mniejszą liczbę czynników użytych do ich konstrukcji. Modelowanie kilku zmiennych zależnych wymaga rozważenia dwóch opcji:. konstrukcja indywidualnych modeli dla każdej zmiennej zależnej lub. konstrukcja modelu dla wszystkich zmiennych zależnych równocześnie. Jeżeli pomiędzy zmiennymi zależnymi istnieje stosunkowo silna korelacja, wówczas model PLS- może dać lepsze wyniki niż PLS-. 7

18 .4. Wybór kompleksowości modeli kalibracyjnych Kolejnym ważnym etapem konstrukcji modelu kalibracyjnego jest wybór odpowiedniej liczby czynników do jego budowy. Modele zbudowane w oparciu o zbyt mało czynników są źle dopasowane do danych, co wyraża się dużymi resztami od modelu dla próbek zbioru modelowego. Z drugiej strony, modele o zbyt dużej liczbie czynników, charakteryzują się małym błędem dla obiektów zbioru modelowego, lecz jeśli model użyty jest w celach predykcyjnych dla nowych próbek, wówczas błąd przewidywania jest bardzo duży. Takie modele nazywa się przeuczonymi. W skrajnym przypadku, jeśli do konstrukcji modelu zostanie użyta maksymalna liczba czynników, to jego błąd dopasowania będzie równy zero, a jego moc predykcyjna będzie fatalna. Z tego właśnie powodu, wybór liczby czynników do budowy modelu nie może opierać się na analizie RMSEC jako funkcji liczby czynników, a musi uwzględniać zdolności predykcyjne modelu. Wybór optymalnej liczby czynników do konstrukcji modelu pozwala na osiągnięcie kompromisu pomiędzy zadowalającym dopasowaniem modelu do danych, a dobrymi własnościami predykcyjnymi. Typowe wykresy błędów dopasowania modelu do danych oraz błędu przewidywania dla próbek zbioru testowego w zależności od ilości czynników w modelu przedstawia Rys. 9. błąd dopasowania i przewidywania modelu liczba czynników w modelu Rys. 9 Przykładowy wykres przedstawiający zależności pomiędzy błędem dopasowania modelu do zbioru modelowego (- -), a błędem przewidywania dla próbek zbioru testowego (- -) dla modeli o coraz większej liczbie czynników. 8

19 W zależności od ilości dostępnych próbek, istnieją dwa sposoby wyboru optymalnej liczby czynników do konstrukcji modelu i oceny jego zdolności predykcyjnych. Pierwszy sposób polega na podzieleniu zbioru dostępnych próbek na trzy zbiory:. zbiór modelowy (służący do konstrukcji modelu),. zbiór monitoringowy (służący do wyboru optymalnej kompleksowości modelu) oraz. zbiór testowy (służący do końcowej oceny mocy predykcyjnej modelu z optymalną liczbą czynników). Jednakże ten sposób, z uwagi na zazwyczaj ograniczoną liczbę dostępnych próbek, jest rzadko stosowany. Inną możliwością wyboru optymalnej liczby czynników do konstrukcji modelu jak i jego późniejszej walidacji jest podział dostępnych próbek na dwa zbiory: modelowy i testowy. W celu wyboru optymalnej liczby czynników do konstrukcji modelu stosuje się techniki kroswalidacji [7,8]. W metodach kroswalidacji, iteracyjnie dzieli się zbiór modelowy na zbiór służący do konstrukcji modelu i tzw. zbiór walidacyjny. Ze względu na sposób tworzenia grup walidacyjnych wyróżniamy kroswalidację typu wyrzuć k próbek oraz kroswalidację Monte-Carlo []. W wariancie kroswalidacji wyrzuć k próbek, tworzy się p zbiorów walidacyjnych, z których każdy zawiera k próbek. Próbki te wybierane są z macierzy X losowo bez powtórzeń. Dla tychże próbek określa się zdolności predykcyjne modeli, zbudowanych dla m-k próbek, o coraz większej liczbie czynników, aby wybrać ich optymalną liczbę do konstrukcji końcowego modelu. Najprostszym wariantem tego typu kroswalidacji jest kroswalidacja wyrzuć jeden obiekt (z ang. leave-one-out crossvalidation), której idee schematycznie przedstawiono na Rys. 0. W kroswalidacji Monte-Carlo, p razy losowo dzieli się zbiór próbek na dwa, włączając za każdym razem do zbioru walidacyjnego k próbek, których liczba najczęściej mieści się w przedziale pomiędzy 0%, a 50% całkowitej liczby próbek w danych. Bez względu na wariant użytej kroswalidacji, dla próbek zbioru walidacyjnego gromadzi się ich reszty od każdego modelu o danej liczbie czynników. Następnie, na ich podstawie oblicza się średni błąd kwadratowy kroswalidacji, RMSECV (z ang. root mean square error of cross validation): 9

20 n RMSECV ( f ) = ( yi yˆ i ( f )) (5) pn i= gdzie ˆ ( f ) to wartości zmiennej zależnej przewidziane na podstawie modelu o f czynnikach y i dla i-tej próbki, a p to liczba grup walidacyjnych lub liczba iteracji w kroswalidacji Monte- Carlo. = e X model... x e ŷ e f b,,..., f e e =... x ŷ... e f X model m. X model n b,,..., f e e =... x... m ŷ m. b,,..., f... e f. Rys. 0 Ilustracja koncepcji metody kroswalidacji typu wyrzuć jeden obiekt. Ze wszystkich wariantów kroswalidacji, najczęściej stosuje się kroswalidację typu wyrzuć jeden obiekt. Wybór liczby czynników do konstrukcji modeli w oparciu o kroswalidację typu wyrzuć n obiektów lub Monte-Carlo zmniejsza ryzyko przeuczenia modeli, ale obie techniki wymagają więcej próbek. W skrajnym przypadku, gdy liczba próbek jest bardzo mała, metody kroswalidacji wykorzystuje się zarówno do wyznaczenia kompleksowości modeli jak i do oszacowania błędu przewidywania. 0

21 Wybór optymalnej kompleksowości modelu nie jest prostym zadaniem. Oprócz wspomnianych sposobów oceny kompleksowości modelu istnieją także inne, a samo zagadnienie do dnia dzisiejszego nie zostało definitywnie rozwiązane [4,5,6]..4.4 Testowanie modeli kalibracyjnych Poprzez walidację modelu kalibracyjnego rozumie się ocenę jego zdolności predykcyjnych dla zbioru próbek, który nie był użyty do jego konstrukcji. Zazwyczaj, zbiór testowy powstaje w wyniku wyboru próbek do zbioru modelowego i testowego np. metodą Kennarda i Stona [8] lub algorytmem duplex [9]. Choć algorytm duplex wydaje się być najtrafniejszym wyborem, to, jeśli w danych występują obiekty odległe, wówczas powinniśmy stosować algorytm Kennarda i Stona, który zapewni, iż do zbioru modelowego zostaną wybrane wszystkie obiekty odległe. Wtedy, stosując stabilne metody regresji [7,8,9] możliwa jest konstrukcja modelu kalibracyjnego, opisującego poprawnie większość danych i skuteczna diagnostyka obiektów odległych. Błąd przewidywania dla próbek zbioru modelowego określa średni błąd kwadratowy, RMSEP: w RMSEP ( f ) = ( yi yˆ i ( f )) (6) w i= gdzie, w to liczba próbek w zbiorze testowym..5 Kiedy model kalibracyjny jest dobry, a kiedy zły? Poprawnie skonstruowany model kalibracyjny powinien charakteryzować się porównywalnymi błędami dopasowania, kroswalidacji oraz przewidywania dla próbek zbioru testowego. Duże różnice pomiędzy tymi wartościami wskazują na potencjalne problemy w modelowaniu i wymagają odnalezienia przyczyn takiego stanu rzeczy. Wymieńmy kilka oznak świadczących o tym, że zbudowany model może nie być odpowiedni:. duży błąd dopasowania modelu do zbioru modelowego, powyżej limitu akceptowanego dla danego problemu kalibracyjnego,

22 . duże wartości reszt od modeli o coraz większej liczbie czynników,. duży błąd przewidywania dla próbek zbioru testowego. Do najczęstszych czynników, jakie mogą mieć znaczący wpływ na model kalibracyjny możemy zaliczyć:. obecność tzw. złych obiektów odległych,. brak reprezentatywności zbioru modelowego,. niejednorodność struktury danych (grupy obiektów), 4. niewłaściwa walidacja modelu, 5. niewłaściwe przygotowanie danych przed konstrukcją modelu kalibracyjnego, 6. duże błędy systematyczne w X i/lub Y, 7. niewłaściwe przygotowanie próbek podczas eksperymentu, 8. nieoptymalna kompleksowość modelu, 9. niewystarczająca informacja w X, aby wymodelować Y, 0. brak liniowej zależności, pomiędzy X, a Y..6 Konstrukcja modeli kalibracyjnych PLS- w praktyce Modele PLS- są najczęściej stosowane do modelowania danych chemicznych i dlatego skupimy się na ich. Główne etapy ich konstrukcji przedstawimy na przykładzie dwóch zestawów eksperymentalnych danych..6. Zbiory danych użyte do konstrukcji modeli PLS- Dane tworzy 69 widm z bliskiej podczerwieni, jakie zarejestrowano dla próbek śruty rzepakowej w zakresie nm. Dla każdej z próbek oznaczono całkowitą zawartość kwasów tłuszczowych, którą wyrażono w procentach w przeliczeniu na suchą masę próbki. Dokładny opis danych jak i eksperymentu przedstawiono w [40]. Dane tworzy zbiór 97 widm z bliskiej podczerwieni próbek wątroby wieprzowej. W próbkach oznaczono całkowitą zawartość tłuszczy, którą wyrażono w procentach w przeliczeniu na suchą masę próbki. Widma zarejestrowano w zakresie 00 nm do 950 nm. Próbki wątroby pobrano od zwierząt, które hodowano stosując trzy rodzaje pasz [4].

23 .6. Krok - wstępna eksploracja danych Przed przystąpieniem do kalibracji należy dokładnie poznać strukturę danych. Ocenie poddaje się obiekty macierzy X oraz jej zmienne. Jeśli dane tworzą sygnały instrumentalne, wizualnie analizuje się poziom szumu i linii bazowej w sygnałach. Przed przystąpieniem do konstrukcji modelu kalibracyjnego, w zależności od rodzaju modelowanych danych mogą one wymagać odmiennego przygotowania. Specyficzną grupę technik wstępnego przygotowania danych stanowią techniki stosowane do przygotowania sygnałów instrumentalnych, np. widm z bliskiej podczerwieni. W przypadku danych, których zmienne w macierzy X to różne pomiary, wówczas bierze się pod uwagę procedurę autoskalowania lub, jeśli to konieczne - transformację logarytmiczną. Na Rys. przedstawiono widma NIR danych i wraz z odpowiadającymi histogramami ich zmiennych zależnych. Analizując oryginalne widma próbek danych możemy zaobserwować cztery próbki, których widma znacznie różnią się od pozostałych. Ponadto, dość duży rozrzut widm w stosunku do siebie może być spowodowany niekorzystnymi zmianami intensywności odbitego promieniowania elektromagnetycznego z zakresu bliskiej podczerwieni na skutek jego rozpraszania na powierzchni badanych próbek. Z tego powodu uzyskane widma są mniej lub bardziej intensywne, ale nie ma to bezpośredniego związku z zawartością analitu w próbce. Na efekty rozpraszania wiązki promieniowania elektromagnetycznego mają głównie wpływ rozdrobienie próbki jak i jej powierzchnia. Najczęściej ten efekt można zniwelować transformując widma metodą SNV [4]. Na Rys. b i c oraz e i f, odpowiednio dla danych i pokazano widma NIR przed i po transformacji SNV. Dla omawianych zestawów danych możemy uznać, że transformacja SNV jest konieczna, gdyż po niej wariancja widm zdecydowanie zmniejsza się. Oryginalne widma charakteryzują się prawie niezauważalnym poziomem szumu, dlatego nie ma potrzeby jego redukcji.

24 a) 0 d) ilość zliczeń 5 ilość zliczeń b) całkowita zawartość tłuszczy x e) całkowita zawartość tłuszczy x log(/r) log(/r).5 c) długość fali [mn] f) długość fali [mn].5 log(/r) po SNV log(/r) po SNV długość fali [mn] długość fali [mn] Rys. a) Histogram wartości zmiennej zależnej danych (całkowita zawartość tłuszczy w próbkach wyrażona w procentach w przeliczeniu na suchą masę próbki), b) zbiór widm 69 próbek śruty rzepakowej zarejestrowanych w zakresie spektralnym od 00 nm do 500 nm z krokiem nm, c) zbiór tych widm do transformacji SNV, d) histogram wartości zmiennej zależnej danych (całkowita zawartość tłuszczy w próbkach wyrażona w procentach w przeliczeniu na suchą masę próbki), e) zbiór widm 97 próbek wątroby wieprzowej zarejestrowanych w zakresie spektralnym od 00 nm do 950 nm z krokiem nm oraz f) zbiór widm próbek wątroby wieprzowej po transformacji SNV. Następnie, stosując metodę PCA zwizualizujemy strukturę danych X, w celu oceny stopnia ich jednorodności. Dla pierwszego zestawu danych, płaszczyzna zdefiniowana przez pierwsze dwa czynniki główne pozwala na uwidocznienie ponad 9% całkowitej wariancji danych (zob. Rys. a). 4

25 a) 0.8 b) PC - 9,46% PC - 4,7% PC - 8,8% PC - 85,80% Rys. Projekcja próbek na przestrzeń zdefiniowaną przez dwa pierwsze czynniki główne dla: a) danych oraz b) danych (każdą grupę próbek oznaczono innym symbolem, ze względu na rodzaj podawanej zwierzętom paszy). Dane nie mają jednorodnej struktury. Wzdłuż pierwszego czynnika głównego dwie próbki nr 9 i są wyraźnie daleko od pozostałych. Dla próbki nr 9 całkowita zawartość tłuszczy jest najmniejsza, a próbka ta jest także daleko w przestrzeni X. Próbka ma wartość zmiennej zależnej bliską wartości średniej stężeń i jest ona jedynie odległa w przestrzeni X. Ze względu na swoją odmienność od pozostałych próbek w przestrzeni X oraz y próbka 9 może być uznana jako obiekt odległy. Dopóki nie sprawdzimy, jaki wywiera ona wpływ na model, dopóty nie możemy odpowiedzieć na pytanie czy jest dobrym czy złym obiektem odległym. Złe obiekty odległe bardzo silnie wpływają na model, całkowicie zmieniając jego dopasowanie do danych i zdolności predykcyjne. Natomiast tzw. dobre obiekty odległe poszerzają zakres kalibracyjny oraz dodatkowo stabilizują model i dlatego ich usunięcie ze zbioru modelowego nie jest pożądane. Istnieją dwa rodzaje podejść do modelowania danych zawierających obiekty odległe. Pierwszy zakłada ich detekcje i eliminację, a następnie konstrukcję modelu stosując klasyczne techniki kalibracji. Alternatywą jest użycie tzw. stabilnych metod kalibracyjnych, które pozwalają na konstrukcję poprawnych modeli, dobrze opisujących większości danych nawet, gdy zbiór modelowy zawiera obiekty odległe [7]. Do tej pory, w literaturze zaproponowano kilka wersji stabilnych modeli PCR i PLS [4,4,44], z czego metoda zaproponowana w [45] wydaje się być najbardziej efektywna. Jeśli skupimy się jedynie na klasycznej metodzie PLS to ustalenie czy próbka 9 jest dobrym obiektem odległym wymaga zbudowania dwóch modeli kalibracyjnych - dla zbioru modelowego z tą próbką i bez niej. Jeśli jej obecność w zbiorze 5

26 modelowym nie wpływa znacznie na błąd dopasowania modelu, wówczas powinniśmy ją uwzględnić w jego budowie i traktować jako dobry obiekt odległy. Diagnostyka obiektów odległych jest możliwa jedynie na podstawie reszt od stabilnego modelu kalibracyjnego [4]. Wówczas reszty dla takich próbek od stabilnego modelu będą bardzo duże, co pozwoli na ich odróżnienie od pozostałych próbek. Dla klasycznych modeli, złe obiekty odległe na tyle silnie zmieniają model, iż głównie opisuje on obiekty odległe, a co za tym idzie dla takich próbek reszty od modelu są bardzo małe, a dla pozostałych duże. W dalszej części rozdziału powrócimy do dyskusji tego zagadnienia i jednoznacznie odpowiemy czy próbki 9 i są dobrymi czy złymi obiektami odległymi. Na etapie eksploracji zbioru danych mamy jedynie przypuszczenie, iż ewentualnie złe dopasowanie modelu do danych może być wynikiem obecności obiektów odległych w przestrzeni X i/lub y. Dane o niejednorodnej strukturze, np. dane zawierające wyraźne grupy próbek, mogą sprawiać trudności w trakcie konstrukcji modelu. Wówczas, jeden globalny model kalibracyjny nie pozwoli na efektywne modelowanie danych i dlatego należy rozważyć konieczność konstrukcji lokalnych modeli (dla każdej grupy próbek osobno). Właśnie z taką sytuacją możemy mieć do czynienia modelując dane, gdyż na projekcji próbek na przestrzeń pierwszego i trzeciego czynnika głównego widoczne są trzy grupy próbek (zob. Rys. b). Ich obecność można wytłumaczyć zmianami w profilu stężeniowym tłuszczy w wątrobie wieprzowej na skutek stosowania różnych pasz. Próbki z każdej grupy zostały oznaczone innym symbolem. Po wstępnej eksploracji danych możemy przystąpić do kolejnych etapów konstrukcji modelu..6. Krok - wybór próbek do zbioru modelowego i wybór liczby czynników do modelu W większości przypadków wybór próbek do zbioru modelowego przeprowadzamy mając na uwadze, że powinny one równomiernie wypełniać domenę kalibracyjną. Ten etap kalibracji jest bardzo ważny, gdyż reprezentatywność próbek zbioru modelowego determinuje zakres stosowalności skonstruowanego modelu. Jeśli to tylko możliwe, to powinniśmy planować eksperyment, co w pełni zapewni reprezentatywność zbioru modelowego. Jednakże nie zawsze jest to możliwe, np. pracując z próbkami biologicznymi czy naturalnymi nie ma możliwości kontrolowania ich źródeł wariancji. Wówczas wybieramy do zbioru modelowego próbki zakładając ich możliwie równomierny rozkład, co zapewnia użycie algorytmu Kennarda i Stona oraz algorytmu duplex. 6

27 Przeważnie, do konstrukcji modelu kalibracyjnego używa się ok % wszystkich próbek, a pozostałe tworzą zbiór testowy, stosowany do oceny własności predykcyjnych modelu. Jeśli dane wymagają wstępnego przygotowania, to próbki do zbioru modelowego wybiera się z danych po transformacji. Teraz, zilustrujemy jak wybór próbek wpływa na własności predykcyjne modeli, wybierając próbki losowo (ok. 75% całkowitej liczby próbek), a potem algorytmem Kennarda i Stona. Wyniki modelowania porównamy w oparciu o krzywe błędów kroswalidacji typu wyrzuć jeden obiekt dla modeli skonstruowanych w oparciu o zbiory modelowe utworzone dwoma w/w sposobami. Jak pokazują krzywe błędów kroswalidacji typu wyrzuć jeden obiekt, wybór obiektów do zbioru modelowego wywiera wpływ na własności predykcyjne modeli (zob. Rys. ). Równocześnie, jeśli próbki do zbioru modelowego wybrano tak, aby równomiernie wypełniały domenę kalibracyjną, oszacowanie kompleksowości modeli na podstawie krzywych kroswalidacyjnych wydaje się być łatwiejsze. W przypadku danych, krzywa pozwala stwierdzić, iż model powinien zawierać 4 czynniki, a dla danych, 5 czynników (zob. Rys. b i e). Kroswalidacja typu wyrzuć jeden obiekt może prowadzić do wyboru zbyt wielu czynników do konstrukcji modelu, czyniąc go przeuczonym. Innymi wariantami kroswalidacji są kroswalidacja typu wyrzuć więcej obiektów lub kroswalidacja Monte- Carlo. Na Rys. c i f przedstawiono krzywe kroswalidacyjne uzyskane dla danych i. Dla danych, w każdym kroku kroswalidacji zbiór modelowy zawierał próbki, a zbiór walidacyjny losowo wybrane 6 próbek. Prezentowane wartości RMSECV są średnią z 500 powtórzeń. Dla danych, w każdym kroku kroswalidacji do zbioru modelowego losowo wybrano 7 próbki, a do zbioru walidacyjnego 0 próbek. Wyniki RMSECV są średnią z 500 powtórzeń. Uzyskane krzywe błędów kroswalidacji typu wyrzuć jeden obiekt i metody Monte-Carlo dla omawianych danych pozwalają wyciągnąć te same wnioski co do optymalnej liczby czynników w modelu. Do konstrukcji końcowego modelu PLS- dla danych użyto cztery czynniki, a dla danych, pięć. 7

28 a) d) RMSECV RMSECV b) liczba czynników w modelu.4 e) liczba czynników w modelu RMSECV 0.8 RMSECV c) liczba czynników w modelu.4 f) liczba czynników w modelu RMSECV RMSECV liczba czynników w modelu liczba czynników w modelu Rys. Krzywe kroswalidacyjne typu wyrzuć jeden obiekt dla zbioru modelowego danych, który zawierał 5 próbki wybrane z 69 próbek: a) losowo, b) stosując algorytm Kennarda i Stona; c) krzywa kroswalidacyjna Monte-Carlo (do zbioru walidacyjnego wybierano 500 razy losowo 6 z 5 próbek zbioru modelowego). Krzywe kroswalidacyjne typu wyrzuć jeden obiekt dla zbioru modelowego danych, który zawierał 7 próbki wybrane z 97 próbek: d) losowo, e) stosując algorytm Kennarda i Stona; f) krzywa kroswalidacyjna Monte-Carlo (do zbioru walidacyjnego wybierano 500 razy losowo 0 z 7 próbek zbioru modelowego)..6.4 Krok ocena skonstruowanych modeli kalibracyjnych Do najczęściej stosowanych sposobów wizualnej oceny modeli służą wykresy wartości przewidzianej zmiennej zależnej, ŷ, względem y eksperymentalnego oraz prezentowane w różnej formie wykresy reszt od modelu. Na Rys. 4a oraz d przedstawiono zależność ŷ przewidzianego na podstawie modeli PLS od y obserwowanego odpowiednio dla danych i. Próbki zbioru modelowego oznaczono jako ( ), a próbki zbioru testowego jako ( ). W przypadku dobrych modeli kalibracyjnych, zarówno próbki zbioru modelowego jak i testowego powinny być rozmieszczone symetrycznie wzdłuż prostej o jednostkowym nachyleniu. Prosta obrazuje idealną zależność, dla której różnice pomiędzy obserwowanymi 8

29 wartościami zmiennej zależnej, a tymi przewidzianymi na podstawie modelu wynoszą zero. Jednocześnie oczekuje się, iż wartości reszt dla próbek zbioru modelowego jak i testowego będą porównywalne, co gwarantuje zbliżone wartości błędów RMSEC i RMSEP modelu. Rozkład reszt od modelu, dla obu zbiorów próbek powinien być zbliżony do normalnego. a) 0 d).4 zawartość tłuszczy przewidziana zawartość tłuszczy przewidziana zawartość tłuszczy obserwowana zawartość tłuszczy obserwowana b) wartości reszt od modelu e) wartości reszt od modelu c) wartości reszt od modelu indeks próbki f) wartości reszt od modelu indeks próbki kolejne próbki kolejne próbki Rys. 4 a) Model PLS-, przedstawiony jako całkowita przewidziana zawartość tłuszczy w próbkach śruty rzepakowej (dane ), wyrażonej w procentach w przeliczeniu na suchą masę próbki, względem oznaczonej zawartość tłuszczy w próbkach, b) wykres słupkowy reszt od tego modelu oraz c) wykres słupkowy reszt próbek od tego modelu, na którym uszeregowano je względem rosnącej zawartości tłuszczy w próbkach; d) model PLS- przedstawiony jako całkowita przewidziana zawartość tłuszczy w próbkach wątroby wieprzowej (dane ), wyrażonej w procentach w przeliczeniu na suchą masę próbki, względem oznaczonej zawartość tłuszczy w próbkach, e) wykres słupkowy reszt tego modelu oraz f) wykres słupkowy reszt próbek od modelu, na którym uszeregowano je względem rosnącej zawartości tłuszczy w próbkach. 9

30 Jeśli dla próbek, których wartości zmiennej zależnej są małe i reszty od modelu są również małe, a dla próbek, których zmienna zależna ma duże wartości, a reszty od modelu też są duże, możemy przypuszczać, iż mamy do czynienia z błędem proporcjonalnym do mierzonego sygnału, lub stężenia danego składnika w próbce. W takim przypadku należy rozważyć logarytmiczną transformację danych. Natomiast, jeśli reszty próbek od modelu, uszeregowane od najmniejszej do największej wartości zmiennej zależnej, wykazują nieliniowy trend wówczas zależność pomiędzy X, a y jest nieliniowa. W przypadku modelowanych danych i żaden z wymienionych problemów nie ma miejsca, co potwierdza analiza Rys. 4b i c oraz 4e i f. Na Rys. 4b widzimy, że model charakteryzuje się stosunkowo małymi wartościami reszt od modelu, dla obu zbiorów próbek. Błędy, jakie uzyskano dla modelu o czterech czynnikach wynoszą dla zbioru modelowego 0,0, a dla testowego, 0,988, co stanowi odpowiednio,4% i,6% zakresu zmiennej zależnej zbioru modelowego. W górnej części wykresu widzimy dwie próbki, dla których wartości y są relatywnie duże (zob. Rys. 4a). Są to wcześniej wspomniane próbki 9 i. Jednakże nie wywierają one znacznego wpływu na model, gdyż wartości błędów dopasowania i przewidywania modelu są porównywalne z błędami modelu skonstruowanego dla zbioru modelowego bez tych próbek. Próbki 9 i możemy uważać za dobre obiekty odległe, które poszerzają zakres stosowalności modelu i pozwalają przewidywać całkowitą zawartość tłuszczy w próbkach w zakresie od % do około 0,5%. W przypadku modelu zbudowanego w oparciu o widma NIR próbek wątroby wieprzowej (dane ), model jest gorszy, niż model dla danych. W porównaniu do zakresu pomiarowego y rozrzut reszt od modelu próbek zbiorów modelowego i testowego jest stosunkowo duży. Należy jednak podkreślić, iż rozrzut ten jest wciąż symetryczny. Uzyskane błędy dla zbiorów modelowego i testowego wynoszą odpowiednio 0,0906 i 0,0980 (8,7% i 9,4% zakresu zmiennej zależnej zbioru modelowego). Konstrukcja modeli dla indywidualnych grup próbek niestety nie prowadzi do polepszenia wyników modelowania. Porównując skonstruowane modele na podstawie ich błędów odniesionych do zakresu zmienności y zbioru modelowego możemy stwierdzić, że model PLS dla danych charakteryzuje się lepszym dopasowaniem do danych jak i umożliwia lepsze przewidywanie zmiennej zależnej dla nowych próbek. Stosunkowo pomocne w wykryciu próbek, które mają duży wpływ na model, są tzw. mapy przedstawiające kwadraty wartości reszt od modeli z różną liczbą czynników dla próbek zbioru modelowego (zob. Rys. 5). 0

31 a) 8.97 b) indeks próbki liczba czynników w modelu indeks próbki liczba czynników w modelu Rys. 5 Mapy przedstawiające kwadraty reszt od modeli PLS- uzyskane stosując procedurę kroswalidacji wyrzuć jeden obiekt dla próbek zbioru modelowego: a) danych i b) danych. Mapy te skonstruowano dla dwóch zbiorów modelowych omawianych danych. Wartości reszt uzyskuje się na drodze kroswalidacji np. typu wyrzuć jeden obiekt. Wyraźną tendencją, którą obserwuje się włączając kolejne czynniki do budowy modelu, jest zmniejszanie się wartości reszt od modelu, co widzimy na mapach dla konstruowanych modeli prezentowanych na Rys. 5. Na ogół, ze wzrostem kompleksowości modelu całkowity procent opisanej wariancji danych przez kolejne czynniki modelu, zarówno w X jak i w y, sukcesywnie rośnie (zob. Rys. 6). Modele PLS- z optymalną liczbą czynników pozwoliły opisać ponad 95% całkowitej wariancji danych w X oraz ponad 95% zmienności y dla danych, a w przypadku danych, za pomocą pięcioczynnikowego modelu opisano ponad 95% całkowitej wariancji w X i prawie 80% całkowitej zmienności y. Choć dla modeli o bardzo małej liczbie czynników z łatwością można wyróżnić obiekty o dużych wartościach kwadratów reszt, to dla modeli o optymalnej liczbie czynników te wartości są porównywalne z innymi. Każde dane eksperymentalne są obarczone błędem pomiarowym, którego natura jest inna dla pomiarów w X, jak i Y. Jeśli macierz X tworzą np. widma odbiciowe NIR, to na ich jakość mają bezpośredni wpływ takie czynniki jak sposób pobierania próbek, ich przechowywanie, upakowanie próbki w kuwecie, stopień rozdrobienia próbki, temperatura w trakcie prowadzenia pomiaru, itp. Wszystkie one są możliwymi źródłami wariancji. W przypadku modelowania kilku zmiennych zależnych równocześnie, każdą z nich uzyskuje się zazwyczaj poprzez indywidualne pomiary stosując różne techniki referencyjne, obarczone własnym

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Walidacja metod analitycznych Raport z walidacji

Walidacja metod analitycznych Raport z walidacji Walidacja metod analitycznych Raport z walidacji Małgorzata Jakubowska Katedra Chemii Analitycznej WIMiC AGH Walidacja metod analitycznych (według ISO) to proces ustalania parametrów charakteryzujących

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM Procedura szacowania niepewności Szacowanie niepewności oznaczania / pomiaru zawartości... metodą... Data Imię i Nazwisko Podpis Opracował Sprawdził Zatwierdził

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Kurs Chemometrii Poznań 28 listopad 2006

Kurs Chemometrii Poznań 28 listopad 2006 Komisja Nauk Chemicznych Polskiej Akademii Nauk Oddział w Poznaniu Wydział Technologii Chemicznej Politechniki Poznańskiej w Poznaniu GlaxoSmithKline Pharmaceuticals S.A. w Poznaniu Stowarzyszenie ISPE

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza głównych składowych- redukcja wymiaru, wykł. 12 Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia

Bardziej szczegółowo

Procedura szacowania niepewności

Procedura szacowania niepewności DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM Procedura szacowania niepewności Stron 7 Załączniki Nr 1 Nr Nr 3 Stron Symbol procedury PN//xyz Data Imię i Nazwisko Podpis Opracował Sprawdził Zatwierdził

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Analiza współzależności dwóch cech I

Analiza współzależności dwóch cech I Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

5. Rozwiązywanie układów równań liniowych

5. Rozwiązywanie układów równań liniowych 5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

3. Macierze i Układy Równań Liniowych

3. Macierze i Układy Równań Liniowych 3. Macierze i Układy Równań Liniowych Rozważamy równanie macierzowe z końcówki ostatniego wykładu ( ) 3 1 X = 4 1 ( ) 2 5 Podstawiając X = ( ) x y i wymnażając, otrzymujemy układ 2 równań liniowych 3x

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Doświadczenie: Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Cele doświadczenia Celem doświadczenia jest zbadanie zależności drogi przebytej w ruchu przyspieszonym od czasu dla kuli bilardowej

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

JAK WYZNACZA SIĘ PARAMETRY WALIDACYJNE

JAK WYZNACZA SIĘ PARAMETRY WALIDACYJNE JAK WYZNACZA SIĘ PARAMETRY WALIDACYJNE 1 Granica wykrywalności i granica oznaczalności Dr inż. Piotr KONIECZKA Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska ul. G. Narutowicza 11/12

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

3. FUNKCJA LINIOWA. gdzie ; ół,.

3. FUNKCJA LINIOWA. gdzie ; ół,. 1 WYKŁAD 3 3. FUNKCJA LINIOWA FUNKCJĄ LINIOWĄ nazywamy funkcję typu : dla, gdzie ; ół,. Załóżmy na początek, że wyraz wolny. Wtedy mamy do czynienia z funkcją typu :.. Wykresem tej funkcji jest prosta

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

OZNACZANIE ŻELAZA METODĄ SPEKTROFOTOMETRII UV/VIS

OZNACZANIE ŻELAZA METODĄ SPEKTROFOTOMETRII UV/VIS OZNACZANIE ŻELAZA METODĄ SPEKTROFOTOMETRII UV/VIS Zagadnienia teoretyczne. Spektrofotometria jest techniką instrumentalną, w której do celów analitycznych wykorzystuje się przejścia energetyczne zachodzące

Bardziej szczegółowo

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Niepewności pomiarów

Niepewności pomiarów Niepewności pomiarów Międzynarodowa Organizacja Normalizacyjna (ISO) w roku 1995 opublikowała normy dotyczące terminologii i sposobu określania niepewności pomiarów [1]. W roku 1999 normy zostały opublikowane

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

Walidacja metod wykrywania, identyfikacji i ilościowego oznaczania GMO. Magdalena Żurawska-Zajfert Laboratorium Kontroli GMO IHAR-PIB

Walidacja metod wykrywania, identyfikacji i ilościowego oznaczania GMO. Magdalena Żurawska-Zajfert Laboratorium Kontroli GMO IHAR-PIB Walidacja metod wykrywania, identyfikacji i ilościowego oznaczania GMO Magdalena Żurawska-Zajfert Laboratorium Kontroli GMO IHAR-PIB Walidacja Walidacja jest potwierdzeniem przez zbadanie i przedstawienie

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Spektroskopia molekularna. Ćwiczenie nr 1. Widma absorpcyjne błękitu tymolowego

Spektroskopia molekularna. Ćwiczenie nr 1. Widma absorpcyjne błękitu tymolowego Spektroskopia molekularna Ćwiczenie nr 1 Widma absorpcyjne błękitu tymolowego Doświadczenie to ma na celu zaznajomienie uczestników ćwiczeń ze sposobem wykonywania pomiarów metodą spektrofotometryczną

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich

Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich Podstawy Metrologii i Technik Eksperymentu Laboratorium Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich Instrukcja do ćwiczenia nr 4 Zakład Miernictwa

Bardziej szczegółowo

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007 , transformacja liniowa i estymacja modelu KMNK Paweł Cibis pawel@cibis.pl 9 marca 2007 1 Miary dopasowania modelu do danych empirycznych Współczynnik determinacji Współczynnik zbieżności Skorygowany R

Bardziej szczegółowo

Wykład z równań różnicowych

Wykład z równań różnicowych Wykład z równań różnicowych 1 Wiadomości wstępne Umówmy się, że na czas tego wykładu zrezygnujemy z oznaczania n-tego wyrazu ciągu symbolem typu x n, y n itp. Zamiast tego pisać będziemy x (n), y (n) itp.

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Przewaga klasycznego spektrometru Ramana czyli siatkowego, dyspersyjnego nad przystawką ramanowską FT-Raman

Przewaga klasycznego spektrometru Ramana czyli siatkowego, dyspersyjnego nad przystawką ramanowską FT-Raman Porównanie Przewaga klasycznego spektrometru Ramana czyli siatkowego, dyspersyjnego nad przystawką ramanowską FT-Raman Spektroskopia FT-Raman Spektroskopia FT-Raman jest dostępna od 1987 roku. Systemy

Bardziej szczegółowo

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań ... Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 Wyłączenie odpowiedzialności

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

5 Błąd średniokwadratowy i obciążenie

5 Błąd średniokwadratowy i obciążenie 5 Błąd średniokwadratowy i obciążenie Przeprowadziliśmy 200 powtórzeń przebiegu próbnika dla tego samego zestawu parametrów modelowych co w Rozdziale 1, to znaczy µ = 0, s = 10, v = 10, n i = 10 (i = 1,...,

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Analiza składników podstawowych - wprowadzenie (Principal Components Analysis

Bardziej szczegółowo

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r= Program MC Napisać program symulujący twarde kule w zespole kanonicznym. Dla N > 100 twardych kul. Gęstość liczbowa 0.1 < N/V < 0.4. Zrobić obliczenia dla 2,3 różnych wartości gęstości. Obliczyć radialną

Bardziej szczegółowo

LABORATORIUM Z FIZYKI

LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)

Bardziej szczegółowo

JAK WYZNACZA SIĘ PARAMETRY WALIDACYJNE

JAK WYZNACZA SIĘ PARAMETRY WALIDACYJNE JAK WYZNACZA SIĘ PARAMETRY WALIDACYJNE 1 Dokładność i poprawność Dr hab. inż. Piotr KONIECZKA Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska ul. G. Narutowicza 11/12 80-233 GDAŃSK e-mail:

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Analiza czynników głównych i inne metody eksploracji danych

Analiza czynników głównych i inne metody eksploracji danych Analiza czynników głównych i inne metody eksploracji danych M. Daszykowski i B. Walczak Zakład Chemometrii, Instytut Chemii, Uniwersytet Śląski, ul. Szkolna 9, 4-6 Katowice http://www.chemometria.us.edu.pl.

Bardziej szczegółowo

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości

Bardziej szczegółowo

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006 , transformacja liniowa i estymacja modelu KMNK Paweł Cibis pcibis@o2.pl 23 marca 2006 1 Miary dopasowania modelu do danych empirycznych Współczynnik determinacji Współczynnik zbieżności 2 3 Etapy transformacji

Bardziej szczegółowo

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa

Bardziej szczegółowo

Modelowanie glikemii w procesie insulinoterapii

Modelowanie glikemii w procesie insulinoterapii Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Opracował dr inż. Tadeusz Janiak

Opracował dr inż. Tadeusz Janiak Opracował dr inż. Tadeusz Janiak 1 Uwagi dla wykonujących ilościowe oznaczanie metodami spektrofotometrycznymi 3. 3.1. Ilościowe oznaczanie w metodach spektrofotometrycznych Ilościowe określenie zawartości

Bardziej szczegółowo

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej

Bardziej szczegółowo

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites

Bardziej szczegółowo

1 Układy równań liniowych

1 Układy równań liniowych II Metoda Gaussa-Jordana Na wykładzie zajmujemy się układami równań liniowych, pojawi się też po raz pierwszy macierz Formalną (i porządną) teorią macierzy zajmiemy się na kolejnych wykładach Na razie

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Rozkład normalny, niepewność standardowa typu A

Rozkład normalny, niepewność standardowa typu A Podstawy Metrologii i Technik Eksperymentu Laboratorium Rozkład normalny, niepewność standardowa typu A Instrukcja do ćwiczenia nr 1 Zakład Miernictwa i Ochrony Atmosfery Wrocław, listopad 2010 r. Podstawy

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Analiza korelacyjna i regresyjna

Analiza korelacyjna i regresyjna Podstawy Metrologii i Technik Eksperymentu Laboratorium Analiza korelacyjna i regresyjna Instrukcja do ćwiczenia nr 5 Zakład Miernictwa i Ochrony Atmosfery Wrocław, kwiecień 2014 Podstawy Metrologii i

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Skalowanie wielowymiarowe idea

Skalowanie wielowymiarowe idea Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

IR II. 12. Oznaczanie chloroformu w tetrachloroetylenie metodą spektrofotometrii w podczerwieni

IR II. 12. Oznaczanie chloroformu w tetrachloroetylenie metodą spektrofotometrii w podczerwieni IR II 12. Oznaczanie chloroformu w tetrachloroetylenie metodą spektrofotometrii w podczerwieni Promieniowanie podczerwone ma naturę elektromagnetyczną i jego absorpcja przez materię podlega tym samym prawom,

Bardziej szczegółowo

Wykład 4 Związki i zależności

Wykład 4 Związki i zależności Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna

Bardziej szczegółowo

Analiza i monitoring środowiska

Analiza i monitoring środowiska Analiza i monitoring środowiska CHC 017003L (opracował W. Zierkiewicz) Ćwiczenie 1: Analiza statystyczna wyników pomiarów. 1. WSTĘP Otrzymany w wyniku przeprowadzonej analizy ilościowej wynik pomiaru zawartości

Bardziej szczegółowo

Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe. P. F. Góra

Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe. P. F. Góra Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2015 Co można zrobić z układem równań... tak, aby jego rozwiazania się nie zmieniły? Rozważam

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline. Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2

Bardziej szczegółowo