REGRESJA LINIOWA. Ćwiczenie nr 7:



Podobne dokumenty
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Rozdział 8. Regresja. Definiowanie modelu

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Zmienne zależne i niezależne

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Jak korzystać z Excela?

EXCEL Prowadzący: dr hab. inż. Marek Jaszczur Poziom: początkujący

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

POMIARY WIDEO W PROGRAMIE COACH 5

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 CZĘŚĆ 2. ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ

JAK PROSTO I SKUTECZNIE WYKORZYSTAĆ ARKUSZ KALKULACYJNY DO OBLICZENIA PARAMETRÓW PROSTEJ METODĄ NAJMNIEJSZYCH KWADRATÓW

Podstawowe operacje na macierzach

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Regresja linearyzowalna

Analiza składowych głównych. Wprowadzenie

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

Graficzne opracowanie wyników pomiarów 1

Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli?

Usługi Informatyczne "SZANSA" - Gabriela Ciszyńska-Matuszek ul. Świerkowa 25, Bielsko-Biała

3. Macierze i Układy Równań Liniowych

FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;(

Instrukcja obsługi programu Do-Exp

Test z przedmiotu zajęcia komputerowe

przybliżeniema Definicja

Wykład 4 Związki i zależności

5. Rozwiązywanie układów równań liniowych

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Jak poprawnie napisać sprawozdanie z ćwiczeń laboratoryjnych z fizyki?

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

Niepewności pomiarów

Ćw. nr 1. Wyznaczenie przyspieszenia ziemskiego za pomocą wahadła prostego

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

3. FUNKCJA LINIOWA. gdzie ; ół,.

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Wyniki pomiarów okresu drgań dla wahadła o długości l = 1,215 m i l = 0,5 cm.

Wprowadzenie do analizy korelacji i regresji

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Wprowadzenie do analizy dyskryminacyjnej

KORELACJE I REGRESJA LINIOWA

Pojęcia, wymagania i przykładowe zadania na egzamin poprawkowy dla klas II w roku szkolnym 2016/2017 w Zespole Szkół Ekonomicznych w Zielonej Górze

W tym celu korzystam z programu do grafiki wektorowej Inkscape 0.46.

Ćwiczenie 1. Metody określania niepewności pomiaru

Programowanie i techniki algorytmiczne

Współpraca FDS z arkuszem kalkulacyjnym

Tutaj powinny znaleźć się wyniki pomiarów (tabelki) potwierdzone przez prowadzacego zajęcia laboratoryjne i podpis dyżurujacego pracownika obsługi

Modelowanie glikemii w procesie insulinoterapii

Szybka instrukcja tworzenia testów dla E-SPRAWDZIAN-2 programem e_kreator_2

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Układy VLSI Bramki 1.0

Dokąd on zmierza? Przemieszczenie i prędkość jako wektory

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 CZĘŚĆ 2. ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ

Excel. Zadania. Nazwisko:

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Kolumna Zeszyt Komórka Wiersz Tabela arkusza Zakładki arkuszy

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Zadania ze statystyki cz.8. Zadanie 1.

PDF created with FinePrint pdffactory Pro trial version

e-podręcznik dla seniora... i nie tylko.

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

R-PEARSONA Zależność liniowa

Trik 1 Autorejestrowanie zmian dokonanych w obliczeniach

Instytut Fizyki Politechniki Łódzkiej Laboratorium Metod Analizy Danych Doświadczalnych Ćwiczenie 3 Generator liczb losowych o rozkładzie Rayleigha.

Kilka prostych programów

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

Sylabus Moduł 2: Przetwarzanie tekstów

Rozdział 1 PROGRAMOWANIE LINIOWE

Wartości x-ów : Wartości x ów można w Scilabie zdefiniować na kilka sposobów, wpisując odpowiednie polecenie na konsoli.

Pokaz slajdów na stronie internetowej

Analiza Statystyczna

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Metody eksploracji danych Laboratorium 1. Weka + Python + regresja

Temat: Organizacja skoroszytów i arkuszy

Instrukcja korzystania z Systemu Telnom - Nominacje

Wymagania na poszczególne oceny szkolne z. matematyki. dla uczniów klasy IIIa i IIIb. Gimnazjum im. Jana Pawła II w Mętowie. w roku szkolnym 2015/2016

2. Układy równań liniowych

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Sigma Moduł dla szkół

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

SYSTEMY OPERACYJNE ĆWICZENIE POLECENIA SYSTEMU MSDOS

Programowanie celowe #1

INSTRUKCJA INSTALACJI I URUCHOMIENIA PROGRAMÓW FINKA DOS W SYSTEMACH 64 bit

Grant Edukacyjny Engram English

Transkrypt:

Ćwiczenie nr 7: REGRESJA LINIOWA Wstęp ogólny: Dotychczas wydarzyło się, co następuje: Na początku stworzony został Wszechświat. Jego pojawienie się w obecnej formie po dziś dzień wywołuje głosy niezadowolenia i rozczarowania; w powszechnej świadomości zostało jednak uznane za znakomity pomysł. Następnie, ludzkość wynalazła (albo raczej: odkryła) matematykę. Z tego powodu przez świat nieustannie przetaczają się fale krytyki i oburzenia, ponieważ w pewnych kręgach panuje przekonanie, iż świat pozbawiony matematyki byłby miejscem odrobinę bardziej romantycznym; a nade wszystko nie zawierałby formularzy zeznań podatkowych 20. Potem ci, którzy ostatecznie zrozumieli matematykę, postanowili używać jej do modelowania zależności, występujących w otaczającej nas rzeczywistości. To niesamowite i brzemienne w skutki przedsięwzięcie już za chwilę dotknie Studenta w sposób bezpośredni, ponieważ jest tematem trzech kolejnych ćwiczeń laboratoryjnych. Wstęp do ćwiczenia: Na wskazanej stronie internetowej, względnie na pendrive Prowadzącego, znajdują się dwa programy: PROCES1.EXE oraz MEOD.EXE. Program PROCES1.EXE pozwala na symulowanie wyznaczania szybkości reakcji enzymatycznej w zależności od temperatury procesu i ph roztworu. Mówiąc językiem chemometrycznym: program generuje wartość zmiennej zależnej (szybkość reakcji) na podstawie wartości dwóch zmiennych objaśniających (temperatura, ph). Celem ćwiczenia jest zaproponowanie takiego modelu zależności zmiennej zależnej od zmiennych objaśniających, który pozwoli na możliwie wierne odtworzenie wartości zmiennej zależnej, które generuje program PROCES1.EXE. Można tego dokonać dzięki przebiegłemu zaplanowaniu punktów pomiarowych, przygotowaniu zestawu danych wejściowych i wykonaniu regresji liniowej w programie MEOD.EXE, który poda - w dużej części samodzielnie - gotowy model zależności. I. PLANOWANIE DOŚWIADCZEŃ. Aby zbudować model zależności, najpierw należy obliczyć kilka wartości zmiennej zależnej, wprowadzając do programu PROCES1.EXE wartości zmiennych objaśniających. Inaczej rzecz ujmując: konieczne jest przygotowanie zbioru uczącego. Aby liczba "pomiarów" była optymalna, a przy tym umożliwiająca (nie: gwarantująca!) zbudowanie dobrego modelu, należy odpowiednio zaplanować "doświadczenie". Przebiegłe zaplanowanie punktów pomiarowych w tym przypadku sprowadza się do wykorzystania centrowanego planu doświadczeń typu 2 n, gdzie n - liczba zmiennych objaśniających (w tym przypadku n = 2). 20 "Rzeczą, którą najtrudniej w świecie zrozumieć, jest podatek dochodowy" Albert Einstein. 59

Plan taki wygląda następująco: zmienna objaśniająca #1: zmienna objaśniająca #2: 1 1 1-1 1-1 1-1 -1-1 -1 1 0 0 0 0 0 0 0 0 0 0 0 0 człon interakcyjny i zawiera położenie punktów pomiarowych w tzw. współrzędnych planu. W sekcji II opiszemy, jak należy dokonać przekształcenia zmiennych planu na zmienne objaśniające oraz jak wykonać "pomiary". II. WYKONANIE "POMIARÓW" 21. Program PROCES1.EXE dopuszcza następujące zakresy wartości zmiennych objaśniających: temperatura: 20-30 C; ph roztworu: 6.0-9.0. Należy najpierw wybrać wartości środkowe zmiennych objaśniających (t 0, ph 0 - odpowiadają one wartościom 0 w planie doświadczeń), a następnie wartości skrajne tych zmiennych (odpowiadają one wartościom -1 i 1 w planie doświadczeń), przy czym wartości skrajne dla danej zmiennej muszą być oddalone od wartości środkowej o tę samą wartość i mieścić się w dopuszczalnych zakresach wartości podanych powyżej. Innymi słowy; dla zmiennej t, wartości skrajne to: t 0 -Δt i t 0 +Δt; zaś dla zmiennej ph: ph 0 -ΔpH i ph 0 +ΔpH. Wartości t 0, Δt, ph 0 i ΔpH Student dobiera samodzielnie - Prowadzący, z przyczyn, których współczesna laryngologia nie potrafi wytłumaczyć, posiada uszy niewrażliwe na pytania dotyczące poprawności dobranych wartości. Summa summarum, tabela "pomiarów", które należy wykonać, wyglądają następująco: L.p. t ph 1 t 0+Δt ph 0+ΔpH 2 t 0-Δt ph 0+ΔpH 3 t 0+Δt ph 0-ΔpH 21 Programy PROCES1.EXE, MODEL.EXE, MEOD.EXE oraz PCA.EXE mogą nie uruchomić się w niektórych wersjach systemów Windows Vista i Windows 7, ze szczególnym wskazaniem na edycje 64-bitowe. Aby pokonać tę trudność i uruchomić te programy w ww. środowiskach, zapraszamy do lektury Dodatku C na końcu niniejszej instrukcji. 60

4 t 0-Δt ph 0-ΔpH 5 t 0 ph 0 6 t 0 ph 0 7 t 0 ph 0 8 t 0 ph 0 Pewne wątpliwości może budzić konieczność czterokrotnego powtarzania tego samego "pomiaru" (punkty 5-8) - program PROCES1.EXE posiada jednak wbudowany generator liczb losowych, dzięki czemu, nawet dla tych samych wartości zmiennych objaśniających, zawsze otrzymuje się nieco inną wartość zmiennej zależnej. Program PROCES1.EXE nie toleruje przecinków jedynie kropki. UWAGA! Należy na bieżąco notować kolejne, obliczone wartości zmiennej zależnej, które program wyświetla, do pliku tekstowego o nazwie szyb.txt; w następujący sposób: każda kolejna wartość w nowym wierszu, z kropkami zamiast przecinków. III. PRZYGOTOWANIE DANYCH WEJŚCIOWYCH. Oprócz gotowego już pliku szyb.txt, który zawiera "zmierzone" wartości zmiennej zależnej, należy jeszcze utworzyć pliki tekstowe z wartościami zmiennych planu. Plik t.txt powinien zawierać lewą kolumnę tabeli przedstawionej w sekcji I (zera i jedynki, bez nagłówka); zaś plik ph.txt - kolumnę środkową tej tabeli. Warto również utworzyć plik pht.txt, który zawiera kolumnę prawą (człony interakcyjne). IV. TWORZENIE MODELU. Aby przystąpić do tworzenia modelu, należy umieścić wszystkie dane wejściowe (pliki szyb.txt, t.txt, ph.txt i pht.txt) w katalogu, w którym znajduje się MEOD.EXE, uruchomić program, a następnie postępować według wyświetlanych instrukcji. Poniżej przedstawiliśmy pełny zapis dialogu komputera z użytkownikiem programu, wraz z didaskaliami. MEOD: METODA ODRZUCANIA! STUDENT: O matko. MEOD: Program służy do wyznaczania współczynników równania regresji metodą najmniejszych kwadratów... STUDENT: <naciska Enter> MEOD: Liczba zmiennych: 22 STUDENT: 2 MEOD: nazwa 1. zmiennej... STUDENT: t 22 MEOD.EXE pyta o zmienne objaśniające. 61

MEOD: nazwa 2. zmiennej... STUDENT: ph MEOD: nazwa zmiennej zaleznej... STUDENT: szyb MEOD: Liczba punktow: STUDENT: 8 MEOD: Dane z dysku? STUDENT: t MEOD: Czy zapisac wynik na plik? STUDENT: t MEOD: Nazwa pliku wynikowego: STUDENT: <tworzy unikalną w skali świata nazwę, złożoną z maksymalnie 8 znaków> MEOD: <wyświetla rzeczy niesamowite> STUDENT: <nie wie, co o tym myśleć> MEOD: Czy wypisac zm. zalezna? STUDENT: t MEOD: Korytarz bledu? STUDENT: n <po czym odpowiada na znajome już pytania, do czasu, aż MEOD obwieści...> MEOD: NACISNIJ DOWOLNY KLAWISZ!! STUDENT: <naciska dowolny klawisz, po czym dumnie rozgląda się po sali> Gotowe równanie regresji znajduje się w pliku wynikowym, z rozszerzeniem *.OUT. Należy go otworzyć np. za pomocą Notatnika. Może się zdarzyć, że jeden lub obydwa współczynniki pierwszego równania modelu okażą się nieistotne statystycznie (w kolumnie istotnosc pojawią się wartości ujemne). Program MEOD.EXE zastosuje wówczas metodę odrzucania, polegającą na iteracyjnym usuwaniu z modelu najbardziej nieistotnych członów. Takie zachowanie programu w trakcie wykonywania niniejszego ćwiczenia będzie oznaczało, że Student niepoprawnie przygotował dane wejściowe. W takich sytuacjach, Prowadzący będzie służył pomocą oraz pocieszeniem duchowym. Przykład: Wybraliśmy przykładowe parametry zmiennych objaśniających: t 0 = 25 C; Δt = 3 C; ph 0 = 7,5; ΔpH = 1. Po wykonaniu ośmiu pomiarów otrzymaliśmy następującą macierz danych wejściowych: Nr szyb t ph 1 5.6410 1.0000 1.0000 2 2.5730-1.0000 1.0000 3 9.2880 1.0000-1.0000 4 6.6320-1.0000-1.0000 5 5.9060 0.0000 0.0000 6 5.7340 0.0000 0.0000 7 5.7960 0.0000 0.0000 62

8 6.0350 0.0000 0.0000 Zastosowanie programu MEOD.EXE doprowadziło w pierwszym kroku do uzyskania poniższego równania regresji: ROZWIAZANIE ROWNANIA REGRESJI wspolczynniki odchylenie istotnosc wspol[0] = 5.9506 0.1574 94.6493 wspol[ t] = 1.4310 0.2225 13.9607 wspol[ ph] = -1.9265 0.2225 19.6850 W pliku wynikowym, w kolumnie zatytułowanej "odchylenie" znajdują się wartości odchyleń standardowych współczynników regresji, zaś w kolumnie "istotnosc" - wyniki testu istotności odpowiednich współczynników. Współczynnik uznajemy za istotny, jeżeli wartość testu jest dodatnia. Jak widzimy, wszystkie człony modelu są istotne; możemy zatem zapisać gotowe równanie modelu liniowej zależności szybkości reakcji enzymatycznej od temperatury i ph roztworu: szyb = (1,43±0,22)t + (-1,93±0,22)pH + (5,95±0,16) Uzyskane równanie regresji należy teraz poddać surowej ocenie. Ocena dotyczyć będzie: i) wielkości różnic między wynikami "pomiarów" a wynikami modelu; ii) istotności statystycznej modelu; oraz iii) ustalenia, na ile otrzymany model wyjaśnia obserwowaną zmienność wyników "pomiarów". Oceny modelu dokonuje się liczbowo oraz graficznie. Wszystkich niezbędnych do oceny danych dostarcza plik wynikowy programu MEOD.EXE. V. OCENA JAKOŚCI MODELU. V.1. Ocena liczbowa. Poza wartościami i odchyleniami standardowymi współczynników regresji, program MEOD.EXE oblicza wartości czterech wskaźników jakości modelu. Liczbowej oceny modelu dokonuje się na podstawie trzech z nich. 1) Odchylenie standardowe zmiennej zależnej jest wskaźnikiem przeciętnej różnicy pomiędzy wynikami "pomiarów" a wartościami obliczonymi na podstawie równania regresji. 2) Wartość testu F Snedecora pozwala na ocenę istotności statystycznej modelu. Model uznaje się za istotny, jeżeli wariancja resztowa modelu jest statystycznie istotnie mniejsza, niż wariancja zmiennej zależnej. Tablicowa wartość krytyczna wynosi zwykle ok. 5. 63

3) Współczynnik determinacji pomiędzy wartościami zmiennej zależnej pochodzącymi z "pomiarów" a wartościami zmiennej zależnej obliczonymi na podstawie modelu zaproponowanego przez program pozwala na ocenę, jak duży procent zmienności zmiennej zależnej nie da się wyjaśnić wpływem zmiennych objaśniających. Przykład, c.d.: Program MEOD.EXE obliczył następujące wartości czterech wskaźników jakości: Odchyl. stand. zm. zaleznej = 0.1731 wartosc testu F = 384.3160 wsp. determinacji = 0.9935 wsp. korelacji = 0.9968 Odchylenie standardowe zmiennej zależnej. Przeciętna różnica pomiędzy wynikami "pomiarów" a wartościami obliczonymi na podstawie równania regresji wynosi w tym przypadku s = 0,17. Jest to wartość akceptowalna przy zakresie zmienności zmiennej zależnej (w tym przypadku: szybkości reakcji) od 2,57 do 9,29. Wartość testu F Snedecora. Ponieważ tablicowa wartość krytyczna testu F Snedecora wynosi ok. 5, obliczona wartość dla uzyskanego modelu, wynosząca ponad 300, wyraźnie wskazuje, że model jest istotny. Współczynniki determinacji. Obliczona wartość współczynnika determinacji (D) pomiędzy wartościami zmiennej zależnej pochodzącymi z "pomiarów" a wartościami zmiennej zależnej obliczonymi na podstawie modelu zaproponowanego przez program wynosi 0,9935, co jest bardzo dobrym wynikiem. Pozwala on ocenić, że zaledwie 0,65% 23 zmienności zmiennej zależnej nie da się wyjaśnić wpływem temperatury i ph. UWAGA! Jeżeli program nie stworzy pełnego modelu liniowego, tj. jedna (bądź obie) zmienne objaśniające nie będą istotne, wówczas należy powtórzyć próbę tworzenia modelu, dodając nową "zmienną objaśniającą" w postaci członów interakcyjnych. Sprowadza się to do powtórzenia instrukcji zawartych w sekcji IV; przy czym, w trakcie "dialogu" z programem MEOD.EXE: 1. na pytanie Liczba zmiennych: należy odpowiedzieć 3; 2. na pytanie nazwa 3. zmiennej... należy odpowiedzieć pht. V.2. Wykres różnic. Wizualna ocena jakości uzyskanego modelu jest możliwa dzięki wykonaniu tzw. wykresu różnic. Na końcu pliku wynikowego programu MEOD.EXE znajduje się komunikat analogiczny do poniższego: 23 Wartość tę oblicza się ze wzoru: (1-D) 100%. 64

ZMIENNA ZALEZNA znaleziona obliczona roznica 5.6410 5.4551 1.9E-0001 2.5730 2.5931-2.0E-0002 9.2880 9.3081-2.0E-0002 6.6320 6.4461 1.9E-0001 5.9060 5.9506-4.5E-0002 5.7340 5.9506-2.2E-0001 5.7960 5.9506-1.5E-0001 6.0350 5.9506 8.4E-0002 Należy zatem skopiować kolumny pierwszą oraz trzecią do arkusza Excela i wykonać wykres punktowy (X,Y) 24. Wartości w kolumnie roznica należy odkładać na osi pionowej. Ponadto, jednostki główne na obydwu osiach wykresu powinny być sobie równe oraz mieć optycznie jednakową długość. Jakość utworzonego modelu będzie tym wyższa, im punkty na wykresie różnic będą znajdowały się bliżej osi poziomej. Przykład, c.d.: Oto wykres różnic, stworzony dla uzyskanego modelu: Zarówno liczbowe wskaźniki jakości (patrz: sekcja V.1.), jak i wykres różnic jednoznacznie dowodzą, iż udało nam się stworzyć model wysokiej jakości. VI. SPRAWOZDANIE powinno zawierać: równanie regresji wraz z odchyleniami standardowymi wartości współczynników (o ile zostało uzyskane), zestaw wskaźników jakości modelu (wraz z krótkim komentarzem) oraz poprawnie wykonany wykres różnic. 24 Koniecznie trzeba przy tym pamiętać o zamianie kropek na przecinki w komórkach zawierających skopiowane wartości. 65

Dodatek C: Uruchamianie programów PROCES1.EXE, MODEL.EXE, MEOD.EXE oraz PCA.EXE w nieprzyjaznych im środowiskach systemów operacyjnych Windows Vista i Windows 7. Niektóre wersje systemów operacyjnych Windows Vista i Windows 7, ze szczególnym wskazaniem na edycje 64-bitowe, kategorycznie odmawiają współpracy z programami używanymi w trakcie zajęć laboratoryjnych z chemometrii. Nie jest to jednak problem, który stanowiłby jakąkolwiek przeszkodę w wykonaniu wymaganych obliczeń. Aby obejść tę drobną niedogodność, należy emulować w używanym Windows Vista/7 środowisko starożytnego systemu operacyjnego DOS. Istnieje wiele aplikacji, które pozwalają na tego typu trik. Zaprezentujemy dla przykładu zastosowanie darmowego i możliwie prostego w obsłudze program DOSBox. Aby uruchomić dowolny z programów: PROCES1.EXE, MODEL.EXE, MEOD.EXE lub PCA.EXE w systemie operacyjnym, który odmawia współpracy z nimi w normalnym trybie, należy wykonać, co następuje: 1) Na początek, należy odwiedzić stronę http://www.dosbox.com, pobrać instalator programu DOSBox dla systemu Windows 25 i zainstalować pobrany program w dowolnej lokalizacji. 2) Następnym krokiem jest utworzenie na dysku twardym folderu, w którym będą znajdowały się uruchamiane programy oraz wszystkie towarzyszące im pliki wejściowe z danymi. Warto, aby z przyczyn praktycznych był to folder łatwo dostępny, np.: C:\DOS. 3) Uruchomienie program DOSBox powinno zaowocować pojawieniem się gotowej do pracy konsoli: Z:\> 4) Kolejną, a zarazem kluczową operacją jest stworzenie wirtualnego dysku twardego o dowolnej etykiecie (np. F:), który będzie stanowił zawartość utworzonego wcześniej folderu. Dokonuje się tego za pomocą polecenia: Z:\>MOUNT F: C:\DOS Program DOSBox potwierdzi powodzenie operacji następującym komunikatem: Drive F is mounted as local directory C:\DOS\ 5) Następnie, należy przejść na utworzony dysk twardy poleceniem: 25 Jeżeli Student używa (biegle) Linuxa, z pewnością poradzi sobie samodzielnie. 66

Z:\>F: Konsola potwierdzi powodzenie operacji, zmieniając literę Z na etykietę utworzonego dysku: F:\> 6) Pozostaje teraz jedynie skopiować (z poziomu Windows) wybrany program wraz z danymi wejściowymi (np. MEOD.EXE) do folderu C:\DOS i uruchomić program (z poziomu DOSBox) poleceniem: F:\>MEOD.EXE Program uruchomi się, a następnie będzie pracował bez zająknięcia. 7) Wszystkie pliki wynikowe (*.OUT), generowane przez używane programy, również będą znajdowały się w utworzonym na początku folderze, czyli w tym przypadku C:\DOS. 67

Ćwiczenie nr 8: MODELOWANIE ZALEŻNOŚCI Niniejsze ćwiczenie stanowi rozwinięcie zadania wykonywanego w trakcie ćwiczenia nr 7. Tym razem - zamiast prowadzić Studenta za rękę, jak to miało miejsce dotychczas - ograniczymy się do podania kilku wskazówek praktycznych. Celem jest, podobnie jak w ćwiczeniu poprzednim, uzyskanie istotnego modelu zależności zmiennej zależnej od zmiennych objaśniających. Podobnie, jak w przypadku poprzedniego ćwiczenia, należy wybrać odpowiedni plan doświadczeń, a następnie dokonać "pomiarów". Zasadnicza różnica sprowadza się do faktu, iż tym razem będziemy mieli do czynienia nie z dwiema, lecz z trzema zmiennymi objaśniającymi. I. WYKONANIE "POMIARÓW". Tym razem, do wykonania "pomiarów" zostanie wykorzystany program MODEL.EXE. Program ten, zaraz po uruchomieniu, pyta użytkownika o numer komputera, a w rzeczywistości o numer zestawu parametrów wejściowych. Numer ten zostanie przyznany każdemu Studentowi indywidualnie przez Prowadzącego. MODEL.EXE symuluje reakcję chemiczną substratów A i B w zadanej temperaturze procesu, obliczając ilość otrzymanego produktu i zysk ze sprzedaży produktu reakcji. Musimy zatem sprecyzować pojęcia zmiennych objaśniających oraz zmiennej zależnej. Zmiennymi objaśniającymi są: 1) stężenie substratu A [mol/dm 3 ]; 2) stężenie substratu B [mol/dm 3 ]; 3) temperatura procesu [ C]. Wartości graniczne zmiennych objaśniających (odpowiadające punktom -1 i 1 planu doświadczeń; patrz: ćwiczenie nr 7) można dobierać w dowolnym zakresie. Wyjątek stanowi temperatura procesu, który jest przeprowadzany w środowisku wodnym - stąd też wartości rzędu 120 C lub -5 C nie są rekomendowane. Zmienną zależną, którą należy odnotowywać w trakcie wykonywania "pomiarów", stanowi zysk z procesu. (Ilość otrzymanego produktu nie przedstawia niestety żadnej wartości, ponieważ dodatkowo należy uwzględnić koszty poniesione na jego oczyszczenie, utylizację ścieków i produktów ubocznych.) Poświęćmy teraz nieco uwagi odpowiedniemu zaplanowaniu "doświadczeń", które stanowi esencję niniejszego ćwiczenia. 68

II. PLANOWANIE DOŚWIADCZEŃ. Dla trzech zmiennych objaśniających, wyjściowy plan doświadczeń ma postać centrowanego planu 2 3 ; zakłada zatem dokonanie ośmiu pomiarów (wg reguł budowania planów doświadczeń 2 n ) oraz czterech pomiarów centrujących. Kompletny, wyjściowy plan prezentuje się (w postaci zmiennych planu) następująco: stężenie substratu A: stężenie substratu B: 1 1 1-1 1 1 1-1 1-1 -1 1 1 1-1 -1 1-1 1-1 -1-1 -1-1 0 0 0 0 0 0 0 0 0 0 0 0 temperatura procesu: Nietrudno się domyślić, iż pierwsze osiem wierszy powyższej tabeli to w rzeczywistości współrzędne wierzchołków sześcianu o środku w punkcie 0,0,0 i boku o długości 2. Rzecz w tym, że "pomiary", wykonane w oparciu o tak prosty plan doświadczeń, nieczęsto pozwalają na uzyskanie zbioru uczącego wystarczającego do zbudowania statystycznie istotnego modelu zależności. W związku z powyższym, wyjściowy, liniowy plan doświadczeń prawdopodobnie trzeba będzie poddać kolejnym rozszerzeniom. Kolejne postaci planu będą wyglądały następująco: 1) Plan liniowy z członami interakcyjnymi jego zastosowanie wiąże się z utworzeniem trzech dodatkowych plików wejściowych do programu MEOD.EXE, zawierających trzy możliwe interakcje (iloczyny) zmiennych objaśniających. Na przykład: czwarty wers pliku zawierającego interakcje pierwszej i trzeciej zmiennej objaśniającej będzie miał postać -1, albowiem -1 pomnożone przez 1 daje -1. Zastosowanie tego planu nie wiąże się z wykonywaniem żadnych dodatkowych "pomiarów" w stosunku do planu wyjściowego! Trzeba również pamiętać, że przy wprowadzaniu danych do programu MEOD.EXE dla tego planu należy zadeklarować sześć (nie trzy!) zmiennych i dwanaście punktów pomiarowych. Jeżeli model liniowy z interakcjami nie doprowadzi do uzyskania istotnego statystycznie równania regresji, Student będzie zobowiązany do zastosowania (ze szkodą dla owłosienia na 69

głowie) któregoś z modeli kwadratowych. Wymaga to jednak przejścia od planu czynnikowego 2 3 do planu kompozycyjnego. 2) Plan kompozycyjny jego zastosowanie wiąże się z: i. dodaniem do planu wyjściowego sześciu nowych punktów pomiarowych o współrzędnych odpowiadających środkom ścian opisanego wyżej sześcianu (np. 0,1,0); ii. wykonaniem sześciu dodatkowych "pomiarów" w dodanych punktach planu (poprzednich dwunastu pomiarów, które zostały wykonane dla planu wyjściowego, nie trzeba powtarzać!); iii. utworzeniem trzech nowych plików wejściowych do programu MEOD.EXE, z których każdy będzie zawierał, w kolejnych wersach, kwadraty wartości odpowiednich współrzędnych planu. Na przykład: plik a2.txt, zawierający kwadraty pierwszej zmiennej planu, będzie składał się z: ośmiu jedynek (ponieważ(-1) 2 =1), czterech zer, a następnie, przykładowo, dwóch jedynek oraz czterech zer. Przy wprowadzaniu danych do programu MEOD.EXE dla tego planu należy zadeklarować sześć zmiennych i osiemnaście punktów pomiarowych. Jeżeli model kwadratowy nie doprowadzi do uzyskania istotnego statystycznie równania regresji, Studentowi pozostanie ostatnia deska ratunku: model kwadratowy z interakcjami. Wymaga on zastosowania planu kompozycyjnego z członami interakcyjnymi. 3) Plan kompozycyjny z członami interakcyjnymi jego przygotowanie i zastosowanie sprowadza się do uzupełnienia każdego z trzech plików wejściowych zawierających człony interakcyjne, przygotowanych dla planu liniowego z członami interakcyjnymi, sześcioma kolejnymi zerami (dlaczego?). Przy wprowadzaniu danych do programu MEOD.EXE dla tego planu należy zadeklarować dziewięć zmiennych i osiemnaście punktów pomiarowych. III. TWORZENIE MODELU I OCENA JAKOŚCI. Instrukcja korzystania z programu MEOD.EXE; zasady podawania końcowego równania modelu zależności oraz kryteria oceny jakości modelu zostały przez nas szczegółowo przedstawione w instrukcji do ćwiczenia nr 7. W tym miejscu ograniczymy się jedynie do stwierdzenia, iż w tym ćwiczeniu wymagamy od Studenta podjęcia szeregu prób stworzenia istotnego modelu zależności, począwszy od modelu liniowego, a skończywszy na modelu, który pozwoli na uzyskanie zadowalających wyników. To, czy modelem prowadzącym do sukcesu okaże się model 70

liniowy, czy też w najgorszym wypadku model kwadratowy z interakcjami, będzie w dużej mierze zależało od mądrego wyboru wartości granicznych zmiennych objaśniających, którego dokona Student, oraz w mniejszym stopniu od zestawu parametrów wejściowych, podawanych przy starcie programu MODEL.EXE. W niniejszym ćwiczeniu należy liczyć się z możliwością, że niektóre człony modeli okażą się nieistotne statystycznie. Będzie to dotyczyło zwłaszcza bardziej rozbudowanych modeli (z interakcjami lub kwadratowych). Trzeba przejść nad tym do porządku dziennego i oceniać tylko ostateczne wersje poszczególnych modeli, zawierające wyłącznie istotne człony. IV. SPRAWOZDANIE powinno zawierać: kolejne plany doświadczeń i uzyskane, ostateczne wersje równań regresji. Dla modelu końcowego (istotnego) konieczne jest wykonanie wykres różnic oraz podanie uzasadnienia, dlaczego model ten został uznany za istotny. 71

Ćwiczenie nr 9: LINEARYZACJA ZALEŻNOŚCI Chemometria, w modelowaniu zależności pomiędzy zmiennymi, nadzwyczaj chętnie stosuje modele liniowe. Aby stworzenie takiego modelu było możliwe, pomiędzy zmienną zależną a zmiennymi objaśniającymi powinny występować mniej lub bardziej wyraźne zależności liniowe. Doświadczenie uczy (patrz: ćwiczenie nr 4), iż w większości przypadków nie występuje wyraźna korelacja liniowa pomiędzy zmiennymi. Bywa jednak tak, że niekiedy pomiędzy zmienną zależną i zmienną objaśniającą występuje mniej lub bardziej wyraźna zależność nieliniowa. W takim przypadku należy oczekiwać, że istnieje funkcja lub funkcje transformujące, które umożliwiają linearyzację zależności pomiędzy tymi dwiema zmiennymi. Zapoznanie się z nimi, a także zastosowanie ich w praktyce, jest celem niniejszego ćwiczenia. I. LINEARYZACJA ZALEŻNOŚCI. Na wskazanej stronie internetowej, względnie na pendrive Prowadzącego, znajdują się arkusze Excela, zawierające gotowe zestawy danych. Każdy zestaw oznaczony jest imieniem i nazwiskiem Studenta - zostały one przydzielone w sposób losowy, wykluczający wszelką korupcję. Każdy zestaw danych składa się z dwóch zmiennych - x oraz y; a także z gotowego wykresu korelacyjnego z wykreśloną prostą trendu oraz wyświetlonym współczynnikiem determinacji (R 2 ). Zadanie, które należy wykonać, polega na dokonaniu takiej transformacji zmiennej/zmiennych przy pomocy odpowiednich funkcji transformujących (z samodzielnie dobranymi stałymi a i/lub b), aby współczynnik determinacji był jak najbliższy jedności. Poniższa tabela prezentuje przykłady funkcji transformujących, wraz z opisem zależności, którą linearyzują. 72

Charakter zależności y = f(x) zależność ma asymptotę pionową dla x 0 = 0 zależność ma asymptotę pionową po lewej dla x 0 = a zależność ma asymptotę pionową po prawej dla x 0 = a zależność ma przebieg sigmoidalny; asymptota dolna: a < y min; asymptota górna: b > y max zależność wzrastająca do nasycenia; asymptota górna: b > y max zależność malejąca do nasycenia; asymptota dolna: a < y min Funkcja transformująca x* = log(x) lub x* = 1/x x* = log(x-a) lub x* = 1/(x-a) x* = log(a-x) lub x* = 1/(a-x) y a log b y y* = y* = log(b-y) y* = log(y-a) Przykład: Dysponując zestawem danych i gotowym wykresem korelacyjnym: x y 1,200 1,779 1,500 1,622 2,000 1,469 2,400 1,380 2,700 1,320 3,000 1,285 3,200 1,277 3,500 1,247 3,900 1,244 4,400 1,224 5,500 1,216 możemy podejrzewać, że powyższy przypadek przedstawia zależność malejącą do nasycenia, zastosujemy zatem funkcję transformującą y* = log(y-a), przy czym a < y min. Po kilku próbach dochodzimy do wniosku, że idealna wartość parametru a dla powyższego przypadku wynosi 1,21: 73

x y* 1,200-0,245 1,500-0,385 2,000-0,586 2,400-0,768 2,700-0,959 3,000-1,125 3,200-1,171 3,500-1,434 3,900-1,474 4,400-1,844 5,500-2,212 Współczynnik determinacji dla nowej pary zmiennych x i y* (widoczny na wykresie w postaci R 2 ) wynosi 0,992. Jego wartość jest absolutnie zadowalająca. II. SPRAWOZDANIA brak. Wystarczy, że Student poda - w trakcie zajęć - funkcję transformującą (bądź funkcje, jeżeli dokona transformacji obydwu zmiennych) dla swojego zestawu danych. Ocenie podlega dopasowanie funkcji linearyzującej do charakteru zależności nieliniowej oraz wartości stałych a i/lub b. 74

Dodatek D: Metoda odrzucania i program MEOD.EXE w zastosowaniu do własnych danych. W trakcie pierwszych zajęć laboratoryjnych, Student został poproszony o sformułowanie problemu dotyczącego przygotowanych przez siebie danych. Jeżeli problem ten stanowiło pytanie o możliwość modelowania wartości jednej ze zmiennych (zmiennej zależnej) w oparciu o pozostałe zmienne (zmienne objaśniające), oto nadszedł czas jego rozwiązania. W celu rozwiązania postawionego problemu ponownie należy wykorzystać program MEOD.EXE, którego użytkowanie zostało już solidnie przećwiczone. Tym razem jednak niemożliwe będzie bazowanie na planach doświadczeń przygotowany przez Studenta zestaw danych wejściowych to tzw. dane niekontrolowane. Poniżej znajdują się wskazówki niezbędne przy próbie samodzielnego zbudowania istotnego modelu zależności dla zmiennych niekontrolowanych. 1) W celu przygotowania danych do programu MEOD.EXE, należy skopiować przygotowaną na potrzeby ćwiczenia nr 6 tabelę danych autoskalowanych do osobnego arkusza. 2) Koniecznie należy zamienić przecinki na kropki we wszystkich komórkach, które zawierają wartości liczbowe. Ponieważ nie wolno na tym etapie dokonać przeoczenia o które nietrudno dla pewności warto zaznaczyć odpowiednie komórki; wcisnąć Ctrl+H; w polu Znajdź: wpisać,; w polu Zamień na: wpisać. i kliknąć Zamień wszystko. 3) Zawartość każdej kolumny zawierającej dane liczbowe (czyli wartości danej zmiennej) trzeba teraz skopiować do osobnego pliku tekstowego, nadając mu nazwę odpowiedniej zmiennej, np. CR*.txt. UWAGA! Pliki te muszą zawierać wyłącznie wartości liczbowe! Nie wolno umieszczać w nich nazw zmiennych ani nazw obiektów! 4) Jeżeli wszystko zostało przygotowane poprawnie, należy uruchomić program MEOD.EXE, wpisać odpowiednią liczbę zmiennych, podać nazwy zmiennych objaśniających i zmiennej zależnej (są to nazwy przygotowanych plików, bez rozszerzenia *.txt), podać liczbę obiektów i czekać na reakcję programu. W przypadku danych niekontrolowanych program MEOD.EXE może zacząć zachowywać się dziwnie! Przede wszystkim, po odrzuceniu najbardziej nieistotnego członu, może dramatycznie zmienić się istotność pozostałych członów. Wynika to z występowania korelacji (niekiedy bardzo silnych) pomiędzy zmiennymi. 5) Jeżeli został utworzony istotny statystycznie model gratulacje! Należy teraz zanotować równanie regresji, uzasadnić jego istotność i wykonać wykres 75

różnic, będą one bowiem stanowiły ważną część sprawozdania końcowego z zajęć laboratoryjnych. 6) Bardziej prawdopodobne jest, że przy pierwszym podejściu nie zostanie utworzony istotny statystycznie (lub nawet żaden) model zależności. Warto wtedy wrócić do etapu kontroli danych i sprawdzić, czy: i) prawidłowo usunięto z zestawu danych punkty odbiegające; ii) pomiędzy zmienną zależną i zmiennymi objaśniającymi nie występują zależności nieliniowe. W przypadku ich wystąpienia, należy podjąć wysiłek linearyzacji zależności (patrz: ćwiczenie nr 9). Po wykonaniu odpowiednich transformacji, transformowane zmienne należy raz jeszcze poddać autoskalowaniu i ponownie przygotować dane wejściowe do programu MEOD.EXE. 7) Jeżeli w dalszym ciągu program MEOD.EXE nie tworzy istotnego statystycznie modelu, fakt ten stanowi odpowiedź na postawiony przez Studenta problem. Odpowiedź ta jest negatywna, ale jak najbardziej prawidłowa: niemożliwe jest, na podstawie przygotowanych danych, uzyskanie liniowego modelu zależności. 76