Współczesne metody analizy regresji wspomagane komputerowo. Jacek Syska

Wielkość: px
Rozpocząć pokaz od strony:

Download "Współczesne metody analizy regresji wspomagane komputerowo. Jacek Syska"

Transkrypt

1 Współczese metody aalzy regresj wspomagae komputerowo Jacek Syska

2 Istytut Fzyk, Uwersytet Śląsk, Uwersytecka 4, Katowce, Polad, Skrypt dla studetów Ekoofzyk, luty 04, wersja

3 Sps treśc Cześć I. Aalza klasycza. 8 A. Rozdzał. Aalza współzależośc zmeych w regresj welorakej 8 Rozdzał -. Cel, stota przykłady badań. 8 A. Rozdzał. Klasyfkacja zmeych wybór aalzy. Rozdzał -. Klasyfkacja zmeych. Rozdzał -. Krytera wyboru metody aalzy. Rozdzał -3. Wybór postac rówaa regresj. 3 A. Rozdzał 3. Aalza regresj welorakej właścwośc macerzy korelacyjej. 3 Rozdzał 3-. Model regresj welorakej. 4 Rozdzał 3-. Macerz korelacyja, współczyk korelacj zupełej współczyk korelacj cząstkowej. 7 Rozdzał 3--. Współczyk korelacj cząstkowej. 7 Rozdzał 3--. Półcząstkowe współczyk korelacj cząstkowej. 9 Rozdzał Współczyk korelacj welorakej (welokrotej, welowymarowej. 9 Rozdzał 3-3. Wyzaczae ajlepszych estymatorów rówaa regresj welorakej w MNK. 0 Rozdzał Rówae regresj welorakej metoda ajmejszych kwadratów. 0 Rozdzał Współczyk determacj jako mara dopasowaa modelu do daych empryczych. Rozdzał Test stotośc zmeych w modelu regresj. 5 A. Rozdzał 4: Welomaowa aalza regresj. 6 Rozdzał 4-. Metody oblczaa parametrów strukturalych modelu welomaowego. 7 Rozdzał 4--. Procedura ajmejszych kwadratów dla modelu parabolczego. 7 Rozdzał 4--. Testy dla regresj welomaowej (a przykładze modelu parabolczego. 7 Rozdzał Test stotośc modelu regresj welomaowej. 7 Rozdzał 4---.Test celowośc dodawaa zmeej objaśającej wyższego stopa. 8 Rozdzał Test braku dopasowaa zastosowaego modelu (Lack-of-ft Test. 9 Rozdzał 4-. Stosowae model welomaowych wyższych rzędów problemy z tym zwązae 3 Rozdzał 4-3. Welomay ortogoale. 3 Rozdzał 4-4. Stratege wyboru modelu welomaowego. 38 Rozdzał 4-5. Przeprowadzee wstępej dagostyk modelu. 39 Rozdzał 4-6. Aalza współlowośc metodą wartośc własych macerzy korelacj. 44 A. Rozdzał 5. Przykłady aalzy regresj z jedym czykem. 49 Rozdzał 5-. Lowa aalzy regresj. Przykład. Dochód z bletów (dae wstęp. 49 Rozdzał 5-. Welomaowa aalza regresj. Przykład. Dochód z bletów (c.d.. 50 Rozdzał 5--. Welomay zwyczaje. 5 Rozdzał Weloma zwyczajy drugego stopa. 5 Rozdzał Weloma zwyczajy trzecego stopa. 53 Rozdzał Weloma zwyczajy ósmego stopa. 55 Rozdzał 5--. Welomay cetrowae. 57 Rozdzał Weloma cetroway drugego stopa. 58 Rozdzał Weloma cetroway trzecego stopa. 59

4 Rozdzał Weloma cetroway ósmego stopa. 6 Rozdzał Weloma ortogoaly ósmego stopa. 64 Rozdzał 5-3. Ogóle wosk z przeprowadzoej aalzy regresj welomaowej. 67 A. Rozdzał 6: Wybór ajlepszego modelu regresj. 67 Rozdzał 6-. Krok. Określee maksymalego modelu regresj. 68 Rozdzał 6-. Krok. Określee kryterum wyboru modelu. 68 Rozdzał 6-3. Krok 3. Określee strateg wyboru zmeych do modelu. 7 Rozdzał Procedura wyboru ajlepszego modelu regresj a przykładze metody elmacj wstecz. 74 Rozdzał 6-4. Przykład aalzy współlowośc dla modelu maksymalego z ewycetrowaym zmeym Przykład elmacj współlowośc poprzez cetrowae stadaryzację (przelczyć. 87 Rozdzał 6-6. Przykład procedury porówaa wszystkch możlwych model regresj Krok 5. Określee soldośc wybraego modelu 95 A. Rozdzał 7: Wosk dalsze metody aalzy. 97 A. Rozdzał 8: Uzupełea. 98 Rozdzał 8-. Uzupełea. Kryterum R, R adj kryterum Akake a. 98 A. Rozdzał 9. Nerówość Boferro ego. 00 B. Rozdzał 0. Dagostyka reszt. 03 Rozdzał 0-. Wstęp 03 Rozdzał 0-. Typy reszt oraz ch własośc w modelu lowym. 04 Rozdzał 0--. Współczyk dźwgęca. 04 Rozdzał 0--. Własośc reszt 07 Rozdzał Dagostyka regresj oparta o odległość Cook a D. B. Rozdzał. Macerzowe ujęce klasyczego modelu regresj współczyk dźwgęca. 4 Rozdzał -. Wyprowadzee macerzowego ujęca klasyczego model regresj. 5 Rozdzał -. Podstawowy wyk KMNK dla jedego czyka. 0 Rozdzał --. Współczyk korelacj lowej Pearsoa. Rozdzał -3. Uzupełee. Testy ezależośc reszt. 3 Rozdzał -3-. Test Durba-Watsoa. 4 B. Rozdzał. Grafcza aalza reszt. 6 B. Rozdzał 3. Przykłady dagostyk reszt. 3 Rozdzał 3-. Przykład. Skurczowe cśee krw. 3 Rozdzał 3--. Dagostyka reszt dla modelu. Przykład Skurczowe cśee krw. 35 Rozdzał 3--. Grafcza aalza reszt dla Przykładu Skurczowe cśee krw. 4 Rozdzał 3-. Przykład FEV (atężoa jedosekudowa objętość. 46 Rozdzał 3--. Dagostyka reszt dla modelu. Przykład FEV (atężoa jedosekudowa objętość. 49 3

5 B. Rozdzał 4. Zakończee. 57 B. Rozdzał 5. Uzupełee. Testy eparametrycze. 58 Rozdzał 5-. Test zgodośc Kołmogorowa Smrowa. Wprowadzee. 58 Rozdzał 5-. Rozkład empryczy [7]. 59 Rozdzał 5-3. Test zgodośc Kołmogorowa [9]. Rozwęce. 60 C. Rozdzał 6. Aalza waracj. 58 Rozdzał 6-. Jedoczykowa aalza waracj (ANOVA- tablca aalzy waracj. 64 Rozdzał 6--. Test jedorodośc waracj. 67 Rozdzał Test Bartlett a. 67 Rozdzał 6--. Testy szczegółowe. Pojęce kotrastu. Metoda Scheffe ego. 68 Rozdzał 6-. Model regresj dla jedoczykowej ANOVA. 7 Rozdzał 6-3. Przykład hpermarket ABC dla jedoczykowej ANOVA. 75 Rozdzał 6-4. Typy czyków; czyk ustaloy losowy cz.i. 9 C. Rozdzał 7. Weloczykowa aalza waracj ANOVA (dwuczykowa. 97 Rozdzał 7-. Wstępe rozważaa dwuczykowej ANOVA z dowolą lczeboścą komórek. 99 Rozdzał 7--. Tablca daych dla ANOVA. 99 Rozdzał 7--. Róża lczebość komórek problem eortogoalośc sum kwadratów. 00 Rozdzał Ogóle sformułowae regresj dla dwuczykowej ANOVA. Fudametale rówae aalzy regresj. 0 Rozdzał 7-. Czyk ustaloy losowy cz.ii (rówa wększa od lczebość w komórkach. 04 Rozdzał 7--. Przykład: wydolość płuc 5 Rozdzał 7-3. ANOVA z losowo doberaym blokam (jeda obserwacja w komórkach. 9 Rozdzał Model regresj dla ANOVA z losowym doborem bloków. 33 Rozdzał Przykład samopoczuce dla ANOVA z losowym doborem bloków. 34 C. Rozdzał 8. Podsumowae ANOVA. 38 Część II. Metoda ajwększej warygodośc w aalze regresj Possoa, regresj logstyczej w szeregach czasowych. 40 A. Rozdzał. Wprowadzee do metody ajwększej warygodośc. 40 Rozdzał -. Podstawowe pojęca MNW. 40 Rozdzał -. Woskowae w MNW. 45 Rozdzał --. Warygodoścowy przedzał ufośc. 46 Rozdzał --. Rozkłady regulare. 48 Rozdzał --3. Weryfkacja hpotez z wykorzystaem lorazu warygodośc. 49 Rozdzał -3. MNW w aalze regresj. 5 Rozdzał -4. Test statystyczy dla doboru modelu. 53 Rozdzał -4-. Model podstawowy. 53 A. Rozdzał. Aalza doboru modelu regresj Possoa. 55 Rozdzał -. Aalza doboru modelu regresj dla rozkładu Possoa. 56 Rozdzał --. Dewacja jako mara dobroc dopasowaa. Rozkład Possoa. 56 4

6 Rozdzał --. Model podstawowy. 58 Rozdzał --3. Aalza regresj Possoa. 58 Rozdzał --4. Test statystyczy dla doboru modelu w regresj Possoa. 6 Rozdzał Testy lorazu warygodośc. 64 Rozdzał --5. Podobeństwo dewacj do SKR aalzy częstotlwoścowej. 66 Rozdzał -. Przykład aalzy doboru modelu w regresj Possoa. 67 Rozdzał --. Przykład daych dla regresj Possoa. 67 Rozdzał --. Rola kowarata. 68 Rozdzał --3. Pojęce ryzyka. 68 Rozdzał Aaloga ryzyka awar prawdopodobeństwa zajśca porażk a jedostkę czasu. Estymowae tempo defektu. 68 Rozdzał Ryzyko względe. 70 Rozdzał --4. Uwaga o ogólym deksowau podgrup populacj. 70 Rozdzał --5. Dae dla przykładu. 7 Rozdzał --6. Cel badań. 7 Rozdzał Uzasadee zastosowaa rozkładu Possoa w aalze. 7 Rozdzał Przykład fzyczego odpowedka daych w przykładze. 7 Rozdzał --7. Rówae regresj Possoa ze zmeym ukrytym. 7 Rozdzał Ideksowae grup w przykładze. 73 Rozdzał Estymator ogólego ryzyka względego w modelu bez terakcj. 75 Rozdzał --8. Macerz kowaracj obserwowaa formacja Fshera. 76 Rozdzał --9. Statystycze kryterum doboru modelu. 76 Rozdzał Mmaly oszczędy model opsu daych. 77 Rozdzał --0. Aalza regresj dla przykładu: Model. 77 Rozdzał --. Aalza umerycza programem SAS. 78 Rozdzał ---. Dae oraz programy. 78 Rozdzał ---. Wyk aalzy umeryczej SAS dla Modelu. 80 Rozdzał Oszacowae parametru błąd stadardowy oszacowaa dla Modelu. 8 Rozdzał Test hpotezy zerowej z wykorzystaem statystyk Wald a. 8 Rozdzał Wosek. 83 Rozdzał --. Charakter kowarata wek - terakcja czy zaburzee. 83 Rozdzał ---. Aalza terakcj obszaru weku. Model. 84 Rozdzał ---. Program SAS dla Modelu. 85 Rozdzał Raport z dopasowaa Modelu. 85 Rozdzał Testowae braku dopasowaa w Modelu w porówau z Modelem. 86 Rozdzał Aalza weku jako zaburzea czyka główego. 88 Rozdzał --3. Aalza regresj Possoa w SAS dla modelu z przesuęcem. 90 Rozdzał Dae program SAS dla Modelu 0. 9 Rozdzał Raport SAS dla Modelu 0. 9 Rozdzał Wyk aalzy dla Modelu 0. 9 Rozdzał Wosek z aalzy. 93 Rozdzał --5. Uzupełee. 94 Rozdzał Polecea języka 4GL procedury GENMOD dla rozważaego przykładu. 94 Rozdzał Ops zmeych występujących w zborze daych w Rozdzale A. Rozdzał 3. Podsumowae zastosowaa MNW w aalze regresj Possoa. 95 A. Rozdzał 4. Aalza doboru modelu w regresj logstyczej. 97 Rozdzał 4-. Wprowadzee teoretycze. 97 Rozdzał 4--. Zmee dychotomcze. 97 Rozdzał 4--. Metoda ajwększej warygodośc w regresj logstyczej. 98 Rozdzał Modelowae lorazu szas. 30 Rozdzał Estymacja lorazu szas oraz weryfkacja hpotez statystyczych

7 A. Rozdzał 5. Przykład regresj logstyczej. 3 Rozdzał 5-. Aalza bez terakcj główego wpływu z kowaratam. 3 Rozdzał 5--. Omówee kolejych kroków aalzy przykładu w programe SAS. 3 Rozdzał 5-. Aalza terakcj główego wpływu z kowaratam. 33 Rozdzał 5-3. Dae dla przykładu z Rozdzału 5 Spłata długu. 333 A. Rozdzał 6. Podsumowae regresj logstyczej. 337 A. Rozdzał 7. Uzupełea. 339 Rozdzał 7-. Uzupełee. Błąd statystyczy statystyka Wald a. 339 Rozdzał 7-. Uzupełee. Zasada ezmeczośc lorazu fukcj warygodośc. 34 B. Rozdzał 8. Kryterum AIC Akake a wyboru rzędu parametrów p q w modelu ARIMA szeregów czasowych. 343 Rozdzał 8-. Zakończee. 347 Cześć III. Zagadea do opracowaa zadaa do rozwązaa. 349 Rozdzał. Zagadea do opracowaa. 349 Rozdzał. Zadaa do rozwązaa w SAS e. 35 Lteratura 353 Część IV. Dodatek. Uzupełea teoretycze. Stroy - 7 rękopsu. 358 Dzękuję Mchałow Czerwkow, Marcow Jaworskemu, Patrycj Kruczek, Ageszce Maryok, Doroce Mrozakewcz, Ae Rząsa, Iwoe Kaczmarczyk Sebastaow Zającow za wspóle rozważaa, w wyku których powstało ejsze opracowae. 6

8 Statystyka staow zbór metod, które służą pozyskwau, prezetacj aalze daych oraz otrzymau użyteczych, uogóloych formacj a temat zjawska, którego dotyczą. Dae są pozyskwae w procese zwaym badaem statystyczym poprzez obserwacje statystycze (bezpośredo poprzez pomary lub pośredo, poprzez oblczea. Program SAS, którego fukcjoowae w aalze statystyczej zostae pożej zaprezetowae, jest jedą z klku zaawasowaych aplkacj, oferującą szeroką gamę arzędz aaltyczych wykorzystywaych w astępujących dzedzach: w zarządzau (aalzy fasowe, progozowae tp., przemyśle (kotrola zarządzae jakoścą, badaa ryku, aalzy sprzedaży, bakowośc (aalza kredytowa tp., ubezpeczeach (p. badae ryku, w sektorze publczym, w auce (medycya, ekooma, fzyka, formatyka, zarządzae marketg. Jedocześe bardzo obszera pomoc (help SAS a ułatwa skutecze wykorzystae arzędz jego aalzy statystyczej, które w przejrzystej forme przekształcają dostępe dae w formacje. SAS, Statstcal Aalyze System (System Aalz Statystyczych. 7

9 Cześć I. Aalza klasycza. A. Rozdzał. Aalza współzależośc zmeych w regresj welorakej Rozdzał -. Cel, stota przykłady badań. W aalze regresj [], [] badaa statystycze mają w ogólośc wyjaśać zależośc pomędzy różym cecham badaej populacj. Populację rozumemy jako zbór elemetów posadających pewą stałą cechę, która je łączy wyróża spośród ych zborów. Przykładam populacj są astępujące zbory:. grupa ludośc zameszkująca pewe określoy obszar (p.: Europejczycy, Ślązacy, ludość mejska. grupa społecza (p. studec, górcy, lekarze 3. zbór podmotów gospodarczych (p. spółk wchodzące w skład WIG 0, sklepy spożywcze, pukty gastroomcze 4. zbór przedmotów o podobej budowe lub właścwoścach (p.: urządzea elektrocze, kryształy, przewodk Przykładowym cecham (określającym właścwośc elemetów populacj pomędzy którym będzemy badać zależośc, a które mogą być róweż zależe od wpływu waruków zewętrzych, są astępujące welkośc, podae kolejo dla powyższych grup: Dla grupy : wek, wzrost, dochód, sta zdrowa, wykształcee, arażee a emsję spal, arażee a hałas. Dla grupy 3: stopy zwrotu, pozom ryzyka, kodycja fasowa, struktura zatrudea, dzee obroty, lość kletów, sta prawa podatkowego. Dla grupy 4: ezawodość, fukcjoalość, twardość, gęstość, kolor, cężar, przewodość właścwa, cea. Jede z powyższych, przykładowych cech (zmeych losowych mogą pojawać sę w aalze jako zmee objaśae (odpowedz, atomast e, jako zmee objaśające (czyk, mające wpływ a kształtowae sę rozkładów (warukowych cechy objaśaej. Chocaż e jest to regułą, to ejedokrote zdarza sę, że badae cechy oddzałują a sebe wzajeme. Własość ta ma duży wpływ a terpretację zależośc przyczyowo-skutkowej zjawsk jest ważym elemetem braym pod uwagę przy doborze zmeych objaśających. Pojęce zmeej losowej zostało przedstawoe w Częśc IV, Rozdzał. 8

10 Badae to aczej dośwadczee, zaś zmee występujące w badau są określae jako: zmea opsywaa (Y zwaa zmeą objaśaą, odpowedzą lub czasam progozą zmee objaśające (X zwae czykam, mające wpływ a zmeą objaśaą Y. Badaa statystycze dzelmy a []: - Badaa dośwadczale polegające a tym, że osoba badająca współzależość zmeych może ustalać wartośc cech objaśających. Badaa take mają szeroke zastosowae przy wyjaśau zjawsk fzyczych gdze przeprowadzający dośwadczee może kotrolować zmee (take jak p. atężee prądu, temperatura, cśee. - Badaa quas-eksperymetale, w których obekty badań są wyzaczoe poprzez waruk losowe. - Badaa obserwacyje sprowadzające sę do opsu przez badacza zależośc powstałych w wyku zachodzących zma, a które e może o w żade sposób wpływać (e ma możlwośc ustalaa wartośc cech. Badaa obserwacyje mają zastosowae (teoretycze w docekau zależośc powstałych w społeczeństwach ludzkch, bądź w procesach rykowych. Główym celam badań statystyczych w aalze regresj są []:. Scharakteryzowae relacj (mędzy ym jej zasęgu, keruku sły.. Zalezee loścowej zależośc redukującej ogóly zwązek stochastyczy pomędzy zmeą objaśaą Y, a zmeym objaśającym X,X, X 3,,X k, do zależośc fukcyjej f (X,X, X 3,,X k określającej wartość oczekwaą odpowedz Y. Ozacza to określee modelu matematyczego, który w ajbardzej warygody sposób oddaje zachowae sę odpowedz. Zajomość takego modelu daje am możlwość predykcj wartośc odpowedz w zależośc od zachowaa sę ych zmeych. 3. Określee, które ze zmeych objaśających są waże w aalze współzależośc uszeregowae tych zmeych ze względu a słę wpływu a zmeą objaśaą. 4. Zalezee loścowej /lub jakoścowej relacj pomędzy odpowedzą a czykam główym, gdy są oe w populacj pod wpływem zmeych poboczych (C,C,, C m oraz uwzględee zmeych poboczych poprzez wzęce ch pod kotrolę. 5. Porówywae różych model dla jedej zmeej objaśaej, tz. porówae model, które składają sę z różych zestawów zmeych objaśających. 6. Określee terakcj zmeych objaśających oraz (przy dwukerukowej zależośc określee zależośc zmeych objaśających od zmeej objaśaej. 7. Oszacowae puktowe wartośc współczyków regresj (keruek sła współzależośc oraz stotość statystycza parametrów wprowadzoych do modelu. 9

11 Oto klka przykładów badań: Określee wzajemej relacj pomędzy produkcją przedsęborstwa (Y a astępującym zmeym: X wydajość pracy, X środk trwałe przedsęborstwa, X 3 zatrudee pracowków. Badaa epdemologcze polegające a określeu wpływu: awyku palea X, klasy społeczej X, weku C, wag C - a cśee krw Y. 3 określee współzależośc pomędzy zmeą satysfakcja pacjeta z opek medyczej Y, a zmeym: relacja emocjoala pacjeta z lekarzem X oraz stopeń poformowaa pacjeta przez lekarza X. W aalze statystyczej badacz powe ostroże aalzować otrzymae wyk, aby ukąć błędów terpretacyjych, które mogą wystąpć p. a skutek złej selekcj daych. Uzyskae wyk powe weryfkować operając sę o astępujące krytera []:. Określee logczego zwązku pomędzy zmeym, tz. sprawdzee czy uzyskae wyk e koldują z aturą zjawska.. Ukae czasowej dwuzaczośc, czyl sprawdzee czy przyczya poprzedza w czase skutek. 3. Aalzę sły zwązku pomędzy zmeym, a w szczególośc zwrócee uwag a możlwość uzyskaa wysokej wartośc korelacj mędzy zmeym, które w rzeczywstośc e oddzałują a sebe. 4. Sprawdzee czy otrzymay model jest modelem sprawdzającym sę w rzeczywstośc. 5. Rozpatrzee spójośc wyków. 6. Określee zgodośc wyków z wedzą teoretyczą oraz dośwadczalą, tz. określee praktyczej teoretyczej warygodość przyjętych hpotez statystyczych. 7. Określee specyfkacj zwązku. Rozpatrzee możlwośc otrzymaa badaego skutku, jako przejawu dzałaa różych przyczy oraz możlwośc wystąpea klku skutków jedej przyczyy. Główym celem badań statystyczych w aalze regresj jest otrzymae modelu matematyczego, który w jak ajlepszy sposób będze przedstawał zależośc pomędzy różym cecham (zmeym. Jedakże ależy zdawać sobe sprawę z tego, że e jest możlwe uzyskae dealego modelu, gdyż wększość zależośc pomędzy zmeym e ma charakteru determstyczego, tylko losowy, co pocąga za sobą uwzględee błędów w określeu relacj. Obecy rozdzał jest zwązay właśe z omóweem metod statystyczych prowadzących do wskazaa ajlepszego modelu regresj, który przy ezbyt rozbudowaej strukturze daje rówae regresj jak ajlepej opsujące zależośc pomędzy zmeym, tz.: jak ajlepej dopasowujące sę do daych empryczych, a co jest z tym zwązae, dające jak ajsoldejszą predykcję wartośc zmeej objaśaej. 0

12 Zostaą przedstawoe procedury, które a określoym pozome stotośc pozwalają wypowedzeć sę a temat dobroc wspomaego dopasowaa. Przykłady przedstawoe w opracowau zostaą przeaalzowae z wykorzystaem paketu statystyczego SAS [3]. A. Rozdzał. Klasyfkacja zmeych wybór aalzy. Rozdzał -. Klasyfkacja zmeych. Do aalzy współzależośc statystycy posługują sę zmeym, które ależy umeć poprawe sklasyfkować. Klasyfkacja zmeych wąże sę z wyborem aalzy, dlatego też ależy położyć duży acsk a właścwą oceę zmeych. Podzał zmeych losowych []:. ze względu a charakter przyjmowaych wartośc dystrybuaty: - zmee typu dyskretego, - zmee typu cągłego, Czasam zmee typu dyskretego mogą być traktowae jako cągłe, a zmee typu cągłego, pogrupowae w pewe kategore, mogą być traktowae jak dyskrete.. ze względu a keruek w opse zależośc: - zmea opsująca (objaśająca, czyk, - zmea opsywaa (objaśaa, odpowedź, 3. ze względu a dokładość pomarową zmeej: - zmea jakoścowa (omala, symbolcza, kategorycza, - zmea porządkowa, - zmea przedzałowa (grupowa, loścowa. Wartość przypsaa zmeej omalej (grupującej wyk w odpowede kategore wskazuje róże kategore, p. zmea dotycząca płc przyporządkowuje wartość 0 dla płc męskej, a wartość dla płc żeńskej. Wyższy pozom mary posada zmea porządkowa, bo oprócz grupowaa wyków w kategore może je porządkować. Zmea przedzałowa, oprócz posadaa własośc poprzedch zmeych, adaje ses merze odstępu mędzy kategoram. Mus być oa wyrażoa w pewych stadardowych pojęcach posada róże skale, według których tworzy sę przedzały wartośc, jake daa zmea przyjmuje.

13 Tabela -.. Podzał zmeych jakoścowych, porządkowych przedzałowych a zmee cągłe dyskrete. Zmee cągłe dyskrete Jakoścowe - Porządkowe Przedzałowe Rozdzał -. Krytera wyboru metody aalzy. Wybór aalzy jest jedą z ajważejszych częśc badaa statystyczego, gdyż od ego zależy poprawość aalzy. Przy wyborze aalzy ależy brać pod uwagę astępujące krytera []:. Cel badaa.. Matematycze własośc zmeych. 3. Statystycze założea dotyczące zmeych. 4. Sposób uzyskaa daych do aalzy. Przy wyborze metody aalzy współzależośc zmeych przydata może okazać sę poższa Tabela pokazująca możlwe metody aalzy zależośc pomędzy zmeym. Tabela -.. Wybór metody aalzy współzależośc welu zmeych []. Metoda aalzy Aalza regresją weloraką Aalza waracj Zmea objaśaa cągła Zmea(e objaśająca(e Zmee cągłe, ale dopuszcza sę także dyskrete. Ogóle przezaczee do opsu zasęgu, keruku sły relacj mędzy klkoma zmeym objaśającym cągłą zmeą objaśaą. cągła zmee jakoścowe. do opsu relacj mędzy cągłą zmeą objaśaą zmeym objaśającym jakoścowym. Aalza kowaracj cągła Kombacje zmeych jakoścowych zmeych cągłych (zmee cągłe jako zmee kotrolowae. do opsu relacj mędzy cągłą zmeą objaśaą zmeym objaśającym symbolczym, mając pod kotrolą cągłe zmee objaśające. Aalza metodą regresj Possoa dyskreta kombacje różych typów zmeych objaśających. do badaa zależośc pomędzy różym zmeym, a tempem zma jakegoś zjawska. Aalza metodą regresj logstyczej dwuwartoścowa kombacje różych typów zmeych objaśających. do badaa zależośc pomędzy zmeą objaśaą przyjmującą tylko dwe możlwe wartośc, a ym zmeym różych typów.

14 Rozdzał -3. Wybór postac rówaa regresj. Przypuśćmy, że posadamy po -pomarów dwóch cech w populacj, cechy Y oraz cechy X. Celem jest oszacowae zależośc zmeej objaśaej Y od zmeej objaśającej X. Dla poszczególych jedostek w próbce moża zapsać wyk pomarów zmeych X Y w postac pary lczb (X, Y = (x, y, gdze umeruje jedostk w próbce. Tak określoe pary lczb możemy aeść a układ współrzędych o osach X Y, uzyskamy w te sposób tzw. dagram puktowy (wykres rozproszea. Następe, ależy wybrać ajodpowedejszy model regresj [], [], [4] dla zależośc opsującej zmaę wartośc oczekwaej odpowedz Y wraz ze zmaą waratu czyka X, czyl podać postać fukcj matematyczej, która ajlepej pasuje do zredukowaego obrazu dagramu puktowego (stąd azwa fukcja regresj. Najczęścej stosowae fukcje regresj mają postać [], [4]: - fukcja lowa f ( x a x b, - fukcja welomaowa, ajczęścej kwadratowa f ( x a x b x c, - fukcja logarytmcza f ( x l( x, (-3. - fukcja ekspoecala f x ( x e, - fukcja logstycza f ( x. x e A. Rozdzał 3. Aalza regresj welorakej właścwośc macerzy korelacyjej. Aalza regresj welorakej jest rozszerzeem prostolowej metody aalzy regresj z jedą zmeą objaśającą [] do aalzy regresj, w której występuje wększa lczba zmeych objaśających. Krótke omówee regresj z jedym czykem zostało podae w Rozdzale 4. Pełejsze omówee modelu regresj klasyczej moża zaleźć w Rozdzale. Aalza regresj welorakej jest trudejsza od aalzy regresj lowej z jedym czykem z astępujących powodów []:. trudo wybrać ajlepszy model, gdy występuje klka możlwych czyków,. trudejsze jest wyobrażee sobe wybraego modelu, co wyka z emożlwośc arysowaa węcej ż trójwymarowego zboru daych, 3. terpretacja wyków jest trudejsza ze względu a trudośc w wyjaśeu zaczea ajlepej dopasowaego modelu, 4. oblczea wymagają użyca szybkch komputerów, aby sprawe wylczyć korelacje pomędzy zmeym. 3

15 Rozdzał 3-. Model regresj welorakej. W przypadku regresj welorakej ależy uogólć model regresj lowej z jedą zmeą objaśającą [] a przypadek wększej lczby zmeych objaśających: Y 0 X X... k X k E, (3-. gdze: β 0, β,, β k to współczyk regresj (parametry strukturale rówaa modelu w populacj, X, X,, X k są zmeym objaśającym lub fukcjam zmeych objaśających, E jest składkem losowym. Grafcza terpretacja regresj welorakej. W przypadku badaa współzależośc pomędzy dwoma zmeym (jedą zmeą objaśającą jedą objaśaą w grafczej terpretacj otrzymalśmy lę a dwuwymarowym wykrese. W przypadku welu zmeych objaśających lczba wymarów wyos k +, gdze k jest lczbą tych zmeych. W przypadku, gdy mamy tylko dwe zmee objaśające otrzymujemy wykres trójwymarowy, a którym model regresj będze lustroway płaszczyzą. W przypadku wększej lczby zmeych objaśających lustracja grafcza zależośc staje sę emożlwa. Dla lczby zmeych objaśających k przeprowadza sę róweż badae korelacj mędzy wszystkm kombacjam par zmeych (p. dla zestawu zmeych Y, X, X, X 3 tworzymy astępujące kombacje: (Y, X, (Y, X, (Y, X 3, (X, X, (X, X 3, (X, X 3. Zawsze jedak rówae regresj ależy rozumeć jako zwązek podający zależość wartośc oczekwaej (Część IV, Rozdzał warukowej E( Y X, X,..., Xk zmeej objaśaej Y od każdej specyfczej kombacj zmeych objaśających. Np. dla każdej pary wartośc zmeych X X mamy określoy rozkład zmeej Y z określoą wartoścą oczekwaą warukową E( Y X, X oraz waracją warukową E Y X X Y X, X ( Y X, X, Y X, X. Dlatego dla odpowedz Y dwu czyków X, X, rówae regresj jest reprezetowae grafcze przez powerzchę zależośc wartośc oczekwaych warukowych zmeej Y od tych czyków. Fukcja regresj Perwszego rodzaju. Nech cąg wartośc x, x,, x k jest realzacją zmeych objaśających X, X,, X k. Warukowa wartość oczekwaa E( Y x, x,..., xk, traktowaa jako fukcja wartośc x, x,, x k czyków X, X,, X k, jest azywaa fukcją regresj (Perwszego rodzaju. Zadae. Nech X E(X Y E(Y oraz X (X Y (Y są, kolejo, ogólą wartoścą oczekwaą oraz odchyleem stadardowym zmeej Y X oraz ech XY jest współczykem (lub średej warukowej teoretyczej w próbe 4

16 korelacj lowej Pearsoa zmeych X Y (określoym w Rozdzale 3- oraz -- []. Pokazać, że gdy rozkład dwuwymarowy (X, Y jest ormaly (Część IV, Rozdzał, wtedy E ( Y x jest fukcją lową x: Y Y x E( Y x Y ( x X, (3-.3 X atomast waracja warukowa wyos: x Y Y, (3-.4 co ozacza, że jest oa taka sama (jedoroda dla wszystkch waratów x zmeej X. Parametr Y E ( Y Y jest (ogólą waracją zmeej losowej Y []. Wosek. W aalze regresj zmeej Y względem X, w przypadku gdy rozkład dwuwymarowy (X, Y jest ormaly, fukcja regresj E ( Y x jest lowa, a przed przystąpeem do aalzy ależy przeprowadzć test jedorodośc waracj. Założea klasyczego modelu regresj welorakej (KMRW dla metody ajmejszych kwadratów (MNK []:. Istee: Dla każdej kombacj wartośc zmeych objaśających X, X,, X k, zmea objaśaa Y jest (jedozaczą zmeą losową z określoym rozkładem prawdopodobeństwa posadającym skończoą wartość oczekwaą warację.. Kotrolowae wartośc czyków: Tak jak w typowym klasyczym modelu regresj lowej [], zmeą losową jest zmea Y, podczas gdy zmee X,X,,X k są zmeym (elosowym kotrolowaym. 3. Lowość regresj: Warukowa wartość oczekwaa E( Y X, X,..., Xk zmeej Y dla każdej określoej kombacj zmeych objaśających X, X,, X k jest lową fukcją tych zmeych: lub: Y E( Y X, X,..., X X X... k X k k (3-.5 Y X, X,..., X k 0 0 X X X E, (3-.6 gdze E jest składkem losowym 3 będącym odzwercedleem różc mędzy realzacjam empryczym zmeej Y, a wartoścam teoretyczym średch k k Y X, X,..., X k zmeej Y. Rówae regresj (3-.5 opsuje tzw. powerzchę regresj. Stałe β 0,β,,β k są ezaym parametram populacj, atomast składk losowy E jest zmeą losową eobserwowaą bezpośredo. Kosekwecją zastosowaa MNK dla modelu regresj w populacj jest zerowae sę wartośc oczekwaej składka losowego E E X, X,..., X 0, co mało swój wyraz w (3-.5. ( k 3 W skrypce ozaczamy składk losowy lterą E (za agelskm: error. Chocaż ozaczee to pokrywa sę z symbolem E wartośc oczekwaej, to borąc pod uwagę kotekst, e powo to prowadzć do eporozumeń. 5

17 4. Nezależość: Obserwacje zmeej objaśaej Y są od sebe ezależe, tz. poszczególe obserwacje zmeej Y e zależą od wartośc otrzymaych wcześej. Wtedy, gdy klka obserwacj zmeej Y jest dokoaych a tej samej jedostce zborowośc [], założee to jest a ogół aruszoe. 5. Stałość rozproszea (homoscedastyczość: Waracja (warukowa zmeej Y dla dowolej ustaloej kombacj zmeych X, X,, X k jest taka sama (jedoroda dla wszystkch rozkładów warukowych, tz.: lub: Y X, X,..., X Var ( Y X, X,..., X k k E (3-.7 E X, X. (3-.8,..., X k E 6. Normalość: Dla dowolej ustaloej lowej kombacj zmeych X, X,, X k, zmea Y ma rozkład ormaly, tz. Y ~N(, (3-.9 Y X, X,..., X k E lub rówoważe (dla regresj lowej: E ~N(0, E. (3-.0 Dla modelu regresj (welorakej założee ormalośc e jest koecze dla wyzaczea puktowych oszacowań metody ajmejszych kwadratów (MNK parametrów modelu regresj, ale a ogół jest wymagae oo do woskowaa. Wyraźe odejśce od rozkładu ormalego daje błęde wyk. Gdy założee o ormalośc jest słabo spełoe, ależy poszukać trasformacj zmeej Y (typu: logy, Y, która w przyblżeu posada rozkład ormaly. Założee o ormalośc rozkładu jest stote dla estymacj woskowaa, co jest spowodowae posługwaem sę rozkładem t-studeta F-Sedecora. Tylko gdy rozkłady warukowe są ormale, MNK abera charakteru probablstyczego, stając sę szczególym przypadkem metody ajwększej warygodośc (MNW [5]. Macerzowe ujęce klasyczego lowego modelu regresj wraz z wyprowadzeam wykającym z zastosowaa MNK, zostało przedstawoe w Rozdzale. W Rozdzałach od 0 do 5 przedstawoo aalzę własośc reszt klasyczego modelu regresj oraz zaprezetowao dzałae testów ezależośc reszt ch ormalośc. Omówee testu Goldfelda - Quadt a jedorodośc reszt modelu regresj moża zaleźć w [4]. W Rozdzale 6 omówoo test Bartlett a jedorodośc reszt. Rozważaa do Rozdzał 8, zawerają główe omówee podstawowych metod dla selekcj klasyczego modelu regresj. 6

18 Rozdzał 3-. Macerz korelacyja, współczyk korelacj zupełej współczyk korelacj cząstkowej. Współczyk korelacj lowej Pearsoa (zupełej, całkowtej pomędzy zmeym X, X j jest zdefoway w populacj astępująco []: cov( X, X j X X, (3-. j ( X ( X j gdze (X oraz (X j są odchyleam stadardowym zmeych X oraz X j cov( X, X j E ( X E( X ( X E( X jest ch kowaracją. j j w populacj, a Nech C jest macerzą korelacj [] dla układu zmeych Y, X, X,, X k,: gdze atomast YX X C X X X Y Y Y Y k YX X X X k X YX X X X k X YX k X X k X X k (3-. jest współczykem korelacj lowej Pearsoa, pomędzy zmeą Y, a zmeą X, jest współczykem korelacj lowej Pearsoa pomędzy zmeym X, X j, X j X X X j (, j =,,, k. Z postac (3-. wyka, że macerz korelacj jest symetrycza. Uwaga. Neco węcej formacj dotyczących własośc estymatora (empryczego współczyka korelacj lowej Pearsoa R ˆ, (--.54, parametru, w tym dotyczących jego rozkładu, moża zaleźć w Rozdzale --. Zarówo wartość parametru jak wartość w próbce r estymatora R jest lczbą bezwymarową z przedzału,. Rozdzał 3--. Współczyk korelacj cząstkowej. Współczyk Pearsoa określa lową zależość pomędzy zmeym X, X j, ale zależość ta zawera w sobe róweż pośred wpływ pozostałych zmeych. W celu aalzy współzależośc pomędzy, powedzmy, zmeym Y X, przy wyłączoym 4 (zatem kotrolowaym 5 wpływe zmeych X, X,, X -, X +,, X k, oblcza sę współczyk korelacj cząstkowej []: 4 Wyłączoy jest wpływ czyków X, X,, X -, X +,, X k, z korelacj zmeych Y X. 5 Po wprowadzeu zmeej do aalzy, kotrolowae są jej wartośc. 7

19 d YY d YX C YX X X... X X... X, (3--.3 k C C d X X d gdze C jest dopełeem algebraczym elemetu wyzaczka detc. X X j Rzędem współczyka korelacj cząstkowej azywamy lczbę zmeych pod kotrolą. Np. współczyk zerowego rzędu to, współczyk perwszego rzędu to, współczyk drugego rzędu to X X X j k X l X X j. Ozaczając, dla jasośc zapsu, zmee kotrolowae astępująco X =Z, X =Z, td., a teresujący as czyk X =X, możemy współczyk korelacj cząstkowej odpowedz Y wybraego czyka X, zapsać astępująco: YX ZZ... Z l, (3--.4 gdze l jest lczbą zmeych kotrolowaych (l = k. Współczyk korelacj cząstkowej pomędzy wyróżoym zmeym (które są po lewej stroe kresk w dekse określają zależość pomędzy dwema zmeym przy wyłączeu dzałaa zmeych X X j X X X j k kotrolowaych (które są po prawej stroe kresk w dekse. Zatem współczyk korelacj cząstkowej mogą przedstawać faktyczą zależość mędzy badaym zmeym, czego e moża powedzeć o współczykach korelacj zupełej. Czasam różce pomędzy tym współczykam są a tyle duże, że zastosowae tylko współczyków korelacj zupełej mogłoby prowadzć do zaczących błędów w aalze współzależośc. Uwaga: Jeśl lczba l zmeych kotrolowaych jest mejsza ż k-, wtedy róweż moża skorzystać z zależośc (3--.3, jedakże ależy to uczyć dopero po wcześejszym skreśleu z macerzy C (3-. odpowedch werszy kolum dla zmeych, które e są brae pod uwagę jako kotrolowae. Zachodz waże twerdzee zgode, z którym [], [6]: XY Z Z... Zl X X Z Z Z l Y..., Y ZZ... Z l. (3--.5 Mów oo o tym, że cząstkowy współczyk korelacj dla zmeych X Y, przy kotrolowaym wpływe grupy zmeych Z, Z,..., Z l (l -, jest rówy współczykow korelacj zupełej pomędzy resztam pozostałym z dopasowaa zmeej X do grupy zmeych Z, Z,..., Z l, a resztam pozostałym z dopasowaa zmeej Y do grupy zmeych Z, Z,..., Z l. Twerdzee to dobrze lustruje azywae zmeych, dla których lczymy korelację jako dostrojoych (dopasowaych rówaem regresj do zmeych kotrolowaych. 8

20 Ze zwązku (3--.3 moża otrzymać p. astępujące wzory a współczyk korelacj cząstkowej: a dla trzech zmeych (X, Y, Z [] (pokazać: YX Z YX ( YZ YZ XZ ( XZ (3--.6 b dla czterech zmeych (X, Y, Z, Z []: YX Z Z YX Z ( YZ Z YZ Z ( XZ Z XZ Z. (3--.7 Zatem współczyk korelacj wyższego rzędu moża otrzymać ze współczyków korelacj ższego rzędu. Rozdzał 3--. Półcząstkowe współczyk korelacj cząstkowej. Współczyk korelacj cząstkowej azywae są róweż pełym współczykam korelacj cząstkowej. Nazwa ta jest zwązaa z tym, że obe zmee, dla których oblcza sę korelacje są dopasowae do zmeych kotrolowaych, w odróżeu od tzw. półcząstkowych współczyków korelacj cząstkowej. Półcząstkowe współczyk korelacj cząstkowej są to współczyk, w których tylko jeda zmea z dwóch zmeych (dla których oblcza sę korelacje jest dostrojoa do zmeych kotrolowaych. Półcząstkowy współczyk korelacj cząstkowej pomędzy zmeym Y X, gdy tylko zmea X została dopasowaa do zmeej Z, defujemy astępująco []: Y ( X Z Y, X X Z (3--.8 co jest rówoważe zależośc []: Y ( X Z YX YZ XZ XZ. (3--.9 Aalogcze moża zapsać półcząstkowy współczyk korelacj cząstkowej pomędzy zmeym X Y, gdy tylko zmea Y jest dopasowaa do zmeej Z: X ( Y Z X, Y Y Z YX XZ YZ YZ (3--.0 Rozdzał Współczyk korelacj welorakej (welokrotej, welowymarowej. Współczyk korelacj welorakej określa współzależość pomędzy zmeą X, a kompletem pozostałych zmeych. Isteje astępujący zwązek pomędzy współczykem korelacj welorakej, a wszystkm współczykam korelacj cząstkowej []. 9

21 X X X... X X... X k ( X X ( X X X ( X X X X... X ( X X X X... X ( X X X X... X X... k (3--3. Współczyk korelacj welorakej jest zawsze dodat. Wyraża o ścsłość zwązku pomędzy teresującą as zmeą, a całokształtem ych uwzględoych zmeych. Z powyższej postac wdać jedokrote brae pod uwagę wpływu każdej ze zmeych wybraą zmeą X. Jeśl jest o blsk, to zmeość zmeych prawe całkowce zmeość wybraej zmeej X k X X X... X X... X k X, X,..., X, X,..., X k, a X, X,..., X, X,..., X k określa X, a wpływ ych zmeych jest bez wększego zaczea. Jeżel atomast jest o dalek od jedośc, to ozacza, że steje jeszcze wpływ ych zmeych, których e wzęlśmy pod uwagę. Przez R X X X... X X... X k będzemy ozaczal estymator współczyka korelacj welorakej. Natomast przez X X X... X X... X k r X X X... X X... X k będzemy ozaczal wartość R X X X... X X... X k przyjętą w próbce. W dalszej częśc rozważań zwrócmy uwagę a zaczee w aalze regresj zarówo współczyka korelacj welorakej R X X X... X X... X k, gdze wszystke zmee są czykam wprowadzoym do modelu regresj, oraz a zaczee współczyka korelacj welorakej Y z tym czykam. R Y X X... X... X k zmeej objaśaej Rozdzał 3-3. Wyzaczae ajlepszych estymatorów rówaa regresj welorakej w MNK. Sedem MNK jest wyzaczee oszacowań parametrów modelu regresj, dla których suma kwadratów różc mędzy wartoścam empryczym Y, a wartoścam wyzaczoym przez model Ŷ jest mmala. W klasyczej metodze ajmejszy kwadratów (KMNK, stąd w klasyczym modelu regresj, czyk e są zmeym losowym. Rozdzał Rówae regresj welorakej metoda ajmejszych kwadratów. Postać modelu regresj (3-. (zapropoowaa w populacj, a przeesoa a próbę, jest astępująca: Y ˆ ˆ X ˆ X... ˆ k X k Eˆ 0. (

22 Dla -tego pomaru w próbe, zapsujemy te model astępująco: gdze Y ˆ ˆ ˆ ˆ ˆ 0 X X... k X k E, =,,...,, ( Ê jest tzw. składkem resztowym. Zatem rówae regresj II-go rodzaju, określające postać teoretyczych średch warukowych Ŷ w próbe, ma postać: co dla -tego pomaru w próbe, moża zapsać astępująco: Yˆ ˆ ˆ ˆ, ( ˆ 0 X X... k X k, =,,...,. ( Z KMNK (w której jak wemy czyk e są losowe wyka róweż, że pukt ( X, Y róweż speła rówae regresj: gdze: Y X ˆ ˆ ˆ ˆ ˆ 0 X X... k X k ( s X s, s =,,..., k ( są średm arytmetyczym (elosowych czyków, kolejo X, X,, X k, oraz Y Y jest średą arytmetyczą zmeych Y.. ( Jeśl oszacowujemy parametry β 0,β,,β k przy pomocy estymatorów, wtedy dla -tej obserwacj w próbe, właścwym oszacowaem składka losowego E w (3-. jest składk resztowy: gdze Y jest zmeą losową obserwowaą dla -tego pomaru w próbe., =,,,, ( Aby wyzaczyć postace estymatorów ˆ, ˆ,..., ˆ ależy zaleźć mmum sumy kwadratów: dla odchyłek SSE Eˆ Y warukowych Yˆ []. Yˆ ˆ ˆ X Eˆ ˆ 0 ( Y Yˆ ( Y ˆ ˆ X ˆ X... ˆ X, ( Y (tzw. reszt lub błędów wartośc empryczych k k Y od teoretyczych średch Rówae regresj wyzaczoe w klasyczej metodze ajmejszych kwadratów (KMNK daje teoretycze średe warukowe: Y Yˆ Yˆ ˆ ˆ X k X k będące lową kombacją czyków X, X,, X k, w tak sposób, że korelację ze zmeą objaśaą Y. Iaczej mówąc kombacja ˆ Y ( ˆ ˆ X 0 ˆ Y 0 k k ˆ 0 k X k k ˆ, ˆ,..., ˆ, ( Yˆ 0 k mają możlwe jak ajwększą ˆ ˆ X ˆ 0 k X k ma z wszystkch

23 możlwych lowych kombacj a 0 + a X + a X + + a k X k zmeych objaśających, maksymalą r Y, Y ˆ wartość współczyka korelacj welorakej (welokrotego współczyka korelacj R Y R X, X,..., X k Y, Yˆ, (3--3.: R Y, Yˆ ( Y Y ( Yˆ Yˆ ( Y Y ( Yˆ Yˆ, ( zmeej objaśaej Y z kompletem czyków X, X,, X k, gdze wartość zmeej Y, a Yˆ jest średą zmeych Yˆ []. Yˆ to przewdywaa modelem regresj Estymatory poszczególych parametrów strukturalych w KMNK są eobcążoe [] oraz są lowe ze względu a wartośc zmeych Y, przy czym zgode z twerdzeem Gaussa-Markowa posadają oe, w klase tych estymatorów, ajmejszą możlwą warację, tz. są estymatoram efektywym [7], []. Poeważ każdy estymator jest lową fukcją wartośc zmeych Y, zatem gdy Y mają rozkład ormaly są statystycze ezależe, to a podstawe twerdzea o addytywośc rozkładu ormalego [], estymatory ˆ ˆ ˆ ˆ,,, k ˆ ˆ,,, k mają róweż rozkład ormaly. Zadae: Pokazać, że Y Yˆ. ( Rozdzał Współczyk determacj jako mara dopasowaa modelu do daych empryczych. Netrudo pokazać, że w MNK zachodz astępujące, fudametale rówae rozkładu całkowtej sumy kwadratów: SSY SSR SSE. ( W rówau tym SSY : SSY ( Y Y ( jest całkowtą (ogólą sumą kwadratów, określającą ogólą zmeość zmeej objaśaej. SSE (suma kwadratów reszt, błędów jest zmmalzowaą sumą kwadratów reszt (3--.9 dla badaego modelu: atomast SSR: SSE SSR ( Y Yˆ ( ( Yˆ Y (

24 jest sumą kwadratów modelu regresj, określającą zmeość zmeej objaśaej wyjaśoą fukcją regresj. Lczba stop swobody dla sum kwadratów SS. Lczba ezależych zmeych, ezbęda do wyzaczea powyższych sum kwadratów SS, czyl ch lczba stop swobody (l.st.sw. lub df od degrees of freedom, jest astępująca. a Ze względu a jedo ograczee a zmeey, płyące z postac wążącej je średej arytmetyczej Y Y, suma SSY ( Y Y ma: df SSY = -. (df SSY ( b Suma SSR ( Yˆ Y ma: df SSR = k. (df SSR ( Stwerdzee to wyka z tego, że w KMNK dla określea SSR wystarczy k formacj a temat estymatorów ˆ ˆ,..., ˆ, k współczyków kerukowych uzyskaych z próby df SSY []. Łatwo sprawdzć powyższe stwerdzee, gdyż wykorzystując ( oraz ( w SSR, wdzmy, że SSR zależy jedye od k estymatorów ˆ ˆ,..., ˆ, k, których wartośc trzeba określć z próby. c Rówae ( , SSY SSR SSE, wymusza aby lczba ezależych zmeych ezbęda do wyzaczea występujących w m sum kwadratów SS, była rówa po jego prawej lewej stroe. Dlatego rówae to pocąga za sobą rówae dla lczby stop swobody (df: to zaczy: skąd wyka, że df SSY = df SSR + df SSE, ( = k + df SSE, SSE ( Y Yˆ ma: df SSE = ( k. ( Współczyk determacj. Kwadrat współczyka korelacj welorakej R R, (3-3-.3: Y, Yˆ R Y, Yˆ R ( jest azyway współczykem determacj. W przypadku jedego czyka X, współczyk korelacj welorakej (Rozdzał -. R R sprowadza se do współczyka korelacj lowej Pearsoa pary zmeych X Y [] Y, Yˆ 3

25 Moża pokazać, że w klasyczym modelu regresj, współczyk determacj speła astępujący zwązek []: R Y, Yˆ SSR SSY ( Yˆ Y ( Y Y ( Y Y ( Y Y ( Y Yˆ SSY SSE. ( SSY Jako kwadrat współczyka korelacj R, współczyk determacj R przyjmuje wartośc r z przedzału 0, [], przy czym wartośc blske jedyce ozaczają dobre dopasowae modelu do daych empryczych. Istote, w MNK mmalzowaa jest suma kwadratów błędów SSE (która jest w ogólośc róża od zera. Model dealy jest określoy jako tak, dla którego SSE = 0, co podstawając do wzoru ( daje: (dla modelu dealego. ( Isteją pewe podobeństwa ale różce w posługwau sę współczykem korelacj R współczykem determacj R. R jest marą sły zwązku lowego pomędzy zmeym. Tylko w astępującym zrozumeu r może być marą sły zwązku elowego. Otóż, może sę zdarzyć, że r przyjmuje wartośc blske dla pewej, elowej w zmeych perwotych fukcj regresj dopasowaej do daych empryczych. Ne staow to jedak o sle wspomaego elowego zwązku pomędzy czykam a zmeą objaśaą Y (p. o sle zwązku kwadratowego, lecz o sle zwązku lowego zmeej Y z owo określoym zmeym, które są tak zdefowae, aby wchodzły lowo w fukcję regresj. Gdy p. zmea kwadratowa X zostae zastąpoa ową zmeą X X, to wtedy owa zmea X wchodz już lowo. Po takej zamae zmeych rozważamy już lową regresję Y względem X przez R określaa jest róweż sła zwązku lowego pomędzy X a Y. Zatem w aalze z wykorzystaem R, elowe fukcje czyków perwotych są traktowae jako owe zmee wchodzące lowo. r SSY SSE SSY SSY 0 SSY Uwaga: W regresj elowej, po wprowadzeu w mejsce perwotych zmeych, wchodzących elowo w rówae regresj, owych zmeych, które wchodzą lowo w rówae regresj, zwązek ( okazuje sę być róweż słuszy. Oczywśce po takej zamae zmeych, lczba czyków(z których wszystke wchodzą lowo w rówae regresj a ogół wzrasta. Uwaga. Dodatkowe uwag a temat learyzacj model elowych w czyku moża zaleźć p. w [4]. Uwaga. SAS [3] dyspouje róweż proceduram aalzy model elowych w parametrach modelu. Jedą z ch jest PROC NLIN [9]. 4

26 Rozdzał Test stotośc zmeych w modelu regresj. Dla modelu regresj z k czykam: stawamy hpotezę zerową: ( H 0 : 0 ( o estotośc zmeych X w tym modelu. Hpoteza ta jest pytaem o estotość zależośc korelacyjej pomędzy zmeą objaśaą Y, a grupą zmeych objaśających X, X,, X k. Istote, gdyby bowem hpoteza zerowa była prawdzwa, to zgode z (3-.5 melbyśmy, że wszystke warukowe wartośc oczekwae są take same ( rówe ogólej wartośc oczekwaej dla wszystkch możlwych kombacj wartośc zmeych objaśających X, X,, X k, co ozacza właśe brak zależośc korelacyjej zmeej objaśaej od zmeych objaśających. Celem testu statystyczego dla hpotezy zerowej ( jest węc wyelmowae z modelu jedocześe całej grupy zmeych X, X,, X k, o le występowae ch e ma stote statystyczego wpływu a zmaę teoretyczej średej warukowej zmeej Y. Test te dotyczy róweż weryfkacj przypuszczea, że e steją żade zmee pośród czyków X, X,, X k wprowadzoych do modelu, które dają stote statystycze lepsze dopasowae sę modelu do daych empryczych, ż czy to model Y E. Aby przeprowadzć tak test ależy oblczyć statystykę F (operając sę o tzw. tablcę ANOVA dla modelu regresj []: MSR F MSE ( SSY SSE/ k R / k, ( SSE /( k ( R /( k gdze R jest współczykem determacj ( []. Zakładając, że zmee Y mają rozkład ormaly (jak to czymy w ormalym, klasyczym modelu regresj, moża pokazać, że przy prawdzwośc hpotezy zerowej H 0 statystyka F ma rozkład F-Sedecora z lczbą stop swobody lczka df SSR = k, (df SSR, maowka df SSE = -k-, (3-3-.4, tz. ma rozkład F k,-k-. Wyzaczoą a podstawe obserwacj (obs w próbce wartość statystyk F porówujemy z wartoścą krytyczą F k, -k-,-α, gdze w dekse dolym α ozacza przyjęty pozom stotośc, k = df SSR oraz -k- = df SSE. Gdy w próbce 6 Y 0 X X k X k SSR / df SSE / df SSR SSE Y X, X,..., X k 0 k E F = F obs F k, -k-, -α (co ozacza, że F obs wpadła do zboru krytyczego Y W F k, k,,, wtedy odrzucamy hpotezę H 0 a rzecz hpotezy alteratywej H woskujemy o właścwym doborze zmeych objaśających. Ozacza to, że grupa zmeych X ( =,,...k stote statystycze wpływa a zmeość Y, a dokłade rzecz ujmując, grupa zmeych X ( =,,...k (tz. 6 Jeśl to będze jase, to zamast psać w próbce F obs, będzemy psać po prostu F. 5

27 przyajmej jeda z ch wpływa stote statystycze a zależość teoretyczych średch warukowych Ŷ od wartośc zmeych X. W przecwym przypadku, tz. gdy w próbce F < F k,-k-,-α, wtedy e mamy podstaw aby odrzucć hpotezę zerową H 0, o braku korelacj pomędzy zmeą zależą Y, a całą grupą czyków X ( =,,...k. Alteratywym, a ogół w skrypce stosowaym sposobem weryfkacj hpotezy H 0 jest oblczee empryczego pozomu stotośc (tzw. p-value, określoego jako prawdopodobeństwo [9]: p = P(F F obs. ( Wartość p jest podaa przez pole pod krzywą rozkładu zmeej losowej F k,-k-, a prawo od wartośc F obs będącej obserwowaą w próbce wartoścą statystyk F. W przypadku gdy p, wtedy odrzucamy hpotezę H 0 a rzecz hpotezy alteratywej H, atomast gdy p, e mamy podstaw do odrzucea hpotezy zerowej H 0. Uwaga. Przypadek woskowaa, że co ajmej jeda ze zmeych objaśających jest w modelu zbęda (statystycze estota ależy ją wyelmować z rówaa regresj, ustalając tym samym owy skład zmeych objaśających, pozostawamy a późej (Rozdzał 4---, Rozdzał 6. A. Rozdzał 4: Welomaowa aalza regresj. Aalza za pomocą regresj welomaowej jest stosowaa w przypadku, gdy zmea objaśaa jest co prawda zależa tylko od jedej zmeej objaśającej, jedak model regresj lowej może e być dokłady w wymagaym stopu. Wówczas do lowego modelu regresj moża dodać zmeą wyższego rzędu (X, X 3, td. tak, że model ma postać: E. (4. Następe, w rówau modelu zameamy zmee wyższego rzędu a owe zmee postac: X =X, X 3 =X 3,, X k =X k, otrzymując: E. (4. W powyższym modelu zmee X, X 3,, X k e są dowolym zmeym lczbowym, tylko fukcjam zmeej podstawowej X: X =X. Parametry strukturale lowej. Y X X 0 Y X 0, 0, X k X 3 X X modelu (4. są już współczykam modelu welorakej regresj Uwaga: Model regresj welomaowej (4. ese za sobą trudośc oblczeowe polegające a tym, że w modelu (4. występuje sla korelacja pomędzy zmeym X, X,, X k. k X k k k Najprostszym modelem regresj welomaowej jest model kwadratowy: Y 0 X X E. (4.3 6

28 Rozdzał 4-. Metody oblczaa parametrów strukturalych modelu welomaowego. Rozdzał 4--. Procedura ajmejszych kwadratów dla modelu parabolczego. Procedura ajmejszych kwadratów dla modelu welomaowego ma a celu mmalzację odchyleń wartośc empryczych od wartośc a krzywej regresj. Rozważmy model parabolczy: Yˆ ˆ ˆ X ˆ X 0 w którym estymatory ˆ 0, ˆ ˆ, wyzaczymy metodą ajmejszych kwadratów. (4--.4 Uwaga Należy pamętać, że stosując MNK w mmalzacj sumy kwadratów reszt modelu parabolczego: SSE ( Y Yˆ ( Y ˆ ˆ X ˆ X. (4--.5 rówae (4--.4 traktujemy jako rówae lowej regresj welorakej: 0 X X 0 Yˆ ˆ ˆ ˆ, (4--.6 gdze X =X, X =X tak, że to wartośc owych zmeych X oraz X są wprowadzoe jako układ daych do aalzy MNK. Pamętając o tym, będzemy stosowal zaps welomaowy (4--.4 zamast ( Wykres 4-.. Przykład dopasowae l regresj modelu parabolczego do przykładowych daych empryczych. Rozdzał 4--. Testy dla regresj welomaowej (a przykładze modelu parabolczego. Rozdzał Test stotośc modelu regresj welomaowej. Hpoteza zerowa H 0 : Ne steje zależość korelacyja zmeej zależej Y od grupy zmeych X X. Tz. e steje stota statystycze regresja oparta a zmeych X X. 7

29 Hpotezę tą moża sformułować astępująco: H 0 : β =β =0. ( Podobe jak w Rozdzale 4, aby zweryfkować tę hpotezę, korzystamy ze statystyk F: MSR F MSE, ( która przy prawdzwośc hpotezy zerowej H 0 ( ma rozkład F-Sedecora z lczbą stop swobody lczka k maowka -k- (gdze dla modelu parabolczego k =. Otrzymaą w próbce wartość F obs porówujemy, dla daego pozomu stotośc, z wartoścą krytyczą F k,-k-,-α rozkładu F-Sedecora. Uwaga. Poeważ badaa hpoteza dotyczy ogólego braku zależośc korelacyjej zmeej objaśaej, dlatego statystykę F azywamy statystyką ogólą, lub statystyką dla testu ogólego (w odróżeu od statystyk F p wprowadzoej pożej dla testów częścowych. Jako loścową marę dokładośc dopasowaa modelu do daych empryczych (dokładośc modelu, możemy dodatkowo oblczyć współczyk determacj R (( wraz z Uwagą 5--.: R (modelu parabolczego SSY -SSE SSY (modelu parabolczego ( Rozdzał 4---.Test celowośc dodawaa zmeej objaśającej wyższego stopa. Aby sprawdzć celowość rozbudowy modelu welomaowego stawamy astępującą hpotezę zerową: H 0 : Model wyższego rzędu e dopasowuje sę stote lepej do daych empryczych lub H 0 : β k+ =0, dla rozszerzea modelu o k-zmeych do modelu z k = k + zmeym. Powyższa hpoteza zerowa ozacza, że dodae wyższego stopa zmeej objaśającej do modelu e zmea zacząco predykcj zmeej Y w porówau do modelu ższego rzędu. W przypadku tym oblczamy w próbce wartość statystyk częścowej (deks p F-Sedecora zadaą wzorem []: F p F( X ( SSR k k ( dla k ( dla k SSdodaejzmeej / X, X,..., X MSE SSR ( dla k / MSE ( dla k. ( W przypadku rozszerzea modelu lowego (k = do parabolczego (k =k + =, otrzymaą z próbk wartość powyższej statystyk porówujemy z wartoścą krytyczą F, -3, -α rozkładu F-Sedecora dla stop swobody lczka oraz stop swobody maowka k = - 3 (która jest lczbą stop swobody sumy kwadratów reszt SSE modelu parabolczego. 8

30 Lczbę stop swobody lczka rówą otrzymujemy z odjęca od lczby stop swobody dla sumy kwadratów SSR modelu parabolczego modelu parabolczego (tz. k +, lczbę stop swobody dla sumy kwadratów SSR modelu lowego modelu lowego (tz. k. Uwaga: Lczk statystyk ( jest marą poprawy dopasowaa sę do daych empryczych modelu z (k + zmeym w stosuku do modelu z k zmeym objaśającym. Uwaga: Alteratywy sposób polega a wyzaczeu statystyk t-studeta: ˆ ˆ k k t = /S(, (4---. ˆ k k gdze S( jest estymatorem odchylea stadardowego parametru strukturalego. Ozacza to, że testowaa hpoteza o estotośc rozszerzea p. modelu lowego do parabolczego (rozważaego w celu poprawy dopasowaa do daych empryczych, jest w tym przypadku rówoważa testow a estotość różcy od zera wartośc ostatego estymatora ˆ k parametru strukturalego, co odpowada hpoteze zerowej: H 0 : k 0. (4---. Otrzymaą wartość statystyk t porówujemy z wartoścam krytyczym rozkładu t-studeta dla stop swobody sumy kwadratów reszt SSE modelu wyższego. Okazuje sę, że (wyjątkowo w przypadku testu omawaej hpotezy zerowej H 0 : k 0, czyl testu dla ostatego współczyka kerukowego, zachodz []: t = F p. ( Rozdzał Test braku dopasowaa zastosowaego modelu (Lack-of-ft Test. Test braku dopasowaa przeprowadza sę w celu abyca formacj, czy zapropooway model jest wystarczająco dokłady. Przeprowadzee odpowedego testu polega a porówau zapropoowaego modelu z modelem pełym (zawerającym pozostałą część zmeych objaśających pomętych w propoowaym modelu. Rozważaa hpoteza zerowa jest węc postac: H 0 : β j =0, dla wszystkch j=k+, k+,, m ( gdze k jest stopeem welomau użytego w modelu, a m ajwyższym możlwym stopeem welomau dla daej zmeej objaśającej. Prawdzwość tej hpotezy ozaczałaby, że model podstawowy daje dobre dopasowae fukcj regresj do daych eksperymetalych. 9

31 Statystyka (częścowa F p dla testu tej hpotezy ma astępującą postać[]: F p F( X, X,, X X, X,, X k k m k MS MS gdze: k k m [ SSR ( X, X,, X, X,..., X - SSR ( X, X,, X k k m SSE( X, X,, X, X,..., X / df LOF PE, m MS PE SSE( X, X,..., X / PE ( df ( jest sumą kwadratów czystych reszt SSE podzeloą przez lczbę stop swobody df PE dla SSE. Reszty czyste są wyzaczoe w modelu z maksymalym stopem welomau m. Żade model e da węc mejszej wartośc MS PE ż model maksymaly. W lczku ( statystyka MS LOF jest dodatkową sumą kwadratów wykłą z dodaa do propoowaego modelu ższego (mejszego, wszystkch zmeych wyższego rzędu od Przy prawdzwośc rozważaej hpotezy zerowej ( , statystyka ( ma rozkład F-Sedecora ze stopam swobody lczka: df LOF = m k, oraz maowka: df PE = m. PE k ]/ df LOF k X do X m. Uwaga: Lczk statystyk ( jest marą poprawy dopasowaa sę do daych empryczych modelu maksymalego w stosuku do modelu propoowaego (podstawowego. Waruk przeprowadzea testu ( []. Aby moża było wykoać test ( , ależy wyzaczyć średą MS PE, co (ze względu a maowk w MS PE, ( ozacza, że mus zachodzć relacja df PE = --m > 0. Z zależośc tej atychmast wyka, że mmala lczba pomarów (obserwacj, którą ależy dokoać wyos > m +. W praktyce przyjmuje sę, że 0 + m +. Jeszcze a zasada głos, że lczba obserwacj zmeej objaśaej przypadająca a jedą zmeą objaśającą, e może być mejsza ż 5 (zatem 5 m. Isteje jeszcze ograczee a sumę kwadratów reszt stojącą w lczku ( , m MS PE = SSE (X,X..., X /df PE. m Otóż, aby moża było wykoać powyższy test ( , mus zachodzć erówość SSE (X,X..., X > 0, co w praktyce ozacza, że lczba r tzw. replk (czyl lczby różych wartośc zmeej objaśaej pomejszoa o dla każdego ustaloego tego zestawu wartośc zmeej objaśającej, e może być mejsza ż. Zatem dla kokretego zestawu wartośc zmeych objaśaych, lczba obserwacj zmeej objaśaej e może być mejsza ż. 30

32 Skoro lczba wszystkch replk wyos r l r (gdze l jest lczbą pozomów zmeej X, to mmaly stopeń welomau (modelu maksymalego, który dopasuje sę do daych z mmalym możlwym błędem (czyl błędem czystym próbce. MS PE wyos m = r, gdze jest lczbą pomarów w Gdyby lczba replk r była rówa 0, to co prawda weloma stopa w modelu maksymalym dopasował by sę do daych empryczych w próbce w sposób dealy (SSE (X,X..., X m = 0, jedakże wykoae testu braku dopasowaa byłoby emożlwe (jak to wyka z postac ( Moża by pomyśleć, że aby SSE (X,X..., X m > 0, wystarczy meć jedą replkę dla pewego, kokretego zestawu wartośc zmeych objaśaych. Jedakże gdyby sę ograczyć tylko do tego waruku, to hpoteza o jedorodośc waracj zmeej objaśaej dla różych zestawów wartośc zmeych objaśających (z powodu ewystępowaa replk zmeej objaśaej dla ektórych pozomów, byłaby w sposób oczywsty odrzucoa. Rozdzał 4-. Stosowae model welomaowych wyższych rzędów problemy z tym zwązae Modele wyższych rzędów są oblczae w sposób aalogczy do modelu parabolczego. Ważym problemem jest celowość zwększaa stopa krzywolowośc regresj. Pewej, czysto statystyczej odpowedz dostarcza am wspomay powyżej test braku dopasowaa. Z drugej stroy, chocaż wraz ze wzrostem stopa welomau wzrasta dokładość dopasowaa sę modelu do daych empryczych (w próbce!, jedakże wzrasta też lość ekstremów lokalych krzywej regresj, co ozacza zmejszee sę fukcjoalośc modelu zarówo a skutek komplkacj powstałych w oblczeach jak trudośc terpretacyjych. Np. w badaach w obszarze ekoom jesteśmy zazwyczaj zateresowa modelam, w których występuje mootoczość stosowaych welomaów. Dodatkowo spada dokładość predykcj przyszłych wartośc zmeej objaśaej dla modelu z wyższym stopem welomau. Rozdzał 4-3. Welomay ortogoale. Do tej pory melśmy do czyea z welomaam zwykłym tz. każda z ezależych zmeych była zadaa welomaem zwyczajym będącym sumą jedomaów typu X. W tym pukce wprowadzoe zostaą welomay ortogoale. Podstawowym powodem stosowaa welomaów ortogoalych jest welacja współlowośc zmeych objaśających. Nestety abyce tej własośc łączy sę z komplkacją struktury modelu. Mając weloma zwyczajy zmeych X, X, X,, X k, wprowadzmy ortogoale zmee welomaowe, które składają sę z lowych kombacj jedomaów zwyczajych. Uzyskujemy astępujące lowe kombacje []: 3

33 X X X k 0 0 0k X X X X X k k kk X k (4-3.7 j gdze: -stałe, które są tak dobrae aby zmee były ze sobą param eskorelowae, tz. X X j cov(, = 0, dla każdej pary deksów j. X Otrzymae ortogoale zmee welomaowe X są owym zmeym stosowaym do progozy zmeej objaśaej. Poprzez trasformację odwrotą, róweż welomay zwyczaje możemy zapsać w postac lowych kombacj welomaów ortogoalych: X X X X k 0 0 0k X X k X X kk k (4-3.8 gdze: j - stałe. Ne tracąc formacj możemy zapsać początkowy model welomaowy: w postac: Y X X 0 Y X 0 X X k k X k E k E (4-3.9 (4-3.0 Uwaga : Zysk z zastosowaa welomaów ortogoalych jest oczywsty: welomay zwyczaje są ze sobą moco skorelowae, a welomay ortogoale są param eskorelowae. Uwaga. O ezmeczośc ektórych statystyk: Chocaż parametry czyk (zmee objaśające dla modelu ze zmeym zwyczajym ortogoalym mają róże terpretacje, to moża wykazać, że kwadrat welokrotego współczyka korelacj (współczyk determacj R dla zmeej zależej oraz statystyka F w teśce ogólym są dla obu regresj take same. Nawet ektóre statystyk częścowe F p, a maowce te, zwązae z dodawaem zmeej ajwyższego stopa a końcu, są dla obu regresj take same, co ozacza, że zachodz: * * F p ( X X, X,..., X = F p ( X X, X,..., X. (4-3. 3

34 Musem ortogoalzacj jest skomplkoway zwązek pomędzy zmeym początkowym (których zaczee jest a ogół jase, a zmeym ortogoalym. Reasumując welomay ortogoale posadają dwe podstawowe własośc []:. Zawerają tę sama formacje, co welomay zwyczaje. Własość ta daje am możlwość badaa zależośc za pomocą model ortogoalych welomaów, zgode z Uwagą.. Welomay ortogoale e są ze sobą skorelowae. Własość ta ozacza całkowtą lkwdację korelacj ( współlowośc zmeych objaśających. W przypadku testowaa z użycem statystyk F p, posługwae sę welomaam ortogoalym daje wększą pewość dokładośc oblczeń (ze względu a brak korelacj pomędzy czykam ż w przypadku welomaów zwykłych. Wstępa uwaga o selekcj wprzód wstecz: Aby otrzymać właścwy model, ależy zastosować test częścowy F p począwszy od welomau ajwyższego stopa schodzć do welomaów ższych stop. Testowae kończymy wówczas, gdy wartość statystyk częścowej F p dla testowaego welomau jest stota statystycze, tz. a tyle duża, że wpada w obszar krytyczy, wskazując a wystarczająco dużą stotość badaego modelu. Czasam w praktyce dze sę od dołu, dodając koleje zmee wyższego stopa ( welomaam zwykłym, bądź gdy posługujemy sę X, gdy posługujemy sę welomaam ortogoalym czekając, aż któreś rozszerzee modelu okaże sę statystycze estote (tz. dopasuje sę do daych empryczych w sposób estote lepszy ż ajblższy model ższego stopa. Jedakże procedura taka może prowadzć do mylych wosków, o czym będze mowa pożej (Rozdzał 4-4. X Trasformacja welomaów zwyczajych do welomaów ortogoalych. Trasformację welomaów zwyczajych do welomaów ortogoalych przeprowadza sę przy użycu tabel przelczaa welomaów Tabela 5-. []. Tabela ta może zostać zastosowaa tylko, jeśl []: Koleje wartośc perwotej zmeej objaśającej X są jedakowo od sebe oddaloe. Ta sama lczba obserwacj (węc replk pojawa sę dla każdego pozomu (waratu l zmeej X. Gdy waruk te e są spełoe wówczas Tabela 5-. e może być użyta. Alteratywą dla tej metody jest posłużee sę programam komputerowym do przelczaa welomaów, p. w Systeme SAS używając do tego celu fukcj ORPOL zajdującej sę w procedurze SAS PROC IML. 33

35 Tabela 5-. Przelczaa welomaów zwyczajych a ortogoale [] (l - lczba pozomów zmeej. l STOPIEŃ WIELOMIANU Perwszy - 0 Drug Perwszy Drug Trzec Perwszy Drug Trzec Czwarty Perwszy Drug Trzec Czwarty Pąty Perwszy Drug Trzec Czwarty Pąty Szósty Perwszy Drug Trzec Czwarty Pąty Szósty Sódmy Perwszy Drug Trzec Czwarty Pąty Szósty Sódmy Ósmy Perwszy Drug Trzec Czwarty Pąty Szósty Sódmy Ósmy Dzewąty X * l p 34

36 Założee: Nech układ daych będze astępujący: zmea objaśająca ma l pozomów (waratów, a każdemu z ch odpowada taka sama lczba obserwacj zmeej objaśaej, z lczbą replk dla l każdego pozomu rówą. Wtedy odpowed stopeń welomau dla modelu maksymalego jest l rówy m = r = l ( - = l, gdze ( - jest lczbą replk dla jedego pozomu. Zatem l l lczba zmeych ortogoalych, które ależy wząć pod uwagę wyos l. Układ Tabel 5-. jest tak, że koluma po jej prawej stroe zawera odpowedą dla każdej zmeej ortogoalej wartość p (l lczba waratów zmeej objaśającej, która jest sumą kwadratów odchyleń wartośc zmeej ortogoalej od jej wartośc średej (rówej zero, jak to wdać z powyższej Tabel. Podzelee zmeych ortogoalych przez odpowedą dla każdej z ch wartość odchylea stadardowego l l stadardowe, dla każdej z ch, rówe. p, pozwala a przejśce do zmeych ortoormalych, mających odchylee W zwązku z powyższą uwagą, otrzymae wyk w aalze regresj ze zmeym zortoormalzowaym mają dwe cechy: Ulepszoa jest umerycza dokładość poprzez ukęce problemu skalowaa (o skalowau eco dalej w Rozdzale 5-5. Szacowae błędy stadardowe wszystkch oszacowywaych współczyków regresj są rówe, co upraszcza porówywae terpretację współczyków regresj. Uwaga. Iym, aczkolwek mej skuteczym sposobem a zmejszee korelacj pomędzy zmeym objaśającym jest trasformacja zmeych przez scetrowae opsae w Rozdzale 5-5 (pukt Ad.4 oraz w Rozdzale 6 Wybór ajlepszego modelu regresj. Przykład. Dla zlustrowaa Tablcy 5-. przelczmy wartośc zmeych ortogoalych w ajprostszym przypadku welomau drugego stopa (z lczbą pozomów zmeej X oraz X rówą l = 3. Lczba wszystkch obserwacj w próbce wyos. Załóżmy, że lczba obserwacj jest taka sama w każdym warace zmeej X (zatem w każdym warace zmeej X wyos /l dla każdego waratu. Zgode z założeem potrzebym przy kostrukcj Tablcy 5-., przyjmjmy, że zmea X ma rówo rozstawoe waraty, p: 35

37 Wtedy: Zgode z (5-0a mamy: x X x. (4-3. x3 3 X X X x x x X X. (4-3.3 X, (4-3.4 gdze 0, 0. * Waruek ałożoy a zmee ortogoale ma postać: cov( X, X = 0. Ozacza o, że przy braku ego ograczea, zmee mogą być wyzaczoe jedye z dokładoścą do różych od zera multplkatywych stałych oraz z dokładoścą do stałych addytywych, które moża przyjąć jako p. średe * X zmeych. * * X * X * X Istote: oraz: cov( a X *, b X * = a b cov( X *, X * = 0 (4-3.5 * * cov( X c X d = cov( X *, X * = 0. (4-3.6, * X * X Zatem jeśl zmee są ortogoale, to ortogoale są róweż zmee * a X * * * b, ( a 0, b 0, oraz zmee X c X (stałe c d są dowole. X d * Waruek cov( X, X * = 0, moża zapsać jako: cov( X *, X * = cov( 0 X, 0 X X = cov( X, X X = cov( X, X + cov( X, X = ( cov( X, X + cov( X, X = 0. 36

38 Poeważ z założea 0, 0, zatem powyższa rówość jest spełoa wtedy tylko wtedy, gdy: cov( X, X =. (4-3.7 cov( X, X W zwązku z założeem (dla aszego przykładu, że dla każdego -tego waratu, lczba obserwacj jest rówa /l, mamy w pobraej próbce: X X x x x l l 3 = x = x = x 3, l 3 3 l l l 3 = x = x = x = x 4 3, l l l cov( X, X = ( x x( x x = ( x x = l l l ( x x 3 = ( x x ( ( (3, cov( X, X = ( ( l x x x x = ( x x ( x x = l 3 = ( x x( x x ( ( ( ( (3 ( Korzystając z powyższych dwóch zależośc oraz ze zwązku (4-3.7, otrzymujemy: 4 0. Możemy teraz zwązek (4-3.4 zapsać astępująco: X X 0 0 X 4 skąd dla średch otrzymujemy: X X, l l ( x x ( x x X X X X X. Wykorzystajmy powyższe zależośc do wycetrowaa zmeych : * X * X X X 0 X ( 0 3, 0 X ( X X ( X (

39 X 4 X 0 4 ( X X ( X X X 4 / / / 3 X ( 4 [ 4( X ( X 0. 3 X X 4 ] 3 (4-3.9 * X * X Powyżej pokazalśmy, że zmee mogą być określoe jedye z dokładoścą do ezerowej multplkatywej stałej, oraz dowolej stałej addytywej. Przyjmjmy węc, że, 3. * * Natomast stałe addytywe doberzmy tak, aby X = 0 oraz X 0, tz. 0 0 X X X skąd otrzymujemy, X X , 3 ( Ostatecze z (4-3.8 oraz (4-3.9 dostajemy wartośc zmeych, które pojawają sę w Tablcy 5-., a maowce: * X * X x x X x 0, X x, c.. d. x 3 x 3 (4-3.3 Rachuk dla zmeych ortogoalych w welomaach wyższego stopa, chocaż bardzej żmude, przebegałyby aalogcze. Rozdzał 4-4. Stratege wyboru modelu welomaowego. Podczas wyboru modelu welomaowego ależy dopasowywać model poprzez odejmowae zmeych mej zaczących (procedurą elmacj wstecz omówoą pożej, Rozdzał 6-3, tz. ależy wybór zacząć od modelu możlwe ajpełejszego upraszczać go do mometu, w którym okaże sę, ż wszystke pozostawoe zmee mają stoty wpływ a dokładość dopasowaa sę l regresj modelu do daych empryczych. 38

40 Powód możlwego problemu przy stosowau selekcj wprzód: Jak wspomelśmy poprzedo, błędym podejścem do wyboru zmeych w przypadku regresj welomaowej jest kostruowae modelu poprzez dodawae zmeych wyższego rzędu do modelu mej skomplkowaego. Stratega taka (tz. stratega selekcj wprzód, może prowadzć do wyzaczea modelu błędego (z wyjątkem jej ostrożego stosowaa. Stratega selekcj wprzód może bowem doprowadzć do wybraa modelu, w którym zostae pomęta stota zmea, czego przyczyą jest to, że śred kwadrat reszt MSE składka błędu modelu (będący estymatorem waracj E składka losowego, występuje w maowku testów częścowych F []:, (4-4.3 w zwązku z czym, jeśl stopeń welomau jest za sk, prowadz to do dużej wartośc dla MSE w pobraej próbce, a w kosekwecj do małej wartośc statystyk F p, wec wartość ta (wraz z wprowadzoym do modelu parametrem strukturalym dla dodaej owej zmeej może zostać uzaa za estotą statystycze. F p F( X X, X,, X [ SSR ( X X, X MSE( X, X,, X ]/,, X Rozdzał 4-5. Przeprowadzee wstępej dagostyk modelu. Mając wyszczególoy model musmy przejść do aalzy modelu. Aalza modelu: Y X 0 X X 3 3 X E, ( ma po perwsze ( przetestować model pod względem jego przydatośc do badaa aktuale dostępych daych oraz po druge ( wypowedzeć sę a temat jego przydatość do badaa ych zborów daych tej samej populacj lub populacj o podobym charakterze. Problem ( zostae przedstawoy w Rozdzale 6. Pożej odeśmy sę do puktu (. k k Dagostyka modelu składa sę z astępujących częśc:. Aalza reszt: a aalza ogóla reszt b aalza wartośc ekstremalych (skrajych reszt.. Aalza współlowośc zmeych objaśających. 3. Aalza skalowaa. 39

41 Ad.a Aalza ogóla reszt. Dokładejszą aalzę reszt klasyczego modelu regresj przedstawmy w Rozdzałach od 0 do 4. Tytułem wprowadzea podkreślmy, że do tej częśc badaa modelu przystępujemy z założeem o ormalośc rozkładu reszt, przy czym wartość średa reszt wyos 0, a waracja jest skończoa stała. Iloścowa aalza reszt polega a przeprowadzeu testów dotyczących: (a ormalośc rozkładu składka losowego (p. testy zgodośc Pearsoa [], -Kołmogorowa- (Smrowa [], [9], Rozdzały 5- oraz 5-3. Ważym elemetem aalzy reszt jest ch aalza grafcza, w której określamy rozkład reszt a wykrese (w SAS e ormal probablty-probablty plot dostępy w aplkacj Aalyst [0] w opcj: Solutos -> Aalyss->Aalyst->( po wczytau daych, korzystając z Ope By SAS Name w zakładce Fle [] -> Statstcs->Regreso->Smple->Plots->Resdual. (b jedorodośc waracj dla składka losowego dla różych waratów zmeych objaśających (p. test Bartletta [9], Rozdzał 6--, (c braku autokorelacj składka losowego (p. test Durba-Watsoa [], Rozdzał -3-. Model uzajemy za prawdłowy, gdy po założeu hpotez zerowych dotyczących powyższych puktów (a, (b (c po przeprowadzeu testów e mamy podstaw do ch odrzucea. Ad.b Aalza wartośc ekstremalych (skrajych reszt. Wartośc skraje są to wartośc oddaloe od średej reszt (rówej zero o trzy lub węcej odchylea stadardowe. W przypadku, gdy w zborze daych zajdują sę take wartośc ależy sprawdzć przyczyę tych odchyłek. Jeżel przyczyą zaobserwowaa skrajej wartośc są błędy w rejestracj obserwacj lub ustaweu aparatury pomarowej, wtedy odrzucamy taką obserwację do dalszej aalzy przyjmujemy dae e wykazujące takch osoblwych zachowań. Postąplbyśmy tak samo (tz. odrzucl obserwację, gdybyśmy mel uprzedo wedzę o tym, że skraje dae pojawły sę w próbce a skutek zajśca zdarzeń mało prawdopodobych. Natomast w ych przypadkach, gdy mamy podejrzee, że duża odchyłka (e jest astępstwem błędów pomarowych lub wykem zajśca rzadkego zdarzea ale jest astępstwem własośc populacyjych zmeej objaśaej, które są zwązae z zależoścą tej zmeej od ych czyków, których stee zostało zlekceważoe przez badacza przy kostrukcj modelu, wtedy zaleca sę starae badae zjawska powstaa dużych odchyłek. Ich odrzucee mogłoby bowem prowadzć do błędego określea modelu w populacj (tz. pomęca stotych czyków. 40

42 Ad.3 Aalza współlowośc zmeych objaśających. Główym wskaźkem (sły korelacj pomędzy dwoma zmeym (w tym przypadku zmeym objaśającym jest kwadrat współczyka korelacj R (X,X, który w próbce przyjmuje wartość r (X,X. Oprócz tego oblcza sę współczyk flacj waracj VIF, którego wartość w próbce jest rówa: vf r ( X, X. ( Współczyk r oraz vf wskazują a występowae slej korelacj ( współlowośc, o le ch wartośc są zblżoe do astępujących: r = dla kwadratu współczyka korelacj, vf dla współczyka flacj waracj, które ozaczają zależośc fukcyje pomędzy zmeym X X. O dużej współlowośc możemy mówć gdy współczyk vf osąge wartość = 0. W przypadku wększej lczby zmeych określa sę kwadrat welokrotego współczyka korelacj R j R (X j X,,X j-, X j+,,x k, (porówaj (3--3., gdze k jest lczbą zmeych objaśających, oraz korespodujący z m współczyk flacj waracj (adęce flacj w polskm opse SAS a []: VIF j R j, ( gdze j =,,, k. Iterpretacja tych współczyków jest taka sama jak odpowadających m współczyków w aalze pary zmeych. Oprócz tych dwóch mar współzależośc stosuje sę róweż współczyk toleracj []: Toleracja j VIF j R j, ( gdze j =,,, k. W przypadku współczyka toleracj, sle zależośc pomędzy czykam, powodują skupee sę wartośc toleracj wokół zera. Ad.3-. Zwązek współczyka flacj waracj z estymatorem waracj estymatora parametru strukturalego modelu. Jest jede zasadczy powód, dla którego występowae współlowośc pomędzy zmeym objaśającym powoduje duże problemy w aalze zależośc korelacyjej dla zmeej objaśaej. Otóż, 4

43 moża pokazać, że estymatory waracj parametrów strukturalych postać [] (porówaj -.38: ˆ j są proporcjoale do VIF j mają S ˆ j c j VIF j, dla j =,,..., k, ( gdze c j są odpowedm współczykam zależym od daych. Im wększa jest korelacja zmeej X j z którąś z pozostałych zmeych objaśających, tym blżej lowej współzależośc jest z ą zmea X j 7. Zwązek ( ozacza zatem, że m blżej zmea X j jest lowej zależośc od chocażby tylko ektórych z pozostałych zmeych objaśających (zatem m bardzej zmea X j jest mocej skorelowaa z chocażby tylko ektórym z pozostałych zmeych objaśających, to tym wększa jest w próbce wartość VIF j, a wartość współczyka R j blższa jedośc w kosekwecj tym wększe w próbkach są wartośc estymatora waracj ˆ j S. To z kole ozacza, że rozproszee możlwych wartośc estymatora parametru strukturalego ˆ j jest a tyle duże (a odpowed dla j przedzał ufośc a tyle szerok, że gwałtowe spada jakość predykcj modelu. Taką zmeą objaśającą ależałoby z modelu usuąć. Na koec rozważmy problem przesuęca (tercept osobego potraktowaa. Jeśl model ma postać (4-5.33: 0. Przesuęce w aalze współlowośc wymaga Y X to korzystając p. z MNK możemy wyzaczyć estymatory Estymator ˆ ma wtedy postać: 0 0 X X X, ( parametrów strukturalych., ( gdze Y Y jest średą arytmetyczą w próbe dla zmeej zależej, a jest / X j X j / średą arytmetyczą dla j tej zmeej (j =,,...,k. ˆ Y ˆ X Z zależośc ( wdać węc, że estymator przesuęca ˆ, ˆ,..., ˆ k ˆ X 3 3 ˆ X k ˆ k k X k E ˆ, ˆ, ˆ,..., ˆ jest zależy od pozostałych estymatorów. Problem zka w szczególym przypadku, gdy średe zmeych X j są rówe 0, jak to ma 0 ˆ 0 k 7 Przy dealej współlowośc, macerz plaowaa X (-.9 e ma pełej rag kolumowej (gdze kolumy odpowadają czykom, co pocąga za sobą osoblwość macerzy X T X, której odwrotość występuje we wzorze T ˆ ˆ ( X X MSE, (-.38, a macerz waracj-kowaracj dla estymatorów parametrów strukturalych modelu. S ˆ są elemetam a dagoalej macerzy ˆ ˆ. 4

44 mejsce p. w przypadku wycetrowaa (tz. przesuęca o ch średe orygalych czyków (Rozdzał 6. W przypadku tym średa Y jest oszacowaem przesuęca. Gdyby wprowadzć astępujący model regresj: I X X X k k E, ( w którym I jest jedostkową zmeą stojącą w rówau ( obok parametru przesuęca, przyjmującą zawsze wartośc I = ( =,,...,, wtedy moża wprowadzć współczyk flacj waracj dla przesuęca, tak samo jak to uczyoo dla pozostałych zmeych: VIF 0 R 0, ( gdze R 0 moża wylczyć jako kwadrat współczyka korelacj welorakej ( dla zależośc zmeej I od wszystkch zmeych X, X,..., X k. Tak jak dla pozostałych estymatorów ˆ j otrzymujemy wtedy estymator waracj dla przesuęca: S ˆ0 c VIF 0 0, (4-5.4 co ozacza, że terpretacja VIF 0 jest taka sama jak pozostałych VIF j. Jedym z prostszych sposobów elmacj współlowośc jest odpowede przeskalowae daych (mędzy ym przez wycetrowae stadaryzację. Zagadee to omówoo pożej. Ad.4 Aalza skalowaa. Aalza ta polega a odpowedm wyborze tak jedostek, jak początku układu współrzędych dla zmeych merzalych. Np. skalowae lowe polega a odpowedm przemożeu zmeej przez stałą lub dodau stałej. Przykładem skalowaa zmeej jest przejśce od temperatury podaej w jedostkach Fahrehet a do jedostek Celsjusza. Często przed skalowaem ależy ustalć rząd welkośc wartośc zmeych, aby e utracć formacj zawartej w daych, którym dyspoujemy. Ad.4-. Cetrowae stadaryzacja. Przykładem skalowaa lowego jest cetrowae stadaryzacja zmeych. Cetrowae polega a przetrasformowau zmeych tak, aby owe zmee były rozłożoe wokół zera, tz. aby ch wartość średa wyosła zero. Jeśl próba jest -wymarowa, wtedy trasformacja ta wygląda astępująco []: 43

45 X j X j X j, (lub X X X, ( j j j gdze: X j X j - zmea perwota (gdze j =,,, k, - zmea, która daje w próbce tą wartość (=,,, zmeej X, j X j X j / - wartość średa zmeej wyjścowej, X j - owa zmea (wycetrowaa. Stadaryzacja jest określoa astępująco []: Z j X S j X j X S X j X j j, ( S X j gdze jest odchyleem stadardowym zmeej X j. Po tych trasformacjach otrzymujemy zbór zmeych Z j o wartośc średej rówej 0 odchyleu stadardowym rówym, a poadto wszystke te zmee są emaowae. W zmeych stadaryzowaych (łącze ze zmeą objaśaą, model regresj ma postać: ( Y Y / SY ( X X / S ( X X / S... k gdze j j ( S j / SY ( X k X k / S k E, ( ( są tzw. stadaryzowaym współczykam regresj. Cetrowae stadaryzacja jest prostym sposobem redukcj współzależośc pomędzy zmeym. Jej stosowae zaleca sę w modelach welomaowych ajższego stopa (jest szczególe skutecza w modelach welomaowych stopa e wększego ż dwa. Rozdzał 4-6. Aalza współlowośc metodą wartośc własych macerzy korelacj. Do aalzy współzależośc pomędzy zmeym objaśającym wykorzystuje sę róweż wartośc włase macerzy kowaracj (lub korelacj dla zmeych objaśaych. W celu wyjaśea tej metody rozważmy astępujący model: Y X 0 X X E. ( Rozważmy macerz kowaracj pomędzy zmeym objaśającym X l oraz X s, l,s =,,...,k: k k 44

46 ( X cov( X, X C cov( X k, X cov( X ( X cov( X k, X, X cov( X, X k cov( X, X k ( X k ( przy czym zmee te mają wartość oczekwaą rówą zero E X 0, r =,,...,k. Zmee X l e muszą być pod kotrolą (tak jak to jest w modelu regresj klasyczej, tz. mą być zmeym losowym. Twerdzee (o składowych główych (zasadczych (Część IV, Rozdzał 3. T Nech k-wymarowy wektor losowy X ( X, X,..., X k ma wartość oczekwaą: E (X 0 ( oraz macerz kowaracj: T C E( X X. ( Isteje wtedy ortogoala lowa trasformacja: Q α T X (4-6.5 ( r taka że: gdze: E( QQ T Λ ( Λ ( k ( ( ( k [Zatem każda r-ta koluma ( r,,..., k macerzy α (,,..., ma postać: ( r ( r ( r (,,..., ( r T k ( jest oa kolumą współczyków lowej kombacj zmeych X, X,..., X k, gdze T Q Q, Q..., są owym zmeym losowym.] (, Q k Wartośc r a przekątej macerzy Λ są perwastkam rówaa: det( C I 0 ( r (są węc oe wartoścam własym macerzy kowaracj C spełającym relację: ( k (r Koluma r-ta macerzy α, czyl, speła rówae włase: ( r ( C 0. ( Wektory (r r I tworzą ortoormaly układ wektorów, tz.: ( r T ( r', r, r',,..., k. ( ( rr' 45

47 Składową r-tą wektora Q jest astępująca zmea: ( r T Q ( X. ( r Lowa kombacja Q r ma maksymalą warację pośród wszystkch kombacj lowych eskorelowaych ze zmeym Q, Q,..., Q r. Wektor Q jest tak zwaym wektorem składowych główych (zasadczych wektora losowego X. (koec twerdzea ( r Podsumowae. Powyższa procedura [6] zwązaa z rozwązaem rówaa własego ( C 0 r I, (r 0, r,,..., k, dagoalzuje macerz kowaracj C, dając dagoalą macerz kowaracj Λ, ( Ozacza oa przejśce od układu zmeych orygalych { } do owego układu zmeych { Q r } azywaych główym składowym dla zmeych objaśających [6]. Główe składowe są lowym kombacjam orygalych zmeych objaśających mają astępujące własośc []:. staową układ owych zmeych objaśających, z taką samą formacją jaka jest zawarta w zmeych orygalych,. e są ze sobą skorelowae, 3. poeważ zachodz własość (, węc ch suma ma maksymalą warację, 4. waracje zmeych { Q r } są wartoścam własym macerzy kowaracj C [6], tz.: Q, r =,..., k, ( r ( r 5. jeśl zbór k orygalych zmeych objaśających e wykazuje dealej wspłólowośc, to do przekazaa tej samej formacj, która jest zawarta w zmeych orygalych potrzebych jest dokłade k główych składowych. Natomast jeśl p. jeda z orygalych zmeych objaśających jest lową kombacją pozostałych, to tylko k główych składowych jest potrzebych do przekazaa perwotej formacj. 6. lczba rówych zero (albo prawe blskch zeru wartośc własych jest lczbą relacj współlowośc (albo prawe dealej współlowośc pomędzy orygalym zmeym objaśającym. 7. m wększa jest kokreta wartość własa, tym stotejsza (pod względem esoej formacj przez zmee objaśające jest zwązaa z ą główa składowa. X r Zaczee składowych główych polega a zalezeu takch lowych kombacj zmeych T wektora losowego X X, X,...,, które mają maksymalą warację są z sobą eskorelowae. W ( X k praktyczych zastosowaach zdarza sę, że lczba zmeych braych pod uwagę jest za duża. Poeważ stotą sprawą jest rozrzut wartośc czyków, dlatego metoda składowych zasadczych pozwala a 46

48 odrzucee tych lowych kombacj zmeych wektora losowego X, które mają małą warację a poddae aalze kombacj z dużą waracją. Pojawee sę jakejś wartośc własej rówej zero (lub blskej zeru ozacza wystąpee dokładej (lub prawe dokładej współlowośc pomędzy ektórym orygalym zmeym objaśającym, co wyka z faktu, że rówae: ozacza ( r T ( Q (( X 0 (4-6.6 r r ( r T ( X c cost, (4-6.6 czyl właśe wystąpee dealej współlowośc. Skłaa to do próby elmacj (przyajmej jedej ze zmeych objaśających z grupy zmeych orygalych X, X,..., X k, jako będącej kombacją lową pozostałych. Np. korzystając z jedej z metod selekcj, moża próbować wyelmować zmee ajmej stote statystycze z adzeją, że usuemy róweż zmee zależe lowo od pozostałych. Przykład. Rozważmy wpływ różych cech (p. lczba poko, łazeek czy lokalzacja określających stadard meszkaa a jego ceę (Przykład z Rozdzału 6. Z cech tych metoda składowych główych tworzy lowe ch kombacje, które jakoś różcują jedostk badaej zborowośc meszkań. Te z kombacj, które mają ajwększy rozrzut wartośc przy zmae meszkaa, są teresujące. Natomast kombacje, które zmeają sę ezacze od meszkaa do meszkaa, mówą mało o zmeośc pomędzy meszkaam moża je usuąć z aalzy. Ideks warukowy lczba warukowa: W aalze za pomocą wartośc własych korzysta sę róweż z welkośc zwaej deksem warukowym (CI, który jest zdefoway astępująco []: CI j max j ( gdze: j - umeruje wartośc włase (j =,..., k, j jest j-tą wartoścą własą, max maksymala wartość własa w modelu. Przyjmuje sę, że występowae wartośc deksu warukowego przekraczającej 30, ozacza występowae bardzo slej współlowośc pomędzy jakąś zmeą orygalą, a ym zmeym orygalym. Róweż w tym przypadku ależy przejść do próby wyelmowaa zmeej ajmej stotej statystycze, z adzeją, że wyelmujemy zmeą zależą lowo od pozostałych. Najwększy z deksów warukowych CI j jest azyway lczbą warukową CN. 47

49 Uwaga. Podobą aalzę składowych główych moża przeprowadzć w oparcu o macerz korelacyją: gdze kor k k k k, ( kk cov( X, X j j ( X ( X, =,..., k ; j =,..., k, ( j są współczykam korelacj Pearsoa. Po dagoalzacj macerzy ( metodą składowych główych otrzymujemy macerz dagoalą typu Λ, (4-6.53, z tym, że suma wartośc a dagoalej rówa jest lczbe k zmeych orygalych X, X,..., X k []. [Macerz korelacyja jest e tylko marą keruku zależośc pomędzy param zmeych, ale (w odróżeu od macerzy kowaracj C marą sły zależośc pomędzy m.] Zadae: Udowodć Twerdzee o składowych główych [6]. 48

50 A. Rozdzał 5. Przykłady aalzy regresj z jedym czykem. Rozdzał 5-. Lowa aalzy regresj. Przykład. Dochód z bletów (dae wstęp. Pewe le lotcze otworzyły trzy owe połączea. W przecągu dzewęcu mesęcy zysk (w ml PLN z ch ukształtowały sę astępująco: mesąc dochód Mesąc dochód mesąc dochód 34, ,8 38,8 38,9 38,7 3 4,5 3 4,6 3 4,4 4 45, 4 45, ,3 5 48,4 5 48, 6 5, 6 5,3 6 5, 7 56,6 7 56,7 7 56,5 8 59, ,8 9 65,4 9 65,5 9 65,3 Zaleźć model regresj lowej zależośc dochodu l lotczych od mesęcy dzałalośc owo otwartych połączeń. Do aalzy stosujemy fukcję SAS a zajdującą sę w astępującej lokalzacj 8 aplkacj Aalyst [0]: Solutos->Aalyss->Aalyst, a astępe (po wczytau daych, korzystając z Ope By SAS Name w zakładce Fle [] ->Statstcs->Regresso->Lear. W tym mejscu określamy zmee: objaśaą (dochód objaśającą (zmea mesąc lub jej trasformacje, oraz w raze potrzeby określamy potrzebe statystyk (Statstcs, testy (Tests, wykresy (Plots tp. Raport SAS a ma postać. model lowy Procedura REG Model: MODEL Zmea zależa: dochod blety Wczytao obserwacj 7 Użyto obserwacj 7 8 Odpowed program dla lowego modelu, wykorzystujący procedurę SAS a REG ma postać: proc reg data=roboczy.blety; model DOCHOD = MIESIAC / clb; ru; qut; Jak wdać zbór daych to Blety zajdujący sę we (wcześej utworzoej bbltece SAS a [] o azwe Roboczy. Polecee clb wyzacza grace ( 00% -wego przedzału ufośc dla oszacowywaych parametrów modelu. Elemety kodów w języku SAS 4GL ch uruchamae z oka Ehaced Edtor, zostaą omówoe w Rozdzale Część B. 49

51 Aalza waracj St. Suma Średa Wartość Źródło sw. kwadratów kwadratów F Pr. > F Model <.000 Błąd Razem skorygowae Perw. bł. śr.-kw R-kwadrat Średa zależa Skor. R-kw Wsp. zmeośc.8350 Ocey parametrów St. Ocea Błąd Zmea Etyketa sw. parametru stadardowy Wartość t Pr. > t Przedzał ufośc 95% Itercept Itercept < mesac mesac < Z powyższego raportu SAS a wyka, że otrzymaa w próbce lowa fukcja regresj II rodzaju ma dla rozważaego problemu zależośc średej wartośc dochodów od mesąca, astępującą postać: Yˆ 30,6 3, 6933X. (5-. Dopasowae otrzymaego modelu do daych empryczych charakteryzuje sę wysoką wartoścą współczyka determacj, r = 0,998, co ozacza, że sła tego dopasowaa jest duża, bowem 99,8% średej zmeośc dochodów jest wytłumaczoa zmaam mesąca. Rozdzał 5-. Welomaowa aalza regresj. Przykład. Dochód z bletów (c.d.. Rozważmy dalej powyższy przykład zależośc dochodów l lotczych od mesęcy dzałalośc. Jako perwsze aalze zostaą poddae modele welomaowe zwyczaje drugego, trzecego ósmego stopa, astępe modele welomaowe cetrowae (tych samych stop, a a końcu weloma ortogoaly ósmego stopa. Ósmy stopeń welomau pojawa sę z rozważań ad stopem modelu maksymalego. Nasz układ daych jest astępujący: Lczba wszystkch obserwacj w próbce wyos = 7, zmea objaśająca (umer mesąca ma l = 9 pozomów (waratów każdemu z ch odpowada taka sama lczba obserwacj zmeej objaśaej / l 7 /9 3, z lczbą replk dla każdego waratu rówą / l 7 /9. Stopeń welomau dla modelu maksymalego jest wec rówy m = r = 8, gdze r = l( / l == l = 8 jest lczbą wszystkch replk. Fukcja SAS a pozwalająca dokoać aalzy zajduje w: Solutos->Aalyss->Aalyst, a astępe: Statstcs->Regresso->Lear. Jest to ta sama fukcja, co w przypadku regresj lowej, jedakże w mejsce zmeych objaśających wstawamy wszystke (rozważae zmee badaego welomau określoego stopa. 50

52 Rozdzał 5--. Welomay zwyczaje. Zestaw daych do aalzy Przykładu Dochód z bletów za pomocą welomaów zwyczajych wygląda astępująco: dochód mesąc mesąc mesąc 3 mesąc 4 mesąc 5 mesąc 6 mesąc 7 mesąc 8 34,9 38, , , , , , , , , , , , , , , ,8 38, , , , , , ,

53 Rozdzał Weloma zwyczajy drugego stopa. modele welomaowe ormale: drugego stopa The REG Procedure Model: MODEL Depedet Varable: dochod dochod Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var.0803 Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type II SS Itercept Itercept < moth moth < moth moth < Parameter Estmates Squared Squared Stadardzed Sem-partal Partal Varable Label DF Estmate Corr Type II Corr Type II Itercept Itercept 0.. moth moth moth moth Correlato of Estmates Varable Label Itercept moth moth Itercept Itercept moth moth moth moth Wosk z raportu.. Rówae modelu: Yˆ 3,8,49X 0,X ( Istotość statystycza modelu: Nsk empryczy pozom stotośc p < ozacza, że wartość statystyk F (F = duża a oko, jest faktycze wartoścą stote statystycze różą od zera. O tym czy wartość statystyk testowej w próbce jest stota statystycze decyduje wartość p. 5

54 Zatem odrzucamy hpotezę zerową: H 0 : o ewystępowau ogólej zależośc korelacyjej zmeej Y od zmeej X w modelu parabolczym, czyl o e występowau braku dopasowaa w modelu, w którym jest jedye parametr przesuęca 0, w porówau z modelem parabolczym. Powyższa decyzja statystycza byłaby słusza dla każdego pozomu stotośc p (p. dla = 0,05 lub = 0, Wysoka wartość współczyka determacj (R = wskazuje a dobre dopasowae modelu parabolczego do daych empryczych. (Przeczytaj Uwagę a końcu Rozdzału Istotość parametrów strukturalych modelu: Wszystke parametry strukturale modelu (a zatem odpowadające m zmee objaśające są stote, gdyż z testów t przeprowadzoych przez system SAS wyka, że empryczy pozom stotośc dla każdego z parametrów jest sk (p < Aalza macerzy korelacj: Otrzymaa macerz korelacj estymatorów posada poza dagoalą duże wartośc współczyków korelacj dla estymatorów parametrów strukturalych. Np. dla ˆ oraz ˆ wyos o ˆ , (-.39. Implkuje to slą korelację mędzy zmeym objaśającym, co moża wywoskować z porówaa ( z (-.38 (porówaj tekst pożej ( przyps 7. Z przeprowadzoych oblczeń wyka, że model welomaowy zwyczajy drugego stopa jest modelem dobrze dopasowaym do daych empryczych w próbce, ale jego zdolość do predykcj jest epewa ze względu a dużą korelację pomędzy czykam. ˆ ˆ Rozdzał Weloma zwyczajy trzecego stopa. Odpowed raport SAS a ma postać: modele welomaowe ormale: trzecego stopa The REG Procedure Model: MODEL Depedet Varable: dochod dochod Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var

55 Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type II SS Itercept Itercept < moth moth < moth moth moth3 moth Parameter Estmates Squared Squared Stadardzed Sem-partal Partal Varable Label DF Estmate Corr Type II Corr Type II Itercept Itercept 0.. moth moth moth moth moth3 moth Parameter Estmates Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts Itercept Itercept moth moth moth moth moth3 moth Correlato of Estmates Varable Label Itercept moth moth moth3 Itercept Itercept moth moth moth moth moth3 moth Wosk z raportu.. Rówae modelu: Yˆ 3,6 3,98X 0,3X 0,0X 3 ( Istotość statystycza modelu: Nska wartośc empryczego pozomu stotośc, p < 0.000, wskazuje, że wartość statystyk F = , jest stote statystycze wększa od zera. Ozacza to, że model sześcey jest stoty statystycze, tz. hpoteza zerowa: H 0 : o braku ogólej zależośc korelacyjej zmeej objaśaej od łączego wpływu wszystkch potęg zmeej objaśającej, aż do trzecego stopa włącze, została odrzucoa a każdym pozome stotośc α p, p. dla α = Wysoka wartość współczyka determacj (R = wskazuje a dobre dopasowae modelu do daych empryczych. 54

56 4. Istotość parametrów strukturalych modelu: Wszystke wartośc b j estymatorów ˆ j parametrów strukturalych modelu (a zatem odpowadające m zmee objaśające są stote, gdyż z testów t (ze statystykam t = ˆ j 0 przeprowadzoych przez S ˆ j system SAS wdać, że prawdopodobeństwo p dla każdego z parametrów strukturalych jest ske, tz. wyos: a dla parametrów, 0, p < 0.000, b dla parametrów, 3 kolejo, p = 0.097, p = (przy powszeche przyjętych pozomach stotośc α, powyższe wartośc p uważae są a ogół za ske, chocaż stotość wartośc b = estymatora oszacowującego parametr β, dla którego 0.05> p = > 0.0, może być poddaa dyskusj. 5. Aalza macerzy korelacj: Podobe jak dla modelu drugego stopa (porówaj rozważaa w odpowedm mejscu, macerz korelacj dla estymatorów parametrów ma poza dagoalą wysoke wartośc współczyków korelacj, co wskazuje a stee slej korelacj ( współlowośc mędzy zmeym objaśającym. Wskazują a to róweż wyjątkowo duże wartośc współczyków flacj waracj, p. VIF = Jest to sygał, że ależałoby zastosować ortogoalzację perwotych czyków (lub przyajmej ch wycetrowae. Model zwyczajy trzecego stopa wykazuje w ogólośc podobe cechy, co wcześejszy model drugego stopa. Jedakże rozpatryway model eco lepej dopasowuje sę do daych empryczych ż model poprzed, co wyka z wększej wartośc współczyka determacj R. Rozdzał Weloma zwyczajy ósmego stopa. Odpowed raport SAS a ma postać: modele welomaowe ormale: ósmego stopa The REG Procedure Model: MODEL Depedet Varable: dochod dochod Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var NOTE: Model s ot full rak. Least-squares solutos for the parameters are ot uque. Some statstcs wll be msleadg. A reported DF of 0 or B meas that the estmate s based. 55

57 NOTE: The followg parameters have bee set to 0, sce the varables are a lear combato of other varables as show. moth8 = * Itercept * moth - 08 * moth * moth * moth * moth * moth * moth7 Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type II SS Itercept Itercept B moth moth B < moth moth B < moth3 moth3 B < moth4 moth4 B < moth5 moth5 B < moth6 moth6 B < moth7 moth7 B < moth8 moth Parameter Estmates Squared Squared Stadardzed Sem-partal Partal Varable Label DF Estmate Corr Type II Corr Type II Itercept Itercept B 0.. moth moth B moth moth B moth3 moth3 B moth4 moth4 B moth5 moth5 B moth6 moth6 B moth7 moth7 B moth8 moth Parameter Estmates Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts Itercept Itercept B moth moth B moth moth B E moth3 moth3 B E moth4 moth4 B.0394E moth5 moth5 B.4394E moth6 moth6 B E moth7 moth7 B E moth8 moth Correlato of Estmates Varable Label Itercept moth moth moth3 Itercept Itercept moth moth moth moth moth3 moth moth4 moth moth5 moth moth6 moth moth7 moth Correlato of Estmates Varable Label moth4 moth5 moth6 moth7 Itercept Itercept moth moth moth moth moth3 moth moth4 moth moth5 moth moth6 moth moth7 moth

58 Wosk z raportu. Z powyższego raportu SAS a wyka bardzo duża korelacja estymatora z pozostałym estymatoram parametrów strukturalych. Zatem zmea X 8 jest a tyle moco skorelowaa z grupą zmeych I, X,..., X 7, że SAS wykazał umerycze stee dealej współlowośc (podał awet postać lowego zwązku pomędzy czykam. Z tego powodu model 8-wymarowy (e mając pełej rag macerzy plaowaa, Rozdzał, e mógł być przelczoy. Ne został węc oszacoway parametr stojący przy ósmej potędze zmeej X (moth8. Tak model regresj e może zostać przyjęty do aalzy zależośc korelacyjej. ˆ 8 Rozdzał 5--. Welomay cetrowae. Zestaw daych do aalzy za pomocą welomaów cetrowaych: mesąc dochod m_ceter m_ceter m_ceter 3 m_ceter 4 m_ceter 5 m_ceter 6 m_ceter 7 m_ceter 8 34, , , , , , 7 56, , , , , , , ,3 7 56, , , , , , , 7 56, , ,

59 Rozdzał Weloma cetroway drugego stopa. Odpowed raport SAS a ma postać: welomay cetrowae drugego stopa The REG Procedure Model: MODEL Depedet Varable: dochod dochod Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var.0803 Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type I SS Itercept Itercept < m_ceter m_ceter < m_ceter m_ceter < Parameter Estmates Squared Squared Squared Stadardzed Sem-partal Partal Sem-partal Varable Label DF Estmate Corr Type I Corr Type I Corr Type II Itercept Itercept 0... m_ceter m_ceter m_ceter m_ceter Parameter Estmates Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts Itercept Itercept m_ceter m_ceter m_ceter m_ceter Correlato of Estmates Varable Label Itercept m_ceter m_ceter Itercept Itercept m_ceter m_ceter m_ceter m_ceter Wosk z raportu. Poeważ ops tych wosków jest bardzo podoby do opsu dla welomaów drugego trzecego stopa dla czyków ewycetrowaych, dlatego podamy skrócoą jego postać:. Rówae modelu: Yˆ 48,7 3,69X 0,X (

60 . Istotość statystycza modelu: Nska wartośc empryczego pozomu stotośc, p < 0.000, wskazuje, że wartość statystyk F = jest stote statystycze wększa od zera. Ozacza to stotość statystyczą modelu odrzucee hpotezy zerowej o braku ogólej zależośc korelacyjej dochodów od dla zmeych wycetrowaych X X. 3. Wysoka wartość współczyka determacj (R = wskazuje a dobre dopasowae modelu do daych empryczych. 4. Istotość parametrów strukturalych modelu: Wszystke parametry strukturale modelu (a zatem odpowadające m zmee objaśające są stote, gdyż z testu t przeprowadzoego przez system SAS, empryczy pozom stotośc p, dla każdego z parametrów jest sk (p < Aalza macerzy korelacj: Macerz korelacj wskazuje a redukcję (w porówau z przypadkem zmeych zwyczajych korelacj pomędzy estymatoram parametrów strukturalych. W szczególośc, korelacje pomędzy estymatoram parametrów stojących przy perwszym drugm stopu zmeej wycetrowaej (tz. e uwzględając estymatora wyrazu wolego wykazują absoluty jej brak. Korelacja pomędzy czykam wycetrowaym jest węc mejsza ż pomędzy czykam zwyczajym. Z przeprowadzoych oblczeń wyka, że cetroway, welomaowy model drugego stopa jest modelem rówe dobrze dopasowaym, co model welomaowy zwyczajy tego samego stopa (tz. wartośc statystyk F, oraz wartość współczyka R są detycze dla obu model co wyka z tego, że są oe ezmecze ze względu a lowe trasformacje. Jedakże, z powodu braku korelacj pomędzy zmeym objaśającym, jego zdolość do predykcj jest dużo wększa ż modelu welomaowego zwyczajego. Rozdzał Weloma cetroway trzecego stopa. Odpowed raport SAS a ma postać: welomay cetrowae trzecego stopa The REG Procedure Model: MODEL Depedet Varable: dochod dochod Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total

61 Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type I SS Itercept Itercept < m_ceter m_ceter < m_ceter m_ceter < m_ceter3 m_ceter Parameter Estmates Squared Squared Squared Stadardzed Sem-partal Partal Sem-partal Varable Label DF Estmate Corr Type I Corr Type I Corr Type II Itercept Itercept 0... m_ceter m_ceter m_ceter m_ceter m_ceter3 m_ceter Parameter Estmates Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts Itercept Itercept m_ceter m_ceter m_ceter m_ceter m_ceter3 m_ceter Correlato of Estmates Varable Label Itercept m_ceter m_ceter m_ceter3 Itercept Itercept m_ceter m_ceter m_ceter m_ceter m_ceter3 m_ceter Wosk z raportu.. Rówae modelu: Yˆ 48,7 3,4X 0,X ( Istotość statystycza modelu: Nsk pozom stotośc, p < 0.000, ozacza, że wartość statystyk F = jest stote statystycze róża od zera, co wskazuje a stotość statystyczą badaego modelu sześceego ze zmeym wycetrowaym. 3. Wysoka wartość współczyka determacj (R = wskazuje a dobre dopasowae modelu do daych empryczych. 4. Istotość parametrów strukturalych modelu: Wszystke parametry strukturale modelu (a zatem odpowadające m zmee objaśające są stote, gdyż z testu t wykoaego przez system SAS wdać, że emprycze pozomy stotośc p dla każdego z parametrów są ske: a dla parametrów,, p < 0.000, 0, 0,0X 3 60

62 3 b dla parametru, p = (co przy powszeche przyjętych pozomach stotośc, uważae jest zazwyczaj za wartość małą. 5. Aalza macerzy korelacj: Macerz korelacj wskazuje w dalszym cągu a małą korelację pomędzy estymatoram parametrów strukturalych, a w zwązku z tym korelacja ( współlowość pomędzy odpowedm zmeym objaśającym jest róweż mała. Jedakże w modelu tym wdać już, że skuteczość wycetrowaa zmeych spada wraz z dodawaem kolejych stop zmeej X. Np. wartość współczyka korelacj pomędzy estymatorem ˆ ˆ jest duża w pobraej próbce wyos Ozacza to, że 3 ależałoby posłużyć sę lepszą techką usuwaa współlowośc, a maowce omówoą powyżej metodą ortogoalzacj. Sprawdźmy jeszcze czy rozszerzee modelu ze zmeym wycetrowaym X oraz ze zmeym wycetrowaym X, X, X do modelu 3 X jest statystycze stote z puktu wdzea lepszego dopasowaa sę l regresj do daych empryczych. Zgode z (5-8 musmy wyzaczyć wartość statystyk częścowej F p obserwowaej (obs w próbce. Korzystając z powyższych dwóch raportów (obecego w Rozdzale 5.4, mamy: F obs p F( X 3 ( SSR( k ' k 3 SSR( k / SSdodaejzmeej / X, X MSE ( k ' k 3 MSE ( k ' k 3 ( (47, ,75869/,5785,6. 0,903 Poeważ powyższa statystyka częścowa ma, przy prawdzwośc hpotezy zerowej o estotośc rozszerzea, rozkład F-Sedecora z lczbą stop swobody lczka rówą k - k = 3 - =, a maowka rówą --3=3, zatem empryczy pozom stotośc wyos (rachuek w Excel u: obs p P( F,6 0,007. ( Możemy zatem stwerdzć, że rozszerzee modelu parabolczego do sześceego jest stote statystycze z puktu wdzea poprawy dokładośc dopasowaa sę l regresj do daych empryczych (a każdym pozome stotośc α p 0,007. Zauważmy róweż, że wartość statystyk t Studeta zwązaa z weryfkacją w modelu sześceym hpotezy H 0 : 0, wyos w próbce zgode z raportem t obs = 3,55. Otrzymujemy węc, że (t obs = F obs 3 = obs,6 oraz (z raportu p P( t 3,55 = 0,007, czyl tyle samo co dla powyższego testu F p, tak jak to powo być dla tego testu statystyczego ze zmeą 3 X dodaą a końcu []. 6

63 Rozdzał Weloma cetroway ósmego stopa. Odpowed raport SAS a ma postać: welomay cetrowae ósmego stopa The REG Procedure Model: MODEL Depedet Varable: dochod dochod Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type I SS Itercept Itercept < m_ceter m_ceter < m_ceter m_ceter m_ceter3 m_ceter < m_ceter4 m_ceter < m_ceter5 m_ceter < m_ceter6 m_ceter < m_ceter7 m_ceter < m_ceter8 m_ceter < Parameter Estmates Squared Squared Squared Stadardzed Sem-partal Partal Sem-partal Varable Label DF Estmate Corr Type I Corr Type I Corr Type II Itercept Itercept 0... m_ceter m_ceter m_ceter m_ceter m_ceter3 m_ceter m_ceter4 m_ceter m_ceter5 m_ceter m_ceter6 m_ceter m_ceter7 m_ceter m_ceter8 m_ceter Parameter Estmates Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts Itercept Itercept m_ceter m_ceter m_ceter m_ceter m_ceter3 m_ceter m_ceter4 m_ceter m_ceter5 m_ceter m_ceter6 m_ceter m_ceter7 m_ceter m_ceter8 m_ceter

64 Correlato of Estmates Varable Label Itercept m_ceter m_ceter m_ceter3 m_ceter4 Itercept Itercept m_ceter m_ceter m_ceter m_ceter m_ceter3 m_ceter m_ceter4 m_ceter m_ceter5 m_ceter m_ceter6 m_ceter m_ceter7 m_ceter m_ceter8 m_ceter Correlato of Estmates Varable Label m_ceter5 m_ceter6 m_ceter7 m_ceter8 Itercept Itercept m_ceter m_ceter m_ceter m_ceter m_ceter3 m_ceter m_ceter4 m_ceter m_ceter5 m_ceter m_ceter6 m_ceter m_ceter7 m_ceter m_ceter8 m_ceter Wosk z raportu.. Rówae modelu: Yˆ 48,30,555 X 0,367 X 0,570 X 3 0,47 X ( Istotość statystycza modelu: Nska wartość empryczego pozomu stotośc p < 0.000ozacza, że wartość statystyk F = 3094,8 jest stota statystycze, co wskazuje a stotość ogólej zależośc korelacyjej w modelu. 3. Wysoka wartość współczyka determacj (R = wskazuje a bardzo dobre dopasowae modelu do daych empryczych. 4. Istotość parametrów strukturalych modelu: Wszystke parametry strukturale modelu (a zatem odpowadające m zmee objaśające są stote, gdyż z testu t przeprowadzoego przez system SAS wdać, że empryczy pozom stotośc p dla każdego z parametrów jest sk: a dla wększośc parametrów strukturalych p < 0.000, 3 b dla parametru, p = (co przy powszeche przyjętych pozomach stotośc uważae jest cągle za ewele. 5. Aalza macerzy korelacj: Z aalzy macerzy korelacj wyka, ż w modelach welomaowych cetrowaych, wraz ze wzrostem stopa welomau, zmee są coraz to częścej moco skorelowae. Jest to wyraz skuteczośc cetrowaa jedye w modelach z skm stopem welomau. 4 0,078 X 5 0,03 X 6 0,003 X 7 0,47 X 8 63

65 Rozdzał Weloma ortogoaly ósmego stopa. Odpowed raport SAS a ma postać: weloma ortogoaly ósmego stopa The REG Procedure Model: MODEL Depedet Varable: dochod dochod Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type I SS Itercept Itercept < Xort Xort < Xort Xort < Xort3 Xort < Xort4 Xort Xort5 Xort Xort6 Xort Xort7 Xort < Xort8 Xort < Parameter Estmates Squared Squared Squared Stadardzed Sem-partal Partal Sem-partal Varable Label DF Estmate Corr Type I Corr Type I Corr Type II Itercept Itercept 0... Xort Xort Xort Xort Xort3 Xort Xort4 Xort Xort5 Xort Xort6 Xort Xort7 Xort Xort8 Xort Parameter Estmates Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts Itercept Itercept Xort Xort Xort Xort Xort3 Xort Xort4 Xort Xort5 Xort Xort6 Xort Xort7 Xort Xort8 Xort

66 Correlato of Estmates Varable Label Itercept Xort Xort Xort3 Xort4 Itercept Itercept Xort Xort Xort Xort Xort3 Xort Xort4 Xort Xort5 Xort Xort6 Xort Xort7 Xort Xort8 Xort Correlato of Estmates Varable Label Xort5 Xort6 Xort7 Xort8 Itercept Itercept Xort Xort Xort Xort Xort3 Xort Xort4 Xort Xort5 Xort Xort6 Xort Xort7 Xort Xort8 Xort Uwaga. W powyższym raporce wdać, że wartośc stadardowych błędów oce wartośc stadardowych współczyków regresj są rówe. Wosk z raportu.. Rówae modelu: Yˆ 49,08 8,6X, X. Istotość statystycza modelu: ( Nsk empryczy pozom stotośc p < wskazuje, że wartość statystyk F = 3094,8 jest stota statystycze, co wskazuje a stotość ogólej zależośc korelacyjej w modelu. 3. Wysoka wartość współczyka determacj (R = wskazuje a bardzo dobre dopasowae modelu do daych empryczych. 4. Istotość parametrów strukturalych modelu: Wszystke parametry strukturale modelu (a zatem odpowadające m zmee objaśające są stote, gdyż z testu t przeprowadzoego przez system SAS wdać, że empryczy pozom stotośc p dla każdego z parametrów jest sk: a dla wększośc parametrów p < 0.000, b dla parametrów, otrzymujemy odpowedo: p = 0,0003, p = 0,0006, p = 0,000 (które to wartośc przy powszeche przyjętych pozomach stotośc α, uważae są za ske. 5. Aalza macerzy korelacj: Macerz korelacj wskazuje a brak współzależośc pomędzy estymatoram parametrów strukturalych, a zatem róweż a brak korelacj ( współlowośc zortogoalzowaych zmeych objaśających. 0,89 X 4 5, 3 0,6 X 6 4 0,4 X 5 0,7 X 6,0 X 7 0,40 X 8 65

67 Powyżej, przy okazj testowaa stotośc rozszerzea modelu parabolczego do sześceego stwerdzlśmy, że (a każdym pozome stotośc α p 0,007 rozszerzee modelu parabolczego do sześceego jest stote statystycze z puktu wdzea poprawy dokładośc dopasowaa sę l regresj do daych empryczych. Gdyby jedak przyjąć pozom stotośc α p 0,007 (p. α = 0,00, wtedy rozszerzee to e byłoby stote statystycze. Uczyńmy tak chocażby dla celów zaprezetowaa testu o ewystępowau braku dopasowaa. Zatem, chocaż przy prawdzwośc hpotezy zerowej o estotośc rozszerzea modelu parabolczego do sześceego, prawdopodobeństwo pojawea sę w próbce tak dużej fluktuacj (tz. tak dużej wartośc lczka statystyk częścowej ( dla której p 0,007, e jest duże, to przyjmjmy, że jest to wyk estoty statystycze. Zdecydujemy sę węc a wosek, że e było podstaw do odrzucea modelu parabolczego. Pozostaje sprawdzee, czy w modelu parabolczym e ma braku dopasowaa fukcj regresj do daych empryczych w porówau z modelem maksymalego, ósmego stopa. Całe woskowae przeprowadźmy a wybraym powyżej pozome stotośc α = 0,00. Wartość testowej statystyk częścowej F p w próbce wylczamy ze wzoru ( korzystając z raportów dla model z welomaam drugego ósmego stopa. Obserwowaa wartość jest rówa: F obs p F( X,, X. ( Przypomjmy, że żade model e da mejszej wartośc średego kwadratu dla reszt, czyl MS PE (dla tzw. czystego błędu, ż model maksymaly. 3 8 X, X 3 8 [ SSR ( X, X, X,..., X - SSR ( X, X 3 8 SSE( X, X, X,..., X / df MS MS LOF PE PE ]/ df LOF (475, ,75869 /(8 09, ,0000 Poeważ przy prawdzwośc hpotezy zerowej o e występowau braku dopasowaa w modelu drugego stopa, powyższa statystyka F p ma rozkład F-Sedecora z lczbam stop swobody lczka df 8 6 oraz maowka 8 8, zatem (korzystając z programu Excel wyzaczmy LOF df PE empryczy pozom stotośc obs -3 p P( F p F p 09,8 3,490. Jest to wyjątkowo małe prawdopodobeństwo. Zatem, a każdym pozome stotośc -3 p 3,490 (węc róweż dla 0,00, hpoteza o e występowau braku dopasowaa w modelu parabolczym zostaje odrzucoa, co ozacza, że steją zmee wyższego stopa ż, których dodae do groa zmeych objaśających w sposób stoty statystycze poprawłoby dopasowae fukcj regresj modelu do daych empryczych. 66

68 W samej rzeczy, korzystając z metody elmacj wstecz (Rozdzał 6-3 dla modelu z welomaem ósmego stopa dla zmeych ortoormalych, moża by sę przekoać, że wartośc wszystkch estymatorów parametrów strukturalych są w pobraej próbce stote statystycze a każdym pozome stotośc 0,00. Ozacza to, że model, który ależałoby zastosować, jest modelem ósmego stopa. Rozdzał 5-3. Ogóle wosk z przeprowadzoej aalzy regresj welomaowej. Wyk przeprowadzoej aalzy pozwalają a stwerdzee, ż ajlepsze rezultaty daje zastosowae model welomaowych ortogoalych ze względu a brak korelacj pomędzy zmeym objaśającym. Modele te e tylko dają take samo dopasowae sę fukcj regresj II- rodzaju do daych empryczych jak modele ze zmeym zwyczajym, ale ze względu a brak współlowośc pomędzy zmeym, otrzymae p. 95%-owe przedzały ufośc (95% Cofdece Lmts w raportach SAS a dla parametrów strukturalych, są węższe ż w modelach tego samego stopa ze zmeym zwyczajym. Węższy przedzał ufośc dla parametru strukturalego ozacza mejsze rozproszee możlwych wartośc estymatora parametru strukturalego w próbkach, a co za tym dze lepszą zdolość modelu do predykcj wartośc zmeej objaśaej. Drugm w kolejośc są modele cetrowae, które chocaż tylko częścowo skutecze w usuwau korelacj czyków, mają jedak pewą zaletę w porówau ze zmeym zortogoalzowaym. Otóż, poeważ ch użyce ozacza jedye przesuęce początku układu współrzędych, węc są oe zacze łatwejsze w praktyczym zastosowau modelu. A. Rozdzał 6: Wybór ajlepszego modelu regresj. Wybór modelu regresj może być podporządkoway jedemu z dwóch celów. Perwszy z ch wyzacza jako prorytet dokładość predykcj zmeej objaśaej, drug cel to otrzymae modelu z jak ajstotejszym współczykam regresj. Aby wybrać ajlepsze rówae regresj ależy wykoać astępujące krok []:. określć maksymaly model regresj.. określć kryterum wyboru modelu. 3. określć strategę wyboru zmeych do modelu. 4. przeprowadzć aalzę modelu. 5. oszacować warygodość wybraego modelu. 67

69 Rozdzał 6-. Krok. Określee maksymalego modelu regresj. Maksymaly model defujemy jako model, który zawera ajwększą lczbę zmeych objaśających, wykorzystywaych w selekcj modelu. Wszystke e modele mogą zostać utworzoe poprzez usuwae zmeych z modelu maksymalego. Modele z usuętym zmeym azywamy modelam ograczoym (zredukowaym. Przyjmjmy, że model maksymaly zawera m-zmeych, oraz że modele ograczoe zawerają b m zmeych. Model maksymaly powe być wyberay w tak sposób, aby zawerał możlwe jak ajwęcej formacj, powe być bardzo rozbudoway, aby ukąć możlwośc popełea błędu drugego rodzaju, tz. pomęca stotej zmeej, co małoby mejsce, gdyby odpoweda hpoteza zerowa odrzucoa pommo jej fałszywośc. j 0 e została Model maksymaly powe zawerać []:. wszystke podstawowe możlwe zmee objaśające,. zmee podstawowe wyższego rzędu ( X, 3. róże trasformacje zmeych p. logx, /X, 3 X,, 4. terakcje pomędzy zmeym, zawerające dwukerukowe wyższego rzędu współzależośc, Model te zawera bardzo dużo formacj. Jedak stosowae modelu z takm zestawem zmeych, stwarza e tylko trudośc ze względu a jego rozbudowaą formę, ale powoduje róweż możlwość wystąpea współzależośc mędzy zmeym objaśającym. Problemy te są dla as jedak drugorzęde z tego powodu, ż model te ma jedye posłużyć do wyboru modelu ajlepszego tz. takego, który będze zawerał możlwe jak ajwęcej formacj jedocześe będze posadał możlwe ajprostszą strukturę. Moża by postulować wybór modelu maksymalego, który posadałby mejszą lczbę zmeych tz. tylko takch zmeych, które są według badacza stote. Zatem w praktyce model maksymaly e jest p. modelem z możlwym ajwększym stopem występujących zmeych, a zwrot model maksymaly staow określee modelu uzaego za perwoty wobec potem astępującej selekcj. Jedak take podejśce mus być, ze względu a możlwość pomęce stotej zmeej, stosowae bardzo ostroże. Rozdzał 6-. Krok. Określee kryterum wyboru modelu. W wyborze ajlepszego modelu pomagają tzw. krytera selekcj. Wybrae kryterum może być stosowae do porówywaa model kadydujących w celu wyboru ajlepszego modelu. Kryterów ocey model może być wele w dalszej częśc zostaą opsae cztery ajpopularejsze. Oczywśce wybór modelu, który byłby ajlepszym modelem pod kątem wszystkch kryterów, jest mało prawdopodobe. Dlatego też doboru modelu powo sę dokoywać ze względu a kokrete kryterum. 68

70 Obrae kryterum powo sę wązać z celem aalzy, p. w przypadku, gdy zależy am a dokładośc predykcj, kryterum selekcj powo być eco lberale, aby ukąć przywązaa do którejś ze zmeych. Lcze krytera selekcj model zostały zapropoowae przez Hockg a [3]. Cztery ajpopularejsze krytera selekcj to: R (p, F p (p, MSE(p C(p (p występujące w argumece statystyk ozacza model propooway, atomast deks p dotyczy tak jak poprzedo testów częścowych. W Rozdzale 8- omówoo krótko kryterum formacyje Akake a (AIC. Kryterum R (p. Według tego kryterum ajlepszym modelem jest te, dla którego welokroty współczyk korelacj R jest ajwększy. Wartość tego współczyka w modelu z p - zmeym wyka z zależośc ( : R ( p R ( Y X, X,, X p SSE( p. (6-. SSY Nestety kryterum to posada astępujące wady:. skłoość do przeszacowaa przez R (p odpowedej welkośc w populacj, co jest zwązae z tym, że w skrajym przypadku wartość R w próbce może być rówa, pommo, że wartość ta może e meć c wspólego z dobrocą dopasowaa sę fukcj regresj I rodzaju w populacj.. dodawae awet bezwartoścowych czyków gdy e powoduje zmejszea wartośc R (p. Przecwe, zawsze astępuje wzrost wartośc R (p. Z tego wyka, że ajwyższa wartość współczyka R (p występuje w modelu maksymalym, który może e być przydaty w badau populacj ze względu a jego rozbudowaą strukturę. Dlatego też ajlepszy model może meć mejszą wartość współczyka R, ale w zama będze: ( blższy właścwemu modelow w populacj oraz ( praktyczejszy w użycu. Kryterum F p. W kryterum tym porówujemy model maksymaly z badaym a podstawe statystyk F p testu częścowego, oblczoej ze wzoru []: F p SSR( m SSR( p m p SSE( p SSE( m m p ( p SSE( m m MSE( m. (6-. Przy prawdzwośc hpotezy zerowej: H 0 : poprawa dopasowaa do daych empryczych modelu m w stosuku do modelu p jest estota statystycze, zmea F p (p ma rozkład F-Sedeckora z (m - p ( m - stopam swobody. Statystyka F p testuje czy różca pomędzy sumą kwadratów reszt dla modelu propoowaego z p-zmeym modelu maksymalego z m-zmeym jest stote statystycze róża od zera. 69

71 obs Jeżel wartość F p e jest stota statystycze (tz. empryczy pozom stotośc P( Fp ( p Fp ( p > α, to możemy przyjąć propooway model p jako dobry ze względu a zblżoą dobroć (dokładość dopasowaa se do daych empryczych jak model maksymaly. W przypadku, gdy p = m -, statystyka F p jest statystyką testową dla hpotezy H 0 : 0. m Kryterum MSE(p. Korzystając z tego kryterum szukamy model o ajmejszych średch kwadratach reszt (ajmejszych wartoścach estymatorów średej waracj wewątrzgrupowej. Śred kwadrat reszt dla modelu klasyczego MNK z p-zmeym ma postać (5-50: SSE( p MSE( p. (6-.3 p Według tego kryterum wyberamy model o małym średm rozproszeu wartośc empryczych reszt wokół l (powerzch regresj przy ustaloych wartoścach zmeych objaśających, czyl model o możlwe jak ajmejszym MSE(p. Kryterum Mallows C(p [4]. Zdefujmy tzw. współczyk Mallows a 9 C(p []: SSE( p C( p ( p MSE( m. (6-.4 W przypadku gdy model p ma mmalą możlwą wartość MSE, tz. gdy: MSE(p = MSE(m, (6-.5 wtedy 0 wartość: C(p = p +. (6-.6 Welkość C(p pozwala określć lczbę zmeych objaśających, jaka powa sę zaleźć w modelu, co wyka z faktu, że: C ( p p o le MSE( p MSE( m. (6-.7 Jeśl waże zmee objaśające zostały pomęte, wtedy C(p powo być wększe od p +. 9 Statystyka C(p Mallows a jest eobcążoym estymatorem średego kwadratu błędu przewdywaa (MSPE - mea squared predcto error w populacj, zapsaego astępująco [5]: gdze E Y E( Y X, X,..., X / ˆ, p E Ŷ jest teoretyczą średą warukową z modelu regresj dla -tej jedostk, a E( Y X, X,..., X p jest wartoścą oczekwaą warukową odpowedz, atomast jest jedoroda. 0 Wykorzystaj (6-.5 z (6-.3 w (6-.4. E jest waracją składka losowego, o której zakłada sę, że 70

72 Uwaga. Welkość p + występująca w zależośc a współczyk C(p jest rozumaa dla model zawerających wyraz woly (przesuęce aczej ż dla model, w których pomjamy te wyraz, a maowce: a p + ozacza dla modelu zawerającego przesuęce lczbę rówą lośc zmeych objaśających plus jede (tz. plus zmea jedostkowa I dla przesuęca, b p + ozacza dla modelu e zawerającego przesuęca lczbę zmeych objaśających. Netrudo pokazać, że steje zwązek pomędzy powyższym statystykam, a maowce: oraz: Rm Rp m p R m Fp ( p (6-.8 m C( p ( m p F ( p (p m. (6-.9 p Zaczee SSE: O dokładośc dopasowaa modelu do daych empryczych decyduje welkość SSE (otrzymaa dla dopasowaa fukcj regresj do daych empryczych metodą ajmejszych kwadratów. Zatem jeśl SSE(p = SSE(m, wtedy dopasowae (a węc predykcja modelu propoowaego jest taka jak modelu maksymalego. Przy waruku SSE(p = SSE(m z (6-. wdać, że F p (p = 0, a zatem C(p osąga wtedy swoją mmalą wartość, rówą: C ( p Cm ( p p m p, ( m p, przy waruku: SSE(p = SSE(m. (6-.0 Uwaga: Ze względu a ważość kryterum dokładośc dopasowaa modelu do daych empryczych, a zatem jakość predykcj, statystycy preferują często modele z ajmejszą wartoścą C(p jako główym kryterum doboru modelu. Tz. te propoowae modele, które mają wartość C(p ajblższą wartośc p m + są uzawae za ajlepsze. Z kole stee różcy pomędzy rzeczywstą wartoścą C(p modelu a wartoścą mmalą C ( p p m, wskazuje a lczbę brakujących zmeych w modelu (co jest przejawem tego, że m SSE(m jest mejsze ż SSE(p. Aby wybrać ajlepszy model musmy zdecydować sę, które z powyższych kryterów uzajemy za adrzęde, gdyż emożlwe jest aby wszystke krytera były spełoe przez jede model. Możemy otrzymać awet tyle ajlepszych model, le jest kryterów wyboru. Nemej, e moża kerować sę tylko jedym kryterum. Najlepszym modelem jest te, który zajduje sę wysoko w każdym z kryterów. Uwaga. W [4] omówoo róweż metodę Hellwga doboru czyków. 7

73 Rozdzał 6-3. Krok 3. Określee strateg wyboru zmeych do modelu. W trzecm kroku wyberamy strategę wyboru zmeych, określającą jak wele które zmee będzemy używać w modelu. Są astępujące główe stratege wyboru zmeych []: Porówywae wszystkch możlwych model regresj. Poprzez dodawae owych zmeych do modelu mało rozbudowaego (metoda doboru wprzód forward selecto procedure. Poprzez odejmowae zmeych z modelu bardzo rozbudowaego (metoda elmacj wstecz backward elmato procedure. Stratega krocząca stepwse regresso procedure. Procedura porówaa wszystkch możlwych model regresj. Procedura ta polega a zestaweu wszystkch możlwych model regresj w tabel, a astępe wyboru spośród ch modelu, który (według kryterów podaych w kroku Rozdzału 6-, powe w dealym przypadku meć: ajwększe R (p, ajmejsze MSE(p, ajmejsze C(p, wszystke wartośc statystyk częścowych F p (p statystycze stote. Te sposób daje ajwększe gwaracje wyboru odpowedego modelu, ale przy dużej lośc zmeych objaśających jest bardzo epraktyczy, gdyż lość model do porówaa może być bardzo duża. Maksymala lość model wyos: m p 0 m p m (6-3. dla m-zmeych. Np. dla m = 0 lczba model do porówaa wyos 0 -=03. Zatem wybór modelu polega a zalezeu takego modelu, który posada ajodpowedejsze z puktu wdzea badacza wartośc R (p, MSE(p, C(p, F p. Systaem SAS daje taką możlwość dla podstawowych kryterów selekcj modelu. Odpowedą procedurę aplkacj Aalyst moża wywołać po uruchomeu procedury REG dokoując cągu wyborów Solutos->Aalyss->Aalyst->Statstcs->Regreso->Lear->Model->Mallows Cp. Procedura doboru w przód. W procedurze tej przechodzmy astępujące etapy:. Jako perwszą zmeą wchodzącą do modelu przyjmujemy tę, która ma ajwększą wartość kwadratu współczyka korelacj R ze zmeą objaśaą Y. Zatem wyzaczamy odpowed model regresj borąc pod uwagę jedye tę zmeą. Następe oblczamy wartość ogólej statystyk F (tz. statystyk, którą testujemy hpotezę o ezależośc korelacyjej zmeej objaśaej od zmeej objaśającej dla tego modelu regresj. Jeśl otrzymaa wartość F e jest stota statystycze, zatrzymujemy sę woskujemy, że żada ze zmeych objaśających e jest stota statystycze. Jeśl jedak test był stoty statystycze (tz. wartość statystyk testowej była stota statystycze, wtedy włączamy tą zmeą objaśającą do modelu przystępujemy do puktu drugego omawaej procedury. 7

74 Dla procedury tej stota jest statystyka: SSR(ostata dodaa zmea zmee poprzede, (6-3. którą w SAS e podaje statystyka Type I SS.. Operając sę o modele regresj, w których jest zmea wybraa w pukce (, oraz po kole z osoba dodaa owa zmea, określamy wartośc częścowych statystyk F p oraz wartośc empryczych pozomów stotośc p (które są z m zwązae, dla każdej z owych zmeych objaśających dodaych a końcu. 3. Skupamy sę a zmeej z ajwększą wartoścą częścowej statystyk F p (ajmejszym empryczym pozome stotośc p wyzaczoą w pukce drugm. Jeśl otrzymaa ajwększa wartość F p jest stota statystycze, wtedy dodajemy odpowadającą jej zmeą objaśającą jako czyk do modelu. Jeśl F p e jest stote statystycze, wtedy w modelu pozostawamy jedye zmeą z pukce perwszego. 4. O dalszym doborze zmeych decydują wartośc częścowych statystyk F p zmeych jeszcze e ujętych w modelu. Jeśl wyk odpowedego testu jest stoty statystycze, to dodajemy zmeą do modelu. Procedura elmacj wstecz (BACKWARD ELIMINATION. W procedurze tej przechodzmy astępujące etapy:. Określamy rówae regresj zawerające wszystke zmee objaśające.. Oblczamy wartośc częścowego F p (lub wartość empryczego pozomu stotośc p dla każdej zmeej w modelu. Dla procedury tej stota jest statystyka: SSR(jeda z rozważaych zmeych zmee pozostałe, (6-3.3 którą w SAS e podaje statystyka Type II SS. 3. Zwracamy uwagę a ajższe wartośc statystyk częścowej F p lub ajwyższe wartośc p. 4. Porówujemy ajwyższą wartość empryczego pozomu stotośc p z wartoścą wcześej wybraego pozomu stotośc α (a pozostae zmeej w modelu decydujemy o usuęcu bądź zostaweu rozważaej zmeej. 5. Jeżel w pukce (4 decydujemy sę a usuęce zmeej, to powtarzamy (bez tej jedej zmeej pukty,, 3, 4, aż dojdzemy do układu zmeych, z których żadej e usuwamy. Wówczas otrzymujemy szukay model. Stratega krocząca. Procedura ta jest modyfkacją procedury selekcj w przód. W procedurze tej przy każdym kroku sprawdzae są wartośc częścowego F p, aby możlwe było wyelmowae zmeych, które utracły swoją stotość po wprowadzeu owych zmeych sle z ą skorelowaych. Usuęcu podlegają zmee o zbyt małym częścowym F p. 73

75 Rozdzał Procedura wyboru ajlepszego modelu regresj a przykładze metody elmacj wstecz. Procedurą tą przeprowadzmy dla daych przedstawoych pożej w Przykładze Cey meszkań. Procedura doboru zmeych poprzez elmację w programe SAS określaa jest w: Solutos- >Aalyss->Aalyst->Statstcs->Regresso->Lear ->Model. W tym mejscu możlwy jest także wybór ej metody p. metody kroczącej (Stepwse Regresso Procedure. Następe ależy określć szczegóły przeprowadzaej procedury tj. w szczególośc określć pozom stotośc α a pozostae zmeej w modelu, co jest możlwe w zakładce Crtera. Przykład: Cey meszkań. W pewym meśce przeprowadzoo badaa dotyczące cey meszkań (Y w 0000 PLN. W tym celu zebrao astępujące parametry trzydzestu losowo wybraych meszkań: - X - powerzcha meszkaa w 0 m, - X - lczba łazeek, - X 3 - lczba poko, - X 4 - wek budyku, - Z lokalzacja. Należy dokoać wyboru tych cech meszkań, które mają ajstotejszy wpływ a ch ceę (będącą zmeą objaśaą. 74

76 Dae otrzymae dla próbk 30 losowo wybraych meszkań są astępujące []: Meszkae Y X X X 3 X 4 Z 84,0 3, , , , , , , ,3 9, ,3, ,3, , ,4 7, ,4 7, ,5 9, , , , ,6, , ,7 6, , ,7 6, ,9 9, , ,9 6, ,0 5, ,0 7, ,9 6, , ,9 7, Model maksymaly zawera astępujące czyk: - X - powerzcha meszkaa w 0 m, - X - lczba łazeek, - X 3 - lczba poko, - X 4 - wek budyku, - Z - lokalzacja, która przyjmuje wartośc: 0 - dla meszkań w cetrum masta, - dla meszkaa a przedmeścach - Y cea meszkaa w 0000 PLN (jest zmeą objaśaą Y Pomjamy w poższej aalze zarówo wyższe potęg zmeych objaśających jak człoy oddzaływaa typu Z X 3, które ależałoby potraktować jako owe zmee objaśające. 75

77 Zatem model maksymaly ma astępującą strukturę: Yˆ ˆ 0 ˆ X ˆ X ˆ 3X 3 ˆ 4 X 4 ˆ 5Z. ( W programe SAS wyberamy opcję Backward Elmato. Śceżka dostępu do tej opcj w SAS e jest astępująca: Soluto-> Aalyss-> Aalyst-> a astępe (po wczytau daych, korzystając z Ope By SAS Name w zakładce Fle [] -> Statstcs-> Regresso-> Lear-> (określee zmeej objaśaej Depedet -w przykładze jest to cea - zmeych objaśających Explaatory - w przykładze są to X X, X, X, Z -> Model (Method-> Backward elmato., 3 4 Wybór tej metody jest uzasadoy małym prawdopodobeństwem pomęca, przy jej zastosowau, ważej zmeej w wyborze ostateczego modelu. Zatem wprowadzamy wszystke dostępe zmee do modelu maksymalego ustawamy pozom stotośc a pozostae zmeej w modelu (w aszym przypadku wybralśmy wartość 0,05 dla pozomu stotośc α a pozostae zmeej w modelu. Następe wykoujemy oblczea. Przeaalzujmy teraz sposób postępowaa wygeeroway przez program. Dla wygody czytelośc raport został podzeloy a poszczególe krok procedury.. Krok zerowy. Procedura elmacj (Backward elmato. Procedura elmacj The REG Procedure Model: MODEL Depedet Varable: Y Y Backward Elmato: Step 0 All Varables Etered: R-Square = 0.83 ad C(p = Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F Itercept X X X X Z Bouds o codto umber: , 67.3 Aalza raportu. Określoo model maksymaly, w którym zajdują sę wszystke możlwe zmee (m = 5. Model maksymaly możemy zapsać rówaem: Yˆ 6,397 0,9 X 3,397X 8,958 X3 0,55 X 4 0, 454 Z 76

78 Oblczoo współczyk determacj R = 0.83, statystykę F = 3,79 oraz wartość współczyka Mallows a C(p = 6 dla modelu maksymalego (p = m. Kerując sę jedye tym rezultatam moża woskować o tym, że otrzymay model jest ajlepszy (co jest zrozumałe gdyż jest to model maksymaly. Jedakże aszym celem jest otrzymae modelu możlwe jak ajlepszego, zarówo pod względem dokładośc jak możlwe ajmej rozbudowaej struktury. Dla każdej ze zmeych został przeprowadzoy test stotośc, którego wykem są astępujące wartośc empryczych pozomów stotośc p dla testów z odpowedą (dla wskazaego parametru zmeą dodaą a końcu: - dla parametru β 0, p = 0,595, - dla parametru β, p = 0,586, - dla parametru β, p = 0,, - dla parametru β 3, p = 0,0033, - dla parametru β 4, p = 0,0, - dla parametru β 5 (dla zmeej Z, p = 0,845. Zauważmy, ż ajwększa wartość p występuje przy weryfkacj hpotezy o estotośc dodaa parametru stojącego przy zmeej Z. Zatem w kolejym kroku zostae oa wyelmowaa, co wdać w astępej częśc raportu. (Przypomjmy, że wartość p = 0,845 ozacza, że odrzucając hpotezę H 0 : β 4 = 0, a pozome stotośc α = p = 0,845 pomyllbyśmy sę poad 84 razy a sto.. Krok perwszy. Procedura elmacj (Backward elmato. Backward Elmato: Step Varable Z Removed: R-Square = ad C(p = Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F Itercept X X X X Backward Elmato: Step Bouds o codto umber: 3.308, Zatem zmea Z została wyelmowaa z rówaa regresj modelu. Na tym etape, model możemy zapsać astępująco: Yˆ 7,355 0,847X 3,385X 9,57X3 0, 56 X 4. (

79 Model te charakteryzuje sę astępującym wartoścam współczyków: R (p = 0,839, F = 30,9, C(p = 4,0404. W tym kroku aalzując wyk, moża by spodzewać sę, że usuęcu ulege estymator wyrazu wolego, gdyż empryczy pozom stotośc dla weryfkacj hpotezy o estotośc parametru β 0 jest ajwyższy wyos p = 0,4968. Jedak asze domysły okazałyby sę błęde, gdyż program SAS e usuwa estymatora parametru przesuęca automatycze. Zatem w astępym kroku usuęcu ulege parametr β, dla którego p w teśce częścowym F p wyos 0, Krok drug. Procedura elmacj (Backward elmato. Backward Elmato: Step Varable X Removed: R-Square = ad C(p = Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F Itercept X X <.000 X Bouds o codto umber: 3.308,.0 Zgode z przewdywaam wyelmowaa została zmea X, a otrzymay dotychczas model jest astępujący: Yˆ 4,85 0,844 X 0,493 X3 0, 48 X 4. ( Współczyk modelu są astępujące: R (p = 0,809, F = 39,74, C(p = 3,6003. Aalzując wartośc prawdopodobeństw dla poszczególych zmeych (z wyłączeem wyrazu wolego woskujemy, że astępą wyelmowaą zmeą będze zmea X 4, gdyż empryczy pozom stotośc p, zwązay z testem a estotość parametru β 4, wyos 0,656 jest oo wększy od przyjętego pozomu stotośc a pozostae zmeej w modelu α= 0,05. Uzajemy węc, przy przyjętym pozome stotośc α = 0,05, że odrzucee hpotezy zerowej H 0 : β 4 =0 jest cągle obarczoe za dużym prawdopodobeństwo pomyłk, a wartość statystyk F p =,04 uzajemy za estotą statystycze (tz. uzajemy, że mogła pochodzć z fluktuacj w kosekwecj, e pozostawamy zmeej X 4 w modelu. 78

80 4. Krok trzec. Procedura elmacj (Backward elmato. Backward Elmato: Step 3 Varable X4 Removed: R-Square = ad C(p = Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F Itercept X X <.000 Bouds o codto umber:.0994, Zgode z przewdywaam zmea X 4 została wyelmowaa z rówaa modelu. Na tym etape doboru zmeych do modelu zauważmy, że wartośc empryczych pozomów stotośc p dla wszystkch parametrów (pomjając β 0 są ższe od przyjętego pozomu stotośc α= 0,05 w zwązku z tym, a tym kroku elmacja została zakończoa. W ostatej częśc raportu zajduje sę podsumowae całej procedury. 5. Krok czwarty (podsumowae. Procedura elmacj (Backward elmato. All varables left the model are sgfcat at the level. Summary of Backward Elmato Varable Number Partal Model Step Removed Label Vars I R-Square R-Square C(p F Value Pr > F Z Z X X X4 X Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type I SS Itercept Itercept X X X3 X <

81 Parameter Estmates Squared Squared Squared Stadardzed Sem-partal Partal Sem-partal Varable Label DF Estmate Corr Type I Corr Type I Corr Type II Itercept Itercept 0... X X X3 X Parameter Estmates Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts Itercept Itercept X X X3 X Podsumowae zawera kolejo:. formacje o przyjętym pozome stotośc pozostaa zmeej w modelu (w powyższym raporce 0.05,. formacje o czykach usuętych z modelu (w raporce Z, X, X 4, wraz z wartoścam statystyk użytych przy elmacj, 3. dae o wybraym modelu, lość rodzaj daych uzależoy jest od ch wyboru a początku procedury. Zostają wydrukowae wybrae wartośc, statystyk, ewetuale wykresy. Ostateczy model wyselekcjooway według kryterum F p ma astępującą charakterystykę:. fukcja regresj II rodzaju dla modelu: Yˆ 4,3,303X 0, 4X 3 ( wartość współczyka determacj: R (p = 0,8069, gdze p =, 3. wartość statystyk ogólej F, oraz empryczy pozom stotośc (określający -w tym przypadku dużąstotość zależośc korelacyjej cey meszkaa Y od powerzch X lczby poko X 3 w modelu: F = 56,4 p < 0, wartość współczyka Mallows a C(p: C(p = 3,6044, Powyższą wartość C(p wyzaczył SAS, przyjmując p + = 3 jako lczbę wszystkch zmeych w badaym modelu (tym razem z przesuęcem. Sprawdźmy te wyk, korzystając z wartośc zawartych w raporce: SSE( p MSE( m 686,8878 = 30 ( , 4,85793 C( p ( p 80

82 Porówując tą wartość C(p z wartoścą mmalą C m ( p p m = 5 0 wdzmy, że wartość C(p = 3,6044 jest daleka od wartośc mmalej 0, co ozacza, że baday model e ajlepej dopasowuje sę do daych empryczych (w porówau z modelem maksymalym z m = 5, w którym C(m = 6, co jest róweż wartoścą mmalą kryterum Mallows a przyjętego modelu maksymalego. Wskazuje to a brak jakś stotych zmeych objaśających w badaym modelu sugeruje rezygację z tak daleko posuętej procedury elmacj wstecz, powrót do modelu z jedye usuętą zmeą Z, dla którego C(p = jest wartoścą bardzo blską wartośc mmalej rówej C ( p p m 45 4 m. 5. w wyselekcjoowaym modelu według kryterum F p, wartośc empryczych pozomów stotośc dla testów o estotośc parametrów strukturalych są astępujące: dla parametru strukturalego β przy zmeej X, p = 0,0055, dla parametru strukturalego β 3 przy zmeej X 3, p < 0,000, dla parametru strukturalego β 0 z wyrazu wolego, p = 0,6994. Zatem wybray model charakteryzuje sę: - stosukowo wysokm współczykem determacj, - stotoścą statystyczą wszystkch parametrów stojących przy zmeych objaśających. Tz. a średą ceę meszkaa mają w sposób stoty statystycze wpływ: powerzcha meszkaa X lczba poko X 3, - w modelu zajduje sę statystycze estoty estymator wyrazu wolego. W celu otrzymaa modelu, w którym e będze uwzględoy estymator wyrazu wolego ależy zmodyfkować procedurę w astępujący sposób. Jeżel, w którymś kroku procedury, osoba badająca zauważy estotość estymatora wyrazu wolego, powa odotować zestaw zmeych aktualego modelu, a astępe poowć procedurę. Wzowoa aalza powa być przeprowadzoa dla modelu odotowaego z wyłączeem wyrazu wolego. W aszym przypadku po perwszym wykoau kroku, powśmy odotować zmee wchodzące do modelu pomjając wyraz woly (do ot clude tercept - w komedze SAS a umeszczoej w opcj Regresso> Lear> Model (Method. Zatem do dalszego badaa przechodzą astępujące zmee: X, X, X 3, X 4 (oczywśce bez wyrazu wolego. Dalsze postępowae e róż sę już od wcześej opsaego. Ostatecze otrzymujemy astępujący raport: Raport. Procedura elmacj (Backward elmato po wyłączeu wyrazu wolego. Procedura po wyłączeu wyrazu wolego The REG Procedure Model: MODEL Depedet Varable: Y Y 8

83 Backward Elmato: Step 0 All Varables Etered: R-Square = ad C(p = NOTE: No tercept model. R-Square s redefed. Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Ucorrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F X X X <.000 X Bouds o codto umber: 40.55, Backward Elmato: Step Varable X Removed: R-Square = ad C(p = NOTE: No tercept model. R-Square s redefed. Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Ucorrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F X X <.000 X Bouds o codto umber: , Backward Elmato: Step Varable X4 Removed: R-Square = ad C(p = NOTE: No tercept model. R-Square s redefed. Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Ucorrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F X X <.000 Bouds o codto umber: 38.78, 55. 8

84 All varables left the model are sgfcat at the level. NOTE: No tercept model. R-Square s redefed. Summary of Backward Elmato Varable Number Partal Model Step Removed Label Vars I R-Square R-Square C(p F Value Pr > F X X X4 X NOTE: No tercept model. R-Square s redefed. Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Ucorrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type I SS X X X3 X < Parameter Estmates Squared Squared Squared Stadardzed Sem-partal Partal Sem-partal Varable Label DF Estmate Corr Type I Corr Type I Corr Type II X X X3 X Parameter Estmates Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts X X X3 X Pomjamy aalzę poszczególych kroków postępowaa, gdyż przebega oa jak we wcześejszym przypadku z włączoym a sztywo przesuęcem. Wypszemy jedak charakterystykę otrzymaego modelu:. rówae regresj dla modelu: Yˆ,369X 9, 39X. wartość współczyka determacj: R (p = 0,9968, 3 (

85 3. wartość statystyk F oraz empryczy pozom stotośc dla zależośc korelacyjej cey meszkaa od powerzch lczby poko w modelu: F = 430,37 p < 0, wartość współczyka C(p: C(p = 3,465, Powyższą wartość C(p lczymy przyjmując p + = jako lczbę wszystkch zmeych w badaym modelu, otrzymując po skorzystau z wartośc zawartych w raporce: SSE( p MSE( m 690,06040 = 30 3, ,466 C( p ( p Wdać, że wartość C(p = 3,465 jest daleka od wartośc mmalej C ( p p m 3 0 m dla modelu, co ozacza, że model kepsko dopasowuje sę do daych empryczych (w porówau z modelem maksymalym, w którym tym razem m = 3 dla którego C(m = m + = 4, jak to jest wdocze a górze raportu dla modelu, w którym są zmee X, X, X 3, X 4. Wskazuje to a brak jakś stotych zmeych objaśających w modelu sugeruje rezygację z tak daleko posuętej procedury elmacj wstecz, powrót do jedego z model wyższych. 5. wartośc empryczych pozomów stotośc dla testów o estotośc parametrów strukturalych w modelu: - dla parametru strukturalego β przy zmeej X, p = 0,005, - dla parametru strukturalego β 3 przy zmeej X 3, p < 0,000, Na koec zauważmy, że chocaż wyselekcjooway przez procedurę elmacj wstecz model bez wyrazu wolego (przesuęca lepej dopasowuje sę do daych empryczych, R (p = 0,9968, ż model z przesuęcem, R (p = 0,8069, to tak w jedym jak w drugm przypadku ależałoby zdecydować sę raczej a modele wyższe, dla których C(p jest blższe odpowedm wartoścom mmalym. Na dodatek okazuje sę, że obydwa powyższe modele, jako ewycetrowae, wykazują dużą korelację ( współlowość pomędzy zmeym objaśającym (tą część raportu pomęto z powodu podobej aalzy przeprowadzoej pożej dla modelu maksymalego wyselekcjoowaego ostatecze według kryterum C(p. 84

86 Rozdzał 6-4. Przykład aalzy współlowośc dla modelu maksymalego z ewycetrowaym zmeym. Przeprowadźmy aalzę współlowośc modelu maksymalego dla przykładu Cey meszkań. W programe SAS wyberamy śceżkę dostępu do opcj Full model : Soluto-> Aalyss-> Aalyst-> a astępe (po wczytau daych, korzystając z Ope By SAS Name w zakładce Fle [] -> Statstcs-> Regresso-> Lear-> (zmeym objaśającym Explaatory są w modelu maksymalym X X, X, X, Z -> Model (Method-> Full model., 3 4 Odpowed raport SAS a ma postać (część : Aalza współlowośc w modelu maksymalym The REG Procedure Model: MODEL Depedet Varable: Y Y Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square 0.83 Depedet Mea Adj R-Sq Coeff Var 5.97 Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type I SS Itercept Itercept X X X X X3 X X4 X Z Z Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts Itercept Itercept X X X X X3 X X4 X Z Z W powyższej częśc raportu zameszczoe są podstawowe dae o modelu jego parametrach, oraz take welkośc wykorzystywae w aalze współlowośc jak współczyk toleracj współczyk flacj,, waracj. Wartość współczyka toleracj (4-5.36, Toleracja R 0 056(dla R , co śwadczy o występowau raczej dużej korelacj zmeej X z pozostałym czykam. Natomast 85

87 wydaje sę, że współczyk flacj waracj (tzw. adęce waracj, (4-5.35, e daje tak egatywej, progozy, gdyż ajwyższa jego wartość wyos VIF /( R (podczas gdy wartość sygalzująca deftywe występowae slej współzależośc wyos co ajmej 0. Zatem, przyjrzymy sę macerzy korelacj dla estymatorów parametrów strukturalych oraz wartoścom własym j, (4-6.53, w układze składowych główych modelu (dla aalzy zwązaej z macerzą korelacj dla czyków modelu. Raport dla aalzy współlowośc w modelu maksymalym (część. Correlato of Estmates Varable Label Itercept X X Itercept Itercept X X X X X3 X X4 X Z Z Correlato of Estmates Varable Label X3 X4 Z Itercept Itercept X X X X X3 X X4 X Z Z Badając macerz korelacj estymatorów parametrów trudo jedozacze stwerdzć występowae dużej korelacj ( współlowośc pomędzy czykam, gdyż wartośc bezwzględe współczyków korelacj dla estymatorów parametrów strukturalych (czyl elemetów poza dagoalą przyjmują maksymale wartość 0,78, a ogół przyjmując wartośc zacze ższe. Przejdźmy węc do ostatej częśc wydruku, w której dokoao aalzy współzależośc metodą wartośc własych macerzy korelacj czyków ( Raport dla aalza współlowośc w modelu maksymalym (część 3. Collearty Dagostcs Codto Number Egevalue Idex

88 Collearty Dagostcs Proporto of Varato Number Itercept X X X3 X4 Z W ostatej częśc raportu zawarte są wartośc włase macerzy korelacj, oraz wartośc deksów warukowych CI j, ( Przypomjmy, że wartośc wskazujące a występowae dużej korelacj pomędzy zmeym, to blske zeru wartośc włase λ j macerzy kowaracj czyków ( lub dla deksu warukowego CI j, wartośc przekraczające 30. Otrzymay wydruk pozwala w końcu a wycągęce wosku o steu dużej korelacj ( współlowośc pomędzy zmeym objaśającym, gdyż występują w m, co ajmej dwe ske wartośc włase (tz.: λ 5 = 0.009, λ 6 = (dla umerowaa wartośc własych zaczyającego sę od, oraz występuje wartość deksu warukowego przekraczająca 30 (CI 6 = Podsumowując, dochodzmy do wosku, że e moża kerować sę tylko jedym wskaźkem korelacj (współlowośc zmeych, gdyż pocąga to za sobą możlwość popełea błędu w ocee tej własośc modelu. Wystąpee choćby jedego sygału o możlwośc wystąpea korelacj powo skłoć badacza do zastosowaa chocażby wycetrowaa zmeych (Rozdzał 5 oraz przyjęca jedej z opsaych wcześej metod doboru czyków do modelu Przykład elmacj współlowośc poprzez cetrowae stadaryzację (przelczyć. W obecym rozdzale podamy przykład przeprowadzea aalzy ze zmeym stadaryzowaym (węc automatycze wycetrowaym dla daych przykładu Cey meszkań. Przypomjmy, że z przeprowadzoej powyższej aalzy współlowośc modelu maksymalego ze zmeym zwykłym wyka, że czyk mogą być ze sobą sle skorelowae, a zatem wyselekcjooway model, może dawać zaczą epewość co do dokładośc opartych o ego przewdywań (ce meszkań. Przeprowadźmy węc procedurę elmacj wstecz (Backward Elmato dla daych stadaryzowaych. Otrzymae wyk będzemy aalzować zasadczo pod kątem dwu kryterów doboru zmeych do modelu, a maowce: Kryterum F p jako kryterum stadardowego w procedurze selekcj w systeme SAS, Kryterum Mallows a C(p jako kryterum preferowaego przez welu statystyków [], gdyż pozwala oo do pewego stopa a wypowedź o lczbe brakujących czyków w modelu (z różcy pomędzy C(p modelu a wartoścą mmalą dla modelu. 87

89 Stadaryzowae dae dla przykładu: Cey meszkań. Meszkae Y X c X c X 3 c X 4 c Zc 84,0-0,049 0,496 0,573-0,5-0,983 93,0,5485 -,9664 0,573,5689 0, , -,33 -,9664 0,573 0,939 0, , 0,766 0,496 0,573 0,939 0, , -0,6773 0,496 0,573-0,6907 0, , 0,766 0,496 0,573 0,406 0, , -0,6773 0,496 0,573-0,6907 0, ,3 -,5994 0,496 -,866 -,0877 0, ,3-0,583 0,496 0,573 0,0078 0, ,3-0,583 0,496 0,573 0,0078 0,983 77,4-0,6773 0,496 0,573 -,389-0,983 9,4,987 0,496 0,573,6376-0, ,4,987 0,496 0,573,6376-0, ,5 -,47 -,9664 -,8304-0,6907-0, ,5 0,5946 0,496 0,573 0,0078-0, ,5 0,5946 0,496 0,573 0,0078-0, ,6 -,949 -,9664 -,8304 -,389-0, ,6-0,7409 0,496 0,573-0,6907 0, ,7 0,5946 0,496 0,573-0,4579-0, ,7 0,8490 -,9664 0,573 0,406-0,983 86,7 0,5946 0,496 0,573-0,4579-0,983 89,7 0,8490 -,9664 0,573 0,406-0, ,9 -,47 0,496 -,866 -,564 0, ,9 -,33 0,496 -,866 0,0078-0, ,9 0,7536 0,496 0,573 0,939-0, ,0 0,3084 0,496 0,573-0,6907 0, ,0,987 0,496,80 0,4734 0, ,9 0,7536 0,496 0,573 0,939-0, ,9 0,766 0,496 0,573-0,6907 0, ,9,669 0,496,80 0,4734 0,983 W poższych wydrukach ltera c przy zmeych ozacza, ż jest to zmea stadaryzowaa zgode z ( (zatem wycetrowaa. Peły raport Systemu SAS w tym przypadku wygląda astępująco. Raport. Procedura elmacj (Backward elmato. Procedura elmacj dae stadaryzowae The REG Procedure Model: MODEL Depedet Varable: Y Y Backward Elmato: Step 0 All Varables Etered: R-Square = 0.83 ad C(p =

90 Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F Itercept <.000 Xc Xc X3c X4c Zc Bouds o codto umber: , Backward Elmato: Step Varable Zc Removed: R-Square = ad C(p = Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F Itercept <.000 Xc Xc X3c X4c Backward Elmato: Step Bouds o codto umber: 3.308, Backward Elmato: Step Varable Xc Removed: R-Square = ad C(p = Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F Itercept <.000 Xc X3c <.000 X4c Bouds o codto umber: 3.308,

91 Backward Elmato: Step 3 Varable X4c Removed: R-Square = ad C(p = Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Backward Elmato: Step 3 Parameter Stadard Varable Estmate Error Type II SS F Value Pr > F Itercept <.000 Xc X3c <.000 Bouds o codto umber:.0994, All varables left the model are sgfcat at the level. Summary of Backward Elmato Varable Number Partal Model Step Removed Label Vars I R-Square R-Square C(p F Value Pr > F Zc Zc Xc Xc X4c X4c Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type I SS Itercept Itercept < Xc Xc X3c X3c < Z powyższego raportu wyka, że model, w który wchodzą czyk X c, X 3 c oraz wyraz woly jest ajlepszym, ale tylko z puktu wdzea kryterum F p doboru zmeych z parametram strukturalym stotym statystycze. Istote, dokoajmy aalzy współczyka C(p. Dla poszczególych model otrzymaych w każdym z kroków procedury elmacj wstecz, porówamy otrzymaą z (6-.4 wartość współczyka C(p z wartoścą mmalą dla daego modelu. Wartość mmala jest jak zwykle wyzaczoa z C m ( p p m, (

92 Wyk aalzy są przedstawoe w Tabel 6-.. Tabela Porówae model a podstawe współczyka C(p. Krok procedury Zerowy, p = m = 5 Perwszy, p = 4 Drug, p = 3 Trzec, p=4 Zestaw zmeych Współczyk C(p modelu Optymaly współczyk C(p X c X c X 3 c X 4 c Zc X c X c X 3 c X 4 c X c X 3 c X 4 c X c X 3 c C(p = 6,0000 C(p = 6,0000 C(p = 4,0404 C(p = 4,0000 C(p = 3,6003 C(p =,0000 C(p = 3,6044 C(p = 0,0000 Z wyków zawartych w powyższej tabel wyka, ż ajlepszym modelem w rozważaym zagadeu jest model składający sę ze zmeych X c, X c, X 3 c, X 4 c, poeważ wartość współczyka C(p = 4,0404 tego modelu róż sę ezacze (o mej ż 0,5 od wartośc mmalej C m ( p p m = 4 tego współczyka, co ozacza, że e ma w wyselekcjoowaym modelu mejsca awet a jedą dodatkową zmeą objaśającą. Przeprowadzmy teraz podstawową aalzę zapropoowaego modelu. Aalza modelu charakteryzującego sę ajlepszym współczykem Mallows a. Odpowed raport SAS a ma postać: dae stadaryzowae model z ajlepszym C(p The REG Procedure Model: MODEL Depedet Varable: Y Y Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var

93 Parameter Estmates Parameter Stadard Varable Label DF Estmate Error t Value Pr > t Type I SS Itercept Itercept < Xc Xc Xc Xc X3c X3c X4c X4c Parameter Estmates Squared Squared Squared Stadardzed Sem-partal Partal Sem-partal Varable Label DF Estmate Corr Type I Corr Type I Corr Type II Itercept Itercept 0... Xc Xc Xc Xc X3c X3c X4c X4c Parameter Estmates Varace Varable Label DF Tolerace Iflato 95% Cofdece Lmts Itercept Itercept Xc Xc Xc Xc X3c X3c X4c X4c Correlato of Estmates Varable Label Itercept Xc Xc X3c X4c Itercept Itercept Xc Xc Xc Xc X3c X3c X4c X4c Collearty Dagostcs Codto Number Egevalue Idex Collearty Dagostcs Proporto of Varato Number Itercept Xc Xc X3c X4c Aalzując powyższy raport możemy stwerdzć, że model, wyselekcjooway według kryterum Mallows a C(p ma postać: Yˆ 83,497,66 Xc,377 Xc 5,996 X3c,40 X4c. (

94 Ma o astępującą charakterystykę. W modelu tym estymator wyrazu wolego jest statystycze stoty (p <0,000. Poadto, aalzując macerz korelacj estymatorów parametrów strukturalych modelu wdać, że ajwększa wartość bezwzględa współczyka korelacj wyos ˆ Ozacza to, że róweż 3, pomędzy (stadaryzowaym czykam w modelu e występuje a sla korelacja (a współlowość. Róweż wyk otrzymae metodą aalzy wartośc własych e wskazują a występowaa dużej korelacj. Najmejsza wartość własa jest rówa λ 5 = 0,967, a wartośc deksów warukowych CI j e różą sę bardzo, leżąc pomędzy a Podsumowując stwerdzamy, że chocaż powyższy model, wyselekcjooway przez kryterum Mallows a C(p, e speła kryterum F p a pozostae w modelu tylko tych czyków, dla których wartośc odpowedch częścowych statystyk F p są stote statystycze, to ze względu a przyjętą adrzędość kryterum C(p zwązaą z dobrocą predykcj (ce meszkań, wyberamy go, jako model ajlepszy. Model te jest róweż eco prostszy ż model maksymaly. 93

95 Rozdzał 6-6. Przykład procedury porówaa wszystkch możlwych model regresj. Na koec przedstawmy raport SAS a z porówaa selekcj klku modelu regresj dla badaego przykładu Cea meszkań z wykorzystaem wszystkch rozważaych kryterów, gdze jako model maksymaly został przyjęty model z wszystkm zmeym stadaryzowaym (węc wycetrowaym. Odpowed raport ma postać: Cey meszkań :58 Moday, February 7, 04 The REG Procedure Model: MODEL Depedet Varable: Y C(p Selecto Method Number of Observatos Read 30 Number of Observatos Used 30 Number Adjusted Model C(p R-Square R-Square AIC MSE SSE Varables Model X_cet X3_cet X4_cet X_cet X3_cet X_cet X_cet X3_cet X4_cet X3_cet X4_cet X_cet X3_cet X4_cet X_cet X_cet X3_cet X_cet X3_cet Z_cet X_cet X3_cet X4_cet Z_cet X3_cet X4_cet Z_cet X_cet X_cet X3_cet X4_cet Z_cet X_cet X3_cet X4_cet Z_cet X_cet X_cet X3_cet Z_cet X3_cet X3_cet Z_cet X_cet X3_cet X_cet X3_cet Z_cet X_cet X_cet X4_cet Z_cet X_cet X_cet Z_cet X_cet Z_cet X_cet X_cet X4_cet X_cet X4_cet Z_cet X_cet X_cet X_cet X_cet X4_cet X_cet X4_cet X_cet X4_cet Z_cet X4_cet Z_cet X4_cet X_cet X_cet Z_cet Z_cet Raport te otrzymao z wykorzystaem aplkacj Aalyst SAS a po uruchomeu procedury REG dokoując cągu wyborów Solutos->Aalyss->Aalyst-> ( po wczytau daych, korzystając z Ope By SAS Name w zakładce Fle ->Statstcs->Regreso->Lear->Model->Mallows Cp. 94

96 Zadae. Dokoać selekcj z pośród model przebadaych w powyższym raporce, posługując sę p. kryteram C(p, Adjusted R-Square ( R oraz AIC (Rozdzał 8. adj Uwaga. Według formacyjego kryterum AIC, m jego wartość jest mejsza tym model jest bardzej preferoway. Przypomjmy, że aby skorzystać z kryterum Mallows a, ależy wartość C(p modelu porówać z jego wartoścą mmalą C ( p, pozostawając jedye modele, w których różca mędzy tym wartoścam e m przekracza, powedzmy, 0,5 (lub ewetuale, tak aby w wyselekcjoowaym modelu e było już mejsca a dodatkowy czyk, z puktu wdzea dokładośc jego dopasowaa do daych empryczych Krok 5. Określee soldośc wybraego modelu Model wybray w czterech poprzedch krokach jest modelem ajlepszym do aalzy zależośc dla daych, które pobralśmy w kokretej próbce. Jedakże e wemy czy model te będze róweż dobrym dla ej próbk. Model, który adaje sę do aalzy ych próbek azywamy modelem godym zaufaa (modelem soldym. Poeważ pobrae kolejej próbk może być z jakś powodów utrudoe, dlatego powszeche używae metody testowaa soldośc modelu polegają a podzeleu próbk a dwe mejsze. Metody te polegają bądź a porówau model wyselekcjoowaych w obu podpróbkach, bądź a sprawdzeu skuteczośc modelu uzyskaego z jedej podpróbk dla daych w drugej podpróbce. W perwszym sposobe aalzuje sę różce mędzy modelam otrzymae w obu podpróbkach. Kostrukcję podpróbek omówoo pożej, przy okazj omawaa drugego sposobu. Jeżel różc jest bardzo dużo, to model e może być uzay za soldy. Jakakolwek różca w wyselekcjoowaych zmeych jest wskazówką esoldośc modelu. Tak sę zazwyczaj składa, że różce take pojawają sę, co sprawa, że same metody selekcj zmeych do modelu e są uzawae za solde, co jest to astępym powodem przyjęca jako ostateczego kryterum raczej wartośc współczyków Mallows a C(p ż testów częścowych F p. Z drugej stroy model jest uważay za soldy, jeżel zastosowae go do obu podpróbek daje podobe wyk.. Drug sposób przebega astępująco: Dzelmy pobraą próbkę (o lczebośc a dwe mejsze podpróbk. Sposób podzału: a wyberamy z perwotej próbk jedostk, które dla tych samych wartośc zmeej X mają róże wartośc zmeej objaśaej Y (podobe w przypadku układów wartośc dla klku zmeych objaśających, z perwotej próbk wyberamy jedostk, które mają take same układy wszystkch wartośc zmeych objaśających, 95

97 b dla jedostek z tą samą wartoścą zmeej X (podobe dla klku zmeych dokoujemy losowaa tych jedostek do dwóch wspomaych podpróbek, które a skutek tej procedury zawerają, odpowedo jedostek z próbk perwotej ( = +.. Dla perwszej podpróbk ( wyzaczamy rówae regresj: Y ˆ ˆ ˆ X ˆ X... ˆ. ( j X j. Oblczamy kwadrat współczyka korelacj welokrotej: R R ( Y X, X,..., X r ( Y, Yˆ j. (6-6. ( gdze r Y, Yˆ ( jest kwadratem współczyka korelacj pomędzy wartoścam teoretyczym średch warukowych Y ˆ a wartoścam eksperymetalym Y ( =,,..., zmeej Y w podpróbce r, 3. Wykorzystujemy rówae regresj (6-6.0 wyzaczoe w podpróbce r do wyzaczea wartośc przewdywaych Yˆ ( = +,, + dla podpróbk r. 4. Oblczamy współczyk korelacj krzyżowej []: gdze lczymy korelację pomędzy wartoścam ˆ a wartoścam empryczym Y ( = +,, + zmeej Y w podpróbce r. 5. Następe oblczamy różcę []: R ( R (, (6-6.3 azywaą współczykem ścśęca korelacj krzyżowej (ścśęce, który określa różce pomędzy oboma współczykam korelacj. Różca ta przyjmuje wartośc z przedzału 0,. Model moża uzać za soldy, gdy różca ta jest jak ajmejsza, przy czym e ustaloo wartośc graczej. Przyjmuje sę często, że model ze ścśęcem 0,9 lub wększym jest esoldy, a model, dla którego ścśęce wyos 0, lub mej jest soldy, tz. mamy adzeję, że rówe dobrze stosowałby sę do aalzy daych dla ych próbek pobraych z populacj. ˆ R ( r ( Y, Y, (6-6. Y 96

98 A. Rozdzał 7: Wosk dalsze metody aalzy. Wosk dotyczące aalzy współzależośc zmeych metodą regresj:. badaa statystycze powy być prowadzoe metodą aalzy dostosowaą do zadaego celu badaa (Rozdzał, Tabela -.,. dobór zmeych powe być ścśle podporządkoway celow badaa, uwzględając przy tym statystyczą stotość wartośc estymatorów parametrów strukturalych stojących przy zmeych (Rozdzał 6, Procedury doboru zmeych, 3. ajlepszym modelem statystyczym jest tak, który przy ezbyt rozbudowaej strukturze daje rówae regresj jak ajlepej opsujące zależośc pomędzy zmeym, tz. jak ajlepej dopasowujące sę do daych empryczych, a co jest z tym zwązae, jak ajsoldejszą predykcję wartośc zmeej objaśaej, 4. zmee objaśające modelu powy (w marę możlwośc e wykazywać mędzy sobą współlowośc (Rozdzał 5, Rozdzał w celu ukęca współlowośc zmeych objaśających ależy przeprowadzć cetrowae lub stadaryzację tych zmeych, a w przypadku model welomaowych może okazać sę ezbęda ch ortogoalzacja (Rozdzał 5, 6. wybraa procedura doboru zmeych powa prowadzć do selekcj modelu, w którym e została pomęta żada stota zmea, dlatego metodą preferowaą w tym względze jest metoda elmacj wstecz (Rozdzał 6, 7. przy doborze zmeych objaśających do modelu statystyczego ależy przedkładać kryterum Mallows a C(p poad kryterum F(p. Dokładej rzecz ujmując stosowae F(p jako jedyego kryterum doboru modelu ma ograczea, których e ma kryterum Mallows a C(p, pozwalające e tylko a dobór modelu pod względem jego dokładośc dopasowaa sę do daych empryczych (podobe jak to czy F(p, ale jedocześe umożlwające podjęce decyzj o tym le zmeych objaśających pozostawć w modelu końcowym (Rozdzał 6, Przeprowadzoa aalza przykładu Cey meszkań, 8. model statystyczy powe spełać wszystke waruk wymagaa przedstawoe powyżej, a poadto powe być modelem soldym, tz. takm, który będze moża zastosować do daych otrzymaych z ej próbk, pobraej ezależe w sposób reprezetacyjy z populacj (Rozdzał 6-5. Na sam koec podkreślmy fakt, że pogłęboa aalza regresj zwraca baczą uwagę a tzw. dagostykę regresj zwązaą z resztam występującym w badaym modelu. Jest to kolejy, obszery temat badań (Rozdzały 0 do 5. 97

99 A. Rozdzał 8: Uzupełea. Rozdzał 8-. Uzupełea. Kryterum R, R adj kryterum Akake a. W modelach regresj współczyk determacj: SSR SSE R SSY SSY (8-. merzy stosuek zmeośc zmeej objaśaej wyjaśoy regresją do zmeośc ogólej tej zmeej. Alteratywą do stosowaa R jest tzw. dopasowae R (adjusted R, które uwzględa lczbę parametrów w modelu. Dopasowae R ( R adj jest zdefowae astępująco: SSE ADJRSQ R adj ( R MSE, p SSY p SSY (8-. gdze jest lczbą obserwacj wykorzystywaą przy dopasowywau modelu, p jest lczbą parametrów w modelu (włączając w to przesuęce, atomast jest rówe gdy model zawera przesuęce oraz 0 gdy przesuęca e zawera. Wdać, że R adj zaczya spadać, gdy w modelu jest za dużo parametrów astępuje przeftowae modelu. To zaczy, sytuacja taka małaby mejsce, gdyby zmejszee sumy kwadratów dla błędu SSE astępowało wolej wraz ze wzrostem lczby p parametrów ż spadek wartośc lczby stop swobody p dla reszt modelu, co wązałoby sę (ekorzyste ze wzrostem (wraz z p średej waracj wewątrzgrupowej MSE ze względu a stałość w (8-. wartośc, oraz SSY, spadkem R adj. Momet, w którym R adj zaczya spadać, jest węc sygałem, że e ależy już modelu (z puktu wdzea tego kryterum bardzej rozbudowywać. Poza R adj oraz kryterum Mallows a C(p, rozwęto szereg kryterów, w szczególośc kryterum formacyje Akake a (AIC, które przez wyzaczae akładu zwązaego z wprowadzeem każdego dodatkowego parametru, próbuje zapobegać przeftowau modelu. Sytuacja ta jest aalogcza do powyżej omówoego zastąpea (w zwykłych modelach regresj współczyka determacj R współczykem R adj, który w przecweństwe do R e zawsze wzrasta przy dodau owej zmeej do modelu. Kryterum AIC dla modelu ze swobodym parametrem jest zdefowae astępująco: AIC( ll( ˆ p, (8-.3 gdze ˆ jest estymatorem MNW p-wymarowego parametru. 98

100 Wykorzystując AIC, wartość log-warygodośc modelu jest redukowaa poprzez restrykcję zwązaą ze wzrostem lczby parametrów w modelu, w sposób, który pomaga w porówywau model testowau hpotez. To zaczy model z mejszym AIC jest preferoway. Np. ech hpoteza zerowa jest astępująca H : 0 0 odpowadając modelow o wymarze p 0 0, tz. modelow e mającemu swobodych parametrów. Wtedy AIC ma postać: AIC( 0 ll( 0. (8-.4 Oparty o kryterum AIC, peły model ze swobodym p wymarowym parametrem jest preferoway wobec modelu prostszego odpowadającego hpoteze H : 0 0, wtedy gdy (porówaj (-.4 w Rozdzale Część II: L( ˆ AIC( ˆ AIC( 0 0 l p, (8-.5 L( 0 co moża zapsać jako: L( 0 p e L( ˆ. (8-.6 W sytuacj gdy w próbce zachodz (8-.5, wtedy hpoteza H 0 jest odrzucaa a rzecz hpotezy alteratywej wskazującej a model z p-wymarowym parametrem swobodym. Uwaga: Model o mejszej wartośc AIC moża rozumeć jako będący blżej (w zaczeu etrop względej Kullbacka-Lebler a pewego modelu prawdzwego. W Rozdzale 8 Częśc II podao schemat wyprowadzea kryterum AIC w modelu ARIMA dla szeregów czasowych. 99

101 A. Rozdzał 9. Nerówość Boferro ego. W powyższych rozważaach e zwrócoo uwag a kosekwecje faktu, że ejedokrote wyzaczao przedzały ufośc dla klku parametrów jedocześe. Podobe ma sę sprawa z weryfkowaym hpotezam. Czasam zapoma sę o wykających z tego faktu ograczeach dotyczących szczegółowych pozomów ufośc pozomów stotośc. Podstawowym edopatrzeem jest p. kostrukcja szczegółowych przedzałów ufośc a takm samym pozome ufośc, co pozom ufośc dla łączego obszaru ufośc klku estymowaych parametrów. Np. w aalze regresj kostruowae przedzały ufośc dla każdego parametru strukturalego β j, wyzaczae są czasam osobo a wcześej przyjętym ogólym pozome ufośc (-α. Poeważ jedak przedzały te były wyzaczae rówocześe, zatem odpoweda aalza powa róweż uwzględć kostrukcję wspólego obszaru ufośc. Podobe ma sę rzecz w przypadku testowaa hpotez, tz. czasam każdą hpotezę testuje sę osobo a przyjętym ogólym pozome stotośc α. Take podejśce goruje fakt, że testy te są wykoywae jedocześe, zwększając tym samym zacze ogóly (dla przeprowadzea wszystkch testów łącze pozom stotośc. Na dodatek sprawę komplkuje fakt, że a ogół stawae hpotezy e wykluczają sę awzajem. Aby przedstawć problem wyprowadźmy erówość Boferro ego [], która jest podstawą wyzaczea właścwych szczegółowych pozomów ufośc zwązaych z m szczegółowych przedzałów ufośc, oraz szczegółowych pozomów stotośc zwązaych z m szczegółowych zborów krytyczych. Szczególym przykładem zastosowaa metody Boferro ego w aalze waracj jest metoda Scheffe go dla wyzaczaa przedzałów ufośc dla tzw. kotrastów (lub testowaa hpotez odpowedch dla tych kotrastów [] w ANOVA (Rozdzał 6. Nerówość Boferro ego, wykająca z aksjomatów Kołmogorowa ma postać []: g g P A j j P( Aj, (9. j gdze A j oraz A j są zdarzeam wykluczającym sę wzajeme, tak jak p. zdarzea, że dla określoego parametru θ j dla ustaloego prawdopodobeństwa α j mamy, że ( 00% - owy przedzał ufośc wyzaczoy dla parametru θ j, 00% -owy zbór krytyczy dla hpotezy dotyczącej wartośc parametru j θ j, są rozłącze a ch suma pokrywa wartość tego parametru (która to wartość może być stawaa w hpoteze zerowej. j 00

102 0 Dowód dla (9.. ( ozacza wtrącee: g j j g j j g j j g j j g j j g j j A P A P A P A P A A ( ( (, skąd otrzymujemy erówość Boferro ego (9.. Zwróćmy uwagę, że ostate przekształcee prowadzące do erówośc pojawło sę, jako skutek e wykluczaa sę zdarzeń j A. Proste przekształcee (9. daje: g j j g j j A P A P (, (9. Nech wyrażee g j A j P po lewej stroe będze (chwlowo prawdzwym ogólym pozomem stotośc. Wtedy ( j A P jest prawdzwym szczegółowym pozomym stotośc, określającym prawdopodobeństwo, że odpowed dla parametru θ j szczegółowy zbór krytyczy, pokrywa wartość tego parametru. Wdać, węc, że prawdzwy ogóly pozom stotośc jest w przypadku ewykluczających sę zdarzeń, e wększy ż suma wszystkch możlwych szczegółowych pozomów stotośc. Gdyby węc p. przyjąć, że każdy szczegółowy pozom stotośc jest tak sam wyos g A P j ~ (, j =,,, g, wtedy (9. daje: g j g j j g j j g A P A P ~ ~ (, (9.3 skąd wdać, że gdy mamy g szczegółowych hpotez składających sę a hpotezę ogólą, to posługwae sę wartoścą prawdopodobeństwa ~ jako ogólym pozomem stotośc, e jest a ogół poprawe, bowem zawyża oo wartość ogólego pozom stotośc. Wyraźmy powstały problem astępująco: odległość wartośc prawdzwego szczegółowego pozomu stotośc od prawdzwego ogólego pozomu stotośc jest, w przypadku e wykluczaa sę zdarzeń j A, mejsza ż odległość g ~ od ~. W końcu, spójrzmy a sprawę w sposób blższy wykoywaym w praktyce testom załóżmy teraz, że jest właścwym (prawdzwym ogólym pozomem stotośc: g j A j P (9.4 g j j g j j A P A P

103 w (rozsądym uproszczeu załóżmy, że wszystke hpotezy szczegółowe (deks s są testowae a tym samym pozome stotośc (który ozaczmy s : P( Aj s, j,,..., g. (9.5 Nerówość (9.3 możemy teraz zapsać astępująco: lub g g g P A j j P( A j j s g s (9.6 j P( Aj s, j,,..., g. (9.7 g Wosek. Wdzmy węc, że (w przypadku e wykluczaa sę hpotez A j wartość prawdzwego szczegółowego pozomu stotośc s jest wększa ż / g, gdze jest prawdzwym ogólym pozomem stotośc. Wyka stąd, że dywdualy (szczegółowy j-ty przedzał ufośc powe być wyzaczoy a pozome ufośc mejszym ż ( / g, tz. szczegółowe przedzały ufośc ulegają zwężeu, a szczegółowe zbory krytycze ulegają poszerzeu. Posługwae sę błędym (bo zażoym, szczegółowym pozomem stotośc rówym / g, ma astępujące kosekwecje: Gdyby (przy ogólym prawdzwym pozome stotośc polczyć poprawe prawdzwe szczegółowe pozomy stotośc ( dla testów szczegółowych, to zbór krytyczy przesuąłby sę w keruku cetrum s rozkładu testowej statystyk szczegółowej szczegółową hpotezę zerową byłoby łatwej odrzucć ż przy szczegółowym pozome stotośc przyjętym błęde jako / g. Gdy wartość szczegółowego pozomu stotośc przyjmuje sę błęde jako rówą / g, wtedy trudej jest odrzucć szczegółową hpotezę zerową (ż wtedy gdyby sę posłużyć poprawą wartoścą s. Tz. moc testu posługującego sę wartoścą / g jest za mała, a prawdopodobeństwo popełea błędu II rodzaju, tz. prawdopodobeństwo błędego przyjęca szczegółowej hpotezy zerowej dotyczącej parametru θ j, jest wtedy za duże. Przykładowo, w przypadku aalzy regresj (w której stawa sę hpotezę zerową o zerowej wartośc jakegoś parametru strukturalego, ozaczałoby to admerą skłoość do e uzasadoego trwaa przy hpoteze zerowej pomjaa w modelu, parametru strukturalego, który powe w modelu pozostać. Przykład kostrukcj obszaru ufośc dla pary parametrów (, rozkładu ormalego N(, [], został poday w Częśc IV, Rozdzał 4. 0

104 B. Rozdzał 0. Dagostyka reszt. Rozdzał 0-. Wstęp Aalza reszt odgrywa stotą rolę w sprawdzeu soldośc modelu, tz. weryfkacj a podstawe próby zgodośc empryczych własośc testowaego modelu z wymogam teoretyczym modelu. Iformacja, że w próbe aruszoe zostały w sposób stoty założea modelowe, przekreśla w zasadze stosowae badaego modelu, ale jedocześe skłaa do postulowaa owych model. W tej częśc skryptu badae są te założea lowych model regresj, które dają sę przetestować w oparcu o aalzę reszt.. W celu zdagozowaa reszt ależy przeprowadzć: a. aalzę outsderów b. grafczą aalzę reszt. Aalzy outsderów dokouje sę oceając p. wartośc reszt zwykłych, reszt studetyzowaych, reszt scyzorykowych, współczyka dźwgęca odległośc Cook a. Obserwacja może być podejrzaa o to, że jest outsderem, gdy: a. wartość reszty zacząco odstaje od wartośc pozostałych reszt b. wartość współczyka dźwgęca ma dużą wartość c. wartość odległośc Cook a jest duża 3. Przeprowadzee dokładej aalzy outsderów pozwala wykryć obserwacje wpływowe, a ch (przemyślae usuęce powoduje lepsze dopasowae modelu do daych empryczych (zwększa sę p. wartość współczyka determacj. 4. Grafcza aalza reszt pozwala a podae prostej ( ejedokrote wystarczająco precyzyjej odpowedz a pytaa: a. czy występuje zgodość rozkładu reszt z rozkładem ormalym b. jak jest schemat rozkładu reszt Do aalzy grafczej brae są pod uwagę ajczęścej reszty scyzorykowe lub studetyzowae. Aalza reszt jest róweż stota ze względu a fakt, że o ch postulowae własośc ormalośc, jedorodośc ezależośc, operają sę wszystke procedury estymacyje parametrów modelu, począwszy od ocey dokładośc oszacowań parametrów strukturalych modelu, a skończywszy a zagadeu kostrukcj pasma przewdywaa modelu. Ne spełee założeń o braku korelacj reszt oraz ch jedorodośc powoduje pogorszee sę własośc estymatorów wykorzystywaych w p. testowau hpotez o braku zależośc korelacyjej pomędzy zmeym, bowem stosowae estymatory mogą stać sę co ajmej eefektywe. Odejśce od założea o ezależośc reszt arusza zwązek zwykłej metody ajmejszych kwadratów (MNK ze stadardową metodą ajwększej warygodośc (MNW, która jest podstawą kostrukcj estymatorów w statystyce klasyczej, a aruszee założea o ormalośc rozkładu reszt sprawa, że aalza regresj MNK e ma oparca w MNW przestaje meć charakter probablstyczy. W aalze zaprezetowao wykorzystae procedur aaltyczych grafczych paketu SAS ( czasam Excel. 03

105 Założea regresj welorakej (zostały podae w Rozdzale 4-. Tak jak w typowym klasyczym modelu regresj lowej, zmeą losową jest zmea Y, podczas gdy zmee X,X,,X k są zmeym (elosowym kotrolowaym. Stałe β 0,β,,β k są ezaym parametram populacj, atomast składk losowy E jest zmeą losową eobserwowaą bezpośredo. Jeśl oszacowujemy parametry β 0,β,,β k przy pomocy estymatorów oszacowaem w próbe zmeej E dla -tej jedostk jest (4-8: U ˆ ˆ ˆ 0,,..., k, wtedy właścwym Eˆ Y Yˆ Y ( ˆ ˆ X ˆ Y, =,,,, (0-. 0 k k gdze Y jest zmeą losową obserwowaą dla -tej jedostk zborowośc, U jest składkem resztkowym, a wartośc zmeej U azywae resztam, ozaczamy jako u. Zbór welkośc {U } odzwercedla welkość ezgodośc pomędzy wartoścam przewdywaym obserwowaym w próbe, jaka pozostaje po dopasowau modelu do daych (w rozważaym przypadku, metodą ajmejszych kwadratów. Każde U reprezetuje estymator eobserwowaego błędu E występującego w populacj. Zwykle w aalze regresj zakłada sę, że błędy {E } są ezależe, mają średą rówą zero, mają wspóle waracje E podążają za rozkładem ormalym. Jeśl model jest dobrze dobray do aalzowaych daych, wtedy rozsądym jest spodzewae sę, że zaobserwowae reszty {U } wykazują właścwośc będące w zgodze z tym założeam. Pożej przedstawmy aalzę reszt w ramach lowego modelu ormalego. Aalza reszt w ramach ych model jest trudejsza, jedak część stosowaych w ch procedur została rozwęta w aalog do procedur dla modelu ormalego []. Przeprowadzee aalzy reszt dla oszacowaa właścwośc dopasowaa modelu jest obece, ze względu a dostępość programów komputerowych, powszeche. Wele z tych programów adaje sę do grafczej prezetacj reszt wykresów dagostyczych dla wszystkch zwykle używaych model [4]. Rozdzał 0-. Typy reszt oraz ch własośc w modelu lowym. Celem aalzy reszt jest sprawdzee czy spełoe są podstawowe założea model regresj omówoe w Rozdzale 4. Pożej przedstawmy metody detyfkacj outsderów właścwe dla aalzy reszt w modelach regresj. Rozdzał 0--. Współczyk dźwgęca. Współczyk dźwgęca h jest marą geometryczej odległośc -tego puktu X od puktu środkowego X, X,..., X k X = (X,X,,X k czyka w przestrze k-wymarowego czyka X. Welkość h azywaa współczykem dźwgęca jest marą ważośc -tej obserwacj przy określau dopasowaa 04

106 modelu. Ich rola jest pomoca w problemach dagozowaa regresj. Zbór wartośc współczyka dźwgęca {h }, =,,...,, wzbogaca dagostykę modelu regresj. Dla modelu prostolowego z jedym czykem: Y 0 X E (0--. wartość współczyka dźwgęca dla -tej obserwacj przyjmuje formę []: gdze X X h, (0--.3 Sˆ X Sˆ X (0--.4 X X jest waracją czyka X. Główym składkem wzoru (0--.3 dla współczyka dźwgęca jest kwadrat stadaryzowaej odległośc wartośc X od średej wartośc X Z X X X Sˆ X X tz. (0--.5 Zatem dla prostej regresj lowej z jedym czykem, współczyk dźwgęca wskazuje odległość obserwacj w zborze wartośc czyka X. Bardzej ogóle, dla welorakej regresj wartość współczyka dźwgęca merzy odległość obserwacj w k- wymarowej przestrze czyków X,X,,X k. Dla specjalego przypadku, w którym wszystke czyk X,X,,X k mają średą rówą zero są ezależe, zachodz zwązek []: h k ( X j X j Sˆ j j, =,,...,, (0--.6 w którym S ˆ j ( X j X j (0--.7 gdze X j jest -tą wartoścą j-tego czyka. 05

107 Iterpretacja welkośc wartośc współczyka dźwgęca jest prowadzoa przy skorzystau z astępujących jego własośc. Po perwsze całkem ogóle: 0 h (0--.8a Jedakże, jeśl model regresj zawera parametr przesuęca 0, wtedy: h 0. (0--.8b Na przykład, dla przypadku jedego czyka, erówość (0--.8 (pokazać dla jedego czyka moża wyprowadzć korzystając z tzw. erówośc Laguerre a - Samuelso a: gdze X S X X S (0--.9 S X X X X. Jak moża zauważyć wykorzystując (0--.6, jeśl lczba czyków w modelu wyos k, tz.: to (pokazać: Y X X... X 0 k X k E h k (0--.0 W kosekwecj średa wartość współczyka dźwgęca wyos: k h (0--. Hoagl Welsch [6] zalecl dokłade aalzowae jakejkolwek obserwacj, dla której: k h h Z dźwgęcem zwązaa jest tzw. odległość Mahalaobsa: m h (. (0--. Uwaga: Jeśl czyk mają rozkład Gaussa (tz. każdy czyk ma rozkład ormaly przy założeu hpotezy zerowej, że -ta obserwacja jest próbką losową o lczebośc pobraą z populacj wszystkch wartośc czyka o rozkładze Gaussa, wtedy zmea losowa: h / / k h / k F (0--.3 dla każdego pojedyczego dźwgęca h ma w próbe rozkład F- Sedecora z k -k- stopam swobody []. Zatem test dla ajwększego współczyka dźwgęca, może być dokoyway przez porówae wartośc F uzyskaej w obserwacj z wartoścą krytyczą F kr F k, ( k, /, gdze dzelee α/ w 06

108 wartośc krytyczej pojawa sę a skutek podzału Boferro ego (Rozdzał 9. W poższej tablcy podao krytycze wartośc współczyków dźwgęca: h kr k Fkr k ( k F k odpowadające wartoścom krytyczym dla α = 0,0. kr (0--.4 F kr dla typowych wartośc lczby czyków k welkośc próby, (Odejśce od założea ustaloych wartośc czyków a rzecz pojawea sę ch losowo (powyżej, z rozkładem Gaussa może obcążyć w ektórych przypadkach estymatory parametrów rozproszea (p. waracj składka losowego; Rozdzał 7-. Tablca Krytycze wartośc h kr dla dźwgęca, = welkość próby, k = lczba czyków dla α=0,0. k Na przykład, gdy α = 0,0 trzeba wykoać testy dla 00 obektów (p. 00 testów z hpotezam H 0 : E h dla dźwgęca h, =,,, ; gdze = 00 jest welkoścą próby, wtedy możemy dla każdego szczegółowego testu uzać, że e mamy podstaw do odrzucea hpotezy H 0, jeśl wartość p e 0,0 będze mejsza ż 0, 000. Ukemy wtedy euzasadoego traktowaa ektórych h (dla 00 -tych obserwacj jako outsderów. Nawet wtedy, gdy wartośc czyka przyjmemy jako ustaloe (tak jak jest to w modelu klasyczym regresj, powyższa statystyka F może być pomoca przy przyblżoym wskazau kłopotlwych obserwacj. Rozdzał 0--. Własośc reszt Załóżmy, że mamy kompletów obserwacj (Y, X, X,, X k, gdze =,, dla zmeych (Y, X, X,, X k. Z przedstawoych w Rozdzale 4 założeń modelu regresj wemy, że aalza regresj jest zwązaa z metodą ajmejszych kwadratów, którą stosujemy w celu dopasowaa modelu regresj: 07

109 Y X X... X E dla,,... ( k k, do obserwowaych wartośc zmeej opsywaej Y, gdze E jest -tym składkem losowym. Poeważ dopasoway model ma postać odpowedz w -tym pukce daych jest astępująca: Yˆ ˆ ˆ Yˆ ˆ ˆ ˆ ˆ ˆ 0 X X... k X k, zatem progozowaa (przewdywaa ˆ 0 X X... k X k (0--. Zgode z (0-. -ta reszta U, czyl różca pomędzy obserwowaą wartoścą Y przewdywaą wartoścą Ŷ wyos U Y Yˆ dla,,...,. Typy reszt Główa stratega leżąca u podstaw statystyczej procedury azywaą ogóle aalzą reszt polega a ustaleu przydatośc modelu, a podstawe obserwacj zachowaa sę zboru obserwowaych wartośc reszt. Naszym celem jest dyskusja metod, które służą do czyea takch ustaleń. Podaa pożej metodologa może zaleźć zastosowae w welu przypadkach, w których dopasowyway jest pewe model, w wyku, czego uzyskujemy zbór reszt. Możlwe jest, węc rozszerzee aalzowaej metody a aalzę waracj, weloczykową regresję lową regresje elową w czykach [4]. Zgode z metodą ajmejszych kwadratów, reszty U,U,,U ch fukcje posadają astępujące własośc (porówaj założea modelu regresj, Rozdzał 4:. Średa z {U } jest rówa zero (pokazać: U U 0 (0--.3 Z powyższej rówośc wyka, że reszty U,U,,U e są ezależe.. Estymator waracj błędów E w populacj wyzaczoy z próby reszt, czyl średa kwadratów reszt MSE, azywaa też waracją resztową, ma postać: SSE MSE U (0--.4 k k O le model z p = k + (szacowaym parametram fukcj regresj jest właścwy, to MSE jest eobcążoym estymatorem waracj lczbą stop swobody dla U E składka losowego E, tz. E E E( MSE, a ( p []. Jak to omówmy pożej, okazuje sę, że wygode jest wprowadzć do aalzy róweż e estymatory waracj składka losowego, które lepej ż składk resztkowy U adają sę do aalzy reszt modelu są bardzej skutecze w detyfkacj outsderów. 08

110 3. Reszty {U } e są ezależym zmeym losowym. Wyka to z faktu, że reszty {U } sumują sę do zera. Jedak, jeśl lczba reszt jest duża w porówau z lczbą k ezależych zmeych, wtedy efekt zależośc reszt możemy w praktyce zgorować []. Welkość: U Z MSE (0--.5 jest azywaa stadaryzowaą resztą; często właśe Z a e U są badae w aalze reszt. Tak jak dla reszt,{u }, suma stadaryzowaych reszt jest rówa zero stąd e są oe ezależe. Stadaryzowae reszty mają jedostkową warację, co ozacza, że: Z k k U MSE U MSE k Stadaryzowae reszty mają rozkłady przyblżoe do rozkładu t-studeta z lczbą stop swobody -k-. Zatem MSE w maowku stadaryzowaych reszt (0--.5, odzwercedlające dobroć dopasowaa modelu, skaluje reszty tak, aby mały jedostkową warację. Podczas gdy ajlepszy estymator waracj dla odpowedz Ŷ ma postać: S ˆ MSE h, (0--.6 Y stadardowe odchylee reszt U jest rówe: S U MSE ( h, (0--.7 ( o czym wspommy jeszcze późej (Rozdzał. Jeśl dla określoego współczyk dźwgęca h jest rówy, wtedy z (0--.7 wdać, że stadardowe odchylee reszt U zka, co ze względu a E(Ŷ = E(Y ozacza, że Ŷ = Y model został zmuszoy (dźwgęty tak, aby dopasować dokłade -tą obserwowaą odpowedź Y. 4. Welkość: R U MSE ( h Z h (0--.8 jest azywaa resztą (wewętrze studetyzowaą. Nazywaa jest tak, poeważ jeśl tylko dae spełają zwykle założea dla regresj welokrotej [], to ma oa w przyblżeu rozkład t - Studeta z -k- stopam swobody. Studetyzowae reszty mają średą blską zero oraz warację: R R S k, (0--.9 która jest ezacze wększa ż. 09

111 5. Welkość: R MSE U k k R ( R R (0--.0 MSE( MSE( h jest azywaa resztą scyzorykową (lub zewętrze studetyzowaą. Reszty te przyjmują wartośc z przedzału (,. MSE( jest scyzorykową waracją resztową. Poeważ, U =Y - Ŷ, zatem lczk w R (- odzwercedla odległość -tej oberwaej odpowedz Y od przewdywaej wartośc Ŷ. Celem stosowaa MSE( jest zabezpeczee sę przed ukrycem sę wpływu outsderów, co osąga sę przez spadek wartośc przyjmowaej przez MSE( w porówaem z wartoścą przyjmowaą przez MSE. Stosowae MSE( powoduje, węc wzrost R (- w porówau z R. Reszty scyzorykowe mają warację wększą ż. S( R( (0--. k Jeśl zwykłe założea regresj lowej są spełoe, wtedy reszt scyzorykowe mają dokłade rozkład t- Studeta z (-k-- = (-k-, stopam swobody oraz ze średą rówą zero. Welkość S (- jest waracją reszt lczoą przy usuętej -tej obserwacj. Dlatego też, podczas gdy stadaryzowaa reszta jest zwązaa z odchyleem stadardowym lczoym dla obserwacj, to -ta reszta scyzorykowa jest stadaryzowaa z wykorzystaem odchylea stadardowego lczoego dla - obserwacj (tz. po usuęcu -tej obserwacj oraz fukcj h. Istotym elemetam wpływającym a R( są U, S (- oraz h. Jeżel stadardowe założea dla regresj [] są spełoe w przyblżeu ta sama lczba obserwacj jest zroboa dla każdej wartośc czyka (zmeej objaśającej, wtedy schematy aalzy reszt, w których posługujemy sę resztam stadaryzowaym, studeckm czy scyzorykowym wyglądają bardzo podobe. Jedak, jeśl pojawają sę problemy, tz. aalzowae są etypowe wartośc uzyskae w obserwacj, wtedy aalza w oparcu o reszty stadaryzowae, a przede wszystkm reszty scyzorykowe jest bardzej skutecza. Na przykłada, jeśl -ta obserwacja leży daleko od pozostałych daych, wtedy MSE( będze dużo mejsze ż MSE, co powoduje, że R (- jest duże w porówau z R. W te sposób R (- wyróża sę bardzej ż R, bardzej ujawając outsderów. Wększe wartośc h (wartość z wysokm wpływem obserwacj prowadzą róweż do wększych odpowedch wartośc R (- ż R. Poadto, gdy lczba stop swobody dla błędów (-k- dla stadaryzowaych -k- dla scyzorykowych rośe zacze powyżej 30, wtedy rozkłady reszt mogą być coraz dokładej przyblżoe przez stadaryzoway rozkład ormaly, (dla którego średa jest rówa zero waracja rówa. Iformacja ta jest pomoca do ocey welkośc obserwowaych reszt przez odwołae sę do własośc stadardowego rozkładu ormalego. Na przykład, jeśl reszty reprezetują w przyblżeu próbkę losową pobraą z 0

112 populacj z rozkładem N(0, wtedy oczekujemy, że dla e węcej ż 5% reszt pojawają sę (co do modułu wartośc przekraczające wartość zero o,96. Wykresem stosowaym szeroko do sprawdzaa założea ormalośc rozkładów błędów jest wykres dla dystrybuat, a którym emprycza dystrybuata dla uporządkowaych reszt jest wykreśloa a przecwko dystrybuaty dla rozkładu ormalego ze średą waracją rówą średej waracj reszt w próbe (tzw. ormal probablty-probablty plot. Wykres te może być, węc pomocy w wykrywau outsderów. Jeżel poprawe byłoby założee o ormalośc błędów, wtedy wykres powe przejawać tedecję lową z achyleem (kąt 45 przy tej samej skal a obu osach, począwszy od początku układu współrzędych. Jedak problem w posługwau sę takm wykresam staow określee welkośc dopuszczalego odstępstwa od zakładaego dealego przebegu. Łatwo jest sprawdzć czy kokreta scyzorykowa reszt róż sę stote statystycze od zera. Jeśl zwykłe założea odośe regresj są spełoe [], wtedy pojedycza scyzorykowa reszta ma dokłade rozkład t- Studeta z - k - stopam swobody. Należy jedak pamętać, że trzeba posłużyć sę skorygowaą wartoścą pozomu stotośc, który uwzględa przeprowadzee jedocześe testów (po jedym dla każdej obserwacj. Z problemem tym moża sę zmerzyć odwołując sę do zastosowaa erówośc Boferro ego []. Wyka z ej, że jeśl p. 50 obektów (p. parametrów jest szacowaych jedocześe, a ogóly test ma być przeprowadzoy a pozome stotośc 0,05, to test odrzuca hpotezę zerową dla jedego szczególego obektu, gdy empryczy pozom stotośc p dla tego szczególego testu wyos (w 0,5 przyblżeu 0, 00. Gdy zarówo dodate jak ujeme wartośc outsderów są brae pod uwagę, 50 wtedy w każdym ogoe rozkładu jest wartość 0,05 pozomu stotośc, a wartość p w jedym z ogoów 0,05 rozkładu wyos wtedy 0, Posłużee sę w teśce szczegółowym (tz. dla jedego obektu 50 wartoścą pozomu stotośc α = 0,05 a e α = 0,0005, mogłoby doprowadzć do fałszywego uzaa ektórych obserwacj za outsderów. Rozdzał Dagostyka regresj oparta o odległość Cook a D. Bezpośreda metoda dla ustalea wpływu obserwacj określa jak zmea sę aalza, kedy pojedycze obserwacje są usuęte z daych. Metoda usuęca pojedyczego przypadku służy często do podkreślea ajbardzej wpływowych obserwacj, które astępe mogą być dokładej badae. Mówmy, że obserwacja jest wpływowa, jeżel ma duży wpływ a dopasoway model. Jest móstwo sposobów, a które wpływ te może sę objawć. Chocaż wpływowość dźwgęce są pojęcam powązaym z sobą, to są oe różym welkośc. Podczas gdy dźwgęca, zdefowae powyżej, zależą tylko od (macerzy projektu zmeych

113 objaśających (porówaj (-.8, wpływ obserwacj zależy także od wartośc odpowedz. Zwązek te jest pokazay a wykrese []. Rysuek [] Wykres a pokazuje wyróżoą obserwację, której odcęta x jest blska średej, dając jej ske dźwgęce. Pukt te ma mały wpływ a achylee, za to eco wększy a przecęce z osą rzędych. W częśc b wyróżoa obserwacja ma wysoke dźwgęce, ale sk wpływ, co jest spowodowae tym, że, podczas gdy waracja oszacowaego tagesa kota achylea wzrasta zacząco, (bo S (X maleje a skutek e uwzględea obserwacj, to dopasowaa la regresj ewele sę zmea. W częśc c odcęta x wyróżoej obserwacj jest bardzo duża, co wskazuje a duże dźwgęce. Natomast rzęda tej obserwacj, która leży blsko starej l regresj, leży jedak dużo dalej od owej dopasowaej l, ż pozostałe obserwacje, co prowadz do dużego wpływu tej obserwacj. Zatem może sę zdarzyć, że obserwacje, dla których x jest odległe od średej mogą moco wpływać a dopasowae modelu. Poeważ h jest dla ch duże, dają oe mylącą małą zwykłą resztę. Zatem, jeśl obserwacja jest outsderem bądź wśród odpowedz zmeej Y, bądź w przestrze czyków X,X,,X k,, 3 bądź, jeśl moco wpływa a dopasowae modelu (jako odzwercedlee różcy pomędzy MSE MSE (-, wtedy obserwacja ta może być kojarzoa z moco odstającą resztą scyzorykową ( Naturale, kombacje dwóch lub trzech z tych efektów mogłyby róweż dać duże wartośc scyzorykowych reszt. Szczególe użytecza w dagostyce regresj zwązaej z wyszukwaem obserwacj wpływowych jest tzw. odległoścą Cook a. Odległość Cook a merzy zakres, w którym zmeają sę współczyk regresj, kedy określoa, wskazaa obserwacja, jest usuwaa. W przypadku eskorelowaych czyków, których średe są rówe zero a waracje rówe, odległość Cook a D dla -tej obserwacj ( =,,, jest proporcjoala do []: ˆ ˆ ˆ ˆ ˆ ˆ... ˆ ˆ k j j( 0 0( ( k k( (0--3. j 0 gdze ˆ j jest oszacowaem współczyka regresj przy uwzględeu wszystkch daych, a ˆ j( jest odpowedm oszacowaem współczyka regresj z usuętą -tą obserwacją. Jeśl czyk e mają

114 średej rówej zero, rówych waracj e są eskorelowae, wtedy odległość Cook a jest proporcjoala do ważoej sumy wyrażeń ˆ ˆ. j j( Dla dowolego zboru daych, odległość Cook a D dla -tej obserwacj, może zostać wyrażoa poprzez współczyk dźwgęca studetyzowae reszty jako: D R k h h U h k MSE h 0,,,,...,. ( Wyrażee to przedstawa ścsłą zależość D od współczyka dźwgęca h studetyzowaych reszt R. Wdać, że wartość D może być duża z dwóch powodów: bądź, dlatego, że obserwacja jest ekstremale odległa w przestrze czyka (tz. h jest blske wartośc bądź, poeważ obserwacja ma dużą wartość studetyzowaej reszty R. Często w praktyce stosuje sę zasadę, według której obserwacja wpływowa to taka, która ma dużą wartość " loczyu R h ",,,...,. Według tej zasady zgode z ( odległość Cook a adawałaby sę w sposób szczególy do dagostyk regresj zwązaej z wyszukwaem takch obserwacj. Poeważ dla czyków posadających rozkład Gaussa, rozkład statystyk D jest z grubsza podoby do rozkładu statystyk F-Sedecora F k,k z lczbą stop swobody k oraz -k- ( m welkość próby wększa tym to przyblżee jest lepsze, dlatego jeśl model regresj jest dobry, wtedy oczekuje sę, że dywduale wartośc D powy być mejsze ż. Stąd Cook Wesberg [7] zasugerowal, że każda dywduala obserwacja z wartoścą wększą ż powa podlegać szczególej aalze. Przyjmuje sę róweż, że a uwagę zasługuje każda obserwacja wększa od meday statystyk F k,k. Jeśl chodz o testy stotośc dla D, to wspomae przyblżee statystyką F k,k pracuje dobrze przy ocee stotośc dywdualej obserwacj. Jedakże e jest oo wystarczająco dokłade (awet dla 00 przy kotrol stotośc maksymalej wartośc statystyk D []. Wartośc krytycze dla maksymalej wartośc ( k D moża zaleźć w []. Poadto, w przypadku ustaloych czyków, Obecha [8] sugeruje w celu wskazaa obserwacj wpływowej raczej kotrolę pary R oraz h ż odległośc Cook a. Wosek z powyższych rozważań jest tak, że omówoe powyżej statystyk ewetuale testy stotośc użyte w celu wskazaa obserwacj wpływowych są tylko pomocą dla badacza, który sam mus zdecydować o tym czy usuąć outsdera z daych pomarowych (co a ogół poprawa dopasowae modelu, czy pozostawć go w przeczucu jego zaczea dla kostrukcj modelu w populacj. 3

115 B. Rozdzał. Macerzowe ujęce klasyczego modelu regresj współczyk dźwgęca. Poższe ujęce zostało przedstawoe jako uzupełee powyższych rozważań. Rozważmy model, który może być elowym modelem regresj z błędem E, =,,...,, pojawającym sę addytywe, gdze jest wymarem próby. Własośc (eobserwowaego losowego składka losowego E są astępujące: E 0, E E dla,,..., tz. E E jest stałą waracją składka losowego dla każdego pozomu czyków, a którym -ta ch obserwacja wyos, X,..., X dla s. Wprowadźmy ozaczea (deks X będzemy a ogół pomjać: ( X p oraz cov E, 0 X E X E, X,,,...,, E X E. (. p X p E dla wektora p parametrów strukturalych fukcj regresj, wektora p (będących pod kotrolą czyków X dla -tej obserwacj, =,,...,, oraz wektora E E składka losowego. W przypadku występowaa stałego przesuęca w fukcj regresj, odpowada mu współczyk (ozaczay wtedy jako 0 z deksem 0, a lczba parametrów p k, gdze k parametrów strukturalych sto przy czykach (regresorach modelu regresj. W przypadku obserwacj par ( X, X,..., X p, Y, gdze perwszym elemetem pary jest cąg p obserwacj zmeych X, X,..., X ( p E s, a drugm odpowadająca mu obserwacja Y zmeej objaśaej Y, ogóly model regresj dla zmeej opsywaej Y moża zapsać w postac układu rówań: Y X, E dla,,...,. (. Reszty dla tego modelu są zwykle defowae astępująco: ˆ U Y ( X, dla,,..., (.3 gdze ˆ jest estymatorem otrzymaym bądź za pomocą metody ajmejszych kwadratów bądź maksymalej warygodośc. Gdy założymy, że lczba parametrów w ˆ jest mała w porówau z lczbą obserwacj, wtedy składowe wektora: 4

116 U U Ê U, (.4 U mają własośc zblżoe do T E E, E,,. E Rozdzał -. Wyprowadzee macerzowego ujęca klasyczego model regresj. T,, gdze: Dla ormalego modelu lowego mamy X X X X T X ( X, X,, X p dla,,...,. (-.5 X p Model (. przyjmuje węc postać: Y X T X... X p p E X E (-.6 dla =,,,, gdze błędy E mają ezależe ormale rozkłady ze średą rówą zero waracją. Model (-.6 moża zapsać astępująco : gdze E I atomast Y X E, (-.7 p p cov E, a Y Y jest wymarowym wektorem obserwacj dla zmeej objaśaej Y: Y Y Y, (-.8 Y Y X X X p jest zaą macerzą rzędu p : T p X X, X,..., X X T, X,..., X p X X T X X X, (-.9,,..., p X tzw. macerzą plaowaa dla zmeych objaśających, włączając w ą w raze potrzeby, stałą zmeą przesuęca rówą: X I. (-.0 Rówae (.-7 moża przepsać astępująco: E Y X, (-. p p 5

117 6 skąd wdać, że suma kwadratów odchyłek wartośc pomarowych od (w ogólośc powerzch regresj I rodzaju, ma postać: ( ( ( p p T p p T X Y X Y E E. (-. Aalogcze, dla -wymarowej próby w mejsce (.-6 otrzymujemy rówań: T p p p U X U X X X U X X X E Y Y ˆ ˆ... ˆ ˆ,...,, ˆ(,...,,,, (-.3 gdze E U ˆ jest -tym składkem resztowym dla ogólego modelu regresj welorakej II rodzaju w próbe, gdze jest lczbą par, w których perwszym elemetem pary jest układ czyków,...,, ( p X X X a drugm obserwacja Y zmeej Y. W próbe, teoretycze średe warukowe,...,, ˆ( ˆ p X X X E Y Y,...,,,, są estymatoram warukowych wartośc oczekwaych,...,, ( p X X X Y E. Ich wektor ma postać: ˆ ˆ ˆ ˆ ˆ ˆ X Y Y X Y Y Y, (-.3 gdze p ˆ ˆ jest wektorem estymatorów parametrów strukturalych p modelu regresj: p ˆ ˆ ˆ ˆ. (-.4 Rozważmy formę kwadratową dla sumy odchyłek wartośc pomarowych, która jest sumą kwadratów reszt modelu regresj:, ˆ ( ˆ ( ˆ ( ( ˆ ( (( ˆ ( ˆ ( U U Y Y Y Y X Y X Y T T p p p T p T T T T T X Y X Y U SSE W (-.5 gdze wyrażee U U T jest lczkem waracj resztowej (0--.4: p p SSE S MSE T U U U, (-.6 będącej eobcążoym estymatorem waracj składka losowego, tz. E MSE E (. Nech macerz X ma pełą ragę kolumową p, tak że macerz X X T jest eosoblwa. Mmalzując sumę kwadratów odchyłek (-.5 po wektorze estymatorów parametrów ˆ otrzymujemy estymator MNK dla (pokazać: Y X X X T T ˆ. (-.7

118 Dowód: Wyprowadzee (-.7 jest astępujące. Z (-.5 otrzymujemy: ( SSE X ˆ T T Y X ˆ X 0 (-.8 przy czym poeważ macerz ( SSE X T X T ˆ ˆ (-.9 lewostroe pomożee (-.8 przez mmalzuje SSE. X T X jest dodato określoa, dlatego po perwsze X T X jest eosoblwa ( X T X daje (-.7, a po druge, otrzymae rozwązae Zauważmy róweż, że (-.8 daje: T ˆ T X ( Y X ( X U 0, (-.0 p co ozacza, że -wymarowy wektor daych dla każdego czyka jest ortogoaly do wektora reszt (dla stałego wektora przesuęca I wemy to już z (0--.3: Poeważ Yˆ Xˆ zatem Yˆ X U, j=,,...,p. (-. j T ˆ T X Yˆ T T T U ˆ X U 0 T skąd ze względu a (-.0 otrzymujemy: (-. co ozacza, że -wymarowy wektor teoretyczych średch warukowych dla zmeej objaśaej (zatem powerzcha regresj jest ortogoaly do wektora reszt: Yˆ X ˆ U. (-.3 Z (-.7 wdać, że wartośc przewdywae modelem są lową fukcją zmeej objaśaej gdze Yˆ Xˆ X X T T X X Y HY Y Xˆ U :, (-.4 macerz dźwgęć H (tzw. macerz kapeluszowa od ag. hat matrx jest zdefowaa jako T T X X H X X. (-.5 Macerz H określa ortogoaly rzut obserwacj Y a -wymarową płaszczyzę obserwacj kombacj T lowej X ˆ czyków. Stąd jej azwa macerz rzutowa. Z postac (-.5 macerzy H wdać, że jest oa symetrycza (jak przysto a macerz rzutową dempoteta, tz. H H. (-.6 Z zależośc (-.4 wdać, że wektor reszt U = Y - Ŷ ma astępującą postać gdze I HY M Y U Y Yˆ. (-.7 M I H (-.8 7

119 8 jest róweż symetrycza dempoteta M M, rzutując wektor obserwacj Y a -wymarową płaszczyzę reszt. Z (-.4 oraz (-.7 wyka rozkład wektora odpowedz układu a ortogoale składowe (porówaj (-.3 : M Y H Y U Y Y ˆ. (-.9 Macerz kowaracj dla reszt speła zwązek (pokazać: E ( cov( H I U. (-.30 Sprawdźmy, że zachodz (U 0 E. (-.3 Istote, korzystając z postac fukcj regresj w populacj Y X X ( E, trzymujemy:. ( ( ( ( ( ( ( ( ( ˆ ( ( 0 X Y X X X X X Y X X X X X Y Y H Y Y H I Y Y U E E E E E E E E E T T T T (-.3 Dowód: Korzystając dla zmeych eskorelowaych z ( ( ( s s Y E E Y YY E, s, z rówośc ( ( X Y Y Y T E ( ( T E E Y Y, gdze w modelu regresj klasyczej I Y X ( ( Y I I E E (, otrzymujemy wykorzystując (-.3 oraz symetrę macerzy ( H I :. ( ( ( ( ((( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ˆ ( ( ( ( (( ( ( ( ( ((, cov( cov( E T T E T T T T T T T T T T T T T T T T T E E E E E E E E E E E E E E E E E E E H I U Y H I I H Y I Y H I Y H I Y Y H I Y H I Y Y Y H I Y Y Y U Y U Y U H Y U Y U Y U H I U U U U U U U U U X X X (-.33 Uwaga: Ze względu a ( ( H I H I wdać róweż, że: E T ( ( ( cov( H I H I H I U, (-.34 gdze I E jest (dagoalą macerzą kowaracj dla błędu E (oraz obserwacj Y. Ze względu a to, że fukcja regresj w populacj ma postać Y X ( E, a w próbe ma postać ˆ ˆ X Y z (-.3, 0 ( ˆ ( ( Y Y U E E E, wdać róweż, że estymatory MNK ˆ są eobcążoe, tz.: ˆ ( E. (-.35 W końcu korzystając z (-.7 oraz (-.35 moża wyzaczyć postać macerzy waracj-kowaracj dla estymatorów parametrów strukturalych ˆ ( ˆ jako rówą (pokazać: E X X ( ˆ ˆ ˆ ( ˆ ( ˆ T T T T E E. (-.36

120 Poeważ wartość waracj składka losowego poprzez warację składka resztowego S U : E jest a podstawe -wymarowej próby oszacowaa SSE MSE SU, (-.37 p zatem oszacowaa z próby macerz waracj-kowaracj dla estymatorów parametrów strukturalych wyos: T ˆ ˆ ( X X MSE, (-.38 a perwastk elemetów a dagoalej macerzy (-.38 są średm błędam oszacowań parametrów strukturalych modelu. Macerz korelacyja dla estymatorów ˆ jest określoa astępująco: S ˆ, j j =,,...,p, ˆ ˆ T S ( X X S, (-.39 gdze macerz: ( T S dag X X jest dagoalą macerzy ( X T X. (-.40 Jak to już omawalśmy wcześej, współczyk dźwgęca h h obserwowae w próbe, wpływają a ogóle dopasowae modelu. Są oe zdefowae jako elemety przekątej macerzy H, (-.5. Poeważ zgode z (-.4 Ŷ może zostać wyrażoe jako: Y ˆ h Y h Y, gdze h h (-.4 s s k zatem jeśl h jest dużo wększe od ych elemetów w -tym werszu macerzy H h, wtedy -ta dopasowaa wartość Ŷ może być w dużym stopu określoa a podstawe Y. ( s Poadto, ze względu a (-.30, mamy: ( U ( h E, (-.4 zatem obserwacja z wysokm dźwgęcem h będze meć resztę U, której dyspersja jest ewelka. W te sposób przypadk z wysokm dźwgęcem mogą e wyróżać sę a wykresach reszt. Z (-.4 wdać, że oszacowaa z próby waracja reszt ma postać: S Korzystając z Yˆ Xˆ, astępe z U ( U ˆ ( U ( h ( h MSE. (-.43 ˆ T E ( X X, (-.36, prawa propagacj błędów oraz z postac H, (-.5, otrzymujemy: ˆ ( Yˆ ( X X(( X T X E X T E H, (-.44 9

121 skąd wdać, że eobcążoy estymator waracj dla odpowedz Ŷ ma postać: S ˆ MSE h. (-.45 Y W końcu, zgode z (0--.0 ślad macerzy H wyos: tr H h p (-.46 czyl jest rówy lczbe parametrów regresj, a średe dźwgęce jest rówe h p/ zgode z (0--.. Jak już wspomalśmy, obserwacja, której dźwgęce jest dużo wększe od tej wartośc, wymaga uwag. Uwaga. Rozważaa Rozdzału - dotyczą sytuacj, w której zachowae są założea KMNK (Rozdzał 3-, Część I. Ich espełee, a w szczególośc espełee założea stałośc waracj lub braku autokorelacj reszt, wymaga uogólea powyżej przedstawoego sformułowaa modelu regresj [9], [4] do uogóloej metody ajmejszych kwadratów (UMNK lub jej szczególego przypadku, ważoej metody ajmejszych kwadratów, dopuszczającej brak jedorodośc waracj. W pakece SAS mędzy ym procedura GLM wykorzystuje metodę ajmejszych kwadratów dla dopasowywaa ogólych lowych model [0]. Uwaga. Często za adrzędy cel aalzy regresj uważa sę możlwość przewdywaa wartośc zmeej objaśaej. Zatem, kolejy krok aalzy powe dotyczyć progozowaa a podstawe wyselekcjoowaego modelu regresj [4]. Rozdzał -. Podstawowy wyk KMNK dla jedego czyka. Pożej zostały podae podstawowe formuły dla puktowych oszacowań parametrów strukturalych lowego modelu regresj z jedym czykem X. Szczegółowe rozważaa dla estymacj puktowej przedzałowej tego modelu moża zaleźć p. w pozycj []. Dla modelu lowego z jedym czykem, rówae regresj II-rodzaju ma postać: Yˆ ˆ ˆ X 0 Zgode z MNK przedstawoą powyżej, mmalzując ze względu a SSE (-.47 ˆ o oraz ˆ sumę kwadratów reszt:, (-.48 otrzymujemy układ rówań ormalych, po rozwązau którego otrzymujemy estymatory parametrów strukturalych modelu (-.47 (pokazać [4]: ( Y Yˆ ( Y ˆ ˆ X 0 0

122 ˆ ˆ 0 Y X ˆ cov( X, Y (-.49 S ( X gdze kowaracja zmeych X oraz Y, zapsaa astępująco: cov( X, Y ( X X ( Y Y (-.50 pokrywa sę z estymatorem metody ajwększej warygodośc (MNW macerzy kowaracj, której szczególym przypadkem dla rozkładu ormalego reszt jest MNK, atomast: S ( X ( X X (-.5 jest estymatorem waracj zmeej X metody MNW. Odpowede eobcążoe estymatory kowaracj waracj, małyby w maowkach dzelee przez (-. Rozdzał --. Współczyk korelacj lowej Pearsoa. populacj: Rozważmy współczyk korelacj lowej Pearsoa pomędzy zmeym X, Y, (3-., w -.5 cov( X, Y XY, (- ( X ( Y gdze (X oraz (Y są odchyleam stadardowym zmeych X oraz Y w populacj. Wartość współczyka korelacj jest lczbą bezwymarową z przedzału (pokazać:,. (--.53 Estymatorem parametru jest (empryczy współczyk korelacj lowej (Pearsoa R ˆ dla zmeej objaśaej Y objaśającej X, zdefoway w próbe (dla daych reprezetowaych grafcze przez dagram puktowy, astępująco []: gdze: SSXY ( X X ( Y Y SSXY R R(, (--.54 SSX SSY ( X X ( Y Y ( X X ( Y Y, SSX ( X X, SSY ( Y Y. (--.55 Współczyk R jest estymatorem zgodym [] parametru, tz.: 0 lm P ( R. (--.56, (

123 Warto zauważyć, że R jest jedye asymptotycze eobcążoym estymatorem [] parametru, tz.: lm E ( R(, (--.57 atomast dla skończoego, jest o estymatorem obcążoym [], tz. E ( R (. Współczyk R moża zapsać astępująco: S R S gdze emprycze odchylea stadardowe: ˆ, (--.58 S (X oraz SY S ( Y ( Y Y, (--.59 S X przyjmują w próbce wartośc s X oraz s Y. X Y Tak jak w przypadku, wartość współczyka korelacj r jest lczbą bezwymarową z przedzału: r,. (--.60 Wartość r empryczego współczyka korelacj R określa rodzaj słę zwązku pomędzy zmeym []. Sle zwązk lowe pomędzy zmeym są odzwercedloe w wartośc bezwzględej współczyka korelacj blskej, a brak zależośc prostolowej (tz. bądź owale rozmyce dagramu puktowego bądź sla korelacja krzywolowa jest odbty w jej wartośc blskej 0. Zak r zak wartośc estymatora r 0 ˆ 0 r 0 ˆ 0 r 0 ˆ 0 ˆ w próbce korespodują ze sobą, tz. zachodz:, (--.6 Jedak jak wyka z (--.58, wartość r e określa modułu wartośc ˆ. W klasyczym modelu regresj, wartość modułu współczyka korelacj Pearsoa (--.58 pokrywa sę z wartoścą współczyka korelacj welorakej (Rozdzał 3 dla zmeych X Y. Wartość współczyka determacj r e daje formacj o wartośc bezwzględej oszacowaa ˆ (podobe jak r, ale e formuje róweż o keruku zależośc pomędzy zmeym (pozytywej bądź egatywej, jak to czy r. Twerdzee (o asymptotyczym rozkładze statystyk R. Jeśl dwuwymarowy rozkład łączy zmeych X, Y w populacj jest rozkładem dowolym, wtedy []: a pod warukem, że steją skończoe momety drugego rzędu zmeych X Y, wartość oczekwaa R jest dla rówa: E ( R (--.6

124 b pod warukem, że steją skończoe momety czwartego rzędu zmeych X Y, waracja R jest dla rówa: R ( (, (--.63 rozkład asymptotyczy statystyk R jest rozkładem ormalym: ( N,. (koec Twerdzea (--.64 W przypadku, gdy dwuwymarowy rozkład łączy zmeych X, Y w populacj jest rozkładem ormalym, wtedy współczyk R z próby -elemetowej ma rozkład o gęstośc prawdopodobeństwa []: gdze r. f ( r ( ( r 4 0 du u u ( u r, (--.65 Wykorzystując (--.65 moża pokazać, że ( oraz ( r E( R E R r f ( r dr R f ( r dr (. Zatem w przypadku rozkładu ormalego, E (R oraz (R są zadae w przyblżeu przez kolejo (--.6 oraz (--.63, dla dowolego, skończoego. Korzystając z (--.64 moża, dla wystarczająco dużej próby ( - klkaset, dokoać estymacj przedzałowej współczyka korelacj lowej, bądź przeprowadzć weryfkację hpotezy zerowej odośe jego wartośc w populacj []. Rozdzał -3. Uzupełee. Testy ezależośc reszt. Jedym z założeń klasyczego modelu regresj welorakej (Rozdzał 3- jest założee o ezależośc obserwacj zmeej objaśaej Y. Dlatego testom e występowaa autokorelacj reszt w modelu regresj pośwęca sę sporo uwag przy sprawdzau poprawośc wyselekcjoowaego modelu. Jedym z testów e występowaa autokorelacj reszt jest test Durba-Watsoa [] omówoy pożej. Test te wykrywa jedye autokorelację perwszego rzędu. Iym testem testującym brak autokorelacj reszt jest p. test Breuscha-Godfrey a (dostępy w SAS e wykrywający róweż autokorelacje wyższych rzędów []. 3

125 Rozdzał -3-. Test Durba-Watsoa. W teśce Durba-Watsoa [] weryfkuje sę hpotezę o zerowau sę współczyka autokorelacj. (Korelacja może być p. autokorelacją r(y t, Y t- pomędzy pomaram zmeej Y w chwlach czasu t t-. W przypadku stea autokorelacj składka losowego ależy zmeć postać modelu bądź spróbować dokoać odpowedej trasformacj zmeych. Założeam wymagaym przy stosowau testu Durba-Watsoa są:. Nelosowość czyków.. Brak jawej, opóźoej zmeej objaśaej występującej w charakterze zmeej objaśającej (p. z pewym przesuęcem lag typowym w szeregach czasowych. 3. Występowae wyrazu wolego w modelu regresj. 4. Normalość rozkładu składka losowego. 5. Lczba obserwacj 5 (m wększa jest próba, tym węższy jest przedzał ekokluzywy testu. Rozpatrzmy parę hpotez, gdze hpoteza zerowa o ezależośc reszt, ozacza e występowae autokorelacj perwszego rzędu składka losowego modelu. Zatem rozważamy hpotezę zerową: wobec alteratywej: H 0 : 0 (brak autokorelacj perwszego rzędu (-3-. H : 0 lub 0, (występuje autokorelacja perwszego rzędu (-3-. gdze ρ jest wartoścą współczyka autokorelacj rzędu perwszego (3-. w populacj. Jego estymatorem w próbe jest współczyk autokorelacj w próbe ˆ : U U U U ˆ. (-3-.3 U U U U Gdy U 0 (jak to jest w MNK, wtedy estymator parametru ρ ma postać: U U ˆ. (-3-.4 U U Statystyka testowa dla hpotezy zerowej (-3-. jest daa wzorem: 4

126 DW d U U U. (-3-.5 Przy prawdzwośc H 0 ma oa rozkład Durba-Watsoa []. Jej zwązek z estymatorem ˆ jest astępujący: d ˆ. (-3-.6 Dla ustaloego pozomu stotośc α dla lczby czyków k (czyl lczby szacowaych parametrów k+ oraz lczebośc próby, odczytujemy z tablc rozkładu Durba-Watsoa [3] dwe wartośc krytycze, (dolą d l (górą d u. Metoda weryfkacj zależy od mejsca w przedzale (0, 4, w który wpada oblczaa a podstawe obserwacj wartość statystyk d. a W przypadku gdy w próbce ˆ 0 ( d 0,, wtedy hpotezą alteratywą jest hpoteza o dodatej autokorelacj reszt: H : 0. (-3-.7 Wartośc statystyk d porówujemy z wartoścam krytyczym d l d u.. Jeśl korzyść H woskujemy, że autokorelacja jest dodata. Jeśl woskujemy, że e ma autokorelacj (dodatej reszt. d dl to H 0 odrzucamy a d du to e ma podstaw do odrzucea H 0 b W przypadku gdy w próbce ˆ 0 ( d,4,wtedy hpotezą alteratywą jest hpoteza o ujemej autokorelacj reszt: H : 0. (-3-.8 W przypadku tym oblczamy wartość statystyk: ' d 4 d. (-3-.9 Wartośc statystyk ' d róweż porówujemy z wartoścam krytyczym d l d u.. Jeśl d ' dl to H 0 odrzucamy a korzyść H woskujemy, że autokorelacja jest ujema. Jeśl odrzucea H 0 woskujemy, że e ma autokorelacj (ujemej reszt. d ' du to e ma podstaw do Uwaga. Różca pomędzy d l a d u. wyka z pośredego wpływu macerzy plaowaa X, (-.9. Jeśl dla powyższego przypadku (a zachodz d u d l d u d d lub dla powyższego przypadku (b zachodz d ', wtedy powyższy test e pozwala podjąć decyzj statystyczej dotyczącej występowaa autokorelacj reszt. l 5

127 Uwaga. Jeśl mamy dwe cechy merzale X Y, które mają dwuwymarowy rozkład ormaly, wtedy w przypadku braku kokluzj po przeprowadzeu testu Durba-Watsoa, moża odwołać sę do statystyk t []: R t. (-3-.0 R Statystykę t moża by (przy spełeu odpowedch dla ej założeń stosować róweż w pozostałych, kokluzywych przypadkach. Przy prawdzwośc hpotezy zerowej (-3-., statystyka t ma rozkład t- Studeta z - stopam swobody. Jeśl t jest kwatylem rzędu ( / rozkładu t-studeta to, gdy w obserwacj (obs t obs t, wtedy a pozome stotośc α odrzucamy H 0 a korzyść H woskujemy, że steje autokorelacja. Jeśl t obs t, to e ma podstaw do odrzucea H 0. B. Rozdzał. Grafcza aalza reszt. Isteją trzy proste techk statystycze, służące do ch terpretacj daych pomarowych wykrywaa obserwacj etypowych: a. Wykorzystae erówośc Czebyszewa dla dowolej zmeej losowej Z: P Z E( Z m ( Z. (. m W oparcu o erówość Czebyszewa wadomo, że dla zmeej o dowolym rozkładze aż 75 % (88,8(9% wszystkch obserwacj w populacj meśc sę w gracach dwóch (trzech odchyleń stadardowych wokół wartośc oczekwaej tej zmeej, tz. w przedzale ( 3. b. Wykorzystae formuł empryczych. W oparcu o własośc rozkładu ormalego, moża przy pewym wyczucu stosować empryczą zasadę, że dla rozkładu z ewelką asymetrą o kształce dzwoa, około 68% obserwacj w populacj meśc sę w przedzale, 95% w przedzale, atomast 99,9% w przedzale 3. Jedak zacze odejśce od wysmukłośc rozkładu ormalego arusza skuteczość stosowaa tej zasady aby azwać obserwację etypową mus sę oa pojawć z wększym odchyleem ż 3. c. Wykorzystae wykresu pudełkowego (z wąsam. Ozaczmy przez M medaę, przez Q Q 3, perwszy trzec kwaty, przez IQR = Q 3 Q. Ozaczmy wewętrze płoty jako Q.5 IQR Q IQR, a Q 3 IQR Q IQR, jako zewętrze płoty. Obserwację zajdującą sę pomędzy wewętrzym zewętrzym płotem podejrzewa sę o to, że jest etypowa, atomast tą a zewątrz płotu zewętrzego klasyfkuje sę jako etypową, czyl outsdera. 6

128 Posługwae sę maram tedecj cetralej (lokalzacj rozproszea, oraz powyższym trzema zasadam, daje ajprostsze arzędze detyfkacj outsderów dla aalzy rozkładu jedej zmeej. Ich prostota połączoa jest ze skuteczoścą posługwaa sę m w aalze daych. Często ajbardzej bezpośredą odkrywczą drogą badaa grupy reszt jest zrobee ser wykresów reszt. Dwoma podstawowym ajbardzej użyteczym rodzajam wykresów są: wykresy jedowymarowe wykresy z wykorzystaem wartośc progoz oraz welowymarowe Perwszy używay jest jedye do rozpatrywaa własośc relacj obserwowaych reszt mędzy sobą, podczas gdy drug ujmuje relacje reszt z ym zmeym (takm jak odpowedź, czyk progoza. W grafczych aalzach, aruszee założeń modelu (p. ezależośc, ormalośc albo jedorodośc waracj jest czasam bardzej wdocze a jedych typach wykresów ż a drugch. Wykresy jedowymarowe. Wykresy jedowymarowe są ajprostszym możlwym wykresam. Staową jedak moce wstępe arzędze w aalze typu rozkładu badaej zmeej (p. reszt. Trzy rodzaje jedowymarowych wykresów reszt są szczególe użytecze: hstogramy (szczególe wersje stem ad leaf, wykresy pudełkowy z wąsam, tzw. (Box ad whskers plot wykresy prawdopodobeństwa z rozkładem ormalym (ormal probablty-probablty plot. Wszystke poższe wykresy oraz wartośc umerycze podstawowych charakterystyk opsowych moża otrzymać stosując UNIVARIATE Procedure w SAS e, wywoływaą z pozomu Solutos->Aalyss- >Aalyst->(Fle: Ope by SAS ame: fle ame -> Descrptve->Dstrbutos. Wykresy z wykorzystaem wartośc progoz oraz welowymarowe. Kreślee obserwowaych wartośc odpowedz v.s. wartośc czyków jest dobrym sposobem sprawdzaa ważośc założeń regresj. Posługując sę pojedyczym czykem moża aosć wartośc odpowedz Y albo wartośc reszt v.s. wartośc czyka X. Kedy wykorzystywaa jest wększa lość czyków, wówczas sytuacja jest bardzej złożoa []. Przykład. Załóżmy, że temperatura powetrza ma wpływ a odpowedź przyrządu. Zależe od obserwowaych schematów zależośc kombacj dwóch czyków, pozomu temperatury zaeczyszczeń, wykres odczytu przyrządu v.s. pozom zaeczyszczeń może błęde sugerować p. ejedorodość waracj. 7

129 Zwykle doradza sę, aby wykreślć reszty e tylko v.s. każdego czyka, ale także v.s. spodzewaych progoz, jak róweż wyrysowae obserwowaych wartośc odpowedz Y v.s. spodzewaych progoz. Okazuje sę, ze atura progozowaych wartośc Yˆ pomaga wyjaść tedecje wdocze a wykresach, które bez wykorzystaa wykresów z Yˆ mogłyby być błęde terpretowae. Dla regresj z pojedyczym czykem mamy: ^ ^ ^ Y X (. a dla welokrotej regresj z k-czykam: ^ ^ 0 ^ ^ ^ Y X X.... (.3 0 k X k Z powodu zastosowaa metody ajmejszych kwadratów do estymacj parametrów strukturalych w (. lub (.3, progoza Ŷ reprezetuje lową kombację zmeych X, która jest ajbardzej skorelowaa z Y []. Dla regresj z jedym czykem kwadrat współczyka korelacj Y Ŷ, jest rówy: Y Yˆ, r Y X r,. (.4 Powyższa zależość mów, że sła lowego zwązku pomędzy Y Ŷ jest taka sama jak pomędzy Y X. Natomast dla regresj welorakej mamy: gdze R Y X, X,..., całą grupą zmeych Y Yˆ R Y X, X r,...,, (.5, X k X k jest współczykem korelacj welokrotej pomędzy odpowedzą Y a araz X, X,..., Xk. Stąd zachodz w ogólośc zwązek: Y Yˆ, r Y r, (.6 Ozacza to, że współczyk determacj r Y, X j X j są z sobą wzajeme powązae. Aby to lepej zobaczyć rozważmy ajprostszy przypadek eskorelowaych czyków X, X,..., Xk. Otrzymujemy wtedy zwązek pomędzy dywdualym współczykam determacj: Y Yˆ, R Y X, X,..., X r Y, X r Y, X... r Y r, (.7 k X k Zwązek te pomaga zrozumeć, dlaczego relacja pomędzy Y pojedyczym X j mus być rozważaa w śwetle ych zmeych X. Zatem awet jeśl wszystke zmee X są wzajeme eskorelowae, rozważaa tak e mogą sę ograczyć do wykresów z pojedyczym czykem, co jest spowodowae tym, że pojedycze obserwacje mogą dawać wkład do tzw. outsderów regresj welorakej, z którą mamy do czyea gdy zmee X j są rozważae razem. 8

130 Właścwym sposobem rysowaa obserwowaych wartośc odpowedz Y jest użyce wykresu regresj częścowej dla każdego czyka z osoba. W takm przypadku rysujemy wykres dla odpowedz dostrojoej do grupy k- czyków v.s. pozostały jede czyk, który został dostrojoy do grupy tych samych k- czyków. W szczególośc przyjmjmy, że ogóly model, który as teresuje ma postać: Y 0 X X... k Xk E. (.8 Aby utworzyć wykres regresj częścowej, dla k-tego czyka, dopasowujemy wperw dwa modele: perwszy: Y 0 X X... k X( k, E (.9 oraz drug: Xk 0 X X... k X( k, E. (.0 Dopero teraz aosmy względem sebe reszty z tych dwóch model a wykres, czyl rysujemy: ˆ (Y -Ŷ v.s. X X dla,, otrzymując k dagramów puktowych. k k...,, (. Najlepej dopasowaą lę regresj powyższych par reszt (., otrzymuje sę metodą ajmejszych kwadratów. Posada oa przesuęce rówe zero estymator współczyka kerukowego ˆ k rówy temu z modelu początkowego dla (.8 []. Zwykła korelacja pomędzy (Y -Ŷ X k Xˆ k jest węc welokrotą korelacją częścową pomędzy Y X k przy kotrolowaym wpływe zmeych od X do X k-. Z różych typów dwuwymarowych wykresów, bardzej przydatym wykresam dla sprawdzea założeń welokrotej regresj są te, w których rysuje sę reszty (szczególe studetyzowae bądź scyzorykowe v.s. wartośc przewdywae albo wartośc czyka. Klka z możlwych schematów, które pojawają sę a wykresach reszt v.s. wartośc przewdywae, zostało przedstawoych a poższych wykresach. Oczywśce, róże typy odstępstw od założeń modelu dają róże, właścwe m, wykresy schematów dla reszt []. 9

131 Rysuek.. Reszty v.s. Ŷ bądź v.s. czas. Typowe wykresy reszt jako fukcje wartośc przewdywaej Ŷ bądź fukcje czasu gromadzea daych dla pewych hpotetyczych daych []. Wykres (a przedstawa schemat, dla którego wszystke podstawowe założea modelu wydają sę być spełoe: horyzotalej chmury puktów pomarowych moża sę spodzewać, gdy występuje brak systematyczego tredu. Problem te jest stoty p. w przypadku badaa szeregów czasowych [4]. Wdać też brak jakegoś ego, elosowego schematu w układze reszt, o czym moża by róweż woskować przeprowadzając p. eparametryczy test ser Wykres (a: Dae spełające wszystke założea regresj (losowośc Walda-Wolfowtza rus test, weryfkujący welorakej. hpotezę o losowym pochodzeu obserwacj zmeej objaśaej w próbe [4]. Wykres (b przedstawa schemat, w którym w daych perwotych występuje odstępstwo od lowośc, wskazując tym samym koeczość wprowadzea regresj elowej. Wykres (b: Odstępstwo daych od lowośc. Wykres (c: Waracja reszt maleje ze wzrostem Ŷ. Wykres (d: Wykres reszt względem czasu. Wykres (c reprezetuje schemat, w którym waracja reszt maleje wraz z wzrostem Ŷ. Oczywśce moża wyobrazć sobe schematy, w których zachowae sę waracj reszt wraz ze wzrostem Ŷ jest jeszcze bardzej skomplkowae. Nemej w takch przypadkach odpoweda trasformacja reszt często pomaga wyelmować lub zacze ograczyć ejedorodość waracj reszt (róże typy trasformacj podaje [], [4]. Istotą sprawą jest pobrae tylu le to tylko możlwe replk dla jak ajwększej lczby waratów każdego czyka X. Jeżel w próbe jest za mała lość replk, prowadz to do trudośc w rozróżeu problemu ejedorodośc waracj reszt od problemu doboru ewłaścwego modelu regresj. Wykres (d przedstawa zależość reszt (p. scyzorykowych do czasu. Lowy tred zależośc reszt od czasu jest wyraźe obecy. Jeśl steją zmee e uwzględoe w rozważaym modelu regresj (p. gdy pomęta została zmea "czas", a dae są zebrae w astępstwe czasowym, wtedy sytuacja taka może meć zaczące kosekwecje przedstawoe grafcze a wykrese (d. Jest oa śwadectwem stea slej korelacj pomętej ukrytym do tej pory zmeym, a resztam. Zatem wykres tak ese ezmere stotą formacyje, potrzebą, aby zbudować modele włączające zmee wcześej ukryte. 30

132 Isteje jeszcze a metoda w badau rozkładu reszt, a maowce: Poeważ o resztach studetyzowaych scyzorykowych zakłada sę, że reprezetują próbkę pochodzącą z rozkładu, który jest w przyblżeu stadardowym rozkładem ormalym, zatem oczekujemy, że około 68% stadaryzowaych reszt leży w przedzale (-.00,.00, około 95% zawera sę w przedzale (-.96,.96 tak dalej. Jeśl jedak lczba stop swobody -k- ( lczba puktów pomarowych, k- lczba czyków dla estymatora waracj składka losowego jest mała, wtedy 68-procetowe 95 procetowe grace przedzałów muszą być wyzaczoe z rozkładu t-studeta, przy czym dla reszt studetyzowaych mamy -k- stopam swobody a dla scyzorykowych -k- stop swobody. Występowae węc zgodej z podaym udzałam procetowym lczby reszt wewątrz poza tym przedzałam, jest wskazówką, że być może mamy raczej do czyea z outsderem (outsderam, a e z odstępstwem modelu od tego co sę dzeje w populacj. W Rozdzale 3 przedstawoe zostaą a przykładach powyższe metody grafcze, ze wskazaem odpowedch schematów dla reszt. 3

133 B. Rozdzał 3. Przykłady dagostyk reszt. Rozdzał 3-. Przykład. Skurczowe cśee krw. Dokoao obserwacj weku pomaru cśea krw w losowo pobraej próbce 30 osób []. Dae zameszczoo w poższej tabelce. Pożej przeprowadzmy aalzę regresj (w jej podstawowym zakrese dla zależośc cśea krw od weku z uwzględeem wszystkch pomarów, astępe aalzę reszt, po wskazau ewetualych outsderów poowe aalzę regresj, tym razem bez outsderów. Tabela 3.. Dae dla przykładu skurczowe cśee krw Skurczowe cśee Jedostka krw Wek Lczba wszystkch obserwacj w próbe wyos = 30. 3

134 Tabela zawera: zmeą objaśającą X: wek zmeą objaśaą (odpowedź Y: skurczowe cśee krw Rozważmy lowy model regresj: ˆ ˆ ˆ (3. Y 0 X c gdze Yˆ ozacza teoretycze średe warukowe dla wartośc X zmeej X c X - X, w klasyczym c modelu regresj, gdze wartośc X c są określoe przed pomarem. Przejśce od zmeej X do zmeej wycetrowaej X c mało a celu elmację efektu współlowośc zmeej cśea oraz jedostkowej zmeej I stojącej przy estymatorze parametrze przesuęca ˆ 0 []. Wycetrowae w ajższym, lowym stopu welomau, jest rówoważe ortogoalzacj układu zmeych I oraz X, gdze I jest zmeą jedostkowa stojącą przy ˆ 0 []. Poeważ rozważay model jest modelem klasyczym regresj, zatem X e jest zmeą losową. Odpowede rachuk przeprowadzoo w SAS e, posługując sę procedurą PROC REG wywoływaą z pozomu Solutos->Aalyss->Aalyst->(Fle: Ope by SAS ame: fle ame ->Statstcs- >Regresso->Lear. Raport SAS a ma postać: The REG Procedure Model: MODEL Depedet Varable: Csee Csee Aalyss of Varace 6:34 Wedesday, May 8, 005 Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq 0.4 Coeff Var.476 Parameter Estmates Parameter Stadard Stadardzed Varable Label DF Estmate Error t Value Pr > t Estmato Itercept Itercept < Wek_ceter Wek_ceter <

135 Correlato of Estmates Varable Label Itercept Wek_cetr Itercept Itercept Wek_ceter Wek_ceter Collearty Dagostcs Codto --Proporto of Varato- Number Egevalue Idex Itercept Wek_ceter Wosk z raportu: Średe skurczowe cśee krw w grupe badaych osób wyos 4,533. Lczba stop swobody dla średej sumy kwadratów SSR modelu, wyos df(ssr = p = k =, gdze k jest lczbą parametrów kerukowych modelu (u as tylko. Lczba stop swobody dla sumy kwadratów reszt SSE wyos df(sse = p = 30 = 8. Suma kwadratów dla modelu (SSR jest rówa 6394,03, suma kwadratów dla reszt (SSE wyos 8393,444. Średa suma kwadratów modelu MSR = SSR/ df(ssr = 6394,03, atomast średa suma kwadratów błędów (waracja resztowa MSE = SSE/df(SSE = 99,766. Postawoa hpoteza zerowa H 0 : 0 mówąca o braku zależośc korelacyjej cśea od weku została odrzucoa, tz. model lowy uzajemy za stoty statystycze. Powodem jest stota statystycze, a każdym pozome stotośc p, gdze p < 0,000 wartość F obs = MSR / MSE = 6394,03 / 99,766 =,33 statystyk testowej F-Sedecora. (Prawdopodobeństwo p = P(F F obs jest empryczym pozomem stotośc. Wartość współczyka determacj R jest rówa 0,434 co ozacza, że około 43% zmeośc średej wartośc cśea jest w otrzymaym modelu wyjaśoa zmaam weku. Poeważ otrzymaa wartość R może być uzaa co ajwyżej za średą, a R jest marą dopasowaa modelu do daych empryczych, zatem dopasowae to e jest za wysoke. Spróbujemy wskazać a możlwą przyczyę takego stau rzeczy (pomjając być może stotość rozszerzea modelu lowego do modelu z wyższym stopem zależośc cśea od weku, bądź do modelu z ym zmeym objaśającym obok weku. Otrzymae w pobraej próbce rówae regresj ma astępującą postać: Yˆ 4,47 0, 97 X c (3. Otrzymay wyk ozacza, że zwększee wartośc zmeej wek o jedostkę ( rok spowoduje wzrost cśea średo o 0,97 jedostk. Wartośc oszacowań parametrów strukturalych modelu w próbce są stote statystycze (p<0,000 zarówo dla. 0 Macerz korelacj (poza dagoalą są zera wskazuje a brak współlowośc pomędzy przesuęcem (Itercept a zmeą objaśaą Wek_ceter, czego przyczyą było wprowadzee do aalzy 34

136 wycetrowaej zmeej weku X c. Podobe, przyglądając sę wartoścom własym macerzy kowaracj w układze tzw. składowych główych (Rozdzał 5-6, wdać, że ze względu a ch rówość możemy stwerdzć, że pomędzy zmeym I X c e ma współlowośc (tz. e są oe skorelowae. Ozacza to, że otrzymae w próbce wartośc ˆ 4 47 ˆ 0 97 są, z puktu wdzea braku współlowośc, 0,, wartoścam stablym, tz. pochodzą z estymatorów o małej waracj stąd otrzymay model (3. dobrze adaje sę do przewdywaa cśea. Rozdzał 3--. Dagostyka reszt dla modelu. Przykład Skurczowe cśee krw. Całość powyższej aalzy zakłóca jedak e za wysoka wartość R = 0,434, która może sygalzować wystąpee obserwacj etypowej, czyl outsdera. Z tego powodu przyjrzyjmy sę dagostyce badaego powyżej modelu. Odpowed raport SAS a ma postać. 35

137 Powyższy wydruk przedstawa wartośc: reszt zwykłych U (_RESID, reszt studetyzowaych R (_STUDENT, reszt scyzorykowych R( (_RSTUDENT, odległość Cooka D (_COOKD współczyka dźwgęca h (_H dla przykładu "skurczowe cśee krw". Z powyższego raportu wdać, że obserwacje 8 są podejrzaa o to, że są outsderam. Rozważmy obserwację =. Wartośc wszystkch typów reszt są duże, a szczególe reszta scyzorykowa R ( = 8,0483 moco odstaje od pozostałych. Posada oa wyjątkowo dużą wartośc ( odległośc Cook a D = 0,346, o co ajmej rząd wększej ż dla pozostałych. Ze względu a ską wartość dźwgęca h = 0,0338 woskujemy, że pomar leży w edużej odległośc od średej weku. Właśe ze względu a tą małą wartość dźwgęca, obserwacja e jest szczególe wpływowa (Rysuek (a. Zatem w rówau regresj po usuęcu tego pomaru, może ulec stotej zmae przesuęce, atomast wartość współczyka kerukowego e powa sę wyraźe zmeć. Rozważmy obserwację =8. Ma oa ajwększą wartość dźwgęca, h 8 = 0,500. Jest to wartość dźwgęca, która jest wększa ż podaa przez Hoagl Welsch jako wartość, która podlegać powa sprawdzeu (wzór (0--.: h k 0, ,3(3. Zatem jest zalecee, aby obserwacja została przebadaa. Zakładając pomocczo, że rozkład weku jest ormaly, każde pojedycze dźwgęce z F (wzór (0--.3 posadającym rozkład F-Sedecora z k= -k-=8 stopam swobody. Sprawdźmy czy wartość statystyk F h / / k h / k służąca do testowaa hpotezy H 0 : E h, (3.3 wpadła w obszar krytyczy. Poeważ wartość krytycza Fkr Fk,( k, / F, 8, 0.05/ 30 =,006, zatem poeważ wartość statystyk w obserwacj wyzaczoa zgode z (0--.3 ma wartość F 8,obs = 3,8436, która e ależy do obszary krytyczego, zatem e ma w zasadze powodu, aby obserwację 8 uważać za outsdera. Potwerdza to róweż mała wartość odległośc Cook a (0--3.3, która wyos D 8 =0,0005, sugerując, że usuęce obserwacj 8 ma ewelk wpływu a welkość zma współczyków regresj. Iym słowy uzajemy, że e jest oa wpływowa. Isteje jeszcze obserwacja =0 z dość dużą wartoścą dźwgęca h 0 =0,340. Jedak ze względu a edużą wartość odległośc Cook a D 0 =0,0394, róweż e uzajemy jej za outsdera. 36

138 Zatem z daych usuwamy jedye obserwację. Po jej usuęcu z tabel daych (osoba z wekem 47 lat, której skurczowe cśee krw wyosło podczas badaa 0, otrzymujemy astępujący raport SAS a. The REG Procedure Model: MODEL Depedet Varable: Csee Csee Aalyss of Varace 6:34 Wedesday, May 6, 005 Sum of Mea Source DF Squares Square F Value Pr > F Model <.000 Error Corrected Total Root MSE R-Square 0.7 Depedet Mea Adj R-Sq Coeff Var Parameter Estmates Parameter Stadard Varace Varable Label DF Estmate Error t Value Pr > t Iflato Itercept Itercept < Wek_ceter Wek_ceter < Correlato of Estmates Varable Label Itercept Wek_ceter Itercept Itercept Wek_ceter Wek_ceter Collearty Dagostcs Codto --Proporto of Varato- Number Egevalue Idex Itercept Wek_ceter Rówae regresj dla modelu ma astępującą postać: Yˆ 39,86 0, 949 X c (3.4 Powyższa część raportu SAS a potwerdza częścowo asze przypuszczea. Wartość estymatora ˆ 0 uległa astępującej zmae: obece wyos ˆ0 39, 86, w porówau z poprzedą 4,47. Wartość estymatora ˆ uległa astępującej zmae: obece wyos ˆ 0, 949 w porówau z poprzedą 0,97. Okazuje sę, że zmay wartośc tych estymatorów e były bardzo duże, około %, a obserwację, chocaż jest być może outsderem e ależy z tego puktu wdzea uzać za wpływową. Natomast poprawło sę zacze dopasowae modelu do daych empryczych. Po usuęcu outsdera, współczyk determacj R zwększył sę o 0,798 wyos obece R = 0,7, co ozacza, że 7% 37

139 zmeośc średej wartośc cśea jest wyjaśoa przez otrzymay model (w porówau z 43% poprzedo. Poeważ pozostała część aalzy modelu (3.4 z usuętą, uzaą za outsdera obserwacją, wygląda podobe jak poprzedo, zatem pomemy jej omówee. Pożej przedstawmy jeszcze tylko aalzę testu a ormalość rozkładu reszt w próbce oraz aalzę korelacj pomędzy zmeym dla przypadku z domemaym outsderem bez ego. Aalza ormalośc rozkładu reszt Hpoteza H 0 : Teoretyczy rozkład reszt zgody z rozkładem ormalym. Metoda aalzy: Test Kołmogorowa-Smrowa (Rozdzał 5. Aalze poddao reszty zwykłe U. Przypadek z outsderem (=30 csee ceter z outsderem aalza reszt :0 Moday, December 9, 03 The UNIVARIATE Procedure Ftted Dstrbutos for _RESID Parameters for Normal Dstrbuto Parameter Symbol Estmate Mea Mu 0 Std Dev Sgma 7.06 Goodess-of-Ft Tests for Normal Dstrbuto Test ---Statstc p Value----- Kolmogorov-Smrov D Pr > D <0.00 Wartość statystyk D dla testu Kołmogorowa-Smrowa jest rówa D 30 = Poeważ empryczy pozom stotośc p < 0,00, zatem a każdym pozome stotośc p, (p. dla 0, 0 welkość D jest stota statystycze, co ozacza, że odrzucamy hpotezę o ormalośc rozkładu reszt. Przypadek bez outsdera (=9 csee ceter bez outsdera 5 aalza reszt bez outsdera : Thursday, Jue 9, 005 The UNIVARIATE Procedure Ftted Dstrbutos for _RESID Parameters for Normal Dstrbuto Parameter Symbol Estmate Mea Mu 0 Std Dev Sgma Goodess-of-Ft Tests for Normal Dstrbuto Test ---Statstc p Value----- Kolmogorov-Smrov D Pr > D >

140 Wartość statystyk D dla testu Kołmogorowa-Smrowa jest rówa D 9 = Poeważ empryczy pozom stotośc p > 0,50, zatem a każdym pozome stotośc p, (p. dla 0, 05 welkość D e jest stota statystycze, co ozacza, że e mamy podstaw odrzucć hpotezy o ormalośc rozkładu reszt. Podsumowae testu o ormalośc rozkładu reszt. Jest to kolejy (obok R wyraźy sygał, że być może ależałoby pomąć obserwację z aalzy zależośc cśea od weku. Sygał te jest tym bardzej stoty, że pozostawee outsdera w aalze chweje podstawam teoretyczym modelu regresj klasyczej (w tym przypadku ormaloścą rozkładu reszt. Ne usuęce outsdera ozaczałoby węc odejśce od założeń modelu wskazywało być może a ewetualą koeczość dokoaa trasformacj (p. logarytmczej wartośc cśea z adzeją, że to pomoże zachować zgodość z założeam modelu. Aalza ezależośc reszt dla przykładu (zgode z Rozdzałem -3-. Hpoteza H 0 : brak korelacj pomędzy składkam losowym Metoda aalzy: Test Durba-Watso a Aalze poddao reszty zwykłe U. Przypadek z outsderem (=30 Raport SAS a ma postać: The REG Procedure Model: MODEL Depedet Varable: Csee Csee Durb-Watso D.69 Number of Observatos 30 st Order Autocorrelato 0.46 Wartość statystyk Durba-Watsoa d,69(0, (Rozdzał -3-. Ozacza to, że hpoteza alteratywa ma postać H : 0 (Rozdzał -3-. Z tablc dla k =, = 30 α = 0,05 odczytujemy wartośc krytycze dla testu. Wyoszą oe d l =,35 d u =,489. Wartość statystyk d > d u, co śwadczy o tym, że e ma podstaw do odrzucea hpotezy H 0, która mów, że e występuje autokorelacja reszt. Przypadek bez outsdera (=9 The REG Procedure Model: MODEL Depedet Varable: Csee Csee Durb-Watso D.33 Number of Observatos 9 st Order Autocorrelato

141 Wartość statystyk Durba-Watsoa d,33(0,. Ozacza to, że hpoteza alteratywa ma postać H : 0 (Rozdzał -3-. Z tablc dla k =, = 9 α = 0,05 odczytujemy wartośc krytycze dla testu. Wyoszą oe d l =,34 d u =,483. Wartość statystyk d=,33 < d l =,34 wpadła, zatem w obszar krytyczy testu a pozome stotośc α = 0,05 ależałoby, zatem odrzucamy hpotezę H 0 a korzyść H woskować, że autokorelacja jest dodata. Jedak wartość d=,33 leży blsko gracy obszaru krytyczego a pozome stotośc α = 0,0 e wpadłaby zapewe do odpowedego obszaru krytyczego. Dokoajmy węc dodatkowego sprawdzea powyższego problemu, badając w pobraej próbce, dla przypadku bez outsdera tz. dla 9 obserwacj, korelację reszt U - z resztam U z wykorzystaem procedury PROC REG w SAS e (puktów jest 8, dodatkowy brak jeszcze jedego puktu wyka z braku reszty u 0 w daych. Fragmet raportu ma postać: reszty przesuete z csee ceter bez outsder :46 Frday, Jue 0, 005 The REG Procedure Model: MODEL Depedet Varable: _RESID RESID_ Number of Observatos Read 8 Number of Observatos Used 8 Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq Coeff Var Parameter Estmates Parameter Stadard Varace Varable Label DF Estmate Error t Value Pr > t Iflato Itercept Itercept _RESID _RESID Z raportu tego wdać, że la regresj pomędzy resztam U - a resztam U ma współczyk kerukowy o wartośc = wartość ta z powodu dużego prawdopodobeństwa p = 0,4 e jest stota statystycze, zarówo a pozome stotośc 0,0 jak 0,05. Róweż wartość statystyk F dla testu o brak zależośc korelacyjej pomędzy zmeym (tu resztam e jest stota statystycze (F =,53 przy p = 0,4. Uwaga. Odpoweda wartośc p dla współczyka kerukowego wyos w tym przypadku tyle samo le wartość p dla testu F. (Test dla współczyka kerukowego jako testem a dodae weku jako ostatej 40

142 zmeej, co pokrywa sę tym razem z testem F, skąd t =F wartośc p są eprzypadkowo take same (Rozdzał 5-- []. Uwaga (dotycząca testu jedorodośc waracj. Aalzę jedorodośc waracj składka losowego pomjamy bowem jest oa w pobraej próbce aruszoa w sposób jawy. Wyka to z tego, że steją waraty weku (zmeej X z jedą replką (tz. z waracją wewątrzgrupową ˆ( Y 0 bez replk (tz. z waracją wewątrzgrupową ˆ( Y 0. Ne ozacza to, że przy odpowedej lczbe replk model s aruszałby róweż to założee, ale w celu sprawdzea go, ależałoby pobrać próbę z wększą od zera lczbą replk dla każdego waratu weku (Rozdzał 5--. s Podsumowae. Powyższa aalza reszt wskazuje, że model zależośc cśea osób od ch weku, otrzymay z pomęcem obserwacj z populacj, którą uzalśmy za outsdera, jest do zaakceptowaa. Model jest w zgodze z podstawowym założeam modelu regresj klasyczej, przy czym z powodu braku wystarczającej lczby replk e przebadao hpotezy o jedorodośc waracj dla różych waratów weku. Pozostaje pytae: czy e usuęlśmy obserwacj, która była śwadectwem stea ej ż rozważaa lowa zależośc cśea od jedego czyka weku? 4

143 Rozdzał 3--. Grafcza aalza reszt dla Przykładu Skurczowe cśee krw. Dla przykładu skurczowe cśee krw (z outsderem. Rysuek Hstogram dla reszt scyzorykowych dla przykładu skurczowe cśee krw. Hstogram wskazuje a to, że występuje duża rozbeżość empryczego rozkładu reszt scyzorykowych z rozkładem ormalym. Rozkład empryczy jest zacze bardzej wysmukły ż rozkład ormaly. Róweż w Rozdzale 3-- odrzuclśmy testem Kołmogorowa-Smrowa hpotezę zerową o zgodośc rozkładu empryczego reszt (poprzedo zwykłych z rozkładem ormalym (dla aalzy z outsderem otrzymalśmy p < 0,0. Dla porówaa a rysuku przedstawoo teoretycze rozkłady logormaly (ezła zgodość, co potwerdzłaby dokładejsza aalza testem Kołmogorowa-Smrowa ekspoecjaly. 4

144 Rysuek 3--. Normaly wykres prawdopodobeństwa (Normal probablty-probablty plot dla przykładu skurczowe cśee krw Z powyższego wykresu wyka, że rozkład reszt zwykłych jest ezgody z teoretyczym rozkładem ormalym. Podoby wosek otrzymalśmy aalzując powyższy hstogram test Kołmogorowa-Smrowa w Rozdzale 3--. Przebeg dystrybuaty empryczej po męcu 50-tego percetyla wyprzedza dystrybuatę teoretyczego rozkładu ormalego (a przekątej. 43

145 Rysuek Box plot dla reszt scyzorykowych dla przykładu skurczowe cśee krw. Perwszy trzec kwatyl rozkładu reszt scyzorykowych są rówe: Q = oraz Q 3 = Medaa M = - 0,03, atomast wartość maksymala r (-=-max = Odpowadała oa obserwacj dla przykładu skurczowe cśee krw omawaego w Rozdzale 3--. Odległość Q 3 Q = 0,69, zatem różca r (-max - Q 3 > 3*( Q 3 Q skąd wyka, że steją podstawy, aby obserwację tą rozważyć jako outsdera. Wosek te jest zgody z aalzą przykładu z Rozdzału

146 Rysuek Wykres reszt scyzorykowych v.s. przewdywaa wartość cśea krw dla Przykładu skurczowe cśee krw (z outsderem. Z powyższego wykresu wyka, że tylko wartość (tj. < 5% z 30 reszt scyzorykowych przewyższa,96 co do wartośc bezwzględej. Ozacza to, że obserwacja ta może być outsderem. Po jej usuęcu ( przelczeu modelu otrzymalbyśmy schemat zgody z Rysukem a (Rozdzał. 45

147 Rozdzał 3-. Przykład FEV (atężoa jedosekudowa objętość. Przebadao grupę losowo wybraych 9 osób będących astmatykam, pod względem zależośc ch FEV od grupy czyków: weku, wzrostu, wag płc. Dae zaczerpęto z [] (za cytowaym tam [5]. Lczba wszystkch obserwacj w próbe wyos = 9. Poższa tabela zawera zbór daych potrzeby do przeprowadzea aalzy: zmeą zależą (objaśaą: FEV - [l/sek] zmee ezależe: X heght [cm], X weght [kg], X 3 age [lata], X 4 female płeć (female dla mężczyz przyjmuje wartość 0 a dla kobet dodatkowo zmeą zależą stadaryzowaą: FEV st HEIGHT WEIGHT AGE FEMALE FEV FEV st ,7, , ,3 0, ,5-0, , , , -0, ,5 0 4,7, , ,3 0, , ,7, ,, , 4 0 4, 0, , ,5-0, , -0, ,6 -, , , , ,9 0, , , ,5 0, ,4 -,58 Tabela 3-.. Tabela daych do przykładu FEV (atężoa jedosekudowa objętość W celu ograczea wpływu współlowośc pomędzy czykam aalzę przeprowadzoo od razu dla zmeych objaśających wycetrowaych (deks c. 46

148 Rozważmy lowy model regresj: ˆ ˆ ˆ ˆ ˆ ˆ (3-. c c c c Y 0 X X 3 X 3 4 X 4 gdze Yˆ ozacza teoretycze średe warukowe dla wartośc X zmeej X c X - X. c Raport SAS a: FEV a sek 5:5 Frday, Jue 0, 005 zmee wycetrowae Test braku zależośc korelacyjej: The REG Procedure Model: MODEL Depedet Varable: FEV FEV Number of Observatos Read 9 Number of Observatos Used 9 Aalyss of Varace Sum of Mea Source DF Squares Square F Value Pr > F Model Error Corrected Total Mary dopasowaa modelu: Root MSE R-Square 0.97 Depedet Mea Adj R-Sq Coeff Var Estymacja parametrów strukturalych modelu: Parameter Estmates Parameter Stadard Stadardzed Varable Label DF Estmate Error t Value Pr > t Estmate Itercept Itercept < heght_ceter heght_ceter weght_ceter weght_ceter age_ceter age_ceter female_ceter female_ceter The REG Procedure Model: MODEL Depedet Varable: FEV FEV Correlato of Estmates heght_ weght_ age_ female_ Varable Label Itercept ceter ceter ceter ceter Itercept Itercept heght_ceter heght_ceter weght_ceter weght_ceter age_ceter age_ceter female_ceter female_ceter Aalza współlowośc z wykorzystaem wartośc własych: Collearty Dagostcs Codto -----Proporto of Varato Number Egevalue Idex heght_ weght_ age_ female_ ceter ceter ceter ceter

149 Aalza raportu SAS a: Wosk: Średa FEV (atężoa jedosekudowa objętość w grupe badaych ludz wyos 3,784. Lczba stop swobody dla średej sumy kwadratów SSR modelu, wyos df(ssr = p = k = 4. Lczba stop swobody dla sumy kwadratów reszt SSE wyos df(sse = p = 9 5 = 4. Suma kwadratów dla modelu (SSR jest rówa,745, suma kwadratów dla reszt (SSE wyos,088. Średa suma kwadratów modelu MSR = SSR/df(SSR = 0,6806, atomast średa suma kwadratów błędów MSE = SSE/df(SSE = 0,7963. Postawoa hpoteza zerowa H 0 : 0 mówąca o braku zależośc korelacyjej 3 4 FEV od wszystkch czyków e została odrzucoa, tz. model lowy uzajemy za estoty statystycze. Powodem jest estota statystycze a każdym pozome stotośc p = 0,56 wartość statystyk testowej F-Sedecora F obs = MSR/MSE = 0,6806/0,7963 = 0,86. Nestotość statystycza estymatorów parametrów kerukowych (pukt dalej mogłaby wskazywać a to, aby z modelu usuąć zależość FEV od wszystkch czyków, pozostawając tylko wyraz woly 0. Nemej, aalzę przeprowadzmy dla oszacowaych wartośc parametrów. Wartość współczyka determacj R jest rówa 0,97 co ozacza, że około 0% zmeośc średej wartośc FEV jest wyjaśoa przez model. Poeważ otrzymaa wartość R może być uzaa za małą (a R jest marą dopasowaa modelu do daych empryczych, zatem dopasowae to jest ske. Spróbujemy wskazać a możlwą przyczyę takego stau rzeczy (pomjając być może stotość rozszerzea modelu lowego do modelu z wyższym stopem zależośc FEV od zmeych objaśających. Otrzymae w pobraej próbce rówae regresj ma astępującą postać: Y ˆ 3, 784 0, 0X 8 X (3-. h_ c 0, 06X w_ c 0, 009X a _ c 0, Wartośc oszacowań parametrów strukturalych modelu w próbce poza wyrazem wolym ˆ0 3, 784 (dla Itercept empryczy pozom stotośc p < 0,000 są estote statystycze (wszystke p > 0,, co jest w zgodze z brakem podstaw do odrzucea hpotezy zerowej o braku zależośc korelacyjej. Macerz korelacj wskazuje a brak współlowośc (zera poza dagoalą pomędzy przesuęcem (Itercept a zmeym objaśającym: Heght_ceter, Weght_ceter, Age_ceter, Female_ceter. Przyczyą jest wprowadzee do aalzy wycetrowaych zmeych heght X h_c, weght X w_c, age X a_c, female X f_c. Otrzymae w próbce wartośc ˆ 3 784, ˆ 0 0, ˆ 0 06, ˆ 0 009, ˆ 0 8 są z 0,,, f _ c 3, 4, powodu braku współlowośc wartoścam stablym, tz. pochodzą z estymatorów o małej waracj. 48

150 Rozdzał 3--. Dagostyka reszt dla modelu. Przykład FEV (atężoa jedosekudowa objętość. Całość powyższej aalzy zakłóca ska wartość R = 0,97, która może być spowodowaa wystąpeem obserwacj etypowej, czyl outsdera. Z tego powodu przyjrzyjmy sę dagostyce badaego powyżej modelu. Poższy wydruk przedstawa wartośc: zmeych cetrowaych (heght, wegh, age, female, reszt zwykłych U (_RESID, reszt studetyzowaych R (_STUDENT, reszt scyzorykowych R( (_RSTUDENT, odległośc Cooka D (_COOKD współczyka dźwgęca h (_H dla przykładu FEV (atężoa jedosekudowa objętość. osoba heght_ ceter weght_ ceter age_ ceter female_ ceter FEV _PRED _RESID _STUDENT _COOKD _H _RSTUDENT Tabela 3--. Wydruk dagostyk dla przykładu FEV (atężoa jedosekudowa objętość z wycetrowaym czykam. Z powyższego raportu wdać, że obserwacje 3, 4 8 są podejrzaa o to, że są outsderam. Obserwacja 3 odstaje od pozostałych z wartoścą dźwgęca. Natomast obserwacja 4 odstaje welkoścą reszty scyzorykowej. Obserwację 8 omówmy a końcu. Rozważmy wperw obserwację =4. Wartośc wszystkch typów reszt są stosukowo małe, jedye reszta scyzorykowa R (4 = -,7344 moco odstaje od pozostałych. Obserwacja 4 posada dość dużą wartośc (trzecą w kolejośc odległośc Cook a, D = 0,653, odstającą od welu pozostałych. Ze względu a ską wartość dźwgęca h 4 = 0,398 woskujemy, że pomar leży w edużej odległośc w przestrze czyków od kompletu średch czyków, X, X, { h _ c w _ c a _ c X X } 0, 0, 0, 0 f _ c. Właśe ze względu 49

151 a tą małą wartość dźwgęca, obserwacja 4 e jest szczególe wpływowa (Rysuek (a. Zatem, po usuęcu tego pomaru w rówau regresj może ulec stotej zmae przesuęce, atomast wartość współczyka kerukowego e powa sę wyraźe zmeć. Rozważmy obserwację =3. Ma oa ajwększą wartość dźwgęca, h 3 = 0, Jest to wartość dźwgęca, która jest mejsza ż podaa przez Hoagl Welsch jako wartość, która podlegać powa sprawdzeu (0--.: k h 8 0, , (3-.3 Zatem e trzeba badać tej obserwacj. Ne ma w zasadze powodu, aby obserwację 3 uważać za outsdera. Potwerdza to róweż mała wartość ( odległośc Cook a, która wyos D 3 = 0,00476, sugerując, że usuęce obserwacj 3 ma ewelk wpływu a welkość zma współczyków regresj. Iym słowy uzajemy, że e jest oa wpływowa. Obserwacja 8. Isteje jeszcze obserwacja =8 z dość dużą wartoścą dźwgęca h 8 = 0, Dla tej obserwacj odległość Cook a ma ajwększą wartość rówą D 8 = 0,3080. Na tej podstawe możemy podejrzewać, że obserwacja ta jest outsderem (pommo, że cągle daleko jej do wartośc ; porówaj Rozdzał Zatem z daych usuwamy obserwację 4 8. Po ch usuęcu z tabel daych poprawło sę dopasowae modelu do daych empryczych. Otrzymujemy wtedy astępujący raport SAS a. The REG Procedure Model: MODEL Depedet Varable: FEV FEV Aalyss of Varace 5:04 Suday, Jue, 005 Sum of Mea Source DF Squares Square F Value Pr > F Model Error Corrected Total Root MSE R-Square Depedet Mea Adj R-Sq 0.54 Coeff Var Po usuęcu outsdera, współczyk determacj R zwększył sę o 0,685 wyos obece R = 0,3657, co ozacza, że 37% zmeośc średej wartośc FEV jest wyjaśoa przez otrzymay model (w porówau z 0% poprzedo. Poeważ pozostała część aalzy modelu z usuętym, uzaym za outsderów obserwacjam wygląda podobe jak poprzedo, zatem pomemy jej omówee. 50

152 Aalza ormalośc rozkładu reszt. Pożej omówmy jedye przypadek z e usuętym outsderam. Hpoteza H 0 : Teoretyczy rozkład reszt zgody z rozkładem ormalym. Metoda aalzy: Test Kołmogorowa-Smrowa (Rozdzał 5. Aalze poddao reszty zwykłe U. Przypadek z outsderam ( = 9 FEV a sek 5:5 Frday, Jue 0, rozklad reszt The UNIVARIATE Procedure Ftted Dstrbutos for _RESID Parameters for Normal Dstrbuto Parameter Symbol Estmate Mea Mu 0 Std Dev Sgma Goodess-of-Ft Tests for Normal Dstrbuto Test ---Statstc p Value----- Kolmogorov-Smrov D Pr > D >0.50 Wartość statystyk D (4.4 dla testu Kołmogorowa-Smrowa jest rówa D 9 = 0,088. Poeważ empryczy pozom stotośc p > 0,50, zatem a każdym pozome stotośc 0,05 p, (p. dla lub 0,0 welkość D e jest stota statystycze, co ozacza, że e mamy podstaw do odrzucea hpotezy o ormalośc rozkładu reszt. Aalza ezależośc reszt (Rozdzał -3- Hpoteza H 0 : brak korelacj pomędzy składkam losowym Metoda aalzy: Test Durba-Watso a Aalze poddao reszty zwykłe U. Przypadek z outsderem ( = 9 Raport SAS a ma postać: Aalza ezależośc reszt: FEV a sek 5:5 Frday, Jue 0, 005 The REG Procedure Model: MODEL Depedet Varable: FEV FEV Durb-Watso D.663 Number of Observatos 9 st Order Autocorrelato

153 Wartość statystyk Durba-Watsoa d,663(0,. Ozacza to, że hpoteza alteratywa ma postać H : 0 (Rozdzał -3-. Z tablc dla k = 4, = 9 α = 0,05 odczytujemy wartośc krytycze dla testu. Wyoszą oe d l = 0,859 d u =,848. Wartość statystyk d u > d > d l, co śwadczy o tym, że test Durba- Watsoa e pozwala am a podjęce kokretej decyzj statystyczej odośe hpotezy H 0 : 0. Aalzę dokończymy węc w Excel u korzystając z ormalośc rozkładu reszt w H 0. Skorzystamy ze ˆ statystyk t-studeta t (Rozdzał -3-, wzór ( W próbce otrzymalśmy ˆ wartość ˆ - d/ 0, 69, skąd statystyka t wyosła w próbce t obs = 0,705. Wartość krytycza statystyk testowej t przy α=0,05 lczbe stop swobody -= 7 wyos t(0,975; 7 =,, co ozacza, że e mamy podstaw do odrzucea hpotezy zerowej o braku korelacj reszt. Uwaga (dotycząca testu jedorodośc waracj: Aalzę jedorodośc waracj składka losowego pomjamy. Aby przeprowadzć test ależałoby pobrać próbę z wększą od zera lczbą replk dla każdego kompletu wartośc czyków. Podsumowae. Powyższa aalza reszt wskazuje, że e występuje stota statystycze zależość korelacyja FEV osób od zmeych objaśających. Aalza reszt wykazała, ze dwe obserwacje możemy uzać za outsderów, obserwację 4 8. Baday model (3-., chocaż jak sę okazało estoty statystycze (z ousderam czy bez ch, jest w zgodze z podstawowym założeam modelu regresj klasyczej. Usuwając outsderów przyczylśmy sę do lepszego dopasowaa modelu do daych empryczych. 5

154 Rozdzał 3--. Grafcza aalza reszt dla Przykładu FEV (atężoa jedosekudowa objętość (z Rozdzału 3.-. Poższy hstogram wskazuje a to, że chocaż występuje zauważala lewostroa skośość tego rozkładu, to moża by uzać zgodość rozkładu reszt scyzorykowych z rozkładem ormalym. Dokładejsza aalza w Rozdzale 3.- oparta o test Kołmogorowa-Smrowa potwerdzła taką decyzję. Dla porówaa hstogramu przedstawoo teoretycze rozkłady: ormaly, logormaly ekspoecjaly. Rysuek Hstogram dla reszt scyzorykowych z Przykładu FEV (atężoa jedosekudowa objętość 53

155 Rysuek Normaly wykres prawdopodobeństwa (Normal probablty-probablty plot dla reszt zwykłych dla Przykładu FEV (atężoa jedosekudowa objętość. Wykres dystrybuaty teoretyczego rozkładu ormalego leży a przekątej. Z powyższego wykresu wyka, że w (szczególośc w cetralej częśc, empryczy rozkład reszt zwykłych jest dość dobrze zgody z teoretyczym rozkładem ormalym. W lewym ogoe rozkładu wdać lekke opóźee dystrybuaty rozkładu empryczego w stosuku do rozkładu ormalego, co wdać a wcześejszym hstograme co sugeruje lekką lewostroą skośość rozkładu empryczego. 54

156 Rysuek Box plot dla reszt scyzorykowych z Przykładu FEV (atężoa jedosekudowa objętość Wykres pudełkowy z wąsam (Box plot odzwercedla grafcze astępującą sytuację: medaę, M = 0.5 kwartyl II (kreska wewątrz pudełka ozacza to że 50% reszt scyzorykowych ma wartość mejszą bądź rówą wartośc meday a 50% scyzorykowych ma wartość wększą bądź rówą wartośc meday kwartyl I, Q = (dół pudełka ozacza że 5% reszt scyzorykowych zajduje sę pożej wartośc kwartyla I kwartyl III, Q3 = (góra pudełka - ozacza że 75% reszt scyzorykowych zajduje sę powyżej wartośc kwartyla III średą arytmetyczą r( = (słabo wdocza, ozaczoa a wykrese symbolem + wartość m max (wartość m reszt scyzorykowych wyos a wartość max rówa jest.385 Na podstawe powyższego wykresu trudo jakąś obserwację uzać za zdecydowaego outsdera. 55

157 Rysuek Wykres reszt scyzorykowych v.s. przewdywaa wartość FEV dla Przykładu FEV (atężoa jedosekudowa objętość. Z powyższego wykresu wyka, że tylko wartość (tj. < 5% z 9 reszt scyzorykowych przewyższa,96 co do wartośc bezwzględej. Schemat zależośc dla reszt jest trudejszy do sprecyzowaa, być może jest to schemat z Rysuku c z Rozdzału. Z całą jedak pewoścą wdać, że ależałoby uzyskać wększą lczbę replk, to dopero pozwolłoby stwerdzć czy ależy dokoać jakejś trasformacj zmeej Y, czy ależałoby dodać do modelu jakeś dodatkowe czyk (w tym ch oddzaływaa. Na tym kończymy podstawowe rozważaa (poparte przykładam dotyczące sposobów badaa a podstawe pomarów w próbce spełea podstawowych założeń dla lowych model regresj klasyczej. 56

158 B. Rozdzał 4. Zakończee. Jakkolwek ślad elosowośc obserwowaych reszt jest dowodem pewego odstępstwa od założoego modelu. Podstawowe rodzaje odstępstw od założoego modelu mogą być wykryte poprzez: Obecość lczych outsderów. Obecość pojedyczych outsderów jest a ogół łatwo wykrywaa we wszystkch grafczych procedurach, jedakże lcz outsderzy są czasam przyczyą trudośc polegających a emożośc wykryca outsderów, powodując odstępstwa od założoego modelu. Wyrysowae wykresu zależośc reszt od zmeych objaśających. Newłaścwa postać zależośc od zmeych objaśających, tz. założee p. modelu lowego zamast elowego, może być zauważoe po wyrysowau wykresu zależośc reszt od zmeych objaśających. 3 Wyrysowae reszt w zależośc od wartośc przewdywaych zmeej objaśaej, lub wyrysowae skumulowaego rozkładu dla reszt wobec dystrybuaty teoretyczego rozkładu tych reszt (p. dystrybuaty rozkładu ormalego. 4 Wyrysowae wykresów dagramów puktowych dla przesuętych (o pewe lag reszt. Moża w te sposób zauważyć korelacje pomędzy obserwacjam. Procedura ta jest powszecha w szeregach czasowych. 5 Wykreślee zależośc reszt badaego modelu od ewprowadzoej do modelu zmeej. Pomęce jakejś zmeej objaśającej może być zauważoe a wykrese zależośc reszt badaego modelu od ewprowadzoej do modelu zmeej. 57

159 B. Rozdzał 5. Uzupełee. Testy eparametrycze. Testy zgodośc staową wraz z testam jedorodośc [] oraz z testam losowośc ezależośc [], główe dzały woskowaa eparametryczego. Rozdzał 5-. Test zgodośc Kołmogorowa Smrowa. Wprowadzee. Bardzej loścowe krytera dla oszacowaa ważośc założeń o type rozkładu (p. że rozkład jest ormaly, oparte są o stadardowe testy statystycze zgodośc rozkładu empryczego z rozkładem hpotetyczym p. take jak test ch-kwadrat Pearsoa test Kołmogorowa(-Smrowa. W testach zgodośc porówuje sę fukcję rozkładu prawdopodobeństwa badaej cechy w próbe z jej hpotetyczym rozkładem w populacj. Stawae hpotezy zerowe mogą, w zależośc od typu rozkładu kokretego zagadea, dotyczyć postac fukcj rozkładu prawdopodobeństwa, fukcj rozkładu gęstośc prawdopodobeństwa bądź postac dystrybuaty. Test Kołmogorowa ( Smrowa jest przezaczoy do testowaa hpotez o zgodośc rozkładu empryczego teoretyczego w przypadku zmeych losowych typu cągłego. Hpotezy moża sformułować astępująco. Hpoteza zerowa ma postać: H0 0 y : F( y F ( (5-. jest stawaa względem hpotezy alteratywej: H 0 y : F( y F (. (5-. W skróce, zastosowae testu do weryfkacj hpotezy zerowej (5-. przebega astępująco. Statystyka testowa dla testu Kołmogorowa Smrowa jest określoa wzorem (Rozdzał 5.3: D max F ( y F0 ( y, (5-.3 gdze F (y jest dystrybuatą empryczą (częstoścą skumulowaą rozkładu empryczego (Rozdzał 5., która jest rówa F ( y / dla -tej ajmejszej obserwacj y w -elemetowej próbce, atomast F 0 (y jest dystrybuatą teoretyczą w populacj wyzaczoą dla tej samej wartośc y. W teśce tym dystrybuata teoretycza F 0 (y mus być fukcją cągłą mus meć w peł określoe parametry teoretyczego rozkładu (tz. eestymowae z próby. Zatem test Kołmogorowa Smrowa adaje sę do testowaa zgodośc rozkładu empryczego z p. rozkładem ormalym (stadaryzowaym lub rozkładem t-studeta z określoą lczbą stop swobody. Hpoteza dotycząca postac dystrybuaty jest odrzucoa, jeśl statystyka D testu jest wększa ż wartość krytycza uzyskaa z tablc [6]. Test D jest bardzej czuły a błędy w ogoach rozkładu ż test Pearsoa []. Przykłady zastosowaa testu Kołmogorowa Smrowa moża zaleźć w []. - 58

160 Rozdzał 5-. Rozkład empryczy [7]. Rozkład empryczy to rozkład prawdopodobeństwa określoy z próby dla oszacowaa rozkładu prawdzwego w populacj. Załóżmy, że wyk w próbce są realzacją próby prostej Y,...,, Y Y - ezależych zmeych losowych z tym samym rozkładem określoym dystrybuatą F oraz ech Y ( Y(... Y( są odpowedm statystykam porządkowym (powstałym po uporządkowau próbk y, y,..., y w porządku rosącym, tz. y( y(... y(. Rozkład empryczy odpowadający Y, Y,..., Y jest zdefoway jako rozkład dyskrety, który przypsuje każdej wartośc y k, k =,,...,, prawdopodobeństwo /. Stąd emprycza dystrybuata F jest fukcją schodkową z krokam będącym welokrotoścą / w puktach Y (, Y(,..., Y( : F ( y Dla ustaloych wartośc 0, k,, y Y Y y,..., ( k y Y ( y Y (, ( k, y y fukcja (y, k. (5-.4 F ma wszystke własośc zwykłej dystrybuaty. Dla każdego ustaloego, rzeczywstego y, fukcja F (y jest zmeą losową jako fukcja Y, Y,..., Y. Zatem, rozkład empryczy odpowadający próbe Y,...,, Y Y jest zaday przez rodzę zmeych losowych F (y zależą od rzeczywstego parametru y, z których każda określoa jest rozkładem Beroullego [7]: k k P F k ( y F( y F( y, (5-.5 k E( F ( y F( y, ( F ( y F( y F( y. (5-.6 Dla każdego ustaloego, rzeczywstego y, każda ze zmeych losowych F (y jest zbeża stochastycze do wartośc F (y, tz.: 0, lm P F ( y F( y. (5-.7 Zatem F (y jest eobcążoym zgodym estymatorem dystrybuaty F (y. Poeważ emprycza dystrybuata F (y zbega sę do F (y w sposób jedostajy oraz z prawdopodobeństwem, węc zgode z twerdzeem Glwek Catell ego [8], zachodz: gdze (5-.3: P 0 lm D, (

161 D sup F ( y F( y. (5-.9 y Welkość D jest marą odległośc F (y od F (y. Jeśl F (y e jest zae, wtedy aby zweryfkować hpotezę H 0 (5-., że F (y jest zadae cągłą fukcją F (, stosuje sę test (azyway testem Kołmogorowa lub Kołmogorowa-Smrowa, 0 y wykorzystujący statystykę typu D. Rozdzał 5-3. Test zgodośc Kołmogorowa [9]. Rozwęce. Test Kołmogorowa przyczył sę do rozwoju statystyk matematyczej, będąc początkem welu badań ad owym metodam aalzy statystyczej leżącej u podstaw eparametryczej aalzy statystyczej [30]. Jest to test statystyczy wykorzystyway dla testowaa prostej eparametryczej hpotezy H 0, (5-., zgode z którą zmee losowe ezależe Y, Y,..., Y posadające tak sam rozkład (tworzące węc próbę prostą mają dystrybuatę F, wobec dwustroej hpotezy alteratywa H (5-., którą moża zapsać astępująco: : H E( F ( y F( y 0, (5-3. gdze E( F ( y jest wartoścą oczekwaą dystrybuaty empryczej F (Rozdzał 5-. Zbór krytyczy W testu Kołmogorowa dla wartośc statystyk D jest określoy erówoścą: D sup F ( y F( y d (, tz. W d ( ;, (5-3. y gdze d ( jest kwatylem rzędu ( statystyk D. Jego postać opera sę o o astępujące twerdzee udowodoe przez A.N. Kołmogorowa w roku 933 [3]. Twerdzee. Jeśl hpoteza H 0 jest prawdzwa, wtedy rozkład statystyk statystyka D ma asymptotycze rozkład (poday pożej dla dystrybuaty: D e zależy od F. Poadto, dla P( D Q(, 0, (5-3.3 lub P( D Q(, 0, gdze dystrybuata gracza ma postać: m m ( ( m m Q e. (5-3.4 W roku 948, N.V. Smrow stablcował dystrybuatę Kołmogorowa Q (. 60

162 W zgodze z testem Kołmogorowa a pozome stotośc, gdze 0 0, 5, hpotezę zerową H 0 odrzucamy, gdy D (, gdze kwatyl d ( jest perwastkem rówaa: d P ( D d ( (5-3.5 w zwązku z tym jest wartoścą krytyczą testu Kołmogorowa dla zadaego pozomu stotośc. W celu określea d ( wykorzystuje sę przyblżee prawa graczego dla statystyk Kołmogorowa D oraz jej graczej dystrybuaty. Moża pokazać [3], że dla z P ( 6 D ( z Q O(. 8, zachodz: (5-3.6 Zastosowae przyblżea (5-3.6 w rówau (5-3.5 daje astępujące przyblżee wartośc krytyczej statystyk D : d z ( 6, (5-3.7 gdze z jest perwastkem rówaa: z Q. (5-3.8 W praktyce, w celu wyzaczea wartośc Wyzaczamy: d statystyk D w próbce postępuje sę astępująco. d max( d, d, (5-3.9 m gdze: d max F( y(m, (5-3.0 m d m max F( y( m, (5-3. m gdze y( y(... y( jest uporządkowaym rosąco zborem wartośc w próbce (dla zboru statystyk porządkowych Y( Y(... Y( utworzoym z próby Y, Y,..., Y. Następe, przy daym pozome stotośc oraz daym, odczytujemy z tablc kwatyl statystyk Kołmogorowa D taką wartość krytyczą d (, która speła rówość (5-3.5, P ( D d (. Poeważ zborem krytyczym jest W d ( ; zatem, gdy D d W, wtedy odrzucamy hpotezę H 0 a rzecz hpotezy H, atomast gdy wtedy e mamy podstaw a pozome stotośc do odrzucea H 0. D d W (tz. d d (, 0 6

163 Test Kołmogorowa ma terpretację geometryczą jak a poższym rysuku: Rysuek Iterpretacja testu Kołmogorowa. Wykres zboru fukcj F (y, F ( y ( a płaszczyźe w układze kartezjańskm, gdze wprowadzoo ozaczee ( d (. Obszar zakreskoway jest obszarem ufośc dla dystrybuaty F (y wyzaczoym a pozome ufośc, co wyka z tego, że o le hpoteza H 0, (5-., jest prawdzwa, to według twerdzea Kołmogorowa mamy: P F ( y ( F( y F ( y (, dla,,...,. (5-3. Jeśl wykres F (y e opuszcza obszaru zakreskowaego, wtedy według testu Kołmogorowa e ma podstaw do odrzucea H 0 a pozome stotośc. W przecwym przypadku H 0 jest odrzucoa a rzecz hpotezy alteratywej. (koec opsu rysuku. ~ Uwaga. Zarówo test oparty o statystyk D sup F ( y F( y jak D sup ( F ( y F( y bywa azyway testem Kołmogorowa Smrowa [33]. Y Róweż pokrewy test dla problemu dwóch prób, oparty o statystyk D sup F ( y G ( oraz ~ D Y m, Y m y sup ( F ( y G (, gdze G (y jest empryczą dystrybuatą dla m - wymarowej próby dla m, Y y populacj z dystrybuatą G, jest azyway testem Kołmogorowa Smrowa [33]. Te ostat jest przykładem eparametryczego testu jedorodośc stosowaym do weryfkacj hpotezy zerowej o zgodośc dwóch rozkładów empryczych ze sobą, gdze H0 : F( y G( y, a hpoteza alteratywa H : F( y G( y. Uwaga. Podstawowa baza programowa SAS a dostarcza klku testów ormalośc w ramach procedury UNIVARIATE. W zależośc od wymaru próby, PROC UNIVARIATE wykouje p. testy Kołmogorowa-Smrowa, Shapro-Wlk a, Aderso a-darlg a oraz Cramér-vo Mses a. W celu dokoaa weryfkacj hpotezy mówącej o tym, że dwe (lub węcej grupy obserwacj są geerowae z detyczych rozkładów, moża wykorzystać w SAS e procedurę NPARWAY, która umożlwa wyzaczee statystyk dla fukcj rozkładu empryczego (EDF. Procedura ta wylcza statystykę testową Kołmogorowa-Smrowa oraz Cramér-vo Mses a. W przypadku, gdy dae są sklasyfkowae w dwóch próbach, dostępy jest róweż test Kuper a. Dokłade wartośc empryczego pozomu stotośc p są dostępe dla testu Kołmogorowa-Smrowa dla dwóch prób. Aby uzyskać dostęp do wspomaych testów, ależy zastosować opcję EDF w poleceach procedury PROC NPARWAY [34]. 6

164 C. Rozdzał 6. Aalza waracj. Aalza waracj (ANOVA - aalyss of varace jest metodą statystyczą wykorzystywaą do porówywaa wartośc średch zmeej objaśaej (odpowedz w klku populacjach. Jest to techka badaa wyków (obserwacj, które zależą od jedego lub klku czyków dzałających rówocześe. Czykem w ANOVA azywamy podstawową zmeą objaśającą, która przyjmuje róże pozomy odpowadające poszczególym kategorom (waratom czyka. ANOVA pozwala sprawdzć, czy aalzowae czyk wywerają wpływ a obserwowaą zmeą objaśaą. Zmea objaśaa mus być zmeą merzalą a czyk mogą meć charakter zarówo jakoścowy jak loścowy. Czykem jakoścowym może być a przykład stosoway lek, metoda leczea, płeć, lczebość człoków rodzy. Każdy czyk ma klka pozomów lub waratów, którym, dla wspomaych czyków, mogą być: róże dawk leku, określoe metody leczea, płeć męska żeńska, lczba człoków rodzy. Jeśl day czyk wpływa a zmeą objaśaą, to średe wartośc tej zmeej powy różć sę stote w zależośc od tego, jak jest warat czyka. Istotą ANOVA jest pomar wpływu jakoścowej zmeej objaśającej (zmeych objaśających a skalę zmeośc zmeej objaśaej Y. Aalza waracj jest zatem metodą rówoczesego badaa stotośc różc mędzy weloma średm z prób pochodzących z welu populacj, które łącze tworzą (jedorodą bądź ejedorodą populację geeralą. Pomar wpływu zmeej objaśającej obejmuje wyzaczee mar statystyczych opsujących rozkłady warukowe zmeej objaśaej oraz weryfkację hpotez statystyczych. Wpływ wyróżoych czyków a zmeą objaśaą może być rozpatryway oddzele dla pojedyczego czyka wtedy mamy do czyea z modelem jedoczykowym, dla którego przeprowadza sę tzw. jedokerukową aalzę waracj (Oe-way ANOVA. Moża też badać dwa lub węcej czyków razem, oceając, oprócz ch dywdualego wpływu, ch łączy wpływ a zmeą objaśaą. Mamy wówczas do czyea z dwuczykowym lub weloczykowym modelem tzw. dwukerukową (Two-way ANOVA lub welokerukową aalzą waracj. 63

165 Rozdzał 6-. Jedoczykowa aalza waracj (ANOVA- tablca aalzy waracj. Główym problemem jedoczykowej aalzy waracj jest zbadae, czy wartośc oczekwae zmeej objaśaej (odpowedz w populacjach są sobe rówe. Aby przeprowadzee tej aalzy było możlwe, trzeba aby były spełoe cztery podstawowe założea: Próbka mus być wyselekcjoowaa w sposób losowy z każdej z k populacj lub grupy. Wartość zmeej objaśaej mus być określoa dla każdej jedostk w pobraej próbce. Zmea objaśaa ma rozkład ormaly w każdej populacj. Waracja zmeej objaśaej jest taka sama w każdej populacj. Ogóla kofguracja daych w jedoczykowej ANOVA jest przedstawoa w poższej Tabel. Tabela 6-.. Ogóly układ daych występujących w jedoczykowej ANOVA []. Numer populacj Welkość (podpróby Obserwacje Y,..., Y Y,..., Y 3 3 Y 3 Y3,..., Y3 K Razem, Y,, 3 k Welkość próby k Y Y Y,..., Suma Średa z próby Y Y Y / Y 3 k, Yk Y Y k k k Y Y / Y Y / 3 Y3 3 Y Y / k k Y Y / k Podstawowe rówae jedoczykowej ANOVA opsujące rozkład całkowtej (T zmeośc zmeej objaśaej Y a zmeość wyjaśoą zmaą waratu czyka G oraz zmeość spowodowaą rozproszeem wewątrz ustaloych waratów (grup tego czyka (tzw. błędem E ma postać: gdze: TSS SSG SSE, (6-. a SSG (G ozacza grupę jest sumą kwadratów odchyleń średch grupowych od średej ogólej reprezetuje zmeość mędzygrupową. Ma oa postać: k SSG ( Y Y, (6-. gdze obserwacje w próbe ozaczamy jako Y j, przy czym =,,k jest umerem populacj wskazaym przez -ty pozom czyka G, z której pochodz próba -ta, a j =,, jest umerem obserwacj w tej próbe (grupe. 64

166 Występująca w (6-. średa dla tej próby (grupy jest rówa: Y j Y j atomast średa arytmetycza z wszystkch obserwacj w (całkowtej próbe jest rówa: (6-.3 Y k j Y j, (6-.4 gdze: k (6-.5 jest całkowtą lczeboścą próby. b SSE (E od error - błąd jest sumą kwadratów odchyleń wartośc cechy od średej grupowej reprezetuje zmeość wewątrzgrupową wykającą z błędu losowego: SSE k j ( Y j Y. (6-.6 c TSS (T od total jest całkowtą sumą kwadratów odchyleń od średej ogólej we wszystkch grupach (dla wszystkch obserwacj: TSS k k k j j j j ( Y Y ( Y Y ( Y Y SSG SSE. (6-.7 Powyższe źródła zmeośc zmeej objaśaej Y zwązae z m sumy kwadratów (SS odchyłek, przedstawa poższa tabela. Tabela 6-.. Schemat jedoczykowej aalzy waracj []. Źródła Zmeośc Y Czyk G z pozomam dającym zróżcowae mędzygrupowe Y Błąd losowy E powodujący zróżcowae wewątrzgrupowe Y Ogółem Lczba stop swobody (df Sumy kwadratów Odchyleń (SS k SSG MSG G k SSE MSE E TSS G E Średe kwadraty Odchyleń Cetralą hpotezą jedoczykowej ANOVA jest hpoteza o rówośc wartośc oczekwaych w populacjach wyzaczoych przez pozom czyka G: H0 :... k (6-.8 wobec hpotezy alteratywej: H : steje para j, taka że j. (

167 Weryfkację hpotezy zerowej H 0 przeprowadza sę stosując statystykę testową będącą lorazem średch kwadratów odchyleń mędzygrupowych MSG wewątrzgrupowych MSE: MSG SSG/( k F, (6-.0 MSE SSE/( k gdze średe sumy kwadratów odchyłek mają postać: MSG SSG k k k ( Y Y k ( Y / Y / k (6-. przy czym SSE MSE k k k j ( Y j Y k k Yj j Y jest sumą wartośc w próbe pobraej z populacj -tej, a zaobserwowaych dla wszystkch k populacj. k ( Y / (6-. Y jest łączą sumą wartośc Statystyka testowa (test F przy prawdzwośc H 0 ma rozkład F-Sedecora z k stopam swobody lczka k stopam swobody maowka. Poadto, jeśl hpoteza zerowa jest E prawdzwa, to zarówo MSG jak MSE, są eobcążoym estymatoram waracj składka losowego w populacj stąd przy prawdzwośc H 0 statystyka ta powa przyjmować małe wartośc, blske jedośc. Istota statystycze wartość statystyk F skutkuje przyjęcem hpotezy alteratywej. Poeważ statystyka F (6-.0 jest stosukem dwóch estymatorów waracj, przy czym lczk opsuje zmeość mędzygrupową, a maowk zmeość wewątrzgrupową, zatem wdać, że postać F (6-.0 w jedoczykowej aalze waracj jest uogóleem testu t: G E ( Y Y / / / t S p, (6-.3 który dotyczy weryfkacj hpotezy o rówośc wartośc oczekwaych w dwóch populacjach, a przypadek welu populacj. Dlatego też statystyka wewątrzgrupowej: MSE S p j gdze Ŝ, Ŝ to waracje z próby kolejo dla grupy. S p w maowku jest perwastkem średej waracj ( Sˆ ( Sˆ ( Yj Y, (

168 Rozdzał 6--. Test jedorodośc waracj. Jest to test, który koecze trzeba przeprowadzć zam przystąp sę do testowaa hpotezy o rówośc średch w populacjach. W przypadku odrzucea hpotezy o jedorodośc waracj w populacjach e ma sesu przechodzć do testu o rówośc średch, bowem ( statystyka MSE występująca w maowku statystyk F e jest wtedy eobcążoym estymatorem waracj składka losowego E (węcej a te temat jest dalej oraz ( populacja geerala tak e jest jedoroda ze względu a zmaę pozomu czyka G. Do sprawdzea założea o jedorodośc waracj w grupach służą take testy jak p. test Bartlett a, test Brow a-forsythe a oraz test Levee go. Krótke omówee testu Bartlett'a jest podae pożej [9]. Rozdzał Test Bartlett a. Przedmotem weryfkacj jest hpoteza zerowa o rówośc waracj: H wobec hpotezy alteratywej: H 0 :... k (6-.5 steje para j, taka że j :. (6-.6 W teśce Bartlett a wykorzystuję sę statystykę: gdze: oraz: przy czym -tej próby: M, (6-.7 k 3( k ( k k M ( klmse ( lsˆ, (6-.8 k MSE ( Sˆ k k Sˆ jest całkowtą lczeboścą próby, a ( Yj Y j, (6-.9 S ˆ jest waracją zmeej objaśaej wewątrz. (6-.0 Jeśl hpoteza zerowa H0 :... jest prawdzwa spełoe jest założee o ormalośc k rozkładów to statystyka, (6-.7, ma asymptotycze rozkład χ² z (k- stopam swobody, a zbór (, krytyczy określoy jest relacją: P. 67

169 Tabela Zebrae weryfkowaych hpotez oraz testów m odpowadających []. Hpoteza Testy Lczba stop swobody Hpoteza o rówośc wartośc oczekwaych w populacjach H0 :... k H : steje para j, j Test w ANOVA: MSG F MSE G k E k Hpoteza o jedorodośc waracj H H 0 :... k : steje, dla j j Testy: Barlett a, Brow a-forsythe a, Levee go Rozdzał 6--. Testy szczegółowe. Pojęce kotrastu. Metoda Scheffe ego. Jeśl okaże sę, że hpotezę zerową H 0 :... k wyrażającą rówość wszystkch wartośc oczekwaych w populacjach musmy odrzucć, wtedy w poszukwau przyczyy jej odrzucea, sprawdzamy hpotezy szczegółowe dotyczące poszczególych średch w populacjach, p. o astępującej postac: H H 0( 0(34 :, H 0(3 :, ( ( 3 4 :, 3 H H 0(34 0(34 :, (6-. 4 :. 3 Wdzmy węc, że w celu wykryca przyczyy odrzucea cetralej hpotezy (6-.8 w ANOVA, musmy wykoać jedocześe węcej testów częścowych. a Ogóly pozom stotośc metoda LSD (least-sgfcat-dfferece dla welokrotego testu par. Metoda LSD (ajmejszej stotej różcy dotyczy testu welokrotego. Przy testowau wszystkch powyższych hpotez odoszących sę do par średch, przy ogólej lczbe k średch, ależałoby wykoać k g k C k( k / porówań typu j. Ozacza to, że aby wszystke testy te były przeprowadzoe a wspólym (ogólym pozome stotośc, to pojedyczy test dla pary H 0 : powe być, zgode z erówoścą Boferro ego (9., wykoay a pozome stotośc e mejszym ż / g (ale cągle tak, aby ogóly pozom stotośc był rówy. Wadą metody LSD jest to, że testy szczegółowe są wykoywae a zażoym pozome stotośc rówym /g (rówae (9.7 w Rozdzale 9, co ozacza, że jest o dla pojedyczego testu tak mały, że żada z pojedyczych hpotez e będze a ogół j 68

170 odrzucoa (zatem moc pojedyczego testu dla jedej pary jest mała. W zwązku z tym zostało opracowaych klka lepszych procedur, mędzy ym omówoa pożej metoda Scheffé go []. b Metoda Scheffe ego testowaa rówośc par oraz układów wartośc oczekwaych. Szczególym przykładem zastosowaa metody Boferro ego w aalze waracj jest p. metoda Scheffe ego testowaa hpotez odpowedch dla kotrastów [] (lub wyzaczaa przedzałów ufośc dla kotrastów. Metoda Scheffe ego jest zalecaa szczególe w przypadku, gdy zasteje jede z astępujących przypadków:. Lczebośc prób poberaych z różych populacj e są jedakowe.. Zachodzą róweż porówaa e ż proste porówaa pomędzy param wartośc oczekwaych. Wspomae ogólejsze typy porówań azywamy kotrastam. Z pomocą metody Scheffe ego określamy stee jakejkolwek stotej różcy pomędzy układam wartośc oczekwaych a ogólym pozome stotośc α. Pojęce kotrastu. Kotrast jest fukcją lową wartośc oczekwaych z k - populacj, którą moża zapsać w postac: L k k c, (6-. przy czym c 0. (6-.3 Hpotezy zerowe dla kotrastów mają postać: k H 0 : L c 0, (6-.4 są stawae wobec hpotez alteratywych: k c H : 0. (6-.5 Odpowed eobcążoy estymator kotrastu L ma postać: L k ˆ Y. (6-.6 Na przykład gdy w ogólym teśce porówujemy k = 4 wartośc oczekwae to przykładem kotrastu jest astępująca welkość: 3 4 L 34, (

171 Rówoważe są astępujące hpotezy zerowe: H H ( / ( /. ( : L Powyższy kotrast możemy zapsać róweż w postac: 0 : L 3 4, (6-.9 skąd zgode z (6-. wdać, że: c c c3 c4, c c c3 c4 0 Metoda Scheffe ego pozwala wyzaczyć przedzały ufośc do szacowaa wszystkch możlwych kotrastów. W metodze tej prawdopodobeństwo, że przedzały ufośc zawerają jedocześe prawdzwe wartośc wszystkch rozważaych kotrastów wyos - α ( jest to ogóly pozom ufośc. Jedocześe ogóly pozom stotośc jest prawdopodobeństwem błędego odrzucea przyajmej jedej z szczegółowych hpotez zerowych dla kotrastów. Rozpatrzmy hpotezę typową dla jedoczykowej ANOVA: H 0 : μ... μ j... μ k. (6-.30 Hpoteza ta jest rówoważa postaweu jedocześe całej grupy hpotez zerowych dotyczących wszystkch możlwych g kotrastów: H : L... L... L 0. ( j g Jeśl A j jest zdarzeem, że wyzaczoy przedzał ufośc dla j-tego kotrastu L j, pokrywa prawdzwą wartość tego parametru, wtedy lewa stroa erówośc Boferro ego (9.: g g P Aj j P( Aj, (9.' j jest prawdopodobeństwem, że wszystke g - wyzaczoych przedzałów ufośc (j =,,..,g pokrywa jedocześe prawdzwe wartośc odpowadających m L j. Prawa stroa erówośc jest wtedy rówa g j P( A j, gdze każde ze zdarzeń A j ozacza, że kokrety, szczegółowy przedzał ufośc wyzaczoy dla parametru L j e pokrył prawdzwej wartośc tego parametru. Tak węc, jeśl szukay ogóly (wspóly welowymarowy obszar ufośc dla wszystkch parametrów L j, ma być wyzaczoy a ogólym pozome ufośc ( - α, wtedy pojedycza, j-ta hpoteza zerowa : L 0, jest (zakładając rówy podzał H 0 j pozomu stotośc pomędzy testowae hpotezy testowaa a pozome stotośc rówym α/g, zgode z postacą (9.7 erówośc Boferro ego z Rozdzału 9: s wększym lub 70

172 P( Aj s, j,,..., g, (9.7' g a dywdualy j-ty przedzał ufośc jest wyzaczoy a pozome ufośc mejszym lub rówym ż ( α/g []. Ozacza to, że szczegółowe przedzały ufośc ulegają zwężeu (a prawdzwe, szczegółowe zbory krytycze ulegają poszerzeu w porówau z tym, które byłyby wyzaczoe dla błęde przyjętego szczegółowego pozomu stotośc α/g. Przedzał ufośc wyzaczoy metodą Scheffe ego dla każdego kotrastu L jest astępujący (porówaj (6-.3- (6-.4: k c Y S k c MSE (, (6-.3 gdze k L ˆ c Y jest estymatorem eobcążoym estymowaej wartośc parametru L oraz: gdze k S, (6-.33 ( k F k, k,. Uwaga. W powyższej zależośc e ależy mylć statystyk S z odchyleem stadardowym. k Pojedyczą hpotezę zerową H 0 : L c 0, (6-.4, odrzucamy jeśl przedzał ufośc (6-.3 e zawera wartośc 0. Take sformułowae testu statystyczego wyka z dopełaa sę zboru krytyczego w stosuku do obszaru ufośc, co ozacza, że jeśl wartość statystyk testowej e wpada w zbór krytyczy to mus oa wpaść do obszaru ufośc ( a odwrót. Przykład. Gdy dokoujemy porówaa jedye poszczególych par wartośc oczekwaych, wtedy hpotezą zerową jest: H0 : L j 0, ( c, c. (6-.34 Przedzał ufośc (6-.3 przyjmuje dla ogólego pozomu ufośc rówego (-α, postać: ( Y j Y j S MSE(, (6-.35 j a zbór krytyczy dla szczegółowej hpotezy (6-.34 leży a zewątrz przedzału (

173 Rozdzał 6-. Model regresj dla jedoczykowej ANOVA. Wększość procedur dla ANOVA może być wyrażoych w języku aalzy regresj. Np. testy F w ANOVA mogą być tak sformułowae aby dotyczyły parametrów stojących przy tzw. zmeych wskazujących (defcja pożej w odpowedm modelu regresj. Defcja zmeej ukrytej (wskazującej, kerukowej. Zmeą wskazującą może być każda zmea w rówau regresj, która może przyjmować skończoą lczbę wartośc. Nazwa zmea wskazująca berze sę stąd, że wartośc tej zmeej e pojawają sę a skutek pomaru, ale odpowadają różym kategorom (p. różym badaym populacjom, którym jesteśmy zateresowa w przeprowadzaym badau. Np. pewa zmea wskazująca przyjmuje wartość jeśl przedmot badaa jest płc żeńskej (populacja kobet lub przyjmuje wartość, gdy przedmot badaa jest płc męskej (populacja mężczyz. Iy przykład zmeej wskazującej zostae poday pożej. Rozważmy astępujący model regresj: Y k X E, (6-.36 w którym zmee X są tzw. zmeym ukrytym (wskazującym, kerukowym, określoym astępująco: X 0 dla populacj tej dla populacj k tej w pozostalych przypadkach,,..., k. (6-.37 Parametry powyższego modelu regresj są tak zdefowae, aby warukowe wartośc oczekwae E( Y X, X,..., X,..., X zmeej Y wyzaczoe w tym modelu mały astępującą postać: Y X, X,..., X,..., X k k Y 0,0,..., X,...,0 Y,,...,,...,, (... dla,,..., k k, k. (6-.38 dla k Zatem, odpowede warukowe wartośc oczekwae w modelu regresj są rówe wartoścom oczekwaym w populacjach kolejo od -szej do k-tej. Wadomo, że średa warukowa emprycza Y jest oszacowaem atomast średa warukowa teoretycza w modelu regresj Y 0, 0,...,,..., 0 bądź Y,,...,,..., X. Ŷ jest oszacowaem odpowedej warukowej wartośc oczekwaej Poeważ róweż dla próby, w modelu regresj ze zmeym ukrytym skostruowaego dla ANOVA: k Y ˆ ˆ X Eˆ, (

174 średe warukowe teoretycze Ŷ modelu regresj są (z założea rówe średm warukowym empryczym Y, zatem suma kwadratów odchyłek zwązaa ze zmeoścą zmeej objaśaej, która jest wyjaśoa modelem regresj (Reg ze zmeym ukrytym, jest rówa: MSReg (dla modelu ze zmeym ukrytym MSG(w ANOVA, (6-.40a atomast suma kwadratów odchyłek dla zmeośc zmeej objaśaej ewyjaśoej regresją zwązaa z losowym błędem, jest rówa: MSE ( dla modelu ze zmeym ukrytym MSE(w ANOVA. (6-.40b Parametry modelu (6-.37 moża wyrazć w języku wartośc oczekwaych rozważaej lczby k populacj w astępujący sposób (pokazać:,,..., k dla... def k * (6-.4a k * * * (6-.4b. * k k skąd: k k * (... k (6-.4c Z (6-.4 etrudo zauważyć, że hpotezę zerową w ANOVA H 0 :... k moża (gdy wyrazć przez zapsać astępująco: H0 :... k 0, (6-.4 czyl jako hpotezę zerową dla modelu regresj (6-.37-(6-.38 z k parametram, tz. k- współczykam kerukowym oraz jedym parametrem przesuęca (oczywśce przy H 0 zachodz róweż α k =0. Ze względu a (6-.40-(6-.4, wdać, że statystyka testowa F dla hpotezy H0 :... k 0 modelu regresj (6-.37 jest taka sama jak statystyka H0 :... k, tz.: F MSG / MSE, (6-.0, w ANOVA dla MSReg MSG F (modelu regresj (6-.37 F. (6-.43 MSE MSE To z kole, ze względu a k- współczyków kerukowych, pozwala zrozumeć dlaczego występująca w lczku F statystyka SSG ma k- stop swobody. 73

175 Zwróćmy uwagę, że * jest średą eważoą jak to wyka z powyższego określea średej (wykającego z przyjęca zmeych ukrytych jak w (6-.38, jest oa rówa ogólej wartośc oczekwaej w populacj E(Y tylko wtedy, gdy populacje są rówolcze. Zatem, gdy populacje e są rówolcze, a kodowae (6-.38 małoby być utrzymae, wtedy estymatorem Y * Y Y... Y k k * jest średa eważoa:. (6-.44 * Podoba argumetacja, która dla modelu regresj (6-.36 doprowadzła do zwązku, (6-.4a, dla parametru przesuęca, doprowadzłaby dla modelu regresj w próbe (6-.39 do astępującej postac estymatora przesuęca: ˆ Y Y... Y k k * Y. (6-.45 Zatem, ˆ jest rówe średej ogólej Y w próbe tylko dla rówolczych waratów czyka G. Moża sprawdzć, że zmeając kodowae zmeych ukrytych z (6-.37 a astępujące: * X k 0 dla populacj dla populacj w pozostalych tej k tej przypadkach,,,..., k. (6-.46 spowodowałoby, że średe X byłyby rówe zero: X k s s X s ( k k 0, gdze X s jest wartoścą zmeej otrzymalbyśmy, że. Istote: X w próbe dla s-tego pozomu czyka. W takej sytuacj k E( Y E( Ys k X s oraz podobe (pokazać: s k k X s s s k s s k k s s X s (6-.47 ˆ Y. (

176 Rozdzał 6-3. Przykład hpermarket ABC dla jedoczykowej ANOVA. Welk hpermarket ABC przeprowadzł przegląd średch tygodowych wydatków kletów pośród 54 losowo wybraych meszkańców welkej metropol. Klec byl przyporządkowa do astępujących grup: lojal wobec supermarketu (L, ow dla tego marketu (N, odstępujący od ego (D, lojal wobec kokurecyjych supermarketów (NL oraz tych, którzy e ależel do żadej z powyższych grup (U. Zweryfkujmy hpotezę o ezależośc tygodowych zarobków od grupy kleckej. Dae źródłowe. Pożej podao dae dla badaego przykładu. Zostały oe wygeerowae z wykorzystaem SAS w astępujący sposób. Wyberamy z paska MENU formuły: Data Radom Varates Norma (zaczyając od ajmejszej lczebośc daej populacj wpsujemy le wartośc ma wygeerować SAS, określamy azwę daej populacj oraz parametry: średa (mea, odchylee stadardowe (SD Aby wygeerować astępe wartośc musmy dołożyć odpowedą lość potrzebych komórek przez polecee: Edt Mode Edt, po czym klkając prawym klawszem myszk a ostatą komórkę tabel, klkamy Add lub Duplcate, aż otrzymamy pożądaą lość komórek. 3 Jeśl mamy już właścwą lość komórek, postępujemy poowe jak w. 4 Po wykoau powyższych czyośc otrzymamy tabelę daych, którą scalamy (ujedolcamy dzęk astępującym poleceom: Data Stack Colums zazaczamy dae kolumy wprowadzamy pod Stack Ok. Zapsujemy scaloe dae w wybraej bblotece poprzez: Fle Save as By Sas Name. Następe musmy scaloe dae otworzyć w oke aalzy: Fle Ope By Sas Name Save wyberamy bblotekę, w której zostały zapsae scaloe dae Ok. Tabela daych źródłowych została zameszczoa a końcu Rozdzału 6-3. Wstępa aalza zborowośc kleckch hpermarketu ABC z wykorzystaem charakterystyk opsowych oraz wykresów. Aby otrzymać raport z aalzy przeprowadzoej w SAS dotyczący charakterystyk opsowych wykoujemy astępujące krok. Po uruchomeu SAS, ależy ajperw utworzyć projekt astępująco: a Z paska MENU wyberamy Solutos Aalyss Aalyst. b Po wczytau zboru daych (Fle Ope By SAS Name wykoujemy wstępe aalzę w celu otrzymaa charakterystyk opsowych, odwołując sę do poleceń: Statstcs Descrptve Summary Statstcs. 75

177 Otrzymay raport SAS a dla wstępej aalzy charakterystyk opsowych ma postać: Przykład_hpermarket ABC 4:40 Suday, May 6, 004 The ANOVA Procedure Level of WYDATKI (_Stack_ _Source_ N Mea Std Dev D L N NL U Wyk powyższego raportu dla przecętych tygodowych wydatków kletów są zebrae w poższej tabel. Dae te wykorzystamy w późejszej aalze. Tabela Dae wykorzystae do oblczeń. L N 3 D 4 NL 5 U Typ kleta (grupa k=5 Suma Lczebość = 84 = 5 = = 73 = 33 5 Suma obserwacj Y Średa z próby ($ Y Y / Y = 6456,4 Y Y / Y = 553,87 Y = 5,85 3 Y 4 = 5757,9 Y = 908,0 5 k Y = 54 = 458,63 ( j = 76,86 Y Y / = 6,6 Y 3 Y / = 83,44 3 Y 4 Y / = 9,08 4 Y 5 Y / = 8,0 5 Y Y / = 83, odchylee stadardowe (SD w grupe 3,77 0,6 9,55 4,76 3,7 Uwaga. Wartośc obserwacj Y umeszczoe są a końcu Rozdzału 6-3 w Tabel We wstępym omóweu sytuacj w pobraej próbce (składającej sę z pęcu (podpróbek grup kleckch L, N, D, NL, U odbtej w przedstawoym powyższym raporce, odwołamy sę do wykresów wygeerowaych w pakece Aalyst (wśród poleceń właścwych dla oe-way ANOVA; polecea te podamy dalej. Wykresy ch omówee. Wykres ( pudełkowy z wąsam (Box-&-whsker plot, a którym pokazao zależość średch tygodowych (śr.tyg. wydatków w hpermarkece ABC od typu kleta (Source Idcator. Na każdym z wykresów pudełkowych przedstawoo wartośc: kwartyl I dół pudełka - (5% śr.tyg. wydatków zajduje sę pożej perwszego kwartyla tz. 5% osób ma śr.tyg. wydatk pożej tej wartośc zmeej; kwartyl III góra pudełka (75% śr.tyg. wydatków zajduje sę pożej tej wartośc zmeej; medaa pozoma kreska wewątrz pudełka - (50% śr.tyg. wydatków ma wartość medae lub medae; dodatkowo + ozacza średą arytmetyczą dla daej zborowośc typu kleta. Z wykresu moża także odczytać wartośc maksymale mmale wśród obserwacj (zazaczoe przez końce wąsów lub skraje pukty (kwadraty, czyl take, które zacze odstają od typowego obszaru zmeośc śr.tyg. wydatków w badaej zborowośc. 76

178 Wykres ( przedstawający rozrzut wartośc reszt wokół wartośc średej, w każdej z pęcu (podpróbek v.s. wartość średch wydatków (a os odcętych (Resdual plot of predcted Y. Z powyższych wykresów ( ( moża woskować, że e ma zasadczych różc w rozproszeu wydatków w ramach każdej z (podpróbek. Moża by meć jedak pewe zastrzeżea co do tego 77

179 spostrzeżea, które jak sę okazuje mają róweż swoje odzwercedlee w ejedozaczośc pożej przeprowadzoego testu Bartlett a. Jedak aalza oparta o testy Levee go Brow a Forsythe a potwerdz optyczą aalzę powyższego wykresu rozkładu reszt, prowadząc ostatecze do przyjęca wosku o braku podstaw do odrzucea hpotezy o jedorodośc rozkładu reszt. 3 Wykres (3 (Meas plot zależośc średch tygodowych wydatków od typu kleta (Source Idcator. Na wykrese zazaczoo empryczą lę regresj (krzywa łamaa łącząca pukty (,, =,,,5 oraz odchylea stadardowe w 5 cu pobraych (podpróbkach dla 5 cu typów kletów L, N, D, NL, U. Y Przyglądając sę wykresow (3, ale dwóm poprzedm, moża wycągąć wosek, że różce w średch tygodowych wydatkach dla pęcu (podpróbek pobraych z pęcu badaych populacj kletów są stote statystycze. Potwerdz to pożej przeprowadzoa aalza ANOVA. Taka aalza a oko pozwala stwerdzć, że główym źródłem erówośc wartośc oczekwaej wydatków jest populacja kletów owych (N dla hpermarketu ABC oraz (w mejszym stopu populacja kletów lojalych wobec kokurecyjych supermarketów (NL. 78

180 Metoda statystyczej aalzy umeryczej przykładu: a. Zakładamy, że ANOVA jest tworzoa dla porówań wartośc oczekwaych tygodowych wydatków dla różych typów kletów. W rozważaym przykładze stawamy hpotezę zerową o braku stotego wpływu typu kleta a średe tygodowe wydatk a zakupy w hpermarkece ABC: H. ( : (Ideksy =,,,5 odpowadają kolejo grupom kleckm L, N, D, NL, U. b. Poeważ ANOVA zakłada koeczość jedorodośc (homoskedastyczośc waracj w populacjach dla różych typów kletów, węc hpotezę tą weryfkujemy odpowedm testam statystyczym. c. Precyzujemy model ANOVA. Typ kleta jest czykem ustaloym. (O różcy pomędzy czykem ustaloym losowym powemy dalej w Rozdzale 6-4. d. Kostruujemy odpowed test statystyczy tworzymy tablcę ANOVA dla modelu wyzaczoego w pukce c. e. Testujemy czy typ kleta ma stoty wpływ a średe tygodowe wydatk. f. Poprzez użyce metody Scheffe ego określamy jakekolwek zaczące różce pomędzy param średch a pozome stotośc α = 0,05. Model regresj dla rozważaego przykładu. W przykładze k = 5 gdyż mamy 5-typów kletów. Rówae modelu regresj (6-.37 ma postać: Y X X X X E, ( gdze,,, 3, 4 to współczyk modelu regresj ze zmeym kerukowym, które mogą być wyrażoe zgode z (6-.4 poprzez wartośc oczekwae w grupach: 3 4 5, 5,, ( , 4 4 przy czym: * 5 ( Estymatory powyższych parametrów w popraej próbe mają realzacje: Y * Y* Y3* Y4* Y5 ˆ 79,. 5 79

181 ˆ * Y ˆ = 76,86-79, = -,5 ˆ * Y ˆ = 6,6 79, = -6,95 ˆ 3 3* Y ˆ = 83,44 79, = 4,33 ˆ 4 4* Y ˆ = 9,08 79, =,97 Lczba stop swobody modelu regresj ze zmeym kerukowym wyos k 5 4 jest oa zwązaa z wyzaczoym z próby czterema oszacowaam parametrów,, 3, 4 tego modelu. G Omówee kolejych kroków aalzy przykładu w programe SAS Aby otrzymać raport z aalzy przeprowadzoej w SAS, trzeba zastosować szereg astępujących kroków: Po uruchomeu SAS, ależy ajperw utworzyć projekt astępująco: Z paska MENU wyberamy Solutos Aalyss Aalyst. Po wczytau zboru daych (Fle Ope By SAS Name (co wykoalśmy już poprzedo, przy okazj otrzymaa wcześejszego raportu dla charakterystyk opsowych. Przechodzmy do jedoczykowej aalzy waracj ANOVA: Statstcs Aova Oe Way Aova. a typ kleta określamy jako zmeą objaśającą (Idepedet - ezależą (u as: _Source_, zaś obserwowae wartośc jako zmeą objaśaą (Depedet - zależą (u as: WYDATKI. b wyberamy testy, które SAS wykoa w celu weryfkacj odpowedch hpotezy o rówośc waracj: Test zazaczamy wybrae testy (Barlett s, Brow Forsythe, Levee s Ok. c wybór metody Scheffe a: Meas Comparsos Comparso Metod Scheffe s multple comparso procedure Sgfcace level (wyberamy pozom stotośc, p. 0,05 zazaczamy zmeą objaśającą (Ma effects (u as: _Source_ Add Ok. d wyberamy odpowede wykresy zazaczając w Plots: Box-&-whsker plot, Meas plot, Resdual plot of predcted Y. e określamy azwę aszego projektu: Ttles Global wpsujemy azwę (p. Przyklad_hpermarket ABC, oe-way ANOVA Ttles Oe Way Aova wpsujemy azwę (jak w Global Ok. f po wykoau czyośc (a-(e zatwerdzamy Ok otrzymujemy raport w SAS z daej aalzy. Poeważ ANOVA zakłada koeczość jedorodośc waracj, zatem wśród powyższych kroków (krok b w raporce SAS a zalazły sę testy dla hpotezy: 0 : H. (

182 Tylko brak podstaw do odrzucea tej hpotezy adaje ses (Rozdzał 6-- wykoau testu hpotezy H 0 o rówośc wartośc oczekwaych, przeprowadzoego po dokoau weryfkacj hpotezy H 0, dla której odpowede raporty SAS a (z dodaym kometarzam mają postać: Przykład_hpermarket ABC 4:40 Suday, May 6, 004 The ANOVA Procedure Levee's Test for Homogeety of WYDATKI(_Stack_ Varace ANOVA of Squared Devatos from Group Meas Sum of Mea Source DF Squares Square F Value Pr > F _Source_ Error Wg testu Levee go, dla < p (= 0,87 e ma podstaw do odrzucea hpotezy H 0 : Brow ad Forsythe's Test for Homogeety of WYDATKI(_Stack_ Varace ANOVA of Absolute Devatos from Group Medas Sum of Mea Source DF Squares Square F Value Pr > F _Source_ Error Wg testu Brow a Forsythe a, dla α < p (= 0,470, e ma podstaw do odrzucea hpotezy H 0 : Bartlett's Test for Homogeety of WYDATKI(_Stack_ Varace Source DF Ch-Square Pr > ChSq _Source_ Wdać, że wg testu Barlett a empryczy pozom stotośc p = 0,043, zatem dla p (p. dla α = 0,05 ależałoby odrzucć hpotezę zerową H 0 : 3 4 5, atomast dla p (p. dla α = 0,0 e ma podstaw do odrzucea hpotezy zerowej H 0. Wartość p = 0,043 (która leży pomędzy 0,0 a 0,05 e pozwalałaby węc w oparcu o test Barlett a, a podjęce jedozaczej decyzj. Wyk testów Levee go Brow a Forsythe a skłaają as do podjęca astępującej decyzj statystyczej: obserwując otrzymae wartośc empryczych pozomów stotośc p dla zastosowaych testów hpotezy o jedorodośc waracj woskujemy, że różca waracj e jest stota statystycze (z wyjątkem pewej statystyczej stotośc w teśce Barlett a. Tak węc, ze względu a wyk testów Levee go Brow a Forsythe a decydujemy sę a eodrzucee hpotezy 0 H : o jedorodośc waracj w badaych 5 cu populacjach typów kletów. Ozacza to, że waracje moża uzać za rówe, co pozwala 8

183 a przejśce do procedur ANOVA dotyczących porówaa wartośc oczekwaych (dla tygodowych wydatków w omawaym przykładze. Uzupełee. Zlustrujmy test Bartlett a dla jedorodośc waracj, oblczając z wzoru (6-.7 w programe Excel statystykę dla tego testu. Statystyka testowa ma postać [9]: M, c gdze: M k 5 ( kl MSE ( l S, k5 c [ ] 3( k ( k Statystyka ma przy prawdzwośc hpotezy o jedorodośc waracj rozkład ch-kwadrat z lczbą stop swobody rówą k-=4. H 0 : Wyzaczmy lczk maowk statystyk mają przyjmują w próbce kolejo wartośc: 3 4 5, M 537*l( , [ 83*l( 8957, 5*l( 7, 6*l( *l( 7, 79 3*l( 879, ] 537*l( , [ 4353, 340, 733, 9597, 476, ] 0, 03, c 3* 4 skąd: , 03 9, 9486, 0084 *[ 0, 030 0, 0086], , Wartość krytycza dla α = 0,05 wyos 9, 4877, zaś dla α = 0,0 wyos 3, 767. Zatem,, k, k, ( obs, k wartość statystyk otrzymaa z obserwacj wpada a pozome stotośc α = obs 0,05 do przedzału krytyczego <9,9486; +, co ozacza, że wykem testu byłoby wtedy odrzucee hpotezy zerowej o jedorodośc waracj. Jeśl jedak pozom stotośc α = 0,0, wtedy e mamy podstaw do odrzucea hpotezy zerowej o jedorodośc waracj. Dlatego podae w raporce SAS a wyk dwóch ych testów dotyczących jedorodośc waracj są pomoce w podjęcu decyzj. Wyk tych testów (dla Levee go p = 0,87 dla Brow a Forsythe a, p = 0,470 są bardzej jedozacze wskazują a brak podstaw do odrzucea hpotezy zerowej H 0. Taką też podjęlśmy decyzję, która ozacza brak podstaw o odrzuceu hpotezy o jedorodość waracj tygodowych wydatków w pęcu badaych populacjach. Umożlwa to zastosowae aalzy waracj dla wartośc oczekwaych. 8

184 Zatem, pożej umeszczoy jest raport SAS a dotyczący weryfkacj hpotezy zerowej: H : zakupy w hpermarkece ABC. o braku stotego wpływu typu kleta a średe tygodowe wydatk a Raport SAS dla omawaego przykładu (aalza ANOVA; do raportu dodao kometarz: Przykład_hpermarket ABC 4:40 Suday, May 6, 004 The ANOVA Procedure Class Level Iformato Class Levels Values _Source_ 5 D L N NL U Number of observatos 65 NOTE: Due to mssg values, oly 54 observatos ca be used ths aalyss. Przykład_hpermarket ABC 4:40 Suday, May 6, 004 The ANOVA Procedure Depedet Varable: WYDATKI(_Stack_ Stacked Values H - Weryfkujemy hpotezę zerową 0 : Sum of Source DF(st.swobody Squares Mea Square F Value Pr > F Model (k = (MSG <.000 Error ( * -k= (MSE Corrected Total ( * -= R-Square Coeff Var Root MSE WYDATKI(_Stack_ Mea (sła zwązku lowego słaby Source DF Aova SS Mea Square F Value Pr > F _Source_ <.000 Z raportu wdać, że a każdym pozome stotośc p (< 0,000, wartość F w próbe wpada do przedzału krytyczego, co pozwala a podjęce a tym pozome stotośc decyzj o odrzuceu hpotezy zerowej a korzyść alteratywej, tz. hpotezy H mówącej o tym, że: typ kleta ma wpływ a lość wydawaych peędzy w powyższym hpermarkece. Ozacza to, że w pobraej próbce, różca pomędzy przyajmej jedą z par średch Y, Y, Y 3, Y 4, Y 5 jest stote statystycze róża od zera. Uzupełee. Pożej przeprowadzoo uzupełające rachuk, które są lustracją zastosowaych metod oraz wyjaśeem raportu SAS a. Dae wykorzystae do poższych oblczeń zajdują sę w Tabel Rachuk wyjaśają pożej zameszczoą postać tablcy ANOVA (Tabela Korzystając z (6-., (6-.6, (6-.7 oraz (6-. (6-. wyzaczamy (przy 54, k =5: 83

185 k5 k5 SSG ( Y Y ( Y / Y / 5557,, [( 64564, / 84] [( 55387, SSG MSG 638,43, k / 5] [( 585, / 7] [( 57579, / 73] [( 9080, / 33] [( 45863, / 54] SSE k5 k5 ( Y Y Y ( Y j j j j k5 / ( 64564, , 99855, , , 60650, 84 ( 55387, 5 ( 585, 7 ( 57579, 73 ( 9080, ,, SSE MSE k ( , , , 54 5 Statystyka F, (6-.0, przyjmuje w próbce wartość: MSG 63843, F 33, 64, MSE , skąd, korzystając z rozkładu F-Sedecora z lczbą stop swobody lczka G k 4 oraz maowka k 537, otrzymujemy w Excel u empryczy pozom stotośc: E -5 p P( F F 33, 64 4, , 000, obs co ozacza, że wartość F 33, 64 jest (wysoce stota statystycze dlatego hpoteza o rówośc wartośc obs oczekwaych wydatków w rozważaych grupach kleckch została odrzucoa (a każdym pozome stotośc α p. Np. dla α=0,05 wartość krytycza statystyk F wyos F kr =,38853, stąd zbór krytyczy jest rówy, 38853, F 3364,, 38853,. Ta wartość krytycza F kr testu ogólego została róweż obs podaa a początku pożej podaego raportu SAS a, przy okazj aalzy Scheffe ego dla kotrastów. Dodatkowo w celu utworzea pełej tablcy ANOVA wyzaczmy całkowtą sumę kwadratów odchyłek zmeej objaśaej wydatków (w połączoych populacjach: TSS SSG SSE 555, , 73939,. Tablca ANOVA zameszczoa we wcześejszym raporce SAS a ma węc postać: Tabela Tablca ANOVA dla jedoczykowej aalzy waracj (w przykładze hpermarket ABC. Źródła df (stope SS MS F p=pr>f zmeośc Y swobody Zróżcowae G k 4 SSG=555,7 MSG=638,43 MSG <0,000 mędzygrupowe F =33,64 MSE Zróżcowae E k 537 SSE=0867,57 MSE=89,6975 wewątrzgrupowe Ogółem G 54 TSS=7393,9 E 84

186 Ze względu a odrzucee hpotezy o rówośc wartośc oczekwaych wydatków wśród k = 5 cu grup typów kletów, moża zastaowć sę ad przyczyą zastałej sytuacj poddać testow hpotezy zerowe o steu par rówych wartośc oczekwaych wydatków (lub ch kombacj. Służy do tego celu p. omówoy powyżej test Scheffe ego. Pożej podao odpowed raport SAS a dla rozważaego przykładu. Hpoteza zerowa dla kotrastów, (6-.4, ma postać: H k 5 0 : L c 0. ( Przykład_hpermarket ABC 4:40 Suday, May 6, 004 The ANOVA Procedure Scheffe's Test for WYDATKI NOTE: Ths test cotrols the Type I expermetwse error rate, but t geerally has a hgher Type II error rate tha Tukey's for all parwse comparsos. α = Alpha 0.05 *-k = Error Degrees of Freedom 537 MSE = Error Mea Square F kr = Crtcal Value of F Powyższa wartośc F kr F k, k,,38853 jest wartoścą krytyczą dla ogólego testu o rówośc wartośc oczekwaych (wyzaczylśmy ją róweż powyżej w Excel u. Występuje oa róweż jako czyk w statystyce S ( k F k, k,, (6-.34, wchodzącej w określee przedzału ufośc k c Y S k c MSE (, (6-.3, dla kotrastu L. Przypomjmy, że deksy =,,3,4,5 odpowadają kolejo grupom kleckm L, N, D, NL, U. Comparsos sgfcat at the 0.05 level are dcated by ***. Dfferece _Source_ Betwee Smultaeous 95% Comparso Meas Cofdece Lmts NL - D NL - U *** NL - L *** NL - N *** D - NL D - U D - L D - N *** U - NL *** U - D U - L U - N *** L - NL *** L - D L - U L - N *** N - NL *** N - D *** N - U *** N - L *** *** - ozacza, że średe różą sę stote statystycze, co wdać, gdyż odpowede przedzały ufośc dla kotrastów e obejmują wartośc zero. 85

187 Wosek. Zatem stote statystycze różce pomędzy średm ozaczoe przez *** były przyczyą odrzucea początkowej, ogólej hpotezy zerowej H : mówącej o braku stotego wpływu typu kleta a średe tygodowe wydatk a zakupy w hpermarkece ABC. Uzupełee. Zlustrujmy wyk metody Scheffé go dla hpotez szczegółowych dla kotrastów (zawarte w przypadku porówań podwójych w powyższym raporce, klkoma krokam rachuków wykoaym ręcze stosując wzór (6-.35: ( Y Y j S MSE(, gdze S ( k F k, k,, ( j a przedzał ufośc dla kotrastu, gdze odpowede welkośc zaczerpemy z raportów SAS a lub z Tabel Rozpatrzmy tylko ektóre z hpotez zerowych, p.: H, ( : ; H0 : 3; H03 : 3 4; H04 : 4 5 które w języku kotrastów mają postać: H 0 : L 0; H0 : L( 3 3 0; H03 : L( ; H04 : L( ( 0 ( Hpotezę szczegółową dla układu wartośc oczekwaych odrzucamy, gdy wartość odpowedego kotrastu L postawoa w hpoteze zerowej e wpada do przedzału ufośc (6-3.54, tz. gdy wpada do dopełającego go zboru krytyczego wyzaczoego dla pozomu stotośc. Przedzały ufośc dla poszczególych par wartośc są zgode z ( astępujące: dla L : 4, , 699 ( 5, 008; 4, 406 ( dla L :, 84, 865 ( 33, 00; 9, 468 ( 3 3 dla L : 7, , 809 ( 6, 453;, 66 ( dla L : 9, , 756 ( 4, 80; 3, 346 ( ***. *** - ozacza przedzał ufośc, który e obejmuje zera, co ozacza, że odpowadająca mu wartośc estymatora kotrastu w próbce jest statystycze stote róża od zera. Zatem odpoweda hpoteza zerowa o tym, że baday kotrast w populacj jest rówy zero, zostaje odrzucoa. (Ideksy =,,,5 odpowadają kolejo grupom kleckm L, N, D, NL, U. Powyższe rachuk pokrywają sę z wykam otrzymaym poprzedo w raporce SAS a dla porówań par średch. 86

188 Rozważmy jeszcze kotrast porówujący grupę populacj,3,5 z populacją 4. Odpoweda hpoteza zerowa ma postać: lub 3 5 H 05 : 4 ( H 05 : L ( ( W przypadku kotrastu L ( 354 skorzystamy z ogólejszej postac przedzału ufośc (6-.3: k5 k5c c Y S MSE(, ( gdze perwszy składk w ( jest estymatorem kotrastu L ( 354 : L k 5 ( 35 4 ˆ c Y, gdze ( c 3, c3 c5 c 4, c 5 0, ( a realzacją przedzału ufośc ( w próbce jest: 3 5 dla L ( przedzał -8,65 4,604 ( 3, 9; 4, 0. 3 Wyk testu dla hpotezy H 05 jest stoty statystycze, co ozacza, że woskujemy o tym, że wartość oczekwaa 4 tygodowych wydatków kletów populacj NL, róż sę od średej z wartośc oczekwaych tygodowych wydatków kletów populacj L, D U. Wosek. Na podstawe szczegółowych porówań param, za rówe moża uzać wartośc oczekwae (średe tygodowe wydatk wśród kletów populacj: L U, astępe L D, astępe U D, oraz D NL. Średe tygodowe wydatk wśród kletów populacj N (ow klec zasadczo odbegają od pozostałych grup, co potwerdzło aszą wcześejszą aalzę a oko opartą o wykresy (-(3. W marę jedoroda okazała sę grupa kletów pochodząca z populacj L, U D (tworzą oe jedą grupę Scheffe ego, co ozacza, że te trzy populacje moża by uzać za jedą. Populacja NL odchodz eco bardzej od tej trójk. Tabela Dae źródłowe (obserwacje Y j dla przykładu hpermarket ABC. L N D NL U

189

190

191

192 Rozdzał 6-4. Typy czyków; czyk ustaloy losowy cz.i. Isteją dwa typy czyków: czyk ustaloy losowy. Czyk ustaloy, to tak, którego pozomy są jedyym spośród rozważaych wartość pozomu jest zaa przed dokoaem pomaru a jedostce, p. w powyższym przykładze, wylosowaa osoba pochodz z góry ustaloej grupy kleckej supermarketu ABC. Natomast, czyk losowy jest czykem, którego pozomy mogą być uważae jako próbka z pewej obszerej rodzy (populacj pozomów. Rozróżee tych czyków jest waże w ANOVA, poeważ róże testy stotośc są wymagae dla różych kofguracj losowych ustaloych czyków. Problem te będze bardzej wdoczy w dwuczykowej aalze waracj. Do sprawy powrócmy w Rozdzale 7-3. Czyk ustaloy. Ogóla zmeość zmeej objaśaej jest opsaa rówaem (6-.: TSS = SSG + SSE, (6-4.6 gdze k SSG ( Y Y, (6-., oraz SSE ( Y Y, (6-.6. k j j Waracja mędzygrupowa ma postać (6-.: k ( ˆ MSG SSG Y Y S ( Y k k, (6-4.6 atomast MSE, (6-., jest średą waracją wewątrzgrupową MSE Sˆ ( Y. Istote: k MSE SSE ( Yj Y k k j k Sˆ ( Y( Sˆ ( Y, k gdze: k [ ( Y k j j Y ] ( ( ˆ k ( Y ( Yj Y ( S jest waracją wewątrzgrupową w tej grupe. Maowk w SSG MSG oraz k SSE MSE są stopam swobody (df dla sum, kolejo SSG oraz SSE. k Zatem poeważ lczba stop swobody po lewej prawej stroe rówaa (6-4.6 mus być rówa, zatem odpowede rówae dla stop swobody (df ma postać: G E ( gdze: df TSS, df k oraz df k ( SGG G SSE E 9

193 Rozważmy hpotezę zerową postac H 0 :... k, (6-.8, którą weryfkujemy za pomocą testu MSG F, (6-.0, gdze przy prawdzwośc H 0 statystyka F ma rozkład F Sedecora MSE Z powyższych rozważań wyka, że: Fk ; k. k ˆ ( Y Y MSG S ( Y k F, ( MSE Sˆ ( Y Sˆ ( Y to zaczy, że statystyka F jest lorazem waracj mędzygrupowej średej waracj wewątrzgrupowej. Jeśl k populacj ma być jedorodych pod względem wartośc oczekwaych waracj, to steje koeczość przeprowadzea p. testu Levee go, Brow a Forsythe a lub Bartlett a przed przystąpeem do ANOVA dla wartośc oczekwaych. Waracja wewątrzgrupowa Sˆ ( Y w tej grupe, jest estymatorem waracj składka losowego w tej populacj, z której pobrao elemety do tej (podpróbk. Estymatory ˆ S ( Y, (6-4.64, są eobcążoym estymatoram, tz.: E ˆ ( S ( Y. ( Zatem jeśl E( Sˆ ( Y, dla każdej tej grupy pobraej z tej populacj, czyl gdy prawdzwa jest E hpoteza o jedorodośc waracj w -tych populacjach, wtedy średa ważoa ˆ S ( Y jest róweż estymatorem eobcążoym waracj E (pokazać: ˆ ( Y MSE S estymatorów MSE E E( MSE. ( Wosek. Zatem MSE jest eobcążoym estymatorem waracj E składka losowego, tz. MSE E E( MSE, tylko wtedy, gdy H 0... k : jest prawdzwa. ( Estymatoram wartośc oczekwaych są Y. Natomast estymatorem wartośc oczekwaej ogólej (czyl w populacj geeralej powstałej z połączea wszystkch tych populacj jest średa arytmetycza ogóla Y. Moża pokazać, że dla czyka ustaloego zachodz []: gdze: MSG k E ( MSG E (, (6-4.7 k k, k Wosek. Zatem MSG jest eobcążoym estymatorem waracj MSE E. (6-4.7 E składka losowego, tz. E( MSG, tylko wtedy, gdy prawdzwa jest hpoteza H 0 :... k. Ze względu a model regresj dla ANOVA (Rozdzał 6- ozacza to, że wartośc oczekwae w - tych populacjach, czyl 9

194 warukowe wartośc oczekwae zmeej objaśaej ze względu a pozom czyka (deks populacj, są przy prawdzwośc H 0 take same. Gdyby H E statystyka ( ( k 0 :... k e była prawdzwa, wtedy MSG E MSG E k MSG F, (6-4.7, która jest przyblżeem lorazu: MSE MSG MSE małaby ze względu a k E ( k, ( MSG E tedecje do przyjmowaa wartośc stote statystycze wększych MSE MSG od. Natomast, gdy H 0 jest prawdzwa, wtedy statystyka F jako loraz dwóch eobcążoych MSE estymatorów waracj E przyjmuje a ogół wartośc blske. (Zwróćmy uwagę, że przy prawdzwośc MSG H 0, loraz wtedy, gdy MSE MSG MSE E. Czyk losowy. Model ANOVA dla ustaloego czyka moża przedstawć w języku aalzy regresj ze zmeym ukrytym jako (Rozdzał 6-, (6-.37: Y k X E, gdze X 0 dla dla w populacj populacj pozostalych tej k tej przypadkach,,..., k. Pomędzy współczykam regresj,,..., k- wartoścam oczekwaym ( =,,..., k w populacjach zachodzą zwązk (6-.4: gdze jest rówy * * *,,...,,..., k * k (... k / k jest eważoą średą wartośc oczekwaych, a parametr przesuęca *, oraz spełoy jest waruek współczyk,,..., k-, k spełają zawsze waruek: k k * (... k. Zatem wdać, że k 0. ( Borąc powyższe pod uwagę wdać, że dla ustaloego czyka rówae regresj (6-.37 jest rówoważe astępującemu sformułowau modelu ANOVA w populacj: Y j E, =,,..., k ; j =,,... ( j * 93

195 w próbe: Y j ˆ ˆ Eˆ, =,,..., k ; j =,,...,, ( j gdze Y j jest j tą obserwacją w tej populacj, E j jest składkem losowym (błędem, Ê j jest resztą zwązaą z j tą obserwacją w próbce pobraej z tej populacj gdze jest lczeboścą tej próbk pobraej z tej populacj. Przechodząc do czyka losowego, rówae ( ależy zastąpć rówaem: Y a rówae (6-4.76, rówaem: Y gdze w ( zmee j j A E, =,,... ; j =,,... ( j ˆ A Eˆ, =,,..., k ; j =,,...,, ( j A, =,,..., tworzą rodzę zmeych losowych, a w ( zmee A, =,,..., k, tworzą losową próbę tych zmeych pobraą z tej rodzy. Każda ze zmeych A, =,,... dla całej rodzy możlwych pozomów (które to pozomy w przykładze hpermarket ABC staową całą rodz możlwych do pomyślea typów kletów reprezetuje, przez aalogę do występującego w ( ustaloego, (6-.4, różcę typu: gdze zmea losowa ustaloego. A M, ( M pojawła sę w mejsce ustaloej wartośc występującej dla czyka Aby wykoać odpowedą aalzę ależy przyjąć jakąś postać rozkładu dla zmeej A. Ogólej, zakłada sę, że każda ze zmeych A ma tak sam rozkład. Dodatkowo przyjmujemy, że wszystke A mają stadaryzoway rozkład ormaly ze średą rówą zero (a wzór rówośc 0, (6-.4, dla H 0 : A : N( 0, A, dla każdego =,,..., (6-4.0 gdze A jest waracją zmeej A (taką samą dla każdego oraz, że zmee A są ezależe od E j oraz awzajem ezależe pomędzy sobą. Waruek, aby pojedycza zmea losowa A mała średą rówą zero k ma podoby charakter jak dla czyka ustaloego waruek 0, (6-4.74, będący średą po zespole parametrów. Zmee losowe M mają rozkład N(, A. 0 E Należy róweż przyjąć, że reszty E j mają rozkład N(,. Przy założeu ezależośc zmeych A E j oraz ormalośc ch rozkładów, zmee Y j, (6-4.77, mają, dla każdego (, j, rozkład N(,, A E przy czym składk A waracj zmeej Yj A Ej jest zwązay ze zmeoścą zmeej A atomast E ze zmeoścą składka losowego E j. 94

196 Uwaga. Dla różych grup, tz. gdy (gdze j oraz j są dowole, zmee Y j oraz Y j są ezależe. Natomast poeważ w kokretej tej grupe ta sama zmea A występuje dla każdej obserwacj Y j, dlatego w tej próbe zmee Y j dla obserwacj j tej Y j dla obserwacj j są ze sobą skorelowae, gdze współczyk korelacj wewątrzgrupowej (który jest oszacowaem współczyka korelacj wewątrzpopulacyjej jest rówy [35]: A A gdze każda zmea Y j ˆ r, dla wszystkch j j' z ustaloym, (6-4. ˆ ˆ E ma warację rówą mędzypopulacyjej (mędzygrupowej. Uwaga. To, że w lczku (6-4. występuje Sˆ ( Y j A E ˆ ˆ, a ˆ A jest oszacowaem waracj ˆ A e jest samo w sobe oczywste wymaga dowodu [35]. Rozważmy hpotezę zerową w przypadku czyka losowego, dla którego wartość oczekwaa zmeej A jest rówa zero (a wzór 0 dla H 0. Poeważ przyjęlśmy, że wpływ pozomów uśreda sę do zera, (6-4.0, zatem jedya możlwa zmeość pomędzy wpływam różych pozomów czyka a warukową wartość oczekwaą zmeej objaśaej Y (warukową gdyż zależy oa od A, mogłaby pochodzć od ezerowej wartośc waracj A zmeej A (czy zmeej zmeośc, to ależy postawć astępującą hpotezę zerową: wobec hpotezy alteratywej: M. Jeśl e ma takej H 0 : A = 0, (6-4. H : A > 0. (6-4.3 Na przykład, gdyby typ kleta w przykładze hpermarket ABC był czykem losowym, to powyższa hpoteza zerowa ozaczałaby brak rozproszea warukowych wartośc oczekwaych wydatków każdej z grup kleckch. Moża pokazać, że dla tak postawoej hpotezy zerowej (6-4., statystyka próbce astępujący stosuek wartośc oczekwaych []: gdze: 0 MSG MSE E E( MSG E( MSE k k / k k 0 E A dla MSG F przyblża w MSE, (6-4.4, (6-4.5 speła rolę średej lczby obserwacj w próbkach pobraych z populacj. Gdy lczba obserwacj w próbkach jest taka sama wyos, =,,...,k, wtedy 0. 95

197 Gdy hpoteza zerowa H 0 : A = 0, (6-4., jest prawdzwa wtedy stosuek rówy. /, (6-4.4, jest Stąd statystyka testowa F dla hpotezy H 0 : A = 0 ma w przypadku aalzy jedoczykowej dla czyka losowego postać: MSG F, (6-4.6 MSE która jest taka sama jak poprzedo dla czyka ustaloego ( Sytuacja taka e ma już mejsca w przypadku aalzy weloczykowej (Rozdzał 7. MSG MSE Poższa tabelka podsumowuje rozważaa odośe hpotez zerowych testów dla czyka ustaloego losowego []. Tabela 6-4. Tablca wartośc oczekwaych statystyk modelu jedoczykowej ANOVA dla czyka ustaloego losowego, hpotez zerowych oraz postać testu F []. Źródła df MS F Wartośc oczekwae średch kwadratów, E(. E ( MSG zmeośc Y Czyk ustaloy Czyk losowy E( MSE Zróżcowae mędzygrupowe G k MSG E( MSG E( MSG k E ( E 0 A k Zróżcowae wewątrzgrupowe E k MSE MSG MSE E ( MSE E E( MSE E Ogółem Hpoteza zerowa a ogół ~ H 0 :... k H 0 : 0 A W powyższych rozważaach, podsumowaych w Tabel 6-4., zwraca uwagę zwązek postac lorazu E( MSG z postacą hpotezy zerowej H 0 w ANOVA oraz jego wpływ tak a postać statystyk testowej F jak E( MSE jej wartość w przypadku prawdzwośc H 0. 96

198 C. Rozdzał 7. Weloczykowa aalza waracj ANOVA (dwuczykowa. Dwuczykowa aalza waracj ANOVA pozwala w jedym eksperymece oceć wpływ (efekt dwóch czyków oraz wpływ oddzaływaa (terakcj mędzy tym czykam a zmeą objaśaą. Tablca daych dwuczykowej aalzy waracj ANOVA charakteryzuje dwa czyk stejące w prowadzoym badau. Perwszy z ch (czyk to czyk rzędowy (R, który posada r pozomów, którym odpowada r werszy tablcy. Drug z ch (czyk to czyk kolumowy (C, który posada c pozomów, którym odpowada c kolum tablcy. Zmea objaśaa (odpowedź Y jest w daej tablcy reprezetowaa przez dywduale obserwacje tej zmeej a wszystkch jedostkach zborowośc statystyczej. Lczebość jedostek, a których dokoao obserwacj wartośc zmeej Y jest w komórce dla tego pozomu czyka R j tego pozomu czyka C rówa jest wyrażoa przez, a końcowa suma dla j tych kolum przez lczba obserwacj w próbe ogólej jest rówa tablca korelacyja dla rozkładu dwuwymarowego zmeych R C. j. Końcowa suma dla tych rzędów. Suma wszystkch obserwacj (czyl j. Poższa tablca (jeszcze bez Y wygląda węc jak zwykła Tabela 7. Rozkład lczebośc w tablcy dwuczykowej aalzy ANOVA []. Czyk kolumowy C Czyk rzędowy R c Suma lczebośc dla werszy c c r r r rc Suma lczebośc dla kolum r c Schematy lczebośc. Sposoby modelowaa daych w dwuczykowej aalze waracj. Główe rozróżee schematów lczebośc (częstośc w komórkach wyka z podzału a schematy zrówoważoe ezrówoważoe. W schemace zrówoważoym mamy jedakową lczebość obserwacj w każdej komórce, podczas gdy w ezrówoważoym tak e jest []. Kolejym podzałem jest podzał a schemat komplety, który charakteryzuje sę przyajmej jedą obserwację w komórce, oraz schemat ekomplety, który ma zero obserwacj w jedej lub wększej lczbe komórek. Wszystke ekomplete schematy są jedocześe ezrówoważoe. Jedakże ektóre ezrówoważoe schematy posadają własość proporcjoalośc częstośc w komórkach, co ułatwa aalzę ANOVA, upodabając ją do aalzy dla rówej lczebośc w komórkach []. Rozważymy astępujące schematy lczebośc modelowaa daych w komórkach: 97

199 . Perwszy z typów modelowaa dotyczy sytuacj, gdy każda komórka posada tylko jedą obserwację, tz. dla wszystkch, j. Sposób te wyraża model losowego doberaa bloków. Blok j-ty obejmuje grupę j jedostek w kolume j-tej jest o jedorody względem pozomu zmeej C atomast różorody ze względu a pozom czyka R. Czyk kolumowy C moża by azywać czykem blokowym.. Drug typ modelowaa występuje, gdy lczba obserwacj w każdej komórce jest jedakowa wększa ż jede. 3. Trzec typ wąże sę już z tym, że w poszczególych komórkach lczba obserwacj jest róża, przy czym moża rozważać p. astępujące schematy dla lczebośc w komórkach: (a W ajprostszym przypadku, komórk w tych samych kolumach mają tą samą lczbę obserwacj, zaś komórk zajdujące sę w tych samych rzędach występują w określoym stałym stosuku, tz. dla ustaloego j =,...,c, zachodz waruek []: j j, gdze... c c, (7. r gdze =,...,r. (b W bardzej złożoym przypadku (obejmującym dla szczególego założea cr przypadek (a, mamy []: j j lub j j j =,...,c; =,...,r. (7. Waruek (7. ozacza założee stea ezależośc stochastyczej pomędzy zmeą R C [9]. (c W ajogólejszym przypadku występuje brak jakegokolwek schematu dla lczebośc w komórkach. Poza Rozdzałem 7-, klka uwag a temat tego schematu zostało zameszczoych w Rozdzale 8. Zateresowaego czytelka odsyłamy do pozycj []. Układy daych o rówej lośc komórek wspomae w pukce rzadko pojawają sę w badaach przypadkowo, lecz często zdarza sę, że są oe tworzoe przez badacza, który mus róweż określć typ czyków ustalć lczbę ch pozomów. Sposób tworzea układu daych zależy oczywśce od rodzaju badaa. Układy daych mogą być tworzoe a trzy sposoby: a Poprzez blokowae, dzęk któremu występuje w każdym bloku zawsze taka sama lczba ewelu obserwacj dla każdego pozomu czyka główego R. b Poprzez układae warstwam zgode z pozomam dwóch rozważaych czyków R C, dopero wtedy poberae próbek z populacj w warstwe a przecęcu ustaloych pozomów obu czyków. c Kształtowae kombacj pozomów czyków (zatem kształtowae komórek dopero wtedy przypsywae tych kombacj każdej wylosowaej jedostce. W kolejych rozdzałach zostaą omówoe powyższe schematy, 3 lczebośc w komórkach. 98

200 Rozdzał 7-. Wstępe rozważaa dwuczykowej ANOVA z dowolą lczeboścą komórek. Przypadek gdy pobrae próbk mają różą lczebość w komórkach pojawa sę w praktyce aalz statystyczych dość często może meć o mejsce w p. wtedy gdy:. Ne wszystke teresujące as zmee zostały sklasyfkowae przed podbraem daych.. Zostały uwzględae owe zmee po tym jak dae zostały już zebrae. 3. Wszystke zmee są osobo sklasyfkowae epraktycze albo awet emożlwe jest, by z góry sprawdzć jak ch róże grupy połączyć, by utworzyć teresujący as zwązek. Przypadek komórk z różą lczeboścą może sę też pojawać w empryczych badaach, wtedy, jeśl model operał sę a podstawowych zmeych, domagających sę rówej lczebośc komórk, atomast a posteror został zaday waruek zwązay z ym zmeym, ż te podstawowe, które as teresują. Poadto, róża lczebość komórk pojawa sę a ogół zawsze wtedy, kedy jest brak daych, który może sę zdarzyć a przykład z powodu zaku zapsu częśc badań. Rozdzał 7--. Tablca daych dla ANOVA. Poższa Tabela przedstawa ogóly układ daych z dowolą lczeboścą komórek dla przypadku dwuczykowej ANOVA z dwoma czykam R C. Nech lczba obserwacj Y jk w komórce w -tym rzędze j-tej kolume jest rówa j, tz. k=,,..., j. Tabela Rozkład daych dla przypadku erówej lczebośc komórek w dwu-czykowej ANOVA. Czyk wersza R Czyk kolumy C c Werszowe średe lczebośc brzegowe Y, Y,... Y welkość próbk = średa komórk = Υ. Y, Y,..., Y welkość próbk = średa komórk =. Υ Y, Y,..., Y welkość próbk = średa komórk = Υ. Y, Y,..., Y welkość próbk = średa komórk =. Υ Y c, Y c,..., Y c c welkość próbk = c średa komórk = Υ c. Y c, Yc,..., Yc c welkość próbk = c średa komórk =. Υ c.., Υ., Υ.. r Kolumowe średe lczebośc brzegowe Y, Y,..., Y r r rr welkość próbk = r średa komórk =. Υ r.,.. Y, Y,..., Y Υ r r rr welkość próbk = r średa komórk = Υ r. Y rc, Yrc,..., Yrc rc welkość próbk = rc r., Υ r.. średa komórk = Υ rc.., Υ... c, Υ. c..., Υ... 99

201 Średe w komórkach, rzędach, werszach oraz średa ogóla są kolejo rówe: Υj. Υ jk j k c j Υ.. Υ. jk r j Υ. j. Υ. jk jk j k r c j Υ... Υ.. j jk jk gdze gdze gdze gdze.. j,,...,r; c j j r j r c.. j j j,,...,c (7--.3 Rozdzał 7--. Róża lczebość komórek problem eortogoalośc sum kwadratów. Kluczowa statystycza kocepcja wążąca sę ze szczególym aaltyczym problemam spotykaym w przypadku komórek z różą lczeboścą w tablcy daych dwuczykowej ANOVA odos sę do eortogoalych sum kwadratów stosowaych w rozkładze całkowtej sumy kwadratów odchyłek zmeej objaśaej TSS, będącej lczkem ogólej waracj zmeej Y. Aby wyjaść, jake jest zaczee ortogoalośc, podajmy ogóle wzory dla tych sum kwadratów, w ogólym przypadku komórek z różą lczeboścą: SSR SSC SSRC SSE TSS r c j jk r c j jk r c jk r c j jk r c j jk (Υ.. Υ... (Υ.. Υ... j (Υ (Υ j (Υ. Υ.. Υ.. Υ... jk jk j j Υ. Υ... j (7--.4 Trzy perwsze z ch, tz. SSR, SSC SSRC są azywae bezwarukowym sumam kwadratów dla kolejo czyka rzędowego, kolumowego wzajemego oddzaływaa. Każda z bezwarukowych sum kwadratów może zostać określoa osobo, wychodząc z podstawowych zasad, które pozwalają opsać zmeość zmeej opsywaej Y zwązaą z oszacowaem wpływów pochodzących od czyka rzędowego R, ( Y.. -Y, kolumowego C, ( Y. j. -Y, oraz od oddzaływaa RC, ( j j Υ. Υ.. Υ.. Υ.... Moża pokazać, że jeśl zbór bezwarukowych sum kwadratów (7--.4 jest ortogoaly, to spełoa jest rówość []: SSR + SSC + SSRC + SSE = TSS (

202 co ozacza, że składk po lewej stroe dzelą całkowtą sumę kwadratów TSS a e przekrywające sę, ortogoale źródła zmeośc (to zaczy źródła waracj zmeej Y. To podstawowe rówae ANOVA obowązuje jedye dla przypadku komórek z rówą lczeboścą. Nestety, w przypadku stea komórek z różą lczeboścą, bezwarukowe sumy kwadratów e odpowadają ortogoalym źródłom waracj, wtedy: SSR + SSC + SSRC + SSE TSS (7--.6 Aby zobaczyć, co jest powodem powyższego zachowaa sę rozkładu dla TSS, rozważmy ogóle sformułowae regresj dla dwuczykowej ANOVA dla przypadku komórek z różą lczeboścą (który oczywśce obejmuje przypadek rówej lczebośc komórek. Rozdzał Ogóle sformułowae regresj dla dwuczykowej ANOVA. Fudametale rówae aalzy regresj. Ogóle rówae regresj w ANOVA ma postać: r c rc Υ μ α Χ β jζ j γj ΧΖ j Ε ( j j gdze μ, α,β j γ j są współczykam regresj, X Z j są odpowedo zdefowaym czykam (zmeym ukrytym, wskazującym, atomast zmea E jest składkem losowym. Zmee X azwjmy zmeym rzędowym, atomast zmee Z, zmeym kolumowym. Podobe jak w (6-.38 dla jedoczykowej ANOVA zmee te wskazują pozomy (waraty zmeej rzedowej R bądź kolumowej C. W (7--.7 zmee ukryte kodowaem (7--.30: X,,,..., r, oraz Z j, j,,..., c, są opsae astępującym X Z j 0 0 dla pozomu tego czyka R dla pozomu r czyka R w pozostalych przypadkach dla pozomu j tego czyka C dla pozomu c czyka C w pozostalych przypadkach.,,,..., r, j,,..., c ( Podstawowe (fudametale rówae dla sum kwadratów w modelu regresj, ma zawsze w ogólośc postać []: TSS = SSReg + SSE ( gdze: TSS s(υ s Υ SSReg s(υ ˆ s Υ SSE (Υ Υˆ s s s RegresjaSS(Χ,Χ,...,Χ r ; Ζ,Ζ,...,Ζ c; ΧΖ,ΧΖ,...,Χ rζ c, (

203 a sumowae s przebega po wszystkch.. obserwacjach. Rówae ( bywa azywae fudametalym rówaem aalzy regresj. Mów oo, że całkowta ewyjaśoa zmeość zmeej objaśaej = zmeość wyjaśoa regresją + ewyjaśoa zmeość spowodowaa resztam. Wprowadzając warukową sumę kwadratów dla zmeej X p+ dodaej a końcu (porówaj (5-8: SS(X p+ X, X,..., X p = Regresja SS(X, X,..., X p, X p+ - Regresja SS(X, X,..., X p (7--3. możemy podzelć sumę kwadratów regresj a klka sposobów, tak aby podkreślć wkład z powodu dodaa a końcu całej grupy zmeych do modelu regresj, który zawera już w sobe e grupy zmeych. Podstawowe rówae regresj moża węc zapsać astępująco: TSS = Regresja SS(X, X,...,X r- + Regresja SS(Z, Z,...,Z c- X, X,., X r- + Regresja SS(X Z, X Z,..., X r- Z c- X, X,., X r-, Z, Z,, Z c- + SSE = = SSReg + SSE (7--3. gdze podzału TSS dokoao uwzględając wperw wpływ zmeych rzędowych X, potem wpływ zmeych kolumowych Z, a dopero a końcu wpływ ch oddzaływaa XZ. Natomast, jeśl chcemy uwzględć wpływ zmeych rzędowych w modelu, w którym już są zmee kolumowe, to podstawowe rówae regresj ma postać: TSS = Regresja SS(Z, Z,...,Z c- + Regresja SS(X, X,...,X r- Z, Z,...,Z c- + Regresja SS(X Z, X Z,..., X r- Z c- X, X,., X r-, Z, Z,, Z c- + SSE= = SSReg + SSE. ( Wprowadźmy ozaczea: Regresja SS( X, X,...,X r- SSR Regresja SS(Z, Z,...,Z c- SSC ( Regresja SS(X Z, X Z,..., X r- Z c- SSRC, gdze SSR, SSC oraz SSRC są bezwarukowym sumam kwadratów. Rówaa (7--3. ( moża teraz zapsać astępująco: SSR + SS(C R + SS(RC R, C + SSE = TSS (7--3.5a oraz SSC + SS(R C + SS(RC R, C + SSE = TSS. (7--3.5b Każde z tych rówań moża zapsać w postac: SSReg + SSE = TSS ( gdze: SSReg = SSR + SS(C R + SS(RC R, C = SSC + SS(R C + SS(RC R, C. (

204 Jak wdać, obok bezwarukowych sum kwadratów SSR oraz SSC, czło regresj SSReg rówaa (3.9 zawera warukowe sumy kwadratów. Sczególym przypadkem jest schemat z rówą lczeboścą komórek. Moża wtedy pokazać, że zachodzą rówośc: SSR = SS(R C SSC = SS(C R dla komórek z rówą lczeboścą. ( SSRC = SS(RC R, C Zatem, gdy wszystke lczebośc próby są w komórkach take same, wtedy warukowe sumy kwadratów e są zależą od zmeych będących już uprzedo w modelu fudametale rówae regresj przyjmuje zaą postać (7--.5: SSR + SSC + SSRC + SSE = TSS. ( W przypadku komórek z różą lczeboścą, sytuacja wygląda astępująco: SSR SS(R C SSC SS(C R dla komórek z różą lczeboścą, ( SSRC SS(RC R, C skąd wyka, że w przypadku tym, rówae ( e jest poprawe podstawowe rówae regresj mus meć postać (7--3. lub ( Z rówań tych wdać zaczee kolejośc, w której czyk (dające wpływy główe są wprowadzae do modelu. Wyjątek staow przypadek, gdy zachodz zwązek (7. dla lczebośc w komórkach a brzegach tablcy daych (waruek proporcjoalość częstośc w komórkach, ozaczający stochastyczą ezależość czyków R C:.. j j... (7. Gdy waruek (7. jest spełoy, wtedy okazuje sę, że zachodzą astępujące rówośc: SSR SS( R C SSC SS( C R (7--3. SSRC SS( RC R, C Wdzmy, że chocaż w tym przypadku rówae ( e jest spełoe, to rówaa (7--3. ( upraszczają sę, sprowadzając do pojedyczego rówaa: SSR + SSC + SS(RC R,C + SSE = TSS (7--3. W rówau (7--. tylko wyraz SS(RC R,C róż go od rówaa ( Poeważ suma kwadratów SS(RC R,C może być otrzymaa przez wykające z (7--3. odejmowae sum bezwzlędych od TSS, zatem w przypadku gdy zachodz waruek proporcjoalośc częstośc w komórkach (7., stadardowe oblczea ANOVA prowadzoe dla komórek z rówą lczeboścą mogą być wykoae, bez potrzeby stosowaa metody aalzy regresj. Poższy schemat podsumowuje sposób postępowaa przy wyborze metody aalzy statystyczej w dwuczykowej ANOVA. Doly prostokąt dagramu zostae omówoy w Rozdzale 8. 03

205 Dagram Dagram postępowaa przy wyborze metody aalzy w dwuczykowej ANOVA. Rozdzał 7-. Czyk ustaloy losowy cz.ii (rówa wększa od lczebość w komórkach. W Rozdzale 6.4 zostały wprowadzoe pojęca czyka ustaloego losowego wraz z uzasadeem postac stawaych hpotez oraz testów. W jedoczykowej ANOVA test statystyczy ma taką samą postać dla czyka ustaloego losowego, chocaż stawae hpotezy mają postać różą. Tz., podczas gdy dla czyka ustaloego hpoteza zerowa zwązaa była z rówoścą wartośc oczekwaych zmeej objaśaej dla różych pozomów tego czyka, to dla czyka losowego dotyczyła oa braku rozproszea owych wartośc oczekwaych. Podsumowae sytuacj dla jedoczykowej ANOVA zostało zawarte w Tabel Róweż w obecym rozdzale rozważamy model dwuczykowej ANOVA, który realzuje schemat (7. dla lczebośc w komórkach, ozaczający w ogólośc ezależość stochastyczą czyków R C. Dodatkowo zakładamy, że lczba obserwacj w komórkach jest taka sama e mejsza od. Przypadek z jedostkowa lczeboścą komórek zostae omówoy w Rozdale

206 Układ daych dla dwuczykowej ANOVA z rówą lczebośca komórek. Perwszym krokem, który ależy wykoać, aby zbadać dwuczykowy układ daych, jest stworzee tablcy składającej sę ze średch z obserwacj w każdej komórce. Mamy r pozomów czyka rzędowego R oraz c pozomów czyka kolumowego C, oraz w każdej z rc komórek po obserwacj, tz. wszystke komórk zawerają tę samą lczbę obserwacj. Tabela daych dla dwuczykowej ANOVA ma poższą postać. Tabela. 7-. Dae, średe dla próbek populacj, oraz sumy dla dwuczykowej ANOVA []. Czyk kolumowy C Czyk rzędowy R c ( Y, Y,..., Y Y, Y, ( Y, Y,..., Y Y, Y, ( Y, Y,..., Y Y, Y, ( Y, Y,..., Y Y, Y, ( Y c, Y c,..., Y Y c, Y c, c c ( Y c, Yc,..., Y Y c, Y c, c c Sumy oraz średe dla rzędów Y, Y, Y Y,, ( Y r, Yr,..., Yr ( Y r, Yr,..., Yr ( Y rc, Yrc,..., Yrc Y r, Y r, r Y r, Y r, Y r, Y r, Y rc, Y rc, r Sumy oraz średe dla kolum r Y, Y, r Y, Y, rc Y, Y c, c c Y, Y, Ozaczea w powyższej tabel są astępujące. Y jk ozacza k tą obserwację (daą w komórce (, j. Tabela zawera sumy oraz średe dla daych, z których pobrae są próbk, jak róweż odpowede wartośc oczekwae j w populacjach (po jedej populacj jedej próbce, dla każdej komórk. Łączą sumę w komórce (, j ozaczamy jako Y j, atomast sumę w całym tym rzędze jako Y, a sumę w całej j tej kolume jako Y j, zaś łączą sumę wszystkch obserwacj jako Y, zgode z zależoścam: Y Y jk c jk r j Y jk k, Y r c Y jk jk, Y. (7-.3 Średe w próbach są wyzaczoe astępująco (ze względu a założoą rówą lczebość w komórkach: Y j Y jk k, (

207 Średe (lub Y Y, dla =,,,r ; (7-.5 c Y j Y j, dla j =,,,c ; (7-.6 r Y Y. (7-.7 c r j wszystkch kolum (lub werszy. Średa są wartoścam oczekwaym dla populacj utworzoych z połączea populacj dla odpowada wartośc oczekwaej w populacj geeralej, powstałej z połączea populacj zwązaych z wszystkm pozomam czyka rzędowego R kolumowego C. Średa Y j jest estymatorem wartośc oczekwae j. Średe (7-.5- (7-.7 są estymatoram wartośc oczekwaych w populacjach, które (ze względu a założoą rówą lczebość w komórkach mają kolejo postać: dla =,,,r ; (7-.8 c c j j r j r dla j =,,,c ; (7-.9 j r c. (7-.30 rc j j Całkowtą zmeość wartośc zmeej objaśaej w dwuczykowej ANOVA, wyrażoą ogólą sumą kwadratów odchyleń (TSS, moża rozłożyć a zmeość wyjaśoą zmaą pozomu czyka rzędowego R, astępe, wyjaśoą zmaą pozomu czyka kolumowego C, astępe, wyjaśoą terakcją czyka rzędowego z kolumowym R x C w końcu wyjaśoą zmeoścą wewątrz komórek (wewątrzgrupową ujętą losowym składkem błędu E: TSS ( Y jk Y r c jk r c( Y Y r ( Y j j Y r c ( Y j j Y Y j Y r c ( Y jk jk Y j = SSR(rzędów + SSC(kolum + SSRC(oddzaływae R x C + SSE(błąd, (7-.3 gdze: r SSR c( Y Y, (7-.3 j SSC r ( Y j Y, (

208 r c j SSRC ( Y j Y Y j Y, (7-.34 SSE ( Y jk Y j. (7-.35 r c jk Lczba stop swobody dla każdego z wpływów główych ujętych w SSR oraz SSC (dla każdej waracj mędzygrupowej to lczba pozomów czyka pomejszoa o. Jest oa rówa: dla czyka R oraz: r, gdze r to lczba pozomów zmeej w rzędach, (7-.36 r c, gdze c to lczba pozomów zmeej w kolumach, (7-.37 c dla czyka C. Lczbą stop swobody dla waracj mędzygrupowej przy efekce terakcj jest pomożoa lczba kolum werszy po odjęcu jedego pozomu z każdego czyka: ( r ( c. (7-.38 rc Wewątrzgrupowe stope swobody, tak jak w przypadku jedoczykowej aalzy waracj, to suma stop swobody dla wszystkch grup: r c(. (7-.39 E Suma powyższych stop swobody jest rówa ogólej lczbe stop swobody dla TSS tz.: k ( r c. (7-.40 E r c rc E Tak podzał lczby stop swobody wyka z podaego w Rozdzale 7- dowolego rozkładu (7. lub (7.3 (porówaj (5-9 w Rozdzale 5-- ogólej sumy kwadratów odchyleń a sumy częścowe TSS = SSReg + SSE (7.6. Podzał te jest róweż wdoczy z przedstawoego modelu regresj (7.6 dla dwuczykowej ANOVA, z którego wdać, że lczba stop swobody dla SSReg, która jest zwązaa z modelem regresj ze zmeym ukrytym X Z wraz z ch terakcją, jest rówa lczbe współczyków kerukowych, α,β j γ j modelu regresj: k. (7-.4 r c rc 07

209 Hpotezy zerowe dla dwuczykowej ANOVA. W dwuczykowej ANOVA rozważae są hpotezy zerowe o (a braku ogólej zależośc korelacyjej oraz (b o rówośc wartośc oczekwaych w rozkładach brzegowych dla czyka C oraz R o ewystępowau terakcj pomędzy tym czykam. (a Aalza ogólej zależośc korelacyjej. Z powyższego raportu wdać, że statystyka testowa F dla tesowaa hpotezy o braku ogólej zależośc korelacyjej pomędzy zmeą objaśaą Y ch terakcj, czyl statystyka służąca to testowaa łącze trzech hpotez: H H H ( R :... r, ( C :... c, ( RC: ma astępującą postać []: przy czym: j j j 0 wszystkm czykam (czyl R oraz C z uwzględeem dla =,,, r ; j=,,, c, (7-.4 MSReg F (7-.43 MSE SSReg MSReg (7-.44 k SSE MSE (7-.45 E gdze MSReg jest średą sumą kwadratów dla regresj, atomast MSE jest średą waracją wewątrzgrupową, a odpowede lczby stop swobody wyoszą: dla modelu regresj k, (7-.4, a dla błędu k. Przy prawdzwośc hpotezy zerowej o jedorodośc waracj w E elemetarych populacjach (czyl w komórkach dla wszystkch zestawów wartośc r c rc (7.8 układów zmeych wskazujących X oraz Z oraz przy prawdzwośc hpotezy zerowej (7-.4 o braku ogólej zależośc korelacyjej zmeej Y od wszystkch czyków, statystyka F (7-.43 ma rozkład F-Sedecora z lczbą stop swobody lczka k oraz maowka E. W przypadku, gdy hpoteza zerowa o braku ogólej zależośc korelacyjej Y od czyków zostae odrzucoa, przystępujemy do testowaa osobo jej hpotez składowych dla wpływów główych oraz dla terakcj, szukając przyczyy odrzucea hpotezy o braku ogólej zależośc korelacyjej. Aalza ta jest przedstawoa pożej. 08

210 (b Aalza hpotez zerowych o rówośc wartośc oczekwaych dla czyków rzędowego R kolumowego C w ch w rozkładach brzegowych oraz o ewystępowau człou terakcj Hpotezy te składają sę a hpotezę łączą (7-.4. R C. Hpoteza zerowa o braku główego wpływu (efektu ustaloego czyka rzędowego R, ma postać: H 0 ( R :... r. (7-.46 Hpoteza ta ozacza, że e ma różc pomędzy wartoścam oczekwaym zmeej objaśaej dla różych pozomów czyka główego R. Hpoteza zerowa o braku główego wpływu (efektu ustaloego czyka kolumowego C, ma postać: H 0 ( C :... c. (7-.47 Hpoteza ta ozacza, że e ma różc pomędzy wartoścam oczekwaym zmeej objaśaej dla różych pozomów czyka główego C. Hpoteza zerowa o braku terakcj (oddzaływaa pomędzy werszam kolumam ozacz, że wpływ pozomu czyka rzędowego R wewątrz jakejkolwek kolumy jest tak sam (tz. e zależy od kolumy oraz, że wpływ pozomu czyka kolumowego C jest tak sam wewątrz jakegokolwek wersza (tz. e zależy od wersza. Hpoteza ta ma postać: H 0 (RC: j j j 0, dla =,,, r ; j =,,, c, (7-.48 co ozacza, że wszystke wyrażea j j j wewątrz sumy r c j ( j j, (której estymatorem jest SSRC, (7-.34, są rówe zero. Aby określć test statystyczy dla dwuczykowej aalzy waracj, musmy oceć, czy każdy z dwóch czyków jest ustaloy czy losowy. Klasyfkacja czyków zależy często od spojrzea badacza a zagadee. Należy rozważyć trzy przypadk: P. Przypadek, gdy oba czyk są ustaloe. P. Przypadek, gdy oba czyk są losowe. P3. Przypadek czyków meszaych, gdze jede czyk jest ustaloy, a drug losowy. P. Oba czyk ustaloe. a Uogóleem modelu regresj (7--.9 dwuczykowej ANOVA do modelu z terakcją czyków ustaloych ma astępującą postać: r Y X Z X Z E. (7-.49 c j j j rc j j Zmee ukryte (wskazujące X,,,..., r, oraz Z j, j,,..., c, są opsae astępującym kodowaem (7--.30: j 09

211 X Z j 0 0 dla pozomu tego czyka R dla pozomu r czyka R w pozostalych przypadkach dla pozomu j tego czyka C dla pozomu c czyka C w pozostalych przypadkach.,,,..., r, j,,..., c ( Wykorzystując kodowae (7.8, model ANOVA dla obu czyków ustaloych moża zapsać astępująco: Y jk E, (7-.50 j j jk gdze zmea losowa E jk jest błędem (resztą zwązaym z k-tą obserwacją w komórce (, j. Parametry modelu regresj są w astępujący sposób powązae z wartoścam oczekwaym w (podpopulacjach (porówaj ( (7--.35: ; dla,,..., r ; j dla j =,,,c ; j j j j dla =,,,r ; j =,,,c, (7-.5 gdze: c r r c, (7-.8,, (7-.9,, (7-.30, przy czym stałe α, c j j j r j cr j j β j, oraz γ j spełają zależośc: r 0, 0, 0, 0. (7-.5 c j j r j c j Wdzmy, że tak jak dla jedokerukowej aalzy waracj, model ANOVA może być zapsay bądź w postac zawerającej składk rówaa regresj (7-.49 ze zmeym ukrytym, bądź w postac sumy różych kombacj parametrów strukturalych tego modelu regresj (7-.50, która jest bezpośredo rówa (zgode z (7-.5 wartośc oczekwaej zmeej objaśaej Y w populacj ozaczoej parą wskaźków (, j:. (7-.53 j j j Zatem model ANOVA dla obu czyków ustaloych ma postać ( Pożej przedstawoe są modele ANOVA zapsae w postac kombacj sumy parametrów strukturalych (lub odpowadających m zmeych losowych dla pozomów dla przypadków obu czyków losowych dla czyków meszaych. j P. Oba czyk losowe. Model ANOVA ma postać: Y jk A B C E, =,,, r ; j =,,, c ; k =,,,, (7-.54 j j jk gdze zmee losowe A, B j, C j, oraz E jk są wzajeme ezależe mają rozkłady: A : N(0, R, B j : N(0, C, C j : N(0, RC, E jk : N(0, E. (

212 Waracje R, C, RC, RC są właścwym maram rozproszeń odpowedch warukowych wartośc oczekwaych zmeej zależej Y (porówaj tekst przed (6-4., zwązaym kolejo z wpływam główym czyka rzędowego R czyka kolumowego C oraz wpływem oddzaływaa RC. P3. Czyk meszae. a Model ANOVA ma postać: Y jk B C E, =,,, r ; j =,,, c ; k =,,,, (7-.56 j j jk gdze czyk są meszae, tz. czyk rzędowy R jest ustaloy, a czyk kolumowy C, losowy. Zatem ze względu a ustaloy czyk R zachodz waruek: r 0, (7-.57 atomast zmee losowe B j, C j oraz E jk są wzajeme ezależe mają rozkłady: B j : N(0, C, C j : N(0, b Model ANOVA ma postać: Y jk j j jk RC, E jk : N(0, E. (7-.58 A C E, =,,, r ; j =,,, c ; k =,,,, (7-.59 gdze tym razem czyk są meszae, tz. czyk rzędowy R jest losowy, a czyk kolumowy C, ustaloy. Ze względu a ustaloy czyk C zachodz waruek: c j 0, (7-.60 j atomast zmee losowe A, C j, oraz E jk są wzajeme ezależe mają rozkłady: A : N(0, R, C j : N(0, RC, E jk : N(0, E. (7-.6 Postać hpotez zerowych. Odpowede hpotezy zerowe dla przypadków P, P P3 zebrao w Tabel 7-.. Tabela 7-.. Tablca hpotez zerowych dla dwuczykowej aalzy waracj []. Źródła Zmeośc Y Czyk rzędowy R Czyk kolumowy C Oddzaływae RC P. czyk ustaloe H 0 :... k 0 lub... r... c lub... 0, j dla wszystkch, j c 0 P. czyk losowe H 0 : R 0 P3. modele meszae R ustaloy, C losowy H 0 :... k lub... C 0 C 0 r 0 R losowy, C ustaloy H 0 : R RC RC... c 0 lub... RC c

213 Testy statystycze do weryfkacj hpotez zerowych (7-.46-( W porówau z jedokerukową ANOVA, w przypadku dwuczykowej weloczykowej ANOVA występuje różca w postac hpotez statystyczych, które mają, p. dla czyków ustaloych postać H 0 ( R :... r, H 0 ( C :... c oraz H 0 (RC: j j j 0. Róże są też postace stosowaych statystyk testowych. Jedak rozumowae, które doprowadzło w jedoczykowej ANOVA od zależośc (6-4.4: MSG MSE E( MSG E( MSE E 0 E A (6-4.4 do postac statystyk testowej F MSG / MSE, (6-4.4, moża uogólć a przypadek dwuczykowej ANOVA. Pożej podamy jego ajstotejsze rezultaty. W celu lepszego uchwycea stoty hpotez zerowych oraz odpowedch testów statystyczych F (zebraych dalej w Tablcy 7--4, warto porówać Tabele z Tabelą 6-4. dla jedoczykowej ANOVA oraz z (dalszą Tabelą 7-3. dla ANOVA z losowo doberaym blokam. W Tabel 7--3 podao wartośc oczekwae lczków maowków (średch sum kwadratów odpowedch statystyk testowych F dla dwuczykowej ANOVA. Tabela Wartośc oczekwae średch sum kwadratów dla dwuczykowej ANOVA []. Źródła Wartośc oczekwae średch kwadratów E(MS dla lczków maowków statystyk F Zmeośc Y Czyk rzędowy R Czyk kolumowy C Oddzaływae Błąd E P. Czyk ustaloy E( MSR r c E ( r r c E r E( MSC c r E ( c j c r E j c j E( MSRC r E ( r ( c E j c j j P. Czyk losowy E c E R r C RC RC E RC E P3. R-ustaloy, C-losowy E c r r E r C RC RC E RC E P3. R-losowy, C-ustaloy E c R RC E r c j c j RC E RC E Aalzując Tabelę 7-.3 oraz hpotezy zerowe zebrae w Tabel 7-., moża dostrzec postać odpowedch testów F podaych pożej.

214 Założea dla testów F. Aby użyć testu F muszą być spełoe astępujące założea: a. Dla model z ustaloym czykam obserwacje Yjk są statystycze ezależe jede od drugch. (Założee to e jest spełoe wtedy, gdy w model dwuczykowej ANOVA z rówą lczbą obserwacj w komórkach zostają włączoe czyk losowe, gdyż obserwacje Yjk są wtedy wzajeme zależe. b. Każda obserwacja pochodz z populacj o rozkładze ormalym. c. Każda populacja zwązaa z kokretą komórką ma taką samą warację (czyl zakładamy, że waracja jest jedoroda. W weryfkacj hpotez zerowych w ANOVA wykorzystuje sę test F: a. dla wpływu główego czyka R (pozomy w rzędach, b. dla wpływu główego czyka C (pozomy w kolumach, c. dla terakcj RC mędzy czykam. W lczku każdej z tych statystyk testowych F występuje waracja mędzygrupowa, która odos sę do porówań mędzy średm dla daego wpływu główego lub terakcj. W maowku zajduję sę waracja wewątrzgrupowa, która we wszystkch testach F z czykem ustaloym jest średą sumą kwadratów odchyleń wszystkch wyków od średch w odpowadających m grupach (czyl od średch wewątrzgrupowych. Jedakże, w przypadku czyka losowego, waracja wewątrzgrupowa jest maowkem statystyk F jedye w przypadku testowaa terakcj. Jak o tym powemy pożej, w przypadku testowaa wpływów główych w maowku statystyk F występuje średa suma kwadratów dla terakcj. Wpływy główe w dwuczykowej ANOVA oblczamy poprzez ustalee stosuku F w kolumach bądź w werszach. Jak wspomelśmy, z postac wartośc oczekwaych statystyk podaych w Tabel 7-.3 wchodzących w skład rozkładu TSS, moża podać postać statystyk testowej F, która zależy od tego czy czyk jest losowy czy ustaloy. Możemy węc rozważyć astępujące sytuacje:. Gdy hpotezy zerowe są jak w przypadku P (koluma perwsza w Tabel 7-.. Zarówo czyk rzędowy R jak kolumowy C jest ustaloy. Testy F oblczamy według astępujących wzorów (podao też odpowede lczby stop swobody lczka maowka statystyk F (7-.36-(7-.39: MSR F( R, z r r lczka E r c( maowka, (7-.6a MSE 3

215 MSC F( C, z c c lczka E r c( maowka, (7-.6b MSE MSRC F( RC z rc ( r ( c lczka E r c( maowka. (7-.6c MSE. Gdy hpotezy zerowe są jak w przypadku P lub P3 (koluma druga lub trzeca w Tabel 7-.. Zarówo czyk rzędowy R jak kolumowy C jest losowy lub zachodz przypadek meszay, tz. jede z czyków jest losowy a drug ustaloy. Testy F oblczamy według astępujących wzorów: MSR F( R, z r r lczka rc MSRC ( r ( c maowka, (7-.63a MSC F( C, z c c lczka rc MSRC ( r ( c maowka, (7-.63b MSRC F( RC, z rc ( r ( c lczka E MSE r c( maowka. (7-.63c Jak wdać, statystyka do testowaa hpotezy o braku terakcj jest taka sama w obu przypadkach. Tabela Tablca dwuczykowej aalzy ANOVA []. Źródła zmeośc Y Czyk rzędowy R (wpływ główy Lczba stop swobody r SSR r Suma kwadratów odchyleń Czyk c SSC c kolumowy C (wpływ główy Oddzaływae R x C ( r rc SSRC ( c Błąd E r c( SSE Razem r c TSS E Śred kwadrat odchylea Postać statystyk testowej F P. Dla wpływu ustaloego SSR MSR MSR/ MSE ( r SSC MSC ( c SSRC MSRC ( r ( c SSE MSE rc( MSC/ MSE MSRC/ MSE P P3. Dla wpływu losowego meszaego MSR/ MSRC MSC/ MSRC MSRC/ MSE Podsumujmy. Podobe jak pod koec Rozdzału 6-4 dla jedoczykowej ANOVA tak teraz, zauważyć moża, że w powyższych rozważaach (podsumowaych w Tabelach zwraca uwagę zwązek postac lorazów wartośc oczekwaych średch kwadratów odchyłek z postacą hpotez zerowych H 0 (Tabela 7-. ch wpływ tak a postać statystyk testowych F jak wartośc jake, w przypadku prawdzwośc H 0, statystyk F a ogół przyjmują. 4

216 Rozdzał 7--. Przykład: wydolość płuc Pewe przedsęborstwo postaowło sprawdzć jaka jest wydolość płuc (WP pracowków w m pracujących, którzy są podda wpływow jedej z trzech możlwych różych substacj toksyczych (c = 3. Tak sę złożyło, że pracowcy tegoż przedsęborstwa meszkal w trzech różych dzelcach, a w każdej z ch zasadzoo y gatuek rośly (trawy. W zwązku z tym, rozważao także wpływ a wydolość płuc pracowków tych trzech (r = 3 gatuków rośl. Bardzo ska wydolość płuc pracowków (mała wartość WP śwadczy o zaburzeach w oddychau, zaś wysoka wydolość płuc (duża wartość WP ozacza brak problemów z oddychaem. Dla każdego gatuku rośly (trawy dla każdego rodzaju substacj toksyczej pobrao próbkę = osób (tz. jest 3x3 = 9 populacj, z których poprao próbk osobowe. Zadae. Przeprowadzć aalzę przykładu w SAS, odpowadając a astępujące pytaa: Czy rośly mają stoty wpływ a wydolość płuc pracowków? Czy toksycze substacje mają stoty wpływ a wydolość płuc pracowków? 3 Czy taka sama jest zmaa wydolośc płuc podczas zmay substacj toksyczej w ramach wpływu kokretego gatuku rośl. Występowae tych różc w zmae średego pozomu wydolośc płuc byłyby śwadectwem występowaa terakcj. (Zbadać wpływ terakcj gatuków rośl typu substacj toksyczej a wydolość płuc. 5

217 Tabela Dae dla przykładu wydolość płuc [] (Wylczoo róweż sumy średe. Rodzaj toksyczej substacj C Gatuek rośly R a b c Sumy średe w rzędach 4,64 3, 3,75 Y 3333, 5,9 3,7,50 Y 3, 70 5,5 3,88,65 6,7 3,50,84 4,0,47 3,09 5,90 4,,90 5,07 3,5,6 4,3 3,85,75 4,07 4, 3,0 5,30 3,07,99 4,37 3,6,4 3,76,95,37 Y 58, 78 Y 457, Y 3 3, 98 Y 4, 90 Y 3, 46 Y 75 Sumy średe w kolumach 5, 6,0 4,85 4,7 5,36 5,4 5,3 4,78 5,08 4,97 5,85 5,6 Y 6 8,, Y 3 4,64 4,3 4,3 5,7 3,77 3,85 4, 5,07 3,5 3,49 3,65 4,0 Y Y , 3,,, Y Y Y 3,9 3,75 4,0 4,64 3,63 3,46 4,0 3,39 3,78 3,5 3,9 4, ,, Y Y Y 4,95 5, 5,6 5,35 4,35 4,89 5,6 4,98 5,77 5,3 4,86 5, , Y 3,, Y, Y 3,,95 3, 3,5 3,5,30,76 3,0,3,50,0,64, , 3, Y Y Y,95,80 3,63 3,85,9 3,3,68 3,35 3, 4,,90, , Y 33, 3, Y 3, Y Y 405, Y, , Y 3, 4 3 Y = 4,57 Y 3,9 6

218 Rozwązae. Mamy dwa czyk główe. Róże gatuk rozważaych rośl (rzędy, ozaczające trzy róże pozomy czyka główego R, ozaczymy umeram,, 3. Róże rodzaje substacj toksyczych ozaczające trzy róże pozomy czyka główego C, ozaczymy jako a, b, c. Wszystke obserwowae wartośc WP zostały zawarte powyżej w Tabel Ad Hpoteza zerowa dla rzędowych (brzegowych wartośc oczekwaych czyka rzędowego R, którym jest gatuek rośly, ma postać: H 0 ( R : 3 Ozacza oa brak główego wpływu od czyka R, czyl gatuku rośly a WP pracowków. Ad Hpoteza zerowa dla kolumowych (brzegowych wartośc oczekwaych czyka kolumowego C, którym jest rodzaju substacj toksyczej, ma postać: H 0 ( C : a b c Ozacza oa brak główego wpływu od czyka C, czyl rodzaju toksyczej substacj a WP pracowków. Ad3 Hpoteza zerowa o braku terakcj pomędzy czykam ma postać: H 0( RC : j j 0, dla każdej pary, j, co moża zapsać róweż astępująco: H : 0 ( RC j j, dla każdej pary, j. Hpoteza ta ozacza brak zmay WP a skutek zmay substacj toksyczej (określoej deksem j dla wpływu kokretego gatuku rośly, przy zmae gatuku rośly. Istee takej zmay średego pozomu WP jest śwadectwem występowaa terakcj. Gdy zamemy rolam czyk R oraz C, wtedy hpotezę tą moża zapsać astępująco: H : 0 ( RC j j, dla każdej pary, j, co ozacza brak zmay WP a skutek zmay gatuku rośl (określoej deksem w ramach wpływu kokretej substacj toksyczej j, wraz ze zmaą substacj toksyczej j. 7

219 Polecea w pakece SAS a. Tworzymy tabelę daych a podstawe, których przeprowadzamy dwuczykową ANOVA. Tworzee tabel z daym: Tools Table Edtor. Zapsujemy tabelę z daym w wybraej bblotece. Następe rozpoczyamy aalzę, wyberając z paska Meu polecea: Solutos Aalyss Aalyst. 3 Otweramy wcześej zapsae dae stosując polecea: Edt Ope By SAS Name wskazujemy bblotekę w której zostały zapsae dae wyberamy dae dla przykładu. 4 Dokoujemy dwuczykowej aalzy waracj: Statstcs ANOVA Factoral ANOVA WP (Depedet; Gat.rośl, Rodz.Subst (Idepedet a Model Stadard Model Effects up to way teracto. b Tests: Error Gat.rośl * Rodz.substacj Add Gat.rośl; Rodz.substacj c Statstcs Type I, III d Meas Comparso method Scheffe s multple comparso procedure Breakdow zazaczamy: Mea; Std.dev.; Varace; Num.Obs; Mmum; Maxmum e Plots: Meas Plot depedet meas for ma effect; Plot depedet meas for two - way effect Resdual Plot resdual vs varable; Ordary; Predcted Y; Idepedets Ifluece Plot fluece statstcs vs varable; Deffts; Predcted Y; Idepedets f Save Data Create ad save dagostcs data; PREDICTED Predcted Values 8

220 Wykresy ch omówee. Zam przystąpmy do aalzy umeryczych raportów SAS,a przyjrzyjmy sę wykresom pomagającym zoretować sę co do zwązków pomędzy średm. We wstępym omóweu sytuacj w pobraej próbce (zgrupowaej w dzewęcu komórkach dla trzech gatuków rośl (,,3 trzech substacj toksyczych a,b,c, odwołamy sę do wykresów wygeerowaych przy pomocy paketu Aalyst. Wykres. Poższy wykres przedstawa empryczą lę regresj, która wyraża zależośc średej wydolośc płuc (WP od pozomu czyka główego, którym jest rodzaj substacj toksyczej (a,b,c (czyk C. Na wykrese zazaczoo róweż odchylea stadardowe od wartośc średch kolumowych (brzegowych dla pozomu a,b,c, wpływu główego substacj. Na podstawe powyższego wykresu moża by wycągąć wosek, że zmaa średej wartośc WP wraz z typem substacj toksyczej jest stota statystycze. Wosek te zgadza sę z dalszą aalzą umeryczą. 9

221 Wykres. Poższy wykres przedstawa empryczą lę regresj, dla zależośc średch rzędowych (brzegowych WP od pozomu czyka główego, którym tym razem jest gatuek rośly (,,3 (czyk R. Na wykrese zazaczoo róweż odchylea stadardowe od wartośc średch rzędowych dla pozomu,,3, wpływu główego gatuku rośly. Na podstawe powyższego wykresu moża by wycągąć wosek, że zmaa średej wartośc WP wraz z gatukem rośly jest róweż stota statystycze. Jedakże, chocaż wosek te zgadza sę z dalszą aalzą umeryczą, to e jest o już tak wyraźy jak w przypadku wpływu substacj toksyczej. 0

222 Wykres 3. Poższy wykres przedstawa emprycze le regresj dla rozkładu zmeej WP wewątrz tabel daych. Le wyrażają zależośc średej WP od pozomu dwóch czyków, którym są: rodzaj substacj toksyczej (a,b,c, ozaczoej kolorem oraz gatuek rośly (,,3. Na wykrese zazaczoo odchylea stadardowe od wartośc średch w komórkach dla pozomów a,b,c oraz,,3. Moża zauważyć, mejszy wpływ gatuku rośly a średą wartość WP w przypadku substacj toksyczej c (ż dla pozostałych dwóch substacj a b, dla których wpływ te jest róweż róży. Sugeruje to występowae terakcj pomędzy czykam (potwerdzoej pożej w teśce statystyczym. Wykres 4.Test jedorodośc waracj w komórkach. ANOVA zakłada koeczość jedorodośc waracj w populacjach. W celu sprawdzea tej hpotezy dla r c 9 rozważaych populacj (po jedej dla każdej komórk wewątrz tablcy daych, Tabela , przeprowadzamy odpowede testy statystycze. Korzystając z procedur dla jedokerukowej ANOVA, skostruowaej tak, aby każda z r c 9 - cu komórek tablcy daych odpowadała jedemu z 9-cu możlwych pozomów owego czyka o pozomach umerowaych kolejym komórkam, stwerdzamy w oparcu o test Bartlett a, że e ma podstaw do odrzucea hpotezy o jedorodośc waracj. Bartlett's Test for Homogeety of WP Varace Source DF Ch-Square Pr > ChSq Plat_Subst_komork

223 Dla 0, 0 wosek płyący z testu Brow a-forsythe'a (dla którego p = byłby tak sam jak dla testu Bartlett a, atomast test Levee'ego (dla którego p = daje y wosek. Uzajemy, a podstawe testu Bartlett a, że e ma podstaw do odrzucea hpotezy zerowej o jedorodośc waracj w populacjach dla komórek. Wosek te wydaje sę być zgody z poższym rysukem dla rozproszeń w 9 komórkach próby. Ne mając (jedozaczych podstaw do odrzucea hpotezy zerowej o jedorodośc waracj, przystępujemy do ANOVA dla weryfkacj hpotez o rówośc brzegowych wartośc oczekwaych oraz o braku terakcj. Aalza umerycza podsumowaa jest poższym raportam SAS a. W trakce czytaa tego raportu wstawoo odpowede kometarze dotyczące weryfkowaych hpotez statystyczych. Raport SAS a. W poższej częśc raportu zameszczoo dodatkowe formacje dotyczące wartośc charakterystyk opsowych w pobraej próbe pracowków. Ze względu a jego oczywstość pomemy kometarz. Przyklad_ wydolość płóc 5:49 Saturday, Aprl 7, 004 Breakdow of Meas ad Other Descrptve Statstcs Effect=Overall Std. Number Rodzaj_ Gatuek_ Mea Dev. Varace No-mssg Mmum Maxmum substacj rosly of WP of WP of WP of WP of WP of WP

TESTY NORMALNOŚCI. ( Cecha X populacji ma rozkład normalny). Hipoteza alternatywna H1( Cecha X populacji nie ma rozkładu normalnego).

TESTY NORMALNOŚCI. ( Cecha X populacji ma rozkład normalny). Hipoteza alternatywna H1( Cecha X populacji nie ma rozkładu normalnego). TESTY NORMALNOŚCI Test zgodośc Hpoteza zerowa H 0 ( Cecha X populacj ma rozkład ormaly). Hpoteza alteratywa H1( Cecha X populacj e ma rozkładu ormalego). Weryfkacja powyższych hpotez za pomocą tzw. testu

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Zadae. W ure zajduje sę 5 kul, z których 5 jest bałych czarych. Losujemy bez zwracaa kolejo po jedej kul. Kończymy losowae w momece, kedy wycągęte zostaą wszystke czare kule. Oblcz wartość oczekwaą lczby

Bardziej szczegółowo

POPULACJA I PRÓBA. Próba reprezentatywna. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH 5 1

POPULACJA I PRÓBA. Próba reprezentatywna. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH 5 1 POPULACJA I PRÓBA POPULACJĄ w statystyce matematyczej azywamy zbór wszystkch elemetów (zdarzeń elemetarych charakteryzujących sę badaą cechą opsywaą zmeą losową. Zbadae całej populacj (przeprowadzee tzw.

Bardziej szczegółowo

Statystyka Opisowa 2014 część 3. Katarzyna Lubnauer

Statystyka Opisowa 2014 część 3. Katarzyna Lubnauer Statystyka Opsowa 014 część 3 Katarzya Lubauer Lteratura: 1. Statystyka w Zarządzau Admr D. Aczel. Statystyka Opsowa od Podstaw Ewa Waslewska 3. Statystyka, Lucja Kowalsk. 4. Statystyka opsowa, Meczysław

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 7-8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 7-8 Stasław Cchock Natala Nehreecka Zajęca 7-8 . Testowae łączej stotośc wyraych regresorów. Założea klasyczego modelu regresj lowej 3. Własośc estymatora MNK w KMRL Wartość oczekwaa eocążoość estymatora Waracja

Bardziej szczegółowo

ma rozkład normalny z nieznaną wartością oczekiwaną m

ma rozkład normalny z nieznaną wartością oczekiwaną m Zadae Każda ze zmeych losowych,, 9 ma rozkład ormaly z ezaą wartoścą oczekwaą m waracją, a każda ze zmeych losowych Y, Y,, Y9 rozkład ormaly z ezaą wartoścą oczekwaą m waracją 4 Założoo, że wszystke zmee

Bardziej szczegółowo

Tablica Galtona. Mechaniczny model rozkładu normalnego (M10)

Tablica Galtona. Mechaniczny model rozkładu normalnego (M10) Tablca Galtoa. Mechaczy model rozkładu ormalego (M) I. Zestaw przyrządów: Tablca Galtoa, komplet kulek sztuk. II. Wykoae pomarów.. Wykoać 8 pomarów, wrzucając kulk pojedyczo.. Uporządkować wyk pomarów,

Bardziej szczegółowo

Statystyka. Analiza zależności. Rodzaje zależności między zmiennymi występujące w praktyce: Funkcyjna

Statystyka. Analiza zależności. Rodzaje zależności między zmiennymi występujące w praktyce: Funkcyjna Aalza zależośc Rodzaje zależośc mędzy zmeym występujące w praktyce: Fukcyja wraz ze zmaą wartośc jedej zmeej astępuje ścśle określoa zmaa wartośc drugej zmeej (p. w fzyce: spadek swobody gt s ) tochastycza

Bardziej szczegółowo

Podstawy analizy niepewności pomiarowych (I Pracownia Fizyki)

Podstawy analizy niepewności pomiarowych (I Pracownia Fizyki) Podstawy aalzy epewośc pomarowych (I Pracowa Fzyk) Potr Cygak Zakład Fzyk Naostruktur Naotecholog Istytut Fzyk UJ Pok. 47 Tel. 0-663-5838 e-mal: potr.cygak@uj.edu.pl Potr Cygak 008 Co to jest błąd pomarowy?

Bardziej szczegółowo

W loterii bierze udział 10 osób. Regulamin loterii faworyzuje te osoby, które w eliminacjach osiągnęły lepsze wyniki:

W loterii bierze udział 10 osób. Regulamin loterii faworyzuje te osoby, które w eliminacjach osiągnęły lepsze wyniki: Zadae W loter berze udzał 0 osób. Regulam loter faworyzuje te osoby, które w elmacjach osągęły lepsze wyk: Zwycęzca elmacj, azyway graczem r. otrzymuje 0 losów, Osoba, która zajęła druge mejsce w elmacjach,

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 5

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 5 Stasław Cchock Natala Nehreecka Zajęca 5 . Testowae łączej stotośc wyraych regresorów. Założea klasyczego modelu regresj lowej 3. Własośc estymatora MNK w KMRL Wartośd oczekwaa eocążoośd estymatora Waracja

Bardziej szczegółowo

Statystyka Inżynierska

Statystyka Inżynierska Statystyka Iżyerska dr hab. ż. Jacek Tarasuk AGH, WFIS 013 Wykład 3 DYSKRETNE I CIĄGŁE ROZKŁADY JEDNOWYMIAROWE, PODSTAWY ESTYMACJI Dwuwymarowa, dyskreta fukcja rozkładu rawdoodobeństwa, Rozkłady brzegowe

Bardziej szczegółowo

Wyrażanie niepewności pomiaru

Wyrażanie niepewności pomiaru Wyrażae epewośc pomaru Adrzej Kubaczyk Wydzał Fzyk, Poltechka Warszawska Warszawa, 05 Iformacje wstępe Każdy pomar welkośc fzyczej dokoyway jest ze skończoą dokładoścą, co ozacza, że wyk tego pomaru dokoyway

Bardziej szczegółowo

będą niezależnymi zmiennymi losowymi o tym samym 2 x

będą niezależnymi zmiennymi losowymi o tym samym 2 x Prawdopodobeństwo statystyka 8.0.007 r. Zadae. Nech,,, rozkładze z gęstoścą Oblczyć m E max będą ezależym zmeym losowym o tym samym { },,, { },,, gdy x > f ( x) = x. 0 gdy x 8 8 Prawdopodobeństwo statystyka

Bardziej szczegółowo

Statystyczne charakterystyki liczbowe szeregu

Statystyczne charakterystyki liczbowe szeregu Statystycze charakterystyk lczbowe szeregu Aalzę badaej zmeej moża uzyskać posługując sę parametram opsowym aczej azywaym statystyczym charakterystykam lczbowym szeregu. Sytetycza charakterystyka zborowośc

Bardziej szczegółowo

Zadanie 1. ), gdzie 1. Zmienna losowa X ma rozkład logarytmiczno-normalny LN (, . EX (A) 0,91 (B) 0,86 (C) 1,82 (D) 1,95 (E) 0,84

Zadanie 1. ), gdzie 1. Zmienna losowa X ma rozkład logarytmiczno-normalny LN (, . EX (A) 0,91 (B) 0,86 (C) 1,82 (D) 1,95 (E) 0,84 Zadae. Zmea losowa X ma rozkład logarytmczo-ormaly LN (, ), gdze E ( X e X e) 4. Wyzacz. EX (A) 0,9 (B) 0,86 (C),8 (D),95 (E) 0,84 Zadae. Nech X, X,, X0, Y, Y,, Y0 będą ezależym zmeym losowym. Zmee X,

Bardziej szczegółowo

Materiały do wykładu 7 ze Statystyki

Materiały do wykładu 7 ze Statystyki Materał do wkładu 7 ze Statstk Aalza ZALEŻNOŚCI pomędz CECHAMI (Aalza KORELACJI REGRESJI) korelacj wkres rozrzutu (korelogram) rodzaje zależośc (brak, elowa, lowa) pomar sł zależośc lowej (współczk korelacj

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 2 ESTYMACJA PUNKTOWA

STATYSTYKA MATEMATYCZNA WYKŁAD 2 ESTYMACJA PUNKTOWA STATYSTYKA MATEMATYCZNA WYKŁAD ESTYMACJA PUNKTOWA Nech - ezay parametr rozkładu cechy X. Wartość parametru będzemy estymować (przyblżać) a podstawe elemetowej próby. - wyberamy statystykę U o rozkładze

Bardziej szczegółowo

OBLICZANIE NIEPEWNOŚCI METODĄ TYPU B

OBLICZANIE NIEPEWNOŚCI METODĄ TYPU B OBLICZANIE NIEPEWNOŚCI METODĄ TYPU B W przypadku gdy e występuje statystyczy rozrzut wyków (wszystke pomary dają te sam wyk epewość pomaru wyzaczamy w y sposób. Główą przyczyą epewośc pomaru jest epewość

Bardziej szczegółowo

Podstawy opracowania wyników pomiarowych, analiza błędów

Podstawy opracowania wyników pomiarowych, analiza błędów Podstawy opracowaa wyków pomarowych, aalza błędów I Pracowa Fzycza IF UJ Grzegorz Zuzel Lteratura I Pracowa fzycza Pod redakcją Adrzeja Magery Istytut Fzyk UJ Kraków 2006 Wstęp do aalzy błędu pomarowego

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Prawdopodobeństwo statystyka 0.06.0 r. Zadae. Ura zawera kul o umerach: 0,,,,. Z ury cągemy kulę, zapsujemy umer kulę wrzucamy z powrotem do ury. Czyość tę powtarzamy, aż kula z każdym umerem zostae wycągęta

Bardziej szczegółowo

W zadaniu nie ma polecenia wyznaczania estymatora nieobciążonego o minimalnej wariancji. σ σ σ σ σ = =

W zadaniu nie ma polecenia wyznaczania estymatora nieobciążonego o minimalnej wariancji. σ σ σ σ σ = = 4. Na podstawe erówośc Cramera Rao wyzacz dole ograczee dla waracj eobcążoego estymatora waracj σ w rozkładze ormalym N(0, σ. W zadau e ma polecea wyzaczaa estymatora eobcążoego o mmalej waracj dla σ,

Bardziej szczegółowo

( X, Y ) będzie dwuwymiarową zmienną losową o funkcji gęstości

( X, Y ) będzie dwuwymiarową zmienną losową o funkcji gęstości Zadae. Nech Nech (, Y będze dwuwymarową zmeą losową o fukcj gęstośc 4 x + xy gdy x ( 0, y ( 0, f ( x, y = 0 w przecwym przypadku. S = + Y V Y E V S =. =. Wyzacz ( (A 0 (B (C (D (E 8 8 7 7 Zadae. Załóżmy,

Bardziej szczegółowo

W zadaniu nie ma polecenia wyznaczania estymatora nieobciążonego o minimalnej wariancji. σ σ σ σ σ = =

W zadaniu nie ma polecenia wyznaczania estymatora nieobciążonego o minimalnej wariancji. σ σ σ σ σ = = 4. Na podstawe erówośc Cramera Rao wyzacz dole ograczee dla waracj eobcążoego estymatora waracj σ w rozkładze ormalym N(0, σ ). W zadau e ma polecea wyzaczaa estymatora eobcążoego o mmalej waracj dla σ,

Bardziej szczegółowo

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej Podstawy Mary położea wskazują mejsce wartośc ajlepej reprezetującej wszystke welkośc daej zmeej. Mówą o przecętym pozome aalzowaej cechy. Średa arytmetycza suma wartośc zmeej wszystkch jedostek badaej

Bardziej szczegółowo

ma rozkład normalny z wartością oczekiwaną EX = EY = 1, EZ = 0 i macierzą kowariancji

ma rozkład normalny z wartością oczekiwaną EX = EY = 1, EZ = 0 i macierzą kowariancji Zadae. Zmea losowa (, Y, Z) ma rozkład ormaly z wartoścą oczekwaą E = EY =, EZ = 0 macerzą kowaracj. Oblczyć Var(( Y ) Z). (A) 5 (B) 7 (C) 6 Zadae. Zmee losowe,, K,,K P ( = ) = P( = ) =. Nech S =. Oblcz

Bardziej szczegółowo

Podstawowe zadanie statystyki. Statystyczna interpretacja wyników eksperymentu. Zalety statystyki II. Zalety statystyki

Podstawowe zadanie statystyki. Statystyczna interpretacja wyników eksperymentu. Zalety statystyki II. Zalety statystyki tatystycza terpretacja wyków eksperymetu Małgorzata Jakubowska Katedra Chem Aaltyczej Wydzał IŜyer Materałowej Ceramk AGH Podstawowe zadae statystyk tatystyka to uwersale łatwo dostępe arzędze, które pomaga

Bardziej szczegółowo

Statystyczna analiza miesięcznych zmian współczynnika szkodowości kredytów hipotecznych

Statystyczna analiza miesięcznych zmian współczynnika szkodowości kredytów hipotecznych dr Ewa Wycka Wyższa Szkoła Bakowa w Gdańsku Wtold Komorowsk, Rafał Gatowsk TZ SKOK S.A. Statystycza aalza mesęczych zma współczyka szkodowośc kredytów hpoteczych Wskaźk szkodowośc jest marą obcążea kwoty/lczby

Bardziej szczegółowo

Liniowe relacje między zmiennymi

Liniowe relacje między zmiennymi Lowe relacje mędzy zmeym Marta Zalewska Zakład Proflaktyk ZagrożeńŚrodowskowych Alergolog Ocea lowych relacj mędzy zmeym Metoda korelacj - określee rodzaju sły zależośc mędzy cecham. Metoda regresj 1 Uwaga

Bardziej szczegółowo

. Wtedy E V U jest równa

. Wtedy E V U jest równa Prawdopodobeństwo statystyka 7.0.0r. Zadae Dwuwymarowa zmea losowa Y ma rozkład cągły o gęstośc gdy ( ) 0 y f ( y) 0 w przecwym przypadku. Nech U Y V Y. Wtedy E V U jest rówa 8 7 5 7 8 8 5 Prawdopodobeństwo

Bardziej szczegółowo

Planowanie eksperymentu pomiarowego I

Planowanie eksperymentu pomiarowego I POLITECHNIKA ŚLĄSKA W GLIWICACH WYDZIAŁ INŻYNIERII ŚRODOWISKA ENERGETYKI INSTYTUT MASZYN URZĄDZEŃ ENERGETYCZNYCH Plaowae eksperymetu pomarowego I Laboratorum merctwa (M 0) Opracował: dr ż. Grzegorz Wcak

Bardziej szczegółowo

N ( µ, σ ). Wyznacz estymatory parametrów µ i. Y które są niezależnymi zmiennymi losowymi.

N ( µ, σ ). Wyznacz estymatory parametrów µ i. Y które są niezależnymi zmiennymi losowymi. 3 Metody estymacj N ( µ, σ ) Wyzacz estymatory parametrów µ 3 Populacja geerala ma rozład ormaly mometów wyorzystując perwszy momet zwyły drug momet cetraly z prób σ metodą 3 Zmea losowa ma rozład geometryczy

Bardziej szczegółowo

opisać wielowymiarową funkcją rozkładu gęstości prawdopodobieństwa f(x 1 , x xn

opisać wielowymiarową funkcją rozkładu gęstości prawdopodobieństwa f(x 1 , x xn ROZKŁAD PRAWDOPODBIEŃSTWA WIELU ZMIENNYCH LOSOWYCH W przpadku gd mam do czea z zmem losowm możem prawdopodobeństwo, ż przjmą oe wartośc,,, opsać welowmarową fukcją rozkładu gęstośc prawdopodobeństwa f(,,,.

Bardziej szczegółowo

będą niezależnymi zmiennymi losowymi z rozkładu o gęstości

będą niezależnymi zmiennymi losowymi z rozkładu o gęstości Prawdopodobeństwo statystyka 4.0.00 r. Zadae Nech... będą ezależym zmeym losowym z rozkładu o gęstośc θ f ( x) = θ xe gdy x > 0. Estymujemy dodat parametr θ wykorzystując estymator ajwększej warogodośc

Bardziej szczegółowo

5. OPTYMALIZACJA NIELINIOWA

5. OPTYMALIZACJA NIELINIOWA 5. OPTYMALIZACJA NIELINIOWA Zdarza sę dość często, że zależośc występujące w aalzowaych procesach (p. ospodarczych) mają charakter elowy. Dlateo też, oprócz lowych zadań decyzyjych, formułujemy także elowe

Bardziej szczegółowo

Wnioskowanie statystyczne dla korelacji i regresji.

Wnioskowanie statystyczne dla korelacji i regresji. STATYSTYKA MATEMATYCZNA WYKŁAD 6 Woskowae statstcze dla korelacj regresj. Aalza korelacj Założee: zmea losowa dwuwmarowa X, Y) ma rozkład ormal o współczku korelacj ρ. X, Y cech adae rówocześe. X X X...

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematycza Aa Jacka wykład II, 3.05.016 PORÓWNANIE WIĘCEJ NIŻ DWÓCH POPULACJI TESTY NIEPARAMETRYCZNE Pla a dzsaj 1. Porówywae węcej ż dwóch populacj test jedoczykowej aalzy waracj (ANOVA).

Bardziej szczegółowo

KONCEPCJA WIELOKRYTERIALNEGO WSPOMAGANIA DOBORU WARTOŚCI PROGOWEJ W BIOMETRYCZNYM SYSTEMIE UWIERZYTELNIANIA. Adrian Kapczyński Maciej Wolny

KONCEPCJA WIELOKRYTERIALNEGO WSPOMAGANIA DOBORU WARTOŚCI PROGOWEJ W BIOMETRYCZNYM SYSTEMIE UWIERZYTELNIANIA. Adrian Kapczyński Maciej Wolny KONCEPCJA WIELOKRYTERIALNEGO WSPOMAGANIA DOBORU WARTOŚCI PROGOWEJ W BIOMETRYCZNYM SYSTEMIE UWIERZYTELNIANIA Adra Kapczyńsk Macej Woly Wprowadzee Rozwój całego spektrum coraz doskoalszych środków formatyczych

Bardziej szczegółowo

Monika Jeziorska - Pąpka Uniwersytet Mikołaja Kopernika w Toruniu

Monika Jeziorska - Pąpka Uniwersytet Mikołaja Kopernika w Toruniu DYNAMICZNE MODELE EKONOMERYCZNE X Ogólopolske Semarum Naukowe, 4 6 wrześa 2007 w oruu Katedra Ekoometr Statystyk, Uwersytet Mkołaja Koperka w oruu Moka Jezorska - Pąpka Uwersytet Mkołaja Koperka w oruu

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych r. t warunkowo niezależne i mają (brzegowe) rozkłady Poissona:

Matematyka ubezpieczeń majątkowych r. t warunkowo niezależne i mają (brzegowe) rozkłady Poissona: Zadae. W kolejych okresach czasu t =, ubezpeczoy, charakteryzujący sę parametrem ryzyka Λ, geeruje N t szkód. Dla daego Λ = λ zmee N, N są warukowo ezależe mają (brzegowe) rozkłady Possoa: k λ Pr( N t

Bardziej szczegółowo

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH. dr Michał Silarski

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH. dr Michał Silarski PODTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH dr Mchał larsk I Pracowa Fzycza IF UJ, 9.0.06 Pomar Pomar zacowae wartośc prawdzwej Bezpośred (welkość fzycza merzoa jest

Bardziej szczegółowo

L.Kowalski PODSTAWOWE TESTY STATYSTYCZNE WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH

L.Kowalski PODSTAWOWE TESTY STATYSTYCZNE WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH L.Kowalsk PODSTAWOWE TESTY STATYSTYCZNE TESTY STATYSTYCZNE poteza statystycza to dowole przypuszczee dotyczące rozkładu cechy X. potezy statystycze: -parametrycze dotyczą ezaego parametru, -parametrycze

Bardziej szczegółowo

Statystyka. Katarzyna Chudy Laskowska

Statystyka. Katarzyna Chudy Laskowska Statstka Katarza Chud Laskowska http://kc.sd.prz.edu.pl/ Aalza korelacj umożlwa stwerdzee wstępowaa zależośc oraz oceę jej atężea ZALEŻNOŚCI pomędz CECHAMI: CECHY: ILOŚCIOWA ILOŚCIOWA CECHY: JAKOŚCIOWA

Bardziej szczegółowo

Różniczkowanie funkcji rzeczywistych wielu zmiennych. Matematyka Studium doktoranckie KAE SGH Semestr letni 2008/2009 R. Łochowski

Różniczkowanie funkcji rzeczywistych wielu zmiennych. Matematyka Studium doktoranckie KAE SGH Semestr letni 2008/2009 R. Łochowski Różczkowae fukcj rzeczywstych welu zmeych rzeczywstych Matematyka Studum doktoracke KAE SGH Semestr let 8/9 R. Łochowsk Pochoda fukcj jedej zmeej e spojrzee Nech f : ( α, β ) R, α, β R, α < β Fukcja f

Bardziej szczegółowo

wyniki serii n pomiarów ( i = 1,..., n) Stosując metodę największej wiarygodności możemy wykazać, że estymator wariancji 2 i=

wyniki serii n pomiarów ( i = 1,..., n) Stosując metodę największej wiarygodności możemy wykazać, że estymator wariancji 2 i= ESTYMATOR WARIANCJI I DYSPERSJI Ozaczmy: µ wartość oczekwaa rozkładu gauowkego wyków pomarów (wartość prawdzwa merzoej welkośc σ dyperja rozkładu wyków pomarów wyk er pomarów (,..., Stoując metodę ajwękzej

Bardziej szczegółowo

f f x f, f, f / / / METODA RÓŻNIC SKOŃCZONYCH niech N = 2 (2 równania różniczkowe zwyczajne liniowe I-rz.) lub jedno II-rzędu

f f x f, f, f / / / METODA RÓŻNIC SKOŃCZONYCH niech N = 2 (2 równania różniczkowe zwyczajne liniowe I-rz.) lub jedno II-rzędu METODA RÓŻIC SKOŃCZOYCH (omówee a przykładze rówań lowych) ech ( rówaa różczkowe zwyczaje lowe I-rz.) lub jedo II-rzędu f / / p( x) f / + q( x) f + r( x) a x b, f ( a) α, f ( b) β dea: a satce argumetu

Bardziej szczegółowo

3. OPTYMALIZACJA NIELINIOWA

3. OPTYMALIZACJA NIELINIOWA Wybrae zaadea badań operacyjych dr ż. Zbew Tarapata 3. OPTYMALIZACJA NIELINIOWA Zdarza sę dość często że zależośc występujące w aalzowaych procesach (p. ospodarczych) mają charakter elowy. Dlateo też oprócz

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 1. Wiadomości wstępne

STATYSTYKA MATEMATYCZNA WYKŁAD 1. Wiadomości wstępne TATYTYKA MATEMATYCZNA WYKŁAD Wadomośc wstępe tatystyka to dyscypla aukowa, której zadaem jest wykrywae, aalza ops prawdłowośc występujących w procesach masowych. Populacja to zborowość podlegająca badau

Bardziej szczegółowo

dev = y y Miary położenia rozkładu Wykład 9 Przykład: Przyrost wagi owiec Odchylenia Mediana próbkowa: Przykłady Statystyki opisowe Σ dev i =?

dev = y y Miary położenia rozkładu Wykład 9 Przykład: Przyrost wagi owiec Odchylenia Mediana próbkowa: Przykłady Statystyki opisowe Σ dev i =? Mary położea rozkładu Wykład 9 Statystyk opsowe Średa z próby, mea(y) : symbol y ozacza lczbę; arytmetyczą średą z obserwacj Symbol Y ozacza pojęce średej z próby Średa jest środkem cężkośc zboru daych

Bardziej szczegółowo

Probabilistyka i statystyka. Korelacja

Probabilistyka i statystyka. Korelacja 06-05-08 Probablstyka statystyka Korelacja Probablstyka statystyka - wykład 9 dla Elektrok Korelacja Aalza korelacj zajmuje sę badaam stea zależośc lowej mędzy dwema cecham X Y. Podstawową marą jest współczyk

Bardziej szczegółowo

Miary statystyczne. Katowice 2014

Miary statystyczne. Katowice 2014 Mary statystycze Katowce 04 Podstawowe pojęca Statystyka Populacja próba Cechy zmee Szereg statystycze Wykresy Statystyka Statystyka to auka zajmująca sę loścowym metodam aalzy zjawsk masowych (występujących

Bardziej szczegółowo

IV. ZMIENNE LOSOWE DWUWYMIAROWE

IV. ZMIENNE LOSOWE DWUWYMIAROWE IV. ZMIENNE LOSOWE DWUWYMIAROWE 4.. Rozkład zmeej losowej dwuwymarowej Defcja 4.. Uporządkowaą parę (X, Y) azywamy zmeą losową dwuwymarową, jeśl każda ze zmeych X Y jest zmeą losową. Defcja 4.. Fukcję

Bardziej szczegółowo

Średnia arytmetyczna Klasyczne Średnia harmoniczna Średnia geometryczna Miary położenia inne

Średnia arytmetyczna Klasyczne Średnia harmoniczna Średnia geometryczna Miary położenia inne Mary położea Średa arytmetycza Klasycze Średa harmocza Średa geometrycza Mary położea e Modala Kwartyl perwszy Pozycyje Medaa (kwartyl drug) Kwatyle Kwartyl trzec Decyle Średa arytmetycza = + +... + 2

Bardziej szczegółowo

TARCIE CIĘGIEN O POWIERZCHNIĘ WALCOWĄ WZÓR EULERA

TARCIE CIĘGIEN O POWIERZCHNIĘ WALCOWĄ WZÓR EULERA Ćwczee 8 TARCIE CIĘGIEN O POWIERZCHNIĘ WALCOWĄ WZÓR EULERA 8.. Cel ćwczea Celem ćwczea jest wyzaczee statyczego współczyka tarca pomędzy walcową powerzchą cała a opasującą je lą. Poadto a drodze eksperymetalej

Bardziej szczegółowo

x, y środek ciężkości zbioru

x, y środek ciężkości zbioru Y ANALIZA REGRESJI I KORELACJI zwązek stochastyczy (losowy), probablstyczy Y X KAŻDEJ WARTOŚCI x ODPOWIADA CAŁY ZBIÓR WARTOŚCI y TWORZĄCYCH OKREŚLONY ROZKŁAD zwązek statystyczy ŷ a a x ŷ średa rozkładu

Bardziej szczegółowo

Jego zależy od wysokości i częstotliwości wypłat kuponów odsetkowych, ceny wykupu, oczekiwanej stopy zwrotu oraz zapłaconej ceny za obligację.

Jego zależy od wysokości i częstotliwości wypłat kuponów odsetkowych, ceny wykupu, oczekiwanej stopy zwrotu oraz zapłaconej ceny za obligację. Wrażlwość oblgacj Jedym z czyków ryzyka westowaa w oblgacje jest zmeość rykowych stóp procetowych. Iżyera fasowa dyspouje metodam pozwalającym zabezpeczyć portfel przed egatywym skutkam zma stóp procetowych.

Bardziej szczegółowo

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH. I Pracownia IF UJ Marzec 2017

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH. I Pracownia IF UJ Marzec 2017 PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH I Pracowa IF UJ Marzec 07 PODRĘCZNIKI Wstęp do aalzy błędu pomarowego Joh R. Taylor Wydawctwo Naukowe PWN Warszawa 999

Bardziej szczegółowo

Wyznaczanie oporu naczyniowego kapilary w przepływie laminarnym.

Wyznaczanie oporu naczyniowego kapilary w przepływie laminarnym. Wyzaczae oporu aczyowego kaplary w przepływe lamarym. I. Przebeg ćwczea. 1. Zamkąć zawór odcający przewody elastycze a astępe otworzyć zawór otwerający dopływ wody do przewodu kaplarego. 2. Ustawć zawór

Bardziej szczegółowo

L.Kowalski zadania ze statystyki opisowej-zestaw 5. ZADANIA Zestaw 5

L.Kowalski zadania ze statystyki opisowej-zestaw 5. ZADANIA Zestaw 5 L.Kowalsk zadaa ze statystyk opsowej-zestaw 5 Zadae 5. X cea (zł, Y popyt (tys. szt.. Mając dae ZADANIA Zestaw 5 x,5,5 3 3,5 4 4,5 5 y 44 43 43 37 36 34 35 35 Oblcz współczyk korelacj Pearsoa. Oblcz współczyk

Bardziej szczegółowo

ZJAZD 1. STATYSTYKA OPISOWA wstępna analiza danych

ZJAZD 1. STATYSTYKA OPISOWA wstępna analiza danych ZJAZD Przedmotem statystyk jest zberae, prezetacja oraz aalza daych opsujących zjawska losowe. Badau statystyczemu podlega próbka losowa pobraa z populacj, aczej populacj geeralej. Na podstawe uzyskaych

Bardziej szczegółowo

Regresja REGRESJA

Regresja REGRESJA Regresja 39. REGRESJA.. Regresja perwszego rodzaju Nech (, będze dwuwyarową zeą losową, dla które steje kowaracja. Nech E( y ozacza warukową wartość oczekwaą zdefowaą dla przypadku zeych losowych typu

Bardziej szczegółowo

ANALIZA KORELACJI DEFINICJA ZALEŻNOŚCI KORELACYJNEJ, RODZAJE ZALEŻNOŚCI KORELACYJNYCH KLASYFIKACJA METOD ANALIZY ZALEŻNOŚCI STATYSTYCZNYCH

ANALIZA KORELACJI DEFINICJA ZALEŻNOŚCI KORELACYJNEJ, RODZAJE ZALEŻNOŚCI KORELACYJNYCH KLASYFIKACJA METOD ANALIZY ZALEŻNOŚCI STATYSTYCZNYCH AALIZA KORELACJI DEFIICJA ZALEŻOŚCI KORELACYJEJ, Zależośd korelacyja (statystycza) występuje wtedy, gdy określoym wartoścom jedej zmeej są przyporządkowae pewe średe wartośc drugej zmeej e moża wyzaczyd

Bardziej szczegółowo

ZAGADNIENIE TRANSPORTOWE

ZAGADNIENIE TRANSPORTOWE ZAGADNIENIE TRANSPORTOWE ZT.. Zagadee trasportowe w postac tablcy Z m puktów (odpowedo A,...,A m ) wysyłamy edorody produkt w loścach a,...,a m do puktów odboru (odpowedo B,...,B ), gdze est odberay w

Bardziej szczegółowo

FINANSE II. Model jednowskaźnikowy Sharpe a.

FINANSE II. Model jednowskaźnikowy Sharpe a. ODELE RYNKU KAPITAŁOWEGO odel jedowskaźkowy Sharpe a. odel ryku kaptałowego - CAP (Captal Asset Prcg odel odel wycey aktywów kaptałowych). odel APT (Arbtrage Prcg Theory Teora artrażu ceowego). odel jedowskaźkowy

Bardziej szczegółowo

OKREŚLANIE NIEPEWNOŚCI POMIARÓW (poradnik do Laboratorium Fizyki)

OKREŚLANIE NIEPEWNOŚCI POMIARÓW (poradnik do Laboratorium Fizyki) Adrzej Kubaczyk Laboratorum Fzyk I Wydzał Fzyk Poltechka Warszawska OKREŚLANIE NIEPEWNOŚCI POMIARÓW (poradk do Laboratorum Fzyk) ROZDZIAŁ Wstęp W roku 995 z cjatywy Mędzyarodowego Komtetu Mar (CIPM) zostały

Bardziej szczegółowo

AKADEMIA MORSKA W SZCZECINIE

AKADEMIA MORSKA W SZCZECINIE AKADEMIA MORSKA W SZCZECINIE Istytut Iżyer Ruchu Morskego Zakład Urządzeń Nawgacyjych Istrukcja r 0 Wzory do oblczeń statystyczych w ćwczeach z radoawgacj Szczec 006 Istrukcja r 0: Wzory do oblczeń statystyczych

Bardziej szczegółowo

JEDNOWYMIAROWA ZMIENNA LOSOWA

JEDNOWYMIAROWA ZMIENNA LOSOWA JEDNOWYMIAROWA ZMIENNA LOSOWA Nech E będze zborem zdarzeń elemetarych daego dośwadczea. Fucję X(e) przyporządowującą ażdemu zdarzeu elemetaremu e E jedą tylo jedą lczbę X(e)=x azywamy ZMIENNĄ LOSOWĄ. Przyład:

Bardziej szczegółowo

Obliczanie średniej, odchylenia standardowego i mediany oraz kwartyli w szeregu szczegółowym i rozdzielczym?

Obliczanie średniej, odchylenia standardowego i mediany oraz kwartyli w szeregu szczegółowym i rozdzielczym? Oblczae średej, odchylea tadardowego meday oraz kwartyl w zeregu zczegółowym rozdzelczym? Średa medaa ależą do etymatorów tzw. tedecj cetralej, atomat odchylee tadardowe to etymatorów rozprozea (dyperj)

Bardziej szczegółowo

[, ] [, ] [, ] ~ [23, 2;163,3] 19,023 2,7

[, ] [, ] [, ] ~ [23, 2;163,3] 19,023 2,7 6. Przez 0 losowo wybrayh d merzoo zas dojazdu do pray paa A uzyskują próbkę x,..., x 0. Wyk przedstawały sę astępująo: jest to próbka losowa z rozkładu 0 0 x 300, 944. x Zakładamy, że N ( µ, z ezaym parametram

Bardziej szczegółowo

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np. Wykład 7 Uwaga: W praktyce często zdarza sę, że wynk obu prób możemy traktować jako wynk pomarów na tym samym elemence populacj np. wynk x przed wynk y po operacj dla tego samego osobnka. Należy wówczas

Bardziej szczegółowo

METODY ANALIZY DANYCH DOŚWIADCZALNYCH

METODY ANALIZY DANYCH DOŚWIADCZALNYCH POLITECHNIKA Ł ÓDZKA TOMASZ W. WOJTATOWICZ METODY ANALIZY DANYCH DOŚWIADCZALNYCH Wybrae zagadea ŁÓDŹ 998 Przedsłowe Specyfką teor pomarów jest jej wtóry charakter w stosuku do metod badawczych stosowaych

Bardziej szczegółowo

Estymacja to wnioskowanie statystyczne koncentrujące się wokół oszacowania wartości parametrów rozkładu populacji.

Estymacja to wnioskowanie statystyczne koncentrujące się wokół oszacowania wartości parametrów rozkładu populacji. Botatytyka, 018/019 dla Fzyk Medyczej, tuda magterke etymacja etymacja średej puktowa przedzał ufośc średej rozkładu ormalego etymacja puktowa przedzałowa waracj rozkładu ormalego etymacja parametrów rozkładu

Bardziej szczegółowo

= , t 1872, = , t 1872,0.95

= , t 1872, = , t 1872,0.95 19 stycza 008 Zadae 1 Dyspoujemy próbą dla Staów Zjedoczoych z roku 1988 dotyczącą kobet: l_wage logarytm zarobków; ttl_exp całkowte dośwadczee zawodowe wyrażoe w latach; uo czy osoba ależy do zwązków

Bardziej szczegółowo

UOGÓLNIONA ANALIZA WRAŻLIWOŚCI ZYSKU W PRZEDSIĘBIORSTWIE PRODUKUJĄCYM N-ASORTYMENTÓW. 1. Wprowadzenie

UOGÓLNIONA ANALIZA WRAŻLIWOŚCI ZYSKU W PRZEDSIĘBIORSTWIE PRODUKUJĄCYM N-ASORTYMENTÓW. 1. Wprowadzenie B A D A N I A O P E R A C Y J N E I D E C Y J E Nr 2 2007 Aa ĆWIĄKAŁA-MAŁYS*, Woletta NOWAK* UOGÓLNIONA ANALIA WRAŻLIWOŚCI YSKU W PREDSIĘBIORSTWIE PRODUKUJĄCYM N-ASORTYMENTÓW Przedstawoo ajważejsze elemety

Bardziej szczegółowo

Badania niezawodnościowe i statystyczna analiza ich wyników

Badania niezawodnościowe i statystyczna analiza ich wyników Badaa ezawodoścowe statystycza aalza ch wyków. Co to są badaa ezawodoścowe jak sę je przeprowadza?. Metody prezetacj opsu daych pochodzących z eksperymetu 3. Sposoby wyzaczaa rozkładu zmeej losowej a podstawe

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version WIII/1

PDF created with FinePrint pdffactory Pro trial version  WIII/1 Statystyka opsowa Statystyka zajmuje sę zasadam metodam uogólaa wyków otrzymaych z próby losowej a całą populację (czyl zborowość, z której została pobraa próba). Take postępowae azywamy woskowaem statystyczym.

Bardziej szczegółowo

Badania Maszyn CNC. Nr 2

Badania Maszyn CNC. Nr 2 Poltechka Pozańska Istytut Techolog Mechaczej Laboratorum Badaa Maszy CNC Nr 2 Badae dokładośc pozycjoowaa os obrotowych sterowaych umerycze Opracował: Dr. Wojcech Ptaszy sk Mgr. Krzysztof Netter Pozań,

Bardziej szczegółowo

O testowaniu jednorodności współczynników zmienności

O testowaniu jednorodności współczynników zmienności NR 6/7/ BIULETYN INSTYTUTU HODOWLI I AKLIMATYZACJI ROŚLIN 003 STANISŁAW CZAJKA ZYGMUNT KACZMAREK Katedra Metod Matematyczych Statystyczych Akadem Rolczej, Pozań Istytut Geetyk Rośl PAN, Pozań O testowau

Bardziej szczegółowo

( ) L 1. θ θ = M. Przybycień Rachunek prawdopodobieństwa i statystyka. = θ. min

( ) L 1. θ θ = M. Przybycień Rachunek prawdopodobieństwa i statystyka. = θ. min Fukca warogodośc Nech będze daa próba losowa prosta o lczebośc z rozkładu f (x;. Fukcą warogodośc dla próby x azywamy welkość: ( x; f ( x ; L Twerdzee (Cramera-Rao: Mmala wartość warac m dowolego eobcążoego

Bardziej szczegółowo

WSPÓŁZALEŻNOŚĆ PROCESÓW MASOWYCH Co w Sylabusie?

WSPÓŁZALEŻNOŚĆ PROCESÓW MASOWYCH Co w Sylabusie? WSPÓŁZALEŻNOŚĆ PROCESÓW MASOWYCH Co w Sylabuse?. Aalza korelacj. Testy ezależośc 3. Aalza regresj 4. Regresja perwszego drugego rodzaju 5. Woskowae statystycze WSPÓŁCZYNNIK KORELACJI (PEARSONA) Aalza korelacj

Bardziej szczegółowo

PŁASKA GEOMETRIA MAS. Środek ciężkości figury płaskiej

PŁASKA GEOMETRIA MAS. Środek ciężkości figury płaskiej PŁAKA GEOMETRIA MA Środek cężkośc fgury płaskej Mometam statyczym M x M y fgury płaskej względem os x lub y (rys. 7.1) azywamy gracę algebraczej sumy loczyów elemetarych pól d przez ch odległośc od os,

Bardziej szczegółowo

KALIBRACJA NIE ZAWSZE PROSTA

KALIBRACJA NIE ZAWSZE PROSTA KALIBRACJA NIE ZAWSZE PROSTA Potr Koeczka Katedra Chem Aaltyczej Wydzał Chemczy Poltechka Gdańska S w S C -? C w Sygał - astępstwo kosekwecja przeprowadzoego pomaru główy obekt zateresowań aaltyka. Cel

Bardziej szczegółowo

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Marek Cecura, Jausz Zacharsk PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE CZĘŚĆ II STATYSTYKA OPISOWA Na prawach rękopsu Warszawa, wrzeseń 0 Data ostatej aktualzacj: czwartek, 0 paźdzerka

Bardziej szczegółowo

Permutacje. } r ( ) ( ) ( ) 1 2 n. f = M. Przybycień Matematyczne Metody Fizyki I Wykład 2-2

Permutacje. } r ( ) ( ) ( ) 1 2 n. f = M. Przybycień Matematyczne Metody Fizyki I Wykład 2-2 Permutacje { 2,,..., } Defcja: Permutacją zboru lczb azywamy dowolą różowartoścową fukcję określoą a tym zborze o wartoścach w tym zborze. Uwaga: Lczba wszystkch permutacj wyos! Permutacje zapsujemy w

Bardziej szczegółowo

WSTĘP METODY OPRACOWANIA I ANALIZY WYNIKÓW POMIARÓW

WSTĘP METODY OPRACOWANIA I ANALIZY WYNIKÓW POMIARÓW WSTĘP METODY OPRACOWANIA I ANALIZY WYNIKÓW POMIARÓW U podstaw wszystkch auk przyrodczych leży zasada: sprawdzaem wszelkej wedzy jest eksperymet, tz jedyą marą prawdy aukowej jest dośwadczee Fzyka, to auka

Bardziej szczegółowo

WYZNACZANIE WARTOŚCI ENERGII ROZPRASZANEJ PODCZAS ZDERZENIA CIAŁ

WYZNACZANIE WARTOŚCI ENERGII ROZPRASZANEJ PODCZAS ZDERZENIA CIAŁ 9 Cel ćwczea Ćwczee 9 WYZNACZANIE WARTOŚCI ENERGII ROZPRASZANE PODCZAS ZDERZENIA CIAŁ Celem ćwczea jest wyzaczee wartośc eerg rozpraszaej podczas zderzea cał oraz współczyka restytucj charakteryzującego

Bardziej szczegółowo

k k M. Przybycień Rachunek Prawdopodobieństwa i Statystyka Wykład 13-2

k k M. Przybycień Rachunek Prawdopodobieństwa i Statystyka Wykład 13-2 Pojęce przedzału ufośc Przyład: Rozważmy pewe rzad proces (tz. ta tórego lczba zajść podlega rozładow Possoa). W cągu pewego czasu zaobserwowao =3 tae zdarzea. Oceć możlwy przedzał lczby zdarzeń tego typu

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH 1 Test zgodnośc χ 2 Hpoteza zerowa H 0 ( Cecha X populacj ma rozkład o dystrybuance F). Hpoteza alternatywna H1( Cecha X populacj

Bardziej szczegółowo

Pomiary bezpośrednie i pośrednie obarczone błędem przypadkowym

Pomiary bezpośrednie i pośrednie obarczone błędem przypadkowym Pomary bezpośrede pośrede obarczoe błędem przypadkowym I. Szacowae wartośc przyblŝoej graczego błędu przypadkowego a przykładze bezpośredego pomaru apęca elem ćwczea jest oszacowae wartośc przyblŝoej graczego

Bardziej szczegółowo

Lekcja 1. Pojęcia podstawowe: Zbiorowość generalna i zbiorowość próbna

Lekcja 1. Pojęcia podstawowe: Zbiorowość generalna i zbiorowość próbna TECHNIKUM ZESPÓŁ SZKÓŁ w KRZEPICACH PRACOWNIA EKONOMICZNA TEORIA ZADANIA dla klasy II Techkum Marek Kmeck Zespół Szkół Techkum w Krzepcach Wprowadzee do statystyk Lekcja Statystyka - określa zbór formacj

Bardziej szczegółowo

ROZKŁADY ZMIENNYCH LOSOWYCH

ROZKŁADY ZMIENNYCH LOSOWYCH ROZKŁADY ZMIENNYCH LOSOWYCH ZMIENNA LOSOWA Defcja. Zmeą losową jest fukcja: X: E -> R która każdemu zdarzeu elemetaremu E przypsuje lczbę rzeczywstą e X ( e) R DYSTRYBUANTA Dystrybuatą zmeej losowej X

Bardziej szczegółowo

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH PODTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH I Pracowa IF UJ Luy 03 PODRĘCZNIKI Wsęp do aalzy błędu pomarowego Joh R. Taylor Wydawcwo Naukowe PWN Warszawa 999 I Pracowa

Bardziej szczegółowo

Linie regresji II-go rodzaju

Linie regresji II-go rodzaju Lam regresj II-go rodzaju zmeej () względem () azwam zadae krzwe g(;,, ) oraz h(;,, ) gd spełają oe odpowedo waruk: E E Le regresj II-go rodzaju ( ( )) ( ) ( ) ( ) ( ) g ;,,... g ;,,... f, dd m,,... (

Bardziej szczegółowo

BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH - ANALIZA KORELACJI PROSTEJ

BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH - ANALIZA KORELACJI PROSTEJ Matematka statstka matematcza dla rolków w SGGW Aa Rajfura, KDB WYKŁAD 2 BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH - ANALIZA KORELACJI PROSTEJ Matematka statstka matematcza dla rolków w SGGW Aa Rajfura, KDB Przkład.

Bardziej szczegółowo

VI. TWIERDZENIA GRANICZNE

VI. TWIERDZENIA GRANICZNE VI. TWIERDZENIA GRANICZNE 6.. Wprowadzee Twerdzea gracze dotyczą własośc graczych cągów zmeych losowych dzelą sę a:! twerdzea lokale opsują zbeżośc cągu fukcj prawdopodobeństwa w przypadku cągu {X } zmeych

Bardziej szczegółowo

Współczynnik korelacji rangowej badanie zależności między preferencjami

Współczynnik korelacji rangowej badanie zależności między preferencjami Współczyk korelacj ragowej badae zależośc mędzy preferecjam Przemysław Grzegorzewsk Istytut Badań Systymowych PAN ul. Newelska 6 01-447 Warszawa E-mal: pgrzeg@bspa.waw.pl Pla referatu: Klasycze metody

Bardziej szczegółowo

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH I PRACOWNIA FIZYCZNA INSTYTUT FIZYKI UJ BIOLOGIA 2016

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH I PRACOWNIA FIZYCZNA INSTYTUT FIZYKI UJ BIOLOGIA 2016 PODTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH I PRACOWNIA FIZYCZNA INTYTUT FIZYKI UJ BIOLOGIA 06 CEL ĆWICZEŃ. Obserwacja zjawsk efektów fzyczych. Doskoalee umejętośc

Bardziej szczegółowo

EKSTREMA FUNKCJI EKSTREMA FUNKCJI JEDNEJ ZMIENNEJ. Tw. Weierstrassa Każda funkcja ciągła na przedziale domkniętym ma wartość najmniejszą i największą.

EKSTREMA FUNKCJI EKSTREMA FUNKCJI JEDNEJ ZMIENNEJ. Tw. Weierstrassa Każda funkcja ciągła na przedziale domkniętym ma wartość najmniejszą i największą. Joaa Ceślak, aula Bawej ESTREA FUNCJI ESTREA FUNCJI JEDNEJ ZIENNEJ Otoczeem puktu R jest każdy przedzał postac,+, gdze >. Sąsedztwem puktu jest każdy zbór postac,,+, gdze >. Nech R, : R oraz ech. De. ówmy,

Bardziej szczegółowo

Pomiary parametrów napięć i prądów przemiennych

Pomiary parametrów napięć i prądów przemiennych Ćwczee r 3 Pomary parametrów apęć prądów przemeych Cel ćwczea: zapozae z pomaram wartośc uteczej, średej, współczyków kształtu, szczytu, zekształceń oraz mocy czyej, berej, pozorej współczyka cosϕ w obwodach

Bardziej szczegółowo

TMM-2 Analiza kinematyki manipulatora metodą analityczną

TMM-2 Analiza kinematyki manipulatora metodą analityczną Opracował: dr ż. Przemysław Szumńsk Laboratorum Teor Mechazmów Automatyka Robotyka, Mechatroka TMM- Aalza kematyk mapulatora metodą aaltyczą Celem ćwczea jest zapozae sę ze sposobem aalzy kematyk mechazmu

Bardziej szczegółowo