MEODY ILOŚCIOWE W BADANIACH EKONOMICZNYCH om XII/, 011, str. 0 09 ZANURZANIE W REGRESJI LINIOWEJ Małgorzata Kobylńska Katedra Metod Iloścowych Uwersytet Warmńsko-Mazursk w Olsztye e-mal: agosak@oczta.oet.l Streszczee: Wrowadzoe rzez ukey a [ukey 1975] ojece zaurzaa obserwacj w róbach welowymarowych stało sę arzędzem służącym aalze daych. Dzęk wykorzystau mary zaurzaa obserwacj w róbe rzezwycęża sę trudośc zwązae z orządkowaem obserwacj welowymarowych. Pojęce zaurzaa daych było tesywe rozwjae rzez welu badaczy z uktu jego rzydatośc do osu statystyczego daych jedo welowymarowych W lteraturze rzedmotu sotkać moża róże krytera oraz metody wyzaczaa mary zaurzaa obserwacj w róbe. W racy odao określee zaurzea obserwacj w róbe oraz ojęca z m zwązae. Przedstawoo wykorzystae zaurzaa w regresj lowej dla rzyadku dwuwymarowego. Słowa kluczowe: zaurzae obserwacj w róbe, fukcja regresj lowej WPROWADZENIE Praca ukey a [ukey 1975] stała sę sracją do wrowadzea welu ojęć zwązaych z aalzą eksloratywą daych lczbowych. Jedym z ch jest zaurzae daych, będące relatywą marą obserwacj w daym zborze daych. W 1998 roku Rousseeuw Huber wrowadzl ojece zaurzaa fukcj regresj lowej w zborze dwuwymarowym. Wartość zaurzaa regresj jest lczbą całkowtą ależącą do rzedzału od zera do może być wykorzystywaa do badaa doasowaa rówaa regresj lowej do daych emryczych, rzy czym wyższe wartośc zaurzaa odowadają fukcjom leej doasowaym do tych daych. W racy rzedstawoe zostae określee zaurzaa obserwacj w róbe oraz ojęca z m zwązae. Zaurzae w róbe dwuwymarowej rozważae będze, jako ewa własość doasowaa regresj lowej do daych
Zaurzae w regresj lowej 03 emryczych dla rzyadku dwuwymarowego. Metoda wyzaczaa zaurzaa regresj lowej zlustrowaa będze a rzykładze lczbowym. Zarezetoway zostae algorytm umożlwający wyzaczee zaurzaa fukcj regresj w zborze dwuwymarowym. OKREŚLENIE ZANURZANIA OBSERWACJI W PRÓBIE = 1, będze układem obserwowalych wektorów wyrażających róbę -wymarową o lczebośc ochodzącą z ewego -wymarowego rozkładu określoego dystrybuatą F oraz ech θ R będze ewym uktem z rzestrze rzeczywstej R. W szczególośc może ależeć o do układu uktów z róby P. Wówczas każdy ukt x jest rozatryway jako -wymarowy wektor kolumowy x [ ] = x, 1 x,..., x, gdze x j jest wartoścą j-tej zmeej (czyl zmeej X j ) zaobserwowaą dla -tego obektu rzy = 1,,..., oraz j = 1,,...,. Jeżel e węcej ż obserwacj ależy do jakejkolwek (-1)-wymarowej odrzestrze, to róbę P azyway zborem uktów ogóle ozytywym, według azewctwa wrowadzoego rzez Dooho Gasko [Dooho Gasko 199]. Dla określea zaurzaa obserwacj w róbe ależy zauważyć, ż wektory róby Nech P { x x,..., x } x mogą być uorządkowae, gdy zostaą oe rzekształcoe do P welkośc skalarych u x dla zadaego wektora wektorów x, x,..., x P u R. Wówczas cąg 1 rzechodz w cąg skalarów u x1, u x,..., u x R, który może być uorządkoway mootocze. Wektor θ R srowadza sę do skalara u θ R. Ważą kwestą jest zlokalzowae u θ w cągu u x1, u x,..., u x. Zaurzae wektora θ w róbe P srowadza sę do badaa odległośc u θ od końców róby uorządkowaej emalejąco { u x() : = 1,,..., }, gdze u x u x... u x () 1 ( ) ( ). Na odaej kocecj określoa jest defcja zaurzaa ukey a obserwacj w róbe -wymarowej. Defcja 1. Zaurzaem uktu θ w róbe P azywamy fukcję róby za ( θ, ) o astęującej ostac P
04 Małgorzata Kobylńska za ( θ, ) = m #{ : u θ u x }, (1) P u = 1 gdze u jest wektorem kolumowym z rzestrze R o długośc 1, czyl o orme eukldesowej u = 1, atomast #{} ozacza lczebość rozważaego zboru. Przez za ( θ, P ) rozumemy róbkową wersję zaurzaa obserwacj w róbe P ochodzącej z rozkładu określoego dystrybuatą F. Itucyje zaurzae uktu θ w róbe P wyraża ajmejsza lczba uktów z tej róby, ołożoych o jedej stroe wektora θ. Pozwala to a dokoae orządkowaa elemetów róby P w cąg wektorów x ( 1),x( ),..., x( ) tak, że sełoy będze cąg erówośc za ( x(1) : P ) za( x() : P )... za( x( ) : P ), czyl cąg wartośc erosących. Obserwacje, którym odowadają wyższe wartośc zaurzaa zlokalzowae są bardzej cetrale w badaej róbe, te którym odowadają ajższe wartośc tej mary są zacze oddaloe od cetralego skuea róby. W lteraturze rzedmotu sotkać moża róże krytera wyzaczaa zaurzaa obserwacj w róbe m.. kryterum Mahalaobsa, kryterum Oja lub kryterum Baretta [atrz. Lu. 1999 a także Kobylńska 003]. Należy zazaczyć, że zagadea zwązae z wyzaczaem zaurzaa obserwacj w róbe są bezośredo zwązae z ojęcem koturów zaurzaa, które staową ch grafcze uzuełee. Określee koturów zaurzaa oraz metoda ch wyzaczaa rzedstawoe zostały m. w racy Ruts Rousseeuw [1996]. WYKORZYSANIE ZANURZANIA W REGRESJI LINIOWEJ Aalza regresj zajmuje sę osywaem zależośc omędzy zmeym. Kostruowae są modele, które loścowo osują zwązk omędzy tym zmeym. Pozwalają oe a aalzę struktury zależośc, zaczea czyka losowego oraz umożlwą rogozowae. Rówaem regresj azywamy rówae osujące zwązek omędzy zmeym z uwzględeem wystęowaa składka losowego. Rozatrzymy zbór dwuwymarowy ze względu a dwe zmee X Y, o których wadomo, że zmea X wywera trwały wływ a zmeą Y. Szacujemy rówae regresj lowej dla zaobserwowaych w róbe wartośc badaych zmeych. Oszacowae fukcj regresj lowej Y względem X rzedstawa rówae yˆ = ax b, gdze:
Zaurzae w regresj lowej 05 ŷ - teoretycze wartośc fukcj regresj odowadające daemu ozomow realzacj zmeej X, x - zaobserwowae w róbe realzacje zmeej objaśającej X, a, b - ocey arametrów fukcj regresj Y od X, rzy czym a jest oceą wsółczyka regresj lowej, b - oceą wyrazu wolego. Reszty modelu rówaa regresj będące różcą omędzy rzeczywstym wartoścam y odowadającym m wartoścam teoretyczym ŷ wyzaczae są według wzoru e = y yˆ. Nech P {( x, y ); = 1,,..., } R = będze róbą dwuwymarową o lczebośc oraz ech yˆ = ax b będze rówaem regresj dwóch zmeych, oszacowaym dla zaobserwowaych w róbe P realzacj zmeych X Y. Estymacja arametrów rówaa regresj jest ostęowaem mającym a celu zalezee oce arametrów strukturalych a odstawe daych z róby. Do tego celu wykorzystuje sę zazwyczaj Klasyczą Metodę Najmejszych Kwadratów, która ozwala a zalezee takch oce tych arametrów, że suma kwadratów odchyleń omędzy rzeczywstym teoretyczym wartoścam zmeej objaśaej jest ajmejsza. Estymacja arametrów lowej fukcj regresj olega a zalezeu takch wartośc dla ch oce, żeby model regresj był jak ajleej doasoway do daych emryczych. W celu określea jakośc doasowaa fukcj regresj do tych daych wykorzystać moża a rzykład take mary jak: warację resztową, odchylee stadardowe reszt, wsółczyk zmeośc losowej lub wsółczyk determacj. Do ocey jakośc oce arametrów strukturalych służą odowede testy statystycze. W aalze lowej fukcj regresj reszty tworzą rozkład emryczy, którego rozozae jest możlwe o oszacowau arametrów strukturalych tej fukcj. Porawe skostruoway model fukcj regresj, oza wysokm stoem odzwercedlaa wartośc emryczych, owe róweż charakteryzować sę ewym ożądaym własoścam rozkładu reszt (. stałoścą waracj lub zgodoścą z rozkładem ormalym składka losowego). Badae losowośc reszt ma a celu weryfkację hotezy o trafośc doboru ostac aaltyczej rówaa regresj. Należy zatem srawdzć, czy fukcja regresj lowej trafe osuje zależość omędzy zmeym X Y. Idea testu ser, który może być wykorzystyway w tym celu, uwzględa zak reszt rówaa regresj. Jeżel kolejo według rosących wartośc zmeej objaśającej astęują dość długe cąg reszt, złożoe wyłącze z wartośc o tych samych zakach (sere reszt), ozacza to, że reszty mają charakter elosowy. Mała lczba ser odowada
06 Małgorzata Kobylńska sytuacj, w której ukty emrycze e układają sę w sosób losowy ożej owyżej rostej regresj [atrz. Goryl. 007 lub Luszewcz Słaby 008]. Jeżel ocea doasowaa fukcj regresj do daych emryczych budz wątlwośc, ależy zbadać rzyczyy tego stau rzeczy. Powodem może być a rzykład wystęowae obserwacj etyowych w daym zborze daych lub ewłaścwa ostać aaltycza rówaa regresj. W racy zarooowaa zostae metoda wyzaczaa zaurzaa rówaa regresj w róbe dwuwymarowej, która może być wykorzystywaa w celu zbadaa orawośc doboru lowej fukcj regresj do daych emryczych. Określee fukcj, która jest edoasowaa do daych emryczych zboru dwuwymarowego odaje defcja. Defcja. Fukcję lową y = ax b azywamy edoasowaą do daych emryczych zboru dwuwymarowego, jeżel dla każdego x steje lczba rzeczywsta υ = υ taka, że dla każdego x υ zachodz y e < 0 x < υ dla każdego e > 0 x > υ dla każdego lub e > 0 x < υ dla każdego e < 0 x > υ dla każdego. Defcja 3. Zaurzaem fukcj regresj rza ( yˆ, P ) w zborze dwuwymarowym P azywamy ajmejsza lczbę obserwacj tego zboru, które ależy z ego usuąć, żeby rosta regresj stała sę edoasowaa do daych emryczych. Zgode z defcją zaurzae regresj lowej e uwzględa wartośc reszty tylko jej zak. Dla zboru P maksymala wartość zaurzaa fukcj regresj seła erówość max rza( yˆ, P ), () 3 gdze A jest częścą całkowta lczby A. Wartość zaurzaa będze rówa, jeżel wszystke ukty P będą leżały a tej rostej. Moża rzyjąć, że jeżel wartość zaurzaa fukcj regresj lowej w P będze wększa lub rówa 3, to fukcja lowa trafe osuje zależość omędzy badaym zmeym. Jeżel zbór P seła waruek zboru ogóle ozytywego, to maksymala wartość
Zaurzae w regresj lowej 07 zaurzaa jest e wększa od. Własośc dotyczące zaurzaa fukcj regresj w zborach dwuwymarowych welowymarowych zostały szczegółowo omówoe medzy ym w racy Rousseeuw Hubert 1998. Algorytm oblczaa zaurzaa fukcj regresj lowej w zborze dwuwymarowym obejmuje astęujące krok [Huber Rousseeuw 1998]: Krok 1. Dokoujemy orządkowaa obserwacj zboru dwuwymarowego P względem wartośc x takch, że x x... x 1 x, dla każdego = 1,,...,. Krok. Wyzaczamy lczebośc zborów L (υ ), L (υ ), R (υ ), R (υ ) jako L (υ) = #{ ; x υ r 0}, L (υ) = #{ ; x υ r 0} (υ) = ; x υ r 0, (υ) = ; x υ r 0 R #{ } > R #{ } > gdze υ jest ewą lczbą rzeczywstą, Krok 3. Oblczamy wartość zaurzaa regresj lowej w zborze P zgode z wzorem rza( yˆ, P ) = m( m{ L ( υ) R ( υ), L ( υ) R ( υ) }) υ. Na wykrese korelacyjym (Rys.1) umeszczoo dwe fukcje lowe y 1, y oraz rostą regresj y3 oszacowaą dla daych zboru dwuwymarowego P 10. Zauważyć moża, że fukcje y 1 oraz y są edoasowae do daych emryczych P 10. Isteją lczby rzeczywste x =υ1 x =υ take, że w wyku obrotu tych fukcj do ozycj oowej względem os X, odowedo dookoła uktów A B, roste te e rzejdą rzez żade ukt P Sostrzec moża, że. orzez usuece obserwacj 5, 6 10 fukcja regresj y 3 stae sę fukcją edoasowaą do daych emryczych zboru, czyl rza( y, P ) 3. Zgode 10 3 10 = z wzorem (), maksymala wartość zaurzaa fukcj regresj w zborze P 10 jest wększa lub rówa 3, czyl ostać lowa fukcj regresj została dobraa orawe Badając losowość reszt testem ser otrzymujemy lczbę ser rówą 4, wartośc krytycze odczytae z tablc rozkładu ser dla α = 0, 05 wyoszą odowedo 7. Ne ma węc odstaw do odrzucea hotezy głoszącej, że reszty modelu fukcj regresj lowej mają charakter losowy.
08 Małgorzata Kobylńska Rysuek 1. Wykres korelacyjy P10 oraz fukcją regresj oszacowaą dla obserwacj z dwema fukcja edoasowaym do tego zboru P 10 Źródło: oracowae włase a odstawe [Hubert Rousseeuw, 1998] PODSUMOWANIE W racy rzedstawoo metodę wyzaczaa zaurzaa regresj lowej w róbe dwuwymarowej. Może być oa wykorzystywaa w celu zbadaa doasowaa tej fukcj do daych emryczych, rzy czym wyższe wartośc zaurzaa śwadczą o leszym jej doasowau. Przyorządkowae daym fukcjom lowym odowadających m wartośc zaurzaa ozwala a dokoae ragowaa tych fukcj względem ch doasowaa do rozważaych daych. La edoasowaa do daych emryczych gdy e rzechodz rzez żadą obserwację daego zboru, oeważ zgode z defcją wszystke składk resztowe są ścśle dodate lub ścśle ujeme. Fukcja lowa rzechodząca rzez k obserwacj zboru dwuwymarowego ma wartość zaurzaa co ajmej k. Zaurzae regresj lowej, jak wyka z defcj, uwzględa tylko zak reszty. Moża oczekwać, że wysoka wartość zaurzaa może wystąć rzy skej wartośc wsółczyka determacj. Gorsze doasowae fukcj regresj do daych emryczych może być kosekwecją wykorzystaa do budowy tej fukcj daych zawerających obserwacje etyowe. Obserwacje te zmeają wyaczają charakter zależośc mędzy badaym zmeym, dlatego ważym
Zaurzae w regresj lowej 09 zagadeem badawczym jest ch wykryce elmacja we wstęej aalze daych [atrz.. Pawełek Zelaś 1996]. Zakres tego dzału statystyk jest dość szerok, w zwązku z tym trudo było omówć węcej roblemów atury metodologczej jak emryczej. Zasadczą kwestą jest oracowae efektywego algorytmu umeryczego wyzaczaa zaurzaa fukcj regresj w zborach dwumarowych welowymarowych. BIBLIOGRAFIA: Dooho D.L., Gasko M. (199) Breakdow Proertes of Locato Estmates Based o Halfsace Deth ad Projected Outlygess, he Aals of Statstcs, 0, 1803-187. Goryl A., Jędrzejczyk Z., Osewalsk J., Walkosz A. (007) Wrowadzee do ekoometr w rzykładach zadaach, PWN, Warszawa. Hubert M., Rousseeuw P. J. (1998) he Catle for dee regresso, Joural of Multvarate Aalyss 66, 70-96. Kobylńska M. (006) Comarso of selected crtera for determato of the measure of deth of a observato a two-dmesoal samle, Acta Uverstats Lodzess, Fola Oecoomca, 196. Lu R.Y, Parelus J.M., Sgh K. (1999) Multvarate Aalyss by Data Deth: Descrtve Statstcs, Grahcs ad Iferece, he Aals of Statstcs, 7, 783-858. Luszewcz A., Słaby., (008) Statystyka z aketem komuterowym SAISICA PL eora zastosowaa, Wydawctwo C.H.BECK. Pawełek B., Zelaś A. (1996) Obserwacje etyowe w badaach ekoometryczych, Badaa oeracyje decyzje, r, 59-86. Rousseeuw R.J., Hubert M. (1998) Regresso Deth, Joural of the Amerca Statstcal Assocato, 94, 388-40. Rousseeuw P.J., Ruts I. (1996) Bvarate Locato Deth, Aled Statstcs, 45, 516-56. ukey J.W. (1975) Mathematcs ad the Pcturg of Data, Proceedgs of the Iteratoal Cogress of Mathematcas, 53-531. DEPH IN LINEAR REGRESSION Abstract: he oto of observato deth multdmesoal samles troduced by ukey [ukey 1975] has become a ew tool for data aalyss. Alyg the measure of observato deth the samle the dffcultes related to orgasato of multdmesoal observato are overcome. he oto of data deth has bee develoed extesvely by may researchers from the ersectve of ts sutablty for statstcal descrto of sgledmesoal ad multdmesoal data. I the subject lterature dfferet crtera ad methods for determg the observato deth the samle ca be foud. he aer resets the defto of the observato deth the samle ad the related otos. he alcato of deth lear regresso for a two-dmesoal case was reseted. Key words: deth of the observato a samle, lear regresso fucto