Grażyna Trzpot Unwersytet Ekonomczny w Katowcach WYBRANE STATYSTYKI ODPORNE Wprowadzene Obserwacje oddalone (outlers) są takm obserwacjam w próbe, które mogą powodować zakłócena w ocene relacj w próbe. Ne jest to termn o znaczenu pejoratywnym; obserwacje oddalone mogą być poprawne, ale pownny być dentyfkowane dla oceny błędów. Poczynając od 60., zaproponowano wele metod slnych odpornych (robust and resstant) mnej wrażlwych na obserwacje oddalone. Mogą one konkurować, a nawet wygrywać ze standardowym statystycznym metodam. Omawana tematyka jest przedmotem wcześnejszych prac autork zawsze w kontekśce zastosowań w ekonom (Trzpot 009, 011a, 011b). Artykuł ten ma charakter opsowy w powązanu z przygotowywanym podręcznkem. 1. Statystyk jednowymarowe położena skal Średna z próby może być załamana przez pojedynczą obserwację. Jeżel dowolna obserwacja ma wartość taką, że y ±, wówczas średna z próby y ±, w przecweństwe do medany z próby, która ne jest wrażlwa na pojedyncze wartośc zmerzające do neskończonośc. Mówmy, że medana jest odporna na duże błędy, podczas gdy średna ne. Faktyczne medana może zneść do 50% dużych błędów zanm będze arbtralne duża; mówmy, że ma punkt załamana 50-proc., podczas gdy dla średnej mamy odpowedno 0%. Średna jest efektywnym estymatorem parametru położena dla rozkładu normalnego, dlatego może być wykorzystywana jako estymator parametru położena dla rozkładów zblżonych do normalnych. Metody odporne pownny meć wysoką efektywność w otoczenu zakładanego modelu statystycznego. Dlaczego ne jest wystarczające przesane danych odrzucene obserwacj odstających? Należy rozważyć wele aspektów metodologcznych: 1. Praktycy, nawet eksperc statystycy, ne zawsze przeglądają zbory danych.. Ostre decyzje, czy zachować, czy odrzucć obserwacje mogą być nezbyt trafne. Proponujemy nadać wag wątplwym obserwacjom. Możemy równeż odrzucć kompletne złe obserwacje.
Wybrane statystyk odporne 163 3. Może być zadanem trudnym lub wręcz nemożlwym umejscowene obserwacj odstających w welowymarowym lub mocno zrestrukturyzowanym zborze danych. 4. Odrzucene obserwacj odstających wpływa na rozkład teoretyczny (zmennej losowej), który mus być skorygowany. W szczególnośc warancja będze nedoszacowana w wyczyszczonym zborze. Dla ustalonego rozkładu defnujemy relatywną efektywność estymatora. Efektywność estymatora θˆ względem nnego estymatora ~ θ możemy zmerzyć, posługując sę następującą marą efektywnośc: ~ D ( ˆ) θ RE ( θ, ˆ) θ = ~ (1.1) D ( θ ) ~ Grancę RE ( θ, ˆ θ ) przy rosnącej do neskończonośc welkośc próby nazywamy efektywnoścą asymptotyczną: ~ ~ ARE ( θ, ˆ) θ = lm RE( θ, ˆ θ ) n (1.) Estymatorem asymptotyczne najefektywnejszym jest estymator, którego asymptotyczna efektywność równa sę jednośc. Można problem zdefnować równeż w odnesenu do asymptotycznych warancj. Jeżel estymator θˆ ne jest znany, wówczas zakładamy, że jest efektywnym estymatorem. Pojawają sę trudnośc z obcążonym estymatoram, których warancja jest mała lub wynos zero. Proponowanym w lteraturze rozwązanem jest wykorzystane błędów średnokwadratowych, nnym przeskalowane θ/e(θˆ ). Iglewcz (1983) proponuje wykorzystane warancj logarytmu estymatora θˆ : D (logθˆ ) jako estymatora parametru skal *. Zastosujmy podejśce ARE do oceny średnej medany (Venables, Rpley, 00). Dla rozkładu normalnego D ( średna) ARE(medana, średna) = = /π 64% D ( medana) Dla rozkładów o nnych wartoścach rozkładów w ogonach medana ma lepsze własnośc. Przykładowo, dla rozkładu t-studenta z pęcoma stopnam swobody, a to jest często rozkład zgodny z rozkładem błędów model, ARE (medana, średna) 96%. * jest nezależna od skal
164 Grażyna Trzpot Kolejny przykład podał Tukey (1960). Zakładamy, że mamy n obserwacj Y ~ N(μ, σ ) dla = 1,..., n oraz chcemy estymować wartość warancj σ. Rozważmy dwa estymatory ˆ σ = s oraz ~σ = d π/, gdze: 1 d = Y Y n oraz stała jest wybrana tak, że dla rozkładu normalnego d /πσ. Wówczas ARE( ~σ, s ) = 0,876. Załóżmy, że dla każdego Y mamy obserwacje z rozkładu N(μ, σ ) z prawdopodobeństwem 1 ε oraz wartośc z rozkładu N(μ, 9σ ) z prawdopodobeństwem ε. Zauważmy, że obydwe warancje dla wszystkch obserwacj oraz warancja nezakłóconego rozkładu obserwacj są proporcjonalne do σ. Otrzymujemy dane zawarte w tab. 1. Wartośc ARE dla wybranych wartośc ε ~σ, s ) ε (%) ARE( 0 0,876 0,1 0,948 0, 1,016 1 1,44 5,04 Źródło: Na podstawe (Venables, Rpley, 00). Tabela 1 Meszanka rozkładów z zakłócenem ε = 1% jest neodróżnalna od rozkładu normalnego, zwłaszcza w praktycznych zastosowanach, dlatego optymalność s jest bardzo wrażlwa. Mówmy o braku odpornośc efektywnośc estymatora. Znajdujemy odmenne estymatory parametru σ nż d π / (mają punkt załamana 0%). Dwa proponowane rozwązana przyjmowane jako estymatory są porównywalne: oraz IQR = X (3n/4) X (n/4) (1.3) MAD = medana { Y medana(y j ) } (1.4) j Przykładowo, dla rozkładu normalnego otrzymujemy odpowedno następujące wynk:
Wybrane statystyk odporne 165 MAD medana { Y μ } 0,6745σ, IQR σ[φ 1(0,75) Φ 1(0,5)] 1,35σ Obydwa estymatory są efektywne, ale bardzo odporne na obserwacje oddalone w zborze danych. Dla estymatora MAD dla rozkładu normalnego mamy ARE= 37% (Staudte, Sheather, 1990, s. 13). W kolejnym kroku rozważań zakładamy, że mamy n nezależnych obserwacj Y z rodzny z parametrem położena o funkcj gęstośc f(y μ), oraz funkcja f jest symetryczna względem zera. Zatem μ jest wartoścą centralną (medana, średna, jeżel stneje) dystrybuanty Y. Rozważamy rozkład newele różnący sę od rozkładu normalnego. Mamy wele estymatorów wartośc μ. Wśród tego zboru estymatorów znajdujemy średną z próby, medanę z próby estymatory wyznaczane metodą najwększej warygodnośc (MNW). Dodatkowo rozpatrujemy średną ucętą, która jest średną dla 1 α wartośc rozkładu, zatem αn obserwacj jest usunętych z każdego końca badanego rozkładu (najwększych najmnejszych).. M-estymatory parametrów położena skal Rozważymy jako estymatory parametru położena znane z lteratury M- -estymatory. Nazwa pochodz od sformułowana prawe MNW estymatory ( MLElke estmators). Analzując funkcję gęstośc f, możemy zdefnować funkcję ρ = log f. Wówczas estymator najwększej warygodnośc wyznaczamy jako: mn log f ( y μ) = mn ρ( y μ) μ μ (.1) Powyższe przekształcene jest użyteczne, jeżel funkcja ρ ne jest funkcją gęstośc. Zapszmy, jako ψ = ρ (jeżel ta pochodna stneje), wówczas otrzymujemy: gdze: w = ψ(y μˆ )/(y μˆ ). ψ ( y ˆ) μ = 0 lub w ( ˆ) μ = 0 (.) To sugeruje teracyjne metody rozwązana, przy czym wag uaktualnamy przy każdej kolejnej teracj. y
166 Grażyna Trzpot Przykłady M-estymatorów Średna z próby odpowada funkcj ρ() =, medana z próby odpowada funkcj ρ() =. Dla dowolnego n medana jest rozwązanem zapsanego problemu. Funkcja, ψ ( ) = 0, c c odpowada ucętej metryce; duże odległośc pomędzy wartoścam ne mają żadnego wpływu. Funkcja * c, c ψ ( ) =, c c, > c odpowada metryce Wnsora obejmuje wartośc ekstremalne obserwacj jako μ ± c. Odpowedna funkcja ρ = log f jest następująca:, ρ ( ) = c( c), c c wyznacza funkcję gęstośc o rozkładze Gaussa w centrum rozkładu, mającą podwójne wykładncze ogony. Ten estymator zdefnował Huber (1981). Zauważmy, że jeżel c 0, w grancy otrzymujemy medanę, oraz jeżel c, wówczas grancą jest średna. Wartość c = 1,345 zapewna 95% efektywnośc dla rozkładu normalnego. Funkcja podwójne ważąca Tukey a ma postać: t ψ ( t) = t[1 ] + R gdze [.] + oznacza dodatne wartośc. To jest, jak zwykło sę określać, łagodne (soft) ucnane. Wartość R = 4,685 zapewna 95% zgodnośc efektywnośc dla rozkładu normalnego (Venables, Rpley, 00). Kolejny przykład to funkcja ψ Hampela (1986), która jest kawałkam lnowa: * Pojęce określone przez Charlesa P. Wnsora (por. Don, 1960).
Wybrane statystyk odporne 167 = c c b b c c a b a a a 0, ), ) /( (, 0, ) ( ψ Ilustracja omówonych estymatorów (rys. 1) wymagała przyjęca umownych wartośc parametrów: a =,s, b = 3,7s, c = 5,9s. Zauważamy oczywśce problem skal. W czterech ostatnch przypadkach mamy współczynnk skal (c, R lub s). Możemy zastosować estymator do przeskalowana rezultatów: s y μ ρ μ mn (.3) dla współczynnka skal s, przykładowo estymator MAD. Alternatywne, możemy estymować s w podobny sposób. Rys. 1. Przykłady funkcj ważących dla M-estymatorów
168 Grażyna Trzpot Wykorzystując MNW dla gęstośc s 1 f(( μ)/s), otrzymujemy równane y μ y μ ψ = n (.4) s s które ne jest odporne (oraz obcążone dla rozkładu normalnego). Trzeba to równane zmodyfkować do y μ χ = ( n 1) γ (.5) s dla ogranczonej funkcj χ, gdze γ jest wyberane tak, aby uzyskać zgodność z rozkładem normalnym, zatem γ = Eχ(N). Przykładem nech będze następna propozycja Hubera: χ() = ψ() = mn(, c) (.6) W bardzo małych próbach należy skupć uwagę dodatkowo na zmennośc μˆ w przypadku zastosowana metryk Wnsora (Huber, 1981). Jeżel położene μ jest znane, możemy zastosować ten estymator, zastępując n 1 przez n, celem estymacj jedyne współczynnka skal s. 3. Własnośc model regresj Omówmy koncepcję odpornej regresj w zakrese model lnowych, która mów o nezagrażających zachowanach w beżących newłaścwych wartoścach danych. W termnolog, którą wprowadzmy, odporna regresja ma wysok punkt załamana proponujemy 50%. Rozważymy zamanę metody najmnejszych kwadratów (MNK) przez jeden dwóch z metod: 1. LMS najmnejsze medanowe kwadraty: mnmalzują medanę kwadratów reszt. Bardzej ogólne LQS mnmalzuje pewen kwantyl (przykładowo 80%) kwadratów reszt.. LTS najmnejsze ucęte kwadraty: mnmalzują sumę kwadratów najmnejszych q reszt. Orygnalne q zawera trochę powyżej 50%. Omówone podejśca wymagają znaczne węcej oblczeń numerycznych nż metoda najmnejszych kwadratów, poneważ ne mamy zachowanej różnczkowalnośc. Obydwe metody wychwytują efekt welowymarowych obserwacj oddalonych koncentrują sę na dobrym dopasowanu, do co najmnej powyżej 50% danych. W konsekwencj są mnej efektywne w przypadku braku obserwacj odstających (LMS bardzej nż LTS). Aby zlustrować pewne problemy, rozważmy przykład. Rousseeuw Leroy (1987) rozpatrują roczne dane lczby połączeń telefoncznych w Belg (rys. ). Zaprezentowano lnową funkcję regresj (MNK least squares), regresję z M-estymacją oraz najmnejsze ucęte kwadraty reszt (LTS).
Wybrane statystyk odporne 169 Rys.. Mlony połączeń telefoncznych w Belg, 1950-1973 Źródło: (Rousseeuw, Leroy, 1987). Lna LQS jest następująca: ŷ = 56,16 +1,16 t (rok). Wykonane badana pokazują, że dla lat 1964 1969 pownna być badana całkowta długość połączeń (w mnutach) w mejsce lczby połączeń (jak to było wykonywane w latach 1963-1970). 4. Odporna regresja * Regresję odporną zdefnowano w latach 80. XX w. (Huber, 1981). Perwsza najbardzej znana regresja była określona następująco: mn medana y b b jako najmnejsze medanowe kwadraty (least medan of squares LMS). Uzasadnenem dla kwadratów reszt jest następująca obserwacja, gdy n jest parzyste, wówczas wyberana jest medana. To jest bardzo odporna metoda regresj, dodatkowo ne wymaga estymacj parametru skal. Jest jednak bardzo neefektywna pokrywa, co najwyżej 1/ 3 n danych. Dodatkowo, cechuje sę wrażlwoścą na obserwacje centralne w zborze danych (Hettmansperger, Sheather, 199; Daves, 1993,.3). * Resstant regresson.
170 Grażyna Trzpot Rousseeuw (1987) sugeruje regresję najmnejszych ucętych kwadratów (least trmmed squares LTS): mn y b (4.1) b Ta metoda jest bardzej efektywna, ale oddzela same krańcowe obserwacje. Rekomendowana suma kwadratów reszt ne pownna przekraczać wartośc q = [(n + p + 1)/]. Następne wprowadzono S-estymatory, dla których współczynnk równana są wyznaczane jako rozwązane zadana n y b χ = ( n p) β (4.) = 1 cos z najmnejszym parametrem skal s. W równanu (4.) jako funkcja χ jest zazwyczaj przyjmowana całkowalna podwójne ważąca funkcja Tukey a ( ) 6 4 u 3u + 3u, u 1 χ ( u) = 1, u 1 Wartośc c 0 = 1,548 β = 0,5 są wyznaczane celem spełnena warunku zgodnośc, jeżel rozkład błędów jest rozkładem normalnym. To daje efektywność 8,7% przy rozkładze normalnym, która jest nska, ale lepsza nż LMS LTS. Jedyne w klku specjalnych przypadkach (LMS dla jednowymarowej regresj ze stałą) możemy ten problem optymalzacyjny rozwązać dokładne, wykorzystując aproksymacyjne metody kolejnych przyblżeń (Marazz, 1993). Wele tych metod wykorzystuje podejśce metody najmnejszych kwadratów, proponując dopasowane najmnejszych kwadratów dla wybranych q punktów ze zboru danych. Następne losowo sprawdzają duże próby dla tego dopasowana. 5. Mocna regresja W modelu regresj mamy dwa podstawowe źródła błędów: wartośc obserwacj y oraz odpowadający wektor p * wartośc zmennych objaśnających (regressors). Wększość metod regresj rozważa jedyne perwszy rodzaj źródła błędów. W pewnych okolcznoścach (przykładowo planowane eksperymentów) błędy zmennych objaśnających mogą być gnorowane. Tak jest w przypadku M-estymatorów, którym zajmemy sę w tym punkce. * n obserwacj (y, 1,..., p)
Wybrane statystyk odporne 171 Rozważmy problem regresj dla n przypadków (y, ) z modelu dla p-wymarowego wektora. M-estymatory y = β + ε (5.1) Przyjmujemy skalowane dla funkcj gęstośc f(e/s)/s dla ε oraz przyjmujemy ρ = log f, wówczas estymator maksymalnej warygodnośc mnmalzuje n y b ρ + n log s (5.) = 1 s Załóżmy, że s jest znane oraz funkcja ψ = ρ. Wówczas w MNW, wyznaczając b celem estymacj β, rozwązujemy nelnowe równane: n y b ψ = 0 (5.3) = 1 s Zapszmy reszty jako: r = y b. Rozwązane równana (5.3) lub mnmalzacja względem (5.) defnuje M-estymatory względem współczynnków β. Znaną metodą rozwązana (5.3) jest metoda teracyjna ważonych najmnejszych kwadratów, z wagam określonym następująco: y y w = μ μ ψ / (5.4) s s Iteracja jest zbeżna jedyne dla wypukłych (conve) funkcj ρ oraz dla nemalejących (Tukey, 1960), a równane (5.3) może meć wele perwastków. W takch przypadkach należy wybrać dobry punkt startowy uważne przeprowadzć terację. W zastosowanach współczynnk skal s jest neznany. Łatwy odporny estymator współczynnka skal to MAD (względem pewnego przyjętego centrum). Można go zastosować dla reszt blskch zero, równeż dla pozostających w pewnym w otoczenu albo dla reszt z odpornego dopasowana. Alternatywne, możemy estymować s, wykorzystując prawe MNW estymatory (MLE-lke way). Znajdując punkt stacjonarny równana (5.) względem s, otrzymujemy: y b y b ψ = n (5.5) s s Rozwązane ne jest odporne oraz obcążone dla rozkładu normalnego (Venables, Rpley, 00).
17 Grażyna Trzpot W przypadku jednowymarowym możemy to równane zmodyfkować przekształcając do postac: MM-estymacja y b χ = ( n p)γ (5.6) s Możlwe jest połączene odpornośc oraz efektywnośc M-estymatorów. Takm rozwązanem jest MM-estymator zaproponowany przez Yoha, Stahel Zamar (1991) *. MM-estymator to M-estymator, który wykorzystuje współczynnk wyznaczone na perwszym etape przez S-estymator oraz stały współczynnk skal dany przez S-estymator. To pozwala uzyskać (dla c > c 0 ) wysok punkt załamana S-estymatorów oraz wysoką efektywność dla rozkładu normalnego. Przy znacznych kosztach oblczeń otrzymujemy to, co najlepsze z obydwu omówonych podejść. Podsumowane W przedstawonym artykule omówono wybrane statystyk odporne podstawowych parametrów wraz z ch własnoścam. W szczególnośc omówono wybrane estymatory parametrów położena skal. Zwrócono uwagę na podstawowe uwarunkowana odpornej regresj. Stosując klasyczne estymatory, ne wracamy do założeń, które towarzyszą metodom wyznaczana tych estymatorów. Brak spełnena tych założeń powoduje trudnośc w wyznaczanu rozwązań formułowanych zadań. Estymatory odporne wymagają zastosowana metod przyblżonych, teracyjnych. Celem efektywnego wyznaczena wartośc tych estymatorów ważne jest spojrzene na własnośc numeryczne metod teracyjnych stosowanych do rozwązań zapsanych zadań. Wele programów komputerowych wspomagających procesy analzy danych, takch jak S-Plus czy Statstca lub SAS, mają funkcje powązane ze statystycznym metodam odpornym. Badane porównawcze efektywnośc tych metod teracyjnych jest odrębnym zadanem powązanym ze statystyką odporną. Bblografa Daves P.L. (1993): Aspects of Robust Lnear Regresson. Annals of Statstcs, 1, s. 1843-1899. Don W.J. (1960): Smplfed Estmaton for Censored Normal Samples. Annals of Mathematcal Statstcs, 31, s. 385-391. * (Zob. Marazz, 1993).
Wybrane statystyk odporne 173 Hampel F.R., Ronchett E.M., Rousseeuw P.J., Stahel W.A. (1986): Robust Statstcs. The Approach Based on Influence Functons. John Wley and Sons, New York. Hettmansperger T.P., Sheather S.J. (199): A Cautonary Note on the Method of Least Medan Squares. Amercan Statstcan 46, s. 79-83 Huber P.J. (1981): Robust Statstcs. John Wley and Sons, New York. Iglewcz B. (1983): Robust Scale Estmators and Confdence Intervals for Locaton. W: Understandng Robust and Eploratory Data Analyss. Eds. D.C. Hoagln, F. Mosteller, J.W. Tukey. John Wley and Sons, New York, s. 405-431. Marazz A. (1993): Algorthms, Routnes and S Functons for Robust Statstcs. Wadsworth and Brooks/Cole. Pacfc Grove, CA. Rousseeuw, P. J., Leroy, A.M. (1987): Robust Regresson and Outler Detecton. John Wley and Sons, New York. Staudte R.G., Sheather S.J. (1990): Robust Estmaton and Testng. John Wley and Sons, New York. Trzpot G. (009): Etreme Value Dstrbutons and Robust Estmaton. Acta Unverstats Lodzenss. Fola Economca 8, Łódź, s. 85-9. Trzpot G. (011a): Odporna analza szeregów czasowych. Prace Naukowe nr 165, 171-179 Unwersytet Ekonomczny, Wrocław. Trzpot G. (011b): Wybrane odporne metody estymacj beta. W: Modelowane preferencj a ryzyko 11. Red. T. Trzaskalk. Wydawnctwo Unwersytetu Ekonomcznego, Katowce, s. 133-148. Trzpot G. (01): Odporna regresja kwantylowa. W: Dylematy ekonometr. Red. J. Bolk. Wydawnctwo Unwersytetu Ekonomcznego, Katowce, s. 147-158. Tukey J.W. (1960): A Survey of Samplng from Contamnated Dstrbutons. W: Contrbutons to Probablty and Statstcs. Eds I. Olkn, S. Ghurye, W. Hoeffdng, W. Madow, H. Mann. Wley and Sons, New York. Yoha V., Stahel W.A., Zamar R.H. (1991): A Procedure for Robust Estmaton. John Wley and Sons, New York. Venables W.N., Rpley B.D. (00): Modern Appled Statstcs wth S-PLUS. Sprnger-Verlag. SOME ROBUST STATISTICAL METHODS Summary Outlers are sample values that cause surprse n relaton to the majorty of the sample. Ths s not a pejoratve term; outlers may be correct, but they should always be checked for transcrpton errors. Many robust and resstant methods have been developed snce 1960 to be less senstve to outlers. Ths methods can be used nstead or be even better than classcal one. Robust methods were used early n me works (Trzpot 009, 011a, 011b) as an applcaton n fnance and economy. Ths artcle has a descrptve character, connected wth new book for students.