WYBRANE STATYSTYKI ODPORNE

Podobne dokumenty
Natalia Nehrebecka. Wykład 2

65120/ / / /200

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Natalia Nehrebecka. Zajęcia 3

Statystyka. Zmienne losowe

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Natalia Nehrebecka. Dariusz Szymański

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Funkcje i charakterystyki zmiennych losowych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Weryfikacja hipotez dla wielu populacji

M-estymacja w badaniu małych przedsiębiorstw *


Natalia Nehrebecka. Zajęcia 4

Krzywa wieża w Pizie. SAS Data Step. Przykład (2) Wykład 13 Regresja liniowa

Metody predykcji analiza regresji

Prawdopodobieństwo i statystyka r.

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Zaawansowane metody numeryczne

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Pattern Classification

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Wstęp do metod numerycznych Faktoryzacja SVD Metody iteracyjne. P. F. Góra

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Wprowadzenie Model ARMA Sezonowość Prognozowanie Model regresji z błędami ARMA. Modele ARMA

Natalia Neherbecka. 11 czerwca 2010

Statystyka Inżynierska

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Dobór zmiennych objaśniających

STATYSTYKA ODPORNOŚCIOWA referat dydaktyczny

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Mikroekonometria 10. Mikołaj Czajkowski Wiktor Budziński

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

1.1. Uprość opis zdarzeń: 1.2. Uprościć opis zdarzeń: a) A B A Uprościć opis zdarzeń: 1.4. Uprościć opis zdarzeń:

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Modelowanie i obliczenia techniczne. Metody numeryczne w modelowaniu: Optymalizacja

Metody gradientowe poszukiwania ekstremum. , U Ŝądana wartość napięcia,

Prawdopodobieństwo i statystyka r.

Proces narodzin i śmierci

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE

dy dx stąd w przybliżeniu: y

I. Elementy analizy matematycznej

Metoda największej wiarogodności

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Statystyka matematyczna dla leśników

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

EKONOMETRIA I Spotkanie 1, dn

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Metoda najmniejszych kwadratów

Statystyka w przykładach

1 Estymacja przedziałowa

Weryfikacja hipotez statystycznych

V. WPROWADZENIE DO PRZESTRZENI FUNKCYJNYCH

STATYSTYKA MATEMATYCZNA

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

O ŚREDNIEJ STATYSTYCZNEJ

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Podstawy teorii falek (Wavelets)

Ćwiczenie 10. Metody eksploracji danych

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Mikroekonometria 7. Mikołaj Czajkowski Wiktor Budziński

6. ROŻNICE MIĘDZY OBSERWACJAMI STATYSTYCZNYMI RUCHU KOLEJOWEGO A SAMOCHODOWEGO

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Markowa. ZałoŜenia schematu Gaussa-

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Uogolnione modele liniowe

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

OeconomiA copernicana 2013 Nr 3. Modele ekonometryczne w opisie wartości rezydualnej inwestycji

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Nieparametryczne Testy Istotności

A C T A U N I V E R S I T A T I S N I C O L A I C O P E R N I C I EKONOMIA XXXIX NAUKI HUMANISTYCZNO-SPOŁECZNE ZESZTYT 389 TORUŃ 2009.

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

Transkrypt:

Grażyna Trzpot Unwersytet Ekonomczny w Katowcach WYBRANE STATYSTYKI ODPORNE Wprowadzene Obserwacje oddalone (outlers) są takm obserwacjam w próbe, które mogą powodować zakłócena w ocene relacj w próbe. Ne jest to termn o znaczenu pejoratywnym; obserwacje oddalone mogą być poprawne, ale pownny być dentyfkowane dla oceny błędów. Poczynając od 60., zaproponowano wele metod slnych odpornych (robust and resstant) mnej wrażlwych na obserwacje oddalone. Mogą one konkurować, a nawet wygrywać ze standardowym statystycznym metodam. Omawana tematyka jest przedmotem wcześnejszych prac autork zawsze w kontekśce zastosowań w ekonom (Trzpot 009, 011a, 011b). Artykuł ten ma charakter opsowy w powązanu z przygotowywanym podręcznkem. 1. Statystyk jednowymarowe położena skal Średna z próby może być załamana przez pojedynczą obserwację. Jeżel dowolna obserwacja ma wartość taką, że y ±, wówczas średna z próby y ±, w przecweństwe do medany z próby, która ne jest wrażlwa na pojedyncze wartośc zmerzające do neskończonośc. Mówmy, że medana jest odporna na duże błędy, podczas gdy średna ne. Faktyczne medana może zneść do 50% dużych błędów zanm będze arbtralne duża; mówmy, że ma punkt załamana 50-proc., podczas gdy dla średnej mamy odpowedno 0%. Średna jest efektywnym estymatorem parametru położena dla rozkładu normalnego, dlatego może być wykorzystywana jako estymator parametru położena dla rozkładów zblżonych do normalnych. Metody odporne pownny meć wysoką efektywność w otoczenu zakładanego modelu statystycznego. Dlaczego ne jest wystarczające przesane danych odrzucene obserwacj odstających? Należy rozważyć wele aspektów metodologcznych: 1. Praktycy, nawet eksperc statystycy, ne zawsze przeglądają zbory danych.. Ostre decyzje, czy zachować, czy odrzucć obserwacje mogą być nezbyt trafne. Proponujemy nadać wag wątplwym obserwacjom. Możemy równeż odrzucć kompletne złe obserwacje.

Wybrane statystyk odporne 163 3. Może być zadanem trudnym lub wręcz nemożlwym umejscowene obserwacj odstających w welowymarowym lub mocno zrestrukturyzowanym zborze danych. 4. Odrzucene obserwacj odstających wpływa na rozkład teoretyczny (zmennej losowej), który mus być skorygowany. W szczególnośc warancja będze nedoszacowana w wyczyszczonym zborze. Dla ustalonego rozkładu defnujemy relatywną efektywność estymatora. Efektywność estymatora θˆ względem nnego estymatora ~ θ możemy zmerzyć, posługując sę następującą marą efektywnośc: ~ D ( ˆ) θ RE ( θ, ˆ) θ = ~ (1.1) D ( θ ) ~ Grancę RE ( θ, ˆ θ ) przy rosnącej do neskończonośc welkośc próby nazywamy efektywnoścą asymptotyczną: ~ ~ ARE ( θ, ˆ) θ = lm RE( θ, ˆ θ ) n (1.) Estymatorem asymptotyczne najefektywnejszym jest estymator, którego asymptotyczna efektywność równa sę jednośc. Można problem zdefnować równeż w odnesenu do asymptotycznych warancj. Jeżel estymator θˆ ne jest znany, wówczas zakładamy, że jest efektywnym estymatorem. Pojawają sę trudnośc z obcążonym estymatoram, których warancja jest mała lub wynos zero. Proponowanym w lteraturze rozwązanem jest wykorzystane błędów średnokwadratowych, nnym przeskalowane θ/e(θˆ ). Iglewcz (1983) proponuje wykorzystane warancj logarytmu estymatora θˆ : D (logθˆ ) jako estymatora parametru skal *. Zastosujmy podejśce ARE do oceny średnej medany (Venables, Rpley, 00). Dla rozkładu normalnego D ( średna) ARE(medana, średna) = = /π 64% D ( medana) Dla rozkładów o nnych wartoścach rozkładów w ogonach medana ma lepsze własnośc. Przykładowo, dla rozkładu t-studenta z pęcoma stopnam swobody, a to jest często rozkład zgodny z rozkładem błędów model, ARE (medana, średna) 96%. * jest nezależna od skal

164 Grażyna Trzpot Kolejny przykład podał Tukey (1960). Zakładamy, że mamy n obserwacj Y ~ N(μ, σ ) dla = 1,..., n oraz chcemy estymować wartość warancj σ. Rozważmy dwa estymatory ˆ σ = s oraz ~σ = d π/, gdze: 1 d = Y Y n oraz stała jest wybrana tak, że dla rozkładu normalnego d /πσ. Wówczas ARE( ~σ, s ) = 0,876. Załóżmy, że dla każdego Y mamy obserwacje z rozkładu N(μ, σ ) z prawdopodobeństwem 1 ε oraz wartośc z rozkładu N(μ, 9σ ) z prawdopodobeństwem ε. Zauważmy, że obydwe warancje dla wszystkch obserwacj oraz warancja nezakłóconego rozkładu obserwacj są proporcjonalne do σ. Otrzymujemy dane zawarte w tab. 1. Wartośc ARE dla wybranych wartośc ε ~σ, s ) ε (%) ARE( 0 0,876 0,1 0,948 0, 1,016 1 1,44 5,04 Źródło: Na podstawe (Venables, Rpley, 00). Tabela 1 Meszanka rozkładów z zakłócenem ε = 1% jest neodróżnalna od rozkładu normalnego, zwłaszcza w praktycznych zastosowanach, dlatego optymalność s jest bardzo wrażlwa. Mówmy o braku odpornośc efektywnośc estymatora. Znajdujemy odmenne estymatory parametru σ nż d π / (mają punkt załamana 0%). Dwa proponowane rozwązana przyjmowane jako estymatory są porównywalne: oraz IQR = X (3n/4) X (n/4) (1.3) MAD = medana { Y medana(y j ) } (1.4) j Przykładowo, dla rozkładu normalnego otrzymujemy odpowedno następujące wynk:

Wybrane statystyk odporne 165 MAD medana { Y μ } 0,6745σ, IQR σ[φ 1(0,75) Φ 1(0,5)] 1,35σ Obydwa estymatory są efektywne, ale bardzo odporne na obserwacje oddalone w zborze danych. Dla estymatora MAD dla rozkładu normalnego mamy ARE= 37% (Staudte, Sheather, 1990, s. 13). W kolejnym kroku rozważań zakładamy, że mamy n nezależnych obserwacj Y z rodzny z parametrem położena o funkcj gęstośc f(y μ), oraz funkcja f jest symetryczna względem zera. Zatem μ jest wartoścą centralną (medana, średna, jeżel stneje) dystrybuanty Y. Rozważamy rozkład newele różnący sę od rozkładu normalnego. Mamy wele estymatorów wartośc μ. Wśród tego zboru estymatorów znajdujemy średną z próby, medanę z próby estymatory wyznaczane metodą najwększej warygodnośc (MNW). Dodatkowo rozpatrujemy średną ucętą, która jest średną dla 1 α wartośc rozkładu, zatem αn obserwacj jest usunętych z każdego końca badanego rozkładu (najwększych najmnejszych).. M-estymatory parametrów położena skal Rozważymy jako estymatory parametru położena znane z lteratury M- -estymatory. Nazwa pochodz od sformułowana prawe MNW estymatory ( MLElke estmators). Analzując funkcję gęstośc f, możemy zdefnować funkcję ρ = log f. Wówczas estymator najwększej warygodnośc wyznaczamy jako: mn log f ( y μ) = mn ρ( y μ) μ μ (.1) Powyższe przekształcene jest użyteczne, jeżel funkcja ρ ne jest funkcją gęstośc. Zapszmy, jako ψ = ρ (jeżel ta pochodna stneje), wówczas otrzymujemy: gdze: w = ψ(y μˆ )/(y μˆ ). ψ ( y ˆ) μ = 0 lub w ( ˆ) μ = 0 (.) To sugeruje teracyjne metody rozwązana, przy czym wag uaktualnamy przy każdej kolejnej teracj. y

166 Grażyna Trzpot Przykłady M-estymatorów Średna z próby odpowada funkcj ρ() =, medana z próby odpowada funkcj ρ() =. Dla dowolnego n medana jest rozwązanem zapsanego problemu. Funkcja, ψ ( ) = 0, c c odpowada ucętej metryce; duże odległośc pomędzy wartoścam ne mają żadnego wpływu. Funkcja * c, c ψ ( ) =, c c, > c odpowada metryce Wnsora obejmuje wartośc ekstremalne obserwacj jako μ ± c. Odpowedna funkcja ρ = log f jest następująca:, ρ ( ) = c( c), c c wyznacza funkcję gęstośc o rozkładze Gaussa w centrum rozkładu, mającą podwójne wykładncze ogony. Ten estymator zdefnował Huber (1981). Zauważmy, że jeżel c 0, w grancy otrzymujemy medanę, oraz jeżel c, wówczas grancą jest średna. Wartość c = 1,345 zapewna 95% efektywnośc dla rozkładu normalnego. Funkcja podwójne ważąca Tukey a ma postać: t ψ ( t) = t[1 ] + R gdze [.] + oznacza dodatne wartośc. To jest, jak zwykło sę określać, łagodne (soft) ucnane. Wartość R = 4,685 zapewna 95% zgodnośc efektywnośc dla rozkładu normalnego (Venables, Rpley, 00). Kolejny przykład to funkcja ψ Hampela (1986), która jest kawałkam lnowa: * Pojęce określone przez Charlesa P. Wnsora (por. Don, 1960).

Wybrane statystyk odporne 167 = c c b b c c a b a a a 0, ), ) /( (, 0, ) ( ψ Ilustracja omówonych estymatorów (rys. 1) wymagała przyjęca umownych wartośc parametrów: a =,s, b = 3,7s, c = 5,9s. Zauważamy oczywśce problem skal. W czterech ostatnch przypadkach mamy współczynnk skal (c, R lub s). Możemy zastosować estymator do przeskalowana rezultatów: s y μ ρ μ mn (.3) dla współczynnka skal s, przykładowo estymator MAD. Alternatywne, możemy estymować s w podobny sposób. Rys. 1. Przykłady funkcj ważących dla M-estymatorów

168 Grażyna Trzpot Wykorzystując MNW dla gęstośc s 1 f(( μ)/s), otrzymujemy równane y μ y μ ψ = n (.4) s s które ne jest odporne (oraz obcążone dla rozkładu normalnego). Trzeba to równane zmodyfkować do y μ χ = ( n 1) γ (.5) s dla ogranczonej funkcj χ, gdze γ jest wyberane tak, aby uzyskać zgodność z rozkładem normalnym, zatem γ = Eχ(N). Przykładem nech będze następna propozycja Hubera: χ() = ψ() = mn(, c) (.6) W bardzo małych próbach należy skupć uwagę dodatkowo na zmennośc μˆ w przypadku zastosowana metryk Wnsora (Huber, 1981). Jeżel położene μ jest znane, możemy zastosować ten estymator, zastępując n 1 przez n, celem estymacj jedyne współczynnka skal s. 3. Własnośc model regresj Omówmy koncepcję odpornej regresj w zakrese model lnowych, która mów o nezagrażających zachowanach w beżących newłaścwych wartoścach danych. W termnolog, którą wprowadzmy, odporna regresja ma wysok punkt załamana proponujemy 50%. Rozważymy zamanę metody najmnejszych kwadratów (MNK) przez jeden dwóch z metod: 1. LMS najmnejsze medanowe kwadraty: mnmalzują medanę kwadratów reszt. Bardzej ogólne LQS mnmalzuje pewen kwantyl (przykładowo 80%) kwadratów reszt.. LTS najmnejsze ucęte kwadraty: mnmalzują sumę kwadratów najmnejszych q reszt. Orygnalne q zawera trochę powyżej 50%. Omówone podejśca wymagają znaczne węcej oblczeń numerycznych nż metoda najmnejszych kwadratów, poneważ ne mamy zachowanej różnczkowalnośc. Obydwe metody wychwytują efekt welowymarowych obserwacj oddalonych koncentrują sę na dobrym dopasowanu, do co najmnej powyżej 50% danych. W konsekwencj są mnej efektywne w przypadku braku obserwacj odstających (LMS bardzej nż LTS). Aby zlustrować pewne problemy, rozważmy przykład. Rousseeuw Leroy (1987) rozpatrują roczne dane lczby połączeń telefoncznych w Belg (rys. ). Zaprezentowano lnową funkcję regresj (MNK least squares), regresję z M-estymacją oraz najmnejsze ucęte kwadraty reszt (LTS).

Wybrane statystyk odporne 169 Rys.. Mlony połączeń telefoncznych w Belg, 1950-1973 Źródło: (Rousseeuw, Leroy, 1987). Lna LQS jest następująca: ŷ = 56,16 +1,16 t (rok). Wykonane badana pokazują, że dla lat 1964 1969 pownna być badana całkowta długość połączeń (w mnutach) w mejsce lczby połączeń (jak to było wykonywane w latach 1963-1970). 4. Odporna regresja * Regresję odporną zdefnowano w latach 80. XX w. (Huber, 1981). Perwsza najbardzej znana regresja była określona następująco: mn medana y b b jako najmnejsze medanowe kwadraty (least medan of squares LMS). Uzasadnenem dla kwadratów reszt jest następująca obserwacja, gdy n jest parzyste, wówczas wyberana jest medana. To jest bardzo odporna metoda regresj, dodatkowo ne wymaga estymacj parametru skal. Jest jednak bardzo neefektywna pokrywa, co najwyżej 1/ 3 n danych. Dodatkowo, cechuje sę wrażlwoścą na obserwacje centralne w zborze danych (Hettmansperger, Sheather, 199; Daves, 1993,.3). * Resstant regresson.

170 Grażyna Trzpot Rousseeuw (1987) sugeruje regresję najmnejszych ucętych kwadratów (least trmmed squares LTS): mn y b (4.1) b Ta metoda jest bardzej efektywna, ale oddzela same krańcowe obserwacje. Rekomendowana suma kwadratów reszt ne pownna przekraczać wartośc q = [(n + p + 1)/]. Następne wprowadzono S-estymatory, dla których współczynnk równana są wyznaczane jako rozwązane zadana n y b χ = ( n p) β (4.) = 1 cos z najmnejszym parametrem skal s. W równanu (4.) jako funkcja χ jest zazwyczaj przyjmowana całkowalna podwójne ważąca funkcja Tukey a ( ) 6 4 u 3u + 3u, u 1 χ ( u) = 1, u 1 Wartośc c 0 = 1,548 β = 0,5 są wyznaczane celem spełnena warunku zgodnośc, jeżel rozkład błędów jest rozkładem normalnym. To daje efektywność 8,7% przy rozkładze normalnym, która jest nska, ale lepsza nż LMS LTS. Jedyne w klku specjalnych przypadkach (LMS dla jednowymarowej regresj ze stałą) możemy ten problem optymalzacyjny rozwązać dokładne, wykorzystując aproksymacyjne metody kolejnych przyblżeń (Marazz, 1993). Wele tych metod wykorzystuje podejśce metody najmnejszych kwadratów, proponując dopasowane najmnejszych kwadratów dla wybranych q punktów ze zboru danych. Następne losowo sprawdzają duże próby dla tego dopasowana. 5. Mocna regresja W modelu regresj mamy dwa podstawowe źródła błędów: wartośc obserwacj y oraz odpowadający wektor p * wartośc zmennych objaśnających (regressors). Wększość metod regresj rozważa jedyne perwszy rodzaj źródła błędów. W pewnych okolcznoścach (przykładowo planowane eksperymentów) błędy zmennych objaśnających mogą być gnorowane. Tak jest w przypadku M-estymatorów, którym zajmemy sę w tym punkce. * n obserwacj (y, 1,..., p)

Wybrane statystyk odporne 171 Rozważmy problem regresj dla n przypadków (y, ) z modelu dla p-wymarowego wektora. M-estymatory y = β + ε (5.1) Przyjmujemy skalowane dla funkcj gęstośc f(e/s)/s dla ε oraz przyjmujemy ρ = log f, wówczas estymator maksymalnej warygodnośc mnmalzuje n y b ρ + n log s (5.) = 1 s Załóżmy, że s jest znane oraz funkcja ψ = ρ. Wówczas w MNW, wyznaczając b celem estymacj β, rozwązujemy nelnowe równane: n y b ψ = 0 (5.3) = 1 s Zapszmy reszty jako: r = y b. Rozwązane równana (5.3) lub mnmalzacja względem (5.) defnuje M-estymatory względem współczynnków β. Znaną metodą rozwązana (5.3) jest metoda teracyjna ważonych najmnejszych kwadratów, z wagam określonym następująco: y y w = μ μ ψ / (5.4) s s Iteracja jest zbeżna jedyne dla wypukłych (conve) funkcj ρ oraz dla nemalejących (Tukey, 1960), a równane (5.3) może meć wele perwastków. W takch przypadkach należy wybrać dobry punkt startowy uważne przeprowadzć terację. W zastosowanach współczynnk skal s jest neznany. Łatwy odporny estymator współczynnka skal to MAD (względem pewnego przyjętego centrum). Można go zastosować dla reszt blskch zero, równeż dla pozostających w pewnym w otoczenu albo dla reszt z odpornego dopasowana. Alternatywne, możemy estymować s, wykorzystując prawe MNW estymatory (MLE-lke way). Znajdując punkt stacjonarny równana (5.) względem s, otrzymujemy: y b y b ψ = n (5.5) s s Rozwązane ne jest odporne oraz obcążone dla rozkładu normalnego (Venables, Rpley, 00).

17 Grażyna Trzpot W przypadku jednowymarowym możemy to równane zmodyfkować przekształcając do postac: MM-estymacja y b χ = ( n p)γ (5.6) s Możlwe jest połączene odpornośc oraz efektywnośc M-estymatorów. Takm rozwązanem jest MM-estymator zaproponowany przez Yoha, Stahel Zamar (1991) *. MM-estymator to M-estymator, który wykorzystuje współczynnk wyznaczone na perwszym etape przez S-estymator oraz stały współczynnk skal dany przez S-estymator. To pozwala uzyskać (dla c > c 0 ) wysok punkt załamana S-estymatorów oraz wysoką efektywność dla rozkładu normalnego. Przy znacznych kosztach oblczeń otrzymujemy to, co najlepsze z obydwu omówonych podejść. Podsumowane W przedstawonym artykule omówono wybrane statystyk odporne podstawowych parametrów wraz z ch własnoścam. W szczególnośc omówono wybrane estymatory parametrów położena skal. Zwrócono uwagę na podstawowe uwarunkowana odpornej regresj. Stosując klasyczne estymatory, ne wracamy do założeń, które towarzyszą metodom wyznaczana tych estymatorów. Brak spełnena tych założeń powoduje trudnośc w wyznaczanu rozwązań formułowanych zadań. Estymatory odporne wymagają zastosowana metod przyblżonych, teracyjnych. Celem efektywnego wyznaczena wartośc tych estymatorów ważne jest spojrzene na własnośc numeryczne metod teracyjnych stosowanych do rozwązań zapsanych zadań. Wele programów komputerowych wspomagających procesy analzy danych, takch jak S-Plus czy Statstca lub SAS, mają funkcje powązane ze statystycznym metodam odpornym. Badane porównawcze efektywnośc tych metod teracyjnych jest odrębnym zadanem powązanym ze statystyką odporną. Bblografa Daves P.L. (1993): Aspects of Robust Lnear Regresson. Annals of Statstcs, 1, s. 1843-1899. Don W.J. (1960): Smplfed Estmaton for Censored Normal Samples. Annals of Mathematcal Statstcs, 31, s. 385-391. * (Zob. Marazz, 1993).

Wybrane statystyk odporne 173 Hampel F.R., Ronchett E.M., Rousseeuw P.J., Stahel W.A. (1986): Robust Statstcs. The Approach Based on Influence Functons. John Wley and Sons, New York. Hettmansperger T.P., Sheather S.J. (199): A Cautonary Note on the Method of Least Medan Squares. Amercan Statstcan 46, s. 79-83 Huber P.J. (1981): Robust Statstcs. John Wley and Sons, New York. Iglewcz B. (1983): Robust Scale Estmators and Confdence Intervals for Locaton. W: Understandng Robust and Eploratory Data Analyss. Eds. D.C. Hoagln, F. Mosteller, J.W. Tukey. John Wley and Sons, New York, s. 405-431. Marazz A. (1993): Algorthms, Routnes and S Functons for Robust Statstcs. Wadsworth and Brooks/Cole. Pacfc Grove, CA. Rousseeuw, P. J., Leroy, A.M. (1987): Robust Regresson and Outler Detecton. John Wley and Sons, New York. Staudte R.G., Sheather S.J. (1990): Robust Estmaton and Testng. John Wley and Sons, New York. Trzpot G. (009): Etreme Value Dstrbutons and Robust Estmaton. Acta Unverstats Lodzenss. Fola Economca 8, Łódź, s. 85-9. Trzpot G. (011a): Odporna analza szeregów czasowych. Prace Naukowe nr 165, 171-179 Unwersytet Ekonomczny, Wrocław. Trzpot G. (011b): Wybrane odporne metody estymacj beta. W: Modelowane preferencj a ryzyko 11. Red. T. Trzaskalk. Wydawnctwo Unwersytetu Ekonomcznego, Katowce, s. 133-148. Trzpot G. (01): Odporna regresja kwantylowa. W: Dylematy ekonometr. Red. J. Bolk. Wydawnctwo Unwersytetu Ekonomcznego, Katowce, s. 147-158. Tukey J.W. (1960): A Survey of Samplng from Contamnated Dstrbutons. W: Contrbutons to Probablty and Statstcs. Eds I. Olkn, S. Ghurye, W. Hoeffdng, W. Madow, H. Mann. Wley and Sons, New York. Yoha V., Stahel W.A., Zamar R.H. (1991): A Procedure for Robust Estmaton. John Wley and Sons, New York. Venables W.N., Rpley B.D. (00): Modern Appled Statstcs wth S-PLUS. Sprnger-Verlag. SOME ROBUST STATISTICAL METHODS Summary Outlers are sample values that cause surprse n relaton to the majorty of the sample. Ths s not a pejoratve term; outlers may be correct, but they should always be checked for transcrpton errors. Many robust and resstant methods have been developed snce 1960 to be less senstve to outlers. Ths methods can be used nstead or be even better than classcal one. Robust methods were used early n me works (Trzpot 009, 011a, 011b) as an applcaton n fnance and economy. Ths artcle has a descrptve character, connected wth new book for students.