Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych

Transkrypt

1 Uniwersytet Ekonomiczny w Krakowie Praca magisterska Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych Anna Węgrzynkiewicz Kierunek: Informatyka i Ekonometria Specjalność: Modelowanie i prognozowanie procesów gospodarczych Nr albumu: Promotor dr hab. Daniel Kosiorowski Wydział Zarządzania Kraków 2013

2 Spis treści Wprowadzenie Regresja nieparametryczna Nieparametryczne estymatory funkcji gęstości Regresja Nadaraya-Watsona Regresja lokalnie wielomianowa Regresje nieparametryczne w prognozowaniu szeregów czasowych Własności metod Zagadnienia towarzyszące estymacji regresji nieparametrycznych Metody oceny jakości dopasowania krzywej regresji Symulacje komputerowe Przykład empiryczny Opis przykładu Estymacja regresji Wyniki i wnioski Wnioski końcowe A. Podstawowe definicje związane z zagadnieniem złożoności obliczeniowej B. Symulacje komputerowe - kody w języku R Literatura Spis rysunków Spis tabel

3 Wprowadzenie Analiza regresji jest jednym z podstawowych narzędzi wykorzystywanych do ilościowego opisywania zjawisk ekonomicznych. Jej zadaniem jest określenie typowej zależności pomiędzy zmiennymi w populacji na podstawie dostępnej próby. Analiza regresji umożliwia weryfikację wpływu różnych czynników na badane zjawiska, ich prognozy oraz empiryczną weryfikację twierdzeń ekonomii. Regresja parametryczna dostarcza eleganckich z punktu widzenia wnioskowania statystycznego wyników. W jej przypadku do dyspozycji mamy cały szereg testów parametrycznych, przedziały ufności i oszacowania błędów. Co więcej, sama zależność pomiędzy zmiennymi przedstawiona jest w formie równania (równań). Ceną takich rozwiązań są silne założenia nakładane na analizowane zmienne. Typowe założenia to liniowość modelu ze względu na parametry, nieskorelowanie zmiennych niezależnych oraz postulaty dotyczące składnika resztowego. W klasycznym modelu regresji liniowej przyjmuje się, że błędy modelu są niezależne o rozkładzie normalnym, z zerową wartością oczekiwaną i stałą, skończoną wariancją. Niespełnienie założeń nie zawsze ma znaczący wpływ na otrzymane rezultaty. Jest jednak argumentem mogącym posłużyć do podważenia wiarygodności analizy. W praktyce założenia modeli parametrycznych są rzadko spełnione. Przystępując do analizy często nie posiadamy dostatecznej wiedzy na temat bada- 2

4 Wprowadzenie 3 nego zjawiska, próby zawierają obserwacje odstające lub są generowane przez rozkłady nietypowe lub złośliwe. Metody nieparametryczne są bardziej elastycznym narzędziem analizy danych. Po pierwsze, nie czynią tak restrykcyjnych założeń dotyczących badanego zbioru danych, jak ma to miejsce w przypadku regresji parametrycznych. Ponadto, lepiej radzą sobie z danymi generowanymi przez mieszaniny rozkładów. Do poprawności ich działania nie wymaga się, żeby analizowane dane posiadały momenty, w szczególności wartość oczekiwaną. Przedstawione w niniejszej pracy metody nieparametrycznej analizy regresji opierają się na założeniu, że obserwacje leżące blisko siebie w przestrzeni rozpiętej przez zmienne objaśniające, cechują się podobnymi wartościami zmiennej objaśnianej. Dlatego ważnym zagadnieniem jest określenie bliskości obserwacji. Härdle (1990) wyróżnia cztery podstawowe zadania stojące przed metodami nieparametrycznymi. Pierwsze z nich, to poznanie ogólnej zależności pomiędzy zmiennymi. Celem może być tutaj także wstępna eksploracja danych, ułatwiająca wybór postaci modelu parametrycznego. Drugim zadaniem jest umożliwienie predykcji bez odnoszenia się do ustalonego modelu parametrycznego. Dzięki badaniu wpływu pojedynczych punktów na oszacowanie regresji, możliwe staje się też wykrywanie obserwacji odstających. Regresje nieparametryczne są także elastycznym narzędziem do interpolacji wartości brakujących obserwacji. Regresje nieparametryczne niosą ze sobą pewne utrudnienia analizy. Po pierwsze, wnioskowanie statystyczne nie jest podparte formalnym równaniem określającym zależność pomiędzy zmiennymi. Relacja ta zwykle przedstawiona jest w formie wykresu. Regresja szacowana jest lokalnie, stąd też wariancja estymatorów nieparametrycznych przewyższa wariancję estymatorów parametrycznych. Ponadto krzywe regresji nieparametrycznej cechują się obciążeniem w okolicach ekstremów funkcji generującej obserwacje i na brzegach nośnika danych (ang. edge bias). Metody te mają ograniczone zastosowanie do zagad-

5 Wprowadzenie 4 nień wielowymiarowych oraz mogą być uciążliwe ze względu na dużą złożoność obliczeniową. W niniejszej pracy podjęto próbę zbadania wlasności regresji lokalnie wielomianowej. Szczególną uwagę poświęcono jej prostemu przypadkowi - regresji Nadaraya-Watsona. Pierwszy rozdział zawiera teorię związaną z tymi zagadnieniami. W drugim przedstawiono związane z nimi dylematy oraz za pomocą symulacji komputerowych zbadano własności metod. Trzeci rozdział pokazuje wyniki zastosowania regresji lokalnie wielomianowej do analizy przychodów i wydatków gospodarstw domowych. Wszystkie obliczenia i symulacje w niniejszej pracy przeprowadzono w programie R. Kody służące do generowania obserwacji z procesów wykorzystanych w pracy znajdują się w dodatku B. Dodatek A zawiera podstawowe definicje związane z zagadnieniem złożoności obliczeniowej.

6 Rozdział 1 Regresja nieparametryczna W niniejszym rozdziale przedstawiono ideę regresji nieparametrycznych. Opisano nieparametryczne metody szacowania funkcji gęstości - histogram i estymatory jądrowe. Następnie omówiono regresje lokalnie wielomianowe dla prostego równania regresji. Szczególną uwagę poświęcono estymatorowi Nadaraya-Watsona. Ostatnim zagadnieniem tego rozdziału jest wykorzystanie metod nieparametrycznych do prognozowania szeregów czasowych Nieparametryczne estymatory funkcji gęstości Najprostszym nieparametrycznym estymatorem funkcji gęstości zmiennych ciągłych jest histogram. Metoda ta wymaga podziału przestrzeni, z której pochodzą dane. W przypadku jednowymiarowym przestrzeń R dzielona jest na przedziały o długości [x 0 +mh, x 0 +(m+1)h), zwane też celami. W następnym kroku zliczane są obserwacje wpadające do każdej z cel - ich liczba odpowiada za wysokość słupka odpowiadającego każdemu przedziałowi. Histogramy, których przedziały są równej szerokości, można zdefiniować za pomocą wzoru: ˆf(x) = 1 nh n 1(X i C(x)), (1.1) i=1 gdzie n to liczba obserwacji, h - szerokość przedziału, a C(x) oznacza celę, do której należy x. Funkcja 1 jest funkcją charakterystyczną, która przyjmuje 5

7 1.1. Nieparametryczne estymatory funkcji gęstości 6 wartość 1, gdy obserwacja należy do wskazanej celi i 0 w przeciwnym przypadku. Rysunek 1.1 przedstawia histogram dla rocznej stopy bezrobocia w Stanach Zjednoczonych. Dane obejmujące okres 40 lat zostały opublikowane przez amerykańskie ministerstwo pracy i pochodzą z podręcznika Applied Business Statistics: Making Better Business Decisions (Black, 2010). Stany Zjednoczone Gęstość Stopa bezrobocia [%] Rysunek 1.1: Oszacowanie funkcji gęstości za pomocą histogramu Źródło: Obliczenia własne - R Project Stosowanie metody histogramowej umożliwia szybką wizualizację danych oraz pozwala na łatwą aktualizację oszacowania przy pojawieniu się nowych danych. Metoda ta niesie jednak ze sobą szereg wad. Zły dobór wielkości przedziałów sprawia, że funkcja gęstości modelu populacji, z której pochodzi próba, jest źle odwzorowana przez histogram. W przypadku zbyt małych cel jest to zbyt duże zróżnicowanie, w przypadku zbyt dużych - nadmierne wypłaszczenie. Ponadto histogram ma ograniczone możliwości zastosowania dla danych więcej niż dwuwymiarowych (Bishop, 2006). Bardzo ważną wadą histogramu jest to,

8 1.1. Nieparametryczne estymatory funkcji gęstości 7 że przybliżona za jego pomocą funkcja gęstości jest nieciągła. Kontury wykresu mogą zostać wygładzone przez zmniejszenie szerokości cel, jednak histogram w dalszym ciągu pozostanie nieróżniczkowalnym estymatorem funkcji gęstości. Estymatory jądrowe radzą sobie z tą wadą histogramu przez zastąpienie funkcji charakterystycznej z równania (1.1) funkcją jądrową posiadającą określone własności. Załóżmy, że dysponujemy zbiorem X, składającym się z n obserwacji z przestrzeni d wymiarowej, generowanych przez rozkład p(x). Rozważmy najprostszy przypadek, gdzie d = 1. Następnie wybierzmy ze zbioru X jeden punkt x i rozważmy wokół niego małe otoczenie O tak, żeby x znajdował się w jego centrum. W ogólnym przypadku jest ono hiperkostką o objętości h d, zatem w rozważanej sytuacji będzie to odcinek o długości h. Otoczenie O ma taką właściwość, że p(x)dx = P. (1.2) O Prawdopodobieństwo, że l z n obserwacji należy do obszaru O zależy od wielkości n i P. Dla dostatecznie dużego n możemy przybliżyć l w następujący sposób: l n P. (1.3) Z danych odczytujemy l oraz n i na tej podstawie obliczamy P jako iloraz tych dwóch wartości. Przy bardzo małym h możemy przyjąć, że p(x) jest stałe nad obszarem O, zatem Łącząc równania (1.3) i (1.4) otrzymujemy: P p(x) h. (1.4) p(x) l n h, (1.5)

9 1.1. Nieparametryczne estymatory funkcji gęstości 8 co stanowi przybliżenie wartości funkcji gęstości w punkcie x. Żeby oszacować estymator funkcji gęstości dla badanego zbioru danych, przesuwamy się po obserwacjach ruchomym oknem (otoczeniem) i w każdym z nich wyliczamy p(x). Metoda najbliższych sąsiadów zakłada stałą liczbę l. Szerokość okna jest dobierana tak, aby do każdego z okien wpadało dokładnie tyle samo obserwacji. Szerokość tych okien jest zatem zmienna i zależy od ułożenia obserwacji. W przypadku jądrowych estymatorów gęstości szerokość otoczenia jest stała, natomiast zmienia się liczba l. Jednostajna funkcja jądrowa Trójkątna funkcja jądrowa K(u) K(u) u u Funkcja jądrowa Epanechnikova Gausowska funkcja jądrowa K(u) K(u) u u Rysunek 1.2: Przykłady funkcji jądrowych Źródło: Obliczenia własne - R Project Wpływ punktów należących do okna można ważyć za pomocą funkcji jądrowej. Musi być ona mierzalna, symetryczna wokół zera i posiadająca w zerze

10 1.2. Regresja Nadaraya-Watsona 9 swoje maksimum globalne. Ponadto całka z takiej funkcji musi wynosić 1. Typowe funkcje jądrowe przedstawia rysunek 1.2. Dla zbiorów pochodzących z przestrzeni wielowymiarowych można przyjąć, że ich jądrem jest iloczyn jąder jednowymiarowych: K(u 1, u 2 ) = K 1 (u 1 ) K 2 (u 2 ). (1.6) Przy zadanej postaci funkcji jądrowej K liczbę l można wyliczyć za wzoru: l = n i=1 K( x x i h d ). (1.7) Odjęcie wartości x i od parametru x przesuwa maksimum funkcji jądrowej z zera do x i. Podzielenie różnicy x x i przez parametr h ma na celu odpowiednie wymodelowanie kształtu funkcji K. Wpływ parametru h na kształt funkcji jądrowej opisany został w rozdziale 2.1. Po podstawieniu wzoru (1.7) do równania (1.5) otrzymujemy wzór na estymator gęstości w d-wymiarowej przestrzeni: p(x) = 1 n h d n i=1 K( x x i h d ), (1.8) zwany także estymatorem Rosenblatta-Parzena. Rysunek 1.3 przedstawia jądrowy estymator funkcji gęstości dla danych dotyczących stopy bezrobocia w Stanach Zjednoczonych na tle histogramu. Znając przybliżenie funkcji gęstości rozkładu, można wyliczać takie wielkości, jak warunkowa średnia oraz mediana, warunkowa wariancja, czy też warunkowe kwantyle. Stanowi też ona podstawę dla regresji jądrowej Regresja Nadaraya-Watsona Przyjmijmy, że dysponujemy próbą {y i, x i } n i=1 taką, że y i R oraz x i R d, d 1. Łączna gęstość próby to f(y, x). Po wycałkowaniu z niej y otrzymujemy

11 1.2. Regresja Nadaraya-Watsona 10 Stany Zjednoczone Gęstość Stopa bezrobocia [%] Rysunek 1.3: Histogram i jądrowy estymator funkcji gęstości Źródło: Obliczenia własne - R Project brzegową gęstość x, oznaczaną jako f x (x). Do prognozowania wartości zmiennej y potrzebna nam będzie warunkowa gęstość y dana wzorem: g(y x) = f(y, x) f x (x). (1.9) Stosując estymator jądrowy funkcji gęstości otrzymujemy: ĝ(y x) = 1 h y n i=1 K y ( y i y h y ) K x ( x i x ni=1 K x ( x i x h x ) h x ). (1.10) Po obliczeniu całki y ĝ(y x)dy otrzymujemy estymator warunkowej wartości oczekiwanej E(y x): m(x) = ni=1 y i K x ( x x i h x ) ni=1 K x ( x x, (1.11) i h x )

12 1.2. Regresja Nadaraya-Watsona 11 czyli Estymator Nadaraya-Watsona. Jest to średnia ważona zmiennej zależnej, gdzie wagi zależą od regresorów w następujący sposób: w i = K x( x x i h x ) ni=1 K x ( x x i h x ) (1.12) i przyjmują najwyższe wartości dla obserwacji najbliższych ze względu na wartość zmiennej objaśniającej do badanego punktu. Na rysunku 1.4 zestawiono wyniki regresji Nadaraya-Watsona i regresji liniowej oszacowanej metodą najmniejszych kwadratów. Wartość stopy bezrobocia w Stanach Zjednoczonych uzależniono od czasu. Stany Zjednoczone Stopa bezrobocia [%] N-W MNK Czas Rysunek 1.4: Regresja Nadaraya-Watsona i regresja liniowa Źródło: Obliczenia własne - R Project W przedstawionym przykładzie regresja Nadaraya-Watsona wierniej niż regresja liniowa oddaje zależność stopy bezrobocia od czasu. Estymator ten ma jednak swoje wady. Jedną z nich jest wypłaszczanie ekstremów wynikające z charakteru średniej. Problemem jest też obciążenie oszacowania na brzegach

13 1.3. Regresja lokalnie wielomianowa 12 próby, spowodowane asymetrią jądra w tych obszarach. Zazwyczaj wartość teoretyczna w punkcie jest średnią ważoną obserwacji wcześniejszych i późniejszych w stosunku do danego punktu. Inaczej jest w przypadku obserwacji początkowych i końcowych. Na przykład, w okresie t = 1 wszystkie obserwacje z których wyliczana jest średnia należą do przyszłości. Sytuacja ta może mieć także miejsce wewnątrz zbioru danych, w miejscach, gdzie obserwacje są od siebie tak oddalone, że niewiele z nich wpada do sąsiedztwa punktów. Odpowiedzią na ten problem może być regresja lokalnie wielomianowa, której estymator Nadaraya-Watsona jest szczególnym przypadkiem Regresja lokalnie wielomianowa Estymator Nadaraya-Watsona każdemu punktowi dziedziny przyporządkowuje wartość teoretyczną będącą średnią ważoną wartości zmiennej objaśnianej ze znajdujących się w jego otoczeniu punktów. Jest to najprostszy przypadek regresji lokalnie wielomianowej, nazywany regresją lokalnie stałą. Stopień wielomianu wynosi w tym przypadku zero. Zastępując średnią wielomianem wyższych stopni, otrzymujemy estymator, który nie jest obciążony w skrajnych wartościach zmiennej objaśniającej. Regresja lokalnie wielomianowa z wielomianem stopnia pierwszego nazywana jest regresją lokalnie liniową. Zakładając, że istnieje druga pochodna funkcji gęstości g(x) w małym otoczeniu x, możemy równanie regresji lokalnie liniowej w punkcie x 0 zapisać w następujący sposób: g(x 0 ) g(x) + g(x) x (x 0 x) = a + b(x 0 x). (1.13) W następnym kroku wykorzystuje się metodę najmniejszych kwadratów. Estymacja regresji lokalnie liniowej opiera się na znalezieniu w każdym badanym punkcie parametrów a oraz b, spełniających kryterium:

14 1.3. Regresja lokalnie wielomianowa 13 min n a(x 0 ),b(x 0 ) i=1 (y i a b(x i x)) 2 K( x i x ). (1.14) h W wyniku takiego działania otrzymujemy w każdym punkcie średnią (parametr a) oraz efekt krańcowy (parametr b) - wartość, której nie daje estymator regresji lokalnej stałej. Ponieważ mamy tu do czynienia z szacowaniem w każdym punkcie równania regresji, możemy także wyliczać lokalną wartość błędu standardowego regresji, jako pierwiastek kwadratowy estymatora wariancji składnika losowego. Dla regresji z wyrazem wolnym i jednym regresorem szacowanej metodą najmniejszych kwadratów zgodnym i nieobciążonym estymatorem wariancji składnika losowego jest: S 2 = 1 n 2 n (y i ŷ i ) 2, (1.15) i=1 gdzie n to liczba obserwacji wykorzystanych do oszacowania regresji, y i to wartość empiryczna zmiennej objaśnianej w punkcie i, a ŷ i to jej wartość teoretyczna w tym punkcie. Krzywe regresji lokalnie wielomianowej rzędu 1 i 2 zostały przedstawione na rysunku 1.5. Zastosowanie wielomianów wyższych rzędów zmniejsza obciążenie na brzegach zbioru danych. Ogranicza także wypłaszczanie ekstremów. Częściej jednak napotykamy w ich przypadku na problemy numeryczne wynikające ze zbyt dużego rozproszenia obserwacji. Należy też pamiętać o tym, że wraz ze stopniem wielomianu wzrasta także wariancja estymatora.

15 1.4. Regresje nieparametryczne w prognozowaniu szeregów 14 Stany Zjednoczone Stopa bezrobocia [%] N-W (LW rzędu 0) LW rzędu 1 Lw rzędu Czas Rysunek 1.5: Regresje lokalnie wielomianowe Źródło: Obliczenia własne - R Project 1.4. Regresje nieparametryczne w prognozowaniu szeregów czasowych Mimo że początkowo regresje nieparametryczne były dedykowane głównie danym przekrojowym, okazało się, że wykazują one korzystne własności z punktu widzenia analizy szeregów czasowych. Po pierwsze, mogą okazać się pomocne tam, gdzie klasyczne metody parametryczne nakładają na modele zbyt wiele restrykcji, żeby wyjaśnić obserwowane zjawisko. Ponadto metody nieparametryczne oferują sposoby do radzenia sobie z zależnością w zbiorze danych. Dla funkcji jądrowych o ograniczonych nośnikach zależność pomiędzy obserwacjami ogranicza się tylko do rozpatrywanego w danym punkcie okna. Dzięki temu zmniejsza się zależność estymatora regresji pomiędzy punktami - nawet jeśli X 1 i X 2 są zależne, to oszacowania 1 h K( x 1 x h ) i 1 K( x 2 x) są prawie h h

16 1.4. Regresje nieparametryczne w prognozowaniu szeregów 15 niezależne. Umożliwia to stosowanie technik wypracowanych dla danych niezależnych. Własność ta jest znana w literaturze jako uniezależnianie za pomocą ruchomego okna (ang. whithening by windowing principle, Hart, 1996). Rozważmy nieparametryczny estymator modelu autoregresyjnego. Oprócz opóźnień rzędu p zmiennej objaśnianej możemy włączyć do niego także inne zmienne objaśniające lub trend. Dodawanie zmiennych do modelu musi jednak być dokonywane z ostrożnością, gdyż przy zbyt dużej ich liczbie można napotkać opisany w rozdziale 2.1 problem, zwany przekleństwem wielowymiarowości. Estymator Nadaraya-Watsona jest w modelu autoregresyjnym średnią, ważoną funkcją jądrową, ze wszystkich obserwacji z przeszłości, które były podobne do p ostatnich obserwacji (Heiler, 1999). W rozważanym przypadku przyjmijmy, że jedynymi predyktorami są opóźnienia rzędu 1 zmiennej objaśnianej. Zatem nasz model wygląda następująco: x t = m(x t 1 ) + ε t, (1.16) gdzie {ε t } W N. Zakładając, że dysponujemy obserwacjami X = {x 1, x 2,..., x T }, wartość na jeden okres wprzód prognozujemy według formuły: m(x T +1 ) = Tt=1 y t K( x x T h ) Tt=1 K( x x T h ). (1.17) Prognoza na kilka okresów wprzód następuje sekwencyjnie. W każdym kroku dokonywana jest predykcja na jeden okres w przód. Oszacowana w ten sposób wartość wchodzi do zbioru obserwacji zmiennej objaśniającej, które wezmą udział w prognozowaniu wartości na kolejny okres.

17 Rozdział 2 Własności metod W tym rozdziale przedstawiono własności opisanych wcześniej metod. W pierwszej części poruszono kwestie dylematów związanych z estymatorami jądrowymi, a zatem wybór funkcji jądrowej i parametrów regresji, złożoność obliczeniowa zagadnień oraz przekleństwo wielowymiarowości. Następnie opisano metody oceniania jakości predykcji. W ostatniej części własności estymatorów regresji Nadaraya-Watsona i regresji lokalnie wielomianowej zostały sprawdzone za pomocą symulacji komputerowych Zagadnienia towarzyszące estymacji regresji nieparametrycznych Jednym z pierwszych wyborów, jakich należy dokonać stosując estymatory jądrowe jest wybór odpowiedniej funkcji ważącej obserwacje, czyli jądra. Jego podstawowym zadaniem jest zapewnienie estymatorowi ciągłości, będącej warunkiem koniecznym jego różniczkowalności. Jednym z mierników jakości estymatora jest błąd średniokwadratowy (ang. Mean Squared Error), rozumiany jako wartość oczekiwana kwadratu błędu estymacji. W przypadku regresji nieparametrycznych składa się na nią nie tylko wariancja estymatora, ale także jego obciążenie. Załóżmy, że dysponujemy próbą {y i, x i } n i=1 taką, że y i R oraz x i R d, 16

18 2.1. Zagadnienia towarzyszące estymacji regresji 17 na której podstawie wyliczamy teoretyczne wartości zmiennej objaśnianej jako ŷ. Błąd średniokwadratowy jest tu sumą wariancji oraz kwadratu obciążenia estymatora: MSE = E((ŷ y) 2 ) = [E(ŷ) y] 2 + V (ŷ). (2.1) Bardziej globalnym miernikiem jakości oszacowania jest scałkowany błąd średniokwadratowy (ang. Mean Integrated Squared Error), będący całką z kwadratu błędu estymacji w każdym punkcie przestrzeni z której pochodzą obserwacje. W przypadku jednowymiarowym jest on zatem dany formułą: MISE = E([ˆp(x) p(x)] 2 dx, (2.2) R gdzie p(x) to model populacji, z której pochodzą dane, a ˆp(x) to jego oszacowanie. Na ogół p(x) nie jest znane. Hodges i Lehman w 1956 roku wykazali, że jądro Epanechnikowa (por. rysunek 1.2) minimalizuje wartość scałkowanego błędu średniokwadratowego dla różniczkowalnych p(x). Jest to jądro o ograniczonym nośniku, co często jest pożądaną własnością. Funkcje jądrowe o nieskończonych nośnikach - na przykład jądro normalne - przypisują niektórym obserwacjom bardzo małe wagi, co może powodować wystąpienie błędów numerycznych. Ponadto, ze względu na fakt, że w ich przypadku w obliczaniu wartości estymatora w punkcie biorą udział wszystkie dostępne obserwacje, modele z jądrami o nieograniczonych nośnikach, są bardziej uciążliwe obliczeniowo. Wiele funkcji jądrowych ma zbliżoną efektywność, dlatego wybór funkcji jądrowej, jako decyzja nie mająca bardzo istotnego wpływu na jakość oszacowań, jest często dokonywany w taki sposób, żeby wybrane jądro upraszczało obliczenia (Racine, 2008). Z punktu widzenia analizy znacznie ważniejszy pozostaje dobór współczynnika wygładzającego h. Zmiany tego parametru wpływają zarówno na obciążenie, jak i wariancję estymatora. W przypadku funkcji jądrowych o ograniczo-

19 2.1. Zagadnienia towarzyszące estymacji regresji 18 nych nośnikach parametr ten jest równy promieniowi otoczenia, na podstawie którego szacuje się wartość estymatora w danym punkcie. Dla estymatorów wykorzystujących jądro normalne, jest to odchylenie standardowe funkcji jądrowej. Przy stosowaniu metod definiujących szerokość okna nie przez odległość w przestrzeni, ale liczbę otaczających punktów, parametr ten wyznacza liczbę uwzględnianych w danym punkcie najbliższych sąsiadów. Dla jąder drugiego rzędu (ang. second order kernels), czyli spełniających warunki: K(u)du = 1, uk(u)du = 0, u 2 K(u)du = k <, (2.3) gdzie u = x x i h (por. rozdział 1.1). Optymalna wartość parametru wygładzania ze względu na minimalizację scałkowanego błędu średniokwadratowego dana jest wzorem (Racine, 2008): { }1 K 2 / (u)du 5 1 h opt = ( u 2 K(u)du) 2 n / 5. {p (x)} 2 (2.4) dx Jest ona zatem zależna od funkcji gęstości rozkładu generującego dane, która na ogół nie jest znana. Wybór parametru wygładzania zależy od tego, jaki cel ma nasza analiza. Jeżeli celem wygładzania ma być poznanie struktury danych danych lub ich wstępna eksploracja przed estymacją modelu parametrycznego, wskazane będzie zastosowanie większych wartości parametru h, w celu mocniejszego ich wygładzenia. Jeżeli z kolei chcemy uzyskać krzywą regresji, która ma uwydatnić lokalne właściwości danych, lepsze będą niższe wartości h, które zapobiegną nadmiernemu wypłaszczeniu. W praktyce często dokonuje się wstępnego oszacowania krzywej regresji dla jednej lub kilku wybranych wartości parametru wygładzania. Przykładowo, domyślną wartością parametru wygładzania w funkcji ksmooth pakietu R jest 0.5, a w funkcji loess Kiedy rozważana jest przestrzeń o małej liczbie wymia-

20 2.1. Zagadnienia towarzyszące estymacji regresji 19 rów, takie wstępne oszacowanie krzywej regresji dla wybranych parametrów pozwala zorientować się w strukturze danych. W przypadku małych wartości parametru wygładzania średnia lub lokalna krzywa regresji jest obliczana na podstawie niewielkiej liczby obserwacji. Jest tak dlatego, że okno, na podstawie którego szacowana jest regresja w danym punkcie jest wąskie i obejmuje tylko bardzo bliskie temu punktowi obserwacje. Dlatego też wariancja estymatora będzie duża, zbliżona do wariancji zbioru danych. Jego obciążenie będzie z kolei bardzo małe, zakładając, że wartości zmiennych objaśniających punktów leżących ze względu na wartość cech objaśniających blisko badanego, są zbliżone do jego rzeczywistej wartości. Zastosowanie dużego współczynnika wygładzającego, a zatem przyjęcie do obliczeń dużego okna, powoduje znaczne ograniczenie wariancji estymatora w stosunku do wariancji rzeczywistych danych. Obciążenie estymatora jest jednak większe, ponieważ tym razem w obliczaniu jego wartości w danym punkcie biorą udział także obserwacje oddalone od tego punktu, których właściwości mogą się od niego znacznie różnić. Im wyższa jest wartość parametru wygładzania, tym bardziej estymator regresji Nadaraya-Watsona dąży do wartości średniej z próby. Regresja lokalnie wielomianowa w przypadku okna o nieskończonej szerokości jest równoważna wielomianowi odpowiedniego stopnia dopasowanemu do pełnego zbioru danych. W przypadku regresji jądrowych istnieje ryzyko przeuczenia modelu (ang. overfitting). Zjawisko to występuje wtedy, kiedy krzywa regresji zbyt dobrze dopasuje się do danych, na których jest estymowana. Obserwacje wykorzystywane w procesie szacowania regresji zawierają szum, który zaburza kształt modelu populacji. Zbyt dobre dopasowanie się do nich ogranicza możliwości predykcyjne modelu na nowe obserwacje. Rysunek 2.1 pokazuje, dlaczego w doborze współczynnika wygładzania nie powinno się kierować tylko dopasowaniem do danych z próby uczącej. Czerwona krzywa to regresja lokalnej stałej oszacowana z wykorzystaniem zbyt niskiego współczynnika wygładzającego. Jej współczynnik R 2 jest bliski 1

21 2.1. Zagadnienia towarzyszące estymacji regresji 20 y x szerokie okno wąskie okno punkty dostępne w czasie estymacji nowe punkty Rysunek 2.1: Przykład przeuczenia modelu Źródło: Obliczenia własne - R Project i jest znacznie wyższy, niż w przypadku krzywej szarej, oszacowanej na podstawie szerszego okna. W momencie szacowania obu krzywych dostępne były tylko obserwacje oznaczone kolorem czarnym. Nowe obserwacje, to punkty czerwone. Widać, że krzywa szara lepiej oddaje charakter pełnego zbioru danych, zawierającego zarówno stare, jak i nowe obserwacje. Żeby zabezpieczyć się przed nadmiernym dopasowaniem modelu do danych, do wyboru optymalnej wartości współczynnika wygładzającego stosuje się, na przykład, metody typu cross validation. Metoda Leave One Out Cross Validation polega w przypadku liczącego n obserwacji zbioru danych na szacowaniu n modeli dla każdej z rozważanych wartości współczynnika wygłądzającego. Każdy z modeli estymowany jest na podstawie pełnego zbioru danych z pominięciem jednej obserwacji, zatem otrzymujemy nh następujących oszacowań:

22 2.1. Zagadnienia towarzyszące estymacji regresji 21 ˆm h,i (x i ) = 1 n 1 w hi (x j ) y j, (2.5) j i gdzie, i = 1, 2,..., n, j = 1, 2,..., n, a w hi (x j ) jest zależną od rozważanej wartości parametru h wagą j-tej obserwacji w i-tym modelu. Wagi te wyliczane są zgodnie ze wzorem (1.12). Następnie dla każdej obserwacji sprawdzony zostaje błąd predykcji w modelu, w którego szacowaniu nie brała ona udziału. Jako minimalizowaną wartość przyjąć można sumę kwadratów tych błędów. W obrębie każdej z rozważanych wartości współczynnika wygładzającego sumuje się kwadraty błędów i za optymalną wartość h przyjmuje się tą, dla której suma ta była najmniejsza. Metoda ta jest bardzo złożona obliczeniowo. Dostarcza estymatorów o małym obciążeniu, gdyż w estymacji każdego z modeli służących do wyznaczenia szukanej wartości parametru bierze udział n 1 obserwacji, czyli tylko jedna mniej w porównaniu do ostatecznego modelu. Suma kwadratów reszt w modelu ostatecznym, to jest szacowanym na pełnym zbiorze danych, będzie zatem niewiele większa od tej oszacowanej w trakcie wyznaczania parametru. Z drugiej strony, błąd predykcji liczony jest na podstawie jednej tylko obserwacji, co sprawia, że wariancja oszacowania błędu jest duża. Metodą mniej złożoną obliczeniowo, bo nie wymagającą estymowania tak wielu modeli jest k-fold cross validation. Polega ona na podzieleniu dostępnych obserwacji na k podzbiorów. Dla każdego z nich wybraną miarą oblicza się błąd predykcji w modelu oszacowanym na podstawie wszystkich dostępnych obserwacji oprócz tych, które do niego należą. Błędy te sumuje się w obrębie każdej z rozważanych wartości współczynnika wygładzającego i przyjmuje tę, dla której były one najmniejsze. Oszacowanie błędu tą metodą ma mniejszą wariancję, niż w przypadku LOOCV, jest jednak bardziej obciążone. Innymi metodami wykorzystywanymi do wyboru współczynnika wygładzającego są opisane przez Racine metody przybliżone (m.in. metoda reference rule-of-thumb) oraz znajdująca zastosowanie tylko w przestrzeni jednowymiarowej metoda podstawień (ang. plug-in method), (2008).

23 2.1. Zagadnienia towarzyszące estymacji regresji 22 Kolejnym parametrem, który wymaga ustalenia, jest rząd wielomianu. Regresja lokalnie stała dostarcza estymatora obciążonego na brzegach nośnika danych oraz w okolicach ekstremów. Przejście do regresji lokalnie liniowej pozwala na zmniejszenie tego obciążenia, z niewielką stratą w wysokości wzrostu wariancji. Regresje wielomianowe wyższych rzędów także zmniejszają obciążenie estymatora, jednak wzrost wariancji w ich przypadku jest dużo większy. Wielomiany parzystych stopni przyczyniają się do zmniejszenia obciążenia głównie wewnątrz zbioru danych, w okolicach ekstremów. Wielomiany stopni nieparzystych z kolei lepiej dopasowują się do danych na brzegach dziedziny. Jak dowodzi Hastie (2001) asymptotycznie błąd estymatora jest zdominowany przez obciążenie na brzegach zbioru danych, dlatego też większą popularnością cieszą się regresje lokalnie wielomianowe rzędów nieparzystych. Następnym dylematem związanym ze stosowaniem metod nieparametrycznych jest złożoność obliczeniowa zagadnień. Podstawowe definicje z nim związane znajdują się w dodatku A. Na zbiorze danych liczącym N obserwacji złożoność obliczeniowa zadania, jakim jest wyznaczenie estymatora regresji Nadaraya-Watsona z jądrem normalnym w jednym punkcie wynosi O(N). Zatem oszacowanie krzywej regresji w każdym punkcie tego zbioru oznacza O(N 2 ) operacji. Zastąpienie jądra normalnego innym, takim, którego nośnik ograniczony jest do jakiegoś przedziału, powoduje spadek złożoności obliczeniowej. Uśredniane są wtedy tylko obserwacje wpadające do otoczenia punktu x. Dodatkowo w implementacjach lokalnych regresji często stosuje się uproszczenia. Przykładowo funkcja loess pakietu R dokonuje oszacowania regresji tylko w wyselekcjonowanych M < N punktach zbioru, a następnie interpoluje punkty pośrednie. Zmniejsza to złożoność zagadnienia do O(NM) operacji. Metody zmniejszania złożoności obliczeniowej w przypadku regresji jądrowych zostały przedstawione przez Härdle (1990). Dodatkowym obciążeniem w przypadku regresji jądrowych jest też stosowanie złożonych obliczeniowo metod typu cross validation. W regresjach wyższych wymiarów napotkać można barierę nazywaną prze-

Pokazać jeszcze