MOŻLIWOŚCI ZASTOSOWANIA METOD WTÓRNEGO PRÓBKOWANIA DO WERYFIKACJI EFEKTYWNOŚCI INWESTYCJI PORTFELOWYCH

Podobne dokumenty
Monte Carlo, bootstrap, jacknife

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Wykład 5: Statystyki opisowe (część 2)

STATYSTYKA MATEMATYCZNA

Spis treści 3 SPIS TREŚCI

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Estymacja punktowa i przedziałowa

Statystyka matematyczna dla leśników

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

1 Podstawy rachunku prawdopodobieństwa

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

W1. Wprowadzenie. Statystyka opisowa

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

5. Model sezonowości i autoregresji zmiennej prognozowanej

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wykład 4: Statystyki opisowe (część 1)

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

You created this PDF from an application that is not licensed to print to novapdf printer (

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Inteligentna analiza danych

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wnioskowanie statystyczne. Statystyka w 5

7.4 Automatyczne stawianie prognoz

ROZKŁADY WYBRANYCH BOOTSTRAPOWYCH ESTYMATORÓW MEDIANY ORAZ ZASTOSOWANIE DOKŁADNEJ METODY PERCENTYLI DO JEJ PRZEDZIAŁOWEGO SZACOWANIA

Statystyka Matematyczna Anna Janicka

4. Średnia i autoregresja zmiennej prognozowanej

Miary statystyczne w badaniach pedagogicznych

Statystyka. Opisowa analiza zjawisk masowych

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Parametry statystyczne

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Testowanie modeli predykcyjnych

Próba własności i parametry

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

METODY STATYSTYCZNE W BIOLOGII

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Sterowanie wielkością zamówienia w Excelu - cz. 3

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Statystyka matematyczna i ekonometria

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Kamila Bednarz-Okrzyńska* Uniwersytet Szczeciński

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

Analiza statystyczna w naukach przyrodniczych

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Wprowadzenie do teorii prognozowania

Wykład 1 Sprawy organizacyjne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Pozyskiwanie wiedzy z danych

Walidacja metod analitycznych Raport z walidacji

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Pobieranie prób i rozkład z próby

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Opis programu studiów

DOKŁADNA METODA BOOTSTRAPOWA NA PRZYKŁADZIE ESTYMACJI ŚREDNIEJ

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

przedmiot podstawowy obowiązkowy polski drugi

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Kolokwium ze statystyki matematycznej

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Transkrypt:

Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 2083-8611 Nr 242 2015 Ekonomia 3 Maciej Pichura Uniwersytet Ekonomiczny w Katowicach Wydział Ekonomii Katedra Metod Statystyczno-Matematycznych w Ekonomii maciej.pichura@gmail.com MOŻLIWOŚCI ZASTOSOWANIA METOD WTÓRNEGO PRÓBKOWANIA DO WERYFIKACJI EFEKTYWNOŚCI INWESTYCJI PORTFELOWYCH Streszczenie: Artykuł przedstawia możliwość adaptacji jednej z metod wtórnego próbkowania powtarzanej K-składowej walidacji krzyżowej, w odniesieniu do oceny efektywności inwestycyjnej strategii portfelowych. Metoda ta pozwala na wnioskowanie statystyczne w sytuacjach, gdy nie jest znana postać analityczna rozkładu badanej cechy lub postać ta nie pozwala na skuteczne zastosowanie dostępnych metod parametrycznych. Badanie empiryczne, które przeprowadzono w celu potwierdzenia stawianej hipotezy nie wskazuje na fakt, iż należałoby jej zaprzeczyć. Zostało ono wykonane na dużym zbiorze danych historycznych pochodzących z amerykańskiego rynku akcji. Dodatkowo w artykule zaprezentowano również sposoby wyznaczania błędów prognozy mierników efektywności inwestycyjnej podczas stosowania metod wtórnego próbkowania. Słowa kluczowe: K-składowa walidacja krzyżowa, wtórne próbkowanie, metody portfelowe, efektywność inwestycji. Wprowadzenie Obszar nauki zajmujący się inwestycjami kapitałowymi jest bardzo rozległy i charakteryzuje się mnogością metod i strategii inwestycyjnych. Większość z nich charakteryzuje trudność weryfikacji statystycznej ich rezultatów, która spowodowana jest specyficznymi cechami badanych szeregów statystycznych. Są to szeregi czasowe stóp zwrotu, które często nie mają znanej postaci analitycznej rozkładu, a także wykazują brak stacjonarności i homoskedastyczności. Dodatkowo szeregi te w wielu wypadkach mają stosunkowo niewielką liczebność obserwacji

Możliwości zastosowania metod wtórnego próbkowania... 105 historycznych, co spowodowane jest różnorodnym stopniem rozwoju rynków kapitałowych w poszczególnych krajach. Aby problem ten przezwyciężyć, można zastosować metody wtórnego próbkowania, które pozwalają na uzyskanie znacznie większej liczby obserwacji, co może również pomóc w budowaniu rozkładu prawdopodobieństwa, a co za tym idzie wnioskowaniu statystycznym. W sensie ogólnym wtórne próbkowanie (resampling) polega na wielokrotnym powtarzaniu procedur, które dają w wyniku szeregi statystyczne na próbach osiąganych z próby pierwotnej poprzez jej dzielenie, powielanie lub losowanie z niej podprób [Efron, 1982]. Głównym celem tego artykułu jest przedstawienie jednej z możliwych metod wtórnego próbkowania powtarzanej walidacji krzyżowej oraz jej zastosowania w ocenie efektywności inwestycji portfelowych. Hipoteza badawcza, która zostanie tutaj postawiona polega na założeniu, że procedury wtórnego próbkowania pozwalają na stosowanie metod wnioskowania statystycznego w weryfikacji rezultatów inwestycji bez przyjmowania założeń dotyczących postaci analitycznej rozkładów ich stóp zwrotu. 1. Metody wtórnego próbkowania walidacja krzyżowa Procedury wtórnego próbkowania znajdują podstawowe zastosowanie w problemach związanych z wnioskowaniem statystycznym. Są to metody z szeroko opisywanej w literaturze grupy metod bootstrap, natomiast istnieje jeszcze jedna istotna dziedzina, w której są aplikowane. Jest to obszar problemów regresyjnych, w którym trudności przysparza często prawidłowa weryfikacja dokładności prognozy modelu. W celu lepszej oceny trafności prognoz już w latach 30. XX w. zaproponowano metody weryfikacji modeli regresji poprzez rozdział dostępnych danych na dwa rozłączne zbiory uczący i testowy. Polegała ona na optymalizacji modelu na zbiorze uczącym i jego walidacji na zbiorze testowym. Metoda była cały czas rozwijana, a kilka dekad później jej modyfikacje i rozszerzenia zostały zakwalifikowane do grupy metod walidacji krzyżowej (cross validation) [Liu, Ozsu, red., 2009, s. 532-538]. Jedną z najpopularniejszych metod z tej grupy jest tak zwana K-składowa walidacja krzyżowa (K-fold cross validation). Polega ona na podzieleniu dostępnego zbioru danych na K podzbiorów o równej (lub bardzo zbliżonej) liczebności i wykonaniu K optymalizacji analizowanego modelu. W każdej iteracji wybiera się jeden zbiór testowy, na którym waliduje się model. Pozostałe K-1 zbiorów łączy się w jeden i traktuje jako zbiór uczący. W ten sposób każdy z wyodrębnionych zbiorów służy dokładnie jeden raz jako

106 Maciej Pichura zbiór walidacyjny oraz jest K-1 razy składową zbioru uczącego. Rezultaty uzyskane w iteracjach można uśrednić lub przetwarzać w inny wybrany sposób, który jest odpowiedni dla przyjętego modelu. Ilustracja graficzna sposobu przeprowadzania 3-składowej walidacji krzyżowej została przedstawiona na rysunku 1. Rys. 1. Przykład procedury 3-składowej walidacji krzyżowej Najbardziej rozwiniętą odmianą metody walidacji krzyżowej jest K-składowa powtarzana walidacja krzyżowa (K-fold repeated cross validation). Polega ona na wielokrotnym powtarzaniu procedury K-składowej walidacji krzyżowej. W każdym powtórzeniu podział dostępnej próby empirycznej na podzbiory jest wykonywany w sposób losowy. Zachowuje się przy tej operacji pewne zasady co do liczebności wszystkich podzbiorów, aby w wypadku każdego zbioru testowego pozwalała na wykonanie wiarygodnej walidacji modelu. Stosując takie podejście należy również zwrócić uwagę na fakt, iż zbiory uczące oraz zbiory testowe z różnych powtórzeń procedury mogą mieć elementy wspólne. Mając na uwadze powyższe, w procedurze K-składowej powtarzanej walidacji krzyżowej można odnaleźć wyraźne analogie do metod bootstrap. Spośród kluczowych zastosowań grupy metod walidacji krzyżowej można wyróżnić podstawowe, którym jest narzędzie weryfikacji jakości prognostycznej

Możliwości zastosowania metod wtórnego próbkowania... 107 modelu. W tym wypadku analizuje się bowiem najczęściej uśredniony błąd prognozy [Fushiki, 2011, s. 137-146; Bunke, Droge, 1984, s. 1400-1424]. Jako parametr ten w tradycyjnych problemach regresji najczęściej zastosowanie znajduje średniokwadratowy błąd prognozy. Dla pojedynczego etapu procedury K-składowej walidacji krzyżowej można go wyrazić jako [Sobczyk, 2000]: se= 1 *, (1) i= gdzie: se średniokwadratowy błąd prognozy, liczebność danego zbioru testowego, rzeczywista wartość o indeksie i zaobserwowana w zbiorze testowym, * prognozowana wartość o indeksie i. Dla pojedynczego powtórzenia procedury K-składowej walidacji krzyżowej można zatem wyznaczyć wartość przeciętną średniokwadratowego błędu prognozy i wyrazić ją w następujący sposób [Tibshirani, Tibshirani, 2009, s. 822-829]: SE CV 1 se, (2) i= gdzie: SE CV przeciętny średniokwadratowy błąd prognozy metody K-składowej walidacji krzyżowej, liczba etapów walidacji, se średniokwadratowy błąd prognozy dla etapu walidacji oznaczonego indeksem i. W związku z tym, że przedstawiony we wzorze (1) przeciętny błąd prognozy jest estymatorem rzeczywistego oczekiwanego błędu należy podjąć próbę wyznaczenia jego obciążenia. Jeden z zaproponowanych w literaturze sposobów określenia obciążenia estymatora oczekiwanego błędu prognozy ma następującą postać [Tibshirani, Tibshirani, 2009, s. 822-829]: SE CV 1 se se min, (3) i=

108 Maciej Pichura gdzie: SE CV obciążenie błędu prognozy metody K-składowej walidacji krzyżowej, se min minimalna wartość błędu prognozy spośród uzyskanych we wszystkich etapach procedury walidacji, Pozostałe oznaczenia jak we wzorze (2). Weryfikacja trafności prognoz opisana w powyższy sposób może również znaleźć zastosowanie w metodzie K-składowej powtarzanej walidacji krzyżowej. Konieczny do uwzględnienia w takim wypadku jest fakt, iż wartości błędu prognozy oraz jego obciążenia w pojedynczym powtórzeniu procedury muszą zostać dodatkowo uśrednione po wykonaniu zadanej liczby ich iteracji. W wypadku weryfikacji efektywności metody lub strategii inwestycyjnej możliwa jest adaptacja procedury K-składowej walidacji krzyżowej. Jako model należy w takiej adaptacji przyjąć analityczną postać metody inwestycyjnej, natomiast jako zmienną objaśnianą miarę efektywności stosowaną do oceny rezultatów (wyrażona na przykład jako ), którą oblicza się na podstawie szeregu stóp zwrotu, który generuje metoda inwestycyjna. Dla powyższych założeń można określić: SE 1, (4) i=j= gdzie: SE średniokwadratowy błąd prognozy miernika efektywności w procedurze K-składowej walidacji krzyżowej, liczba podprób procedury K-składowej walidacji krzyżowej, wartość estymatora miernika efektywności wynikająca z zastosowania metody/strategii inwestycyjnej na podpróbie testowej o indeksie j, wartość estymatora miernika efektywności wynikająca z zastosowania metody/strategii inwestycyjnej na podpróbie uczącej o indeksie i. Interpretacja i ocena średniokwadratowego błędu prognozy przysparza w niektórych przypadkach dużych trudności. Oczywiste jest bowiem, że wartość błędu średniokwadratowego powinna być jak najmniejsza, natomiast trudności nastręcza określenie, które wartości są wystarczająco niskie, żeby uznać je za zadowalające. W wypadku metody powtarzanej walidacji krzyżowej najlepszym rozwiązaniem tego problemu jest zastosowanie względnego błędu prognozy, który można określić wzorem:

Możliwości zastosowania metod wtórnego próbkowania... 109 VSE 1 i=j= (5) gdzie: VSE względny średniokwadratowy błąd prognozy miernika efektywności w procedurze K-składowej walidacji krzyżowej, Pozostałe oznaczenia jak we wzorze (4). Parametry opisane wzorami (4) i (5) w metodzie K-składowej powtarzanej walidacji krzyżowej mogą znaleźć wielorakie zastosowania. Najprostszym z nich jest uśrednienie ich wartości, natomiast możliwe jest również uzyskanie wartości ich miar pozycyjnych, a także percentylowego przedziału ufności, który można wyrazić wzorem: θ * * < θ < θ + q 1, (6) gdzie: * percentyl rzędu 100 rozkładu empirycznego wygenerowanego poprzez kolejne iteracje procedury K-składowej walidacji krzyżowej, estymowany parametr (SE lub VSE ). Powyższy wzór znajduje zastosowanie jedynie w wypadkach, gdy uzyskany w procedurze rozkład empiryczny jest symetryczny lub zbliżony do symetrycznego. 2. Wyniki badań empirycznych W związku z przeprowadzanymi w artykule rozważaniami zostały wykonane empiryczne badania mające na celu ułatwić wnioskowanie w podejmowanym tutaj zagadnieniu. Ich głównym założeniem jest przeprowadzenie procedury 3-składowej powtarzanej walidacji krzyżowej w odniesieniu do oceny efektywności portfela inwestycyjnego. Badanie w założeniu ma wykazać, iż do weryfikacji statystycznej tejże efektywności nie jest konieczne domniemanie postaci analitycznej rozkładu stóp zwrotu. Zastosowana metoda pozwala dodatkowo na ogólne odejście od konieczności czynienia założeń ze względu na postać analityczną analizowanego rozkładu.

110 Maciej Pichura Ze względu na najlepszą jakość danych empirycznych w aspekcie możliwości zastosowań metod portfelowych, których efektywność jest tutaj analizowana, do badania wybrano szeregi czasowe tygodniowych stóp zwrotu z wybranych akcji wchodzących w skład amerykańskiego indeksu S&P500. Jako kryteria doboru spółek wybrane zostały jak najwyższa wartość kapitalizacji, najwyższa płynność oraz długa dostępna historia notowań. Lista spółek oraz okres dostępnych notowań historycznych zostały przedstawione w tabeli 1. Tabela 1. Spółki dobrane do tworzenia portfeli inwestycyjnych wraz z okresami dostępnych notowań historycznych Nazwa spółki Skrót nazwy Okres dostępnych notowań Liczebność szeregu stóp zwrotu American Express Company AXP od 14.01.1972 do 30.11.2013 15 297 Bank of America BAC od 5.06.1986 do 30.11.2013 10 041 Chevron Corp. CVX od 9.01.1970 do 30.11.2013 16 032 Coca-Cola Company KO od 9.01.1970 do 30.11.2013 16 032 Exxon Mobil Corp. XOM od 9.01.1970 do 30.11.2013 16 032 General Electric Company GE od 9.01.1962 do 30.11.2013 18 954 IBM Corporation IBM od 9.01.1962 do 30.11.2013 18 954 Johnson & Johnson JNJ od 9.01.1970 do 30.11.2013 16 032 Pfizer Inc. PFE od 11.01.1982 do 30.11.2013 11 647 Procter & Gamble Company PG od 9.01.1970 do 30.11.2013 16 032 Jak można zauważyć, wybrane do badania szeregi stóp zwrotu są bardzo liczne, co wskazuje, iż wybrane próby empiryczne są wystarczająco reprezentatywne. Co najważniejsze, wybrane do analizy rozkłady stóp zwrotu pochodzą z najbardziej rozwiniętego i płynnego rynku akcji na świecie amerykańskich giełd NYSE i NASDAQ. Ze względu na najbardziej pełną możliwość dywersyfikacji portfela okres badawczy zawężono do przedziału od 9.01.1970 do 30.11.2013. Za cały ten okres są bowiem dostępne notowania co najmniej siedmiu z dziesięciu wybranych spółek. Jeśli chodzi o metodę doboru optymalnego składu portfela inwestycyjnego, która została wybrana do przeprowadzenia badania, to zastosowanie znajduje tutaj klasyczna metoda Markowitza [1952]. Jest to metoda, której kryterium optymalizacji jest osiągnięcie minimalnej wariancji stóp zwrotu z portfela przy zachowaniu założonego minimalnego poziomu stopy zwrotu. Ze względu na jej rozpowszechnienie nie zostanie ona bardziej szczegółowo przedstawiona.

Możliwości zastosowania metod wtórnego próbkowania... 111 Mierniki zastosowane do oceny efektywności, które wybrano do analizy, także należą do najpowszechniej znanych i stosowanych w praktyce rynkowej. Są nimi średnia stopa zwrotu z portfela oraz współczynnik Sharpe a [Sharpe, 1994]. Również w tym wypadku nie zostaną one poddane bardziej szczegółowej prezentacji. Uwaga zostanie natomiast skierowana na jak najbardziej wyczerpujące przedstawienie założeń i poszczególnych etapów procedury 3-składowej powtarzanej walidacji krzyżowej, a także sposobu analizy jej wyników. W pierwszej kolejności zostanie omówiony sposób wyodrębniania podprób z dostępnej próby empirycznej. Do pierwszego powtórzenia procedury walidacji krzyżowej cała dostępna próba została podzielona na trzy zbiory o możliwie równej liczebności. Zbiory te zawsze są wzajemnie wykluczające się. W kolejnych powtórzeniach podział na trzy równe podpróby został wykonywany losowo. Losowanie elementów do tych podprób nastąpiło z dostępnej próby empirycznej z założeniem, że wylosowanie każdego elementu jest równo prawdopodobne oraz że nie następuje zwracanie elementów już wylosowanych. Dla każdego powtórzenia procedury walidacji krzyżowej została obliczona wartość średniej stopy zwrotu z portfela oraz współczynnika Sharpe a portfela zarówno dla zbiory uczącego, jak i zbioru testowego. W pierwszej części artykułu miernik efektywności został oznaczony w ogólny sposób jako i stosując to oznaczenie przedstawione zostały wzory (4) i (5) służące do wyznaczenia błędów prognozy tego miernika. Wzory te zostały zastosowane dla wspomnianych średniej stopy zwrotu i współczynnika Sharpe a w każdym powtórzeniu procedury. Po wykonaniu pięciuset powtórzeń procedury walidacji krzyżowej i uzyskaniu tylu samo średniokwadratowych błędów prognozy wybranych mierników efektywności inwestycyjnej przy pomocy wzoru (6) został oszacowany przedział ufności dla wyznaczonych błędów względnych (VSE ). Jako dodatkowe parametry pomocne w weryfikacji efektywności metod portfelowych zostały zastosowane średnia, mediana oraz pozostałe kwartyle uzyskanych błędów prognozy. Uzyskane w przedstawiony sposób wyniki zostały przedstawione w tabeli 2. Tabela 2. Wybrane własności i parametry statystyczne względnych błędów prognozy uzyskanych w wyniku wykonania procedury 3-składowej powtarzanej walidacji krzyżowej Własność/parametr Wartość dla średniej stopy zwrotu Wartość dla współczynnika Sharpe a 1 2 3 Przedział ufności ( 0,1) (0,317;1,232) (0,264;1,102) Średnia 00,403 00,351

112 Maciej Pichura cd. tabeli 2 1 2 3 Mediana 00,346 00,295 Odchylenie standardowe 00,285 00,274 Współczynnik skośności 02,369 03,349 Kurtoza 13,213 25,195 Kwartyl górny 00,218 00,175 Kwartyl dolny 00,529 00,453 Percentyl 5 00,087 00,087 Percentyl 95 00,829 00,752 Średnie wartości względnego błędu prognozy oraz jego mediana dla obydwu wybranych mierników efektywności inwestycyjnej są względnie wysokie, co może wskazywać na fakt, iż na wybranej próbie empirycznej zastosowana metoda portfelowa nie pozwala na uzyskiwanie powtarzalnych wyników inwestycyjnych. Wysokie odchylenie standardowe badanych błędów, które wynosi ponad 70% średniej, może wskazywać na znaczne rozproszenie uzyskanych rozkładów empirycznych. Z drugiej strony kurtoza jest bardzo wysoka, kwartyle górny i dolny wydają się nie być silnie oddalone od mediany czy też średniej. Wartość percentyla 5, a w szczególności 95, wykazuje natomiast już znaczne oddalenie od środka rozkładu. Współczynnik asymetrii obydwóch uzyskanych rozkładów empirycznych jest silnie dodatni. Biorąc pod uwagę te dane, można stwierdzić, że rozkłady empiryczne względnych błędów prognozy średniej stopy zwrotu oraz współczynnika Sharpe a portfela wykazuje silną prawostronną asymetrię. Można w nich również odnaleźć kilka skrajnie dodatnio odstających obserwacji, co prawdopodobnie powoduje, iż odchylenie standardowe jest względnie wysokie. Histogramy częstości uzyskanych rozkładów zaprezentowano na rysunkach 2 i 3.

Możliwości zastosowania metod wtórnego próbkowania... 113 Rys. 2. Histogram częstości rozkładu empirycznego względnych błędów prognozy średniej stopy zwrotu portfela Rys. 3. Histogram częstości rozkładu empirycznego względnych błędów prognozy współczynnika Sharpe a portfela

114 Maciej Pichura W związku z faktem, iż wspomniane rozkłady są prawostronnie asymetryczne i asymetria jest znaczna, estymacja przedziału ufności średniego błędu prognozy przy pomocy wzoru (6) nie pozwala na uzyskanie wiarygodnego wyniku. Podjęto zatem próbę ustalenia prawdopodobieństwa, że wartości mierników efektywności uzyskane na zbiorach testowych są większe od wartości odpowiadających mierników otrzymanych na zbiorach uczących. Dla średniej stopy zwrotu z portfela prawdopodobieństwo to wyniosło nieco ponad 60%, natomiast dla współczynnika Sharpe a nieznacznie powyżej 55%. Wyniki te nie pozwalają na jednoznaczne stwierdzenie, że zaprezentowana metoda portfelowa daje możliwość uzyskania zadowalających rezultatów inwestycyjnych. Jednakże w zestawieniu z faktem, iż ponad 95% względnych błędów prognozy ma wartość niższą niż 1, można przypuszczać, że zastosowana metoda optymalizacji portfela daje umiarkowanie satysfakcjonujące wyniki. Podsumowanie W artykule przedstawiona została możliwość adaptacji metody powtarzanej K-składowej walidacji krzyżowej w aspekcie badania efektywności inwestycyjnej metody optymalizacji portfela zaproponowanej przez Markowitza [1952]. Rezultaty przeprowadzonego badania empirycznego wydają się potwierdzać postawioną hipotezę, która mówi, że zastosowana procedura wtórnego próbkowania daje możliwość wnioskowania statystycznego bez stawiania założeń dotyczących postaci analitycznej rozkładu badanej cechy. Co więcej, metoda ta pozwala na uzyskanie rozkładów empirycznych o bardzo dużej liczebności nawet gdy niedostępna jest duża liczba obserwacji historycznych. W wypadku wnioskowania w odniesieniu do skuteczności metod inwestycyjnych jest to bardzo istotne, gdyż w wielu przypadkach uzyskanie jednej wiarygodnej obserwacji miernika efektywności wymaga co najmniej kilkuset obserwacji stóp zwrotu. Literatura Bunke O., Droge B. (1984), Bootstrap and Cross-Validation Estimates of the Prediction Error for Linear Regression Models, The Annals of Statistics, Vol. 12, No. 4, s. 1400-1424. Efron B. (1982), The Jackknife, the Bootstrap, and Other Resampling Plans, Society of Industrial and Applied Mathematics CBMS-NSF Monographs, Vol. 38.

Możliwości zastosowania metod wtórnego próbkowania... 115 Fushiki T. (2011), Estimation of Prediction Error by Using K-Fold Cross Validation, Statistics and Computing, Vol. 21, s. 137-146. Liu L., Ozsu T., red. (2009), Encyclopedia of Database Systems, Springer-Verlag, New York, s. 532-538. Markowitz H. (1952), Portfolio Selection, The Journal of Finance" Vol. 7, No. 1. Sharpe W.F. (1994), The Sharpe Ratio, The Journal of Portfolio Management, New York. Sobczyk M. (2000). Statystyka, Wydawnictwo Naukowe PWN, Warszawa. Tibshirani R.J., Tibshirani R. (2009), A Bias Correction for the Minimum Error Rate in Cross-Validation, Annals of Applied Statistics, Vol. 3, No. 2, s 822-829. POTENTIAL APPLICATIONS OF RESAMPLING METHODS FOR PORTFOLIO INVESTMENTS EFFICIENCY VERIFICATION Summary: This paper presents one of possible adaptations of resampling method repeated K-fold cross-validation used for portfolio optimization strategies investment efficiency estimation. This method is very helpful with statistical inference determination in situation when analytical form of distribution is not known or analytical form makes using available parametric methods inefficient. Empirical study was conducted to confirm that aforementioned assumption is true and its results show that there is no support for assertion of its falseness. It was performed on large historical data set from American stock market. Moreover, this article presents how to determine prediction errors for investment efficiency measures applied in resampling methods. Keywords: K-fold cross validation, resampling, portfolio methods, investment efficiency, bootstrap.