PRACA DYPLOMOWA. Wydziaª Podstawowych Problemów Techniki. Metody Oceny Ryzyka Operacyjnego (Methods of Operational Risk Assessment) Katarzyna Smaga



Podobne dokumenty
Metody oceny ryzyka operacyjnego

Szacowanie miary zagrożenia Expected Shortfall dla wybranych instrumentów polskiego rynku kapitałowego

Spis treści 3 SPIS TREŚCI

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Matematyka ubezpieczeń majątkowych r.

Ryzyko operacyjne metoda zaawansowana. Wyzwania

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Prawdopodobieństwo i statystyka

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

166 Wstęp do statystyki matematycznej

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

STATYSTYKA

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka w przykładach

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

W4 Eksperyment niezawodnościowy

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

EXPECTED SHORTFALL W OCENIE RYZYKA AKCYJNYCH FUNDUSZY INWESTYCYJNYCH

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych.

Rozkłady statystyk z próby

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

FORECASTING THE DISTRIBUTION OF AMOUNT OF UNEMPLOYED BY THE REGIONS

Matematyka ubezpieczeń majątkowych r.

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Matematyka ubezpieczeń majątkowych r.

Monte Carlo, bootstrap, jacknife

Testowanie hipotez statystycznych.

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Testowanie hipotez statystycznych. Wprowadzenie

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Estymacja parametrów w modelu normalnym

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Detekcja rozkładów o ciężkich ogonach

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Weryfikacja hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

PDF created with FinePrint pdffactory Pro trial version

Kolokwium ze statystyki matematycznej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wprowadzenie do analizy korelacji i regresji

Ćwiczenia Zarządzanie Ryzykiem. dr hab. Renata Karkowska, ćwiczenia Zarządzanie ryzykiem 1

Matematyka ubezpieczeń majątkowych r.

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Biostatystyka, # 3 /Weterynaria I/

Spacery losowe generowanie realizacji procesu losowego

Statystyka matematyczna i ekonometria

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Cenzurowanie danych w bankowości

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład 7 Testowanie zgodności z rozkładem normalnym

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

PRZEWODNIK PO PRZEDMIOCIE

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Statystyka matematyczna dla leśników

Symulacyjne metody analizy ryzyka inwestycyjnego wybrane aspekty. Grzegorz Szwałek Katedra Matematyki Stosowanej Uniwersytet Ekonomiczny w Poznaniu

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Inteligentna analiza danych

Sterowanie wielkością zamówienia w Excelu - cz. 3

Statystyka Matematyczna Anna Janicka

Rachunek Prawdopodobieństwa Anna Janicka

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

Ogólnopolska Konferencja Aktuarialna Zagadnienia aktuarialne teoria i praktyka Warszawa, IE SGH 2009

Matematyka ubezpieczeń majątkowych r.

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Ważne rozkłady i twierdzenia c.d.

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Zadanie 1. Ilość szkód N ma rozkład o prawdopodobieństwach spełniających zależność rekurencyjną:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Niezawodność i diagnostyka projekt. Jacek Jarnicki

Sposoby prezentacji problemów w statystyce

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Wnioskowanie statystyczne. Statystyka w 5

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

6.4 Podstawowe metody statystyczne

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Matematyka ubezpieczeń majątkowych r.

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Prawdopodobieństwo i statystyka r.

Metody probabilistyczne

Analiza danych. TEMATYKA PRZEDMIOTU

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Transkrypt:

Wydziaª Podstawowych Problemów Techniki PRACA DYPLOMOWA Metody Oceny Ryzyka Operacyjnego (Methods of Operational Risk Assessment) Katarzyna Smaga Promotor: dr hab. Rafaª Weron sªowa kluczowe: Ryzyko Operacyjne Umowa Bazylejska Teoria warto±ci ekstremalnych Extreme Value Theory (EVT) Warto± nara»ona na ryzyko Value at Risk (VaR) streszczenie: Praca dotyczy oceny ryzyka operacyjnego. Przedstawiono przegl d metod proponowanych przez Komitet Bazylejski oraz zaprezentowano metod modelowania rozkªadu strat operacyjnych z u»yciem teorii warto±ci ekstremalnych. Algorytmy zostaªy zaimplementowane w ±rodowisku MatLab. Przeprowadzono testy zgodno±ci oraz wyliczono warto±ci nara»one na ryzyko. Wrocªaw 2009

Spis treści Wstęp...................................... v Rozdział 1. Ryzyko operacyjne...................... 1 1.1. Definicja ryzyka operacyjnego..................... 1 1.2. Historyczne straty operacyjne..................... 1 1.3. Techniki szacowania ryzyka operacyjnego............... 2 Rozdział 2. Dane............................... 5 2.1. Opis bazy danych............................ 5 2.2. Wizualizacja............................... 6 2.3. Statystyki opisowe............................ 6 Rozdział 3. Dobór rozkładu........................ 9 3.1. Rozkład wielkości szkody........................ 10 Rozdział 4. Wykorzystanie teorii wartości ekstremalnych (EVT). 13 4.1. Wybór progu.............................. 13 4.1.1. Mean Excess Plot........................ 13 4.1.2. Wykres estymatora parametru kształtu............ 14 4.1.3. Wykres Gertensgarbe-Wernera................ 14 4.2. Dopasowanie Modelu GPD....................... 17 4.3. Skalowanie rozkładu.......................... 18 4.4. Dokładność doboru modelu...................... 19 4.4.1. Test KS porównujący rozkłady dwóch próbek........ 19 4.4.2. Testy graficzne......................... 19 4.4.3. Test oparty na residuach.................... 21 Rozdział 5. VaR i badanie modelu.................... 25 5.1. Estymacja kwantyli wyższych rzędów................. 25 5.2. Badanie dokładności estymacji kwantyli............... 25 5.3. Test Kupca............................... 26 Rozdział 6. Modelowanie wielkości straty mieszaniną rozkładów. 27 6.1. Model dla strat poniżej progu..................... 27 6.1.1. Mieszanina rozkładów Weibulla................ 27 6.1.2. Model wielkości straty..................... 28 6.2. Test Andersona-Darlinga........................ 29 6.3. Test Kupca............................... 29 6.4. Test Crnkovica-Drachmana....................... 29 Rozdział 7. Dobór rozkładu do częstości występowania strat... 31 7.1. Process Poissona dla rozkładu GPD wielkości szkody........ 31 7.2. Niejednorodny proces Poissona jako proces liczący liczby strat... 31 7.2.1. Wybór odpowiedniej funkcji intensywności λ(t)....... 31

iv Spis treści Rozdział 8. Rozkład złożony........................ 33 8.1. Symulacja metodą Monte Carlo.................... 33 8.2. Test Andersona-Darlinga........................ 34 8.3. Test Kupca............................... 34 8.4. Test Crnkovica-Drachmana....................... 35 Rozdział 9. Zakończenie........................... 37 Dodatek A. Teoria wartości ekstremalnych Extreme Value Theory (EVT)................................ 39 Dodatek B. Proces Poissona........................ 41 B.1. Jednorodny proces Poissona (HPP).................. 41 B.2. Niejednorodny proces Poissona (NPP)................ 41 B.2.1. Symulowanie NPP - metoda rozcieńczania.......... 41 Bibliografia................................... 43

Wstęp Ocena ryzyka operacyjnego stanowi ważny element zarządzania ryzykiem. Zgodnie z definicją, przyjętą przez Komitet Bazylejski, straty operacyjne wynikają głównie z błędów popełnianych przez ludzi, bądź są spowodowane czynnikami zewnętrznymi. Z tego powodu są one nieodłącznym elementem funkcjonowania przedsiębiorstw. Analiza historycznych przypadków prowadzi do wniosku, że wielkość strat tego typu może sięgać setek miliardów dolarów, dlatego monitorowanie ryzyka operacyjnego nie może być zaniedbywane. Bazylejski Komitet Nadzoru Bankowego w dokumencie zwanym Umową Kapitałową przedstawia podstawowe metody oceny ryzyka operacyjnego. Najdoskonalszą z nich jest tzw. Metoda Rozkładu Straty Loss Distribution Approach. Polega ona na dobraniu pewnych rozkładów prawdopodobieństwa do danych opisujących wielkość szkody oraz do danych o częstości występowania strat, a następnie na połączeniu ich w rozkład złożony. Główną częścią niniejszej pracy jest zaimplementowanie metody LDA. Rozkłady strat operacyjnych charakteryzują się grubymi ogonami, co oznacza, że z dodatnim prawdopodobieństwem mogą pojawiać się straty o nietypowych, ekstremalnie dużych wartościach. Z tego powodu potrzebne są modele dobrze opisujące obszar ogonowy rozkładu. Najbardziej powszechną metodą stosowaną do modelowania obszaru ogonowego rozkładu strat jest wykorzystanie Teorii Wartości Ekstremalnych (EVT Extreme Value Theory). W niniejszej pracy zastosowano jedną z metod EVT Peaks Over Treshold (POT). Model częstości występowania strat oparty został na niejednorodnym procesie Poissona. Na każdym etapie przeprowadzono szereg testów statystycznych sprawdzających zgodność modelu z danymi rzeczywistymi. Plan pracy: 1. Analiza historycznych przypadków strat operacyjnych 2. Przedstawienie metod oceny ryzyka operacyjnego zaproponowanych przez Komitet Bazylejski 3. Zastosowanie metody POT dobór modelu opartego na uogólnionym rozkładzie Pareto (GPD) do ogona rozkładu strat 4. Model dla całościowego rozkładu strat modelowanie mieszaniną rozkładów GPD i Weibulla 5. Model częstości występowania szkód 6. Model złożony

Rozdział 1 Ryzyko operacyjne 1.1. Definicja ryzyka operacyjnego Definicja ryzyka operacyjnego ewoluowała znacząco na przestrzeni ostatnich 12 lat. Od lat 50-tych zaczęto zauważać potrzebę kontrolowania rzadkich, ale katastrofalnych w skutkach wypadków. Termin ryzyko operacyjne został prawdopodobnie wspomniany po raz pierwszy po niechlubnym przypadku bankructwa banku Barringsa w 1995 roku. Jeden z maklerów - Nick Leeson, poprzez prowadzenie nielegalnych transakcji naraził bank na stratę 1.3 miliarda dolarów. To wydarzenie pokazało, że istnieją wcześniej ignorowane rodzaje ryzyka, które mogą w znaczący sposób odbić się na rynku finansowym. Ponieważ przypadki takie jak bank Barringsa nie mogły być zaklasyfikowane jako ryzyko kredytowe, ani rynkowe powstał termin ryzyka operacyjnego. Obecnie banki estymują, że ryzyko, które ponoszą dzieli się na ryzyko kredytowe (50%), ryzyko rynkowe i płynności (15%) oraz ryzyko operacyjne (35%) [7]. Formalnie definicja ryzyka operacyjnego została wprowadzona przez Bazylejski Komitet Nadzoru Bankowego, który opracował zespół najlepszych praktyk rynkowych w zakresie zarządzania ryzykiem finansowym w sektorze bankowym, bezpieczeństwa oraz poziomu kapitału koniecznego do utrzymywania przez banki. Pierwsza wersja dokumentu opublikowana w 1988 roku zwana jest Umową Kapitałową. Jej rozbudowana i uaktualniona wersja znana jest pod nazwą Basel II / Nowa Umowa Kapitałowa (NUK) [19]. Według NUK ryzyko operacyjne to ryzyko strat spowodowanych niewłaściwymi lub zawodnymi procesami wewnętrznymi, błędem ludzkim lub czynnikami natury zewnętrznej. 1.2. Historyczne straty operacyjne Analizując bazy danych strat operacyjnych możemy zauważyć występowanie przypadków o niskiej frekwencji, przy jednoczesnych ekstremalnych możliwych wartościach zaistniałej szkody. Poniżej przedstawiono kilka przykładów ekstemalnie dużych strat operacyjnych [6, 22]: 1. Orange Country W 1994 roku wzrost stóp procentowych spowodował bankructwo Orange Country, które straciło 1.7 miliarda dolarów. Było to wynikiem działania zarządcy finansowego, Boba Citrona, który zainwestował rezerwowe zasoby finansowe powiatu w instrumenty pochodne ściśle związane ze stopami procentowymi.

2 Rozdział 1. Ryzyko operacyjne 2. Daiwa W lipcu 1995 roku Toshihide Iguchi, makler japońskiego banku Daiwa ujawnił zarządowi banku stratę 1.1 miliarda dolarów. Była ona wynikiem 30 000 nieautoryzowanych transakcji, których Iguchi dokonał na przestrzeni 11 lat. 3. NatWest W lutym 1997 roku bank inwestycyjny NatWest ogłosił stratę 150 milionów dolarów z powodu nieupoważnionych transakcji zawartych przez młodszego maklera, który użył własnych, przeszacowanych prognoz zmienności rynku przy wycenie opcji. 4. Nomura Securities W marcu 1997 roku Nomura Securities ogłosiło, że dwójka dyrektorów dokonała nieupoważnionych transakcji akcjami, a profity z nich przelała na konta klientów. W rezultacie cena akcji spadła o 16%, a strata wyniosła przynajmniej 413 milionów dolarów. 5. Long Term Capital Managmenent LTCM był funduszem hedgingowym. Wśród jego założycieli znajdowali się dwaj nobliści Myron Scholes i Robert Merton. Działalność funduszu opierała się na wyszukiwaniu możliwość arbitrażu na rynku i generowaniu zysków dzięki zastosowaniu strategii zabezpieczających. W 1998 roku LTCM stracił 4,6 mld dolarów w niecałe 4 miesiące, gdy jego pozycje zaczęły przynosić straty po rozpoczęciu kryzysu rosyjskiego. 1.3. Techniki szacowania ryzyka operacyjnego Do oceny obciążenia kapitału firmy z tytułu ryzyka operacyjnego Komitet Bazylejski proponuje 3 metody: 1. Metoda wskaźnika podstawowego Basic Indicator Approach (BIA) Jest to najprostsze z zaproponowanych rozwiązań. Polega na przemnożeniu średniego dochodu brutto z ostatnich 3 lat (GI) przez parametr α K op = αgi Współczynnik α jest ustalany przez Komitet i aktualnie wynosi 15% [12]. 2. Metoda standardowa Standardized Approach (SA) W przypadku tej metody wynik brutto banku zostaje rozbity na 8 linii biznesowych określonych przez Komitet Bazylejski. Każda z nich posiada własny zdefiniowany wskaźnik β (patrz tabela 1.1). Miernikiem wrażliwości na ryzyko operacyjne są średnie wyniki brutto w poszczególnych liniach biznesowych z ostatnich 3 lat (GI i ) i wskaźniki β i. 8 K op = β i GI i i=1 3. Metoda zaawansowanego pomiaru Advanced Measurement Approach (AMA) W podejściu zaawansowanym obliczenie wielkości kapitału regulacyjnego

1.3. Techniki szacowania ryzyka operacyjnego 3 Tabela 1.1. Podział na linie biznesowe i wartości współczynników w metodzie standardowej Linia biznesowa Współczynnik Bankowość korporacyjna 18% Bankowość inwestycyjna 18% Bankowość detaliczna 12% Bankowość komercyjna 15% Rozliczenia 18% Usługi pośrednictwa 15% Zarządzanie aktywami 12% Pośrednictwo brokerskie 12% jest efektem zastosowania wewnętrznych modeli pomiaru ryzyka operacyjnego, opartych na kryteriach ilościowych i jakościowych. Modelowanie w ramach tej metody wymaga akceptacji przyjętych w banku metodologii przez nadzór bankowy. Jedną z zaproponowanych przez Komitet metod jest metoda wewnętrznego pomiaru Internal Measurement Approach (IMA). Oprócz podziału na linie biznesowe rozpatruje się też podział na 7 typów strat/ryzyka (patrz tabela 1.2). Tabela 1.2. Podział na typy strat/ryzyka Typy strat/ryzyka Wewnętrzna defraudacja Zewnętrzna defraudacja Procedura zatrudnienia i bezpieczeństwo miejsca pracy Postępowania biznesowe z klientami Fizyczne zniszczenia Awarie systemowe i przerwy w interesach Zarządzanie procesami, wykonawstwem i dostawą Obciążenie kapitału oblicza się ze wzoru: 8 7 K op = γ ik ES ik, i=1 k=1 gdzie ES ik jest oczekiwaną zagregowaną szkodą z k-tego powodu w i-tej linii biznesowej, a γ ik jest czynnikiem skalującym. Najbardziej udoskonaloną metodą jest podejście Rozkładu Straty Loss Distribution Approach (LDA), które opiera się na modelowaniu rozkładu prawdopodobieństwa zmiennej losowej opisującej straty, które wystąpiły w zadanym okresie czasu. Implementacja tej metody będzie przedmiotem niniejszej pracy.

Rozdział 2 Dane Dane, którymi można posłużyć się przy ocenie ryzyka operacyjnego metodą LDA mogą pochodzić z trzech źródeł: Dane wewnętrzne Szereg czasowy złożony z historycznych przypadków strat operacyjnych, które wystąpiły w danej firmie jest prawdopodobnie najbardziej wiarygodnym źródłem danych do oceny ryzyka operacyjnego. Komitet Bazylejski wymaga od banków gromadzenia danych z przynajmniej 5 lat, aby mogły stosować jedną z metod zaawansowanego pomiaru. Należy jednak rozpatrzyć dwie kwestie: w danym momencie firma może jeszcze nie dysponować wystarczająco dużą bazą danych lub może okazać się, że okres 5 lat był za krótki, żeby mogły wystąpić szkody o niskiej frekwencji występowania, ale o dużej wielkości. Dla pełnej oceny ryzyka może okazać się konieczne połączenie wewnętrznej bazy danych z danymi zewnętrznymi. Dane zewnętrzne Istnieją firmy oferujące bazy strat operacyjnych, które mogą zostać użyte do modelowania rozkładów strat. Zaletą takich baz jest zazwyczaj duża liczba danych, pochodzących z wielu instytucji. Dane zewnętrzne powinny być w odpowiedni sposób połączone z danymi wewnętrznymi. Jeden ze sposobów mieszania danych przedstawiony jest w [13]. Estymacja ekspercka Trzecią możliwością zdobycia odpowiednich danych jest zaangażowanie ekspertów, którzy są w stanie oszacować potrzebne parametry. Oczywiście takie rozwiązanie będzie oparte na subiektywnej opinii i z tego powodu musi być nieustannie poddawane testom sprawdzającym jego adekwatność. 2.1. Opis bazy danych Wykorzystane w niniejszej pracy dane pochodzą z bazy IC 2 Operational Loss Database First udostępnionej przez IC 2 Zurich. Baza zawiera informacje o 2845 przypadkach, które zostały podane do wiadomości publicznej. Lata występowania szkód zawarte są w przedziale od 1950 do 2002 roku, jednak przeważająca większość przypadków wystąpiła po roku 1980. Dane zostały podzielone na 5 grup, ze względu na przyczynę wystąpienia straty: 1. Błędy ludzkie Human Do tej grupy zaliczane są straty powstałe w wyniku błędów ludzkich wewnątrz firmy (błędy pracowników) lub poza nią (np. wyłudzenia klientów).

6 Rozdział 2. Dane 2. Błędy procesowe Process Straty odzwierciedlające słabości w procedurach. Np. brak zgodności w wewnętrznych procesach lub w relacjach z klientami. 3. Zła organizacja pracy Relationship Ryzyko wynikające np. ze zmian w zarządzie, sposobów komunikacji w firmie. 4. Błędy technologiczne Technology Awarie sprzętowe, błędy w oprogramowaniu, awarie sieci lub innych technologii. Również luki w zabezpieczeniach systemów informatycznych. 5. Przyczyny zewnętrzne External Obszar ryzyka powodowanego zewnętrznymi przyczynami takimi jak postępowania sądowe lub katastrofy naturalne. W niektórych przypadkach zdiagnozowano więcej niż jedną przyczynę powstania szkody. Konieczne było usunięcie z bazy takich danych, ponieważ w modelu przyjmuje się założenie o niezależności zmiennych w poszczególnych grupach (zob. definicja 1 rozdział 3). Wielkości strat podane są w różnych walutach, większość (91%) w dolarach amerykańskich. Pozostałe dane zostały przewalutowane zgodnie ze średnimi rocznymi kursami walut. Zostały również uwzględnione współczynniki inflacji wyliczane na koniec każdego roku, przez które odpowiednio przemnożono dane. 2.2. Wizualizacja Na rysunku 2.1 przedstawiono wielkość straty w poszczególnych latach. Każdy punkt wykresu oznacza pojedynczą stratę. Już na tym etapie możemy zauważyc gruboogonowy charakter rozkładów. Widoczne są rzadkie, ale ekstremalnie wysokie straty. Na rysunku 2.2 przedstawiono liczbę strat w poszczególnych latach. Można zauważyć wyraźne rosnące trendy. 2.3. Statystyki opisowe Tabela 2.1 zawiera podstawowe statystyki opisowe rozkładów wielkości strat w poszczególnych grupach. Tabela 2.1. Podstawowe statystyki rozkładu wielkości strat rozkład Human Process Relationship Technology External minimum 796.47 99300 41602 19057 22771 maksimum 6.75e11 1.55e11 1.69e11 3.13e10 2.07e11 średnia 3.25e9 4.47e9 1.99e9 1.69e9 2.02e9 wariancja 9.75e20 2.79e20 1.06e20 1.82e19 1.66e20 skośność 19.34 7.21 11.58 5.14 13.85 kurtoza 392.74 60.40 159.84 34.30 213.00

2.3. Statystyki opisowe 7 (a) Human (b) Process (c) Relationship (d) Technology (e) External Rysunek 2.1. Wielkości strat w poszczególnych grupach Obserwując wartości minimum można zauważyć, że wszystkie wartości są dodatnie. Maksymalne wartości strat sięgają setek miliardów dolarów, co wpływa na wysoką wartość średniej. Ogromne wartości wariancji świadczą o dużym rozrzucie wśród danych. Dodatnia kurtoza oznacza grubszy ogon niż rozkładu normalnego. Dodatnia skośność świadczy o tym, że prawy ogon jest grubszy od lewego. Możemy wnioskować, że ekstremalne wartości strat są obserwacjami nietypowymi, a rozkład jest gruboogonowy.

8 Rozdział 2. Dane (a) Human (b) Process (c) Relationship (d) Technology (e) External Rysunek 2.2. Liczba strat w poszczególnych grupach

Rozdział 3 Dobór rozkładu Aby skutecznie móc prognozować przyszłe straty operacyjne potrzebny jest model strat. Do jego stworzenia zostanie użyta baza danych IC 2 Operational Loss Database First (patrz rozdział 2). Model będzie składał się z dwóch części: modelu wielkości straty i modelu frekwencji występowania szkód. Aby uzasadnić, że modelowanie osobno wielkości i liczby strat jest konieczne posłużmy się przykładem [7]. Załóżmy, że w celu uniknięcia ataku hakerów na stronę internetową firmy instalujemy zaporę sieciową (firewall). Na pewno wpłynie on na ilość skutecznych ataków hakerskich, jednak jeśli niepożądana osoba złamie zabezpieczenia, szkody jakie poniesie firma prawdopodobnie będą podobnie dotkliwe jak w przypadku, gdyby zapora nie była zainstalowana. Podobnie można znaleźć przykład działania, które ograniczny wielkość szkody, ale nie częstotliwość jej występowania. Przyjmujemy następującą definicję: Definicja 1. Model strat [3] 1. Proces wielkości straty: Zmienne (X k ) k N są dodatnie, niezależne i pochodzą z jednego rozkładu (iid). Opisują wielkość losowo występującej straty. 2. Proces frekwencji występowania szkody: N t jest losową liczbą strat, które wystąpiły w przedziale czasowym [0, t], gdzie t 0. Proces liczący (N t ) t 0 jest generowany przez sekwencję punktów (T n ) n 1 nieujemnych zmiennych losowych spełniających nierówność: 0 T 1 T 2... oraz N t = sup{n 1 : T n t}, t 0. 3. Procesy wielkości straty i frekwencji występowania strat są niezależne 4. Proces zagregowanej straty: N t S t = X i, t 0 i=1 W ubezpieczeniach taki model nosi nazwę modelu ryzyka kolektywnego. Dane podzielone są na 5 grup związanych z przyczyną powstania szkody. W związku z tym stworzone zostanie 5 modeli, po jednym dla każdej grupy ryzyka.

10 Rozdział 3. Dobór rozkładu 3.1. Rozkład wielkości szkody Pierwszą próbą dobrania modelu do wielkości straty będzie dobór pewnego rozkładu gruboogonowego przy użyciu metody największej wiarogodności [4]. Do estymacji parametrów użyte zostały algorytmy zaimplementowane w środowisku MatLab. Wybrano 4 rozkłady najlepiej dopasowujące się do danych, a następnie przy pomocy testu Kołmogorowa-Smirnowa (KS) porównano dystrybuanty empiryczne 1 z dystrybuantami rozkładów o wyestymowanych parametrach (wykresy dystrybuant zawiera rysunek 3.1). Tabela 3.1 przedstawia p-wartości testu KS. Tabela 3.1. Test Kołmogorowa-Smirnowa rozkład Human Process Relationship Technology External lognormalny 0.09 0.16 0.24 0.24 0.10 weibulla 1.49e-4 0.22 0.08 0.17 0.08 wykładniczy 1.71e-266 2.45e-48 7.42e-156 1.22e-16 4.79e-69 gamma 1.94e-32 3.69e-7 1.32e-14 0.02 8.98e-9 Jedynie rozkłady lognormalny i Weibulla mogą być uznane za dobrze opisujące wielkość szkody. Aby sprawdzić czy dopasowanie jest dobre w obszarze ogonowym rozkładu, przeprowadzimy test Andersona-Darlinga. Statystyka A dla próby X 1,..., X n ma następującą postać: S = n k=1 2k 1 n [log (F (X k )) + log (1 F (X n+1 k ))], A = n S, (3.1) gdzie F jest dystrybuantą rozkładu teoretycznego. Otrzymane wartości przedstawione są w tabeli 3.2. Tabela 3.2. Test Andersona-Darlinga rozkład Human Process Relationship Technology External lognormalny 1.22 (0.75) 0.78 (0.76) 1.48 (0.73) 0.76 (0.74) 1.60 (0.75) weibulla 7.72 (0.76) 1.71 (0.76) 3.52 (0.75) 0.90 (0.74) 2.22 (0.73) Wartości statystyki należy porównać z otrzymanymi metodą Monte Carlo wartościami krytycznymi, które podano w nawiasach. Wszystkie wartości w 1 Dystrybuantą empiryczną ciągu zmiennych losowych X 1,..., X n nazywamy ˆF X (x) = 1 n n i=1 1 {Xi<x}

3.1. Rozkład wielkości szkody 11 (a) Human (b) Process (c) Relationship (d) Technology (e) External Rysunek 3.1. Dystrybuanta empiryczna rozkładu wraz z dopasowanymi dystrybuantami teoretycznymi tabeli 3.2 są większe od odpowiednich wartości krytycznych, co oznacza, że żaden z rozkładów nie opisuje dobrze ogona rozkładu strat. Potrzebne będą modele lepiej opisujące ten rejon, ponieważ odpowiada on stratom, których wystąpienie jest mało prawdopodobne, jednak jeśli się pojawią, ich wartość będzie ekstremalna. To właśnie straty tego rodzaju powodują największe spustoszenia w finansach firm i przewidywanie ich będzie jednym z celów ninejszej pracy.

Rozdział 4 Wykorzystanie teorii wartości ekstremalnych (EVT) W tym rozdziale przedstawiona zostanie metoda doboru modelu GP D (uogólniony rozkład Pareto) do ogona rozkładu wielkości strat X z wykorzystaniem teorii wartości ekstremalnych (patrz dodatek A). Dystrybuanta rozkładu GP D przedstwia się następująco: 1 ( ) 1 + ξ x µ 1 ξ, jeśli ξ 0 GP D ξ,σ,µ (x) = σ 1 exp ( ) (4.1) x σ, jeśli ξ = 0 Używana będzie również dwuparametrowa wersja uogólnionego rozkładu Pareto: GP D ξ,σ, która jest równoważna GPD ξ,σ,0. 4.1. Wybór progu Jak wspomniano w poprzednim rozdziale, część ogonowa rozkładu strat jest najbardziej istotna przy ocenie ryzyka operacyjnego. Straty z tego obszaru występują rzadko, ale charakteryzują się dużymi wartościami. Metoda wartości ekstremalnych polega na modelowaniu tylko ogona rozkładu. Kluczowy będzie odpowiedni wybór progu u. Wartości poniżej progu są ignorowane, a te powyżej modelowane jednym z rozkładów wartości ekstremalnych. W niniejszej pracy wykorzystany zostanie uogólniony rozkład Pareto (GPD), ponieważ jest on najczęściej używany do modelowania strat operacyjnych. Rysunek 4.1 przedstawia ideę podziału danych na dane poniżej i powyżej progu u. W kolejnych paragrafach zostaną przedstawione najpopularniejsze metody wyboru odpowiedniej wartości progu. 4.1.1. Mean Excess Plot Użytecznym narzędziem do oceny gruboogonowej natury rozkładu jest zastosowanie tzw. wykresu średniej nadwyżki ponad próg mean excess. Estymatorem funkcji e(u) = E(X u X > u) jest e n (u) = 1 #{1 i n : X i > u} n (X i u) + (4.2) i=1 Wykres mean excess dla rozkładów gruboogonowych jest liniowy i rosnący, rozkładów wykładniczych jest stały, natomiast rozkłady lekkoogonowe charakteryzują się wykresem malejącym do zera. Na rysunku 4.2 przedstawiono wykres estymatora (4.2) w zależności od progu u.

14 Rozdział 4. Wykorzystanie teorii wartości ekstremalnych (EVT) Rysunek 4.1. Straty ponad progiem u Metoda wyboru progu oparta na wykresie mean excess opiera się na wyborze miejsca, od którego wykres staje się liniowy. Ignorujemy prawą część wykresu, gdzie jego punkty charakteryzują się dużym rozrzutem, ponieważ wynika to z zastosowanej techniki - w końcowej fazie algorytmu średnia obliczana jest na podstawie tylko kilku wartości. 4.1.2. Wykres estymatora parametru kształtu Ta metoda polega na estymowaniu parametru kształtu w zależności od wyboru progu. Na rysunku 4.3 Przedstawiono wartości estymatora największej wiarogodności parametru ξ wraz z 95% przedziałami ufności. W idealnym przypadku wykresy powinny się stabilizować powyżej pewnej wartości progu. Powyższa analiza została przeprowadzona na podstawie [11]. 4.1.3. Wykres Gertensgarbe-Wernera Powyższe testy charakteryzują się małą dokładnością wyboru odpowiedniego progu, ponieważ pożądana wartość, którą trzeba odczytywać z wykresu, nie zawsze jest łatwo zauważalna. Metoda Gertensgarbe-Wernera jest pod tym względem o wiele bardziej jednoznaczna. Zgodnie z [5] należy przeprowadzić następującą procedurę: Obliczamy różnice i pomiędzy kolejnymi statystykami pozycyjnymi X [1], X [2],..., X [n] : i = X [i] X [i 1], i = 2, 3,..., n Ideą metody jest założenie, że zachowanie różnic odpowiadających wartościom ekstremalnym będzie inne, niż to odpowiadające wartościom nieekstremalnym. Miejsce zmiany zachowania będzie widoczne na wykresie wartości

4.1. Wybór progu 15 (a) Human (b) Process (c) Relationship (d) Technology (e) External Rysunek 4.2. Estymator warunkowej wartości oczekiwanej wielkości straty ponad progiem i, i = 2, 3,..., n. W celu zidentyfikowania tego punktu zastosujemy sekwencyjną wersję testu Manna-Kendalla. W tym teście znormalizowany szereg wartości U i zdefiniowany jest następująco [5]: U i = U i i(i 1) 4 i(i 1)(i+5) 72 gdzie Ui = i n k, a n k jest liczbą wartości 1,..., k mniejszych od k. k=1 Kolejna seria U p jest obliczana w oparciu o tą samą procedurę zastosowaną

16 Rozdział 4. Wykorzystanie teorii wartości ekstremalnych (EVT) (a) Human (b) Process (c) Relationship (d) Technology (e) External Rysunek 4.3. Wartości estymatora największej wiarogodności parametru kształtu w zależności od progu do szeregu różnic od końca do początku, n,..., 1, zamiast od początku do końca. Punkt przecięcia się obu wykresów odpowiada prawdopodobnemu punktowi zwrotnemu. Na rysunku 4.4 przedstawiono wykresy Gertensgarbe-Wernera dla każdej z grup ryzyka. Tabela 4.1 przedstawia pożądane wartości progu u, które odczytujemy jako wartość statystyki X k, gdzie k jest odciętą punktu przecięcia się wykresów.

4.2. Dopasowanie Modelu GPD 17 (a) Human (b) Process (c) Relationship (d) Technology (e) External Rysunek 4.4. Wykres Gertensgarbe-Wernera z zaznaczonym punktem przecięcia Tabela 4.1. Pożądana wartość progu Human Process Relationship Technology External u 9.90e7 5.01e8 1.38e8 9.40e7 1.59e8 4.2. Dopasowanie Modelu GPD Zgodnie z twierdzeniem Balkema i de Haana oraz Pickandsa, dane powyżej wybranego omawianymi w rozdziale 4.1 metodami progu u, powinny pochodzić z rozkładu uogólnionego Pareto. Niektóre źródła (takie jak [10]) proponują wybór takiego progu, aby ponad nim znalazło się jedynie 10% obserwacji. Tabela 4.2 przedstawia p-wartości testu Kołmogorowa-Smirnowa badającego zgodność rozkładu GPD, o wyestymowanych za pomocą metody ML współczynnikach, z empirycznym rozkładem strat X u. Źródła takie jak

18 Rozdział 4. Wykorzystanie teorii wartości ekstremalnych (EVT) [15, 16] polecają użycie estymatorów największej wiarogodności do estymacji parametrów modelu. Tabela 4.2. P-wartości testu KS próg Human Process Relationship Technology External u tab. 4.1 0.42 0.62 0.43 0.61 0.29 X 90% 0.79 0.68 0.56 0.99 0.63 Testy przeprowadzono na poziomie istotności 0.05. We wszystkich przypadkach możemy uznać modele za dobrze dopasowane do danych rzeczywistych, ponieważ p-wartości są wyższe od zadanego poziomu istotności. Widać jednocześnie, że wybór wyższego progu powoduje lepsze dopasowanie. Należy jednak pamiętać, że za wysoki próg spowoduje odrzucenie zbyt wielu danych. Może to spowodować istotne zaniżenie sumarycznej wielkości szkody w zadanym okresie czasowym. 4.3. Skalowanie rozkładu W rozdziale 4.2 dobrano rozkład do danych obciętych z dołu przez próg u. W celu uzyskania rozkładu całych (nieobciętych) danych chcemy przedstawić dystrybuantę F strat X poprzez dystrybuantę rozkładu GP D, dopasowaną do danych X u (ozn. F u ). Postępujemy zgodnie z [5] (patrz też [2]). Oznaczmy F = 1 F, wtedy F u (x) = P [X u x X > u] = F (u + x). F (u) Stąd i z aproksymacji rozkładem GP Dˆξ,ˆσ wartości ponad progiem u otrzymujemy: F (u + x) F (u) ( 1 GP Dˆξ,ˆσ (x) ) Jako estymatora F (u) można użyć dystrybuanty empirycznej w punkcie u otrzymując: F (u + x) = N ( u 1 GP n Dˆξ,ˆσ (x) ) gdzie N u oznacza liczbę obserwacji ponad progiem u, a n liczbę wszytskich obserwacji. Podsumowując możemy oszacować prawdopodobieństwo, że strata będzie większa niż y, gdzie y > u jako: F (y) = N ( u 1 GP n Dˆξ,ˆσ (y u) ) (4.3) Łatwo zauważyć, że F jest również dystrybuantą rozkładu GPD z parametrami: ξ = ˆξ ( σ = ˆσ 1 N u n )ˆξ µ = u ˆσˆξ ( 1, 1 N u n )ˆξ. (4.4)

4.4. Dokładność doboru modelu 19 Uwaga: Innymi słowy ogon rozkładu wielkości strat X X > u jest modelowany ogonem dystrybuanty F, czyli P (X > y) F (y), dla y > u (4.5) Uwaga: Wprowadzamy następujące notacje: Definicja 2. Poprzez GP D ξ,σ rozumieć będziemy warunkowy rozkład uogólniony Pareto dobrany do danych X u X > u Poprzez całościowy GP D (GP D ξ,σ,µ ) rozumieć będziemy rozkład przeskalowany zgodnie z wzorem (4.4). 4.4. Dokładność doboru modelu W poprzednim paragrafie przedstawiono p-wartości testu KS porównującego wartość dystrybuanty empirycznej z dystrybuantą rozkładu GPD danych X u. Po przeskalowaniu modelu nie możemy już użyć tego testu, ponieważ dystrybuanta dobrana jest tylko do ogona rozkładu. W tym paragrafie omówione zostaną sposoby oceny dokładności doboru modelu do danych X opisujących wielkości strat. 4.4.1. Test KS porównujący rozkłady dwóch próbek Zgodnie ze wzorami (4.3) i (4.4) możemy wygenerować próbkę z rozkładu F (y) GP D ξ, σ, µ i porównać rozkład jej ogona (GP D ξ, σ, µ (y) dla y > u) z rozładem ogona strat X (F (y) dla y > u). Rozkłady obu próbek możemy porównać przy użyciu tesu Kołmogorowa-Smirnowa. Tabela 4.3 przedstawia średnie p-wartości zwracane przez test. Tabela 4.3. P-wartości testu KS próg Human Process Relationship Technology External u tab. 4.1 0.36 0.58 0.47 0.61 0.31 X 90% 0.62 0.62 0.54 0.94 0.56 Notacja u tab. 4.1 oznacza, że jako próg u przyjęto wartość obliczoną na podstawie wykresu Gertensgarbe-Wernera. X 90% oznacza u równe kwantylowi próbkowemu zmiennej X na poziomie 90%. Wszytskie p-wartości są większe od zadanego poziomu istotności 0.05, dlatego w żadnym z przypadków nie mamy podstaw do odrzucenia hipotezy o zgodności rozkładu teoretycznego z rozkładem empirycznym. 4.4.2. Testy graficzne Na rysunku 4.5 przedstawiono graficzne porównanie obu dystrybuant. Jako próg przyjęto wartości wynikające z tabeli 4.1. Analogiczne porównanie dla ogona powyżej progu u = X 90% widoczne jest na rysunku 4.6. Testy graficzne nie są testami dokładnymi, jednak jesteśmy w stanie stwierdzić, że dopasowanie rozkładu w obszarze ogona jest dużo lepsze niż

20 Rozdział 4. Wykorzystanie teorii wartości ekstremalnych (EVT) (a) Human (b) Process (c) Relationship (d) Technology (e) External Rysunek 4.5. Porównanie ogonów dystrybuant empirycznej i teoretycznej rozkładu wielkości straty. Wielkość progu wynikająca z tabeli 4.1 dopasowanie przedstawione na rysunku 3.1. Na rysunku 4.5(a) widać rozbieżność od około 97%-towego kwantyla. Obserwacja tej samej części rysunku 4.6 pozwala stwierdzić, że użycie wyższego progu, niż ten wynikający z tabeli 4.1 da lepsze dopasowanie rozkładu GP D ξ, σ, µ do ogona rozkładu empirycznego zmiennej X. Ostatecznie zdecydowano się dla danych z grupy ryzyka Human wybrać próg u = 3 10 8.