Wybór modelu. Nie ma dobrych modeli, ale niektóre są pożyteczne.

Transkrypt

1 Wybór modelu Nie ma dobrych modeli, ale niektóre są pożyteczne. 1 Dane Wybór modelu to zagadnienie kluczowe w procesie badawczym. Każdy model jest tylko pewnym przybliżeniem rzeczywistości, rzecz w tym, byw wybrać to przybliżenie, które najlepiej odpowie na nasze pytanie badawcze. W analizie tych samych danych różne pytania mogą prowadzić do różnych metod modelowania. Omówimy kilka najważniejszych sposobów szacowania i porównania różnych modeli. Naszym zadaniem będzie porównanie pewnego proponowanego modelu z danymi. Omówmy zatem kwestię podstawową: reprezentacji danych i modelu. Model jest reprezentowany przez bądź funkcję gęstości bądź dystrybuantę bądź jakieś funkcjonały tych wielkości jak na przykład LEV albo MRL (potem). Dane natomiast mogą być reprezentowane w postaci dystrybunaty empirycznej bądź histogramu. Wykresy można łatwo i łądnie zrobić, gdy mamy pełne dane. Często jednak mamy do czynienia z danymi okrojonymi: ocenzurowanymi i obciętymi. Komentarz na boku 1. censoring - ucinanie, cenzurowanie; Cenzurowanie prawostronne: dokładna wartość X nie jest mierzalne, ale są znane wartości: T = min(x, C), δ = I {X C} Obserwacja jest prawostronnie ocenzurowana w punkcie u, jeśli gdy jest powyżej u, to jest zaobserwowana, ale nie znamy jej dokładnej wartości [wiemy 1

2 tylko, że jest u i tą przyjmujemy], a gdy jest poniżej u, to jest zarejestrowana w swojej zaobserwowanej wartości. Przykład: mierzymy śmiertelność w populacji. Możemy stworzyć dane, które kończą się np. na poziomie 80 lat. Oznacza to, że wiemy, że śmierć nastąpiła co najmniej w wieku 80 lat, ale nie wiemy dokładnie, kiedy. O ile mi wiadomo, tablice życia są tak tworzone. Inny przykład: ucinanie może wynikać z ograniczonej skali intrumentu, który nam służy do mierzenia. Np. jak amy wagę, która ma skalę tylko do 200 kilo, a stanie na niej ktoś ważący 250, to będziemy wiedzieli tylko tyle, że waży on co najmniej 200 kilo. Ponieważ zajmujemy się modelami ubezpieczeniowymi, najczęściej mamy do czynienia oczywiście z ucinaniem prawostronnym. Komentarz na boku 2. truncation - obcinanie, wykluczenie; Obserwacja są lewostronnie obcięta/wykluczona w punkcie d, jeśli gdy jest poniżej d nie jest zaobserwowana, ale jeśli jest powyżej d, jest zaobserwowana i znamy jej wartość. Przykład: przeżycie w domach starości. Możemy badać kto w jakim wieku umiera w domu starości, ale nasze badania nie uwzględniają tych, co do tego domu starości nie dożyli. Zazwyczaj w ubezpieczeniach występuje obcinanie/wykluczanie lewostronne. Gdy robimy tablice śmietelności nie jest zbyt wygodnie obserwować każdego człowieka od narodzin aż do śmierci. Zamiast tego najczęściej obserwuje się grupę ludzi w różnym wieku przez ileś lat. Te dane są obcięte z lewej strony, bo gdy zaczynamy obserwację x-latka, to ten x-latek żyje. Nie uwzględniamy tych, którzy nie dożyli. Dane są też ocenzurowane z prawej strony, bo przy zakończeniu badań o x-latku możemy powiedzieć tylko, że wiek jego śmierci jest co najmniej x, choć nie znamy dokładnej wartości. My zajmiemy się tylko przypadkiem, gdy wszystkie dane zostały lewostronnie obcięte (wykluczone) na tym samym poziomie i prawostronnie ocenzurowane również na jednym poziomie. Zauważmy, że o ile cenzurowanie danych nie zmienia nam prawdopodobieńt- 2

3 swa [gdyż rejestrujemy WSZYSTKIE obserwacje], o tyle obcinanie sprawia, że obserwujemy tylko wycinek rzeczywistości. W szczególności, zauważmy, że nasza dystrybuanta empiryczna rozpoczyna się w punkcie obcięcia i reprezentuje prawdopodobieństwo warunkowe - poda warunkiem, że nasza obserwacja przekroczyła punkt cięcia d. Zatem jeśli F jest dystrybuantą naszego modelu, to aby móc zbadać dopasowanie modelu do danych obciętych, musimy też obciąć model, w następujący sposób: 0, x < d F (x) = F (x) F (d) 1 F (d), x d 2 Porównanie graficzne Najprostszą rzeczą, jaką możemy sprawdzić, jak dane pasują do modelu, jest porównanie graficzne. W tym celu rysujemy w jednym układzie współrzędnych wykres dystrybuanty empirycznej i dystrybuanty z modelu i obserwujemy, w jakim stopniu rysunki są do siebie zbliżone [jeśli nie znamy parametrów rozkładu użytego w modelu, najczęściej stosuje się esytamtor największej wiarygodności]. Drugą możliwością jest narysowanie histogramu i funkcji gęstości z modelu. Obserwujemy, czy odchylenia są równo rozłożone wzdłuż całej osi, czy też np. model zaniża wartości dla niskich obserwacji, a zawyża dla dużych. Jeśli obie dystrybuanty [empiryczna i modelowa] są bliskie, może być trudno poczynić jakieś obserwacje z takiego wykresu. Wygodnie jest wtedy rozważyć funkcję będącą różnicą tych dwu:. D(x) := F n (x) F (x) Kolejnym sposobem jest tzw. wykres P-P. Porównujemy w nim dystrybunaty obu rozkładów w następujący sposób: obserwacje porządkujemy w kolejności rosnącej x 1... x n i dla każdej rysujemy na wykresie punkt o współrzędnych (F n (x j ), F (x j )). Jeśli dopasowanie modelu do danych jest dobre, wykres punktów powinien być blisko prostej o nachyleniu 45 stopni biegnącej od (0, 0) 3

4 do (1, 1) [oczywiście, jeśli dane mamy ocenzurowane, to wykres niekoniecznie będzie przebiegał aż do punktu (1, 1)]. Warto wspomnieć, że aby faktycznie naszą graniczną linią była linia 45 stopni, trzeba nieco przedefiniować dystrybuantę empiryczną. Można bowiem wykazać, że wartość oczekiwana F n (x j ) = z takiego wykresu? Omówmy kilka przypadków: j n+1, a nie j n. Co możemy odczytać - lewa strona nad linią, prawa strona pod linią - duże ogony rozkładu; - lewa strona nad linią, prawa pod - małe ogony rozkładu; - wykres zakrzywiony wypukły - skośność prawostronna; - wykres zakrzywiony wklęsły - skłonność lewostronna; 3 Testowanie hipotez Z rysunku można niekiedy wiele odczytać, ale czasem lepiej jest sformalizować swoje wrażenia za pomocą matematyki. Jednym ze sposobów matematycznego ukazania jak podobne są dwa modele jest test hipotezy. H 0 : Dane pochodzą z populacji o zadanym modelu H 1 : Dane nie pochodzą z takiej populacji. Statystyka testowa opisuje jak blisko siebie są model i dane. Jeśli hipoteza zerowa kompletnie opisuje model [np. określa jego parametry], to znamy wartości krytyczne przy odpowiednich przedziałach ufności i wiemy, jak postępować. Jeśli parametry nie są znane, to esytmujemy je z tych samych danych, a więc statystyka testowa będzie mniejsza [bo metoda estymacji stara się dobrać jak najlepiej parametry]. W tym wypadku, testowanie hipotez staje się przybliżone. Ponieważ odrzucenie hipotezy zerowej zachodzi dla wysokich wartości statystyki testowej, przybliżenie zwiększa prawdopodobieństwo błedy II typu, a zmniejsza pr. błędu I typu [jedynie test chi-kwadrat ma wbudowaną korektę tego stanu]. Dla modelowania aktuarialnego jest to ok. Jedną z metod na uniknięcie takiego przybliżenia jest losowe podzielenie próbki na pół. Na jednej części wykonamy estymację parametrów, a na drugiej przeprowadzamy wówczas test hipotezy 4

5 3.1 Test Kołmogorowa-Smirnowa Niech d będzie punktem obcięcia (d=0 lub, jeśli nie ma obcięcia), a u - (być może ) punktem cenzorowania. Wówczas rozważmy statystykę Kołomogorowa: D n = max d x u F n(x) F (x) Wartości D n, co ciekawe, nie zależą od rozkładu F i są stablicowane. 3.2 Test Andersona-Darlinga Test AD jest podobny do testu Kołmogorowa-Smirnowa, choć używa innej miary, by zmierzyć różnicę pomiędzy dystrybuantą empiryczną a modelową. Podczas gdy test Kołmogorowa odwołuje się do odległości w sensie supremum, test AD korzysta z odległości średniokwadratowej. Statystyka testowa ma postać: u A 2 [F n (x) F (x)] 2 = n t F (x)[1 F (x)] f (x)dx Jest to średnia ważona kwadratów odległości pomiędzy empiryczną i modelową dystrybuantą. Warto zauważyć, że jeśli x jest bardzo bliski d lub u, wagi dla tych wielkości są bardzo duże [ze względu na rozmiar mianownika]. Zatem ta statystyka przykłada większą wagę do tego, by rozkłady pasowały do siebie w ogonach, niż w środku. Dla danych dyskretnych całka upraszcza się do sumy: A 2 = nf (u) + n +n k [1 F n (y j )] 2 (ln[1 F (y j )] ln[1 F (y j+1 )]) j=0 k F n (y j ) 2 (ln[f (y j+1 )] ln[f (y j )]) j=0 Dla u = ostatni składnik pierwszej sumy wynosi 0, co warto zauważyć osobno zanim spróbujemy policzyć to np. na komputerze [wg wzoru będzie to wtedy logarytm z 0]. Wartości krytyczne są znane i wynoszą dla poziomów ufności 10%, 5% i 1% odpowiednio: 1.933, i Zainteresowanym wspomnę, że test Andersona-Darlinga jest szczególnym przypadkiem testu Cramera-von Misesa z wagami 1 F (x)(1 F (x)) 5

6 3.3 Test dobrego dopasowania Chi-kwadrat Jest to test zgodności liczebności zaobserwowanej z oczekiwaną. Wybieramy k-1 arbitralnych wartości d = c 0 < c 2 <... < c k = infty. Niech p j = F (c j ) F (c j 1 ) będzie prawdopodobieństwem, że obcięte wartości wpadają do przedziału (c j 1, c j ). Niech p n j == F n (c j ) F n (c j 1 ) będzie analogicznie zdefiniowany prawdopodobieństwem, ale dla dystrybuanty empirycznej. Wówczas statystyka testowa przyjmuje postać: χ 2 = gdzie n jest rozmiarem próbki. k j=1 n(p j p n j) 2 p j, Wartość krytyczna dla tego testu pochodzi z rozkładu chi-kwadrat o licznie stopni swobody k 1 minus liczba estymowanych parametrów. Ten test nie jest zbyt silny i znajduje zastosowanie głównie gdy mamy mało danych [liczba stopni swobody jest niewielka]. Dla dużych próbek lepiej stosować silniejsze testy. Jest on jednak dobry, jeśli nie mamy pojedynczych danych z obserwacji, tylko np. przedziałowe. 3.4 Test oparty na ilorazie wiarygodności Ten test jest używany do odpowiedzi na pytanie postaci: czy populacja ma raczej rozkład A czy B?. Formalnie: H 0 : Dane pochodzą z populacji o rozkładzie A H 1 : Dane pochodzą z populacji o rozkładzie B Aby móc sformułować test, rozkład A musi być specjalnym przypadkiem rozkładu B, np. A to rozkład wykładniczy a B to rozkład gamma. Albo: H 0 : Dane pochodzą z populacji o rozkładzie gamma ze średnią µ = 100 H 1 : Dane pochodzą z populacji o rozkładzie gamma ze średnią µ 100 6

7 4 Wybór modelu Zasada oszczędności: jeśli nie ma wyraźnego powodu by postąpić przeciwnie, z dwóch modeli preferowany jest ten prostszy. Zasada rozsądku: ogranicz przestrzeń modeli do jakiegoś sensownego podzbioru. 4.1 Podejście oparte na własnym osądzie Wybór modelu oparty na własnym osądzie opiera się na jednej lub więcej z trzech koncepcji, które zaraz przedstawię. Kluczową rzeczą jest doświadczenie badawcze i pewne statystyczne obycie. Po pierwsze, wybór może zostać oparty na wykresach i tabelach. To pozwala badaczowi na skupienie się na tych aspektach modelu, które są istotne dla określonych zastosowań. Może być na przykład ważne, żeby dobrze dopasować rozkład na ogonach, ablo żeby dopasować średnie. Nawet jeśli używamy podjeścia opartego na wyliczeniach, dobrze jest podeprzeć wybrany model odpowiednim rysunkiem. Po drugie, na wybór określonego modelu może wpłynąć nasza wiedza o modelach użytych w podobnych badaniach co nasze, albo jeśli jakiś model ma ważne własności czy szczególną wartość dla zastosowań, w których chcemy nasze dane wykorzystać. W czasach, gdy jeszcze nie było komputerów, często decydowano się na wybór prostszych i gorszych modeli po to, by łatwiej przeprowadzać obliczenia, zamiast decydować się na dokładniejsze, ale ciężko wyliczalne. Po trzecie, określona sytuacja w której przeprowadzamy obserwację może określać model. Przykładowo, jeśli ubezpieczenie zdrowotne pokrywa koszty dwóch kontroli dentystycznych w roku i jednostki dwa razy w roku podejmują niezależne decyzje czy wybrać się do dentysty, czy nie z tym samym prawdopodobieństwem p, to ilość wizyt ma rozkład dwumianowy z prawdopodobieństwem p. I w końcu, należy stwierdzić, że stosując podejście algorytmiczne, możemy dla dwóch testów dojść do sprzecznych rezultatów. Zatem korzystając z naszego 7

8 doświadczenia badawczego musimy na podstawie własnej wiedzy podjąć decyzję, które podejście algorytmiczne, czy też który model wybrać. 4.2 Podejście oparte na punktach Podejście oparte na liczbach jest o tyle wygodne w użyciu, że jest, w pewnym sensie, obiektywne, a ponadto może być zaimplementowane np. na komputerze. W takim wypadku każdemu modelowi dajemy punkty i model z najlepszym wynikiem wygrywa. Warto rozważyć na przykład te wartości: 1. Najniższa wartość testu Kołmogorowa. 2. Najniższa wartość testu AD. 3. Najniższa wartość testu dobrego dopasowania chi kwadrat. 4. Najwyższa p-wartość dla testu chi kwadrat. 5. Najwyższa wartość funkcji wiarygodności w jej maksimum. Niestety, wszystkie testy oprócz p-wartości chi kwadrat wydają się nie współgrać z naszą zasadą oszczędności tj. są krzywdzące dla modeli prostszych. Test chi kwadrat jest odporny na ten problem, bo razem ze stopniem komplikacji modelu zmniejszaa się ilość stopni swobody, jest więc możliwe, że bardziej skomplikowany model będzie miał mniejszą p-wartość. Jeśli chodzi o funkcję wiarygodności, to mamy dwa podejścia: albo wykonać test oparty na ilorazie wiarygodności, albo odprowadzać karę za użycie dodatkowych parametrów. Test oparty na ilorazie jest technicznie wykonalny tylko wtedy, gdy jeden model jest specjalnym przypadkiem drugiego. Drugie podejście jest następujące: wybieramy najlepszy model jednoparametrowy (ten z najwyższą wartością logarytmu wiarygodności). Następnie dodajemy do modelu drugi parametr tylko jeśli największa różnica (tj. ta z najlepszego modelu 2-parametrowego) przewyższa wartość 1.92 = 3.84/2 (3.84 jest wartością krytyczną dla 5% poziomu istotności). Jeśli zatem robimy kolejne kroczki o jeden parametr, tylko jeśli model się poprawia o Jeśli w pierwszym kroku pozostaliśmy w jednoparametrowym modelu, to możemy przejść do trzyparametrowego, tylko jeśli poprawa wynosi co najmniej 3. I tak, dla skoku o 3 paramtery 8

9 mamy wymagany wzrost o 3.91, dla itp. W tym postępowaniu możemy zauważyć, że jeśli podwoimy próbkę, tzn. będziemy mieli dwa razy więcej obserwacji, podwaja się także logarytm wiarygodności i wzrasta szansa, że wybierzemy bardziej złożony model, co jest sprzeczne z naszą zasadą oszczędności. Z drugiej strony, może faktycznie dla dużych próbek mamy prawo rozważać bardziej złożone modele? Metodą która próbuje pogodzić te dwa punkty widzenia jest kryterium Schwarza-Bayesa, które radzi, by przy porównywaniu modeli odjąć od każdego loglikelihooda wartość (r/2) ln n, gdzie r jest ilością parametrów, a n- wielkością próbki. Zatem aby dodanie kolejnego parametru było uzasadnione, loglikelihood powinien nam wzrosnąć o co najmniej 0.5 ln n. 9