Testy statystyczne w ubezpieczeniach komunikacyjnych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Testy statystyczne w ubezpieczeniach komunikacyjnych"

Transkrypt

1 Testy statystyczne w ubezpieczeniach komunikacyjnych Grzegorz Nowicki 2 maja 204

2 Spis treści Wstęp 3 2 Test oparty na regresji liniowej 4 3 Model Poissona i jego rozszerzenia 8 3. Uogólniony rozkład Poissona Mieszany model Poissona Porównanie GP i NB 20 5 Porównanie GP-2 z innymi testami Alternatywne statystyki Symulacja Monte Carlo Przykład numeryczny Dane Wyniki Wnioski 34 Dodatek A 35 Dodatek B - asymptotyczne tempo zbieżności 36 Spis tabel i wykresów 42 Bibliografia 43 2

3 Wstęp Ryzyko jest nieodłącznym aspektem życia każdego człowieka. Pojawia się zarówno w sytuacjach dotyczących podejmowanych przez nas decyzji, jak i tych związanych z codziennym życiem. Istnieje wiele ryzyk, na które jesteśmy narażeni każdego dnia, a jedną z czynności, która je potęguje jest prowadzenie samochodu. W odpowiedzi na naturalną potrzebę spokojnego życia człowieka, gdzie wpływ zjawisk losowych na jego zdrowie i finanse jest minimalizowany, powstały zakłady ubezpieczeń. Koszty szkód związanych z prowadzeniem pojazdów mogą być bardzo wysokie, wiąże się to z wysokimi wartościami poruszających się po drogach pojazdów oraz niebezpieczeństwem utraty zdrowia lub życia w wypadku drogowym. Zasądzane kwoty odszkodowań i rent są mogą zdestabilizować finansowo kierowcę do końca życia. Ponadto, niejednokrotnie nie będzie on w stanie w ogóle pokryć szkód wypadku, który spowodował. Stąd narodził się pomysł obowiązkowych ubezpieczeń od odpowiedzialności cywilnej dla każdego zarejestrowanego pojazdu. Istotą funkcjonowania towarzystwa ubezpieczeń jest zbieranie składek z których następnie pokrywane są szkody spowodowane przez niektórych kierujących. Składka musi być skalkulowana tak, aby zapewnić środki na wypłatę świadczeń wraz z zapewnieniem niezbędnej rezerwy oraz przynieść firmie ubezpieczeniowej zysk. Ustalenie jej wysokości w oparciu o dane historyczne jest zatem jednym z najważniejszych aspektów działalności towarzystwa. W przypadku ubezpieczeń komunikacyjnych wygodnym narzędziem do tego celu jest regresja Poissona. Niestety, zakłada ona, że analizowana zmienna losowa, która jest w tym przypadku liczbą powodowanych wypadków, posiada wartość oczekiwaną równą wariancji. Dane empiryczne zwykle nie wykazują takiej cechy, zwykle wariancja przewyższa średnią, a zjawisko takie nazywa się nadrozproszeniem (ang. overdispersion. Poniższa praca ma celu analizę przedstawionego problemu. W rozdziale drugim opisany został test bazujący na regresji liniowej wraz w wyprowadzeniem statystyki służącej do badania występowania zjawiska nadrozproszenia. Rozdział trzeci przedstawia model Poissona oraz jego uogólnienia służące do pracy z danymi z wysoką wariancją względem średniej. Wyprowadzone są także statystyki pozwalające ocenić przydatność opisanych modeli. W rozdziale czwartym zawarte jest szczegółowe porównanie dwóch rozkładów będących przykładami mieszanego rozkładu Poissona - uogólnionego rozkładu Poissona oraz rozkładu ujemnego dwumianowego. W rozdziale piątym znajduje się zestawienie jednej z wyprowadzonych statystyk z innymi znanymi z literatury testami na zasadzie symulacji komputerowej wraz z analizą wyników. Szósty rozdział zawiera przykład numeryczny oparty na prawdziwych danych ubezpieczeniowych, gdzie porównane zostają wszystkie przedstawione wcześniej modele regresji. 3

4 a stąd definiujemy błąd ε i (Y i µ i 2 Y i αg(µ i + ε i. (3 2 Test oparty na regresji liniowej W modelu regresji liniowej posługiwać się będziemy zestawem danych {(Y i, x i, i, 2,..., n}, gdzie Y i jest zmienną losową (E(Y i <, a x i (x i, x 2 i,..., x k i wektorem zmiennych objaśniających. Dodatkowo zakładamy, że dane te są niezależne dla każdego i. Testować będziemy hipotezę zerową H 0 : E(Y i µ i, V ar(y i µ i ( przeciwko hipotezie alternatywnej H : E(Y i µ i, V ar(y i µ i + α g(µ i, α > 0, (2 gdzie µ i µ(x i, β jest różniczkowalną funkcją o wartościach w R + i własności takiej, że µ(x i, β 0 µ(x i, β β 0 β, a g(µ i : R + R + jest określoną funkcją różniczkowalną. W literaturze zazwyczaj przyjmuje się µ i exp(x i β oraz g(µ i równe, µ i lub µ 2 i. Zakładając prawdziwość hipotezy H i przekształcając równanie (2 otrzymujmemy E (Y i µ i 2 Y i ] αg(µi, Zatem ε i (Y i µ i 2 Y i E (Y i µ i 2 Y i ] jest błędem o następujących parametrach: E(ε i E ( (Y i µ i 2 Y i E ] (Y i µ i 2 Y i E ] ( ] (Y i µ i 2 Y i E E (Yi µ i 2 Y i E ] ] (Y i µ i 2 Y i E (Yi µ i 2 Y i 0 V ar(ε i V ar ( (Y i µ i 2 Y i E (Y i µ i 2 Y i ] V ar (Yi µ i 2 Y i ] E ] (Y i µ i 2 2 ( ] Y i E (Yi µ i 2 2 Y i E ] (Y i µ i 4 2Y i (Y i µ i 2 + Yi 2 (αg(µi 2 E(Y i µ i 4 2E Y i (Y i µ i 2] + E(Y i 2 (αg(µ i 2 V ar(x EX 2 (EX 2 EX 2 V ar(x + (EX 2 4

5 E(Y i µ i 4 2E Y i (Y i µ i 2] + µ i + αg(µ i + µ 2 i (αg(µ i 2 E(Y i µ i 4 2E (Y i µ i + µ i (Y i µ i 2] + µ i + αg(µ i + µ 2 i (αg(µ i 2 E(Y i µ i 4 2E(Y i µ i 3 2µ i E(Y i µ i 2 + µ i + αg(µ i + µ 2 i (αg(µ i 2 E(Y i µ i 4 2E(Y i µ i 3 2µ i (µ i + αg(µ i + µ i + αg(µ i + µ 2 i (αg(µ i 2 E(Y i µ i 4 2E(Y i µ i 3 µ 2 i + µ i 2µ i αg(µ i + αg(µ i (αg(µ i 2. Ostatecznie V ar(ε i E(Y i µ i 4 2E(Y i µ i 3 µ 2 i + µ i 2µ i αg(µ i + αg(µ i (αg(µ i 2, (4 co pokazuje, że jest on heteroskedastyczny - nie posiada stałej wariancji, gdyż jest ona funkcją zależną od momentów zmiennej losowej Y i. Ponieważ wartości µ i nie są obserwowane musimy zastąpić je przez ˆµ i µ(x i, ˆβ, gdzie ˆβ jest dowolnym zgodnym estymatorem wektora parametrów β z błędem rzędu O P (n 2. Wówczas rówananie (3 przyjmuje postać (Y i ˆµ i 2 Y i αg(ˆµ i + ε i + η i. (5 Ponieważ (Y i µ i 2 Y i αg(µ i + ε i, to odejmując stronami otrzymujemy dodatkowy błąd rówany η i (Y i ˆµ i 2 (Y i µ i 2 + αg(µ i αg(ˆµ i 2(Y i (ˆµ i µ i + (ˆµ 2 i µ 2 i + α(g(µ i g(ˆµ i (2(Y i µ i + αg (µ i µ i β ( ˆβ β + O P (n (6 z rozwinięcia w szereg Taylora wyrażenia µ(x i, ˆβ w punkcie µ(x i, β. Z powodu heteroskedastyczności składnika losowego ε i do równania (5 zastosujemy ważoną metodę najmniejszych kwadratów z dodatnimi i skończonymi wagami w 2 i. Przyjmijmy oznaczenia: Z i (Y i ˆµ i 2 Y i X i g(ˆµ i ξ i ε i + η i Wówczas przybierze ono postać typowego równania regresji Z i αx i + ξ i. 5

6 Naszym zadaniem jest estymacja parametru α, co realizujemy poprzez minimalizację wyrażenia wi 2 ξi 2 wi 2 (Z i αx i 2. W tym celu należy policzyć pierwszą pochodną i przyrównać ją do zera: n w 2 i (Z i αx i 2 α 0 2wi 2 (Z i αx i ( X i 0 2wi 2 X i Z i + 2wi 2 αxi 2 0 α n w 2 i X i Z i n w 2 i X 2 i Wracając do pierwotnych oznaczeń otrzymujemy ˆα n wi 2 g(ˆµ i (Y i ˆµ i 2 Y i ] n. (7 wi 2 g 2 (ˆµ i Naszym celem jest zbadanie asymptotycznego rozkładu wyrażenia n(ˆα α przy założeniu prawdziwości H 0 oraz lokalnych hipotez alternatywnych. Zadanie to jest ułatwione, ponieważ dodatkowy błąd η i, który pojawia się przy skorzystaniu z estymatora ˆβ, nie ma wpływu na ten rozkład, gdyż n( ˆβ β ma błąd rzędu O P (. Załóżmy lokalną hipotezę alternatywną H L : α γ n, którą formalnie można zapisać przekształcając równanie (2: H L : E(Y i µ i, V ar(y i µ i + γ n g(µ i, gdzie γ const. Z dodatku A wynika, że jeżeli wagi w i są takie, że poniższe ciągi są zbieżne to lub równoważnie lim n n lim n n wi 2 g 2 (µ i M wi 4 g 2 (µ i σε 2 i M 2 ( n (ˆα α d N 0, M M 2 nˆα ( d N γ, M M 2 pod warunkiem, że n( ˆβ β ma błąd rzędu O P ( przy założeniu H L oraz, że σ 2 ε i V ar H0 (ε i E H0 (Y i µ i 4 2E H0 (Y i µ i 3 µ 2 i + µ i, (8 6

7 gdzie wartość oczekiwana obliczana jest w odniesieniu do nieokreślonej dotąd gęstości Y i przy założeniu prawdziwości H 0. Dla γ 0 równanie (8 prowadzi do następującej statystyki T n w 2 i g(ˆµ i (Y i ˆµ i 2 Y i ] n w 4 i g 2 (ˆµ i ˆσ 2 ε i, (9 gdzie ˆσ ε 2 i jest zgodnym estymatorem wariancji składnika losowego σε 2 i. Jeżeli wagi w i są postaci w(µ i, to µ i możemy zastąpić ˆµ i nie zmieniając przy tym asymptotycznego rozkładu T. Zakładając H 0, statystyka T zbiega według miary do rozkładu N (0, i może zostać użyta do jedno- lub dwustronnych testów na występowanie nadrozproszenia. Wybór wag w i oraz estymatora wariancji ˆσ ε 2 i w równaniu (9 jest zależny od założeń co do rozkładu zmiennej losowej Y i przy założeniu H 0. 7

8 3 Model Poissona i jego rozszerzenia 3. Uogólniony rozkład Poissona Przypuśćmy, że posiadamy informacje na temat próbki liczącej n obserwacji. Każda z nich jest opisana przez p zmiennych objaśniających, co w rezultacie daje nam macierz X rozmiaru n p: X x x 2 x 3... x p x 2 x 22 x x 2p x 3 x 32 x x 3p x n x n2 x n3... x np Ponadto, mamy wektor zmiennych objaśnianych Y (Y, Y 2,..., Y n, gdzie zmienne Y i, Y j są niezależne i mają jednakowy rozkład dla dowolnych i j. Najpopularniejszym modelem regresji dla danych zliczających (ang. count data jest model regresji Poissona, w którym funkcją łączącą zmienne objaśniające ze zmienną objaśnianą jest funkcja logarytmiczna, a funkcja masy prawdopodobieństwa jest postaci f(y i ; θ i θy i i y i! e θ i, y i 0,, 2,..., θ i > 0. Po odwróceniu funkcji łączącej otrzymujemy zależność E(Y i exp(x i β, gdzie x i jest wektorem zmiennych objaśniających dla danej obserwacji, a β wektorem nieznanych parametrów, które należy wyestymować. W przypadku występowania nadrozproszenia w analizowanych danych możemy posłużyć się uogólnionym rozkładem Poissona (ang. generalized Poisson distribution - GP o następującej funkcji masy prawdopodobieństwa f(y i ; θ i, κ θ i(θ i + κy i yi e θ i κy i, y i 0,, 2,... (0 y i! gdzie θ i > 0 i max(, θ i < κ <. Z pracy Joe and Zhu (2005 wiemy, że 4 µ i E(Y i θ i κ, V ar(y i θ i ( κ 3 ( κ E(Y i φe(y 2 i. ( W tym przypadku składnik φ pełni funkcję czynnika rozproszenia. Jeżeli κ 0, to ( k 2 uogólniony rozkład Poissona redukuje się do zwykłego rozkładu Poissona z parametrem θ i. W przypadku gdy κ < 0 mamy do czynienia z podrozproszeniem, a gdy κ > 0 z nadrozproszeniem. Opierając się na uogólnionym rozkładzie Poissona możemy wprowadzić do modelu regresji dwie parametryzacje. W pierwszej, przedstawionej w pracach Consul (989 oraz Consul and Famoye (992, jako funkcję łączącą przyjmujemy funkcję logarytmiczną θ i p ln µ i ln κ x ir β r, (2 r 8

9 gdzie x ir jest i-tą obserwacją r-tej zmiennej niezależnej, p jest liczbą zmiennych niezależnych w modelu, β r jest r-tym parametrem regresji. Stosując podstawienie θ i ( κµ i z równania ( otrzymujemy model regresji GP- P (Y i y i x i, β, κ (( κµ i + κy i y i ( κµ i y i! ze średnią E(Y i µ i exp(x i β i wariancją V ar(y i φµ i. exp( ( κµ i κy i, y i 0,, 2,... (3 Drugą możliwą parametryzacją, wprowadzoną w pracy Wang and Famoye (997, jest model regresji GP-2 postaci P (Y i y i x i, β, ϕ yi ( + ϕy i y ( i exp µ i( + ϕy i, y i 0,, 2,... (4 + ϕµ i y i! + ϕµ i ( µi ze średnią E(Y i µ i exp(x i β i wariancją V ar(y i µ i (+ϕµ i 2. W równaniu (4 ϕ jest stałą i jeżeli przyjmuje ona wartości mniejsze od zera (przypadek podrozproszenia, to musi ona spełniać nierówności + ϕµ i > 0 oraz + ϕy i > 0, czyli na przykład spełniać warunek ϕ > min(, max(µ i max(y i. ϕ nazywamy parametrem rozproszenia i może być on estymowany równocześnie ze współczynnikami modelu regresji GP-2 w równaniu (4. Dla ϕ 0 model ten redukuje się do zwykłego modelu Poissona. Oba modele regresji GP- i GP-2 są zatem naturalnymi rozszerzeniami modelu regresji Poissona. Główne różnice różnice między nimi to: a zależność między wartością oczekiwaną i wariancją w modelu GP- jest liniowa, podczas gdy w modelu GP-2 zależność ta ma charakter sześcienny, b parametr κ jest stały w równaniu (3, ale jeżeli podstawimy κ ϕµ i +ϕµ i i θ µ i +ϕµ i model regresji GP- przekształci się do postaci modelu GP-2. to Badanie występowania nadrozproszenia w analizowanych danych możemy zatem sprowadzić do porównania dwóch modeli regresji: Poissona i GP-. Postawmy hipotezę zerową H 0 : κ 0 (5 przeciwko hipotezie alternatywnej H : κ > 0. (6 Statystyka do badania nadrozproszenia ma postać S( ˆβ n ( (yi ˆθ i 2 y i, (7 2n ˆθ i gdzie ˆθ i jest estymatorem wyznaczonym z modelu Poissona. Powyższa statystyka ma rozkład N (0,. W celu jej wyprowadzenia posłużymy się nierównością Craméra - Rao. 9

10 Twierdzenie (Craméra - Rao Niech Z (Z,..., Z n będzie próbą w modelu regularnym oraz niech g(θ będzie funkcją parametryczną oraz T T (Z ENg(θ]. Jeśli to gdzie g (θ d dθ E θ T (Z ] V ar T (Z ] g (θ] 2 I n (θ, X n T (z θ f θ(zdλ n (z, ENg(θ] - zbiór wszystkich estymatorów nieobciążonych funkcji parametrycznej g(θ posiadających skończoną wariancję, I n (θ - informacja Fishera z próby Z. Bazując na równaniu 0 zapisujemy logarytm wiarygodności modelu ( n l ln(l ln P (y i θ i, κ ln(p (y i θ i, κ Przekształcając równanie 2 otrzymujemy skąd obliczamy pochodne (ln θ i + (y i ln(θ i + κy i (θ i + κy i ln y i!. θ i ( κ exp(x i β, θ i β r ( κx ir exp(x i β θ i x ir, θ i κ exp(x i β ( κ exp(x i β θ i κ κ. Do wyznaczenia macierzy informacji Fishera należy wyznaczyć wszystkie możliwe pochodne drugiego rzędu funkcji l: l β r l θ i θ i β r ] + (y i θ i x ir θ i θ i + κy i + θ i(y i θ i + κy i θ i ] x ir l n κ θ i ( θ i + y ( i θ i κ θ i + κy i κ + y i + θ ] i κ y i κ θ i (y i (θ i + κy i ( κ + y i(y i + θ ] i θ i + κy i κ y i yi (y i y i ( + θ ] i(y i θ i θ i + κy i κ θ i + κy i 0

11 β r β s ] (yi (θ i + κy i θ i (y i θ (θ i + κy i 2 i x ir x is ] yi (y i κ (θ i + κy i θ 2 i x ir x is n ( ( κ y 2 i (y i θ i (θ i + κy i 2 κ + y i + κ β r { ( ( ( κ ( + θ i(y i θ 2 i + θ i + κy i + θ i (y κ i (θ i + κy i θ i (y i ( θ i + y κ i κ (θ i + κy i 2 ( y i (y i θ i (θ i + κy i 2 ( κ y2 i (y i (θ i + κy i 2 θ i ( κ θ i(y i (θ i + κy i 2 ( κ 2 (θ i + κy i θ ( i(y i θ i + y κ i + 2 (θ i + κy i 2 ( κ ( y i yi θ i (θ i + κy i 2 κ θ y2 i 2 i ( κ + θ ] iy i 2 κ ( κ 2 y ( 2 i y 2 θ i (θ i + κy i 2 i 2y i κ + θi + κ ( κ 2 y ( i y (θ i + κy i 2 i θ 2 i + κ ( κ 2 ( y i (y i ( θ i κ ( κ + θ i (y i 2 ( κ 2 (θ i + κy i + }] ] θ i ( κ 2 ( ] (yi (θ i + κy i θ i (y i θ (θ i + κy i 2 κ (θ i + κy i 2 i x ir y i(y i (θ i + κy i (y i θ i + (y i κy i θ i (y i + ] θ 2 ( κ(θ i + κy i 2 i x ir κ ( κy i(y i (y i κy i + ] θ ( κ(θ i + κy i 2 i x ir κ ] yi (y i κy i (y i (y i κy i θ i (θ i + κy i 2 κ x ir ] yi (y i (θ i + κy i θ i 2 κ x ir

12 Macierz informacji Fishera dla funkcji l ma następującą postać I (β, κ o elementach ( ( ( ( β 2 β β 2 β β 3... ( β 2 β ( ( ( β2 2 β 2 β 3... ( ( β 3 β β 3 β 2 (... ( β ( ( ( ( β p β β p β 2 β p β 3... βp 2 ( κ β ( κ β 2 ( κ β 3 β β p β 2 β p β 3 β p... ( κ β p ( 2 ( l E y ] i(y i κ θ β r β s (θ i + κy i 2 i x ir x is ( β κ ( β 2 κ ( β 3 κ. ( β p κ ( κ 2 ( 2 l κ 2 E y i (θ i + κy i 2 ( 2 ( l 2 l β r κ κ β r Gradient funkcji l dany jest wzorem ( y i E θ 2 i + κ ( κ 2 ] yi (y i (θ i + κy i 2 θ i κ x ir gdzie ( l U(β, κ T ( ˆβ, ˆβ 2,..., ˆβ p,0, l,..., l, l (0, 0,..., 0, β β 2 β p κ Ûκ, ( ˆβ, ˆβ 2,..., ˆβ p,0 Û κ l n ( κ yi (y i y ( ˆβ, ˆβ 2,..., ˆβ i + ˆθ ] i (y i p,0 ˆθ i ˆθ ˆθ i i y 2 i y i ˆθ i y i ˆθ i y iˆθi + ˆθ i + ˆθ 2 i ˆθ i (y i ˆθ i 2 y i ˆθ i. (y i 2y iˆθi + ˆθ 2 i y i ˆθ i W celu wyznaczenia estymatorów największej wiarygodności ˆβ parametrów β, β 2,..., β p należy rozwiązać układ p równań wiarygodności korzystając w wyprowadzonych wcześniej wzorów: l β 0 l β 2 0. l β p 0 Jeżeli zmienna losowa Y ma rozkład Poissona z parametrem λ to jej kolejne momenty zwykłe są odpowiednio równe: EY λ, EY 2 λ 2 + λ, 2

13 EY 3 λ 3 + 3λ 2 + λ. Przy założeniu hipotezy zerowej elementy macierzy I ( ˆβ, 0 mają postać ( 2 ( l n β r β θ s ( ˆβ, ˆβ 2,..., ˆβ i x ir x is E y ] i(y i κ p,0 (θ i + κy i 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ] yi (y i ˆθ i x ir x is ( κe (θ i + κy i n ˆθ 2 ( ˆβ, ˆβ 2,..., ˆβ i x ir x is p,0 ( 2 ( l n ] β r κ θ i ( ˆβ, ˆβ 2,..., ˆβ p,0 κ x yi (y i ir E (θ i + κy i 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ( 2 l κ 2 ˆθ i x ir E ( ˆβ, ˆβ 2,..., ˆβ p,0 ] yi (y i (θ i + κy i 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ˆθ i x ir E(y 2 i E(y i θ 2 i ˆθ i x ir θ 2 i + θ i θ i θ 2 i E y i (θ i + κy i 2 ( ] ( ˆβ, ˆβ 2,..., ˆβ p,0 ] ( ˆβ, ˆβ 2,..., ˆβ p,0 0 y i θ 2 i + κ ( ( κ 2 ˆβ, ˆβ 2,..., ˆβ p,0 co daje (yi (y i θ i 2 ( E + ] θ i 2 ˆβ, ˆβ 2,..., ˆβ p,0 (yi (yi 2 2y i θ i + θi 2 ( E + ] θ i 2 ˆβ, ˆβ 2,..., ˆβ p,0 E(y 3 i 2θ i E(yi 2 + θi 2 E(y i E(yi 2 + 2θ i E(y i θi 2 θ 2 i θi 2 θ 3 i + 3θ 2 i + θ i 2θ 3 i 2θ 2 i + θ 3 i θ 2 i θ i + 2θ 2 i θ 2 i θ 2 i + ] ( ˆβ, ˆβ 2,..., ˆβ p,0 2n θ 2 i + ] ( ˆβ, ˆβ 2,..., ˆβ p,0 + ] ( ˆβ, ˆβ 2,..., ˆβ p,0 n ˆθi x 2 n i ˆθi x i x i2... n ˆθi x i x ip 0 n ˆθi x i2 x n i ˆθi x 2 i2... n ˆθi x i2 x ip n ˆθi x ip x i n ˆθi x ip x i2... n ˆθi x 2 ip n X T diag(ˆθx 0 0 2n 3

14 gdzie diag(ˆθ Macierz odwrotna do I ( ˆβ, 0 ma postać ˆθ ˆθ ˆθ ˆθn I ( ˆβ, 0 X T diag(ˆθx ] 0 0 (2n Na mocy twierdzenia Cramera-Rao statystyka S( ˆβ (2n Û κ jest asymptotycznie efektywna, co tłumaczy wybór (7. Analogicznie, sprawdzanie występowaia nadrozproszenia w modelu regresji Poissona względem modelu GP-2 jest równoznaczne z testowaniem hipotezy zerowej H 0 : ϕ 0 (8 przeciwko hipotezie alternatywnej H : ϕ > 0. (9 Statytyka testowa w tym przypadku będzie postaci S ( ˆβ ( n ((y i ˆµ i 2 y i 2 n, (20 2ˆµ 2 i gdzie ˆµ i jest estymatorem wyznaczonym z modelu Poissona. Przy założeniu hipotezy zerowej, która mówi, że analizowane dane dobrze wyjaśnia model Poissona, powyższa statystyka ma rozkład graniczny chi-kwadrat z jednym stopniem swobody. Alternatywnie możemy ją zapisać jako S 2 ( ˆβ n ((y i ˆµ i 2 y i 2, (2 n ˆµ 2 i skąd widać, że ma ona rozkład N (0,. Wyprowadzenie wzoru statystyki GP-2 jest analogiczne do GP-. Bazując na równaniu 4 zapisujemy logarytm wiarygodności modelu ( n l ln(l ln P (y i µ i, ϕ ln(p (y i µ i, ϕ ( µi y i ln + (y i ln( + ϕy i µ ] i( + ϕy i ln y i!. + ϕµ i + ϕµ i Przekształcając równanie 2 otrzymujemy µ i exp(x i β, 4

15 skąd obliczamy pochodną µ i β r x ir exp(x i β x ir µ i. Do wyznaczenia macierzy informacji Fishera należy wyznaczyć wszystkie możliwe pochodne drugiego rzędu funkcji l: l l µ i + ϕµ i ( + ϕµ i µ i ϕ y i ( + ϕy ] i( + ϕµ i ϕµ i ] x β r µ i β r µ i ( + ϕµ i 2 ( + ϕµ i 2 ir µ i ] + ϕµ i ϕµ i yi ( + ϕµ i ( + ϕy ( + ϕµ i 2 i x ir µ i µ i ] yi + ϕµ i y i µ i ϕµ i y i y i µ i x ( + ϕµ i 2 ir µ i µ i ( + ϕµ i x 2 ir l n ϕ β r β s ( + ϕµ i µ 2 ] i y i ( + ϕµ i ( + ϕy i µ i y i + (y µ i ( + ϕµ i 2 i y i µ i + ϕy i ( + ϕµ i 2 y iµ i + y i(y i µ ] i(y i µ i + ϕµ i + ϕy i ( + ϕµ i 2 ( + ϕµ i 2 (y i µ i 2( + ϕµ i ϕ ( + ϕµ i 4 x ir µ i x is n ϕ 2 β r ϕ + ϕµ i + 2ϕy i 2ϕµ i µ ( + ϕµ i 3 i x ir x is y i µ 2 ] i ( + ϕµ i y2 i (y i 2 ( + ϕy i + 2µ2 i (y i µ i 2 ( + ϕµ i 3 y2 i (y i ( + ϕy i + y iµ 2 i + ϕy i µ 3 i + 2µ 2 i y i 2µ 3 ] i 2 ( + ϕµ i 3 3yi µ 2 i + µ 3 ] i (ϕy i 2 y2 i (y i ( + ϕµ i 3 ( + ϕy i 2 2 l ϕ β r 2(y i µ i µ i ( + ϕµ i 3 x ir ( + 2ϕy i ϕµ i µ i ( + ϕµ i 3 x ir x is Macierz informacji Fishera dla funkcji l ma następującą postać I (β, ϕ: ( ( ( ( β 2 β β 2 β β 3... ( β 2 β ( ( ( β2 2 β 2 β 3... ( ( β 3 β β 3 β 2 (... ( β ( ( ( ( β p β β p β 2 β p β 3... βp 2 ( ϕ β ( ϕ β 2 β β p β 2 β p β 3 β p ( ( ϕ β 3... ϕ β p ( β ϕ ( β 2 ϕ ( β 3 ϕ. ( β p ϕ ( ϕ 2 5

16 o elementach ( 2 l E β r β s ( 2 l ϕ 2 Gradient funkcji l dany jest wzorem gdzie E ( 2 ( l 2 l β r ϕ ϕ β r ] ( + 2ϕyi ϕµ i µ i x ( + ϕµ i 3 ir x is 3yi µ 2 i + µ 3 ] i (ϕy i 2 y2 i (y i ( + ϕµ i 3 ( + ϕy i 2 E ] 2(yi µ i µ i ( + ϕµ i x 3 ir ( l U(β, ϕ T ( ˆβ, ˆβ 2,..., ˆβ p,0, l,..., l, l (0, 0,..., 0, β β 2 β p ϕ Ûϕ, ( ˆβ, ˆβ 2,..., ˆβ p,0 Û ϕ l ϕ n y ( ˆβ, ˆβ 2,..., ˆβ p,0 iˆµ i + y i (y i ˆµ i (y i ˆµ i ] yi 2 2y iˆµ i + ˆµ 2 i y i ] (y i ˆµ i 2 y i ]. y iˆµ i + yi 2 y i ˆµ i y i + ˆµ 2 i ] W celu wyznaczenia estymatorów największej wiarygodności ˆβ parametrów β, β 2,..., β p należy rozwiązać układ p równań wiarygodności korzystając w wyprowadzonych wcześniej wzorów: l β 0 l β 2 0. l β p 0 Jeżeli zmienna losowa Y ma rozkład Poissona z parametrem λ to jej kolejne momenty zwykłe są odpowiednio równe: EY λ, EY 2 λ 2 + λ, EY 3 λ 3 + 3λ 2 + λ. Przy założeniu hipotezy zerowej elementy macierzy I ( ˆβ, 0 mają postać ( 2 ( l n ] β r β ( + 2ϕyi ϕµ i µ i x s ( ˆβ, ˆβ 2,..., ˆβ ir x is E p,0 ( + ϕµ i 3 ( ˆβ, ˆβ 2,..., ˆβ p,0 x ir x is E(µ i ( n ˆµ ˆβ, ˆβ 2,..., ˆβ i x ir x is p,0 6

17 ( 2 ( l n ] β r ϕ 2(yi µ i µ i E ( ˆβ, ˆβ 2,..., ˆβ p,0 ( + ϕµ i x 3 ir ( ˆβ, ˆβ 2,..., ˆβ p,0 ( 2 ( l ϕ E 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ( 2µi x ir ( + ϕµ i Ey 3 i µ i ] ( ˆβ, ˆβ 2,..., ˆβ p,0 2ˆµ i x ir E(y i E(µ i ] ( ˆβ, ˆβ 2,..., ˆβ p,0 2ˆµ i x ir µ i µ i ] ( ˆβ, ˆβ 2,..., ˆβ p,0 0 3yi µ 2 i + µ 3 ] i (ϕy i 2 y2 i (y i ( + ϕµ i 3 ( + ϕy i 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 co daje ( 3µ 2 i E(y i + µ 3 i ( 2 E(yi 3 + E(yi 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ( 3µ 3 i 2µ 3 i (µ 3 i + 3µ 2 i + µ i + (µ 2 i + µ i ( ˆβ, ˆβ 2,..., ˆβ p,0 2ˆµ 2 i n ˆµ i x 2 n i ˆµ i x i x i2... n ˆµ i x i x ip 0 n ˆµ i x i2 x n i ˆµ i x 2 i2... n ˆµ i x i2 x ip n ˆµ i x ip x i n ˆµ i x ip x i2... n ˆµ i x 2 ip n 2ˆµ 2 X T diag(ˆµx 0 0 n 2ˆµ 2 i Macierz odwrotna do I ( ˆβ, 0 ma postać I ( ˆβ, 0 X T diag(ˆµx ] 0 ( n 0 2 ˆµ 2 i Na mocy twierdzenia Cramera-Rao otrzymana statystyka S ( ˆβ ( n 2ˆµ 2 i Û 2 ϕ jest asymptotycznie efektywna, co tłumaczy wybór (20. Równania (7 i (2 zawierają dwie postacie statystyk służacych do przeprowadzenia testów na występowanie nadrozproszenia na zasadzie porównania modelu regresji Poissona z jego dwoma uogólnieniami GP- i GP-2. W przypadku, gdy chcemy sprawdzić, czy model Poissona jest odpowiedni dla danych o wariancji przewyższającej średnią, należy użyć statystyki 7

18 S ( ˆβ do obustronnego testu χ 2 na występowania nad- lub podrozproszenia. W przypadku, gdy zależy nam jedynie na zbadaniu istnienia nadrozproszenia tak jak stanowią hipotezy (6 i (9, powinno się użyć statystyki S 2 ( ˆβ do jednostronnego testu χ 2. Opierając się na nim, możemy odrzucić model Poissona na poziomie istotności α, jeżeli S 2 ( ˆβ jest większe od 00( α-tego percentyla standardowego rozkładu normalnego. Test ten zostanie szerzej zaprezentowany w rozdziale Mieszany model Poissona Inną modyfikacją rozkładu Poissona jest mieszany rozkład Poissona, również charakteryzujący się własnością nadrozproszenia. Otrzymuje się go poprzez przemnożenie pierwotnego parametru przez zmienną losową, co nakłada na niego efekt losowy będący skutkiem indywidualnej tendencji każdego kierowcy do powodowania wypadków. Wartość oczekiwana tej zmiennej losowej musi być równa, aby nie zmienić średniej całego rozkładu, a jedynie wpłynąć na jego strukturę w celu lepszego dopasowania do danych rzeczywistych. Definicja Zmienna losowa N ma mieszany Poissona z parametrem λ oraz poziomem ryzyka Θ (EΘ], co oznaczamy N M P oiss(λ, Θ, jeżeli jej funkcja masy prawdopodobieństwa ma postać gdzie: P N k] Ep(k; λθ] 0 exp( λθ (λθk df Θ (θ, k! k0,,... - liczba roszczeń zgłaszanych przez klientów przy uwzględnieniu rozkładu warunkowego Θ, Θ - nałożony efekt losowy będący dodatnią zmienną losową, F Θ - dystrybuanta względem zmiennej losowej Θ. Własności mieszanego rozkładu Poissona: Wartość oczekiwana EN] E EN Θ θ] ] 0 0 Wariancja EN 2 ] ( exp( λθ 0 k0 k (λθk k0 k! k exp( λθ (λθk df Θ (θ k! df Θ (θ exp( λθ (λθ exp(λθ ] df Θ (θ 0 0 (λθ+λ 2 Θ 2 df Θ (θ λeθ]+λ 2 EΘ 2 ]. 0 ( (λθ(λθ k exp( λθ df Θ (θ k! k0 λθ df Θ (θ λeθ] λ. V arn] EN 2 ] (EN] 2 λeθ]+λ 2 EΘ 2 ] λ 2 (EN] 2 λ+λ 2 V arθ]. 8

19 Skąd wyraźnie widać przewagę wariancji nad wartością oczekiwaną Twierdzenie 2 (Nierówność Jensena V arn] λ + λ 2 V arθ] λ EN] Niech g będzie funkcją wypukłą, a X całkowalną zmienną losową taką, że E g(x <. Wówczas g(ex Eg(X]. Korzystając z powyższej nierówności otrzymujemy P N 0] 0 ( exp( λθdf Θ(θ exp λθdf Θ(θ exp( λ P Y 0], 0 gdzie zmienna losowa Y ma rozkład Poissona z parametrem λ. Powyższa nierówność ilustruje drugą ważną cechę mieszanego rozkładu Poissona - większą w porównaniu do tradycyjnego rozkładu Poissona koncentrację w zerze. Taka sytuacja również znajduje swoje odniesie do rzeczywistości, gdyż drobne szkody zwykle nie są zgłaszane do zakładu ubezpieczeń. Jest to spowodowane powszechnie przyjętą polityką zniżek Bonus-malus, zgodnie z którą kierowcy charakteryzujący się niższą szkodowością płacą niższe składki. Nie opłaca się zatem zgłaszać małych szkód, których koszt pokrycia z własnych środków sprawcy byłby niższy od sumarycznej kwoty utraconych w kolejnych latach zniżek. Występowanie w obu opisanych w tym rozdziale rozkładów cechy nadrozproszenia nasuwa pytanie, czy uogólniony rozkład Poissona jest szczególnym przypadkiem mieszanego rozkładu Poissona z konkretną funkcją randomizującą Θ. Okazuje się, że jest prawda, o czym stanowi poniższe twierdzenie. Twierdzenie 3 (Joe - Zhu Uogólniony rozkład Poissona dany wzorem (0 jest mieszanym rozkładem Poissona. Opis tego twierdzenia wraz z dowodem można znaleźć w pracy Generalized Poisson Distribution: the property of Mixture of Poisson and Comparison with Negative Binomial Distribution autorstwa H. Joe, R. Zhu z 2005 roku. 9

20 4 Porównanie GP i NB W rozdziale tym omówione zostaną różnice pomiędzy dwoma rozkładami, w których występuje przewaga wariancji nad wartością średnią - uogólnionym rozkładem Poissona GP danym wzorem (0 oraz rozkładem dwumianowym ujemnym NB (ang. negative binomial. Porównanie dotyczyć będzie w głównej mierze ich funkcji rozkładu prawdopodobieństwa oraz ich skośności. Oczywisty jest fakt, że nie ma sensu porównywanie konkretnie ustalonego uogólnionego rozkładu Poissona z innym ustalonym rozkładem dwumianowym ujemnym. Aby z owego zestawienia wypłynęły miarodajne wyniki, musimy ustalić pewne cechy wspólne dla obu tych rozkładów. Ponieważ zarówno jeden jak i drugi posiadają po dwa parametry, ustalimy ich pierwsze dwa momenty centralne bądź, równoważnie, średnią i wariancję. Niech f NB oraz f GP oznaczają funkcje masy prawdopodobieństwa odpowiednio ujemnego rozkładu dwumianowego oraz uogólnionego rozkładu Poissona, a µ i σ 2 ich średnią i wariancję. Rozkład prawdopodobieństwa NB(r, p dany jest wzorem f NB (x; r, p Γ(r + xpr ( p x, x 0,, 2,... Γ(rx! i jest to mieszany rozkład Poissona, gdzie funkcją randomizującą średnią jest rozkład Gamma Γ(r, p. Średnia i wariancja tego rozkładu dane są wzorami q µ r( p, σ 2 p r( p p 2, skąd można wyznaczyć uzależnione od średniej i wariancji parametry rozkładu p µ σ 2, r µp p µ2 σ 2 µ. Oznacza to, że istnieje suriekcja działająca z (µ, σ 2 na (r, p dla σ 2 > µ > 0 i r > 0, p > 0. Dla uogólnionego rozkładu Poissona GP(θ, κ mamy µ θ κ, σ θ ( κ 3 ( κ 2 µ σ 2. Stąd ponownie wyznaczyć można parametry w zależności od przyjętej średniej i wariancji κ µ σ 2, θ µ( κ µ µ σ 2. Także w tym przypadku istnieje suriekcja (µ, σ 2 (θ, κ dla σ 2 > µ > 0 i 0 < κ <, θ > 0. Przyjmijmy, że średnia µ oraz wariancja σ 2 są ustalone i równe dla obu rozkładów GP(θ, κ i NB(r, p. Iloraz funkcji masy prawdopodobieństwa jest równy f NB (x; r, p f GP (x; θ, κ Γ(r + / xpr ( p x Γ(rx! / θ(θ + κx x e θ κx x! 20

21 gdzie x 0,,.... Niech D σ2 µ x 0 mamy f NB (0; r, p f GP (0; θ, κ Γ ( µ 2 σ 2 µ + x ( µ µ 2 ( σ 2 µ σ µ 2 σ 2 x / Γ ( µ σ 2 µ µ µ σ 2 ( µ µ σ 2 + µ σ 2 ] x x exp µ µ σ 2 ( µ σ 2 x ], ( µ σ 2 µ σ 2 µ e µ µ σ 2 będzie współczynnkiem dyspersji. Ponieważ D >, to dla ] D µ D µ exp D exp µ D Obliczając pochodną dla wyrażenia ( D 2 D 2 ln D, otrzymujemy 2 D D 3 2 D ( 2 D 2 D 2 2 > 0. ( D 2 D 2 ] ln D ]. Skutkiem powyższego jest fakt, że ( D 2 D 2 ln D jest dodatnie dla D >, ponieważ funkcja ta ma granicę równą 0 gdy D. W konsekwencji f NB (0; r, p > f GP (0, θ, κ, co oznacza, że przy ustalonych µ, σ 2, rozkład ujemny dwumianowy jest bardziej skoncentrowany w zerze, aniżeli uogólniony rozkład Poissona. Co więcej, stosunek funkcji masy obu rozkładów w zerze rośnie wraz ze zwiększanie się średniej µ przy stałym D. Dla x zachodzi µ f NB (; r, p µ f GP (; θ, κ D D D ( D µd 2 exp µd 2 ( ] D 2 ( D 2 exp D 2 exp µ ( D 2 D 2 ln D. D Gdy µ 0 iloraz funkcji rozkładu zbiega do D 2 e D 2 <, ponieważ ln D + ( D 2 2 < 0. W tym przypadku, wartość modalna ujemnego rozkładu dwumianowego jest równa 0. Wraz ze wzrostem µ ponad wartość (D ln D / 2 ( D 2 D 2 ln D ], stosunek obu funkcji przekroczy wartość, co oznaczać będzie większą koncentrację rozkładu NB w punkcie x. Dla x 2 ponownie zapisujemy stosunek obu funkcji przy użyciu zmiennych µ i D f NB (x; r, p f GP (x; θ, κ µ(d + x ]... µ(d ]D µ(d ( D x µd 2 µd 2 + ( ] D x 2 x exp µd 2 ( ] D 2 x ( x µ(d + i] ( D x C µd 2 + ( ] D x ( ], 2 x exp D 2 x gdzie C jest pewną stałą. Ponieważ podobna weryfikacja jest niemożliwa dla wszystkich x, skupimy się na obserwacji ogonów obu rozkładów dla dostatecznie dużych x. Korzystając z przybliżenia Stirlinga x! x x+ 2 e x oraz nierówności ln( +y y < 0 (dla y > 0 otrzymujemy 2

22 f NB (x; r, p f GP (x; θ, κ x x+ 2 e x ( D x ( D x 2 xx exp ( ] x ( 2 + D x 2 D 2 x exp ] xd 2 x 2 exp x ( ln + D 2 ] D 2 ] 0, gdy x. Wynika z tego, że uogólniony rozkład Poissona ma cięższy ogon w porównaniu do rozkładu ujemnego dwumianowego. Następnym krokiem będzie porównanie graficzne porównanie obu rozkładów dla różnych wartości µ oraz D. Dla średniej przyjęto wartości 0,5, 5, 5 oraz 25, a współczynnik dyspersji D jest równego kolejno,5, 0 i 30. Przypadki dla dużych średnich µ > 30 oraz umiarkowanej wariancji D < 0 zostały pominięte, gdyż w tych przypadkach zarówno rozkład GP jak i NB jest zbliżony kształtem do rozkładu normalnego. Przedstawione na wykresie funkcje zostały podzielone względem średniej oraz współczynnika dyspersji. Wykresy zawarte w jednym rzędzie mają taką samą wartość µ, z kolei te znajdujące się w tej samej kolumnie mają identyczne D. 22

23 Wykres. Porównanie funkcji masy prawdopodobieństwa rozkładów GP i NB. Ciągłą linią oznaczono uogólniony rozkład Poissona, przerywaną rozkład ujemny dwumianowy. Funkcje w rzędach -4 mają średnie odpowiednio µ 0,5, µ 5, µ 5 i µ 25. W kolumnach -3 współczynnik rozproszenia jest równy kolejno D, 5, D 0 oraz D 30. Źródło: Generalized Poisson distribution: the property of mixture of Poisson and comparison with negative binomial distribution, Biometrical Journal, 2005, (s W przypadku funkcji masy prawdopodobieństwa rozkładów o bardzo niskiej średniej widzimy, że nie ma między nimi zauważalnej różnicy dla wszystkich D z zakresu do 30. Identyczna sytuacja ma miejsce w przypadku niewielkiego rozproszenia rozkładu, gdy współczynnik dyspersji jest równy,5. Gdy µ nie jest bardzo małe, różnice między rozkładami stają się widoczne i zwiększają się wraz ze wzrostem parametru D. Ponadto, dominanta ujemnego rozkładu dwumianowego jest mniejsza bądź równa tej z uogólnionego rozkładu Poissona. Ponieważ moda rozkładu NB(r,p jest równa r( p + µ D + widzimy, że jest ona równa 0, gdy p D > µ. Wynika z tego, że rozkład ujemny dwumianowy może mieć malejącą funkcję masy prawdopodobieństwa, podczas gdy GP ma unimodalną funkcję rozkładu. Kolejną cechą obu rozkładów, którą poddamy analizie będzie ich skośność. Tak jak powyżej, ustalamy dla modeli GP i NB taką samą średnią µ oraz wariancję σ 2. Przyjmijmy oznaczenie µ k EX k oraz niech G(s E(s X będzie funkcją tworzącą prawdopodobieństwo. Skośność definiujemy jako E(X µ 3 µ 3 3µ µ 2 + 2µ 3, gdzie µ G (, µ 2 G ( + µ, µ 3 G ( + 3µ 2 2µ. Jeżeli dany rozkład jest mieszanym rozkładem Poissona ze zmienną losową Λ, to możemy użyć następujących podstawień (Joe and Zhu, 2005: µ EX EΛ, µ 2 EX 2 E(Λ 2 + Λ, µ 3 EX 3 E(Λ 3 + 3Λ 2 + Λ, E(Λ µ 3 E(X µ 3 3V ar(x + 2µ. GP(θ, κ : Niech κ κ. µ θ κ, µ 2 θ(θκ + κ 3 (22 (, µ 3 θκ 3 θ 2 κ 2 + 3θκ 2κ + 3, E(X µ 3 θκ 5 (3 2κ θκ 5 ( + 2κ σ2 ( ( 3σ 2 2σµ 2 µd 3D 2D 2. µ NB(r, p : Niech q p. G(s ] r p, µ rq qs p, µ 2 23 rq( + rq p 2,

24 µ 3 rq(r2 q 2 + 3rq + q +, E(X µ p 3 3 rq( + q p 3 Odejmując od siebie otrzymane wartości otrzymujemy σ2 µ (2σ2 µ µd(2d. µd ( 3D 2D 2 µd(2d µd ( D 2 2 > 0, skąd wyraźnie widać, że uogólniony rozkład Poissona ma większą skośność, niż rozkład dwumianowy ujemny w przypadku, gdy oba mają takie same pierwsze dwa momenty zwykłe. Istotny jest fakt, że wraz ze wzrostem współczynnika D, rośnie także wartość różnicy skośności obu rozkładów. Ponadto, w każdym z przypadków skośność jest wprost proporcjonalna do µ, a różnica między nimi zwiększa się w przypadku wzrostu średniej. W trakcie analizy danych empirycznych bardzo ważną czynnością jest sprawdzenie, który z rozkładów jest lepiej dopasowany do posiadanych obserwacji. Z powyższych rozważań wynika, że rozkład dwumianowy ujemny znajdzie zastosowanie w przypadku zaobserwowania dużej liczby zer w badanej próbce. Z drugiej strony, jeżeli µ < D oraz dane mają charakter unimodalny (z dominantą > 0, to lepszym wyborem będzie uogólniony rozkład Poissona. Użyjemy go także w przypadku, gdy wykres analizowanych obserwacji ma długi prawy ogon. 24

25 5 Porównanie GP-2 z innymi testami 5. Alternatywne statystyki W rozdziale tym omówione zostanie porównanie trzech statystyk służących wykrywaniu zjawiska nadrozproszenia. Jak wcześniej wspomniano, model regresji Poissona jest szczególnym przypadkiem modelu GP-2, kiedy parametr ϕ przyjmuje wartość 0. Przedmiotem naszych badań jest stwierdzenie występowania nadrozproszenia w analizowanych danych poprzez testowanie hipotez H 0 : ϕ 0 przeciwko H : ϕ > 0. Inne testy pozwalające rozwiązać ten problem opierają się na statystyce związanej z ilorazem wiarygodności LRT (ang. likelihood ratio test oraz statystyce Walda. Pierwsza z nich służy porównaniu dwóch modeli składających się z różnej liczby parametrów celem rozstrzygnięcia, do którego z nich lepiej dopasowane są analizowane dane. Innymi słowy, za jej pomocą badamy istotność dodatkowych parametrów, co w przypadku modelu regresji GP-2 dotyczy zmiennej ϕ. Statystyka LRT ma asymptotyczny rozkład χ 2 z liczbą stopni swobody równą różnicy liczby parametrów obu modeli. Statystyka ta będzie dana wzorem LRT ϕ 2l(ˆµ l(ˆµ, ˆϕ], gdzie l(ˆµ i l(ˆµ, ˆϕ są maksymalnymi wartościami logarytmów naturalnych funkcji wiarygodności modeli odpowiednio regresji Poissona oraz regresji GP-2. Modyfikacja tej statystyki do postaci sgn( ˆϕ LRT ϕ sgn( ˆϕ 2l(ˆµ l(ˆµ, ˆϕ] sprawi, że będzie ona zbiegać asymptotycznie do standardowego rozkładu normalnego. Zapisywać ją będziemy jako SSR-LRT (ang. signed square-root of LRT. W celu badania nadrozproszenia możemy także posłużyć się statystyką t typu Walda definiowaną jako Wald ˆϕ V ar( ˆϕ, która także posiada asymptotyczny rozkład normalny. 5.2 Symulacja Monte Carlo Przedstawione wyniki symulacji zostały zaczerpnięte z pracy A score test for overdispersion in Poisson regression based on the generalized Poisson-2 model autorstwa Z. Yang, J.W. Hardin, C.L. Addy z 2008 roku, Biometrical Journal. W symulacji tej porównano statystyki Walda, SSR-LRT oraz statystykę opartą na modelu GP-2 daną wzorem (2. Przyjęto istnienie jednej zmiennej objaśniającej, a jej związek ze zmienną objaśnianą dany jest wzorem ln µ i 2 2 x i, gdzie x i jest zmienną generowaną z rozkładu jednostajnego na przedziale 0,]. Próbki służące do obliczania wartości statystyk mają kolejno rozmiar n 20, 50, 00 i zostały wygenerowane z rozkładu GP-2 z parametrami nadrozproszenia ϕ ujętymi w tabeli. Symulacja składa się z 25

26 0000 powtórzeń dla każdej kombinacji rozmiaru próbki i wartości ϕ. Oznaczmy testowaną statystykę przez S ϕ (dla każdej z trzech opisanych powyżej oraz ustalmy poziom istotności α 0,05. Badając nadrozproszenie korzystamy z jednostronnego testu oraz faktu, że każda ze statystyk ma asymptotyczny rozkład normalny N (0,, którego wartość krytyczna jest równa z α,645. Moc danego testu otrzymujemy poprzez znalezienie odsetka liczby przypadków, kiedy S ϕ jest większe od wartości krytycznej C #(S ϕ > C, R gdzie R 0000 jest liczbą powtórzeń, a wartość krytyczna C jest równa z α,645. Rezultaty przeprowadzonej symulacji zostały przedstawione w tabeli oraz graficznie na wykresie 2. n Statystyka Moc testu (% ϕ 0, 00 0,0 0,02 0,03 0,04 0,05 0,06 0,07 0,08 20 Wald 0,36,32 3,20 6,72 2,65 9,8 27,27 35,83 43,40 SSR-LRT,82 5,09 9,65 7,03 25,9 35,32 44,59 53,76 6,8 GP-2 3,24 7,54 3,50 22,48 32,7 4,77 5,49 60,0 67,66 50 Wald,29 5,32 5,33 29,4 47,9 63,46 76,22 86,8 9,93 SSR-LRT 2,94 9,84 22,45 40,06 58,02 73,05 83,95 9, 95,07 GP-2 3,99 2,49 27,07 45,29 63,0 76,86 86,74 92,60 96,0 00 Wald 2,02,66 33,5 60,76 8,85 92,82 97,76 99,42 99,84 SSR-LRT 3,30 6,2 4,25 67,80 86,62 95,24 98,54 99,64 99,90 GP-2 4,4 9,2 45,27 7,32 88,57 96,2 98,80 99,74 99,93 ϕ 0, 09 0,0 0,5 0,20 0,25 0,30 0,35 0,40 20 Wald 5,65 59,57 83,38 92,77 96,68 97,85 98,65 99,76 SSR-LRT 68,42 74,96 9,59 96,75 98,55 99,7 99,53 00,00 GP-2 73,3 79,40 93,8 97,52 98,82 99,39 99,59 00,00 50 Wald 95,74 97,40 99,85 00,00 SSR-LRT 97,60 98,59 99,92 00,00 GP-2 98,2 98,83 99,94 00,00 00 Wald 99,94 00,00 SSR-LRT 99,95 00,00 GP-2 99,95 00,00 26

27 Tabela. Porównanie mocy statystyk GP-2 (Score, SSR-LRT i Walda. Źródło: Opracowano na podstawie: A Score test for overdispersion in Poisson regression based on the generalized Poisson-2 model, Biometrical Journal, 2008, (s Uzyskane wyniki wskazują, że w przypadku gdy ϕ 0, co wiąże się z prawdziwością modelu Poissona, statystyka GP-2 najczęściej wskazuje błędnie na występowanie zjawiska nadrozproszenia dla każdej z badanych liczebności próbki. Gdy ϕ jest bliskie 0, oznacza to niewielką różnicę między modelem Poissona oraz GP-2, która rośnie wraz ze zwiększaniem się parametru ϕ. Co za tym idzie, wyniki z tabeli wskazują na wzrost skuteczności wykrywania nadrozproszenia przez wszystkie statystyki wraz ze wzrostem ϕ, jednak tempo wzrostu mocy dla każdej z nich jest inne dla różnych wartości n oraz ϕ. Dla dużych próbek n 00 wykrywalność rośnie bardzo szybko i osiąga 00% już dla ϕ 0,0; z kolei w przypadku średnich próbek n 50, moc wszystkich statystyk osiąga niemal 00%, gdy ϕ 0,5. Dla małych próbek n 20, skuteczność każdej z trzech statystyk rośnie bardzo wolno dla ϕ < 0,04. Dopiero powyżej tej wartości moc testów zaczyna wzrastać szybciej, jednak wykrywalość nadrozproszenia wszystkich zbliża się do 00% dopiero, gdy ϕ 0,30. Ponadto, przedstawione wyniki uwidaczniają zróżnicowanie skuteczności omawianych trzech statystyk: dla małych próbek n 20 różnice między nimi są niewielkie tylko w przypadku, gdy ϕ jest wystarczająco duże, na przykład ϕ 0,3. Dla średnich próbek n 50 różnice między statystykami zacierają się dla ϕ 0,0; a dla dużych próbek n 00 już od ϕ 0,06. Dla pozostałych ϕ różnica między mocami statystyk jest znacząca, może być nawet kilkukrotna. Wykres 2. Porównanie mocy statystyk GP-2 (Score, SSR-LRT i Walda dla próbek o liczności 27

28 kolejno n 20, n 50 oraz n 00. Drugi rząd wykresów stanowi powiększenie pierwszego dla małych wartości ϕ. Źródło: A Score test for overdispersion in Poisson regression based on the generalized Poisson-2 model, Biometrical Journal, 2008, (s Zaprezentowane w tabeli oraz na wykresie 2 informacje jednoznacznie wskazują, że statystyka GP-2 z równania (2 jest lepsza od pozostałych testów w kontekście skuteczności wykrywania nadrozproszenia. Wskazuje to, iż to ona powinna być stosowana w celu wyboru modeli regresji, gdy nie wiemy, czy posłużyć się modelem Poissona czy też jego uogólnieniem. 28

29 6 Przykład numeryczny 6. Dane Dane na których opiera się przeprowadzona analiza pochodzą ze zbioru idywidualnych polis ubezpieczeń komunikacyjnych OC użytego w pracach K.C.H. Yip i K.K.W. Yau z 2005 roku oraz M. Flynn i L.A.Francis z 2009 roku. Zawiera on 0296 polis wraz z 33 zmiennymi opisującymi osobę ubezpieczonego. W naszym przykładzie zmienną objaśnianą jest ilość zgłaszanych roszczeń, a zmienną objaśniającą wiek sprawcy wypadku. Rozkład liczby roszczeń przedstawiony jest w tabeli 2. Ilość Liczba roszczeń ubezpieczonych Suma 0296 Tabela 2. Zestawienie roszczeń zgłaszanych przez ubezpieczonych. W powyższej próbce średnia liczba roszczeń przypadają na jednego kierowcę jest równa µ 0,8, dominanta ma wartość 0, natomiast wariancja wynosi σ 2,33. Wobec tego współczynnik dyspersji ma wartość D σ2,66, co wskazuje, iż wariancja jest ponad półtora razy większa µ od średniej. Mamy zatem do czynienia z danymi, wobec których zasadne wydaje się być użycie jednego z modeli GP-, GP-2 lub NB zamiast regresji Poissona. W omawianym zbiorze danych zmienna wiek została podzielona na cztery kategorie: osoby między 6 a 24 rokiem życia, między 25 a 40 rokiem życia, między 4 a 60 rokiem życia oraz osoby starsze niż 60 lat. Rozkład liczebności poszczególnych grup oraz średniej liczby roszczeń dla każdej z nich przedstawia wykres 3. 29

30 Wykres 3. Zestawienie liczby ubezpieczonych oraz średniej liczby szkód w poszczególnych grupach wiekowych. Najliczniejszą grupą wiekową w analizowanych danych są osoby w wieku 4-60 lat, którzy stanowią 66% próbki. Drugą pod względem liczebności grupą ubezpieczonych są osoby między 25 a 40 rokiem życia. Najmłodsze oraz najstarsze osoby stanowią około 4% wszystkich badanych. W przypadku średniej liczby roszczeń przypadającej na osobę, najwyższy wskaźnik równy,6 odnotowała najmłodsza grupa badanych. Przyczyną takiego stanu rzeczy jest niewielkie doświadczenie w prowadzeniu pojazdów oraz lekkomyślność i brawura. Dla kolejnych dwóch grup wiekowych wskaźnik ten spada kolejno do poziomu 0,87 i 0,75. Dla najstarszej z analizowanych grup średnia rośnie i wynosi 0,98 zgłaszanej szkody rocznie. Jest to skutkiem pogarszającego się z wiekiem stanu zdrowia kierowców oraz dłuższym czasem reakcji podczas prowadzenia pojazdu. 6.2 Wyniki Do powyżej opisanych danych spróbujemy zastosować regresję Poissona, jej dwa uogólnienia GP- i GP-2 oraz model oparty o rozkład ujemny dwumianowy. Do oceny dopasowania każdego z czterech modeli do danych empirycznych skorzystamy z kryterium informacyjnego Akaike danego wzorem AIC 2 ln(l + 2n, gdzie L oznacza maksimum funkcji wiarygodności, a n liczbę parametrów modelu. Ponadto zbadamy istotność wszystkich parametrów występujących w modelu. Ponieważ wykres średniej ilości roszczeń przypomina kształtem parabolę, można uznać, iż zależność między średnią liczbą szkód a wiekiem ma charakter kwadratowy z dodatnim parametrem przy zmiennej w drugiej potędze. Analizować będziemy zatem zależność ln µ β 0 + β x + β 2 x 2. 30

31 Estymacji dokonujemy w programie SAS przy użyciu następujących kodów dla każdego modelu: Regresja Poissona data nietak; set Dane; run; proc genmod datanietak; model CLM_FREQ wiek / distpoi linklog; output outtemp ppred; run; GP- proc nlmixed datadane; parms b00.00 b0,00 b20,00 k0.00; eta b0 + b*wiek + b2*wiek*wiek; bounds 0<k<, b0>0, b>-0., b2>0; mu exp(eta; loglike (CLM_FREQ-*log((-k*mu + k*clm_freq+log((-k*mu - k*clm_freq-(-k*mu -log(fact(clm_freq; prob exp(loglike; model CLM_FREQ ~ general(loglike; predict prob out pred_gp; run; GP-2 proc nlmixed datasasuser.dane_gn; parms b00 b0 b20 k0.00; eta b0 + b*wiek + b2*wiek*wiek; bounds k>0; mu exp(eta; loglike CLM_FREQ*log(mu/(+k*mu - log(fact(clm_freq + (CLM_FREQ-*log(+k*CLM_FREQ - mu*(+k*clm_freq/(+k*mu; prob exp(loglike; model CLM_FREQ ~ general(loglike; predict prob out pred_gp; run; NB 3

32 proc import outdane_temporary datafile"c:\users\karol Dziedziul\Desktop\dane_gn.xls" dbmsxls Replace; sheet"dane_mgr"; getnamesyes; run; data Dane; set dane_temporary; run; data nietak; set Dane; run; proc genmod datanietak; model CLM_FREQ wiek / distnb linklog; output outtemp ppred; run; Otrzymane wyniki prezentują się następująco: Regresja Poissona Tabela 3. Ocena wartości parametrów regresji Poissona. Regresja rozkładem dwumianowym ujemnym Tabela 4. Ocena wartości parametrów regresji NB. 32

33 Regresja GP- Tabela 5. Ocena wartości parametrów regresji GP-. Regresja GP-2 Tabela 6. Ocena wartości parametrów regresji GP-2. W przypadku modeli GP- oraz GP-2 wszystkie parametry funkcji kwadratowej β 0, β, β 2 są statystycznie istotne, gdyż w każdym przypadku stosunek wyestymowanej wartości do jej błędu jest bardzo duży, co przekłada się na p-wartość mniejszą od 0,000. Oszacowana w modelu GP- wielkość ˆκ 0,3 ze średniem błędem 0,0084 pokazuje, że jest on istotnie różny zera, a jego dodatnia wartość wskazuje na obecność nadrozproszenia w badanej próbce. Drugi z wprowadzonych parametrów dyspersji jest równy ˆϕ 0,56 (± 0,0202, co także potwierdza naszą wcześniejszą obserwację dotyczącą wysokiego stosunku wariancji do średniej. Kryterium informacyjne Akaike dla modeli GP-, GP-2 i NB wynosi odpowiednio 25475, 255 oraz i jest wyraźnie niższe od wartości przyjmowanej dla standardowej regresji Poissona, która w tym wypadku jest równa Wyraźnie widać zatem, że wszystkie trzy uogólnienia modelu Poissona są lepiej dopasowane do analizowanej próbki. Potwierdza to ich użyteczność w przypadku pracy z danymi, w których występuje zjawisko nadrozproszenia. 33

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Zadania o numerze 4 z zestawów licencjat 2014.

Zadania o numerze 4 z zestawów licencjat 2014. Zadania o numerze 4 z zestawów licencjat 2014. W nawiasie przy zadaniu jego występowanie w numerze zestawu Spis treści (Z1, Z22, Z43) Definicja granicy ciągu. Obliczyć granicę:... 3 Definicja granicy ciągu...

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych 1.10.2012 r.

Matematyka ubezpieczeń majątkowych 1.10.2012 r. Zadanie. W pewnej populacji każde ryzyko charakteryzuje się trzema parametrami q, b oraz v, o następującym znaczeniu: parametr q to prawdopodobieństwo, że do szkody dojdzie (może zajść co najwyżej jedna

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo

Bardziej szczegółowo

Zadanie 1. Zmienne losowe X 1, X 2 są niezależne i mają taki sam rozkład z atomami:

Zadanie 1. Zmienne losowe X 1, X 2 są niezależne i mają taki sam rozkład z atomami: Zadanie 1. Zmienne losowe X 1, X 2 są niezależne i mają taki sam rozkład z atomami: Pr(X 1 = 0) = 6/10, Pr(X 1 = 1) = 1/10, i gęstością: f(x) = 3/10 na przedziale (0, 1). Wobec tego Pr(X 1 + X 2 5/3) wynosi:

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

STATYSTYKA wykład 5-6

STATYSTYKA wykład 5-6 TATYTYKA wykład 5-6 Twierdzenia graniczne Rozkłady statystyk z próby Wanda Olech Twierdzenia graniczne Jeżeli rozpatrujemy ciąg zmiennych losowych {X ; X ;...; X n }, to zdarza się, że ich rozkłady przy

Bardziej szczegółowo

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Przykład Cena metra kwadratowego (w tys. zł) z dla 14 losowo wybranych mieszkań w

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ Dopasowanie rozkładów Dopasowanie rozkładów- ogólny cel Porównanie średnich dwóch zmiennych 2 zmienne posiadają rozkład normalny -> test parametryczny (t- studenta) 2

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Marek Ptak 21 października 2013 Marek Ptak Statystyka 21 października 2013 1 / 70 Część I Wstęp Marek Ptak Statystyka 21 października 2013 2 / 70 LITERATURA A. Łomnicki, Wprowadzenie

Bardziej szczegółowo

System bonus-malus z mechanizmem korekty składki

System bonus-malus z mechanizmem korekty składki System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Rachunek prawdopodobieństwa MAP3040 WPPT FT, rok akad. 2010/11, sem. zimowy Wykładowca: dr hab. Agnieszka Jurlewicz Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Warunkowa wartość oczekiwana.

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Przykład. Producent pewnych detali twierdzi, że wadliwość jego produkcji nie przekracza 2%. Odbiorca pewnej partii tego produktu chce sprawdzić, czy może wierzyć producentowi.

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych 6.04.2009 r.

Matematyka ubezpieczeń majątkowych 6.04.2009 r. Matematyka ubezpieczeń majątkowych 6.04.009 r. Zadanie. Niech N oznacza liczbę szkód zaszłych w ciągu roku z pewnego ubezpieczenia z czego: M to liczba szkód zgłoszonych przed końcem tego roku K to liczba

Bardziej szczegółowo

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów. Rachunek prawdopodobieństwa MAP1181 Wydział PPT, MS, rok akad. 213/14, sem. zimowy Wykładowca: dr hab. Agnieszka Jurlewicz Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Bardziej szczegółowo

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym Oznaczenia: wymagania konieczne, P wymagania podstawowe, R wymagania rozszerzające, D wymagania dopełniające, W wymagania wykraczające. Plan wynikowy lasa III Technik pojazdów samochodowych/ Technik urządzeń

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych 1 Laboratorium III: Testy statystyczne Spis treści Laboratorium III: Testy statystyczne... 1 Wiadomości ogólne... 2 1. Krótkie przypomnienie wiadomości na temat testów statystycznych... 2 1.1. Weryfikacja

Bardziej szczegółowo

Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2

Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2 Instytut Matematyczny Uniwersytet Wrocławski Zakres egzaminu magisterskiego Wybrane rozdziały anazlizy i topologii 1 i 2 Pojęcia, fakty: Definicje i pojęcia: metryka, iloczyn skalarny, norma supremum,

Bardziej szczegółowo

Z Wikipedii, wolnej encyklopedii.

Z Wikipedii, wolnej encyklopedii. Rozkład normalny Rozkład normalny jest niezwykle ważnym rozkładem prawdopodobieństwa w wielu dziedzinach. Nazywa się go także rozkładem Gaussa, w szczególności w fizyce i inżynierii. W zasadzie jest to

Bardziej szczegółowo

Wpływ macierzy przejścia systemu bonus-malus ubezpieczeń komunikacyjnych OC na jego efektywność taryfikacyjną

Wpływ macierzy przejścia systemu bonus-malus ubezpieczeń komunikacyjnych OC na jego efektywność taryfikacyjną Wpływ macierzy przejścia systemu bonus-malus ubezpieczeń komunikacyjnych OC na jego efektywność taryfikacyjną Anna Szymańska Katedra Metod Statystycznych Uniwersytet Łódzki Taryfikacja w ubezpieczeniach

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

Wykorzystanie informacji kredytowej w procesie oceny ryzyka ubezpieczeniowego w ubezpieczeniach komunikacyjnych

Wykorzystanie informacji kredytowej w procesie oceny ryzyka ubezpieczeniowego w ubezpieczeniach komunikacyjnych Wykorzystanie informacji kredytowej w procesie oceny ryzyka ubezpieczeniowego w ubezpieczeniach komunikacyjnych Ubezpieczeniowy Fundusz Gwarancyjny mgr Karolina Pasternak-Winiarska mgr Kamil Gala Zagadnienia

Bardziej szczegółowo

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony Agnieszka Kamińska, Dorota Ponczek MATeMAtyka 3 Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych Zakres podstawowy i rozszerzony Wyróżnione zostały następujące wymagania

Bardziej szczegółowo

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. Zadanie 1 W celu ustalenia zależności między liczbą braków a wielkością produkcji części

Bardziej szczegółowo

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński Własności estymatora parametru lambda transformacji potęgowej Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński 1. Wstęp Najczęstszym powodem transformowania zmiennej losowej jest jej normalizacja,

Bardziej szczegółowo

Funkcja jednej zmiennej - przykładowe rozwiązania 1. Badając przebieg zmienności funkcji postępujemy według poniższego schematu:

Funkcja jednej zmiennej - przykładowe rozwiązania 1. Badając przebieg zmienności funkcji postępujemy według poniższego schematu: Funkcja jednej zmiennej - przykładowe rozwiązania Zadanie 4 c) Badając przebieg zmienności funkcji postępujemy według poniższego schematu:. Analiza funkcji: (a) Wyznaczenie dziedziny funkcji (b) Obliczenie

Bardziej szczegółowo

Diagnostyka w Pakiecie Stata

Diagnostyka w Pakiecie Stata Karol Kuhl Zgodnie z twierdzeniem Gaussa-Markowa, estymator MNK w KMRL jest liniowym estymatorem efektywnym i nieobciążonym, co po angielsku opisuje się za pomocą wyrażenia BLUE Best Linear Unbiased Estimator.

Bardziej szczegółowo

Zastosowanie Excela w matematyce

Zastosowanie Excela w matematyce Zastosowanie Excela w matematyce Komputer w dzisiejszych czasach zajmuje bardzo znamienne miejsce. Trudno sobie wyobrazić jakąkolwiek firmę czy instytucję działającą bez tego urządzenia. W szkołach pierwsze

Bardziej szczegółowo

Przykład 1 ceny mieszkań

Przykład 1 ceny mieszkań Przykład ceny mieszkań Przykład ceny mieszkań Model ekonometryczny zaleŝności ceny mieszkań od metraŝu - naleŝy do klasy modeli nieliniowych. - weryfikację empiryczną modelu przeprowadzono na przykładzie

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin. Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Zadania analityczne (1) Analiza przewiduje badanie podobieństw

Bardziej szczegółowo

UWAGI O TESTACH JARQUE A-BERA

UWAGI O TESTACH JARQUE A-BERA PRZEGLĄD STATYSTYCZNY R. LVII ZESZYT 4 010 CZESŁAW DOMAŃSKI UWAGI O TESTACH JARQUE A-BERA 1. MIARY SKOŚNOŚCI I KURTOZY W literaturze statystycznej prezentuje się wiele miar skośności i spłaszczenia (kurtozy).

Bardziej szczegółowo

Proces modelowania zjawiska handlu zagranicznego towarami

Proces modelowania zjawiska handlu zagranicznego towarami Załącznik nr 1 do raportu końcowego z wykonania pracy badawczej pt. Handel zagraniczny w województwach (NTS2) realizowanej przez Centrum Badań i Edukacji Statystycznej z siedzibą w Jachrance na podstawie

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Statystyczne metody analizy danych

Statystyczne metody analizy danych Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezińska Definicje Statystyka (ang.statistics) - to nauka zajmująca się zbieraniem, prezentowaniem i analizowaniem

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

Podczas zajęć będziemy zajmować się głownie procesami ergodycznymi zdefiniowanymi na przestrzeniach ciągłych.

Podczas zajęć będziemy zajmować się głownie procesami ergodycznymi zdefiniowanymi na przestrzeniach ciągłych. Trochę teorii W celu przeprowadzenia rygorystycznej ekonometrycznej analizy szeregu finansowego będziemy traktowali obserwowany ciąg danych (x 1, x 2,..., x T ) jako realizację pewnego procesu stochastycznego.

Bardziej szczegółowo

Testowanie hipotez. 1 Testowanie hipotez na temat średniej

Testowanie hipotez. 1 Testowanie hipotez na temat średniej Testowanie hipotez Poziom p Poziom p jest to najmniejszy poziom istotności α, przy którym możemy odrzucić hipotezę zerową dysponując otrzymaną wartością statystyki testowej. 1 Testowanie hipotez na temat

Bardziej szczegółowo

metoda momentów, Wartość oczekiwana (pierwszy moment) dla zmiennej o rozkładzie γ(α, λ) to E(X) = αλ, drugi moment (wariancja) to

metoda momentów, Wartość oczekiwana (pierwszy moment) dla zmiennej o rozkładzie γ(α, λ) to E(X) = αλ, drugi moment (wariancja) to 3.1 Wprowadzenie do estymacji Ile mamy czerwonych krwinek w krwi? Ile karpi żyje w odrze? Ile ton trzody chlewnej będzie wyprodukowane w przyszłym roku? Ile białych samochodów jeździ ulicami Warszawy?

Bardziej szczegółowo

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

III. ZMIENNE LOSOWE JEDNOWYMIAROWE III. ZMIENNE LOSOWE JEDNOWYMIAROWE.. Zmienna losowa i pojęcie rozkładu prawdopodobieństwa W dotychczas rozpatrywanych przykładach każdemu zdarzeniu była przyporządkowana odpowiednia wartość liczbowa. Ta

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych dr inż. Adam Kisiel kisiel@if.pw.edu.pl pokój 117b (12b) 1 Materiały do wykładu Transparencje do wykładów: http://www.if.pw.edu.pl/~kisiel/kadd/kadd.html Literatura

Bardziej szczegółowo

Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne:

Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne: Prosto do matury klasa d Rok szkolny 014/015 WYMAGANIA EDUKACYJNE Wyróżnione zostały następujące wymagania programowe: konieczne (K), podstawowe (P), rozszerzające (R), dopełniające (D) i wykraczające

Bardziej szczegółowo

Wykład 9: Markov Chain Monte Carlo

Wykład 9: Markov Chain Monte Carlo RAP 412 17.12.2008 Wykład 9: Markov Chain Monte Carlo Wykładowca: Andrzej Ruciński Pisarz: Ewelina Rychlińska i Wojciech Wawrzyniak Wstęp W tej części wykładu zajmiemy się zastosowaniami łańcuchów Markowa

Bardziej szczegółowo

S t a t y s t y k a, część 3. Michał Żmihorski

S t a t y s t y k a, część 3. Michał Żmihorski S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2 Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Słowo statystyka pochodzi od łacińskiego słowa status, które oznacza

Bardziej szczegółowo

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna

Bardziej szczegółowo

NOWY PROGRAM STUDIÓW 2016/2017 SYLABUS PRZEDMIOTU AUTORSKIEGO: Wprowadzenie do teorii ekonometrii. Część A

NOWY PROGRAM STUDIÓW 2016/2017 SYLABUS PRZEDMIOTU AUTORSKIEGO: Wprowadzenie do teorii ekonometrii. Część A NOWY PROGRAM STUDIÓW 2016/2017 SYLABUS PRZEDMIOTU AUTORSKIEGO: Autor: 1. Dobromił Serwa 2. Tytuł przedmiotu Sygnatura (będzie nadana, po akceptacji przez Senacką Komisję Programową) Wprowadzenie do teorii

Bardziej szczegółowo

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie

Bardziej szczegółowo

Metoda Johansena objaśnienia i przykłady

Metoda Johansena objaśnienia i przykłady Metoda Johansena objaśnienia i przykłady Model wektorowej autoregresji rzędu p, VAR(p), ma postad gdzie oznacza wektor zmiennych endogenicznych modelu. Model VAR jest stabilny, jeżeli dla, tzn. wielomian

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą 1. Statystyka odczytać informacje z tabeli odczytać informacje z diagramu 2. Mnożenie i dzielenie potęg o tych samych podstawach 3. Mnożenie i dzielenie potęg o tych samych wykładnikach 4. Potęga o wykładniku

Bardziej szczegółowo

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie Zadanie Zbadano satysfakcję z życia w skali 1 do 10 w dwóch grupach rodziców: a) Rodzice dzieci zdrowych oraz b) Rodzice dzieci z niepełnosprawnością

Bardziej szczegółowo

Statystyka Opisowa z Demografią oraz Biostatystyka. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

Statystyka Opisowa z Demografią oraz Biostatystyka. Aleksander Denisiuk. denisjuk@euh-e.edu.pl Statystyka Opisowa z Demografią oraz Biostatystyka TesttStudenta Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka p.

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Rozkłady zmiennych losowych

Rozkłady zmiennych losowych Rozkłady zmiennych losowych Wprowadzenie Badamy pewną zbiorowość czyli populację pod względem występowania jakiejś cechy. Pobieramy próbę i na podstawie tej próby wyznaczamy pewne charakterystyki. Jeśli

Bardziej szczegółowo

O ŚREDNIEJ STATYSTYCZNEJ

O ŚREDNIEJ STATYSTYCZNEJ O ŚREDNIEJ STATYSTYCZNEJ Ryszard Zieliński XII Międzynarodowe Warsztaty dla Młodych Matematyków Rachunek Prawdopodobieństwa i Statystyka Kraków, 20 26 IX 2009 r. WYNIKI OBSERWACJI X 1, X 2,..., X n WYNIKI

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) 6 2 4 5,5 6,6

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) 6 2 4 5,5 6,6 Zad. 1. Zbadano wydajność odmiany pomidorów na 100 poletkach doświadczalnych. W wyniku przeliczeń otrzymano przeciętną wydajność na w tonach na hektar x=30 i s 2 x =7. Przyjmując, że rozkład plonów pomidora

Bardziej szczegółowo

Analiza przeżycia. Wprowadzenie

Analiza przeżycia. Wprowadzenie Wprowadzenie Przedmiotem badania analizy przeżycia jest czas jaki upływa od początku obserwacji do wystąpienia określonego zdarzenia, które jednoznacznie kończy obserwację na danej jednostce. Analiza przeżycia

Bardziej szczegółowo

Generatory takie mają niestety okres, po którym sekwencja liczb powtarza się.

Generatory takie mają niestety okres, po którym sekwencja liczb powtarza się. 1 Wstęp Będziemyrozważaćgeneratorytypux n+1 =f(x n,x n 1,...,x n k )(modm). Zakładamy,żeargumentamifunkcjifsąliczbycałkowitezezbioru0,1,...,M 1. Dla ustalenia uwagi mogą to być generatory liniowe typu:

Bardziej szczegółowo

Zmienna losowa i jej rozkład Dystrybuanta zmiennej losowej Wartość oczekiwana zmiennej losowej

Zmienna losowa i jej rozkład Dystrybuanta zmiennej losowej Wartość oczekiwana zmiennej losowej Zmienna losowa i jej rozkład Dystrybuanta zmiennej losowej Wartość oczekiwana zmiennej losowej c Copyright by Ireneusz Krech ikrech@ap.krakow.pl Instytut Matematyki Uniwersytet Pedagogiczny im. KEN w Krakowie

Bardziej szczegółowo

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny? Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny? Gdy: badana cecha jest mierzalna (tzn. posiada rozkład ciągły); badana cecha posiada rozkład normalny; dysponujemy pojedynczym wynikiem;

Bardziej szczegółowo

Wstęp do analizy matematycznej

Wstęp do analizy matematycznej Wstęp do analizy matematycznej Andrzej Marciniak Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii informatycznych i ich zastosowań w

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA III ZAKRES ROZSZERZONY (90 godz.) , x

WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA III ZAKRES ROZSZERZONY (90 godz.) , x WYMAGANIA EDUACYJNE Z MATEMATYI LASA III ZARES ROZSZERZONY (90 godz.) Oznaczenia: wymagania konieczne (dopuszczający); P wymagania podstawowe (dostateczny); R wymagania rozszerzające (dobry); D wymagania

Bardziej szczegółowo

Metody numeryczne. materiały do wykładu dla studentów

Metody numeryczne. materiały do wykładu dla studentów Metody numeryczne materiały do wykładu dla studentów 4. Wartości własne i wektory własne 4.1. Podstawowe definicje, własności i twierdzenia 4.2. Lokalizacja wartości własnych 4.3. Metoda potęgowa znajdowania

Bardziej szczegółowo

Maria Romanowska UDOWODNIJ, ŻE... PRZYKŁADOWE ZADANIA MATURALNE Z MATEMATYKI

Maria Romanowska UDOWODNIJ, ŻE... PRZYKŁADOWE ZADANIA MATURALNE Z MATEMATYKI Maria Romanowska UDOWODNIJ, ŻE... PRZYKŁADOWE ZADANIA MATURALNE Z MATEMATYKI Matematyka dla liceum ogólnokształcącego i technikum w zakresie podstawowym i rozszerzonym Z E S Z Y T M E T O D Y C Z N Y Miejski

Bardziej szczegółowo

Finansowe szeregi czasowe

Finansowe szeregi czasowe 24 kwietnia 2009 Modelem szeregu czasowego jest proces stochastyczny (X t ) t Z, czyli rodzina zmiennych losowych, indeksowanych liczbami całkowitymi i zdefiniowanych na pewnej przestrzeni probabilistycznej

Bardziej szczegółowo

ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA

ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA DYNAMICZNYCH LOKAT KAPITAŁOWYCH Krzysztof Gąsior Uniwersytet Rzeszowski Streszczenie Celem referatu jest zaprezentowanie praktycznego zastosowania

Bardziej szczegółowo

Rok akademicki: 2013/2014 Kod: AMA-2-311-MN-s Punkty ECTS: 6. Kierunek: Matematyka Specjalność: Matematyka w naukach technicznych i przyrodniczych

Rok akademicki: 2013/2014 Kod: AMA-2-311-MN-s Punkty ECTS: 6. Kierunek: Matematyka Specjalność: Matematyka w naukach technicznych i przyrodniczych Nazwa modułu: teoria ryzyka Rok akademicki: 2013/2014 Kod: AMA-2-311-MN-s Punkty ECTS: 6 Wydział: Matematyki Stosowanej Kierunek: Matematyka Specjalność: Matematyka w naukach technicznych i przyrodniczych

Bardziej szczegółowo

Metody oceny ryzyka operacyjnego

Metody oceny ryzyka operacyjnego Instytut Matematyki i Informatyki Wrocław, 10 VII 2009 Bazylejski Komitet Nadzoru Bankowego Umowa Kapitałowa - 1988 Opracowanie najlepszych praktyk rynkowych w zakresie zarządzania ryzykiem Nowa Umowa

Bardziej szczegółowo

dr inż. Ryszard Rębowski 1 WPROWADZENIE

dr inż. Ryszard Rębowski 1 WPROWADZENIE dr inż. Ryszard Rębowski 1 WPROWADZENIE Zarządzanie i Inżynieria Produkcji studia stacjonarne Konspekt do wykładu z Matematyki 1 1 Postać trygonometryczna liczby zespolonej zastosowania i przykłady 1 Wprowadzenie

Bardziej szczegółowo

Kryteria oceniania z matematyki dla klasy III LO poziom podstawowy, na podstawie programu nauczania DKOS- 5002-05/08

Kryteria oceniania z matematyki dla klasy III LO poziom podstawowy, na podstawie programu nauczania DKOS- 5002-05/08 Kryteria oceniania z matematyki dla klasy III LO poziom podstawowy, na podstawie programu nauczania DKOS- 5002-05/08 1. Oprocentowanie lokat i kredytów - zna pojęcie procentu prostego i składanego; - oblicza

Bardziej szczegółowo

Arkusz maturalny nr 2 poziom podstawowy ZADANIA ZAMKNIĘTE. Rozwiązania. Wartość bezwzględna jest odległością na osi liczbowej.

Arkusz maturalny nr 2 poziom podstawowy ZADANIA ZAMKNIĘTE. Rozwiązania. Wartość bezwzględna jest odległością na osi liczbowej. Arkusz maturalny nr 2 poziom podstawowy ZADANIA ZAMKNIĘTE Rozwiązania Zadanie 1 Wartość bezwzględna jest odległością na osi liczbowej. Stop Istnieje wzajemnie jednoznaczne przyporządkowanie między punktami

Bardziej szczegółowo

Osiągnięcia ponadprzedmiotowe

Osiągnięcia ponadprzedmiotowe W rezultacie kształcenia matematycznego uczeń potrafi: Osiągnięcia ponadprzedmiotowe Umiejętności konieczne i podstawowe czytać teksty w stylu matematycznym wykorzystywać słownictwo wprowadzane przy okazji

Bardziej szczegółowo