Testy statystyczne w ubezpieczeniach komunikacyjnych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Testy statystyczne w ubezpieczeniach komunikacyjnych"

Transkrypt

1 Testy statystyczne w ubezpieczeniach komunikacyjnych Grzegorz Nowicki 2 maja 204

2 Spis treści Wstęp 3 2 Test oparty na regresji liniowej 4 3 Model Poissona i jego rozszerzenia 8 3. Uogólniony rozkład Poissona Mieszany model Poissona Porównanie GP i NB 20 5 Porównanie GP-2 z innymi testami Alternatywne statystyki Symulacja Monte Carlo Przykład numeryczny Dane Wyniki Wnioski 34 Dodatek A 35 Dodatek B - asymptotyczne tempo zbieżności 36 Spis tabel i wykresów 42 Bibliografia 43 2

3 Wstęp Ryzyko jest nieodłącznym aspektem życia każdego człowieka. Pojawia się zarówno w sytuacjach dotyczących podejmowanych przez nas decyzji, jak i tych związanych z codziennym życiem. Istnieje wiele ryzyk, na które jesteśmy narażeni każdego dnia, a jedną z czynności, która je potęguje jest prowadzenie samochodu. W odpowiedzi na naturalną potrzebę spokojnego życia człowieka, gdzie wpływ zjawisk losowych na jego zdrowie i finanse jest minimalizowany, powstały zakłady ubezpieczeń. Koszty szkód związanych z prowadzeniem pojazdów mogą być bardzo wysokie, wiąże się to z wysokimi wartościami poruszających się po drogach pojazdów oraz niebezpieczeństwem utraty zdrowia lub życia w wypadku drogowym. Zasądzane kwoty odszkodowań i rent są mogą zdestabilizować finansowo kierowcę do końca życia. Ponadto, niejednokrotnie nie będzie on w stanie w ogóle pokryć szkód wypadku, który spowodował. Stąd narodził się pomysł obowiązkowych ubezpieczeń od odpowiedzialności cywilnej dla każdego zarejestrowanego pojazdu. Istotą funkcjonowania towarzystwa ubezpieczeń jest zbieranie składek z których następnie pokrywane są szkody spowodowane przez niektórych kierujących. Składka musi być skalkulowana tak, aby zapewnić środki na wypłatę świadczeń wraz z zapewnieniem niezbędnej rezerwy oraz przynieść firmie ubezpieczeniowej zysk. Ustalenie jej wysokości w oparciu o dane historyczne jest zatem jednym z najważniejszych aspektów działalności towarzystwa. W przypadku ubezpieczeń komunikacyjnych wygodnym narzędziem do tego celu jest regresja Poissona. Niestety, zakłada ona, że analizowana zmienna losowa, która jest w tym przypadku liczbą powodowanych wypadków, posiada wartość oczekiwaną równą wariancji. Dane empiryczne zwykle nie wykazują takiej cechy, zwykle wariancja przewyższa średnią, a zjawisko takie nazywa się nadrozproszeniem (ang. overdispersion. Poniższa praca ma celu analizę przedstawionego problemu. W rozdziale drugim opisany został test bazujący na regresji liniowej wraz w wyprowadzeniem statystyki służącej do badania występowania zjawiska nadrozproszenia. Rozdział trzeci przedstawia model Poissona oraz jego uogólnienia służące do pracy z danymi z wysoką wariancją względem średniej. Wyprowadzone są także statystyki pozwalające ocenić przydatność opisanych modeli. W rozdziale czwartym zawarte jest szczegółowe porównanie dwóch rozkładów będących przykładami mieszanego rozkładu Poissona - uogólnionego rozkładu Poissona oraz rozkładu ujemnego dwumianowego. W rozdziale piątym znajduje się zestawienie jednej z wyprowadzonych statystyk z innymi znanymi z literatury testami na zasadzie symulacji komputerowej wraz z analizą wyników. Szósty rozdział zawiera przykład numeryczny oparty na prawdziwych danych ubezpieczeniowych, gdzie porównane zostają wszystkie przedstawione wcześniej modele regresji. 3

4 a stąd definiujemy błąd ε i (Y i µ i 2 Y i αg(µ i + ε i. (3 2 Test oparty na regresji liniowej W modelu regresji liniowej posługiwać się będziemy zestawem danych {(Y i, x i, i, 2,..., n}, gdzie Y i jest zmienną losową (E(Y i <, a x i (x i, x 2 i,..., x k i wektorem zmiennych objaśniających. Dodatkowo zakładamy, że dane te są niezależne dla każdego i. Testować będziemy hipotezę zerową H 0 : E(Y i µ i, V ar(y i µ i ( przeciwko hipotezie alternatywnej H : E(Y i µ i, V ar(y i µ i + α g(µ i, α > 0, (2 gdzie µ i µ(x i, β jest różniczkowalną funkcją o wartościach w R + i własności takiej, że µ(x i, β 0 µ(x i, β β 0 β, a g(µ i : R + R + jest określoną funkcją różniczkowalną. W literaturze zazwyczaj przyjmuje się µ i exp(x i β oraz g(µ i równe, µ i lub µ 2 i. Zakładając prawdziwość hipotezy H i przekształcając równanie (2 otrzymujmemy E (Y i µ i 2 Y i ] αg(µi, Zatem ε i (Y i µ i 2 Y i E (Y i µ i 2 Y i ] jest błędem o następujących parametrach: E(ε i E ( (Y i µ i 2 Y i E ] (Y i µ i 2 Y i E ] ( ] (Y i µ i 2 Y i E E (Yi µ i 2 Y i E ] ] (Y i µ i 2 Y i E (Yi µ i 2 Y i 0 V ar(ε i V ar ( (Y i µ i 2 Y i E (Y i µ i 2 Y i ] V ar (Yi µ i 2 Y i ] E ] (Y i µ i 2 2 ( ] Y i E (Yi µ i 2 2 Y i E ] (Y i µ i 4 2Y i (Y i µ i 2 + Yi 2 (αg(µi 2 E(Y i µ i 4 2E Y i (Y i µ i 2] + E(Y i 2 (αg(µ i 2 V ar(x EX 2 (EX 2 EX 2 V ar(x + (EX 2 4

5 E(Y i µ i 4 2E Y i (Y i µ i 2] + µ i + αg(µ i + µ 2 i (αg(µ i 2 E(Y i µ i 4 2E (Y i µ i + µ i (Y i µ i 2] + µ i + αg(µ i + µ 2 i (αg(µ i 2 E(Y i µ i 4 2E(Y i µ i 3 2µ i E(Y i µ i 2 + µ i + αg(µ i + µ 2 i (αg(µ i 2 E(Y i µ i 4 2E(Y i µ i 3 2µ i (µ i + αg(µ i + µ i + αg(µ i + µ 2 i (αg(µ i 2 E(Y i µ i 4 2E(Y i µ i 3 µ 2 i + µ i 2µ i αg(µ i + αg(µ i (αg(µ i 2. Ostatecznie V ar(ε i E(Y i µ i 4 2E(Y i µ i 3 µ 2 i + µ i 2µ i αg(µ i + αg(µ i (αg(µ i 2, (4 co pokazuje, że jest on heteroskedastyczny - nie posiada stałej wariancji, gdyż jest ona funkcją zależną od momentów zmiennej losowej Y i. Ponieważ wartości µ i nie są obserwowane musimy zastąpić je przez ˆµ i µ(x i, ˆβ, gdzie ˆβ jest dowolnym zgodnym estymatorem wektora parametrów β z błędem rzędu O P (n 2. Wówczas rówananie (3 przyjmuje postać (Y i ˆµ i 2 Y i αg(ˆµ i + ε i + η i. (5 Ponieważ (Y i µ i 2 Y i αg(µ i + ε i, to odejmując stronami otrzymujemy dodatkowy błąd rówany η i (Y i ˆµ i 2 (Y i µ i 2 + αg(µ i αg(ˆµ i 2(Y i (ˆµ i µ i + (ˆµ 2 i µ 2 i + α(g(µ i g(ˆµ i (2(Y i µ i + αg (µ i µ i β ( ˆβ β + O P (n (6 z rozwinięcia w szereg Taylora wyrażenia µ(x i, ˆβ w punkcie µ(x i, β. Z powodu heteroskedastyczności składnika losowego ε i do równania (5 zastosujemy ważoną metodę najmniejszych kwadratów z dodatnimi i skończonymi wagami w 2 i. Przyjmijmy oznaczenia: Z i (Y i ˆµ i 2 Y i X i g(ˆµ i ξ i ε i + η i Wówczas przybierze ono postać typowego równania regresji Z i αx i + ξ i. 5

6 Naszym zadaniem jest estymacja parametru α, co realizujemy poprzez minimalizację wyrażenia wi 2 ξi 2 wi 2 (Z i αx i 2. W tym celu należy policzyć pierwszą pochodną i przyrównać ją do zera: n w 2 i (Z i αx i 2 α 0 2wi 2 (Z i αx i ( X i 0 2wi 2 X i Z i + 2wi 2 αxi 2 0 α n w 2 i X i Z i n w 2 i X 2 i Wracając do pierwotnych oznaczeń otrzymujemy ˆα n wi 2 g(ˆµ i (Y i ˆµ i 2 Y i ] n. (7 wi 2 g 2 (ˆµ i Naszym celem jest zbadanie asymptotycznego rozkładu wyrażenia n(ˆα α przy założeniu prawdziwości H 0 oraz lokalnych hipotez alternatywnych. Zadanie to jest ułatwione, ponieważ dodatkowy błąd η i, który pojawia się przy skorzystaniu z estymatora ˆβ, nie ma wpływu na ten rozkład, gdyż n( ˆβ β ma błąd rzędu O P (. Załóżmy lokalną hipotezę alternatywną H L : α γ n, którą formalnie można zapisać przekształcając równanie (2: H L : E(Y i µ i, V ar(y i µ i + γ n g(µ i, gdzie γ const. Z dodatku A wynika, że jeżeli wagi w i są takie, że poniższe ciągi są zbieżne to lub równoważnie lim n n lim n n wi 2 g 2 (µ i M wi 4 g 2 (µ i σε 2 i M 2 ( n (ˆα α d N 0, M M 2 nˆα ( d N γ, M M 2 pod warunkiem, że n( ˆβ β ma błąd rzędu O P ( przy założeniu H L oraz, że σ 2 ε i V ar H0 (ε i E H0 (Y i µ i 4 2E H0 (Y i µ i 3 µ 2 i + µ i, (8 6

7 gdzie wartość oczekiwana obliczana jest w odniesieniu do nieokreślonej dotąd gęstości Y i przy założeniu prawdziwości H 0. Dla γ 0 równanie (8 prowadzi do następującej statystyki T n w 2 i g(ˆµ i (Y i ˆµ i 2 Y i ] n w 4 i g 2 (ˆµ i ˆσ 2 ε i, (9 gdzie ˆσ ε 2 i jest zgodnym estymatorem wariancji składnika losowego σε 2 i. Jeżeli wagi w i są postaci w(µ i, to µ i możemy zastąpić ˆµ i nie zmieniając przy tym asymptotycznego rozkładu T. Zakładając H 0, statystyka T zbiega według miary do rozkładu N (0, i może zostać użyta do jedno- lub dwustronnych testów na występowanie nadrozproszenia. Wybór wag w i oraz estymatora wariancji ˆσ ε 2 i w równaniu (9 jest zależny od założeń co do rozkładu zmiennej losowej Y i przy założeniu H 0. 7

8 3 Model Poissona i jego rozszerzenia 3. Uogólniony rozkład Poissona Przypuśćmy, że posiadamy informacje na temat próbki liczącej n obserwacji. Każda z nich jest opisana przez p zmiennych objaśniających, co w rezultacie daje nam macierz X rozmiaru n p: X x x 2 x 3... x p x 2 x 22 x x 2p x 3 x 32 x x 3p x n x n2 x n3... x np Ponadto, mamy wektor zmiennych objaśnianych Y (Y, Y 2,..., Y n, gdzie zmienne Y i, Y j są niezależne i mają jednakowy rozkład dla dowolnych i j. Najpopularniejszym modelem regresji dla danych zliczających (ang. count data jest model regresji Poissona, w którym funkcją łączącą zmienne objaśniające ze zmienną objaśnianą jest funkcja logarytmiczna, a funkcja masy prawdopodobieństwa jest postaci f(y i ; θ i θy i i y i! e θ i, y i 0,, 2,..., θ i > 0. Po odwróceniu funkcji łączącej otrzymujemy zależność E(Y i exp(x i β, gdzie x i jest wektorem zmiennych objaśniających dla danej obserwacji, a β wektorem nieznanych parametrów, które należy wyestymować. W przypadku występowania nadrozproszenia w analizowanych danych możemy posłużyć się uogólnionym rozkładem Poissona (ang. generalized Poisson distribution - GP o następującej funkcji masy prawdopodobieństwa f(y i ; θ i, κ θ i(θ i + κy i yi e θ i κy i, y i 0,, 2,... (0 y i! gdzie θ i > 0 i max(, θ i < κ <. Z pracy Joe and Zhu (2005 wiemy, że 4 µ i E(Y i θ i κ, V ar(y i θ i ( κ 3 ( κ E(Y i φe(y 2 i. ( W tym przypadku składnik φ pełni funkcję czynnika rozproszenia. Jeżeli κ 0, to ( k 2 uogólniony rozkład Poissona redukuje się do zwykłego rozkładu Poissona z parametrem θ i. W przypadku gdy κ < 0 mamy do czynienia z podrozproszeniem, a gdy κ > 0 z nadrozproszeniem. Opierając się na uogólnionym rozkładzie Poissona możemy wprowadzić do modelu regresji dwie parametryzacje. W pierwszej, przedstawionej w pracach Consul (989 oraz Consul and Famoye (992, jako funkcję łączącą przyjmujemy funkcję logarytmiczną θ i p ln µ i ln κ x ir β r, (2 r 8

9 gdzie x ir jest i-tą obserwacją r-tej zmiennej niezależnej, p jest liczbą zmiennych niezależnych w modelu, β r jest r-tym parametrem regresji. Stosując podstawienie θ i ( κµ i z równania ( otrzymujemy model regresji GP- P (Y i y i x i, β, κ (( κµ i + κy i y i ( κµ i y i! ze średnią E(Y i µ i exp(x i β i wariancją V ar(y i φµ i. exp( ( κµ i κy i, y i 0,, 2,... (3 Drugą możliwą parametryzacją, wprowadzoną w pracy Wang and Famoye (997, jest model regresji GP-2 postaci P (Y i y i x i, β, ϕ yi ( + ϕy i y ( i exp µ i( + ϕy i, y i 0,, 2,... (4 + ϕµ i y i! + ϕµ i ( µi ze średnią E(Y i µ i exp(x i β i wariancją V ar(y i µ i (+ϕµ i 2. W równaniu (4 ϕ jest stałą i jeżeli przyjmuje ona wartości mniejsze od zera (przypadek podrozproszenia, to musi ona spełniać nierówności + ϕµ i > 0 oraz + ϕy i > 0, czyli na przykład spełniać warunek ϕ > min(, max(µ i max(y i. ϕ nazywamy parametrem rozproszenia i może być on estymowany równocześnie ze współczynnikami modelu regresji GP-2 w równaniu (4. Dla ϕ 0 model ten redukuje się do zwykłego modelu Poissona. Oba modele regresji GP- i GP-2 są zatem naturalnymi rozszerzeniami modelu regresji Poissona. Główne różnice różnice między nimi to: a zależność między wartością oczekiwaną i wariancją w modelu GP- jest liniowa, podczas gdy w modelu GP-2 zależność ta ma charakter sześcienny, b parametr κ jest stały w równaniu (3, ale jeżeli podstawimy κ ϕµ i +ϕµ i i θ µ i +ϕµ i model regresji GP- przekształci się do postaci modelu GP-2. to Badanie występowania nadrozproszenia w analizowanych danych możemy zatem sprowadzić do porównania dwóch modeli regresji: Poissona i GP-. Postawmy hipotezę zerową H 0 : κ 0 (5 przeciwko hipotezie alternatywnej H : κ > 0. (6 Statystyka do badania nadrozproszenia ma postać S( ˆβ n ( (yi ˆθ i 2 y i, (7 2n ˆθ i gdzie ˆθ i jest estymatorem wyznaczonym z modelu Poissona. Powyższa statystyka ma rozkład N (0,. W celu jej wyprowadzenia posłużymy się nierównością Craméra - Rao. 9

10 Twierdzenie (Craméra - Rao Niech Z (Z,..., Z n będzie próbą w modelu regularnym oraz niech g(θ będzie funkcją parametryczną oraz T T (Z ENg(θ]. Jeśli to gdzie g (θ d dθ E θ T (Z ] V ar T (Z ] g (θ] 2 I n (θ, X n T (z θ f θ(zdλ n (z, ENg(θ] - zbiór wszystkich estymatorów nieobciążonych funkcji parametrycznej g(θ posiadających skończoną wariancję, I n (θ - informacja Fishera z próby Z. Bazując na równaniu 0 zapisujemy logarytm wiarygodności modelu ( n l ln(l ln P (y i θ i, κ ln(p (y i θ i, κ Przekształcając równanie 2 otrzymujemy skąd obliczamy pochodne (ln θ i + (y i ln(θ i + κy i (θ i + κy i ln y i!. θ i ( κ exp(x i β, θ i β r ( κx ir exp(x i β θ i x ir, θ i κ exp(x i β ( κ exp(x i β θ i κ κ. Do wyznaczenia macierzy informacji Fishera należy wyznaczyć wszystkie możliwe pochodne drugiego rzędu funkcji l: l β r l θ i θ i β r ] + (y i θ i x ir θ i θ i + κy i + θ i(y i θ i + κy i θ i ] x ir l n κ θ i ( θ i + y ( i θ i κ θ i + κy i κ + y i + θ ] i κ y i κ θ i (y i (θ i + κy i ( κ + y i(y i + θ ] i θ i + κy i κ y i yi (y i y i ( + θ ] i(y i θ i θ i + κy i κ θ i + κy i 0

11 β r β s ] (yi (θ i + κy i θ i (y i θ (θ i + κy i 2 i x ir x is ] yi (y i κ (θ i + κy i θ 2 i x ir x is n ( ( κ y 2 i (y i θ i (θ i + κy i 2 κ + y i + κ β r { ( ( ( κ ( + θ i(y i θ 2 i + θ i + κy i + θ i (y κ i (θ i + κy i θ i (y i ( θ i + y κ i κ (θ i + κy i 2 ( y i (y i θ i (θ i + κy i 2 ( κ y2 i (y i (θ i + κy i 2 θ i ( κ θ i(y i (θ i + κy i 2 ( κ 2 (θ i + κy i θ ( i(y i θ i + y κ i + 2 (θ i + κy i 2 ( κ ( y i yi θ i (θ i + κy i 2 κ θ y2 i 2 i ( κ + θ ] iy i 2 κ ( κ 2 y ( 2 i y 2 θ i (θ i + κy i 2 i 2y i κ + θi + κ ( κ 2 y ( i y (θ i + κy i 2 i θ 2 i + κ ( κ 2 ( y i (y i ( θ i κ ( κ + θ i (y i 2 ( κ 2 (θ i + κy i + }] ] θ i ( κ 2 ( ] (yi (θ i + κy i θ i (y i θ (θ i + κy i 2 κ (θ i + κy i 2 i x ir y i(y i (θ i + κy i (y i θ i + (y i κy i θ i (y i + ] θ 2 ( κ(θ i + κy i 2 i x ir κ ( κy i(y i (y i κy i + ] θ ( κ(θ i + κy i 2 i x ir κ ] yi (y i κy i (y i (y i κy i θ i (θ i + κy i 2 κ x ir ] yi (y i (θ i + κy i θ i 2 κ x ir

12 Macierz informacji Fishera dla funkcji l ma następującą postać I (β, κ o elementach ( ( ( ( β 2 β β 2 β β 3... ( β 2 β ( ( ( β2 2 β 2 β 3... ( ( β 3 β β 3 β 2 (... ( β ( ( ( ( β p β β p β 2 β p β 3... βp 2 ( κ β ( κ β 2 ( κ β 3 β β p β 2 β p β 3 β p... ( κ β p ( 2 ( l E y ] i(y i κ θ β r β s (θ i + κy i 2 i x ir x is ( β κ ( β 2 κ ( β 3 κ. ( β p κ ( κ 2 ( 2 l κ 2 E y i (θ i + κy i 2 ( 2 ( l 2 l β r κ κ β r Gradient funkcji l dany jest wzorem ( y i E θ 2 i + κ ( κ 2 ] yi (y i (θ i + κy i 2 θ i κ x ir gdzie ( l U(β, κ T ( ˆβ, ˆβ 2,..., ˆβ p,0, l,..., l, l (0, 0,..., 0, β β 2 β p κ Ûκ, ( ˆβ, ˆβ 2,..., ˆβ p,0 Û κ l n ( κ yi (y i y ( ˆβ, ˆβ 2,..., ˆβ i + ˆθ ] i (y i p,0 ˆθ i ˆθ ˆθ i i y 2 i y i ˆθ i y i ˆθ i y iˆθi + ˆθ i + ˆθ 2 i ˆθ i (y i ˆθ i 2 y i ˆθ i. (y i 2y iˆθi + ˆθ 2 i y i ˆθ i W celu wyznaczenia estymatorów największej wiarygodności ˆβ parametrów β, β 2,..., β p należy rozwiązać układ p równań wiarygodności korzystając w wyprowadzonych wcześniej wzorów: l β 0 l β 2 0. l β p 0 Jeżeli zmienna losowa Y ma rozkład Poissona z parametrem λ to jej kolejne momenty zwykłe są odpowiednio równe: EY λ, EY 2 λ 2 + λ, 2

13 EY 3 λ 3 + 3λ 2 + λ. Przy założeniu hipotezy zerowej elementy macierzy I ( ˆβ, 0 mają postać ( 2 ( l n β r β θ s ( ˆβ, ˆβ 2,..., ˆβ i x ir x is E y ] i(y i κ p,0 (θ i + κy i 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ] yi (y i ˆθ i x ir x is ( κe (θ i + κy i n ˆθ 2 ( ˆβ, ˆβ 2,..., ˆβ i x ir x is p,0 ( 2 ( l n ] β r κ θ i ( ˆβ, ˆβ 2,..., ˆβ p,0 κ x yi (y i ir E (θ i + κy i 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ( 2 l κ 2 ˆθ i x ir E ( ˆβ, ˆβ 2,..., ˆβ p,0 ] yi (y i (θ i + κy i 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ˆθ i x ir E(y 2 i E(y i θ 2 i ˆθ i x ir θ 2 i + θ i θ i θ 2 i E y i (θ i + κy i 2 ( ] ( ˆβ, ˆβ 2,..., ˆβ p,0 ] ( ˆβ, ˆβ 2,..., ˆβ p,0 0 y i θ 2 i + κ ( ( κ 2 ˆβ, ˆβ 2,..., ˆβ p,0 co daje (yi (y i θ i 2 ( E + ] θ i 2 ˆβ, ˆβ 2,..., ˆβ p,0 (yi (yi 2 2y i θ i + θi 2 ( E + ] θ i 2 ˆβ, ˆβ 2,..., ˆβ p,0 E(y 3 i 2θ i E(yi 2 + θi 2 E(y i E(yi 2 + 2θ i E(y i θi 2 θ 2 i θi 2 θ 3 i + 3θ 2 i + θ i 2θ 3 i 2θ 2 i + θ 3 i θ 2 i θ i + 2θ 2 i θ 2 i θ 2 i + ] ( ˆβ, ˆβ 2,..., ˆβ p,0 2n θ 2 i + ] ( ˆβ, ˆβ 2,..., ˆβ p,0 + ] ( ˆβ, ˆβ 2,..., ˆβ p,0 n ˆθi x 2 n i ˆθi x i x i2... n ˆθi x i x ip 0 n ˆθi x i2 x n i ˆθi x 2 i2... n ˆθi x i2 x ip n ˆθi x ip x i n ˆθi x ip x i2... n ˆθi x 2 ip n X T diag(ˆθx 0 0 2n 3

14 gdzie diag(ˆθ Macierz odwrotna do I ( ˆβ, 0 ma postać ˆθ ˆθ ˆθ ˆθn I ( ˆβ, 0 X T diag(ˆθx ] 0 0 (2n Na mocy twierdzenia Cramera-Rao statystyka S( ˆβ (2n Û κ jest asymptotycznie efektywna, co tłumaczy wybór (7. Analogicznie, sprawdzanie występowaia nadrozproszenia w modelu regresji Poissona względem modelu GP-2 jest równoznaczne z testowaniem hipotezy zerowej H 0 : ϕ 0 (8 przeciwko hipotezie alternatywnej H : ϕ > 0. (9 Statytyka testowa w tym przypadku będzie postaci S ( ˆβ ( n ((y i ˆµ i 2 y i 2 n, (20 2ˆµ 2 i gdzie ˆµ i jest estymatorem wyznaczonym z modelu Poissona. Przy założeniu hipotezy zerowej, która mówi, że analizowane dane dobrze wyjaśnia model Poissona, powyższa statystyka ma rozkład graniczny chi-kwadrat z jednym stopniem swobody. Alternatywnie możemy ją zapisać jako S 2 ( ˆβ n ((y i ˆµ i 2 y i 2, (2 n ˆµ 2 i skąd widać, że ma ona rozkład N (0,. Wyprowadzenie wzoru statystyki GP-2 jest analogiczne do GP-. Bazując na równaniu 4 zapisujemy logarytm wiarygodności modelu ( n l ln(l ln P (y i µ i, ϕ ln(p (y i µ i, ϕ ( µi y i ln + (y i ln( + ϕy i µ ] i( + ϕy i ln y i!. + ϕµ i + ϕµ i Przekształcając równanie 2 otrzymujemy µ i exp(x i β, 4

15 skąd obliczamy pochodną µ i β r x ir exp(x i β x ir µ i. Do wyznaczenia macierzy informacji Fishera należy wyznaczyć wszystkie możliwe pochodne drugiego rzędu funkcji l: l l µ i + ϕµ i ( + ϕµ i µ i ϕ y i ( + ϕy ] i( + ϕµ i ϕµ i ] x β r µ i β r µ i ( + ϕµ i 2 ( + ϕµ i 2 ir µ i ] + ϕµ i ϕµ i yi ( + ϕµ i ( + ϕy ( + ϕµ i 2 i x ir µ i µ i ] yi + ϕµ i y i µ i ϕµ i y i y i µ i x ( + ϕµ i 2 ir µ i µ i ( + ϕµ i x 2 ir l n ϕ β r β s ( + ϕµ i µ 2 ] i y i ( + ϕµ i ( + ϕy i µ i y i + (y µ i ( + ϕµ i 2 i y i µ i + ϕy i ( + ϕµ i 2 y iµ i + y i(y i µ ] i(y i µ i + ϕµ i + ϕy i ( + ϕµ i 2 ( + ϕµ i 2 (y i µ i 2( + ϕµ i ϕ ( + ϕµ i 4 x ir µ i x is n ϕ 2 β r ϕ + ϕµ i + 2ϕy i 2ϕµ i µ ( + ϕµ i 3 i x ir x is y i µ 2 ] i ( + ϕµ i y2 i (y i 2 ( + ϕy i + 2µ2 i (y i µ i 2 ( + ϕµ i 3 y2 i (y i ( + ϕy i + y iµ 2 i + ϕy i µ 3 i + 2µ 2 i y i 2µ 3 ] i 2 ( + ϕµ i 3 3yi µ 2 i + µ 3 ] i (ϕy i 2 y2 i (y i ( + ϕµ i 3 ( + ϕy i 2 2 l ϕ β r 2(y i µ i µ i ( + ϕµ i 3 x ir ( + 2ϕy i ϕµ i µ i ( + ϕµ i 3 x ir x is Macierz informacji Fishera dla funkcji l ma następującą postać I (β, ϕ: ( ( ( ( β 2 β β 2 β β 3... ( β 2 β ( ( ( β2 2 β 2 β 3... ( ( β 3 β β 3 β 2 (... ( β ( ( ( ( β p β β p β 2 β p β 3... βp 2 ( ϕ β ( ϕ β 2 β β p β 2 β p β 3 β p ( ( ϕ β 3... ϕ β p ( β ϕ ( β 2 ϕ ( β 3 ϕ. ( β p ϕ ( ϕ 2 5

16 o elementach ( 2 l E β r β s ( 2 l ϕ 2 Gradient funkcji l dany jest wzorem gdzie E ( 2 ( l 2 l β r ϕ ϕ β r ] ( + 2ϕyi ϕµ i µ i x ( + ϕµ i 3 ir x is 3yi µ 2 i + µ 3 ] i (ϕy i 2 y2 i (y i ( + ϕµ i 3 ( + ϕy i 2 E ] 2(yi µ i µ i ( + ϕµ i x 3 ir ( l U(β, ϕ T ( ˆβ, ˆβ 2,..., ˆβ p,0, l,..., l, l (0, 0,..., 0, β β 2 β p ϕ Ûϕ, ( ˆβ, ˆβ 2,..., ˆβ p,0 Û ϕ l ϕ n y ( ˆβ, ˆβ 2,..., ˆβ p,0 iˆµ i + y i (y i ˆµ i (y i ˆµ i ] yi 2 2y iˆµ i + ˆµ 2 i y i ] (y i ˆµ i 2 y i ]. y iˆµ i + yi 2 y i ˆµ i y i + ˆµ 2 i ] W celu wyznaczenia estymatorów największej wiarygodności ˆβ parametrów β, β 2,..., β p należy rozwiązać układ p równań wiarygodności korzystając w wyprowadzonych wcześniej wzorów: l β 0 l β 2 0. l β p 0 Jeżeli zmienna losowa Y ma rozkład Poissona z parametrem λ to jej kolejne momenty zwykłe są odpowiednio równe: EY λ, EY 2 λ 2 + λ, EY 3 λ 3 + 3λ 2 + λ. Przy założeniu hipotezy zerowej elementy macierzy I ( ˆβ, 0 mają postać ( 2 ( l n ] β r β ( + 2ϕyi ϕµ i µ i x s ( ˆβ, ˆβ 2,..., ˆβ ir x is E p,0 ( + ϕµ i 3 ( ˆβ, ˆβ 2,..., ˆβ p,0 x ir x is E(µ i ( n ˆµ ˆβ, ˆβ 2,..., ˆβ i x ir x is p,0 6

17 ( 2 ( l n ] β r ϕ 2(yi µ i µ i E ( ˆβ, ˆβ 2,..., ˆβ p,0 ( + ϕµ i x 3 ir ( ˆβ, ˆβ 2,..., ˆβ p,0 ( 2 ( l ϕ E 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ( 2µi x ir ( + ϕµ i Ey 3 i µ i ] ( ˆβ, ˆβ 2,..., ˆβ p,0 2ˆµ i x ir E(y i E(µ i ] ( ˆβ, ˆβ 2,..., ˆβ p,0 2ˆµ i x ir µ i µ i ] ( ˆβ, ˆβ 2,..., ˆβ p,0 0 3yi µ 2 i + µ 3 ] i (ϕy i 2 y2 i (y i ( + ϕµ i 3 ( + ϕy i 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 co daje ( 3µ 2 i E(y i + µ 3 i ( 2 E(yi 3 + E(yi 2 ( ˆβ, ˆβ 2,..., ˆβ p,0 ( 3µ 3 i 2µ 3 i (µ 3 i + 3µ 2 i + µ i + (µ 2 i + µ i ( ˆβ, ˆβ 2,..., ˆβ p,0 2ˆµ 2 i n ˆµ i x 2 n i ˆµ i x i x i2... n ˆµ i x i x ip 0 n ˆµ i x i2 x n i ˆµ i x 2 i2... n ˆµ i x i2 x ip n ˆµ i x ip x i n ˆµ i x ip x i2... n ˆµ i x 2 ip n 2ˆµ 2 X T diag(ˆµx 0 0 n 2ˆµ 2 i Macierz odwrotna do I ( ˆβ, 0 ma postać I ( ˆβ, 0 X T diag(ˆµx ] 0 ( n 0 2 ˆµ 2 i Na mocy twierdzenia Cramera-Rao otrzymana statystyka S ( ˆβ ( n 2ˆµ 2 i Û 2 ϕ jest asymptotycznie efektywna, co tłumaczy wybór (20. Równania (7 i (2 zawierają dwie postacie statystyk służacych do przeprowadzenia testów na występowanie nadrozproszenia na zasadzie porównania modelu regresji Poissona z jego dwoma uogólnieniami GP- i GP-2. W przypadku, gdy chcemy sprawdzić, czy model Poissona jest odpowiedni dla danych o wariancji przewyższającej średnią, należy użyć statystyki 7

18 S ( ˆβ do obustronnego testu χ 2 na występowania nad- lub podrozproszenia. W przypadku, gdy zależy nam jedynie na zbadaniu istnienia nadrozproszenia tak jak stanowią hipotezy (6 i (9, powinno się użyć statystyki S 2 ( ˆβ do jednostronnego testu χ 2. Opierając się na nim, możemy odrzucić model Poissona na poziomie istotności α, jeżeli S 2 ( ˆβ jest większe od 00( α-tego percentyla standardowego rozkładu normalnego. Test ten zostanie szerzej zaprezentowany w rozdziale Mieszany model Poissona Inną modyfikacją rozkładu Poissona jest mieszany rozkład Poissona, również charakteryzujący się własnością nadrozproszenia. Otrzymuje się go poprzez przemnożenie pierwotnego parametru przez zmienną losową, co nakłada na niego efekt losowy będący skutkiem indywidualnej tendencji każdego kierowcy do powodowania wypadków. Wartość oczekiwana tej zmiennej losowej musi być równa, aby nie zmienić średniej całego rozkładu, a jedynie wpłynąć na jego strukturę w celu lepszego dopasowania do danych rzeczywistych. Definicja Zmienna losowa N ma mieszany Poissona z parametrem λ oraz poziomem ryzyka Θ (EΘ], co oznaczamy N M P oiss(λ, Θ, jeżeli jej funkcja masy prawdopodobieństwa ma postać gdzie: P N k] Ep(k; λθ] 0 exp( λθ (λθk df Θ (θ, k! k0,,... - liczba roszczeń zgłaszanych przez klientów przy uwzględnieniu rozkładu warunkowego Θ, Θ - nałożony efekt losowy będący dodatnią zmienną losową, F Θ - dystrybuanta względem zmiennej losowej Θ. Własności mieszanego rozkładu Poissona: Wartość oczekiwana EN] E EN Θ θ] ] 0 0 Wariancja EN 2 ] ( exp( λθ 0 k0 k (λθk k0 k! k exp( λθ (λθk df Θ (θ k! df Θ (θ exp( λθ (λθ exp(λθ ] df Θ (θ 0 0 (λθ+λ 2 Θ 2 df Θ (θ λeθ]+λ 2 EΘ 2 ]. 0 ( (λθ(λθ k exp( λθ df Θ (θ k! k0 λθ df Θ (θ λeθ] λ. V arn] EN 2 ] (EN] 2 λeθ]+λ 2 EΘ 2 ] λ 2 (EN] 2 λ+λ 2 V arθ]. 8

19 Skąd wyraźnie widać przewagę wariancji nad wartością oczekiwaną Twierdzenie 2 (Nierówność Jensena V arn] λ + λ 2 V arθ] λ EN] Niech g będzie funkcją wypukłą, a X całkowalną zmienną losową taką, że E g(x <. Wówczas g(ex Eg(X]. Korzystając z powyższej nierówności otrzymujemy P N 0] 0 ( exp( λθdf Θ(θ exp λθdf Θ(θ exp( λ P Y 0], 0 gdzie zmienna losowa Y ma rozkład Poissona z parametrem λ. Powyższa nierówność ilustruje drugą ważną cechę mieszanego rozkładu Poissona - większą w porównaniu do tradycyjnego rozkładu Poissona koncentrację w zerze. Taka sytuacja również znajduje swoje odniesie do rzeczywistości, gdyż drobne szkody zwykle nie są zgłaszane do zakładu ubezpieczeń. Jest to spowodowane powszechnie przyjętą polityką zniżek Bonus-malus, zgodnie z którą kierowcy charakteryzujący się niższą szkodowością płacą niższe składki. Nie opłaca się zatem zgłaszać małych szkód, których koszt pokrycia z własnych środków sprawcy byłby niższy od sumarycznej kwoty utraconych w kolejnych latach zniżek. Występowanie w obu opisanych w tym rozdziale rozkładów cechy nadrozproszenia nasuwa pytanie, czy uogólniony rozkład Poissona jest szczególnym przypadkiem mieszanego rozkładu Poissona z konkretną funkcją randomizującą Θ. Okazuje się, że jest prawda, o czym stanowi poniższe twierdzenie. Twierdzenie 3 (Joe - Zhu Uogólniony rozkład Poissona dany wzorem (0 jest mieszanym rozkładem Poissona. Opis tego twierdzenia wraz z dowodem można znaleźć w pracy Generalized Poisson Distribution: the property of Mixture of Poisson and Comparison with Negative Binomial Distribution autorstwa H. Joe, R. Zhu z 2005 roku. 9

20 4 Porównanie GP i NB W rozdziale tym omówione zostaną różnice pomiędzy dwoma rozkładami, w których występuje przewaga wariancji nad wartością średnią - uogólnionym rozkładem Poissona GP danym wzorem (0 oraz rozkładem dwumianowym ujemnym NB (ang. negative binomial. Porównanie dotyczyć będzie w głównej mierze ich funkcji rozkładu prawdopodobieństwa oraz ich skośności. Oczywisty jest fakt, że nie ma sensu porównywanie konkretnie ustalonego uogólnionego rozkładu Poissona z innym ustalonym rozkładem dwumianowym ujemnym. Aby z owego zestawienia wypłynęły miarodajne wyniki, musimy ustalić pewne cechy wspólne dla obu tych rozkładów. Ponieważ zarówno jeden jak i drugi posiadają po dwa parametry, ustalimy ich pierwsze dwa momenty centralne bądź, równoważnie, średnią i wariancję. Niech f NB oraz f GP oznaczają funkcje masy prawdopodobieństwa odpowiednio ujemnego rozkładu dwumianowego oraz uogólnionego rozkładu Poissona, a µ i σ 2 ich średnią i wariancję. Rozkład prawdopodobieństwa NB(r, p dany jest wzorem f NB (x; r, p Γ(r + xpr ( p x, x 0,, 2,... Γ(rx! i jest to mieszany rozkład Poissona, gdzie funkcją randomizującą średnią jest rozkład Gamma Γ(r, p. Średnia i wariancja tego rozkładu dane są wzorami q µ r( p, σ 2 p r( p p 2, skąd można wyznaczyć uzależnione od średniej i wariancji parametry rozkładu p µ σ 2, r µp p µ2 σ 2 µ. Oznacza to, że istnieje suriekcja działająca z (µ, σ 2 na (r, p dla σ 2 > µ > 0 i r > 0, p > 0. Dla uogólnionego rozkładu Poissona GP(θ, κ mamy µ θ κ, σ θ ( κ 3 ( κ 2 µ σ 2. Stąd ponownie wyznaczyć można parametry w zależności od przyjętej średniej i wariancji κ µ σ 2, θ µ( κ µ µ σ 2. Także w tym przypadku istnieje suriekcja (µ, σ 2 (θ, κ dla σ 2 > µ > 0 i 0 < κ <, θ > 0. Przyjmijmy, że średnia µ oraz wariancja σ 2 są ustalone i równe dla obu rozkładów GP(θ, κ i NB(r, p. Iloraz funkcji masy prawdopodobieństwa jest równy f NB (x; r, p f GP (x; θ, κ Γ(r + / xpr ( p x Γ(rx! / θ(θ + κx x e θ κx x! 20

21 gdzie x 0,,.... Niech D σ2 µ x 0 mamy f NB (0; r, p f GP (0; θ, κ Γ ( µ 2 σ 2 µ + x ( µ µ 2 ( σ 2 µ σ µ 2 σ 2 x / Γ ( µ σ 2 µ µ µ σ 2 ( µ µ σ 2 + µ σ 2 ] x x exp µ µ σ 2 ( µ σ 2 x ], ( µ σ 2 µ σ 2 µ e µ µ σ 2 będzie współczynnkiem dyspersji. Ponieważ D >, to dla ] D µ D µ exp D exp µ D Obliczając pochodną dla wyrażenia ( D 2 D 2 ln D, otrzymujemy 2 D D 3 2 D ( 2 D 2 D 2 2 > 0. ( D 2 D 2 ] ln D ]. Skutkiem powyższego jest fakt, że ( D 2 D 2 ln D jest dodatnie dla D >, ponieważ funkcja ta ma granicę równą 0 gdy D. W konsekwencji f NB (0; r, p > f GP (0, θ, κ, co oznacza, że przy ustalonych µ, σ 2, rozkład ujemny dwumianowy jest bardziej skoncentrowany w zerze, aniżeli uogólniony rozkład Poissona. Co więcej, stosunek funkcji masy obu rozkładów w zerze rośnie wraz ze zwiększanie się średniej µ przy stałym D. Dla x zachodzi µ f NB (; r, p µ f GP (; θ, κ D D D ( D µd 2 exp µd 2 ( ] D 2 ( D 2 exp D 2 exp µ ( D 2 D 2 ln D. D Gdy µ 0 iloraz funkcji rozkładu zbiega do D 2 e D 2 <, ponieważ ln D + ( D 2 2 < 0. W tym przypadku, wartość modalna ujemnego rozkładu dwumianowego jest równa 0. Wraz ze wzrostem µ ponad wartość (D ln D / 2 ( D 2 D 2 ln D ], stosunek obu funkcji przekroczy wartość, co oznaczać będzie większą koncentrację rozkładu NB w punkcie x. Dla x 2 ponownie zapisujemy stosunek obu funkcji przy użyciu zmiennych µ i D f NB (x; r, p f GP (x; θ, κ µ(d + x ]... µ(d ]D µ(d ( D x µd 2 µd 2 + ( ] D x 2 x exp µd 2 ( ] D 2 x ( x µ(d + i] ( D x C µd 2 + ( ] D x ( ], 2 x exp D 2 x gdzie C jest pewną stałą. Ponieważ podobna weryfikacja jest niemożliwa dla wszystkich x, skupimy się na obserwacji ogonów obu rozkładów dla dostatecznie dużych x. Korzystając z przybliżenia Stirlinga x! x x+ 2 e x oraz nierówności ln( +y y < 0 (dla y > 0 otrzymujemy 2

22 f NB (x; r, p f GP (x; θ, κ x x+ 2 e x ( D x ( D x 2 xx exp ( ] x ( 2 + D x 2 D 2 x exp ] xd 2 x 2 exp x ( ln + D 2 ] D 2 ] 0, gdy x. Wynika z tego, że uogólniony rozkład Poissona ma cięższy ogon w porównaniu do rozkładu ujemnego dwumianowego. Następnym krokiem będzie porównanie graficzne porównanie obu rozkładów dla różnych wartości µ oraz D. Dla średniej przyjęto wartości 0,5, 5, 5 oraz 25, a współczynnik dyspersji D jest równego kolejno,5, 0 i 30. Przypadki dla dużych średnich µ > 30 oraz umiarkowanej wariancji D < 0 zostały pominięte, gdyż w tych przypadkach zarówno rozkład GP jak i NB jest zbliżony kształtem do rozkładu normalnego. Przedstawione na wykresie funkcje zostały podzielone względem średniej oraz współczynnika dyspersji. Wykresy zawarte w jednym rzędzie mają taką samą wartość µ, z kolei te znajdujące się w tej samej kolumnie mają identyczne D. 22

23 Wykres. Porównanie funkcji masy prawdopodobieństwa rozkładów GP i NB. Ciągłą linią oznaczono uogólniony rozkład Poissona, przerywaną rozkład ujemny dwumianowy. Funkcje w rzędach -4 mają średnie odpowiednio µ 0,5, µ 5, µ 5 i µ 25. W kolumnach -3 współczynnik rozproszenia jest równy kolejno D, 5, D 0 oraz D 30. Źródło: Generalized Poisson distribution: the property of mixture of Poisson and comparison with negative binomial distribution, Biometrical Journal, 2005, (s W przypadku funkcji masy prawdopodobieństwa rozkładów o bardzo niskiej średniej widzimy, że nie ma między nimi zauważalnej różnicy dla wszystkich D z zakresu do 30. Identyczna sytuacja ma miejsce w przypadku niewielkiego rozproszenia rozkładu, gdy współczynnik dyspersji jest równy,5. Gdy µ nie jest bardzo małe, różnice między rozkładami stają się widoczne i zwiększają się wraz ze wzrostem parametru D. Ponadto, dominanta ujemnego rozkładu dwumianowego jest mniejsza bądź równa tej z uogólnionego rozkładu Poissona. Ponieważ moda rozkładu NB(r,p jest równa r( p + µ D + widzimy, że jest ona równa 0, gdy p D > µ. Wynika z tego, że rozkład ujemny dwumianowy może mieć malejącą funkcję masy prawdopodobieństwa, podczas gdy GP ma unimodalną funkcję rozkładu. Kolejną cechą obu rozkładów, którą poddamy analizie będzie ich skośność. Tak jak powyżej, ustalamy dla modeli GP i NB taką samą średnią µ oraz wariancję σ 2. Przyjmijmy oznaczenie µ k EX k oraz niech G(s E(s X będzie funkcją tworzącą prawdopodobieństwo. Skośność definiujemy jako E(X µ 3 µ 3 3µ µ 2 + 2µ 3, gdzie µ G (, µ 2 G ( + µ, µ 3 G ( + 3µ 2 2µ. Jeżeli dany rozkład jest mieszanym rozkładem Poissona ze zmienną losową Λ, to możemy użyć następujących podstawień (Joe and Zhu, 2005: µ EX EΛ, µ 2 EX 2 E(Λ 2 + Λ, µ 3 EX 3 E(Λ 3 + 3Λ 2 + Λ, E(Λ µ 3 E(X µ 3 3V ar(x + 2µ. GP(θ, κ : Niech κ κ. µ θ κ, µ 2 θ(θκ + κ 3 (22 (, µ 3 θκ 3 θ 2 κ 2 + 3θκ 2κ + 3, E(X µ 3 θκ 5 (3 2κ θκ 5 ( + 2κ σ2 ( ( 3σ 2 2σµ 2 µd 3D 2D 2. µ NB(r, p : Niech q p. G(s ] r p, µ rq qs p, µ 2 23 rq( + rq p 2,

24 µ 3 rq(r2 q 2 + 3rq + q +, E(X µ p 3 3 rq( + q p 3 Odejmując od siebie otrzymane wartości otrzymujemy σ2 µ (2σ2 µ µd(2d. µd ( 3D 2D 2 µd(2d µd ( D 2 2 > 0, skąd wyraźnie widać, że uogólniony rozkład Poissona ma większą skośność, niż rozkład dwumianowy ujemny w przypadku, gdy oba mają takie same pierwsze dwa momenty zwykłe. Istotny jest fakt, że wraz ze wzrostem współczynnika D, rośnie także wartość różnicy skośności obu rozkładów. Ponadto, w każdym z przypadków skośność jest wprost proporcjonalna do µ, a różnica między nimi zwiększa się w przypadku wzrostu średniej. W trakcie analizy danych empirycznych bardzo ważną czynnością jest sprawdzenie, który z rozkładów jest lepiej dopasowany do posiadanych obserwacji. Z powyższych rozważań wynika, że rozkład dwumianowy ujemny znajdzie zastosowanie w przypadku zaobserwowania dużej liczby zer w badanej próbce. Z drugiej strony, jeżeli µ < D oraz dane mają charakter unimodalny (z dominantą > 0, to lepszym wyborem będzie uogólniony rozkład Poissona. Użyjemy go także w przypadku, gdy wykres analizowanych obserwacji ma długi prawy ogon. 24

25 5 Porównanie GP-2 z innymi testami 5. Alternatywne statystyki W rozdziale tym omówione zostanie porównanie trzech statystyk służących wykrywaniu zjawiska nadrozproszenia. Jak wcześniej wspomniano, model regresji Poissona jest szczególnym przypadkiem modelu GP-2, kiedy parametr ϕ przyjmuje wartość 0. Przedmiotem naszych badań jest stwierdzenie występowania nadrozproszenia w analizowanych danych poprzez testowanie hipotez H 0 : ϕ 0 przeciwko H : ϕ > 0. Inne testy pozwalające rozwiązać ten problem opierają się na statystyce związanej z ilorazem wiarygodności LRT (ang. likelihood ratio test oraz statystyce Walda. Pierwsza z nich służy porównaniu dwóch modeli składających się z różnej liczby parametrów celem rozstrzygnięcia, do którego z nich lepiej dopasowane są analizowane dane. Innymi słowy, za jej pomocą badamy istotność dodatkowych parametrów, co w przypadku modelu regresji GP-2 dotyczy zmiennej ϕ. Statystyka LRT ma asymptotyczny rozkład χ 2 z liczbą stopni swobody równą różnicy liczby parametrów obu modeli. Statystyka ta będzie dana wzorem LRT ϕ 2l(ˆµ l(ˆµ, ˆϕ], gdzie l(ˆµ i l(ˆµ, ˆϕ są maksymalnymi wartościami logarytmów naturalnych funkcji wiarygodności modeli odpowiednio regresji Poissona oraz regresji GP-2. Modyfikacja tej statystyki do postaci sgn( ˆϕ LRT ϕ sgn( ˆϕ 2l(ˆµ l(ˆµ, ˆϕ] sprawi, że będzie ona zbiegać asymptotycznie do standardowego rozkładu normalnego. Zapisywać ją będziemy jako SSR-LRT (ang. signed square-root of LRT. W celu badania nadrozproszenia możemy także posłużyć się statystyką t typu Walda definiowaną jako Wald ˆϕ V ar( ˆϕ, która także posiada asymptotyczny rozkład normalny. 5.2 Symulacja Monte Carlo Przedstawione wyniki symulacji zostały zaczerpnięte z pracy A score test for overdispersion in Poisson regression based on the generalized Poisson-2 model autorstwa Z. Yang, J.W. Hardin, C.L. Addy z 2008 roku, Biometrical Journal. W symulacji tej porównano statystyki Walda, SSR-LRT oraz statystykę opartą na modelu GP-2 daną wzorem (2. Przyjęto istnienie jednej zmiennej objaśniającej, a jej związek ze zmienną objaśnianą dany jest wzorem ln µ i 2 2 x i, gdzie x i jest zmienną generowaną z rozkładu jednostajnego na przedziale 0,]. Próbki służące do obliczania wartości statystyk mają kolejno rozmiar n 20, 50, 00 i zostały wygenerowane z rozkładu GP-2 z parametrami nadrozproszenia ϕ ujętymi w tabeli. Symulacja składa się z 25

26 0000 powtórzeń dla każdej kombinacji rozmiaru próbki i wartości ϕ. Oznaczmy testowaną statystykę przez S ϕ (dla każdej z trzech opisanych powyżej oraz ustalmy poziom istotności α 0,05. Badając nadrozproszenie korzystamy z jednostronnego testu oraz faktu, że każda ze statystyk ma asymptotyczny rozkład normalny N (0,, którego wartość krytyczna jest równa z α,645. Moc danego testu otrzymujemy poprzez znalezienie odsetka liczby przypadków, kiedy S ϕ jest większe od wartości krytycznej C #(S ϕ > C, R gdzie R 0000 jest liczbą powtórzeń, a wartość krytyczna C jest równa z α,645. Rezultaty przeprowadzonej symulacji zostały przedstawione w tabeli oraz graficznie na wykresie 2. n Statystyka Moc testu (% ϕ 0, 00 0,0 0,02 0,03 0,04 0,05 0,06 0,07 0,08 20 Wald 0,36,32 3,20 6,72 2,65 9,8 27,27 35,83 43,40 SSR-LRT,82 5,09 9,65 7,03 25,9 35,32 44,59 53,76 6,8 GP-2 3,24 7,54 3,50 22,48 32,7 4,77 5,49 60,0 67,66 50 Wald,29 5,32 5,33 29,4 47,9 63,46 76,22 86,8 9,93 SSR-LRT 2,94 9,84 22,45 40,06 58,02 73,05 83,95 9, 95,07 GP-2 3,99 2,49 27,07 45,29 63,0 76,86 86,74 92,60 96,0 00 Wald 2,02,66 33,5 60,76 8,85 92,82 97,76 99,42 99,84 SSR-LRT 3,30 6,2 4,25 67,80 86,62 95,24 98,54 99,64 99,90 GP-2 4,4 9,2 45,27 7,32 88,57 96,2 98,80 99,74 99,93 ϕ 0, 09 0,0 0,5 0,20 0,25 0,30 0,35 0,40 20 Wald 5,65 59,57 83,38 92,77 96,68 97,85 98,65 99,76 SSR-LRT 68,42 74,96 9,59 96,75 98,55 99,7 99,53 00,00 GP-2 73,3 79,40 93,8 97,52 98,82 99,39 99,59 00,00 50 Wald 95,74 97,40 99,85 00,00 SSR-LRT 97,60 98,59 99,92 00,00 GP-2 98,2 98,83 99,94 00,00 00 Wald 99,94 00,00 SSR-LRT 99,95 00,00 GP-2 99,95 00,00 26

27 Tabela. Porównanie mocy statystyk GP-2 (Score, SSR-LRT i Walda. Źródło: Opracowano na podstawie: A Score test for overdispersion in Poisson regression based on the generalized Poisson-2 model, Biometrical Journal, 2008, (s Uzyskane wyniki wskazują, że w przypadku gdy ϕ 0, co wiąże się z prawdziwością modelu Poissona, statystyka GP-2 najczęściej wskazuje błędnie na występowanie zjawiska nadrozproszenia dla każdej z badanych liczebności próbki. Gdy ϕ jest bliskie 0, oznacza to niewielką różnicę między modelem Poissona oraz GP-2, która rośnie wraz ze zwiększaniem się parametru ϕ. Co za tym idzie, wyniki z tabeli wskazują na wzrost skuteczności wykrywania nadrozproszenia przez wszystkie statystyki wraz ze wzrostem ϕ, jednak tempo wzrostu mocy dla każdej z nich jest inne dla różnych wartości n oraz ϕ. Dla dużych próbek n 00 wykrywalność rośnie bardzo szybko i osiąga 00% już dla ϕ 0,0; z kolei w przypadku średnich próbek n 50, moc wszystkich statystyk osiąga niemal 00%, gdy ϕ 0,5. Dla małych próbek n 20, skuteczność każdej z trzech statystyk rośnie bardzo wolno dla ϕ < 0,04. Dopiero powyżej tej wartości moc testów zaczyna wzrastać szybciej, jednak wykrywalość nadrozproszenia wszystkich zbliża się do 00% dopiero, gdy ϕ 0,30. Ponadto, przedstawione wyniki uwidaczniają zróżnicowanie skuteczności omawianych trzech statystyk: dla małych próbek n 20 różnice między nimi są niewielkie tylko w przypadku, gdy ϕ jest wystarczająco duże, na przykład ϕ 0,3. Dla średnich próbek n 50 różnice między statystykami zacierają się dla ϕ 0,0; a dla dużych próbek n 00 już od ϕ 0,06. Dla pozostałych ϕ różnica między mocami statystyk jest znacząca, może być nawet kilkukrotna. Wykres 2. Porównanie mocy statystyk GP-2 (Score, SSR-LRT i Walda dla próbek o liczności 27

28 kolejno n 20, n 50 oraz n 00. Drugi rząd wykresów stanowi powiększenie pierwszego dla małych wartości ϕ. Źródło: A Score test for overdispersion in Poisson regression based on the generalized Poisson-2 model, Biometrical Journal, 2008, (s Zaprezentowane w tabeli oraz na wykresie 2 informacje jednoznacznie wskazują, że statystyka GP-2 z równania (2 jest lepsza od pozostałych testów w kontekście skuteczności wykrywania nadrozproszenia. Wskazuje to, iż to ona powinna być stosowana w celu wyboru modeli regresji, gdy nie wiemy, czy posłużyć się modelem Poissona czy też jego uogólnieniem. 28

29 6 Przykład numeryczny 6. Dane Dane na których opiera się przeprowadzona analiza pochodzą ze zbioru idywidualnych polis ubezpieczeń komunikacyjnych OC użytego w pracach K.C.H. Yip i K.K.W. Yau z 2005 roku oraz M. Flynn i L.A.Francis z 2009 roku. Zawiera on 0296 polis wraz z 33 zmiennymi opisującymi osobę ubezpieczonego. W naszym przykładzie zmienną objaśnianą jest ilość zgłaszanych roszczeń, a zmienną objaśniającą wiek sprawcy wypadku. Rozkład liczby roszczeń przedstawiony jest w tabeli 2. Ilość Liczba roszczeń ubezpieczonych Suma 0296 Tabela 2. Zestawienie roszczeń zgłaszanych przez ubezpieczonych. W powyższej próbce średnia liczba roszczeń przypadają na jednego kierowcę jest równa µ 0,8, dominanta ma wartość 0, natomiast wariancja wynosi σ 2,33. Wobec tego współczynnik dyspersji ma wartość D σ2,66, co wskazuje, iż wariancja jest ponad półtora razy większa µ od średniej. Mamy zatem do czynienia z danymi, wobec których zasadne wydaje się być użycie jednego z modeli GP-, GP-2 lub NB zamiast regresji Poissona. W omawianym zbiorze danych zmienna wiek została podzielona na cztery kategorie: osoby między 6 a 24 rokiem życia, między 25 a 40 rokiem życia, między 4 a 60 rokiem życia oraz osoby starsze niż 60 lat. Rozkład liczebności poszczególnych grup oraz średniej liczby roszczeń dla każdej z nich przedstawia wykres 3. 29

30 Wykres 3. Zestawienie liczby ubezpieczonych oraz średniej liczby szkód w poszczególnych grupach wiekowych. Najliczniejszą grupą wiekową w analizowanych danych są osoby w wieku 4-60 lat, którzy stanowią 66% próbki. Drugą pod względem liczebności grupą ubezpieczonych są osoby między 25 a 40 rokiem życia. Najmłodsze oraz najstarsze osoby stanowią około 4% wszystkich badanych. W przypadku średniej liczby roszczeń przypadającej na osobę, najwyższy wskaźnik równy,6 odnotowała najmłodsza grupa badanych. Przyczyną takiego stanu rzeczy jest niewielkie doświadczenie w prowadzeniu pojazdów oraz lekkomyślność i brawura. Dla kolejnych dwóch grup wiekowych wskaźnik ten spada kolejno do poziomu 0,87 i 0,75. Dla najstarszej z analizowanych grup średnia rośnie i wynosi 0,98 zgłaszanej szkody rocznie. Jest to skutkiem pogarszającego się z wiekiem stanu zdrowia kierowców oraz dłuższym czasem reakcji podczas prowadzenia pojazdu. 6.2 Wyniki Do powyżej opisanych danych spróbujemy zastosować regresję Poissona, jej dwa uogólnienia GP- i GP-2 oraz model oparty o rozkład ujemny dwumianowy. Do oceny dopasowania każdego z czterech modeli do danych empirycznych skorzystamy z kryterium informacyjnego Akaike danego wzorem AIC 2 ln(l + 2n, gdzie L oznacza maksimum funkcji wiarygodności, a n liczbę parametrów modelu. Ponadto zbadamy istotność wszystkich parametrów występujących w modelu. Ponieważ wykres średniej ilości roszczeń przypomina kształtem parabolę, można uznać, iż zależność między średnią liczbą szkód a wiekiem ma charakter kwadratowy z dodatnim parametrem przy zmiennej w drugiej potędze. Analizować będziemy zatem zależność ln µ β 0 + β x + β 2 x 2. 30

31 Estymacji dokonujemy w programie SAS przy użyciu następujących kodów dla każdego modelu: Regresja Poissona data nietak; set Dane; run; proc genmod datanietak; model CLM_FREQ wiek / distpoi linklog; output outtemp ppred; run; GP- proc nlmixed datadane; parms b00.00 b0,00 b20,00 k0.00; eta b0 + b*wiek + b2*wiek*wiek; bounds 0<k<, b0>0, b>-0., b2>0; mu exp(eta; loglike (CLM_FREQ-*log((-k*mu + k*clm_freq+log((-k*mu - k*clm_freq-(-k*mu -log(fact(clm_freq; prob exp(loglike; model CLM_FREQ ~ general(loglike; predict prob out pred_gp; run; GP-2 proc nlmixed datasasuser.dane_gn; parms b00 b0 b20 k0.00; eta b0 + b*wiek + b2*wiek*wiek; bounds k>0; mu exp(eta; loglike CLM_FREQ*log(mu/(+k*mu - log(fact(clm_freq + (CLM_FREQ-*log(+k*CLM_FREQ - mu*(+k*clm_freq/(+k*mu; prob exp(loglike; model CLM_FREQ ~ general(loglike; predict prob out pred_gp; run; NB 3

32 proc import outdane_temporary datafile"c:\users\karol Dziedziul\Desktop\dane_gn.xls" dbmsxls Replace; sheet"dane_mgr"; getnamesyes; run; data Dane; set dane_temporary; run; data nietak; set Dane; run; proc genmod datanietak; model CLM_FREQ wiek / distnb linklog; output outtemp ppred; run; Otrzymane wyniki prezentują się następująco: Regresja Poissona Tabela 3. Ocena wartości parametrów regresji Poissona. Regresja rozkładem dwumianowym ujemnym Tabela 4. Ocena wartości parametrów regresji NB. 32

33 Regresja GP- Tabela 5. Ocena wartości parametrów regresji GP-. Regresja GP-2 Tabela 6. Ocena wartości parametrów regresji GP-2. W przypadku modeli GP- oraz GP-2 wszystkie parametry funkcji kwadratowej β 0, β, β 2 są statystycznie istotne, gdyż w każdym przypadku stosunek wyestymowanej wartości do jej błędu jest bardzo duży, co przekłada się na p-wartość mniejszą od 0,000. Oszacowana w modelu GP- wielkość ˆκ 0,3 ze średniem błędem 0,0084 pokazuje, że jest on istotnie różny zera, a jego dodatnia wartość wskazuje na obecność nadrozproszenia w badanej próbce. Drugi z wprowadzonych parametrów dyspersji jest równy ˆϕ 0,56 (± 0,0202, co także potwierdza naszą wcześniejszą obserwację dotyczącą wysokiego stosunku wariancji do średniej. Kryterium informacyjne Akaike dla modeli GP-, GP-2 i NB wynosi odpowiednio 25475, 255 oraz i jest wyraźnie niższe od wartości przyjmowanej dla standardowej regresji Poissona, która w tym wypadku jest równa Wyraźnie widać zatem, że wszystkie trzy uogólnienia modelu Poissona są lepiej dopasowane do analizowanej próbki. Potwierdza to ich użyteczność w przypadku pracy z danymi, w których występuje zjawisko nadrozproszenia. 33

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Prawdopodobieństwo i statystyka 9.06.999 r. Zadanie. Rzucamy pięcioma kośćmi do gry. Następnie rzucamy ponownie tymi kośćmi, na których nie wypadły szóstki. W trzeciej rundzie rzucamy tymi kośćmi, na których

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład II: i charakterystyki ich rozkładów 24 lutego 2014 Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa,

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Metoda największej wiarygodności

Metoda największej wiarygodności Metoda największej wiarygodności Próbki w obecności tła Funkcja wiarygodności Iloraz wiarygodności Pomiary o różnej dokładności Obciążenie Informacja z próby i nierówność informacyjna Wariancja minimalna

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Zadania o numerze 4 z zestawów licencjat 2014.

Zadania o numerze 4 z zestawów licencjat 2014. Zadania o numerze 4 z zestawów licencjat 2014. W nawiasie przy zadaniu jego występowanie w numerze zestawu Spis treści (Z1, Z22, Z43) Definicja granicy ciągu. Obliczyć granicę:... 3 Definicja granicy ciągu...

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28 Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas: ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1). PRZYKŁADY TESTÓW NIEPARAMETRYCZNYCH. Test zgodności χ 2. Ten test służy testowaniu hipotezy, czy rozważana zmienna ma pewien ustalony rozkład, czy też jej rozkład różni się od tego ustalonego. Tym testem

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych 1.10.2012 r.

Matematyka ubezpieczeń majątkowych 1.10.2012 r. Zadanie. W pewnej populacji każde ryzyko charakteryzuje się trzema parametrami q, b oraz v, o następującym znaczeniu: parametr q to prawdopodobieństwo, że do szkody dojdzie (może zajść co najwyżej jedna

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0 Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

Uogolnione modele liniowe

Uogolnione modele liniowe Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,

Bardziej szczegółowo

Dokładne i graniczne rozkłady statystyk z próby

Dokładne i graniczne rozkłady statystyk z próby Dokładne i graniczne rozkłady statystyk z próby Przypomnijmy Populacja Próba Wielkość N n Średnia Wariancja Odchylenie standardowe 4.2 Rozkład statystyki Mówimy, że rozkład statystyki (1) jest dokładny,

Bardziej szczegółowo

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej KATEDRA MATEMATYKI TEMAT PRACY: ROZKŁAD NORMALNY ROZKŁAD GAUSSA AUTOR: BARBARA MARDOSZ Kraków, styczeń 2008 Spis treści 1 Wprowadzenie 2 2 Definicja

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 2013/2014 Wykład 3 Zmienna losowa i jej rozkłady Zdarzenia losowe Pojęcie prawdopodobieństwa

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne. Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne. Definicja. Niech a i b będą dodatnimi liczbami rzeczywistymi i niech a. Logarytmem liczby b przy podstawie

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo

Zadanie 1. są niezależne i mają rozkład z atomami: ( ),

Zadanie 1. są niezależne i mają rozkład z atomami: ( ), Zadanie. Zmienne losowe są niezależne i mają rozkład z atomami: ( ) ( ) i gęstością: ( ) na przedziale ( ). Wobec tego ( ) wynosi: (A) 0.2295 (B) 0.2403 (C) 0.2457 (D) 0.25 (E) 0.269 Zadanie 2. Niech:

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1. Opracowała: Joanna Kisielińska ZMIENNE LOSOWE Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R tzn. X: R. Realizacją zmiennej losowej

Bardziej szczegółowo

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

Wykład 8 Dane kategoryczne

Wykład 8 Dane kategoryczne Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych

Bardziej szczegółowo

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne) Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne) Przygotował: Dr inż. Wojciech Artichowicz Katedra Hydrotechniki PG Zima 2014/15 1 TABLICE ROZKŁADÓW... 3 ROZKŁAD

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

Estymacja parametrów, przedziały ufności etc

Estymacja parametrów, przedziały ufności etc Estymacja parametrów, przedziały ufności etc Liniowa MNK przypomnienie Wariancja parametrów Postulat Bayesa: rozkłady p-stwa dla parametrów Przypadek nieliniowy Przedziały ufności Rozkłady chi-kwadrat,

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych r.

Matematyka ubezpieczeń majątkowych r. Zadanie. W pewnej populacji kierowców każdego jej członka charakteryzują trzy zmienne: K liczba przejeżdżanych kilometrów (w tysiącach rocznie) NP liczba szkód w ciągu roku, w których kierowca jest stroną

Bardziej szczegółowo

STATYSTYKA wykład 5-6

STATYSTYKA wykład 5-6 TATYTYKA wykład 5-6 Twierdzenia graniczne Rozkłady statystyk z próby Wanda Olech Twierdzenia graniczne Jeżeli rozpatrujemy ciąg zmiennych losowych {X ; X ;...; X n }, to zdarza się, że ich rozkłady przy

Bardziej szczegółowo

Pochodne wyższych rzędów definicja i przykłady

Pochodne wyższych rzędów definicja i przykłady Pochodne wyższych rzędów definicja i przykłady Pochodne wyższych rzędów Drugą pochodną funkcji nazywamy pochodną pochodnej tej funkcji. Trzecia pochodna jest pochodną drugiej pochodnej; itd. Ogólnie, -ta

Bardziej szczegółowo

Układy równań i nierówności liniowych

Układy równań i nierówności liniowych Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Prawa wielkich liczb, centralne twierdzenia graniczne

Prawa wielkich liczb, centralne twierdzenia graniczne , centralne twierdzenia graniczne Katedra matematyki i ekonomii matematycznej 17 maja 2012, centralne twierdzenia graniczne Rodzaje zbieżności ciągów zmiennych losowych, centralne twierdzenia graniczne

Bardziej szczegółowo

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015 Zmienne losowe, statystyki próbkowe Wrocław, 2 marca 2015 Zasady zaliczenia 2 kolokwia (każde po 20 punktów) projekt (20 punktów) aktywność Zasady zaliczenia 2 kolokwia (każde po 20 punktów) projekt (20

Bardziej szczegółowo

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład VII: Rozkład i jego charakterystyki 22 listopada 2016 Uprzednio wprowadzone pojęcia i ich własności Definicja zmiennej losowej Zmienna losowa na przestrzeni probabilistycznej (Ω, F, P) to funkcja

Bardziej szczegółowo

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA SPIS TEŚCI PRZEDMOWA...13 CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA 1. ZDARZENIA LOSOWE I PRAWDOPODOBIEŃSTWO...17 1.1. UWAGI WSTĘPNE... 17 1.2. ZDARZENIA LOSOWE... 17 1.3. RELACJE MIĘDZY ZDARZENIAMI... 18 1.4.

Bardziej szczegółowo

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji.

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji. Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Centralne Twierdzenie Graniczne 1.1 Twierdzenie Lindeberga Levy'ego 1.2 Dowód 1.2.1 funkcja tworząca sumy zmiennych niezależnych 1.2.2 pochodna funkcji

Bardziej szczegółowo

Zadanie 1. Zmienne losowe X 1, X 2 są niezależne i mają taki sam rozkład z atomami:

Zadanie 1. Zmienne losowe X 1, X 2 są niezależne i mają taki sam rozkład z atomami: Zadanie 1. Zmienne losowe X 1, X 2 są niezależne i mają taki sam rozkład z atomami: Pr(X 1 = 0) = 6/10, Pr(X 1 = 1) = 1/10, i gęstością: f(x) = 3/10 na przedziale (0, 1). Wobec tego Pr(X 1 + X 2 5/3) wynosi:

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa STATYSTYKA MATEMATYCZNA rachunek prawdopodobieństwa treść Zdarzenia losowe pojęcie prawdopodobieństwa prawo wielkich liczb zmienne losowe rozkłady teoretyczne zmiennych losowych Zanim zajmiemy się wnioskowaniem

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.

Bardziej szczegółowo

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Przykład Cena metra kwadratowego (w tys. zł) z dla 14 losowo wybranych mieszkań w

Bardziej szczegółowo

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności. TEST STATYSTYCZNY Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach z próby hipotezę sprawdzaną H 0 należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia.

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY Próba losowa prosta To taki dobór elementów z populacji, że każdy element miał takie samo prawdopodobieństwo znalezienia się w próbie Niezależne

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe? 2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali

Bardziej szczegółowo

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych (pieczęć wydziału) KARTA PRZEDMIOTU Z1-PU7 WYDANIE N1 Strona 1 z 5 1. Nazwa przedmiotu: Rachunek prawdopodobieństwa i statystyka matematyczna 2. Kod przedmiotu: RPiS 3. Karta przedmiotu ważna od roku akademickiego:

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

System bonus-malus z mechanizmem korekty składki

System bonus-malus z mechanizmem korekty składki System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład II: Zmienne losowe i charakterystyki ich rozkładów 13 października 2014 Zmienne losowe Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Definicja zmiennej losowej i jej

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Marek Ptak 21 października 2013 Marek Ptak Statystyka 21 października 2013 1 / 70 Część I Wstęp Marek Ptak Statystyka 21 października 2013 2 / 70 LITERATURA A. Łomnicki, Wprowadzenie

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.

Bardziej szczegółowo

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ Dopasowanie rozkładów Dopasowanie rozkładów- ogólny cel Porównanie średnich dwóch zmiennych 2 zmienne posiadają rozkład normalny -> test parametryczny (t- studenta) 2

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ Opracowała: Milena Suliga Wszystkie pliki pomocnicze wymienione w treści

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Ze względu na jakość uzyskiwanych ocen parametrów strukturalnych modelu oraz weryfikację modelu, metoda najmniejszych

Bardziej szczegółowo

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń 1. Problem ozwaŝamy zjawisko (model): Y = β 1 X 1 X +...+ β k X k +Z Ηβ = w r Hipoteza alternatywna: Ηβ w r

Bardziej szczegółowo

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017 Testowanie hipotez dla frakcji Wrocław, 29 marca 2017 Powtórzenie z rachunku prawdopodobieństwa Centralne Twierdzenie Graniczne Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu o średniej µ i skończonej

Bardziej szczegółowo

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH Transport, studia I stopnia rok akademicki 2011/2012 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Uwagi wstępne Układ liniowych równań algebraicznych można

Bardziej szczegółowo

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego Statystyka Wydział Zarządzania Uniwersytetu Łódzkiego 2017 Podstawowe rozkłady zmiennych losowych Rozkłady zmiennych skokowych Rozkład zero-jedynkowy Rozpatrujemy doświadczenie, którego rezultatem może

Bardziej szczegółowo