Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Porównanie modeli statystycznych Monika Wawrzyniak Katarzyna Kociałkowska

Jaka jest miara podobieństwa? Aby porównywać rozkłady prawdopodobieństwa dwóch modeli statystycznych możemy użyć: metryki dywergencji testów

Kiedy dwa modele są różne, a kiedy podobne? Dwa modele są jednakowe wtedy i tylko wtedy, gdy metryka i dywergencja są równe zero. Dwa modele są podobne jeżeli wartość metryki oraz wartość dywergencji mieszczą się w ściśle zadanych przedziałach Dwa modele różnią się od siebie jeżeli wartość metryki oraz wartość dywergencji nie mieszczą się w zadanych przedziałach 3

METRYKI 4

Metryka Euklidesowa (odległość) Porównanie numeryczne n d A, B = y ia y i=1 ib 0.5 0.4 0.3 0. 0.1 4 6 8 5

Odległość Hellinger`a H P, Q = 1 f x g(x) dx = = 1 f x g x dx 6

DYWERGENCJE 7

Kullback - Leiber p x ln p(x) q(x) dx Jeffrey`s (p x q x )(ln p x ln q(x))dx Kagan`s 1 p x q(x) dx p(x) Ekspotencjalna p(x) ln p x ln q(x) dx Przykładowe dywergencje 8

NO TO MOŻE JAKIŚ PRZYKŁAD 9

N μ, σ = 1 σ π e x μ σ 0.30 0.5 0.0 0.15 0.10 N (.75, 1.3) N (.5, 1.6) 0.05 4 6 8 Kullback - Leiber p(x) ln p(x) dx 0,049 q(x) Jeffrey`s (p(x) q(x))(ln p(x) ln q(x))dx 0,116 Kagan`s 1 (p(x) q(x)) dx 0,58 p(x) Ekspotencjalna p(x)(ln p(x) ln q(x)) dx 0,076 10

Porównywanie do danych wzorcowych, czyli TESTY STATYSTYCZNE 11

TESTY PARAMETRYCZNE 1

Test istotności średniej Czy średnia wartość cechy w populacji (μ) wynosi tyle, co pewna dana z góry wartość (μ₀)? H₀ : μ = μ₀ H 1 : μ μ 0 lub H 1 : μ > μ 0 lub H 1 : μ < μ 0 Nieznane odchylenie, mała próba (n<30) t = m μ 0 μ n 1 gdzie: m - średnia z próby, μ - odchylenie standardowe z próby liczba stopni swobody ν = n-1 porównujemy z wartością krytyczną testu t α 13

Test istotności średniej- PRZYKŁAD Czy można powiedzieć że długość nazwiska w naszej grupie wynosi 7 liter (średnia długość w Polsce)? Stawiamy hipotezę zerową: H0: μ =7 wobec hipotezy alternatywnej: H1: μ 7 t obl = 7, 7,675818 19=0,3 Przyjmując α = 0.05 znajdujemy w tablicach dla 19 stopni swobody wartość krytyczną t=.093. Ponieważ t obl < t 0.05 stwierdzamy brak podstaw do odrzucenia hipotezy zerowej. 14

Test istotności dla dwóch średnich Czy średnia wartość cechy w populacji (m 1 ) wynosi tyle, co średnia wartość cechy innej w populacji (m )? H₀ : m 1 = m H 1 : m 1 m lub H 1 : m 1, > m lub H 1 : m 1 < m gdzie: m 1,m - średnie podanych populacji dla nieznanych odchyleń standardowych: u = m 1 m σ 1 n 1 + σ gdzie: n 1, n -liczebności prób. liczba stopni swobody ν = n 1 +n - porównujemy z wartością krytyczną testu t α n 15

Test istotności dla dwóch średnich- PRZYKŁAD Czy można powiedzieć że średnie dla obu prób są sobie równe? C1={,1,4,4} C={3,5,1,1,1} Stawiamy hipotezę zerową: H0: m 1 = m wobec hipotezy alternatywnej: H1: m 1 m u=0,34146 Przyjmując α = 0.05 znajdujemy w tablicach dla 8 stopni swobody wartość krytyczną t=,306. Ponieważ u < t 0.05 stwierdzamy brak podstaw do odrzucenia hipotezy zerowej. 16

Test istotności wariancji Czy wariancja cechy w populacji (σ ) wynosi tyle, co pewna dana z góry wartość (σ ₀)? H₀ : σ = σ ₀ H 1 : σ σ ₀ (1) lub H 1 : σ > σ ₀ () lub H 1 : σ < σ ₀ (3) mała próba (n<30) Χ = n σ σ o gdzie: σ -jest wariancją z próby, n- jest liczebnością próby. liczba stopni swobody ν = n-1 17

Test istotności wariancji Wartość krytyczną X kryt odczytujemy z tablic rozkładu chi-kwadrat Dla (1) dla poziomu istotności α Dla () dla poziomu istotności 1-α Dla (3) X kryt1dla poziomu istotności 1- α / oraz X krytdla poziomu istotności α / Obszar krytyczny: Dla (1) X > X kryt Dla () X <X kryt Dla (3) X kryt1<x <X kryt 18

Test istotności wariancji- PRZYKŁAD Czy można powiedzieć że wariancja długości nazwiska w naszej grupie wynosi 6 liter? Stawiamy hipotezę zerową: H0: σ =6 wobec hipotezy alternatywnej: H1: σ 6 Χ = 0 7,16 6 = 3,86667 Przyjmując α = 0.05 znajdujemy w tablicach dla 19 stopni swobody obszar krytyczny: 8.9065 <X < 3.853 Ponieważ 8.9065 <3,86667< 3.853 stwierdzamy brak podstaw do odrzucenia hipotezy zerowej. 19

Test dla dwóch wariancji Czy wariancja cechy w populacji (σ 1) wynosi tyle, co wariancja cech innej populacji (σ )? H₀ : σ 1 = σ 1 H 1 : σ 1 σ (1) lub H 1 : σ 1 > σ () lub H 1 : σ 1 < σ (3) mała próba (n<30), Test Fishera: F = n 1(n 1)σ 1 n (n 1 1)σ statystyka ta ma rozkład F Snedecora, liczba stopni swobody v 1 =n 1-1 i v =n -1 Dla testu jednostronnego F kryt1 =F(α,v1,v) Dla testu obustronnego F kryt1 =F(α/,v1,v) Druga wartość graniczna F kryt =1/F kryt1 0

Test dla dwóch wariancji-przykład Czy można powiedzieć, że wariancja dla pierwszej próby jest większa niż wariancja dla próby drugiej? C1={,1,4,4} C={3,5,1,1,1} Stawiamy hipotezę zerową: H0: σ 1 > σ wobec hipotezy alternatywnej: H1: σ 1 <= σ F=0,75806 Przyjmując α = 0.05 znajdujemy w tablicach dla v 1 =3 i v =5 stopni swobody: F kryt1 =5,409451 i F kryt =0,18486, stąd obszar krytyczny: 0,18486< F <5,409451 Ponieważ 0,18486<0,75806 <5,409451 stwierdzamy brak podstaw do odrzucenia hipotezy zerowej. 1

TESTY NIEPARAMETRYCZNE

Test jednorodności Weryfikują hipotezę o zgodności dwóch rozkładów empirycznych ze sobą (oba rozkłady pochodzą z tej samej populacji) Test k i i i i n n n n n n n n n n 1 1 1 1 1 1 1 1 ) ( 3

Test jednorodności - PRZYKŁAD Liczba wystąpienia samogłosek w danym tekście 0,019 Samogłoski tekst I tekst II I 7 1 Y 11 17 U 8 9 E 8 6 A 4 37 O 4 1 Razem 1 131 Czy dane pochodzą z tego samego rozkładu? ( 0,05; v k 1 6 1 5) 4,35 4

Dziękujemy 5