Hotellingova T 2 statistika. Mia Franić 6. srpnja 2016.

Podobne dokumenty
Neprekidnost i limes. Definicija. Neka je I R otvoreni interval i c I. Funkcija. f : I {c} R

Baze podataka (vježbe) SQL - uvod i osnove naredbe SELECT. Sveučilište u Zagrebu PMF Matematički odsjek

PARCIJALNE DIFERENCIJALNE JEDNAČINE. , odnosno

Pojam matrice je, neovisno o primjenama, uveden potkraj 19. st., a povezuje se s imenima J.J. Sylvester-a i A. Cayley-a;

Vježba 2 Regularni izrazi I (eng. regex)

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Linearna regresija. 7. prosinca 2012.

Metody systemowe i decyzyjne w informatyce

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Metody systemowe i decyzyjne w informatyce

Darko Drakulić. Osnove programskog jezika C sa zbirkom zadataka -skripta-

Rozpoznawanie obrazów

Metoda najmniejszych kwadratów

1. UVOD U TEORIJU FORMALNIH JEZIKA

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Różne rozkłady prawdopodobieństwa

Statystyka Matematyczna Anna Janicka

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

POMPY SUCHOSTOJĄCE Pionowe pompy wielostopniowe (2900 obr/min)

dt dt 2 2t = 3 (1 + t). y (x) = x. ] b) x = sin 2 t, y = cos 2 t [ 1 ] c) x = e 2t cos 2 t, y = e 2t sin 2 t [ tg t tg (t + π/4) ]

Statystyka w przykładach

Metoda największej wiarogodności

MATEMATIČKA ANALIZA 2

v = v i e i v 1 ] T v =

Algoritmi i strukture podataka

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Granica i ciągłość funkcji. 1 Granica funkcji rzeczywistej jednej zmiennej rzeczywsitej

Ważne rozkłady prawdopodobieństwa

Matematička analiza 4

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Rachunek prawdopodobieństwa i statystyka

Testowanie hipotez statystycznych.

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Granica i ciągłość funkcji. 1 Granica funkcji rzeczywistej jednej zmiennej rzeczywistej

Przestrzeń probabilistyczna

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Statystyka matematyczna. Wykład VI. Zesty zgodności

Druxtvo matematiqara Srbije REXENjA ZADATAKA OPXTINSKOG TAKMIQENjA IZ MATEMATIKE Prvi razred A kategorija AC + AC 1.

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Prawdopodobieństwo i statystyka r.

Udruženje matematičara TK - (b a) (c a) + C. a + b c = x, b + c a = y, c + a b = z. x + y = 2b, z + x = 2a i y + z = 2c.

KARTA PRODUKTU. A Nazwa dostawcy Amica S.A. B1 Identyfikator modelu

1.1 Statystyka matematyczna Literatura Model statystyczny Preliminaria... 3

1 Estymacja przedziałowa

Wykład 5 Teoria eksperymentu

Najczęściej spotykane rozkłady dyskretne:

Podstawowe rozkłady zmiennych losowych typu dyskretnego

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Matematička analiza 4

Zadania z Rachunku Prawdopodobieństwa II Podać przykład rozkładów prawdopodobieństwa µ n, µ, takich, że µ n µ,

0. OSNOVE

Rekurencyjna przeliczalność

Statystyka matematyczna - Seria 1

Testowanie hipotez cz. I

Rozdział 9 Przegląd niektórych danych doświadczalnych o produkcji hadronów. Rozpraszanie elastyczne. Rozkłady krotności

ĆWICZENIA Z ARYTMETYKI TEORETYCZNEJ 1. LICZBY NATURALNE. x + 1 = x, x + y = (x + y). ( y + (z + w) ) + w = x + (d) jeśli (x) = 1, to x = 1,

q (s, z) = ( ) (λ T) ρc = q

Wykład 7 Teoria eksperymentu

1 Relacje i odwzorowania

Rezonanse w deekscytacji molekuł mionowych i rozpraszanie elastyczne atomów mionowych helu. Wilhelm Czapliński Katedra Zastosowań Fizyki Jądrowej

Metody systemowe i decyzyjne w informatyce

WEKTORY I WARTOŚCI WŁASNE MACIERZY. = λ c (*) problem przybliżonego rozwiązania zagadnienia własnego dla operatorów w mechanice kwantowej

Wprowadzenie Model ARMA Sezonowość Prognozowanie Model regresji z błędami ARMA. Modele ARMA

Zadania z Rachunku Prawdopodobieństwa II Podaj przykład rozkładów prawdopodobieństwa µ n, µ, takich, że µ n µ,

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

SPOTKANIE 3: Regresja: Regresja liniowa

METODY SZTUCZNEJ INTELIGENCJI algorytmy ewolucyjne

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

mgr inż. Paweł Szeptyński Podstawy wytrzymałości materiałów i mechaniki układów prętowych 07 Teoria stanu naprężenia i odkształcenia

STATYSTYKA MATEMATYCZNA

Zestaw zadań z Równań różniczkowych cząstkowych I 18/19

Bezgradientowe metody optymalizacji funkcji wielu zmiennych. informacje dodatkowe

Numeryczne metody optymalizacji Optymalizacja w kierunku. informacje dodatkowe

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

v = v i e i v 1 ] T v = = v 1 v n v n [ ] U [x y z] T (X,Y,Z)

Większość zadań zamieszczonych na tej liście pochodzi z książki Modele i metody statystyki matematycznej w zadaniach, autorstwa Alicji Jokiel-Rokity

Dane zgrupowane: każda obserwacja należy do jednej grupy i jest tylko jeden czynnik grupujący

Statystyka w analizie i planowaniu eksperymentu

Metody probabilistyczne

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

INTEGRALI I TEORIJA POLJA. - zadaci za vežbu -

Porównanie wielu rozkładów normalnych

Centralne twierdzenie graniczne

Procesy Stochastyczne - Zestaw 1

Generowanie liczb o zadanym rozkładzie. ln(1 F (y) λ

Transkrypt:

Hotellingova T statistika Mia Franić 6. srpnja 06.

Sadržaj Uvod 3. Linearni model više varijabli..................... 3. Hotellingova statistika........................ 4 Hotellingov T test za dva normalna uzorka 7. Distribucija od S pool......................... 7. Distribucija od T statistike..................... 8.3 Omjer vjerodostojnosti........................ 0 3 Primjer 3 3. Normalnost podataka........................ 3 3.. Normalost podataka skupine Thyroxin........... 3 3.. Normalost podataka skupine Thiouracil.......... 5 3..3 Normalost podataka skupine Control............ 6 3. Provedba testa omjera vjerodostojnosti.............. 7

Uvod. Linearni model više varijabli Linearni model više varijabli je linearni model koji ima više varijabli odziva. Označavamo ih sa Y, Y,... Y q. Sa Y = (Y,..., Y q ) označimo q-dimenzionalni vektor odziva. Neka je sada Y, Y,... Y n slučanjni uzorak duljine n za vektor odziva Y, pri čemu je Yi = (Y, Y,... Y n ) i-to opažanje od Y. Slučajni uzorak za j -tu komponentu od Y možemo opisati na slijedeći način: Y j = Te vektore možemo zapisati matrično: Y j Y j. Y nj Y = Y Y Y 3... Y q Y Y Y 3... Y q Y 3 Y 3 Y 33... Y 3q....... Y n Y n Y n3... Y nq. opažanje od Y. opažanje od Y n-to opažanje od Y slučajan uzorak za.komponentu slučajan uzorak za q-tu komponentu Zatim označimo vektop p varijabli poicaja sa x = (x,..., x p ). Slično je dana i matrica dizajna. x x x 3... x p x x x 3... x p X = x 3 x 3 x 33... x 3p....... x n x n x n3... x np Sada linearni model više varijabli zapisujemo ovako Y = x B + ε () 3

. Hotellingova statistika Pretpostavimo da je Y, Y,... Y n slučajni uzorak iz modela N q (µ, Σ), Σ > 0. Model za taj uzorak danje sa Za neki zadani µ 0 želimo testirati Y = n µ + E () H 0 : µ = µ 0 H : µ µ 0 Da bismo to testirali treba nam test koji je analogan Studentovom T testu u jednodimenzionalnom slučaju.može se pkazati da su procjenitelji maksimalne vjrodostojnosti modela jednaki ˆΣ = n n ˆµ = Y n (Y i Y)(Y i Y) i= Definicija.. Neka su X i N q (µ i, Σ), i =,..., n nezavisni normalni slučajni vektori sa istom kovarijacijskom matricom. Kažemo da slučajna matrica reda q q W = X i Xi i= ima Wishartovu distribuciju sa n stupnjeva slobode,kovarijacijskom matricom Σ i matricom parametara necentralnosti Q = Σ n i= µ i µ i Pišemo W w d (n, Σ, Q). Ako je Q 0, onda kažemo da je distribucija centralna i pišemo W w d (n, Σ, Q). Hipotezna statistika je dok je pogreškovna P = (HY XB 0 ) (HY XB 0 ) = n(y µ 0 )(Y µ 0 ) w q (, Σ) G = nˆσ = (n )S w q (n, Σ) 4

Definicija.. Hotellingovu statistiku definiramo na sljedeći način: T = (n )tr(p G ) = n(y µ 0 )(Y µ 0 ) Lema. (Tehnička lema) Za A M p,q i B M q,p slijedi det(i p + AB) = det(i p + BA). Teorem.3. Omjer vjerodostojnosti za testiranje hipoteza H 0 : µ = µ 0 H : µ µ 0 dan je sa Dokaz. λ = ( + ) n n T. λ = det(i n + G P ) n = det ( I n + n S n(y µ 0 )(Y µ 0 ) = tehnička lema ( = det + n n (Y µ 0 ) S (Y µ 0 ) ( = + ) n n T ) n ) n QED Definicija.4. Slučajna varijabla ima necentralnu F-distribuciju sa parom stupnjeva slobode (m, n) i parametrom necentralnosti δ ako postoje nezavisne slučajne varijable X χ (m, δ), Y χ (n) takve da Pišemo Z F (m, n; δ). Z = D X/m Y/n Propozicija.5. Ako su Z N d (δ, I), W w d (m), m d, nezavisne, tada je m d + Z W Z F (d, m d + ; d δ ). (3) Propozicija.6. Za n q + imamo n q q uz δ = nσ (µ µ 0 ). n T F (q, n q; δ ) 5

Korolar.7. Uz iste pretpostavke na model (), ( α) %00 pouzdano područje za vektor parametara µ je slučajni elipsoid n(y µ 0 ) S (Y µ 0 ) (n )q n q f α(q, n q), gdje je f α (q, n q) ( α)-kvantil centralne F-distribucije, F (q, n q). Dokaz. Dokaz slijedi direktno iz propozicije.6 uz µ 0 = µ. QED 6

Hotellingov T test za dva normalna uzorka Neka su x, x,..., x n nezavisni jednakodistribuirani slučajni vektori td. x i N p (µ, Σ), i {,..., n}, te neka su y, y,..., y m nezavisni jednakodistribuirani slučajni vektori td. y i N p (τ, Σ), i {,..., m}, takve da x, x,..., x n i y, y,..., y m čine dva nezavisna uzorka. Pretpostavljamo da je Σ > 0. Definiramo uzoračke varijance uzoraka: te S pool = S x = n S y = m n (x i x)(x i x) i= m (y i y)(y i y) i= n + m [(n )S x + (m )S y ]. Distribucija od S pool Odredimo prvo distribuciju od S pool : Iz prethodnog razmatranja u poglavlju. znamo da je pogreškovna statistika jednaka G x = (n )S x te da je Wishartove distribucije, tj. (n )S x w p (n, Σ). Isto tako vrijedi G y = (m )S y w p (m, Σ). Definicija Wishartove distribucije povlači da postoje nezavisni slučajni vektori X,..., X n N p (0, Σ) i Y,..., Y m N p (0, Σ) tako da vrijedi n (n )S x = X i Xi (m )S y = i= m i= Y i Y i Definiramo Z i := X i za i =..., n i Z n +i := Y i za i =..., m. Sada imamo m + n nezavisnih jednako distribuiranih slučajnih vektora iz N p (0, Σ) za koje vrijedi: (n )S x + (m )S y = pa iz definicije Wishartove distribucije slijedi n+m i= Z i Z i (n )S x + (m )S y w p (n + m, Σ) (n + m )S pool w p (n + m, Σ) 7

. Distribucija od T statistike Odredimo dristibuciju od T koju koristimo za testiranje hipoteze H 0 : µ = τ H : µ τ. Sa x i y označimo matrični zapis uzoraka. T definiramo na sljedeći način ( T = n + ) (x y) S pool (x y) m ( m + n T = n + ) (x y) ((m + n )S pool) (x y) m Zapišemo modele: x = n µ + E x N np (0, Σ I n ) (4) y = n τ + E y N mp (0, Σ I m ) (5) U prethodnim razmatranjima smo pokazali da ukoliko je model dan sa Y = XB +E, da je tada ˆµ MLE = (X X) X Y. Dakle, ˆµ = ( n n ) n x = x i analogno se pokaže da je ˆτ = y. (4) n n x = µ + n n E x x = µ + n n E x (5) m n y = τ + m n E y y = τ + m n E y Označimo sa ε x = n n E x i ε y = m n E y, pa je ε x N p (0, n Σ) ε y N p (0, m Σ) Kako je x = µ + ε x te y = τ + ε y ( n + m T = n + ) (µ + ε x τ ε y ) m ((m + n )S pool ) (µ + ε x τ ε y ) ( n + m T = n + ) (µ + ε x τ ε y ) m Σ Σ ((m + n )Spool ) Σ Σ (µ + εx τ ε y ) 8

Primijetimo, ε x i ε y nezavisne, a pretpostavka zadatka nam daje još Σ > 0, pa slijedi ( ε x ε y N p (0, n + ) Σ) m. Sa predavanja znamo da vrijedi: A > 0 i X N p (µ, Σ) AX N p (Aµ, AΣA ), pa to možemo primijeniti i na ovaj slučaj. (µ τ + ε x ε y ) N p (µ τ), Σ n + m n + m Definiramo pa je Zatim definiramo Z := Σ (µ τ + ε x ε y ) (6) n + m Z N p Σ n + m (µ τ), I p W := (n + m )Σ Spool Σ (7) te nas zanima njena distribucija. Znamo da je da je (n+m )S pool Wishartove distribucije, pa postoji m + n nezavisnih jednako distribuiranih slučajnih vektora iz N p (0, Σ) za koje vrijedi: (n + m )S pool = n+m i= X i X i. W = (n + m )Σ Spool Σ ( n+m ) = Σ X i Xi = n+m i= i= Σ (Σ Xi )(Σ Xi ) Kako su X i N p (0, Σ) vrijedi Σ X i N p (0, I p ), pa je W w p (n + m ). Primijetimo da sa Z i W definiranim kao u (6) i (7) možemo pisati n + m T = Z W Z 9

te ako još definiramo δ := Σ (µ τ) n + m možemo iskoristiti propoziciju.5. Sada slijedi n + m p Z W Z F (p, n + m p ; p δ ) n + m p p.3 Omjer vjerodostojnosti n + m T F (p, n + m p ; δ ) Neka su X, X,..., X n nezavisni jednakodistribuirani slučajni vektori td X i N p (µ, Σ), Σ > 0. Tražimo test omjera vjerodostojnosti za testiranje hipoteze: gdje je H 0 : θ Θ 0 H 0 : µ = τ H : θ / Θ 0 H : µ τ Θ = Θ 0 Θ = {(µ 0, µ, Σ) : µ 0, µ M p,, Σ M n, Σ > 0} Θ 0 = {(µ 0, µ 0, Σ) : µ 0 M p,, Σ M n, Σ > 0} Θ = Θ c 0 Definicija.. Omjer vjerodostojnosti definiramo sa Λ = max L(θ) θ Θ 0 max L(θ) θ Θ pri čemu je L(θ) funkcija vjerodostojnosti. Zatim, sa X označimo matrični zapis uzorka, pa je funkcija distribucije od X jednaka { } f(x) = (π) np det(σ) n exp n (X i µ) Σ (X i µ) i= L(µ, Σ) = (π) np det(σ) n exp { tr(gσ )( n } )(X µ) Σ (X µ) pri čemu je G = (n )S. Takoder znamo da je ˆµ MLE = X i ˆΣ MLE = n n S = n G. L(ˆµ, ˆΣ) = (π) np det(ˆσ) n np e l(ˆµ, ˆΣ) = np log(π) n log det(ˆσ) np 0

Primijenimo sada gornje razmatranje na uzorke sa početka zadatka,tj. na x, x,..., x n i y, y,..., y m. Uzorci su nezavisni pa je: L(θ) =L(µ 0, µ, Σ) = (π) (n+m)p det(σ) n+m e tr(gxσ )tr(g yσ )( n )(x µ0) Σ (x µ 0)( m )(y µ) Σ (y µ ) l(µ 0, µ, Σ) = log(π) (n+m)p n + m log det(σ) tr((g x G y )Σ ) n (x µ 0) Σ (x µ 0 ) m (y µ ) Σ (y µ ) Maksimizramo funkciju l(µ 0, µ, Σ). Ekvivalentan problem je minimizacija funkcije g(µ 0, µ, Σ) = (n + m) log det(σ) + tr((g x G y )Σ )+ + (x µ 0 ) Σ (x µ 0 ) + m(y µ ) Σ (y µ ) A g je minimalna za ˆµ 0 = x, ˆµ = y i ˆΣ = n+m (G x + G y ) L(ˆµ 0, ˆµ, ˆΣ) = (π) (n+m)p det(ˆσ) n+m e (n+m)p Uzmimo sada θ Θ 0, tj. pretpostavljamo nultu hipotezu. Analogno slijedi L(θ) = L(µ 0, µ 0, Σ) = (π) (n+m)p det(σ) n+m e tr(gxσ )tr(g yσ )( n )(x µ0) Σ (x µ 0)( m )(y µ0) Σ (y µ 0) l(µ 0, µ 0, Σ) = log(π) (n+m)p n + m log det(σ) tr((g x G y )Σ ) n (x µ 0) Σ (x µ 0 ) m (y µ 0) Σ (y µ 0 ) Ponovo maksimiziramo l(µ 0, µ 0, Σ). Maksimum se postiže za ˆµ 0 = nx + my n + m ˆΣ 0 = n + m (G x + G y + ( n + m ) (x y)(x y) ) L(ˆµ 0, ˆµ, ˆΣ 0 ) = (π) (n+m)p det(ˆσ 0 ) n+m e (n+m)p

Pa je Λ = L(µ 0, µ 0, Σ) L(ˆµ 0, ˆµ, ˆΣ 0 ) = (detˆσ 0 ) n+m (detˆσ) n+m = ( n+m (G x + G y + ( n + m ) (x y)(x y) ) n+m (G x + G y ) = [Tehnička lema] ) n+m = det(i + ( n + m ) (x y) (G x G y ) (x y) m+n = det(i + ( n + m ) (x y) ((n + m )S pool ) (x y) m+n Λ = ( + n + m T ) m+n Peta jednakost slijedi iz tehničke leme za A = (G x G y ) (x y) i B = ( n + m ) (x y). Izračunajmo p-vrijednost testa omjera vjerodostojnosti. Ona je definirana na sljedeći način pv = P(Λ c) Zatim primijetimo da je omjer vjerodostojnosti strogo monotona funkcija od T m+n. Definiramo strogo padajuću funkcijuf(t) = ( + n+m t). Očito je Λ = f(t ). pv = P(Λ c) = P(f(T ) c) = P(T f (c)) pv = P( n + m p p(n + m ) T n + m p p(n + m ) f (c)) Pod pretpostavkom H 0 hipozete tj. n + m p p n + m T F (p, n + m p ) za dobivanje p-vrijednosti sada je dovoljno izračunati gornju vjerojatnost.

3 Primjer Dani su podaci o težinama triju grupa štakora. Prvoj grupi je stavljen Thyroxin u vodu, drugoj Thiouracil, a treća grupa je bila kontrolna grupa. Težine su mjerene tjedno tokom 5 tjedana i izražene su u gramima. Ispitajte jednakost očekivanja izmedu danih skupina. Thyroxin Time0 Time Time Time3 Time4 59 85 56 9 54 7 90 0 38 56 75 08 5 89 59 85 6 48 77 57 7 97 0 44 5 73 97 6 40 5 70 05 38 7 Thiouracil Time0 Time Time Time3 Time4 6 86 09 0 9 59 80 0 53 79 00 06 33 59 88 00 5 75 0 3 40 5 75 9 00 9 56 78 95 03 08 58 69 93 4 38 46 6 78 90 07 53 7 89 04 Control Time0 Time Time Time3 Time4 57 86 4 39 7 60 93 3 46 77 5 77 44 85 49 67 00 9 64 56 8 04 5 46 70 0 3 53 5 7 94 0 4 63 9 30 54 49 67 90 40 57 8 0 39 69 3. Normalnost podataka Kako bi smo ispitali jednakost očekivanja izmedu svake dvije skupine štakora, moramo koristiti omjer vjerodostojnost koji smo izveli u prethodnom poglavlju, a prvi korak do provodenja tog testa je ispitivanje da li podaci dolaze iz normalne distribucije. 3.. Normalost podataka skupine Thyroxin Jedan od dobrih indikatora normalnosti podataka je normalni vjerojatnosni graf. Na slici su dani normalni vjerojatnosni grafovi za podatke iz skupine Thyroxin. 3

Nolmalne vjerojastnosne grafove smo nacrtali u programskom jeziku R koristeći naredbe qqnorm(x) i qqline(y). Primjer koda za skupinu štakora kojima su davali Thyroxin u početnom mjerenju (Time0): > qqnorm ( t ( Thyroxin [ ] ), main = Time 0, sub= Thyroxin, xlab=, ylab= ) > q q l i n e ( t ( Thyroxin [ ] ), c o l= blue ) Zatim provodimo testove normalnosti. Koristimo Kolmogorov-Smirnovljev te Shapiro Wilkinsov test normalnosti. Ukoliko dobimo da je p-vrijednost manje od 0 % odbaciti ćemo hipotezu o normalnosti očekivanja. Dati ćemo primjer samo sa Time 0. import numpy import scipy.stats as stats x=numpy.loadtxt( Thy.txt,delimiter=, ) m=stats.kstest(x[0], norm ) n=stats.shapiro(x[:,0]) Kolmogoro-Smirnovljev test nam je dao p vrijednost = 0.0, dok smo Shapiro Wilkinsovim testom dobili da je p vrijednost = 0.643790509. S obzirom da imamo malo podataka, K-S test nije najsretniji izbor, pa ćemo daljne odluke donositi na temelju Shapiro Wilkinsovog testa. Prokomentirajmo prvo grafički test. Podaci se lijepo grupiraju oko pravca uz manja odstupanja na rubovima, pa naslučijemo da podaci dolaze iz normalne distribucije, a to nam dodatno potvrduje i p-vrijednost dobivena S-W testom koja je veća od 0., pa ne odbacujemo nultu hipotezu o normalnosti podataka. Slično dobimo i za ostale Timove, jedinu razliku nam čini Time gdje smo dobili da je 4

p vrijednost = 0.0387846000, pa ćemo u ovom slučaju odbaciti nultu hipotezu o normalnosti podataka. 3.. Normalost podataka skupine Thiouracil Normalne vjerojatnosne grafove smo dobili korištenjem naredbi qqnorm(x) i qqline(y) u R-u. import numpy import scipy.stats as stats x=numpy.loadtxt( Thi.txt,delimiter=, ) n=stats.shapiro(x[:,0]) Jednako kao i kod testiranja normalnosti kod skupine Thyroxin i ovdje provodimo Shapiro Wilkinsov test. Za Time 0 dobivamo p vrijednost = 0.643790509. Slično dobivamo i za ostala vremena, pa u svim slučajevima ne odbacujemo hipotezu o onormalnosti podataka. 5

3..3 Normalost podataka skupine Control Ponovo provodenem Shapiro-Wilkinsovog test, te grafičkim ispitivanjem normalnosti podataka, ne odbacujemo nultu hipotezu o normalnosti podataka. 6

3. Provedba testa omjera vjerodostojnosti Sada kada smo provjerili da podaci više-manje dolaze iz normalne distribucije, možemo provesti test omjera vjerodostojnosti. Prvo usporedimo skupine Control i Thiouracil.(Kod je raden u programskom jeziku R). > ##omjer v j e r o d o s t o j n o s t i > # m=0, n=0, p=5 > #i n i c i j a l i z i r a m o uzoracke kov. matrice > S< c ( rep ( 0, 5 ) ) > S x< matrix ( S, nrow=5, n c o l =5) > S y< matrix ( S, nrow=5, n c o l =5) > > t h i mean< c (mean( t ( T h i o u r a c i l [ ] ) ), mean( t ( T h i o u r a c i l [ ] ) ), mean( t ( T h i o u r a c i l [ 3 ] ) ), mean( t ( T h i o u r a c i l [ 4 ] ) ), mean( t ( T h i o u r a c i l [ 4 ] ) ) ) > c mean< c (mean( t ( Control [ ] ) ), mean( t ( Control [ ] ) ), mean( t ( Control [ 3 ] ) ), mean( t ( Control [ 4 ] ) ), mean( t ( Control [ 5 ] ) ) ) > f o r ( i i n : 0 ) + S x < S x + ( t ( T h i o u r a c i l [ i,]) t h i mean)% % t ( t ( T h i o u r a c i l [ i,]) t h i mean) > S x< S x/ 9 > f o r ( i i n : 0 ) + S y < S y + ( t ( Control [ i,]) c mean) % % t ( t ( Control [ i,]) c mean) > S y < S y/ 9 > S pool < /(0+0 ) ((0 ) S x+(0 ) S y ) > T < ( / 0)ˆ( ) t ( t h i mean c mean)% % s o l v e ( S pool ) % %( t h i mean c mean) > lambda < (+( /(0+0 )) T)ˆ( 0/ ) > lambda [, ] [, ].73096 e 06 > ## f ˆ( )=( lambda ˆ( /m+n) )(n+m ) > t e s t n a s t a t < (0+0 5 )/((0+0 ) 5) ( lambdaˆ( / 0) ) (0+0 ) > pv < pf ( t e s t n a s tat, 5, 4 ) > pv [, ] [, ] 0.0007058 Dakle, dobili smo da je p-vrijednost jako mala, točnije jednaka je 0.0007058 pa odbacujemo H 0 hipotezu u korst H na svim razumnim razinama značajnosti, tj. očekivana težina štakora u grupi tretiranoj Thiouracilom i kontorlnoj grupi nije ista. Analogno se pokaže da očekivane težine štakora izmedu grupa Thiouracil i Thyroxin, te izmedu grupa Thyroxin i Control nisu jednake. u ovom primjeru radimo sa malim brojem podataka. Kada bi imali veći broj možda bi se i pokazalo da su svi podaci normalno distribuirani 7