Środowisko R Założenie normalności metody nieparametryczne Wykład R4; 4.06.07 Weryfikacja założenia o normalności rozkładu populacji



Podobne dokumenty
Wykład 15. Metody nieparametryczne. Elementy analizy wielowymiarowej Weryfikacja założenia o normalności rozkładu populacji

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Estymacja parametrów w modelu normalnym

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Wykład 9 Testy rangowe w problemie dwóch prób

Wykład 7 Testowanie zgodności z rozkładem normalnym

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Wykład 10 Testy jednorodności rozkładów

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

3. Podstawowe pojęcia statystyki matematycznej i rachunku prawdopodobieństwa wykład z Populacja i próba

Testowanie hipotez statystycznych.

Statystyka matematyczna. Wykład VI. Zesty zgodności

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Testowanie hipotez statystycznych.

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Testowanie hipotez statystycznych.

Testy nieparametryczne

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Wydział Matematyki. Testy zgodności. Wykład 03

166 Wstęp do statystyki matematycznej

Zmienne losowe. dr Mariusz Grzadziel. rok akademicki 2016/2017 semestr letni. Katedra Matematyki, Uniwersytet Przyrodniczy we Wrocławiu

Kolokwium ze statystyki matematycznej

Przedmiot statystyki. Graficzne przedstawienie danych.

Statystyka matematyczna dla leśników

POLITECHNIKA WARSZAWSKA

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wykład 11: Podstawowe pojęcia rachunku prawdopodobieństwa

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wykład 13. Podstawowe pojęcia rachunku prawdopodobieństwa

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Z Wikipedii, wolnej encyklopedii.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Statystyka opisowa- cd.

Dyskretne zmienne losowe

Wykłady 14 i 15. Zmienne losowe typu ciągłego

Wykład 9 Wnioskowanie o średnich

Analizy wariancji ANOVA (analysis of variance)

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Testowanie hipotez statystycznych

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Wykład 13. Zmienne losowe typu ciągłego

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Wykład 10: Elementy statystyki

S t a t y s t y k a, część 3. Michał Żmihorski

Wykład 3 Hipotezy statystyczne

Weryfikacja hipotez statystycznych

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Statystyczna analiza danych

Hipotezy statystyczne

Cwiczenie 3 - Rozkłady empiryczne i. teoretyczne

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Zadanie 1. Analiza Analiza rozkładu

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Testowanie hipotez. 1 Testowanie hipotez na temat średniej

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Przykład 1 ceny mieszkań

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Weryfikacja hipotez statystycznych

Hipotezy statystyczne

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Zmienne losowe ciągłe i ich rozkłady

Testowanie hipotez statystycznych.

Statystyka matematyczna i ekonometria

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Przedmiot statystyki. Graficzne przedstawienie danych.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Transkrypt:

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; 4.06.07 Weryfikacja założenia o normalności rozkładu populacji Dane są obserwacje x 1, x 2,..., x n. Czy można założyć, że x 1, x 2,..., x n jest realizacją próby prostej z rozkładu normalnego N(µ, σ) dla pewnych µ i σ? Metody weryfikacji założenia o normalności: Sporządzenie histogramu i porówanie jego kształtu z krzywą dzwonową (wykresem funkcji φ.) Sporządzenie wykresu ramkowego i odpowiednia jego interpretacja Sporządzenie wykresu kwantylowego i odpowiednia jego interpretacja. Testy zgodości: Shapiro Wilka i inne. 1

Wykres kwantylowy Uporządkowany ciąg obserwacji x 1,..., x n oznaczamy przez x 1:n,..., x n:n. Niech x 1:n = x 1:n m s,..., x n:n = x n:n m, s gdzie m onacza średnią z próby, a s odchylenie standardowe z próby. Jeśli założymy, że x 1,..., x n pochodzą z rozkładu normalnego, to x 1:n, x 2:n,..., powinny być sensownymi przybliżeniami kwantyli q 1/n, q 2/n,... (rzędu 1 n, rzędu 2 n itd.) rozkładu N(0, 1); stąd punkty (x 1:n, q 1/n ), (x 2:n, q 2/n ) powinny się układać wokół (pewnej) prostej ; analogicznie punkty: (x 1:n, q 1/n ), (x 2:n, q 2/n ),... (1) również powinny się układać wokół prostej.wykres przedstawiający punkty (1) jest nazywany wykresem kwantylowym. 2

W praktyce zamiast kwantyli rzędu i/n wyznacza się np. kwantyle rzędu i/(n + 1); w ten sposób unikamy problemu z n-tym punktem! Wykres kwantylowy odbiegający od prostej : założenie o normalności rozkładu, z którego pochodzą x 1,..., x n, należy odrzucić. Szczegóły dotyczące sprządzania rozkładu kwantylowego można znaleźć w [KM01,par.3.4.2]. 3

Wykres kwantylowy obliczenia Rozważmy dane dotyczące cen mieszkań w dzielnicy A. Chcemy zweryfikować założenie o normalności rozkładu zmiennej losowej, którą jest cena losowo wybranego mieszkania w dzielnicy A. Wykres kwantylowy dla rozważanych danych można otrzymać wydając polecenia: y=c(65,80,139,180,355,158,240,205,265,305,200,155, 209,310,149,254,188,265,275,200,184,130,260,250,195) # dane dotyczace cen mieszkan zostaly zapisane do zm. y qqnorm(y,datax=true,main="", xlab="",ylab="")# wykres... qqline(y,datax=true) # dodaje odpowiednia prosta 4

Ceny mieszkań w A 100 150 200 250 300 350 2 1 0 1 2 Rysunek 1: Wykres kwantylowy dla danych dotyczących cen mieszkań w A 5

Test Shapiro Wilka i inne testy zgodności Zgodność z rozkładem normalnym można weryfikować za pomocą testu Shapiro-Wilka. Załóżmy, że X 1, X 2,..., X n są losową próbą prostą z rozkładu ciągłego. Jesteśmy zainteresowani weryfikacją hipotezy przeciw H 0 : X i, i = 1,..., n mają rozkład N(µ, σ) dla pewnych µiσ; H 1 : rozkład zmiennych X i, i = 1,..., n nie jest rozkładem normalnym. Do weryfikacji tej hipotezy można zastosować test Shapiro-Wilka. Test ten bazuje na idei wykresu kwantylowego. Więcej informacji o teście Shapiro-Wilka; można znaleźć w [KM01,par. 3.4.2]. Inne testy zgodności z rozkładem normalnym: w pakiecie R-owskim nortest. 6

Test Shapiro Wilka: przykład obliczeń W zmiennej y zapisane są wartości cen mieszkań w dzielnicy A. > y [1] 65 80 139 180 355 158 240 205 265 305 200 155 209 310 [20] 200 184 130 260 250 195 > shapiro.test(y) Shapiro-Wilk normality test data: y W = 0.9849, p-value = 0.962 p-wartość jest równa 0,962 nie ma podstaw do odrzucenia hipotezy o zgodności z rozkładem normalnym. 7

Porównanie rozkładów dwóch populacji sytuacja nieparametryczna Rozważmy następujące dane dotyczące ceny metra kwadratowego mieszkań 2-pokojowych w dzielnicach SM i PP miasta W: vsm<-c(6602,10612,9459,6644,7679,6644,14787,8000,6450, 5929,8865,6650,6500,7077,7182,6500,7609,12200,7981,6644) vpp<-c(7402,7000,7470,7524,6000,7381,6568,6800,6870,6667, 7553,5978,6458,7000,6563,7157,7983) Ceny są podane w zł.; dane zostały zapisane do wektorów vsm i vpp. 8

Normal Q Q Plot Sample Quantiles 6000 8000 10000 12000 14000 2 1 0 1 2 Theoretical Quantiles Rysunek 2: Wykres kwantylowy dla danych dotyczących cen mieszkań 2- pokojowych w dzielnicy SM 9

Normal Q Q Plot Sample Quantiles 6000 6500 7000 7500 8000 2 1 0 1 2 Theoretical Quantiles Rysunek 3: Wykres kwantylowy dla danych dotyczących cen mieszkań 2- pokojowych w dzielnicy PP 10

Weryfikacja założenia normalności test Shapiro-Wilka > shapiro.test(vsm) Shapiro-Wilk normality test data: vsm W = 0.7597, p-value = 0.0002297 > shapiro.test(vpp) Shapiro-Wilk normality test data: vpp W = 0.9691, p-value = 0.8029 11

Test Wilcoxona Założenie o normalności rozkładu cen mieszkań oferowanych do sprzedaży w dzielnicy SM należy odrzucić. Z dostępnych informacji dotyczących dzielnic SM i PP można wnioskować, że średnia cena mieszkań w SM nie może być niższa niż średnia cena mieszkań w PP. Odpowiednim narzędziem, które można zastosować do porówania średnich dla populacji odpowiadających cenom mieszkań w dzielnicy SM i PP, byłby nieparametryczny odpowiednik testu t-studenta dla dwóch prób, dla jednostronnej hipotezy alternatywnej. 12

Test Wilcoxona Jesteśmy zainteresowani weryfikacją hipotezy przeciwko hipotezie H 1 : H 0 : F = G H 1 : G(x) F (x) dla każdego x R oraz G F, gdzie F i G są dystrybuantami porównywanych populacji. Zauważmy, że przy założeniu, że F odpowiada rozkładowi N(µ 1, σ) a G rozkładowi N(µ 2, σ) hipotezy H 0 i H 1 odpowiadają hipotezom H 0 i H 1 : H 0 : µ 1 = µ 2 oraz H 1 : µ 1 µ 2. 13

Niech F SM oznacza dystrybuantę cen mieszkań (oferowanych do sprzedaży) w dzielnicy SM a F P P oznacza dystrybuantę cen mieszkań oferowanych do sprzedaży w dzielnicy PP. Aby zweryfikować hipotezę H 0 : F SM = F P P przeciwko H 1 : F SM (x) F P P (x) dla każdego x i F SM (x) F P P można użyć polecenia wilcox.test 14

Ceny mieszkań w dzielnicach... obliczenia > wilcox.test(vsm,vpp,alternative="greater") Wilcoxon rank sum test with continuity correction data: vsm and vpp W = 204, p-value = 0.1536 alternative hypothesis: true mu is greater than 0 Warning message: cannot compute exact p-value with ties in: wilcox.test.default(vsm, vpp, alternative = "greater") Wniosek: nie ma podstaw do odrzucenia hipotezy o równości rozkładów cen mieszkań oferowanych do sprzedaży w dzielnicach SM i PP. 15

Lektura uzupełniajaca [KM01] Koronacki, J., Mielniczuk, J. Statystyka dla studentów kierunków technicznych i przyrodniczych. WNT. Warszawa 2001, s. 111 118. 16