Cwiczenie 3 - Rozkłady empiryczne i. teoretyczne

Podobne dokumenty
Cwiczenie 3 - Rozkłady empiryczne i. teoretyczne

Wnioskowanie Statystyczne - Ćwiczenia Michał Marosz Monday, February 23, 2015

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Wykład 7 Testowanie zgodności z rozkładem normalnym

Wykład 15. Metody nieparametryczne. Elementy analizy wielowymiarowej Weryfikacja założenia o normalności rozkładu populacji

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Spis treści 3 SPIS TREŚCI

Estymacja parametrów w modelu normalnym

Statystyka matematyczna. Wykład VI. Zesty zgodności

Statystyka w przykładach

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

1 Estymacja przedziałowa

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

g) wartość oczekiwaną (przeciętną) i wariancję zmiennej losowej K.

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

W4 Eksperyment niezawodnościowy

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Metody Statystyczne. Metody Statystyczne.

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Weryfikacja hipotez statystycznych

TABLICE PODSTAWOWYCH ROZKŁADÓW PRAWDOPODOBIEŃSTWA. T4. Tablica kwantyli rozkładu chi-kwadrat (I część - poziomy kwantyli 0,5)

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Estymacja punktowa i przedziałowa

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Statystyka opisowa. Robert Pietrzykowski.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Statystyka matematyczna dla leśników

Testowanie hipotez statystycznych.

1 Podstawy rachunku prawdopodobieństwa

Rozkłady statystyk z próby

Rozkłady prawdopodobieństwa

Zawartość. Zawartość

Kolokwium ze statystyki matematycznej

Zwiększenie wartości zmiennej losowej o wartość stałą: Y=X+a EY=EX+a D 2 Y=D 2 X

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Laboratorium nr 3 z wielowymiarowej analizy danych Daniel Kosiorowski

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Z poprzedniego wykładu

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Testowanie hipotez statystycznych.

Podstawowe modele probabilistyczne

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez statystycznych.

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Pobieranie prób i rozkład z próby

METODY STATYSTYCZNE. Studia stacjonarne, semestr zimowy 2017/2018. Motto III: In God we trust. All others must bring data (z internetu)

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Prawdopodobieństwo i statystyka

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Ekonometria. Zajęcia

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Estymacja parametrów rozkładu cechy

Komputerowa analiza danych doświadczalnych

Dokładne i graniczne rozkłady statystyk z próby

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Estymacja przedziałowa. Przedział ufności

Własności statystyczne regresji liniowej. Wykład 4

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Prawdopodobieństwo i statystyka

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Transkrypt:

Cwiczenie 3 - Rozkłady empiryczne i teoretyczne Michał Marosz 31 października 2015 1

Spis treści Rozkład empiryczny i dystrybuanta empiryczna 6 Estymacja parametrów rozkładów teoretycznych 8 Zmienne dyskretne - rozkłady teoretyczne 15 Rozkład Bernouli ego.................................. 15 Rozkład Poisson a................................... 15 Zmienne ciągłe - rozkłady teoretyczne 16 Rozkład Gauss a.................................... 16 Rozkład Gamma.................................... 16 Rozkład Weibull a................................... 16 Rozkład GEV (Generalized Extreme Value)..................... 16 Rozklady wykorzystywane często we wnioskowaniu statystycznym 17 Rozkład t-studenta................................... 17 Rozklad χ 2....................................... 17 Rozkład Fishera-Snedecora............................... 17 2

Analiza właściwości zmiennych jest jednym z podstawowych zadan z jakimi przyjdzie sie Wam zmierzyć, w trakcie analizy danych. Dlatego rozpoczniemy od analizy rozkładów empirycznych a nastepnie wrowadzimy pojęcia i praktyczne zastosowanie dostepnych w R rozkladów teoretycznych, które najczęściej znajduja zastosowanie w analizach z zakresu Klimatologii. W R dostępnych jest cala gama rozkladów teoretycznych. Wystarczy w pomocy Rstudio wpisac distributions i otrzymamy dostęp do do informacji z tego zakresu. Istotnym jest aby nauczyć sie zadawać R odpowiednie pytania w analizach rozkladów. I tak, jeżeli chcemy uzyskać informację o wartości gęstości prawdopodobieństwa w określonym rozkładzie i dla konkretnej wartości skrót nazwy rozkładu poprzedzimy literą d (od Density) np. wpisując: dnorm(3, 2, 1.5) ## [1] 0.2129653 jako rezultat otrzymamy prawdopodobieństwo wystapienia wartości zmiennej 3, jeżeli ma ona rozklad normalny (Gauss a) o µ = 2 i σ = 1.5. Można to graficznie przedstawic w sposob nastepujący: curve(dnorm(x, 2, 1.5), xlim=c(-3, 7), col=2, lwd=2, add=f) abline(v=3, h=dnorm(3, 2, 1.5), lty=3) box(lwd=2) 3

dnorm(x, 2, 1.5) 0.00 0.05 0.10 0.15 0.20 0.25 2 0 2 4 6 x Kolejną informację której możemy pożądać stanowi wartość prawdopodobieństwa, że przy założeniu okreslonego rozkładu przekroczona zostanie (lub też nie), określona wartość. Wówczas posłuzymy się przedrostkiem p np.: pnorm(3, 2, 1.5) ## [1] 0.7475075 udzieli nam to odpowiedzi na pytanie jakie jest prawdopodobieństwo że w rozkładzie normalnym o µ = 2 i σ = 1.5 wartość będzie niższa od 3. Jeżeli natomiast interesuje nas to, czy będzie ona wieksza uzyjemy dodatkowego argumentu lower.tail=false np.: pnorm(3, 2, 1.5, lower.tail = FALSE) ## [1] 0.2524925 można oczywiście wykorzystac poprzedni kod ale wynik trzeba odjąc od 1. 4

1-pnorm(3, 2, 1.5) ## [1] 0.2524925 Np. analizzujemy rozkład wartości średniej dobowej temperatury powietrza dla jednego z miesięcy letnich. Załóżmy, ze jest to rozkład normalny o µ = 15 i σ = 3.2. jakie jest prawdopodobieństwo, że średnia dobowa temperatura powietrza spadnie poniżej 10 pnorm(10, 15, 3.2) ## [1] 0.05908512 albo ze przekroczy 22 pnorm(22, 15, 3.2, lower.tail = FALSE) ## [1] 0.01435302 Można oczywiście przemnożyc wynik przez 100 i ladnie zaokrąglić, aby otrzymac wartość w % round(100*pnorm(22, 15, 3.2, lower.tail = FALSE), digits=1) ## [1] 1.4 Kolejnym z pytań które można zadawać R odnosi się do wartości o konkretnym prawdopodobieństwie przekroczenia, czyli innymi słowy poszukujemy wartości kwantyla. W tym wyapdku nasz predrostek to q a dla rozkładu normalnego o µ = 15 i σ = 3.2 o wartość której prawdopodobieństwo przekroczenia wynosi 1% można zapytać się w sposób nastepujący: 5

qnorm(0.99, 15, 3.2) ## [1] 22.44431 lub z uwgzlędnieniem argumentu lower.tail qnorm(0.01, 15, 3.2, lower.tail = FALSE) ## [1] 22.44431 Rozkład empiryczny i dystrybuanta empiryczna Rozkład empiryczny zazwyczaj przedstawia sie z wykorzystaniem histogramu natomiast dystrybuante empiryczną z wykorzystaniem funkcji ecdf Utwórznmy wektor 100 losowych wartości o rozkładzie normalnym o µ = 15 i σ = 3.2 set.seed(1000) data=rnorm(50, 15, 3.2) hist(data, prob=t) 6

Histogram of data Density 0.00 0.05 0.10 0.15 10 15 20 data Aby dodać do powyższego histogramu dystrybuantę empiryczną posłużymy sie funkcją ecdf hist(data, prob=t, ylim=c(0,1)) plot(ecdf(data), vertical=false, pch="", add=t, lwd=2) ## Warning in segments(ti.l, y, ti.r, y, col = col.hor, lty = lty, lwd = ## lwd, : 'vertical' nie jest parametrem graficznym 7

Histogram of data Density 0.0 0.2 0.4 0.6 0.8 1.0 10 15 20 data Estymacja parametrów rozkładów teoretycznych W przypadku rozkładu normalnego (Gauss a) estymacja parametrów nie nastręcza większych problemów. Średnia µ oraz odchylenie standardowe σ są wysttarczająco dorymi estymatorami parametrów rozkladu normalnego. Jednak dla pozostałych rozkladów niezbędne jest posłużenie sie dodatkowymi funkcjami pozwalającymi na dopasowanie parametrów rozkładów w tym celu niezbędne jest zainstalowanie paczki fitdistplus Dopasujmy parametry rozkładu Gaussa za pomocą funkcji fitdist do temperatur powietrza w kwietniu. dane=read.table("air.txt", header=t) attach(dane) temp04=temp[which(mc==4)] hist(temp04) 8

Histogram of temp04 Frequency 0 5 10 15 4 6 8 10 temp04 policzmy wartość średnią µ oraz odchylenie standardowe σ mean(temp04) ## [1] 7.184375 sd(temp04) ## [1] 1.564408 Teraz spawwdzmy jakie wartości parametrów dopasuje funkcja fitdis z wykorzystaniem metody najwiekszej wiarygodności (mle), będącej standardem we współczesnych analizach. Wpiszmy nastepujący kod: 9

library("fitdistrplus", lib.loc="~/r/x86_64-pc-linux-gnu-library/3.2") ## Loading required package: MASS normal_fit = fitdist(temp04, dnorm, method = "mle") Zwróćcie uwagę wynik analiz jest obiektem, ktory można poddać dalszej analizie w celu oceny dopadowania np.: plot(normal_fit) Empirical and theoretical dens. Q Q plot Density 0.00 0.20 4 6 8 10 Empirical quantiles 4 7 10 4 6 8 10 Data Theoretical quantiles CDF 0.0 0.6 Empirical and theoretical CDFs 4 6 8 10 Empirical probabilities 0.0 0.6 P P plot 0.0 0.2 0.4 0.6 0.8 1.0 Data Theoretical probabilities Można również wyciągnąc wartości parametrów ze zmiennej estimate będącej jedna ze składowych obiektu. 10

normal_fit$estimate ## mean sd ## 7.184375 1.552138 Teraz możemy wykreślic ponownie histogram i dodac do niego krzywą rozkładu normalnego wykreslona na podstawie dopasowanych parametrów. Wypreparujmy je najpierw z obiektu mean04=as.numeric(normal_fit$estimate[1]) sd04=as.numeric(normal_fit$estimate[2]) hist(temp04, prob=t, xlim=c(0,14)) curve(dnorm(x, mean04, sd04), add=t, col=2, lwd=2) Histogram of temp04 Density 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10 12 14 temp04 Istnieje również klasa wykresów przeznaczona specjalnie do wizualnego porównywania rozkadów empirycznych z teoretycznym normalnym: qqnorm 11

qqnorm(temp04) qqline(temp04, col=2, lwd=2) Normal Q Q Plot Sample Quantiles 4 5 6 7 8 9 10 11 2 1 0 1 2 Theoretical Quantiles Weryfikację jakości dopasowania można przeprowadzić wizualnie za pomocą uprzednio wywołanej funkcji plot/qqnorm lub zaprząc do tego nieco bardziej sformalizowane testy np.: Shapiro-Wilk a shapiro.test shapiro.test(temp04) ## ## Shapiro-Wilk normality test ## ## data: temp04 ## W = 0.98799, p-value = 0.7913 Dla jasności wygenerujmy dane o rozkładzie innym niż normalny i sprawdzmy wykresy oraz wartości z powyższego testu. 12

set.seed(1000) dane_weibull=rweibull(1000, 1.3, 2.5) hist(dane_weibull, prob=t, xlim=c(-5, 12)) curve(dnorm(x, mean(dane_weibull), sd(dane_weibull)), col=2, lwd=2, add=t) Histogram of dane_weibull Density 0.00 0.10 0.20 5 0 5 10 dane_weibull qqplot(dane_weibull, rnorm(1000, mean(dane_weibull), sd(dane_weibull))) abline(0,1, col=2, lwd=2) 13

rnorm(1000, mean(dane_weibull), sd(dane_weibull)) 2 0 2 4 6 0 2 4 6 8 10 dane_weibull shapiro.test(dane_weibull) ## ## Shapiro-Wilk normality test ## ## data: dane_weibull ## W = 0.90707, p-value < 2.2e-16 14

Zmienne dyskretne - rozkłady teoretyczne Rozkład Bernouli ego Rozkład Poisson a 15

Zmienne ciągłe - rozkłady teoretyczne Rozkład Gauss a Rozkład Gamma Rozkład Weibull a Rozkład GEV (Generalized Extreme Value) 16

Rozklady wykorzystywane często we wnioskowaniu statystycznym Rozkład t-studenta Rozklad χ 2 Rozkład Fishera-Snedecora 17