Cwiczenie 3 - Rozkłady empiryczne i. teoretyczne

Podobne dokumenty
Cwiczenie 3 - Rozkłady empiryczne i. teoretyczne

Wnioskowanie Statystyczne - Ćwiczenia Michał Marosz Monday, February 23, 2015

g) wartość oczekiwaną (przeciętną) i wariancję zmiennej losowej K.

Estymacja parametrów w modelu normalnym

Wykład 15. Metody nieparametryczne. Elementy analizy wielowymiarowej Weryfikacja założenia o normalności rozkładu populacji

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

W4 Eksperyment niezawodnościowy

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

Wykład 7 Testowanie zgodności z rozkładem normalnym

1 Estymacja przedziałowa

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Spis treści 3 SPIS TREŚCI

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

Weryfikacja hipotez statystycznych

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Statystyka w przykładach

Statystyka matematyczna. Wykład VI. Zesty zgodności

Metody Statystyczne. Metody Statystyczne.

Prawdopodobieństwo i statystyka

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyka opisowa. Robert Pietrzykowski.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zwiększenie wartości zmiennej losowej o wartość stałą: Y=X+a EY=EX+a D 2 Y=D 2 X

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

W3 - Niezawodność elementu nienaprawialnego

Statystyka. Magdalena Jakubek. kwiecień 2017

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Rozkłady prawdopodobieństwa

Rozkłady statystyk z próby

Estymacja punktowa i przedziałowa

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

Instytut Fizyki Politechniki Łódzkiej Laboratorium Metod Analizy Danych Doświadczalnych Ćwiczenie 3 Generator liczb losowych o rozkładzie Rayleigha.

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Prawdopodobieństwo i statystyka

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

PODSTAWOWE ROZKŁADY ZMIENNYCH LOSOWYCH

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka matematyczna dla leśników

1 Podstawy rachunku prawdopodobieństwa

Rozkłady prawdopodobieństwa zmiennych losowych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Biostatystyka, # 3 /Weterynaria I/

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Estymacja parametrów rozkładu cechy

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Podstawowe modele probabilistyczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Testowanie hipotez statystycznych.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Zmienne losowe ciągłe i ich rozkłady

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Komputerowa analiza danych doświadczalnych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Zmienne losowe zadania na sprawdzian

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Rozkład Gaussa i test χ2

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Modelowanie systemów liczacych. Ćwiczenie 2.

Jednowymiarowa zmienna losowa

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Excel: niektóre rozkłady ciągłe (1)

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Statystyka w analizie i planowaniu eksperymentu

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

Kolokwium ze statystyki matematycznej

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Zawartość. Zawartość

Generowanie ciągów pseudolosowych o zadanych rozkładach wstęp do projektu

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Komputerowa analiza danych doświadczalnych

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Testowanie hipotez statystycznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Transkrypt:

Cwiczenie 3 - Rozkłady empiryczne i teoretyczne Michał Marosz 35 listopada 2015 1

Spis treści Rozkład empiryczny i dystrybuanta empiryczna 6 Estymacja parametrów rozkładów teoretycznych 8 Zmienne dyskretne - rozkłady teoretyczne 15 Rozkład Bernouli ego.................................. 15 Rozkład Poisson a................................... 16 Zmienne ciągłe - rozkłady teoretyczne 19 Rozkład Gauss a.................................... 19 Rozkład Gamma.................................... 19 Rozkład Weibull a................................... 19 Rozkład GEV (Generalized Extreme Value)..................... 19 Rozklady wykorzystywane często we wnioskowaniu statystycznym 20 Rozkład t-studenta................................... 20 Rozklad χ 2....................................... 20 Rozkład Fishera-Snedecora............................... 20 Przykład analizy z wykorzytaniem rozkładu Weibull a 21 2

Analiza właściwości zmiennych jest jednym z podstawowych zadan z jakimi przyjdzie sie Wam zmierzyć, w trakcie analizy danych. Dlatego rozpoczniemy od analizy rozkładów empirycznych a nastepnie wrowadzimy pojęcia i praktyczne zastosowanie dostepnych w R rozkladów teoretycznych, które najczęściej znajduja zastosowanie w analizach z zakresu Klimatologii. W R dostępnych jest cala gama rozkladów teoretycznych. Wystarczy w pomocy Rstudio wpisac distributions i otrzymamy dostęp do do informacji z tego zakresu. Istotnym jest aby nauczyć sie zadawać R odpowiednie pytania w analizach rozkladów. I tak, jeżeli chcemy uzyskać informację o wartości gęstości prawdopodobieństwa w określonym rozkładzie i dla konkretnej wartości skrót nazwy rozkładu poprzedzimy literą d (od Density) np. wpisując: dnorm(3, 2, 1.5) ## [1] 0.2129653 jako rezultat otrzymamy prawdopodobieństwo wystapienia wartości zmiennej 3, jeżeli ma ona rozklad normalny (Gauss a) o µ = 2 i σ = 1.5. Można to graficznie przedstawic w sposob nastepujący: curve(dnorm(x, 2, 1.5), xlim=c(-3, 7), col=2, lwd=2, add=f) abline(v=3, h=dnorm(3, 2, 1.5), lty=3) box(lwd=2) 3

dnorm(x, 2, 1.5) 0.00 0.05 0.10 0.15 0.20 0.25 2 0 2 4 6 x Kolejną informację której możemy pożądać stanowi wartość prawdopodobieństwa, że przy założeniu okreslonego rozkładu przekroczona zostanie (lub też nie), określona wartość. Wówczas posłuzymy się przedrostkiem p np.: pnorm(3, 2, 1.5) ## [1] 0.7475075 udzieli nam to odpowiedzi na pytanie jakie jest prawdopodobieństwo że w rozkładzie normalnym o µ = 2 i σ = 1.5 wartość będzie niższa od 3. Jeżeli natomiast interesuje nas to, czy będzie ona wieksza uzyjemy dodatkowego argumentu lower.tail=false np.: pnorm(3, 2, 1.5, lower.tail = FALSE) ## [1] 0.2524925 można oczywiście wykorzystac poprzedni kod ale wynik trzeba odjąc od 1. 4

1-pnorm(3, 2, 1.5) ## [1] 0.2524925 Np. analizzujemy rozkład wartości średniej dobowej temperatury powietrza dla jednego z miesięcy letnich. Załóżmy, ze jest to rozkład normalny o µ = 15 i σ = 3.2. jakie jest prawdopodobieństwo, że średnia dobowa temperatura powietrza spadnie poniżej 10 pnorm(10, 15, 3.2) ## [1] 0.05908512 albo ze przekroczy 22 pnorm(22, 15, 3.2, lower.tail = FALSE) ## [1] 0.01435302 Można oczywiście przemnożyc wynik przez 100 i ladnie zaokrąglić, aby otrzymac wartość w % round(100*pnorm(22, 15, 3.2, lower.tail = FALSE), digits=1) ## [1] 1.4 Kolejnym z pytań które można zadawać R odnosi się do wartości o konkretnym prawdopodobieństwie przekroczenia, czyli innymi słowy poszukujemy wartości kwantyla. W tym wyapdku nasz predrostek to q a dla rozkładu normalnego o µ = 15 i σ = 3.2 o wartość której prawdopodobieństwo przekroczenia wynosi 1% można zapytać się w sposób nastepujący: 5

qnorm(0.99, 15, 3.2) ## [1] 22.44431 lub z uwgzlędnieniem argumentu lower.tail qnorm(0.01, 15, 3.2, lower.tail = FALSE) ## [1] 22.44431 Rozkład empiryczny i dystrybuanta empiryczna Rozkład empiryczny zazwyczaj przedstawia sie z wykorzystaniem histogramu natomiast dystrybuante empiryczną z wykorzystaniem funkcji ecdf Utwórznmy wektor 100 losowych wartości o rozkładzie normalnym o µ = 15 i σ = 3.2 set.seed(1000) data=rnorm(50, 15, 3.2) hist(data, prob=t) 6

Histogram of data Density 0.00 0.05 0.10 0.15 10 15 20 data Aby dodać do powyższego histogramu dystrybuantę empiryczną posłużymy sie funkcją ecdf hist(data, prob=t, ylim=c(0,1)) plot(ecdf(data), vertical=false, pch="", add=t, lwd=2) ## Warning in segments(ti.l, y, ti.r, y, col = col.hor, lty = lty, lwd = ## lwd, : 'vertical' nie jest parametrem graficznym 7

Histogram of data Density 0.0 0.2 0.4 0.6 0.8 1.0 10 15 20 data Estymacja parametrów rozkładów teoretycznych W przypadku rozkładu normalnego (Gauss a) estymacja parametrów nie nastręcza większych problemów. Średnia µ oraz odchylenie standardowe σ są wysttarczająco dorymi estymatorami parametrów rozkladu normalnego. Jednak dla pozostałych rozkladów niezbędne jest posłużenie sie dodatkowymi funkcjami pozwalającymi na dopasowanie parametrów rozkładów w tym celu niezbędne jest zainstalowanie paczki fitdistplus Dopasujmy parametry rozkładu Gaussa za pomocą funkcji fitdist do temperatur powietrza w kwietniu. dane=read.table("air.txt", header=t) attach(dane) temp04=temp[which(mc==4)] hist(temp04) 8

Histogram of temp04 Frequency 0 5 10 15 4 6 8 10 temp04 policzmy wartość średnią µ oraz odchylenie standardowe σ mean(temp04) ## [1] 7.184375 sd(temp04) ## [1] 1.564408 Teraz spawwdzmy jakie wartości parametrów dopasuje funkcja fitdis z wykorzystaniem metody najwiekszej wiarygodności (mle), będącej standardem we współczesnych analizach. Wpiszmy nastepujący kod: 9

library("fitdistrplus", lib.loc="~/r/x86_64-pc-linux-gnu-library/3.2") ## Loading required package: MASS normal_fit = fitdist(temp04, dnorm, method = "mle") Zwróćcie uwagę wynik analiz jest obiektem, ktory można poddać dalszej analizie w celu oceny dopadowania np.: plot(normal_fit) Empirical and theoretical dens. Q Q plot Density 0.00 0.20 4 6 8 10 Empirical quantiles 4 7 10 4 6 8 10 Data Theoretical quantiles CDF 0.0 0.6 Empirical and theoretical CDFs 4 6 8 10 Empirical probabilities 0.0 0.6 P P plot 0.0 0.2 0.4 0.6 0.8 1.0 Data Theoretical probabilities Można również wyciągnąc wartości parametrów ze zmiennej estimate będącej jedna ze składowych obiektu. 10

normal_fit$estimate ## mean sd ## 7.184375 1.552138 Teraz możemy wykreślic ponownie histogram i dodac do niego krzywą rozkładu normalnego wykreslona na podstawie dopasowanych parametrów. Wypreparujmy je najpierw z obiektu mean04=as.numeric(normal_fit$estimate[1]) sd04=as.numeric(normal_fit$estimate[2]) hist(temp04, prob=t, xlim=c(0,14)) curve(dnorm(x, mean04, sd04), add=t, col=2, lwd=2) Histogram of temp04 Density 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10 12 14 temp04 Istnieje również klasa wykresów przeznaczona specjalnie do wizualnego porównywania rozkadów empirycznych z teoretycznym normalnym: qqnorm 11

qqnorm(temp04) qqline(temp04, col=2, lwd=2) Normal Q Q Plot Sample Quantiles 4 5 6 7 8 9 10 11 2 1 0 1 2 Theoretical Quantiles Weryfikację jakości dopasowania można przeprowadzić wizualnie za pomocą uprzednio wywołanej funkcji plot/qqnorm lub zaprząc do tego nieco bardziej sformalizowane testy np.: Shapiro-Wilk a shapiro.test shapiro.test(temp04) ## ## Shapiro-Wilk normality test ## ## data: temp04 ## W = 0.98799, p-value = 0.7913 Dla jasności wygenerujmy dane o rozkładzie innym niż normalny i sprawdzmy wykresy oraz wartości z powyższego testu. 12

set.seed(1000) dane_weibull=rweibull(1000, 1.3, 2.5) hist(dane_weibull, prob=t, xlim=c(-5, 12)) curve(dnorm(x, mean(dane_weibull), sd(dane_weibull)), col=2, lwd=2, add=t) Histogram of dane_weibull Density 0.00 0.10 0.20 5 0 5 10 dane_weibull qqplot(dane_weibull, rnorm(1000, mean(dane_weibull), sd(dane_weibull))) abline(0,1, col=2, lwd=2) 13

rnorm(1000, mean(dane_weibull), sd(dane_weibull)) 2 0 2 4 6 0 2 4 6 8 10 dane_weibull shapiro.test(dane_weibull) ## ## Shapiro-Wilk normality test ## ## data: dane_weibull ## W = 0.90707, p-value < 2.2e-16 14

Zmienne dyskretne - rozkłady teoretyczne Rozkład Bernouli ego Prawdopodobieństo osiągnięcia dokładnie k sukcesów w n próbach jest okreslone jako f(k; n, p) = Pr(X = k) = ( ) n p k (1 p) n k k dla k = 0, 1, 2,..., n, gdzie: ( ) n = k n! k!(n k)! Na przykład jeżeli prawdopodobieństwo jednostkowego sukcesu wynosi 0.3 to wówczas PDF oraz CDF dla 10 prób wyglądają następująco: barplot(dbinom(0:10, 10, 0.3), names=0:10, col="black", ylim=c(0, 1)) barplot(pbinom(0:10, 10, 0.3), names=0:10,add=t, col=rgb(1,0,0,0.5)) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 8 9 10 Zadanie: Załóżmy, że posiadamy 150 letnią serię informacji o zamarzaniu akwenu X. W tym czasie wystąpiło 17 lat w których zamarzł on całkowicie uniemożliwiając żegluge. Wykorzystując rozklad dwumianowy oblicz 15

a) że zamarznie on w ciągu dekady 3 razy lub więcej b) że zamarznie on conajwyżej 2 razy Rozkład Poisson a f(k, λ) = λk e λ k! gdzie: e jest podstawą logarytmu naturalnego (e = 2,71828... ) k jest liczbą wystąpień zdarzenia - prawdopodobieństwo, dane funkcją k! jest silnią k λ jest dodatnią liczbą rzeczywistą, równą oczekiwanej liczbie zdarzeń w danym przedziale czasu plot(dpois(0:20, 1), ylim=c(0,0.40), type="l", lwd=2, ylab="pdf", xlab="liczba wystąpień") lines(dpois(0:20, 4), col=2, lwd=2) lines(dpois(0:20, 10), col=3, lwd=2) legend(15, 0.4, legend=c("lambda=1", "lambda=4", "lambda=10"), lwd=c(2,2,2), col=c(1,2,3), box.lty = 0) 16

PDF 0.0 0.1 0.2 0.3 0.4 lambda=1 lambda=4 lambda=10 5 10 15 20 Liczba wystąpień plot(ppois(0:20, 1), ylim=c(0,1), type="l", lwd=2, ylab="cdf", xlab="liczba wystąpień") lines(ppois(0:20, 4), col=2, lwd=2) lines(ppois(0:20, 10), col=3, lwd=2) legend(15, 0.8, legend=c("lambda=1", "lambda=4", "lambda=10"), lwd=c(2,2,2), col=c(1,2,3), box.lty = 0) 17

CDF 0.0 0.2 0.4 0.6 0.8 1.0 lambda=1 lambda=4 lambda=10 5 10 15 20 Liczba wystąpień Zadanie: Załóżmy że obserwacje wykazały, iż przeciętnie w sezonie letnim (VI-VIII) wystepuje 5,4 burze. Wykorzystując funkcje dostepne w R oblicz jakie jest prawdopodobieństwo, że w sezonie letnim wystapi ponad 10 burz. 18

Zmienne ciągłe - rozkłady teoretyczne Rozkład Gauss a f(x µ, σ) = 1 σ (x µ) 2 2π e 2σ 2 Rozkład Gamma f(x; k, θ) = xk 1 e x θ θ k Γ(k) for x > 0 and k, θ > 0. Rozkład Weibull a ( ) k 1 k x λ λ e (x/λ) k x 0, f(x; λ, k) = 0 x < 0, Rozkład GEV (Generalized Extreme Value) 19

Rozklady wykorzystywane często we wnioskowaniu statystycznym Rozkład t-studenta Rozklad χ 2 Rozkład Fishera-Snedecora 20

Przykład analizy z wykorzytaniem rozkładu Weibull a Załóżmy, że naszym zadaniem jest dopasowanie parametrów rozkładu Wiebull a do danych odnoszących się do prędkości wiatru w określonym punkcie. Wczytajmy dane dane = read.table("data.txt", header=t) Dołączmy obiekt dane w celu łatwiejszego korzystania z zawartych w nim zmiennych attach(dane) ## Następujący obiekt został zakryty z dane (pos = 5): ## ## MC Zobaczmy jak wygląda rozklad empiryczny danych hist(vel) 21

Histogram of VEL Frequency 0 2000 6000 10000 oraz wykres liniowy 0 5 10 15 20 25 30 35 VEL plot(vel, type="l") VEL 0 5 10 15 20 25 30 35 0 10000 20000 30000 40000 50000 60000 Index Cykl roczny danych 22

boxplot(vel~mc) 0 5 10 15 20 25 30 35 1 2 3 4 5 6 7 8 9 10 11 12 Nauczmy się rysowac osobne histogramy dla pór roku z wykorzsytaniem pętli for par(mfrow=c(2,2)) for(i in c("zima", "WIOSNA", "LATO", "JESIEN")) { hist(vel[which(season == i)], prob=t, main= i, xlab=expression(ms^-1), breaks=seq(0, 40, 2.5), col=2 ) } 23

ZIMA WIOSNA Density 0.00 0.06 Density 0.00 0.08 0 10 20 30 40 0 10 20 30 40 ms 1 ms 1 LATO JESIEN Density 0.00 0.08 Density 0.00 0.06 0 10 20 30 40 0 10 20 30 40 ms 1 ms 1 Dokonajmy przykładowego dopasowania i jego analizy dla sezonu zimowego. Wczytajmy teraz bibliotekę fitdistplus w celu estymacji parametrów rozkladu Weibull a. Sprawdzmy uprzedimo w helpie jakie parametry będziemy estymować fit_wei_djf = fitdist(vel[which(season== "ZIMA")], distr = "weibull", method = "mle") plot(fit_wei_djf) 24

Empirical and theoretical dens. Q Q plot Density 0.00 0.06 0 5 10 15 20 25 30 35 Empirical quantiles 0 15 30 0 10 20 30 Data Theoretical quantiles CDF 0.0 0.6 Empirical and theoretical CDFs 0 5 10 15 20 25 30 35 Empirical probabilities 0.0 0.6 P P plot 0.0 0.2 0.4 0.6 0.8 1.0 Data Theoretical probabilities Odczytanie parametrów odbywa się poprzez zapytanie odnośnie jednego z obiektów w dopasowanym modelu (obiekcie: fit_wei_djf). Jeżeli rozwiniecie szczegóły zobaczycie, że jest tam obiekt estimate który składa się z dwóch liczb. Liczby te to dopasowane parametry rozkładu Weibull a fit_wei_djf$estimate ## shape scale ## 1.93162 10.92883 Jak widać mamy dwa parametry: shape - kształtu oraz scale - skali. aby wykorzystać je jako wartości liczbowe, np. w kresleniu dopasowanego rozkładu na histogramie, lub określaniu wartości kwantyli należy wykorzytac polecenie as.numeric 25

parametry_djf = as.numeric(fit_wei_djf$estimate) do tego obiektu możemy odwoływac sie juz bezpośrednio parametry_djf ## [1] 1.93162 10.92883 Wykreślmy histogram z dopadowanym rozkładem Weibulla, resetując uprzednio parametry graficzne R. dev.off() ## null device ## 1 hist(vel[which(season== "ZIMA")], prob=t, xlab=expression(ms^-1), main="zima") curve(dweibull(x, parametry_djf[1], parametry_djf[2]), add=t, col=2, lwd=2) ZIMA Density 0.00 0.02 0.04 0.06 0 5 10 15 20 25 30 35 ms 1 26

Jak widac, dopasowanie jest bardzo dobre. Obliczmy w takim razie wartości kwantyli o okreslonym prawdopodobieństwie przekroczenia. Np. 1% qweibull(0.99, parametry_djf[1], parametry_djf[2]) ## [1] 24.0955 Interpretacja: raz na sto przypadków prędkość wiatru przekroczy w sezonie zimowym 24ms-1.. Nalezy przy tym uwzględnić rozdzielczość czasową danych (w tym wyapdku 6h). Czyli w miesiącu mamy 124 (31 dniowy) lub 120 (30 dniowy) pomiarów. Tak więc takie wartości będa przekraczane przynajniej raz w miesiącu. Można oczywiście obliczyć kwantyle wyższych rzędów np.: 0.999, 0.9999. Mozna to wykonać za jednym zamachem wpisując określone wartości bezpośrednio w funkcji qweibull(c(0.99, 0.999, 0.9999), parametry_djf[1], parametry_djf[2]) ## [1] 24.09550 29.72340 34.49684 Otrzymamy wowczas wartości kwantyli o prawdopodobieństwie przekroczenia: 1%, 0.1% oraz 0.01% czyli takich które wystapią 1/100, 1/1000 oraz 1/10000 pomiarów. Zadanie: Na podstawie otrzymanych danych. Dopasuj parametry rozkladu Weibull a dla poszczególnych miesięcy oraz dokonaj analizy wystepowania ekstremalnych wartości prędkości wiatru w cyklu rocznym. Wykorzystaj R, przygotuj wykresy i tabele, a analize graficzną okraś opisem na 2000 znaków. 27