Laboratorium nr 3 z wielowymiarowej analizy danych Daniel Kosiorowski

Podobne dokumenty
Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Cwiczenie 3 - Rozkłady empiryczne i. teoretyczne

Wykład 15. Metody nieparametryczne. Elementy analizy wielowymiarowej Weryfikacja założenia o normalności rozkładu populacji

Wykład 7 Testowanie zgodności z rozkładem normalnym

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

NAZWA ZMIENNEJ LOSOWEJ PODAJ WARTOŚĆ PARAMETRÓW ROZKŁADU PRAWDOPODOBIEŃSTWA DLA TEJ ZMIENNEJ

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testy nieparametryczne

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

S t a t y s t y k a, część 3. Michał Żmihorski

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka matematyczna. Wykład VI. Zesty zgodności

Analizy wariancji ANOVA (analysis of variance)

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

author: Andrzej Dudek

Ćwiczenia IV

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Statystyczna analiza danych

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Ćwiczenie komputerowe 2 testy t-studenta. Program Statistica

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Statystyka w przykładach

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Metody Statystyczne. Metody Statystyczne.

1 Estymacja przedziałowa

1 Podstawy rachunku prawdopodobieństwa

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

author: Andrzej Dudek

Wydział Matematyki. Testy zgodności. Wykład 03

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Podstawy statystyki matematycznej w programie R

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

STATYSTYKA

Wykład 9 Wnioskowanie o średnich

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Ekonometria. Zajęcia

QualitySpy moduł persystencji

Własności statystyczne regresji liniowej. Wykład 4

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Przykład 1. (A. Łomnicki)

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Testowanie hipotez statystycznych etc

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Badanie normalności rozkładu

Testowanie hipotez statystycznych.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Zaliczenie na ocenę 0,5 0,5

METODY STATYSTYCZNE. Studia stacjonarne, semestr zimowy 2017/2018. Motto III: In God we trust. All others must bring data (z internetu)

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Wykład Ćwiczenia Laboratorium Projekt Seminarium 30

Weryfikacja hipotez statystycznych

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Metodologia badań psychologicznych. Wykład 12. Korelacje

Zawartość. Zawartość

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

Cwiczenie 3 - Rozkłady empiryczne i. teoretyczne

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Ekonometria. Weryfikacja modelu. Paweł Cibis 12 maja 2007

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Oszacowanie i rozkład t

RADON zmierz to sam!

Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

SYTUACJA SPOŁECZNO EKONOMICZNA W ŁODZI 2014

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Wykład 9 Testy rangowe w problemie dwóch prób

Zadania ze statystyki, cz.6

Regresja liniowa wprowadzenie

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

rok 2006/07 Jacek Jarnicki,, Kazimierz Kapłon, Henryk Maciejewski

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Prawdopodobieństwo i statystyka

Transkrypt:

1 ROZGRZEWKA # znane testy istotności 1D w programie R #test studenta t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95,...) x<-rgamma(50,shape=2,scale=1) t.test(x,alternative="greater",conf.level=0.9) komentarz:. x <- 1:10 y <- c(7:20, 200) boxplot(x,y, horizontal=t) t.test(x, y) komentarz:. t.test(1:10,y=c(7:20)) wilcox.test(x,y) komentarz:.. # test Kołmogorowa Smirnowa ks.test( rnorm(100), 1+rnorm(100) ) ks.test( rnorm(100), rnorm(100) ) # test Shapiro Wilka shapiro.test(rnorm(10))$p.value shapiro.test(runif(10))$p.value x<-rnorm(100) qqnorm(x) qqline(x,col="red", lwd=3,cex=2) y <- rnorm(100)^2 qqnorm(y, main="kwadrat zmiennej N(0,1)") qqline(y,col="red", lwd=3) ZADANIE: W jaki sposób w programie R można przeprowadzić test zgodności 2? Sample Quantiles -3-2 -1 0 1 2 Sample Quantiles 0 1 2 3 4 5 6 7 Normal Q-Q Plot -2-1 0 1 2 Theoretical Quantiles kwadrat zmiennej N(0,1) -2-1 0 1 2 Theoretical Quantiles PRZYKŁAD 16 OPERACJE NA MACIERZY DANYCH CD W systemie MOODLE mamy zbiór danych DGP_1 dotyczący liczby popełnionych przestępstw i wykroczeń w podregionach Polski w latach 2006-2007 z uwzględnieniem kategorii przestępstwa tzn. KR kryminalne, G gospodarcze, Z przeciwko zdrowiu, WO przeciw wolności, RO przeciw rodzinie, MIE mieniu, DRO drogowe, oraz ich wykrywalności WY, faktycznej liczby ludności - LL, stopy bezrobocia - BEZR, przeciętnego wynagrodzenia brutto WYN. 1. Załadować plik do programu R 2. Liczby przestępstw i wykroczeń podzielić przez liczby ludności w regionach 3. Usunąć z macierzy danych zmienną LL2006

2 DGP_1$KR2007=DGP_1$KR2007/DGP_1$LL2006 #liczba przestępstw/ liczba ludności# DGP_1$GO2007=DGP_1$GO2007/DGP_1$LL2006 DGP_1$Z2006=DGP_1$Z2006/DGP_1$LL2006 DGP_1$WO2006=DGP_1$WO2006/DGP_1$LL2006 DGP_1$RO2006=DGP_1$RO2006/DGP_1$LL2006 DGP_1$MIE2006=DGP_1$MIE2006/DGP_1$LL2006 DGP_1$DRO2006=DGP_1$DRO2006/DGP_1$LL2006 DGP_2=DGP_1[,-10] #usuwamy kolumnę nr 10 DGP_3=data.frame(DGP_2,row.names=DGP_2[,1]) #ramka danych z nazwami przypadków DGP_3=DGP_3[,-1] names(dgp_3)=c("","","","","","","","trace","","") #zmieniamy nazwy przypadków# UŻYTECZNE METODY WIZUALIZACJI MACIERZY ROZRZUTU library(psych) #pakiet warto sobie doinstalować ellipses(dgp_3,smooth=false) ellipses(dgp_3[,1:7],smooth=false,r=1) multi.hist(dgp_3[,-8],dcol=c("red","blue"),dlty=c("solid","solid"),lwd=2,bcol="green") COR.M<-cor(DGP_3) #liczymy macierz korelacji cor.plot(cor.m,labels=c("","","","","","","","trace","","")) 0.002 0.0010 0.010 0.002 0.008 0.0010 0.010 0.030 0.61 0.06 0.59 0.48 0.14-0.08 0.15 0.17 0.00 0.31-0.12 0.67 0.50 0.44-0.03 0.45 0.52-0.06 0.05 0.14-0.54 2e-08 6e-08 0.0006 0.0016 0.0004 0.0014 0.002 0.008 2e-08 0.0006 0.0004 0.002..

3 0e+00 1e-08 4e-08 7e-08 0 200 0.002 0.006 0.010 0 1500 0.0004 0.0010 0.0016 0 800 0 1000 0 40 80 0.0005 0.0015 0.0004 0.0010 0.0016 0.005 0.020 0.035 0 150 0.002 0.006 0.010 0.00 0.06 0 5 10 20 30 0.0000 2000 3000.. Correlation plot TRACE TRACE 1 0.8 0.6 0.4 0.2 0-0.2-0.4-0.6-0.8-1

4 PRZYKŁAD 17 #ESTYMACJA JĄDROWA ESTYMACJA JADROWA 1D 0.0000 0.0010 1500 2000 2500 3000 3500 4000 0.00 0.06 0 10 20 30 GUS2006$ GUS2006$ 0 20 40 60 0.00 0.01 0.02 0.03 0.04 0.05 0.00 0.03 20 40 60 80 GUS2006$CRI GUS2006$TRACE ESTYMACJA JĄDROWA 2D h = ( 0.000178, 3.55 ) h = ( 0.00269, 1.91 ) GUS2006. GUS2006. 0.0006 0.0010 0.0014 GUS2006. 0.010 0.020 0.030 GUS2006. h = ( 0.00085, 2.65 ) h = ( 5.14, 2.6 ) GUS2006. GUS2006. 0.002 0.004 0.006 0.008 GUS2006. 40 50 60 70 80 GUS2006.TRACE

5 #piszemy własną funkcję przeznaczoną do estymacji jądrowej gęstości prawdopodobieństwa proba<-rnorm(100) kernel.x<-function(x,proba){ n<-length(proba) pasmo<-sd(proba)*(n^(-1/5)) wart<-c() for (i in 1: length(proba)) wart[i]<-dnorm((x-proba[i])/pasmo) wyn<-sum(wart) dziel<-1/(pasmo*length(proba)) wyn*dziel } #sprawdzamy działanie naszej funkcji y<-seq(-5,5,length=100) gest<-c() for (i in 1: length(y)){ gest[i]<-kernel.x(y[i],proba)} plot(y,gest,type="l") lines(y,dnorm(y),col="red") PRZYKŁAD 18 #porównanie średniej i mediany z próby library(lattice) x<-rnorm(1000,10,10) densityplot(x,lwd=2,cex.lab=1.6) Z<-matrix(nrow=1000,ncol=10) for (i in 1:1000) Z[i,]<-rnorm(10,10,10) means<-apply(z,1,mean) medians<-apply(z,1,median) densityplot(means,lwd=2,cex.lab=1.6,col=2) boxplot(means,medians,cex.axis=2) zadanie 18.1: Porównaj w analogiczny sposób środek rozstępu oraz 10% przyciętą średnią. ZADANIE DLA AMBITNYCH STUDENTÓW NR 2 Co to jest diagram Voronoi, jak się go konstruuje, w jaki sposób można go utworzyć w programie R. Czy dostrzegasz możliwość zastosowania diagramów Voronoi w ekonomii? Wskazówka: sprawdź pakiet dodatkowy R {tripack}