Bioinformatyka V. Analiza Danych w Języku R

Wielkość: px
Rozpocząć pokaz od strony:

Download "Bioinformatyka V. Analiza Danych w Języku R"

Transkrypt

1 Bioinformatyka V Analiza Danych w Języku R

2 ANALIZA DANYCH Metody statystyczne analizy danych eksploracja danych testowanie hipotez analiza Bayesowska Metody uczenia maszynowego Uczenie nadzorowane Uczenie nienadzorowane

3 R Język programowania obiektowy funkcyjny wektorowy Środowisko do analizy danych istnieją implementacje ~wszystkich metod statystycznych pakiety wbudowane pakiety dodatkowe większość metod uczenia maszynowego wiele metod wizualizacji danych

4 R oprogramowanie open source duże i prężne środowisko użytkowników i developerów de facto standard w statystyce coraz częściej standard w uczeniu maszynowym mnóstwo narzędzi bioinformatycznych (Bioconductor) dostępny na Windows, Linux, Mac środowisko terminalowe i praca wsadowa środowisko zintegrowane łatwa automatyzacja rutynowych zadań

5 R open source community de facto standard field in sta`s`cs emerging standard in machine learning many bioinforma`cs tools implemented e.g. BioconductoR available for all major plaaorms: Windows, Linux, Mac command line interface integrated environment easy automa`on of rou`ne tasks

6 R >?iris

7 R >?iris

8 R >?iris

9 R >?iris

10 KALKULATOR > 2+2 [1] 4 > [1] 177

11 KALKULATOR > 2+2*3 [1] 8 > (2+2)*3 [1] 12

12 KALKULATOR > sqrt(2+2*3) [1] > (2+2*3)^0.333 [1] > (2+2*3)^(1/3) [1] 2 >

13 ZMIENNE > 2+2->FOUR > FOUR [1] 4 > FOUR^2 [1] 16 > FOUR_bis <- 2+2 > FOUR_t = 2+2

14 WEKTORY > myvec<-c(2,1,3,4,5) > myvec [1] > myvec*3 [1] > myvec*3->newvec > newvec [1] >

15 LISTY > student1<-c(imie= Adam",Nazwisko="Abacki",Przedmiot="Bioinformatyka", OcenaKolokwium="5",OcenaEgzamin="5") > student2<-c(imie= Bogdan",Nazwisko="Babacki",Przedmiot="Bioinformatyka", OcenaKolokwium="4",OcenaEgzamin="4") > team1<-list(student1,student2) > team1 [[1]] Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin "Adam" "Abacki" "Bioinformatyka" "5" "5" [[2]] Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin "Bogdan" "Babacki" "Bioinformatyka" "4" "4" >

16 TABLICE > Team2<-c(student1,student2) > Team2 Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin "Adam" "Abacki" "Bioinformatyka" "5" "5" "Bogdan" "Babacki" "Bioinformatyka" "4" "4" > dim(team2)<-c(5,2) > Team2 [,1] [,2] [1,] "Adam" "Bogdan" [2,] "Abacki" "Babacki" [3,] "Bioinformatyka" "Bioinformatyka" [4,] "5" "4" [5,] "5" "4" > t(team2) [,1] [,2] [,3] [,4] [,5] [1,] "Adam" "Abacki" "Bioinformatyka" "5" "5" [2,] "Bogdan" "Babacki" "Bioinformatyka" "4" "4"

17 TABLICE > t(team2)->team2 > colnames(team2)<c("imie","nazwisko","przedmiot","ocenakolokwium","ocenaegzamin") > rownames(team2)<-c("student1","student2") > Team2 Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin student1 "Adam" "Abacki" "Bioinformatyka" "5" "5" student2 "Bogdan" "Babacki" "Bioinformatyka" "4" "4"

18 TABLICE > Team2<-t(Team2) > Team2 student1 student2 Imie "Adam" "Bogdan" Nazwisko "Abacki" "Babacki" Przedmiot "Bioinformatyka" "Bioinformatyka" OcenaKolokwium "5" "4" OcenaEgzamin "5" "4" > data.frame(team2)->team2

19 RAMKI > data.frame(team2)->team2 > Team2$student1 Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin Adam Abacki Bioinformatyka 5 5 Levels: 5 Abacki Adam Bioinformatyka

20 RAMKI > Team2$student3<-c("Cyprian","Cebacki","Bioinformatyka",3,3) > Team2 student1 student2 student3 Imie Adam Bogdan Cyprian Nazwisko Abacki Babacki Cebacki Przedmiot Bioinformatyka Bioinformatyka Bioinformatyka OcenaKolokwium OcenaEgzamin 5 4 3

21 RAMKI > Team2$student4<-c("Damian","Debacki","Bioinformatyka",NA,NA) > Team2 student1 student2 student3 student4 Imie Adam Bogdan Cyprian Damian Nazwisko Abacki Babacki Cebacki Debacki Przedmiot Bioinformatyka Bioinformatyka Bioinformatyka Bioinformatyka OcenaKolokwium <NA> OcenaEgzamin <NA>

22 SEKWENCJA > 1:10 [1] > seq(from=0,to=11,by=1) [1] > seq(from=0,to=111,by=11) [1] > seq(from=0.02,to=1.03,by=0.15) [1] >> seq(from=0,to=0,length.out=20) [1]

23 RAMKI > Team2 student1 student2 student3 student4 Imie Adam Bogdan Cyprian Damian Nazwisko Abacki Babacki Cebacki Debacki Przedmiot Bioinformatyka Bioinformatyka Bioinformatyka Bioinformatyka OcenaKolokwium <NA> OcenaEgzamin <NA> > Team2[1:2,] student1 student2 student3 student4 Imie Adam Bogdan Cyprian Damian Nazwisko Abacki Babacki Cebacki Debacki

24 RAMKI > Team2[2:3,] student1 student2 student3 student4 Nazwisko Abacki Babacki Cebacki Debacki Przedmiot Bioinformatyka Bioinformatyka Bioinformatyka Bioinformatyka > Team2[c(2,4),] student1 student2 student3 student4 Nazwisko Abacki Babacki Cebacki Debacki OcenaKolokwium <NA> > Team2[c("Nazwisko","OcenaEgzamin"),] student1 student2 student3 student4 Nazwisko Abacki Babacki Cebacki Debacki OcenaEgzamin <NA> > 4 <NA>

25 RAMKI > Team2[,c(2,4)] student2 student4 Imie Bogdan Damian Nazwisko Babacki Debacki Przedmiot Bioinformatyka Bioinformatyka OcenaKolokwium 4 <NA> OcenaEgzamin 4 <NA> > Team2[c("student3","student1")] student3 student1 Imie Cyprian Adam Nazwisko Cebacki Abacki Przedmiot Bioinformatyka Bioinformatyka OcenaKolokwium 3 5 OcenaEgzamin 3 5

26 SAMPLE > sample(1:150,10) [1] > dim(iris) [1] > sample(1:150,10)->mysample > MySample [1]

27 SAMPLE > MySample [1] > iris[mysample,] Sepal.Length Sepal.Width Petal.Length Petal.Width Species versicolor versicolor versicolor setosa virginica setosa setosa setosa virginica setosa

28 RAMKI > MySample [1] > order(mysample) [1] > MySample[order(MySample)] [1]

29 RAMKI > MySample [1] > order(mysample) [1] > MySample[order(MySample)] [1] > iris[mysample[order(mysample)],] Sepal.Length Sepal.Width Petal.Length Petal.Width Species setosa setosa setosa setosa setosa versicolor versicolor versicolor virginica virginica >

30 RAMKI > IrisSample [1] > order(irissample) [1] > IrisSample[order(IrisSample)] [1] > iris[irissample[order(irissample)],]->iris20 > iris20 Sepal.Length Sepal.Width Petal.Length Petal.Width Species setosa setosa setosa setosa setosa setosa setosa versicolor versicolor versicolor versicolor versicolor versicolor versicolor virginica virginica virginica virginica virginica virginica

31 RAMKI > iris[mysample[order(mysample)],]->iris10 > iris10$sepal.dim<-iris10$sepal.length+iris10$sepal.width > iris10 Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Dim setosa setosa setosa setosa setosa versicolor versicolor versicolor virginica virginica 8.2 >

32 RAMKI > iris10$petal.dim<-iris10$petal.length+iris10$petal.width > iris10$petal.radius<sqrt(iris10$petal.length*iris10$petal.length+iris10[,4]*iris10[,4]) > iris10$sepal.radius<-sqrt(iris10[,1]*iris10[,1]+iris10[,2]*iris10[,2]) > iris10 Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Dim Petal.Dim Petal.Radius Sepal.Radius setosa setosa setosa setosa setosa versicolor versicolor versicolor virginica virginica >

33 RAMKI > Iris$Sepal.Dim<-Iris$Sepal.Length+Iris$Sepal.Length > Iris$Petal.Dim<-Iris$Petal.Length+Iris$Petal.Width > Iris$Sepa.Radius<-sqrt(Iris[,1]*Iris[,1]+Iris[,2]*Iris[,2]) > Iris$Petal.Radius<-sqrt(Iris[,3]*Iris[,3]+Iris[,4]*Iris[,4]) > Iris[1:10,] Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Dim Petal.Dim Sepa.Radius Petal.Radius setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa

34 RAMKI > Iris[1:10,] Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Dim Petal.Dim Sepa.Radius Petal.Radius setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa > names(iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species" "Sepal.Dim" "Petal.Dim" "Sepa.Radius" "Petal.Radius" [1] "Sepal.Dim" > names(iris)[8] [1] "Sepa.Radius" > names(iris)[8]<-"sepal.radius"

35 > plot(iris[,6:9]) Sepal.Dim PLOTS Petal.Dim Sepal.Radius Petal.Radius

36 PLOTS > plot(iris[,6:9],col=as.numeric(iris$species)) Sepal.Dim Petal.Dim Sepal.Radius Petal.Radius

37 BOXPLOTS > boxplot(iris[1:50,6],iris[51:100,6],iris[101:150,6])

38 > boxplot( Iris$Petal.Radius[1:50], Iris$Petal.Radius[51:100], Iris$Petal.Radius[101:150] ) PLOTS 1 2 3

39 PLOTS > boxplot( names=c( setosa","versicolor","virginica"), Iris$Petal.Radius[1:50], Iris$Petal.Radius[51:100], Iris$Petal.Radius[101:150] ) setosa versicolor virginica

40 PLOTS > plot(iris$petal.length,iris$petal.width,col=as.numeric(iris$species)) Iris$Petal.Width Iris$Petal.Length

41 PLOTS > plot(iris20$radius,iris20$sepal.length,col=as.numeric(iris20$species)) Petal Length Radius

42 PLOTS > plot( xlab="petal Length, ylab="petal Width, Iris$Petal.Length, Iris$Petal.Width, col=as.numeric(iris$species) ) Petal Width Petal Length

43 > plot( xlab="petal Length, ylab="petal Width, Iris$Petal.Length, Iris$Petal.Width, col=as.numeric(iris$species), pch=as.numeric(iris$species)+16, cex=1.5) Petal Width PLOTS Petal Length

44 PLOTS >?plot Description Generic function for plotting of R objects. For more details about the graphical parameter arguments, see par. For simple scatter plots, plot.default will be used. However, there are plot methods for many R objects, including functions, data.frames, density objects, etc. Use methods(plot) and the documentation for these. Usage plot(x, y,...)

45 SCATTERPLOT >?plot3d No documentation for plot3d in specified packages and libraries: you could try??plot3d

46 SCATTERPLOT >?plot3d No documentation for plot3d in specified packages and libraries: you could try??plot3d >??plot3d

47 SCATTERPLOT >??plot3d > library(rgl) Komunikat ostrzegawczy: pakiet rgl został zbudowany w wersji R > plot3d(iris[,1:3])

48 SCATTERPLOT > plot3d(iris[,1:3],col=as.numeric(iris$species))

49 EKSPLORACJA histogram > hist(iris[,1]) > hist(iris[,2]) > hist(iris[,3]) > hist(iris[,4])

50 DATA EXPLORATION > boxplot(iris[,1:4]) > boxplot(iris[,1:4],notch=t)

51 TESTOWANIE HIPOTEZ H1 - hipoteza badawcza H0 - hipoteza alternatywna - wiedza podstawowa np. - wszystkie odmiany irysa mają takie same długości płatków

52 TESTOWANIE HIPOTEZ Procedura standardowa 1. Znajdź właściwy test statystyczny 2. Policz statystyki dla eksperymentu 3. Policz prawdopodobieństwo danych pod warunkiem prawdziwości H0 4. Jeżeli prawdopodobieństwo wygenerowania danych przy prawdziwości H0 jest mniejsze niż wcześniej ustalone kryterium (np 5%, 1%, 0.1%) odrzuć hipotezę zerową H0 - i zaakceptuj H1.

53 TESTOWANIE HIPOTEZ H1 - hipoteza badawcza H0 - hipoteza alternatywna - wiedza podstawowa H0: wszystkie odmiany irysa mają takie same długości płatków > boxplot(iris[iris$species=="setosa",3],iris[iris $Species=="virginica",3],iris[iris$Species=="versicolor",3])

54 TESTOWANIE HIPOTEZ Procedura standardowa 1. Znajdź właściwy test statystyczny 2. Policz statystyki dla eksperymentu 3. Policz prawdopodobieństwo danych pod warunkiem prawdziwości H0 4. Jeżeli prawdopodobieństwo wygenerowania danych przy prawdziwości H0 jest mniejsze niż wcześniej ustalone kryterium (np 5%, 1%, 0.1%) odrzuć hipotezę zerową H0 - i zaakceptuj H1. > y1<-iris[iris$species=="setosa",2] > y2<-iris[iris$species=="virginica",2] > y3<-iris[iris$species=="versicolor",2] > t.test(y1,y2) Welch Two Sample t-test data: y1 and y2 t = , df = , p-value = 4.571e-09 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

55 TESTOWANIE HIPOTEZ > y1<-iris[iris$species=="setosa",2] > y2<-iris[iris$species=="virginica",2] > y3<-iris[iris$species=="versicolor",2] > t.test(y1,y2) Welch Two Sample t-test data: y1 and y2 t = , df = , p-value = 4.571e-09 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

56 TESTOWANIE HIPOTEZ > t.test(y1,y3) Welch Two Sample t-test data: y1 and y3 t = 9.455, df = , p-value = 2.484e-15 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

57 TESTOWANIE HIPOTEZ > t.test(y2,y3) Welch Two Sample t-test data: y2 and y3 t = , df = , p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

58 BUDOWANIE MODELI iris$petal.width iris$petal.length

59 BUDOWANIE MODELI > lm(iris$petal.length~iris$petal.width)->iris.lm > iris.lm Call: lm(formula = iris$petal.length ~ iris$petal.width) Coefficients: (Intercept) iris$petal.width

60 BUDOWANIE MODELI Coefficients: (Intercept) iris$petal.width > plot(iris$petal.width,iris$petal.length) > abline(1.084,2.230) iris$petal.length iris$petal.width

61 BUDOWANIE MODELI > summary(iris.lm) Call: lm(formula = iris$petal.length ~ iris$petal.width) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** iris$petal.width <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 148 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16

62 BUDOWANIE MODELI Residuals vs Fitted > plot(iris.lm) Residuals Fitted values lm(iris$petal.length ~ iris$petal.width)

63 BUDOWANIE MODELI Normal Q-Q > plot(iris.lm) Standardized residuals Theoretical Quantiles lm(iris$petal.length ~ iris$petal.width)

64 BUDOWANIE MODELI Scale-Location > plot(iris.lm) Standardized residuals Fitted values lm(iris$petal.length ~ iris$petal.width)

65 BUDOWANIE MODELI Residuals vs Leverage > plot(iris.lm) Standardized residuals Cook's distance Leverage lm(iris$petal.length ~ iris$petal.width)

66 UCZENIE MASZYNOWE > library(randomforest) > randomforest(x=iris[,1:4],y=iris$species,ntree=2000,importance=t)- >rf.1 > rf.1 Call: randomforest(x = iris[, 1:4], y = iris$species, ntree = 2000, importance = T) Type of random forest: classification Number of trees: 2000 No. of variables tried at each split: 2 OOB estimate of error rate: 4.67% Confusion matrix: setosa versicolor virginica class.error setosa versicolor virginica

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona 3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi

Bardziej szczegółowo

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy Dane: Eksploracja (mining) Problemy: Jedna zmienna 2000 najwi ększych

Bardziej szczegółowo

Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy Dane: 2000 największych spółek światowych z 2004 (Forbes Magazine)

Bardziej szczegółowo

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4 Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4 Konrad Miziński, nr albumu 233703 31 maja 2015 Zadanie 1 Wartości oczekiwane µ 1 i µ 2 oszacowano wg wzorów: { µ1 = 0.43925 µ = X

Bardziej szczegółowo

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3 Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3 Konrad Miziński, nr albumu 233703 26 maja 2015 Zadanie 1 Wartość krytyczna c, niezbędna wyliczenia mocy testu (1 β) wyznaczono za

Bardziej szczegółowo

Analiza wariancji Piotr J. Sobczyk 19 November 2016

Analiza wariancji Piotr J. Sobczyk 19 November 2016 Analiza wariancji Piotr J. Sobczyk 19 November 2016 Zacznijmy zajęcia od klasycznego przykładu czyli testu Studenta dla dwóch prób. x 1,i N(µ 1, σ 2 ), i = 1,..., n 1 x 2,i N(µ 2, σ 2 ), i = 1,..., n 2

Bardziej szczegółowo

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich Magdalena Frąszczak Wrocław, 22.03.2017r Problem Behrensa Fishera Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego

Bardziej szczegółowo

Regresja liniowa w R Piotr J. Sobczyk

Regresja liniowa w R Piotr J. Sobczyk Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące

Bardziej szczegółowo

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015 Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015 Problem dwóch prób X = (X 1, X 2,..., X n ) - próba z rozkładu normalnego N (µ, σ 2 X ),

Bardziej szczegółowo

Testy dla dwóch prób w rodzinie rozkładów normalnych

Testy dla dwóch prób w rodzinie rozkładów normalnych Testy dla dwóch prób w rodzinie rozkładów normalnych dr Mariusz Grządziel Wykład 12; 18 maja 2009 Przykład Rozważamy dane wygenerowane losowo; ( podobne do danych z przykładu 7.2 z książki A. Łomnickiego)

Bardziej szczegółowo

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych Wykład 12 (21.05.07): Testy dla dwóch prób w rodzinie rozkładów normalnych Przykład Rozważamy dane wygenerowane losowo; ( podobne do danych z przykładu 7.2 z książki A. Łomnickiego) n 1 = 9 poletek w dąbrowie,

Bardziej szczegółowo

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy ANALIZA PORÓWNAŃ WIELOKROTNYCH GDY WARIANCJE SĄ NIERÓWNE lsales.bim

Bardziej szczegółowo

Wprowadzenie do R. log(1) ## [1] 0. sqrt(3) ## [1] sin(x = 2*pi) ## [1] e-16

Wprowadzenie do R. log(1) ## [1] 0. sqrt(3) ## [1] sin(x = 2*pi) ## [1] e-16 Wprowadzenie do R Poniższa notatka powstała na podstawie materiałów Kamila Dyby. Zacznijmy od rzeczy elementarnych czyli operacji na liczbach # Operacje arytmetyczne 1+1 2*2 3^2 5%%3 log(1) [1] 0 sqrt(3)

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 1 Prosta regresja liniowa - model i estymacja parametrów. Regresja z wieloma zmiennymi - analiza, diagnostyka i interpretacja wyników. Literatura pomocnicza J. Koronacki i J. Ćwik Statystyczne systemy

Bardziej szczegółowo

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago Model regresji wielokrotnej Wykład 14 (4.06.2007) Przykład ceny domów w Chicago Poniżej są przedstawione dane dotyczące cen domów w Chicago (źródło: Sen, A., Srivastava, M., Regression Analysis, Springer,

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej

Bardziej szczegółowo

S t a t y s t y k a, część 3. Michał Żmihorski

S t a t y s t y k a, część 3. Michał Żmihorski S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym Wrocław, 18.03.2016r Testowanie hipotez dla średniej w rozkładzie normalnym dla jednej próby Model 1 Testowanie hipotez dla

Bardziej szczegółowo

PAKIETY STATYSTYCZNE

PAKIETY STATYSTYCZNE . Wykład wstępny PAKIETY STATYSTYCZNE 2. SAS, wprowadzenie - środowisko Windows, Linux 3. SAS, elementy analizy danych edycja danych 4. SAS, elementy analizy danych regresja liniowa, regresja nieliniowa

Bardziej szczegółowo

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Wykład 10 (12.05.08). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego Przykład Cena metra kwadratowego (w tys. zł) z dla 14 losowo wybranych mieszkań w

Bardziej szczegółowo

Permutacyjna metoda oceny istotności regresji

Permutacyjna metoda oceny istotności regresji Permutacyjna metoda oceny istotności regresji (bez założenia normalności) f

Bardziej szczegółowo

Ekonometria dla IiE i MSEMat Z7

Ekonometria dla IiE i MSEMat Z7 Ekonometria dla IiE i MSEMat Z7 Rafał Woźniak Faculty of Economic Sciences, University of Warsaw Warszawa, 21-11-2016 Na podstawie zbioru danych cps_small.dat z książki Principles of Econometrics oszacowany

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017 Testowanie hipotez dla frakcji Wrocław, 29 marca 2017 Powtórzenie z rachunku prawdopodobieństwa Centralne Twierdzenie Graniczne Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu o średniej µ i skończonej

Bardziej szczegółowo

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015 Testowanie hipotez dla proporcji Wrocław, 13 kwietnia 2015 Powtórka z rachunku prawdopodobieństwa Centralne Twierdzenie Graniczne Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu o średniej µ i

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Kwadratowa analiza dyskryminacyjna Przykład analizy QDA Czasem nie jest możliwe rozdzielenie

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo

Regresja - zadania i przykłady.

Regresja - zadania i przykłady. Regresja - zadania i przykłady. W5 e0 Zadanie 1. Poniżej zamieszczono fragmenty wydruków dotyczących dopasowania modelu regresji do zmiennej ozone w oparciu o promieniowanie (radiation), oraz w oparciu

Bardziej szczegółowo

(LMP-Liniowy model prawdopodobieństwa)

(LMP-Liniowy model prawdopodobieństwa) OGÓLNY MODEL REGRESJI BINARNEJ (LMP-Liniowy model prawdopodobieństwa) Dla k3 y α α α α + x + x + x 2 2 3 3 + α x x α x x + α x x + α x x + ε + x 4 2 5 3 6 2 3 7 2 3 Zał.: Wszystkie zmienne interakcyjne

Bardziej szczegółowo

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym Wykład 3 Testowanie hipotez statystycznych o wartości średniej i wariancji z populacji o rozkładzie normalnym Wrocław, 08.03.2017r Model 1 Testowanie hipotez dla średniej w rozkładzie normalnym ze znaną

Bardziej szczegółowo

Linearna regresija. 7. prosinca 2012.

Linearna regresija. 7. prosinca 2012. Linearna regresija 7. prosinca 2012. > setwd("/home/marina/statisticki praktikum/vjezbe9") > forbes = read.table("forbes.dat") > hooker = read.table("hooker.dat") > forbes V1 V2 1 194.5 20.79 2 194.3 20.79

Bardziej szczegółowo

Analiza regresji Konspekt do zaj : Statystyczne metody analizy danych

Analiza regresji Konspekt do zaj : Statystyczne metody analizy danych Opis zaj Analiza regresji Konspekt do zaj : Statystyczne metody analizy danych Agnieszka Nowak-Brzezi«ska 28 pa¹dziernika 2009 Celem zaj jest realizacja praktyczna zagadnie«zwi zanych z analiz regresji,

Bardziej szczegółowo

Wykorzystanie diagramu łodyga i liście do analizy danych w środowisku R

Wykorzystanie diagramu łodyga i liście do analizy danych w środowisku R NR 259 BIULETYN INSTYTUTU HODOWLI I AKLIMATYZACJI ROŚLIN 2011 MAŁGORZATA TARTANUS 1 MARCIN KOZAK 2 AGNIESZKA WNUK 2 1 Instytut Ogrodnictwa, Skierniewice 2 Katedra Doświadczalnictwa i Bioinformatyki, Szkoła

Bardziej szczegółowo

Lepiej zapobiegać niż leczyć Diagnostyka regresji

Lepiej zapobiegać niż leczyć Diagnostyka regresji Anceps remedium melius quam nullum Lepiej zapobiegać niż leczyć Diagnostyka regresji Na tych zajęciach nauczymy się identyfikować zagrożenia dla naszej analizy regresji. Jednym elementem jest oczywiście

Bardziej szczegółowo

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza zależności cech ilościowych regresja liniowa (Wykład 13) Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny

Bardziej szczegółowo

Wykład 8 Dane kategoryczne

Wykład 8 Dane kategoryczne Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych

Bardziej szczegółowo

Diagnostyka modelu. Dowód [5.4] Dowód [ ]

Diagnostyka modelu. Dowód [5.4] Dowód [ ] Diagnostyka modelu Dowód [5.4] Dowód [5.5-5.6] Przykład > head(savings) sr pop15 pop75 dpi ddpi Australia 11.43 29.35 2.87 2329.68 2.87 Austria 12.07 23.32 4.41 1507.99 3.93 Belgium 13.17 23.80 4.43 2108.47

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Regresja - zadania i przykłady.

Regresja - zadania i przykłady. Regresja - zadania i przykłady. W5 e0 Zadanie 1. Poniżej zamieszczono fragmenty wydruków dotyczących dopasowania modelu regresji do zmiennej ozone w oparciu o promieniowanie (radiation), oraz w oparciu

Bardziej szczegółowo

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Rozpoznawanie twarzy metodą PCA Michał Bereta   1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Rozpoznawanie twarzy metodą PCA Michał Bereta www.michalbereta.pl 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Wiemy, że możemy porównywad klasyfikatory np. za pomocą kroswalidacji.

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest

Bardziej szczegółowo

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu 23 kwietnia 2014 Korelacja - wspó lczynnik korelacji 1 Gdy badamy różnego rodzaju rodzaju zjawiska (np. przyrodnicze) możemy stwierdzić, że na każde z nich ma wp lyw dzia lanie innych czynników; Korelacja

Bardziej szczegółowo

Repeated Measures ANOVA ANOVA z powtarzanymi pomiarami

Repeated Measures ANOVA ANOVA z powtarzanymi pomiarami Repeated Measures ANOVA ANOVA z powtarzanymi pomiarami Plan prezentacji 1 Wprowadzenie 2 Postać modelu Założenia Droga do testu Test Sferyczność 3 Problem Badanie skuteczności pewnej terapii medycznej:

Bardziej szczegółowo

Regresja ważona. Co, gdy nie ma stałej wariancji? Tu prawdziwe σ 2 =1 (dużo powtórzeń, więc wariancje są dobrze oszacowane) PAR Wykład 5 1/8

Regresja ważona. Co, gdy nie ma stałej wariancji? Tu prawdziwe σ 2 =1 (dużo powtórzeń, więc wariancje są dobrze oszacowane) PAR Wykład 5 1/8 Dobry chrześcijanin powinien wystrzegać się matematyków i tych wszystkich, którzy tworzą puste proroctwa. Istnieje niebezpieczeństwo, że matematycy zawarli przymierze z diabłem, aby zgubić duszę człowieka

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania Regresja logistyczna analiza relacji między zbiorem zmiennych niezależnych (ilościowych i dychotomicznych) a dychotomiczną zmienną zależną wyniki wyrażone są w prawdopodobieństwie przynależności do danej

Bardziej szczegółowo

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu 19 kwietnia 2011 Testy dla dwóch grup 1 Analiza danych dla dwóch grup: test t-studenta dla dwóch grup sparowanych; test t-studenta dla dwóch grup niezależnych (jednakowe wariancje) test Z dla dwóch grup

Bardziej szczegółowo

Ogólny model liniowy

Ogólny model liniowy Ogólny model liniowy Twórcy Autor statystyki testowej Wyprowadził wzór na gęstość rozkładu statystyki testowej Ronald Aylmer Fisher ( 1890-1962 ) angielski genetyk George W. Snedecor (1881-1974) amerykański

Bardziej szczegółowo

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej. Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej. Przykładem Box Plot wygodną metodą

Bardziej szczegółowo

Instalacja Pakietu R

Instalacja Pakietu R Instalacja Pakietu R www.r-project.org wybór źródła wybór systemu operacyjnego: Download R for Windows opcja: install R for the first time opcja: Download R 3.3.3 for Windows uruchomienie R-3.3.3-win MAGDA

Bardziej szczegółowo

Klasyfikacja Support Vector Machines

Klasyfikacja Support Vector Machines Klasyfikacja Support Vector Machines LABORKA Piotr Ciskowski przykład 1 KLASYFIKACJA KWIATKÓW IRYSA przykład 1. klasyfikacja kwiatków irysa (versicolor-virginica) żródło: pomoc MATLABa: http://www.mathworks.com/help/stats/svmclassify.html

Bardziej szczegółowo

Regresja liniowa. Etapy analizy regresji. Założenia regresji. Kodowanie zmiennych jakościowych

Regresja liniowa. Etapy analizy regresji. Założenia regresji. Kodowanie zmiennych jakościowych Etapy analizy regresji Regresja liniowa 1. zaproponowanie modelu, 2. sprawdzenie założeń dotyczących zmiennych, 3. wyszukanie wartości odstających, wpływających i dźwigni, 4. oszacowanie istotności modelu

Bardziej szczegółowo

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy # TS library("aer") data("uknondurables") # quarterly consumption

Bardziej szczegółowo

Jak naprawiê popsutπ zabawkí

Jak naprawiê popsutπ zabawkí Jak naprawiê popsutπ zabawkí Transformacje zmiennych w modelach liniowych Piotr J. Sobczyk Data analysis is an artful science! It involves making subjective decisions using very objective tools! Znalezione

Bardziej szczegółowo

Modelowanie zachowania kursu EURUSD po ogłoszeniu odczytu US Nonfarm Payrolls z wykorzystaniem modeli ARIMA-GARCH

Modelowanie zachowania kursu EURUSD po ogłoszeniu odczytu US Nonfarm Payrolls z wykorzystaniem modeli ARIMA-GARCH Raport 10/2015 Modelowanie zachowania kursu EURUSD po ogłoszeniu odczytu US Nonfarm Payrolls z wykorzystaniem modeli ARIMA-GARCH autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych

Bardziej szczegółowo

Wprowadzenie do Pakietu R dla kierunku Zootechnika. Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Wprowadzenie do Pakietu R dla kierunku Zootechnika. Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Wprowadzenie do Pakietu R dla kierunku Zootechnika Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Instalacja Pakietu R www.r-project.org wybór źródła wybór systemu operacyjnego:

Bardziej szczegółowo

Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka.

Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka. Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka. Dane The Western Collaborative Group Study (WCGS) badanie epidemiologiczne zaprojektowane,

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta  1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów Wprowadzenie do programu RapidMiner, część 2 Michał Bereta www.michalbereta.pl 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów Zaimportuj dane pima-indians-diabetes.csv. (Baza danych poświęcona

Bardziej szczegółowo

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu 28 marca 2012 Analiza wariancji klasyfikacja jednokierunkowa - wst ep Przypuśćmy, że chcemy porównać wieksz a (niż dwie) liczbe grup. Aby porównać średnie w kilku grupach, można przeprowadzić analize wariancji.

Bardziej szczegółowo

Inteligencja obliczeniowa Laboratorium 9: Sieci neuronowe.

Inteligencja obliczeniowa Laboratorium 9: Sieci neuronowe. Inteligencja obliczeniowa Laboratorium 9: Sieci neuronowe. Na dzisiejszych laboratoriach poznamy kolejny algorytm inspirowany biologicznie (wcześniej mieliśmy algorytmy genetyczne), który pozwoli na klasyfikowanie

Bardziej szczegółowo

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wiesława MALSKA Politechnika Rzeszowska, Polska Anna KOZIOROWSKA Uniwersytet Rzeszowski, Polska Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wstęp Wnioskowanie statystyczne

Bardziej szczegółowo

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu Część 2 Test Durbina-Watsona Test Durbina-Watsona Weryfikowana hipoteza H 0 : cov(ε t, ε t 1 ) = 0 H 1 : cov(ε t, ε t 1 ) 0 Test Durbina-Watsona Weryfikowana hipoteza H 0 : cov(ε t, ε t 1 ) = 0 H 1 : cov(ε

Bardziej szczegółowo

Zaliczenie na ocenę 0,5 0,5

Zaliczenie na ocenę 0,5 0,5 Zał. nr 4 do ZW WYDZIAŁ CHEMICZNY KARTA PRZEDMIOTU Nazwa w języku polskim Wstęp do statystyki praktycznej Nazwa w języku angielskim Introduction to practical statistics Kierunek studiów (jeśli dotyczy)

Bardziej szczegółowo

Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 Zofia Kruczkiewicz

Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0  Zofia Kruczkiewicz Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 http://www.junit.org/ Zofia Kruczkiewicz 1. Aby utworzyć test dla jednej klasy, należy kliknąć prawym przyciskiem myszy w oknie Projects na wybraną

Bardziej szczegółowo

Diagnostyka w Pakiecie Stata

Diagnostyka w Pakiecie Stata Karol Kuhl Zgodnie z twierdzeniem Gaussa-Markowa, estymator MNK w KMRL jest liniowym estymatorem efektywnym i nieobciążonym, co po angielsku opisuje się za pomocą wyrażenia BLUE Best Linear Unbiased Estimator.

Bardziej szczegółowo

Regresja logistyczna

Regresja logistyczna Regresja logistyczna Zacznijmy od danych dotyczących tego czy studenci zostali przyjęci na studia. admissions

Bardziej szczegółowo

Wykład 7 Testowanie zgodności z rozkładem normalnym

Wykład 7 Testowanie zgodności z rozkładem normalnym Wykład 7 Testowanie zgodności z rozkładem normalnym Wrocław, 05 kwietnia 2017 Rozkład normalny Niech X = (X 1, X 2,..., X n ) będzie próbą z populacji o rozkładzie normalnym określonym przez dystrybuantę

Bardziej szczegółowo

Natalia Nehrebecka. Wykład 1

Natalia Nehrebecka. Wykład 1 Natalia Nehrebecka Wykład 1 1 1. Sprawy organizacyjne Zasady zaliczenia Dwiczenia Literatura 2. Czym zajmuje się ekonometria? 3. Formy danych statystycznych 4. Model ekonometryczny 2 1. Sprawy organizacyjne

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa Obserwacje nietypowe i wpływowe Obserwacje nietypowe i wpływowe Obserwacje nietypowe w analizie regresji: nietypowe wartości zmiennej Y - prowadzące

Bardziej szczegółowo

deep learning for NLP (5 lectures)

deep learning for NLP (5 lectures) TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 6: Finish Transformers; Sequence- to- Sequence Modeling and AJenKon 1 Roadmap intro (1 lecture) deep learning for NLP (5

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10 Stanisław Cichoci Natalia Nehrebeca Wyład 10 1 1. Testowanie hipotez prostych Rozład estymatora b Testowanie hipotez prostych przy użyciu statystyi t Przedziały ufności Badamy czy hipotezy teoretyczne

Bardziej szczegółowo

Domowy spektrofotometr z telefonu komórkowego i programu ImageJ

Domowy spektrofotometr z telefonu komórkowego i programu ImageJ Domowy spektrofotometr z telefonu komórkowego i programu ImageJ Spektrofotometr to urządzenie pomiarowe, dzięki któremu można ustalić ilość światła pochłanianą lub rozpraszaną przez próbkę. Urządzenie

Bardziej szczegółowo

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ WYKŁAD 3 BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ Było: Przykład. Z dziesięciu poletek doświadczalnych zerano plony ulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość

Bardziej szczegółowo

Przykłady Ryzyko względne a iloraz szans ANOVA ZMAD. Stanisław Jaworski: ZMAD. Uniwersytet Medyczny

Przykłady Ryzyko względne a iloraz szans ANOVA ZMAD. Stanisław Jaworski: ZMAD. Uniwersytet Medyczny ZMAD Stanisław Jaworski proporcja Stosunek do aborcji (1) Z pewnej ściśle określonej populacji kobiet wylosowano 950 osób. Każdą kobietę zapytano, czy jest za utrzymaniem obecnej ustawy antyaborcyjnej.

Bardziej szczegółowo

Bioinformatyka: Wykład 4. R Elementy języka programowania

Bioinformatyka: Wykład 4. R Elementy języka programowania Bioinformatyka: Wykład 4 R Elementy języka programowania Pytanie z poprzedniego wkładu podaj polecenie, które dla zbioru iris wyświetli podzbiór składający się z losowej próby wierszy, próba ma mieć liczebność

Bardziej szczegółowo

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu Część 1 Testy i ich rodzaje Statystyka NR 2 Cel testowania Testy i ich rodzaje Statystyka NR 2 Cel testowania Testy małej próby Testy i ich rodzaje Statystyka NR 2 Cel testowania Testy małej próby Testy

Bardziej szczegółowo

archivist: Managing Data Analysis Results

archivist: Managing Data Analysis Results archivist: Managing Data Analysis Results https://github.com/pbiecek/archivist Marcin Kosiński 1,2, Przemysław Biecek 2 1 IT Research and Development Grupa Wirtualna Polska 2 Faculty of Mathematics, Informatics

Bardziej szczegółowo

Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005.

Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005. Algorytm k-średnich Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 005. Dane a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) Algorytm k-średnich

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Instrukcja do przeprowadzenia prostej analizy statystycznej w środowisku R

Instrukcja do przeprowadzenia prostej analizy statystycznej w środowisku R Instrukcja do przeprowadzenia prostej analizy statystycznej w środowisku R Spis treści Instrukcja do przeprowadzenia prostej analizy statystycznej w środowisku R... 1 Wstęp... 2 Część I... 2 Instalacja

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Regresja liniowa Korelacja Modelowanie Analiza modelu Wnioskowanie Korelacja 3 Korelacja R: charakteryzuje

Bardziej szczegółowo

1 Modele ADL - interpretacja współczynników

1 Modele ADL - interpretacja współczynników 1 Modele ADL - interpretacja współczynników ZADANIE 1.1 Dany jest proces DL następującej postaci: y t = µ + β 0 x t + β 1 x t 1 + ε t. 1. Wyjaśnić, jaka jest intepretacja współczynników β 0 i β 1. 2. Pokazać

Bardziej szczegółowo

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu 31 marca 2014 Problemy cz lowieka za szafa Cz lowiek za szafa rzuca razy moneta. Może on rzucać : 1 moneta symetryczna; 2 moneta, która ma or la z dwu stron. Zadania 1 Wymyśl procedure pozwalajac a stwierdzić

Bardziej szczegółowo

Diagnostyka w Pakiecie Stata

Diagnostyka w Pakiecie Stata Karol Kuhl Zgodnie z twierdzeniem Gaussa-Markowa, estymator MNK w KMRL jest liniowym estymatorem efektywnym i nieobciążonym, co po angielsku opisuje się za pomocą wyrażenia BLUE Best Linear Unbiased Estimator.

Bardziej szczegółowo

Wykład 9 Wnioskowanie o średnich

Wykład 9 Wnioskowanie o średnich Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i

Bardziej szczegółowo

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe Zjazd 7. SGGW, dn. 28.11.10 r. Matematyka i statystyka matematyczna Tematy 1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe nna Rajfura 1 Zagadnienia Przykład porównania wielu obiektów w

Bardziej szczegółowo

Kreowanie i analizowanie eksperymentów pełnoczynnikowych w programie Minitab. Osoba kontaktowa: Katarzyna Kornicka Telefon:

Kreowanie i analizowanie eksperymentów pełnoczynnikowych w programie Minitab. Osoba kontaktowa: Katarzyna Kornicka Telefon: Kreowanie i analizowanie eksperymentów pełnoczynnikowych w programie Minitab Osoba kontaktowa: Katarzyna Kornicka Telefon: +48 785 9 353 Rozpoczęcie pracy z programem Minitab ver 5 Session Window, tutaj

Bardziej szczegółowo

Modele warunkowej heteroscedastyczności

Modele warunkowej heteroscedastyczności Teoria Przykład - zwroty z WIG Niskie koszty transakcyjne Teoria Przykład - zwroty z WIG Niskie koszty transakcyjne Racjonalne oczekiwania inwestorów P t = E(P t+1 I t ) 1 + R (1) Teoria Przykład - zwroty

Bardziej szczegółowo

Standardized Test Practice

Standardized Test Practice Standardized Test Practice 1. Which of the following is the length of a three-dimensional diagonal of the figure shown? a. 4.69 units b. 13.27 units c. 13.93 units 3 d. 16.25 units 8 2. Which of the following

Bardziej szczegółowo

WPŁYW WARUNKÓW TERMICZNO-ŚWIETLNYCH NA CZAS TRWANIA FAZ ROZWOJOWYCH PSZENICY JAREJ. Dr hab. Alicja Sułek Dr Anna Nieróbca

WPŁYW WARUNKÓW TERMICZNO-ŚWIETLNYCH NA CZAS TRWANIA FAZ ROZWOJOWYCH PSZENICY JAREJ. Dr hab. Alicja Sułek Dr Anna Nieróbca WPŁYW WARUNKÓW TERMICZNO-ŚWIETLNYCH NA CZAS TRWANIA FAZ ROZWOJOWYCH PSZENICY JAREJ Dr hab. Alicja Sułek Dr Anna Nieróbca Celem badań było prześledzenie wpływu warunków termiczno-świetlnych na czas trwania

Bardziej szczegółowo

1 Testowanie hipotez statystycznych

1 Testowanie hipotez statystycznych 1 Testowanie hipotez statystycznych Zadanie 1 W pewnym eksperymencie psychiatrycznym przeprowadzonym na grupie 42 chorych otrzymano nastepuj wyniki: (w %) 34.8, 33.9, 32.6, 49.4, 44.9, 55.2, 48.5, 40.3,

Bardziej szczegółowo

Laboratorium nr 3 z wielowymiarowej analizy danych Daniel Kosiorowski

Laboratorium nr 3 z wielowymiarowej analizy danych Daniel Kosiorowski 1 ROZGRZEWKA # znane testy istotności 1D w programie R #test studenta t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95,...)

Bardziej szczegółowo

Wykład 9 Testy rangowe w problemie dwóch prób

Wykład 9 Testy rangowe w problemie dwóch prób Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018 Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora

Bardziej szczegółowo

Egzamin z ekonometrii - wersja ogólna

Egzamin z ekonometrii - wersja ogólna Egzamin z ekonometrii - wersja ogólna 06-02-2019 Regulamin egzaminu 1. Egzamin trwa 90 min. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.

Bardziej szczegółowo

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE Było: Przykład. W doświadczeniu polowym załoŝonym w układzie całkowicie losowym w czterech powtórzeniach porównano

Bardziej szczegółowo

1 Wstęp. 2 Uruchomienie programu

1 Wstęp. 2 Uruchomienie programu 1 Wstęp Weka jest zestawem narzędzi związanych z uczeniem maszynowego. System został stowrzony i jest rozwijany przez Uniwersystet Waikato w Nowej Zelandii. Nazwa WEKA jest akronimem dla Waikato Environment

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10 Stanisław Cichocki Natalia Nehrebecka Wykład 10 1 1. Testy diagnostyczne Testowanie prawidłowości formy funkcyjnej: test RESET Testowanie normalności składników losowych: test Jarque-Berra Testowanie stabilności

Bardziej szczegółowo