Bioinformatyka V. Analiza Danych w Języku R

Transkrypt

1 Bioinformatyka V Analiza Danych w Języku R

2 ANALIZA DANYCH Metody statystyczne analizy danych eksploracja danych testowanie hipotez analiza Bayesowska Metody uczenia maszynowego Uczenie nadzorowane Uczenie nienadzorowane

3 R Język programowania obiektowy funkcyjny wektorowy Środowisko do analizy danych istnieją implementacje ~wszystkich metod statystycznych pakiety wbudowane pakiety dodatkowe większość metod uczenia maszynowego wiele metod wizualizacji danych

4 R oprogramowanie open source duże i prężne środowisko użytkowników i developerów de facto standard w statystyce coraz częściej standard w uczeniu maszynowym mnóstwo narzędzi bioinformatycznych (Bioconductor) dostępny na Windows, Linux, Mac środowisko terminalowe i praca wsadowa środowisko zintegrowane łatwa automatyzacja rutynowych zadań

5 R open source community de facto standard field in sta`s`cs emerging standard in machine learning many bioinforma`cs tools implemented e.g. BioconductoR available for all major plaaorms: Windows, Linux, Mac command line interface integrated environment easy automa`on of rou`ne tasks

6 R >?iris

7 R >?iris

8 R >?iris

9 R >?iris

10 KALKULATOR > 2+2 [1] 4 > [1] 177

11 KALKULATOR > 2+2*3 [1] 8 > (2+2)*3 [1] 12

12 KALKULATOR > sqrt(2+2*3) [1] > (2+2*3)^0.333 [1] > (2+2*3)^(1/3) [1] 2 >

13 ZMIENNE > 2+2->FOUR > FOUR [1] 4 > FOUR^2 [1] 16 > FOUR_bis <- 2+2 > FOUR_t = 2+2

14 WEKTORY > myvec<-c(2,1,3,4,5) > myvec [1] > myvec*3 [1] > myvec*3->newvec > newvec [1] >

15 LISTY > student1<-c(imie= Adam",Nazwisko="Abacki",Przedmiot="Bioinformatyka", OcenaKolokwium="5",OcenaEgzamin="5") > student2<-c(imie= Bogdan",Nazwisko="Babacki",Przedmiot="Bioinformatyka", OcenaKolokwium="4",OcenaEgzamin="4") > team1<-list(student1,student2) > team1 [[1]] Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin "Adam" "Abacki" "Bioinformatyka" "5" "5" [[2]] Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin "Bogdan" "Babacki" "Bioinformatyka" "4" "4" >

16 TABLICE > Team2<-c(student1,student2) > Team2 Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin "Adam" "Abacki" "Bioinformatyka" "5" "5" "Bogdan" "Babacki" "Bioinformatyka" "4" "4" > dim(team2)<-c(5,2) > Team2 [,1] [,2] [1,] "Adam" "Bogdan" [2,] "Abacki" "Babacki" [3,] "Bioinformatyka" "Bioinformatyka" [4,] "5" "4" [5,] "5" "4" > t(team2) [,1] [,2] [,3] [,4] [,5] [1,] "Adam" "Abacki" "Bioinformatyka" "5" "5" [2,] "Bogdan" "Babacki" "Bioinformatyka" "4" "4"

17 TABLICE > t(team2)->team2 > colnames(team2)<c("imie","nazwisko","przedmiot","ocenakolokwium","ocenaegzamin") > rownames(team2)<-c("student1","student2") > Team2 Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin student1 "Adam" "Abacki" "Bioinformatyka" "5" "5" student2 "Bogdan" "Babacki" "Bioinformatyka" "4" "4"

18 TABLICE > Team2<-t(Team2) > Team2 student1 student2 Imie "Adam" "Bogdan" Nazwisko "Abacki" "Babacki" Przedmiot "Bioinformatyka" "Bioinformatyka" OcenaKolokwium "5" "4" OcenaEgzamin "5" "4" > data.frame(team2)->team2

19 RAMKI > data.frame(team2)->team2 > Team2$student1 Imie Nazwisko Przedmiot OcenaKolokwium OcenaEgzamin Adam Abacki Bioinformatyka 5 5 Levels: 5 Abacki Adam Bioinformatyka

20 RAMKI > Team2$student3<-c("Cyprian","Cebacki","Bioinformatyka",3,3) > Team2 student1 student2 student3 Imie Adam Bogdan Cyprian Nazwisko Abacki Babacki Cebacki Przedmiot Bioinformatyka Bioinformatyka Bioinformatyka OcenaKolokwium OcenaEgzamin 5 4 3

21 RAMKI > Team2$student4<-c("Damian","Debacki","Bioinformatyka",NA,NA) > Team2 student1 student2 student3 student4 Imie Adam Bogdan Cyprian Damian Nazwisko Abacki Babacki Cebacki Debacki Przedmiot Bioinformatyka Bioinformatyka Bioinformatyka Bioinformatyka OcenaKolokwium <NA> OcenaEgzamin <NA>

22 SEKWENCJA > 1:10 [1] > seq(from=0,to=11,by=1) [1] > seq(from=0,to=111,by=11) [1] > seq(from=0.02,to=1.03,by=0.15) [1] >> seq(from=0,to=0,length.out=20) [1]

23 RAMKI > Team2 student1 student2 student3 student4 Imie Adam Bogdan Cyprian Damian Nazwisko Abacki Babacki Cebacki Debacki Przedmiot Bioinformatyka Bioinformatyka Bioinformatyka Bioinformatyka OcenaKolokwium <NA> OcenaEgzamin <NA> > Team2[1:2,] student1 student2 student3 student4 Imie Adam Bogdan Cyprian Damian Nazwisko Abacki Babacki Cebacki Debacki

24 RAMKI > Team2[2:3,] student1 student2 student3 student4 Nazwisko Abacki Babacki Cebacki Debacki Przedmiot Bioinformatyka Bioinformatyka Bioinformatyka Bioinformatyka > Team2[c(2,4),] student1 student2 student3 student4 Nazwisko Abacki Babacki Cebacki Debacki OcenaKolokwium <NA> > Team2[c("Nazwisko","OcenaEgzamin"),] student1 student2 student3 student4 Nazwisko Abacki Babacki Cebacki Debacki OcenaEgzamin <NA> > 4 <NA>

25 RAMKI > Team2[,c(2,4)] student2 student4 Imie Bogdan Damian Nazwisko Babacki Debacki Przedmiot Bioinformatyka Bioinformatyka OcenaKolokwium 4 <NA> OcenaEgzamin 4 <NA> > Team2[c("student3","student1")] student3 student1 Imie Cyprian Adam Nazwisko Cebacki Abacki Przedmiot Bioinformatyka Bioinformatyka OcenaKolokwium 3 5 OcenaEgzamin 3 5

26 SAMPLE > sample(1:150,10) [1] > dim(iris) [1] > sample(1:150,10)->mysample > MySample [1]

27 SAMPLE > MySample [1] > iris[mysample,] Sepal.Length Sepal.Width Petal.Length Petal.Width Species versicolor versicolor versicolor setosa virginica setosa setosa setosa virginica setosa

28 RAMKI > MySample [1] > order(mysample) [1] > MySample[order(MySample)] [1]

29 RAMKI > MySample [1] > order(mysample) [1] > MySample[order(MySample)] [1] > iris[mysample[order(mysample)],] Sepal.Length Sepal.Width Petal.Length Petal.Width Species setosa setosa setosa setosa setosa versicolor versicolor versicolor virginica virginica >

30 RAMKI > IrisSample [1] > order(irissample) [1] > IrisSample[order(IrisSample)] [1] > iris[irissample[order(irissample)],]->iris20 > iris20 Sepal.Length Sepal.Width Petal.Length Petal.Width Species setosa setosa setosa setosa setosa setosa setosa versicolor versicolor versicolor versicolor versicolor versicolor versicolor virginica virginica virginica virginica virginica virginica

31 RAMKI > iris[mysample[order(mysample)],]->iris10 > iris10$sepal.dim<-iris10$sepal.length+iris10$sepal.width > iris10 Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Dim setosa setosa setosa setosa setosa versicolor versicolor versicolor virginica virginica 8.2 >

32 RAMKI > iris10$petal.dim<-iris10$petal.length+iris10$petal.width > iris10$petal.radius<sqrt(iris10$petal.length*iris10$petal.length+iris10[,4]*iris10[,4]) > iris10$sepal.radius<-sqrt(iris10[,1]*iris10[,1]+iris10[,2]*iris10[,2]) > iris10 Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Dim Petal.Dim Petal.Radius Sepal.Radius setosa setosa setosa setosa setosa versicolor versicolor versicolor virginica virginica >

33 RAMKI > Iris$Sepal.Dim<-Iris$Sepal.Length+Iris$Sepal.Length > Iris$Petal.Dim<-Iris$Petal.Length+Iris$Petal.Width > Iris$Sepa.Radius<-sqrt(Iris[,1]*Iris[,1]+Iris[,2]*Iris[,2]) > Iris$Petal.Radius<-sqrt(Iris[,3]*Iris[,3]+Iris[,4]*Iris[,4]) > Iris[1:10,] Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Dim Petal.Dim Sepa.Radius Petal.Radius setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa

34 RAMKI > Iris[1:10,] Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Dim Petal.Dim Sepa.Radius Petal.Radius setosa setosa setosa setosa setosa setosa setosa setosa setosa setosa > names(iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species" "Sepal.Dim" "Petal.Dim" "Sepa.Radius" "Petal.Radius" [1] "Sepal.Dim" > names(iris)[8] [1] "Sepa.Radius" > names(iris)[8]<-"sepal.radius"

35 > plot(iris[,6:9]) Sepal.Dim PLOTS Petal.Dim Sepal.Radius Petal.Radius

36 PLOTS > plot(iris[,6:9],col=as.numeric(iris$species)) Sepal.Dim Petal.Dim Sepal.Radius Petal.Radius

37 BOXPLOTS > boxplot(iris[1:50,6],iris[51:100,6],iris[101:150,6])

38 > boxplot( Iris$Petal.Radius[1:50], Iris$Petal.Radius[51:100], Iris$Petal.Radius[101:150] ) PLOTS 1 2 3

39 PLOTS > boxplot( names=c( setosa","versicolor","virginica"), Iris$Petal.Radius[1:50], Iris$Petal.Radius[51:100], Iris$Petal.Radius[101:150] ) setosa versicolor virginica

40 PLOTS > plot(iris$petal.length,iris$petal.width,col=as.numeric(iris$species)) Iris$Petal.Width Iris$Petal.Length

41 PLOTS > plot(iris20$radius,iris20$sepal.length,col=as.numeric(iris20$species)) Petal Length Radius

42 PLOTS > plot( xlab="petal Length, ylab="petal Width, Iris$Petal.Length, Iris$Petal.Width, col=as.numeric(iris$species) ) Petal Width Petal Length

43 > plot( xlab="petal Length, ylab="petal Width, Iris$Petal.Length, Iris$Petal.Width, col=as.numeric(iris$species), pch=as.numeric(iris$species)+16, cex=1.5) Petal Width PLOTS Petal Length

44 PLOTS >?plot Description Generic function for plotting of R objects. For more details about the graphical parameter arguments, see par. For simple scatter plots, plot.default will be used. However, there are plot methods for many R objects, including functions, data.frames, density objects, etc. Use methods(plot) and the documentation for these. Usage plot(x, y,...)

45 SCATTERPLOT >?plot3d No documentation for plot3d in specified packages and libraries: you could try??plot3d

46 SCATTERPLOT >?plot3d No documentation for plot3d in specified packages and libraries: you could try??plot3d >??plot3d

47 SCATTERPLOT >??plot3d > library(rgl) Komunikat ostrzegawczy: pakiet rgl został zbudowany w wersji R > plot3d(iris[,1:3])

48 SCATTERPLOT > plot3d(iris[,1:3],col=as.numeric(iris$species))

49 EKSPLORACJA histogram > hist(iris[,1]) > hist(iris[,2]) > hist(iris[,3]) > hist(iris[,4])

50 DATA EXPLORATION > boxplot(iris[,1:4]) > boxplot(iris[,1:4],notch=t)

51 TESTOWANIE HIPOTEZ H1 - hipoteza badawcza H0 - hipoteza alternatywna - wiedza podstawowa np. - wszystkie odmiany irysa mają takie same długości płatków

52 TESTOWANIE HIPOTEZ Procedura standardowa 1. Znajdź właściwy test statystyczny 2. Policz statystyki dla eksperymentu 3. Policz prawdopodobieństwo danych pod warunkiem prawdziwości H0 4. Jeżeli prawdopodobieństwo wygenerowania danych przy prawdziwości H0 jest mniejsze niż wcześniej ustalone kryterium (np 5%, 1%, 0.1%) odrzuć hipotezę zerową H0 - i zaakceptuj H1.

53 TESTOWANIE HIPOTEZ H1 - hipoteza badawcza H0 - hipoteza alternatywna - wiedza podstawowa H0: wszystkie odmiany irysa mają takie same długości płatków > boxplot(iris[iris$species=="setosa",3],iris[iris $Species=="virginica",3],iris[iris$Species=="versicolor",3])

54 TESTOWANIE HIPOTEZ Procedura standardowa 1. Znajdź właściwy test statystyczny 2. Policz statystyki dla eksperymentu 3. Policz prawdopodobieństwo danych pod warunkiem prawdziwości H0 4. Jeżeli prawdopodobieństwo wygenerowania danych przy prawdziwości H0 jest mniejsze niż wcześniej ustalone kryterium (np 5%, 1%, 0.1%) odrzuć hipotezę zerową H0 - i zaakceptuj H1. > y1<-iris[iris$species=="setosa",2] > y2<-iris[iris$species=="virginica",2] > y3<-iris[iris$species=="versicolor",2] > t.test(y1,y2) Welch Two Sample t-test data: y1 and y2 t = , df = , p-value = 4.571e-09 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

55 TESTOWANIE HIPOTEZ > y1<-iris[iris$species=="setosa",2] > y2<-iris[iris$species=="virginica",2] > y3<-iris[iris$species=="versicolor",2] > t.test(y1,y2) Welch Two Sample t-test data: y1 and y2 t = , df = , p-value = 4.571e-09 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

56 TESTOWANIE HIPOTEZ > t.test(y1,y3) Welch Two Sample t-test data: y1 and y3 t = 9.455, df = , p-value = 2.484e-15 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

57 TESTOWANIE HIPOTEZ > t.test(y2,y3) Welch Two Sample t-test data: y2 and y3 t = , df = , p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

58 BUDOWANIE MODELI iris$petal.width iris$petal.length

59 BUDOWANIE MODELI > lm(iris$petal.length~iris$petal.width)->iris.lm > iris.lm Call: lm(formula = iris$petal.length ~ iris$petal.width) Coefficients: (Intercept) iris$petal.width

60 BUDOWANIE MODELI Coefficients: (Intercept) iris$petal.width > plot(iris$petal.width,iris$petal.length) > abline(1.084,2.230) iris$petal.length iris$petal.width

61 BUDOWANIE MODELI > summary(iris.lm) Call: lm(formula = iris$petal.length ~ iris$petal.width) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** iris$petal.width <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 148 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16

62 BUDOWANIE MODELI Residuals vs Fitted > plot(iris.lm) Residuals Fitted values lm(iris$petal.length ~ iris$petal.width)

63 BUDOWANIE MODELI Normal Q-Q > plot(iris.lm) Standardized residuals Theoretical Quantiles lm(iris$petal.length ~ iris$petal.width)

64 BUDOWANIE MODELI Scale-Location > plot(iris.lm) Standardized residuals Fitted values lm(iris$petal.length ~ iris$petal.width)

65 BUDOWANIE MODELI Residuals vs Leverage > plot(iris.lm) Standardized residuals Cook's distance Leverage lm(iris$petal.length ~ iris$petal.width)

66 UCZENIE MASZYNOWE > library(randomforest) > randomforest(x=iris[,1:4],y=iris$species,ntree=2000,importance=t)- >rf.1 > rf.1 Call: randomforest(x = iris[, 1:4], y = iris$species, ntree = 2000, importance = T) Type of random forest: classification Number of trees: 2000 No. of variables tried at each split: 2 OOB estimate of error rate: 4.67% Confusion matrix: setosa versicolor virginica class.error setosa versicolor virginica