Środowisko R wprowadzenie. Wykład R1; 14.05.07 Pakiety statystyczne Pakiety statystyczne stosowane do analizy danych: SAS SPSS Statistica R S-PLUS 1
Środowisko R Język S- J. Chambers i in. (1984,1988) S-PLUS - komercyjna implementacja S-a R- implementacja dialektu S-a- Robert Gentelman i Ross Ihaka (96) wolne oprogramowanie; szybki rozwój- najnowsza wersja 2.5 (kwiecień 2007) Zastosowania R-a do analizy danych regionalnych i przestrzennych: K. Kopczewska [3] 2
R jako kalkulator działania arytmetyczne Operatory działań arytmetycznych: dodawania, odejmowania, mnożenia, dzielenia i potęgowania +,-,*,/,^ Przykłady obliczeń: > 2+2 [1] 4 > 2+3*2 [1] 8 > 3*2+2 [1] 8 > 2^3 [1] 8 > 2^3+1 3
[1] 9 > 2^(1/2) [1] 1.414214 > pi [1] 3.141593 > 2^-1/2 # kolejnosc dzialan: najpierw "^", potem "/" [1] 0.25 > 2^(-1/2) # chcac obliczyc odwrotnosc pierwiastka z 2 [1] 0.7071068 > 1000*(1.001-1)-1 #liczby sa konwertowane do postaci 2-wej [1] -1.101341e-13 4
Wydawanie poleceń i uruchamianie skryptów Polecenie obliczające wartość sumy 2 + 2 wydajemy pisząc obok znaku zachęty > 2+2 oraz naciskając ENTER Polecenie lub ciąg poleceń zapisane w danym pliku (tzw. skrypcie), o nazwie, powiedzmy skrypt.r można uruchomić otwierając plik (korzystając z opcji File->Open script...; przedtem należy odpowiednio zmienić katalog bieżacy (opcja File-> Change dir...) a następnie zaznaczyć odpowiedni ciąg poleceń i nacisnąć CTRL-R 5
Funkcje elementarne w R > 2^(1/2) [1] 1.414214 > sqrt(2) [1] 1.414214 > cos(pi) [1] -1 > sin(2*pi) [1] -2.449213e-16 > exp(-1) [1] 0.3678794 > exp(1) # zwraca wartosc liczby e [1] 2.718282 > log(10) # logarytm naturalny 6
Funkcje elementarne w R dodatkowe argumenty [1] 2.302585 > log(10,base=exp(1)) # logarytm naturalny-podstawa=e [1] 2.302585 > log(10,base=10) # logarytm dziesietny- podstawa=10 [1] 1 7
Ostrzeżenia i błędy Przy niewłaściwym (lub problematycznym ) użyciu funkcji i poleceń R zwraca komunikaty o błędzie lub ostrzeżenia > log 1 Error: syntax error in "log 1" > log(-1) [1] NaN Warning message: NaNs produced in: log(x) Syntax error błąd składniowy Warning message ostrzeżenie NaN Not a Number (otrzymany wynik nie jest liczbą) 8
Zmienne; przypisanie wartości do zmiennej Chcąc przypisać wartość liczbową zmiennej (nazwijmy ją y) należy skorzystać z operatora przypisania = (operator ten jest również zapisywany za pomocą symbolu <- ) > y=2 > y=y+1 > y [1] 3 9
Nazwy mogą składać się z liter cyfr Nazwy zmiennych znaków:,,. i,,_ Nazwa zmiennej powinna się rozpoczynać od litery lub od kropki; po kropce, rozpoczynająej nazwę zmiennej, nie powinna następować cyfra. Uwaga R rozróżnia pomiędzy dużymi i małymi literami 10
Typy zmiennych Zmienne mogą przyjmować wartości liczbowe lub łańcuchowe: > pierwiastek.z.dwoch=2^(1/2) > ProstokatPole=1 > wielakat="kwadrat" 11
Wektory Dane dotyczące cen mieszkań o powierzchni 50m 2 w dzielnicy A miasta M (w tys. zł) oferowanych do sprzedaży w serwisie internetowym S: 224,250,305,279 Dane można zapisać do wektora o nazwie v korzystając z polecenia c (od concatenation) v<-c(224,250,305,279) Wektor może się także składać ze składowych będącymi łańcuchami: wielakaty<-c("trojkat","czworokat","szesciakat") Składowe wektora powinny mieć ten sam typ; nie jest poprawne tworzenie wektora mających składowe o różnych typach. 12
Funkcje wektorów numerycznych > v<-c(224,250,305,279) > max(v) [1] 305 > min(v) [1] 224 > mean(v) # srednia [1] 264.5 > median(v) # mediana [1] 264.5 > var(v) # wariancja [1] 1233.667 > sd(v) # odchylenie standardowe [1] 35.12359 13
Funkcje wektorów numerycznych c.d. Niektóre funkcje wektorów numerycznych jako funkcje zwracają wektory np. funkcja quantile zwraca minimum, kwartyl dolny, medianę, kwartyl górny oraz maksimum danych zapisanych w wektorze, który jest argumentem (tej funkcji). > quantile(v) # zwraca wartosci: minimum, 1 kwartyla,... 0% 25% 50% 75% 100% 224.0 243.5 264.5 285.5 305.0 > wyn=quantile(v) # zwraca wektor z nazwami skladowych > names(wyn) # same nazwy skladowych [1] "0%" "25%" "50%" "75%" "100%" > wyn[[4]] # czwarty element wektora wyn: kwartyl gorny [1] 285.5 > wyn[[4]]-wyn[[2]] # odleglosc miedzykwartylowa [1] 42 # ten sam wynik mozna otrzymac stosujac f-cje IQR 14
Literatura [1] Gurycz, J., Najprzydatniejsze polecenia R w podziale na grupy. http://www.im.uj.edu.pl/jerzygurycz/dyda/stat0506/r/rcmd.html [2] Komsta, Ł, Wprowadzenie do środowiska R. Strona WWW http://r.meteo.uni.wroc.pl/doc/contrib/komsta-wprowadzenie.pdf [3] Kopczewska, K., Ekonometria i analiza danych przestrzennych z wykorzystaniem programu R CRAN. CeDeWu. Warszawa 2006. [4] Koronacki, J., Mielniczuk, J. Statystyka dla studentów kierunków technicznych i przyrodniczych. WNT. Warszawa 2001. [5] The R Project for Statistical Computing. Strona WWW http://www.r-project.org/ [6] Venables, W., Smith, D., An Introduction to R. Książka dostępna na stronie http://www.r-project.org/ 15
[7] Verzani, J. simpler-using R for Introductory Statistics. http://r.meteo.uni.wroc.pl/doc/contrib/verzani-simpler.pdf 16