Edytor wprowadzone polecenia zostają w oknie edytora I mogą być uruchamiana poprzez CTRL+R lub Run (tylko zaznaczone linie, z wyświetlaniem wykonywanych linii kodu) lub poprzez Source (zawsze całość, bez wyświetlania linii kodu, jedynie wyświetlane są informacje wprost określone przez funkcję print) Środowisko zmienne, w których pamiętane są dane podczas pracy, polecenie dostosowanego importu Wiersz poleceń polecenia wydawane w tym oknie znikają (powrót do nich jest możliwy poprzez nawigację strzałkami góra i dół). To okno przypomina czyste środowisko R Narzędzie (zainstalowane pakiety, przeglądanie I ładowanie plików, wykresy, okienko pomocy) 1
RCMDR (R na skróty ) 1. Zainstaluj przy pomocy RStudio pakiet clustersim 2. Wykonaj polecenia: library(clustersim) windows() plot(cluster.gen(numobjects = 50,model=4)$data,col=rep(rainbow(3),each=50)) Obejrzyj wyniki działania poleceń 3. Zainstaluj i uruchom nakładkę RCMDR 4. Załaduj dane Salaries z pakietu car 1
5. Obejrzyj zbiór danych, przejdź do edycji (nie zapisując zmian) 6. Stwórz histogram zmiennej salary 2
Co możemy powiedzić o rozkładzie zmiennej? 7. Stwórz wykres rozrzutu (punktowy) zmiennych salary i yrs.service 8. Zmień ręcznie długość osi x od 0 do 300000 (xlim) 9. Zmień ręcznie długość osi y od 10 do 30 (ylim) zwóć uwagę, że wykres się nie mieści 10. Zmień kolor, symbol punktów i rozmiar (col, pch,cex) 11. Ustal inne parametry wykresu poprzez okno konfiguracyjne, włącz identyfikację punktów 3
12. Utwórz wykres punktowy macierzowy dla wszystkich trzech zmiennych metrycznych, określ, dla których z nich wykres wskazuje na wysoką wartość współczynnika korelacji 13. Zwróć uwagę, że każdemu poleceniu odpowiadają instrukcje języka R 14. Z modyfikuj polecenie, żeby każdy punt wykresu był narysowany innym kolorem plot(as.matrix(cbind(salaries$salary,salaries$yrs.service,salaries$yrs.since.phd)), reg.line=false, smooth=false, spread=false, span=0.5, ellipse=false, levels=c(.5,.9), id.n=0, col=rainbow(100)) 15. Stwórz wykres słupkowy wg stanowisk i wykres kołowy wg płci 16. Oblicz podstawowe statystyki dla zbiory poprzez dane podsumowania, podsumowania numeryczne (z opcjami kurtoza i skośność). Zinterpetuj wyniki 17. Pokaż średnią pensję w zależności od płci (Statystyki podsumowania, tabela statystyk). Zwróć uwagę na zapis polecenia obliczenia statystyk w rozbiciu na grupy w języku R 18. Oblicz wspóczynniki korelacji pomiędzy salary, yrs.service, yrs.since.phd, porównaj wyniki z wnioskami z punktu 10. 19. Zbadaj normalność każdej ze zmiennych, zinterpretuj p-wartości testu Shapiro-Wilka 20. Stwórz tablicę kontyngencji płci z rodzajem pracy badawczej oraz płci ze stanowiskiem, ziterpretuj p-wartości testu chi-kwadrat 21. Przeprowadź test t-studenta niezależnych prób dla zmiennych płeć i wynagrodzenie, zinterpretuj wyniki 22. Zwróć uwagi że zmiennej stopień (rank) nie było na liście do wyboru testu niezależnych prób (dlaczego?) Przeprowadź dla tej zmiennej i zmiennej salary analizę wariancji (ANOVA) 23. Stwórz model regresji zmiennej salary w zależności od pozostałych zmiennych, zinterpretuj wyniki.. 24. Zaimportuj plik tekstowy innowacyjnoscue_rcmd.csv jako nowy plik danych pakietu RCMDR - obejrzyj dane - oblicz podstawowe statystyki dla wszystkich zmiennych: średnie, odchylenie standardowe, błąd standardowy średniej, rozstęp ćwiartkowy, kurtozę i kwartyle - oblicz macierz korelacji Pearson a i Spearmana pomiędzy poszczególnymi zmiennymi 4
- zbadaj testem Shapiro Wilka normalność rozkładu pierwszej zmiennej - stwórz trzy dowolne wykresy dla tego zbioru danych - podziel zbiór innowacyjnoscue na trzy klasy metodą k-średnich. Mapy shp 25. Rozpakuj archiwum z pliku mapy.zip (plik na stronie http://andrzej.ae.jgora.pl/ lub w moodle). Uruchom plik wybory2015 z wynikami wyborów 26. Uruchom plik dolnoslaskie.r, zobacz średnią liczbę zachorowań na choroby serca na 100 osób 27. Uruchom plik 5 powiatów, zobacz samą mapę powiatu śremskiego i okolic, Stwórz mapę swojej okolicy 28. Wyświetl dane dotyczące rozwodów na mapie Polski 29. Wyświetl dowolne dane z BDL na poziomie powiatów dla wybranego województwa. Import danych Eurostat 30. Odwiedź stronę http://ec.europa.eu/eurostat/web/sdi/indicators Wybierz Good health and well-care Wybierz Life expectancy at birth by sex (spodziewana długość życia) Sprawdź jaki symbol (sdg_03_10) ma ta seria danych, 5
Wybierz Smoking prevalence by sex (zapobieganie paleniu papierosów), zapamiętaj symbol tej serii danych i zwróć uwagę na wartości jakie występują w filtrze smoking Powtórz czynności dla Death rate due to chronic diseases, People killed in road accidents, zwracając uwagę na dane, które są wyświetlane w kolumnach 31a) Zaimportuj dane dotyczące tych wskaźników bezpośrednio do R poprzez pakiet Eurostat library(eurostat) 6
library(lubridate) kraje<-eu_countries$name dlugosc_zycia_kobiet<-get_eurostat("sdg_03_10",filters=list(geo=eu_countries$code,time="2014",sex="f"))$values dlugosc_zycia_mezczyzn<-get_eurostat("sdg_03_10",filters=list(geo=eu_countries$code,time="2014",sex="m"))$values palenie_kobiet<-get_eurostat("sdg_03_30",filters=list(geo=eu_countries$code,time="2014",smoking="nsm",sex="f"))$values palenie_mezczyzn<-get_eurostat("sdg_03_30",filters=list(geo=eu_countries$code,time="2014",smoking="nsm",sex="m"))$values wypadki_kobiet<-get_eurostat("sdg_08_60",filters=list(geo=eu_countries$code,time="2014",sex="f"))$values wypadki_mezczyzn<-get_eurostat("sdg_08_60",filters=list(geo=eu_countries$code,time="2014",sex="m"))$values drogowe_kobiet<-get_eurostat("sdg_11_40",filters=list(geo=eu_countries$code,time="2014",sex="f",unit="rt"))$values drogowe_mezczyzn<-get_eurostat("sdg_11_40",filters=list(geo=eu_countries$code,time="2014",sex="m",unit="rt"))$values z<-data.frame(dlugosc_zycia_kobiet,dlugosc_zycia_mezczyzn,palenie_kobiet, palenie_mezczyzn, wypadki_kobiet, wypadki_mezczyzn, drogowe_kobiet, drogowe_mezczyzn) row.names(z)<-kraje 31b) Oblicz średni poziom dla każdego wskaźnika print(apply(z,2,mean)) 31c) Znajdź kraje z najwyższą długością życia mężczyzn print(z[order(z$dlugosc_zycia_mezczyzn,decreasing=true),]) 31 d) wyświetl średnią długość życia kobiet wg krajów na mapie Europy library(choroplethr) library(choroplethrmaps) library(ggplot2) library(r6) region<-tolower(row.names(z)) value<-z$dlugosc_zycia_kobiet datas<-data.frame(region,value) datas<-datas[datas[,1]!="malta",] graphics.off() windows() datas$region<-as.character(datas$region) gg<-country_choropleth(datas,zoom=datas[,1],legend="%",num_colors=4,title = "2014 Długość życia kobiet") gg <- gg + xlim(-31.266001, 39.869301) gg <- gg + ylim(27.636311, 81.008797) gg <- gg + coord_map("lambert", lat0=27.636311, lat1=81.008797) print(gg) 31 e) uszereguj kraje stosując metodą porządkowania liniowego wg zaimportowanych wskaźników opieki zdrowotnej i jakości życia library(clustersim) res<-pattern.gdm1(z,performancevariable=c("s","s","s","s","d","d","d","d"), scaletype="r",nomoptvalues=null,weightstype="equal",weights=c(1,1,1,1,1,1,1,1), normalization="n1",patterntype="upper",patterncoordinates="manual", 7
patternmanual=c("max","max","max","max","min","min","min","min"),nominal- TransfMethod=NULL) windows() print("uporządkowanie krajów od najlepszego do najgorszego według wartości miary GDM1", quote=false) print(res$sorteddistances) # Prezentacja graficzna wyników porządkowania liniowego gdm_p <- res$distances plot(cbind(gdm_p,gdm_p),xlim=c(min(gdm_p),max(gdm_p)),ylim=c(min(gdm_p),max(gdm_p)), xaxt="n", xlab="",ylab="odległości GDM1 od obiektu wzorca", lwd=1.6,las=1) axis(1,at=gdm_p,labels=names(gdm_p),las=2,cex.axis=0.5) Zadanie dodatkowe: Stwórz własny zbiór z danych Eurostatu i przeprowadź dla niego analizę skupień lub porządkowanie liniowe.. Animacje 32. Zainstaluj pakiet animation, Otwórz pliki simpleanimationmds.r i simpleanimationbarchart.r. z archiwum animacje.r Zmień szerokość, wysokość, liczbę kroków animacji i szczegóły na ekranie (nazwy, pozycję, kolory itp.) Jeżeli aplikacja nie uruchomi się pobierz https://ffmpeg.zeranoe.com/builds/ i przekopiuj do c:\windows\system32 -------------------------------------------------- Jeżeli starczy czasu dodatkowe pliki do ćwiczeń dla wybranych metod wielowymiarowej analizy statystycznej / big data / sztucznej inteligencji znajdują się na stronie http://andrzej.ae.jgora.pl/ i w moodle w archiwum metody2018.zip 8