author: Andrzej Dudek

Podobne dokumenty
author: Andrzej Dudek

2. Wprowadzenie do oprogramowania gretl. Podstawowe operacje na danych.

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Otwórz R. Zmień katalog roboczy za pomocą File/Change Dir. Wczytaj plik przypisując go obiektowi o nazwie students:

Badanie zależności skala nominalna

Usługi Informatyczne "SZANSA" - Gabriela Ciszyńska-Matuszek ul. Świerkowa 25, Bielsko-Biała

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

ZARZĄDZANIE DANYMI W STATISTICA

SZKOLENIE WPROWADZENIE DO R UNIWERSYTET SZCZECIŃSKI al. Papieża Jana Pawła II nr 22a Szczecin

Wprowadzenie do analizy dyskryminacyjnej

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Ankieta. Informacje o uczestniku. Imię i nazwisko: Stanowisko : Warsztat Innowacyjne metody dydaktyczne (np. learning by doing, design thinking)

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna

Podstawy statystyki matematycznej w programie R

INFORMATYKA W SELEKCJI

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

Statystyki opisowe i szeregi rozdzielcze

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

Analiza Statystyczna

C-geo definicja/edycja obiektów, zapis danych w formacie shape

Jak zaimportować bazę do system SARE

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Jest to program stworzony z myślą o nauczycielach, wykładowcach, trenerach i prezenterach.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows 7

INFORMATYKA W SELEKCJI

1. Opis okna podstawowego programu TPrezenter.

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

Skumulowane wykresy słupkowe: pokazują zależności zachodzące między indywidualnymi elementami i całością.

KATEGORIA OBSZAR WIEDZY

Metody eksploracji danych Laboratorium 1. Weka + Python + regresja

KNIME podstawy obsługi programu. Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Rysunek 8. Rysunek 9.

Ćwiczenie 6 MS EXCEL

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Sposoby prezentacji problemów w statystyce

MapInfo Professional - 5

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Xi B ni B

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Excel zadania sprawdzające 263

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Temat: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

Załącznik I.31 Instrukcja użytkownika eregion

Instrukcja użytkownika ARSoft-WZ3

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Nabór Przedszkola. Jak złożyć wniosek o przyjęcie dziecka do przedszkola?

Pozyskiwanie wiedzy z danych

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows XP

Sylabus Moduł 4: Grafika menedżerska i prezentacyjna

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

Skrypt 29. Statystyka. Opracowanie L2

KORELACJE I REGRESJA LINIOWA

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Gimnastyka artystyczna

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Webowy interfejs - Shiny

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji

3.7. Wykresy czyli popatrzmy na statystyki

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Program współpracuje z : Windows XP, Powerdraft 2004, v8, XM, Microstation 2004, v8, XM.

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Kolumna Zeszyt Komórka Wiersz Tabela arkusza Zakładki arkuszy

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

dokumentacja Edytor Bazy Zmiennych Edytor Bazy Zmiennych Podręcznik użytkownika

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Przewodnik Szybki start

plansoft.org Zmiany w Plansoft.org Błyskawiczny eksport danych PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

Przewodnik Szybki start

INSTRUKCJA DO OPROGRAMOWANIA KOMPUTEROWEGO

Ćwiczenie 6. Wiadomości ogólne.

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. laboratoria 30 zaliczenie z oceną

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows Vista

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

Wykład 5: Statystyki opisowe (część 2)

1.3. Tworzenie obiektów 3D. Rysunek 1.2. Dostępne opcje podręcznego menu dla zaznaczonego obiektu

Kolory elementów. Kolory elementów

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

b) Umiejętność wykonania analizy zależności zmiennych i interpretacji uzyskanych wyników.

Analiza korespondencji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

Transkrypt:

Edytor wprowadzone polecenia zostają w oknie edytora I mogą być uruchamiana poprzez CTRL+R lub Run (tylko zaznaczone linie, z wyświetlaniem wykonywanych linii kodu) lub poprzez Source (zawsze całość, bez wyświetlania linii kodu, jedynie wyświetlane są informacje wprost określone przez funkcję print) Środowisko zmienne, w których pamiętane są dane podczas pracy, polecenie dostosowanego importu Wiersz poleceń polecenia wydawane w tym oknie znikają (powrót do nich jest możliwy poprzez nawigację strzałkami góra i dół). To okno przypomina czyste środowisko R Narzędzie (zainstalowane pakiety, przeglądanie I ładowanie plików, wykresy, okienko pomocy) 1

RCMDR (R na skróty ) 1. Zainstaluj przy pomocy RStudio pakiet clustersim 2. Wykonaj polecenia: library(clustersim) windows() plot(cluster.gen(numobjects = 50,model=4)$data,col=rep(rainbow(3),each=50)) Obejrzyj wyniki działania poleceń 3. Zainstaluj i uruchom nakładkę RCMDR 4. Załaduj dane Salaries z pakietu car 1

5. Obejrzyj zbiór danych, przejdź do edycji (nie zapisując zmian) 6. Stwórz histogram zmiennej salary 2

Co możemy powiedzić o rozkładzie zmiennej? 7. Stwórz wykres rozrzutu (punktowy) zmiennych salary i yrs.service 8. Zmień ręcznie długość osi x od 0 do 300000 (xlim) 9. Zmień ręcznie długość osi y od 10 do 30 (ylim) zwóć uwagę, że wykres się nie mieści 10. Zmień kolor, symbol punktów i rozmiar (col, pch,cex) 11. Ustal inne parametry wykresu poprzez okno konfiguracyjne, włącz identyfikację punktów 3

12. Utwórz wykres punktowy macierzowy dla wszystkich trzech zmiennych metrycznych, określ, dla których z nich wykres wskazuje na wysoką wartość współczynnika korelacji 13. Zwróć uwagę, że każdemu poleceniu odpowiadają instrukcje języka R 14. Z modyfikuj polecenie, żeby każdy punt wykresu był narysowany innym kolorem plot(as.matrix(cbind(salaries$salary,salaries$yrs.service,salaries$yrs.since.phd)), reg.line=false, smooth=false, spread=false, span=0.5, ellipse=false, levels=c(.5,.9), id.n=0, col=rainbow(100)) 15. Stwórz wykres słupkowy wg stanowisk i wykres kołowy wg płci 16. Oblicz podstawowe statystyki dla zbiory poprzez dane podsumowania, podsumowania numeryczne (z opcjami kurtoza i skośność). Zinterpetuj wyniki 17. Pokaż średnią pensję w zależności od płci (Statystyki podsumowania, tabela statystyk). Zwróć uwagę na zapis polecenia obliczenia statystyk w rozbiciu na grupy w języku R 18. Oblicz wspóczynniki korelacji pomiędzy salary, yrs.service, yrs.since.phd, porównaj wyniki z wnioskami z punktu 10. 19. Zbadaj normalność każdej ze zmiennych, zinterpretuj p-wartości testu Shapiro-Wilka 20. Stwórz tablicę kontyngencji płci z rodzajem pracy badawczej oraz płci ze stanowiskiem, ziterpretuj p-wartości testu chi-kwadrat 21. Przeprowadź test t-studenta niezależnych prób dla zmiennych płeć i wynagrodzenie, zinterpretuj wyniki 22. Zwróć uwagi że zmiennej stopień (rank) nie było na liście do wyboru testu niezależnych prób (dlaczego?) Przeprowadź dla tej zmiennej i zmiennej salary analizę wariancji (ANOVA) 23. Stwórz model regresji zmiennej salary w zależności od pozostałych zmiennych, zinterpretuj wyniki.. 24. Zaimportuj plik tekstowy innowacyjnoscue_rcmd.csv jako nowy plik danych pakietu RCMDR - obejrzyj dane - oblicz podstawowe statystyki dla wszystkich zmiennych: średnie, odchylenie standardowe, błąd standardowy średniej, rozstęp ćwiartkowy, kurtozę i kwartyle - oblicz macierz korelacji Pearson a i Spearmana pomiędzy poszczególnymi zmiennymi 4

- zbadaj testem Shapiro Wilka normalność rozkładu pierwszej zmiennej - stwórz trzy dowolne wykresy dla tego zbioru danych - podziel zbiór innowacyjnoscue na trzy klasy metodą k-średnich. Mapy shp 25. Rozpakuj archiwum z pliku mapy.zip (plik na stronie http://andrzej.ae.jgora.pl/ lub w moodle). Uruchom plik wybory2015 z wynikami wyborów 26. Uruchom plik dolnoslaskie.r, zobacz średnią liczbę zachorowań na choroby serca na 100 osób 27. Uruchom plik 5 powiatów, zobacz samą mapę powiatu śremskiego i okolic, Stwórz mapę swojej okolicy 28. Wyświetl dane dotyczące rozwodów na mapie Polski 29. Wyświetl dowolne dane z BDL na poziomie powiatów dla wybranego województwa. Import danych Eurostat 30. Odwiedź stronę http://ec.europa.eu/eurostat/web/sdi/indicators Wybierz Good health and well-care Wybierz Life expectancy at birth by sex (spodziewana długość życia) Sprawdź jaki symbol (sdg_03_10) ma ta seria danych, 5

Wybierz Smoking prevalence by sex (zapobieganie paleniu papierosów), zapamiętaj symbol tej serii danych i zwróć uwagę na wartości jakie występują w filtrze smoking Powtórz czynności dla Death rate due to chronic diseases, People killed in road accidents, zwracając uwagę na dane, które są wyświetlane w kolumnach 31a) Zaimportuj dane dotyczące tych wskaźników bezpośrednio do R poprzez pakiet Eurostat library(eurostat) 6

library(lubridate) kraje<-eu_countries$name dlugosc_zycia_kobiet<-get_eurostat("sdg_03_10",filters=list(geo=eu_countries$code,time="2014",sex="f"))$values dlugosc_zycia_mezczyzn<-get_eurostat("sdg_03_10",filters=list(geo=eu_countries$code,time="2014",sex="m"))$values palenie_kobiet<-get_eurostat("sdg_03_30",filters=list(geo=eu_countries$code,time="2014",smoking="nsm",sex="f"))$values palenie_mezczyzn<-get_eurostat("sdg_03_30",filters=list(geo=eu_countries$code,time="2014",smoking="nsm",sex="m"))$values wypadki_kobiet<-get_eurostat("sdg_08_60",filters=list(geo=eu_countries$code,time="2014",sex="f"))$values wypadki_mezczyzn<-get_eurostat("sdg_08_60",filters=list(geo=eu_countries$code,time="2014",sex="m"))$values drogowe_kobiet<-get_eurostat("sdg_11_40",filters=list(geo=eu_countries$code,time="2014",sex="f",unit="rt"))$values drogowe_mezczyzn<-get_eurostat("sdg_11_40",filters=list(geo=eu_countries$code,time="2014",sex="m",unit="rt"))$values z<-data.frame(dlugosc_zycia_kobiet,dlugosc_zycia_mezczyzn,palenie_kobiet, palenie_mezczyzn, wypadki_kobiet, wypadki_mezczyzn, drogowe_kobiet, drogowe_mezczyzn) row.names(z)<-kraje 31b) Oblicz średni poziom dla każdego wskaźnika print(apply(z,2,mean)) 31c) Znajdź kraje z najwyższą długością życia mężczyzn print(z[order(z$dlugosc_zycia_mezczyzn,decreasing=true),]) 31 d) wyświetl średnią długość życia kobiet wg krajów na mapie Europy library(choroplethr) library(choroplethrmaps) library(ggplot2) library(r6) region<-tolower(row.names(z)) value<-z$dlugosc_zycia_kobiet datas<-data.frame(region,value) datas<-datas[datas[,1]!="malta",] graphics.off() windows() datas$region<-as.character(datas$region) gg<-country_choropleth(datas,zoom=datas[,1],legend="%",num_colors=4,title = "2014 Długość życia kobiet") gg <- gg + xlim(-31.266001, 39.869301) gg <- gg + ylim(27.636311, 81.008797) gg <- gg + coord_map("lambert", lat0=27.636311, lat1=81.008797) print(gg) 31 e) uszereguj kraje stosując metodą porządkowania liniowego wg zaimportowanych wskaźników opieki zdrowotnej i jakości życia library(clustersim) res<-pattern.gdm1(z,performancevariable=c("s","s","s","s","d","d","d","d"), scaletype="r",nomoptvalues=null,weightstype="equal",weights=c(1,1,1,1,1,1,1,1), normalization="n1",patterntype="upper",patterncoordinates="manual", 7

patternmanual=c("max","max","max","max","min","min","min","min"),nominal- TransfMethod=NULL) windows() print("uporządkowanie krajów od najlepszego do najgorszego według wartości miary GDM1", quote=false) print(res$sorteddistances) # Prezentacja graficzna wyników porządkowania liniowego gdm_p <- res$distances plot(cbind(gdm_p,gdm_p),xlim=c(min(gdm_p),max(gdm_p)),ylim=c(min(gdm_p),max(gdm_p)), xaxt="n", xlab="",ylab="odległości GDM1 od obiektu wzorca", lwd=1.6,las=1) axis(1,at=gdm_p,labels=names(gdm_p),las=2,cex.axis=0.5) Zadanie dodatkowe: Stwórz własny zbiór z danych Eurostatu i przeprowadź dla niego analizę skupień lub porządkowanie liniowe.. Animacje 32. Zainstaluj pakiet animation, Otwórz pliki simpleanimationmds.r i simpleanimationbarchart.r. z archiwum animacje.r Zmień szerokość, wysokość, liczbę kroków animacji i szczegóły na ekranie (nazwy, pozycję, kolory itp.) Jeżeli aplikacja nie uruchomi się pobierz https://ffmpeg.zeranoe.com/builds/ i przekopiuj do c:\windows\system32 -------------------------------------------------- Jeżeli starczy czasu dodatkowe pliki do ćwiczeń dla wybranych metod wielowymiarowej analizy statystycznej / big data / sztucznej inteligencji znajdują się na stronie http://andrzej.ae.jgora.pl/ i w moodle w archiwum metody2018.zip 8