Środowisko R wprowadzenie c.d. Wykład R2; 21.05.07 Struktury danych w R c.d.



Podobne dokumenty
7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Estymacja parametrów w modelu normalnym

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Wykład 13. Zmienne losowe typu ciągłego

Wykład 10: Elementy statystyki

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Dyskretne zmienne losowe

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Wykłady 14 i 15. Zmienne losowe typu ciągłego

Przedmiot statystyki. Graficzne przedstawienie danych.

Rozkłady zmiennych losowych

Rozkłady statystyk z próby

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

Wykład 13. Podstawowe pojęcia rachunku prawdopodobieństwa

Testowanie hipotez statystycznych.

Aleksander Adamowski (s1869) zmienn ą losow ą T o rozkładzie wykładniczym o średniej 5 minut.

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 7 Testowanie zgodności z rozkładem normalnym

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

Prawdopodobieństwo i statystyka

Środowisko R wprowadzenie. Wykład R1; Pakiety statystyczne

Statystyka w analizie i planowaniu eksperymentu

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI INSTYTUT AUTOMATYKI I INFORMATYKI KIERUNEK AUTOMATYKA I ROBOTYKA STUDIA STACJONARNE I STOPNIA

Testowanie hipotez statystycznych.

Prawdopodobieństwo i statystyka

Zmienne losowe. dr Mariusz Grzadziel. rok akademicki 2016/2017 semestr letni. Katedra Matematyki, Uniwersytet Przyrodniczy we Wrocławiu

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

II WYKŁAD STATYSTYKA. 12/03/2014 B8 sala 0.10B Godz. 15:15

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

1 Podstawy rachunku prawdopodobieństwa

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Opis przedmiotu: Probabilistyka I

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Generowanie ciągów pseudolosowych o zadanych rozkładach wstęp do projektu

Wykład 15. Metody nieparametryczne. Elementy analizy wielowymiarowej Weryfikacja założenia o normalności rozkładu populacji

Statystyka opisowa. Robert Pietrzykowski.

Wykład 10 Testy jednorodności rozkładów

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Spis treści 3 SPIS TREŚCI

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

Laboratorium nr 7. Zmienne losowe typu skokowego.

Weryfikacja hipotez statystycznych

Pakiety Matematyczne - R Zestaw 2.

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Cwiczenie 3 - Rozkłady empiryczne i. teoretyczne

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

Dokładne i graniczne rozkłady statystyk z próby

a)dane są wartości zmiennej losowej: 2, 4, 2, 1, 1, 3, 2, 1. Obliczyć wartość średnią i wariancję.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

PODSTAWOWE ROZKŁADY ZMIENNYCH LOSOWYCH

Prawdopodobieństwo i statystyka

Zmienna losowa (wygrana w pojedynczej grze): (1, 0.5), ( 1, 0.5)

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

6.4 Podstawowe metody statystyczne

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 2 ZADANIA - ZESTAW 2

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Rozkłady prawdopodobieństwa zmiennych losowych

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Statystyka i eksploracja danych

ĆWICZENIE 1 Statystyka opisowa. Testowanie zgodności STATYSTYKA OPISOWA wstępna analiza danych I. Miary położenia: Mediana Moda

Statystyka w analizie i planowaniu eksperymentu

Instytut Fizyki Politechniki Łódzkiej Laboratorium Metod Analizy Danych Doświadczalnych Ćwiczenie 3 Generator liczb losowych o rozkładzie Rayleigha.

Estymacja punktowa i przedziałowa

Statystyka Opisowa z Demografią oraz Biostatystyka. Zmienne losowe. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

Ćwiczenie 2. Statystyka opisowa i metody symulacyjne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka w analizie i planowaniu eksperymentu

Materiał dotyczy generowania różnego typu wykresów w środowisku R.

Metody Statystyczne. Metody Statystyczne.

A B x x x 5 x x 8 x 18

Aby przygotować się do kolokwiów oraz do egzaminów należy ponownie przeanalizować zadania

Estymacja parametrów rozkładu cechy

TABLICE PODSTAWOWYCH ROZKŁADÓW PRAWDOPODOBIEŃSTWA. T4. Tablica kwantyli rozkładu chi-kwadrat (I część - poziomy kwantyli 0,5)

18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.

Transkrypt:

Środowisko R wprowadzenie c.d. Wykład R2; 21.05.07 Struktury danych w R c.d. Oprócz zmiennych i wektorów strukturami danych w R są: macierze; ramki (ang. data frames); listy; klasy S3 1

Macierze Macierze można tworzyć z wektorów kolumnowych (o równych wymiarach) za pomocą polecenia cbind: > x=c(1,3);y=c(2,4) > m=cbind(x,y) # z wektorow kolumnowych tworzy macierz > m x y [1,] 1 2 [2,] 3 4 2

Operacje na macierzach Macierz odwrotną można obliczać przy użyciu polecenia solve, a wyznacznik przy pomocy polecenia det > dimnames(m)=null # usuwa nazwy kolumn > solve(m) # oblicza macierz odwrotna do m [,1] [,2] [1,] -2.0 1.0 [2,] 1.5-0.5 > det(m) # oblicza wyznacznik m [1] -2 3

Ramki (data frames) Ramka (ang. data frame) układ wektorów, o tej samej długości, niekoniecznie tego samego typu. Przykładem ramki jest faithful; ramka ta jest dostępna w środowisku R. Składa się on z dwóch wektorów (zmiennych) numerycznych, każda składa się z 252 obserwacji (pomiarów czasu erupcji i czasu oczekiwania na erupcję gejzeru Old Faithful) eruptions czas erupcji (w minutach) waiting czas oczekiwania na erupcję (w minutach) 4

Ramki c.d. Pierwsze 3 obserwacje w zbiorze (ramce) faithful można zapisać wyświetlić na ekranie wydając polecenie > faithful[1:3,] eruptions waiting 1 3.600 79 2 1.800 54 3 3.333 74 Średni czas erupcji wynosi: > mean(faithful$eruptions) [1] 3.487783 5

Listy i klasy typu S3 Struktura składająca się ze składowych o różnych typach (mogą to być wektory, macierze itd.): lista Klasa typu S3: lista z dodanym identyfikatorem typu Wyniki procedur statystycznych, takich jak t.test (wykonuje obliczenia związane z weryfikacją hipotezy dotyczącej średniej lub średnich) są zapisywane do klas typu S3. 6

Rozkłady prawdopodobieństwa W środowisku R można obliczać wartości dystrybuant, kwantyle oraz wartości funkcji gęstości dla wielu rozkładów prawdopodobieństwa; Rozkład Nazwa w R Dodatkowe argumenty dwumianowy binom size, prob jednostajny unif min, max normalny norm mean, sd Poissona pois lambda t Studenta t df Np. dla rozkładu normalnego N(3, 1) wartości funkcji gęstości można obliczać korzystając z funkcji dnorm, wartości dystrybuanty za pomocą funkcji pnorm a kwantyle za pomocą funkcji qnorm 7

Rozkłady prawdopodobieństwa c.d. Zmienna losowa Y ma rozkład N(3, 1). Prawdopobieństwo P (Y 4) = Φ 3,1 (4) jest równe > pnorm(4,mean=3,sd=1) [1] 0.8413447 > pnorm(4,3,1) # krotsza forma [1] 0.8413447 Wartość funkcji gęstości zmiennej Y w punkcie x = 3 φ 3,1 (3) jest równa > dnorm(3,mean=3,sd=1) [1] 0.3989423 8

Rozkłady prawdopodobieństwa Kwantyl rzędu 0.95 rozkładu N(0, 1) jest równy > qnorm(0.95,mean=0,sd=1) [1] 1.644854 a kwantyl rzędu 0,975 rozkładu t-studenta z 10-ma stopniami swobody jest równy > qt(0.975,df=10) [1] 2.228139 9

Rozkłady prawdopodobieństwa Niech X oznacza liczbę orłów otrzymanych po 5-krotnym rzucie monetą ( rzetelną ). Zmienna losowa X ma rozkład Bin(5; 0,5). Prawdopodobieństwo P (X = 1) obliczamy: > dbinom(1,size=5,prob=0.5) [1] 0.15625 (w R gęstość, dla zmiennych losowych dyskretnych, oznacza prawdopodobieństwo przyjęcia przez zmienną losową danej wartości liczbowej). Prawdopobieństwo wyrzucenia co najmniej 3 orłów P (X 3) jest równe > pbinom(3,size=5,prob=0.5) [1] 0.8125 R oblicza kwantyle dla rozkładów dyskretnych wg. wzoru podanego w [6, Rozdz. 8] 10

Generowanie liczb pseudolosowych Sekwencję k liczb pseudolosowych o rozkładzie N(µ, σ) odpowiadającą realizacji losowej próby prostej z rozkładu N(µ, σ) można wygenerować przy pomocy polecenia rnorm. Np. wydając polecenie rnorm(5,3,2) otrzymamy wektor, który odpowiada realizacji 5-elementowej losowej próby prostej. > rnorm(5,3,2) [1] 2.319389 2.844417-1.229590 4.251217 3.152550 Liczby pseudoloswe o rozkładach innych niż normalny można generować przy użyciu poleceń runif (generuje liczby pseudolosowe o rozkładzie jednostajnym), rpois (generuje liczby losowe o rozkładzie Poissona) itd. 11

Wykresy statystyczne histogram Dla danych zapisanych w wektorze numerycznym histogram można sporządzić korzystając z polecenia hist. Histogram dla danych dotyczących cen mieszkań w dzielnicy A można otrzymać w następujący sposób: y=c(65,80,139,180,355,158,240,205,265,305,200,155,209, 310,149,254,188,265,275,200,184,130,260,250,195) hist(y) 12

Histogram liczebności dla danych ceny mieszkań w A Histogram of y Frequency 0 2 4 6 8 50 100 150 200 250 300 350 400 y 13

Histogram... c.d. Chcąc sporządzić histogram probabilistyczny, w którym słupki byłyby zaznaczone na niebiesko, z osią X podpisaną "ceny mieszkań", z osią Y bez żadnego podpisu, z nagłówkiem "Ceny mieszkań - histogram probabil." należy użyć polecenia hist z odpowiednio ustalonymi opcjami: prob=true itd. hist(y,prob=true,col="blue",xlab="ceny mieszkań",ylab="", main="ceny mieszkań - histogram probabil.") Rysunek można zapisać do pliku typu png (pliki tego typu można łatwo wkleić do Worda) lub Postscript (w oknie graficznym trzeba skorzystać z opcji File-> Save as) 14

Polecenie png Pliku typu png z odpowiednim histogram probabilistycznym można wygenerować wydając polecenia: png(file="cenmiesz.png") hist(y,prob=true,col="blue",xlab="ceny mieszkań",ylab="", main="ceny mieszkań - histogram probabil.") dev.off() 15

Histogram probabilistyczny dla danych ceny mieszkań w A, odpowiednio opisany 16

Szereg rozdzielczy Za pomocą polecenia hist można skonstruować szereg rozdzielczy, odpowiadający histogramowi liczebności, który został przez nas skonstruowany dla danych ceny mieszkań w A : > wynh=hist(y,prob=true,col="blue",xlab="ceny mieszkań", ylab="", main="ceny mieszkań - histogram probabil.") > names(wynh) [1] "breaks" "counts" "intensities" "density" "mids" [6] "xname" "equidist" > wynh$breaks [1] 50 100 150 200 250 300 350 400 > wynh$counts [1] 2 3 8 4 5 2 1 17

Literatura [1] Venables, W., Smith, D., An Introduction to R. Książka dostępna na stronie http://www.r-project.org/ 18