a) Utworzyć wykres kołowy dla stanu cywilnego danej grupy kobiet. Porównać różne formy opisu wykresu.

Podobne dokumenty
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Zadanie 1. Plik Nowy Kod. lub naciskając ikonę Nowy kod (jak na rysunku) Tworzymy bibliotekę o nazwie lab wpisując instrukcję

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Laboratorium 3 - statystyka opisowa

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

STATYSTYCZNE METODY WSPOMAGANIA DECYZJI

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyki opisowe i szeregi rozdzielcze

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Wykład 4: Statystyki opisowe (część 1)

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Zadanie 1. Analiza Analiza rozkładu

Próba własności i parametry

author: Andrzej Dudek

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Pozyskiwanie wiedzy z danych

Otwórz R. Zmień katalog roboczy za pomocą File/Change Dir. Wczytaj plik przypisując go obiektowi o nazwie students:

Zajęcia 1. Statystyki opisowe

You created this PDF from an application that is not licensed to print to novapdf printer (

Parametry statystyczne

2. Wprowadzenie do oprogramowania gretl. Podstawowe operacje na danych.

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Materiał dotyczy generowania różnego typu wykresów w środowisku R.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

ĆWICZENIE 1 Statystyka opisowa. Testowanie zgodności STATYSTYKA OPISOWA wstępna analiza danych I. Miary położenia: Mediana Moda

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

W1. Wprowadzenie. Statystyka opisowa

Podstawy statystyki - ćwiczenia r.

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

Wykład 3: Prezentacja danych statystycznych

Zmienne losowe dyskretne i Zmienne losowe ciągłe Rozkład Normalny

NAZWA ZMIENNEJ LOSOWEJ PODAJ WARTOŚĆ PARAMETRÓW ROZKŁADU PRAWDOPODOBIEŃSTWA DLA TEJ ZMIENNEJ

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Statystyka opisowa. Robert Pietrzykowski.

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Ćwiczenia 1-2 Analiza rozkładu empirycznego

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka Matematyczna Anna Janicka

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

POLITECHNIKA OPOLSKA

> x <-seq(-2*pi, 2*pi, by=0.5) > plot(x, sin(x), type="b",main="wykres funkcji sin(x) i cos(x)", col="blue") > lines(x, cos(x), type="l",col="red")

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

Statystyka. Opisowa analiza zjawisk masowych

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Statystyka opisowa- cd.

ZADANIE 1 (7pkt./15min.)

Przedziały ufności. Poziom istotności = α (zwykle 0.05) Poziom ufności = 1 α Przedział ufności dla parametru μ = taki przedział [a,b], dla którego

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 3 ZADANIA - ZESTAW 3

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

g) wartość oczekiwaną (przeciętną) i wariancję zmiennej losowej K.

Katedra Technik Wytwarzania i Automatyzacji STATYSTYCZNA KONTROLA PROCESU

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Zmienne losowe zadania na sprawdzian

Wprowadzenie do analizy dyskryminacyjnej

POLITECHNIKA OPOLSKA


Opisowa analiza struktury zjawisk statystycznych

Wykład 5: Statystyki opisowe (część 2)

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

author: Andrzej Dudek

1 Podstawy rachunku prawdopodobieństwa

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

STATYSTYKA OPISOWA LABORATORIUM KOMPUTEROWE DLA I ROKU KIERUNKU ZARZĄDZANIE ZESTAWY ZADAŃ

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Analiza statystyczna w naukach przyrodniczych

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

> E0swiatKobiety <- subset(x0, Plec == "Female-Femmes") > E0swiatKobiety [1]

MapInfo Professional - 5

Wykład 2. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Transkrypt:

Zadanie 1 Badania demograficzne przeprowadzone w 1988 roku w USA wykazały, że wśród kobiet (mających 18 i więcej lat) było: 17364 tyś. panien, 56128 tyś. mężatek, 11239 tyś. wdów i 8170 tyś. rozwódek. a) Utworzyć wykres kołowy dla stanu cywilnego danej grupy kobiet. Porównać różne formy opisu wykresu. panie = c(17364, 56128,11239, 8170) /// cos = c() - tworzenie wektora stan = c ("panny", "mezatki", "wdowy", "rozwodki") pie (panie, labels = stan) /// wykres kołowy dla wektora panie pie (panie, /// wektor z danymi labels = stan, /// wektor z etykietami col=kol, /// wektor z kolorami main = "stan cywilny", /// tytuł wykresu col.main = "violet", /// kolor tytułu radius = 1) // promien koła(wykresu) b) Utworzyć wykres słupkowy dla stanu cywilnego danej grupy kobiet. Porównać różne rodzaje wykresów i formy ich opisu. barplot (panie, names.arg = panie, /// podpisy słupkow legend.text = stan, /// wektor z etykietami col = kol) Zadanie 2 Koncern paliwowy planuje otworzyć nową stację benzynową w pewnym mieście. Rozważane są cztery możliwe lokalizacje stacji w południowej, północnej, zachodniej i wschodniej dzielnicy miasta (oznaczenia dzielnic: S południowa, N północna, W zachodnia i E wschodnia). W ramach badania opinii społecznej odnośnie preferowanej lokalizacji stacji zapytano o to tysiąc kierowców. Ich odpowiedzi znajdują się w pliku stacje.csv. Utworzyć wykres słupkowy i wykres kołowy dla badanych preferencji. stacja = read.csv('p:/smwd/stacje.csv') dim(stacja) /// rozmiar ts = table(stacja) /// tabelaryzacja barplot(ts, names.arg=ts) pie(ts) Zadanie 3 Poniższe dane odpowiadają notowaniom pewnej spółki (w PLN) w kolejnych 20 dniach: 23,30 24,50 25,30 25,30 24,30 24,80 25,20 24,50 24,60 24,10, 24,30 26,10 23,10 25,50 22,60 24,60 24,30 25,40 25,20 26,80 Utworzyć wykres cen akcji jako funkcję czasu (szereg czasowy). ceny=c(23.30,24.50,25.30,25.30,24.30,24.80,25.20,24.50,24.60,24.10,24.30,26.10,23.10,25.50,22.60,24.60,24.30,25.40,25.20,26.80) plot(ceny, type="b", /// typ bez kropki, l - kreski, b kropki i kreski col = 3, pch = 16, /// kolor lini i styl kropki xlab ="dzien", ylab="ceny akcji" ) Zadanie 4 Wytrzymałość na ciśnienie wewnętrzne szkła butelek jest ich ważną charakterystyką jakościową. W celu zbadania wytrzymałości butelek umieszcza się je w maszynie hydrostatycznej, po czym zwiększa się ciśnienie

aż do zniszczenia butelki. Plik butelki.csv zawiera dane opisujące graniczną wytrzymałość na ciśnienie wewnętrzne szkła badanej partii butelek (mierzone w psi). butelki = read.csv('p:/smwd/butelki.csv') a) Utworzyć zmienną o nazwie cisnienie, opisującą wytrzymałość na ciśnienie wewnętrzne szkła butelek mierzone w MPa Wskazówka: 1psi = 0,0068947 MPa cis = 0.0068947*butelki$strength b) Utworzyć histogram dla danych opisujących wytrzymałość butelek. Prześledzić wpływ liczby klas na kształt histogramu. Porównać różne rodzaje histogramów. hist(cis, labels =T, prob = T) breaks liczba klas ale nie do końca bangla h=hist(cis,labels=t) h /// wyświetla info o histogramie c) Utworzyć wykres łamanej liczności i nałożyć go na wykres histogramu. xll=c(1.1, h$mids, 2.7) ylc=c(0,h$intensities,0) lines (xll,yll, col=4) ====Liczność skumulowana==== lk =numeric(length(7)) lk[1]= h$counts[1] for (i in 2:7 ) lk [i]=h$counts[i]+lk[i-1] lk2=c(0,lk) barplot(lk2,space=0,names.arg=lk2) c) Utworzyć wykres łodygowo-liściowy. stem(cis) d) Utworzyć i zinterpretować wykres skrzynkowy dla wytrzymałości butelek. boxplot(cis,horizontal=t) summary(cis) f) Wyznaczyć i zinterpretować podstawowe statystyki próbkowe dla danych opisujących wytrzymałość butelek. boxplot(cis,horizontal=t)$out /// outsider mean(cis) /// srednia median(cis) /// mediana var(cis) /// wariancja sd(cis) /// odchylenie standardowe IQR(cis) quantile(cis, 0.75) /// kwantyl rzędu 75% - 75% obserwacji ma mniejsza wartość g) Obliczyć i zinterpretować 5, 10, 25, 50, 75, 90 i 95 percentyl dla rozważanych danych.

rz=c(.05,.1,.25,.75,.9,.95) quantile(cis, rz) h) Wyznaczyć 10% średnią uciętą dla danych opisujących wytrzymałość butelek. Porównać średnią uciętą ze średnią arytmetyczną i medianą. Prześledzić, jak zmienia się wartość średniej wraz ze zmianą stopnia ucięcia próbki. mean(cis,trim=0.1) Zadanie 6 W pliku samochody.csv zamieszczono dane dotyczące parametrów samochodów kilku wybranych marek. samochody= read.csv2("p:/smwd/samochody.csv") a) Zmienna mpg zawiera dane odpowiadające liczbie mil, przejechanych przez dany samochód na galonie paliwa. Utworzyć zmienną zp opisującą zużycie paliwa mierzone w litrach na 100 kilometrów. Wskazówka: 1 mila = 1609 m 1 galon (amerykański) = 3,785 l zp=378.5/(1.609*samochody$mpg) samochody=cbind(samochody,zp) ///dodaje kolumnę zp b) Utworzyć wykres łodygowo-liściowy dla zużycia paliwa. stem(zp) c) Utworzyć histogram dla danych opisujących zużycie paliwa. hist(zp) d) Utworzyć wykres skrzynkowy dla zużycia paliwa. boxplot(zp,horizontal=t) e) Wyznaczyć i zinterpretować podstawowe statystyki próbkowe dla danych opisujących zużycie paliwa (takie jak: średnia, mediana, wariancja, odchylenie standardowe, rozstęp, kwartyle, rozstęp międzykwartylowy, wartości ekstremalne, współczynnik asymetrii, kurtoza, współczynnik zmienności). mean(zp,na.rm=t) /// na.rm=t usuwa wartosci NA przed liczeniem zp2=na.omit(zp) /// na.omit - pominiecie wartości NA max(zp2)-min(zp2) /// rozstęp range(zp2) /// wartości ekstremalne mean((zp2-mean(zp2))^3)/sd(zp2)^3 /// współczynnik asymetrii mean((zp2-mean(zp2))^4)/sd(zp2)^4-3 /// kurtoza sd(zp2)/mean(zp2) /// współczynnik zmienności f) Obliczyć i zinterpretować 5, 10, 90 i 95 percentyl dla rozważanych danych. g) Wyznaczyć 5% średnią uciętą dla danych opisujących zużycie paliwa. mean(cis,trim=0.05) Zadanie 7 Analizowane w poprzednim zadaniu dane dotyczące zużycia paliwa postanowione poddać kategoryzacji tworząc następujące klasy:

Zużycie paliwa [litry na 100 km] nie więcej niż 7 więcej niż 7 ale nie więcej niż 10 więcej niż 10 Kod opisujący kategorię zużycia paliwa mało średnio dużo Utworzyć wykres słupkowy dla wyznaczonych w ten sposób kategorii i wskazać, jaki procent badanych samochodów należy do każdej kategorii. m=zp2[zp2<=7] s=zp2[zp2>7 & zp2<=10 ] d=zp2[zp2>10 ] sp=c(length(m),length(s),length(d)) barplot(sp,names.arg=sp) prop.table(sp) /// procent całości round(prop.table(sp),2) /// zaokrąglone Zadanie 8 Przeprowadzić wstępną analizę statystyczną danych dotyczących zużycia paliwa oddzielnie dla samochodów produkowanych w Europie, Ameryce i Japonii (wykorzystać zmienne producent i legenda). Zestawić wykresy skrzynkowe zużycia paliwa dla samochodów produkowanych w Europie, Ameryce i Japonii. boxplot(zp~samochody$producent) attach(samochody) // załącz amer = subset(samochody,producent == 1) /// subset zwraca wektor spełniający warunek eu = subset(samochody,producent == 2) jap = subset(samochody,producent == 3) mean(jap$zp) mean(amer$zp) mean(eu$zp, na.rm=t ) ale też mean(zp[producent==3], na.rm=t) Zadanie 9 Przeprowadzić wstępną analizę statystyczną danych dotyczących zużycia paliwa przez samochody o jednakowej liczbie cylindrów (dane dotyczące liczby cylindrów znajdują się w zmiennej cylindry). median(zp[cylindry==6],na.rm=t) summary(zp[cylindry==6],na.rm=t) Zadanie 10 Przeprowadzić wstępną analizę statystyczną danych dotyczących zużycia paliwa przez samochody mające wyłącznie 6 lub 8 cylindrów. median(zp[cylindry==6 cylindry==8],na.rm=t) summary(zp[cylindry==6 cylindry==8],na.rm=t) Zadanie 11 Porównać przyspieszenie samochodów produkowanych w Ameryce i Japonii (dane dotyczące przyspieszenia znajdują się w zmiennej przysp). przyspa=c(przysp[producent==1]) przyspj=c(przysp[producent==3])

boxplot(przyspa, przyspj) Zadanie 12 Przeprowadzić wstępną analizę statystyczną danych dotyczących zużycia paliwa wyłącznie dla samochodów ważących mniej niż 2500 funtów (wykorzystać zmienną waga). zpw=zp[waga<2500] summary(zpw) KOLOKWIUM Zadanie 1 Zbiór Orange zawiera dane dotyczące wieku (zmienna age) mierzonego w dniach i obwodu pnia (zmienna circumference) mierzonego w mm, 5 gatunkow drzewek pomarańczowych (zmienna Tree) Zbiór ten można otworzyć poleceniem data(orange) a)podać wartość obwodu pnia której nie przekracza 70% badanych drzewek pomarańczowych quantile(orange$circumference, 0.7) b)podać średni wiek oraz odchylenie standardowe wieku drzewek pomarańczowych 1 gatunku mean(orange$age[orange$tree==1]) sd(orange$age[orange$tree==1]) c)narysować i opisać wykres skrzynkowy dla obwodu pnia drzewek mających co najmniej 500 ale nie więcej niż 1300 dni. Zadanie 2 drzewka= Orange$circumference [Orange$age >=500 & Orange$age <=1300 ] boxplot(drzewka,horizontal=t) summary(drzewka) Analizowaną w poprzednim zadaniu zmienną circumference (ze zbioru Orange), opisującą obwód pnia drzewek pomarańczowych poddać następującej kategoryzacji: Obwód Kategoria Mniej niż 100mm A Co najmniej 100mm ale mniej niż 200mm B Co najmniej 200 mm C Utworzyć wykres kołowy dla wyznaczonych w ten sposób kategorii i wskazać, jaki procent drzewek pomarańczowych należy do danej kategorii A = subset(orange,orange$circumference< 100) B = subset(orange,orange$circumference>= 100 & Orange$circumference < 200 ) C = subset(orange,orange$circumference>= 200) drzewkazkategoryzowane = c(length(a$age),length(b$age),length(c$age)) pie(drzewkazkategoryzowane, labels = drzewkazkategoryzowane) prop.table(drzewkazkategoryzowane) round(prop.table(drzewkazkategoryzowane),2)