Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Podobne dokumenty
Metody wypełniania braków w danych ang. Missing values in data

Laboratorium 3 - statystyka opisowa

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka BioStatystyka

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Wykład 4: Statystyki opisowe (część 1)

Przedmiot statystyki. Graficzne przedstawienie danych.

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Próba własności i parametry

Zajęcia nr VII poznajemy Rattle i pakiet R.

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Wykład 3. Rozkład normalny

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Wykład 5: Statystyki opisowe (część 2)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyki opisowe i szeregi rozdzielcze

Statystyka matematyczna i ekonometria

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Xi B ni B

Kolokwium ze statystyki matematycznej

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

MS Excel. Podstawowe wiadomości

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Zmienne losowe zadania na sprawdzian

Rozkład zajęć, statystyka matematyczna, Rok akademicki 2015/16, semestr letni, Grupy dla powtarzających (C15; C16)

Temat: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Skrypt 29. Statystyka. Opracowanie L2

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Podstawy statystyki - ćwiczenia r.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Statystyka opisowa. Robert Pietrzykowski.

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

1 Podstawy rachunku prawdopodobieństwa

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Pozyskiwanie wiedzy z danych

Statystyka opisowa- cd.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Zajęcia 1. Statystyki opisowe

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

TRANSFORMACJE I JAKOŚĆ DANYCH

Analiza danych. TEMATYKA PRZEDMIOTU

ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY

W1. Wprowadzenie. Statystyka opisowa

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyczne metody analizy danych

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

SPRAWDZIAN NR 1 ROBERT KOPERCZAK, ID studenta : k4342

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Analiza zróżnicowania, asymetrii i koncentracji

Wydział Nauki o Zdrowiu. Zakład Profilaktyki Zagrożeń Środowiskowych i Alergologii Marta Zalewska

Wprowadzenie do analizy dyskryminacyjnej

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

4. Średnia i autoregresja zmiennej prognozowanej

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Zastosowanie Excela w matematyce

author: Andrzej Dudek

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zaliczenie. Ćwiczenia (zaliczenie = min. 15 punktów)

Statystyka Matematyczna Anna Janicka

Transkrypt:

Laboratorium nr 1 CZĘŚĆ I : STATYSTYKA OPISOWA : 1. Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby: 6,9,1,2,5,2,6,2,1,0,1,4,5,6,3,7,3,2,2,3,8,5,3,4,8,0,8,0,5,1,6,4,8,0,3,2 2. Jaka będzie moda dla zbioru: 3; 4; 5; 6; 7; 7; 7; 8; 8; 9? Odp 7 3. A jaka dla zbioru? 3; 4; 5; 6; 7; 7; 7; 8; 8; 8; 9? Odp {7,8} albo 7.5 4. jaka będzie mediana dla 3; 4; 7; 2; 3; 7; 4; 2; 4; 7; 4? Odp: 2; 2; 3; 3; 4; 4; 4; 4; 7; 7; 7 5. jaka będzie wartość średnia dla zbioru: 3; 4; 5; 7; 7; 8; 9; 9; 9 Odp 61/9 = 6.78 6. Jaki będzie rozstęp zbioru: 2; 3; 4; 6; 7; 7; 8; 9 Odp 9-2 = 7 7. Kwartyle: dla zbioru: 3; 4; 7; 2; 3; 7; 4; 2; 4; 7; 4 Najpierw sortujemy: 2; 2; 3; 3; 4; 4; 4; 4;7; 7; 7, Mediana, q2 = 4, Q1 to wartość środkowa z danych: 2; 2; 3; 3; 4 a więc 3, Q3 to wartość srodkowa z danych: 4; 4;7; 7; 7 a wiec 7, IRQ = q3-q1 = 7-3 = 4 8. Oblicz wariancję dla danych: 3; 4; 4; 5; 5; 5; 6; 6; 6; 7; 7; 8; 9 Będzie liczona ze wzoru: Gdzie: xi to bieżący element, to średnia wartość x, zaś n to liczba obserwacji. =( 3 4 4 5 5 5 6 6 6 7 7 8 9)/13= 5.8 Tabela pomocnicza wygląda tak: Teraz wystarczy podstawić odpowiednie wartości do wzoru:

9. Odchylenie standardowe będzie liczone ze wzoru: Czyli pierwiastek (14.74) = 3.84 Zadania do wykonania dla studentów: Zadanie 1. Zbadano profile klientów banku A pod względem liczby osób w rodzinie. Wyniki były następujące: 3,5,3,4,4,4,5,3,6,4,4,4,2,3,4,2,3,4,5,4. Oblicz średnią, medianę i modę. Oblicz q1,q3. Narysuj odpowiedni wykres prezentujący rozkład wartości w zbiorze. Zadanie 2. W pewnej firmie przeprowadzono ankietę dotyczącą liczby telefonów zgłaszających awarię u klientów w ciągu ostatnich 6 miesiecy. Uzyskane wyniki są następujące: Liczba awarii Liczba klientów 0 1 2 3 4 5 35 25 15 10 10 5 Czy prawdą jest, że: Średnia liczba zgłoszonych awarii wynosiła 1.3? W badanej próbie najczęściej zgłaszano 2 awarie? 50 % badanej grupy zgłosiło co najwyżej 1 awarię?

CZĘŚĆ II : GRAFICZNA REPREZENTACJA DANYCH : 1. Narysować i opisać elementy wykresu pudełkowego dla obserwacji: 8,5,17,18,9,4,17,16,12 2. Narysować histogram dla obserwacji (przyjąć 5 przedziałów): 8,5,17,18,9,4,17,16,12,14,15,53. 3. Jeśli spojrzymy na histogram poniżej dla atrybutu klasa to: Ile atrybut klasa ma wartości? Jaka jest liczność poszczególnych wartości atrybutu : klasa? 4. Jeśli spojrzymy na wykres pudełkowy dla atrybutu b to: Ile ma on wartości? Co powiemy o wartościach w stosunku do wartości atrybutu klasa? Czy atrybut b może być dobrym klasyfikatorem obiektów w systemie? Odpowiedź uzasadnij.

CZĘŚĆ III : PREPROCESSING DANYCH NIEKOMPLETNOŚĆ DANYCH Analizujemy zbiór danych cars dostępny pod adresem: http://www.sgi.com/tech/mlc/db dotyczący 261 samochodów i ich parametrów. Wybrano do analizy 10 rekordów: mpg cylinders cubicinches Hp 14 8 350 165 31.9 4 89 71 17 8 302 140 15-400 150 30.5 - - - 23-350 125 13-351 158 14 8-215 25.4 5-77 37.7 4 89 62 Uzupełnij braki w danych wartością średnią. Zadanie 1. A teraz spróbuj wykonać to samo, ale brakujące dane uzupełnij wartością dominującą w zbiorze. Zadanie 2. Zakładając, że zbiór do analizy wygląda następująco: Uzupełnij braki w danych wartością średnią.

Zadanie 3. A co jeśli to dane jakościowe są niekompletne? Wstaw odpowiednią wartość w brakującą komórkę. Krok 1. Metoda wstawienia zamiast znaku? tekstu brak Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych. Krok 2a. Zliczanie wystąpień danej wartości tekstowej K i M.

Krok 2b. wybór tej wartości, która występuje najczęściej. Krok.2c. Formula logiczna do wypelniania braków wartością najczęściej występującą.

CZĘŚĆ IV : PREPROCESSING DANYCH WYKRYWANIE ODCHYLEŃ METODAMI NUMERYCZNYMI 1. Zakładając, że liczba przepracowanych godzin przez pracowników na rzecz nowego projektu wygląda następująco: a) Znajdź odchylenia metodą wartości średniej i odchylenia standardowego. b) Znajdź odchylenia metodą rozstępu międzykwartylowego. 2. Zebrano dane o wydatkach poniesionych na żywność przez kolejne 90 dni: 30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441 Znajdź odchylenia jeśli występują. CZĘŚĆ V : PREPROCESSING DANYCH NORMALIZACJA DANYCH Normalizacja prowadzi do przekształcania danych do formy uniwersalnej (takiego samego zakresu wartości): Metoda normalizacja Min-Max Metoda normalizacji Z-score Ad. 1. Sprawdza jak bardzo wartość pola jest większa od wartości minimalnej (min(x)) i skaluje tę różnicę przez zakres: * x min( x) x min( x) x a) Forma uproszczona: zakres( x) max( x) min( x) b) Forma uniwersalna: Gdzie: New_min to nowa wartość minimalna, którą chcemy uzyskać New_max nowa wartość maksymalna. Min to dotychczasowa wartość minimalna Max dotychczasowa wartość maksymalna Przykłady:

Zakładając, że mamy znormalizować następującą kolumnę (L). Wynik będzie następujący: Jeśli jednak chcemy zmienić zakres nowej wartości dla kolumny L np. na zakres 1-10 Musimy skorzystać z wzoru uniwersalnego, i wówczas formula Excela będzie następująca: Zadanie do wykonania dla studentów: a) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 5 b) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 10

TEST KOŃCOWY UTRWALAJĄCY INFORMACJĘ Z WYKŁADU ORAZ LABORATORIUM NR 1. Zadanie 1 Tętna spoczynkowe lekkoatletów wynoszą: 44;34;33;34;35;33;31;41;30;31;31;32;34;45;37;35 Wyznacz: a) wykres pudełkowy (narysuj go ręcznie z zaznaczeniem wszystkich elementów) b) modę c) medianę d) średnią e) wariancję f) kwartyle g) Odchylenie standardowe Zadanie 2 Średnia temperatura w kolejnych miesiącach 1974 roku w Warszawie na Okęciu wynosiła: -2,4; 4,2; 9,2; 22,6; 29,4; 31,6; 36,2; 26,8; 13,2; 6,8; 4,6 Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 8 Zadanie 3 Jeśli spojrzymy na wykres pudełkowy dla atrybutu b to: Ile ma on wartości? Co powiemy o wartościach w stosunku do wartości atrybutu klasa? Czy atrybut b może być dobrym klasyfikatorem obiektów w systemie? Odpowiedź uzasadnij.

Zadanie 4 Jeśli spojrzymy na histogram dla atrybutu klasa to: 1. Ile atrybut klasa ma wartości? 2. Jaka jest liczność poszczególnych wartości atrybutu : klasa?