Laboratorium nr 1 CZĘŚĆ I : STATYSTYKA OPISOWA : 1. Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby: 6,9,1,2,5,2,6,2,1,0,1,4,5,6,3,7,3,2,2,3,8,5,3,4,8,0,8,0,5,1,6,4,8,0,3,2 2. Jaka będzie moda dla zbioru: 3; 4; 5; 6; 7; 7; 7; 8; 8; 9? Odp 7 3. A jaka dla zbioru? 3; 4; 5; 6; 7; 7; 7; 8; 8; 8; 9? Odp {7,8} albo 7.5 4. jaka będzie mediana dla 3; 4; 7; 2; 3; 7; 4; 2; 4; 7; 4? Odp: 2; 2; 3; 3; 4; 4; 4; 4; 7; 7; 7 5. jaka będzie wartość średnia dla zbioru: 3; 4; 5; 7; 7; 8; 9; 9; 9 Odp 61/9 = 6.78 6. Jaki będzie rozstęp zbioru: 2; 3; 4; 6; 7; 7; 8; 9 Odp 9-2 = 7 7. Kwartyle: dla zbioru: 3; 4; 7; 2; 3; 7; 4; 2; 4; 7; 4 Najpierw sortujemy: 2; 2; 3; 3; 4; 4; 4; 4;7; 7; 7, Mediana, q2 = 4, Q1 to wartość środkowa z danych: 2; 2; 3; 3; 4 a więc 3, Q3 to wartość srodkowa z danych: 4; 4;7; 7; 7 a wiec 7, IRQ = q3-q1 = 7-3 = 4 8. Oblicz wariancję dla danych: 3; 4; 4; 5; 5; 5; 6; 6; 6; 7; 7; 8; 9 Będzie liczona ze wzoru: Gdzie: xi to bieżący element, to średnia wartość x, zaś n to liczba obserwacji. =( 3 4 4 5 5 5 6 6 6 7 7 8 9)/13= 5.8 Tabela pomocnicza wygląda tak: Teraz wystarczy podstawić odpowiednie wartości do wzoru:
9. Odchylenie standardowe będzie liczone ze wzoru: Czyli pierwiastek (14.74) = 3.84 Zadania do wykonania dla studentów: Zadanie 1. Zbadano profile klientów banku A pod względem liczby osób w rodzinie. Wyniki były następujące: 3,5,3,4,4,4,5,3,6,4,4,4,2,3,4,2,3,4,5,4. Oblicz średnią, medianę i modę. Oblicz q1,q3. Narysuj odpowiedni wykres prezentujący rozkład wartości w zbiorze. Zadanie 2. W pewnej firmie przeprowadzono ankietę dotyczącą liczby telefonów zgłaszających awarię u klientów w ciągu ostatnich 6 miesiecy. Uzyskane wyniki są następujące: Liczba awarii Liczba klientów 0 1 2 3 4 5 35 25 15 10 10 5 Czy prawdą jest, że: Średnia liczba zgłoszonych awarii wynosiła 1.3? W badanej próbie najczęściej zgłaszano 2 awarie? 50 % badanej grupy zgłosiło co najwyżej 1 awarię?
CZĘŚĆ II : GRAFICZNA REPREZENTACJA DANYCH : 1. Narysować i opisać elementy wykresu pudełkowego dla obserwacji: 8,5,17,18,9,4,17,16,12 2. Narysować histogram dla obserwacji (przyjąć 5 przedziałów): 8,5,17,18,9,4,17,16,12,14,15,53. 3. Jeśli spojrzymy na histogram poniżej dla atrybutu klasa to: Ile atrybut klasa ma wartości? Jaka jest liczność poszczególnych wartości atrybutu : klasa? 4. Jeśli spojrzymy na wykres pudełkowy dla atrybutu b to: Ile ma on wartości? Co powiemy o wartościach w stosunku do wartości atrybutu klasa? Czy atrybut b może być dobrym klasyfikatorem obiektów w systemie? Odpowiedź uzasadnij.
CZĘŚĆ III : PREPROCESSING DANYCH NIEKOMPLETNOŚĆ DANYCH Analizujemy zbiór danych cars dostępny pod adresem: http://www.sgi.com/tech/mlc/db dotyczący 261 samochodów i ich parametrów. Wybrano do analizy 10 rekordów: mpg cylinders cubicinches Hp 14 8 350 165 31.9 4 89 71 17 8 302 140 15-400 150 30.5 - - - 23-350 125 13-351 158 14 8-215 25.4 5-77 37.7 4 89 62 Uzupełnij braki w danych wartością średnią. Zadanie 1. A teraz spróbuj wykonać to samo, ale brakujące dane uzupełnij wartością dominującą w zbiorze. Zadanie 2. Zakładając, że zbiór do analizy wygląda następująco: Uzupełnij braki w danych wartością średnią.
Zadanie 3. A co jeśli to dane jakościowe są niekompletne? Wstaw odpowiednią wartość w brakującą komórkę. Krok 1. Metoda wstawienia zamiast znaku? tekstu brak Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych. Krok 2a. Zliczanie wystąpień danej wartości tekstowej K i M.
Krok 2b. wybór tej wartości, która występuje najczęściej. Krok.2c. Formula logiczna do wypelniania braków wartością najczęściej występującą.
CZĘŚĆ IV : PREPROCESSING DANYCH WYKRYWANIE ODCHYLEŃ METODAMI NUMERYCZNYMI 1. Zakładając, że liczba przepracowanych godzin przez pracowników na rzecz nowego projektu wygląda następująco: a) Znajdź odchylenia metodą wartości średniej i odchylenia standardowego. b) Znajdź odchylenia metodą rozstępu międzykwartylowego. 2. Zebrano dane o wydatkach poniesionych na żywność przez kolejne 90 dni: 30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441 Znajdź odchylenia jeśli występują. CZĘŚĆ V : PREPROCESSING DANYCH NORMALIZACJA DANYCH Normalizacja prowadzi do przekształcania danych do formy uniwersalnej (takiego samego zakresu wartości): Metoda normalizacja Min-Max Metoda normalizacji Z-score Ad. 1. Sprawdza jak bardzo wartość pola jest większa od wartości minimalnej (min(x)) i skaluje tę różnicę przez zakres: * x min( x) x min( x) x a) Forma uproszczona: zakres( x) max( x) min( x) b) Forma uniwersalna: Gdzie: New_min to nowa wartość minimalna, którą chcemy uzyskać New_max nowa wartość maksymalna. Min to dotychczasowa wartość minimalna Max dotychczasowa wartość maksymalna Przykłady:
Zakładając, że mamy znormalizować następującą kolumnę (L). Wynik będzie następujący: Jeśli jednak chcemy zmienić zakres nowej wartości dla kolumny L np. na zakres 1-10 Musimy skorzystać z wzoru uniwersalnego, i wówczas formula Excela będzie następująca: Zadanie do wykonania dla studentów: a) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 5 b) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 10
TEST KOŃCOWY UTRWALAJĄCY INFORMACJĘ Z WYKŁADU ORAZ LABORATORIUM NR 1. Zadanie 1 Tętna spoczynkowe lekkoatletów wynoszą: 44;34;33;34;35;33;31;41;30;31;31;32;34;45;37;35 Wyznacz: a) wykres pudełkowy (narysuj go ręcznie z zaznaczeniem wszystkich elementów) b) modę c) medianę d) średnią e) wariancję f) kwartyle g) Odchylenie standardowe Zadanie 2 Średnia temperatura w kolejnych miesiącach 1974 roku w Warszawie na Okęciu wynosiła: -2,4; 4,2; 9,2; 22,6; 29,4; 31,6; 36,2; 26,8; 13,2; 6,8; 4,6 Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 8 Zadanie 3 Jeśli spojrzymy na wykres pudełkowy dla atrybutu b to: Ile ma on wartości? Co powiemy o wartościach w stosunku do wartości atrybutu klasa? Czy atrybut b może być dobrym klasyfikatorem obiektów w systemie? Odpowiedź uzasadnij.
Zadanie 4 Jeśli spojrzymy na histogram dla atrybutu klasa to: 1. Ile atrybut klasa ma wartości? 2. Jaka jest liczność poszczególnych wartości atrybutu : klasa?