Pozyskiwanie wiedzy z danych

Pozyskiwanie wiedzy z danych dr Agnieszka Goroncy Wydział Matematyki i Informatyki UMK PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO Pozyskiwanie wiedzy z danych 1

Materiały do pracy 1 http://www-users.mat.umk.pl/ gemini/rns/pwd.html 2 Libre Office 4.3.2.2: http://pl.libreoffice.org/pobieranie/ 3 Ankieta do wypełnienia 4 Tworzenie własnych ankiet Pozyskiwanie wiedzy z danych 2

Dane Typy danych: numeryczny (liczbowy): np. 14, 0, 1, 1,5, tekstowy (łancuchowy): np. tak, często, nie lubię, data, np. 2014-10-11. Poziomy pomiaru: ilościowy - opisuje m.in. wydatki (201, 14, 21, 4), dochód (2000, 3600, 15000), wiek (14, 16, 35), wzrost(1,22; 1,62; 1,86), porządkowy - opisuje m.in. wykształcenie (podstawowe, średnie, wyższe), numer klasy (1, 2, 3), ocenę z klasówki (1, 2, 3, 4, 5, 6), nominalny - opisuje m.in. płeć (kobieta, mężczyzna lub 0, 1), rodzaj wykształcenia (humanistyczne, matematyczne, przyrodnicze). Pozyskiwanie wiedzy z danych 3

Tabelaryczna prezentacja rozkładu zmiennej Plik babyboom.ods zawiera informacje dotyczące 44 dzieci urodzonych w ciągu jednego 24-godzinnego okresu w szpitalu w Brisbane, Australia (na podstawie danych babyboom z pakietu Using R, środowisko R): godzina na zegarze płeć waga w gramach minuty urodzenia po północy Pozyskiwanie wiedzy z danych 4

Tabelaryczna prezentacja rozkładu zmiennej Plik babyboom.ods zawiera informacje dotyczące 44 dzieci urodzonych w ciągu jednego 24-godzinnego okresu w szpitalu w Brisbane, Australia (na podstawie danych babyboom z pakietu Using R, środowisko R): godzina na zegarze płeć waga w gramach minuty urodzenia po północy Szereg szczegółowy Pozyskiwanie wiedzy z danych 4

Tabelaryczna prezentacja rozkładu zmiennej Plik babyboom.ods zawiera informacje dotyczące 44 dzieci urodzonych w ciągu jednego 24-godzinnego okresu w szpitalu w Brisbane, Australia (na podstawie danych babyboom z pakietu Using R, środowisko R): godzina na zegarze płeć waga w gramach minuty urodzenia po północy Szereg szczegółowy zmienna godzina przyjmuje następujące wartości: Pozyskiwanie wiedzy z danych 4

Tabelaryczna prezentacja rozkładu zmiennej Plik babyboom.ods zawiera informacje dotyczące 44 dzieci urodzonych w ciągu jednego 24-godzinnego okresu w szpitalu w Brisbane, Australia (na podstawie danych babyboom z pakietu Using R, środowisko R): godzina na zegarze płeć waga w gramach minuty urodzenia po północy Szereg szczegółowy zmienna godzina przyjmuje następujące wartości: 5, 104, 118, 155, 257, 405, 407,..., 2327, 2355 Pozyskiwanie wiedzy z danych 4

Szeregi, c.d. rozdzielczy Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: przedziałowy płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 przedziałowy zmienną waga można pogrupować następująco: Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 przedziałowy zmienną waga można pogrupować następująco: waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] ilość (n i,i=1,...,3) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] ilość (n i,i=4,...,6) 10 19 6 Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 przedziałowy zmienną waga można pogrupować następująco: waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] ilość (n i,i=1,...,3) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] ilość (n i,i=4,...,6) 10 19 6 liczba klas: k=6 ( n), n = n 1 +... + n 6 = 44, min=1745, max=4162, długości klas=403, środki przedziałów: x 0 1 = 1946,..., x 0 6 = 3961. Pozyskiwanie wiedzy z danych 5

Statystyki porządkowe x 1,..., x n - wartości pewnej zmiennej, x 1:n,..., x n:n - wartości po uporządkowaniu, czyli statystyki porządkowe (pozycyjne) x 1:n to minimum, zaś x n:n to maksimum Przykład: Wagi pięciu 14-letnich dziewcząt wynoszą (w kg): 40, 52, 48, 60, 52. Pozyskiwanie wiedzy z danych 6

Statystyki porządkowe x 1,..., x n - wartości pewnej zmiennej, x 1:n,..., x n:n - wartości po uporządkowaniu, czyli statystyki porządkowe (pozycyjne) x 1:n to minimum, zaś x n:n to maksimum Przykład: Wagi pięciu 14-letnich dziewcząt wynoszą (w kg): 40, 52, 48, 60, 52. x Mamy więc n = 5 oraz: 1:5 x 2:5 x 3:5 x 4:5 x 5:5 40 48 52 52 60 Pozyskiwanie wiedzy z danych 6

Podstawowe statystyki opisowe Miary: Pozyskiwanie wiedzy z danych 7

Podstawowe statystyki opisowe Miary: położenia (tendencji centralnej) średnia arytmetyczna kwantyle dominanta (moda) Pozyskiwanie wiedzy z danych 7

Podstawowe statystyki opisowe Miary: położenia (tendencji centralnej) średnia arytmetyczna kwantyle dominanta (moda) rozproszenia: wariancja, odchylenie standardowe Pozyskiwanie wiedzy z danych 7

Podstawowe statystyki opisowe Miary: położenia (tendencji centralnej) średnia arytmetyczna kwantyle dominanta (moda) rozproszenia: wariancja, odchylenie standardowe asymetrii: współczynnik skośności Pozyskiwanie wiedzy z danych 7

Podstawowe statystyki opisowe Miary: położenia (tendencji centralnej) średnia arytmetyczna kwantyle dominanta (moda) rozproszenia: wariancja, odchylenie standardowe asymetrii: współczynnik skośności koncentracji: kurtoza Pozyskiwanie wiedzy z danych 7

Miary położenia Średnia arytmetyczna: x n = 1 (x1 + x2 +... + xn 1 + xn) n x n = 1 n (n1 x1 + n2 x2 +... + n k 1 x k 1 + n k x k ) x n = 1 n (n1 x 0 1 + n 2 x 0 2 +... + n k 1 x 0 k 1 + n k x 0 k ) - szereg szczegółowy, - szereg punktowy, - szereg przedziałowy. waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] środki klas (xi 0 ) 1946 2349 2752 ilość (n i) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] środki klas (xi 0 ) 3155 3558 3961 ilość (n i) 10 19 6 Pozyskiwanie wiedzy z danych 8

Miary położenia Średnia arytmetyczna: x n = 1 (x1 + x2 +... + xn 1 + xn) n x n = 1 n (n1 x1 + n2 x2 +... + n k 1 x k 1 + n k x k ) x n = 1 n (n1 x 0 1 + n 2 x 0 2 +... + n k 1 x 0 k 1 + n k x 0 k ) - szereg szczegółowy, - szereg punktowy, - szereg przedziałowy. waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] środki klas (xi 0 ) 1946 2349 2752 ilość (n i) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] środki klas (xi 0 ) 3155 3558 3961 ilość (n i) 10 19 6 x 44 = 1 44 (2 1946 +... + 6 3961) 3292, 4 Pozyskiwanie wiedzy z danych 8

Miary położenia Kwantyle rzędu p (0, 1) Pozyskiwanie wiedzy z danych 9

Miary położenia Kwantyle rzędu p (0, 1) Przykład: Kwartyle Pozyskiwanie wiedzy z danych 9

Miary położenia: kwartyle Pozyskiwanie wiedzy z danych 10

Miary położenia: percentyle Przykład: Siatki centylowe Pozyskiwanie wiedzy z danych 11

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Pozyskiwanie wiedzy z danych 12

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Przykład: a) Wagi losowo wybranych 15-letnich chłopców kształtują się następująco: 52, 61, 65, 55, 54 (kg). Oblicz medianę. Pozyskiwanie wiedzy z danych 12

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Przykład: a) Wagi losowo wybranych 15-letnich chłopców kształtują się następująco: 52, 61, 65, 55, 54 (kg). Oblicz medianę. n = 5 - nieparzyste, statystyki pozycyjne: 52, 54, 55, 61, 66. Med = x 3:5 = 55. Pozyskiwanie wiedzy z danych 12

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Przykład: a) Wagi losowo wybranych 15-letnich chłopców kształtują się następująco: 52, 61, 65, 55, 54 (kg). Oblicz medianę. n = 5 - nieparzyste, statystyki pozycyjne: 52, 54, 55, 61, 66. Med = x 3:5 = 55. b) Wzrost losowo wybranych czterech 16-letnich chłopców wynosi: 180, 176, 177, 175 (cm). Oblicz medianę. Pozyskiwanie wiedzy z danych 12

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Przykład: a) Wagi losowo wybranych 15-letnich chłopców kształtują się następująco: 52, 61, 65, 55, 54 (kg). Oblicz medianę. n = 5 - nieparzyste, statystyki pozycyjne: 52, 54, 55, 61, 66. Med = x 3:5 = 55. b) Wzrost losowo wybranych czterech 16-letnich chłopców wynosi: 180, 176, 177, 175 (cm). Oblicz medianę. n = 4 - parzyste, statystyki pozycyjne: 175, 176, 177, 180. Med = 1 2 (x 2:4 + x 3:4 ) = 1 2 (176 + 177) = 176, 5 Pozyskiwanie wiedzy z danych 12

Miary położenia Dominanta (moda) - w przypadku szeregu szczegółowego lub punktowego dominanta jest najczęstszym wariantem badanej cechy (odpowiada mu największa liczebność). Przykład: Jaka jest dominanta wagi noworodków na podstawie danych z pliku babyboom.ods? Pozyskiwanie wiedzy z danych 13

Miary rozproszenia Wariancja s 2 = 1 n 1 [(x1 xn)2 + (x 2 x n) 2 +... + (x n x n) 2 ] s 2 = 1 n 1 [n1 (x1 xn)2 +... + n k (x k x n) 2 ] s 2 = 1 n 1 [n1 (x 1 0 x n) 2 +... + n k (xk 0 x n) 2 ] Odchylenie standardowe: s = s 2. - szereg szczegółowy, - szereg punktowy, - szereg przedziałowy. Przykład: waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] środki klas (xi 0 ) 1946 2349 2752 ilość (n i) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] środki klas (xi 0 ) 3155 3558 3961 ilość (n i) 10 19 6 Pozyskiwanie wiedzy z danych 14

Miary rozproszenia Wariancja s 2 = 1 n 1 [(x1 xn)2 + (x 2 x n) 2 +... + (x n x n) 2 ] s 2 = 1 n 1 [n1 (x1 xn)2 +... + n k (x k x n) 2 ] s 2 = 1 n 1 [n1 (x 1 0 x n) 2 +... + n k (xk 0 x n) 2 ] Odchylenie standardowe: s = s 2. - szereg szczegółowy, - szereg punktowy, - szereg przedziałowy. Przykład: waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] środki klas (xi 0 ) 1946 2349 2752 ilość (n i) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] środki klas (xi 0 ) 3155 3558 3961 ilość (n i) 10 19 6 s = 1 44 (2 (1946 3292, 4)2 +... + 6 (3961 3292, 4) 2 ) 521 Pozyskiwanie wiedzy z danych 14

Miara asymetrii Skośność (sk) jest miarą asymetrii. Jeżeli sk > 0, to rozkład jest prawostronnie skośny (dane skupiają się na lewo ) - często mediana jest mniejsza niż średnia, sk < 0, to rozkład jest lewostronnie skośny (dane skupiają się na prawo ) - często mediana jest wyższa niż średnia, sk = 0, to rozkład jest symetryczny. Pozyskiwanie wiedzy z danych 15

Miara koncentracji (skupienia) - kurtoza K Jeżeli K < 0 - dane są mało skoncentrowane wokół średniej, K > 0 - dane są bardzo skoncentrowane wokół średniej, K = 0 - dane są normalnie skoncentrowane wokół średniej. Pozyskiwanie wiedzy z danych 16

Po co to? :-) Motywacje Próba a populacja Wnioskowanie statystyczne Pozyskiwanie wiedzy z danych 17