Pozyskiwanie wiedzy z danych

Podobne dokumenty
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

1 Podstawy rachunku prawdopodobieństwa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Laboratorium 3 - statystyka opisowa

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka Matematyczna Anna Janicka

W1. Wprowadzenie. Statystyka opisowa

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Parametry statystyczne

Próba własności i parametry

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Miary w szeregach. 1 Miary klasyczne. 1.1 Średnia Średnia arytmetyczna

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Statystyka. Opisowa analiza zjawisk masowych

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyczne metody analizy danych

Miary statystyczne w badaniach pedagogicznych

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Xi B ni B

Opisowa analiza struktury zjawisk statystycznych

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Statystyka opisowa. Robert Pietrzykowski.

Wykład 5: Statystyki opisowe (część 2)

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Biostatystyka, # 1 /Weterynaria I/

Podstawy statystyki - ćwiczenia r.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Analiza struktury i przeciętnego poziomu cechy

Statystyka matematyczna dla leśników

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

1. szereg wyliczający (szczegółowy) - wyniki są uporządkowane wyłącznie według wartości badanej cechy, np. od najmniejszej do największej

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Graficzna prezentacja danych statystycznych

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Statystyka opisowa. Robert Pietrzykowski.

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyki opisowe i szeregi rozdzielcze

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Estymacja punktowa i przedziałowa

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Analiza statystyczna w naukach przyrodniczych

Estymacja parametrów rozkładu cechy

Matematyka stosowana i metody numeryczne

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Wydział Nauki o Zdrowiu. Zakład Profilaktyki Zagrożeń Środowiskowych i Alergologii Marta Zalewska

4.2. Statystyczne opracowanie zebranego materiału

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Opis przedmiotu: Probabilistyka I

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

XXXI MARATON WARSZAWSKI Warszawa,

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Zawartość. Zawartość

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2018 roku

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Transkrypt:

Pozyskiwanie wiedzy z danych dr Agnieszka Goroncy Wydział Matematyki i Informatyki UMK PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO Pozyskiwanie wiedzy z danych 1

Materiały do pracy 1 http://www-users.mat.umk.pl/ gemini/rns/pwd.html 2 Libre Office 4.3.2.2: http://pl.libreoffice.org/pobieranie/ 3 Ankieta do wypełnienia 4 Tworzenie własnych ankiet Pozyskiwanie wiedzy z danych 2

Dane Typy danych: numeryczny (liczbowy): np. 14, 0, 1, 1,5, tekstowy (łancuchowy): np. tak, często, nie lubię, data, np. 2014-10-11. Poziomy pomiaru: ilościowy - opisuje m.in. wydatki (201, 14, 21, 4), dochód (2000, 3600, 15000), wiek (14, 16, 35), wzrost(1,22; 1,62; 1,86), porządkowy - opisuje m.in. wykształcenie (podstawowe, średnie, wyższe), numer klasy (1, 2, 3), ocenę z klasówki (1, 2, 3, 4, 5, 6), nominalny - opisuje m.in. płeć (kobieta, mężczyzna lub 0, 1), rodzaj wykształcenia (humanistyczne, matematyczne, przyrodnicze). Pozyskiwanie wiedzy z danych 3

Tabelaryczna prezentacja rozkładu zmiennej Plik babyboom.ods zawiera informacje dotyczące 44 dzieci urodzonych w ciągu jednego 24-godzinnego okresu w szpitalu w Brisbane, Australia (na podstawie danych babyboom z pakietu Using R, środowisko R): godzina na zegarze płeć waga w gramach minuty urodzenia po północy Pozyskiwanie wiedzy z danych 4

Tabelaryczna prezentacja rozkładu zmiennej Plik babyboom.ods zawiera informacje dotyczące 44 dzieci urodzonych w ciągu jednego 24-godzinnego okresu w szpitalu w Brisbane, Australia (na podstawie danych babyboom z pakietu Using R, środowisko R): godzina na zegarze płeć waga w gramach minuty urodzenia po północy Szereg szczegółowy Pozyskiwanie wiedzy z danych 4

Tabelaryczna prezentacja rozkładu zmiennej Plik babyboom.ods zawiera informacje dotyczące 44 dzieci urodzonych w ciągu jednego 24-godzinnego okresu w szpitalu w Brisbane, Australia (na podstawie danych babyboom z pakietu Using R, środowisko R): godzina na zegarze płeć waga w gramach minuty urodzenia po północy Szereg szczegółowy zmienna godzina przyjmuje następujące wartości: Pozyskiwanie wiedzy z danych 4

Tabelaryczna prezentacja rozkładu zmiennej Plik babyboom.ods zawiera informacje dotyczące 44 dzieci urodzonych w ciągu jednego 24-godzinnego okresu w szpitalu w Brisbane, Australia (na podstawie danych babyboom z pakietu Using R, środowisko R): godzina na zegarze płeć waga w gramach minuty urodzenia po północy Szereg szczegółowy zmienna godzina przyjmuje następujące wartości: 5, 104, 118, 155, 257, 405, 407,..., 2327, 2355 Pozyskiwanie wiedzy z danych 4

Tabelaryczna prezentacja rozkładu zmiennej Plik babyboom.ods zawiera informacje dotyczące 44 dzieci urodzonych w ciągu jednego 24-godzinnego okresu w szpitalu w Brisbane, Australia (na podstawie danych babyboom z pakietu Using R, środowisko R): godzina na zegarze płeć waga w gramach minuty urodzenia po północy Szereg szczegółowy zmienna godzina przyjmuje następujące wartości: 5, 104, 118, 155, 257, 405, 407,..., 2327, 2355 Pozyskiwanie wiedzy z danych 4

Szeregi, c.d. rozdzielczy Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: przedziałowy płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 przedziałowy zmienną waga można pogrupować następująco: Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 przedziałowy zmienną waga można pogrupować następująco: waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] ilość (n i,i=1,...,3) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] ilość (n i,i=4,...,6) 10 19 6 Pozyskiwanie wiedzy z danych 5

Szeregi, c.d. rozdzielczy punktowy zmienną płeć można pogrupować następująco: płeć dziewczynka chłopiec ilość (n i, i=1,2) 18 26 przedziałowy zmienną waga można pogrupować następująco: waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] ilość (n i,i=1,...,3) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] ilość (n i,i=4,...,6) 10 19 6 liczba klas: k=6 ( n), n = n 1 +... + n 6 = 44, min=1745, max=4162, długości klas=403, środki przedziałów: x 0 1 = 1946,..., x 0 6 = 3961. Pozyskiwanie wiedzy z danych 5

Statystyki porządkowe x 1,..., x n - wartości pewnej zmiennej, x 1:n,..., x n:n - wartości po uporządkowaniu, czyli statystyki porządkowe (pozycyjne) x 1:n to minimum, zaś x n:n to maksimum Przykład: Wagi pięciu 14-letnich dziewcząt wynoszą (w kg): 40, 52, 48, 60, 52. Pozyskiwanie wiedzy z danych 6

Statystyki porządkowe x 1,..., x n - wartości pewnej zmiennej, x 1:n,..., x n:n - wartości po uporządkowaniu, czyli statystyki porządkowe (pozycyjne) x 1:n to minimum, zaś x n:n to maksimum Przykład: Wagi pięciu 14-letnich dziewcząt wynoszą (w kg): 40, 52, 48, 60, 52. x Mamy więc n = 5 oraz: 1:5 x 2:5 x 3:5 x 4:5 x 5:5 40 48 52 52 60 Pozyskiwanie wiedzy z danych 6

Podstawowe statystyki opisowe Miary: Pozyskiwanie wiedzy z danych 7

Podstawowe statystyki opisowe Miary: położenia (tendencji centralnej) średnia arytmetyczna kwantyle dominanta (moda) Pozyskiwanie wiedzy z danych 7

Podstawowe statystyki opisowe Miary: położenia (tendencji centralnej) średnia arytmetyczna kwantyle dominanta (moda) rozproszenia: wariancja, odchylenie standardowe Pozyskiwanie wiedzy z danych 7

Podstawowe statystyki opisowe Miary: położenia (tendencji centralnej) średnia arytmetyczna kwantyle dominanta (moda) rozproszenia: wariancja, odchylenie standardowe asymetrii: współczynnik skośności Pozyskiwanie wiedzy z danych 7

Podstawowe statystyki opisowe Miary: położenia (tendencji centralnej) średnia arytmetyczna kwantyle dominanta (moda) rozproszenia: wariancja, odchylenie standardowe asymetrii: współczynnik skośności koncentracji: kurtoza Pozyskiwanie wiedzy z danych 7

Miary położenia Średnia arytmetyczna: x n = 1 (x1 + x2 +... + xn 1 + xn) n x n = 1 n (n1 x1 + n2 x2 +... + n k 1 x k 1 + n k x k ) x n = 1 n (n1 x 0 1 + n 2 x 0 2 +... + n k 1 x 0 k 1 + n k x 0 k ) - szereg szczegółowy, - szereg punktowy, - szereg przedziałowy. waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] środki klas (xi 0 ) 1946 2349 2752 ilość (n i) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] środki klas (xi 0 ) 3155 3558 3961 ilość (n i) 10 19 6 Pozyskiwanie wiedzy z danych 8

Miary położenia Średnia arytmetyczna: x n = 1 (x1 + x2 +... + xn 1 + xn) n x n = 1 n (n1 x1 + n2 x2 +... + n k 1 x k 1 + n k x k ) x n = 1 n (n1 x 0 1 + n 2 x 0 2 +... + n k 1 x 0 k 1 + n k x 0 k ) - szereg szczegółowy, - szereg punktowy, - szereg przedziałowy. waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] środki klas (xi 0 ) 1946 2349 2752 ilość (n i) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] środki klas (xi 0 ) 3155 3558 3961 ilość (n i) 10 19 6 x 44 = 1 44 (2 1946 +... + 6 3961) 3292, 4 Pozyskiwanie wiedzy z danych 8

Miary położenia Kwantyle rzędu p (0, 1) Pozyskiwanie wiedzy z danych 9

Miary położenia Kwantyle rzędu p (0, 1) Przykład: Kwartyle Pozyskiwanie wiedzy z danych 9

Miary położenia: kwartyle Pozyskiwanie wiedzy z danych 10

Miary położenia: percentyle Przykład: Siatki centylowe Pozyskiwanie wiedzy z danych 11

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Pozyskiwanie wiedzy z danych 12

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Przykład: a) Wagi losowo wybranych 15-letnich chłopców kształtują się następująco: 52, 61, 65, 55, 54 (kg). Oblicz medianę. Pozyskiwanie wiedzy z danych 12

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Przykład: a) Wagi losowo wybranych 15-letnich chłopców kształtują się następująco: 52, 61, 65, 55, 54 (kg). Oblicz medianę. n = 5 - nieparzyste, statystyki pozycyjne: 52, 54, 55, 61, 66. Med = x 3:5 = 55. Pozyskiwanie wiedzy z danych 12

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Przykład: a) Wagi losowo wybranych 15-letnich chłopców kształtują się następująco: 52, 61, 65, 55, 54 (kg). Oblicz medianę. n = 5 - nieparzyste, statystyki pozycyjne: 52, 54, 55, 61, 66. Med = x 3:5 = 55. b) Wzrost losowo wybranych czterech 16-letnich chłopców wynosi: 180, 176, 177, 175 (cm). Oblicz medianę. Pozyskiwanie wiedzy z danych 12

Miary położenia Mediana: Med = x n+1 2 :n n nieparzyste x n/2:n +x n/2+1:n 2 n parzyste Przykład: a) Wagi losowo wybranych 15-letnich chłopców kształtują się następująco: 52, 61, 65, 55, 54 (kg). Oblicz medianę. n = 5 - nieparzyste, statystyki pozycyjne: 52, 54, 55, 61, 66. Med = x 3:5 = 55. b) Wzrost losowo wybranych czterech 16-letnich chłopców wynosi: 180, 176, 177, 175 (cm). Oblicz medianę. n = 4 - parzyste, statystyki pozycyjne: 175, 176, 177, 180. Med = 1 2 (x 2:4 + x 3:4 ) = 1 2 (176 + 177) = 176, 5 Pozyskiwanie wiedzy z danych 12

Miary położenia Dominanta (moda) - w przypadku szeregu szczegółowego lub punktowego dominanta jest najczęstszym wariantem badanej cechy (odpowiada mu największa liczebność). Przykład: Jaka jest dominanta wagi noworodków na podstawie danych z pliku babyboom.ods? Pozyskiwanie wiedzy z danych 13

Miary rozproszenia Wariancja s 2 = 1 n 1 [(x1 xn)2 + (x 2 x n) 2 +... + (x n x n) 2 ] s 2 = 1 n 1 [n1 (x1 xn)2 +... + n k (x k x n) 2 ] s 2 = 1 n 1 [n1 (x 1 0 x n) 2 +... + n k (xk 0 x n) 2 ] Odchylenie standardowe: s = s 2. - szereg szczegółowy, - szereg punktowy, - szereg przedziałowy. Przykład: waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] środki klas (xi 0 ) 1946 2349 2752 ilość (n i) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] środki klas (xi 0 ) 3155 3558 3961 ilość (n i) 10 19 6 Pozyskiwanie wiedzy z danych 14

Miary rozproszenia Wariancja s 2 = 1 n 1 [(x1 xn)2 + (x 2 x n) 2 +... + (x n x n) 2 ] s 2 = 1 n 1 [n1 (x1 xn)2 +... + n k (x k x n) 2 ] s 2 = 1 n 1 [n1 (x 1 0 x n) 2 +... + n k (xk 0 x n) 2 ] Odchylenie standardowe: s = s 2. - szereg szczegółowy, - szereg punktowy, - szereg przedziałowy. Przykład: waga (1744.5, 2147.5] (2147.5, 2550.5] (2550.5, 2953.5] środki klas (xi 0 ) 1946 2349 2752 ilość (n i) 2 3 4 waga (2953.5, 3356.5] (3356.5, 3759,5] (3759.5, 4162.5] środki klas (xi 0 ) 3155 3558 3961 ilość (n i) 10 19 6 s = 1 44 (2 (1946 3292, 4)2 +... + 6 (3961 3292, 4) 2 ) 521 Pozyskiwanie wiedzy z danych 14

Miara asymetrii Skośność (sk) jest miarą asymetrii. Jeżeli sk > 0, to rozkład jest prawostronnie skośny (dane skupiają się na lewo ) - często mediana jest mniejsza niż średnia, sk < 0, to rozkład jest lewostronnie skośny (dane skupiają się na prawo ) - często mediana jest wyższa niż średnia, sk = 0, to rozkład jest symetryczny. Pozyskiwanie wiedzy z danych 15

Miara koncentracji (skupienia) - kurtoza K Jeżeli K < 0 - dane są mało skoncentrowane wokół średniej, K > 0 - dane są bardzo skoncentrowane wokół średniej, K = 0 - dane są normalnie skoncentrowane wokół średniej. Pozyskiwanie wiedzy z danych 16

Po co to? :-) Motywacje Próba a populacja Wnioskowanie statystyczne Pozyskiwanie wiedzy z danych 17