Inteligentna analiza danych

Podobne dokumenty
MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyczne metody analizy danych

1 Podstawy rachunku prawdopodobieństwa

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka. Opisowa analiza zjawisk masowych

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Statystyka opisowa. Robert Pietrzykowski.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

W1. Wprowadzenie. Statystyka opisowa

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Parametry statystyczne

Laboratorium 3 - statystyka opisowa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Pozyskiwanie wiedzy z danych

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Komputerowa analiza danych doświadczalnych

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Wykład 5: Statystyki opisowe (część 2)

Informatyka, studia dzienne, inż I st. Inteligentna analiza danych 2010/2011 Prowadzący: dr inż. Arkadiusz Tomczyk środa, 8:30

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyki opisowe i szeregi rozdzielcze

Próba własności i parametry

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Wynik pomiaru jako zmienna losowa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Opisowa analiza struktury zjawisk statystycznych

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Lean Six Sigma Black Belt

Statystyka opisowa SYLABUS A. Informacje ogólne

Statystyka Matematyczna Anna Janicka

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Rachunek prawdopodobieństwa i statystyka

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

4.2. Statystyczne opracowanie zebranego materiału

Wykład 3. Rozkład normalny

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2

Zmienne losowe. Statystyka w 3

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Podstawy statystyki - ćwiczenia r.

Wykład 7 Testowanie zgodności z rozkładem normalnym

Matematyka stosowana i metody numeryczne

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Statystyka opisowa- cd.

Sposoby opisu i modelowania zakłóceń kanałowych

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Analiza współzależności zjawisk

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

10. Podstawowe wskaźniki psychometryczne

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Matematyka ubezpieczeń majątkowych r.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Analiza niepewności pomiarów

Imię, nazwisko i tytuł/stopień KOORDYNATORA (-ÓW) kursu/przedmiotu zatwierdzającego protokoły w systemie USOS Jacek Marcinkiewicz, mgr

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Biostatystyka, # 1 /Weterynaria I/

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Kolokwium ze statystyki matematycznej

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Transkrypt:

Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki statystyczne Ocena:

Streszczenie Sprawozdanie z ćwiczenia, którego celem było statystyczne przeanalizowanie zbiorów danych. 1 Teoria W tym rozdziale zostaną omówione pokrótce poszczególne zagadnienia związane z tematem przeprowadzanego ćwiczenia. 1.1 Miary pozycyjne W zadaniu wykorzystano dwie miary pozycyjne. Pierwszą z nich jest dominanta D, która dla dyskretnego zbioru danych jest wartością najczęściej występującą w zestawie danych. Ponieważ dominanta nie jest miarą unikalną (więcej niż jedna wartość zmiennej losowej może mieć tą samą ilość wystąpień, co jest często spotykane w rozkładach jednostajnych), poczyniono następne uproszeczenie, które traktuje rozkład jako zbliżony do rozkładu gaussa i w wypadku więcej niż jednej wartości dominanty wyznacza medianę ze znalezionych wartości. Drugą z miar pozycyjnych są kwantyle. Kwantyl rzędu p w zbiorze dyskretnym to taka wartość zmiennej losowej, od której p-ta część zbioru zawiera mniejsze wartości. Szczególnym jego przypadkiem jest mediana Me x będąca kwantylem rzędu 1 2 wyznaczająca środek rozkładu (przy założeniu rozkładu Gaussa). 1.2 Średnie Średnia potęgowa to średnia o rzędzie k, którą definiuje się w następujący sposób: x k = k a k 1 + ak 2 +... + ak n n Można zauważyć, że dla k = 1 średnia ta staje się średnią arytmetyczną, dla k = 1 średnia staje się średnią harmoniczną. Dla k = 0 średnią potęgową definiujemy za pomocą wzoru na średnią geometryczną. 1.3 Moment centralny Moment centralny definiuje się jako wartość oczekiwaną (za którą można arbitralnie przyjąć jedną z powyższych miar) funkcji: [ µ k = E (X E [X]) k] (2) Drugi moment centralny nazywany jest wariancją i określa stopień odchylenia wartości od wartości oczekiwanej. Pierwiastek z wariancji nazwany jest odchyleniem standardowym i określa średnie bezwzględne odchylenie wartości obserwowanych od wartości oczekiwanej. Trzeci moment centralny pozwala nam sądzić o asymetrii rozkładu. Dla rozkładu symetrycznego miara ta jest równa zero, dla niesymetrycznego, jej znak pozwala określić dłuższe ramię rozkładu (lewe dłuższe ramię dla znaku ujemnego i prawe dłuższe ramię w odwrotnym przypadku). (1) Michał Moroz, Grzegorz Graczyk, ćw. I 2 / 15

1.4 Kurtoza i momenty standaryzowane Momentem standaryzowanym określa się k-ty moment centralny po podzieleniu przez odchylenie standardowe podniesione do k-tej potęgi. Takie podejście pozwala nam szacować względne dokładności pomiarów niezależnie od rozpiętości i wartości wyników. Trzecim momentem standaryzowanym określa się skośność rozkładu. Wartość ta jest podobna do trzeciego momentu centralnego, ale jest niezależna od rozpiętości przedziału wartości. Czwartym momentem standaryzowanym jest kurtoza, która pozwala nam na określenie spłaszczenia rozkładu wartości cechy. Rozkład normalny ma kurtozę równą zero, dodatnia wartość określa większe skupienie wartości dookoła wartości oczekiwanej. 1.5 Współczynniki skośności Pearsona Są to współczynniki określone empirycznie przez Pearsona, definiuje się je za pomocą następujących wzorów: P 1 = x D σ (3) P 2 = 3 x Me x (4) σ Gdzie Me x to mediana, x to średnia arytmetyczna, D to dominanta, a σ to odchylenie standardowe. 2 Wyniki analizy zestawu danych Iris 2.1 Petal Length Miary dla współczynnika PetalLength Iris-setosa Iris-versicolor Iris-virginica Średnia arytmetyczna 1.46 4.26 5.55 Średnia geometryczna 1.45 4.23 5.52 Średnia harmoniczna 1.44 4.20 5.50 Mediana 1.50 4.35 5.55 Dominanta 1.50 4.50 5.10 Wariancja 0.029 0.21 0.29 Odchylenie standardowe 0.17 0.46 0.54 Kurtoza 4381 62.4 30.7 Trzeci moment centralny 0-0.05 0.08 P 1-0.209-0.515 0.827 P 2-0.209-0.193 0.003 Pierwszy kwartyl 1.4 4 5.1 Trzeci kwartyl 1.575 4.6 5.875 Skośność 13.74-5.842 3.267 Ciekawy, niegaussowski rozkład możemy zaobserwować na rysunku 3. Michał Moroz, Grzegorz Graczyk, ćw. I 3 / 15

Rysunek 1: Histogram: PetalLength, Iris-setosa Rysunek 2: Histogram: PetalLength, Iris-versicolor Michał Moroz, Grzegorz Graczyk, ćw. I 4 / 15

Rysunek 3: Histogram: PetalLength, Iris-virginica 2.2 Petal Width Miary dla współczynnika PetalWidth Miara Iris-virginica Iris-setosa Iris-versicolor Średnia arytmetyczna 2.026 0.244 1.326 Średnia geometryczna 2.00 0.22 1.31 Średnia harmoniczna 1.98 0.20 1.29 Dominanta 1.8 0.2 1.3 Pierwszy moment centralny 0.000 0.000 0.000 Mediana 2.00 0.20 1.30 Trzeci kwartyl 2.300 0.300 1.500 Odchylenie standardowe 0.27 0.10 0.19 Wariancja 0.073924 0.011264 0.038324 Kurtoza 427.9 33863 1710 Trzeci moment centralny -0.0025 0.0013-0.0002 Pierwszy kwartyl 1.800 0.200 1.200 Skośność -6.24 971.1-4.03 P 1 0.8312 0.4145 0.1328 P 2 0.0956 0.4145 0.1328 Michał Moroz, Grzegorz Graczyk, ćw. I 5 / 15

Rysunek 4: Histogram: PetalWidth, Iris-setosa Rysunek 5: Histogram: PetalWidth, Iris-versicolor Michał Moroz, Grzegorz Graczyk, ćw. I 6 / 15

2.3 Sepal Length Rysunek 6: Histogram: PetalWidth, Iris-virginica Miary dla współczynnika SepalLength Miara Iris-virginica Iris-setosa Iris-versicolor Średnia arytmetyczna 6.588 5.006 5.936 Średnia geometryczna 6.557 4.993 5.913 Średnia harmoniczna 6.527 4.981 5.891 Dominanta 6.3 5.05 5.60 Pierwszy moment centralny 0.000 0.000 0.000 Mediana 6.50 5.00 5.90 Trzeci kwartyl 6.900 5.200 6.300 Odchylenie standardowe 0.629 0.348 0.510 Wariancja 0.396 0.121 0.261 Kurtoza 18.546 179 35.22 Trzeci moment centralny 0.028 0.005 0.013 Pierwszy kwartyl 6.225 4.800 5.600 Skośność 0.458 2.741 0.765 P 1 0.457-0.126 0.657 P 2 0.140 0.017 0.07 Michał Moroz, Grzegorz Graczyk, ćw. I 7 / 15

Rysunek 7: Histogram: SepalLength, Iris-setosa Rysunek 8: Histogram: SepalLength, Iris-versicolor Michał Moroz, Grzegorz Graczyk, ćw. I 8 / 15

2.4 Sepal Width Rysunek 9: Histogram: SepalLength, Iris-virginica Miary dla współczynnika SepalLength Miara Iris-virginica Iris-setosa Iris-versicolor Średnia arytmetyczna 2.974 3.418 2.77 Średnia geometryczna 2.957 3.396 2.752 Średnia harmoniczna 2.94 3.37 2.73 Dominanta 3.0 3.4 3.0 Pierwszy moment centralny 0.000 0.000 0.00 Mediana 3.00 3.40 2.80 Trzeci kwartyl 3.175 3.675 3.000 Odchylenie standardowe 0.319 0.377 0.31 Wariancja 0.102 0.142 0.0965 Kurtoza 338.8 182 274.0 Trzeci moment centralny 0.011 0.005-0.01 Pierwszy kwartyl 2.800 3.125 2.525 Skośność 10.90 1.93-11.73 P 1-0.081 0.047-0.740 P 2-0.081 0.047-0.096 Michał Moroz, Grzegorz Graczyk, ćw. I 9 / 15

Rysunek 10: Histogram: SepalWidth, Iris-setosa Rysunek 11: Histogram: SepalWidth, Iris-versicolor Michał Moroz, Grzegorz Graczyk, ćw. I 10 / 15

2.5 Związki dwóch cech Rysunek 12: Histogram: SepalWidth, Iris-virginica Rysunek 13: Zależności SepalLength i SepalWidth Michał Moroz, Grzegorz Graczyk, ćw. I 11 / 15

Rysunek 14: Zależności SepalWidth i PetalLength Rysunek 15: Zależności PetalLength i PetalWidth Michał Moroz, Grzegorz Graczyk, ćw. I 12 / 15

Rysunek 16: Zależności SepalLength i PetalLength Rysunek 17: Zależności SepalLength i PetalWidth Michał Moroz, Grzegorz Graczyk, ćw. I 13 / 15

Rysunek 18: Zależności SepalWidth i PetalWidth 2.6 Wnioski Z powyższych danych wynika, że współczynnik PetalLength w łatwy sposób pozwala na rozdzielanie klasy abstrakcji Iris-setosa od dwóch pozostałych klas. Zakres wartości Petal- Length dla obserwacji z klasy Iris-setosa oraz dwóch pozostałych klas nie pokrywają się ze sobą. Rozróżnienie klas Iris-versicolor i Iris-virginica nie jest tak proste. Żaden z atrybutów w wektorze danych nie pozwala na jednoznaczne rozgraniczenie dwóchi pozostałych klas. Jednocześnie, z tak spreparowanymi danymi nie możemy jednoznacznie stwierdzić, że każda liniowa kombinacja czterech cech jest równie nieskuteczna do rozpoznawania tych dwóch klas. Więcej światła (przynajmniej ludzkiemu obserwatorowi) dają wykresy dwuwymiarowe pokazujące dwie cechy naraz. Również tam widzimy brak jednoznacznej liniowej rozróżnialności klas Iris-versicolor i Iris-virginica. Istnieją dwie teoretyczne możliwości rozpoznawania klas w takich sytuacjach. Jedną z nich jest stworzenie modelu, który w większości przypadków będzie zgodny (łatwo wyróżniamy centralne tendencje i możemy obliczyć funkcję prawdopodobieństwa, że dany obiekt leży w danej klasie. Drugą możliwością jest poszerzenie danych wejściowych o dodatkowe informacje, które być może przyczynią się do dalszego zróżnicowania klas abstrakcji Iris-versicolor i Iris-virginica. Dalej możnaby pokusić się o zanalizowanie korelacji poszczególnych współczynników z klasą abstrakcji obiektu. Dzięki temu moglibyśmy dojść do wniosku, że wyeliminowanie pewnej części danych nie wpłynie znacząco na rozpoznawalność klas, co może okazać się znaczącą optymalizacją przy przetwarzaniu dużych zbiorów danych. 3 Wnioski ogólne W ogólności, zadanie wyznaczania klas abstrakcji na podstawie innych danych będących niekoniecznie skorelowanymi z klasami abstrakcji jest dość trudne. Tylko jego część, obrabianie Michał Moroz, Grzegorz Graczyk, ćw. I 14 / 15

i preparacja danych nadaje się do maszynowego przetwarzania. Analiza otrzymanych wyników i odnajdywanie sensu w zależnościach stoi (nadal) po stronie człowieka. Przy analizowaniu danych warto nie zakładać rozkładu gaussowskiego, szczególnie jeśli korzystamy z rozmaitych miar do dalszych obliczeń. Rozkłady bi- oraz multimodalne mogą dać zupełnie nieprzewidywane wyniki. Wskaźnik kurtozy jest bardzo ciekawym wskaźnikiem, który, wraz z odchyleniem standardowym może nam pomóc aproksymować funkcję oczekiwanego rozkładu. Wskaźniki skośności mogą pomóc nam w dobraniu odpowiedniej miary wartości oczekiwanej tak, aby była jak najbardziej zgodna z rozkładem. Michał Moroz, Grzegorz Graczyk, ćw. I 15 / 15