Inteligentna analiza danych

Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki statystyczne Ocena:

Streszczenie Sprawozdanie z ćwiczenia, którego celem było statystyczne przeanalizowanie zbiorów danych. 1 Teoria W tym rozdziale zostaną omówione pokrótce poszczególne zagadnienia związane z tematem przeprowadzanego ćwiczenia. 1.1 Miary pozycyjne W zadaniu wykorzystano dwie miary pozycyjne. Pierwszą z nich jest dominanta D, która dla dyskretnego zbioru danych jest wartością najczęściej występującą w zestawie danych. Ponieważ dominanta nie jest miarą unikalną (więcej niż jedna wartość zmiennej losowej może mieć tą samą ilość wystąpień, co jest często spotykane w rozkładach jednostajnych), poczyniono następne uproszeczenie, które traktuje rozkład jako zbliżony do rozkładu gaussa i w wypadku więcej niż jednej wartości dominanty wyznacza medianę ze znalezionych wartości. Drugą z miar pozycyjnych są kwantyle. Kwantyl rzędu p w zbiorze dyskretnym to taka wartość zmiennej losowej, od której p-ta część zbioru zawiera mniejsze wartości. Szczególnym jego przypadkiem jest mediana Me x będąca kwantylem rzędu 1 2 wyznaczająca środek rozkładu (przy założeniu rozkładu Gaussa). 1.2 Średnie Średnia potęgowa to średnia o rzędzie k, którą definiuje się w następujący sposób: x k = k a k 1 + ak 2 +... + ak n n Można zauważyć, że dla k = 1 średnia ta staje się średnią arytmetyczną, dla k = 1 średnia staje się średnią harmoniczną. Dla k = 0 średnią potęgową definiujemy za pomocą wzoru na średnią geometryczną. 1.3 Moment centralny Moment centralny definiuje się jako wartość oczekiwaną (za którą można arbitralnie przyjąć jedną z powyższych miar) funkcji: [ µ k = E (X E [X]) k] (2) Drugi moment centralny nazywany jest wariancją i określa stopień odchylenia wartości od wartości oczekiwanej. Pierwiastek z wariancji nazwany jest odchyleniem standardowym i określa średnie bezwzględne odchylenie wartości obserwowanych od wartości oczekiwanej. Trzeci moment centralny pozwala nam sądzić o asymetrii rozkładu. Dla rozkładu symetrycznego miara ta jest równa zero, dla niesymetrycznego, jej znak pozwala określić dłuższe ramię rozkładu (lewe dłuższe ramię dla znaku ujemnego i prawe dłuższe ramię w odwrotnym przypadku). (1) Michał Moroz, Grzegorz Graczyk, ćw. I 2 / 15

1.4 Kurtoza i momenty standaryzowane Momentem standaryzowanym określa się k-ty moment centralny po podzieleniu przez odchylenie standardowe podniesione do k-tej potęgi. Takie podejście pozwala nam szacować względne dokładności pomiarów niezależnie od rozpiętości i wartości wyników. Trzecim momentem standaryzowanym określa się skośność rozkładu. Wartość ta jest podobna do trzeciego momentu centralnego, ale jest niezależna od rozpiętości przedziału wartości. Czwartym momentem standaryzowanym jest kurtoza, która pozwala nam na określenie spłaszczenia rozkładu wartości cechy. Rozkład normalny ma kurtozę równą zero, dodatnia wartość określa większe skupienie wartości dookoła wartości oczekiwanej. 1.5 Współczynniki skośności Pearsona Są to współczynniki określone empirycznie przez Pearsona, definiuje się je za pomocą następujących wzorów: P 1 = x D σ (3) P 2 = 3 x Me x (4) σ Gdzie Me x to mediana, x to średnia arytmetyczna, D to dominanta, a σ to odchylenie standardowe. 2 Wyniki analizy zestawu danych Iris 2.1 Petal Length Miary dla współczynnika PetalLength Iris-setosa Iris-versicolor Iris-virginica Średnia arytmetyczna 1.46 4.26 5.55 Średnia geometryczna 1.45 4.23 5.52 Średnia harmoniczna 1.44 4.20 5.50 Mediana 1.50 4.35 5.55 Dominanta 1.50 4.50 5.10 Wariancja 0.029 0.21 0.29 Odchylenie standardowe 0.17 0.46 0.54 Kurtoza 4381 62.4 30.7 Trzeci moment centralny 0-0.05 0.08 P 1-0.209-0.515 0.827 P 2-0.209-0.193 0.003 Pierwszy kwartyl 1.4 4 5.1 Trzeci kwartyl 1.575 4.6 5.875 Skośność 13.74-5.842 3.267 Ciekawy, niegaussowski rozkład możemy zaobserwować na rysunku 3. Michał Moroz, Grzegorz Graczyk, ćw. I 3 / 15

Rysunek 1: Histogram: PetalLength, Iris-setosa Rysunek 2: Histogram: PetalLength, Iris-versicolor Michał Moroz, Grzegorz Graczyk, ćw. I 4 / 15

Rysunek 3: Histogram: PetalLength, Iris-virginica 2.2 Petal Width Miary dla współczynnika PetalWidth Miara Iris-virginica Iris-setosa Iris-versicolor Średnia arytmetyczna 2.026 0.244 1.326 Średnia geometryczna 2.00 0.22 1.31 Średnia harmoniczna 1.98 0.20 1.29 Dominanta 1.8 0.2 1.3 Pierwszy moment centralny 0.000 0.000 0.000 Mediana 2.00 0.20 1.30 Trzeci kwartyl 2.300 0.300 1.500 Odchylenie standardowe 0.27 0.10 0.19 Wariancja 0.073924 0.011264 0.038324 Kurtoza 427.9 33863 1710 Trzeci moment centralny -0.0025 0.0013-0.0002 Pierwszy kwartyl 1.800 0.200 1.200 Skośność -6.24 971.1-4.03 P 1 0.8312 0.4145 0.1328 P 2 0.0956 0.4145 0.1328 Michał Moroz, Grzegorz Graczyk, ćw. I 5 / 15

Rysunek 4: Histogram: PetalWidth, Iris-setosa Rysunek 5: Histogram: PetalWidth, Iris-versicolor Michał Moroz, Grzegorz Graczyk, ćw. I 6 / 15

2.3 Sepal Length Rysunek 6: Histogram: PetalWidth, Iris-virginica Miary dla współczynnika SepalLength Miara Iris-virginica Iris-setosa Iris-versicolor Średnia arytmetyczna 6.588 5.006 5.936 Średnia geometryczna 6.557 4.993 5.913 Średnia harmoniczna 6.527 4.981 5.891 Dominanta 6.3 5.05 5.60 Pierwszy moment centralny 0.000 0.000 0.000 Mediana 6.50 5.00 5.90 Trzeci kwartyl 6.900 5.200 6.300 Odchylenie standardowe 0.629 0.348 0.510 Wariancja 0.396 0.121 0.261 Kurtoza 18.546 179 35.22 Trzeci moment centralny 0.028 0.005 0.013 Pierwszy kwartyl 6.225 4.800 5.600 Skośność 0.458 2.741 0.765 P 1 0.457-0.126 0.657 P 2 0.140 0.017 0.07 Michał Moroz, Grzegorz Graczyk, ćw. I 7 / 15

Rysunek 7: Histogram: SepalLength, Iris-setosa Rysunek 8: Histogram: SepalLength, Iris-versicolor Michał Moroz, Grzegorz Graczyk, ćw. I 8 / 15

2.4 Sepal Width Rysunek 9: Histogram: SepalLength, Iris-virginica Miary dla współczynnika SepalLength Miara Iris-virginica Iris-setosa Iris-versicolor Średnia arytmetyczna 2.974 3.418 2.77 Średnia geometryczna 2.957 3.396 2.752 Średnia harmoniczna 2.94 3.37 2.73 Dominanta 3.0 3.4 3.0 Pierwszy moment centralny 0.000 0.000 0.00 Mediana 3.00 3.40 2.80 Trzeci kwartyl 3.175 3.675 3.000 Odchylenie standardowe 0.319 0.377 0.31 Wariancja 0.102 0.142 0.0965 Kurtoza 338.8 182 274.0 Trzeci moment centralny 0.011 0.005-0.01 Pierwszy kwartyl 2.800 3.125 2.525 Skośność 10.90 1.93-11.73 P 1-0.081 0.047-0.740 P 2-0.081 0.047-0.096 Michał Moroz, Grzegorz Graczyk, ćw. I 9 / 15

Rysunek 10: Histogram: SepalWidth, Iris-setosa Rysunek 11: Histogram: SepalWidth, Iris-versicolor Michał Moroz, Grzegorz Graczyk, ćw. I 10 / 15

2.5 Związki dwóch cech Rysunek 12: Histogram: SepalWidth, Iris-virginica Rysunek 13: Zależności SepalLength i SepalWidth Michał Moroz, Grzegorz Graczyk, ćw. I 11 / 15

Rysunek 14: Zależności SepalWidth i PetalLength Rysunek 15: Zależności PetalLength i PetalWidth Michał Moroz, Grzegorz Graczyk, ćw. I 12 / 15

Rysunek 16: Zależności SepalLength i PetalLength Rysunek 17: Zależności SepalLength i PetalWidth Michał Moroz, Grzegorz Graczyk, ćw. I 13 / 15

Rysunek 18: Zależności SepalWidth i PetalWidth 2.6 Wnioski Z powyższych danych wynika, że współczynnik PetalLength w łatwy sposób pozwala na rozdzielanie klasy abstrakcji Iris-setosa od dwóch pozostałych klas. Zakres wartości Petal- Length dla obserwacji z klasy Iris-setosa oraz dwóch pozostałych klas nie pokrywają się ze sobą. Rozróżnienie klas Iris-versicolor i Iris-virginica nie jest tak proste. Żaden z atrybutów w wektorze danych nie pozwala na jednoznaczne rozgraniczenie dwóchi pozostałych klas. Jednocześnie, z tak spreparowanymi danymi nie możemy jednoznacznie stwierdzić, że każda liniowa kombinacja czterech cech jest równie nieskuteczna do rozpoznawania tych dwóch klas. Więcej światła (przynajmniej ludzkiemu obserwatorowi) dają wykresy dwuwymiarowe pokazujące dwie cechy naraz. Również tam widzimy brak jednoznacznej liniowej rozróżnialności klas Iris-versicolor i Iris-virginica. Istnieją dwie teoretyczne możliwości rozpoznawania klas w takich sytuacjach. Jedną z nich jest stworzenie modelu, który w większości przypadków będzie zgodny (łatwo wyróżniamy centralne tendencje i możemy obliczyć funkcję prawdopodobieństwa, że dany obiekt leży w danej klasie. Drugą możliwością jest poszerzenie danych wejściowych o dodatkowe informacje, które być może przyczynią się do dalszego zróżnicowania klas abstrakcji Iris-versicolor i Iris-virginica. Dalej możnaby pokusić się o zanalizowanie korelacji poszczególnych współczynników z klasą abstrakcji obiektu. Dzięki temu moglibyśmy dojść do wniosku, że wyeliminowanie pewnej części danych nie wpłynie znacząco na rozpoznawalność klas, co może okazać się znaczącą optymalizacją przy przetwarzaniu dużych zbiorów danych. 3 Wnioski ogólne W ogólności, zadanie wyznaczania klas abstrakcji na podstawie innych danych będących niekoniecznie skorelowanymi z klasami abstrakcji jest dość trudne. Tylko jego część, obrabianie Michał Moroz, Grzegorz Graczyk, ćw. I 14 / 15

i preparacja danych nadaje się do maszynowego przetwarzania. Analiza otrzymanych wyników i odnajdywanie sensu w zależnościach stoi (nadal) po stronie człowieka. Przy analizowaniu danych warto nie zakładać rozkładu gaussowskiego, szczególnie jeśli korzystamy z rozmaitych miar do dalszych obliczeń. Rozkłady bi- oraz multimodalne mogą dać zupełnie nieprzewidywane wyniki. Wskaźnik kurtozy jest bardzo ciekawym wskaźnikiem, który, wraz z odchyleniem standardowym może nam pomóc aproksymować funkcję oczekiwanego rozkładu. Wskaźniki skośności mogą pomóc nam w dobraniu odpowiedniej miary wartości oczekiwanej tak, aby była jak najbardziej zgodna z rozkładem. Michał Moroz, Grzegorz Graczyk, ćw. I 15 / 15