2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

Transkrypt

1 1. Wstęp 2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi a. Wprowadzenie, aspekt psychologiczny, wady statystyki b. Metody graficzne i. Wykres 1.zmiennej ii. Rzut na 2 współrzędne iii. Radarowy wykresy iv. Metody wykorzystujące osie WSP. v. Predyspozycje człowieka vi. Dendrogramy c. Redukcja wymiarowości i. Pca ii. Lda iii. Fda iv. MDS v. Analiza skl.niezależnych vi. Filtry vii. Som (16_gramacki) viii. Relacyjne mapy perspektyw (16_gramacki) 3. Zagadnienia poruszane w mojej pracy a. Dystanse b. Klasterzacja i. Opis ogólny ii. K-means iii. Veronoi iv. Prezentacje danych za pomocą trójkątów, czyli.

2 Ogólne metody prezentacji ze zwróceniem uwagi na graficzne, 2. Dane wielowymiarowe Mini opis Metody graficzne Jednym z najbardziej popularnych sposobów reprezentacji danych są metody graficzne. Pozwalają one, w stosunkowo łatwy dla odbiorcy sposób, zaprezentować różnego typu cechy, zależności, przez co znalazły szerokie zastosowanie w bardzo wielu dziedzinach. Technik tych jest wiele, więc postaram się przybliżyć chodź kilka z nich. Wykres jednej zmiennej Jest to bardzo popularna metoda reprezentacji danych jednowymiarowych pozwalająca na wizualizację rozkładu danej cechy, wartości średniej, odchylenia standardowego itp. Najpopularniejszą grupę stanowią tu histogramy. Histogramy składają się z grupy ułożonych obok siebie prostokątów reprezentujących dany przedział liczbowy, których wysokości określona jest liczebnością występowania danego przedziału. Aby zbudować tego rodzaju wykres powinniśmy ustalić ilość oraz wielkość przedziałów, a następnie zliczyć ilość elementów w danym przedziale. Następnie na osi poziomej oznaczamy odpowiednie przedziały, a na pionowej ich liczebność. [TU BĘDZIE RYSUNEK DO DANYCH, KTÓRE BĘDĘ WYKORZYSTYWAŁ RÓWNIEZ W INNYCH PRZYKLADACH] Na przedstawionym tu histogramie widzimy..

3 Rzut na 2. Osie Metody te pozwalają na reprezentacje na jednym wykresie dwóch cech. Dzięki nim możemy wyszukiwać zależności między poszczególnymi współrzędnymi, próbując odnaleźć związków między nimi. Za przykład mogą posłużyć nam wykresy rozproszone (ang. scatterplot) Dane są tu przedstawiane jako zbiór punktów, których położenie jest uzależnione od wartości danej cechy umieszczonej na jednej osi i wartości drugiej cechy na kolejnej osi. Metoda ta pozwala, w niektórych przypadkach, na znalezienie cech redundantnych czy klasteryzacje zbioru. [RYSUNEK POJEDYNCZY] Dla dużego zbioru cech możemy stworzyć macierz wykresów rozproszonych, co pozwala nam na sprawne określenie, które cechy mogą być istotne, skorelowane czy redundantne. [RYSUNEK MACIERZY] Wykres radarowy Technika ta pozwala nam na zaprezentowanie wielu cech danego obiektu na jednym rysunku przypominającym gwiazdę (ang. star. Każda, brana przez nas cecha stanowi oddzielny promień gwiazdy. Wykresy tego typu znakomicie nadają się do porównywania zbioru obiektów mających te same cechy. Możemy w tedy w dość łatwy sposób porównać je ze sobą, oczywiści jeśli liczba cech nie będzie zbyt duża. [RYSUNEK MACIERZY Z STAR PLOTAMI] Współrzędne równoległe Jest to metoda, w której dane cechy są reprezentowane przez równoległe do siebie osie współrzędnych, a wartości danych cech są odkładane na nich. [JAKIŚ PUNKT W KILKU WYMIARACH] Sposób bardzo dobrze nadaje się do prezentacji pojedynczych wektorów lecz przy większej ilości danych linie mogą się nakładać, przecinać przez co wykres staje się nie czytelny. [RYSUNEK KULI] Twarze Chernoffa Metoda ta należy do grupy metod wykorzystujących naturalne predyspozycje człowieka do zwracania uwagi na elementy dobrze przez nas rozpoznawalne takie jak w tym przypadku twarz. Poszczególne cechy przedstawione są jako elementy głowy człowieka takie jak oczy, uszy, usta, brwi itp. w zależności od ilości potrzebnych nam elementów. Zważywszy, że naturalnym dla człowieka jest kontakt z wieloma innymi przedstawicielami naszego gatunku, dość łatwo jest nam analizować wygląd tego typu wykresów. Oczywiście trudność może pojawić się w przypadku konieczności analizy jednocześnie kilkunastu wykresów tego typu. [RYSUNEK ZGODNY Z INNYMI] Redukcja wielowymiarowości

4 Mając wielowymiarowe dane dość trudno jest nam je analizować. Oczywiście możemy przedstawiać dane na wykresach gwiazdowych czy we współrzędnych równoległych, ale nie zawsze nam to pomaga. Przydatne mogą okazać się w takich przypadkach techniki polegające na zmniejszeniu wymiarowości analizowanego problemu. Możemy wykorzystać tu jakieś funkcje podobieństwa w danych w celu ograniczenia ilości cech. Taką funkcją może być np. korelacja czy dystans pomiędzy poszczególnymi wektorami danych. PCA (ang. Principal Component Analysis) Wielowymiarowe dane przeważnie nie są równomiernie rozłożone w całej przestrzeni układu współrzędnych. Często koncentrują się one w pewnych podprzestrzeniach głównej przestrzeni. Celem PCA jest znalezienie tych podprzestrzeni. Analiza głównych składowych opiera się na wykorzystaniu takich statystycznych pojęć jak korelacja czy wariancja, które w połączeniu z elementami algebry liniowej tworzą całość. Najpierw liczymy średnią dla każdej z cech: Następnie kowariancję: Następnie kowariancje dla każdej pary wrzucamy do jednej macierzy, z której obliczamy wektory i wartości własne. Mając wyznaczone wartości własne porządkujemy je od największej do najmniejszej, jednocześnie sortując odpowiadające im wektory własne. W tym miejscy można dokonać redukcji wymiaru przestrzeni. Z otrzymanych wartości własnych wybieramy te największe, przez co minimalizujemy stratę informacji podczas rzutowania danych na nową ilość wymiarów. Im wyższa wartość własna tym odpowiadający jej wektor własny jest słabiej skorelowany z pozostałymi. Teraz możemy dokonać projekcji poprzez przemnożenie transponowanej macierzy wartości własnych i transponowanej macierzy danych wejściowych. Otrzymana macierz jest końcowym rezultatem PCA. Stosując PCA otrzymujemy nowe cechy, a redukcja wymiarów uzyskana zostaje poprzez usunięcie cech z małą wariancją. Wadą tej metody jest nieprzystosowanie do analizy danych o nieliniowej strukturze. [PRZYKŁAD DLA NP. IRYSA W MATLABIE] LDA Czy potrzebne? MDS (ang. Multiddimensional Scaling) Jest to prawdopodobnie najbardziej popularna metoda redukcji wielowymiarowości, pozwalająca na wizualizację danych w niskowymiarowych przestrzeniach. Główne założenie poczynione w MDS

5 polega n wykorzystaniu macierzy odległości pomiędzy poszczególnymi obiektami. Macierzą tą może być np. macierz podobieństwa bazująca na odległościach euklidesowych pomiędzy poszczególnymi danymi. W niektórych przypadkach informacje te są naturalnymi np. badając odległości pomiędzy poszczególnymi miastami, a w innym dane wejściowe muszą zostać poddane modyfikacją np. płeć, kolor oczu, które nie są typowo liczbowymi wielkościami. Następnie staramy się zrobić takie odwzorowanie, aby odległości w nowej ilości wymiarów były jak najbardziej zbliżone do tych w wejściowej. Sprowadza się to do minimalizacji pewnej funkcji, zwanej stress function. Może mieć ona postać jak poniżej: [WZÓR] i pozwala ona na sprawdzenie, jak dobrze nowa konfiguracja zgadza się z wejściową. Możemy również korzystać z innych funkcji stress u które mogą być mniej lub bardziej odpowiednie dla naszych potrzeb. [PRZYKŁAD MDS, MOŻE SZEŚCIAN] SOM (ang. Self-Organizing Maps) Mapy samoorganizujące zwane również sieciami Kohonena są pewnego typu sieciami neuronowymi, w których uczenie odbywa się bez nauczyciela. Mamy tutaj do dyspozycji tylko dane wejściowe, z których finalnie powinniśmy otrzymać wzorzec mogący prawidłowo rozróżniać wprowadzane informacje. Zasada działania SOM opiera się na wykorzystaniu metody jednego zwycięscy. Oznacza to, że podczas uczenia, na podstawie pewnej funkcji zwycięstwa zostaje wybrany tylko 1 neuron stający się wygranym. Następnie waga jego jak i najbliższych sąsiadów zostają zmodyfikowane w taki sposób, aby były bardziej predysponowane do wykrywania odpowiedniego przypadku.

6 W sieciach SOM każdy neuron ma ściśle określonych sąsiadów. Pozwala to na tworzenie mapy neuronów, tworzących pewną topologie. Jak w każdej sieci mamy również warstwę wejściową, do której wpływają dane. Pobudzają one 1 neuron, który staje się zwycięzcą. Wprowadzając wielokrotnie dane uczymy sieć odpowiednio rozpoznawać prawidłowe dla niego informacje bądź zbliżone do nich. Sieć ta ma tą własności, że neurony znajdujące się blisko siebie podobnie rozróżniają dane wzorce wejściowe. Jeśli jakieś dane pojawiają się częściej to dany neuron będzie częściej zwyciężał niż inne. Pozwala to odzwierciedlenie przez sieć częstotliwości występowania poszczególnych wzorców. Aby zrozumieć możliwość redukcji wymiarów przez SOM należy uświadomić sobie, że jest to obiekt dwuwymiarowy, do którego wprowadzane są dane wielowymiarowe. Rezultatem takiego postępowania jest przekonwertowanie n-wymiarowych danych w, bardziej wygodną do wizualnej analizy, postać dwu-wymiarowych. Sieć Kohenena dąży do stworzenia optymalnej struktury, która jest w stanie prawidłowo obrazować stosunki pomiędzy danymi wejściowymi. Dodatkowo mamy tu do czynienia z klasyfikacją danych w pewne grupy o zbliżonych do siebie własnościach. [PRZYKŁAD Z GRAMICKI.16] Relacyjne mapy perspektyw Relacyjne mapy perspektyw (ang, Relational Perspective Map, RPM).? k-średnich Metoda k-średnich jest jednym z algorytmów klasteryzacji pozwalający w prosty sposób pogrupować wielowymiarowe dane. Główną zasadą klasteryzacji jest taki podział zbioru danych, aby minimalizował wariancję w danej grupie, a maksymalizował pomiędzy różnymi. Sama zasada działania k-means, w podstawowej wersji, opiera się na znalezieniu k klastrów, gdzie w każdym z nich znajdują się elementy o najmniejszej odległości od centrum. Najczęściej do liczenia dystansu wykorzystujemy metrykę euklidesową. Początkowe usytuowanie samych centrów może być przypadkowe bądź mogą to być np. punkty najbardziej od siebie oddalone. W pierwszej iteracji wyznaczamy odległości pomiędzy poszczególnymi punktami a danymi centrami i na tej podstawie dołączamy je do danego kastra. W kolejnym kroku weryfikujemy położenie danych centr, wyznaczające je poprzez obliczenie centrum danego klastra, poprzez wyznaczenie średnich wartości położeń obiektów go tworzących. Następnie na nowo wyznaczamy położenia danych punktów względem nowo powstałych centr i modyfikujemy poprzednią przynależność do danych grup. Algorytm ten możemy powtarzać iteracyjnie, aż do ustabilizowania się klastrów bądź uzyskania satysfakcjonującego nas rezultatu. Algorytm k-średnich jest stosunkowo prosty i szybki jednak ma pewną wadę. Jest nią wyznaczona z góry ilość możliwych klastrów. To jest istotnym problemem jeśli nie wiemy czego dokładnie oczekujemy.

7 [JAKIŚ PRZYKŁAD] diagramy Voronoi Mając klastry uzyskane za pomocą k-means możemy uzyskać diagramy Voronoi a. Składają się one z pewnego zbioru centr zwanych również zalążkami. Poszczególne obszary są rozdzielone poprzez linie usytuowane w taki sposób, aby oddzielały punkty mniej oddalone od 1. centra, a bardziej od 2. Utworzone w ten sposób obszary, grupują punkty o odległości bliższej do określonego z zalążków niż każdego innego. [RYSUNEK] klasteryzacja hierarchiczna Techniki kalsteryzacji hierarchicznej możemy podzielić na skupiające (aglomeracyjne) i dzielące. Przy pierwszym wariancie wychodzimy z założenia, że każdy obiekt tworzy inny klaster i na podstawie jakiegoś określonego kryterium są one w kolejnych krokach łączone. Ostatecznie dążymy do jednego wspólnego obiektu grupującego wszystkie dane. W drugim wariancie zakładamy, że dane wejściowe należą do jednego klastra i stopniowo schodzimy w dół rozdzielając go na mniejsze, aż do uzyskania oczekiwanego przez nas podziału. Rezultatem takiego podziału jest najczęściej dendrogramy, które są to strukturami mającymi na celu ukazać związki pomiędzy wybranymi obiektami na podstawie jakiegoś kryterium. Liście takiego wykresu są elementami wejściowymi, a korzeń klastrem grupującym wszystkie dane. [PRZYKŁAD Z MATLABA I OPIS SPOSOBU ŁĄCZENIA DENDROGRAMU AVERAGE, COMLITE]