2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki



Podobne dokumenty
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Co to jest grupowanie

Sieci Kohonena Grupowanie

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Hierarchiczna analiza skupień

Elementy statystyki wielowymiarowej

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Algorytm grupowania danych typu kwantyzacji wektorów

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Analiza korespondencji

Algorytm grupowania danych typu kwantyzacji wektorów

STATYSTYKA I DOŚWIADCZALNICTWO

Analiza składowych głównych idea

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Analiza składowych głównych. Wprowadzenie

Systemy uczące się Lab 4

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Skalowanie wielowymiarowe idea

10. Redukcja wymiaru - metoda PCA

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Adrian Horzyk

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY 7SP. V. Obliczenia procentowe. Uczeń: 1) przedstawia część wielkości jako procent tej wielkości;

Wprowadzenie do analizy korelacji i regresji

MATEMATYKA Z PLUSEM DLA KLASY VII W KONTEKŚCIE WYMAGAŃ PODSTAWY PROGRAMOWEJ. programowej dla klas IV-VI. programowej dla klas IV-VI.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Przykładowa analiza danych

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

KLASYFIKACJA. Słownik języka polskiego

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Analiza składowych głównych

Lekcja 5: Sieć Kohonena i sieć ART

Agnieszka Nowak Brzezińska Wykład III

SIECI KOHONENA UCZENIE BEZ NAUCZYCIELA JOANNA GRABSKA-CHRZĄSTOWSKA

Rozkład materiału nauczania

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Techniki grupowania danych w środowisku Matlab

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Wykład 10 Skalowanie wielowymiarowe

Stosowana Analiza Regresji

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Inteligentna analiza danych

Przybliżone algorytmy analizy ekspresji genów.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska

Sposoby prezentacji problemów w statystyce

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

WYMAGANIA EDUKACUJNE Z MATEMATYKI Z PLUSEM DLA KLASY VIII WYMAGANIA SZCZEGÓŁOWE Z PODSTAWY PROGRAMOWEJ TEMAT

Temat: Sieci neuronowe oraz technologia CUDA

Skumulowane wykresy słupkowe: pokazują zależności zachodzące między indywidualnymi elementami i całością.

Wykład 4: Statystyki opisowe (część 1)

Agnieszka Nowak Brzezińska Wykład III

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Asocjacyjna reprezentacja danych i wnioskowanie

ZESTAWIENIE TEMATÓW Z MATEMATYKI Z PLUSEM DLA KLASY VIII Z WYMAGANIAMI PODSTAWY PROGRAMOWEJ WYMAGANIA SZCZEGÓŁOWE Z PODSTAWY PROGRAMOWEJ

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Uczenie sieci radialnych (RBF)

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

MATEMATYKA WYKAZ UMIEJĘTNOŚCI WYMAGANYCH NA POSZCZEGÓLNE OCENY DLA KLASY PIERWSZEJ

FUNKCJA LINIOWA - WYKRES

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Inspiracje kognitywne w procesie analizy pozycji szachowej

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

4.3 Grupowanie według podobieństwa

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Przemysław Włodarczyk. Wizualizacja danych. Praca magisterska pod kierunkiem. prof. Włodzisława Ducha. Wydział Matematyki i Informatyki

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

Uczenie sieci typu MLP

8. Neuron z ciągłą funkcją aktywacji.

Metody Sztucznej Inteligencji II

TEORETYCZNE PODSTAWY INFORMATYKI

PDF created with FinePrint pdffactory Pro trial version

Wykład Prezentacja materiału statystycznego. 2. Rodzaje szeregów statystycznych.

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

Wprowadzenie. SOM jest skrótem od Self Organizing Maps, czyli Samoorganizujące się mapy.

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Metody systemowe i decyzyjne w informatyce

Katalog wymagań na poszczególne stopnie szkolne klasa 3

klasa III technikum I. FIGURY I PRZEKSZTAŁCENIA Wiadomości i umiejętności


Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

WYMAGANIA EDUKACYJNE Z MATEMATYKI 2016/2017 (zakres podstawowy) klasa 3abc

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

Transkrypt:

1. Wstęp 2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi a. Wprowadzenie, aspekt psychologiczny, wady statystyki b. Metody graficzne i. Wykres 1.zmiennej ii. Rzut na 2 współrzędne iii. Radarowy wykresy iv. Metody wykorzystujące osie WSP. v. Predyspozycje człowieka vi. Dendrogramy c. Redukcja wymiarowości i. Pca ii. Lda iii. Fda iv. MDS v. Analiza skl.niezależnych vi. Filtry vii. Som (16_gramacki) viii. Relacyjne mapy perspektyw (16_gramacki) 3. Zagadnienia poruszane w mojej pracy a. Dystanse b. Klasterzacja i. Opis ogólny ii. K-means iii. Veronoi iv. Prezentacje danych za pomocą trójkątów, czyli.

Ogólne metody prezentacji ze zwróceniem uwagi na graficzne, 2. Dane wielowymiarowe Mini opis Metody graficzne Jednym z najbardziej popularnych sposobów reprezentacji danych są metody graficzne. Pozwalają one, w stosunkowo łatwy dla odbiorcy sposób, zaprezentować różnego typu cechy, zależności, przez co znalazły szerokie zastosowanie w bardzo wielu dziedzinach. Technik tych jest wiele, więc postaram się przybliżyć chodź kilka z nich. Wykres jednej zmiennej Jest to bardzo popularna metoda reprezentacji danych jednowymiarowych pozwalająca na wizualizację rozkładu danej cechy, wartości średniej, odchylenia standardowego itp. Najpopularniejszą grupę stanowią tu histogramy. Histogramy składają się z grupy ułożonych obok siebie prostokątów reprezentujących dany przedział liczbowy, których wysokości określona jest liczebnością występowania danego przedziału. Aby zbudować tego rodzaju wykres powinniśmy ustalić ilość oraz wielkość przedziałów, a następnie zliczyć ilość elementów w danym przedziale. Następnie na osi poziomej oznaczamy odpowiednie przedziały, a na pionowej ich liczebność. [TU BĘDZIE RYSUNEK DO DANYCH, KTÓRE BĘDĘ WYKORZYSTYWAŁ RÓWNIEZ W INNYCH PRZYKLADACH] Na przedstawionym tu histogramie widzimy..

Rzut na 2. Osie Metody te pozwalają na reprezentacje na jednym wykresie dwóch cech. Dzięki nim możemy wyszukiwać zależności między poszczególnymi współrzędnymi, próbując odnaleźć związków między nimi. Za przykład mogą posłużyć nam wykresy rozproszone (ang. scatterplot) Dane są tu przedstawiane jako zbiór punktów, których położenie jest uzależnione od wartości danej cechy umieszczonej na jednej osi i wartości drugiej cechy na kolejnej osi. Metoda ta pozwala, w niektórych przypadkach, na znalezienie cech redundantnych czy klasteryzacje zbioru. [RYSUNEK POJEDYNCZY] Dla dużego zbioru cech możemy stworzyć macierz wykresów rozproszonych, co pozwala nam na sprawne określenie, które cechy mogą być istotne, skorelowane czy redundantne. [RYSUNEK MACIERZY] Wykres radarowy Technika ta pozwala nam na zaprezentowanie wielu cech danego obiektu na jednym rysunku przypominającym gwiazdę (ang. star. Każda, brana przez nas cecha stanowi oddzielny promień gwiazdy. Wykresy tego typu znakomicie nadają się do porównywania zbioru obiektów mających te same cechy. Możemy w tedy w dość łatwy sposób porównać je ze sobą, oczywiści jeśli liczba cech nie będzie zbyt duża. [RYSUNEK MACIERZY Z STAR PLOTAMI] Współrzędne równoległe Jest to metoda, w której dane cechy są reprezentowane przez równoległe do siebie osie współrzędnych, a wartości danych cech są odkładane na nich. [JAKIŚ PUNKT W KILKU WYMIARACH] Sposób bardzo dobrze nadaje się do prezentacji pojedynczych wektorów lecz przy większej ilości danych linie mogą się nakładać, przecinać przez co wykres staje się nie czytelny. [RYSUNEK KULI] Twarze Chernoffa Metoda ta należy do grupy metod wykorzystujących naturalne predyspozycje człowieka do zwracania uwagi na elementy dobrze przez nas rozpoznawalne takie jak w tym przypadku twarz. Poszczególne cechy przedstawione są jako elementy głowy człowieka takie jak oczy, uszy, usta, brwi itp. w zależności od ilości potrzebnych nam elementów. Zważywszy, że naturalnym dla człowieka jest kontakt z wieloma innymi przedstawicielami naszego gatunku, dość łatwo jest nam analizować wygląd tego typu wykresów. Oczywiście trudność może pojawić się w przypadku konieczności analizy jednocześnie kilkunastu wykresów tego typu. [RYSUNEK ZGODNY Z INNYMI] Redukcja wielowymiarowości

Mając wielowymiarowe dane dość trudno jest nam je analizować. Oczywiście możemy przedstawiać dane na wykresach gwiazdowych czy we współrzędnych równoległych, ale nie zawsze nam to pomaga. Przydatne mogą okazać się w takich przypadkach techniki polegające na zmniejszeniu wymiarowości analizowanego problemu. Możemy wykorzystać tu jakieś funkcje podobieństwa w danych w celu ograniczenia ilości cech. Taką funkcją może być np. korelacja czy dystans pomiędzy poszczególnymi wektorami danych. PCA (ang. Principal Component Analysis) Wielowymiarowe dane przeważnie nie są równomiernie rozłożone w całej przestrzeni układu współrzędnych. Często koncentrują się one w pewnych podprzestrzeniach głównej przestrzeni. Celem PCA jest znalezienie tych podprzestrzeni. Analiza głównych składowych opiera się na wykorzystaniu takich statystycznych pojęć jak korelacja czy wariancja, które w połączeniu z elementami algebry liniowej tworzą całość. Najpierw liczymy średnią dla każdej z cech: Następnie kowariancję: Następnie kowariancje dla każdej pary wrzucamy do jednej macierzy, z której obliczamy wektory i wartości własne. Mając wyznaczone wartości własne porządkujemy je od największej do najmniejszej, jednocześnie sortując odpowiadające im wektory własne. W tym miejscy można dokonać redukcji wymiaru przestrzeni. Z otrzymanych wartości własnych wybieramy te największe, przez co minimalizujemy stratę informacji podczas rzutowania danych na nową ilość wymiarów. Im wyższa wartość własna tym odpowiadający jej wektor własny jest słabiej skorelowany z pozostałymi. Teraz możemy dokonać projekcji poprzez przemnożenie transponowanej macierzy wartości własnych i transponowanej macierzy danych wejściowych. Otrzymana macierz jest końcowym rezultatem PCA. Stosując PCA otrzymujemy nowe cechy, a redukcja wymiarów uzyskana zostaje poprzez usunięcie cech z małą wariancją. Wadą tej metody jest nieprzystosowanie do analizy danych o nieliniowej strukturze. [PRZYKŁAD DLA NP. IRYSA W MATLABIE] LDA Czy potrzebne? MDS (ang. Multiddimensional Scaling) Jest to prawdopodobnie najbardziej popularna metoda redukcji wielowymiarowości, pozwalająca na wizualizację danych w niskowymiarowych przestrzeniach. Główne założenie poczynione w MDS

polega n wykorzystaniu macierzy odległości pomiędzy poszczególnymi obiektami. Macierzą tą może być np. macierz podobieństwa bazująca na odległościach euklidesowych pomiędzy poszczególnymi danymi. W niektórych przypadkach informacje te są naturalnymi np. badając odległości pomiędzy poszczególnymi miastami, a w innym dane wejściowe muszą zostać poddane modyfikacją np. płeć, kolor oczu, które nie są typowo liczbowymi wielkościami. Następnie staramy się zrobić takie odwzorowanie, aby odległości w nowej ilości wymiarów były jak najbardziej zbliżone do tych w wejściowej. Sprowadza się to do minimalizacji pewnej funkcji, zwanej stress function. Może mieć ona postać jak poniżej: [WZÓR] i pozwala ona na sprawdzenie, jak dobrze nowa konfiguracja zgadza się z wejściową. Możemy również korzystać z innych funkcji stress u które mogą być mniej lub bardziej odpowiednie dla naszych potrzeb. [PRZYKŁAD MDS, MOŻE SZEŚCIAN] SOM (ang. Self-Organizing Maps) Mapy samoorganizujące zwane również sieciami Kohonena są pewnego typu sieciami neuronowymi, w których uczenie odbywa się bez nauczyciela. Mamy tutaj do dyspozycji tylko dane wejściowe, z których finalnie powinniśmy otrzymać wzorzec mogący prawidłowo rozróżniać wprowadzane informacje. Zasada działania SOM opiera się na wykorzystaniu metody jednego zwycięscy. Oznacza to, że podczas uczenia, na podstawie pewnej funkcji zwycięstwa zostaje wybrany tylko 1 neuron stający się wygranym. Następnie waga jego jak i najbliższych sąsiadów zostają zmodyfikowane w taki sposób, aby były bardziej predysponowane do wykrywania odpowiedniego przypadku.

W sieciach SOM każdy neuron ma ściśle określonych sąsiadów. Pozwala to na tworzenie mapy neuronów, tworzących pewną topologie. Jak w każdej sieci mamy również warstwę wejściową, do której wpływają dane. Pobudzają one 1 neuron, który staje się zwycięzcą. Wprowadzając wielokrotnie dane uczymy sieć odpowiednio rozpoznawać prawidłowe dla niego informacje bądź zbliżone do nich. Sieć ta ma tą własności, że neurony znajdujące się blisko siebie podobnie rozróżniają dane wzorce wejściowe. Jeśli jakieś dane pojawiają się częściej to dany neuron będzie częściej zwyciężał niż inne. Pozwala to odzwierciedlenie przez sieć częstotliwości występowania poszczególnych wzorców. Aby zrozumieć możliwość redukcji wymiarów przez SOM należy uświadomić sobie, że jest to obiekt dwuwymiarowy, do którego wprowadzane są dane wielowymiarowe. Rezultatem takiego postępowania jest przekonwertowanie n-wymiarowych danych w, bardziej wygodną do wizualnej analizy, postać dwu-wymiarowych. Sieć Kohenena dąży do stworzenia optymalnej struktury, która jest w stanie prawidłowo obrazować stosunki pomiędzy danymi wejściowymi. Dodatkowo mamy tu do czynienia z klasyfikacją danych w pewne grupy o zbliżonych do siebie własnościach. [PRZYKŁAD Z GRAMICKI.16] Relacyjne mapy perspektyw Relacyjne mapy perspektyw (ang, Relational Perspective Map, RPM).? k-średnich Metoda k-średnich jest jednym z algorytmów klasteryzacji pozwalający w prosty sposób pogrupować wielowymiarowe dane. Główną zasadą klasteryzacji jest taki podział zbioru danych, aby minimalizował wariancję w danej grupie, a maksymalizował pomiędzy różnymi. Sama zasada działania k-means, w podstawowej wersji, opiera się na znalezieniu k klastrów, gdzie w każdym z nich znajdują się elementy o najmniejszej odległości od centrum. Najczęściej do liczenia dystansu wykorzystujemy metrykę euklidesową. Początkowe usytuowanie samych centrów może być przypadkowe bądź mogą to być np. punkty najbardziej od siebie oddalone. W pierwszej iteracji wyznaczamy odległości pomiędzy poszczególnymi punktami a danymi centrami i na tej podstawie dołączamy je do danego kastra. W kolejnym kroku weryfikujemy położenie danych centr, wyznaczające je poprzez obliczenie centrum danego klastra, poprzez wyznaczenie średnich wartości położeń obiektów go tworzących. Następnie na nowo wyznaczamy położenia danych punktów względem nowo powstałych centr i modyfikujemy poprzednią przynależność do danych grup. Algorytm ten możemy powtarzać iteracyjnie, aż do ustabilizowania się klastrów bądź uzyskania satysfakcjonującego nas rezultatu. Algorytm k-średnich jest stosunkowo prosty i szybki jednak ma pewną wadę. Jest nią wyznaczona z góry ilość możliwych klastrów. To jest istotnym problemem jeśli nie wiemy czego dokładnie oczekujemy.

[JAKIŚ PRZYKŁAD] diagramy Voronoi Mając klastry uzyskane za pomocą k-means możemy uzyskać diagramy Voronoi a. Składają się one z pewnego zbioru centr zwanych również zalążkami. Poszczególne obszary są rozdzielone poprzez linie usytuowane w taki sposób, aby oddzielały punkty mniej oddalone od 1. centra, a bardziej od 2. Utworzone w ten sposób obszary, grupują punkty o odległości bliższej do określonego z zalążków niż każdego innego. [RYSUNEK] klasteryzacja hierarchiczna Techniki kalsteryzacji hierarchicznej możemy podzielić na skupiające (aglomeracyjne) i dzielące. Przy pierwszym wariancie wychodzimy z założenia, że każdy obiekt tworzy inny klaster i na podstawie jakiegoś określonego kryterium są one w kolejnych krokach łączone. Ostatecznie dążymy do jednego wspólnego obiektu grupującego wszystkie dane. W drugim wariancie zakładamy, że dane wejściowe należą do jednego klastra i stopniowo schodzimy w dół rozdzielając go na mniejsze, aż do uzyskania oczekiwanego przez nas podziału. Rezultatem takiego podziału jest najczęściej dendrogramy, które są to strukturami mającymi na celu ukazać związki pomiędzy wybranymi obiektami na podstawie jakiegoś kryterium. Liście takiego wykresu są elementami wejściowymi, a korzeń klastrem grupującym wszystkie dane. [PRZYKŁAD Z MATLABA I OPIS SPOSOBU ŁĄCZENIA DENDROGRAMU AVERAGE, COMLITE]