Metody statyczne selekcji i konstruowania cech dla wizualizacji danych wielowymiarowych

Podobne dokumenty
Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Przykład eksploracji danych Case 1.X

Analiza składowych głównych. Wprowadzenie

10. Redukcja wymiaru - metoda PCA

Lekcja 5: Sieć Kohonena i sieć ART

Analiza składowych głównych

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Prawdopodobieństwo i statystyka

Analiza głównych składowych- redukcja wymiaru, wykł. 12

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Statystyka i eksploracja danych

Elementy statystyki wielowymiarowej

Uczenie sieci radialnych (RBF)

Co to jest grupowanie

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Materiały wykładowe (fragmenty)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Metody systemowe i decyzyjne w informatyce

Sieci samoorganizujące się na zasadzie współzawodnictwa

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

KLASYFIKACJA. Słownik języka polskiego

A Zadanie

Zastosowania sieci neuronowych

ANALIZA KURSÓW AKCJI Z WYKORZYSTANIEM METODY ICA

Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.

SPOTKANIE 9: Metody redukcji wymiarów

Zastosowania sieci neuronowych

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

TRANSFORMACJE I JAKOŚĆ DANYCH

Zmienne zależne i niezależne

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Analiza korespondencji

Klasteryzacja i klasyfikacja danych spektrometrycznych

Przykładowa analiza danych

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Metody selekcji cech

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Metody Sztucznej Inteligencji II

ANALIZA CZYNNIKOWA Przykład 1

Rozpoznawanie twarzy za pomocą sieci neuronowych

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Opis efektów kształcenia dla modułu zajęć

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

TEORETYCZNE PODSTAWY INFORMATYKI

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Materiały wykładowe (fragmenty)

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Stosowana Analiza Regresji

ALGORYTM RANDOM FOREST

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Sieci neuronowe i ich ciekawe zastosowania. Autor: Wojciech Jamrozy III rok SMP / Informatyka

Wykład 10 Skalowanie wielowymiarowe

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

KADD Minimalizacja funkcji

Systemy uczące się Lab 4

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

Systemy uczące się wykład 1

Agnieszka Nowak Brzezińska Wykład III

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Badania eksperymentalne

Pattern Classification

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

CELE ANALIZY CZYNNIKOWEJ

Metoda największej wiarygodności

Mail: Pokój 214, II piętro

Elementy modelowania matematycznego

PDF created with FinePrint pdffactory Pro trial version

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

MATLAB Neural Network Toolbox przegląd

Uczenie sieci typu MLP

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Transkrypt:

Metody statyczne selekcji i konstruowania cech dla wizualizacji danych wielowymiarowych Jerzy Stefanowski (PCA Robert Susmaga) Instytut Informatyki Politechniki Poznańskiej Wykład InfoVis dla TWO 205

Agregacje i przekształcenia atrybutów Połącz dwa lub więcej atrybutów (zmiennych), skonstruuj nowe atrybuty albo dokonaj selekcji atrybutów Zmniejsz rozmiary danych (zachowując podstawowe właściwości) Cele Wizualizacja w mniejszych przestrzeniach lepsza percepcja człowieka Mogą zwiększyć czytelność reprezentacji Zmniejszenie wymagań dot. zbierania danych Inne transformacje samych atrybutów Zmień skale / granulacje informacji Cities aggregated into regions, states, countries,

Przekleństwo wymiarowości Curse of dimensionality [Bellman 96] W celu dobrego przybliżenia funkcji (także stworzenia klasyfikatora) z danych: The number of samples required per variable increases exponentially with the number of variables Liczba obserwacji żądanych w stosunku do zmiennej wzrasta wykładniczo z liczbą zmiennych Oznacza to konieczność zdecydowanego wzrostu niezbędnych obserwacji przy dodawaniu kolejnych wymiarów

Przykład problemu [D.Mladenic 2005] Data set Five Boolean features F F 2 F 3 F 4 F 5 C C = F V F 2 0 0 0 0 F 3 = F 2,F 5 = F 4 0 0 0 Optimal subset: 0 0 {F, F 2 } or {F, F 3 } 0 0 0 0 0 0 0 0 0 optimization in space of all feature subsets ( F 2 possibilities) 0 0 0 0 (tutorial on genomics [Yu 2004])

Różne podejścia do redukcji wymiarów Selekcja cech, zmiennych (cech, atrybutów,..) Wybierz podzbiór zmiennych F F Konstrukcja nowych zmiennych Metody projekcji nowe cechy zastępują poprzednie; Statystyczne PCA, MDS vs. sztuczne sieci neuronowe (SOM, GN, ) Wykorzystanie wiedzy dziedzinowej Wprowadzenie nowych cech (oprócz istniejących) Indukcja konstruktywna (R.Michalski)

Selekcja cech vs. konstrukcja nowych cech Za A.Berge

Redukcja rozmiarów danych Selekcja atrybutów Dany jest n elementowy zbiór przykładów (obiektów). Każdy przykład x jest zdefiniowany na V V2 Vm gdzie Vi jest dziedziną i-tego atrybutu. W przypadku nadzorowanej klasyfikacji przykłady zdefiniowane są jako <x,y> gdzie y określa pożądaną odpowiedź, np. klasyfikację przykładu. Cel selekcji atrybutów: Wybierz minimalny podzbiór atrybutów, dla którego rozkład prawdopodobieństwa różnych klas obiektów jest jak najbliższy oryginalnemu rozkładowi uzyskanemu z wykorzystaniem wszystkich atrybutów. Nadzorowana klasyfikacja Dla danego algorytmu uczenia i zbioru uczącego, znajdź najmniejszy podzbiór atrybutów dla którego system klasyfikujący przewiduje przydział obiektów do klas decyzyjnych z jak największą trafnością.

Selekcja w trakcie wstępnego przetwarzania danych Ocena pojedynczych atrybutów: testy χ2 i miary siły związku, miary wykorzystujące względną entropie między atrybutem warunkowym a decyzyjnym (ang. info gain, gain ratio),... Ocena podzbiorów atrybutów (powinny być niezależne wzajemnie a silnie zależne z klasyfikacją): Miara korelacji wzajemnych, Statystyki λ Wilksa, T2-Hotellinga, odległości D2 Mahalanobisa, Redukty w teorii zbiorów przybliżonych, Techniki dekompozycji na podzbiory (ang. data table templates)... Model filter vs. wrapper

WEKA attribute selection

Ranking with? WEKA

Jak wykorzystać ranking atrybutów Wybierz powyżej progu τ Mediana czy inny?

Przykład selekcji cech w eksploracji danych Rozważmy rzeczywisty przykład z zakresu diagnostyki technicznej Autosan H9-2(prototyp 969, produkowany lata 73-84) w Sanockiej Fabryce Autobusów Metodycznie klasyfikacja nadzorowana Lecz istotne pytanie o ważność cech i możliwość ich selekcji

Analiza diagnostycznej bazy danych Bada się stan techniczny 80 autobusów tego samego typu (dokładnie ich silników) na podstawie symptomów stanu technicznego - parametrów pochodzących z okresowych badań diagnostycznych Pierwsza klasyfikacja D: autobusy są podzielone na dwie klasy: dobry i zły stan techniczny pojazdu Możliwa jest druga klasyfikacja D2 + stan przejściowy Cel analizy Ocenia się jakość diagnostyczną symptomów stanu technicznego (pośrednio ocena przydatności tzw. wartości granicznych) Ocena ważności poszczególnych symptomów Ewentualność rankingu lub selekcji Poszukuje się zależności pomiędzy wartościami najistotniejszych w tych symptomów a przydziałem do klas Konstruuje się klasyfikator stanu technicznego

Opis danych 80 obserwacji (autobusów) 8 atrybutów max speed km/h Compresion preasure Mpa blacking components in exhaust gas [%] torque Nm summer fuel consumption l/00km winter fuel consumption l/00km oil consumption l/000km max horesepower km D: [,2] Stan techniczny pojazdu: dobry, 2 zły lub 3 klasy D2: [,2,3]

Scatter point matrix WEKA - Visualization

Analiza współzależności Macierz korelacji Statsoft Statistica

Powiązanie pewnych symptomów Można zrobić wykresy korelacyjne (rozrzutu XY) Horsepow er 60 50 40 30 20 0 00 90 395 45 435 455 475 Torque Wiedza dziedzinowa ciśnienie sprężania powiązane jest z momentem obrotowym, im większe ciśnienie tym większy można uzyskać moment obrotowy, moment obrotowy powiązany jest z mocą pojazdu, zawartość elementów smołowatych i zużycie oleju świadczyć może o wieku silnika i jego stanie technicznym, Mniejsza użyteczność info. o zużyciu paliwa (warunki, styl jazdy,..)

WEKA visualize

Select attributes z WEKA Różne metody lekko zróżnicowane selekcje Możliwe jest ograniczenie do podzbiorów z 3 atrybutami

Drzewo J4.8 (WEKA)

WEKA Scatterplot Visualization A3 (ciśnienie sprężania) vs. A9 (rzeczywista moc silnika) i 2 klasy

Metody projekcji tworzenie nowych atrybutów Principal Component Analysis PCA Analiza składowych głównych / Carl Pearson 90 Hotelling (933) rozwinięte i zastosowane do analizy testów osiągnięć szkolnych Wystarczą 2 składowe zdolności słowne i matematyczne Dla n obserwacji z m wymiarowej przestrzeni znajdź c ortogonalnych wektorów (c << m), które dobrze reprezentują właściwości oryginalnych danych. Jak dokonać dobrej konstrukcji / redukcji wymiarów bez znaczącej utraty informacji? Używane do kompresji danych i lepszej wizualizacji ogólnych prawidłowości w związkach między danymi Przeznaczone do danych liczbowych. Oprogramowanie statystyczne Statsoft i inne Więcej opisów i przykładów książki Larose / Stanisz / Krzyśko,Wołyński

PCA analiza składowych głównych () Istota to ortogonalne przekształcenie początkowych skorelowanych zmiennych w nowy zbiór nieskorelowanych zmiennych Całkowita wariancja zmiennych jest równa sumie wariancji składowych głównych Problem wyboru nowych składowych Każdy z nowych wektorów jest kombinacją liniową pewnych składowych głównych (odnoszących się do oryginalnych zmiennych)

PCA analiza składowych głównych (2) Nowe nieskorelowane zmienne (tzw. składowe główne) powstają z przekształcenia oryginalnych zmiennych skorelowanych, w taki sposób aby w maksymalnym stopniu wyjaśniać całkowitą wariancję w próbie zmiennych oryginalnych. Formalnie wariancje składowych głównych są wartościami własnymi macierzy kowariancji oryginalnych zmiennych (the eigenvectors of the covariance matrix). Pierwsza składowa główna redukuje największą część zróżnicowania, druga kolejną której nie redukowała poprzednia itp. x 2 e x

Przykład: PCA dla danych dwuwymiarowych 35 30 25 20 5 duża wariancja b. duża wariancja b. mała wariancja duża wariancja 0 5 0-5 -5 0 5 0 5 20 25 Pod względem wariancji stare zmienne: małe zróznicowanie nowe zmienne: duże zróznicowanie Slajd dzieki dr R.Susmaga

Przykład: PCA dla danych dwuwymiarowych 7 6 duża wariancja duża wariancja duża wariancja 5 4 duża wariancja 3 2 4 5 6 7 8 9 0 Pod względem wariancji stare zmienne: małe zróznicowanie nowe zmienne: małe zróznicowanie Slajd dzieki dr R.Susmaga

Procedura PCA więcej matematyki Dana jest macierz danych: X (obserwacje w wierszach) oblicz macierz kowariancji S x = X T X można pominąć mnożnik (/(m )) czy (/m) macierz S x jest symetryczna i pozwala ocenić wariancje zmiennych (elementy na głównej przekątnej) zależności pomiędzy zmiennymi (elementy poza główną przekątną) dokonaj rozkładu: S x = KLK T utwórz nowe zmienne wykonując operację Y = XK Slajd dzieki dr R.Susmaga

Procedura PCA Wniosek : macierz kowariancji S Y zmiennych przekształconych Y wyraża się macierzą diagonalną L (utworzoną z wartości własnych macierzy S x ) kowariancje zmiennych przekształconych (elementy pozadiagonalne macierzy S Y ) są równe zero nowe zmienne są niezależne liniowo wariancje zmiennych przekształconych (elementy diagonalne macierzy S Y ) są równe wartościom własnym macierzy S x (zapisanym na przekątnej macierzy L) można je poznać tuż po wyliczeniu wartości własnych macierzy S x, a więc jeszcze przed wyliczeniem nowej macierzy danych Y = XK Slajd dzieki dr R.Susmaga

PCA nowy układ współrzędnych Osie uporządkowane wzdłuż zmienności / wariancji Weź k pierwszych składowych PCA V k k λ k = i= d j= λ j 3 0 2 3 4 5 6 Starając się zachować przynajmniej ~ wystarczająco dużo % zmienności całkowitej Na podstawie tzw. wykresu osypiska

PCA może pomóc zrozumieć strukturę danych za książka Elements of Statistical Learning, Friedman, Hastie, Tibushirani

Zastosowania PCA: wizualizacja danych wielowymiarowych Przykłady 5 samochodów osobowych Atrybuty 4 wybrane parametry zużycie paliwa [/00 l/km], zakres: [6,0], typ: strata przyspieszenie do 00km/h [s], zakres: [9,4], typ: strata cena [tys. PLN], zakres: [24, 94], typ: strata wyposażenie [punkty uznaniowe], zakres: [, 0], typ: zysk Przykład dr R.Susmaga

PCA: wizualizacja danych wielowymiarowych (2) Oryginalne opisy 5 samochodów (tabela danych) Marka Model Zużycie Przyspieszenie Cena Wyposażenie Alfa Romeo 56 8, 9,3 7,4 9 Audi A4 7,9,9 93,35 0 BMW 36l 7,5 2,3 8,79 8 Daewoo Lanos 8,4 2,2 34,90 3 Honda Civic 6,7 0,8 48,90 7 Hyunday Accent 6,4,7 35,30 2 Lada Samara 7,2 3,0 24,90 2 Mitsubishi Carisma 7,2 2,0 60,60 9 Opel Astra II 7,0 2,0 56,95 8 Peugeot 206 XR 6,6 3,2 38,36 4 Renault Megane 7,0 9,9 50,05 9 Saab 9 3S 9,7,0 85,35 8 Seat Cordoba 8,3 0,9 44,99 8 Toyota Corrola 7,7 0,2 50,36 4 Volkswagen Golf IV 8,3 9,9 6,62 6

PCA: wizualizacja danych wielowymiarowych (2) Znormalizowane opisy 5 samochodów Marka Model Zużycie Przyspieszenie Cena Wyposażenie Alfa Romeo 56 0,57 -,74 0,76 0,93 Audi A4 0,34 0,46,87,3 BMW 36l -0, 0,80,29 0,56 Daewoo Lanos 0,92 0,72 -,05 -,34 Honda Civic -,03-0,47-0,35 0,8 Hyunday Accent -,37 0,29 -,03 -,34 Lada Samara -0,46,40 -,55 -,72 Mitsubishi Carisma -0,46 0,55 0,23 0,93 Opel Astra II -0,69 0,55 0,05 0,56 Peugeot 206 XR -,4,57-0,88-0,96 Renault Megane -0,69 -,23-0,29 0,93 Saab 9 3S 2,40-0,30,47 0,56 Seat Cordoba 0,80-0,39-0,55 0,56 Toyota Corrola 0, -0,98-0,28-0,96 Volkswagen Golf IV 0,80 -,23 0,29-0,20

Trochę macierzy.0000-0.3245 0.4872 0.269-0.3245.0000-0.2609-0.384 0.4872-0.2609.0000 0.769 0.269-0.384 0.769.0000

Nowe zmienne -.9007-0.7758 -.7763.4540-0.6978.3548.209-0.8323 0.3599 0.0557 2.2258-0.296 2.5666-0.97-0.2338.0564 0.759 0.9305 2.353 0.8628-0.5332-0.2984-2.3404-0.4234-0.496-0.5953 0.2245 -.262-0.97 -.67

Zastosowania PCA: wizualizacja danych wielowymiarowych 3 2 Audi A4 BMW 36l Mitsubishi Opel Astra Carisma II Peugeot 206 XR 0 - Honda Civic Lada Samara Renault Megane Hyunday Accent Saab 9 3S Seat Cordoba Alfa Romeo 56 Daewoo Lanos Volkswagen Toyota Golf IVCorrola -2-3 -3-2 - 0 2 3

Niezrównoważenie rozkładu w klasach (Class Imbalance) Dane są niezrównoważone, jeśli klasy nie są w przybliżeniu równoliczne Klasa mniejszościowa (minority class) zawiera wyraźnie mniej przykładów niż inne klasy Przykłady z klasy mniejszościowej są często najważniejsze, a ich poprawne rozpoznawanie jest głównym celem. Rozpoznawanie rzadkiej, niebezpiecznej choroby, CLASS IMBALANCE powoduje trudności w fazie uczenia i obniża zdolność predykcyjną Class imbalance is not the same as COST sensitive learning. In general cost are unknown! + + + + + + + + + + ++ + + + + + + + + + + + + + +

Przykład niezrównoważonych danych UCI repository Cleveland medical data

Podglądajmy rzeczywiste dane Wizualizacja 2 pierwszych składowych w metodzie PCA Thyroid 25 ob./ 35 Haberman 306 ob. / 8

MDS wizualizacja danych niezrównoważonych Skalowanie wielowymiarowe

t-sn visualisation New Thyroid Ecoli Safe Border t-distributed Stochastic Neighbor Embedding (t-sne) Keeps probability that i is a neighbor of j / local distances

t-sn visualisation Glass Rare, Outlier

natura niezrównoważonych danych Dataset Safe Border Rare Outlier Category new thyroid 68,57 3,43 0,00 0,00 S ecoli 28,57 54,29 2,86 4,29 B glass 0,00 35,29 35,29 29,4 R, O RARE & OUTLIER BORDERLINE SAFE GLASS ECOLI THYROID

Podstawowa sieć Kohonena LVQ Celem jest grupowanie wektorów wejściowych x Istota działania podobieństwo Podobne wektory powinny pobudzać te same neurony Prosta topologia y y j gdzie y = wx= w x j j ij i i Reguła konkurencyjnego uczenia się x i x

Reguła zwycięzca bierze wszystko Określenie zwycięzcy: x wˆ = min i=, K, p x wˆ Alternatywnie iloczyn skalarny m i wˆ T m x = max i=, K, p wˆ T i x Zwycięzcą jest jeden neuron m. Korekcja wag w m odbywa się wyłącznie dla neuronu zwycięzcy według reguły: w = η ( x wm) m η -stała uczenia (na ogół między 0. a 0.7) Przykład interpretacja geometryczna

Sieci SOM Podstawą odwzorowania takie uporządkowanie neuronów, takie że położenie zwycięskich neuronów niesie informacje Topologia relacja sąsiedztwa Podobne przykłady wejściowe x powinny aktywizować sąsiednie neurony Gęstość wzorców w zredukowanej przestrzeni musi odpowiadać gęstości przykładów w oryginalnej przestrzeni

Uczenie sieci SOM Siatka neuronów i =.. K w D-3D, każdy neuron z N wagami. Neurony z wagami W i (t) = {W i W i2.. W in }, wektory X={X, X 2.. X N }. t - dyskretny czas; nie ma połączeń pomiędzy neuronami!. Inicjalizacja: przypadkowe W i (0) dla wszystkich i=..k. Funkcja sąsiedztwa h( r-r c /σ(t),t) definiuje wokół neuronu położonego w miejscu r c siatki obszar O s (r c ). 2. Oblicz odległości d(x,w), znajdź neuron z wagami W c najbardziej podobnymi do X (neuron-zwycięzcę). 3. Zmień wagi wszystkich neuronów w sąsiedztwie O s (r c ) 4. Powoli zmniejszaj siłę h 0 (t) i promień σ(t). 5. Iteruj aż ustaną zmiany. Efekt: podział (tesselacja) na wieloboki Voronoia.

Przykład analiza produkcji oliwy we Włoszech SOM application oil Italian market: 572 samples of olive oil were collected from 9 Italian provinces Content of 8 fats was determine for each oil SOM 20 x 20 network, Maps 8D => 2D Classification accuracy was around 95-97% Note that topographical relations are preserved, region 3 is most diverse

Web Document Clustering Using SOM The result of SOM clustering of 2088 Web articles The picture on the right: drilling down on the keyword mining Based on websom.hut.fi Web page

Trochę wskazówek literaturowych Robert Susmaga wykład Metody kompresji i wizualizacji danych (PP obieralny przedmiot semx) T.Hastie, R.Tibshirani, J.Friedman: The Elements of Statistical Learning. Springer poszukaj wersji elektronicznej pdf J.Koronacki, J.Ćwik: Statystyczne systemy uczące się WNT. M.Krzyśko, W.Wołyński, T.Górecki,M.Skorzybut: Systemy uczące się. WNT. S.Osowski: Sieci neuronowe w przetwarzaniu informacji. K.Napierała, J.Stefanowski: Identification of Different Types of Minority Class Examples in Imbalanced Data. Proc. HAIS 202, Part II, LNAI vol. 7209, Springer Verlag 202, 39 50. Napierala, K., Stefanowski, J.: Types of Minority Class Examples and Their Influence on Learning Classifiers from Imbalanced Data, to appear in Journal of Intelligent Information Systems (205)

Don t..., it is not over! Jeszcze wiele rozwiązań dla danych jakościowych