Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Podobne dokumenty
Widzenie komputerowe (computer vision)

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Systemy uczące się wykład 2

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Systemy Agentowe główne cechy. Mariusz.Matuszek WETI PG

Systemy uczące się wykład 1

SPOTKANIE 2: Wprowadzenie cz. I

Pattern Classification

Sztuczna inteligencja

Szczegółowy opis przedmiotu zamówienia

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Sztuczna inteligencja stan wiedzy, perspektywy rozwoju i problemy etyczne. Piotr Bilski Instytut Radioelektroniki i Technik Multimedialnych

Meta-uczenie co to jest?

Wprowadzenie do technologii informacyjnej.

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

KLASYFIKACJA. Słownik języka polskiego

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Agnieszka Nowak Brzezińska Wykład III

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek

Klasyfikacja LDA + walidacja

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Transformacja wiedzy w budowie i eksploatacji maszyn

Agnieszka Nowak Brzezińska Wykład III

Szybkość instynktu i rozsądek rozumu$

Technologie Informacyjne

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

AUTOMATYKA INFORMATYKA

JAKIMI REGUŁAMI RZĄDZI SIĘ ZBIOROWOŚĆ? WYKORZYSTANIE MODELOWANIA I SYMULACJI ZACHOWAŃ GRUPOWYCH NA POTRZEBY BEZPIECZEŃSTWA IMPREZY MASOWEJ

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

MATEMATYCZNE METODY WSPOMAGANIA PROCESÓW DECYZYJNYCH

Hierarchiczna analiza skupień

SZTUCZNA INTELIGENCJA

Modelowanie i symulacja zachowania tłumu.

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści


w ekonomii, finansach i towaroznawstwie

Systemy uczące się Lab 4

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Jazda autonomiczna Delphi zgodna z zasadami sztucznej inteligencji

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Poza sztuczną CTO 15 maj, Watson Warsaw Summit 2017

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Zastosowania metod odkrywania wiedzy do diagnostyki maszyn i procesów

Metody selekcji cech

SZTUCZNA INTELIGENCJA

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Adrian Horzyk

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Wprowadzenie do uczenia maszynowego

Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych. Wykład 3

Sztuczna inteligencja : Algorytm KNN

Kognitywne hierarchiczne aktywne podziały. Arkadiusz Tomczyk.

Eksploracja danych w środowisku R

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Badania marketingowe

CogGGP - kognitywnie inspirowany agent GGP - opis architektury

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Nowe narzędzia zarządzania jakością

Wykład 4. Decyzje menedżerskie

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

SZTUCZNA INTELIGENCJA

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Prof. Stanisław Jankowski

Mail: Pokój 214, II piętro

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Systemy Wspomagania Decyzji

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Modelowanie i Programowanie Obiektowe

Systemy Wspomagania Decyzji

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

Klasyfikacja publikacji biomedycznych w konkursie JRS 2012 Data Mining Competition - Szkic koncepcji

Data Mining z wykorzystaniem programu Rapid Miner

CLUSTERING. Metody grupowania danych

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Elementy modelowania matematycznego

Systemy Optymalizacji Oświetlenia Zewnętrznego Kontekst Informatyczny. Dr hab. Leszek Kotulski, prof. AGH Dr Adam Sędziwy KIS WEAIiIB AGH

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

z wyszczególnieniem usług automatyzacji procesów mgr inż. Adam Smółkowski mgr inż. Marcin Wójciuk Aspartus (Grupa ProService FINTECO)

System informacyjny a system decyzyjny Relacja nierozróżnialności Klasy abstrakcji Teoria zbiorów przybliżonych Usuwanie niespójności z tablicy

Transkrypt:

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska andrzejanusz@gmail.com 13.06.2013

Dlaczego właśnie podobieństwo? Myślenie... Podejmowanie decyzji sampl eid AFFX- 3_at 3322_i _at 4969_s _at... 22095_ s_at 22379 _at GSM1 4.010 12.434 32.443... 1.665 12.44 3 GSM2 5.314 43.765 5.763... 3.567 7.645 2 GSM3 3.275 17.567 23.842... 0.657 12.46 2 GSM4 2.112 8.432 54.849... 87.656 45.32 1 Diagno sis........................ GSM14 8.453 10.087 8.678... 2.986 9.656 3 i formowanie pojęć Podobieństwo Rozwiązywanie problemów Uczenie się

Zastosowania modeli podobieństwa Przykłady: klasyfikacja i regresja, segmentacja danych, planowanie, rozwiązywanie problemów, wykrywanie nietypowych obiektów, wizualizacja i streszczanie danych. Podstawowa zasada: Podobne obiekty powinny być traktowane podobnie (np. należeć do tej samej klasy decyzyjnej, czy grupy).

Czym tak naprawdę jest podobieństwo? Trudności ze ścisłą definicją podobieństwa: relacja, czy funkcja? obiektywne, czy subiektywne? bezkontekstowe, czy kontekstowe? globalne, czy lokalne? Czynniki, które wpływają na kontekst to: cel lub zadanie, któremu służy ewaluacja podobieństwa, wiedza o innych znanych obiektach.

Czym tak naprawdę jest podobieństwo? Trudności ze ścisłą definicją podobieństwa: relacja, czy funkcja? obiektywne, czy subiektywne? bezkontekstowe, czy kontekstowe? globalne, czy lokalne? Czynniki, które wpływają na kontekst to: cel lub zadanie, któremu służy ewaluacja podobieństwa, wiedza o innych znanych obiektach.

Idea Tversky-ego Model kontrastu cech: obiekty postrzegane są jako zbiory cech jakościowych, cechy są zazwyczaj na wyższym poziomie abstrakcji niż dane sensoryczne, np. dwa samochody są podobne ponieważ są małe i szybkie, ważne są zarówno wspólne jak i wyróżniające cechy obiektów, S(a, b) = θf (A B) αf (A \ B) βf (B \ A), gdzie θ, α, β 0

Idea Tversky-ego Model kontrastu cech: obiekty postrzegane są jako zbiory cech jakościowych, cechy są zazwyczaj na wyższym poziomie abstrakcji niż dane sensoryczne, np. dwa samochody są podobne ponieważ są małe i szybkie, ważne są zarówno wspólne jak i wyróżniające cechy obiektów, S(a, b) = θf (A B) αf (A \ B) βf (B \ A), gdzie θ, α, β 0 Model Tversky-ego trudno jest zaaplikować do rzeczywistych danych: jak definiować wysokopoziomowe cechy? jak wybrać te istotne w danym kontekście? Propozycja: można wykorzystać teorię zbiorów przybliżonych!

Założenia proponowanego modelu podobieństwa: Uczenie się podobieństwa w języku zbiorów przybliżonych: wybór istotnych aspektów podobieństwa wysokopoziomowe cechy agregacja argumentów za i przeciw podobieństwu funkcja podobieństwa wybór przestrzeni aproksymacji lewe strony reguł aproksymacja pojęć bycia podobnym i niepodobnym do obiektu funkcja przynależności do aproksymacji pojęcia Wysokopoziomowe cechy można traktować jak argumenty za lub przeciw podobieństwu obiektów! Aproksymacja podobieństwa do obiektu to zbiór obiektów, do który pasują argumenty za podobieństwem a nie pasują argumety przeciwko.

Konstrukcja proponowanego modelu podobieństwa Dyskretyzacja i generowanie reduktów decyzyjnych osobno dla każdej klasy Generowanie reguł decyzyjnych i wzbraniających Argumenty za Podobieństwem dla Klasy 1 Aproksymacja pojęć podobieństwa i niepodobieństwa do poszczególnych obiektów System Decyzyjny Redukt dla Klasy 1 Decision Decision Reduct Decision Reduct Decision Reduct Reduct Argumenty przeciw Podobieństwu dla Klasy 1 Regułowy Model Podobieństwa

Opis formalny modelu Aproksymacja podobieństwa i niepodobieństwa: F + (i) oraz F (i) zbiory cech dla i-tej klasy decyzyjnej, wyznaczone przez reguły decyzyjne i wzbraniające; F + (i) = { ( ) f : f (d = i) RuleSet(DR i ) } ; F (i) = { ( ) f : f (d i) RuleSet(DR i ) } ; SIM (i) (u) = [u] f DIS(i) 0 (u) = U\[u] f DIS(i) 1 (u) = [u] f f F + f (u)=1 (i) f F f (u)=0 (i) f F f (u)=1 (i) Przynależność do SIM d(u1 )(u 1 ): Przynależność do DIS 0 d(u 1 ) (u 1): µ(u 2, SIM i (u 1 ))= SIM i (u 1 ) SIM i (u 2 ) SIM i (u 1 ) ψ(u 2, DIS 0 i (u 1))= DIS0 i (u 1) DIS 1 i (u 2) DIS 0 i (u 1)

Dlaczego dane wielowymiarowe? Rysunek: Ilustracja przekleństwa wielu wymiarów (z książki Elements of Statistical Learning: Data Mining, Inference and Prediction). typowe metody nie radzą sobie z problemem niewielu obiektów o dużej liczbie cech, duża złożoność obliczeniowa algorytmów uczenia się podobieństwa z danych wielowymiarowych.

Rozszerzenia modelu dla danych wielowymiarowych Główna idea: W przypadku danych wielowymiarowych konieczne jest rozpatrywanie wielu lokalnych modeli podobieństwa, które można interpretować jako autonomicznych agentów z własnymi preferencjami i doświadczeniem. Dwa typy wielowymiarowych danych Dane mikromacierzowe: uczenie z nadzorem redukty dynamiczne reguły decyzyjne i wzbraniające Dane tekstowe: uczenie bez nadzoru biredukty informacyjne pojęcia z ontologii dziedzinowej

Opis eksperymentów na danych mikromacierzowych Microarray data: few-objects-many-attributes problem 40k genes (attributes) Opis danych sampleid AFFX-3_at 3322_i_at 4969_s_at... 22095_s_at 22379_at Diagnosis GSM1.CEL 4.010 12.434 32.443... 1.665 12.434 3 GSM2.CEL 5.314 43.765 5.763... 3.567 7.645 2 GSM3.CEL 3.275 17.567 23.842... 0.657 12.446 2 GSM4.CEL 2.112 8.432 54.849... 87.656 45.324 1........................ GSM149. CEL 11 zbiorów mikromacierzy, liczba obiektów: 124 284, liczba atrybutów: 22k 61k, zbiory pochodzą z repozytorium ArrayExpress. 8.453 10.087 8.678... 2.986 9.656 3 Opis eksperymentu wielokrotnie powtarzana weryfikacja krzyżowa, miary jakości: ACC i BAC, porównywane klasyfikatory: k-nn, RF, SVM.

Wyniki porównania z wybranymi modelami podobieństwa Balanced classification accuracy (%) 40 50 60 70 80 90 100 1 NN + cortest 1 NN + t test 1 NN + relief RBS DRBS ALL BTu GPe HFF HGl SSh

Wyniki porównania z wybranymi metodami klasyfikacji Balanced classification accuracy (%) 30 40 50 60 70 80 90 100 RF RF_b. ALL ATC BTu BLy GPe HFF HeC HGl OTu SSh SPs SVM DRBS

Opis eksperymentów na danych tekstowych Opis danych zbior 1000 artykułów naukowych z repozytorium PubMed Central, ontologia dziedzinowa MeSH ( 26k pojęć), metoda automatycznego etykietowania: ESA, zbiory etykiet nadanych przez ekspertów. Ewaluacja wyników Opis eksperymentu grupowanie hierarchiczne artykułów, stosowane algorytmy: agnes i diana, porównywane modele: dwa oparte o miarę kosinusową, zewnętrzna miara oceny jakości grupowania. Miara zgodności etykiet nadanych przez ekspertów wewnątrz grup.

Wyniki ewaluacji modelu Average semantic homogenity 0.05 0.00 0.05 0.10 0.15 0.20 agnes RBS bireduct diana RBS bireduct agnes RBS single diana RBS single agnes Cosine single diana Cosine single agnes Cosine ensemble diana Cosine ensemble random clustering Average semantic homogenity 0.0 0.2 0.4 0.6 0.8 1.0 agnes RBS bireduct diana RBS bireduct agnes RBS single diana RBS single agnes Cosine single diana Cosine single agnes Cosine ens. diana Cosine ens. random clustering 0 50 100 150 Number of clusters 0 200 400 600 800 1000 Number of clusters

Podsumowanie Co się udało? dokonano interpretacji problemu uczenia się podobieństwa z punktu widzenia teorii zbiorów przybliżonych, zaproponowano intuicyjny i elastyczny model uczenia się podobieństwa z danych, opracowano efektywne algorytmy działające dla wielowymiarowych zbiorów danych, przeprowadzono dokładną ewaluację zaproponowanego podejścia. Kierunki na przyszłość: lepsze wykorzystanie wiedzy dziedzinowej, optymalizacja wydajności obliczeniowej dla dużych zbiorów danych, stworzenie wysokopoziomowego środowiska do eksperymentów.

Dziękuję za uwagę!