Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych. Wykład 3

Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych Wykład 3

W internecie Teoria zbiorów przybliżonych zaproponowany w 1982 r. przez prof. Zdzisława Pawlaka formalizm matematyczny, stanowiący rozwinięcie klasycznej teorii zbiorów. Zbiór przybliżony (ang. rough set) to obiekt matematyczny zbudowany w oparciu o logikę trójwartościową. W swym pierwotnym ujęciu zbiór przybliżony to para klasycznych zbiorów: przybliżenie dolne i przybliżenie górne. Istnieje również odmiana zbioru przybliżonego, definiowana przez parę przybliżeo będących zbiorami rozmytymi (ang. fuzzy set). Dany element może należed do obydwu przybliżeo, do żadnego lub tylko do przybliżenia górnego. Ten ostatni przypadek jest o tyle ciekawy, że pozwala na modelowanie niepewności.

Wstęp Teoria zbiorów przybliżonych opracowana przez Zdzisława Pawlaka, dostarcza narzędzi matematycznych do formalnego opisu wiedzy, w tym wiedzy niepełnej i niedokładnej. Wykorzystywana jest skutecznie m.in. w eksploracji danych i odkrywaniu wiedzy, złożonych zadaniach klasyfikacji oraz w komputerowych systemach wspomagania decyzji. Dziedziny, w których teoria ta została zastosowana to nie tylko medycyna czy biznes (bankowośd, badania rynku) ale również rozpoznawanie mowy, sieci neuronowe czy ogólnie mówiąc sztuczna inteligencja.

O metodzie słów kilka Metodologia zbiorów przybliżonych zyskała sobie dużą popularnośd. Świadectwem tego może byd chociażby fakt, że jest ona przedmiotem badao wielu naukowców na całym świecie, co udokumentowane zostało ok dwoma tysiącami publikacji. Tematyka ta cieszy się ogromnym zainteresowaniem badaczy, którzy czynnie uczestniczą w prowadzonych w tej dziedzinie cyklicznie międzynarodowych konferencjach i seminariach. Wśród krajów szczególnie zaangażowanych wyróżnid można prócz Polski, m.in. USA, Kanadę, Japonię, Francję czy Norwegię. W Polsce tematyka ta znalazła się w centrum badao naukowych prowadzonych w wielu ośrodkach, również na Uniwersytecie Śląskim w Zakładzie Systemów Informatycznych, szczególnie w zakresie zastosowao medycznych.

System informacyjny

System informacyjny a system decyzyjny

Cel: wygenerowanie reguł

Tablica decyzyjna

Relacja nierozróżnialności

IND(C) = {{1},{2,5},{3},{4},{6}} Ale IND({gm})={{1,4,6},{2,5},{3}}

Klasy abstrakcji

Klasy abstrakcji - przykład

Aproksymacja zbiorów

Zbiory przybliżone a problem z jednoznacznością klasyfikacj obiektów

Pojęcia nieostre a zbiór dokładny oraz zbiór przybliżony

Dolne przybliżenie BX = {Y IND(B): Y X} Czyli będą to takie obiekty należące do IND(B), które w całości zawierają się zbiorze X. O obiektach należących do dolnego przybliżenia mówimy, że NA PEWNO należą do danego pojęcia (danej klasy decyzyjnej).

BX = {Y IND(B): Y X} IND(B) = {{1},{2,5},{3},{4},{6}} X = X tak + X nie Które z Y-ków należących do IND(B) w całości zawierają się w X? X tak = {1,2,3,4} X nie = {5,6} BX Tak = {1,3,4} BX Nie = {6} Obiekty {1,3,4} na pewno mają grypę! Obiekt {6} na pewno nie ma grypy!

Górne przybliżenie BX = {Y IND(B): Y X } Czyli będą to takie obiekty należące do IND(B), które wystarczy, że mają częśd wspólną ze zbiorem X. O obiektach należących do górnego przybliżenia mówimy, że BYD MOŻE należą do danego pojęcia (danej klasy decyzyjnej).

BX = {Y IND(B): Y X } IND(B) = {{1},{2,5},{3},{4},{6}} X = X tak + X nie Które z Y-ków należących do IND(B) mają częśd wspólną z X? X tak = {1,2,3,4} X nie = {5,6} BX Tak = {1,2,3,4,5} BX Nie = {2,5,6} Obiekty {1,2,3,4,5} byd może mają grypę! Obiekty {2,5,6} byd może nie ma grypy!

Zbiór dokładny a zbiór przybliżony

Interpretacja

Tablice decyzyjne deterministyczne i niedeterministyczne Każdy obiekt tablicy decyzyjnej TD może zostać zapisany w postaci zdania warunkowego (postaci: jeżeli warunki to decyzja) i byd traktowany jako reguła decyzyjna.

1. jeżeli (g=nie) i (m=tak) i (t=wysoka) to (c=tak) 2. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=tak) 3. jeżeli (g=tak) i (m=tak) i (t=bardzo wysoka) to (c=tak) 4. jeżeli (g=nie) i (m=tak) i (t=bardzo wysoka) to (c=tak) 5. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=nie) 6. jeżeli (g=nie) i (m=tak) i (t=normalna) to (c=nie)

reguły deterministyczne Reguła w tablicy decyzyjnej TD jest deterministyczna, gdy równość atrybutów warunkowych implikuje równośd atrybutów decyzyjnych. Fakt ten możemy wyrazid przy pomocy następującej zależności dla obiektów tablicy decyzyjnej:

reguły niedeterministyczne Reguła w tablicy decyzyjnej TD jest niedeterministyczna, gdy równość atrybutów warunkowych nie implikuje równości atrybutów decyzyjnych, co można wyrazid następującą zależnością dla obiektów tablicy decyzyjnej:

Niespójnośd

Metody usuwania niespójności

1 metoda

Metoda jakościowa

IND(B) = {{1}{2,5}{3}{4}{6}} X tak = {1,2,3,4} X nie = {5,6} BX Tak = {1,3,4} BX Nie = {6} Tak =3/6 Nie =1/6 Metoda mówi, aby usunąd ten obiekt, dla którego uzyskano mniejszą dokładnośd dolnego, bądź górnego przybliżenia. Usuniemy niespójnośd ze zbioru NIE

Po usunięciu

Metoda ilościowa

Metoda uogólnionego atrybutu decyzyjnego

Redukcja atrybutów pojęcie jądra i reduktów

Inny przykład

Metoda z definicji