Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych Wykład 3
W internecie Teoria zbiorów przybliżonych zaproponowany w 1982 r. przez prof. Zdzisława Pawlaka formalizm matematyczny, stanowiący rozwinięcie klasycznej teorii zbiorów. Zbiór przybliżony (ang. rough set) to obiekt matematyczny zbudowany w oparciu o logikę trójwartościową. W swym pierwotnym ujęciu zbiór przybliżony to para klasycznych zbiorów: przybliżenie dolne i przybliżenie górne. Istnieje również odmiana zbioru przybliżonego, definiowana przez parę przybliżeo będących zbiorami rozmytymi (ang. fuzzy set). Dany element może należed do obydwu przybliżeo, do żadnego lub tylko do przybliżenia górnego. Ten ostatni przypadek jest o tyle ciekawy, że pozwala na modelowanie niepewności.
Wstęp Teoria zbiorów przybliżonych opracowana przez Zdzisława Pawlaka, dostarcza narzędzi matematycznych do formalnego opisu wiedzy, w tym wiedzy niepełnej i niedokładnej. Wykorzystywana jest skutecznie m.in. w eksploracji danych i odkrywaniu wiedzy, złożonych zadaniach klasyfikacji oraz w komputerowych systemach wspomagania decyzji. Dziedziny, w których teoria ta została zastosowana to nie tylko medycyna czy biznes (bankowośd, badania rynku) ale również rozpoznawanie mowy, sieci neuronowe czy ogólnie mówiąc sztuczna inteligencja.
O metodzie słów kilka Metodologia zbiorów przybliżonych zyskała sobie dużą popularnośd. Świadectwem tego może byd chociażby fakt, że jest ona przedmiotem badao wielu naukowców na całym świecie, co udokumentowane zostało ok dwoma tysiącami publikacji. Tematyka ta cieszy się ogromnym zainteresowaniem badaczy, którzy czynnie uczestniczą w prowadzonych w tej dziedzinie cyklicznie międzynarodowych konferencjach i seminariach. Wśród krajów szczególnie zaangażowanych wyróżnid można prócz Polski, m.in. USA, Kanadę, Japonię, Francję czy Norwegię. W Polsce tematyka ta znalazła się w centrum badao naukowych prowadzonych w wielu ośrodkach, również na Uniwersytecie Śląskim w Zakładzie Systemów Informatycznych, szczególnie w zakresie zastosowao medycznych.
System informacyjny
System informacyjny a system decyzyjny
Cel: wygenerowanie reguł
Tablica decyzyjna
Relacja nierozróżnialności
IND(C) = {{1},{2,5},{3},{4},{6}} Ale IND({gm})={{1,4,6},{2,5},{3}}
Klasy abstrakcji
Klasy abstrakcji - przykład
Aproksymacja zbiorów
Zbiory przybliżone a problem z jednoznacznością klasyfikacj obiektów
Pojęcia nieostre a zbiór dokładny oraz zbiór przybliżony
Dolne przybliżenie BX = {Y IND(B): Y X} Czyli będą to takie obiekty należące do IND(B), które w całości zawierają się zbiorze X. O obiektach należących do dolnego przybliżenia mówimy, że NA PEWNO należą do danego pojęcia (danej klasy decyzyjnej).
BX = {Y IND(B): Y X} IND(B) = {{1},{2,5},{3},{4},{6}} X = X tak + X nie Które z Y-ków należących do IND(B) w całości zawierają się w X? X tak = {1,2,3,4} X nie = {5,6} BX Tak = {1,3,4} BX Nie = {6} Obiekty {1,3,4} na pewno mają grypę! Obiekt {6} na pewno nie ma grypy!
Górne przybliżenie BX = {Y IND(B): Y X } Czyli będą to takie obiekty należące do IND(B), które wystarczy, że mają częśd wspólną ze zbiorem X. O obiektach należących do górnego przybliżenia mówimy, że BYD MOŻE należą do danego pojęcia (danej klasy decyzyjnej).
BX = {Y IND(B): Y X } IND(B) = {{1},{2,5},{3},{4},{6}} X = X tak + X nie Które z Y-ków należących do IND(B) mają częśd wspólną z X? X tak = {1,2,3,4} X nie = {5,6} BX Tak = {1,2,3,4,5} BX Nie = {2,5,6} Obiekty {1,2,3,4,5} byd może mają grypę! Obiekty {2,5,6} byd może nie ma grypy!
Zbiór dokładny a zbiór przybliżony
Interpretacja
Tablice decyzyjne deterministyczne i niedeterministyczne Każdy obiekt tablicy decyzyjnej TD może zostać zapisany w postaci zdania warunkowego (postaci: jeżeli warunki to decyzja) i byd traktowany jako reguła decyzyjna.
1. jeżeli (g=nie) i (m=tak) i (t=wysoka) to (c=tak) 2. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=tak) 3. jeżeli (g=tak) i (m=tak) i (t=bardzo wysoka) to (c=tak) 4. jeżeli (g=nie) i (m=tak) i (t=bardzo wysoka) to (c=tak) 5. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=nie) 6. jeżeli (g=nie) i (m=tak) i (t=normalna) to (c=nie)
reguły deterministyczne Reguła w tablicy decyzyjnej TD jest deterministyczna, gdy równość atrybutów warunkowych implikuje równośd atrybutów decyzyjnych. Fakt ten możemy wyrazid przy pomocy następującej zależności dla obiektów tablicy decyzyjnej:
reguły niedeterministyczne Reguła w tablicy decyzyjnej TD jest niedeterministyczna, gdy równość atrybutów warunkowych nie implikuje równości atrybutów decyzyjnych, co można wyrazid następującą zależnością dla obiektów tablicy decyzyjnej:
Niespójnośd
Metody usuwania niespójności
1 metoda
Metoda jakościowa
IND(B) = {{1}{2,5}{3}{4}{6}} X tak = {1,2,3,4} X nie = {5,6} BX Tak = {1,3,4} BX Nie = {6} Tak =3/6 Nie =1/6 Metoda mówi, aby usunąd ten obiekt, dla którego uzyskano mniejszą dokładnośd dolnego, bądź górnego przybliżenia. Usuniemy niespójnośd ze zbioru NIE
IND(B) = {{1}{2,5}{3}{4}{6}} X tak = {1,2,3,4} X nie = {5,6} BX Tak = {1,3,4} BX Nie = {6} Tak =3/6 Nie =1/6 Metoda mówi, aby usunąd ten obiekt, dla którego uzyskano mniejszą dokładnośd dolnego, bądź górnego przybliżenia. Usuniemy niespójnośd ze zbioru NIE
Po usunięciu
Metoda ilościowa
Metoda uogólnionego atrybutu decyzyjnego
Redukcja atrybutów pojęcie jądra i reduktów
Inny przykład
Metoda z definicji