UNIWERSYTET IM. ADAMA MICKIEWICZA W POZNANIU Wdział Matematki i Informatki Miar podobieństwa i zawierania zbiorów rozmtch Similarit and subsethood measures of fuzz sets Patrk Żwica Numer albumu: 329575 Kierunek: matematka PRACA MAGISTERSKA wkonana pod kierunkiem prof. UAM dr hab. Macieja Wgralaka Poznań 2014
Poznań, dnia 11 stcznia 2015 OŚWIADCZENIE Ja, niżej podpisan Patrk Żwica student Wdziału Matematki i Informatki Uniwerstetu im. Adama Mickiewicza w Poznaniu oświadczam, że przedkładaną pracę dplomową pt: Miar podobieństwa i zawierania zbiorów rozmtch napisałem samodzielnie. Oznacza to, że prz pisaniu prac, poza niezbędnmi konsultacjami, nie korzstałem z pomoc innch osób, a w szczególności nie zlecałem opracowania rozpraw lub jej części innm osobom, ani nie odpiswałem tej rozpraw lub jej części od innch osób. Oświadczam również, że egzemplarz prac dplomowej w wersji drukowanej jest całkowicie zgodn z egzemplarzem prac dplomowej w wersji elektronicznej. Jednocześnie przjmuję do wiadomości, że przpisanie sobie, w prac dplomowej, autorstwa istotnego fragmentu lub innch elementów cudzego utworu lub ustalenia naukowego stanowi podstawę stwierdzenia nieważności postępowania w sprawie nadania ttułu zawodowego. TAK wrażam zgodę na udostępnianie mojej prac w cztelni Archiwum UAM TAK wrażam zgodę na udostępnianie mojej prac w zakresie koniecznm do ochron mojego prawa do autorstwa lub praw osób trzecich
Streszczenie Praca poświęcona jest zagadnieniu zawierania i podobieństwa zbiorów rozmtch. Dokonano przeglądu metod i modeli, zarówno w przpadku klascznej teroii mnogości, jak i teorii zbiorów rozmtch. Pokazano niektóre relacje pomiędz miarami uzskanmi różnmi metodami. Zaprezentowano autorską metodę wizualizacji wraz z jej rezultatami dla wbranch miar zawierania zbiorów rozmtch. Słowa kluczowe zbior rozmte, zawieranie, podobieństwo, miara podobieństwa, miara zawierania Summar This work is devoted to the issue of inclusion and similarit of fuzz sets. An overview of methods and models were presented, both in the case of classical set theor and fuzz set theor. The relationships between some measures obtained b various methods were shown. An original method for the visualization and its results for selected subsethood measures of fuzz sets were presented. Kewords fuzz sets, inclusion, similarit, subsethood measure, inclusion grade, inclusion measure, similarit measure iv
Spis treści Streszczenie Wstęp iv vii 1. Podejście klasczne 9 1.1. Aspekt pschologiczne podobieństwa obiektów.......... 9 1.2. Przkład................................. 10 1.2.1. Taksonomia............................ 11 1.2.2. Pschologia............................ 12 2. Teoria zbiorów rozmtch 16 2.1. Element teorii zbiorów rozmtch.................. 16 2.1.1. Definicja zbioru rozmtego.................... 16 2.1.2. Operacje na zbiorach rozmtch.................. 19 2.1.3. Moc zbiorów rozmtch...................... 22 3. Rozmte miar zawierania i podobieństwa 23 3.1. Podejście oparte na teorii mnogości.................. 23 3.1.1. Miar zawierania.......................... 24 3.1.2. Miar podobieństwa........................ 26 3.1.2.1. Własności........................ 29 3.2. Podejście oparte na bliskości...................... 30 3.2.1. Miar podobieństwa........................ 31 3.2.1.1. Uogólnione metrki................... 31 3.2.1.2. Odległość kątowa.................... 32 v
3.2.1.3. Odległość przedziałowa................. 33 3.2.1.4. Wektor parametrów.................. 35 3.3. Podejście oparte na logice....................... 36 3.3.1. Miar zawierania.......................... 36 3.3.2. Miar podobieństwa........................ 37 4. Wizualizacja wbranch miar zawierania 39 4.1. Konstrukcja wkresów.......................... 39 4.2. Wizualizacje............................... 40 5. Podsumowanie 51 Literatura 53 vi
Wstęp We wszstkich dziedzinach nauki od dawna istniała potrzeba porównania pewnch obiektów. Podczas, gd niektóre gałęzie nauki starał się odpowiedzieć na ptanie o naturę podobieństwa, inne potrzebował preczjnej, formalnej jego definicji. Porównanie dwóch obiektów lub zdarzeń może bć postrzegane jako próba określenia relacji pomiędz nimi. Najważniejszmi i najczęściej wkorzstwanmi relacjami pomiędz obiektami są podobieństwo, różność i zawieranie. W literaturze najwięcej uwagi poświęcone jest zagadnieniu podobieństwa obiektów. W ostatnich dziesięcioleciach teoria zbiorów rozmtch znalazła zastosowanie w wielu obszarach nauki jak i żcia codziennego. Potrzeba porównwania zbiorów rozmtch pojawiła się nautralnie już na samm początku istnienia teorii. Opracowano wiele metod często bazującch na tch wkorzstwanch w przpadku klascznch zbiorów. Intenswn rozwój logiki rozmtej oraz jej zastosowań często wmaga określenia nowch sposobów porównwania obiektów. Zagadnienie to jest szczególnie istotne w komputerowm wspomaganiu deczji, klasfikacji cz przetwarzaniu jęzka naturalnego. Pomimo, że zagadnienie porównwania obiektów jest kluczowe dla wielu zastosowań tej teorii, wciąż nie udało się jednoznacznie sformalizować podstawowch pojeć takich jak podobieństwo cz zawieranie. Podczas, gd część badacz zajmująch się logiką rozmtą dąż do preczjnego zdefiniowania pojęć, inni kwestionują to podejście tłumacząc, że narzucanie sztwnch ram ogranicza możliwość zastosowań praktcznch. Klasfikacja miar podobieństwa, jak również terminologia i część oznaczeń została zaczerpnięta z książki autorstwa Valerie Cross oraz Thomasa Sudkampa [10]. W miarę możliwości klasfikacje wzbogacono o wniki zawarte w nowch pracach. Pierwsz rozdział prac zawiera przegląd metod służącch do mierzenia podobieństwa korzstającch z klascznej teorii mnogości. Przedstawiono również dskusję nad pschologicznmi aspektami podobieństwa. Rozdział drugi wprowadza podstawowe pojęcia teorii zbiorów rozmtch. Szczególnie istotne jest wprowadzenie ogólnch definicji operacji przekroju i sum zależnch od t-norm i t-konorm. Trzeci rozdział zawiera przegląd miar zawierania i podobieństwa. Został on podzielon na trz podrozdział, każd poświęcon jest miarom skonstruowanm z vii
wkorzstaniem innch metod. Rozdział czwart zawiera opis autorskiej metod wizualizacji miar zawierania zbiorów rozmtch wraz z wkresami wbranch miar. viii
Rozdział 1 Podejście klasczne 1.1. Aspekt pschologiczne podobieństwa obiektów Podobieństwo jest najprawdopodobniej najczęściej użwaną i najtrudniejszą do preczjnego określenia miarą zgodności. Ten rozdział przedstawia matematczne techniki określania podobieństwa bazujące na klascznej teorii mnogości. Analiza podobieństwa dwóch obiektów jest podstawowm narzędziem w biologii, taksonomii, pschologi i stanowi podstawę do rozumowania przez analogię. Problem przpisania unikalnego znaczenia pojęciu podobieństwa, został podjęt przez pschologa Roberta Gregsona [20]. Pojęcie podobieństwa nie jest tak proste jak to się wdaje, gdż składa się na nie kilka różnch procesów i operacji [44]. Zazwczaj przjmuje się, że określenie różnic lub odmienności pomiędz obiektami jest równoważne określeniu ich podobieństwa [34, 39]. Jeśli podobieństwo dwóch obiektów A i B oznaczm przez Sim(A, B), to ich odmienność równa jest 1 Sim(A, B). Niektóre badania wkazał jednak, że człowiek inaczej postrzega każde z tch pojęć. Podczas określania podobieństwa, większ nacisk kładzion jest na cech wspólne obiektów, podczas gd do określania odmienności wkorzstwane są głównie różnice pomiędz obiektami [56]. W teorii zbiorów rozmtch najczęściej przjmuje się założenie o odwrotności podobieństwa i odmienności [1, 41, 62]. Czasem dla zaznaczenia rozróżnialności tch pojęć wartość 1 Sim(A, B) nazwana jest niepodobieństwem [12]. Powszechnie uważa się, że podobieństwo jest smetrczne. W jęzku miar podobieństwa oznacza to, że Sim(A, B) = Sim(B, A). Formalne badania wkazał, że podobieństwo nie zawsze może bć traktowane jako relacja smetrczna [55]. Ma to miejsce w stuacji, gd jeden z obiektów staje się obiektem odniesienia. Jawne określenie odniesienia może nastąpić przkładowo poprzez sformułowanie zadania ( Proszę porównać obiekt A z obiektem B ). Odniesie- 9
nie może zostać również określone niejawnie. W takiej stuacji najczęściej obiektem odniesienia staje się obiekt bardziej poprawn, lepsz albo o bardziej złożonej strukturze. Przkładowo, osoba ma za zadanie porównać jakość dwóch obrazów przedstawiającch tę samą scenę. Obraz o lepszej jakości staje się implicite obiektem odniesienia. Z tego powodu, założenie smetrii zostało osłabione w miarach wkorzstwanch w niektórch dziedzinach takich jak pschologia bodźców. W badaniach nad podobieństwem konieczne jest również rozróżnienie pomiędz prostm podobieństwem opartm na wielowmiarowej pojednczej cesze, od podobieństwa będącego pochodną relacji poznawczch pomiędz wieloma różnmi cechami [53]. Przkładem pojednczej wielowmiarowej cech obiektu jest kolor, którego składowmi są jasność, cz saturacja. Z drugiej stron, kształt geometrczn ma wiele różnch cech takich jak tp figur, rozmiar cz orientacja. W pierwszm przpadku podobieństwo zachowuje się podobnie jak miara odległości w przestrzeniach Euklidesowch. Jednak w przpadku wielu różnch cech, podobieństwo jest bardziej skomplikowane i zależ nie tlko od samch obiektów, ale również od kontekstu podejmowania deczji. Jak wkazał badania pschologiczne podobieństwo może bć zależne od kontekstu w jakim jest ono oceniane [20, 53]. W określeniu Sim(A, B) biorą udział nie tlko cech obiektów A i B, ale również cała charakterstka otoczenia. Choć wdaje się to niepoprawne, na oszacowanie podobieństwa dwóch obiektów wpłw mają również cech innch badanch obiektów. Podczas oceniania podobieństwa wielu obiektów przez człowieka na istotność poszczególnch cech obiektu wpłwa również zmienność ich wartości. Charakter tego wpłwu może bć jednak różn w zależności od tego jaki jest cel porównania. W problemach klasfikacji obiektów wkazano, że rzadkie wartości cech są bardziej istotne [51], podczas gd na potrzeb taksonomii korzstniej jest przjąć przeciwne założenie [18]. 1.2. Przkład Oczwiście powżej wspomniane problem nie muszą wstępować we wszstkich obszarach badawczch, w którch zgodność pomiędz obiektami wkorzstwana jest do analiz informacji i wspomagania podejmowania deczji. W tej sekcji przedstawion zostanie problem porównwania obiektów w dziedzinie taksonomii oraz pschologii. Wszstkie omówione metod oparte są na klascznej teorii mnogości. Jak się później okaże, będą one często stanowić punkt wjściow do wielu uogólnień pozwalającch na mierzenie podobieństwa zbiorów rozmtch. 10
1.2.1. Taksonomia Taksonomia, poddscplina sstematki biologicznej, to nauka o zasadach i metodach klasfikowania, katalogowania oraz opiswania organizmów żwch w oparciu o badania ich różnorodności, pochodzenia i pokrewieństwa. Organizm żwe (obiekt w taksonomii) opisane są poprzez posiadanie lub brak wbranch cech. Uniwersum U stanowi zbiór wszstkich atrbutów wkorzstwanch w klasfikacji taksonomicznej. Obiekt jest charakterzowan jest przez zbiór atrbutów któr posiada. Dla uproszczenia będziem zakładać, że obiekt jest zdefiniowan przez wartości swoich atrbutów. Dzięki temu porównanie dwóch obiektów może bć oparte na posiadaniu wspólnch atrbutów. Niech X i Y będą dwoma obiektami. Dla każdego atrbutu może zachodzić jeden z czterech przpadków: wstępuje w obu obiektach, wstępuje w X ale nie w Y, wstępuje w Y ale nie w X oraz nie wstępuje w obu. Liczba atrbutów dla każdego przpadku to odpowiednio: X Y, X Y, X Y oraz X Y. Wstępowanie wspólnch atrbutów stanowiło podstawę do zaproponowania przez Jaccarda [25] następującej metod określania podobieństwa dwóch obiektów Sim XY = X Y X Y + X Y + X Y = X Y X Y. Indeks Jaccarda jest również często nazwan współcznnikiem podobieństwa lub indeksem współwstępowania [49]. Indeks Jaccarda nie uwzględnia przpadku braku atrbutu w obu obiektach. Jednakże czasem badacze sstematki biologicznej, mogą uważać dwa organizm jako podobne ponieważ nie posiadają one pewnego atrbutu. Prost współcznnik dopasowania rozwiązuje ten problem [50] ˆ Sim XY = X Y + X Y X Y + X Y = X Y + X Y U. (1.2.1) Prost współcznnik dopasowania został rozszerzon tak, ab mógł uwzględniać nie tlko atrbut binarne lecz również te o dowolnej liczbie stanów pośrednich [52]. W obu przpadkach podobieństwo wrażone jest prz pomoc wartości liczbowej z przedziału [0, 1], gdzie 1 oznacza najwższ stopień dopasowania. Zasadnicza różnica pomiędz Sim XY oraz ˆ Sim XY jest taka, że Sim XY bazuje tlko na liczbie wstępującch atrbutów. Pominięcie atrbutów niewstępującch w obu obiektach pozwala zredukować rozmiar uniwersum do U X Y. Podobieństwo mierzone za pomocą Sim ˆ XY oparte jest zarówno na poztwnch jak i negatwnch dopasowaniach wkorzstując w ten sposób wszstkie dostępne atrbut, którch dobór w tm przpadku jest krtczn. Zbt wielki zbiór atrbutów może prowadzić do stuacji, w której dwa obiekt zostaną uznane za podobne tlko dlatego, że oba nie posiadają dużej ilości cech. Obie miar podobieństwa są użwane w 11
taksonomii. Przkładowo, negatwne dopasowania nie są brane pod uwagę w bakteriologii [49]. Zupełnie inne podejście wkorzstwane jest w numercznej taksonomii, gdzie obiekt reprezentowan jest przez wektor wartości atrbutów wrażanch jako liczb rzeczwiste [7]. Obiekt X definiowan przez n atrbutów jest reprezentowan jako wektor [ 1,, n ], gdzie i jest wartością i-tego atrbutu. Miara podobieństwa pomiędz dwoma obiektami X = [ 1,, n ] i Y = [ 1,, n ] wrażona jest jako cosinus kąta θ pomiędz dwoma wektorami cos θ = n i=1 i i n i=1 2 i n i=1 2 i. Taka miara podobieństwa wkorzstuje tlko kierunek wektorów, ignorując ich długość. Przemnażanie wektorów X i Y przez dowolne stałe nie zmienia ich podobieństwa. Odległość Hamminga d MCD (X, Y ) = 1 n i i, została wkorzstana jako miara podobieństwa taksonomicznego dla obiektów reprezentowanch przez wektor liczb rzeczwistch [8]. Ciekawą modfikacją tej metrki jest metrka Canberra [35] d CAN (X, Y ) = i i i + i, która dokonuje przeskalowania bezwzględnej różnic przez cznnik zależn od porównwanch wartości. Oczwiście w przpadku miar podobieństwa opartch na metrkach, wartość 0 oznacza maksmalne podobieństwo, które maleje wraz ze wzrostem odległości pomiędz obiektami. Przeprowadzono liczne badania porównawcze na temat skuteczności różnch podejść do określenia miar podobieństwa na potrzeb klasfikacji w taksonomii. Pewne zalecenia dotczące wboru odpowiedniej miar podobieństwa w taksonomii został podane na podstawie wcześniejszch doświadczeń, ale nie ma ogólnie przjętch norm [49]. 1.2.2. Pschologia Pojęcie podobieństwa jest bardzo istotne w pschologii. Większość teorii pschologicznch odwołuje się do niego bezpośrednio lub pośrednio, tm samm zależ na jego definicji [2]. Porównwanie obiektów zawsze następuje wobec pewnch ustalonch krteriów. Zasadniczo można je podzielić na dwa tp, obiekt mogą bć porównwane pod kątem posiadania/niepodsiadania pewnch wspólnch cech 12
(atrbutów) lub pod kątem swojej odległości w pewnej ustalonej wielowmiarowej przestrzeni. W literaturze pschologicznej modele oparte na pierwszm podejściu określa się mianem opartch na treści, natomiast drugim na odległości [20]. Spośród modeli opartch na treści, szeroką grupę stanowią teoriomnogościowe miar, które w większości mogą zostać uogólnione do następującej postaci [55] Sim α,β (X, Y ) = f(x Y ) f(x Y ) + α f(x Y ) + β f(y X). (1.2.2) Wzór ten stanowi parametrzację indeksu Jaccarda, gdzie X Y = X Y oraz Y X = X Y. f może bć dowolną funkcją spełniającą warunek addtwności na rozłącznch zbiorach f(x Y ) = f(x) + f(y ), jeżeli X Y =. Jeśli α, β 0 to miara podobieństwa jest znormalizowana tak, że 0 Sim α,β (X, Y ) 1. Dobór odpowiednich wartości parametrów α i β zależ od celu badań. Poniższe trz miar są najczęściej stosowane [14, 15, 25]: dla α = β = 1 dla α = β = dla α = 1, β = 0 Sim 1,1 (X, Y ) = f(x Y ) f(x Y ), Sim, (X, Y ) = 2 f(x Y ) f(x) + f(y ), Sim 1,0 (X, Y ) = f(x Y ) f(x). Modele wektorowe bł również badane w kontekście badania podobieństwa obiektów w ekspermentach pschologicznch. Początkowo rozważano jednowmiarow model, w którm obiekt X reprezentowan bł przez wartość m X. Najprostszą miarę podobieństwa można określić w następując sposób Sim(X, Y ) = m X m Y, gdzie m X m Y. Model ten jednak nie wkazwał liniowej zależności względem danch ekspermentalnch [15]. Zaproponowano now model, któr znacznie lepiej odzwierciedlał dane ekspermentalne Sim(X, Y ) = 2 m X m X + m Y. 13
Dalsze prace doprowadził do wprowadzenia dwuwmiarowego modelu podobieństwa, w którm długość wektora modeluje ilość, a kierunek jakość obserwowanego zjawiska [16]. Stopień zawierania jednego pojęcia w drugim może zostać wliczon jako projekcja jednego wektora na drugi Inc(X, Y ) = m X cos θ m Y, gdzie θ jest kątem pomiędz tmi wektorami. Jeśli m X = m Y miara zawierania jest równa cos θ, natomiast, gd cos θ = 1 wektor mają ten sam kierunek i miara zawierania jest równa prostemu ilorazowi wielkości. Miarę podobieństwa można skonstruować z miar zawierania poprzez połączenie stopnia zawierania X w Y oraz Y w X Sim(X, Y ) = m X cos θ + m Y cos θ. m X + m Y Powstało wiele modfikacji modelu wektorowego mającch na celu lepsze odzwierciedlenie danch ekspermentalnch. Wiele z nich oparte bło na zastosowaniu uogólnionch operacji na wektorach. Modele oparte na odległości definiują podobieństwo jako negację odległości obiektów w pewnej przestrzeni. Tradcjnie odległość definiuje się w przestrzeni Euklidesowej, w której odległość dwóch punktów X = ( 1,, n ) i Y = ( 1,, n ) mierzona jest za pomocą metrki Minkowskiego d r (X, Y ) = ( n i i r ) 1 r. i=1 Dla r 1 metrki Minkowskiego są nieujemne, smetrczne, niezmienne ze względu na przesunięcia i spełniają nierówność trójkąta. Tlko gd r = 2 metrka Minkowskiego jest niezmienna ze względu na obrot, dlatego odległość Euklidesowa jest najczęściej wkorzstwana w pschologii [42]. Niektórz badacze kwestionują jednak założenie, że przestrzeń pschologiczna jest Euklidesowa, właśnie głównie z powodu niezmienności ze względu na obrot [2, 23]. Własność ta pozwala stwierdzić, że dan układ odniesienia jest równie dobr jak każd inn. Jako alternatwę zaproponowano metrkę miejską (metrka Minkowskiego dla r = 1), gdzie odległość dwóch punktów jest sumą odległości po wszstkich współrzędnch. Wspomniane wcześniej rozróżnienie na bodźce wielowmiarowe i wielocechowe znajduje swoje odzwierciedlenie w doborze odpowiedniej metrki. Okazuje się, że dla zjawisk o prostej i łatwej do zrozumienia strukturze najbardziej dopasowana jest odległość Euklidesowa, podczas gd wraz ze wzrostem skomplikowania struktur coraz bardziej adekwatne jest modelowanie prz użciu metrki miejskiej [53]. Metrka nieskończoności (metrka Minkowskiego dla r = ) również jest wkorzstwana jako miara niepodobieństwa obiektów [9, 24]. Ogólnie parametr r w 14
Rs. 1.2.1. Ilustracja modelu wektorowego. Źródło [10]. metrkach Minkowskiego może bć interpretowan jako wskaźnik znaczenia różnic w pojednczm wmiarze w stosunku do całkowitej odległości punktów. Inna interpretacja wartości r mówi, że im większa jest interakcja pomiędz poszczególnmi wmiarami tm wartość r powinna bć większa [24]. 15
Rozdział 2 Teoria zbiorów rozmtch Teoria zbiorów rozmtch, ciesząca się obecnie ogromną popularnością, została zapoczątkowana w 1965 roku przez Loftiego Zadeha w artkule pod ttułem Fuzz sets [61]. Dnamiczn rozwój, początkowo niezauważanej teorii, nastąpił dopiero w drugiej połowie lat 70-tch, kied udało się rozwiązać problem sterowania piecem do wtwarzania cementu z wkorzstaniem logiki rozmtej (Mamdani). Kluczowe okazał się również spektakularne sukces w Japonii. Najgłośniejszm z nich bło opracowanie układu sterowania metrem w mieście Sendai. Dzięki zastosowaniu wnioskowania rozmtego, wkorzstano wiedzę doświadczonch motorniczch, która w połączeniu z możliwościami obliczeniowmi komputerów, pozwoliła międz innmi zmniejszć czas opóźnień oraz koszt utrzmania metra. Dalsz rozwój spowodował zastosowanie logiki rozmtej nie tlko w urządzeniach przemsłowch, lecz również codziennego użtku. Jednm z ciekawszch przpadków jest stabilizacja obrazu w kamerach. Problem ten jest bardzo trudn, chociażb ze względu na konieczność odróżnienia zamierzonego ruchu od drgań ręki operatora. Sama teoria również została znacznie rozwinięta, umożliwiając w ten sposób zastosowanie w kolejnch obszarach przemsłu i nauki. 2.1. Element teorii zbiorów rozmtch 2.1.1. Definicja zbioru rozmtego Podstawowm pojęciem opiswanej tu teorii jest zbiór rozmt. W zastosowaniach matematki, najczęściej celem definiowania zbioru jest określenie lub spreczowanie pewnego pojęcia, takiego jak na przkład liczb parzste cz wartości dopuszczalne pewnego procesu. Jako ilustracja opiswanch tu pojęć posłuż zbiór określając pojęcie niewielka względna zmiana, któr mógłb zostać przedstawion w następującej postaci: { R : }. Jest to podzbiór zbioru 16
liczb rzeczwistch, któr w tm przpadku stanowi tak zwane uniwersum (obszar rozważań). W klascznej teorii mnogości, z każdm zbiorem A powiązana jest funkcja charakterstczna χ A : X {0, 1}, która dla dowolnego elementu w uniwersum X przjmuje wartość 1, jeśli należ do zbioru A, oraz 0 w przeciwnm przpadku. Wkres funkcji charakterstcznej, która odpowiada zbiorowi z przkładu przedstawion jest na rsunku 2.1.1. Zastosowanie zbiorów do reprezentacji pojęć (wartości) preczjnch, z jakimi mam do cznienia w matematce, jest naturalne i nie stanowi problemu. Okazuje się jednak, że człowiek rzadko operuje informacją preczjną. Jeśli zaptaćb pasażerów tramwaju, ile czasu trwała podróż, uzskam odpowiedzi: około 10 minut, mniej niż kwadrans, dłużej niż zwkle, a nawet nie wiem. Wszstkie odpowiedzi opisują tę samą wartość rzeczwistego czasu przejazdu. Pomimo tego, że człowiek doskonale radzi sobie z informacją niepreczjną, w wielu przpadkach próba jej wrażenia za pomocą preczjnch zbiorów skazana jest na porażkę. Podstawowm ograniczeniem zbiorów, wkorzstwanch do modelowania pojęć niepreczjnch, jest to, że dla każdego elementu możliwe są tlko dwa stan może on należeć do zbioru lub nie. Obserwacja ta bła podstawą wprowadzenia przez Zadaha pojęcia zbioru nieostrego (rozmtego)[61]. Funkcję charak- 1.4 funkcja charakterstczna 1.2 1 0-1 - 0 1 Rs. 2.1.1. Funkcja charakterstczna zbioru { R : }. 17
terstczną zbioru χ A rozszerzono do funkcji prznależności µ A : µ A : X [0, 1], która przjmuje dowolną wartość pomiędz 0 (całkowite nieprznależenie) oraz 1 (pełne prznależenie). W przpadku przkładowego pojęcia małch zmian względnch odpowiedni zbiór rozmt może zostać przedstawion jak na rsunku 2.1.2. Choć funkcje prznależności mogą bć (i z reguł są), analogicznie jak w przpadku klascznm, utożsamiane z odpowiadającmi im zbiorami rozmtmi, najczęściej przjmuje się jednak inną formalną definicję zbioru rozmtego[26]. Zbiór rozmt A w uniwersum X określa się jako zbiór (klasczn) par uporządkowanch A = {(µ A (), ) : X}, gdzie µ A jest funkcją prznależności zbioru rozmtego A, a µ A () [0, 1] nazwan jest stopniem prznależności elementu do zbioru rozmtego A. Tak zdefiniowan zbiór rozmt jest tożsam z funkcją prznależności, gdż ta w świetle teorii mnogości określona jest jako zbiór par uporządkowanch. W praktce najczęściej wkorzstwane są dwie reprezentacje zbioru rozmtego: za pomocą funkcji prznależności lub w postaci singletonowej. Pierwsza z nich została już omówiona. Druga jest szczególnie przdatna do reprezentacji zbiorów rozmtch, dla którch zbiór supp(a) = { X : µ A () > 0}, nazwan nośnikiem, 1.4 funkcja prznaleznosci 1.2 1 0-1 - 0 1 Rs. 2.1.2. Funkcja prznależności zbioru przkładowego. 18
jest skończon lub przeliczaln. Poniższ zapis odpowiada zbiorowi rozmtemu z rsunku 2.1.3 A = / + / + 1.0 / 0.0 + / + /. Korzstając z tej notacji można przedstawić dowoln zbiór klasczn B jako zbiór rozmt B B = 1.0 / b. b B 2.1.2. Operacje na zbiorach rozmtch W klascznej teorii mnogości podstawowe operacje na zbiorach to: dopełnienie, suma oraz iloczn. W przpadku zbiorów rozmtch, jak zostanie to dalej opisane, nie są to operację określone w jeden możliw sposób. Na początku jednak zostanie omówion przpadek najprostsz, któr jest zarazem najczęściej wkorzstwan w praktce. Dopełnienie zbioru rozmtego A określa się jako zbiór rozmt, którego funkcja prznależności dana jest w następując sposób: µ A () = 1 µ A (). 1.5 funkcja prznależności 1 0 - - - 0 Rs. 2.1.3. Zbiór rozmt A = / + / + 1.0 / 0.0 + / + /. 19
Suma dwóch zbiorów rozmtch A i B stanowi zbiór rozmt, którego funkcja prznależności ma postać µ A B () = ma(µ A (), µ B ()), natomiast przekrój (iloczn) zbiorów określa następując wzór: µ A B () = min(µ A (), µ B ()). Powższe definicje sum i przekroju, mimo że powszechnie stosowane i zgodne z intuicją, nie są jednmi możliwmi. Poniżej zostaną opisane dwie rodzin funkcji, które dzięki spełnieniu pewnch warunków, mogą zastąpić operację maksimum i minimum w definicjach sum i przekroju zbioru. Funkcję t : [0, 1] [0, 1] [0, 1] taką, że dla każdego a, b, c [0, 1]: t(a, 1) = 1 (element neutraln 1), a b t(a, c) t(b, c) t(a, b) = t(b, a) t(a, t(b, c)) = t(t(a, b), c) (monotoniczność), (przemienność), (łączność) nazwam t-normą. Funkcję s : [0, 1] [0, 1] [0, 1] taką, że dla każdego a, b, c [0, 1]: s(a, 0) = a (element neutraln 0), a b s(a, c) s(b, c) s(a, b) = s(b, a) s(a, s(b, c)) = s(s(a, b), c) (monotoniczność), (przemienność), (łączność) nazwam t-konormą. Podstawowmi przkładami t-norm są: minimum iloczn algebraiczn t min (a, b) = min(a, b), t prod (a, b) = a b, t-norma Łukasiewicza t Łuk (a, b) = ma(0, a + b 1). Podstawowmi przkładami t-konorm są: maksimum s ma (a, b) = ma(a, b), 20
suma probabilistczna s prod (a, b) = a + b ab, t-konorma Łukasiewicza s Łuk (a, b) = min(a + b, 1). Ogólne definicje sum i przekroju zbiorów mają postać: µ A B () = s(µ A (), µ B ()), µ A B () = t(µ A (), µ B ()). W praktce ważne jest, ab t-norma t i t-konorma s bł odpowiednio dopasowane, tj. b spełnion bł następując warunek de Morgana: a,b R s(a, b) = 1 t(1 a, 1 b). Zapewnia to poprawne zachowanie operacji przekroju i sum, gd są one wkonwane łącznie. Rodzina t-norm i t-konorm Franka jest bardzo ważna ze względu na to, że obejmuje ona wszstkie ciągłe t-norm i t-konorm spełniające następując warunek s(, ) + t(, ) = +. Jego spełnienie jest szczególnie istotne prz definiowaniu operacji na zbiorach rozmtch. Rodzina ta jest określona dla dowolnego λ 0 w następując sposób t min (, ), jeśli λ = 0, t t F prod (, ), jeśli λ = 1, λ (, ) = t Łuk (, ), jeśli λ =, log λ (1 + (λ 1)(λ 1) ) w przeciwnm przpadku, λ 1 oraz s ma (, ), jeśli λ = 0, s s F prod (, ), jeśli λ = 1, λ (, ) = s Łuk (, ), jeśli λ =, log λ (1 + (λ1 1)(λ 1 1) ) w przeciwnm przpadku. λ 1 Jak łatwo można zuważć wszskie trz podstawowe t-norm i t-konorm należą do rodzin operacji Franka. 21
2.1.3. Moc zbiorów rozmtch Moc zbioru to jedna z podstawowch jego charakterstk. Podczas, gd w klascznej teorii mnogości element należą do zbioru lub nie, w przpadku zbiorów rozmtch stuacja znacznie się komplikuje. W literaturze można znaleźć wiele podejść do tego zagadnienia. Dominującą rolę zdają się odgrwać moce skalarne oraz wektorowe zbiorów rozmtch [59]. W tej prac wkorzstane zostaną tlko moce skalarne. Funkcję σ : F S [0, ) nazwam mocą skalarną, gd σ spełnia następujące warunki dla każdego a, b [0, 1], A, B F S oraz, U: 1. σ(1/) = 1, 2. a b = σ(a/) σ(b/), 3. A B = = σ(a B) = σ(a) + σ(b). Istnieje prosta charakterstka wszstkich moc skalarnch. σ jest mocą skalarną wted i tlko wted, gd istnieje niemalejąca funkcja f : [0, 1] [0, 1], dla której f(0) = 0 i f(1) = 1, taka że σ(a) = supp(a) f(a()) dla dowolnego zbioru rozmtego A. Taką funkcję f nazwam funkcją wzorocową (alternatwnie wagową). Najpopularniejszą funkcją wagową jest funkcja identcznościowa id. Moc względna zbioru rozmtego reprezentuje proporcje elementów zbioru rozmtego, które jednocześnie należą do innego zbioru rozmtego, stąd też mówi się o moc względnej zbioru rozmtego A względem zbioru rozmtego B i oznacza przez σ(a B) σ(a B) = σ(a B) σ(b). 22
Rozdział 3 Rozmte miar zawierania i podobieństwa 3.1. Podejście oparte na teorii mnogości Podejście to ma swoje korzenie w modelu opartm na treści w pschologii oraz w wstępowaniu wspólnch cech w taksonomii. Podstawow indeks Jaccarda został uogólnion do postaci podanej w (1.2.2) i posłużł jako podstawa do konstrukcji wielu miar dla zbiorów rozmtch. Zastąpienie klascznch operacji na zbiorach ich rozmtmi odpowiednikami, pozwala na przeniesienie znanch metod mierzenia podobieństwa klascznch zbiorów, na zbior rozmte [11]. Okazuje się jednak, że korzstając z (1.2.2) nie jest możliwe otrzmanie prostego współcznnika dopasowania 1.2.1. Stąd potrzeba dalszego uogólnienia do następującej postaci Sim α,β,γ (X, Y ) = g(x Y ) + γ g(x Y ) g(x Y ) + α g(x Y ) + β g(x Y ). (3.1.1) Dla wartości α = β = γ = 1 otrzmujem prost współcznnik dopasowania. Zastępując w powższm wzorze klasczne zbior X i Y przez zbior rozmte A i B, otrzmam model rozmt. Jako g można przjąć dowolną funkcję spełniającą następujące warunki: 1. g( ) = 0, 2. g(u) = 1, 3. jeśli A B to g(a) g(b). Taka funkcja, nazwana dalej skalarnm ewaluatorem zbioru rozmtego, pozwala na zastąpienie zbioru rozmtego pojednczą wartością skalarną. Ewaluator jest egzstencjaln jeśli g(a) = 0 wted i tlko wted, gd A = oraz uniwersaln jeśli 23
g(a) = 1 wted i tlko wted, gd A = U. Przkładem ewaluatora egzstencjalnego jest funkcja natomiast g sup (A) = sup µ A (u), u U g inf (A) = inf u U µ A(u) jest uniwersalnm ewaluatorem. Uogólnione skalarne moce względne [45, 59, 60] tworzą bardzo szeroką rodzinę skalarnch ewaluatorów g f (A) = σ f,t (A U) = σ f(a t U) σ f (U) = σ f(a) σ f (U), gdzie t jest dowolną t-normą, a f funkcją wagową skalarnej moc względnej. Uniwersalność i egzstencjalność tak skonstruowanego ewaluatora zależ od doboru funkcji wagowej. Przkładowo g id jest jednocześnie egzstencjaln jak i uniwersaln. Do konstrukcji operacji sum i przekroju można wkorzstać dowolną t-normę wraz ze sprzężoną z nią t-konormą. Należ jednak pamiętać, że znan z klascznej teorii mnogości fakt X Y = X + Y X Y nie zawsze jest spełnion w przpadku rozmtm. Popularna t-norma minimum spełnia ten warunek, jednakże spośród t-norm archimedesowch zachodzi on tlko dla rodzin t-norm Franka. 3.1.1. Miar zawierania Najprościej stopień zawierania klascznego zbioru X w zbiorze Y, gdzie X Y można określić jako stosunek liczb wspólnch elementów X i Y do liczb elementów wstępującch w jednm lub drugim zbiorze. Prz takim określeniu stopnia zawierania, jest on równ 1 wted i tlko wted gd X Y. Takie podejście jest zgodne z definicją zawierania zbiorów rozmtch podaną przez Zadeha A B, jeśli u U µ A (u) µ B (u). (3.1.2) Jednakże, wartość współcznnika jest równa 0 tlko wted gd zbior X i Y są rozłączne, co nie jest zgodne z (3.1.2). Takie zachowanie jest jednak oczekiwane, gdż miara zawierania powinna móc przjmować dowolne wartości pośrednie z przedziału [0, 1]. Zastosowanie innch niż minimum t-norm i dowolnch ewaluatorów, może spowodować nawet większe odstępstwa od definicji zawierania podanej przez Zadeha. Wartości brzegowe 0 i 1 mogą bć osiągane dla innch zbiorów rozmtch jak to ma miejsce w przpadku klascznch zbiorów. Przkładowo dla wielu t-norm A B = nie oznacza, że zbior rozmte A i B są rozłączne. 24
Dubois oraz Prade zaproponowali następując układ aksjomatów jaki powinien bć spełnion przez miarę zawierania [12]: 1. Sub(A, B) = 1 wted i tlko wted gd A B = U, 2. jeśli zbior A i B są rozłączne to Sub(A, B) = 0, 3. Sub(A, B) zależ od wartości g(a B). Założenia te doprowadził do sformułowania ogólnego wzoru dla miar zawierania zbiorów rozmtch Sub g,s (A, B) = g(a s B) g(a) 1 g(a). (3.1.3) Dwa pierwsze warunki wkluczają się wzajemnie w przpadku gd A =. Z jednej stron Sub(, B) = 1, gdż = U. Z kolei oraz B są rozłączne, a zatem z drugiego warunku Sub(, B) = 0. Dla zachowania zgodności z klasczną teorią mnogości przjmujem Sub(, B) = 1 oraz Sub(A, ) = 0 za wjątkiem przpadku, gd A =. Nie wszstkie ewaluator skalarne zbiorów rozmtch oraz operacje sum generowane przez t-konorm podstawione do (3.1.3) gwarentują spełnienie tch aksjomatów. Jeśli operacja sum zbiorów będzie generowana przez t-konormę Łukasiewicza s Łuk, a jako ewaluator wkorzstam g id, to z (3.1.3) otrzmam miarę zawierania zaproponowaną przez Kosko [33] u U s(1 µ A(u),µ B (u)) u U (1 µ A(u)) g(a B) g(a) u U Sub gid,s Łuk (A, B) = = f(1) 1 g(a) u U 1 1 µ A(u) u U = min (1 µ A(u) + µ B (u), 1) (1 µ A (u)) u U f(µ = A(u)) u U = min (µ A(u), µ B (u)) u U f(µ = σ f(a tmin B) A(u)) σ f (A) u U f(1) = = Sub gid, min (A, B). Miara zawierania Kosko może zostać uogólniona na inne operacje przekroju generowane przez dowolne t-norm, otrzmując w ten sposób bardziej restrkcjne miar zawierania takie jak Sub gid, prod (A, B) cz Sub gid, Łuk (A, B). Ewaluator g inf oraz g sup również mogą posłużć do konstrukcji miar zawierania. Przkładowo Sub gsup,s Łuk (A, B) spełnia wszstkie zaproponowane aksjomat, podobnie jak Sub ginf,s F,λ (A, B). Aksjomat numer 2 wmaga, ab Sub(A, B) = 0, jeśli A i B są rozłączne. Zaostrzenie tego warunku do postaci Sub(A, B) = 0 wted i tlko wted, gd A i B są rozłączne wkluczłob pewne miar zawierania. Sub gid,s min (A, B) może bć równe 0 nawet jeśli oba zbior nie są rozłączne. Taka własność jednak może bć pożądana w pewnch zastosowaniach, gdzie konieczne jest odrzucenie elementów, dla którch 25
µ A (u) + µ B (u) 1. Zastąpienie warunku rozłączności, równoważnm w klascznej teorii mnogości warunkiem A B = również nie rozwiązuje problemu. Przekrój zbiorów generowanch przez t-normę Łukasiewicza, dopuszcza stuację w której dla dwóch nierozłącznch zbiorów zachodzi A B =. Takie podejście wkluczłob też wszstkie miar oparte na ewaluatorze g inf. Niektóre zależności pomiędz t-konormami przenoszą się na miar zawierania. Tak jest w przpadku ich uporządkowania Sub gid,s min (A, B) Sub gid,s prod (A, B) Sub gid,s Łuk (A, B) oraz Sub ginf,s min (A, B) Sub ginf,s prod (A, B) Sub ginf,s Łuk (A, B). Jednak zależność pomiędz Sub gid,s(a, B) i Sub ginf,s(a, B) nie jest jednoznacznie określona. Pomimo, że wartości funkcji g są uporządkowane, to z powodu normalizacji miar zawierania już nie są. To, która z tch wartości jest większa zależ od doboru zbiorów rozmtch. Relacja zawierania jest zwrotna. Niestet, własność ta nie jest spełniona dla większości miar zawierania określonch za pomocą (3.1.3). Wnika to z faktu, że większość popularnch rodzin t-norm jest Archimedesowa co oznacza, że t(a, a) < a, a co za tm idzie Sub(A, A) < 1. Przkładem zwrotnej miar zawierania jest Sub gid,s Łuk. Kolejną własnością miar zawierania jest przechodniość. Jeśli spełnione jest A 1 A 2 A 3 to można b bło oczekiwać, że Sub(A 1, A 3 ) Sub(A 2, A 3 ). W przpadku Sub ginf,s F,λ (A, B) rzeczwiście ma to miejsce, jednak już dla Sub gid,s(a, B) nie. 3.1.2. Miar podobieństwa W klascznej teorii mnogości do określenia stopnia podobieństwa wkorzstuje się moc dopełnienia różnic smetrcznej obu zbiorów. Prz takim podejściu zbior uznaje się za całkowicie podobne jeśli ich różnica smetrczna jest pusta, a gd różnica smetrczna równa jest sumie tch zbiorów, uznaje się je za całkowicie różne. Orginalna definicja równości zbiorów podana przez Zadeha mówi, że zbior A i B są równe wted i tlko wted gd u U µ A (u) = µ B (u). Oczwiście miara podobieństwa musi bć mniej restrkcjna, ab podobieństwo mogło przjmować dowolne wartości z przedziału [0, 1]. Pojęcie różnic smetrcznej pełni bardzo ważną rolę w określaniu stopnia podobieństwa. W klascznej teorii mnogości może ono zostać zdefiniowane na następujące 26
dwa sposob X Y = (X Y ) (X Y ) = (X Y ) (X Y ). Przeniesienie tego pojęcia do teorii zbiorów rozmtch okazuje się jednak trudne, właśnie ze względu na te dwie równoważne definicje. Okazuje się bowiem, że w przpadku rozmtm ich równoważność nie zawsze zachodzi. Dlatego też wprowadzono dwie różne definicje różnic smetrcznej A + B = (A B) (A B) oraz A B = (A B) (A B). Oczwiście dla klascznch zbiorów X + Y = X Y. Ponadto, gd sum i przekroje zbiorów generowane są przez t-nomę minimum oraz odpowiadającą jej t-konormę maksimum własność ta również jest spełniona. Dubois oraz Prade [12] zaproponowali czter aksjomat, które powinn bć spełnione przez miarę podobieństwa skonstruowaną w oparciu o różnicę smetrczną zbiorów 1. Sim(A, B) = 1 wted i tlko wted, gd A B =, 2. jeśli A i B są rozłącznmi zbiorami rozmtmi to Sim(A, B) = 0, 3. Sim(A, B) = Sim(B, A), 4. Sim(A, B) jest zależne od g(a B) lub od wartości smetrcznej funkcji o argumentach g(a B) i g(a B). Warunki te uogólniają własności znane z klascznej teorii mnogości. Pierwsz warunek nie jest równoważn wmogowi, ab Sim(A, B) = 1 wted i tlko wted, gd A = B, gdż nie wszstkie rozmte różnice smetrczne dają zbiór pust, gd wejściowe zbior są sobie równe. Przkładowo zastosowanie + z przekrojem i sumą generowanmi przez t-normę i t-konormę Łukasiewicza, daje w rezultacie zbiór pust tlko gd A = B oraz zbior te redukują się do klascznch zbiorów. Warunek drugi wmaga ab Sim(A, B) = 0, gd zbior A i B są rozłączne. W literaturze wstępują trz tp miar podobieństwa oparte o te aksjomat 1. miar uzskane poprzez zastosowanie skalarnego ewaluatora g na zbiorze A B, 2. miar uzskane poprzez zastosowanie smetrcznej dwuargumentowej funkcji r na wartościach g(a B) i g(a B), 27
3. miar uzskane poprzez zastosowanie smetrcznej dwuargumentowej funkcji h na wartościach Sub(A, B) i Sub(B, A). W dalszej części prac stosowane będzie oznaczenie Sim 1, Sim 2 oraz Sim 3 na miar pierwszego, drugiego i trzeciego tpu. Pierwsz tp miar można ogólnie zapisać w następując sposób Sim 1,,g(A, B) = co po przekształceniach równoważne jest Sim 1,,g(A, B) = 1 g(a B) g(a B) 1 g(a B) (3.1.4) g(a B) g(a B). (3.1.5) W niektórch pracach stwierdzano, że suma zbiorów rozmtch w powższm wzorze oraz ta wkorzstana w konstrukcji różnic smetrcznej mogą bć wbrana niezależnie. Takie postępowanie może jednak prowadzić do otrzmania ujemnej wartości podobieństwa. Jedną z najczęściej stosowanch miar podobieństwa jest indeks Jaccarda zdefiniowan w (1.2.2). Miara Sim 1 rozszerza go do zbiorów rozmtch [37]. Łuk, ma,g id W tm przpadku (3.1.4) można przekształcić do postaci Sim 1,,g = 1 g(a) + g(b) 2 g(a B) g(a B) a następnie korzstając z własności t-norm i t-konorm Łukasiewicza g id (A) + g id (B) = g id (A B) + g id (A B) otrzmujem Sim 1,,g = g(a B) g(a B). W tej postaci od razu widać podobieństwo do indeksu Jaccarda. Pozwala to na określenie nowej rodzin miar podobieństwa Sim 1,,g. Jeśli jako ewaluator skalarn wkorzstam g inf to dla dowolnej różnic smetrcznej otrzmam następującą miarę podobieństwa Sim 1,,g inf (A, B) = inf u U (1 µ A B(u)) = 1 sup u U µ A B (u). Drugi tp miar można ogólnie zapisać jako Sim 2,r,g = r ( g(a B), g(a B) ) r ( g(a), g(b) ) 1 r ( g(a), g(b) ), (3.1.6) gdzie r jest dowolną smetrczną funkcją spełniającą r(0, 0) = 0 oraz taką, że r(a, b) = 1 wted i tlko wted, gd a = b = 1. Własności te spełnone są przez dowolną t-normę oraz dowoln operator sum smetrcznej[48] w tm przez średnią artmetczną r M (a, b) = a+b 2. 28,
jako ewaluator skalarn otrzmujem następującą miarę podobień- Biorąc g inf stwa Sim 2,r,g inf = r(g inf (A B), g inf (A B)), któr może bć interpretowan jako smetrczna agregacja wartości reprezentującch konieczność należenia do B wiedząc, że element należ do A, oraz vice versa. Miar trzeciego tpu powstają przez smetrczną agregację miar zawierania Sim 3 Inc,r(A, B) = r(inc(a, B), Inc(B, A)), (3.1.7) gdzie r podobnie jak poprzednio jest dowolną smetrczną funkcją spełniającą r(0, 0) = 0 oraz taką, że r(a, b) = 1 wted i tlko wted, gd a = b = 1. Miar tego tpu agregują stopień zawierania A w B oraz B w A. Takie podejście zostało zaproponowane w [37] i doprowadziło to powstania wprowadzonego wcześniej indeksu Jaccarda. 3.1.2.1. Własności Nie wszskie miar podobieństwa są zwrotne. Powodem tego, podobnie jak w przpadku miar zawierania, jest Archimedesowość t-norm. Przkładem zwrotnej miar podobieństwa jest Sim 1 min, ma,g id. Jednak dla innch popularnch t-norm i t-konorm zachodzi Sim 1,,g(A, A) = A A A A < 1. Podobnie Sim 1,,g inf nie jest zwrotna za wjątkiem przpadku, gd = Łuk. Podobnie jak miar zawierania, niektóre rodzin miar podobieństwa również są uporządkowane. W przpadku miar tpu pierwszego, uporządkowanie wnika bezpośrednio z relacji pomiędz t-normami i t-konormami. Analogicznie do miar zawierania nie jest możliwe porówanie wartości miar uzskanch z użciem różnch ewaluatorów skalarnch. Dla miar tpu drugiego zachodzi Sim 2,r,g inf (A, B) Sim 2,r,g id. Dla miar tpu trzeciego prz ustalonej funkcji r, uporządkowanie wnika z relacji pomiędz miarami zawierania. Prz ustalonch miarach zawierania relacje pomiędz miarami wnikają natomiast z relacji pomiędz użtmi funkcjami r. Dla najpopularniejszch funkcji r uporządkowanie jest następujące Sim 3 Inc,t Łuk Sim 3 Inc,t prod Sim 3 Inc,t min Sim 3 Inc,r M Zachodzą również pewne zależności pomiędz reprezentantami poszczególnch tpów miar podobieństwa. Przkładowo dla miar Sim 1,,g id oraz Sim 3 Inc,gid zachodzi Sim 1,,g id (A, B) Sim 3 Inc,gid (A, B). 29
Proste przekształcenia pozwalają zauważć, że rzeczwiście tak jest Sim 1,,g id (A, B) = = g(a B) g(a B) g(a B) ma (g(a), g(b)) = = min (Inc,gid (A, B), Inc,gid (B, A)) = Sim 3 Inc,gid (A, B). Niektóre miar różnch tpów są tożsame. Tak jest w przpadku Sim 2,t min,g id i Sim 3 Inc,gid,t min jak również w przpadku Sim 2,t min,g inf i Sim 3 Inc,ginf, dla którch,t min Sim 2,t min,g inf (A, B) = Sim 3 Inc,ginf,t min (A, B) = min ( g inf (A B), g inf (A B) ). 3.2. Podejście oparte na bliskości Tversk zauważł, że w teoretcznch jak i doświadczalnch badaniach podobieństwa bardzo często przjmuje się, że obiekt są dobrze reprezentowane przez punkt w pewnm układzie współrzędnch [55]. Prz takim założeniu relacja niepodobieństwa zachowuje się dokładnie jak funkcja odległości. Pomimo, że orginalne badania dotczł klascznch zbiorów pojęcie bliskości obiektów może zostać również wkorzstane do określenia podobieństwa zbiorów rozmtch. W przpadku zbiorów rozmtch odległość zamiast pomiędz punktami w przestrzeni, musi zostać zdefiniowane pomiędz funkcjami prznależności. Pierwsze podejście uogólnia pojęcie metrki na zbior rozmte. Dzięki zasadzie rozszerzania Zadeha określono rozmtą odległość pomiędz zbiorami rozmtmi. Podstawowmi reprezentami tej rodzin miar są ogólnione metrki Minkowskiego, Hausdorffa oraz współcznnik różności. Inne podejście zakłada powiązanie zbioru rozmtego z punktem w n-wmiarowej przestrzeni. Każd wmiar tej przestrzeni odpowiada pewnej określonej własności zbioru. Przkladowo, moc oraz środek ciężkości zbioru rozmtego są bardzo często wkorzstwane jako jedne z wmiarów. Nie wszstkie formuł wkorzstwane w do konstrukcji miar podobieństwa spełniają formalne warunki bcia odległością (metrką), stąd ab uniknąć nieporozumień użwan jest termin bliskość obiektów. Jednakże, większość miar pochodzi od pewnch metrk. Jako metrkę lub funkcję odległości w uniwersum U rozumiem dwuargumentową funkcję d : U U [0, ) spełniającą: 1. d(u, v) = d(, u) (smetrczność), 2. d(u, w) d(u, v) + d(v, w) (nierównośc trójkąta), 3. jeśli u v to d(u, v) > 0, 4. jeśli u = v to d(u, v) = 1, 30
dla dowolnch punktów u, v, w U. Funkcja nazwana jest półmetrką lub pseudometrką jeśli trzeci warunek nie jest spełnion. Odległość obiektów jest z definicji smetrczna, w przeciwieństwie do miar zawierania. Stąd metod oparte na bliskości obiektów pozwalają na konstrukcje tlko miar podobieństwa. Im większa odleglość tm mniejsze jest podobieństwo badanch obiektów, skąd wnika potrzeba normalizacji. W tm celu wkorzstuje się funkcję normalizującą wartość odległości do przedzialu [0, 1]. 3.2.1. Miar podobieństwa 3.2.1.1. Uogólnione metrki Interpretując zbiór rozmt A nad skończonm uniwersum U = {u 1, u 2,, u n } jako punkt (µ A (u 1 ), µ A (u 2 ),, µ A (u n )) w n-wmiarowej przestrzeni, do wznaczania odległości pomiędz zbiorami można wkorzstać dowolną r-metrkę Minkowskiego d r (A, B) = ( n i=1 µ A (u i ) µ B (u i ) r ) 1 r gdzie r 1. Dla r = 1, d r staje się metrką miejską, gd r = 2 otrzmujem metrkę Euklidesową. Dla r = d r przjmuje następującą postać zwaną metrką nieskończoności. d (A, B) = sup µ A (u i ) µ B (u i ) 1 i n Jak wcześniej zauważono odległość obiektów przjmuje wartości odwrotne do miar podobieństwa. Stąd też ab zdefiniować miarę podobieństwa należ wcześniej znormalizować ją do przedzialu [0, 1], a nastepnie odjąć od 1 Sim dr, U = 1 d r(a, B) U Jak łatwo można zauważć niektóre miar podobieństwa otrzmane w ten sposób są równoważne miarom opartm na podejściu teoriomnogościowm. Przkładowo Sim d, (A, B) = 1 d (A, B) = 1 sup µ A (u i ) µ B (u i ) 1 i n = inf 1 i n (1 µ A(u i ) µ B (u i ) ) = Sim 1 Łuk,s Łuk,g inf (A, B). Ta miara podobieństwa nie wmaga stosowania normalizacji odległości, co zostało zaznaczone przez w indeksie. Kolejnm przkładem jest Sim d1, A Łuk B Sim d1, A Łuk B = 1 d 1(A, B) ( u U A Łuk B = 1 µ A(u i ) µ B (u i ) ) A Łuk B = Sim 1 Łuk,s Łuk,g fid (A, B).., 31
Do normalizacji odległości można wkorzstać różne wartości. Najczęściej użwana jest moc całego uniwersum U oraz moc sum obu zbiorów A B. Podstawowa różnica polega na uwzględnianiu dopasowań na brakującch cechach. W przpadku moc uniwersum na ocenę podobieństwa wpłwają zarówno element należace do obu zbiorów jak i te nienależące. Natomiast, gd do normalizacji wkorzstana zostanie moc sum zbiorów element niewstępujące w obu zbiorach nie mają wpłwu na wartość podobieństwa. Inną metodą na otrzmanie miar podobieństwa z odległości pomiędz dwoma zbiorami rozmtmi jest zastosowanie nastepującej transformacji [28, 43] ( ( ) ) t 1 dr (A, B) Sim dr,trans(a, B) = 1 +. s Najczęsciej przjmuje się s = t = 1. Metrki Minkowskiego nie są jednmi metrkami, które można rozszerzć na zbior rozmte. Funkcja zdefiniowana w następując sposób jest metrką na przestrzeni zbiorów rozmtch d (A, B) = A B. Metrki te można wkorzstać w analogiczn sposób jak metrki Minkowskiego do konstrukcji miar podobieństwa zbiorów rozmtch. Zachodzą natępujące zależności pomiędz powżej zdefiniowanmi miarami podobieństwa Sim d1,trans(a, B) Sim dr,trans(a, B) Sim d,trans(a, B) oraz Sim d1, U (A, B) Sim dr, U (A, B) Sim d, U (A, B) Ze względu na normalizację nie jest możliwe natomiast uporządkowanie miar Sim dr, A B. 3.2.1.2. Odległość kątowa Uniwersum U może reprezentować zbiór cech posiadanch przez pewien obiekt. Prz takiej interpretacji możliwe jest zastosowanie podejścia znanego z taksonomi miarę podobieństwa można określić na podstawie kąta pomiędz dwoma wektorami u U Sim cos θ (A, B) = µ A(u) µ B (u) u U µ A(u) 2 u U µ B(u). 2 Sim cos θ (A, B) przjmuje największą wartość, gd kąt pomiędz wektorami reprezentującmi zbior rozmte wnosi 90. Ta miara podobieństwa wkorzstwana jest w przpadku, gd szczególnie istotne jest porównanie kształtu zbiorów. Sim cos θ (A, B) 32
jest niezmienne ze względu na przemnażanie przez stałą [7]. Przkładowo dla zbiorów rozmtch A i B postaci µ B (u) = α µ A (u) miara podobieństwa jest równa 1. Podobnie tak zdefiniowane podobieństwo nie jest ważliwe na przesunięcia wektorów. Zbior A i B postaci µ B (u) = µ A (u) + β są całkowicie podobne zgodnie z tą miarą. Cosinus kąta nie jest jedną miarą kątową. W literaturze można znaleźć wiele modfikacji tego wzroru takich jak [27] u U µa (u) µ B (u) Sim B (A, B) = 1 u U µ A(u) 2 u U µ B(u). 2 3.2.1.3. Odległość przedziałowa Wiele obiektów może bć reprezentowanch przez zbior rozmte będące liczbami lub przedziałami rozmtmi. W takim przpadku możliwe jest wkorzstanie metod stworzonch do porównwania przedziałów rzeczwistch. Spośród najpopularniejszch sposobów mierzenia bliskości przedziałów rzeczwistch należ wmienić metrkę Hausdorffa oraz współcznnik różności. Metrka Hausdorffa mierz odległość pomiędz dwoma zwartmi niepustmi podzbiorami przestrzeni rzeczwistej X i Y q(x, Y ) = ma (σ(x, Y ), σ(y, X)) gdzie σ(x, Y ) = sup inf d 2(, ). X Y Wartość σ(x, Y ) określana jest poprzez punkt z X, któr maksmalizuje odległość od zbioru Y. W przpadku gd zbior X i Y są przedziałami metrka Hausdorffa przjmuje następującą postać q([ 1, 1 ], [ 2, 2 ]) = ma( 1 2, 1 2 ). Oczwiście metrkę Euklidesową można zastąpić dowolną metrką. Zaproponowano wiele uogólnień metrki Hausdorffa do przedziałów oraz liczb rozmtch. Niektóre z nich wkorzstują tak zwane α-przekroje [47, 62], inne korzstają z zasad rozszerzania Zadeha [46]. Zastosowanie zasad rozszerzania do σ pozwala zdefiniować następując zbiór rozmt µ σ(a,b) (r) = sup α r=σ(a,b) Rozmta metrka Hausdorffa obliczna jest w następując sposób H(A, B) = ma(σ(a, B), σ(b, A)). 33
Wartość ta jest nadal liczbą rozmtą. Zaproponowana metoda defuzfikacji [46] wkorzstuje pojęcie rozmtego progu odległości L. Podobieństwo zbiorów A i B określane jest na podstawie stopnia spełnienia H(A, B) L. Kolejne podejście wkorzstuje pojęcie α-przekroju [47, 62]. Przekroje liczb oraz przedziałów rozmtch są przedziałami A α = [A α, A α ]. Dzięki temu możliwe jest zastosowanie metrki Hausdorffa do każdego przekroju oddzielnie. Tak otrzman ciąg liczb należ następnie zagregować. Zaproponowano kilka metod agregacji, jedną z najpopularniejszch jest całkowanie względem wartości α q H, (A, B) = 1 0 q(a α, B α )dα. Inna metoda wbiera tlko największą wartość odległości Hausdorffa q H, (A, B) = sup q(a α, B α ). α 0 W [62] wkorzstano metrkę Hausdorffa do porównwania samch rdzeni zbiorów rozmtch q H (A, B) = q(a α=1, B α=1 ). Wszstkie te odległości nie są znormalizowane stąd potrzeba zastosowania transformacji analogicznch jak w przpadku miar podobieństwa opartch o metrki Minkowskiego. Przkładowo [ ( ) qh, (A, B) t ] 1 Sim H, (A, B) = 1 + s Współcznnik różności określa odległość pomiędz dwoma przedziałami [a, b] i [c, d] w następując sposób D([a, b], [c, d]) = a c + b d 2 (β 2 β 1 ), gdzie oba przedział zawarte są w przedziale [β 1, β 2 ]. Dzięki podzieleniu przez dwukrotność długości tego przediału otrzman współcznnik jest znormalizowan do przedzialu [0, 1]. Dobór odpowiedniego przedziału normalizującego zależ od charakterstki problemu oraz porządanch własności podobieńśtwa. Sam przedział nie powinien jednak zależeć od porównwanch przedziałów, gdż prowadzi to do pewnch anomalii. Przkładowo wbierając najmniejsz przedział zawierając oba porównwane zbior, współcznnik różności nie rozróżnia przedziałów jednopunktowch. Niech a < b wted D([a, a], [b, b]) = a b + a b = 1. Problemu tego można 2 (b a) uniknąć wkorzstując całe uniwersum jako przedział normalizując. 34