ZASTOSOWANIE TEORII ZBIORÓW PRZYBLI ONYCH W REGUŁOWYM J ZYKU ZAPYTA MELSQL MAGDALENA KRAKOWIAK Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Streszczenie W artykule zaprezentowano rozwi zanie dotycz ce zastosowania teorii zbiorów przybli onych w systemach wspomagania decyzji. W ramach przeprowadzonych bada na podstawie własnych definicji zapytania i definicji reguły logicznej, opracowano algorytm tworzenia reguł z wykorzystaniem zbiorów przybli onych. Przedstawiona procedura stanowi integraln cz zaprojektowanego modelu regułowego j zyka zapyta MELSQL. Słowa kluczowe: systemy wspomagania decyzji, regułowy j zyk zapyta, odkrywanie wiedzy, dyskretyzacja zmiennych, zbiory przybli one. 1. Wprowadzenie We współczesnym wiecie nikogo ju nie trzeba przekonywa co do warto ci informacji jako potencjalnego ródła wiedzy. To ona gwarantuje przetrwanie na konkurencyjnym rynku, a szybko podj ta i trafna decyzja daje niew tpliwie przewag i gwarancj rozwoju. Konsekwencj tego jest rosn cy popyt, ale te i wymagania stawiane systemom wspomagania decyzji. Rodzi to nieustann potrzeb doskonalenia tej klasy systemów poprzez stosowanie nowoczesnych metod daj cych wsparcie na najwy szym poziomie. Poza wyszukiwaniem i agregacj informacji coraz wi kszego znaczenia nabiera znajdowanie zale no ci pomi dzy zgromadzonymi danymi czyli tworzenie reguł decyzyjnych. Jest to jeden z elementów silnie rozwijaj cego si procesu odkrywania wiedzy (ang. knowledge discovery). Jednym z wi kszych problemów wydobywanie wiedzy, odkrywania reguł jest niekompletno zbiorów danych ródłowych. Poszukiwanie rozwi zania stało si przyczynkiem rozwini cia teorii zbiorów przybli onych (ang. rough sets) przez Zdzisława Pawlaka na pocz tku lat osiemdziesi tych. Tak jak logika w przypadku zbiorów rozmytych, logika oparta na zbiorach przybli onych przełamuj c tradycyjne aksjomaty daje nowe cenne wła ciwo ci rozwi zywania tej klasy problemów. Wspomaga podj cie trafnych decyzji w przypadku niepełnych zbiorów przesłanek, a nawet cz ciowo sprzecznych. Tytułowy model j zyka jest integraln cz ci interaktywnego rozmytego j zyka zapyta MELSQL dedykowanego systemom wspomagania decyzji. Jego główna funkcjonalno wsparcia u ytkownika na poziomie wnioskowania realizowana jest przez procedur tworzenia reguł z wykorzystaniem zbiorów przybli onych. Celem niniejszego artykułu jest zaprezentowanie modelu j zyka regułowego opartego na teorii zbiorów przybli onych, a w szczególno ci rozwi zania dotycz cego wykrywania reguł decyzyjnych.
168 POLSKIE STOWARZYSZENIE ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 2. Model j zyka MELSQL Zaprojektowany model j zyka MELSQL to rozwi zanie autorskie maj ce na celu poł czenie funkcjonalno ci rozmytych j zyków zapyta z j zykami regułowymi. Mo liwo pracy w jednym z dwóch trybów, a mianowicie wyszukiwania informacji lub wyszukiwania zale no ci pomi dzy zgromadzonymi danymi oraz integracja dwóch interaktywnych modeli j zyków modelu j zyka rozmytego i modelu j zyka regułowego zapewnia kompleksow obsług zapyta w systemach wspomagania decyzji (dwa poziomy wsparcia w dwóch rodzajach zapyta ). Naturaln funkcjonalno ci modelu MELSQL jest przeprowadzenie u ytkownika przez proces tworzenia zapytania. Zadanie to realizuje interaktywny kreator zapytania, który w zale no ci od wybranego trybu wspomaga budow jednego z dwóch lub trzech typów zapyta. W przypadku wyszukiwania informacji u ytkownik mo e generowa danie prostego lub zło onego zestawienia skupiaj c si na parametrach projekcji (z zało enia bez u ycia funkcji agreguj cych) i selekcji (buduj c proste lub zło one predykaty). Drugi dost pny typ to rozbudowane raporty statystyczne korzystaj ce z szeregu funkcji agreguj cych i porz dkuj cych. Gdy u ytkownik potrzebuje wsparcia na poziomie wy szym, czyli wnioskowania, interaktywny kreator MELSQL umo liwia mu wprowadzenie trzech typów zapyta : kontrola istotno ci zadanej cechy, poszukiwanie wszystkich cech istotnych dla zadanej decyzji oraz sprawdzanie ich wpływu na decyzj (wyszukiwanie reguł). Ka de z tych zada wykonywane jest w ramach jednej procedury stanowi cej kluczowy algorytm regułowego j zyka zapyta opisany w rozdziale 3. Zintegrowany model j zyka rozmytego zapewnia obsług i przetwarzanie informacji nieprecyzyjnej korzystaj c z modelowania tablic podobie stw oraz funkcji przynale no ci. Natomiast modelowanie w ramach regułowego j zyka oparte jest na teorii zbiorów przybli onych. Ze wzgl du na tytuł tre artykułu ogranicza si do scharakteryzowania tylko modelu regułowego, a w szczególno ci zastosowanej procedury tworzenia reguł z wykorzystaniem teorii zbiorów przybli onych. 3. Wnioskowanie na podstawie zbiorów przybli onych Głównym blokiem algorytmu regułowego j zyka MELSQL jest procedura tworzenia reguł z wykorzystaniem zbiorów przybli onych (rysunek 1) maj ca za zadanie wsparcie u ytkownika na poziomie wnioskowania. Parametrem wej ciowym do jej realizacji jest rozwa ana przez u ytkownika cecha czyli wprowadzony b d wybierany z listy atrybut decyzyjny A D. Pierwszym etapem jest weryfikacja poprawno ci zadanego parametru. W przypadku atrybutów identyfikacyjnych (klucze główne i/lub cechy ewidencyjne) system uniemo liwia kontynuacj nakazuj c ich zmian lub wyj cie z procedury. W zale no ci od tego na jakie pytanie u ytkownik chce uzyska odpowied nale y zrealizowa nast puj ce zadania: Zadanie 1: Czy dana cecha ma wpływ na atrybut decyzyjny? próba usuni cia wskazanego atrybutu warunkowego z listy (okre lenie jego wzgl dnej istotno ci). Zadanie 2: Co wpływa na warto atrybutu decyzyjnego? ustalenie reduktu czyli zbioru istotnych atrybutów warunkowych. Zadanie 3: Jak dana cecha/cechy istotne wpływaj na atrybut decyzyjny? podanie uproszczonych reguł (niesprzecznych!) o zadanej sile lub wsparciu.
Magdalena Krakowiak Zastosowanie teorii zbiorów przybli onych w regułowym j zyku zapyta MELSQL 169 Rys. 1. Procedura tworzenia reguł z wykorzystaniem zbiorów przybli onych Pierwszym krokiem procedury jest budowa pierwotnej tablicy informacyjnej T p w postaci wirtualnej perspektywy powstałej z tabeli zawieraj cej zadany atrybut decyzyjny oraz tabel z ni powi zanych (iloczyn kratezja ski). Powstanie w ten sposób zbiorcza tablica zgromadzonych w bazie czy hurtowni danych w postaci warto ci lingwistycznych jak i numerycznych. Kolumnami otrzymanej tabeli s potencjalne atrybuty warunkowe A W i atrybut decyzyjny A D. W przypadku
170 POLSKIE STOWARZYSZENIE ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 realizacji zadania 1 i braku wybranej cechy w ród atrybutów warunkowych nale y doł czy jeszcze tabel (lub tabele po rednie) z warto ciami wskazanej cechy. Kompletna tablica pierwotna mo e zosta poddana weryfikacji u ytkownika, który ma mo liwo manualnego wyeliminowania cech, które go nie interesuj, poniewa na przykład nie widzi potrzeby badania ich wpływu na atrybut decyzyjny. Lp. Godzina startu wykładu Tabela 1. Przykładowa pierwotna tablica informacyjna Nauczyciel akademicki Przedmiot Punkty ICTS rednia frekwencja w sem. [%] 1 16.15 Jan Derek Wprowadzenie do baz danych 4 43 2 12.15 Piotr Zawada In ynieria oprogramowania 4 42 3 14.15 Alina Kotas Programowanie w C# 5 56 4 10.15 Jan Derek Rozproszone bazy danych 3 31 5 10.15 Ewa Łysek Zaawansowane systemy baz danych 6 78 6 8.15 Piotr Zawada Programowanie w C# 5 29 7 12.15 Alina Kotas Programowanie w C# 5 63 8 8.15 Piotr Zawada Zaawansowane systemy baz danych 6 85 9 18.15 Jan Derek Wprowadzenie do baz danych 4 46 10 16.15 Alina Kotas Rozproszone bazy danych 3 23 11 14.15 Ewa Łysek Zaawansowane systemy baz danych 6 76 12 8.15 Ewa Łysek Wprowadzenie do baz danych 4 67 13 10.15 Alina Kotas In ynieria oprogramowania 4 83 14 12.15 Jan Derek Rozproszone bazy danych 3 68 15 8.15 Ewa Łysek Podstawy j zyka C++ 5 19 16 10.15 Piotr Zawada Programowanie w C# 5 75 17 14.15 Piotr Zawada In ynieria oprogramowania 4 49 18 18.15 Alina Kotas Rozproszone bazy danych 3 19 19 10.15 Alina Kotas Programowanie w C# 5 53 20 12.15 Piotr Zawada Podstawy j zyka C++ 5 89 21 14.15 Ewa Łysek Wprowadzenie do baz danych 4 49 22 8.15 Ewa Łysek Podstawy j zyka C++ 5 45 23 8.15 Piotr Zawada Zaawansowane systemy baz danych 6 21 24 16.15 Jan Derek Rozproszone bazy danych 3 48 25 12.15 Alina Kotas In ynieria oprogramowania 4 77 Tablica 1 przedstawia przykładow tablic informacyjn T p zgromadzonych na uczelni danych na temat redniej frekwencji A D na wykładach z wybranych przedmiotów w okre lonym semestrze dla okre lonej specjalno ci. Tablica zawiera fikcyjne dane i została stworzona na potrzeby artykułu. Do potencjalnych atrybutów warunkowych nale godzina rozpocz cia wykładu wg planu zaj (długo wszystkich wykładów jest taka sama 2 godziny lekcyjne) A W1, prowadz cy A W2, przedmiot A W3 oraz punkty ICTS za zaliczenie kursu A W4. Wszystkie dane pochodz z czterech tabel: plan zaj na dany semestr (godzina rozpocz cia wykładu), prowadz cy (nauczyciel akademicki), kurs (przedmiot, punkty ICTS),
Magdalena Krakowiak Zastosowanie teorii zbiorów przybli onych w regułowym j zyku zapyta MELSQL 171 frekwencja ( rednia frekwencja). Cz danych takich np. jak sala wykładowa, grupa studentów czy dzie tygodnia została celowo pomini ta jako nie maj ca zwi zku z frekwencj. Takie zało enia przyj to na potrzeby tego przykładu, ale nale y pami ta, e w okre lonych sytuacjach ka dy z tych atrybutów mógłby by istotnym. Ciasna sala wykładowa o bardzo niewygodnych siedzeniach, wyj tkowo dobrana grupa studentów czy poniedziałek lub pi tek dla studentów przyjezdnych niew tpliwe mog mie wpływ na obecno na wykładzie. Kolejny etap procedury to dyskretyzacja zmiennych. Wybrana metoda i powstałe w jej wyniku klasy zmiennych s charakterystyczne dla ka dego u ytkownika i stanowi jeden z elementów (obok funkcji przynale no ci, tablic podobie stw i reguł własnych) jego preferencji przechowywanych w systemie. Dla ka dej zmiennej najpierw sprawdzana jest tablica dyskretyzacji danego u ytkownika. W przypadku jej braku w zale no ci od typu zmiennej u ytkownik ma do wyboru m.in.: manualne definiowanie przedziałów dla zmiennej ci głej (A W1, A W4 ), manualne grupowanie dla zmiennej dyskretnej (A W2, A W3 ), automatyczne tworzenie równych przedziałów dla zmiennej ci głej według zadanych parametrów dotycz cych ich ilo ci (A D ), automatyczne tworzenie przedziałów dla zmiennej ci głej według zadanych parametrów dotycz cych liczebno ci danych w poszczególnych przedziałach, automatyczne tworzenie przedziałów dla zmiennej dyskretnej na podstawie minimalnej liczno ci. Tabela 2. Dyskretyzacja i kodowanie atrybutów warunkowych i atrybutu decyzyjnego Atrybut Dane wej ciowe Nazwa klasy Kod <8.00; 8.15> rano 1 (8.15; 14.15> około południa 2 (14.15; 18.15> popołudnie 3 Jan Derek Jan Derek 1 Alina Kotas Alina Kotas 2 Ewa Łysek Ewa Łysek 3 A W1 godzina startu wykładu A W2 nauczyciel akademicki Piotr Zawada Piotr Zawada 4 A W3 przedmiot Wprowadzenie do baz danych, Rozproszone bazy danych, Zaawansowane systemy baz danych bazy danych 1 In ynieria oprogramowania, Podstawy C++, programowanie 2 Programowanie w C# A W4 (0;4> mało znacz ce 1 punkty ECTS (4;6> znacz ce 2 A D <0;33> mała 1 rednia frekwencja (33;66> rednia 2 (66;100> du a 3 Gdy w systemie jest ju zarejestrowana dla danego u ytkownika dyskretyzacja rozpatrywanego atrybutu warunkowego A W lub decyzyjnego A D nast puje jej weryfikacja. Jest ona niezb dna z powodu bardzo prawdopodobnej zmiany liczno ci i/lub zmiany preferencji
172 POLSKIE STOWARZYSZENIE ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 u ytkownika. Naniesione zmiany opatrzone dat s zapisywane w systemie w celu ewentualnego ponownego u ycia tablicy dyskretyzacji i ledzenia preferencji u ytkownika. Nast pnie, otrzymane w wyniku dyskretyzacji, klasy zmiennych (zakres lub zawarto przedziałów i nadane im nazwy) s kodowane poprzez przypisanie im kolejnego numeru. Zamiana danych wej ciowych poszczególnych atrybutów na odpowiedni kod przekształca pierwotn tablic informacyjn T P na wtórn tablic informacyjn T W. Tabela 3. Wtórna tablica informacyjna Lp. A W1 A W2 A W3 A W4 A D 1 3 1 1 1 2 2 2 4 2 1 2 3 2 2 2 2 2 4 2 1 1 1 1 5 2 3 1 2 3 6 1 4 2 2 1 7 2 2 2 2 2 8 1 4 1 2 3 9 3 1 1 1 2 10 3 2 1 1 1 11 2 3 1 2 3 12 1 3 1 1 3 13 2 2 2 1 3 14 2 1 1 1 3 15 1 3 2 2 1 16 2 4 2 2 3 17 2 4 2 1 2 18 3 2 1 1 1 19 2 2 2 2 2 20 2 4 2 2 3 21 2 3 1 1 2 22 1 3 2 2 2 23 1 4 1 2 1 24 3 1 1 1 2 25 2 2 2 1 3 Nowopowstała tablica T W słu y tworzeniu elementarnych zbiorów warunkowych E (zawieraj cych przypadki z identycznymi warto ciami atrybutów warunkowych) oraz konceptów decyzyjnych D czyli zbiorów zawieraj cych przypadki (rekordy wtórnej tablicy informacyjnej), w których atrybuty decyzyjne maj ten sam kod. Liczba zbiorów elementarnych nie jest wcze niej znana, ale zakłada si, e jest mniejsza od liczby rozpatrywanych przypadków, tak jak w omawianym przykładzie jest 13 zbiorów na 25 przypadków. W sytuacji skrajnej kombinacje warto ci atrybutów warunkowych s niepowtarzalne i wówczas liczba zbiorów elementarnych odpowiada liczbie rekordów wtórnej tablicy informacyjnej. Natomiast mo na przypuszcza, e liczba konceptów decyzyjnych b dzie odpowiadała liczbie klas powstałych w wyniku dyskretyzacji atrybutu decyzyjnego. Warunkiem tego jest nie uwzgl dnianie przy kodowaniu zbiorów pustych, co zazwyczaj ma miejsce.
Magdalena Krakowiak Zastosowanie teorii zbiorów przybli onych w regułowym j zyku zapyta MELSQL 173 Dla ka dego z konceptów decyzyjnych okre lane jest dolne przybli enie DP(D), co pozwoli na zdefiniowanie pozytywnego obszaru rodziny konceptów decyzyjnych PosD* (suma zbiorów elementarnych we wszystkich dolnych przybli eniach) i okre lenie jako ci przybli enia (odsetek przykładów zawartych w obszarze do liczby rekordów w tabeli) czyli procentowego udziału rekordów tabeli umo liwiaj cych generowanie reguł pewnych. Zbiór elementarny Przynale ne rekordy Tabela 4. Tablica zbiorów elementarnych E 1 E 2 E 3 E 4 E 5 E 6 E 7 E 8 E 9 E 10 E 11 E 12 E 13 1, 9, 24 2, 17 3, 7, 19 4, 14 5, 11 6 8, 23 10, 18 12 13, 25 Dolne przybli enie DP(D) konceptu stanowi podzbiór rekordów do niego przynale nych, który mo na rozło y na elementarne zbiory warunkowe, zatem blok algorytmu realizuje to w nast puj cy sposób. Kolejno dla ka dego rekordu sprawdzane s wszystkie przykłady zbioru elementarnego, do którego nale y. Je eli wszystkie przykłady nale do konceptu wówczas rekord zostaje. W przeciwnym przypadku zostaje odrzucony, poniewa nie pozwoliłoby to na zapis zawarto ci konceptu w postaci sumy pełnych zbiorów elementarnych. Otrzymane w ten sposób sumy (3.1) (3.2) (3.3) stanowi składniki pozytywnego obszaru rodziny konceptów decyzyjnych PosD*, który w rozwa anym przykładzie zawiera 19 przykładów (3.4), co wskazuje na 76% przykładów (3.5) b d cych podstaw do wygenerowania reguł pewnych. DP(D 1 ) = E 6 + E 8 = [6, 10, 18] (3.1) DP(D 2 ) = E 1 + E 2 + E 3 + E 13 = [1, 2, 3, 7, 9, 17, 19, 21, 24] (3.2) DP(D 3 ) = E 5 + E 9 + E 10 + E 12 = [5, 11, 12, 13, 16, 20, 25] (3.3) PosD* = E 6 + E 8 + E 1 + E 2 + E 3 + E 13 + E 5 + E 9 + E 10 + E 12 = = [6, 10, 18, 1, 2, 3, 7, 9, 17, 19, 21, 24, 5, 11, 12, 13, 16, 20, 25] (3.4) = 19/25=0,76 (3.5) Na górne przybli enie konceptu decyzyjnego GP(D) składa si jego dolne przybli enie DP(D) oraz całe zbiory elementarne, których rekordy zostały odrzucone przy jego tworzeniu. Tak jak dolne przybli enie DP(D) stanowi podzbiór konceptu D, tak jego górne przybli enie GP(D) jest jego rozszerzeniem (zawiera wi cej rekordów ni sam koncept). GP(D 1 ) = DP(D 1 ) + E 4 + E 7 + E 11 = [6, 10, 18, 4, 14, 8, 23, 15, 22] (3.6) GP(D 2 ) = DP(D 2 ) + E 11 = [1, 2, 3, 7, 9, 17, 19, 21, 24, 15, 22] (3.7) GP(D 3 ) = DP(D 3 ) + E 4 + E 7 = [5, 11, 12, 13, 16, 20, 25, 4, 14, 8, 23] (3.8) W celu znalezienia rekordów okre laj cych te zakresy przestrzeni atrybutów, w których wnioskowanie jest niepewne, tworzy si dla ka dego konceptu D obszar graniczny GR(D). Stanowi go przykłady zbiorów elementarnych powstałych w wyniku eliminacji w górnym przybli eniu konceptu GP(D) zbiorów stanowi cych jego dolne przybli enie DP(D) (3.9) (3.10) (3.11). GR(D 1 ) = GP(D 1 ) DP(D 1 ) = E 4 + E 7 + E 11 = [4, 8, 14, 15, 22, 23] (3.9) GR(D 2 ) = GP(D 2 ) DP(D 2 ) = E 11 = [15, 22] (3.10) GR(D 3 ) = GP(D 3 ) DP(D 3 ) = E 4 + E 7 = [4, 8, 14, 23] (3.11) 15, 22 13, 25 15, 22
174 POLSKIE STOWARZYSZENIE ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 Tabela 5 przedstawia zestawienie rekordów wchodz cych w skład konceptów decyzyjnych, ich dolnych i górnych przybli e oraz obszaru granicznego dla analizowanego przykładu. Tabela 5. Tabela konceptów decyzyjnych, ich dolne i górne przybli enie oraz obszar graniczny Koncept Przynale ne decyzyjny rekordy DP(D) GP(D) GR(D) D 1 4, 6, 10, 15, 18, 23 6, 10, 18 4, 6, 8, 10, 14, 15, 4, 8, 14, 15, 22, 23 18, 22, 23 D 2 1, 2, 3, 7, 9, 17, 19, 1, 2, 3, 7, 9, 17, 19, 1, 2, 3, 7, 9, 15, 17, 15, 22 21, 22, 24 21, 24 19, 21, 22, 24 D 3 5, 8, 11, 12, 13, 14, 16, 20, 25 5, 11, 12, 13, 16, 20, 25 4, 5, 8, 11, 12, 13, 14, 16, 20, 23, 25 4, 8, 14, 23 Kolejnym krokiem jest poszukiwanie reduktów zbioru atrybutów warunkowych. Kolejno dla ka dego atrybutu okre la si jego wzgl dn istotno poprzez prób jego eliminacji czyli badaj c zbiór atrybutów bez niego. W ten sposób otrzymamy list atrybutów nieusuwalnych czyli wykonamy zadanie 2. W przypadku zadania 1 ograniczamy si do okre lenia wzgl dnej istotno ci tylko dla zadanego atrybutu. Dla rozpatrywanego przykładu tworzone s cztery ró ne trójelementowe zbiory warunkowe W 1, W 2, W 3, W 4, w których kolejno brak jednego z atrybutów warunkowych A W1, A W2, A W3 i A W4. Dla ka dego zbioru sprawdza si, czy jest reduktem bezwzgl dnym (porównanie E) i/lub wzgl dnym (porównanie PosD*) pełnego zbioru atrybutów. Procedura sprawdzania wykonuje si w trzech krokach: tworzenie zbiorów elementarnych E, okre lenie dolnych przybli e konceptów DP(D) i pozytywnego obszaru rodziny konceptów PosD*. Znajomo liczby przykładów wchodz cych do pozytywnego obszaru rodziny konceptów PosD* poszczególnych zbiorów pozwala na obliczenie wzgl dnej istotno ci wyeliminowanego atrybutu. Stanowi ona warto dopełnienia do jedno ci stosunku tej liczby do liczby przykładów wchodz cych do pozytywnego obszaru rodziny konceptów PosD* zbioru pełnego, co przedstawia tabela 6. Ka dy z analizowanych w przykładzie atrybutów jest nieusuwalny, poniewa nie znaleziono adnego reduktu zbioru pełnego. Jednak na podstawie zebranych w tabeli danych z cał pewno ci mo emy wnioskowa, e najmniejszy wpływ na badan decyzj A D ma atrybut A 3, ale nie nale y go usuwa, poniewa zbiór W 3 nie spełnia warunków reduktu przykład 6 jako jedyny ró nicuje zbiory elementarne E i pozytywne obszary rodzin konceptów PosD*.
Magdalena Krakowiak Zastosowanie teorii zbiorów przybli onych w regułowym j zyku zapyta MELSQL 175 Tabela 6. Poszukiwanie reduktów zbiorów warunkowych Zbiór Przynale ne rekordy ze zbioru elementarny pełnego W 1 W 2 W 3 W 4 E 1 1, 9, 24 1, 4, 9,14, 24 1, 9, 10, 18, 24 1, 9, 24 1, 9, 24 E 2 2, 17 2, 17 2, 13, 17, 25 2, 17 2, 16, 17, 20 E 3 3, 7, 19 3, 7, 19 3, 7, 16, 19, 20 3, 7, 19 3, 7, 13, 19, 25 E 4 4, 14 5, 11 4, 14, 21 4, 14 4, 14 E 5 5, 11 6, 16, 20 5, 11 5, 11 5, 11, 21 E 6 6 8, 23 6, 15, 22 6, 8, 23 6 E 7 8, 23 10, 18 8, 23 10, 18 8, 23 E 8 10, 18 12, 21 12 12 10, 18 E 9 12 13, 25 13, 25 12 E 10 13, 25 15, 22 15, 22 15, 22 E 11 15, 22 16, 20 E 12 16, 20 21 E 13 21 Liczba zbiorów 13 10 8 12 10 DP(D 1 ) 6, 10, 18 10, 18 Zbiór pusty 10, 18 6, 10, 18 DP(D 2 ) 1, 2, 3, 7, 9, 17, 2, 3, 7, 17, 19 Zbiór pusty 1, 2, 3, 7, 9, 17, 1, 9, 24 19, 21, 24 19, 21, 24 DP(D 3 ) 5, 11, 12, 13, 5, 11, 13, 25 5, 11, 12 5, 11, 12, 13, 12 16, 20, 25 16, 20, 25 PosD* 6, 10, 18, 1, 2, 3, 7, 9, 17, 19, 10, 18, 2, 3, 7, 17, 19, 5, 11, 5, 11, 12 10, 18, 1, 2, 3, 7, 9, 17, 19, 21, 6, 10, 18, 1, 9, 24, 12 21, 24, 5, 11, 12, 13, 16, 20, 25 13, 25 24, 5, 11, 12, 13, 16, 20, 25 Redukt tak nie nie nie nie bezwzgl dny Redukt wzgl dny tak nie nie nie nie Wzgl dna istotno atrybutu nie dotyczy 1 11/19 = 0,42 1 3/19 = 0,84 1 18/19 = 0,05 1 7/19 = 0,63 Znaleziony redukt, czyli zbiór zawieraj cy tylko atrybuty istotne (w skrajnym przypadku zbiór wszystkich atrybutów warunkowych tak jak w analizowanym przykładzie) jest podstaw do poszukiwania reguł czyli realizacji zadania 3. W wyniku operacji rzutowania, której parametrem jest redukt i atrybut decyzyjny A D, przeprowadzonej na wtórnej tablicy informacyjnej T W powstanie tablica reguł T R, której ka dy rekord traktowany jest jako pojedyncza reguła. Otrzymane reguły nale y uporz dkowa wg atrybutu decyzyjnego A D, a nast pnie wyeliminowa reguły sprzeczne, czyli te, które maj inn warto A D przy tych samych warto ciach atrybutów warunkowych A W. We wtórnej tablicy informacyjnej T W, która w omawianym przykładzie stanowi tablic reguł T R, trzy pary rekordów stanowi reguły sprzeczne, a mianowicie s to składowe zbiorów E 4 = [4, 14], E 7 = [8, 23] i E 11 = [15, 22]. Nale y zwróci uwag na to, e odrzucone przykłady stanowi elementy obszarów granicznych konceptów decyzyjnych (3.9) (3.10) (3.11), a zatem tych, w których wnioskowanie jest niepewne.
176 POLSKIE STOWARZYSZENIE ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 Tabela 7. Zbiór reguł dla konceptów decyzyjnych D 1, D 2 i D 3 Nr rekordu A W1 A W2 A W3 A W4 A D 6 1 4 2 2 1 10 3 2 1 1 18 3 2 1 1 1 3 1 1 1 2 2 2 4 2 1 3 2 2 2 2 7 2 2 2 2 9 3 1 1 1 17 2 4 2 1 19 2 2 2 2 21 2 3 1 1 24 3 1 1 1 5 2 3 1 2 3 11 2 3 1 2 12 1 3 1 1 13 2 2 2 1 16 2 4 2 2 20 2 4 2 2 25 2 2 2 1 Przedstawione powy ej w tabeli 7 rekordy stanowi zbiór dziesi ciu reguł, których cechy zestawia tabela 8. W powstałym w ten sposób zbiorze reguł dobrze zdefiniowanych procedura odrzuca reguły o bardzo małym wsparciu (ilo ci rekordów potwierdzaj cych reguł ) lub małej sile (stosunek wsparcia do wszystkich rekordów). Warto ci progowe tych parametrów maj domy ln warto w systemie, ale istnieje mo liwo ich ustawienia przez u ytkownika. W ród pozostałych reguł posiadaj cych t sam warto decyzji poszukiwane s reguły podobne i agregowane w jedn. Analizowany przypadek charakteryzuj cztery atrybuty warunkowe i ich zró nicowanie dla poszczególnych konceptów uniemo liwia agregacj. Je eli przykładowo przyjmiemy, e minimalna dopuszczalna warto siły reguły wynosi 0,05, wówczas nale y odrzuci jeszcze reguły R 1, R 6 i R 8. Ostatnim etapem przedstawianej procedury jest dekodowanie reguł na podstawie zapisanej tablicy dyskretyzacji i w jego wyniku powstanie ostateczny zbiór reguł w formie lingwistycznej: R 2 : Je eli wykład rozpoczyna si (po południu) i prowadzi go (Alina Kotas) i jest z przedmiotu (bazy danych) za (mało znacz ce) punkty ICTS to rednia frekwencja w semestrze jest (mała). R 3 : Je eli wykład rozpoczyna si (po południu) i prowadzi go (Jan Derek) i jest z przedmiotu (bazy danych) za (mało znacz ce) punkty ICTS to rednia frekwencja w semestrze jest ( rednia). R 4 : Je eli wykład rozpoczyna si (około południa) i prowadzi go (Piotr Zawada) i jest z przedmiotu (programowanie) za (mało znacz ce) punkty ICTS to rednia frekwencja w semestrze jest ( rednia).
Magdalena Krakowiak Zastosowanie teorii zbiorów przybli onych w regułowym j zyku zapyta MELSQL 177 R 5 : Je eli wykład rozpoczyna si (około południa) i prowadzi go (Alina Kotas) i jest z przedmiotu (programowanie) za (znacz ce) punkty ICTS to rednia frekwencja w semestrze jest ( rednia). R 7 : Je eli wykład rozpoczyna si (około południa) i prowadzi go (Ewa Łysek) i jest z przedmiotu (bazy danych) za (znacz ce) punkty ICTS to rednia frekwencja w semestrze jest (du a). R 9 : Je eli wykład rozpoczyna si (około południa) i prowadzi go (Alina Kotas) i jest z przedmiotu (programowanie) za (mało znacz ce) punkty ICTS to rednia frekwencja w semestrze jest (du a). R 10 : Je eli wykład rozpoczyna si (około południa) i prowadzi go (Piotr Zawada) i jest z przedmiotu (programowanie) za (znacz ce) punkty ICTS to rednia frekwencja w semestrze jest (du a). 4. Podsumowanie Tabela 8. Charakterystyka reguł dobrze zdefiniowanych Nr Rekordy reguły potwierdzaj ce Wsparcie Siła R 1 6 1 0,04 R 2 10,18 2 0,08 R 3 1, 9, 24 3 0,12 R 4 2,17 2 0,08 R 5 3, 7, 19 3 0,12 R 6 21 1 0,04 R 7 5, 11 2 0,08 R 8 12 1 0,04 R 9 13, 25 2 0,08 R 10 16, 20 2 0,08 Opracowany model j zyka MELSQL z zało enia ma wypełni luk informacyjn intergruj c mo liwo ci i funkcje j zyka regułowego z obsług zapyta rozmytym. Ponadto ma by odpowiedzi na stale rosn ce wymagania stawiane systemom wspomagania decyzji. Wykorzystanie m.in. teorii zbiorów przybli onych do realizacji tego zadania jest, zdaniem autora, warunkiem koniecznym. Przedstawione w artykule rozwi zanie, czyli wykorzystanie zbiorów przybli onych w regułowym j zyku zapyta znacznie podnosi jego funkcjonalno. Potwierdzeniem tego s wi ksze mo liwo ci kreacji zapyta o zwi zki pomi dzy zgromadzonymi danymi (trzy typy), a tak e wi ksza efektywno działania m.in. poprzez obsług i przetwarzanie niekompletnych zbiorów. Podsumowuj c, rozwi zanie licznych problemów odkrywania wiedzy upatruje si w niekonwencjonalnej logice opartej na teorii zbiorów przybli onych, co w pewnym zakresie zaprezentowano w niniejszym artykule.
178 POLSKIE STOWARZYSZENIE ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr 31, 2010 [1] Budzi ski R., Krakowiak M.: Modelowanie zapyta i bazy reguł w regułowym j zyku zapyta z wykorzystaniem logiki rozmytej. Studia i Materiały Polskiego Stowarzyszenia Zarz dzania Wiedz, nr 13, Bydgoszcz 2008, str. 5 15. [2] Krakowiak M.: Analizator wnioskowania w rozmytym j zyku zapyta. Studia i Materiały Polskiego Stowarzyszenia Zarz dzania Wiedz, nr 19, Bydgoszcz 2009, str. 96 105. [3] Krakowiak M.: Zastosowanie tablic podobie stw w rozmytym j zyku zapyta. Studia i Materiały Polskiego Stowarzyszenia Zarz dzania Wiedz, nr 23, Bydgoszcz 2009, str. 111 120. [4] Niederli ski A.: Regułowo-modelowe systemy ekspertowe rmse, Wydawnictwo Skalmierski, Gliwice 2006. [5] Rutkowski L.: Metody i techniki sztucznej inteligencji, Wydawnictwo PWN, Warszawa 2009. APPLYING ROUGH SETS IN RULES QUERY LANGUAGE MELSQL Summary The paper presents a solution concerning application of rough sets in Decision Support System (DSS). In the framework of the study, based upon an own query and logic rule definitions, an algorithm is presented of rule creator using rough sets. It is an integral part of the designed model of rules query language MELSQL. Keywords: computer decisions making systems, rules query language, knowledge discovery, rough sets. Magdalena Krakowiak Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie e-mail: makrakowiak@wi.zut.edu.pl