WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE
|
|
- Sebastian Turek
- 6 lat temu
- Przeglądów:
Transkrypt
1 STUDIA INFORMATICA 2009 Volume 30 Number 1 (82) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz JACH Uniwersytet Śląski, Instytut Informatyki WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ Autorzy prezentują nowe podejście do problemu wiedzy niepełnej w systemach wspomagania decyzji. W tym celu stosowane są metody analizy skupień służące grupowaniu reguł w systemie. Artykuł ten przedstawia wyniki badań na temat wpływu parametrów algorytmu grupowania Agnes na jakość grup. Słowa kluczowe: analiza skupień, grupowanie, systemy wspomagania decyzji, wiedza niepełna INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE Summary: Authors propose new approach to vagueness problem in decision support systems. To achieve optimal solutions by clustering decision rules, cluster analysis methods are being used. This paper states the results of experiments regarding the influence of Agnes algorithm to the quality of clustering process. Keywords: cluster analysis, clustering, decision support systems, uncertain knowledge 1. Wprowadzenie Systemy wspomagania decyzji stanowią ważną część dzisiejszej informatyki. Przy obecnym szybkim napływie informacji, ich przetwarzanie oraz interpretacja coraz częściej muszą zostać powierzone automatom. Jeszcze do niedawna to ekspert-człowiek dokonywał oceny zastanych warunków i na podstawie swojego doświadczenia podejmował odpowiednią decyzję. Dziś, spora część z tych decyzji została powierzona komputerom, które spełniają swoje zadanie w coraz lepszy sposób. Jak powszechnie wiadomo, zarówno ekspert-człowiek, jak i odpowiedni algorytm najlepiej wykonują swoją pracę w przypadku, gdy ich wiedza na temat rozpatrywanego zjawiska jest pełna, niesprzeczna i kompletna. Nierzadko można się niestety spotkać
2 2 Nowak-Brzezińska A., Jach T. z sytuacją, gdy tak komfortowy przypadek jest niemożliwy do otrzymania. Coraz większa niepewność wiedzy (rozumiana poprzez sprzeczne, zapisane obserwacje) oraz jej niepełność (rozumiana jako brak pewnych obserwacji) powoduje spadek jakości rozwiązań z dziedziny systemów wspomagania decyzji. Stwarza to konieczność poszukiwania nowych metod na radzenie sobie z takimi problemami. Autorzy skupili się w tym artykule na metodach wykorzystujących analizę skupień w celu grupowania reguł w SWD (Systemach Wspomagania Decyzji) [1] celem poprawy ich jakości w sytuacji niepełności i niepewności wiedzy Przegląd dostępnych rozwiązań Autorzy stosują nowatorskie podejście (między innymi zastosowanie analizy skupień w SWD) w celu umożliwienia przeprowadzenia wnioskowania w systemach z wiedzą niepełną. Dotychczasowe rozwiązania opierały się głównie na wyliczaniu bądź też uzupełnianiu brakujących danych tak, aby osiągnąć stan, w którym nie będzie już niepełności wiedzy. Takie podejście wywodzi się z klasycznych metod matematycznych i zostało wykorzystane w wielu systemach [2]. Kolejną metodą było wykorzystanie teorii zbiorów przybliżonych, w myśl której konstruowane są dolne i górne przybliżenia brakujących wartości [3]. W chwili obecnej teoria ta jest dalej rozwijana [4]. Odmienne podejście proponują autorzy w publikacji [5]. W tym przypadku, do wnioskowania w systemach z wiedzą niepełną używa się teorii zbiorów rozmytych. Do rozwiązania postawionego na wstępie problemu można również użyć sieci Bayesa, co czynią autorzy [6]. Reprezentacja wiedzy jest tutaj oparta na klasycznym rachunku prawdopodobieństwa. Kolejne z podejść zakłada korzystanie z sieci neuronowych [7]. Autorzy starają się udowodnić, iż hybrydowe metody, łączące wiedzę teoretyczną oraz zbiór zaklasyfikowanych przykładów w połączeniu ze zbudowaniem sztucznej sieci neuronowej, są w stanie skutecznie radzić sobie ze skutkami niepełności wiedzy Struktura bazy danych Dane, na których operuje proponowany system powstały poprzez wygenerowanie reguł minimalnych systemem RSES [8] z ogólnodostępnych baz danych Machine Learning Repository [9]. Do eksperymentów wybrano bazy Wine oraz Abalone. Podstawowe parametry tych baz przedstawia Tabela 1. Baza Wine Baza Abalone Liczba atrybutów 14 8 Liczba obiektów Wygenerowana liczba reguł
3 Wnioskowanie w systemach z wiedzą niepełną Rodzaj atrybutów Numeryczne Kategoryczne,numeryczne Puste wartości brak brak Każda z reguł ma postać: Tabela 1: Parametry baz danych Tab 1: Database parameters (attr4=8600)&(attr8=177)=>(class=2) (attr4=8600)&(attr1=151)=>(class=2) (attr4=8600)&(attr7=30)=>(class=2) Część konkluzyjna od przesłankowej oddzielone są operatorem wynikania (=>), przesłanki połączone są spójnikiem logicznym & Systemy wspomagania decyzji Klasyczny system wspomagania decyzji rozumiany jest przez autorów jako kombinacja bazy wiedzy oraz algorytmów wnioskowania. Baza wiedzy jest dana w postaci zbioru reguł. Każda reguła składa się z dwóch części: przesłankowej oraz konkluzyjnej. Przesłanki (będące deskryptorami, czyli parami atrybut-wartość) połączone są spójnikiem logicznym AND. Klasyczny system wspomagania decyzji oferuje możliwość wyprowadzania nowej wiedzy z sytemu na podstawie znanych wcześniej faktów. Fakty te umieszczone są w osobnym zbiorze i są również zapisane w postaci deskryptorów. Klasyczne wnioskowanie w przód uaktywnia te reguły, których wszystkie przesłanki mają swoje odzwierciedlenie w zbiorze faktów. Po uaktywnieniu reguły, jej część konkluzyjna zostaje dowiedziona i umieszczona w bazie faktów jako nowe informacje wyprowadzone z systemu [1]. Istotną wadą klasycznego SWD jest możliwość impasu czyli braku możliwych reguł do uaktywnienia. Dzieje się tak wtedy, gdy zbiór faktów nie zawiera dostatecznej liczby informacji pozwalającej na uaktywnienie którejkolwiek z reguł. Proponowany system radzi sobie z tym problemem w taki sposób, iż przedstawi użytkownikowi reguły, których przesłanki są albo w największym stopniu pokryte w zbiorze faktów 1, albo też wartości deskryptorów w przesłankach tych reguł są najbliższe tym, które znajdują się w zbiorze faktów. Uaktywnienie tych niepewnych reguł będzie mogło mieć miejsce po akceptacji przez użytkownika niepewności tak wygenerowanej wiedzy. Kolejną zaletą przedstawianego systemu jest łatwiejszy sposób panowania nad lawinowo rosnąca liczbą nowych faktów i reguł uaktywnianych w klasycznym wnioskowaniu w przód. Proponowany system, pomimo stosunkowo licznego zbioru reguł, dzięki zaimplementowanym mechanizmom grupowania, pozwala na bardzo szybkie odnalezienie interesującej reguły na podstawie przesłanek lub też konkluzji, które dana reguła zawiera. Dzięki temu wydajność zostaje znacznie rośnie. 1 Termin pokrycie jest rozumiany przez autorów jako istnienie deskryptorów zgodnych z tymi w regule w zbiorze faktów. Innymi słowy: reguła będzie pokryta zbiorem faktów w maksymalnym stopniu wtedy i tylko wtedy, gdy wszystkie przesłanki reguły będą również należeć do zbioru faktów.
4 4 Nowak-Brzezińska A., Jach T. 2. Grupowanie reguł w SWD Jednym z głównych zadań dziedziny, jaką jest analiza skupień jest podział zestawu danych na sensowne grupy (skupienia). Ma to miejsce tylko za pomocą wiedzy otrzymanej z danych wejściowych: jej analizy z wykorzystaniem metod statystycznych, matematycznych oraz innych. To wzajemne powiązania pomiędzy obiektami oraz ich relacje (często niewidoczne na pierwszy rzut oka) umożliwiają przeprowadzenie procesu grupowania. Istotnym założeniem jest zachowanie zależności mówiącej o maksymalizowaniu wzajemnego podobieństwa obiektów wchodzących w skład danej grupy oraz minimalizacji podobieństwa poszczególnych grup jako całości. Jedną z metod analizy skupień są tzw. aglomeracyjne algorytmy hierarchiczne, których przedstawicielem jest omawiany algorytm Agnes. Ogólną zasadą działania zarówno tego algorytmu, jak również pozostałych z tej grupy jest początkowe założenie, iż każda z reguł jest reprezentantem oddzielnej grupy. W kolejnych krokach algorytm dąży do odnalezienia najbardziej podobnych reguł, a następnie łączy je w większe skupienia [10]. Autorzy używają algorytmu Agnes (Aglomerative NESting) [11] do grupowania reguł wchodzących w skład bazy danych. Reguły są otrzymywane ze zbiorów dostępnych w Machine Learning Repository [9] poprzez ich import do programu RSES i wygenerowanie reguł minimalnych algorytmem LEM2 [2] Wybór algorytmu grupowania Agnes, algorytm użyty do grupowania reguł wywodzi się z grupy algorytmów hierarchicznych. Jego działanie określa schematycznie Rysunek 1 na stronie 5. Pierwowzorem do stworzenia przedstawionego systemu był m.in. system SMART Saltona. Ideą jego działania było grupowanie dokumentów na podstawie ich podobieństwa między sobą [12]. Podobnie jak w systemie proponowanym przez autorów, wyszukiwanie odbywało się w znacznie krótszym czasie w stosunku do przeszukiwania liniowego, ze względu na wykorzystanie reprezentantów grup. Pytanie trafiające do systemu zostaje porównane z reprezentantami wyliczonymi w trakcie procesu grupowania. Dzięki temu, następuje znaczne zmniejszenie liczby porównań skutkujących znalezieniem reguł relewantnych. Podobna idea przyświecała także twórcom systemu Carrot2 [13]. Elementem, który najbardziej wpływa na jakość ostatecznego zgrupowania jest sposób tworzenia macierzy podobieństwa, a jedyną zauważalną wadą algorytmu jest jego relatywnie wysoka złożoność obliczeniowa [rzędu O(n 2 )]. Do zalet z całą pewnością należy zaliczyć odporność na obiekty odległe (skrajnie niepodobne w stosunku do wszystkich innych), jak i fakt, że przeszukiwanie drzewa odbywa się w czasie logarytmicznym złożoność tego
5 Wnioskowanie w systemach z wiedzą niepełną procesu to O(log n) typowa dla drzew binarnych (jakie tworzy wspomniany algorytm). W pierwszym kroku algorytmu następuje generowanie kwadratowej macierzy podobieństwa, której rozmiar jest równy liczbie reguł zapisanych w systemie. Algorytm na przecięciu i-tego wiersza i j-tej kolumny wylicza podobieństwo dwóch reguł do siebie. Początkowo autorzy zaproponowali prosty sposób wyliczania podobieństwa dwóch reguł: (1) Co najmniej równie efektywnym podejściem jest obliczanie ważonego współczynnika podobieństwa: (2) W obydwu przypadkach d p oraz d q oznaczają zbiór deskryptorów reguły p oraz q. Po wyliczeniu macierzy podobieństwa, następuje właściwy algorytm grupowania. Wyszukiwana jest maksymalna wartość współczynnika podobieństwa określająca, które reguły połączyć. W podanym przykładzie, są to reguły X7 oraz X9, które zostają połączone w jedno skupienie. Następnym krokiem będzie wyliczenie wartości podobieństwa nowopowstałego skupienia do pozostałych reguł. Tutaj również algorytm pozwala na manipulacje sposobami jego wyliczania. W przedstawionym systemie zaimplementowano trzy kryteria łączenia skupień [14] [15]: Rysunek 1: Schemat działania algorytmu Agnes Figure 1: Conception of Agnes algorithm 1. Pojedyncze wiązanie (ang. Single Linkage): Używana jest funkcja minimum (wybierająca minimalną wartość spośród argumentów), która bierze pod uwagę odległość do najbliższego sąsiada. Metoda pojedynczego wiązania ma tendencje do tworzenia małej liczby heterogenicznych grup. ( ) ( ) 2. Metoda uśrednionego wiązania (ang. Average Linkage): w metodzie tej odległość
6 6 Nowak-Brzezińska A., Jach T. między dwoma skupieniami obliczana jest jako średnia odległość między wszystkimi parami obiektów należących do dwóch różnych skupień. Metoda ta jest efektywna, gdy obiekty formują naturalnie oddzielone grupy. ( ) ( ) 3. Całkowite wiązanie (ang. Complete Linkage): stosujące funkcję maximum wybierającą maksymalną wartość spośród argumentów. Dzięki temu, zbudowane grupy są bardziej jednorodne, albowiem funkcja maximum bierze pod uwagę maksymalną odległość pomiędzy dwoma obiektami należącymi do grupy. Z tego też powodu, metoda ta jest również zwana metodą najdalszego sąsiada. ( ) ( ) gdzie: d pi odległość (niepodobieństwo) pomiędzy grupą p-tą a i-tą, d qi odległość (niepodobieństwo) pomiędzy grupą q-tą a i-tą, d (p+q),i odległość (dystans) pomiędzy grupą powstałą z połączenia grup p oraz q oraz grupą i-tą. Po zakończeniu grupowania (liczba kroków będzie równa liczbie reguł w systemie) otrzymujemy drzewo zwane dendrogramem. Algorytm w ostatnim stadium dokonuje przycięcia takiego drzewa w celu otrzymania pożądanej liczby grup. Jak widać, algorytm dokonuje pełnego procesu klasteryzacji, buduje pełne drzewo aż do momentu, w którym wszystkie reguły znajdą się w jednym skupieniu. Dzięki temu, użytkownik może dynamicznie wybierać liczbę grup (ściślej: wysokość, na której zostaje przycięty dendrogram) bez powtarzania procesu grupowania. Cecha ta jest bardzo przydatna ze względu na brak możliwości ścisłej i dokładnej oceny liczby grup występujących w zbiorze danych. Po wykonaniu przedstawionego algorytmu, wygenerowane zostają skupienia złożone z reguł. Następnie, wyznaczany jest reprezentant każdej grupy. Na tym etapie prac nad systemem, autorzy ograniczyli się do dwóch sposobów jego wyznaczania. Pierwszym ze sposobów jest dokonanie sumy logicznej wszystkich deskryptorów wchodzących w skład reguł tworzących grupy. Powoduje to, że reprezentant staje się stosunkowo długi, lecz pamiętajmy o tym, że każda z grup zawiera tylko reguły charakteryzujące się wysokim podobieństwem wzajemnym. Fakt ten powoduje, iż długość reprezentanta wyznaczanego jako wyrażenie złożone z deskryptorów połączonych operatorem logicznym OR i tak jest znacznie krótsza niż po prostu zestaw wszystkich cech opisujących reguły w grupie (inaczej mówiąc: jeśli cechy te się powtarzają, reprezentant składa się tylko z jednego powtórzenia). Drugi sposób wykorzystuje operator AND tworząc reprezentanta jako iloczyn cech wspólnych dla wszystkich dokumentów wchodzących w skład grupy. Podejście to znacznie
7 Wnioskowanie w systemach z wiedzą niepełną skraca jego długość, lecz niestety tworzy reprezentanta w sposób bardzo restrykcyjny, a co za tym idzie liczba cech opisujących taką grupę jest niewielka. Skutkuje to trudnością w późniejszym rozróżnieniu grup. Przykładowo, mając daną grupę złożoną z dwóch reguł: Reg. 1: (attr7=26)&(attr4=9500)=>(class=1) Reg. 2: (attr7=26)&(attr4=10000)=>(class=1) Reprezentant utworzony za pomocą operatora OR będzie mieć postać: (attr7=26), (attr4=9500), (attr4=10000), (class=1) Natomiast reprezentant utworzony jako iloczyn cech wspólnych: (attr7=26), (class=1) Jak widać, autorzy traktują klasę decyzyjną jako dodatkowy deskryptor, zarówno w przypadku liczenia podobieństwa dwóch reguł, jak również wyliczania reprezentanta grupy. Podejście to jest uzasadnione faktem, iż wartość decyzji pamiętana w regule jest kluczowym elementem, nierzadko pozwalającym na poprawne podzielenie reguł w systemie. Mając dane te wszystkie informacje, można przystąpić do samego procesu wyszukiwania. W obecnej wersji systemu, wyszukiwanie reguł relewantnych odbywa się poprzez porównanie zapytania złożonego z iloczynu deskryptorów (par atrybut-wartość) z reprezentantami grup. Wynikiem jest grupa mająca największe podobieństwo swojego reprezentanta do zadanego pytania. Algorytm po zwróceniu wyników, podaje parametry efektywności wyszukiwania omówione w części eksperymentalnej niniejszej pracy. 3. Eksperymenty obliczeniowe Przedmiotem eksperymentów jest pomiar parametrów kompletności i dokładności 2 wyszukiwania reguł relewantnych w procesie wnioskowania względem obserwacji początkowych (faktów). Należy tu zauważyć, że taki system będzie potrafił znajdować zarówno reguły w pełni pokrywające zadane fakty, ale i takie reguły, które tylko w pewnym stopniu pokrywają zbiór obserwacji. Taki stan rzeczy pozwoli na wyprowadzanie nowej wiedzy z systemu nawet przy niepełnej informacji. Oczywiście wiąże się z tym fakt, że parametry kompletności i dokładności nie będą wtedy przyjmować wartości optymalnych, gdyż w rezultacie nie uda się znaleźć wszystkich reguł do uaktywnienia. Każdy eksperyment składał się z czterech przypadków testowych: 1. Istnieje przynajmniej jedna taka reguła w bazie wiedzy, której wszystkie przesłanki są prawdziwe (są faktami w bazie wiedzy). Podając zatem wśród obserwacji te 2 Kompletność rozumiana, jako stosunek liczby reguł relewantnych odnalezionych do liczby wszystkich reguł relewantnych w systemie. Dokładność jest rozumiana jako stosunek liczby reguł relewantnych odnalezionych do liczby wszystkich reguł odnalezionych przez system. Wszystkie porównania w obrębie eksperymentów przeprowadzana są w stosunku do reprezentanta grupy.
8 8 Nowak-Brzezińska A., Jach T. wszystkie, które występują w części warunkowej przynajmniej jednej reguły. 2. Do początkowo pustego zbioru faktów dopisywane są losowo wybrane deskryptory spośród wszystkich obecnych w systemie. Aby sprawdzić skuteczność radzenia sobie systemu z dużą dozą losowości, autorzy wykonali test, w którym system miał odnaleźć najbardziej relewantną grupę w stosunku do całkowicie losowego zbioru deskryptorów będących pytaniem. 3. Zbiór faktów składa się z wszystkich prócz jednego deskryptorów pokrywających losowo wybraną regułę w bazie. Test ten sprawdza czy system potrafi odnaleźć regułę (oraz inne, najbardziej do niej podobne) w przypadku, gdy jedna z przesłanek nie zostanie uwzględniona w pytaniu. W systemach z wiedzą niepełną umiejętność ta jest szczególnie istotna. 4. Dokładnie jedna para atrybut-wartość stanowiąca cały zbiór faktów. Autorzy sprawdzali również czy system poradzi sobie z pytaniem ogólnym, zawierającym jeden deskryptor użyty w systemie. Spodziewaną odpowiedzią jest dość liczny zbiór reguł Metody wyboru reprezentanta grupy Pierwszym problemem, którego wyniki autorzy chcieliby przedstawić jest problem wyboru reprezentanta stojącego na czele grupy. Obie koncepcje wykorzystane przez autorów zostały omówione w poprzednich częściach tej pracy. Eksperymenty mają na celu sprawdzenie, które z podejść (proste podobieństwo lub ważone podobieństwo) wygeneruje lepsze rezultaty. Tabela 2 przedstawia wyniki dla poszczególnych baz danych ze względu na sposób liczenia reprezentanta. Nr testu Reprezentant AND Kompletność Dokładność Liczba reguł Reprezentant OR Kompletność Dokładność Liczba reguł Baza Wine 1 1 0,67 3 0, , , ,5 0,33 6 0, , , Baza Abalone 1 1 0,75 2 0, , ,02 0, ,8 2 0, , Tabela 2: Eksperyment: wybór reprezentanta grupy Table 2: Experiment: choosing the representative of the group
9 Wnioskowanie w systemach z wiedzą niepełną Jak widać, reprezentant typu AND uzyskiwał znacznie lepsze wyniki kompletności przy stosunkowo dużych wartościach parametru dokładności. Widać również, iż grupy w tym przypadku były mniej liczne. Pełna kompletność uzyskana została dzięki odnalezieniu wszystkich reguł relewantnych do pytania, przy jednoczesnym umiejscowieniu innych, podobnych, nie w pełni relewantnych reguł w skupieniu (parametr dokładności). Autorzy przeanalizowali wyniki dla reprezentantów tworzonych jako iloczyn albo suma deskryptorów w danej grupie. Okazuje się, że tego typu prosty reprezentant jest całkowicie niewystarczający do zastosowania. Optymalnym rozwiązaniem byłaby metoda pośrednia, niwelująca słabości reprezentanta AND (który ma tendencję do tworzenia małorozróżnialnych grup o podobnym opisie) oraz reprezentanta OR (tworzącego bardzo długie opisy, trudne w dalszym przetwarzaniu). Pewną koncepcją, która zostanie wdrożona przez autorów będzie umieszczanie w reprezentancie unikalnych w skali całego systemu deskryptorów reguł wchodzących w skład grupy. Autorzy stwierdzili w wyniku eksperymentów, iż stosunkowo częstą sytuacją jest gdy kilka grup jest tak samo podobnych do zadanego pytania (sytuacja ma zwłaszcza miejsce w przypadku reprezentanta AND ). Aby polepszyć wyniki kosztem czasu wyszukiwania, należałoby sprawdzać jak wiele reguł w tych grupach, stanowiących odpowiedź przybliżoną, jest rzeczywiście relewantnych do pytania Wybór miary odległości pomiędzy regułami Drugą kwestią interesującą autorów był wybór miary odległości pomiędzy dwoma regułami. Jak wspomniano wcześniej, autorzy zaimplementowali dwa sposoby liczenia podobieństwa pomiędzy dwoma regułami. Wyniki eksperymentów przedstawia tabela: Nr testu Proste podobieństwo Podobieństwo ważone Kompletność Dokładność Liczba Kompletność Dokładność Liczba reguł reguł Baza Wine 1 1 0,67 3 0,4 0, ,67 0,4 1 0,67 0, , ,5 0, , , Baza Abalone 1 0, ,01 0, ,67 0, , ,5 0, Tabela 3: Eksperyment: wybór miary odległości pomiędzy regułami Table 3: Experiment: choosing distance measure between the rules W przypadku pytań ogólnych oraz tych zawierających losowe deskryptory w systemie,
10 10 Nowak-Brzezińska A., Jach T. odpowiedzi również były nadspodziewanie dobre, aczkolwiek ich wartości kompletności i dokładności znacznie mniejsze od pozostałych dwóch (kompletny opis jednej z reguł w zbiorze faktów oraz niepełny opis) przypadków testowych. Podobieństwo ważone wygenerowało stosunkowo lepsze rezultaty. Jakkolwiek wyniki dokładności były lepsze dla prostego podobieństwa, tak (zwłaszcza dla bazy Abalone) wyniki kompletności dla ważonego podobieństwa deklasowały wyniki dla podobieństwa prostego przy wystarczająco dobrych wynikach dokładności. Podobnie jak w przypadku eksperymentów dotyczących metody wyznaczania reprezentanta, tak i tutaj mamy do czynienia ze znacznie lepszymi dla przedstawionego systemu rezultatami dla podobieństwa typu ważonego. Powody tego stanu rzeczy są tożsame dla tych przytoczonych przy omawianiu wyników poprzedniego eksperymentu. Metoda prostego podobieństwa zdecydowanie lepiej współgra z reprezentantem typu OR, a metoda ważonego podobieństwa z reprezentantem typu AND. W ogólnym przypadku jednak, ważone podobieństwo pozwala na dużo większą dywersyfikację grup i reguł, a co za tym idzie lepsze ogólne rezultaty Wpływ kryterium łączenia skupień na jakość grup Ostatnią kwestią poruszoną w tym artykule będzie wpływ kryterium łączenia skupień na jakość grup. Z racji specyficzności procesu grupowania reguł, dopiero eksperymenty mogą dać odpowiedź co do najlepszego podejścia. Wyniki przedstawia Tabela 4. Single linkage Average linkage Complete linkage Nr testu Kompletność Dokładność L. reguł KompletnośćDokładność L. reguł KompletnośćDokładność L. reguł Baza Wine 1 0,4 0,67 2 0,5 0,33 2 0,5 0, ,67 0,4 1 0,09 0,8 29 0,67 0, ,5 0,5 6 0,22 0,67 6 0, , , , Baza Abalone ,67 0,5 1 0,67 0,5 1 0,67 0, ,5 0,5 4 0,75 0,75 2 0, ,25 2 Tabela 4: Eksperyment: kryterium łączenia skupień Table 4: Experiment: cluster joining criterion W trakcie przeprowadzania eksperymentów dotyczących kryterium wiązania reguł w grupy dla bazy Wine autorzy nie potrafili rozstrzygnąć, która z metod da lepsze rezultaty. Dopiero eksperymenty na znacznie większej bazie Abalone rozstrzygnęły jednoznacznie, iż to metoda całkowitego wiązania będzie lepsza. Problem ten wymaga dalszych wnikliwych
11 Wnioskowanie w systemach z wiedzą niepełną eksperymentów w celu ostatecznego potwierdzenia tej hipotezy. Przed rozpoczęciem eksperymentów autorzy zakładali, że najlepsze wyniki otrzymywane będą dla kryterium łączenia skupień jakim jest pojedyncze wiązanie. Założenie to miało swoje podstawy w samej obserwacji działania pojedynczego wiązania łańcuchowania reguł wzajemnie podobnych do siebie. Eksperymenty jednak udowodniły, zwłaszcza dla zbioru Abalone, że to metoda całkowitego wiązania da w wyniku lepsze rezultaty. Z racji tej obserwacji można wysnuć wniosek, że reguły tak naprawdę tworzą dużą liczbę małolicznych grup, co autorzy zakładali na początku Wnioski z badań i koncepcje dalszej pracy System pozwolił na znaczne zmniejszenie liczby przeglądanych reguł. Zysk czasowy jest zwłaszcza widoczny dla dużych baz reguł, gdzie w celu odszukania grupy relewantnej trzeba porównać tylko kilku(nastu) reprezentantów grup zamiast każdą regułę w systemie. W efekcie, proponowane rozwiązanie pozwala ograniczyć liczbę reguł faktycznie analizowaną w procesie wnioskowania do kilku procent (3-10%). Średni zysk czasowy w aktualnej wersji systemu jest związany z liczbą utworzonych grup i może być zapisany symbolicznie jako:, gdzie k to liczba skupień, a n to liczba reguł w systemie. Zakłada się jednocześnie, że porównanie każdej reguły z pytaniem zajmuje jedną jednostkę czasu. W trakcie wnioskowania w planowanej wersji systemu, zysk czasowy będzie ściśle uzależniony od liczby grup oraz ich liczności. Ogólnie mówiąc, im więcej grup tym zysk czasowy mniejszy. W zdecydowanej większości przypadków, co obrazują tabele przedstawiające wyniki eksperymentów, system był w stanie poprawnie odnaleźć regułę na podstawie wszystkich przesłanek ją opisujących (przypadek testowy nr 1) oraz wtedy, gdy podane były tylko trzy z czterech deskryptorów opisujących obiekt. Oprócz reguł relewantnych zostały również zwrócone reguły bardzo do nich podobne, co jest wielce pożądanym zjawiskiem. W wyniku licznych eksperymentów, najbardziej obiecujące wyniki otrzymano dla metody całkowitego wiązania, reprezentantów jako iloczynów deskryptorów wspólnych oraz ważonej miary podobieństwa. Obecnie trwają eksperymenty próbujące oszacować metodę wyboru optymalnej liczby skupień w systemach z grupowaniem reguł. Wstępne wyniki wskazują na stosunkowo dużą liczbę grup konieczną do otrzymania prawidłowych wyników. Duża liczba małolicznych grup pozwoli na otrzymanie skupień, których wewnętrzna spójność będzie wysoka, a co za tym idzie uaktywnienie wszystkich reguł w skupieniu pozwoli na minimalizację niepewności wnoszonej tym procesem do systemu wspomagania decyzji.
12 12 Nowak-Brzezińska A., Jach T. BIBLIOGRAFIA [1]. Nowak-Brzezińska A. i Wakulicz-Deja A. Analiza efektywności wnioskowania w złożonych bazach wiedzy. Systemy Wspomagania Decyzji [2]. Bazan, Jan; Nguyen, Hung Son; Nguyen, Sinh Hoa; Synak, Piotr; Wróblewski, Jakub. Rough set algorithms in classification problems. [aut. książki] Polkowski Lech, Lin Tsau Young i Tsumoto Shusaku. Rough Set Methods and Applications: New Developments in Knowledge Discovery in Information Systems. Heidelberg : Physica-Verlag, 2000, strony [3]. Pawlak Zdzisław. Rough set approach to knowledge-based decision suport. European Journal of Operational Research. 16 May 1997, strony [4]. Latkowski Rafał. Wnioskowanie w oparciu o niekompletny opis obiektów (praca magisterska). Warszawa : Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego, [5]. Zadeh Lotfi A. i Kacprzyk Janusz. Fuzzy logic for the management of uncertainty. New York : John Wiley & Sons, [6]. Geiger Dan i Heckerman David. Knowledge representation and inference in similarity networks and Bayesian multinets. Artificial Intelligence. 1996, strony [7]. Towell Geoffrey G. i Shavlika Jude W. Knowledge-based artificial neural networks. Artificial Intelligence. 1994, strony [8]. Bazan Jan G., Szczuka Marcin S. i Wróblewski Jakub. A new version of rough set exploration system. [aut. książki] Alpigini James J., i inni i inni. Third International Conference on Rough Sets and Current Trends in Computing RSCTC. Malvern, PA : Springer-Verlag, 2002, strony [9]. Frank A. i Asuncion A. UCI Machine Learning Repository [ Irvine, CA: University of California, School of Information and Computer Science. : brak nazwiska, [10]. Kaufman L. i Rousseeuw P.J. Finding Groups in Data: An Introduction to Cluster Analysis. New York : Wiley, [11]. Jain A. K. i Dubes R. C. Algorithms for clustering data. New Jersey : Prentice Hall, [12]. Salton G. Automatic Information Organization and Retreival. New York, USA : McGraw-Hill, [13]. Osiński S. i Weiss D. Carrot2: An Open Source Framework for Search Results Clustering [14]. Kumar V., Tan P. N i Steinbach M. Introduction to Data Mining. brak miejsca : Addison-Wesley, [15]. Myatt G. J. Making Sense of Data A Practical Guide to Exploratory Data Analysis and Data Mining. New Jersey : John Wiley and Sons, Inc., [16]. Wakulicz-Deja Alicja. Podstawy systemów wyszukiwania informacji. Analiza metod. Warszawa : Akademicka Oficyna Wydawnicza PLJ, Abstract In this paper authors cope with incompleteness in decision support systems. A new method involving cluster analysis is proposed. In the beginning there is a brief description of the problem, followed by summary of known solutions. After that authors propose completely new approach based on cluster analysis and hierarchical grouping algorithms. The summary
13 Wnioskowanie w systemach z wiedzą niepełną of databases used in experiments is shown in Table 1. Authors consider variety of factors involved in grouping rules in decision support systems: the problem of choosing groups representatives, choosing the correct distance measure and optimizing search results by choosing correct group joining criteria. The results of these experiments are shown in Tables 2-4. The paper is summarized in the end where optimal parameters of the algorithm are presented. Adres Agnieszka NOWAK, Tomasz JACH: Uniwersytet Śląski, Instytut Informatyki, ul. Będzińska 39, Sosnowiec, Polska, {agnieszka.nowak, tomasz.jach}@us.edu.pl
WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE
STUDIA INFORMATICA 2011 Volume 32 Number 2A (96) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz JACH Uniwersytet Śląski, Instytut Informatyki WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ Streszczenie. Autorzy niniejszego
WYSZUKIWANIE I AKTYWOWANIE REGUŁ W SYSTEMACH WSPOMAGANIA DECYZJI Z WIEDZĄ NIEPEŁNĄ TOMASZ JACH
WYSZUKIWANIE I AKTYWOWANIE REGUŁ W SYSTEMACH WSPOMAGANIA DECYZJI Z WIEDZĄ NIEPEŁNĄ TOMASZ JACH Uniwersytet Śląski, Instytut Informatyki 41 200 Sosnowiec, ul. Będzińska 39 email: tomasz.jach@us.edu.pl Streszczenie
WYBRANE ASPEKTY WNIOSKOWANIA W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ
STUDIA INFORMATICA 2012 Volume 33 Number 2A (105) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz JACH Uniwersytet Śląski, Instytut Informatyki WYBRANE ASPEKTY WNIOSKOWANIA W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ Streszczenie.
METODY WYZNACZANIA WSPÓŁCZYNNIKA NIEPEŁNOŚCI WIEDZY W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ
METODY WYZNACZANIA WSPÓŁCZYNNIKA NIEPEŁNOŚCI WIEDZY W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ AGNIESZKA NOWAK-BRZEZIŃSKA, TOMASZ JACH Uniwersytet Śląski, Instytut Informatyki Streszczenie W opracowaniu autorzy proponują
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
4.3 Grupowanie według podobieństwa
4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi
Systemy ekspertowe. Krzysztof Patan
Systemy ekspertowe Krzysztof Patan Wprowadzenie System ekspertowy Program komputerowy, który wykonuje złożone zadania o dużych wymaganiach intelektualnych i robi to tak dobrze jak człowiek będący ekspertem
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW
Uniwersytet Ekonomiczny we Wrocławiu WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW Wprowadzenie Wrażliwość wyników analizy wielokryterialnej na zmiany wag kryteriów, przy
Koncepcja wnioskowania w hierarchicznej bazie wiedzy
Koncepcja wnioskowania w hierarchicznej bazie wiedzy Agnieszka Nowak Alicja Wakulicz-Deja Instytut Informatyki, Uniwersytet Śląski, ul. Będzinska 39, Sosnowiec, Polska Tel (32) 2 918 381, Fax (32) 2 918
Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji
Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji Agnieszka Nowak Alicja Wakulicz-Deja Zakład Systemów Informatycznych Instytut Informatyki Uniwersytetu Śląskiego Sosnowiec,
AiSD zadanie trzecie
AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania
Systemy ekspertowe : program PCShell
Instytut Informatyki Uniwersytetu Śląskiego lab 1 Opis sytemu ekspertowego Metody wnioskowania System PcShell Projekt System ekspertowy - system ekspertowy to system komputerowy zawierający w sobie wyspecjalizowaną
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 6 SYSTEMY ROZMYTE TYPU MAMDANIEGO
Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change
Raport 4/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Interwałowe zbiory rozmyte
Interwałowe zbiory rozmyte 1. Wprowadzenie. Od momentu przedstawienia koncepcji klasycznych zbiorów rozmytych (typu 1), były one krytykowane za postać jaką przybiera funkcja przynależności. W przypadku
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Algorytmy sztucznej inteligencji
www.math.uni.lodz.pl/ radmat Przeszukiwanie z ograniczeniami Zagadnienie przeszukiwania z ograniczeniami stanowi grupę problemów przeszukiwania w przestrzeni stanów, które składa się ze: 1 skończonego
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
Maciej Piotr Jankowski
Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji
Systemy eksperowe. Agnieszka Nowak Brzezińska Wykład I
Systemy eksperowe Agnieszka Nowak Brzezińska Wykład I Zakres materiału: Metody wnioskowania w regułowych bazach wiedzy PC-Shell jako narzędzie do budowy szkieletowych systemów ekspertowych (Sprawozdanie
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Metoda Karnaugh. B A BC A
Metoda Karnaugh. Powszechnie uważa się, iż układ o mniejszej liczbie elementów jest tańszy i bardziej niezawodny, a spośród dwóch układów o takiej samej liczbie elementów logicznych lepszy jest ten, który
Metoda list prostych Wykład II. Agnieszka Nowak - Brzezińska
Metoda list prostych Wykład II Agnieszka Nowak - Brzezińska Wprowadzenie Przykładowa KW Inna wersja KW Wyszukiwanie informacji Metoda I 1. Przeglądamy kolejne opisy obiektów i wybieramy te, które zawierają
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
6. Zagadnienie parkowania ciężarówki.
6. Zagadnienie parkowania ciężarówki. Sterowniki rozmyte Aby móc sterować przebiegiem pewnych procesów lub też pracą urządzeń niezbędne jest stworzenie odpowiedniego modelu, na podstawie którego można
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
Priorytetyzacja przypadków testowych za pomocą macierzy
Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.
Przestrzeń algorytmów klastrowania
20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe
WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH
WSOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY RZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH 1. Definicje Zbiory, które nie są zbiorami definiowalnymi, są nazywane zbiorami przybliżonymi. Zbiory definiowalne
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Metoda List Łańcuchowych
Metoda List Łańcuchowych mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2010 Celem metody jest utrzymanie zalet MLI (dobre czasy wyszukiwania), ale wyeliminowanie jej wad (wysoka
Wykrywanie nietypowości w danych rzeczywistych
Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Algorytmy wyznaczania centralności w sieci Szymon Szylko
Algorytmy wyznaczania centralności w sieci Szymon Szylko Zakład systemów Informacyjnych Wrocław 10.01.2008 Agenda prezentacji Cechy sieci Algorytmy grafowe Badanie centralności Algorytmy wyznaczania centralności
ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)
Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu ID1SII4 Nazwa modułu Systemy inteligentne 1 Nazwa modułu w języku angielskim Intelligent
Maszyny wektorów podpierajacych w regresji rangowej
Maszyny wektorów podpierajacych w regresji rangowej Uniwersytet Mikołaja Kopernika Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie X X R d, Y R Z = (X, Y ), Z = (X, Y ) - niezależne
Zastosowanie sztucznej inteligencji w testowaniu oprogramowania
Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Problem NP Problem NP (niedeterministycznie wielomianowy, ang. nondeterministic polynomial) to problem decyzyjny, dla którego rozwiązanie
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Techniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;
Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury
PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM
Mostefa Mohamed-Seghir Akademia Morska w Gdyni PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM W artykule przedstawiono propozycję zastosowania programowania dynamicznego do rozwiązywania
Nazwa przedmiotu: METODY SZTUCZNEJ INTELIGENCJI W ZAGADNIENIACH EKONOMICZNYCH Artificial intelligence methods in economic issues Kierunek:
Nazwa przedmiotu: METODY SZTUCZNEJ INTELIGENCJI W ZAGADNIENIACH EKONOMICZNYCH Artificial intelligence methods in economic issues Kierunek: Forma studiów: Informatyka Stacjonarne Rodzaj przedmiotu: obowiązkowy
Systemy ekspertowe. Wnioskowanie w systemach regułowych. Część piąta. Autor Roman Simiński.
Część piąta Autor Roman Simiński Kontakt siminski@us.edu.pl www.us.edu.pl/~siminski Niniejsze opracowanie zawiera skrót treści wykładu, lektura tych materiałów nie zastąpi uważnego w nim uczestnictwa.
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
WYKŁAD 6. Reguły decyzyjne
Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł
Wyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Transformacja wiedzy w budowie i eksploatacji maszyn
Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH
REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH Transport, studia I stopnia rok akademicki 2012/2013 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Adam Wosatko Ewa Pabisek Pojęcie
Eksploracja danych w środowisku R
Eksploracja danych w środowisku R Moi drodzy, niniejszy konspekt nie omawia eksploracji danych samej w sobie. Nie dowiecie się tutaj o co chodzi w generowaniu drzew decyzyjnych czy grupowaniu danych. Te
7. Zagadnienie parkowania ciężarówki.
7. Zagadnienie parkowania ciężarówki. Sterowniki rozmyte Aby móc sterować przebiegiem pewnych procesów lub też pracą urządzeń niezbędne jest stworzenie odpowiedniego modelu, na podstawie którego można
REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH
REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Adam Wosatko Ewa Pabisek Reprezentacja
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Analiza stanów gry na potrzeby UCT w DVRP
Analiza stanów gry na potrzeby UCT w DVRP Seminarium IO na MiNI 04.11.2014 Michał Okulewicz based on the decision DEC-2012/07/B/ST6/01527 Plan prezentacji Definicja problemu DVRP DVRP na potrzeby UCB Analiza
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety
Wstęp do Techniki Cyfrowej... Teoria automatów
Wstęp do Techniki Cyfrowej... Teoria automatów Alfabety i litery Układ logiczny opisywany jest przez wektory, których wartości reprezentowane są przez ciągi kombinacji zerojedynkowych. Zwiększenie stopnia
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Kierunek: Informatyka Rodzaj przedmiotu: obowiązkowy w ramach treści kierunkowych, moduł kierunkowy oólny Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach
Adam Stawowy Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach Summary: We present a meta-heuristic to combine Monte Carlo simulation with genetic algorithm for Capital
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 20.11.2002 Algorytmy i Struktury Danych PIŁA ZŁOŻONE STRUKTURY DANYCH C za s tw or ze nia s tr uk tur y (m s ) TWORZENIE ZŁOŻONYCH STRUKTUR DANYCH: 00 0
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)
Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW
Zlot użytkowników R Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk 21 września 2010 Miary podobieństwa między szeregami
Algorytmy wspomagania decyzji Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s. 230/C-3
Algorytmy wspomagania decyzji Czyli co i jak 2018 andrzej.rusiecki@pwr.edu.pl andrzej.rusiecki.staff.iiar.pwr.wroc.pl s. 230/C-3 O co chodzi? Celem przedmiotu jest ogólne zapoznanie się z podstawowymi
Inżynieria Wiedzy i Systemy Ekspertowe. Niepewność wiedzy. dr inż. Michał Bereta Politechnika Krakowska
Inżynieria Wiedzy i Systemy Ekspertowe Niepewność wiedzy dr inż. Michał Bereta Politechnika Krakowska http://torus.uck.pk.edu.pl/~beretam/ beretam@torus.uck.pk.edu.pl 1 Logika Rozmyta (Fuzzy Logic) Mimo
PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
2
1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem
Inspiracje kognitywne w procesie analizy pozycji szachowej
Inspiracje kognitywne w procesie analizy pozycji szachowej C. Dendek J. Mańdziuk Warsaw University of Technology, Faculty of Mathematics and Information Science Abstrakt Główny cel Poprawa efektywności
A Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Zaawansowane algorytmy i struktury danych
Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)
Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.
Efekty dla studiów pierwszego stopnia profil ogólnoakademicki na kierunku Informatyka w języku polskim i w języku angielskim (Computer Science) na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie-