Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł

Wielkość: px
Rozpocząć pokaz od strony:

Download "Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł"

Transkrypt

1 Preprint The final publication is available at Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł Michał Mańkowski, Tadeusz Łuba, Grzegorz Borowik, Cezary Jankowski PUBLISHED IN: Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne 7/24 AUTHOR = {Micha\l{} Ma\'nkowski and Tadeusz \L{}uba and Grzegorz Borowik and Cezary Jankowski}, TITLE = {Indukcja regu\l{} decyzyjnych z dwustopniowym procesem selekcji regu\l{}}, JOURNAL = {Przeglad Telekomunikacyjny i Wiadomo\'sci Telekomunikacyjne}, YEAR = {24}, VOLUME = {LXXXVII}, NUMBER = {7}, PAGES = { }, MONTH = {Lipiec} AUTHOR = {Micha\l{} Ma\'nkowski and Tadeusz \L{}uba and Grzegorz Borowik and Cezary Jankowski}, TITLE = {Induction of decision rules with twostage selection process {(in Polish)}}, JOURNAL = {Przeglad Telekomunikacyjny i Wiadomo\'sci Telekomunikacyjne}, YEAR = {24}, VOLUME = {LXXXVII}, NUMBER = {7}, PAGES = { }, } MONTH = {July} UPLOADED UNDER SELF-ARCHIVING POLICIES NO COPYRIGHT INFRINGEMENT INTENDED

2 Preprint The final publication is available at Michał Mańkowski*, Tadeusz Łuba**, Grzegorz Borowik**, Cezary Jankowski** Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł Postęp w dziedzinie techniki komputerowej, jaki dokonał się w ostatnich latach, umożliwia gromadzenie ogromnej ilości danych Jednak celem nadrzędnym nie jest gromadzenie samych danych, a otrzymywanie z nich wiedzy pewnych wzorców, reguł, które umożliwią lepszą systematyzację i wyjaśnienie obserwowanych zjawisk Odpowiedzią na te potrzeby jest odkrywanie wiedzy z baz danych (Knowledge Discovery in Databases KDD) Obejmuje ono eksplorację danych jako jeden z elementów składowych związany z użyciem konkretnego algorytmu w celu ekstrakcji wybranej reprezentacji wiedzy z danych Eksploracja danych umożliwia rozwiązywanie problemów klasyfikacji, czyli odkrywanie zależności między wartościami atrybutów a klasami obiektów, istniejących w zbiorze, w celu określania przewidywanej decyzji dla nowego przypadku Wspomaganie podejmowania decyzji jest istotnym zadaniem eksploracji danych Nie ma najmniejszych wątpliwości, że eksploracja danych jest dziedziną interdyscyplinarną, zarówno pod względem zastosowań, jak i wykorzystywanych metod badawczych Coraz częściej stosuje się ją w naukach przyrodniczych (wyodrębnianie cech określających przynależność gatunkową), w medycynie (systemy wspomagania diagnostyki), ekonomii i bankowości (wstępna analiza możliwości kredytowych) Odkrywanie wiedzy z baz danych jest również stosowane w marketingu, wykrywaniu defraudacji oraz identyfikacji i przewidywaniu błędów w sieciach telekomunikacyjnych, a także przy klasyfikowaniu wiadomości mailowych Eksploracja danych integruje metody badawcze, takie jak: teoria zbiorów przybliżonych, przekształcenia boolowskie, logika rozmyta czy metody statystyczne Wykorzystuje również techniki i metody przekształceń boolowskich, powszechnie stosowane w syntezie logicznej układów cyfrowych [4] Różnorodność i wielość metod eksploracji danych, wywodzących się często z różnych dyscyplin badawczych, utrudnia potencjalnym użytkownikom identyfikację metod, które są najodpowiedniejsze * Instytut Radioelektroniki, ** Instytut Telekomunikacji, Wydział Elektroniki i Technik Informacyjnych Politechniki Warszawskiej, MMankowski@studelkapwedupl, luba@telepwedupl z punktu widzenia ich potrzeb w zakresie analizy danych Szczególnym mankamentem eksploracji danych jest niepełne wykorzystanie algorytmów syntezy logicznej W [5] omówiono zastosowanie algorytmów syntezy logicznej do redukcji atrybutów oraz dyskretyzacji danych Innym istotnym zagadnieniem eksploracji danych jest podejmowanie decyzji na podstawie wcześniej zgromadzonych danych Polega to na uogólnianiu wiedzy oraz indukowaniu reguł decyzyjnych W wyniku indukcji otrzymuje się zbiór reguł logicznych, który umożliwia podejmowanie decyzji nie tylko dla obiektów należących do bazy pierwotnej, dla której przeprowadzono obliczenia, ale przede wszystkim dla nowych obiektów do niej nienależących Rozważania dotyczące algorytmów eksploracji danych zostaną ograniczone w większości przypadków do systemów informacyjnych o specyficznej strukturze, a mianowicie do tablic decyzyjnych, których zastosowania w systemach podejmowania i wspomagania decyzji, a także w wielu zadaniach maszynowego uczenia, są coraz powszechniejsze Formalnie, parę A = (U, A) nazywa się systemem informacyjnym, gdzie U jest niepustym, skończonym zbiorem obiektów, A jest niepustym, skończonym zbiorem atrybutów, tj każdy element a A jest funkcją z U w V a, gdzie zbiór V a jest dziedziną parametru a i jest nazywany zbiorem wartości dla parametru a Wtedy funkcja ρ odwzorowuje produkt U oraz A w zbiór wszystkich wartości Przez ρ(u t, a i ), gdzie u t U, a i A, oznacza się wartość atrybutu dla danego obiektu Systemem decyzyjnym jest system informacyjny postaci A = (U, A D), gdzie A D jest zbiorem pustym Atrybuty w zbiorze A nazywa się atrybutami warunkowymi, natomiast atrybuty w zbiorze D atrybutami decyzyjnymi Systemy decyzyjne są z reguły opisywane za pomocą tablic decyzyjnych Wtedy funkcja ρ odwzorowuje U (A D) w zbiór wszystkich wartości atrybutów W obydwu przypadkach, tj kiedy tablica opisująca system informacyjny oraz system decyzyjny ma w pełni określoną funkcję ρ, system nazywa się w pełni określonym Jednakże w praktyce dane wejściowe algorytmów eksploracji danych są często zaburzone przez brakujące wartości atrybutów [] Wtedy odpowiadająca funkcja ρ jest nie w pełni zdefiniowana, a systemy nazywają się nie w pełni określonymi W [] definiuje się przypadek brakujących wartości atrybutów oznaczanych

3 przez? i nazywanych wartościami do not care (bez znaczenia) W niniejszych rozważaniach również przyjęto, że będą uwzględniane tablice tylko z ewentualnymi wartościami do not care dla niektórych atrybutów Przedmiotem artykułu jest odkrywanie wiedzy z danych metodami indukcji reguł decyzyjnych Jest to związane z prowadzonymi przez autorów badaniami w zakresie uczenia maszynowego oraz syntezy logicznej W szczególności celem jest wskazanie i omówienie możliwości zastosowania zaawansowanych algorytmów syntezy logicznej, takich jak algorytmu uzupełnienia funkcji boolowskich oraz ekspansji W dalszej części publikacji omówiono typowe reguły indukcji reguł decyzyjnych, strategię dwustopniowej selekcji reguł i w końcu wyniki eksperymentów, mających na celu wykazanie skuteczności zaproponowanej metody Metody indukcji reguł decyzyjnych Celem indukcji ukierunkowanej na predykcję jest wygenerowanie z danych zbioru reguł, które będą użyte do klasyfikowania nowych obiektów Należy zauważyć, że zarówno rozwój algorytmów indukcji reguł, jak i sposób ich oceny, jest ukierunkowany przede wszystkim na perspektywę klasyfikowania nowych obiektów Ponieważ zbiór reguł jest traktowany wtedy jako klasyfikator, poprawność klasyfikowania jak największej liczby obiektów jest główną miarą oceny (rys ) Rys Indukcja reguł w procesie klasyfikacji Problem znalezienia minimalnego zbioru reguł, który pokrywa zbiór przykładów i poprawnie je klasyfikuje, jest NP-zupełny Dlatego stosuje się algorytmy przybliżone Najbardziej znane z dotychczas zaproponowanych opierają się na strategii sekwencyjnego pokrywania (Sequential covering) Polega ona na uogólnianiu pojedynczej reguły ustalonej klasy K obiektów, usuwaniu obiektów, które ona pokrywa i powtarzaniu procesu dla pozostałych obiektów klasy K W rezultacie powstaje zbiór reguł pokrywających rozważany zbiór obiektów klasy decyzyjnej K Proces ten powtarza się dla każdej wartości decyzji Uogólnianie polega na ograniczaniu liczby atrybutów (tzw selektorów) reguły pierwotnej danego obiektu w taki sposób, aby uzyskana reguła była spełniona przez możliwie największą liczbę przykładów (obiektów) należących do tej samej klasy decyzyjnej co reguła pierwotna oraz nie była spełniona przez żaden obiekt innej klasy decyzyjnej Jest to sposób postępowania stosowany w wielu algorytmach indukcji reguł Jednym z pierwszych algorytmów indukcji reguł decyzyjnych opartych na zasadzie pokryć był algorytm AQ zaproponowany w [7] Opierał się na tzw gwiazdach specjalizujących maksymalnie ogólne warunki założone Celem pokrycia jest odróżnienie ich od przykładów negatywnych Rozszerzeniem algorytmu AQ o techniki znane z dziedziny indukcji drzew decyzyjnych jest algorytm CN2 [8] Algorytm ten jest zastosowany choćby w systemie odkrywania wiedzy MLC++ Innym, zgodnym z zasadą pokryć lecz o innych właściwościach algorytmem jest PRIMS [6] Istnieją również algorytmy hybrydowe [7], łączące w sobie metody i koncepcje budowy drzew decyzyjnych i indukcji reguł Szczególny nacisk na zdolność predykcyjną reguł oraz na ich maksymalną długość podczas selekcji stosuje się w algorytmie PVM [26] Algorytm LEM2 [] zaczyna budowę reguły od postaci szczególnej, zawężając następnie zbiór pokryć przez dodawanie kolejnych warunków w poprzedniku reguły Jest to algorytm niepodający pełnego rozwiązania problemu, czyli heurystyczny Analizując stosowane algorytmy, należy wspomnieć o możliwości zamiany struktury drzewa decyzyjnego na zbiór reguł Realizuje się zamianę za pomocą koniunkcyjnej reprezentacji ścieżki, prowadzącej od korzenia do liścia Przykładem takich algorytmów generacji reguł mogą być algorytmy ID3 i C45 [2] Ze względu na znaczenie algorytmów redukcji reguł w klasyfikacji danych, rozważa się różne strategie obliczeniowe Wyróżnikiem jest w nich stopień uogólniania reguł, co wpływa na precyzję klasyfikacji obiektów spoza zbioru treningowego Do najbardziej precyzyjnych algorytmów można zaliczyć LEM2, stosowany min w systemie RSES [28] Algorytm ten klasyfikuje dane w taki sposób, aby podzbiór obiektów spoza zbioru treningowego o sprzecznych decyzjach był możliwie minimalny Odmiennym algorytmem jest przyjęcie strategii maksymalnego uogólniania reguł, tzn uzyskiwanie minimalnego zbioru najkrótszych reguł Taka strategia jest zbieżna ze strategią obliczeń stosowaną w minimalizacji funkcji boolowskich Istotę zjawiska można zaobserwować na hipotetycznym przykładzie reprezentującym wyniki sondażu przed wyborami prezydenckimi w pewnej republice Przykład Sondaż przed wyborami prezydenckimi w pewnej republice przeprowadzono według reguł decyzyjnych uzyskanych z danych (tabela ) reprezentujących odpowiedzi na pytania (tak, nie) uzyskane od respondentów W tabeli tej odpowiedziom tak przyporządkowano wartość, odpowiedziom nie, przy jednoczesnym wyróżnieniu zwolenników ocenianego kandydata na prezydenta atrybutem Tabela Dane do przykładu TAK, a przeciwników atrybutem NIE Celem jest obliczenie uogólnionych reguł decyzyjnych, określających zwolenników tego kandydata dla respondentów o dowolnych odpowiedziach na pytania sondażowe Dla binarnego systemu decyzyjnego z tabeli a a 2 a 3 a 4 a 5 a 6 a 7 d otrzymuje się następujący 8 wynik przy użyciu procedury 9 LEM2: (a 4,) & (a,) & (a 2,) & (a 7,) (d,), (a 2,) & (a 4,) & (a 5,) & (a 6,) (d,), (a,) & (a 5,) & (a 6,) & (a 2,) (d,), (a,) & (a 2,) & (a 5,) & (a 3,) & (a 4,) & (a 6,) (d,) Natomiast stosując system ESPRESSO [5] (przeznaczony do minimalizacji funkcji boolowskich), dla decyzji o wartości, otrzyma się wyrażenie logiczne: a dla decyzji o wartości : Wyrażenia otrzymane z systemu ESPRESSO można zapisać w konwencji reguł decyzyjnych: (a 4,) & (a 7,) (d,), (a 2,) & (a 6,) (d,), (a,) & (a 3,) & (a 6,) (d,),

4 (a 2,) & (a 6,) (d,), (a 4,) (d,) W celu porównania wyniku procedury LEM2 do wyniku procedury ESPRESSO, uzyskane formuły z LEM2 zapisze się w konwencji wyrażeń boolowskich: Charakterystyczną cechą strategii sekwencyjnego pokrywania jest uogólnienie reguły pierwotnej klasy decyzyjnej K, a następnie usunięcie ze zbioru obiektów klasy K wszystkich reguł spełniających uogólnioną regułę Proces uogólniania i usuwania jest powtarzany aż do usunięcia wszystkich reguł klasy K Uzyskiwane kolejno reguły uogólnione tworzą zbiór reguł reprezentujących klasę K Proces ten jest powtarzany dla wszystkich klas decyzyjnych Obiecującą odmienną strategią jest strategia dwustopniowej selekcji reguł W strategii tej dla każdego obiektu u i klasy K tworzy się zbiór wszystkich minimalnych reguł pozytywnych (R(u i )) Suma zbiorów R(u i ) dla wszystkich obiektów klasy K tworzy rodzinę minimalnych reguł tej klasy Rodzina ta jest następnie poddawana procesowi selekcji, którego celem jest wyznaczenie minimalnej rodziny minimalnych reguł Zarówno w procesie uogólniania pojedynczego obiektu, jak też w procesie selekcji, korzysta się z pojęcia pokrycia kolumnowego binarnej macierzy M Pokryciem kolumnowym binarnej macierzy M=[m ij ],iî{,,w}, jî{,,n} jest zbiór L Î{,,n} taki, że dla każdego iî{,,w} istnieje jîl dla którego m ij = Jeżeli usunięcie którejkolwiek z kolumn powoduje brak pokrycia, jest to minimalne pokrycie kolumnowe Pokrycie kolumnowe jest pokryciem, w którym elementami pokrywanymi są wiersze M, a pokrywającymi kolumny tej macierzy Jednak brak formalnych elementów pokrywanych i pokrywających skłania do wprowadzenia nazwy pokrycie kolumnowe Obliczanie pokrycia kolumnowego jest standardowym zadaniem, polegającym na transformacji wyrażenia boolowskiego typu CNF (Conjunctive Normal Form) na wyrażenie DNF (Disjunctive Normal Form) W wyrażeniu CNF czynniki koniunkcji są dysjunkcjami zmiennych boolowskich etykietujących te kolumny M, dla których w danym wierszu m ij = Liczba czynników jest równa liczbie wierszy macierzy M Istotnym problemem jest transformacja CNF na DNF, gdyż składniki wyrażenia DNF są koniunkcjami zmiennych reprezentujących kolumny macierzy M Zastosowanie pokrycia kolumnowego do uogólnienia reguły decyzyjnej obiektu u i dotyczy tzw macierzy rozróżnialności Macierz rozróżnialności tworzy się przez porównanie obiektu u i z każdym obiektem u j należącym do innej klasy decyzyjnej Porównanie polega na utworzeniu binarnego wektora w, w którym na pozycji k jest wartość zero, jeśli wartość atrybutu A k (u i ) obiektu u i jest taka sama, jak wartość atrybutu A k (u j ) obiektu u j lub co najmniej jedna z tych wartości jest nieokreślona W przeciwnym przypadku wartość składowej k wektora w jest równa jeden Zbiór wektorów w tworzy macierz rozróżnialności Z definicji macierzy rozróżnialności wynika, że aby uogólniona reguła obiektu u i nie pokrywała żadnego obiektu innej klasy decyzyjnej, to w odpowiedniej R(u i ) należy zostawić atrybuty, które odróżniają R(u i ) od każdego obiektu innej klasy decyzyjnej Na przykład dla obiektu u systemu decyzyjnego z tabeli odpowiednia macierz rozróżnialności będzie: M W porównaniu do procedury LEM2 system ESPRESSO umożliwia osiągnięcie wyników, które zawierają w sensie zbiorów wyniki algorytmu eksploracji danych Świadczy o tym fakt, że wynik osiągnięty za pomocą metod syntezy logicznej jest bardziej ogólny Strategia dwustopniowej selekcji reguł czyli dla zapewnienia pełnego rozróżnienia w regule R(u ) należy zostawić atrybuty: a 6 lub a 7 i a 3 lub a 4 i a 2 lub a 4 i a 2 lub a 3 lub a 7 Zapisując te warunki w postaci wyrażenia CNF: (a 6 + a 7 ) (a 3 + a 4 ) (a 2 + a 4 ) (a 2 + a 3 + a 7 ), dochodzi się do wniosku, że w celu obliczenia wszystkich uogólnionych reguł obiektu u (o minimalnej liczbie atrybutów) należy dokonać transformacji wyrażenia CNF do postaci DNF Wtedy składniki DNF reprezentują minimalne zbiory atrybutów R(u ) Wynik takiej transformacji jest następujący: a 4 a 7 + a 2 a 4 a 6 + a 3 a 4 a 6 + a 2 a 3 a 7 + a 2 a 3 a 6 Oczywiście najlepsza reguła będzie dla a 4 a 7, czyli R(u ) = (a 4,) & (a 7,) i jak łatwo sprawdzić żaden obiekt klasy d = nie spełnia tej reguły Podstawowe znaczenie w metodzie ma procedura obliczająca pokrycie kolumnowe macierzy M Ze względu na złożoność obliczeniową, zadanie generowania reguł nie jest zwykle możliwe do rozwiązania w czasie wielomianowym W szczególności zbiór pokryć macierzy M może zawierać zbyt wiele elementów, aby program mógł znaleźć rozwiązanie w rozsądnym czasie W związku z tym zaproponowano zastosowanie algorytmu uzupełnienia funkcji boolowskiej Możliwość zastosowania uzupełnienia funkcji boolowskiej do obliczenia wszystkich minimalnych pokryć kolumnowych macierzy binarnej M wynika z twierdzenia o pokryciu kolumnowym omówionym w [5] Wniosek z tego twierdzenia jest następujący: zamiast stosować transformację CNF na DNF wystarczy obliczyć uzupełnienie funkcji boolowskiej reprezentowanej macierzą M Metoda jest dokładnie przedstawiona w [3], dlatego ograniczono jej omówienie jedynie do obliczenia uzupełnienia macierzy M Funkcja boolowska macierzy M oraz jej uzupełnienie podane są w tabeli 2 Procedura uzupeł- Tabela 2 Funkcja boolowska macierzy niania jak wykazano M i jej uzupełnienie w [3],[5] jest x x 2 x 3 x 4 x 5 x 6 x 7 f bardzo szybka, zatem jej zastosowanie do indukcji reguł jest wskazane Dysponując szybkim algorytmem indukcji reguł dla pojedynczych obiektów, można pokusić się o indukcję dla wszystkich reguł danej klasy decyzyjnej i wybrać z nich reguły najogólniejsze, przeznaczone do następnego etapu selekcji Przy takiej organizacji trzeba będzie jednak wprowadzić heurystyczne algorytmy selekcji Przykład 2 Dla binarnego systemu decyzyjnego podanego w tabeli oblicza się minimalne reguły decyzyjne dla obiektów u do u 5

5 Oznaczając przez R i reguły generowane przez obiekt u i uzyskuje się kolejno: r = (a 4,) & (a 7,) r 2 = (a,) r 3 = (a 5,) r 4 = (a 4,) & (a 7,) r 5 = (a 2,) & (a 6,) oraz (a 3,) & (a 6,) Usuwając reguły powtarzające się, ostateczną listę reguł minimalnych zapisuje się następująco: R = (a,) R 2 = (a 4,) & (a 7,) R 3 = (a 5,) R 4 = (a 2,) & (a 6,) R 5 = (a 3,) & (a 6,) Na tej podstawie dla każdej obliczonej wyżej reguły R i wyznacza się wszystkie obiekty decyzji d = pokrywane przez R i Przykładowo: R u R 2 u 2, u 3, u 4 R 4 u, u 5 Tablicę pokryć pokazano w tabeli 3 Tablica pokryć umożliwia wybór (selekcję) takiego minimalnego zbioru reguł, który pokrywa wszystkie obiekty ustalonej klasy decyzyjnej Minimalny zbiór reguł klasy decyzyjnej d = można wyznaczyć obliczając minimalne u u2 u3 u4 u5 R R 2 R 3 R 4 R 5 pokrycie kolumnowe tablicy pokryć W tym celu zapisuje się wiersze tabeli w postaci zbiorów kolumn wskazywanych przez pozycje jedynek w danym wierszu Metoda selekcji pokryć zastosowana w proponowanym algorytmie indukcji oblicza wszystkie minimalne pokrycia kolumnowe metodą uzupełnienia funkcji boolowskiej, której specyfikacja (również jej uzupełnienia) jest podana w tabeli 4 Z zapisu uzupełnienia wynika, że wszystkie minimalne pokrycia kolumnowe są: R 2, R 4 oraz R, R 2, R 5 Oczywiście taki sam wynik uzyska się, dokonując transformacji wyrażenia typu CNF na DNF: Tabela 3 Tablica pokryć Tabela 4 Specyfikacja funkcji boolowskiej x x 2 x 3 x 4 x 5 f r 2 (r + r 4 ) (r 2 + r 3 + r 5 ) (r 4 + r 5 ) = r 2 r 4 + r r 2 r 5 Z powyższych rozważań wynika, że zadanie uogólnienia reguł decyzyjnych ustalonej klasy D k jest analogiczne do zadania minimalizacji funkcji boolowskiej f= (F, R), w której wektory zbioru F odpowiadają obiektom klasy D k, a zbiór R umożliwia utworzenie macierzy rozróżniającej Złożoność obliczeniową tego problemu można oszacować złożonością obliczeniową zadania minimalizacji funkcji boolowskiej Obliczeniem decydującym o eksplozji kombinatorycznej tego problemu jest zatem obliczenie wszystkich pokryć kolumnowych tablicy pokryć O złożoności tego problemu decyduje szybko rosnąca (ze wzrostem liczby atrybutów) liczność rodziny minimalnych reguł klasy D k W przypadku systemu decyzyjnego z tabeli liczba wszystkich minimalnych reguł jest 5: tym samym odpowiednia tablica pokryć (tabela 3) ma 5 kolumn W rezultacie obliczenie minimalnych pokryć kolumnowych tej tablicy można wykonać ręcznie jest widoczne gołym okiem Zjawisko występującej w tym problemie eksplozji kombinatorycznej dobrze wyjaśnia przykład tablicy decyzyjnej podanej w tabeli 4 W tym przypadku liczba wszystkich minimalnych reguł jest 68 Zatem odpowiednia tablica pokryć ma aż 68 kolumn, co znacznie utrudnia obliczenie uzupełnienia Z powyższych rozważań wynika, że obliczenia uogólnionych reguł decyzyjnych dla rzeczywistych baz danych muszą być przynajmniej dla tablicy pokrycia realizowane algorytmami heurystycznymi Natomiast rewelacyjna procedura uzupełnienia (Complement) może być zastosowana wyłącznie do obliczania minimalnych pokryć kolumnowych macierzy rozróżnialności Należy pamiętać, że algorytm uzupełnienia funkcji boolowskiej (complement) jest algorytmem systematycznym Uzyskuje najlepsze wyniki pokrycia, a co ważne dla generacji reguł, tworzy wszystkie rozwiązania problemu Zalet tego algorytmu niestety nie da się zawsze wykorzystać, szczególnie dla bardziej złożonych problemów Algorytm uzupełnienia jest szczególnie wrażliwy na liczbę kolumn w tablicy rozróżnialności Praktyka pokazuje, że tablice rozróżnialności podczas uogólniania reguł zawierają zazwyczaj więcej obiektów (wierszy), niż kolumn (atrybutów) Dlatego dla małych i średnich baz w rozumieniu ilości atrybutów (od do 3 atrybutów) z powodzeniem używa się uzupełnienia Niestety, odwrotną strukturę mają tablice rozróżnialności reguł Liczba kolumn jest zawsze nie mniejsza niż liczba wierszy Wynika to z faktu, że z każdego obiektu (wiersza) indukowana jest minimalnie jedna reguła Tabela 5 Przykład tablicy decyzyjnej x x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x y Ograniczenia w stosowaniu algorytmu uzupełnienia funkcji boolowskich spowodowały potrzebę użycia szybkich, heurystycznych algorytmów minimalizacji tablic boolowskich W programie Reguły zostały zaimplementowane dwa algorytmy iteracyjne: MaxCol i MinRow Algorytm MaxCol opiera się na prostym rozumieniu, że dla uzyskania minimalnego pokrycia kolumnowego najbardziej istotne są kolumny macierzy, które zawierają największą liczbę jedynek Postępowanie w algorytmie MaxCol Policzenie wystąpień wartości w każdej kolumnie;

6 2 Zapisanie kolumny z największą liczbą jeżeli jest kilka kolumn o tej samej liczbie, arbitralnie wybrana zostaje ta z mniejszym indeksem; 3 Usunięcie wszystkich wierszy, dla których w wybranej kolumnie znajduje się wartość ; 4 Jeżeli macierz nie jest pusta (zawiera elementy), następuje powrót do kroku ; 5 Zwrot zapisanych kolumn Algorytm MinRow opiera swoje iteracyjne działanie na analizowaniu wierszy o najmniejszej liczbie jedynek Kroki algorytmu MinRow Policzenie wystąpień wartości w każdym wierszu; 2 Wybranie wierszy z najmniejszą liczbą wystąpień ; 3 Policzenie wystąpień wartości w kolumnach, dla których dowolny wybrany w kroku 2 wiersz ma wartość ; 4 Zapisanie kolumny z największą liczbą wśród tych z kroku 3 jeżeli jest kilka kolumn o tej samej liczbie, arbitralnie wybrana zostaje ta z mniejszym indeksem Algorytmy Complement, MaxCol, MinRow stanowią nową strategię indukcji reguł decyzyjnych, którą dla odróżnienia od strategii sekwencyjnego pokrywania nazywa się strategią dwustopniowej selekcji Regułowy system decyzyjny Procedura dwustopniowej selekcji reguł składa się z następujących etapów Wyznaczenie macierzy rozróżnialności dla obiektu u i ustalonej klasy decyzyjnej 2 Obliczenie wszystkich uogólnionych reguł obiektu u i Macierz rozróżnialności jest wykorzystywana do obliczenia wszystkich uogólnionych reguł obiektu u i Obliczenie zbiorów wszystkich minimalnych reguł można sprowadzić do problemu obliczenia pokryć kolumnowych macierzy rozróżnialności Załóżmy, że kolumny macierzy rozróżnialności są indeksowane kolejnymi atrybutami warunkowymi tablicy decyzyjnej Wtedy każde minimalne pokrycie kolumnowe tej macierzy jest zbiorem atrybutów warunkowych uogólnionej i minimalnej reguły decyzyjnej obiektu u i W celu utworzenia tej reguły, atrybutom zbioru reprezentującego pokrycie kolumnowe przyporządkowuje się odpowiednie wartości obiektu u i, czyli jeśli minimalny zbiór atrybutów jest {a i, a j,,a k } oraz obiekt u i ma wartości atrybutów odpowiednio {w i, w j,,w k } to ugólnioną regułą jest: (a i = w i ) & ( a j = w j ) & ( a k = w k ) = d k 3 Obliczenie rodziny minimalnych ugólnionych reguł klasy decyzyjnej D k Powtarzając obliczenia z punktów i 2 dla każdego obiektu u i ustalonej klasy decyzyjnej D k uzyskuje się rodzinę minimalnych uogólnionych reguł klasy D k : R(D k ) = (r,, r max ) Reguły wchodzące w skład tej rodziny stanowią zbiór najlepszych reguł reprezentujących wszystkie obiekty klasy D k 4 Wyznaczenie tablicy pokryć klasy D k Chcąc uzyskać minimalny zbiór reguł (niekoniecznie o najmniejszej liczności) reprezentujących klasę D k,należy utworzyć tablicę pokryć (TP) Tablicą pokryć jest binarna tablica o liczbie kolumn n (n jest licznością rodziny R(D k )) i liczbie wierszy równej k (k liczba obiektów klasy klasy D k ) Element TP(i,j) tej tablicy przyjmuje wartość, gdy reguła r j pokrywa obiekt u, w przeciwnym przypadku i 5 Obliczenie minimalnego zbioru uogólnionych reguł klasy D k Minimalny zbiór uogólnionych reguł reprezentujących (pokrywających) klasę D k można wyznaczyć obliczając minimalne pokrycie kolumnowe TP W celu weryfikacji generowanych reguł decyzyjnych oraz symulacji ich zastosowania w programie Reguły został zmodelowany i zaimplementowany regułowy system decyzyjny Pierwszym etapem systemu jest trening, czyli generacja reguł Odbywa się ona przez dobór algorytmu generującego reguły spośród zaimplementowanych, tj complement, MaxCol lub MinRow Dodatkowo przy generacji reguł algorytmem complement jest możliwość wybrania, czy ma uwzględniać wyłącznie najkrótsze reguły, czy wszystkie Kolejnym krokiem jest wybór algorytmu do selekcji reguł podczas uogólniania, czyli obliczenia minimalnego pokrycia tablicy reguł Wybrać można spośród tych samych algorytmów, co w przypadku generacji reguł Po fazie treningu następuje faza selekcji Polega ona na utworzeniu zbioru reguł wspierających (pokrywających) dany obiekt Analizowane obiekty pochodzą z bazy testowej Istotnym i najbardziej zróżnicowanym etapem regułowego systemu decyzyjnego jest klasyfikacja Polega ona na określeniu decyzji obiektowi ze zbioru testowego na podstawie zbioru reguł uzyskanych w procesie selekcji Może zaistnieć kilka przypadków Pierwszym z nich jest sytuacja, gdy zbiór reguł po fazie selekcji (pokrywających obiekt) jest pusty Wówczas uznaje się obiekt za niepokryty Za poprawnie pokryty obiekt uznaje się sytuacje, gdy wszystkie wybrane podczas selekcji reguły mają jedną, tę samą oraz poprawną decyzję Tę decyzję przypisuje się obiektowi, który jest klasyfikowany Sytuacja staje się bardziej złożona, gdy zbiór wyselekcjonowanych reguł zawiera reguły z różnymi decyzjami Jako podstawę klasyfikacji w programie Reguły zastosowano częstość występowania decyzji reguły ze zbioru reguł wspierających Zliczana jest częstość występowania poszczególnych decyzji Obiektowi nadawana jest decyzja, która występuje najczęściej W przypadku, gdy występuje kilka decyzji o tej samej liczności oraz ta liczność jest maksymalna, wybiera się decyzję o młodszym indeksie Eksperymenty Istotnym elementem sprawdzania poprawności działania algorytmu są bazy testowe używane do weryfikacji implementacji Charakter bazy można określić za pomocą kilku cech: rodzaju i liczby atrybutów warunkowych, liczby instancji, liczby klas decyzyjnych Liczba atrybutów wybranych baz zawiera się w przedziale 9 57, a obiektów w przedziale Innym ważnym kryterium wyboru bazy, szczególnie biorąc pod uwagę aspekt porównania skuteczności algorytmów, jest powszechny dostęp oraz popularność w środowisku naukowym Wszystkie prezentowane w artykule bazy (tabela 6) są dostępne w repozytorium Uniwersytetu Kalifornijskiego [] Sprowadzając uogólnianie reguł decyzyjnych do problemu inżynierskiego, za ważny klasyfikator uważa się skuteczność systemu opartego na regułach w praktycznym użyciu Klasyfikator Tabela 6 Zestawienie prezentowanych baz danych Pełna nazwa bazy Spambase Data Set Dermatology Data Set Breast Cancer Wisconsin (Original) Data Set Indian Liver Patient Dataset Nazwa skrócona Liczba instancji Liczba atrybutów warunkowych Liczba klas decyzyjnych Spambase Dermatology Breast Cancer ILPD House Data Set House

7 można zmodelować za pomocą badania uzyskanej dokładności oraz pokrycia bazy testowej Oba testy powszechnie wykorzystuje się przy ocenie jakości reguł decyzyjnych [9, 25] Dokładność jest definiowana jako stosunek liczby poprawnie sklasyfikowanych obiektów do liczby wszystkich instancji bazy testowej Pokrycie intuicyjnie świadczy o liczbie przydzielonych decyzji dla obiektów, bez oceny ich poprawności, do wszystkich instancji Za inną ocenę jakości reguł można uznać badanie ich liczby oraz stopnia, w jakim każda z reguł pokrywa instancje bazy testowej Naturalnym i powszechnie stosowanym [25] sposobem testowania algorytmów eksploracji danych, czyli również algorytmów indukcji reguł decyzyjnych, jest podział bazy danych na dwie części: testową i treningową System uczony jest na bazie treningowej, a weryfikowany na testowej Podczas wyboru metody testowania algorytmu ważnym aspektem było odnalezienie i zastosowanie metody, która umożliwiałaby ograniczenie wpływu specyficznego doboru części treningowej oraz testowej zapewniającej korzystny bądź niekorzystny wynik testowania Wynika to z faktu, że instancje rzeczywistej bazy danych nie niosą równej informacji z perspektywy rozumienia indukcyjnego Częściowe, ale zadowalające, uniezależnienie się od przypadkowego wyboru instancji testowych/treningowych zapewnia metoda walidacji krzyżowej (cross validation) Polega ona na k-krotnym podziale bazy, gdzie k- części jest branych do treningu systemu, a k-ta część jest bazą testową Wykonywanych jest k iteracji, za każdym razem dla innej części testowej Pierwszą, a zarazem najbardziej istotną, procedurą testowania było przeprowadzenie walidacji krzyżowej o k = (CV-), mającej na celu zbadanie dokładności oraz pokrycia baz zaprezentowanych w tabeli 6 W celu ujednolicenia sposobu dyskretyzacji, do wszystkich baz zastosowano oprogramowanie Dyskretyzator, wykonane w ramach pracy dyplomowej [2] W celu porównania z innymi wybranymi metodami indukcji użyto oprogramowania Rough Sets Exploration System [28] W tabeli 7 przedstawiono wyniki porównawcze metod indukcji reguł decyzyjnych, program generujący, bazę, dokładność, pokrycie oraz algorytm indukujący reguły Dla programu Reguły są zawsze podane dwa rodzaje algorytmów: do generacji reguł oraz minimalizacji ich zbioru W przypadku bazy Spambase nie zastosowano algorytmu uzupełniania funkcji boolowskich, gdyż jej rozmiar to uniemożliwia Tabela 7 Wyniki porównawcze dla różnych metod indukcji reguł decyzyjnych Program Baza Dokładność Pokrycie Algorytm RSES2 Spambase 67,2% 93,% LEM2 Reguły Spambase 85,4% 95,% MinRow+MinRow RSES2 House 84,9% 89,6% LEM2 Reguły House 9,% % Complement+MinRow RSES2 Breast canser 87,% 87,% LEM2 Reguły Breast canser 87,9% 93,2% Complement+MinRow RSES2 Reguły RSES2 Reguły Indian Liver Patient Dataset Indian Liver Patient Dataset Dermatology Data Set Dermatology Data Set 28,84% 48,3% LEM2 66% 97% Complement+MinRow 87,77% 92,2% LEM2 78,% 99,8% Complement+MinRow W przypadku metod zaimplementowanych w programie Reguły osiągnieto lepsze wyniki dla baz Indian Liver Patient Dataset, Breast cancer, House, Spambase Jedynie dla bazy Dermatology Data Set wynik dokładności jest gorszy od wyniku oprogramowania RSES2 Na rys 2 przedstawiono wykres obrazujący stopień uogólnienia reguł Na osi poziomej zaprezentowano każdą kolejną wyge- Rys 2 Wygenerowane reguły oraz stopień pokrycia nerowaną przez program regułę, a na pionowej liczbę instancji bazy Spambase pokrytej przez tę regułę Program Reguły wygenerował 445 reguł, a RSES2 739 Z wykresu wyraźnie widać, że stopień uogólnienia reguł uogólnionych przez program Reguły jest większy (reguły pokrywają więcej obiektów) W programie Reguły do generacji reguł oraz minimalizacji tablicy reguł użyto algorytmu MinRow, ze względu na rozmiar bazy, a w programie RSES2 do indukcji zastosowano algorytm LEM2 * * * Przewagą proponowanego rozwiązania jest jego systematyczny sposób liczenia, dający pełne rozwiązania problemu pokrycia kolumnowego, podstawy uogólniania reguł Potwierdzono tezę, że niektóre zagadnienia eksploracji danych można z powodzeniem rozwiązać za pomocą metod bezpośrednio zaczerpniętych z syntezy logicznej układów cyfrowych Przeprowadzone badania potwierdziły zasadność stosowania algorytmu uzupełnienia funkcji boolowskich do uogólniania reguł decyzyjnych Metoda zapewnia zwiększenie stopnia ogólności indukowanych reguł decyzyjnych indukcji w porównaniu do innych metod Ograniczeniem algorytmu uogólniania funkcji boolowskich jest rozmiar bazy Jest to konsekwencja systematycznego charakteru algorytmu Jednakże nie należy odrzucać metody z powodu jej ograniczeń obliczeniowych Testy wykazały, że nie należy stosować algorytmu w przypadku rozległych baz, np z dziedziny telekomunikacji (ponad 4 instancji oraz ponad 5 atrybutów), w tym przypadku możliwa jest jedynie analiza heurystyczna Jednakże te same badania potwierdziły zasadność oraz skuteczność stosowania algorytmu indukcji reguł decyzyjnych w celu analizy diagnostycznych baz medycznych, które charakteryzują się mniejszymi rozmiarami w porównaniu do baz telekomunikacyjnych Systematyczne podejście w przypadku baz medycznych odniosło

8 sukces, udało się uzyskać lepsze wyniki, niż w przypadku innych porównywanych metod LITERATURA [] Bache K, Lichman M: UCI Machine Learning Repository [ icsuciedu/ml], Irvine, CA: University of California, School of Information and Computer Science, stan z listopada 23 [2] Borowik G: Data mining approach for decision and classification systems using logic synthesis algorithms (chapter) Vol Advanced Methods and Applications in Computational Intelligence R Klempous, J Nikodem, W Jacak, and Z Chaczko ed Springer International Publishing 24 [3] Borowik G, Łuba T: Fast algorithm of attribute reduction based on the complementation of boolean function (chapter) Vol Advanced Methods and Applications in Computational Intelligence R Klempous, J Nikodem, W Jacak, and Z Chaczko ed Springer International Publishing 24 [4] Bouckaert RR, Frank E, Hall M, Kirkby R, Reutemann P, Seewald A, Scuse D: WEKA Manual for Version 3-6-, 23 [5] Brayton RK, Hachtel GD: McMullen CT, Sangiovanni-Vincentelli A: Logic Minimization Algorithms for VLSI Synthesis, Kluwer Academi Publishers, 984 [6] Cendrowska J: PRISM, an algorithm for inducing modular rules, Int J Man-Machine Studies, 987 [7] Cios KJ, Pedrycz W, Świnarski RW: Data mining methods for knowledge discovery, Dordrecht, Kluwer, 999 [8] Clark P, Boswell R: Rule induction with CN2: some recent improvements, w: Kodratoff Y (red), Proceedings of 5th European Working Session on Learning ESWL 9 Porto, Portugal, Springer-Verlag, 99, ESWL 9 Porto, Portugal, Springer-Verlag, 99 [9] Grzymala-Busse JW: Rule Induction In Oded Maimon O, Lior Rokach R, Data Mining and Knowledge Discovery Handbook, Springer, New York 25 [] Grzymala-Busse JW: Incomplete data and generalization of indiscernibility relation, definability, and approximations In: RSFDGrC (), pp (25), DOI: 7/548669_26 [] Grzymala-Busse J W: Lers a system for learning from examples based on rough sets Intelligent Decision Support, 992 [2] Jankowski C: Dyskretyzacja danych numerycznych metodami przekształceń boolowskich Praca dyplomowa inżynierska Instytut Telekomunikacji Politechnika Warszawska Warszawa 24 [3] Komorowski J, Polkowski L, Skowron A: Rough Sets: A Tutorial, 998 [4] Łuba T(red), Rawski M, Tomaszewicz P, Zbierzchowski B: Programowalne układy przetwarzania sygnałów i informacji, Wydawnictwa Komunikacji i Łączności, Warszawa 28 [5] Łuba T (et al): Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne, nr 5, 24 [6] Michalski RS: A theory and methodology of inductive learning, w: Michalski RS Carbonell JG, Mitchell TM (red), Machine Learning: An Artificial Intelligence, Approach, Morgan Kaufman, 983 [7] Michalski RSL: On the quasi-minimal solution of the general covering problem, w: Proc of 5th Int Symp on Information Processing FCIP 69, Bled, 969 [8] Nguyen HS: Systemy decyzyjne, skrypt do przedmiotu, Uniwersytet Warszawski, Warszawa, 2, dostępny na stronie [ stan z listopada 23 [9] Pawlak Z: Rough Sets: Theoretical Aspects of Reasoning about Data Kluwer Academic Publishers, 99 [2] Pawlak Z, Skowron A: Rough sets and Boolean reasoning, Information Sciences, 77, 27 [2] Quinlan JR, C45: Programs for Machine Learning, San Francisco, Morgan Kaufmann, 993 [22] Kohavi R: The Power of Decision Tables In: 8th European Conference on Machine Learning, 995 [23] Skowron A: Boolean reasoning for decision rules generation, w: Komorowski J, Raś Z (red): Methodologies for Intelligent Systems, LNAI 689, Berlin, Springer-Verlag, 993 [24] Skowron A: Intelligent Decision Support Handbook of Applications and Advances of the Rough Sets Theory, Dordrecht, Kluwer Academic Publishers, 992 [25] Stefanowski J: Algorytmy indukcji reguł decyzyjnych w odkrywaniu wiedzy, rozprawa habilitacyjna, Wydawnictwo Politechniki Poznańskiej, 2 [26] Weiss SM, Kulikowski CA: Computer Systems That Learn: Classification and Prediction Methods from Statistics, Neural Nets, Machine Learning and Expert Systems, Morgan Kaufmann, 99 [27] Zhiguo H, Yuanxiang L: Rule induction Based on Decision Matrix, The 2nd International Conference on Volume 5, 2 [28] RSES Rough Set Exploration System, rses/

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Priorytetyzacja przypadków testowych za pomocą macierzy

Priorytetyzacja przypadków testowych za pomocą macierzy Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.

Bardziej szczegółowo

Minimalizacja funkcji boolowskich c.d.

Minimalizacja funkcji boolowskich c.d. Minimalizacja funkcji boolowskich c.d. Metoda tablic Karnaugha Metoda Quine a McCluskey a Absolutnie nieprzydatna do obliczeń komputerowych Pierwsze skuteczne narzędzie do minimalizacji wieloargumentowych

Bardziej szczegółowo

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Problem NP Problem NP (niedeterministycznie wielomianowy, ang. nondeterministic polynomial) to problem decyzyjny, dla którego rozwiązanie

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Sztuczna inteligencja

Sztuczna inteligencja POLITECHNIKA KRAKOWSKA WIEiK KATEDRA AUTOMATYKI I TECHNIK INFORMACYJNYCH Sztuczna inteligencja www.pk.edu.pl/~zk/si_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 10: Zbiory przybliżone

Bardziej szczegółowo

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych. mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko

Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko Katedra Systemów Multimedialnych 2009 Plan wykładu Historia zbiorów przybliżonych System informacyjny i decyzyjny Reguły decyzyjne Tożsamość

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Sztuczna Inteligencja Projekt

Sztuczna Inteligencja Projekt Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować

Bardziej szczegółowo

Synteza logiczna w eksploracji danych

Synteza logiczna w eksploracji danych Synteza logiczna w eksploracji danych Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach niemal w każdej dziedzinie życia medycynie

Bardziej szczegółowo

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ; Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.

Bardziej szczegółowo

Dyskretyzacja danych numerycznych metodami przekształceń boolowskich

Dyskretyzacja danych numerycznych metodami przekształceń boolowskich Preprint. The final publication is available at http://www.sigma-not.pl/rocznik-2014-59-przeglad-telekomunikacyjny.html Dyskretyzacja danych numerycznych metodami przekształceń boolowskich Cezary Jankowski,

Bardziej szczegółowo

Automatyczne wyodrębnianie reguł

Automatyczne wyodrębnianie reguł Automatyczne wyodrębnianie reguł Jedną z form reprezentacji wiedzy jest jej zapis w postaci zestawu reguł. Ta forma ma szereg korzyści: daje się łatwo interpretować, można zrozumieć sposób działania zbudowanego

Bardziej szczegółowo

Zasada indukcji matematycznej

Zasada indukcji matematycznej Zasada indukcji matematycznej Twierdzenie 1 (Zasada indukcji matematycznej). Niech ϕ(n) będzie formą zdaniową zmiennej n N 0. Załóżmy, że istnieje n 0 N 0 takie, że 1. ϕ(n 0 ) jest zdaniem prawdziwym,.

Bardziej szczegółowo

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori. Analiza danych Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ REGUŁY DECYZYJNE Metoda reprezentacji wiedzy (modelowania

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

komputery? Andrzej Skowron, Hung Son Nguyen  Instytut Matematyki, Wydział MIM, UW Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,

Bardziej szczegółowo

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych KLASYFIKACJA I REGRESJA cz. 2 Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki

Bardziej szczegółowo

Minimalizacja form boolowskich UC1, 2009

Minimalizacja form boolowskich UC1, 2009 Minimalizacja form boolowskich UC, 29 mplikanty funkcji boolowskiej UC, 29 2 mplikanty funkcji boolowskiej UC, 29 3 Metody minimalizacji UC, 29 4 Siatki Karnaugh UC, 29 5 Siatki Karnaugh UC, 29 Stosowanie

Bardziej szczegółowo

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott Struktury danych i złożoność obliczeniowa Wykład 7 Prof. dr hab. inż. Jan Magott Problemy NP-zupełne Transformacją wielomianową problemu π 2 do problemu π 1 (π 2 π 1 ) jest funkcja f: D π2 D π1 spełniająca

Bardziej szczegółowo

LOGIKA I TEORIA ZBIORÓW

LOGIKA I TEORIA ZBIORÓW LOGIKA I TEORIA ZBIORÓW Logika Logika jest nauką zajmującą się zdaniami Z punktu widzenia logiki istotne jest, czy dane zdanie jest prawdziwe, czy nie Nie jest natomiast istotne o czym to zdanie mówi Definicja

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji

Bardziej szczegółowo

Rozdział 1 PROGRAMOWANIE LINIOWE

Rozdział 1 PROGRAMOWANIE LINIOWE Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.1 Opis programów Do rozwiązania zadań programowania

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Synteza logiczna w eksploracji danych

Synteza logiczna w eksploracji danych Synteza logiczna w eksploracji danych Metody syntezy logicznej są wykorzystywane głównie do optymalizacji systemów cyfrowych przetwarzających sygnały binarne. Ich podstawowym zadaniem jest poprawa implementacji

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie

Bardziej szczegółowo

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w

Bardziej szczegółowo

Wstęp do Techniki Cyfrowej... Teoria automatów

Wstęp do Techniki Cyfrowej... Teoria automatów Wstęp do Techniki Cyfrowej... Teoria automatów Alfabety i litery Układ logiczny opisywany jest przez wektory, których wartości reprezentowane są przez ciągi kombinacji zerojedynkowych. Zwiększenie stopnia

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017 Logika Stosowana Wykład 1 - Logika zdaniowa Marcin Szczuka Instytut Informatyki UW Wykład monograficzny, semestr letni 2016/2017 Marcin Szczuka (MIMUW) Logika Stosowana 2017 1 / 30 Plan wykładu 1 Język

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO D. Miszczyńska, M.Miszczyński KBO UŁ GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO Gra w sensie niżej przedstawionym to zasady którymi kierują się decydenci. Zakładamy, że rezultatem gry jest wypłata,

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium

Bardziej szczegółowo

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott Struktury danych i złożoność obliczeniowa Wykład 5 Prof. dr hab. inż. Jan Magott DMT rozwiązuje problem decyzyjny π przy kodowaniu e w co najwyżej wielomianowym czasie, jeśli dla wszystkich łańcuchów wejściowych

Bardziej szczegółowo

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja Kierunek Informatyka Rok akademicki 2016/2017 Wydział Matematyczno-Przyrodniczy Uniwersytet Rzeszowski ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH Technika cyfrowa i architektura komputerów

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja

Bardziej szczegółowo

10. Redukcja wymiaru - metoda PCA

10. Redukcja wymiaru - metoda PCA Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component

Bardziej szczegółowo

Rozdział 1 PROGRAMOWANIE LINIOWE

Rozdział 1 PROGRAMOWANIE LINIOWE Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.2 Ćwiczenia komputerowe Ćwiczenie 1.1 Wykorzystując

Bardziej szczegółowo

Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning

Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning Warszawa, 30.01.2017 Prof. Dr hab. Henryk Rybinski Instytut Informatyki Politechniki Warszawskiej hrb@ii.pw.edu.pl Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach

Bardziej szczegółowo

Metody numeryczne Wykład 4

Metody numeryczne Wykład 4 Metody numeryczne Wykład 4 Dr inż. Michał Łanczont Instytut Elektrotechniki i Elektrotechnologii E419, tel. 4293, m.lanczont@pollub.pl, http://m.lanczont.pollub.pl Zakres wykładu Metody skończone rozwiązywania

Bardziej szczegółowo

Wybrane podstawowe rodzaje algorytmów

Wybrane podstawowe rodzaje algorytmów Wybrane podstawowe rodzaje algorytmów Tomasz Głowacki tglowacki@cs.put.poznan.pl Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii informatycznych

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

METODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski

METODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski METODA SYMPLEKS Maciej Patan Uniwersytet Zielonogórski WSTĘP Algorytm Sympleks najpotężniejsza metoda rozwiązywania programów liniowych Metoda generuje ciąg dopuszczalnych rozwiązań x k w taki sposób,

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 1 Metody numeryczne Dział matematyki Metody rozwiązywania problemów matematycznych za pomocą operacji na liczbach. Otrzymywane

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Synteza logiczna w eksploracji danych

Synteza logiczna w eksploracji danych Synteza logiczna w eksploracji danych Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach niemal w kaŝdej dziedzinie Ŝycia bankowości

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Systemy uczące się wykład 1

Systemy uczące się wykład 1 Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej

Bardziej szczegółowo

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH WSOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY RZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH 1. Definicje Zbiory, które nie są zbiorami definiowalnymi, są nazywane zbiorami przybliżonymi. Zbiory definiowalne

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Odkrywanie wiedzy w danych

Odkrywanie wiedzy w danych Inżynieria Wiedzy i Systemy Ekspertowe Odkrywanie wiedzy w danych dr inż. Michał Bereta Politechnika Krakowska http://torus.uck.pk.edu.pl/~beretam/ beretam@torus.uck.pk.edu.pl 1 Data Mining W pewnym teleturnieju

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

PRACA DYPLOMOWA INŻYNIERSKA

PRACA DYPLOMOWA INŻYNIERSKA Politechnika Warszawska Rok akademicki 22/23 Wydział Elektroniki i Technik Informacyjnych Kierunek Elektronika i Telekomunikacja Specjalność Inżynieria Komputerowa PRACA DYPLOMOWA INŻYNIERSKA Dawid Mazurek

Bardziej szczegółowo

Struktury danych i złozoność obliczeniowa. Prof. dr hab. inż. Jan Magott

Struktury danych i złozoność obliczeniowa. Prof. dr hab. inż. Jan Magott Struktury danych i złozoność obliczeniowa Prof. dr hab. inż. Jan Magott Formy zajęć: Wykład 1 godz., Ćwiczenia 1 godz., Projekt 2 godz.. Adres strony z materiałami do wykładu: http://www.zio.iiar.pwr.wroc.pl/sdizo.html

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny

Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny Tadeusz Łuba* Grzegorz Borowik* Karol Kowalski* Paweł Pecio* Cezary Jankowski* Michał Mańkowski** Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny Metody syntezy

Bardziej szczegółowo

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010 Algorytmy równoległe Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka Znajdowanie maksimum w zbiorze n liczb węzły - maksimum liczb głębokość = 3 praca = 4++ = 7 (operacji) n - liczność

Bardziej szczegółowo

Maszyny wektorów podpierajacych w regresji rangowej

Maszyny wektorów podpierajacych w regresji rangowej Maszyny wektorów podpierajacych w regresji rangowej Uniwersytet Mikołaja Kopernika Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie X X R d, Y R Z = (X, Y ), Z = (X, Y ) - niezależne

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

Elementy logiki. Wojciech Buszkowski Wydział Matematyki i Informatyki UAM Zakład Teorii Obliczeń

Elementy logiki. Wojciech Buszkowski Wydział Matematyki i Informatyki UAM Zakład Teorii Obliczeń Elementy logiki Wojciech Buszkowski Wydział Matematyki i Informatyki UAM Zakład Teorii Obliczeń 1 Klasyczny Rachunek Zdań 1.1 Spójniki logiczne Zdaniem w sensie logicznym nazywamy wyrażenie, które jest

Bardziej szczegółowo

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem

Bardziej szczegółowo

A Zadanie

A Zadanie where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Politechnika Poznańska Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Joanna Józefowska POZNAŃ 2010/11 Spis treści Rozdział 1. Metoda programowania dynamicznego........... 5

Bardziej szczegółowo

Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami

Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami Przykład 1. Napisz program, który dla podanej liczby n wypisze jej rozkład na czynniki pierwsze. Oblicz asymptotyczną złożoność

Bardziej szczegółowo

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA WYKŁAD 10. WNIOSKOWANIE W LOGICE ROZMYTEJ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WNIOSKOWANIE W LOGICE DWUWARTOŚCIOWEJ W logice

Bardziej szczegółowo

Analiza stanów gry na potrzeby UCT w DVRP

Analiza stanów gry na potrzeby UCT w DVRP Analiza stanów gry na potrzeby UCT w DVRP Seminarium IO na MiNI 04.11.2014 Michał Okulewicz based on the decision DEC-2012/07/B/ST6/01527 Plan prezentacji Definicja problemu DVRP DVRP na potrzeby UCB Analiza

Bardziej szczegółowo

WYKŁAD 6. Reguły decyzyjne

WYKŁAD 6. Reguły decyzyjne Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł

Bardziej szczegółowo

Sztuczna Inteligencja Projekt

Sztuczna Inteligencja Projekt Sztuczna Inteligencja Projekt Temat: Algorytm F-LEM1 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm F LEM 1. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu F LEM1

Bardziej szczegółowo

Zajęcia nr. 3 notatki

Zajęcia nr. 3 notatki Zajęcia nr. 3 notatki 22 kwietnia 2005 1 Funkcje liczbowe wprowadzenie Istnieje nieskończenie wiele funkcji w matematyce. W dodaktu nie wszystkie są liczbowe. Rozpatruje się funkcje które pobierają argumenty

Bardziej szczegółowo

Zaawansowane algorytmy i struktury danych

Zaawansowane algorytmy i struktury danych Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Koszt literału (literal cost) jest określony liczbą wystąpień literału w wyrażeniu boolowskim realizowanym przez układ.

Koszt literału (literal cost) jest określony liczbą wystąpień literału w wyrażeniu boolowskim realizowanym przez układ. Elementy cyfrowe i układy logiczne Wykład Legenda Kryterium kosztu realizacji Minimalizacja i optymalizacja Optymalizacja układów dwupoziomowych Tablica (mapa) Karnaugh a Metoda Quine a-mccluskey a Złożoność

Bardziej szczegółowo

5. Rozwiązywanie układów równań liniowych

5. Rozwiązywanie układów równań liniowych 5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a

Bardziej szczegółowo

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej Adam Meissner Adam.Meissner@put.poznan.pl http://www.man.poznan.pl/~ameis Elementy uczenia maszynowego Literatura [1] Bolc L., Zaremba

Bardziej szczegółowo