Zastosowanie algorytmu opartego na agentach programowych do redukcji danych
|
|
- Zbigniew Łukasik
- 6 lat temu
- Przeglądów:
Transkrypt
1 Zastosowanie algorytmu opartego na agentach programowych do redukcji danych Ireneusz Czarnowski 1 Streszczenie: W pracy zaproponowano algorytm redukcji danych w uczeniu maszynowym i eksploracji danych. Proponowany algorytm został zaimplementowanych w środowisku agentów programowych JA- BAT (JADE Based A-Team), które jest przeznaczone do rozwiązywania trudnych obliczeniowo problemów optymalizacyjnych. JABAT zastosowano do redukcji zbioru danych opartej na przeszukiwaniu wektorów uczących i wyborze wektorów referencyjnych. Prezentowany w pracy problem redukcji danych obejmuje również redukcję liczby atrybutów i usuniecie atrybutów nieistotnych dla klasyfikacji. W pracy przedstawiono także wyniki wybranych eksperymentów obliczeniowych. Słowa kluczowe: selekcja wektorów referencyjnych, selekcja atrybutów, eksploracja danych, klasyfikacja. 1. Wstęp Zainteresowanie systemami wspomagania decyzji stymuluje rozwój współczesnej informatyki, która poza gromadzeniem, przechowywaniem, udostępnianiem danych i informacji musi w obliczu wzrostu ich objętości w coraz większym stopniu wspomagać człowieka w procesie ich analizy (Krawiec, 2000). Analiza zgromadzonych danych a następnie wyciąganie użytecznych wniosków są typowymi procesami poprzedzającymi podjęcie decyzji. Narzędzia analizy danych są wykorzystywane w instytucjach finansowych, firmach telekomunikacyjnych czy w korporacjach handlowych. Następstwem takiego stanu rzeczy jest rosnące zainteresowanie narzędziami wspomagania decyzji wykorzystującymi techniki sztucznej inteligencji. Pośród nich szczególne miejsce zajmują metody rozpoznawania wzorców (ang.: pattern recognition). Sukces algorytmów rozpoznawania wzorców leżał u podstaw powstania nowego działu informatyki związanego z odkrywaniem wiedzy drogą analizy danych gromadzonych w bazach danych. Celem odkrywania wiedzy z danych, a więc procesu eksploracji danych, jest wspieranie procesu podejmowania decyzji. Jednym z ważniejszych problemów eksploracji danych jest klasyfikacja, której celem jest prawidłowa klasyfikacja obiektu na podstawie analizy wartości jego atrybutów. W większości przypadków odkrywanie wiedzy w bazach danych realizowane jest przy użyciu metod uczenia maszynowego. Wszystkie algorytmy uczenia maszynowego wymagają zbioru danych treningowych. W przypadku klasyfikacji zbiór treningowy zawiera przykłady zwane również wektorami uczącymi lub obiektami, w skład których wchodzą wektory wejściowe oraz wartości wyjściowe. Wektory wejściowe najczęściej opisywane są przy użyciu 1 Katedra Systemów Informacyjnych, Akademia Morska w Gdyni, Morska 83, Gdynia irek@am.gdynia.pl
2 Zastosowanie algorytmu opartego na agentach programowych do redukcji danych 547 notacji atrybut-wartość (Krawiec, 2003). Zgodnie z tą notacją każdy wektor wejściowy jest opisany za pomocą ustalonego zbioru atrybutów. Wartość wyjściowa, odpowiednia dla danego wektora wejściowego, jest określana wartością atrybutu decyzyjnego. Zwiększenie efektywności metod uczenia maszynowego może łączyć się z pozostawieniem w zbiorze danych treningowych tzw. wektorów referencyjnych i wyeliminowanie wektorów nadmiarowych i zawierających błędy lub szumy. Podawanie dużej ilości wektorów referencyjnych w procesie uczenia nie warunkuje wysokiej jakości klasyfikacji, a często jedynie spowalnia proces uczenia (Wilson, 2000). Redukcja rozmiaru zbioru treningowego prowadzi do skrócenia czasu potrzebnego na przeprowadzenie klasyfikacji oraz zmniejszenia wymagań, co do zasobów obliczeniowych. W efekcie, redukcja danych treningowych może przyspieszyć proces uczenia przy jednoczesnym zachowaniu pożądanego poziomu jakości klasyfikacji, a nawet polepszeniu jej jakości. W związku z tym proces redukcji danych uczących jest istotnym elementem odkrywania wiedzy w bazach danych i pozostaje ciągle aktywnym polem badań (Wilson, 2000; Czarnowski, 2004). Równie ważnym problemem jest redukcja liczby atrybutów i usunięcie ze zbioru danych atrybutów redundantnych oraz nieistotnych dla klasyfikacji. W rzeczywistych sytuacjach atrybuty istotne z punktu analizowanego problemu są często nieznane a priori. Intuicyjnie, gromadzenie danych o dużej liczbie atrybutów jest próbą jak najlepszego opisu obiektów z danego problemu (Dash, 1997). Jednak użycie wektorów uczących składających się nieistotnych atrybutów może przynieść nieoczekiwane skutki w postaci niskiej jakości klasyfikacji. Natomiast wykorzystanie atrybutów redundantnych nie wnosi żadnej dodatkowej informacji. Ponadto Langley (1993) pokazał, że liczba obiektów niezbędna do uzyskania danej jakości klasyfikacji rośnie wykładniczo z liczbą nieistotnych atrybutów. I choć istnieje wiele metod selekcji atrybutów, na przykład wywodzących się ze statystyki, teorii informacji czy sztucznej inteligencji, problem pozostaje nadal przedmiotem intensywnych badań (Dash, 1997; Raman, 2003). Interesującym problemem badawczym jest eliminacja danych nadmiarowych, nieistotnych i zaszumionych w każdym z wymiarów, to jest zarówno w przestrzeni atrybutów jak i przestrzeni przykładów. Problem jednoczesnej selekcji wektorów referencyjnych jak i atrybutów w literaturze niekiedy postrzegany jest jako typowy problem redukcji danych w każdym z wymiarów (Cano, 2004) lub jako problem rewizji przekonań w adaptacyjnych systemach klasyfikujących (Wróblewski, 2001). W pracy do redukcji danych zaproponowano algorytm zaimplementowany w środowisku agentów programowych JABAT. JABAT jest uniwersalnym środowiskiem przeznaczonym do rozwiązaywania trudnych złożonych probemów optymalizacyjnych. Krótką charakterystykę proponowanych algorytmów redukcji danych zawarto w części 2. W części 3 przedstawiono charakterystykę środowiska JABAT oraz implementację proponowanego w pracy algorytmu redukcji danych. Sposób przeprowadzenia eksperymentów obliczeniowych oraz uzyskane wyniki przedstawiono w części 4. Ostatnia część pracy zawiera wnioski i propozycje kierunku dalszych badań.
3 548 I. Czarnowski 2. Algorytmy redukcji danych 2.1. Selekcja wektorów referencyjnych Problem redukcji danych związany z selekcją wektorów referencyjnych prowadzi do pozostawienia pewnej liczby przypadków z oryginalnego zbioru danych treningowych T i utworzenie zredukowanego zbioru treningowego S. Niech, zatem N jest liczbą przypadków w zbiorze T, n - jest liczbą atrybutów wektora wejściowego oraz X = {x ij } (gdzie i = 1,..., N, j = 1,..., n+1) jest macierzą o n+1 kolumnach i N wierszach zawierającą wszystkie wektory wejściowe wraz z wartością wyjściową z T (n + 1 element tablicy jest wartością wyjściową dla danego wektora wejściowego). Znane algorytmy redukcji danych wybierają wektory referencyjne obliczając odległość pomiędzy wektorami w zbiorze danych treningowych. Przypadkami referencyjnymi stają się wówczas wektory leżące w okolicach centrów skupień tworzonych przez wektory podobne. Algorytmy te wykorzystują mechanizm grupowania (klasteryzacji) (Duch, 2000; Salzberg, 1991; Wilson, 2000). Wariantem metod klasteryzacji stosowanych w redukcji danych wejściowych jest zmniejszanie tzw. rozdzielczości danych (Duch, 2000). Inna grupa metod należąca do metod bazujących na podobieństwie usuwa ze zbioru treningowego k najbliższych sąsiadów z danej klasy wektorów zakładając, że wszystkie wektory z sąsiedztwa będą i tak jednoznacznie klasyfikowane (Duch, 2000; Wilson, 2000). Inna grupa algorytmów eliminuje wektory treningowe testując klasyfikator i redukując sukcesywnie zbiór danych wejściowych (Duch, 2000). W literaturze problem selekcji wektorów referencyjnych, nazywany jest również problem selekcji prototypów, rozwiązywany jest także metodami ewolucyjnymi oraz heurystykami opartymi na mechanizmach losowych (Caono, 2004; Skalak, 1994; Rozsypal, 2003). Proponowany w pracy algorytm redukcji danych treningowych dla przestrzeni przykładów został oparty na założeniu, iż wektory referencyjne będą wybierane z klastrów, które wyznacza się na podstawie następującej procedury: Krok 1: Normalizacja każdej wartości x ij X (i = 1,..., N, j = 1,..., n) do przedziału [0, 1] oraz zaokrąglenie x ij do najbliższej wartości całkowitej. Krok 2: Obliczenie dla każdego przykładu współczynnika podobieństwa I i : n+1 I i = x ij s j, i = 1,..., N, (1) gdzie s j = j=1 N x ij, j = 1,..., n + 1. (2) i=1 Krok 2:Grupowanie wektorów z X w t klastrów Y v (v = 1,..., t) zawierających wektory o identycznych wartościach współczynnika I i, gdzie t jest liczbą różnych wartości I. Krok 4: Wybór wektorów referencyjnych i utworzenie zbioru S. Jeżeli przez Y v oznaczymy liczbę wektorów w klastrze v (v = 1,..., t), to wybór wektorów referencyjnych przebiega następująco:
4 Zastosowanie algorytmu opartego na agentach programowych do redukcji danych Jeżeli Y v = 1 to S = S Y v, - Jeżeli Y v > 1 to S = S {x v }, gdzie x v jest wektorem referencyjnym z Y v wybranym przez algorytm oparty na agentach programowych. Idea przedstawionej powyżej selekcji wektorów referencyjnych była wcześniej prezentowana w pracy (Czarnowski, 2004). Wyniki eksperymentów obliczeniowych zaprezentowane w pracy (Czarnowski, 2004) pokazały, że selekcja wektorów referencyjnych spośród grup wektorów o identycznych wartościach współczynnika podobieństwa może prowadzić do redukcji liczby przykładów w zbiorze treningowym przy jednoczesnym zagwarantowaniu odpowiedniej jakości klasyfikacji. Wyniki eksperymentów pokazały również, że redukcja zbioru treningowego może przyczynić się do podniesienia efektywności algorytmów uczenia maszynowego Redukcja danych w przestrzeni atrybutów Równie ważnym problemem, jak selekcja wektorów referencyjnych, jest redukcja liczby atrybutów i usunięcie ze zbioru danych atrybutów redundantnych oraz nieistotnych dla klasyfikacji. Ponadto problem znalezienia optymalnego i minimalnego podzbioru atrybutów jest problemem NP-trudnym (Wróblewski, 2001). Dokładne metody selekcji atrybutów dokonują przeszukiwania wszystkich możliwych ich podzbiorów. Takie podejście jest jednak zbyt kosztowne obliczeniowo. Metody wywodzące się ze statystyki oceniają pojedyncze atrybuty. Inne metody dokonują oceny podzbiorów atrybutów, które tworzone są przy użyciu różnych technik opartych na przeszukiwaniu losowym, heurystycznym bądź ewolucyjnym. Przeglądu metod selekcji atrybutów dokonano między innymi w pracach (Dash, 1997; Raman, 2003; Zongker, 1996). 3. Algorytm redukcji danych oparty na agentach programowych 3.1. Charakterystyka środowiska JABAT Prezentowany w pracy problem redukcji danych rozwiązano przy użyciu algorytmu, który zaimplementowano w środowisku JABAT. JABAT jest uniwersalnym środowiskiem oparym na agentach programowych, które kooperują i współdzielą pamięć celem rozwiązania problemu optymalizacyjnego. We współnej pamięci jest zapisana populacja składająca się z potencjalnych rozwiązań problemu. JABAT, wzorowany na koncepcji A-Team (Talukdar, 1998), jest środowiskiem, w którym rozwiązywanie problemu opiera się na następujących założeniach: - do rozwiązania każdego problemu optymalizacyjnego należy użyć zbioru agentów programowych wykonujących procedury poprawy, - celem przeszukiwania przestrzeni rozwiązań oraz unikania optimów lokalnych należy wygenerować populację rozwiązań (osobników), które w trakcie obliczeń będą optymalizowane przez niezależnych agentów.
5 550 I. Czarnowski JABAT organizuje i prowadzi obliczenia przez generowanie populacji początkowej rozwiązań (zazwyczaj z wykorzystaniem mechanizmów losowych), optymalizację rozwiązań odczytywanych z pamięci i ponowne zapisywanie ich do pamięci, oraz przez kontynuowanie cyklu czytania-poprawiania-zapisywania, aż do spełnienia kryterium zatrzymania. Realizacja powyższych kroków opiera się na wykorzystaniu dwóch klas agentów: OptiAgent - dotyczy agenta z implementowanym algorytmem optymalizacji, SolutionManager - dotyczy agenta zajmującego się zarządzaniem populacją rozwiązań. SolutionManager posiada pełne informacje o typie i charakterze rozwiązywanego problemu. Obie klasy agentów kooperują, a współpraca jest wynikiem negocjacji i skojarzenia instancji rozwiązywanego problemu z oferowaną przez agenta optymalizacyjnego usługą. Cechą JABATu jest jego uniwersalność i niezależność od rozwiązywanych problemów oraz algorytmów poprawy. W JABAT zdefiniowania problemu i rozwiązania dokonuje się w oparciu o klasy bazowe Task i Solution oraz odpowiednie dla nich ontologie TaskOntology i SolutionOntology dostarczające definicji dla rozwiązywanego problemu oraz opisu rozwiązania. Definiowanie problemu do rozwiązania, sposoby wymiany rozwiązań oraz przykłady zastosowań JABAT szerzej zostały przedstawione w pracy (Jędrzejowicz, 2006) Implementacja algorytmu redukcji danych Proponowany w pracy algorytm redukcji danych oraz wszystkie niezbędne do jego użycia klasy zostały zdefiniowane w ramach autorskiego pakietu IFS (instance and feature selection). IFS zawiera dwie podstawowe dla rozwiązywanego problemu klasy: IFS_Task i IFS_Solution, będące odpowiednio podklasami Task i Solution. IFS_Task definiuje problem i zawiera między innymi nazwę oraz lokalizację zbioru danych. Zadaniem IFS_Task jest również utworzenie klastrów dla potencjalnych wektorów referencyjnych. IFS_Task dostarcza w tym przypadku informacji o tym, które wektory z oryginalnego zbioru treningowego znajdują się w danym klastrze. Tworzenie poszczególnych klastrów przebiega zgodnie z procedurą przedstawioną w części 2.1. Klasa IFS_Solution zawiera opis rozwiązania problemu. Każde rozwiązanie reprezentowane jest przez dwie listy zawierające odpowiednio: - wektory referencyjne, tj. numery przykładów wybranych z oryginalnego zbioru treningowego. Lista na Y v pierwszych pozycjach zawiera informację o mocy poszczególnych zbiorów (klastrów), - wybrane atrybuty, a w szczególności numery atrybutów. IFS_Solution dostarcza również informacji o wartości funkcji celu. W tym przypadku jest to wartość jakości klasyfikacji uzyskanej przez klasyfikator skonstruowany w oparciu o zredukowany zbiór danych. W prezentowanym w pracy podejściu do oceny rozwiązań wykorzystano algorytm C 4.5 (Quinlan, 1993) choć jest ono niezależne od algorytmu klasyfikacji. Użycie algorytmu C 4.5 pozwoliło na uzyskanie dodatkowych informacji takich, jak rozmiar drzewa decyzyjnego i liczba
6 Zastosowanie algorytmu opartego na agentach programowych do redukcji danych 551 reguł, i w konsekwencji na szersze porównanie uzyskanych wyników. IFS_Solution dostarcza również dodatkowych informacji takich, jak: poziom kompresji dla przestrzeni przykładów i atrybutów, liczba reguł oraz rozmiar drzewa. Do wymiany informacji pomiędzy agentami optymalizacyjnymi a klasą Solution- Manager zdefiniowano, odpowiednio, klasy IFS_TaskOntology oraz IFS_Solution- Ontology. IFS_TaskOntology umożliwia przesyłanie pomiędzy agentami parametrów zadania oraz informacji o numerach przykładów należących do poszczególnych klastrów i reprezentujących potencjalne wektory referencyjne. Natomiast IFS_- SolutionOntology umożliwia przesyłanie potencjalnych rozwiązań. W proponowanym algorytmie każdy z agentów optymalizacyjnych dokonuje poprawy rozwiązania wybranego losowo z populacji przez SolutionManagera. Zadaniem każdego z agentów optymalizacyjnych jest poprawa jakości rozwiązania. Każdy z agentów optymalizacyjnych poprawia rozwiązanie przez określoną liczbę iteracji, po czym odsyła je do SolutionManagera. SolutionManager aktualizuje wspólną pamięć (populację) przez nadpisanie rozwiązania losowo wybranego z populacji rozwiązaniem poprawionym i odebranym od agenta optymalizacyjnego. SolutionManager zarządza populacją rozwiązań, która w momencie rozpoczęcia obliczeń generowana jest losowo. Oznacza to, że populacja początkowa zawiera rozwiązania o różnej liczbie wektorów referencyjnych w poszczególnych klastrach oraz różnej liczbie atrybutów. Do rozwiązania problemu redukcji danych zaimplementowano, jako podklasy OptiAgent, cztery typy agentów reprezentujących różne procedury poprawy. Dwie z zaimplementowanych procedur zostały przeznaczone do optymalizacji otrzymanego rozwiązania przez modyfikację i zmianę wektorów referencyjnych w poszczególnych klastrach. Trzecia procedura poprawia rozwiązanie przez modyfikację listy odnoszącej się do numerów atrybutów. Czwarta z procedur poprawy dedykowana jest poprawie rozwiązania przez jego modyfikację zarówno dla przestrzeni wektorów jak i atrybutów. Pierwszy agent optymalizacyjny - lokalne przeszukiwanie przestrzeni wektorów z listą ruchów zabronionych - tabu (Glover, 1990), opiera się modyfikacji rozwiązania przez usunięcie losowo wybranego numeru wektora referencyjnego w losowo wybranym klastrze i dodaniu innego aktualnie nie reprezentowanego w poprawianym rozwiązaniu. Modyfikacja ta poprzedzona jest sprawdzeniem, czy losowo wybrany numer wektora nie znajdują się liście tabu. Oznacza to, że w kolejnych iteracjach procedury modyfikowane są klastry, dla których numery wektorów referencyjnych nie znajdują się na liście tabu. W przypadku, gdy nastąpi modyfikacja rozwiązania każde nowo dodane numery wektorów referencyjnych zapisywane są na liście tabu i pozostają tam przez określoną liczbę iteracji. W tym jednak przypadku czas przetrzymywania na liście zależy od maksymalnej możliwej do uzyskania mocy danego klastra. W konsekwencji oznacza to, że czas przetrzymywania numerów wektorów z klastrów o mniejszej mocy jest któtszy. Ostatecznie rozwiązanie zmodyfikowane zastępuje rozwiązanie poprawiane, jeśli jest lepsze przy uwzględnieniu przyjętej funkcji celu, w przeciwnym razie rozwiązanie zmodyfikowane jest odrzucane. Drugi agent optymalizacyjny - lokalne przeszukiwanie, opiera się na modyfikacji rozwiązania przez usunięcie losowo wybranego numeru wektora referencyjnego
7 552 I. Czarnowski w losowo wybranym klastrze i dodaniu innego aktualnie nie reprezentowanego w poprawianym rozwiązaniu. W tym przypadku modyfikacja nie wprowadza zmiany w liczebności poszczególnych klastrów. Dodatkowo, co określoną parametrem procedury liczbę iteracji, rozwiązanie jest modyfikowane przez dodanie do losowo wybranego klastra nowego wektora referencyjnego aktualnie nie reprezentowanego przez poprawiane rozwiązanie lub usunięcie losowo wybranego wektora referencyjnego. Proces dekrementacji i inkrementacji mocy klastrów prowadzany jest z jednakowym prawdopodobieństwem, przy czym zmodyfikowane rozwiązanie zastępuje rozwiązanie poprawiane, jeśli jest lepsze przy zadanym kryterium jakościowym, w przeciwnym razie jest ono odrzucane. Trzeci agent optymalizacyjny - lokalne przeszukiwanie przestrzeni atrybutów z listą ruchów zabronionych - tabu, stanowi pewną analogię do pierwszego z agentów optymalizacyjnych. W tym jednak przypadku modyfikacja i poprawa rozwiązań prowadzona jest odpowiednio w przestrzeni atrybutów. Trzeci agent optymalizuje rozwiązanie przez usunięcie losowo wybranego numeru atrybutu i dodanie innego aktualnie nie reprezentowanego w poprawianym rozwiązaniu. Modyfikacja ta poprzedzona jest sprawdzeniem, czy losowo wybrany numer atrybutu nie znajdują się na liście tabu. Oznacza to, że w kolejnych iteracjach procedury modyfikowane są numery atrybutów, które nie znajdują się na liście tabu. W przypadku, gdy nastąpi modyfikacja rozwiązania, każdy nowo dodany atrybut zostaje zapisywany na liście tabu i pozostaje tam przez określoną liczbę iteracji. Ostatecznie rozwiązanie zmodyfikowane zastępuje rozwiązanie poprawiane, jeśli jest lepsze przy uwzględnieniu przyjętej funkcji celu, w przeciwnym razie rozwiązanie zmodyfikowane jest odrzucane. Czwarty agent optymalizacyjny - lokalne przeszukiwanie zbioru danych, modyfikuje i poprawia rozwiązanie przez usunięcie losowo wybranego numeru wektora referencyjnego w losowo wybranym klastrze i dodaniu innego aktualnie nie reprezentowanego w poprawianym rozwiązaniu nie wprowadzając przy tym zmian w liczebności poszczególnych klastrów. Dodatkowo, co określoną parametrem procedury liczbę iteracji rozwiązanie jest modyfikowane przez usunięcie losowo wybranego numeru atrybutu, bądź dodanie do rozwiązania nowego numeru atrybutu aktualnie nie reprezentowanego w poprawianym rozwiązaniu. Dodawanie i usuwanie atrybutów prowadzone jest z jednakowym prawdopodobieństwem. Zmodyfikowane rozwiązanie zastępuje rozwiązanie poprawiane, gdy jest ono lepsze przy uwzględnieniu przyjętej funkcji celu, w przeciwnym razie jest ono odrzucane. 4. Wyniki eksperymentów obliczeniowych Proponowany algorytm poddano weryfikacji na drodze eksperymentów obliczeniowych. Celem eksperymentów była ocena efektywności i użyteczności proponowanego algorytmu, opartego na agentach programowych, do redukcji danych. W oparciu o przeprowadzone eksperymenty przedstawiono i porównano jakość klasyfikacji uzyskanej przy użyciu algorytmu klasyfikującego skonstruowanego przy użyciu zredukowanego zbioru danych z wynikami uzyskanymi przy wykorzystaniu oryginalnego zbioru treningowego.
8 Zastosowanie algorytmu opartego na agentach programowych do redukcji danych 553 Eksperymenty obliczeniowe przeprowadzono dla wybranych danych benchmarkowych (Merz, 1998): Cleveland heart disease (303 obiekty, 13 atrybutów, 2 klasy), credit approval (690, 15, 2), Wisconsin breast cancer (699, 9, 2) oraz sonar (208, 60,2). W poszczególnych eksperymentach, z wykluczeniem problemu sonar, do wyznaczenia jakości klasyfikacji posłużono się testem 10 - krotnej walidacji skrośnej. W teście tym każdy ze zbiorów danych podzielony został na 10 równych (o ile to możliwe) części i algorytm redukcji danych był użyty na zbiorze treningowym T składającym się z 9 części, z których otrzymano zredukowany zbiór S. Pozostała 10-ta część posłużyła do testowania. Tak skonstruowany zbiór S był użyty do zbudowania klasyfikatora opartego na algorytmie C 4.5. Procedurę powtarzano 10-krotnie tak, aby każda z części oryginalnego zbioru treningowego wystąpiła w roli zbioru testowego. W przypadku problemu rozpoznawania celów sonarowych eksperyment przeprowadzono w oparciu o oryginalne zbiory: treningowy i testowy, a redukcji danych poddano zbiór treningowy. Każdy z eksperymentów powtórzono 30 krotnie a uzyskane wyniki zostały uśrednione. Liczba iteracji dla każdej z procedur poprawy wynosiła 100. W przypadku JABAT wielkość pamięci wspólnej (populacji) wyniosła 100. Wartości podanych parametrów dla proponowanego algorytmu zostały określone eksperymentalnie. Wyniki eksperymentów obliczeniowych pokazano w Tabeli 1. Wyniki te przedstawiono odpowiednio dla dwóch wariantów algorytmu C 4.5: bez przycinania drzewa oraz z przycinaniem drzewa. Ponadto celem zobrazowania efektywności redukcji danych, realizowanej przy użyciu prezentowanego w pracy algorytmu, w Tabeli 1 podano wartości jakości klasyfikacji otrzymane dla następujących przypadków: A - jakość klasyfikatora skonstruowanego przy użyciu pełnego, oryginalnego zbioru danych; B - jakość klasyfikatora skonstruowanego przy wykorzystaniu zbioru treningowego opisanego na przestrzeni atrybutów wybranych przy użyciu techniki wrapper (w podejściu wrapper do oceny poszczególnych podzbiorów atrybutów wykorzystano algorytm C4.5) (Dash, 1997); C - jakość klasyfikatora skonstruowanego przy użyciu zbioru treningowego składającego się z wektorów referencyjnych (do zbudowania zbioru treningowego wykorzystano wariant prezentowanego w pracy algorytmu, który został oparty wyłącznie na agentach optymalizacyjnych przeznaczonych do wyboru wektorów referencyjnych); D - jakość klasyfikatora skonstruowanego przy użyciu zbioru danych zbudowanego zgodnie z procedurą dla przypadku C rozszerzoną o selekcję atrybutów opartą na technice wrapper; E - jakość klasyfikatora opartego na zbiorze danych zbudowanym przy użyciu algorytmu redukcji danych prezentowanego w niniejszej pracy. W Tabeli 1 przedstawiano również średni rozmiar drzewa decyzyjnego algorytmu C 4.5 oraz średnią liczbę reguł. Te dodatkowe wielkości zostały przedstawione celem pełniejszego zobrazowania wpływu redukcji danych na jakość uzyskiwanych wyników. W tym przypadku podane wyniki pozwalają na ocenę redukcji
9 554 I. Czarnowski Tabela 1. Średnia jakość klasyfikacji (w %) algorytmu C 4.5 oraz średnia liczba reguł i średni rozmiar drzewa decyzyjnego Przycinanie drzewa Brak przycinania drzewa Średnia jakość klasyfikacji (%) Problem A B C D E A B C D E credit cancer heart sonar średnio Średnia liczba reguł credit cancer heart sonar Średni rozmiar drzewa credit cancer heart sonar danych z perspektywy reprezentacji wiedzy. Na podstawie uzyskanych wyników można sformułować wniosek, że redukcja danych w każdym z wymiarów może prowadzić do uzyskania wyższej jakości klasyfikacji w stosunku do przypadku stosowania w uczeniu klasyfikatora pełnego oryginalnego zbioru danych. Wyniki eksperymentów obliczeniowych pokazały, że podwyższenie jakość klasyfikacji można uzyskać stosując redukcję danych zarówno dla przestrzeni przykładów jak i przestrzeni atrybutów. Dla przykładu, jakość klasyfikacji, dla problemu credit, uzyskana przy użyciu zbioru treningowego zbudowanego przy użyciu JABAT wyniosła 92.6% i 90.2%, odpowiednio dla przypadków z przycinaniem i bez przycinania drzewa, a w przypadku użycia oryginalnego zbioru danych algorytm C 4.5 gwarantował uzyskanie jakości klasyfikacji na poziomie 84.9% i 93.2%. W innym przykładzie - problem sonar, jakość klasyfikacji uzyskana przy wykorzystaniu zbioru zredukowanego dla obu wymiarów wyniosła 87.5% i 88.8%, odpowiednio dla przypadków z przycinaniem i bez przycinania drzewa, gdy dla przypadku z użyciu oryginalnego zbioru danych jakość wynosi 74% niezależnie od parametryzacji algorytmu C4.5 dotyczącej upraszczania struktury drzewa. Ponadto wyniki eksperymentów pokazują, że stosowanie redukcji danych wyłącznie dla przestrzeni przykładów również gwarantuje poprawę jakości klasyfikacji. W tym przypadku jakość klasyfikacja przewyższa wyniki dotyczące użycia oryginalnego zbioru danych oraz wyniki związane z użyciem zredukowanego zbioru
10 Zastosowanie algorytmu opartego na agentach programowych do redukcji danych 555 Tabela 2. Liczba atrybutów uzyskana w poszczególnych eksperymentach Średnia liczba atrybutów Problem A B C D E RMHC credit cancer heart sonar Tabela 3. Średnia jakość klasyfikacji (w %) oraz poziom kompresji (w %) wybranych algorytmów redukcji danych Problem cancer heart credit sonar S S S S Algorytm Jakość T Jakość T Jakość T Jakość T JABAT K-NN CNN SNN IB IB DROP * (patrz Rozsypal, 2003) danych dla przestrzeni atrybutów i uzyskanego techniką wrapper. Wyniki pokazują również, że redukcja przestrzeni atrybutów techniką wrapper nie gwarantuje istotnego podwyższenia jakości klasyfikacji. Uwzględniając inne kryteria jakościowe - tj. liczba reguł i rozmiar drzewa, wyniki pokazują, że redukcja danych może również przyczynić się uzyskania mniej złożonych, bardziej czytelnych i łatwiejszych do interpretacji opisów zależności występujących w danych. Dodatkowo w Tabeli 2 zawarto wielkości odnoszące się do średniej liczby atrybutów w zbiorze treningowym odpowiednio dla każdego z eksperymentów. W Tabeli 2 zawarto również średnią liczbę atrybutów uzyskaną w wyniku selekcji prowadzonej przy użyciu algorytmu - RMHC (random mutation hill climbing) dedykowanego jednoczesnej selekcji atrybutów i wektorów referencyjnych, oraz walidowanego na tych samym zestawie danych benchmarkowych (Skalak, 1994). W przypadku redukcji danych w przestrzeni przykładów przedstawiony w pracy algorytm gwarantował uzyskanie kompresji danych na poziomie, odpowiednio: 30% dla problemu credit, 20% - cancer, 60% - heart oraz 90% dla problemu sonar. Dla porównania w Tabeli 3 przedstawiono poziom kompresji (kolumna: S / T ) oraz jakość klasyfikacji uzyskaną przy użyciu innych wybranych algorytmów redukcji danych należących do klasy instance-based (Wilson, 2000).
11 556 I. Czarnowski 5. Zakończenie W pracy przedstawiono algorytm, oparty na agentach programowych, do redukcji danych. Zaimplementowany w środowisku JABAT algorytm wykorzystano do redukcji danych dla przestrzeni przykładów oraz dla przestrzeni atrybutów. Wyniki przeprowadzonych eksperymentów obliczeniowych wykazały korzystny wpływ redukcji danych w uczeniu maszynowym i eksploracji danych. Użycie proponowanego podejścia redukcji danych zwiększa efektywność uczenia poprzez skuteczne filtrowanie zbioru danych wejściowych i eliminowanie z niego szumów, informacji redundantnych oraz nieistotnych dla klasyfikacji. Dalsze badania obejmą konstruowanie i weryfikację innych procedur selekcji danych oraz weryfikację proponowanego podejścia pod kątem eksploracji danych w rozproszonym systemie baz danych. Literatura Cano J.R., Herrera F., Lozano M. (2004) Stratification for scaling up evolutionary prototype selection. Pattern Recognition Letters, Elsevier, (in press) Czarnowski I., Jędrzejowicz, P. (2004) An approach to instance reduction in supervised learning. W: Coenen F., Preece A. and Macintosh A. (red.), Research and Development in Intelligent Systems XX, Springer, London, Dash, M. Liu H. (1997) Feature selection for classification. Analysis 1, 3, Intelligence Data Duch W., Grudziński K. (2000) Sieci neuronowe i uczenie maszynowe: próba integracji. W: Sieci neuronowe, Duch W., Korbicz J., Rutkowski L., Tadeusiewicz R. (red.), Biocybernetyka 6, 3, Glover F. (1990) Tabu search - part I. ORSA Journal of Computing 1, Jędrzejowicz P., Wierzbowska I. (2006) JADE-based A-team environment. Lecture Notes in Computer Science, Springer Berlin/Heidelberg, 3993, Krawiec K. (2000) Konstruktywna indukcja cech we wspomaganiu decyzji na podstawie informacji obrazowej. Rozprawa doktorska. Instytut Informatyki Politechniki Poznańskiej, Poznań. Krawiec K., Stefanowski J. (2003) Uczenie maszynowe i sieci neuronowe. Wydawnictwo Politechniki Poznańskiej, Poznań. Langley, P., Iba, W. (1993) Average-case analysis of a nearest neighbor algorithm. Proceedings of the Thirteenth International Conference on Artificial Intelligence, Chambery, France,
12 Zastosowanie algorytmu opartego na agentach programowych do redukcji danych 557 Merz C.J., Murphy P.M. (1998) UCI repository of machine learning databases ( Irvine, CA: University of California, Department of Information and Computer Science. Morgan Kauf- Quinlan J.R. (1993) C 4.5: Programs for Machine Learning. mann, SanMateo, CA. Raman B., Ioerger T.R. (2003) Enhancing learning using feature and example selection. Journal of Machine Learning Research, (in press) Rozsypal A., Kubat M. (2003) Selecting representative examples and attributes by a genetic algorithm. Intelligent Data Analysis 7, 4, Salzberg S. (1991) A nearest hyperrectangle learning method. Machine Learning 6, Skalak D.B. (1994) Prototype and feature selection by sampling and random mutation hill climbing algorithm. W: International Conference on Machine Learning, Talukdar S., Baeretzen L., Gove A., de Souza P. (1998) Asynchronous teams: cooperation schemes for autonomous agents. Journal of Heuristics 4, Wilson D. R., Martinez T. R. (2000) Reduction techniques for instance-based learning algorithm. Machine Learning, Kluwer Academic Publishers, Boston, 33, 3, Wróblewski J. (2001) Adaptacyjne metody klasyfikacji obiektów. Praca doktorska, Uniwersytet Warszawski, Warszawa. Zongker D., Jain A. (1996) Algorithm for feature selection: an evaluation. W: International Conference on Pattern Recognition, ICPR 96, Implementation of the agent-based algorithm for data reduction The paper proposes a data reduction algorithm to machine learning and data mining. The proposed algorithm was implemented in JABAT (JADE Based A-Team) environment. The JABAT environment is dedicated for solving a variety of computationally hard optimization problems. The JABAT produces solutions to combinational optimization problems using a set of optimizing agents, each representing an improvement algorithm. The proposed algorithm has been used to reduce the original dataset in two dimensions including selection of reference instances and removal of irrelevant attributes. To validate the approach the computational experiment has been carried out. Presentation and discussion of experiment results conclude the paper.
Algorytmy redukcji danych w uczeniu maszynowym i eksploracji danych. Dr inŝ. Ireneusz Czarnowski Akademia Morska w Gdyni
Algorytmy redukcji danych w uczeniu maszynowym i eksploracji danych Dr inŝ. Ireneusz Czarnowski Akademia Morska w Gdyni Plan seminarium Wprowadzenie Redukcja danych Zintegrowany model uczenia maszynowego
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Zastosowanie sztucznej inteligencji w testowaniu oprogramowania
Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Problem NP Problem NP (niedeterministycznie wielomianowy, ang. nondeterministic polynomial) to problem decyzyjny, dla którego rozwiązanie
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Zadania laboratoryjne i projektowe - wersja β
Zadania laboratoryjne i projektowe - wersja β 1 Laboratorium Dwa problemy do wyboru (jeden do realizacji). 1. Water Jug Problem, 2. Wieże Hanoi. Water Jug Problem Ograniczenia dla każdej z wersji: pojemniki
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Optymalizacja. Przeszukiwanie lokalne
dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Idea sąsiedztwa Definicja sąsiedztwa x S zbiór N(x) S rozwiązań, które leżą blisko rozwiązania x
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning
Warszawa, 30.01.2017 Prof. Dr hab. Henryk Rybinski Instytut Informatyki Politechniki Warszawskiej hrb@ii.pw.edu.pl Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling
Summary in Polish Fatimah Mohammed Furaiji Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Zastosowanie symulacji wieloagentowej w modelowaniu zachowania konsumentów Streszczenie
Co to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Wybrane podstawowe rodzaje algorytmów
Wybrane podstawowe rodzaje algorytmów Tomasz Głowacki tglowacki@cs.put.poznan.pl Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii informatycznych
SPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Kierunek: Informatyka Rodzaj przedmiotu: obowiązkowy w ramach treści kierunkowych, moduł kierunkowy oólny Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK
Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Tomasz Pawlak. Zastosowania Metod Inteligencji Obliczeniowej
1 Zastosowania Metod Inteligencji Obliczeniowej Tomasz Pawlak 2 Plan prezentacji Sprawy organizacyjne Wprowadzenie do metod inteligencji obliczeniowej Studium wybranych przypadków zastosowań IO 3 Dane
Adrian Horzyk
Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
10. Redukcja wymiaru - metoda PCA
Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component
Sztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego
Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej Adam Meissner Adam.Meissner@put.poznan.pl http://www.man.poznan.pl/~ameis Elementy uczenia maszynowego Literatura [1] Bolc L., Zaremba
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Regresyjne metody łączenia klasyfikatorów
Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009
Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego
Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej Adam Meissner Adam.Meissner@put.poznan.pl http://www.man.poznan.pl/~ameis Elementy uczenia maszynowego Literatura [1] Bolc L., Zaremba
Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec
Wybrane zagadnienia uczenia maszynowego Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Przygotowane na podstawie T. Mitchell, Machine Learning S.J. Russel, P. Norvig, Artificial Intelligence
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, rozważane dotychczas problemy koncentrowały się na nauczeniu na podstawie zbioru treningowego i zbioru etykiet klasyfikacji
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
A Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki
Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Mateusz Kobos, 10.12.2008 Seminarium Metody Inteligencji Obliczeniowej 1/46 Spis treści Działanie algorytmu Uczenie Odtwarzanie/klasyfikacja
Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach
Adam Stawowy Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach Summary: We present a meta-heuristic to combine Monte Carlo simulation with genetic algorithm for Capital
Algorytm genetyczny (genetic algorithm)-
Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie
Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych
Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Mateusz Kobos, 07.04.2010 Seminarium Metody Inteligencji Obliczeniowej Spis treści Opis algorytmu i zbioru
RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk
Wprowadzenie RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Magdalena Deckert Politechnika Poznańska, Instytut Informatyki Seminarium ISWD, 21.05.2013 M. Deckert Przyrostowy
TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3
Wydawnictwo UR 2016 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 4/18/2016 www.eti.rzeszow.pl DOI: 10.15584/eti.2016.4.46 TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON
Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Podejście memetyczne do problemu DCVRP - wstępne wyniki. Adam Żychowski
Podejście memetyczne do problemu DCVRP - wstępne wyniki Adam Żychowski Na podstawie prac X. S. Chen, L. Feng, Y. S. Ong A Self-Adaptive Memeplexes Robust Search Scheme for solving Stochastic Demands Vehicle
Algorytm dyskretnego PSO z przeszukiwaniem lokalnym w problemie dynamicznej wersji TSP
Algorytm dyskretnego PSO z przeszukiwaniem lokalnym w problemie dynamicznej wersji TSP Łukasz Strąk lukasz.strak@gmail.com Uniwersytet Śląski, Instytut Informatyki, Będzińska 39, 41-205 Sosnowiec 9 grudnia
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium
Optymalizacja. Wybrane algorytmy
dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Andrzej Jaszkiewicz Problem optymalizacji kombinatorycznej Problem optymalizacji kombinatorycznej jest problemem
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Zaawansowane programowanie
Zaawansowane programowanie wykład 3: inne heurystyki prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Heurystyką nazywamy algorytm (metodę) zwracający rozwiązanie przybliżone.
METODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski
METODA SYMPLEKS Maciej Patan Uniwersytet Zielonogórski WSTĘP Algorytm Sympleks najpotężniejsza metoda rozwiązywania programów liniowych Metoda generuje ciąg dopuszczalnych rozwiązań x k w taki sposób,
Algorytmy ewolucyjne optymalizacji wielokryterialnej sterowane preferencjami decydenta
Algorytmy ewolucyjne optymalizacji wielokryterialnej sterowane preferencjami decydenta Dr Janusz Miroforidis MGI Metro Group Information Technology Polska Sp. z o.o. listopad 2010 Wprowadzenie Plan prezentacji
Wprowadzenie do klasyfikacji
Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Kierunek: Mechatronika Rodzaj przedmiotu: obowiązkowy Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK PO PRZEDMIOCIE C1. Zapoznanie studentów z inteligentnymi
KARTA MODUŁU KSZTAŁCENIA
KARTA MODUŁU KSZTAŁCENIA I. Informacje ogólne 1 Nazwa modułu kształcenia Sztuczna inteligencja 2 Nazwa jednostki prowadzącej moduł Instytut Informatyki, Zakład Informatyki Stosowanej 3 Kod modułu (wypełnia
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Metody selekcji cech
Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
Wstęp do Sztucznej Inteligencji
Wstęp do Sztucznej Inteligencji Rozwiązywanie problemów-i Joanna Kołodziej Politechnika Krakowska Wydział Fizyki, Matematyki i Informatyki Rozwiązywanie problemów Podstawowe fazy: Sformułowanie celu -
Recenzja rozprawy doktorskiej mgr Łukasza Gadomera pt. Rozmyte lasy losowe oparte na modelach klastrowych drzew decyzyjnych w zadaniach klasyfikacji
Prof. dr hab. inż. Eulalia Szmidt Instytut Badań Systemowych Polskiej Akademii Nauk ul. Newelska 6 01-447 Warszawa E-mail: szmidt@ibspan.waw.pl Warszawa, 30.04.2019r. Recenzja rozprawy doktorskiej mgr
ZASTOSOWANIE METOD OPTYMALIZACJI W DOBORZE CECH GEOMETRYCZNYCH KARBU ODCIĄŻAJĄCEGO
MODELOWANIE INŻYNIERSKIE ISSN 1896-771X 40, s. 43-48, Gliwice 2010 ZASTOSOWANIE METOD OPTYMALIZACJI W DOBORZE CECH GEOMETRYCZNYCH KARBU ODCIĄŻAJĄCEGO TOMASZ CZAPLA, MARIUSZ PAWLAK Katedra Mechaniki Stosowanej,
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w
Metoda Simpleks Jak wiadomo, problem PL z dowolną liczbą zmiennych można rozwiązać wyznaczając wszystkie wierzchołkowe punkty wielościanu wypukłego, a następnie porównując wartości funkcji celu w tych
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
przetworzonego sygnału
Synteza falek ortogonalnych na podstawie oceny przetworzonego sygnału Instytut Informatyki Politechnika Łódzka 28 lutego 2012 Plan prezentacji 1 Sformułowanie problemu 2 3 4 Historia przekształcenia falkowego
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
1. Problem badawczy i jego znaczenie. Warszawa,
Prof. dr hab. inż. Franciszek Seredyński Uniwersytet Kardynała Stefana Wyszyńskiego w Warszawie Wydział Matematyczno-Przyrodniczy.SNŚ Instytut Informatyki f.seredynski@uksw.edu.pl Warszawa, 22.11.2018
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
O dwóch modyfikacjach algorytmu PSO
Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Seminarium: Inteligencja Obliczeniowa 24 listopada 2011 Plan prezentacji 1 Wprowadzenie 2 3 4 5 6 Definicja problemu Wprowadzenie Definicja
Algorytmy genetyczne
9 listopada 2010 y ewolucyjne - zbiór metod optymalizacji inspirowanych analogiami biologicznymi (ewolucja naturalna). Pojęcia odwzorowujące naturalne zjawiska: Osobnik Populacja Genotyp Fenotyp Gen Chromosom
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska andrzejanusz@gmail.com 13.06.2013 Dlaczego
Multiklasyfikatory z funkcją kompetencji
3 stycznia 2011 Problem klasyfikacji Polega na przewidzeniu dyskretnej klasy na podstawie cech obiektu. Obiekt jest reprezentowany przez wektor cech Zbiór etykiet jest skończony x X Ω = {ω 1, ω 2,...,
Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec
Systemy agentowe Uwagi organizacyjne i wprowadzenie Jędrzej Potoniec Kontakt mgr inż. Jędrzej Potoniec Jedrzej.Potoniec@cs.put.poznan.pl http://www.cs.put.poznan.pl/jpotoniec https://github.com/jpotoniec/sa
Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32
Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:
WYKŁAD 1. Wprowadzenie w tematykę kursu
Wrocław University of Technology WYKŁAD 1 Wprowadzenie w tematykę kursu autor: Maciej Zięba Politechnika Wrocławska Informacje dotyczące zajęć Cykl 8 wykładów. Konsultacje odbywają się w sali 121 w budynku
Wykład wprowadzający
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Wykład wprowadzający dr inż. Michał Grochowski kiss.pg.mg@gmail.com michal.grochowski@pg.gda.pl
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Metody Optymalizacji: Przeszukiwanie z listą tabu
Metody Optymalizacji: Przeszukiwanie z listą tabu Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje: wtorek
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
WYKŁAD 6. Reguły decyzyjne
Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania