Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny



Podobne dokumenty
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

ALGORYTM RANDOM FOREST

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł

Synteza logiczna w eksploracji danych

Elementy modelowania matematycznego

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

b) bc a Rys. 1. Tablice Karnaugha dla funkcji o: a) n=2, b) n=3 i c) n=4 zmiennych.

Prof. Stanisław Jankowski

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Wstęp do Techniki Cyfrowej... Teoria automatów

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Analiza korespondencji

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Systemy ekspertowe. Krzysztof Patan

Minimalizacja form boolowskich UC1, 2009

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Wykład I. Wprowadzenie do baz danych

Aproksymacja funkcji a regresja symboliczna

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Metody systemowe i decyzyjne w informatyce

Transformacja wiedzy w budowie i eksploatacji maszyn

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Systemy uczące się wykład 2

Podsumowanie wyników ankiety

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

UCHWAŁA NR 46/2013. Senatu Akademii Marynarki Wojennej im. Bohaterów Westerplatte z dnia 19 września 2013 roku

Macierze. Rozdział Działania na macierzach

Algorytmy klasyfikacji

WYKŁAD 6. Reguły decyzyjne

Maciej Piotr Jankowski

Koszt literału (literal cost) jest określony liczbą wystąpień literału w wyrażeniu boolowskim realizowanym przez układ.

Systemy uczące się Lab 4

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

SZTUCZNA INTELIGENCJA

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Minimalizacja funkcji boolowskich c.d.

Optymalizacja ciągła

VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa.

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Synteza logiczna w eksploracji danych

2. Empiryczna wersja klasyfikatora bayesowskiego

PRACA DYPLOMOWA INŻYNIERSKA

Hierarchiczna analiza skupień

Pattern Classification

Wykład z równań różnicowych

Klasyfikacja metodą Bayesa

Data Mining w doborze parametrów układu testującego urządzenia EAZ 1

Synteza logiczna w eksploracji danych

0 + 0 = 0, = 1, = 1, = 0.

Część I. Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania. Zadanie 1.1. (0 3)

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Priorytetyzacja przypadków testowych za pomocą macierzy

Minimalizacja form boolowskich

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

Spacery losowe generowanie realizacji procesu losowego

EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA

UCHWAŁA NR 60/2013 Senatu Akademii Marynarki Wojennej im. Bohaterów Westerplatte z dnia 21 listopada 2013 roku

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

doc. dr Beata Pułska-Turyna Zarządzanie B506 mail: mgr Piotr J. Gadecki Zakład Badań Operacyjnych Zarządzania B 505.

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

5. Rozwiązywanie układów równań liniowych

Klasyczne zagadnienie przydziału

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

T. Łuba, B. Zbierzchowski Układy logiczne Podręcznik WSISiZ, Warszawa 2002.

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Metody numeryczne Wykład 4

ZAGADNIENIE TRANSPORTOWE

Systemy przyszłościowe. Global Navigation Satellite System Globalny System Nawigacji Satelitarnej

SZTUCZNA INTELIGENCJA

Strefa pokrycia radiowego wokół stacji bazowych. Zasięg stacji bazowych Zazębianie się komórek

TEMAT: PROJEKTOWANIE I BADANIE PRZERZUTNIKÓW BISTABILNYCH

Kody blokowe Wykład 2, 10 III 2011

Wykorzystanie systemu EGNOS w nawigacji lotniczej w aspekcie uruchomienia serwisu Safety-of-Life

przetworzonego sygnału

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

TEORETYCZNE PODSTAWY INFORMATYKI

Programowanie celowe #1

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Rozdział 1 PROGRAMOWANIE LINIOWE

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Układy równań i nierówności liniowych

Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko

Projekt Sieci neuronowe

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Matematyka bankowa 1 1 wykład

Systemy uczące się wykład 1

Lista tematów na kolokwium z wykładu z Techniki Cyfrowej w roku ak. 2013/2014

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.

Transkrypt:

Tadeusz Łuba* Grzegorz Borowik* Karol Kowalski* Paweł Pecio* Cezary Jankowski* Michał Mańkowski** Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny Metody syntezy logicznej są wykorzystywane głównie do optymalizacji systemów cyfrowych przetwarzających sygnały binarne Ich podstawowym zadaniem jest poprawa implementacji oraz możliwości odwzorowania systemów w różnych technologiach Można jednak wykazać że wiele metod syntezy logicznej a w szczególności tych wykorzystywanych do optymalizacji kombinacyjnych układów logicznych może być z powodzeniem zastosowanych w typowych zadaniach przetwarzania i wyszukiwania informacji odkrywania/eksploracji wiedzy optymalizacji baz danych a także w dziedzinie systemów ekspertowych maszynowego uczenia się czy sztucznej inteligencji Przez eksplorację danych znaną również pod nazwą odkrywania wiedzy w bazach danych rozumie się proces automatycznego pozyskiwania z baz danych znaczących ale dotychczas nieznanych informacji Dlatego te informacje określa się jako ukryte a celem jest te informacje wyekstrahować W wyniku eksploracji danych można na pewnym poziomie abstrakcji: zdiagnozować pacjenta przeprowadzić sondaż np przed wyborami prezydenckimi klasyfikować dane internetowe czy podjąć decyzję o przyznaniu bądź odrzuceniu kredytu Jednym z ważniejszych zastosowań algorytmów eksploracji danych w telekomunikacji jest wykrywanie anomalii w systemach i sieciach telekomunikacyjnych Ponieważ decyzja o wykryciu anomalii jest podejmowana na podstawie kombinacji reguł decyzyjnych wygenerowanych przez algorytm dla danych treningowych algorytm jest typową procedurą uczenia się maszyn System tworzy bazę wiedzy zawierającą wzorce analizowanych anomalii a następnie przy użyciu algorytmu podejmowania decyzji i klasyfikacji klasyfikuje bieżące dane Charakterystycznym przykładem danych treningowych jest baza dla klasyfikacji poczty elektronicznej [21] która zawier8 042 rekordów reprezentowanych przez 64 atrybuty natomiast celem algorytmu jest uzyskanie reguł decyzyjnych klasyfikujących dane zgodnie z następującymi warunkami: y_spam n_spam other itd Innym zastosowaniem algorytmów eksploracji danych jest wsparcie diagnostyki medycznej w przypadku różnych chorób Wtedy głównym zadaniem algorytmu jest indukcja reguł decyzyjnych które są obliczane na podstawie wyników badań medycznych zgromadzonych w bazie danych pacjentów Wygenerowane reguły decyzyjne (zwane również klasyfikatorami) umożliwiają diagnozowanie nowego pacjenta Typowym przykładem bazy danych oraz jej analizy jest Wisconsin Breast Cancer Database (źródło: dr William H Wolberg University of Wisconsin Hospital Madison Wisconsin USA) Diagnoza raka piersi dla nowego pacjenta jest w niej realizowana za pomocą bazy danych o dziewięciu atrybutach i zgromadzonej dla 699 pacjentek [26] Systemy decyzyjne i kombinacyjne układy logiczne są bardzo podobne System decyzyjny jest zwykle opisany przez tablicę decyzyjną natomiast kombinacyjny układ logiczny przez tablicę prawdy Atrybuty warunkowe systemu decyzyjnego odpowiadają * Instytut Telekomunikacji Politechniki Warszawskiej ** Instytut Radioelektroniki Wydział Elektroniki i Technik Informacyjnych Politechniki Warszawskiej e-mail: luba@telepwedupl borowik@telepwedupl zmiennym wejściowym układu logicznego a atrybuty decyzyjne zmiennym wyjściowym Stąd wiele pojęć z tych obydwu obszarów może być wzajemnie na siebie odwzorowanych a podobieństwo systemów decyzyjnych oraz układów logicznych umożliwia wykorzystanie specjalistycznych metod syntezy logicznej w dziedzinie eksploracji danych Na przykład zadanie redukcji danych w systemach informacyjnych jest rozwiązywane przez minimalizację liczby cech (atrybutów/parametrów) a następnie usunięcie nadmiarowych obiektów Podobnym zadaniem w dziedzinie syntezy logicznej jest redukcja argumentów Innym zagadnieniem w eksploracji danych jest podejmowanie decyzji na podstawie wcześniej zgromadzonych danych Polega ono na uogólnianiu wiedzy oraz indukowaniu reguł decyzyjnych W wyniku indukcji otrzymuje się zbiór reguł logicznych który umożliwia podejmowanie decyzji nie tylko dla obiektów należących do bazy pierwotnej dla której przeprowadzono obliczenia ale przede wszystkim dla nowych obiektów do niej nienależących Jest to bardzo ważne w przypadku zadań maszynowego uczenia się Zagadnieniem analogicznym do indukcji reguł z dziedziny eksploracji danych jest zagadnienie minimalizacji funkcji logicznych z dziedziny syntezy logicznej Ze względu na inne interpretacje i aplikacje zagadnienia te wydają się zupełnie różne aczkolwiek jest to stwierdzenie błędne Problemem badawczym w zasygnalizowanych zadaniach jest osiągnięcie dużej szybkości obliczeń i możliwość przetwarzania coraz większych baz danych W obliczeniach tych ogromną rolę mogą odegrać zaawansowane algorytmy syntezy logicznej stosowane do tej pory tylko do projektowania układów i systemów cyfrowych [10] Celem artykułu jest wskazanie i omówienie możliwości zastosowania zaawansowanego algorytmu syntezy logicznej algorytmu uzupełnienia funkcji boolowskich w typowych zadaniach eksploracji danych takich jak: ekstrakcja cech indukcja reguł decyzyjnych i wielu innych W dalszej części artykułu przedstawiono podstawowy algorytm uzupełnienia funkcji boolowskich i omówiono możliwości optymalizacji algorytmu uzupełnienia Kolejny rozdział pokazuje w jaki sposób można zredukować cztery podstawowe algorytmy eksploracji danych do algorytmu uzupełnienia W końcowej części artykułu przedstawiono potencjalne możliwości zastosowania algorytmów syntezy logicznej do eksploracji danych w telekomunikacji oraz praktyczne zastosowanie szybkiego algorytmu dyskretyzacji danych onkologicznych Algorytm uzupełnienia funkcji boolowskich Podstawowymi pojęciami z dziedziny eksploracji danych są macierz porównań oraz funkcja rozróżnialności Znajdują one zastosowanie min w algorytmach ekstrakcji cech dyskretyzacji danych czy indukcji reguł decyzyjnych Podstawowym zadaniem algorytmów eksploracji danych jest znajdowanie implikantów prostych funkcji rozróżnialności Jak powszechnie wiadomo znalezienie implikantów prostych jest problemem o niewielomianowej złożoności obliczeniowej [9 15] i polega na przekształ- 110 PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXXVII WIADOMOŚCI TELEKOMUNIKACYJNE ROCZNIK LXXxIII nr 5/2014

ceniu koniunkcyjnej postaci normalnej funkcji rozróżnialności do dysjunkcyjnej postaci normalnej Znalezienie wszystkich implikantów prostych monotonicznej funkcji boolowskiej może zostać zredukowane do obliczenia uzupełnienia tej funkcji gdzie uzupełnienie redukuje się do obliczenia pokrycia kolumnowego macierzy binarnej [6] Twierdzenie [6] Każdy wiersz i macierzy C uzupełnienia macierzy M odpowiada pokryciu kolumnowemu L macierzy M gdzie j L wtedy i tylko wtedy gdy C ij = 1 Siła algorytmu kryje się w procedurze rozkładu Shannona monotonicznej funkcji f Wtedy: f = x j f xj + f xj Zaproponowane podejście bardzo przyspiesza obliczenia a wydajna reprezentacja algorytmu w pamięci operacyjnej maszyny obliczeniowej umożliwia osiągnięcie wyników które nie mogą być osiągnięte przy użyciu innych publikowanych metod i systemów Macierz porównań jest rozkładana rekursywnie aż do wystąpienia szczególnych postaci uzyskanych kofaktorów Obliczenie kofaktorów rozpoczyna się od wyboru zmiennej rozkładu Odpowiedni wybór zmiennej ma istotne znaczenie dla redukcji obliczeń Wybór zmiennej przeprowadza się według następującego algorytmu 1 Wybieramy wiersz macierzy porównań z największą liczbą zer 2 W wybranym wierszu wybieramy zmienne które mają jedynkę 3 Spośród wybranych w punkcie 2 zmiennych wybieramy tę która ma najwięcej jedynek w swojej kolumnie Proces rozkładu na kofaktory realizuje się według tej samej zasady aż do uzyskania kofaktorów które zawierają tylko jeden wiersz W następnym etapie obliczeń otrzymane kofaktory są uzupełniane 1 Jeżeli którykolwiek z kofaktorów zawiera wiersz samych zer jego uzupełnieniem jest zbiór pusty 2 Jeżeli na którymś z poziomów rekursji w kolumnie odpowiadającej wybranej zmiennej rozdzielającej są tylko jedynki to kofaktor jedynkowy takiej macierzy też jest pusty Natomiast w przypadku otrzymania kofaktora który jest zbiorem pustym (macierz nie zawiera żadnych wierszy) jego uzupełnieniem jest tautologia (wiersz samych zer) 3 Jeżeli kofaktor zawiera tylko jedną jedynkę jego uzupełnienie jest identyczne jak kofaktor 4 Jeżeli kofaktor zawiera więcej niż jedną jedynkę jego uzupełnienie zawiera tyle wierszy ile jest jedynek w kofaktorze przy czym wszystkie wiersze mają jedynkę (pozostałe pozycje zera) na pozycjach odpowiadających kolejnym jedynkom kofaktora Po obliczeniu uzupełnień na poszczególnych liściach drzewa rozkładu wyniki cząstkowe są scalane zgodnie ze wzorem: f = x j f xj + f xj Dziel i rządź W celu przyspieszenia obliczeń dla istniejącej macierzy porównań można zastanowić się nad stosunkowo standardowym podejściem dziel i rządź W tym przypadku miałoby to polegać na liczeniu uzupełnień dla części macierzy porównań osobno a następnie połączeniu wyników niezależnych obliczeń w końcowy rezultat Specyfika algorytmu uzupełnienia funkcji boolowskich powoduje że czas jego wykonywania jest ściśle związany z czasem usuwania nadmiarowych reduktów Nadmiarowe redukty są usuwane zgodnie z własnością pochłaniania: a + ab = a a zadanie jest realizowane przez porównanie każdej pary reduktów Odbywa się to ze złożonością kwadratową zatem jest ważne badanie w jaki sposób liczba wierszy w tablicy porównań wpływa na liczbę końcowych reduktów (i tym samym na czas obliczeń) W celu przeprowadzenia takiego badania zaimplementowano model opierający się na kilku założeniach symulujących działanie algorytmu dla dużych macierzy rozróżnialności W tym celu rozważono macierz losową o zadanym stosunku p jedynek w macierzy do rozmiaru macierzy liczby kolumn m oraz liczby wierszy n 1 W przypadku w którym macierz losowa o liczbie kolumn m i prawdopodobieństwie p występowania jedynek ma tylko jeden wiersz najbardziej prawdopodobne uzupełnienie zawiera mp wierszy 2 Jeżeli prawdopodobieństwo wystąpienia pustego wiersza w macierzy jest większe od 1/2 to jej uzupełnienie nie zawiera żadnego wiersza 3 Jeżeli dochodzi do podziału macierzy jest wybierana zmienna rozdzielająca taka że liczba jedynek jest równa pn Dzięki temu macierz powstała w wyniku przepisania wierszy z zerami ma parametry p:=p; m:=m 1; n:=n(1 p) oraz macierz powstała w wyniku wyzerowania kolumny ma parametry p:=p; m:=m 1; n:=n W obu przypadkach ignoruje się kolumnę rozdzielającą ponieważ nie ma ona wpływu na liczbę reduktów Na rys 1 i 2 przedstawiono wyniki symulacji przeprowadzonej zgodnie z założeniami Można z nich wywnioskować że dla macierzy o małym stosunku jedynek w macierzy czas obliczeń może znacznie wzrosnąć po podzieleniu jej na mniejsze fragmenty Z kolei dla macierzy o dużej koncentracji jedynek ze względu na małe nachylenie wykresu wejściową macierz należałoby podzielić na bardzo dużo części żeby uzyskać jakikolwiek zauważalny zysk w czasie obliczeń W każdym przypadku trzeba pamiętać o problemie łączenia wyników w całość co może okazać się również dużym utrudnieniem Rys 1 Zależność liczby reduktów od liczby wierszy dla różnej liczby kolumn w macierzy Rys 2 Zależność liczby reduktów od liczby wierszy dla różnej koncentracji jedynek w 30-kolumnowej macierzy PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXXVII WIADOMOŚCI TELEKOMUNIKACYJNE ROCZNIK LXXxIII nr 5/2014 111

Tabela 1 Porównanie czasów obliczeń (na podstawie [4]) Baza danych House Zastosowanie algorytmu uzupełnienia w zadaniach eksploracji danych Ekstrakcja cech Liczba atrybutów Liczba obiektów ROSE2 Oprogramowanie RSES/ROSETTA Do zadań określanych mianem redukcji wiedzy należy uproszczenie systemu decyzyjnego z punktu widzenia minimalnego zbioru cech/atrybutów zachowujących zdolności klasyfikacyjne systemu [16] Redukcja wiedzy w systemach decyzyjnych polega na wyznaczaniu tak zwanych reduktów oraz ewentualnie usuwaniu nadmiarowych obiektów Wybór podzbioru atrybutów odgrywa ważną rolę w odkrywaniu wiedzy jest podstawą do wydajniejszej klasyfikacji predykcji i budowy modeli przybliżonych [20] Obliczanie reduktów można sprowadzić do wyznaczenia implikantów prostych funkcji rozróżnialności [4] a przeprowadzone eksperymenty potwierdziły niezwykłą skuteczność ekstrakcji cech przy zastosowaniu algorytmu uzupełnienia funkcji boolowskich (tabela 1) Interesującymi bazami danych dla których przeprowadzono obliczenia są bazy medyczne np baza audiology czy baza dermatology [26] W pierwszej z nich liczba obiektów jest równ00 i zawiera wyniki badań choroby związanej ze słuchem sklasyfikowanej do 24 różnych klas Dla dermatology database istnieje 366 instancji oraz 34 atrybuty Porównano czas obliczeń metody ekstrakcji cech z zastosowaniem algorytmu uzupełnienia funkcji boolowskich do czasu obliczeń systemów eksploracji danych Porównanie przeprowadzono również dla znanego na świecie przykładu prostej bazy danych house [26] ale istotnego o tyle że ma ona wiele atrybutów o wartościach nieokreślonych Jest to binarny przykład bazy danych zgromadzonych przed wyborami prezydenckimi w Stanach Zjednoczonych Kolejnym przykładem jest przykład problemu transportowego trains [26] W tym przypadku nie jest możliwe uzyskanie wyniku za pomocą oprogramowania RSES ROSETTA czy ROSE2 [23 24 25] Dla porównania metoda zbudowana na algorytmie syntezy logicznej podaje wynik obliczeń w czasie 6 ms Metoda uzupełnienia Liczba reduktów 17 232 1s 1 s 187 ms 4 10 699 KAZ 22 31 Trains 33 10 * out of memory** (30 min) 2 s 823 ms 27 70 min 234 ms 5574 (5 h 38 min) 6 ms 689 kr-vs-kp 37 3196 16 s 1 m 31 s 1 m 15 s 4 Breast-cancerwisconsin Agaricuslepiotamushroom 23 8124 Urology 36 500 Audiology 71 200 Dermatology 35 366 Lung-cancer 57 32 out of memory (2h 29 min) 29 min 4 m 47 s 507 (12 h) (1 h 17 min) (3 h 27 min) (5 h 20 min) * przerwane obliczeń z powodu występowania wartości nieokreślonych ** brak pamięci operacyjnej 42 s 741 ms 23 437 14 s 508 ms 37 367 3 m 32 s 143 093 111 h 57 m 3 604 887 Indukcja reguł decyzyjnych Indukcja reguł decyzyjnych jest jednym z najważniejszych zadań w eksploracji danych Reguły decyzyjne indukowane z danych uczących są używane do klasyfikowania nowych obiektów Przez nowe obiekty rozumie się takie które nie służyły do indukcji Znany jest ich opis za pomocą wartości atrybutów natomiast celem klasyfikowania jest przyporządkowanie obiektu do odpowiedniej klasy decyzyjnej Jeżeli dla klasyfikowanego obiektu znana jest ponadto jego rzeczywista klasyfikacja to nazywa się go przykładem testowym gdyż możliwe jest wtedy porównanie proponowanej decyzji klasyfikacyjnej z rzeczywistą Klasyfikowanie obiektów opiera się na dostosowaniu opisu obiektu do części warunkowych reguł decyzyjnych Problem znalezienia minimalnego zbioru reguł który pokrywa zbiór przykładów i poprawnie je klasyfikuje jest NP-zupełny W dowodach wykorzystuje się transformację tego problemu do problemu minimalnego pokrycia zbioru [1 6] Najbardziej znane z dotychczas zaproponowanych opierają się na zasadzie generowania kolejnych pokryć (Sequential covering) Polegają one na uczeniu się pojedynczej reguły usuwaniu przykładów które ona pokrywa i powtarzaniu procesu dla pozostałych przykładów W rezultacie powstaje zbiór reguł pokrywających rozważany zbiór przykładów Inną metodąa indukcji reguł zastosowano w algorytmie LEM2 który zaproponował Grzymala-Busse [7] Dla binarnego systemu decyzyjnego z tabeli 2 otrzymuje się przy użyciu procedury LEM2 z programu RSES2 [25] wynik następujący: ( 1) & ( 0) & 0) & ( 0) (d1) ( 1) & 1) & ( 0) & ( 0) & ( 0) (d1) ( 1) & 1) & ( 1) (d1) 0) & ( 1) & ( 0) & ( 1) & ( 0) (d1) 1) & ( 1) & ( 0) & ( 0) & ( 1) (d0) 0) & ( 1) & ( 1) & ( 1) (d0) ( 0) & 0) & ( 0) (d0) Stosując system ESPRESSO (typowy program minimalizacji funkcji boolowskich) dla decyzji o wartości 1 otrzyma się wyrażenie logiczne: Tabel Binarny system decyzyjny a 1 d 1 1 1 0 0 0 1 2 0 1 0 0 0 1 3 1 1 1 0 1 1 4 0 1 0 0 1 1 5 0 1 0 1 0 1 6 0 1 1 1 1 0 7 0 0 0 0 0 0 8 1 1 0 0 1 0 9 0 1 0 1 1 0 10 0 0 1 0 0 0 d = a 1 + a dla decyzji o wartości 0: d = + Wyrażenia otrzymane z systemu ESPRESSO można zapisać w konwencji reguł decyzyjnych: ) & 1) (d1) 3 0) & ( 0) & ( 1) (d1) ( 1) & ( 0) (d1) ( 0) (d0) 1) & ( 0) & ( 1) (d0) ( 1) & ( 1) (d0) 112 PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXXVII WIADOMOŚCI TELEKOMUNIKACYJNE ROCZNIK LXXxIII nr 5/2014

W celu porównania wyniku procedury LEM2 do wyniku procedury ESPRESSO uzyskane formuły z LEM2 można zapisać w konwencji wyrażeń boolowskich: d = a 1 + a a a a a 1 2 3 4 5 d = a 1 W porównaniu do procedury LEM2 system ESPRESSO umożliwia osiągnięcie wyników które zawierają w sensie zbiorów wyniki algorytmu eksploracji danych Świadczy to o tym że wynik osiągnięty za pomocą metod syntezy logicznej jest bardziej ogólny Można się zatem zastanowić w jaki sposób wprowadzając do procesu wnioskowania boolowskiego procedury syntezy logicznej algorytm uogólniania reguł decyzyjnych sprowadzić do stosowanej w metodzie ESPRESSO [6] procedury ekspansji i uzupełniania Wstępne prace autorów wykazały że procedury ekspansji i uzupełniania można przystosować do zadań eksploracji danych w algorytmie wykonującym następujące obliczenia 1 Wyznaczenie macierzy rozróżnialności dla obiektu u i ustalonej klasy decyzyjnej 2 Obliczenie wszystkich uogólnionych reguł obiektu u i 3 Obliczenie rodziny minimalnych uogólnionych reguł klasy decyzyjnej D k 4 Wyznaczenie tablicy pokryć klasy D k Chcąc uzyskać minimalny zbiór reguł (niekoniecznie o najmniejszej liczności) reprezentujących klasę D k należy utworzyć tablicę pokryć (TP) Tablicą pokryć jest binarna tablica o liczbie kolumn n (n jest licznością rodziny R(D k )) i liczbie wierszy równej k (k liczba obiektów klasy D k ) Element TP(ij) tej tablicy przyjmuje wartość 1 gdy reguła r i jest równa wartości tego atrybutu w obiekcie u i w przeciwnym przypadku 0 5 Obliczenie minimalnego zbioru uogólnionych reguł klasy D k Minimalny zbiór uogólnionych reguł reprezentujących (pokrywających) klasę D k można wyznaczyć obliczając minimalne pokrycie kolumnowe TP Z powyższych rozważań wynika że zadanie indukcji reguł decyzyjnych ustalonej klasy D k jest analogiczne do zadania minimalizacji funkcji boolowskiej f = (F R) w której wektory zbioru F odpowiadają obiektom klasy D k a macierzą rozróżniającą jest tworzona z macierzy R macierz blokująca [6] Złożoność obliczeniową tego problemu można oszacować złożonością obliczeniową zadania minimalizacji funkcji boolowskiej Obliczeniem decydującym o eksplozji kombinatorycznej tego problemu jest zatem obliczenie wszystkich pokryć kolumnowych tablicy pokryć O złożoności tego problemu decyduje szybko rosnąca (ze wzrostem liczby atrybutów) liczność rodziny minimalnych reguł klasy Dk Zatem obliczenia uogólnionych reguł decyzyjnych dla rzeczywistych baz danych muszą być przynajmniej dla tablicy pokrycia realizowane algorytmami heurystycznymi Skuteczna w redukcji atrybutów procedura uzupełniania (Complement) może być natomiast zastosowana głównie do obliczania zbioru minimalnych reguł dla pojedynczych obiektów u i Należy jednak podkreślić że jest to nowa strategia obliczeniowa której istotą jest przesunięcie algorytmów heurystycznych na wyższy poziom obliczeń Dyskretyzacja Głównym problemem w realizacji systemów eksploracji danych jest efektywna dyskretyzacja danych liczbowych (numerycznych) dla atrybutów warunkowych Na przykład atrybuty bazy danych Indian Pima Database Diabetes [26] dotyczą: liczby przebytych ciąży stężenia glukozy w osoczu w dwugodzinnym doustnym teście tolerancji glukozy ciśnienia rozkurczowego (mm Hg) grubości fałdu skóry w tricepsie (mm) dwugodzinnego poziomu insuliny w surowicy (µu/ml) wskaźnika masy ciała (waga w kg /(wzrost w m) 2 ) funkcji rodowodu cukrzycy wieku oraz klasy decyzyjnej (0 lub 1) Większość z tych cech ma wartości numeryczne więc dla właściwej analizy tej bazy danych należy te wartości poddać kwantyzacji Z podobnym problemem mamy do czynienia w klasyfikacji poczty elektronicznej (e-mail) gdzie rekordy charakteryzujące różne parametry sieciowe wykorzystywane do analizy i wykrywania anomalii często są podane jako wartości numeryczne Podstawowa metoda dyskretyzacji danych polega na wyznaczaniu przedziałów wartości danych numerycznych które docelowo reprezentują atrybuty dyskretne [9] Zakładane przedziały uzyskane dla proponowanego zestawu cięć są następnie analizowane w celu uzyskania minimalnego zbioru cięć różnicującego obiekty wyróżnionych klas decyzyjnych Zadanie to można sprowadzić do wyboru minimalnego zbioru cięć przy użyciu transformacji monotonicznej funkcji boolowskiej w postaci CNF do postaci DNF Niech A będzie systemem decyzyjnym podanym w tabeli 3 a przedziały wartości atrybutów wynoszą odpowiednio: r(u t a) [1;4] r(u t b) [0;2] Z tabeli 3 wynika że wartości atrybutów dla podanych obiektów U wynoszą: ρ(u j a) {16; 18; 20; 26; 28; 32} ρ(u j b) {025; 04; 05; 10; 15} Dyskretyzacja systemu polega na konstrukcji podziałów P dla poszczególnych przedziałów wartości atrybutów V Następnie rzeczywista wartość atrybutu jest zamieniana na odpowiadający podprzedział tzn zawierający daną wartość atrybutu W pierwszym etapie konstrukcji proponuje się cięcia będące zbiorem wszystkich reprezentantów podprzedziałów wyznaczonych przez kolejne Tablel Przykładowy system decyzyjny A a b d u 1 26 15 0 u 2 20 025 0 u 3 16 10 1 u 4 28 05 1 u 5 28 10 0 u 6 32 15 1 u 7 18 04 0 u 8 26 05 1 wartości obiektów rozpatrywanego atrybutu i różnych od jego wartości Zakłada się że podprzedziałowi odpowiada tylko jeden punkt na przykład mogą to być średnie arytmetyczne wartości krańcowych podprzedziałów Otrzymuje się wtedy następujący zbiór cięć: 3) 7) 9) 3) 7) (a 30) (a 36) (b 0125) (b 0325) (b 045) (b 075) (b 125) (b 175) Można zauważyć że pojedyncze cięcie definiuje nowy binarny atrybut warunkowy np dla atrybutu a i cięcia 9) przyjmuje się wartość 0 jeśli ρ(u j a) < 19 w przeciwnym przypadku wartość 1 Inaczej mówiąc obiekty położone po różnych stronach wartości ρ = 19 są rozróżniane przez to cięcie Stąd powyższy zbiór cięć może zostać zredukowany do: 7) 9) 3) 7) (a 30) (b 0325) (b 045) (b 075) (b 125) ponieważ pozostałe cięcia nie wykonują żadnego rozróżnienia Stawiając sobie za zadanie otrzymanie minimalnego zbioru cięć rozróżniającego wszystkie obiekty systemu decyzyjnego przeprowadza się drugi etap konstrukcji Niech C będzie zbiorem proponowanych cięć tzn C = {c a1 c a2 c a3 c a4 c b1 c b2 } gdzie: c a1 = 7) c a2 = 9) c a3 = 3) c a4 = 7) = (a 30) c b1 = (b 0325) c b2 = (b 045) = (b 075) = (b 125) Niech χ(u i u j ) będzie funkcją rozróżnialności względem zbioru cięć zdefiniowaną dla pary różnych obiektów (u i u j ) o różnych decyzjach Na przykład aby rozróżnić obiekty u 1 oraz u 3 użyje się cięcia c a1 lub c a2 lub c a3 lub Wtedy: u 3 ) = c a1 + c a3 + u 4 ) = c a4 + + u 6 ) = c a4 + u 8 ) = + χ(u 2 u 3 ) = c a1 + c b1 + c b2 + χ(u 7 u 8 ) = c a2 + c a3 + c b2 Stąd aby dokonać rozróżnienia pomiędzy wszystkimi obiektami o różnej decyzji tworzy się wyrażenie boolowskie będące PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXXVII WIADOMOŚCI TELEKOMUNIKACYJNE ROCZNIK LXXxIII nr 5/2014 113

koniunkcją powyższych formuł Przekształcając otrzymaną formę w postaci iloczynu sum boolowskich do postaci sumy iloczynów otrzymuje się wszystkie minimalne zbiory cięć spełniające założenia Po przekształceniu wyrażenia otrzymuje się: c a3 c b1 + c a1 c b2 c b2 + c a3 c a4 + c a4 c b2 c a4 c b1 Przykładowym zbiorem cięć jest więc {c a3 } Ostatecznie przyjmując kodowanie podziałów: P a = {[1; 23) [23; 30) [30; 4]} = {0 1 2} P b = {[0; 075) [075; 2]} = {0 1} otrzymuje się dyskretny system decyzyjny zaprezentowany w tabeli 4 który po usunięciu nadmiarowych wierszy przyjmuje postać z tab 5 Tabel: System decyzyjny po dyskretyzacji A a b d u 1 1 1 0 u 2 0 0 0 u 3 0 1 1 u 4 1 0 1 u 5 1 1 0 u 6 2 1 1 u 7 0 0 0 u 8 1 0 1 Tabel Uproszczony system z tabeli 4 A a b d {u 1 u 5 } 1 1 0 {u 2 u 7 } 0 0 0 u 3 0 1 1 {u 4 u 8 } 1 0 1 u 6 2 1 1 Nietrudno zauważyć że obliczenia mające na celu przekształcenie formuły CNF w DNF można przeprowadzić stosując omówiony już wcześniej algorytm uzupełnienia funkcji boolowskiej który następnie został wykorzystany do obliczania reduktów tablic decyzyjnych Jest to możliwe ze względu na fakt ze wyrażenie logiczne w postaci monotonicznej funkcji boolowskiej CNF może być reprezentowane macierzą binarną Wtedy proces przekształcania CNF do DNF redukuje się do procesu obliczenia minimalnych pokryć kolumnowych tej macierzy Mimo ogromnej złożoności obliczeniowej tak zorganizowany algorytm dyskretyzacji może znaleźć zastosowanie w zadaniach wyznaczania punktów odcięcia parametrów diagnostycznych niektórych chorób (patrz następny rozdział) Oczywiście w ogólnym przypadku typowych numerycznych baz danych algorytm uzupełniania przekracza barierę złożoności obliczeniowej dopuszczalnej dla aktualnie stosowanych komputerów Wtedy trzeba stosować odpowiednie algorytmy heurystyczne [8] Zastosowania praktyczne Telekomunikacja i radiokomunikacja Eksploracja danych znajduje szerokie zastosowanie w telekomunikacji w tym do wspomagania obserwacji ruchu w sieci oraz przy tworzeniu filtrów klasyfikujących wiadomości elektroniczne jako poprawne lub jako spam W pracach [8 14] przeprowadzono eksperymenty mające zweryfikować przydatność algorytmów syntezy logicznej do stworzenia modułu filtru antyspamowego Do eksperymentów wybrano bazę Spambase Data Set z repozytorium [26] Zawiera on601 instancji z których 1813 (394%) stanowi spam Tablica danych bazy Spambase nie jest całkowicie spójna istnieją trzy pary sprzecznych obiektów Każda wiadomość jest opisan7 atrybutami numerycznymi oraz klasą decyzyjną ( 1 oznacza spam a 0 poprawną wiadomość) Wśród cech znajduje się 48 opisujących częstość występowania pewnego słowa w wiadomości 6 częstość występowania pewnego znaku Kolejne 2 określają odpowiednio średni i najdłuższy ciąg składający się tylko z wielkich liter Ostatni atrybut stanowi sumaryczną liczbę wielkich liter w wiadomości Trzeba podkreślić że te cechy nie są wystarczające aby stworzyć pełnowartościowy filtr antyspamowy Klasyfikacja wiadomości jest bardzo złożonym procesem i takie odkrywanie wiedzy z tych danych może stanowić jedynie pewien moduł Jednak dla celów pokazowych wybrana baza stanowi wystarczające przybliżenie komercyjnie zbieranych danych Eksperymenty wykazały że zastosowanie nowych strategii obliczeniowych (omówionych w poprzednim rozdziale) poprawia parametr pokrycia (Accuracy) względem systemu RSES o ok 3% Innym zastosowaniem jest badanie propagacji fal radiowych Zależy ona od wielu czynników Są wśród nich zarówno te możliwe do uwzględnienia na etapie projektowania sieci jak i takie których nie udało się przewidzieć lub nie jest możliwe jednoznaczne określenie ich wpływu na planowaną transmisję Czynniki te mogą być zarówno stałe w czasie i przestrzeni jak i zmienne występujące tylko przez określony czas bądź na określonym obszarze Przykładowo projektując linię radiową bierze się pod uwagę ukształtowanie terenu bądź zalesienie które uznaje się za niezmienne Można teoretycznie ustalić wpływ zjawisk atmosferycznych na transmisję ale nie jest się w stanie opisać ich wyrażeniem od którego można by uzależniać parametry transmisji w czasie Przyjmuje się określoną sprawność linii radiowej statystyczny rozkład czasowy zjawisk i na tej podstawie tak ustala parametry łącza aby otrzymać zadaną sprawność Podejście to powoduje że przy sprzyjających warunkach parametry są przewymiarowane zaś przy skrajnie niesprzyjających transmisja nie dojdzie do skutku bądź nie osiągnie się oczekiwanych rezultatów Podobnie jest w przypadku mobilnych użytkowników sieci radiowej np abonentów telefonii komórkowej Celem operatora jest zapewnienie możliwie największej pojemności i jakości sieci Idealne byłoby rozwiązanie w którym zarówno stacja bazowa jak i użytkownicy mogą w czasie rzeczywistym dostosować się do warunków osiągając możliwie najwyższą jakość [17] Jednym z proponowanych rozwiązań wychodzącym naprzeciw wspomnianym oczekiwaniom jest technika inteligentnych anten Nie należy tu jednak traktować pojęcia anteny w dosłownym znaczeniu tego słowa W świetle ostatnich koncepcji jako antenę należy rozumieć cały układ nadawczo-odbiorczy od źródła sygnału (często cyfrowego) po promienniki i odbłyśniki Fundamentem tego podejścia jest twierdzenie zgodnie z którym system sam mógłby się najlepiej dostosować do stawianych mu wymagań gdyby był w stanie jednocześnie ocenić środowisko radiowe i sieć co najmniej tak dobrze jak zrobi to operator oraz gdyby miał algorytmy analizy na tyle wydajne by móc w czasie rzeczywistym generować wyniki i na ich podstawie modyfikować swoje działanie Pewnym odzwierciedleniem tego poglądu jest stosowane już od czasów GSM sterowanie mocą w sieciach telefonii komórkowej bądź wprowadzone później sterowanie krotnością modulacji kwadraturowej w zależności od poziomu strat Z kolei transmisja w technice Bluetooth próbuje zaradzić częstym i nieprzewidzianym zakłóceniom w paśmie 24 GHz techniką frequency hopping Jednak stosowane dzisiaj rozwiązania są tylko pewnymi elementami bardziej ogólnej koncepcji inteligentnych anten i nie zapewniają kompleksowego rozwiązania Są też tylko na tyle inteligentne na ile zaplanował to projektant Rozwiązania te nie potrafią rozwijać swoich możliwości na podstawie zebranego doświadczenia Czyni to producent sprzętu uwzględniając zdobytą wiedzę w kolejnej aktualizacji sprzętu bądź oprogramowania Właśnie na tym polu pojawia się możliwość zastosowania algorytmów sztucznej inteligencji a w tym algorytmów syntezy logicznej Proces analizy danych redukcji nadmiarowej informacji oraz generowania reguł decyzyjnych jesteśmy już w stanie przekazać samym urządzeniom bez potrzeby angażowania do tego procesu człowieka Za pomocą szybkich algorytmów (np algorytmu uzupełnienia funkcji boolowskich) możliwe stało się redukowanie ogromnych zbiorów danych w czasie wystarczającym by algorytm mógł działać w reżimie czasu rzeczywistego Z drugiej strony rozwiązania te są na tyle proste i wydajne że stało się możliwie ich zaimplementowanie już nie tylko na pojedynczym komputerze ale także na jednordzeniowych mikrokontrolerach ARM Dzięki temu istnieje fizyczna możliwość zbierania danych o transmisji zarówno w warstwie fizycznej jak i dostępu 114 PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXXVII WIADOMOŚCI TELEKOMUNIKACYJNE ROCZNIK LXXxIII nr 5/2014

do medium oraz ich analizy w czasie rzeczywistym Można gromadzić dane mające wpływ na jakość transmisji od warunków propagacji temperatury skali opadów przez moc zakłóceń aż po obciążenie sieci Po stronie odbiornika jest możliwość badania jakości łącza stopy błędów można zweryfikować czy stosowany rozmiar informacji nadmiarowej jest odpowiedni oraz czy użytkownik osiągnął oczekiwaną jakość łącza w przypadku sieci stosujących algorytmy QoS Dzięki znajomości pełnego stanu środowiska układ nadawczo-odbiorczy może sam dopasować dynamicznie parametry transmisji tak aby spełnić cele zadane przez operatora Przechodzi się zatem od sieci której architekturę ustala operator do sieci celów Sieć celów na podstawie wiedzy o swoim stanie i zdobytym doświadczeniu sama dąży do osiągnięcia stawianych wymagań W idealnym przypadku operator lokuje sieć jako zespół identycznych urządzeń z pewną podstawową wiedzą Z czasem każde z nich dostosowuje transmisję do warunków w jakich się znajduje Zastosowanie algorytmów sztucznej inteligencji w technice transmisji bezprzewodowej [17] może znacznie poprawić efektywność wykorzystania pasma przez możliwie najlepsze dostosowanie w chwili transmisji Dodatkowo takie dostosowanie ma niebagatelne znaczenie w przypadku transmisji w środowiskach o dużych zakłóceniach lub zwiększonych wymaganiach bezpieczeństwa Nie trudno znaleźć zastosowanie dla algorytmów inteligentnej transmisji w systemach komunikacji ratowniczej bądź wojskowej gdy w parze z wysokimi wymaganiami dotyczącymi jakości i dostępności łączy idzie także ich odporność na zakłócenia oraz ingerencję osób trzecich Medycyna Przy współpracy Centrum Onkologii Instytutem im Marii Skłodowskiej-Curie w Warszawie przeprowadzono badania dotyczące wyznaczania punktu odcięcia dla parametru Topoisomerase II-alfa (TOP2) z wykorzystaniem opracowanych w Zakładzie Podstaw Telekomunikacji Politechniki Warszawskiej metod analizy danych Do badań wykorzystano dane kliniczne zgromadzone w latach 1988 2002 w Instytucie Matki i Dziecka w Warszawie Wybrano jednorodną grupę pacjentów poniżej 25 roku życia chorych na kostniakomięsaka (osteosarcoma) złośliwy pierwotny nowotwór tkanki kostnej Z badań wykluczono chorych z niekorzystnymi czynnikami prognostycznymi [13] W analizie uwzględniono następujące parametry kliniczne: wiek płeć lokalizację guza wielkość guza złamanie patologiczne podtyp mięsaka kości reakcję histologiczną na chemioterapię przedoperacyjną rodzaj zabiegu Parametrem decyzyjnym było przeżycie pacjenta Analizę statystyczną przeprowadzono z użyciem komercyjnego pakietu oprogramowania SPSS wersja 12 Punkt odcięcia rozstrzygnięto badając wskaźnik wiarygodności (likelihood ratio) Początkowo dla parametru TOP2 założono trzy punkty odcięcia: 10% 25% i 40% Najwyższy wynik LR = 2 uzyskano dla cięcia 25% Następnie przeprowadzono wiele testów statystycznych min test chi 2 mających na celu zbadanie zależności pomiędzy parametrami i parametrem TOP2 dla punktu odcięcia równego 25% W analizie jednoczynnikowej użyto estymatora Kaplana-Meiera oraz testu log-rank W analizie wieloczynnikowej zmiennych zależnych od czasu użyto modelu proporcjonalnego hazardu Cox-a dla parametrów istotnych statystycznie w teście log-rank (p <005) lub takich które wykazywały tendencję statystyczną (p <01) Badania miały na celu uzasadnić wybór cięcia w punkcie 25% dla TOP2 [13] Punkt odcięcia dla parametru TOP2 został niezależnie wyznaczony za pomocą unikalnej metody dyskretyzacji danych Analizę rozpoczęto od określenia początkowego zestawu 39 cięć {25; 5; 75; 10; 125; 15; 175; 20; 225; 25; 275; 30; ; 95; 975} dla parametru TOP2 (w procentach) To samo nastąpiło w przypadku innych parametrów bazy danych tj dla parametrów: wiek Rys3 Rozkład cięć dla parametru TOP2 płeć lokalizacja guza wielkość guza złamanie patologiczne podtyp osteosarcoma odpowiedź histologiczna typ operacji dla których założono cięcia jako średnie arytmetyczne z kolejnych wartości natomiast dla parametru żywe utkanie założono punkt odcięcia równy 10% Następnie cięcia były analizowane tak aby uzyskać minimalny zestaw cięć przy zachowaniu możliwości klasyfikacji Aby wykonać to zadanie obliczono implikanty proste funkcji rozróżnialności z wykorzystaniem algorytmu uzupełnienia funkcji boolowskich W rezultacie otrzymano 225 310 możliwych minimalnych zestawów cięć dla rozpatrywanych parametrów Późniejsza analiza ilościowa wykazała że dla 95 201 rozwiązań punkt odcięcia dla TOP2 jest równy 25% Rozkład cięć dla parametru TOP2 pokazano na rys 3 * * * Przeprowadzona analiza algorytmu uzupełnienia oraz wykonane eksperymenty potwierdzają że istniejące komputerowe narzędzia eksploracji danych nie w pełni wykorzystują możliwości metod opracowanych dla potrzeb syntezy logicznej stosowanej w projektowaniu systemów cyfrowych Między innymi pokazano że zastosowanie algorytmu uzupełnienia funkcji boolowskich w typowych procedurach eksploracji danych przyśpiesza proces obliczania reduktów Następuje to w tak znacznym stopniu że realne staje się systematyczne obliczanie wszystkich reduktów o najmniejszej liczności co dotychczas było niemożliwe do wykonania za pomocą istniejących systemów eksploracji danych [23 24 25] Oczywiście bariera złożoności obliczeniowej systematycznego obliczania reguł nie znika przesuwa się tylko punkt ciężkości tych obliczeń Implementacja algorytmu uzupełnienia według autorskiego pomysłu w znacznym stopniu przyspieszyła obliczenia i umożliwiła obliczenia praktyczne Między innymi przeprowadzono kilka eksperymentów obliczeniowych przy współpracy z Centrum Onkologii Instytutem im Marii Skłodowskiej-Curie w Warszawie Literatura [1] Andersen T L Martinez TR: Learning and generalization with bounded order rule sets in: Proc of 10th Int Symp On Computer and Information Sciences 1995 [2] Borowik G: Boolean function complementation based algorithm for data discretization in: Moreno-Díaz R Pichler FR Quesada-Arencibia A (eds) Computer Aided Systems Theory EUROCAST 2013 vol 8112 Springer Heidelberg (2013) [3] Borowik G: Data mining approach for decision and classification systems using logic synthesis algorithms in: Klempous R Nikodem J Jacak W Chaczko Z (eds) Advanced Methods and Applications in Computational Intelligence Topics in Intelligent Engineering and Informatics vol 6 Springer International Publishing (2014) doi: 101007/978-3-319-01436-4_1 [4] Borowik G Łuba T: Fast algorithm of attribute reduction based on the complementation of Boolean function in: Klempous R Nikodem J Jacak W Chaczko Z (eds) Advanced Methods and Applications in Computational Intelligence Topics in Intelligent Engineering and Informatics vol 6 Springer International Publishing (2014) doi: 101007/978-3-319-01436-4_2 PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXXVII WIADOMOŚCI TELEKOMUNIKACYJNE ROCZNIK LXXxIII nr 5/2014 115

[5] Borowik G: Wpływ algorytmów syntezy logicznej na skuteczność eksploracji danych w medycynie i telekomunikacji Materiały XIV Seminarium Radiokomunikacja i Techniki Multimedialne Fundacja Wspierania Rozwoju Radiokomunikacji i Technik Multimedialnych Warszaw014 [6] Brayton R K Hachtel G D McMullen C T Sangiovanni-Vincentelli A: Logic Minimization Algorithms for VLSI Synthesis Kluwer Academic Publishers (1984) [7] Grzymala-Busse JW Wang AY: Modified algorithms LEM1 and LEM2 for rule induction from data with attribute values in: Proc of 5th Int Workshop on Rough Sets and Soft Computing (RSSC 97) at JCIS 97 1997 [8] Jankowski C: Dyskretyzacja danych numerycznych metodami przekształceń boolowskich Praca dyplomowa inżynierska Instytut Telekomunikacji Politechnika Warszawska Warszaw014 [9] Komorowski J Pawlak Z Polkowski L Skowron A: Rough sets: A tutorial (1999) [10] Łuba T: Programowalne układy przetwarzania sygnałów i informacji Wydawnictwa Komunikacji i Łączności Warszawa (2008) [11] Łuba T Rybnik J: Rough sets and some aspects in logic synthesis in: Słowiński R (ed) Intelligent Decision Support Handbook of Application and Advances of the Rough Sets Theory Kluwer Academic Publishers (1992) [12] Łuba T Lasocki R Rybnik J: An Implementation of Decomposition Algorithm and its Application in Information Systems Analysis and Logic Synthesis In Rough Sets Fuzzy Sets and Knowledge Discovery W Ziarko (Ed) Workshops in Computing Series Springer Verlag 1994 [13] Ługowska I Woźniak W Klepacka T Michalak E Szamotulska K: A prognostic evaluation of vascular endothelial growth factor in children and young adults with osteosarcoma Pediatric Blood and Cancer 57(1) 63 68 (2011) doi: 101002/pbc23021 [14] Mańkowski M: Uogólnianie reguł decyzyjnych metodą uzupełniania funkcji boolowskich Praca dyplomowa inżynierska Instytut Radioelektroniki Politechnika Warszawska Warszaw014 [15] Papadimitriou CH: Computational complexity Academic Internet Publ (2007) [16] Pawlak Z: Rough Sets Theoretical Aspects of Reasoning about Data Kluwer Academic Publishers (1991) [17] Rondeau TW Bostian CW: Artificial Intelligence in Wireless Communications Artech House (2009) [18] Stefanowski J Vanderpooten D: A general two stage approach to rule induction from examples in: Ziarko W (red) Rough Sets Fuzzy Sets and Knowledge Discovery Springer-Verlag 1994 [19] Stefanowski J: Algorytmy indukcji reguł decyzyjnych w odkrywaniu wiedzy Rozprawa habilitacyjna Seria Rozprawy nr 361 Wydawnictwo Politechniki Poznańskiej Poznań (2001) [20] Ślęzak D Janusz A: Ensembles of bireducts: towards robust classification and simple representation Proceedings of the Third international conference on Future Generation Information Technology Springer- Verlag Jeju Island Korea (2011) doi: 101007/978-3-642-27142-7_9 [21] Žádník M Michlovský Z: Is Spam Visible in Flow-Level Statistics? Tech rep CESNET National Research and Education Network (2009) http:// wwwfitvutbrcz/research/view_pubphp?id=9277 [22] Espresso multi-valued {PLA} minimization http://embeddedeecs berkeleyedu/pubs/downloads/espresso [23] ROSE2 Rough Sets Data Explorer http://idsscsputpoznanpl/site/ rosehtml [24] ROSETTA A Rough Set Toolkit for Analysis of Data http://wwwlcb uuse/tools/rosetta/ [25] RSES Rough Set Exploration System http://logicmimuwedu pl/~rses/ [26] UC Irvine Machine Learning Repository http://archiveicsuciedu/ml/ Jacek JANUSZEWSKI* Perspektywy rozwoju nawigacyjnych i wspomagających systemów satelitarnych w bliskiej i dalszej przyszłości Pierwsze lata drugiego dziesięciolecia XXI wieku to okres dynamicznego rozwoju nawigacyjnych systemów satelitarnych (NSS) I tak w funkcjonującym już od niemal 20 lat amerykańskim systemie GPS jest modernizowany zarówno jego segment kosmiczny (satelity nowego bloku IIF) jak i segment naziemny (kolejne stacje monitorujące rozpoczęcie budowy infrastruktury lądowej trzeciej generacji) W grudniu 2011 r ponownie przywrócono pełną zdolność operacyjną rosyjskiemu systemowi GLONASS Budowany intensywnie przez Chiny system BeiDou (poprzednia nazwa Compass) jest już z powodzeniem wykorzystywany w rejonie wschodniej Azji Trwa budowa europejskiego systemu Galileo Wiele istotnych zmian można również odnotować w przypadku satelitarnych systemów wspomagających SBAS (Satellite Based Augmentation System) Do funkcjonujących od lat systemów WAAS i MSAS odpowiednio w USA i Japonii dołączył europejski EGNOS W ostatnich latach oddano do eksploatacji trzy jego serwisy Zbliża się też do końca budowa dwóch kolejnych SBAS SDCM i GAGAN odpowiednio w Rosji i Indiach W tej sytuacji na rynku jest dostępnych coraz więcej odbiorników różnych klas w tym wiele zintegrowanych Należy tutaj wyraźnie stwierdzić że najważniejsze parametry techniczno-eksploatacyjne wszystkich wymienionych modernizowanych i budowanych systemów NSS i SBAS są celowo tak dobierane * Akademia Morska w Gdyni Katedra Nawigacji e-mail: jacekjot@amgdyniapl przez ich twórców i dyspozytorów aby w przyszłości i to tej bliższej niż dalszej na ich podstawie mógł powstać nowy zintegrowany nawigacyjny system satelitarny o zasięgu globalnym o nazwie GNSS (Global Navigation Satellite System) W artykule wyjaśniono co te zmiany oznaczają i będą oznaczać dla milionów użytkowników w szczególności wskazano konsekwencje pojawienia się nowych częstotliwości nośnych nowych sygnałów nowych serwisów oraz problem ich kompatybilności i międzyoperacyjności w tym częstotliwości nośnych układów odniesienia i własnych czasów poszczególnych systemów Kolejną i to chyba najważniejszą kwestią do rozstrzygnięcia jest wybór dla wszystkich systemów techniki wielokrotności zapewniającej jednoznaczny dostęp do kanału radiokomunikacyjnego Na początku 2014 roku na orbitach okołoziemskich znajdowało się ponad 80 operacyjnych satelitów: 31 systemu GPS 24 systemu GLONASS 4 systemu Galileo 15 systemu BeiDou 3 systemu EGNOS oraz po dwa satelity WAAS i MSAS Z całą pewnością można stwierdzić że po ogłoszeniu pełnej zdolności operacyjnej budowanych obecnie systemów Galileo BeiDou SDCM i GAGAN liczba satelitów wzrośnie do przeszło 130 Fakt ten będzie wielkim wyzwaniem dla konstruktorów i producentów nowych odbiorników tychże systemów Wydawać by się mogło że z punktu widzenia użytkowników zwiększenie liczby dostępnych NSS i SAS oraz liczby oferowanych przez nich serwisów przyniesie same korzyści Okazało się jednak że funkcjonowa- 116 PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXXVII WIADOMOŚCI TELEKOMUNIKACYJNE ROCZNIK LXXxIII nr 5/2014