Praca dyplomowa - magisterska

Transkrypt

1 Wydział Informatyki i Zarządzania kierunek studiów: Informatyka specjalność: Systemy Informacyjne Praca dyplomowa - magisterska METODY EKSPLORACJI LINKED DATA Katarzyna Maria Nieszczesna słowa kluczowe: Linked Data, Semantic Web, metody eksploracji danych, metody klasyfikacji krótkie streszczenie: W niniejszej pracy zajęto się problemem eksploracji danych rozszerzonych przez Linked Data. W badaniach wykorzystano algorytmy klasyfikacji. Eksperymenty zostały przeprowadzone na trzech zbiorach danych: podstawowym, rozszerzonym przez dane dostępne w DBpedii oraz rozszerzonym, z którego usunięte zostały najmniej istotne kolumny. Otrzymane rezultaty porównano i sformułowano wnioski. Opiekun pracy dyplomowej dr inż. Marek Kopel Tytuł/stopień naukowy/imię i nazwisko ocena podpis Przewodniczący Komisji egzaminu dyplomowego Ostateczna ocena za pracę dyplomową... Tytuł/stopień naukowy/imię i nazwisko ocena podpis Do celów archiwalnych pracę dyplomową zakwalifikowano do:* a) kategorii A (akta wieczyste) b) kategorii BE 50 (po 50 latach podlegające ekspertyzie) * niepotrzebne skreślić Wrocław 2017 pieczątka wydziałowa

2

3 Spis treści Streszczenie Wstęp Cel pracy Zakres badań Organizacja pracy Linked Data Semantyka Semantic Web Model Sieci Semantycznej Linked Data dane powiązane Eksploracja danych Proces eksploracji danych Omówienie metod klasyfikacji Przegląd narzędzi do eksploracji danych RapidMiner R Weka KNIME Wybór narzędzia Przygotowanie badań Cel i zakres badań Zbiór danych Proces rozszerzania zbioru danych o Linked Data Rezultaty otrzymane po uruchomieniu procesu Badania Miary wykorzystane w badaniach Badanie 1. Klasyfikacja przez indukcję drzew decyzyjnych Badanie 2. Naiwny klasyfikator bayesowski Badanie 3. Algorytm k najbliższych sąsiadów Omówienie wyników badań i wnioski Podsumowanie

4 Bibliografia Spis ilustracji Spis tabel Spis wykresów

5 Streszczenie W obecnych czasach świadomość zastosowań eksploracji danych oraz zysków płynących ze zdobytej w ten sposób wiedzy jest coraz większa. Eksplorację danych wykorzystuje się w wielu branżach, takich jak medycyna, informatyka czy handel. Można również zaobserwować duży postęp w przypadku wciąż nowej dziedziny jaką jest Sementic Web, której częścią jest Linked Data. W niniejszej pracy postanowiono podjąć próbę połączenia tych dwóch intensywnie rozwijających się obecnie dziedzin. Zajęto się problemem eksploracji danych wykonywanej na zbiorach rozszerzonych o Linked Data (dane powiązane). W pierwszej części pracy dokonano przeglądu zagadnień związanych z tym tematem. Następnie omówiono wybrane narzędzia służące do eksploracji danych. Spośród nich wybrano na potrzeby badań program umożliwiający dołączenie danych powiązanych do istniejącego zbioru oraz najlepiej spełniający pozostałe postawione wymagania. Celem wykonanych badań było sprawdzenie czy dołączenie danych pochodzących z DBpedii do istniejącego zbioru ma wpływ na wyniki klasyfikacji. Do eksperymentów wykorzystano trzy algorytmy klasyfikacji indukcję drzew decyzyjnych, naiwny klasyfikator bayesowski oraz algorytm k najbliższych sąsiadów. Każde badanie polegało na zastosowaniu jednej z wyżej wymienionych metod na zbiorze oryginalnym, rozszerzonym o Linked Data oraz rozszerzonym, z którego usunięto najmniej istotne kolumny. Następnie porównano otrzymane wyniki i wyciągnięto wnioski. Abstract Nowadays awareness of data mining usage and profits from knowledge acquired in this way is growing. Data mining is using in many kinds of industries, such as medicine, IT or trade. Big progress can be also noticed in still the new branch of science Semantic Web, part of which is Linked Data. In this paper was decided to take an attempt to connect these two areas which development is intensive. The problem that was worked on, concerned data mining executed on files extended with Linked Data. The first part of this document describes the topics connected with Linked Data and data mining. Then there placed a description of data mining tools. From these tools was chosen this one which allows integration with Linked Data and the best meets the rest of the requirements. The goal of the research was to check if attaching data from DBpedia to existing file has an influence on classification result. Three types of classification algorithms were used for the experiments decision tree, naive Bayes classifier and k-nearest neighbors algorithm. In each experiment one of the above methods was used on the original set, set extended with Linked Data and extended set from which have been removed the least significant columns. Then the results were compared and the conclusions were drawn. 5

6 1 Wstęp Eksploracja danych jest niezwykle istotną i bardzo dynamicznie rozwijaną w ostatnich czasach dziedziną z pogranicza statystyki, zarządzania danymi, informatyki oraz sztucznej inteligencji. Intensywny postęp tego obszaru spowodowany jest coraz częściej pojawiającym się problemem efektywnego wyszukiwania informacji z wciąż powiększających się zbiorów danych. Eksploracja danych ma szereg zastosowań w wielu branżach, takich jak administracja, informatyka, medycyna czy handel. Jedną z najstarszych, a zarazem najczęściej używanych metod w tej dziedzinie jest klasyfikacja polegająca na wykorzystaniu istniejącego zbioru danych do utworzenia modelu pozwalającego na sklasyfikowanie nowych elementów. Linked Data to z kolei część wizji stosunkowo nowego projektu Semantic Web. Jest metodą publikowania danych w sieci w taki sposób, aby były zrozumiałe zarówno dla ludzi, jak również dla maszyn. Celem Linked Data jest sprawienie, aby dane w sieci stały się bardziej użyteczne dzięki powiązaniom między nimi. a 1.1 Cel pracy Ze względu na to, że Semantic Web i związane z nią obszary wciąż są jeszcze niezbyt popularne to połączenie procesu eksploracji danych z Linked Data jest nowym i obecnie rzadko poruszanym zagadnieniem. Jednak warto zauważyć, że takie działanie może mieć wpływ na rezultaty otrzymywane w procesie eksploracji danych. W tej pracy dyplomowej postanowiono zająć się tym wciąż nowym i niezbadanym w pełni problemem. Tematyka obu dziedzin jest niezwykle rozległa, więc nie sposób było omówić wszystkie możliwe aspekty w ramach tego dokumentu. W związku z tym za cel niniejszej pracy dyplomowej przyjęto sprawdzenie czy zabieg rozszerzenia zbiorów danych o Linked Data ma wpływ na wyniki klasyfikacji danych. a 1.2 Zakres badań W ramach pracy dyplomowej wykonano trzy badania. W każdym z nich użyty został inny algorytm klasyfikacji. W pierwszym eksperymencie zastosowano klasyfikację przez indukcję drzew decyzyjnych. W drugim badaniu użyto naiwnego klasyfikatora Bayesa. Natomiast w ostatnim eksperymencie został wykorzystany algorytm k najbliższych sąsiadów. Każde badanie polegało na użyciu danego algorytmu na trzech zbiorach oryginalnym, rozszerzonym oraz rozszerzonym, z którego usunięte zostały najmniej istotne kolumny. Wszystkie eksperymenty składały się z dwóch części. Obie części badania były przeprowadzane w ten sam sposób, jednak dla zbiorów rozszerzanych na podstawie innych argumentów. W każdej części badania otrzymane wyniki zostały porównane. Na koniec podsumowano badania i wyciągnięto wnioski. A 6

7 1.3 Organizacja pracy W dokumencie tym można wyróżnić dwie główne części. Pierwsza składa się z trzech rozdziałów. Jest to część teoretyczna, która rozpoczyna się od rozdziału poświęconego zagadnieniom związanym z Semantic Web. Wyjaśnienie ich było niezbędne przed przejściem do zasadniczej części tematu pracy dyplomowej Linked Data, którą omówiono w tym samym rozdziale. W kolejnym fragmencie pracy przedstawiono definicję eksploracji danych oraz omówiono pokrótce jakie metody eksploracji danych są obecnie wyróżniane. Następnie skupiono się na szczegółowym omówieniu algorytmów klasyfikacji, które zostały wykorzystane do eksperymentów przeprowadzanych w ramach niniejszej pracy dyplomowej. Omówione algorytmy to klasyfikacja przez indukcję drzew decyzyjnych, naiwny klasyfikator bayesowski oraz klasyfikator najbliższego sąsiedztwa. Ostatni rozdział z części teoretycznej poświęcony został przeglądowi narzędzi służących do eksploracji danych. Omówione zostały najpopularniejsze programy RapidMiner, R, Weka oraz KNIME, które następnie porównano i wybrano najbardziej odpowiadający postawionym wymaganiom. Wyłonionego w ten sposób narzędzia użyto do realizacji zaplanowanych badań. Druga część, która rozpoczyna się rozdziałem piątym jest częścią eksperymentalną. We wspomnianym rozdziale omówiono przygotowanie do przeprowadzenia eksperymentów. Rozpoczęto od przedstawienia celu i zakresu zaplanowanych badań. Następnie opisany został zbiór danych, który wykorzystano w badaniach, omówiono proces rozszerzania danych o Linked Data, a na koniec zaprezentowano otrzymane rezultaty. W ostatnim rozdziale zostały przedstawione i porównane wyniki badań, podsumowano efekty przeprowadzonych eksperymentów i sformułowano konkluzję. 7

8 2 Linked Data Niniejszy rozdział stanowi wprowadzenie do tematyki związanej z Linked Data. W pierwszej części zostały przybliżone pojęcia semantyki oraz Semantic Web, a także opisano najważniejsze warstwy modelu Sieci Semantycznej, których znajomość jest konieczna do zrozumienia idei semantyki. Wyjaśnienie tych pojęć było niezbędne przed rozpoczęciem drugiej części rozdziału, którą poświęcono omówieniu Linked Data. 2.1 Semantyka Przed przystąpieniem do omówienia zagadnień dotyczących Sieci Semantycznej należy wyjaśnić pojęcie semantyki. Semantyka jest jednym z działów semiotyki logicznej. Do tego działu należą również syntaktyka i pragmatyka. Podział ten został wprowadzony przez Charlesa Morrisa. Słownik języka polskiego [44] podaje 2 definicje semantyki: 1. dział językoznawstwa, którego przedmiotem jest analiza znaczeń wyrazów 2. dział semiotyki zajmujący się badaniem związków, jakie zachodzą między wyrażeniami języka a przedmiotami, do których się one odnoszą 2.2 Semantic Web Sieć Semantyczna, znana też jako Semantic Web to rozwinięcie Internetu. Ma być ona przeciwieństwem współczesnej sieci WWW czyli dostarczającej jedynie informacji, wśród których użytkownik sam musi oddzielić potrzebne od zbędnych [21]. Semantic Web to zbiór danych, w którym informacje są zrozumiałe zarówno dla ludzi, jak i dla maszyn. Sieć Semantyczną można zdefiniować w następujący sposób: Semantic Web jest to rozszerzenie dzisiejszej sieci Web, w której informacja ma dobrze zdefiniowane znaczenie, dzięki czemu umożliwia lepszą współpracę komputerów i ludzi. Informacja w Sieci Semantycznej ma być przedstawiana w postaci zrozumiałej dla maszyn. Semantic Web to siatka informacji, które są połączone w taki sposób, aby informacja była wygodna do przetwarzania przez maszyny. Zrozumienie przez maszyny przekazu informacji w postaci ludzkiej mowy, zawartości dokumentów, nie ma polegać sztucznej inteligencji, a raczej na zdolności maszyn do rozwiązywania dobrze zdefiniowanych problemów przez wykonywanie dobrze zdefiniowanych operacji na dobrze zdefiniowanych danych [29]. W artykule The Semantic Web [3] Sieć Semantyczna została zdefiniowana w następujący sposób: Sieć Semantyczna jest to rozszerzenie istniejącej sieci WWW o mechanizmy semantyczne, tak aby informacje dostępne w tej sieci były dobrze zdefiniowane i umożliwiały lepszą współpracę komputerom i ludziom. 8

9 Podstawowe standardy Semantic Web to: RDF (Resource Description Framework) specyfikacja modelu metadanych RDF Schema język reprezentacji wiedzy OWL (Web Ontology Language) rozszerzenie RDF Schema [3] Wymienione wyżej standardy zostały bardziej szczegółowo opisane w kolejnej części tej pracy. 2.3 Model Sieci Semantycznej Rysunek 2.1 Model Sieci Semantycznej [1] Poniżej opisane zostały warstwy modelu Sieci Semantycznej, które są niezbędne do zrozumienia idei semantyki. 9

10 2.3.1 URI URI (Uniform Resource Indentifier) to znajdujący się w dolnej warstwie modelu Sieci Semantycznej system jednoznacznego adresowania zasobów Sieci. Jest to standard internetowy, który umożliwia prostą identyfikację zasobów w sieci. URI składa się z URL oraz URN [33]. Rysunek 2.2 Uniform Resource Indentifier [33] Unicode Jest to drugi obok URI element podstawy w modelu Sieci Semantycznej. Jest standardem, który pozwana na wyrażenie w języku maszyn dowolnego znaku pisanego. Unicode zapewnia unikalność dla 1 miliona znaków bez względu na: a. platformę b. program c. język [14] XML, NS, XML Schema Są to elementy, które znajdują się w drugiej warstwie modelu Sieci Semantycznej. a. XML (extensible Markup Language) jest uniwersalnym językiem znaczników. Jest to język służący do tworzenia innych języków, które mają budować dokumenty w Internecie [38]. b. NS (Name Spaces) przestrzenie nazw. Możliwość definiowania takich przestrzeni umożliwia uniknięcie konfliktu w przypadkach, gdy w kilku miejscach Sieci pod tymi samymi nazwami rozumie się różne pojęcia [14]. 10

11 c. XML Schema jest to standard opracowany przez W3C. Służy on do definiowania struktury dokumentu XML. Dokumenty te pozwalają na uporządkowanie zasobów sieci [38] RDF RDF (Resource Description Framework) to aplikacja języka XML. Jest środowiskiem do opisu zasobów. RDF to standard umożliwiający zapisywani danych w postaci grafu skierowanego, w którym dane są zawarte w wierzchołkach, natomiast relacje pomiędzy danymi znajdują się w krawędziach. Jego rozszerzeniem jest OWL. RDF to jedna z najważniejszych warstw modelu Sieci Semantycznej. Pozwala na przedstawienie wiedzy zawartej w Internecie w sposób zrozumiały dla maszyn [39]. Wszystkie stwierdzenia RDF składają się z trzech następujących elementów: podmiot jest to opisywany w stwierdzeniu zasób (czyli wierzchołek, w którym zaczyna się dana krawędź) orzeczenie właściwość podmiotu (czyli nazwa krawędzi w grafie) obiekt drugi wierzchołek, zasób lub literał, który jest wartością właściwości opisanej przez wyżej wymienione orzeczenie [39] Przedmiot, który jest identyfikowany za pomocą unikalnego identyfikatora URI w danym zbiorze, jest charakteryzowany poprzez jego właściwość (orzeczenie) oraz wartość właściwości (obiekt). Najbardziej korzystnym przypadkiem jest taki, w którym wszystkie elementy deklaracji są przywoływane za pomocą unikalnych URI. Taka sytuacja jest przedstawiona na rysunku poniżej [40]. Rysunek 2.3 Budowa deklaracji RDF [40] 11

12 2.3.5 RDF Schema (RDFS) RDF Schema to język reprezentacji wiedzy, który jest semantycznym rozszerzeniem RDF. Zapewnia mechanizmy służące do opisywania grup powiązanych zasobów oraz relacji pomiędzy tymi zasobami [5]. Wprowadza podstawowe pojęcia (takie jak pojęcie klasy, jej własności, zakresu). Służy głównie do formalnego uporządkowania zapisów [40]. Podstawowymi elementami określanymi w RDFS są: Klasy Zasoby, za pomocą których opisywane są klasy Właściwości zasobów charakterystyczne dla danego fragmentu rzeczywistości [40] Rysunek 2.4 Przykład RDF Schema [30] Ontologia Definicja ontologii wprowadzona przez Thomasa Grubera: Formalna, jawna specyfikacja wspólnej konceptualizacji [17] Ontologia w sensie informatycznym to formalna reprezentacja pewnej dziedziny wiedzy, na którą składa się zapis zbiorów pojęć (ang. concept) i relacji między nimi. Zapis ten tworzy schemat pojęciowy, który będąc opisem danej dziedziny wiedzy, może służyć jednocześnie jako podstawa do wnioskowania o właściwości opisywanych ontologią pojęć [12]. 12

13 Można wymienić wiele celów ontologii. Jednym z nich jest tworzenie struktur, które są rozumiane przez ludzi oraz maszyny. Innym szczegółowe analizowanie wiedzy z wybranej dziedziny oraz wielokrotne wykorzystanie tej samej wiedzy z danej dziedziny. Kolejny cel jaki można wymienić to analiza wiedzy z konkretnej dziedziny. Innym zadaniem ontologii jest precyzowanie założeń odnośnie wybranej dziedziny [14]. Klasyfikacja ontologii Ontologie można klasyfikować ze względu na stopień formalizacji jako: Nieformalne Formalne [15] Natomiast ze względu na zakres stosowania wyróżnia się: Ontologie wysokiego poziomu Ontologie dziedzinowe Ontologie aplikacyjne [15] Przykładowymi językami zapisu ontologii są RDF, RDF Schema (RDFS), OWL (Web Ontology Language), OCML (Operational Conceptual Modeling Language), Ontolingua czy XML [15] OWL Proste ontologie można tworzyć przy użyciu RDF Schema, jednak złożone domeny wymagają większych możliwości, takich jak: Relacje pomiędzy klasami Ograniczenie mocy zbioru własności Bogate typowanie właściwości Charakterystyka właściwości Określanie czy dana właściwość jest unikalnym kluczem dla instancji danej klasy Ograniczenie domeny i zakresu właściwości, jeżeli są one używane przez ustaloną klasę 13

14 Równość klas, określenie, że 2 klasy posiadające różne URI w rzeczywistości reprezentują tę samą klasę Równość jednostek, określenie, że 2 przypadki posiadające różne URI w rzeczywistości reprezentują tę samą jednostkę Klasy wyliczeniowe [7] Język OWL został zaprojektowany w celu umożliwienia tworzenia ontologii internetowych, których nie można utworzyć przy użyciu RDFS ze względu na wyżej wymienione ograniczenia [43]. OWL (Web Ontology Language) to język stanowiący rozbudowaną wersję RDF. Posiada większy słownik oraz mocniejszą składnię. W 2004 roku został uznany przez W3C za standard. Jego składnia opiera się na XML, natomiast semantyka na logice opisowej. Jest to język reprezentujący wiedzę o rzeczach, grupach rzeczy oraz relacjach pomiędzy rzeczami [36] Podstawową jednostką języka OWL jest klasa oraz jej właściwości. OWL służy do definiowania semantyki dokumentów w systemie WWW. Pozwala na formułowanie ontologii, które są zbiorami definicji klas i obiektów oraz relacji pomiędzy nimi [7] Język OWL ma strukturę warstwową. Jego warstwy zwane są gatunkami sów. Można wyróżnić 3 warstwy języka OWL: OWL Lite najprostsza z warstw. Pozwala na tworzenie taksonomii pojęć opartej na relacji is-a. W tej warstwie nie można formułować ekstensjonalnych definicji pojęć. OWL DL jest rozszerzeniem warstwy OWL Lite. Semantycznie odpowiada logikom deskrypcyjnym. Poprzez nakładanie kliku rodzajów więzów na relacje pozwala na tworzenie złożonych struktur pojęciowych. W tej warstwie nie ma możliwości definiowania relacji, które zachodzą między pojęciami. OWL Full jest rozszerzenie OWL DL, nie posiada ograniczeń poprzednich warstw, jednakże nie posiada formalnie zdefiniowanej semantyki ani gwarancji efektywności i rozstrzygalności [7] Rysunek 2.5 Warstwy języka OWL [6] 14

15 2.4 Linked Data dane powiązane Celem Semantic Web nie jest jedynie umieszczanie danych w sieci, ale również tworzenie powiązań pomiędzy nimi. Ma to umożliwić eksplorację zbiorów oraz odkrywanie nowych danych w sposób manualny lub automatyczny. Dzięki danym powiązanym ze sobą takie przeszukiwanie staje się możliwe. Linked Data jest częścią wizji Semantic Web, mechanizmem, którym Semantic Web się posługuje. Jest to koncepcja danych powiązanych, której autorem jest Tim Berners-Lee. Polega ona na wykorzystaniu WWW i jego technologii w celu utworzenia formalnych połączeń pomiędzy danymi z różnych zbiorów. Linked Data to metoda publikowania danych strukturalnych w sieci WWW, w taki sposób, aby stały się bardziej użyteczne dzięki powiązaniom między nimi. Metoda ta opiera się na takich technologiach internetowych jak HTTP, RDF i URI. Głównym celem Linked Data jest publikowanie danych tak, aby umożliwić odczytywanie oraz interpretowanie ich nie tylko ludziom, ale również maszynom [2]. Linked Data odwołuje się do metod ekspresji, reprezentacji, łączenia i współdzielenia danych w Semantic Web, które wykorzystują istniejące standardy i narzędzia sieciowe [42]. Linked Data nie jest nowym schemat metadanych. Jest to zbiór zasad publikowania i udostępniania danych w Semantic Web [40] zasady Linked Data W roku 2006 Tim Berners-Lee zaprezentował listę reguł publikowania danych w sieci w taki sposób, aby wszystkie dane te stawały się częścią jednej globalnej przestrzeni danych: 1. Używaj identyfikatorów URI by nazywać obiekty 2. Udostępniaj identyfikatory URI przez HTTP, by inni mieli do nich dostęp 3. Pod swoimi URI dostarczaj użytecznych informacji przy pomocy standardów (RDF, SPARQL) 4. Zamieszczaj powiązania do innych URI, aby użytkownicy mogli odkryć jeszcze więcej informacji [2] Zasady te są znane jako Linked Data principles i służą jako podstawa dla publikowania oraz łączenia danych z wykorzystaniem struktury sieci Web i z zachowaniem jej architektury oraz standardów [18] Chmura Linked Data Zbiory danych, które zostały opublikowane zgodnie z Linked Data tworzą chmurę powiązanych danych (Linked Data Cloud), czyli globalną sieć zbiorów danych stosujących wzajemne odwołania. Chmura ta w roku 2007 liczyła zaledwie klika zbiorów danych realizujących 15

16 ten model. Na zamieszczonych poniżej rysunkach można zaobserwować jak bardzo zwiększyła się liczba danych w ciągu 7 lat. Rysunek 2.6 Chmura Linked Data w roku 2007 [42] Rysunek 2.7 Chmura Linked Data w roku 2009 [18] 16

17 Rysunek 2.8 Chmura Linked Data 2014 [8] Linked Data Technologie Linked Data korzysta z dokumentów, które zawierają dane w formacie RDF. Linked Data opiera się na dwóch technologiach będących podstawą sieci internetowej. Te technologie to: Identyfikator URI Protokół HTTP Za pomocą identyfikatorów URI możliwe jest zidentyfikowanie dowolnej jednostki w świecie wirtualnym oraz rzeczywistym. Celem tego standardu jest identyfikacja obiektów za pomocą unikalnych ciągów znaków [41]. Protokół przesyłania danych HTTP zapewnia znormalizowany sposób komunikacji pomiędzy komputerami. Dzięki niemu możliwe jest przesyłanie informacji o obiekcie zidentyfikowanym przy pomocy identyfikatora URI do maszyny, w której wywołano identyfikator za pomocą poleceń protokołu HTTP [40]. 17

18 2.4.4 Linked Data Narzędzia Zasoby Linked Data to gotowe dane, które można opublikować za pomocą technologii Semantic Web. Istnieje wiele narzędzi, które można w tym celu wykorzystać. Oprócz wymienionych już wcześniej RDF i OWL można tu wymienić również: FOAF SKOS SIOC DOAP GeoNames Ontology Music Ontology [40] Linked Open Data Linked Open Data to powiązane dane o otwartej treści. Tim Berners-Lee definiuje Linked Data podając 4 reguły, a następnie dodaje piątą otwartość treści. W ten sposób zdefiniowane zostaje Linked Open Data. Przykładowym źródłem zawierającym duże zasoby otwartych powiązanych danych jest DBpedia. 5 gwiazdek Linked Open Data Dostęp w sieci na otwartej licencji Dostęp w postaci strukturalnej, czytelnej dla maszyn Dostępne w niezastrzeżonych standardach Używanie standardów W3C (RDF i SPARQL) Łączenie z danymi innych osób Informacje na temat Linked Open Data przedstawione w tej części opracowane zostały na podstawie: [2]. 18

19 3 Eksploracja danych W tym rozdziale omówione zostały pojęcia odkrywania wiedzy oraz eksploracji danych wytłumaczono różnicę pomiędzy tymi procesami. Następnie krótko opisano podział eksploracji danych ze względu na charakterystykę oraz ze względu na cel eksploracji. W kolejnej części zajęto się klasyfikacją oraz jej wybranymi metodami indukcją drzew decyzyjnych, naiwnym klasyfikatorem Bayesa i algorytmem k najbliższych sąsiadów. 3.1 Proces eksploracji danych Odkrywanie wiedzy to proces mający na celu automatyczne odkrywanie nieznanych wcześniej reguł, schematów, zależności i wzorców w zbiorze danych. Jest to dziedzina, której celem jest pozyskiwanie informacji z repozytoriów danych, a dzięki analizie tych zbiorów istnieje możliwość odkrycia nowych powiązań między nimi [48]. Dyscyplina ta łączy wiele dziedzin, takich jak: systemy baz danych, statystyka, systemy wspomagania decyzji, sztuczna inteligencja, uczenie maszynowe, wizualizacja danych, przetwarzanie równoległe i rozproszone, i wiele innych [31]. Często spotykane jest zamienne stosowanie określeń odkrywanie wiedzy i eksploracja danych. Jednak pojęcia te nie oznaczają dokładnie tego samego. Pojęcie odkrywanie wiedzy jest ogólniejszym terminem. Oznacza cały proces składający się z kilku etapów, w tym eksploracji danych. Odkrywanie wiedzy składa się zazwyczaj z poniżej wymienionych kroków: 1. Selekcja danych usunięcie relacji i krotek, które będą poddawane procesowi eksploracji 2. Transformacja danych skonwertowanie typów atrybutów, dyskretyzacja wartości ciągłych 3. Eksploracja danych zastosowanie wybranych metod (na przykład sieci neuronowych czy drzew decyzyjnych) 4. Interpretacja wyników wybór najbardziej interesującej wiedzy, wizualizacja wyników [48] W niniejszej pracy zajęto się eksploracją danych w znaczeniu trzeciego z wymienionych powyżej kroków. Metody eksploracji danych można rozróżniać ze względu na charakterystykę. Wymienia się wtedy dwie klasy: a. metody opisu danych ich celem jest odkrywanie wcześniej nieznanych reguł czy wzorców, które opisują ogólne cechy zbiorów danych b. metody predykcji danych ten rodzaj metod ma na celu przewidywanie trendów w zachowaniach, na przykład konsumentów Jednym najbardziej popularnych przykładów metod opisu danych, jaki można przytoczyć jest analiza koszyka zakupów klientów. Celem eksploracji danych jest w tym przypadku znalezienie grup produktów, które najczęściej są przez klientów kupowane razem. 19

20 Z kolei jako przykłady metod predykcji danych wymieniane są przewidywanie wystąpienia trzęsienia ziemi czy wyniku terapii lub zachowania klienta na aukcji internetowej. Więcej przypadków zastosowania obu rodzajów metod można znaleźć w książce Eksploracja danych. Metody i algorytmy [32]. Innym sposobem klasyfikacji metod eksploracji danych jest podział na kategorie ze względu na cel eksploracji. W takim przypadku metody dzieli się na następujące klasy [32]: a. odkrywanie asocjacji jest to najbardziej rozległa klasa metod. Obejmuje ona wyszukiwanie zależności (nazywanych asocjacjami) pomiędzy danymi. W wyniku działania tych metod otrzymywane są zbiory reguł asocjacyjnych, które opisują odkryte zależności. b. klasyfikacja i predykcja są to metody wyszukiwania klasyfikatorów lub funkcji. Otrzymanych modeli klasyfikacji używa się w celu klasyfikacji nowych elementów. c. grupowanie ta klasa metod znana jest też pod nazwami klastrowanie czy analiza skupień. Grupowanie polega na znajdowaniu skończonego zbioru kategorii dla elementów o podobnych cechach. Celem grupowania jest podział na klasy. d. odkrywanie charakterystyk polega na wyszukiwaniu krótkich i treściwych opisów własności klas elementów. e. analiza sekwencji i przebiegów czasowych w metodzie analizy sekwencji celem jest znajdowanie wzorców sekwencji, a także klasyfikowanie i grupowanie sekwencji. Z kolei analiza przebiegów czasowych jest wykorzystywana do odkrywania podobieństw, nieprawidłowości oraz cykli w przebiegach czasowych. f. eksploracja tekstu i danych semistrukturalnych metoda ta służy do analizy tekstów oraz danych semistrukturalnych. g. eksploracja WWW jest to rodzaj metod, których zadaniem jest wyszukiwanie oraz analiza typowych wzorców zachowań użytkowników sieci Web. Przykładem należącym do tej grupy są metody analizy reklam internetowych. h. eksploracja grafów i sieci społecznościowych ta klasa metod jest wykorzystywana w wielu dziedzinach. Służy do analizy struktur grafów (na przykład sieci biologicznych, związków chemicznych czy obwodów elektronicznych). Ma na celu również analizę sieci społecznościowych, na przykład podczas procesu wykrywania oszustów biorących udział w aukcjach internetowych. i. eksploracja danych multimedialnych i danych przestrzennych metody tego typu mają za zadanie wspierać procesy wyszukiwania danych. j. wykrywanie punktów osobliwych są to metody znajdowania elementów odbiegających od ogólnego modelu. W niniejszej pracy dyplomowej postanowiono zająć się jedną z wyżej wymienionych metod eksploracji klasyfikacją. Jest ona uznawana za najważniejszą i najczęściej używaną metodę eksploracji danych przez wielu autorów książek i artykułów o tematyce data mining (np. [31], [32] i [48]). 20

21 3.2 Omówienie metod klasyfikacji Klasyfikacja to jedna z najstarszych, a także najczęściej używanych metod eksploracji danych. Jej celem jest znalezienie ogólnego modelu podziału zbioru predefiniowanych klas obiektów na podstawie pewnego zbioru danych historycznych, a następnie, zastosowanie odkrytego modelu do predykcji klasy nowego obiektu, dla którego klasa nie jest znana [32]. Innymi słowy klasyfikacja wykorzystuje istniejącą bazę danych do utworzenia modelu (może to być na przykład drzewo decyzyjne), który pozwoli na sklasyfikowanie nowych obiektów. Metoda ta ma wiele zastosowań, między innymi w firmach ubezpieczeniowych, gdzie jest wykorzystywana do automatycznego podziału kierowców na powodujących wypadki drogowe i takich, którzy wypadków nie powodują. Klasyfikacja znajduje również zastosowanie w takich dziedzinach jak medycyna, gdzie pozwala na automatyczne rozpoznawanie chorób na podstawie informacji o pacjencie czy bankowość poprzez wspomaganie decyzji dotyczących przyznawania kredytów klientom. Może mieć też zastosowania administracyjne i militarne na przykład jako wsparcie w procesie rozpoznawania twarzy. Innymi dziedzinami, w których wykorzystywana jest ta metoda są handel w celu ustalania preferencji klientów czy informatyka, gdzie stosowana jest między innymi do automatycznego rozpoznawania spamu w poczcie elektronicznej (więcej informacji na temat zastosowań klasyfikacji patrz: [32]). Można wyróżnić dwa rodzaje klasyfikacji: a. dwuklasową b. wieloklasową Pierwszy rodzaj przydziela atrybut do jednej z dwóch dostępnych klas (przykładowo odpowiada na pytanie czy zwierzę jest, czy nie jest ssakiem). Drugi rodzaj klasyfikuje obiekt do jednej z wielu dostępnych klas [11]. Klasyfikacja jest metodą eksploracji danych z nadzorem (supervised learning). Dla tego rodzaju metod konieczne jest dysponowanie zbiorem danych, w którym dane posiadają już przypisaną klasę. Na podstawie tego zbioru algorytm tworzy model klasyfikacyjny, aby później, na podstawie zdobytej wiedzy (modelu klasyfikacyjnego), móc przypisać klasy nowym przypadkom, dla których wartość atrybutu decyzyjnego nie jest znana, natomiast mają przypisane wartości atrybutów warunkowych. Tworzenie modelu klasyfikacyjnego składa się z dwóch etapów. W pierwszym etapie dostarczony zbiór danych jest dzielony na dwa zbiory rozłączne treningowy (zwany także uczącym lub trenującym) oraz testowy. Następnym krokiem pierwszego etapu jest uczenie, w wyniku którego powstaje model klasyfikacyjny. Drugi etap to testowanie. W tej części sprawdzana jest jakość modelu klasyfikacyjnego poprzez zastosowanie go na zbiorze testowym [32]. Na rysunku poniżej zobrazowane są opisane etapy konstrukcji modelu. 21

22 Rysunek 3.1 Etapy konstrukcji modelu klasyfikacyjnego [32] W niniejszym rozdziale opisane zostały algorytmy klasyfikacji danych, które postanowiono wykorzystać w eksperymentach przeprowadzanych na potrzeby tej pracy dyplomowej. Są to trzy popularne metody klasyfikacja przez indukcję drzew decyzyjnych (decision tree), naiwny klasyfikator bayesowski (naive Bayes) oraz klasyfikator najbliższego sąsiedztwa (algorytm k najbliższych sąsiadów, k nearest neighbours) Klasyfikacja przez indukcję drzew decyzyjnych Indukcja drzew decyzyjnych jest jednym z najbardziej znanych podejść do klasyfikacji. Pełni ważną rolę w uczeniu maszynowym oraz eksploracji danych. Jest to graficzna technika wspierania procesu podejmowania decyzji. Indukcji drzew decyzyjnych używa się do rozwiązywania problemu klasyfikacji, wynikiem tego algorytmu są tak zwane drzewa decyzyjne, znane też pod nazwami diagramy drzew, drzewa klasyfikacyjne, wykresy drzew czy diagramy systematyki. Drzewo decyzyjne to specyficzny rodzaj klasyfikatora, który jest acyklicznym grafem, mającym strukturę drzewa. Graf ten składa się z korzenia, krawędzi, węzłów oraz liści. Korzeń i węzły to wewnętrzne wierzchołki drzewa. Każdym wewnętrznym wierzchołkiem jest jeden z atrybutów, z kolei krawędzie reprezentuj wartości tego atrybutu. Liście drzewa to wierzchołki, z których nie wychodzą krawędzie. Z każdym liściem związana jest etykieta klasy. Na rysunku umieszczonym poniżej znajduje się przykładowe drzewo decyzyjne. 22

23 Rysunek 3.2 Przykładowe drzewo decyzyjne [32] Zwykle drzewo decyzyjne konstruuje się w dwóch krokach. Pierwszym jest krok indukcji drzewa decyzyjnego (krok wzrostu). W tej części, w oparciu o dane treningowe tworzone jest drzewo decyzyjne. Drugi krok jest nazywany krokiem przycinania drzewa. Wtedy ustalane jest jaka ma wyglądać ostateczna postać drzewa. W części tej niektóre wierzchołki i krawędzie drzewa utworzonego w pierwszym kroku są przycinane (usuwane). Celem tego zabiegu jest zwiększenie efektywności procesu klasyfikacji. Po przycięciu drzewo staje się mniejsze i prostsze, a dzięki temu czytelniejsze dla człowieka. Przycinanie drzewa decyzyjnego może być przeprowadzone na kilka sposobów: a. przycinanie proste prosty i często stosowany sposób; przycięty węzeł jest zastępowany węzłem zawierającym etykietę klasy b. przycinanie od środka polega na zastąpieniu usuniętego wierzchołka jednym z jego potomków c. przycinanie w trakcie wzrostu przycinanie w trakcie tworzenia drzewa 23

24 Ogólna zasada tworzenia drzew decyzyjnych może zostać opisana w następujący sposób: a. Najpierw sprawdzane jest, czy zbiór jest jednorodny. Jeśli tak to algorytm kończy pracę, w przeciwnym przypadku przechodzi dalej. b. Następnie rozpatrywane są wszystkie możliwe podziały zbioru na podzbiory. Określane jest też, za pomocą którego z tych podziałów zostały stworzone najbardziej jednorodne zbiory. c. W kolejnym kroku zbiór zostaje podzielony na podzbiory w najlepszy względem wybranego kryterium sposób. d. Następnie algorytm ten zastosowany zostaje do wszystkich podzbiorów. e. W kolejnym kroku następuje przycinanie drzewa. f. Użycie powstałego drzewa do klasyfikacji nowych atrybutów. Opis klasyfikacji przez indukcję drzew decyzyjnych powstał na podstawie następujących źródeł: [27], [32] i [37] Naiwny klasyfikator bayesowski Klasyfikatory bayesowskie to klasyfikatory statystyczne. Ich celem jest przewidywanie prawdopodobieństwa, że dany element należy do określonej klasy. Konstrukcja klasyfikatorów bayesowskich oparta jest na twierdzeniu opracowanym przez Thomasa Bayesa: Niech A i będzie ciągiem zdarzeń takim, że A i A j 0 dla i j oraz P(A i ) = 1 oraz P(B) > 0. Wtedy: i P(A i B) = P(B A i)p(a i ) P(B) gdzie: P(B) = P(B A j) P(A j ) j I (3.1) Naiwny klasyfikator Bayesa (naive Bayes classifier) to jedna z metod uczenia maszynowego. Klasyfikator ten opiera się na założeniu o warunkowej niezależności wartości rekordów względem danej klasy zakłada, że obecność każdego elementu w kategorii jest niezwiązana z obecnością żadnego innego elementu. Poniżej omówione zostało działanie naiwnego klasyfikatora baysowskiego, opracowane na podstawie i wykorzystujące przykład omówiony w artykule Naiwny klasyfikator Bayesa (kodowany w Pythonie) nauka w sześciu prostych krokach [20]. 24

25 W tabeli poniżej znajduje się treningowy zestaw danych. Kolumna Weather zawiera zmienne dotyczące pogody, natomiast w kolumnie Play znajdują się dane sugerujące możliwość gry. Celem jest stwierdzenie na podstawie warunków pogodowych czy gra się odbędzie. Tabela 3.1 Treningowy zestaw danych [20] W pierwszym kroku zestaw danych został zmieniony w tabelę częstotliwości: Tabela 3.2 Tabela częstotliwości [20] 25

26 Następnym krokiem było wyliczenie prawdopodobieństw występujących we wzorze twierdzenia Bayesa: Tabela 3.3 Tabela zawierająca wartości prawdopodobieństw [20] Problemem, który miał zostać rozstrzygnięty było pytanie czy prawdziwe jest twierdzenie Gra odbędzie się, jeśli będzie słonecznie. Poniżej przedstawiono rozwiązanie tego problemu przy użyciu naiwnego równania Bayesa: P(Yes Sunny) = P(Sunny Yes) P(Yes) P(Sunny) (3.2) W Tabeli 3.3 znajdują się wcześniej obliczone wyniki dla P(Sunny) oraz P(Yes): P(Sunny) = 0.36 P(Yes) = 0.64 Przed zastosowaniem wzoru należało jeszcze wyliczyć: P(Sunny Yes): P(Sunny Yes) = 3/9 = Następnie wszystkie uzyskane wyniki wprowadzono do wzoru: P(Yes Sunny) = 0,33 0,64 0,36 = 0,59 (3.3) Kategoria z wyższym prawdopodobieństwem jest przewidywanym rezultatem. Wynik dla P(Yes Sunny) wyniósł około 0,6 co jest wyższym prawdopodobieństwem. Opis algorytmu naiwny klasyfikator Bayesa został utworzony w oparciu o następujące pozycje: [20], [26] i [32]. 26

27 3.2.3 Klasyfikator najbliższego sąsiedztwa Klasyfikator najbliższego sąsiedztwa (k nearest neighbours) należy do klasyfikatorów, które oparte są na analizie przypadku. Metody należące do tej grupy są nazywane leniwymi metodami uczącymi, a ich przeciwieństwem są tak zwane gorliwe metody uczące. Należą do nich opisane wcześniej algorytmy indukcja drzew decyzyjnych oraz naiwny klasyfikator Bayesa. Leniwe metody uczące różnią się od gorliwych tym, że nie tworzą modelu klasyfikacyjnego. Algorytmy te szukają rozwiązania dopiero wtedy, gdy pojawi się potrzeba klasyfikacji nowego obiektu. Metoda k najbliższych sąsiadów jest jednym z najpopularniejszych i najprostszych algorytmów eksploracji danych, a także jedną z najważniejszych metod klasyfikacji. Algorytm ten polega na zaliczaniu rozważanego obiektu do klasy, do której należy większość jego k najbliższych sąsiadów. Poniżej zamieszczony został rysunek, na podstawie którego omówione zostało działanie klasyfikatora k najbliższych sąsiadów. Rysunek 3.3 Rysunek obrazujący przykład działania metody k najbliższych sąsiadów [45] Na Rysunku 3.3 znajdują się obiekty należące do klasy plusów (+), obiekty przypisane do klasy minusów ( ), oraz nowy element oznaczony jako czerwona kropka. Problem, który należy rozwiązać polega na zaklasyfikowaniu nowego elementu do jednej z dwóch klas. Poniżej omówiono dwa przykłady użycia algorytmu k najbliższych sąsiadów dla k = 1 oraz dla k = 5. 27

28 Przykład 1 zastosowanie algorytmu k najbliższych sąsiadów dla k = 1 Najbliższym sąsiadem nowego obiektu jest element z klasy plusów, więc w przypadku jednego najbliższego sąsiada czerwony punkt zostanie zaklasyfikowany do tejże klasy. Przykład 2 zastosowanie algorytmu k najbliższych sąsiadów dla k = 5 W drugim przykładzie rozpatrzono pięciu najbliższych sąsiadów nowego elementu. W tym przypadku najbliżej czerwonej kropki są trzy obiekty należące do minusów oraz dwa elementy z klasy plusów. W związku z tym, że elementów z klasy plusów jest mniej, w tym przykładzie nowy element został zaklasyfikowany do minusów. Do omówienia metody k najbliższych sąsiadów wykorzystano następującą literaturę: [32] oraz [45]. 28

29 4 Przegląd narzędzi do eksploracji danych W niniejszym rozdziale omówione zostały wybrane narzędzia wspomagające proces eksploracji danych. Obecnie dostępnych jest wiele programów, które potencjalnie mogłyby zostać wykorzystane. W związku z tym pierwszym krokiem było wyodrębnienie kilku narzędzi, zapoznanie się pokrótce z ich możliwościami, a następnie wybór najbardziej odpowiedniego do realizacji pracy, czyli spełniającego najważniejsze wymagania. Podczas wyboru programu istotne były następujące kryteria: Narzędzie powinno posiadać licencję umożliwiającą korzystanie w celach niekomercyjnych. Ważne było, aby dostępne były materiały i przykłady użycia oprogramowania oraz instrukcja opisująca narzędzie w sposób dokładny i przejrzysty. Oprogramowanie musiało posiadać algorytmy klasyfikacji, których zamierzano użyć w pracy. Interfejs nie był najważniejszym kryterium, ale jego przejrzystość i intuicyjność też miały znaczenie. Możliwość importowania Linked Data. Było to ważne kryterium, jednak brano pod uwagę, że żadne z narzędzi może go nie spełniać. Aby przygotować wstępną listę narzędzi do eksploracji danych postanowiono sprawdzić jakie programy najczęściej zajmują wysokie miejsca w rankingach. W tym celu wykorzystano rankingi otrzymane na podstawie wyników ankiet przeprowadzonych przez KDnuggets, który jest jednym z najbardziej znanych serwisów zajmujących się tematyką eksploracji danych [23] i [24]. Ponadto wzięto pod uwagę również rankingi pochodzące z innych źródeł niż KDnuggets z artykułów Six of the Best Open Source Data Mining Tools [16] oraz Introduction To Seven Major Data Mining Tools [35]. W tabelach poniżej wymieniono narzędzia, które zostały najlepiej ocenione na poszczególnych portalach. Nazwa narzędzia Użytkownicy RapidMiner 44.2% R 38.5% Excel 25.8% SQL 25.3% Python 19.5% Weka 17.0% KNIME 15.0% Hadoop 12.7% SAS base 10.9% Microsoft SQL Server 10.5% Tabela 4.1 Dane z ankiety przeprowadzonej w roku 2014 przez KDnuggets [23] 29

30 Nazwa narzędzia Użytkownicy R 46.9% RapidMiner 31.5% SQL 30.9% Python 30.3% Excel 22.9% KNIME 20.0% Hadoop 18.4% Tableau 12.4% SAS 9.1% Spark 11.3% Tabela 4.2 Dane z ankiety przeprowadzonej w roku 2015 przez KDnuggets [24] Miejsce w rankingu Nazwa narzędzia 1. RapidMiner 2. Weka 3. R 4. Orange 5. KNIME 6. NLTK Tabela 4.3 Dane z artykułu Six of the Best Open Source Data Mining Tools [16] Miejsce w rankingu Nazwa narzędzia 1. Weka 2. Octoparse 3. RapidMiner 4. NLTK 5. Orange 6. KNIME 7. R Tabela 4.4 Dane z artykułu Introduction To Seven Major Data Mining Tools [35] 30

31 Analizując powyższe rankingi zaobserwowano, że najczęściej wymieniane były cztery następujące programy: RapidMiner, R, Weka i KNIME. Postanowiono więc zawęzić obszar wyboru oprogramowania do tych czterech narzędzi. Poniżej zostały one pokrótce omówione. 4.1 RapidMiner RapidMiner, znany wcześniej jako YALE (Yet Another Learning Environment) został opracowany przez Ralfa Klinkenberga, Ingo Mierswa, i Simona Fischera w roku 2001 [9]. Jest platformą, której celem jest zapewnienie zintegrowanego środowiska do uczenia maszynowego, eksploracji danych, analiz predykcyjnych oraz biznesowych. Stosuje się go zarówno w biznesie i handlu, jak również do przeprowadzania badań, edukacji, szkoleń czy szybkiego prototypowania i tworzenia aplikacji. RapidMiner obsługuje wszystkie etapy procesu eksploracji danych, takie jak przygotowanie danych, wyników wizualizacji oraz walidacji i optymalizacji. W narzędziu zaimplementowano wiele algorytmów eksploracji danych, w tym również drzewa decyzyjne, klasyfikator k najbliższych sąsiadów oraz klasyfikatory bayesowskie [19]. Program używa modelu klient-serwer, gdzie serwer oferowany jest jako usługa chmury obliczeniowej w modelu SaaS (Software as a Service) [34]. Narzędzie to posiada darmową wersję, ale również udostępnia warianty komercyjne [4]. Rysunek 4.1 Logo programu RapidMiner [9] Strona projektu jest przejrzysta i zawiera wiele przydatnych informacji zebranych w bazie wiedzy. Można tam znaleźć między innymi filmy prezentujące w jaki sposób rozpocząć korzystanie z narzędzia czy linki do publikacji dotyczących tematu eksploracji danych. Dostępnych jest też wiele materiałów z instrukcjami oraz przykładowymi projektami, na których można się wzorować. Sam RapidMiner posiada przejrzysty interfejs co, w połączeniu z dostępnymi informacjami, pozwala szybko zapoznać się z głównymi funkcjami narzędzia i rozpocząć korzystanie z niego. 31

32 Rysunek 4.2 Interfejs programu RapidMiner [8] RapidMiner posiada wiele rozszerzeń, które umożliwiają integrację z innymi narzędziami. Jednym z nich jest Linked Open Data Extension pozwalające na wykorzystanie Linked Open Data zarówno jako danych wejściowych do eksploracji, jak i do wzbogacenia istniejących zbiorów danych. Projekt jest oparty na farameworku FeGeLOD, który obecnie nie jest rozwijany [8]. Możliwości wykorzystania RapidMiner Linked Open Data Extension: Importowanie danych ze źródeł Linked Data (na przykład DBpedia) do RapidMiner, a następnie analizowanie ich za pomocą RapidMiner Dodawanie danych na temat ludności ze źródeł Linked Data do krajowych zbiorów danych Dodawanie danych o uczelniach do miejskich zbiorów danych Dodawanie zbiorów o obrotach i liczbie pracowników do firmowych zbiorów danych RapidMiner Linked Open Data Extension, w przeciwieństwie do innych, pokrewnych metod nie wymaga wiedzy na temat źródeł danych ani technologii takich jak RDF czy SPARQL [8]. W momencie pisania niniejszej pracy rozszerzenie nie jest jeszcze dostępne dla najnowszej wersji narzędzia RapidMiner 7.5, jednak jest kompatybilne ze starszą, obecnie niewspieraną, wersją RapidMiner to jedyna znaleziona wersja, która pozwala na zainstalowanie rozszerzenia, a także na uruchomienie wybranych algorytmów. W starszych wersjach często nie było to możliwe proces kończył się komunikatem o błędach. Dla Linked Open Data Extension dostępna jest obszerna instrukcja. Jej najnowsza wersja pochodzi z roku 2014 i opiera się na starszej wersji narzędzia RapidMiner niż 6.5 (wersja 6.5 powstała rok później). Co za tym idzie specyfikacja nie jest całkowicie zgodna z wersją. Jednak, pomimo braku aktualnej dokumentacji, próba zastosowania rozszerzenia przebiegła pomyślnie. 32

33 4.2 R Kolejnym omawianym w tym rozdziale narzędziem jest R. Jest to język i powszechnie znane środowisko służące do obliczeń statystycznych. Jego pierwsza wersja została opracowana przez pracujących na Wydziale Statystyki Uniwersytetu w Auckland Roberta Gentelmana i Ross Ihake. R był wzorowany na powstałym w laboratoriach Bell a języku S. Narzędzie dostarcza wielu statystycznych metod, takich jak analiza szeregów klasowych, grupowanie czy klasyfikacja. Ponadto narzędzie to ma wiele innych zastosowań. Jest wykorzystywane do automatycznego wysyłania maili czy generowania raportów, jak również renderowania trójwymiarowych animacji. Narzędzie umożliwia korzystanie z bibliotek dostępnych w innych językach (na przykład C, C++). Pozwala również utworzyć wysokiej jakości wykresy. Istnieje wiele podręczników i instrukcji, które dokładnie tłumaczą jak korzystać z pakietu. Pomimo dużej liczby bibliotek i rozszerzeń nie znaleziono wśród narzędzia służącego do importowania danych powiązanych. R jest dostępny jako wolne oprogramowanie na warunkach licencji GNU General Public License. Rysunek 4.3 Logo narzędzia R [46] R jest narzędziem tekstowym wymagającym znajomości komend i nie posiada wbudowanego interfejsu graficznego. Istnieje jednak wiele nakładek pełniących tę rolę. Na przykład nakładka Rattle (R Analytical Tool To Learn Easily). Umożliwia ona importowanie zbiorów danych z różnych źródeł, takich jak arkusze kalkulacyjne, bazy danych czy pliki tekstowe. Na rysunku poniżej zamieszczono interfejs programu. 33

34 Rysunek 4.4 Graficzny interfejs Rattle [46] Opis narzędzia R powstał na podstawie [4] oraz informacji zawartych na stronie projektu [46]. 4.3 Weka Weka (Waikato Environment for Knowledge Analysis) to zaimplementowany w języku Java projekt, którego autorami są Eibe Frank, Mark Hall i Len Trigg. Narzędzie jest oprogramowaniem typu open source na licencji GNU General Public License, a jego nazwa to akronim, który jednocześnie jest nazwą rzadkiego, nielotnego ptaka występującego na wyspach Nowej Zelandii. Podobizna tego ptaka występuje w logo programu. Rysunek 4.5 Logo narzędzia Weka [28] 34

35 Weka jest zbiorem algorytmów uczenia maszynowego. Narzędzie ma na celu wspomaganie realizacji zadań procesu eksploracji danych. Algorytmy mogą być zastosowane bezpośrednio do zestawu danych, ale można je też wywołać używając własnego kodu napisanego w języku Java. Weka jest bardzo rozbudowanym programem zawiera między innymi narzędzia służące do: wstępnego przetwarzania danych klasyfikacji regresji klastrowania reguł asocjacji wizualizacji Program jest również odpowiedni do opracowywania nowych schematów uczenia maszynowego. Zbiory danych importowane do narzędzia muszą być w formacie.arff. Na stronie internetowej projektu dostępna jest instrukcja opisująca narzędzie. Jest to bardzo obszerny dokument omawiający dokładnie jak korzystać z programu. Ponadto autorzy oprogramowania przygotowali bezpłatne kursy online. Nagrania z tych zajęć dostępne są w serwisie YouTube. Weka udostępnia cztery moduły: Explorer główny moduł, pozwalający na analizę danych. Umożliwia dostęp do najważniejszych funkcjonalności. Experimenter służy do automatycznego wykonywania utworzonych wcześniej eksperymentów. Jego celem jest umożliwienie analizy i wyborów najlepszych metod oraz zestawów parametrów dla danego problemu. Pozwala na przeprowadzanie złożonych eksperymentów. Knowledge Flow umożliwia umieszczanie poszczególnych elementów w obszarze roboczym i łączenie ich w grafy. CLI (Command Line Interface) umożliwia korzystanie z funkcjonalności poprzez wprowadzanie poleceń w linii komend. Pierwsze trzy z wymienionych modułów są interfejsami graficznymi, natomiast ostatni to interfejs tekstowy. Poniżej umieszczono rysunki przedstawiające wygląd modułów graficznych. 35

36 Rysunek 4.6 Moduł Explorer [28] Rysunek 4.7 Moduł Experimenter [28] 36

37 Rysunek 4.8 Moduł Knowledge Flow [28] Interfejs modułów jest zupełnie inny niż w przypadku narzędzia RapidMiner. Sprawia wrażenie bardziej skomplikowanego, jednak też jest przejrzysty i dokładnie opisany w ogólnodostępnej dokumentacji. Na chwilę obecną Weka nie umożliwia importowania Linked Data. Opis narzędzia opracowano na podstawie [4] oraz informacji dostępnych na stronie projektu [28]. 4.4 KNIME Ostatnim narzędziem jest KNIME (Konstanz Information Miner). Jest to program mający wiele zastosowań zarówno w obróbce danych jaki i w analizie. Służy także do wykonywania obliczeń statystycznych oraz uczenia maszyn. Podobnie jak pozostałe omawiane narzędzia, również w przypadku KNIME na stronie internetowej projektu dostępny jest dokument zawierający dokładną instrukcję instalacji oraz korzystania z programu. Ponadto dostępne jest też forum internetowe, na którym użytkownicy mają możliwość otrzymania pomocy w rozwiązaniu ich problemów z narzędziem. Jednakże w przypadku KNIME często odnalezienie potrzebnych informacji było trudniejsze niż dla pozostałych narzędzi opisanych w ramach tego rozdziału. W KNIME dostępne są wszystkie wymagane na potrzeby pracy algorytmy. Program jest dostępny na warunkach GNU General Public License. Rysunek 4.9 Logo programu KNIME [25] 37

38 Interfejs programu jest wyglądem zbliżony do interfejsu narzędzia RapidMiner, jednakże jest trochę mniej intuicyjny. Poniżej zamieszczono rysunek prezentujący wygląd oprogramowania KNIME. Rysunek 4.10 Interfejs narzędzia KNIME [25] KNIME jest podobny do narzędzia RapidMiner również ze względu na możliwość integracji z Semantic Web. Program KNIME umożliwia połączenie z DBpedią za pomocą języka SPARQL i zaimportowanie do programu otrzymanych danych. Jednak w przypadku tego narzędzia proces pobierania danych z DBpedii jest znacznie bardziej skomplikowany i czasochłonny niż w programie RapidMiner. Opis narzędzia KNIME został przygotowany na podstawie [4] oraz [25]. 38

39 4.5 Wybór narzędzia W poniższej tabeli przedstawiono porównanie wszystkich omawianych w tym rozdziale narzędzi. Zestawienie utworzono pod kątem kryteriów wyszczególnionych we wstępie. Zielonego symbolu użyto, gdy system spełniał dane wymaganie, natomiast w przeciwnym przypadku czerwonego. Jedynym kryterium, którego nie dało się ocenić w sposób binarny był interfejs narzędzi. Jego przejrzystość i intuicyjność zostały poddane subiektywnej ocenie w skali od 1 do 10. RapidMiner R Weka KNIME Licencja Materiały Algorytmy Interfejs 9/10 7/10 8/10 8/10 Linked Data Tabela 4.5 Porównanie narzędzi Wszystkie omawiane narzędzia spełniają pierwsze trzy kryteria. Posiadają licencję, która umożliwia korzystanie z nich w celach niekomercyjnych. Do każdego programu istnieje dokumentacja oraz wiele instrukcji i podręczników opisujących dokładnie i przejrzyście jak używać narzędzia. Również wszystkie narzędzia udostępniają wybrane na potrzeby tej pracy algorytmy. Ocena interfejsów poszczególnych programów różni się nieznacznie, jednak najlepiej w tym przypadku wypadł RapidMiner. Jeśli chodzi o ostanie kryterium, czyli możliwość importowania danych powiązanych to umożliwiały to tylko dwa narzędzia program RapidMiner posiadający rozszerzenie Linked Open Data Extension oraz program KNIME. Biorąc pod uwagę ten fakt oraz to, że obydwa programy spełniają również pozostałe wymagania, przy podejmowaniu decyzji kierowano się intuicyjnością interfejsu oraz rozszerzenia umożliwiającego integrację z Semantic Web. W związku z tym ostatecznie zadecydowano, że do wykonania zaplanowanych badań zostanie wykorzystany RapidMiner. 39

40 5 Przygotowanie badań Ten rozdział poświęcono omówieniu procesu przygotowania do eksperymentów wykonanych w ramach pracy dyplomowej. Składa się on z czterech części. Na początku przedstawiono cel i zakres badań. W następnej części opisany został zbiór danych, który wykorzystano do przeprowadzenia eksperymentów. W trzecim podrozdziale zaprezentowano sposób w jaki pobrano dane powiązane (Linked Data) i dołączono je do istniejącej tabeli (oryginalnego zbioru danych) przy użyciu narzędzia RapidMiner. Czwarta część prezentuje rezultaty, jakie otrzymano w wyniku uruchomienia procesu omówionego w trzeciej części niniejszego rozdziału. 5.1 Cel i zakres badań Celem badań przeprowadzonych na potrzeby niniejszej pracy dyplomowej było zweryfikowanie czy rozszerzenie zbioru danych poprzez dołączenie do tabeli kolumn uzyskanych z DBpedii ma wpływ na wynik procesu eksploracji danych. Podstawowym zbiorem danych, który wybrano był fragment dostępnej w repozytorium UCI tabeli adult.data. Następnie użyto programu RapidMiner w wersji oraz rozszerzenia RapidMiner Linked Open Data Extension do powiększenia zbioru o pochodzące z DBpedii Linked Data. Proces ten przeprowadzono dwukrotnie. Za pierwszym razem zbiór rozszerzono na podstawie atrybutu native-country, czyli kraj pochodzenia. W tym przypadku otrzymano bardzo duży zbiór danych powiązanych. Drugi raz proces wykonano dla atrybutu education wykształcenie. Tym razem uzyskano niewiele dodatkowych kolumn. Postanowiono jednak przeprowadzić eksperymenty na obu otrzymanych zbiorach. W obu przypadkach zauważono, że wiele haseł nie zostało znalezionych, co skutkowało pustymi komórkami w kolumnach. Nawet jeśli w DBpedii znajdowało się odpowiednie hasło to często pozostałe informacje nie zostały znalezione, a co za tym idzie program nie uzupełnił kolejnych komórek dla danego wiersza. Ze względu na to, iż w badaniach istotne było, aby wszystkie tabele zawierały w rzędach dokładnie te same dane, zadecydowano, że wiersze zawierające puste komórki nie zostaną usunięte. Postanowiono jednak, że ze zbioru usunięte zostaną te kolumny, które zawierają najwięcej pustych elementów, a następnie wszystkie zaplanowane eksperymenty zostaną przeprowadzone na każdym z trzech zbiorów. Zdecydowano, że eksperymenty zostaną przeprowadzone z wykorzystaniem jednej z najstarszych, a zarazem najpopularniejszych i najczęściej wykorzystywanych metod eksploracji danych, którą jest klasyfikacja. Na potrzeby badań wybrano trzy algorytmy tej metody klasyfikacja przez indukcję drzew decyzyjnych, naiwny klasyfikator bayesowski oraz klasyfikator najbliższego sąsiedztwa. Ostatni algorytm postanowiono zastosować dwukrotnie, dla k = 1 oraz dla k = 5. Badania podzielono w następujący sposób. Każdy eksperyment polegał na zastosowaniu innego algorytmu na trzech zbiorów danych tabeli podstawowej, tabeli rozszerzonej oraz tabeli rozszerzonej, z której usunięte zostały najbardziej niekompletne kolumny. Klasyfikacja przeprowadzana była zawsze ze względu na następujące atrybuty: marital-status (stan cywilny), occupation (zawód), relationship (relacje) oraz atrybut, na podstawie którego rozszerzono zbiór 40

41 o Linked Data native-country (kraj pochodzenia) w pierwszej części każdego badania oraz education (wykształcenie) w drugiej części. Następnie dla każdego atrybutu porównano wyniki otrzymane w przypadku zbioru podstawowego oraz zbiorów rozszerzonych. Jako kryteria oceny przyjęto następujące miary: trafność (accuracy), kompletność (recall), dokładność (precision) oraz błąd względny (relative error). Przed przystąpieniem do badań przypuszczano, że rezultaty będą się różnić w zależności od zastosowanego zbioru danych. Oczekiwano, że wyniki dla rozszerzonych tabel będą lepsze, co oznacza wyższe wartości dla miar trafność, kompletność i dokładność oraz niższe w przypadku błędu względnego. 5.2 Zbiór danych Zbiór danych, który został wykorzystany do przeprowadzenia badań to fragment tabeli adult.data. Pochodzi ona z ogólnodostępnego repozytorium UCI. Zawarte w niej rekordy to dane demograficzne dotyczące dorosłych ludzi, które zostały zebrane przez Bureau of the Census w 1994 roku [47]. Zbiór danych jest bardzo duży składa się z około wierszy. Ze względu na ograniczenia narzędzia RapidMiner nie było możliwe użycie całej pobranej tabeli (dla tabel zawierających więcej niż 600 wierszy program przestawał działać podczas próby rozszerzenia zbioru danych). W związku z tym we wszystkich eksperymentach wykorzystano pierwsze 600 wierszy z pliku adult.data. Ten pomniejszony zbiór danych został użyty w badaniach i w niniejszej pracy jest nazywany zbiorem oryginalnym. Poniżej, w Tabeli 5.1, wymienione zostały argumenty występujące w zbiorze adult.data wraz z tłumaczeniami nazw kolumn na język polski (na podstawie patrz: [22]) oraz występującymi w używanym w badaniach zbiorze danych zmiennymi. Dla argumentów innych niż numeryczne wypisano wartości występujące w wierszach wykorzystanych w eksperymentach. Poniżej tabeli zamieszczono Rysunek 5.1, który przedstawia fragment oryginalnego zbioru wykorzystywanego podczas eksperymentów. Nazwa kolumny Nazwa kolumny w języku polskim Dane występujące w zbiorze age wiek zmienna numeryczna workclass rodzaj pracy Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov fnlwgt masa próbki zmienna numeryczna education wykształcenie Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th- 6th, Preschool 41

42 education-num marital-status occupation relationship race numeryczny odpowiednik zmiennej education stan cywilny zawód związek rasa zmienna numeryczna Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse Tech-support, Craft-repair, Other-service, Sales, Execmanagerial, Prof-specialty, Handlers-cleaners, Machineop-inspct, Adm-clerical, Farming-fishing, Transportmoving, Priv-house-serv, Protective-serv, Armed- Forces Wife, Own-child, Husband, Not-in-family, Otherrelative, Unmarried White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black sex płeć Female, Male capital-gain zysk kapitałowy zmienna numeryczna capital-loss strata kapitałowa zmienna numeryczna hours-per-week liczba godzin pracy w tygodniu zmienna numeryczna native-country kraj pochodzenia United-States, Cambodia, England, Puerto-Rico, Canada, Germany, India, South, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Mexico, Portugal, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Thailand, El- Salvador label roczny dochód <=50K > 50K Tabela 5.1 Zmienne występujące w wykorzystanym do badań zbiorze danych 42

43 Rysunek 5.1 Fragment podstawowej tabeli 43

44 5.3 Proces rozszerzania zbioru danych o Linked Data Ponieważ celem niniejszej pracy dyplomowej było porównanie wyników dla zbioru oryginalnego oraz zbioru rozszerzonego o Linked Data, to kolejnym krokiem było rozwinięcie o dane powiązane tabeli, która została opisana w pierwszej części tego rozdziału. Do tego celu wykorzystane zostały program RapidMiner oraz rozszerzenie RapidMiner Linked Open Data Extension, które zostały opisane w Rozdziale 4. Dane, które zostały dołączone do tabeli pobrano z DBpedii. Poniżej zaprezentowano w jaki sposób dokonano rozszerzenia podstawowego zbioru danych. Przed przystąpieniem do procesu rozwijania tabeli o dodatkowe kolumny zaimportowano do narzędzia plik zawierający zbiór oryginalny. Plik nazwano adult. Następnie utworzono nowy proces i umieszczono w oknie procesu zaimportowany wcześniej zbiór. Kolejnym krokiem było wyszukanie w zakładce Operators operatora DBpedia Lookup Linker. Ten operator również umieszczono w oknie procesu i połączono z ulokowanym tam wcześniej zbiorem danych. W zakładce Parameters, w polu Attribute należało wybrać atrybut z oryginalnej tabeli, który miał zostać wyszukany w DBpedii. W przypadku niniejszej pracy zbiór był rozszerzany dwukrotnie, za pierwszym razem wybrano atrybut native-country, natomiast za drugim element education. Rysunek 5.2 Zakładka "Parameters", w polu Attribute wybrany atrybut native-country 44

45 Następnym krokiem było wyszukanie i umieszczenie w oknie procesu operatora Data Properties. Służy on do generowania atrybutów i dodawania ich do tabeli. W zakładce Parameters należało wypełnić pole SPARQL connection. W polu wybrano DBpedia, ponieważ zdecydowano, że dane będą rozszerzane z wykorzystaniem DBpedii. Następnie z operatora DBpedia Lookup Linker przesłano do operatora Data Properties dwa przepływy App i Att. W kolejnym kroku można było przystąpić od razu do eksploracji danych, jednak ze względu na bardzo długi czas wykonywania zapytań do DBpedii oraz liczba badań, które planowano przeprowadzić w ramach pracy, zdecydowano zapisać powstały zbiór w formacie.xlsx, a następnie zaimportować go do narzędzie RapidMiner. Do zapisania otrzymanego zbioru na dysku wykorzystano operator Write Excel, który umożliwia zapisanie pliku w formatach.xls oraz.xlsx. Następnie przesłano przepływ App z operatora Data Properties do operatora Write Excel oraz połączono port wyjściowy thr operatora Write Excel z portem wynikowym res. Poniższy rysunek ilustruje wygląd obszaru roboczego po wykonaniu wszystkich wyżej wymienionych kroków. Rysunek 5.3 Umieszczenie w oknie procesu operatora Write Excel Ostatnim krokiem było uruchomienie utworzonego procesu. 45

46 5.4 Rezultaty otrzymane po uruchomieniu procesu Wynikiem wyżej opisanego procesu był plik zawierający podstawowy zbiór rozszerzony o dodatkowe dane, pobrane z DBpedii. Na podstawie wybranego atrybutu do zbioru został dołączony atrybut New Link, który został wykorzystany do dalszego rozwinięcia tabeli. Na rysunkach poniżej znajdują się fragmenty rozszerzonej części tabel. Rysunek 5.4 i Rysunek 5.5 prezentują kolumny dołączone po rozszerzeniu na podstawie atrybutu nativecountry, natomiast Rysunek 5.6 zawiera kolumny, o które zbiór danych został powiększony poprzez wykorzystanie atrybutu education. Rysunek 5.4 Pierwsza część fragmentu tabeli rozszerzonej atrybutem native-country Rysunek 5.5 Druga część tabeli rozszerzonej atrybutem native-country 46

47 Poniżej wymieniono nazwy wszystkich kolumn dołączonych na podstawie atrybutu native-country, gdyż ze względu na ich długość nie są w pełni widoczne na rysunkach. Kolumny wymienione zostały w takiej samej kolejności, w jakiej występują w zamieszczonych wyżej fragmentach tabeli (Rysunek 5.4 i Rysunek 5.5). New_Link New_Link_data_http://dbpedia.org/property/timeZone New_Link_data_http://dbpedia.org/ontology/populationTotal New_Link_data_http://dbpedia.org/ontology/PopulatedPlace/populationDensity New_Link_data_http://dbpedia.org/ontology/percentageOfAreaWater New_Link_data_http://dbpedia.org/property/royalAnthem New_Link_data_http://dbpedia.org/property/regionalLanguages New_Link_data_http://dbpedia.org/property/largestCity New_Link_data_http://dbpedia.org/ontology/areaTotal New_Link_data_http://dbpedia.org/ontology/ethnicGroupsInYear New_Link_data_http://dbpedia.org/property/percentWater New_Link_data_http://dbpedia.org/property/areaKm New_Link_data_http://dbpedia.org/property/populationDensityKm New_Link_data_http://dbpedia.org/ontology/wikiPageRevisionID New_Link_data_http://dbpedia.org/property/governmentType New_Link_data_http://dbpedia.org/property/filename New_Link_data_http://dbpedia.org/property/ethnicGroupsYear New_Link_data_http://dbpedia.org/ontology/wikiPageID New_Link_data_http://dbpedia.org/ontology/PopulatedPlace/areaTotal New_Link_data_http://dbpedia.org/property/leaderName New_Link_data_http://dbpedia.org/property/nativeName New_Link_data_http://dbpedia.org/ontology/abstract 47

48 Część pobranych kolumn była pusta lub posiadała tylko klika wypełnionych komórek. W związku z tym, że mogło to wpłynąć na wyniki badań postanowiono utworzyć jeszcze jeden zbiór danych, który powstał poprzez usunięcie najbardziej niekompletnych kolumn. Poniżej wymieniono atrybuty, które zostały wyeliminowane ze zbioru. New_Link_data_http://dbpedia.org/property/timeZone New_Link_data_http://dbpedia.org/property/royalAnthem New_Link_data_http://dbpedia.org/property/regionalLanguages New_Link_data_http://dbpedia.org/property/largestCity New_Link_data_http://dbpedia.org/ontology/ethnicGroupsInYear New_Link_data_http://dbpedia.org/property/governmentType New_Link_data_http://dbpedia.org/property/filename New_Link_data_http://dbpedia.org/property/ethnicGroupsYear New_Link_data_http://dbpedia.org/property/leaderName New_Link_data_http://dbpedia.org/property/nativeName 48

49 Rysunek 5.6 Fragment tabeli rozszerzonej atrybutem education 49

Pokazać jeszcze