Praca dyplomowa - magisterska

Wielkość: px
Rozpocząć pokaz od strony:

Download "Praca dyplomowa - magisterska"

Transkrypt

1 Wydział Informatyki i Zarządzania kierunek studiów: Informatyka specjalność: Systemy Informacyjne Praca dyplomowa - magisterska METODY EKSPLORACJI LINKED DATA Katarzyna Maria Nieszczesna słowa kluczowe: Linked Data, Semantic Web, metody eksploracji danych, metody klasyfikacji krótkie streszczenie: W niniejszej pracy zajęto się problemem eksploracji danych rozszerzonych przez Linked Data. W badaniach wykorzystano algorytmy klasyfikacji. Eksperymenty zostały przeprowadzone na trzech zbiorach danych: podstawowym, rozszerzonym przez dane dostępne w DBpedii oraz rozszerzonym, z którego usunięte zostały najmniej istotne kolumny. Otrzymane rezultaty porównano i sformułowano wnioski. Opiekun pracy dyplomowej dr inż. Marek Kopel Tytuł/stopień naukowy/imię i nazwisko ocena podpis Przewodniczący Komisji egzaminu dyplomowego Ostateczna ocena za pracę dyplomową... Tytuł/stopień naukowy/imię i nazwisko ocena podpis Do celów archiwalnych pracę dyplomową zakwalifikowano do:* a) kategorii A (akta wieczyste) b) kategorii BE 50 (po 50 latach podlegające ekspertyzie) * niepotrzebne skreślić Wrocław 2017 pieczątka wydziałowa

2

3 Spis treści Streszczenie Wstęp Cel pracy Zakres badań Organizacja pracy Linked Data Semantyka Semantic Web Model Sieci Semantycznej Linked Data dane powiązane Eksploracja danych Proces eksploracji danych Omówienie metod klasyfikacji Przegląd narzędzi do eksploracji danych RapidMiner R Weka KNIME Wybór narzędzia Przygotowanie badań Cel i zakres badań Zbiór danych Proces rozszerzania zbioru danych o Linked Data Rezultaty otrzymane po uruchomieniu procesu Badania Miary wykorzystane w badaniach Badanie 1. Klasyfikacja przez indukcję drzew decyzyjnych Badanie 2. Naiwny klasyfikator bayesowski Badanie 3. Algorytm k najbliższych sąsiadów Omówienie wyników badań i wnioski Podsumowanie

4 Bibliografia Spis ilustracji Spis tabel Spis wykresów

5 Streszczenie W obecnych czasach świadomość zastosowań eksploracji danych oraz zysków płynących ze zdobytej w ten sposób wiedzy jest coraz większa. Eksplorację danych wykorzystuje się w wielu branżach, takich jak medycyna, informatyka czy handel. Można również zaobserwować duży postęp w przypadku wciąż nowej dziedziny jaką jest Sementic Web, której częścią jest Linked Data. W niniejszej pracy postanowiono podjąć próbę połączenia tych dwóch intensywnie rozwijających się obecnie dziedzin. Zajęto się problemem eksploracji danych wykonywanej na zbiorach rozszerzonych o Linked Data (dane powiązane). W pierwszej części pracy dokonano przeglądu zagadnień związanych z tym tematem. Następnie omówiono wybrane narzędzia służące do eksploracji danych. Spośród nich wybrano na potrzeby badań program umożliwiający dołączenie danych powiązanych do istniejącego zbioru oraz najlepiej spełniający pozostałe postawione wymagania. Celem wykonanych badań było sprawdzenie czy dołączenie danych pochodzących z DBpedii do istniejącego zbioru ma wpływ na wyniki klasyfikacji. Do eksperymentów wykorzystano trzy algorytmy klasyfikacji indukcję drzew decyzyjnych, naiwny klasyfikator bayesowski oraz algorytm k najbliższych sąsiadów. Każde badanie polegało na zastosowaniu jednej z wyżej wymienionych metod na zbiorze oryginalnym, rozszerzonym o Linked Data oraz rozszerzonym, z którego usunięto najmniej istotne kolumny. Następnie porównano otrzymane wyniki i wyciągnięto wnioski. Abstract Nowadays awareness of data mining usage and profits from knowledge acquired in this way is growing. Data mining is using in many kinds of industries, such as medicine, IT or trade. Big progress can be also noticed in still the new branch of science Semantic Web, part of which is Linked Data. In this paper was decided to take an attempt to connect these two areas which development is intensive. The problem that was worked on, concerned data mining executed on files extended with Linked Data. The first part of this document describes the topics connected with Linked Data and data mining. Then there placed a description of data mining tools. From these tools was chosen this one which allows integration with Linked Data and the best meets the rest of the requirements. The goal of the research was to check if attaching data from DBpedia to existing file has an influence on classification result. Three types of classification algorithms were used for the experiments decision tree, naive Bayes classifier and k-nearest neighbors algorithm. In each experiment one of the above methods was used on the original set, set extended with Linked Data and extended set from which have been removed the least significant columns. Then the results were compared and the conclusions were drawn. 5

6 1 Wstęp Eksploracja danych jest niezwykle istotną i bardzo dynamicznie rozwijaną w ostatnich czasach dziedziną z pogranicza statystyki, zarządzania danymi, informatyki oraz sztucznej inteligencji. Intensywny postęp tego obszaru spowodowany jest coraz częściej pojawiającym się problemem efektywnego wyszukiwania informacji z wciąż powiększających się zbiorów danych. Eksploracja danych ma szereg zastosowań w wielu branżach, takich jak administracja, informatyka, medycyna czy handel. Jedną z najstarszych, a zarazem najczęściej używanych metod w tej dziedzinie jest klasyfikacja polegająca na wykorzystaniu istniejącego zbioru danych do utworzenia modelu pozwalającego na sklasyfikowanie nowych elementów. Linked Data to z kolei część wizji stosunkowo nowego projektu Semantic Web. Jest metodą publikowania danych w sieci w taki sposób, aby były zrozumiałe zarówno dla ludzi, jak również dla maszyn. Celem Linked Data jest sprawienie, aby dane w sieci stały się bardziej użyteczne dzięki powiązaniom między nimi. a 1.1 Cel pracy Ze względu na to, że Semantic Web i związane z nią obszary wciąż są jeszcze niezbyt popularne to połączenie procesu eksploracji danych z Linked Data jest nowym i obecnie rzadko poruszanym zagadnieniem. Jednak warto zauważyć, że takie działanie może mieć wpływ na rezultaty otrzymywane w procesie eksploracji danych. W tej pracy dyplomowej postanowiono zająć się tym wciąż nowym i niezbadanym w pełni problemem. Tematyka obu dziedzin jest niezwykle rozległa, więc nie sposób było omówić wszystkie możliwe aspekty w ramach tego dokumentu. W związku z tym za cel niniejszej pracy dyplomowej przyjęto sprawdzenie czy zabieg rozszerzenia zbiorów danych o Linked Data ma wpływ na wyniki klasyfikacji danych. a 1.2 Zakres badań W ramach pracy dyplomowej wykonano trzy badania. W każdym z nich użyty został inny algorytm klasyfikacji. W pierwszym eksperymencie zastosowano klasyfikację przez indukcję drzew decyzyjnych. W drugim badaniu użyto naiwnego klasyfikatora Bayesa. Natomiast w ostatnim eksperymencie został wykorzystany algorytm k najbliższych sąsiadów. Każde badanie polegało na użyciu danego algorytmu na trzech zbiorach oryginalnym, rozszerzonym oraz rozszerzonym, z którego usunięte zostały najmniej istotne kolumny. Wszystkie eksperymenty składały się z dwóch części. Obie części badania były przeprowadzane w ten sam sposób, jednak dla zbiorów rozszerzanych na podstawie innych argumentów. W każdej części badania otrzymane wyniki zostały porównane. Na koniec podsumowano badania i wyciągnięto wnioski. A 6

7 1.3 Organizacja pracy W dokumencie tym można wyróżnić dwie główne części. Pierwsza składa się z trzech rozdziałów. Jest to część teoretyczna, która rozpoczyna się od rozdziału poświęconego zagadnieniom związanym z Semantic Web. Wyjaśnienie ich było niezbędne przed przejściem do zasadniczej części tematu pracy dyplomowej Linked Data, którą omówiono w tym samym rozdziale. W kolejnym fragmencie pracy przedstawiono definicję eksploracji danych oraz omówiono pokrótce jakie metody eksploracji danych są obecnie wyróżniane. Następnie skupiono się na szczegółowym omówieniu algorytmów klasyfikacji, które zostały wykorzystane do eksperymentów przeprowadzanych w ramach niniejszej pracy dyplomowej. Omówione algorytmy to klasyfikacja przez indukcję drzew decyzyjnych, naiwny klasyfikator bayesowski oraz klasyfikator najbliższego sąsiedztwa. Ostatni rozdział z części teoretycznej poświęcony został przeglądowi narzędzi służących do eksploracji danych. Omówione zostały najpopularniejsze programy RapidMiner, R, Weka oraz KNIME, które następnie porównano i wybrano najbardziej odpowiadający postawionym wymaganiom. Wyłonionego w ten sposób narzędzia użyto do realizacji zaplanowanych badań. Druga część, która rozpoczyna się rozdziałem piątym jest częścią eksperymentalną. We wspomnianym rozdziale omówiono przygotowanie do przeprowadzenia eksperymentów. Rozpoczęto od przedstawienia celu i zakresu zaplanowanych badań. Następnie opisany został zbiór danych, który wykorzystano w badaniach, omówiono proces rozszerzania danych o Linked Data, a na koniec zaprezentowano otrzymane rezultaty. W ostatnim rozdziale zostały przedstawione i porównane wyniki badań, podsumowano efekty przeprowadzonych eksperymentów i sformułowano konkluzję. 7

8 2 Linked Data Niniejszy rozdział stanowi wprowadzenie do tematyki związanej z Linked Data. W pierwszej części zostały przybliżone pojęcia semantyki oraz Semantic Web, a także opisano najważniejsze warstwy modelu Sieci Semantycznej, których znajomość jest konieczna do zrozumienia idei semantyki. Wyjaśnienie tych pojęć było niezbędne przed rozpoczęciem drugiej części rozdziału, którą poświęcono omówieniu Linked Data. 2.1 Semantyka Przed przystąpieniem do omówienia zagadnień dotyczących Sieci Semantycznej należy wyjaśnić pojęcie semantyki. Semantyka jest jednym z działów semiotyki logicznej. Do tego działu należą również syntaktyka i pragmatyka. Podział ten został wprowadzony przez Charlesa Morrisa. Słownik języka polskiego [44] podaje 2 definicje semantyki: 1. dział językoznawstwa, którego przedmiotem jest analiza znaczeń wyrazów 2. dział semiotyki zajmujący się badaniem związków, jakie zachodzą między wyrażeniami języka a przedmiotami, do których się one odnoszą 2.2 Semantic Web Sieć Semantyczna, znana też jako Semantic Web to rozwinięcie Internetu. Ma być ona przeciwieństwem współczesnej sieci WWW czyli dostarczającej jedynie informacji, wśród których użytkownik sam musi oddzielić potrzebne od zbędnych [21]. Semantic Web to zbiór danych, w którym informacje są zrozumiałe zarówno dla ludzi, jak i dla maszyn. Sieć Semantyczną można zdefiniować w następujący sposób: Semantic Web jest to rozszerzenie dzisiejszej sieci Web, w której informacja ma dobrze zdefiniowane znaczenie, dzięki czemu umożliwia lepszą współpracę komputerów i ludzi. Informacja w Sieci Semantycznej ma być przedstawiana w postaci zrozumiałej dla maszyn. Semantic Web to siatka informacji, które są połączone w taki sposób, aby informacja była wygodna do przetwarzania przez maszyny. Zrozumienie przez maszyny przekazu informacji w postaci ludzkiej mowy, zawartości dokumentów, nie ma polegać sztucznej inteligencji, a raczej na zdolności maszyn do rozwiązywania dobrze zdefiniowanych problemów przez wykonywanie dobrze zdefiniowanych operacji na dobrze zdefiniowanych danych [29]. W artykule The Semantic Web [3] Sieć Semantyczna została zdefiniowana w następujący sposób: Sieć Semantyczna jest to rozszerzenie istniejącej sieci WWW o mechanizmy semantyczne, tak aby informacje dostępne w tej sieci były dobrze zdefiniowane i umożliwiały lepszą współpracę komputerom i ludziom. 8

9 Podstawowe standardy Semantic Web to: RDF (Resource Description Framework) specyfikacja modelu metadanych RDF Schema język reprezentacji wiedzy OWL (Web Ontology Language) rozszerzenie RDF Schema [3] Wymienione wyżej standardy zostały bardziej szczegółowo opisane w kolejnej części tej pracy. 2.3 Model Sieci Semantycznej Rysunek 2.1 Model Sieci Semantycznej [1] Poniżej opisane zostały warstwy modelu Sieci Semantycznej, które są niezbędne do zrozumienia idei semantyki. 9

10 2.3.1 URI URI (Uniform Resource Indentifier) to znajdujący się w dolnej warstwie modelu Sieci Semantycznej system jednoznacznego adresowania zasobów Sieci. Jest to standard internetowy, który umożliwia prostą identyfikację zasobów w sieci. URI składa się z URL oraz URN [33]. Rysunek 2.2 Uniform Resource Indentifier [33] Unicode Jest to drugi obok URI element podstawy w modelu Sieci Semantycznej. Jest standardem, który pozwana na wyrażenie w języku maszyn dowolnego znaku pisanego. Unicode zapewnia unikalność dla 1 miliona znaków bez względu na: a. platformę b. program c. język [14] XML, NS, XML Schema Są to elementy, które znajdują się w drugiej warstwie modelu Sieci Semantycznej. a. XML (extensible Markup Language) jest uniwersalnym językiem znaczników. Jest to język służący do tworzenia innych języków, które mają budować dokumenty w Internecie [38]. b. NS (Name Spaces) przestrzenie nazw. Możliwość definiowania takich przestrzeni umożliwia uniknięcie konfliktu w przypadkach, gdy w kilku miejscach Sieci pod tymi samymi nazwami rozumie się różne pojęcia [14]. 10

11 c. XML Schema jest to standard opracowany przez W3C. Służy on do definiowania struktury dokumentu XML. Dokumenty te pozwalają na uporządkowanie zasobów sieci [38] RDF RDF (Resource Description Framework) to aplikacja języka XML. Jest środowiskiem do opisu zasobów. RDF to standard umożliwiający zapisywani danych w postaci grafu skierowanego, w którym dane są zawarte w wierzchołkach, natomiast relacje pomiędzy danymi znajdują się w krawędziach. Jego rozszerzeniem jest OWL. RDF to jedna z najważniejszych warstw modelu Sieci Semantycznej. Pozwala na przedstawienie wiedzy zawartej w Internecie w sposób zrozumiały dla maszyn [39]. Wszystkie stwierdzenia RDF składają się z trzech następujących elementów: podmiot jest to opisywany w stwierdzeniu zasób (czyli wierzchołek, w którym zaczyna się dana krawędź) orzeczenie właściwość podmiotu (czyli nazwa krawędzi w grafie) obiekt drugi wierzchołek, zasób lub literał, który jest wartością właściwości opisanej przez wyżej wymienione orzeczenie [39] Przedmiot, który jest identyfikowany za pomocą unikalnego identyfikatora URI w danym zbiorze, jest charakteryzowany poprzez jego właściwość (orzeczenie) oraz wartość właściwości (obiekt). Najbardziej korzystnym przypadkiem jest taki, w którym wszystkie elementy deklaracji są przywoływane za pomocą unikalnych URI. Taka sytuacja jest przedstawiona na rysunku poniżej [40]. Rysunek 2.3 Budowa deklaracji RDF [40] 11

12 2.3.5 RDF Schema (RDFS) RDF Schema to język reprezentacji wiedzy, który jest semantycznym rozszerzeniem RDF. Zapewnia mechanizmy służące do opisywania grup powiązanych zasobów oraz relacji pomiędzy tymi zasobami [5]. Wprowadza podstawowe pojęcia (takie jak pojęcie klasy, jej własności, zakresu). Służy głównie do formalnego uporządkowania zapisów [40]. Podstawowymi elementami określanymi w RDFS są: Klasy Zasoby, za pomocą których opisywane są klasy Właściwości zasobów charakterystyczne dla danego fragmentu rzeczywistości [40] Rysunek 2.4 Przykład RDF Schema [30] Ontologia Definicja ontologii wprowadzona przez Thomasa Grubera: Formalna, jawna specyfikacja wspólnej konceptualizacji [17] Ontologia w sensie informatycznym to formalna reprezentacja pewnej dziedziny wiedzy, na którą składa się zapis zbiorów pojęć (ang. concept) i relacji między nimi. Zapis ten tworzy schemat pojęciowy, który będąc opisem danej dziedziny wiedzy, może służyć jednocześnie jako podstawa do wnioskowania o właściwości opisywanych ontologią pojęć [12]. 12

13 Można wymienić wiele celów ontologii. Jednym z nich jest tworzenie struktur, które są rozumiane przez ludzi oraz maszyny. Innym szczegółowe analizowanie wiedzy z wybranej dziedziny oraz wielokrotne wykorzystanie tej samej wiedzy z danej dziedziny. Kolejny cel jaki można wymienić to analiza wiedzy z konkretnej dziedziny. Innym zadaniem ontologii jest precyzowanie założeń odnośnie wybranej dziedziny [14]. Klasyfikacja ontologii Ontologie można klasyfikować ze względu na stopień formalizacji jako: Nieformalne Formalne [15] Natomiast ze względu na zakres stosowania wyróżnia się: Ontologie wysokiego poziomu Ontologie dziedzinowe Ontologie aplikacyjne [15] Przykładowymi językami zapisu ontologii są RDF, RDF Schema (RDFS), OWL (Web Ontology Language), OCML (Operational Conceptual Modeling Language), Ontolingua czy XML [15] OWL Proste ontologie można tworzyć przy użyciu RDF Schema, jednak złożone domeny wymagają większych możliwości, takich jak: Relacje pomiędzy klasami Ograniczenie mocy zbioru własności Bogate typowanie właściwości Charakterystyka właściwości Określanie czy dana właściwość jest unikalnym kluczem dla instancji danej klasy Ograniczenie domeny i zakresu właściwości, jeżeli są one używane przez ustaloną klasę 13

14 Równość klas, określenie, że 2 klasy posiadające różne URI w rzeczywistości reprezentują tę samą klasę Równość jednostek, określenie, że 2 przypadki posiadające różne URI w rzeczywistości reprezentują tę samą jednostkę Klasy wyliczeniowe [7] Język OWL został zaprojektowany w celu umożliwienia tworzenia ontologii internetowych, których nie można utworzyć przy użyciu RDFS ze względu na wyżej wymienione ograniczenia [43]. OWL (Web Ontology Language) to język stanowiący rozbudowaną wersję RDF. Posiada większy słownik oraz mocniejszą składnię. W 2004 roku został uznany przez W3C za standard. Jego składnia opiera się na XML, natomiast semantyka na logice opisowej. Jest to język reprezentujący wiedzę o rzeczach, grupach rzeczy oraz relacjach pomiędzy rzeczami [36] Podstawową jednostką języka OWL jest klasa oraz jej właściwości. OWL służy do definiowania semantyki dokumentów w systemie WWW. Pozwala na formułowanie ontologii, które są zbiorami definicji klas i obiektów oraz relacji pomiędzy nimi [7] Język OWL ma strukturę warstwową. Jego warstwy zwane są gatunkami sów. Można wyróżnić 3 warstwy języka OWL: OWL Lite najprostsza z warstw. Pozwala na tworzenie taksonomii pojęć opartej na relacji is-a. W tej warstwie nie można formułować ekstensjonalnych definicji pojęć. OWL DL jest rozszerzeniem warstwy OWL Lite. Semantycznie odpowiada logikom deskrypcyjnym. Poprzez nakładanie kliku rodzajów więzów na relacje pozwala na tworzenie złożonych struktur pojęciowych. W tej warstwie nie ma możliwości definiowania relacji, które zachodzą między pojęciami. OWL Full jest rozszerzenie OWL DL, nie posiada ograniczeń poprzednich warstw, jednakże nie posiada formalnie zdefiniowanej semantyki ani gwarancji efektywności i rozstrzygalności [7] Rysunek 2.5 Warstwy języka OWL [6] 14

15 2.4 Linked Data dane powiązane Celem Semantic Web nie jest jedynie umieszczanie danych w sieci, ale również tworzenie powiązań pomiędzy nimi. Ma to umożliwić eksplorację zbiorów oraz odkrywanie nowych danych w sposób manualny lub automatyczny. Dzięki danym powiązanym ze sobą takie przeszukiwanie staje się możliwe. Linked Data jest częścią wizji Semantic Web, mechanizmem, którym Semantic Web się posługuje. Jest to koncepcja danych powiązanych, której autorem jest Tim Berners-Lee. Polega ona na wykorzystaniu WWW i jego technologii w celu utworzenia formalnych połączeń pomiędzy danymi z różnych zbiorów. Linked Data to metoda publikowania danych strukturalnych w sieci WWW, w taki sposób, aby stały się bardziej użyteczne dzięki powiązaniom między nimi. Metoda ta opiera się na takich technologiach internetowych jak HTTP, RDF i URI. Głównym celem Linked Data jest publikowanie danych tak, aby umożliwić odczytywanie oraz interpretowanie ich nie tylko ludziom, ale również maszynom [2]. Linked Data odwołuje się do metod ekspresji, reprezentacji, łączenia i współdzielenia danych w Semantic Web, które wykorzystują istniejące standardy i narzędzia sieciowe [42]. Linked Data nie jest nowym schemat metadanych. Jest to zbiór zasad publikowania i udostępniania danych w Semantic Web [40] zasady Linked Data W roku 2006 Tim Berners-Lee zaprezentował listę reguł publikowania danych w sieci w taki sposób, aby wszystkie dane te stawały się częścią jednej globalnej przestrzeni danych: 1. Używaj identyfikatorów URI by nazywać obiekty 2. Udostępniaj identyfikatory URI przez HTTP, by inni mieli do nich dostęp 3. Pod swoimi URI dostarczaj użytecznych informacji przy pomocy standardów (RDF, SPARQL) 4. Zamieszczaj powiązania do innych URI, aby użytkownicy mogli odkryć jeszcze więcej informacji [2] Zasady te są znane jako Linked Data principles i służą jako podstawa dla publikowania oraz łączenia danych z wykorzystaniem struktury sieci Web i z zachowaniem jej architektury oraz standardów [18] Chmura Linked Data Zbiory danych, które zostały opublikowane zgodnie z Linked Data tworzą chmurę powiązanych danych (Linked Data Cloud), czyli globalną sieć zbiorów danych stosujących wzajemne odwołania. Chmura ta w roku 2007 liczyła zaledwie klika zbiorów danych realizujących 15

16 ten model. Na zamieszczonych poniżej rysunkach można zaobserwować jak bardzo zwiększyła się liczba danych w ciągu 7 lat. Rysunek 2.6 Chmura Linked Data w roku 2007 [42] Rysunek 2.7 Chmura Linked Data w roku 2009 [18] 16

17 Rysunek 2.8 Chmura Linked Data 2014 [8] Linked Data Technologie Linked Data korzysta z dokumentów, które zawierają dane w formacie RDF. Linked Data opiera się na dwóch technologiach będących podstawą sieci internetowej. Te technologie to: Identyfikator URI Protokół HTTP Za pomocą identyfikatorów URI możliwe jest zidentyfikowanie dowolnej jednostki w świecie wirtualnym oraz rzeczywistym. Celem tego standardu jest identyfikacja obiektów za pomocą unikalnych ciągów znaków [41]. Protokół przesyłania danych HTTP zapewnia znormalizowany sposób komunikacji pomiędzy komputerami. Dzięki niemu możliwe jest przesyłanie informacji o obiekcie zidentyfikowanym przy pomocy identyfikatora URI do maszyny, w której wywołano identyfikator za pomocą poleceń protokołu HTTP [40]. 17

18 2.4.4 Linked Data Narzędzia Zasoby Linked Data to gotowe dane, które można opublikować za pomocą technologii Semantic Web. Istnieje wiele narzędzi, które można w tym celu wykorzystać. Oprócz wymienionych już wcześniej RDF i OWL można tu wymienić również: FOAF SKOS SIOC DOAP GeoNames Ontology Music Ontology [40] Linked Open Data Linked Open Data to powiązane dane o otwartej treści. Tim Berners-Lee definiuje Linked Data podając 4 reguły, a następnie dodaje piątą otwartość treści. W ten sposób zdefiniowane zostaje Linked Open Data. Przykładowym źródłem zawierającym duże zasoby otwartych powiązanych danych jest DBpedia. 5 gwiazdek Linked Open Data Dostęp w sieci na otwartej licencji Dostęp w postaci strukturalnej, czytelnej dla maszyn Dostępne w niezastrzeżonych standardach Używanie standardów W3C (RDF i SPARQL) Łączenie z danymi innych osób Informacje na temat Linked Open Data przedstawione w tej części opracowane zostały na podstawie: [2]. 18

19 3 Eksploracja danych W tym rozdziale omówione zostały pojęcia odkrywania wiedzy oraz eksploracji danych wytłumaczono różnicę pomiędzy tymi procesami. Następnie krótko opisano podział eksploracji danych ze względu na charakterystykę oraz ze względu na cel eksploracji. W kolejnej części zajęto się klasyfikacją oraz jej wybranymi metodami indukcją drzew decyzyjnych, naiwnym klasyfikatorem Bayesa i algorytmem k najbliższych sąsiadów. 3.1 Proces eksploracji danych Odkrywanie wiedzy to proces mający na celu automatyczne odkrywanie nieznanych wcześniej reguł, schematów, zależności i wzorców w zbiorze danych. Jest to dziedzina, której celem jest pozyskiwanie informacji z repozytoriów danych, a dzięki analizie tych zbiorów istnieje możliwość odkrycia nowych powiązań między nimi [48]. Dyscyplina ta łączy wiele dziedzin, takich jak: systemy baz danych, statystyka, systemy wspomagania decyzji, sztuczna inteligencja, uczenie maszynowe, wizualizacja danych, przetwarzanie równoległe i rozproszone, i wiele innych [31]. Często spotykane jest zamienne stosowanie określeń odkrywanie wiedzy i eksploracja danych. Jednak pojęcia te nie oznaczają dokładnie tego samego. Pojęcie odkrywanie wiedzy jest ogólniejszym terminem. Oznacza cały proces składający się z kilku etapów, w tym eksploracji danych. Odkrywanie wiedzy składa się zazwyczaj z poniżej wymienionych kroków: 1. Selekcja danych usunięcie relacji i krotek, które będą poddawane procesowi eksploracji 2. Transformacja danych skonwertowanie typów atrybutów, dyskretyzacja wartości ciągłych 3. Eksploracja danych zastosowanie wybranych metod (na przykład sieci neuronowych czy drzew decyzyjnych) 4. Interpretacja wyników wybór najbardziej interesującej wiedzy, wizualizacja wyników [48] W niniejszej pracy zajęto się eksploracją danych w znaczeniu trzeciego z wymienionych powyżej kroków. Metody eksploracji danych można rozróżniać ze względu na charakterystykę. Wymienia się wtedy dwie klasy: a. metody opisu danych ich celem jest odkrywanie wcześniej nieznanych reguł czy wzorców, które opisują ogólne cechy zbiorów danych b. metody predykcji danych ten rodzaj metod ma na celu przewidywanie trendów w zachowaniach, na przykład konsumentów Jednym najbardziej popularnych przykładów metod opisu danych, jaki można przytoczyć jest analiza koszyka zakupów klientów. Celem eksploracji danych jest w tym przypadku znalezienie grup produktów, które najczęściej są przez klientów kupowane razem. 19

20 Z kolei jako przykłady metod predykcji danych wymieniane są przewidywanie wystąpienia trzęsienia ziemi czy wyniku terapii lub zachowania klienta na aukcji internetowej. Więcej przypadków zastosowania obu rodzajów metod można znaleźć w książce Eksploracja danych. Metody i algorytmy [32]. Innym sposobem klasyfikacji metod eksploracji danych jest podział na kategorie ze względu na cel eksploracji. W takim przypadku metody dzieli się na następujące klasy [32]: a. odkrywanie asocjacji jest to najbardziej rozległa klasa metod. Obejmuje ona wyszukiwanie zależności (nazywanych asocjacjami) pomiędzy danymi. W wyniku działania tych metod otrzymywane są zbiory reguł asocjacyjnych, które opisują odkryte zależności. b. klasyfikacja i predykcja są to metody wyszukiwania klasyfikatorów lub funkcji. Otrzymanych modeli klasyfikacji używa się w celu klasyfikacji nowych elementów. c. grupowanie ta klasa metod znana jest też pod nazwami klastrowanie czy analiza skupień. Grupowanie polega na znajdowaniu skończonego zbioru kategorii dla elementów o podobnych cechach. Celem grupowania jest podział na klasy. d. odkrywanie charakterystyk polega na wyszukiwaniu krótkich i treściwych opisów własności klas elementów. e. analiza sekwencji i przebiegów czasowych w metodzie analizy sekwencji celem jest znajdowanie wzorców sekwencji, a także klasyfikowanie i grupowanie sekwencji. Z kolei analiza przebiegów czasowych jest wykorzystywana do odkrywania podobieństw, nieprawidłowości oraz cykli w przebiegach czasowych. f. eksploracja tekstu i danych semistrukturalnych metoda ta służy do analizy tekstów oraz danych semistrukturalnych. g. eksploracja WWW jest to rodzaj metod, których zadaniem jest wyszukiwanie oraz analiza typowych wzorców zachowań użytkowników sieci Web. Przykładem należącym do tej grupy są metody analizy reklam internetowych. h. eksploracja grafów i sieci społecznościowych ta klasa metod jest wykorzystywana w wielu dziedzinach. Służy do analizy struktur grafów (na przykład sieci biologicznych, związków chemicznych czy obwodów elektronicznych). Ma na celu również analizę sieci społecznościowych, na przykład podczas procesu wykrywania oszustów biorących udział w aukcjach internetowych. i. eksploracja danych multimedialnych i danych przestrzennych metody tego typu mają za zadanie wspierać procesy wyszukiwania danych. j. wykrywanie punktów osobliwych są to metody znajdowania elementów odbiegających od ogólnego modelu. W niniejszej pracy dyplomowej postanowiono zająć się jedną z wyżej wymienionych metod eksploracji klasyfikacją. Jest ona uznawana za najważniejszą i najczęściej używaną metodę eksploracji danych przez wielu autorów książek i artykułów o tematyce data mining (np. [31], [32] i [48]). 20

21 3.2 Omówienie metod klasyfikacji Klasyfikacja to jedna z najstarszych, a także najczęściej używanych metod eksploracji danych. Jej celem jest znalezienie ogólnego modelu podziału zbioru predefiniowanych klas obiektów na podstawie pewnego zbioru danych historycznych, a następnie, zastosowanie odkrytego modelu do predykcji klasy nowego obiektu, dla którego klasa nie jest znana [32]. Innymi słowy klasyfikacja wykorzystuje istniejącą bazę danych do utworzenia modelu (może to być na przykład drzewo decyzyjne), który pozwoli na sklasyfikowanie nowych obiektów. Metoda ta ma wiele zastosowań, między innymi w firmach ubezpieczeniowych, gdzie jest wykorzystywana do automatycznego podziału kierowców na powodujących wypadki drogowe i takich, którzy wypadków nie powodują. Klasyfikacja znajduje również zastosowanie w takich dziedzinach jak medycyna, gdzie pozwala na automatyczne rozpoznawanie chorób na podstawie informacji o pacjencie czy bankowość poprzez wspomaganie decyzji dotyczących przyznawania kredytów klientom. Może mieć też zastosowania administracyjne i militarne na przykład jako wsparcie w procesie rozpoznawania twarzy. Innymi dziedzinami, w których wykorzystywana jest ta metoda są handel w celu ustalania preferencji klientów czy informatyka, gdzie stosowana jest między innymi do automatycznego rozpoznawania spamu w poczcie elektronicznej (więcej informacji na temat zastosowań klasyfikacji patrz: [32]). Można wyróżnić dwa rodzaje klasyfikacji: a. dwuklasową b. wieloklasową Pierwszy rodzaj przydziela atrybut do jednej z dwóch dostępnych klas (przykładowo odpowiada na pytanie czy zwierzę jest, czy nie jest ssakiem). Drugi rodzaj klasyfikuje obiekt do jednej z wielu dostępnych klas [11]. Klasyfikacja jest metodą eksploracji danych z nadzorem (supervised learning). Dla tego rodzaju metod konieczne jest dysponowanie zbiorem danych, w którym dane posiadają już przypisaną klasę. Na podstawie tego zbioru algorytm tworzy model klasyfikacyjny, aby później, na podstawie zdobytej wiedzy (modelu klasyfikacyjnego), móc przypisać klasy nowym przypadkom, dla których wartość atrybutu decyzyjnego nie jest znana, natomiast mają przypisane wartości atrybutów warunkowych. Tworzenie modelu klasyfikacyjnego składa się z dwóch etapów. W pierwszym etapie dostarczony zbiór danych jest dzielony na dwa zbiory rozłączne treningowy (zwany także uczącym lub trenującym) oraz testowy. Następnym krokiem pierwszego etapu jest uczenie, w wyniku którego powstaje model klasyfikacyjny. Drugi etap to testowanie. W tej części sprawdzana jest jakość modelu klasyfikacyjnego poprzez zastosowanie go na zbiorze testowym [32]. Na rysunku poniżej zobrazowane są opisane etapy konstrukcji modelu. 21

22 Rysunek 3.1 Etapy konstrukcji modelu klasyfikacyjnego [32] W niniejszym rozdziale opisane zostały algorytmy klasyfikacji danych, które postanowiono wykorzystać w eksperymentach przeprowadzanych na potrzeby tej pracy dyplomowej. Są to trzy popularne metody klasyfikacja przez indukcję drzew decyzyjnych (decision tree), naiwny klasyfikator bayesowski (naive Bayes) oraz klasyfikator najbliższego sąsiedztwa (algorytm k najbliższych sąsiadów, k nearest neighbours) Klasyfikacja przez indukcję drzew decyzyjnych Indukcja drzew decyzyjnych jest jednym z najbardziej znanych podejść do klasyfikacji. Pełni ważną rolę w uczeniu maszynowym oraz eksploracji danych. Jest to graficzna technika wspierania procesu podejmowania decyzji. Indukcji drzew decyzyjnych używa się do rozwiązywania problemu klasyfikacji, wynikiem tego algorytmu są tak zwane drzewa decyzyjne, znane też pod nazwami diagramy drzew, drzewa klasyfikacyjne, wykresy drzew czy diagramy systematyki. Drzewo decyzyjne to specyficzny rodzaj klasyfikatora, który jest acyklicznym grafem, mającym strukturę drzewa. Graf ten składa się z korzenia, krawędzi, węzłów oraz liści. Korzeń i węzły to wewnętrzne wierzchołki drzewa. Każdym wewnętrznym wierzchołkiem jest jeden z atrybutów, z kolei krawędzie reprezentuj wartości tego atrybutu. Liście drzewa to wierzchołki, z których nie wychodzą krawędzie. Z każdym liściem związana jest etykieta klasy. Na rysunku umieszczonym poniżej znajduje się przykładowe drzewo decyzyjne. 22

23 Rysunek 3.2 Przykładowe drzewo decyzyjne [32] Zwykle drzewo decyzyjne konstruuje się w dwóch krokach. Pierwszym jest krok indukcji drzewa decyzyjnego (krok wzrostu). W tej części, w oparciu o dane treningowe tworzone jest drzewo decyzyjne. Drugi krok jest nazywany krokiem przycinania drzewa. Wtedy ustalane jest jaka ma wyglądać ostateczna postać drzewa. W części tej niektóre wierzchołki i krawędzie drzewa utworzonego w pierwszym kroku są przycinane (usuwane). Celem tego zabiegu jest zwiększenie efektywności procesu klasyfikacji. Po przycięciu drzewo staje się mniejsze i prostsze, a dzięki temu czytelniejsze dla człowieka. Przycinanie drzewa decyzyjnego może być przeprowadzone na kilka sposobów: a. przycinanie proste prosty i często stosowany sposób; przycięty węzeł jest zastępowany węzłem zawierającym etykietę klasy b. przycinanie od środka polega na zastąpieniu usuniętego wierzchołka jednym z jego potomków c. przycinanie w trakcie wzrostu przycinanie w trakcie tworzenia drzewa 23

24 Ogólna zasada tworzenia drzew decyzyjnych może zostać opisana w następujący sposób: a. Najpierw sprawdzane jest, czy zbiór jest jednorodny. Jeśli tak to algorytm kończy pracę, w przeciwnym przypadku przechodzi dalej. b. Następnie rozpatrywane są wszystkie możliwe podziały zbioru na podzbiory. Określane jest też, za pomocą którego z tych podziałów zostały stworzone najbardziej jednorodne zbiory. c. W kolejnym kroku zbiór zostaje podzielony na podzbiory w najlepszy względem wybranego kryterium sposób. d. Następnie algorytm ten zastosowany zostaje do wszystkich podzbiorów. e. W kolejnym kroku następuje przycinanie drzewa. f. Użycie powstałego drzewa do klasyfikacji nowych atrybutów. Opis klasyfikacji przez indukcję drzew decyzyjnych powstał na podstawie następujących źródeł: [27], [32] i [37] Naiwny klasyfikator bayesowski Klasyfikatory bayesowskie to klasyfikatory statystyczne. Ich celem jest przewidywanie prawdopodobieństwa, że dany element należy do określonej klasy. Konstrukcja klasyfikatorów bayesowskich oparta jest na twierdzeniu opracowanym przez Thomasa Bayesa: Niech A i będzie ciągiem zdarzeń takim, że A i A j 0 dla i j oraz P(A i ) = 1 oraz P(B) > 0. Wtedy: i P(A i B) = P(B A i)p(a i ) P(B) gdzie: P(B) = P(B A j) P(A j ) j I (3.1) Naiwny klasyfikator Bayesa (naive Bayes classifier) to jedna z metod uczenia maszynowego. Klasyfikator ten opiera się na założeniu o warunkowej niezależności wartości rekordów względem danej klasy zakłada, że obecność każdego elementu w kategorii jest niezwiązana z obecnością żadnego innego elementu. Poniżej omówione zostało działanie naiwnego klasyfikatora baysowskiego, opracowane na podstawie i wykorzystujące przykład omówiony w artykule Naiwny klasyfikator Bayesa (kodowany w Pythonie) nauka w sześciu prostych krokach [20]. 24

25 W tabeli poniżej znajduje się treningowy zestaw danych. Kolumna Weather zawiera zmienne dotyczące pogody, natomiast w kolumnie Play znajdują się dane sugerujące możliwość gry. Celem jest stwierdzenie na podstawie warunków pogodowych czy gra się odbędzie. Tabela 3.1 Treningowy zestaw danych [20] W pierwszym kroku zestaw danych został zmieniony w tabelę częstotliwości: Tabela 3.2 Tabela częstotliwości [20] 25

26 Następnym krokiem było wyliczenie prawdopodobieństw występujących we wzorze twierdzenia Bayesa: Tabela 3.3 Tabela zawierająca wartości prawdopodobieństw [20] Problemem, który miał zostać rozstrzygnięty było pytanie czy prawdziwe jest twierdzenie Gra odbędzie się, jeśli będzie słonecznie. Poniżej przedstawiono rozwiązanie tego problemu przy użyciu naiwnego równania Bayesa: P(Yes Sunny) = P(Sunny Yes) P(Yes) P(Sunny) (3.2) W Tabeli 3.3 znajdują się wcześniej obliczone wyniki dla P(Sunny) oraz P(Yes): P(Sunny) = 0.36 P(Yes) = 0.64 Przed zastosowaniem wzoru należało jeszcze wyliczyć: P(Sunny Yes): P(Sunny Yes) = 3/9 = Następnie wszystkie uzyskane wyniki wprowadzono do wzoru: P(Yes Sunny) = 0,33 0,64 0,36 = 0,59 (3.3) Kategoria z wyższym prawdopodobieństwem jest przewidywanym rezultatem. Wynik dla P(Yes Sunny) wyniósł około 0,6 co jest wyższym prawdopodobieństwem. Opis algorytmu naiwny klasyfikator Bayesa został utworzony w oparciu o następujące pozycje: [20], [26] i [32]. 26

27 3.2.3 Klasyfikator najbliższego sąsiedztwa Klasyfikator najbliższego sąsiedztwa (k nearest neighbours) należy do klasyfikatorów, które oparte są na analizie przypadku. Metody należące do tej grupy są nazywane leniwymi metodami uczącymi, a ich przeciwieństwem są tak zwane gorliwe metody uczące. Należą do nich opisane wcześniej algorytmy indukcja drzew decyzyjnych oraz naiwny klasyfikator Bayesa. Leniwe metody uczące różnią się od gorliwych tym, że nie tworzą modelu klasyfikacyjnego. Algorytmy te szukają rozwiązania dopiero wtedy, gdy pojawi się potrzeba klasyfikacji nowego obiektu. Metoda k najbliższych sąsiadów jest jednym z najpopularniejszych i najprostszych algorytmów eksploracji danych, a także jedną z najważniejszych metod klasyfikacji. Algorytm ten polega na zaliczaniu rozważanego obiektu do klasy, do której należy większość jego k najbliższych sąsiadów. Poniżej zamieszczony został rysunek, na podstawie którego omówione zostało działanie klasyfikatora k najbliższych sąsiadów. Rysunek 3.3 Rysunek obrazujący przykład działania metody k najbliższych sąsiadów [45] Na Rysunku 3.3 znajdują się obiekty należące do klasy plusów (+), obiekty przypisane do klasy minusów ( ), oraz nowy element oznaczony jako czerwona kropka. Problem, który należy rozwiązać polega na zaklasyfikowaniu nowego elementu do jednej z dwóch klas. Poniżej omówiono dwa przykłady użycia algorytmu k najbliższych sąsiadów dla k = 1 oraz dla k = 5. 27

28 Przykład 1 zastosowanie algorytmu k najbliższych sąsiadów dla k = 1 Najbliższym sąsiadem nowego obiektu jest element z klasy plusów, więc w przypadku jednego najbliższego sąsiada czerwony punkt zostanie zaklasyfikowany do tejże klasy. Przykład 2 zastosowanie algorytmu k najbliższych sąsiadów dla k = 5 W drugim przykładzie rozpatrzono pięciu najbliższych sąsiadów nowego elementu. W tym przypadku najbliżej czerwonej kropki są trzy obiekty należące do minusów oraz dwa elementy z klasy plusów. W związku z tym, że elementów z klasy plusów jest mniej, w tym przykładzie nowy element został zaklasyfikowany do minusów. Do omówienia metody k najbliższych sąsiadów wykorzystano następującą literaturę: [32] oraz [45]. 28

29 4 Przegląd narzędzi do eksploracji danych W niniejszym rozdziale omówione zostały wybrane narzędzia wspomagające proces eksploracji danych. Obecnie dostępnych jest wiele programów, które potencjalnie mogłyby zostać wykorzystane. W związku z tym pierwszym krokiem było wyodrębnienie kilku narzędzi, zapoznanie się pokrótce z ich możliwościami, a następnie wybór najbardziej odpowiedniego do realizacji pracy, czyli spełniającego najważniejsze wymagania. Podczas wyboru programu istotne były następujące kryteria: Narzędzie powinno posiadać licencję umożliwiającą korzystanie w celach niekomercyjnych. Ważne było, aby dostępne były materiały i przykłady użycia oprogramowania oraz instrukcja opisująca narzędzie w sposób dokładny i przejrzysty. Oprogramowanie musiało posiadać algorytmy klasyfikacji, których zamierzano użyć w pracy. Interfejs nie był najważniejszym kryterium, ale jego przejrzystość i intuicyjność też miały znaczenie. Możliwość importowania Linked Data. Było to ważne kryterium, jednak brano pod uwagę, że żadne z narzędzi może go nie spełniać. Aby przygotować wstępną listę narzędzi do eksploracji danych postanowiono sprawdzić jakie programy najczęściej zajmują wysokie miejsca w rankingach. W tym celu wykorzystano rankingi otrzymane na podstawie wyników ankiet przeprowadzonych przez KDnuggets, który jest jednym z najbardziej znanych serwisów zajmujących się tematyką eksploracji danych [23] i [24]. Ponadto wzięto pod uwagę również rankingi pochodzące z innych źródeł niż KDnuggets z artykułów Six of the Best Open Source Data Mining Tools [16] oraz Introduction To Seven Major Data Mining Tools [35]. W tabelach poniżej wymieniono narzędzia, które zostały najlepiej ocenione na poszczególnych portalach. Nazwa narzędzia Użytkownicy RapidMiner 44.2% R 38.5% Excel 25.8% SQL 25.3% Python 19.5% Weka 17.0% KNIME 15.0% Hadoop 12.7% SAS base 10.9% Microsoft SQL Server 10.5% Tabela 4.1 Dane z ankiety przeprowadzonej w roku 2014 przez KDnuggets [23] 29

30 Nazwa narzędzia Użytkownicy R 46.9% RapidMiner 31.5% SQL 30.9% Python 30.3% Excel 22.9% KNIME 20.0% Hadoop 18.4% Tableau 12.4% SAS 9.1% Spark 11.3% Tabela 4.2 Dane z ankiety przeprowadzonej w roku 2015 przez KDnuggets [24] Miejsce w rankingu Nazwa narzędzia 1. RapidMiner 2. Weka 3. R 4. Orange 5. KNIME 6. NLTK Tabela 4.3 Dane z artykułu Six of the Best Open Source Data Mining Tools [16] Miejsce w rankingu Nazwa narzędzia 1. Weka 2. Octoparse 3. RapidMiner 4. NLTK 5. Orange 6. KNIME 7. R Tabela 4.4 Dane z artykułu Introduction To Seven Major Data Mining Tools [35] 30

31 Analizując powyższe rankingi zaobserwowano, że najczęściej wymieniane były cztery następujące programy: RapidMiner, R, Weka i KNIME. Postanowiono więc zawęzić obszar wyboru oprogramowania do tych czterech narzędzi. Poniżej zostały one pokrótce omówione. 4.1 RapidMiner RapidMiner, znany wcześniej jako YALE (Yet Another Learning Environment) został opracowany przez Ralfa Klinkenberga, Ingo Mierswa, i Simona Fischera w roku 2001 [9]. Jest platformą, której celem jest zapewnienie zintegrowanego środowiska do uczenia maszynowego, eksploracji danych, analiz predykcyjnych oraz biznesowych. Stosuje się go zarówno w biznesie i handlu, jak również do przeprowadzania badań, edukacji, szkoleń czy szybkiego prototypowania i tworzenia aplikacji. RapidMiner obsługuje wszystkie etapy procesu eksploracji danych, takie jak przygotowanie danych, wyników wizualizacji oraz walidacji i optymalizacji. W narzędziu zaimplementowano wiele algorytmów eksploracji danych, w tym również drzewa decyzyjne, klasyfikator k najbliższych sąsiadów oraz klasyfikatory bayesowskie [19]. Program używa modelu klient-serwer, gdzie serwer oferowany jest jako usługa chmury obliczeniowej w modelu SaaS (Software as a Service) [34]. Narzędzie to posiada darmową wersję, ale również udostępnia warianty komercyjne [4]. Rysunek 4.1 Logo programu RapidMiner [9] Strona projektu jest przejrzysta i zawiera wiele przydatnych informacji zebranych w bazie wiedzy. Można tam znaleźć między innymi filmy prezentujące w jaki sposób rozpocząć korzystanie z narzędzia czy linki do publikacji dotyczących tematu eksploracji danych. Dostępnych jest też wiele materiałów z instrukcjami oraz przykładowymi projektami, na których można się wzorować. Sam RapidMiner posiada przejrzysty interfejs co, w połączeniu z dostępnymi informacjami, pozwala szybko zapoznać się z głównymi funkcjami narzędzia i rozpocząć korzystanie z niego. 31

32 Rysunek 4.2 Interfejs programu RapidMiner [8] RapidMiner posiada wiele rozszerzeń, które umożliwiają integrację z innymi narzędziami. Jednym z nich jest Linked Open Data Extension pozwalające na wykorzystanie Linked Open Data zarówno jako danych wejściowych do eksploracji, jak i do wzbogacenia istniejących zbiorów danych. Projekt jest oparty na farameworku FeGeLOD, który obecnie nie jest rozwijany [8]. Możliwości wykorzystania RapidMiner Linked Open Data Extension: Importowanie danych ze źródeł Linked Data (na przykład DBpedia) do RapidMiner, a następnie analizowanie ich za pomocą RapidMiner Dodawanie danych na temat ludności ze źródeł Linked Data do krajowych zbiorów danych Dodawanie danych o uczelniach do miejskich zbiorów danych Dodawanie zbiorów o obrotach i liczbie pracowników do firmowych zbiorów danych RapidMiner Linked Open Data Extension, w przeciwieństwie do innych, pokrewnych metod nie wymaga wiedzy na temat źródeł danych ani technologii takich jak RDF czy SPARQL [8]. W momencie pisania niniejszej pracy rozszerzenie nie jest jeszcze dostępne dla najnowszej wersji narzędzia RapidMiner 7.5, jednak jest kompatybilne ze starszą, obecnie niewspieraną, wersją RapidMiner to jedyna znaleziona wersja, która pozwala na zainstalowanie rozszerzenia, a także na uruchomienie wybranych algorytmów. W starszych wersjach często nie było to możliwe proces kończył się komunikatem o błędach. Dla Linked Open Data Extension dostępna jest obszerna instrukcja. Jej najnowsza wersja pochodzi z roku 2014 i opiera się na starszej wersji narzędzia RapidMiner niż 6.5 (wersja 6.5 powstała rok później). Co za tym idzie specyfikacja nie jest całkowicie zgodna z wersją. Jednak, pomimo braku aktualnej dokumentacji, próba zastosowania rozszerzenia przebiegła pomyślnie. 32

33 4.2 R Kolejnym omawianym w tym rozdziale narzędziem jest R. Jest to język i powszechnie znane środowisko służące do obliczeń statystycznych. Jego pierwsza wersja została opracowana przez pracujących na Wydziale Statystyki Uniwersytetu w Auckland Roberta Gentelmana i Ross Ihake. R był wzorowany na powstałym w laboratoriach Bell a języku S. Narzędzie dostarcza wielu statystycznych metod, takich jak analiza szeregów klasowych, grupowanie czy klasyfikacja. Ponadto narzędzie to ma wiele innych zastosowań. Jest wykorzystywane do automatycznego wysyłania maili czy generowania raportów, jak również renderowania trójwymiarowych animacji. Narzędzie umożliwia korzystanie z bibliotek dostępnych w innych językach (na przykład C, C++). Pozwala również utworzyć wysokiej jakości wykresy. Istnieje wiele podręczników i instrukcji, które dokładnie tłumaczą jak korzystać z pakietu. Pomimo dużej liczby bibliotek i rozszerzeń nie znaleziono wśród narzędzia służącego do importowania danych powiązanych. R jest dostępny jako wolne oprogramowanie na warunkach licencji GNU General Public License. Rysunek 4.3 Logo narzędzia R [46] R jest narzędziem tekstowym wymagającym znajomości komend i nie posiada wbudowanego interfejsu graficznego. Istnieje jednak wiele nakładek pełniących tę rolę. Na przykład nakładka Rattle (R Analytical Tool To Learn Easily). Umożliwia ona importowanie zbiorów danych z różnych źródeł, takich jak arkusze kalkulacyjne, bazy danych czy pliki tekstowe. Na rysunku poniżej zamieszczono interfejs programu. 33

34 Rysunek 4.4 Graficzny interfejs Rattle [46] Opis narzędzia R powstał na podstawie [4] oraz informacji zawartych na stronie projektu [46]. 4.3 Weka Weka (Waikato Environment for Knowledge Analysis) to zaimplementowany w języku Java projekt, którego autorami są Eibe Frank, Mark Hall i Len Trigg. Narzędzie jest oprogramowaniem typu open source na licencji GNU General Public License, a jego nazwa to akronim, który jednocześnie jest nazwą rzadkiego, nielotnego ptaka występującego na wyspach Nowej Zelandii. Podobizna tego ptaka występuje w logo programu. Rysunek 4.5 Logo narzędzia Weka [28] 34

35 Weka jest zbiorem algorytmów uczenia maszynowego. Narzędzie ma na celu wspomaganie realizacji zadań procesu eksploracji danych. Algorytmy mogą być zastosowane bezpośrednio do zestawu danych, ale można je też wywołać używając własnego kodu napisanego w języku Java. Weka jest bardzo rozbudowanym programem zawiera między innymi narzędzia służące do: wstępnego przetwarzania danych klasyfikacji regresji klastrowania reguł asocjacji wizualizacji Program jest również odpowiedni do opracowywania nowych schematów uczenia maszynowego. Zbiory danych importowane do narzędzia muszą być w formacie.arff. Na stronie internetowej projektu dostępna jest instrukcja opisująca narzędzie. Jest to bardzo obszerny dokument omawiający dokładnie jak korzystać z programu. Ponadto autorzy oprogramowania przygotowali bezpłatne kursy online. Nagrania z tych zajęć dostępne są w serwisie YouTube. Weka udostępnia cztery moduły: Explorer główny moduł, pozwalający na analizę danych. Umożliwia dostęp do najważniejszych funkcjonalności. Experimenter służy do automatycznego wykonywania utworzonych wcześniej eksperymentów. Jego celem jest umożliwienie analizy i wyborów najlepszych metod oraz zestawów parametrów dla danego problemu. Pozwala na przeprowadzanie złożonych eksperymentów. Knowledge Flow umożliwia umieszczanie poszczególnych elementów w obszarze roboczym i łączenie ich w grafy. CLI (Command Line Interface) umożliwia korzystanie z funkcjonalności poprzez wprowadzanie poleceń w linii komend. Pierwsze trzy z wymienionych modułów są interfejsami graficznymi, natomiast ostatni to interfejs tekstowy. Poniżej umieszczono rysunki przedstawiające wygląd modułów graficznych. 35

36 Rysunek 4.6 Moduł Explorer [28] Rysunek 4.7 Moduł Experimenter [28] 36

37 Rysunek 4.8 Moduł Knowledge Flow [28] Interfejs modułów jest zupełnie inny niż w przypadku narzędzia RapidMiner. Sprawia wrażenie bardziej skomplikowanego, jednak też jest przejrzysty i dokładnie opisany w ogólnodostępnej dokumentacji. Na chwilę obecną Weka nie umożliwia importowania Linked Data. Opis narzędzia opracowano na podstawie [4] oraz informacji dostępnych na stronie projektu [28]. 4.4 KNIME Ostatnim narzędziem jest KNIME (Konstanz Information Miner). Jest to program mający wiele zastosowań zarówno w obróbce danych jaki i w analizie. Służy także do wykonywania obliczeń statystycznych oraz uczenia maszyn. Podobnie jak pozostałe omawiane narzędzia, również w przypadku KNIME na stronie internetowej projektu dostępny jest dokument zawierający dokładną instrukcję instalacji oraz korzystania z programu. Ponadto dostępne jest też forum internetowe, na którym użytkownicy mają możliwość otrzymania pomocy w rozwiązaniu ich problemów z narzędziem. Jednakże w przypadku KNIME często odnalezienie potrzebnych informacji było trudniejsze niż dla pozostałych narzędzi opisanych w ramach tego rozdziału. W KNIME dostępne są wszystkie wymagane na potrzeby pracy algorytmy. Program jest dostępny na warunkach GNU General Public License. Rysunek 4.9 Logo programu KNIME [25] 37

38 Interfejs programu jest wyglądem zbliżony do interfejsu narzędzia RapidMiner, jednakże jest trochę mniej intuicyjny. Poniżej zamieszczono rysunek prezentujący wygląd oprogramowania KNIME. Rysunek 4.10 Interfejs narzędzia KNIME [25] KNIME jest podobny do narzędzia RapidMiner również ze względu na możliwość integracji z Semantic Web. Program KNIME umożliwia połączenie z DBpedią za pomocą języka SPARQL i zaimportowanie do programu otrzymanych danych. Jednak w przypadku tego narzędzia proces pobierania danych z DBpedii jest znacznie bardziej skomplikowany i czasochłonny niż w programie RapidMiner. Opis narzędzia KNIME został przygotowany na podstawie [4] oraz [25]. 38

39 4.5 Wybór narzędzia W poniższej tabeli przedstawiono porównanie wszystkich omawianych w tym rozdziale narzędzi. Zestawienie utworzono pod kątem kryteriów wyszczególnionych we wstępie. Zielonego symbolu użyto, gdy system spełniał dane wymaganie, natomiast w przeciwnym przypadku czerwonego. Jedynym kryterium, którego nie dało się ocenić w sposób binarny był interfejs narzędzi. Jego przejrzystość i intuicyjność zostały poddane subiektywnej ocenie w skali od 1 do 10. RapidMiner R Weka KNIME Licencja Materiały Algorytmy Interfejs 9/10 7/10 8/10 8/10 Linked Data Tabela 4.5 Porównanie narzędzi Wszystkie omawiane narzędzia spełniają pierwsze trzy kryteria. Posiadają licencję, która umożliwia korzystanie z nich w celach niekomercyjnych. Do każdego programu istnieje dokumentacja oraz wiele instrukcji i podręczników opisujących dokładnie i przejrzyście jak używać narzędzia. Również wszystkie narzędzia udostępniają wybrane na potrzeby tej pracy algorytmy. Ocena interfejsów poszczególnych programów różni się nieznacznie, jednak najlepiej w tym przypadku wypadł RapidMiner. Jeśli chodzi o ostanie kryterium, czyli możliwość importowania danych powiązanych to umożliwiały to tylko dwa narzędzia program RapidMiner posiadający rozszerzenie Linked Open Data Extension oraz program KNIME. Biorąc pod uwagę ten fakt oraz to, że obydwa programy spełniają również pozostałe wymagania, przy podejmowaniu decyzji kierowano się intuicyjnością interfejsu oraz rozszerzenia umożliwiającego integrację z Semantic Web. W związku z tym ostatecznie zadecydowano, że do wykonania zaplanowanych badań zostanie wykorzystany RapidMiner. 39

40 5 Przygotowanie badań Ten rozdział poświęcono omówieniu procesu przygotowania do eksperymentów wykonanych w ramach pracy dyplomowej. Składa się on z czterech części. Na początku przedstawiono cel i zakres badań. W następnej części opisany został zbiór danych, który wykorzystano do przeprowadzenia eksperymentów. W trzecim podrozdziale zaprezentowano sposób w jaki pobrano dane powiązane (Linked Data) i dołączono je do istniejącej tabeli (oryginalnego zbioru danych) przy użyciu narzędzia RapidMiner. Czwarta część prezentuje rezultaty, jakie otrzymano w wyniku uruchomienia procesu omówionego w trzeciej części niniejszego rozdziału. 5.1 Cel i zakres badań Celem badań przeprowadzonych na potrzeby niniejszej pracy dyplomowej było zweryfikowanie czy rozszerzenie zbioru danych poprzez dołączenie do tabeli kolumn uzyskanych z DBpedii ma wpływ na wynik procesu eksploracji danych. Podstawowym zbiorem danych, który wybrano był fragment dostępnej w repozytorium UCI tabeli adult.data. Następnie użyto programu RapidMiner w wersji oraz rozszerzenia RapidMiner Linked Open Data Extension do powiększenia zbioru o pochodzące z DBpedii Linked Data. Proces ten przeprowadzono dwukrotnie. Za pierwszym razem zbiór rozszerzono na podstawie atrybutu native-country, czyli kraj pochodzenia. W tym przypadku otrzymano bardzo duży zbiór danych powiązanych. Drugi raz proces wykonano dla atrybutu education wykształcenie. Tym razem uzyskano niewiele dodatkowych kolumn. Postanowiono jednak przeprowadzić eksperymenty na obu otrzymanych zbiorach. W obu przypadkach zauważono, że wiele haseł nie zostało znalezionych, co skutkowało pustymi komórkami w kolumnach. Nawet jeśli w DBpedii znajdowało się odpowiednie hasło to często pozostałe informacje nie zostały znalezione, a co za tym idzie program nie uzupełnił kolejnych komórek dla danego wiersza. Ze względu na to, iż w badaniach istotne było, aby wszystkie tabele zawierały w rzędach dokładnie te same dane, zadecydowano, że wiersze zawierające puste komórki nie zostaną usunięte. Postanowiono jednak, że ze zbioru usunięte zostaną te kolumny, które zawierają najwięcej pustych elementów, a następnie wszystkie zaplanowane eksperymenty zostaną przeprowadzone na każdym z trzech zbiorów. Zdecydowano, że eksperymenty zostaną przeprowadzone z wykorzystaniem jednej z najstarszych, a zarazem najpopularniejszych i najczęściej wykorzystywanych metod eksploracji danych, którą jest klasyfikacja. Na potrzeby badań wybrano trzy algorytmy tej metody klasyfikacja przez indukcję drzew decyzyjnych, naiwny klasyfikator bayesowski oraz klasyfikator najbliższego sąsiedztwa. Ostatni algorytm postanowiono zastosować dwukrotnie, dla k = 1 oraz dla k = 5. Badania podzielono w następujący sposób. Każdy eksperyment polegał na zastosowaniu innego algorytmu na trzech zbiorów danych tabeli podstawowej, tabeli rozszerzonej oraz tabeli rozszerzonej, z której usunięte zostały najbardziej niekompletne kolumny. Klasyfikacja przeprowadzana była zawsze ze względu na następujące atrybuty: marital-status (stan cywilny), occupation (zawód), relationship (relacje) oraz atrybut, na podstawie którego rozszerzono zbiór 40

41 o Linked Data native-country (kraj pochodzenia) w pierwszej części każdego badania oraz education (wykształcenie) w drugiej części. Następnie dla każdego atrybutu porównano wyniki otrzymane w przypadku zbioru podstawowego oraz zbiorów rozszerzonych. Jako kryteria oceny przyjęto następujące miary: trafność (accuracy), kompletność (recall), dokładność (precision) oraz błąd względny (relative error). Przed przystąpieniem do badań przypuszczano, że rezultaty będą się różnić w zależności od zastosowanego zbioru danych. Oczekiwano, że wyniki dla rozszerzonych tabel będą lepsze, co oznacza wyższe wartości dla miar trafność, kompletność i dokładność oraz niższe w przypadku błędu względnego. 5.2 Zbiór danych Zbiór danych, który został wykorzystany do przeprowadzenia badań to fragment tabeli adult.data. Pochodzi ona z ogólnodostępnego repozytorium UCI. Zawarte w niej rekordy to dane demograficzne dotyczące dorosłych ludzi, które zostały zebrane przez Bureau of the Census w 1994 roku [47]. Zbiór danych jest bardzo duży składa się z około wierszy. Ze względu na ograniczenia narzędzia RapidMiner nie było możliwe użycie całej pobranej tabeli (dla tabel zawierających więcej niż 600 wierszy program przestawał działać podczas próby rozszerzenia zbioru danych). W związku z tym we wszystkich eksperymentach wykorzystano pierwsze 600 wierszy z pliku adult.data. Ten pomniejszony zbiór danych został użyty w badaniach i w niniejszej pracy jest nazywany zbiorem oryginalnym. Poniżej, w Tabeli 5.1, wymienione zostały argumenty występujące w zbiorze adult.data wraz z tłumaczeniami nazw kolumn na język polski (na podstawie patrz: [22]) oraz występującymi w używanym w badaniach zbiorze danych zmiennymi. Dla argumentów innych niż numeryczne wypisano wartości występujące w wierszach wykorzystanych w eksperymentach. Poniżej tabeli zamieszczono Rysunek 5.1, który przedstawia fragment oryginalnego zbioru wykorzystywanego podczas eksperymentów. Nazwa kolumny Nazwa kolumny w języku polskim Dane występujące w zbiorze age wiek zmienna numeryczna workclass rodzaj pracy Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov fnlwgt masa próbki zmienna numeryczna education wykształcenie Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th- 6th, Preschool 41

42 education-num marital-status occupation relationship race numeryczny odpowiednik zmiennej education stan cywilny zawód związek rasa zmienna numeryczna Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse Tech-support, Craft-repair, Other-service, Sales, Execmanagerial, Prof-specialty, Handlers-cleaners, Machineop-inspct, Adm-clerical, Farming-fishing, Transportmoving, Priv-house-serv, Protective-serv, Armed- Forces Wife, Own-child, Husband, Not-in-family, Otherrelative, Unmarried White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black sex płeć Female, Male capital-gain zysk kapitałowy zmienna numeryczna capital-loss strata kapitałowa zmienna numeryczna hours-per-week liczba godzin pracy w tygodniu zmienna numeryczna native-country kraj pochodzenia United-States, Cambodia, England, Puerto-Rico, Canada, Germany, India, South, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Mexico, Portugal, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Thailand, El- Salvador label roczny dochód <=50K > 50K Tabela 5.1 Zmienne występujące w wykorzystanym do badań zbiorze danych 42

43 Rysunek 5.1 Fragment podstawowej tabeli 43

44 5.3 Proces rozszerzania zbioru danych o Linked Data Ponieważ celem niniejszej pracy dyplomowej było porównanie wyników dla zbioru oryginalnego oraz zbioru rozszerzonego o Linked Data, to kolejnym krokiem było rozwinięcie o dane powiązane tabeli, która została opisana w pierwszej części tego rozdziału. Do tego celu wykorzystane zostały program RapidMiner oraz rozszerzenie RapidMiner Linked Open Data Extension, które zostały opisane w Rozdziale 4. Dane, które zostały dołączone do tabeli pobrano z DBpedii. Poniżej zaprezentowano w jaki sposób dokonano rozszerzenia podstawowego zbioru danych. Przed przystąpieniem do procesu rozwijania tabeli o dodatkowe kolumny zaimportowano do narzędzia plik zawierający zbiór oryginalny. Plik nazwano adult. Następnie utworzono nowy proces i umieszczono w oknie procesu zaimportowany wcześniej zbiór. Kolejnym krokiem było wyszukanie w zakładce Operators operatora DBpedia Lookup Linker. Ten operator również umieszczono w oknie procesu i połączono z ulokowanym tam wcześniej zbiorem danych. W zakładce Parameters, w polu Attribute należało wybrać atrybut z oryginalnej tabeli, który miał zostać wyszukany w DBpedii. W przypadku niniejszej pracy zbiór był rozszerzany dwukrotnie, za pierwszym razem wybrano atrybut native-country, natomiast za drugim element education. Rysunek 5.2 Zakładka "Parameters", w polu Attribute wybrany atrybut native-country 44

45 Następnym krokiem było wyszukanie i umieszczenie w oknie procesu operatora Data Properties. Służy on do generowania atrybutów i dodawania ich do tabeli. W zakładce Parameters należało wypełnić pole SPARQL connection. W polu wybrano DBpedia, ponieważ zdecydowano, że dane będą rozszerzane z wykorzystaniem DBpedii. Następnie z operatora DBpedia Lookup Linker przesłano do operatora Data Properties dwa przepływy App i Att. W kolejnym kroku można było przystąpić od razu do eksploracji danych, jednak ze względu na bardzo długi czas wykonywania zapytań do DBpedii oraz liczba badań, które planowano przeprowadzić w ramach pracy, zdecydowano zapisać powstały zbiór w formacie.xlsx, a następnie zaimportować go do narzędzie RapidMiner. Do zapisania otrzymanego zbioru na dysku wykorzystano operator Write Excel, który umożliwia zapisanie pliku w formatach.xls oraz.xlsx. Następnie przesłano przepływ App z operatora Data Properties do operatora Write Excel oraz połączono port wyjściowy thr operatora Write Excel z portem wynikowym res. Poniższy rysunek ilustruje wygląd obszaru roboczego po wykonaniu wszystkich wyżej wymienionych kroków. Rysunek 5.3 Umieszczenie w oknie procesu operatora Write Excel Ostatnim krokiem było uruchomienie utworzonego procesu. 45

46 5.4 Rezultaty otrzymane po uruchomieniu procesu Wynikiem wyżej opisanego procesu był plik zawierający podstawowy zbiór rozszerzony o dodatkowe dane, pobrane z DBpedii. Na podstawie wybranego atrybutu do zbioru został dołączony atrybut New Link, który został wykorzystany do dalszego rozwinięcia tabeli. Na rysunkach poniżej znajdują się fragmenty rozszerzonej części tabel. Rysunek 5.4 i Rysunek 5.5 prezentują kolumny dołączone po rozszerzeniu na podstawie atrybutu nativecountry, natomiast Rysunek 5.6 zawiera kolumny, o które zbiór danych został powiększony poprzez wykorzystanie atrybutu education. Rysunek 5.4 Pierwsza część fragmentu tabeli rozszerzonej atrybutem native-country Rysunek 5.5 Druga część tabeli rozszerzonej atrybutem native-country 46

47 Poniżej wymieniono nazwy wszystkich kolumn dołączonych na podstawie atrybutu native-country, gdyż ze względu na ich długość nie są w pełni widoczne na rysunkach. Kolumny wymienione zostały w takiej samej kolejności, w jakiej występują w zamieszczonych wyżej fragmentach tabeli (Rysunek 5.4 i Rysunek 5.5). New_Link New_Link_data_http://dbpedia.org/property/timeZone New_Link_data_http://dbpedia.org/ontology/populationTotal New_Link_data_http://dbpedia.org/ontology/PopulatedPlace/populationDensity New_Link_data_http://dbpedia.org/ontology/percentageOfAreaWater New_Link_data_http://dbpedia.org/property/royalAnthem New_Link_data_http://dbpedia.org/property/regionalLanguages New_Link_data_http://dbpedia.org/property/largestCity New_Link_data_http://dbpedia.org/ontology/areaTotal New_Link_data_http://dbpedia.org/ontology/ethnicGroupsInYear New_Link_data_http://dbpedia.org/property/percentWater New_Link_data_http://dbpedia.org/property/areaKm New_Link_data_http://dbpedia.org/property/populationDensityKm New_Link_data_http://dbpedia.org/ontology/wikiPageRevisionID New_Link_data_http://dbpedia.org/property/governmentType New_Link_data_http://dbpedia.org/property/filename New_Link_data_http://dbpedia.org/property/ethnicGroupsYear New_Link_data_http://dbpedia.org/ontology/wikiPageID New_Link_data_http://dbpedia.org/ontology/PopulatedPlace/areaTotal New_Link_data_http://dbpedia.org/property/leaderName New_Link_data_http://dbpedia.org/property/nativeName New_Link_data_http://dbpedia.org/ontology/abstract 47

48 Część pobranych kolumn była pusta lub posiadała tylko klika wypełnionych komórek. W związku z tym, że mogło to wpłynąć na wyniki badań postanowiono utworzyć jeszcze jeden zbiór danych, który powstał poprzez usunięcie najbardziej niekompletnych kolumn. Poniżej wymieniono atrybuty, które zostały wyeliminowane ze zbioru. New_Link_data_http://dbpedia.org/property/timeZone New_Link_data_http://dbpedia.org/property/royalAnthem New_Link_data_http://dbpedia.org/property/regionalLanguages New_Link_data_http://dbpedia.org/property/largestCity New_Link_data_http://dbpedia.org/ontology/ethnicGroupsInYear New_Link_data_http://dbpedia.org/property/governmentType New_Link_data_http://dbpedia.org/property/filename New_Link_data_http://dbpedia.org/property/ethnicGroupsYear New_Link_data_http://dbpedia.org/property/leaderName New_Link_data_http://dbpedia.org/property/nativeName 48

49 Rysunek 5.6 Fragment tabeli rozszerzonej atrybutem education 49

Semantic Web Internet Semantyczny

Semantic Web Internet Semantyczny Semantic Web Internet Semantyczny Semantyczny Internet - Wizja (1/2) Pomysłodawca sieci WWW - Tim Berners-Lee, fizyk pracujący w CERN Jego wizja sieci o wiele bardziej ambitna niż istniejąca obecnie (syntaktyczna)

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

3 grudnia Sieć Semantyczna

3 grudnia Sieć Semantyczna Akademia Górniczo-Hutnicza http://www.agh.edu.pl/ 1/19 3 grudnia 2005 Sieć Semantyczna Michał Budzowski budzow@grad.org 2/19 Plan prezentacji Krótka historia Problemy z WWW Koncepcja Sieci Semantycznej

Bardziej szczegółowo

Wykorzystanie standardów serii ISO 19100 oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Wykorzystanie standardów serii ISO 19100 oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych Wykorzystanie standardów serii ISO 19100 oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych dr inż. Adam Iwaniak Infrastruktura Danych Przestrzennych w Polsce i Europie Seminarium, AR Wrocław

Bardziej szczegółowo

Analiza danych i data mining.

Analiza danych i data mining. Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data

Bardziej szczegółowo

Internet Semantyczny. Linked Open Data

Internet Semantyczny. Linked Open Data Internet Semantyczny Linked Open Data Dzień dzisiejszy database Internet Dzisiejszy Internet to Internet dokumentów (Web of Dokuments) przeznaczonych dla ludzi. Dzień dzisiejszy Internet (Web) to dokumenty

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Wykład I. Wprowadzenie do baz danych

Wykład I. Wprowadzenie do baz danych Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 3

Indukowane Reguły Decyzyjne I. Wykład 3 Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie

Bardziej szczegółowo

KIERUNKOWE EFEKTY KSZTAŁCENIA

KIERUNKOWE EFEKTY KSZTAŁCENIA WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA II STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA NAUK TECHNICZNYCH Dyscyplina

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Internet Semantyczny. Schematy RDF i wnioskowanie

Internet Semantyczny. Schematy RDF i wnioskowanie Internet Semantyczny Schematy RDF i wnioskowanie Ewolucja Internetu Internet dzisiaj Internet Semantyczny Jorge Cardoso, The Syntactic and the Semantic Web, in Semantic Web Services: Theory, Tools, and

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Algorytm. Krótka historia algorytmów

Algorytm. Krótka historia algorytmów Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,

Bardziej szczegółowo

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl Komputerowe Systemy Przemysłowe: Modelowanie - UML Arkadiusz Banasik arkadiusz.banasik@polsl.pl Plan prezentacji Wprowadzenie UML Diagram przypadków użycia Diagram klas Podsumowanie Wprowadzenie Języki

Bardziej szczegółowo

OfficeObjects e-forms

OfficeObjects e-forms OfficeObjects e-forms Rodan Development Sp. z o.o. 02-820 Warszawa, ul. Wyczółki 89, tel.: (+48-22) 643 92 08, fax: (+48-22) 643 92 10, http://www.rodan.pl Spis treści Wstęp... 3 Łatwość tworzenia i publikacji

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Narzędzia Informatyki w biznesie

Narzędzia Informatyki w biznesie Narzędzia Informatyki w biznesie Przedstawiony program specjalności obejmuje obszary wiedzy informatycznej (wraz z stosowanymi w nich technikami i narzędziami), które wydają się być najistotniejsze w kontekście

Bardziej szczegółowo

Efekt kształcenia. Wiedza

Efekt kształcenia. Wiedza Efekty dla studiów drugiego stopnia profil ogólnoakademicki na kierunku Informatyka na specjalności Przetwarzanie i analiza danych, na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie oznacza

Bardziej szczegółowo

INFORMATYKA Pytania ogólne na egzamin dyplomowy

INFORMATYKA Pytania ogólne na egzamin dyplomowy INFORMATYKA Pytania ogólne na egzamin dyplomowy 1. Wyjaśnić pojęcia problem, algorytm. 2. Podać definicję złożoności czasowej. 3. Podać definicję złożoności pamięciowej. 4. Typy danych w języku C. 5. Instrukcja

Bardziej szczegółowo

Proporcje podziału godzin na poszczególne bloki. Tematyka lekcji. Rok I. Liczba godzin. Blok

Proporcje podziału godzin na poszczególne bloki. Tematyka lekcji. Rok I. Liczba godzin. Blok Proporcje podziału godzin na poszczególne bloki Blok Liczba godzin I rok II rok Na dobry początek 7 Internet i gromadzenie danych 6 2 Multimedia 5 3 Edytory tekstu i grafiki 6 4 Arkusz kalkulacyjny 7 4

Bardziej szczegółowo

Dodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji.

Dodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji. Spis Treści 1. Wprowadzenie... 2 1.1 Wstęp... 2 1.2 Cel pracy... 2 1.3 Zakres pracy... 2 1.4 Użyte technologie... 2 1.4.1 Unity 3D... 3 2. Sztuczna inteligencja w grach komputerowych... 4 2.1 Zadanie sztucznej

Bardziej szczegółowo

PROGRAM NAUCZANIA DLA I I II KLASY GIMNAZJUM

PROGRAM NAUCZANIA DLA I I II KLASY GIMNAZJUM PROGRAM NAUCZANIA DLA I I II KLASY GIMNAZJUM Proporcje podziału godzin na poszczególne bloki Blok Liczba godzin I rok II rok Na dobry początek 7 Internet i gromadzenie danych 6 2 Multimedia 5 3 Edytory

Bardziej szczegółowo

Ontologie, czyli o inteligentnych danych

Ontologie, czyli o inteligentnych danych 1 Ontologie, czyli o inteligentnych danych Bożena Deka Andrzej Tolarczyk PLAN 2 1. Korzenie filozoficzne 2. Ontologia w informatyce Ontologie a bazy danych Sieć Semantyczna Inteligentne dane 3. Zastosowania

Bardziej szczegółowo

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym konceptualnym modelem danych jest tzw. model związków encji (ERM

Bardziej szczegółowo

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa Autorzy scenariusza: SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH

Bardziej szczegółowo

Program szkoleniowy Efektywni50+ Moduł V Raportowanie dla potrzeb analizy danych

Program szkoleniowy Efektywni50+ Moduł V Raportowanie dla potrzeb analizy danych Program szkoleniowy Efektywni50+ Moduł V Raportowanie dla potrzeb analizy danych 1 Wprowadzenie do technologii MS SQL Server 2012 Reporting Services. 2h Podstawowym zadaniem omawianej jednostki lekcyjnej

Bardziej szczegółowo

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod

Bardziej szczegółowo

Tom 6 Opis oprogramowania

Tom 6 Opis oprogramowania Część 4 Narzędzie do wyliczania wielkości oraz wartości parametrów stanu Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 30 maja 2012 Historia dokumentu Nazwa

Bardziej szczegółowo

SCENARIUSZ LEKCJI. Czas realizacji. Podstawa programowa

SCENARIUSZ LEKCJI. Czas realizacji. Podstawa programowa Autorzy scenariusza: SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH

Bardziej szczegółowo

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Grażyna Koba MIGRA 2019 Spis treści (propozycja na 2*32 = 64 godziny lekcyjne) Moduł A. Wokół komputera i sieci komputerowych

Bardziej szczegółowo

Podstawowe zagadnienia z zakresu baz danych

Podstawowe zagadnienia z zakresu baz danych Podstawowe zagadnienia z zakresu baz danych Jednym z najważniejszych współczesnych zastosowań komputerów we wszelkich dziedzinach życia jest gromadzenie, wyszukiwanie i udostępnianie informacji. Specjalizowane

Bardziej szczegółowo

Widzenie komputerowe (computer vision)

Widzenie komputerowe (computer vision) Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja

Bardziej szczegółowo

Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble

Bardziej szczegółowo

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013 http://www.wilno.uwb.edu.

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013 http://www.wilno.uwb.edu. SYLLABUS na rok akademicki 01/013 Tryb studiów Studia stacjonarne Kierunek studiów Informatyka Poziom studiów Pierwszego stopnia Rok studiów/ semestr /3 Specjalność Bez specjalności Kod katedry/zakładu

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012 Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012 Web 3.0 - prawdziwa rewolucja czy puste hasło? Web 3.0

Bardziej szczegółowo

Koncepcja wirtualnego uniwersytetu z wykorzystaniem technologii semantycznej. Ilona Pawełoszek Tomasz Turek Politechnika Częstochowska

Koncepcja wirtualnego uniwersytetu z wykorzystaniem technologii semantycznej. Ilona Pawełoszek Tomasz Turek Politechnika Częstochowska Koncepcja wirtualnego uniwersytetu z wykorzystaniem technologii semantycznej Ilona Pawełoszek Tomasz Turek Politechnika Częstochowska Definicja wirtualnego uniwersytetu: Wirtualny > istniejący w przestrzeni

Bardziej szczegółowo

Zapisywanie algorytmów w języku programowania

Zapisywanie algorytmów w języku programowania Temat C5 Zapisywanie algorytmów w języku programowania Cele edukacyjne Zrozumienie, na czym polega programowanie. Poznanie sposobu zapisu algorytmu w postaci programu komputerowego. Zrozumienie, na czym

Bardziej szczegółowo

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni Akademia Morska w Gdyni Gdynia 2004 1. Podstawowe definicje Baza danych to uporządkowany zbiór danych umożliwiający łatwe przeszukiwanie i aktualizację. System zarządzania bazą danych (DBMS) to oprogramowanie

Bardziej szczegółowo

KIERUNKOWE EFEKTY KSZTAŁCENIA

KIERUNKOWE EFEKTY KSZTAŁCENIA WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA I STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA NAUK TECHNICZNYCH Dyscyplina

Bardziej szczegółowo

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL Podstawy baz danych: Rysunek 1. Tradycyjne systemy danych 1- Obsługa wejścia 2- Przechowywanie danych 3- Funkcje użytkowe 4- Obsługa wyjścia Ewolucja baz danych: Fragment świata rzeczywistego System przetwarzania

Bardziej szczegółowo

i działanie urządzeń związanych równieŝ budowę i funkcje urządzeń

i działanie urządzeń związanych równieŝ budowę i funkcje urządzeń Wymagania edukacyjne Informatyka III etap edukacyjny (gimnazjum) Uczeń potrafi I. Bezpiecznie posługiwać się komputerem i jego oprogramowaniem, wykorzystywać sieć komputerową; komunikować się za pomocą

Bardziej szczegółowo

Rozkład materiału do zajęć z informatyki. realizowanych według podręcznika

Rozkład materiału do zajęć z informatyki. realizowanych według podręcznika Rozkład materiału do zajęć z informatyki realizowanych według podręcznika E. Gurbiel, G. Hardt-Olejniczak, E. Kołczyk, H. Krupicka, M.M. Sysło Informatyka, nowe wydanie z 007 roku Poniżej przedstawiamy

Bardziej szczegółowo

1. WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

1. WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI KARTA PRZEDMIOTU przedmiotu Stopień studiów i forma Rodzaj przedmiotu Grupa kursów Zaawansowane techniki analizy systemowej oparte na modelowaniu warsztaty Studia podyplomowe Obowiązkowy NIE Wykład Ćwiczenia

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Projekt przejściowy 2016/2017 BARTOSZ JABŁOŃSKI

Projekt przejściowy 2016/2017 BARTOSZ JABŁOŃSKI Projekt przejściowy 2016/2017 BARTOSZ JABŁOŃSKI Kto, co, jak i kiedy Kto? dr inż. Bartosz Jabłoński bartosz.jablonski@pwr.edu.pl s. P0.2, C-16 http://jablonski.wroclaw.pl O co chodzi? Celem przedmiotu

Bardziej szczegółowo

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7 I Wprowadzenie (wersja 0906) Kurs OPC S7 Spis treści Dzień 1 I-3 O czym będziemy mówić? I-4 Typowe sytuacje I-5 Klasyczne podejście do komunikacji z urządzeniami automatyki I-6 Cechy podejścia dedykowanego

Bardziej szczegółowo

Model semistrukturalny

Model semistrukturalny Model semistrukturalny standaryzacja danych z różnych źródeł realizacja złożonej struktury zależności, wielokrotne zagnieżdżania zobrazowane przez grafy skierowane model samoopisujący się wielkości i typy

Bardziej szczegółowo

Tworzenie i obsługa wirtualnego laboratorium komputerowego

Tworzenie i obsługa wirtualnego laboratorium komputerowego Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Michał Ochociński nr albumu: 236401 Praca magisterska na kierunku informatyka stosowana Tworzenie i obsługa wirtualnego

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:

Bardziej szczegółowo

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej. Efekty dla studiów pierwszego stopnia profil ogólnoakademicki na kierunku Informatyka w języku polskim i w języku angielskim (Computer Science) na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie-

Bardziej szczegółowo

KARTA KURSU. Przetwarzanie dokumentów XML i zaawansowane techniki WWW

KARTA KURSU. Przetwarzanie dokumentów XML i zaawansowane techniki WWW KARTA KURSU Nazwa Nazwa w j. ang. Przetwarzanie dokumentów XML i zaawansowane techniki WWW XML processing and advanced web technologies Kod Punktacja ECTS* 3 Koordynator dr Maria Zając Zespół dydaktyczny:

Bardziej szczegółowo

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI

Bardziej szczegółowo

Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK

Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK Kto? dr inż. Tomasz Janiczek tomasz.janiczek@pwr.edu.pl s. P1.2, C-16 dr inż. Bartosz Jabłoński bartosz.jablonski@pwr.edu.pl s. P0.2, C-16

Bardziej szczegółowo

Programowanie obiektowe

Programowanie obiektowe Laboratorium z przedmiotu Programowanie obiektowe - zestaw 02 Cel zajęć. Celem zajęć jest zapoznanie z praktycznymi aspektami projektowania oraz implementacji klas i obiektów z wykorzystaniem dziedziczenia.

Bardziej szczegółowo

Numer i nazwa obszaru: 5 Wdrażanie nowych, innowacyjnych sposobów nauczania i oceniania, w celu podnoszenia efektywności kształcenia w cyfrowej szkole

Numer i nazwa obszaru: 5 Wdrażanie nowych, innowacyjnych sposobów nauczania i oceniania, w celu podnoszenia efektywności kształcenia w cyfrowej szkole Numer i nazwa obszaru: 5 Wdrażanie nowych, innowacyjnych sposobów nauczania i oceniania, w celu podnoszenia efektywności kształcenia w cyfrowej szkole Temat szkolenia: Gryfikacja i inne innowacyjne metody

Bardziej szczegółowo

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Hurtownie danych - przegląd technologii Problematyka zasilania hurtowni danych - Oracle Data Integrator Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel

Bardziej szczegółowo

Systemy uczące się wykład 1

Systemy uczące się wykład 1 Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej

Bardziej szczegółowo

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Dział Zagadnienia Wymagania podstawowe Wymagania ponadpodstawowe Arkusz kalkulacyjny (Microsoft Excel i OpenOffice) Uruchomienie

Bardziej szczegółowo

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0 Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga

Bardziej szczegółowo

SPIS TREŚCI. Do Czytelnika... 7

SPIS TREŚCI. Do Czytelnika... 7 SPIS TREŚCI Do Czytelnika.................................................. 7 Rozdział I. Wprowadzenie do analizy statystycznej.............. 11 1.1. Informacje ogólne..........................................

Bardziej szczegółowo

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Program, to lista poleceń zapisana w jednym języku programowania zgodnie z obowiązującymi w nim zasadami. Celem programu jest przetwarzanie

Bardziej szczegółowo

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania Michał Socha, Wojciech Górka Integracja danych Prosty export/import Integracja 1:1 łączenie baz danych

Bardziej szczegółowo

Plan nauczania informatyki Opracował: mgr Daniel Starego

Plan nauczania informatyki Opracował: mgr Daniel Starego Obowiązuje od roku szkolnego 000/00 Plan nauczania informatyki Opracował: mgr Daniel Starego Szkoła podstawowa klasy IV VI Dział, tematyka L. godz. I rok II rok. TECHNIKA KOMPUTEROWA W ŻYCIU CZŁOWIEKA

Bardziej szczegółowo

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Instalacja SQL Server Express. Logowanie na stronie Microsoftu Instalacja SQL Server Express Logowanie na stronie Microsoftu Wybór wersji do pobrania Pobieranie startuje, przechodzimy do strony z poradami. Wypakowujemy pobrany plik. Otwiera się okno instalacji. Wybieramy

Bardziej szczegółowo

Uniwersytet Śląski w Katowicach str. 1 Wydział Informatyki i Nauki o Materiałach

Uniwersytet Śląski w Katowicach str. 1 Wydział Informatyki i Nauki o Materiałach Uniwersytet Śląski w Katowicach str. 1 Efekty dla: nazwa kierunku poziom profil Informatyka inżynierska pierwszy ogólnoakademicki Kod efektu (kierunek) K_1_A_I_W01 K_1_A_I_W02 K_1_A_I_W03 K_1_A_I_W04 K_1_A_I_W05

Bardziej szczegółowo

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Data Mining podstawy analizy danych Część druga

Data Mining podstawy analizy danych Część druga Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany

Bardziej szczegółowo

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W ELBLĄGU INSTYTUT INFORMATYKI STOSOWANEJ Sprawozdanie z Seminarium Dyplomowego Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

Bardziej szczegółowo

Część I -ebxml. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

Część I -ebxml. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz Część I -ebxml Po zrealizowaniu materiału student będzie w stanie omówić potrzeby rynku B2B w zakresie przeprowadzania transakcji przez Internet zaprezentować architekturę ebxml wskazać na wady i zalety

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 14c 2 Definicje indukcyjne Twierdzenia dowodzone przez indukcje Definicje indukcyjne Definicja drzewa

Bardziej szczegółowo

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski Systemy ekspertowe i ich zastosowania Katarzyna Karp Marek Grabowski Plan prezentacji Wstęp Własności systemów ekspertowych Rodzaje baz wiedzy Metody reprezentacji wiedzy Metody wnioskowania Języki do

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

KARTA MONITOROWANIA PODSTAWY PROGRAMOWEJ KSZTAŁCENIA OGÓLNEGO

KARTA MONITOROWANIA PODSTAWY PROGRAMOWEJ KSZTAŁCENIA OGÓLNEGO KARTA MONITOROWANIA PODSTAWY PROGRAMOWEJ KSZTAŁCENIA OGÓLNEGO III etap edukacyjny PG im. Tadeusza Kościuszki w Kościerzycach Przedmiot informatyka Klasa......... Rok szkolny Imię i nazwisko nauczyciela

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Linked Open Data z wykorzystaniem wolnego oprogramowania w gospodarce przestrzennej

Linked Open Data z wykorzystaniem wolnego oprogramowania w gospodarce przestrzennej Linked Open Data z wykorzystaniem wolnego oprogramowania w gospodarce przestrzennej dr inż. Iwona Kaczmarek Uniwersytet Przyrodniczy we Wrocławiu Otwarte dane rządowe The Memorandum on Transparency and

Bardziej szczegółowo

Od e-materiałów do e-tutorów

Od e-materiałów do e-tutorów Od e-materiałów do e-tutorów Lech Banachowski, Elżbieta Mrówka-Matejewska, Agnieszka Chądzyńska-Krasowska, Jerzy Paweł Nowacki, Wydział Informatyki, Polsko-Japońska Akademia Technik Komputerowych Plan

Bardziej szczegółowo

Umiejscowienie kierunku w obszarze kształcenia

Umiejscowienie kierunku w obszarze kształcenia Efekty kształcenia dla kierunku studiów Inżynieria bezpieczeństwa 1 studia pierwszego stopnia A profil ogólnoakademicki specjalność Inżynieria Ochrony i Zarządzanie Kryzysowe (IOZK) Umiejscowienie kierunku

Bardziej szczegółowo

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe Prezentacja specjalności studiów II stopnia Inteligentne Technologie Internetowe Koordynator specjalności Prof. dr hab. Jarosław Stepaniuk Tematyka studiów Internet jako zbiór informacji Przetwarzanie:

Bardziej szczegółowo

Kurs OPC S7. Spis treści. Dzień 1. I OPC motywacja, zakres zastosowań, podstawowe pojęcia dostępne specyfikacje (wersja 1501)

Kurs OPC S7. Spis treści. Dzień 1. I OPC motywacja, zakres zastosowań, podstawowe pojęcia dostępne specyfikacje (wersja 1501) Spis treści Dzień 1 I OPC motywacja, zakres zastosowań, podstawowe pojęcia dostępne specyfikacje (wersja 1501) I-3 O czym będziemy mówić? I-4 Typowe sytuacje I-5 Klasyczne podejście do komunikacji z urządzeniami

Bardziej szczegółowo

Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki. Paweł Parys. Nr albumu: 209216. Aukcjomat

Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki. Paweł Parys. Nr albumu: 209216. Aukcjomat Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Paweł Parys Nr albumu: 209216 Aukcjomat Praca licencjacka na kierunku INFORMATYKA w zakresie INFORMATYKA Praca wykonana pod kierunkiem

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Projektowanie Zorientowane na Dziedzinę. ang. Domain Driven Design

Projektowanie Zorientowane na Dziedzinę. ang. Domain Driven Design Projektowanie Zorientowane na Dziedzinę ang. Domain Driven Design 2 Projektowanie Stan posiadania Przypadki użycia Model dziedziny Operacje systemowe Kontrakty dla operacji systemowych Problemy do rozwiązania

Bardziej szczegółowo

Serwery. Autorzy: Karol Czosnowski Mateusz Kaźmierczak

Serwery. Autorzy: Karol Czosnowski Mateusz Kaźmierczak Serwery Autorzy: Karol Czosnowski Mateusz Kaźmierczak Czym jest XMPP? XMPP (Extensible Messaging and Presence Protocol), zbiór otwartych technologii do komunikacji, czatu wieloosobowego, rozmów wideo i

Bardziej szczegółowo

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol KIERUNKOWE EFEKTY KSZTAŁCENIA Wydział Informatyki i Zarządzania Kierunek studiów INFORMATYKA (INF) Stopień studiów - pierwszy Profil studiów - ogólnoakademicki Projekt v1.0 z 18.02.2015 Odniesienie do

Bardziej szczegółowo

Kodowanie produktów - cz. 1

Kodowanie produktów - cz. 1 Kodowanie produktów - cz. 1 25.07.2005 r. Wstęp Do identyfikacji wyrobów od dawna używa się różnego rodzaju kodów i klasyfikacji. Obecnie stosuje się m.in. natowską kodyfikację wyrobów, kodowanie wyrobów

Bardziej szczegółowo

Definicje. Algorytm to:

Definicje. Algorytm to: Algorytmy Definicje Algorytm to: skończony ciąg operacji na obiektach, ze ściśle ustalonym porządkiem wykonania, dający możliwość realizacji zadania określonej klasy pewien ciąg czynności, który prowadzi

Bardziej szczegółowo

Karta opisu przedmiotu Zaawansowane techniki analizy systemowej oparte o modelowanie warsztaty

Karta opisu przedmiotu Zaawansowane techniki analizy systemowej oparte o modelowanie warsztaty Karta opisu przedmiotu Zaawansowane techniki analizy systemowej oparte o modelowanie warsztaty przedmiotu Stopień studiów i forma: Rodzaj przedmiotu Kod przedmiotu Grupa kursów Zaawansowane techniki analizy

Bardziej szczegółowo