Projekt z Ekonometrii



Podobne dokumenty
Politechnika Łódzka Biblioteka. Dokumentowanie i rozpowszechniania informacji o publikacjach naukowych pracowników Politechniki Łódzkiej

Rozdział ten zawiera informacje o sposobie konfiguracji i działania Modułu OPC.

celu przyjmijmy: min x 0 = n t Zadanie transportowe nazywamy zbilansowanym gdy podaż = popyt, czyli n

Interfejs GSM/GPRS LB-431

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Opis modułu pl.id w programie Komornik SQL-VAT

Opis modułu pl.id w programie Komornik SQL-VAT

Rozdzia l 3. Laboratorium 3. danych zawierajac

Wyk lad 7 Baza i wymiar przestrzeni liniowej

Analiza danych i data mining.

Automatyczna klasyfikacja zespołów QRS

Projekty Zaliczeniowe Laboratorium Sieci Komputerowych

Dyskretne modele populacji

Interfejs GSM/GPRS LB-431

Dyskretne modele populacji

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

Jeden przyk lad... czyli dlaczego warto wybrać MIESI.

Rachunek zdań - semantyka. Wartościowanie. ezyków formalnych. Semantyka j. Logika obliczeniowa. Joanna Józefowska. Poznań, rok akademicki 2009/2010

Functionalization. Jeszcze o funkcjach i strukturze projektu. Marcin Makowski. 3 grudnia Zak lad Chemii Teoretycznej UJ

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Funkcje. Piotr Zierhoffer. 7 października Institute of Computer Science Poznań University of Technology

Paradygmaty programowania

Przyk ladowe Zadania z MSG cz

Prognozowanie na podstawie modelu ekonometrycznego

Sterowanie wielkością zamówienia w Excelu - cz. 3

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 3 Tablice trwania życia 2

Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Analiza autokorelacji

Wymagania edukacyjne z informatyki w klasie VIII

us lugi katalogowe? Czym różni si e serwer katalogowy od serwera bazy danych:

Indeks odwzorowania zmiennej zespolonej wzgl. krzywej zamknietej

Moduł mapowania danych

Paradygmaty programowania. Paradygmaty programowania

Wirtualne sieci prywatne

Zagadnienie Dualne Zadania Programowania Liniowego. Seminarium Szkoleniowe Edyta Mrówka

Webowy generator wykresów wykorzystujący program gnuplot

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4

Instrukcja obsługi Zaplecza epk w zakresie zarządzania tłumaczeniami opisów procedur, publikacji oraz poradników przedsiębiorcy

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA. Spis pojȩċ teoretycznych

System kontroli eksploatacji maszyn i urządzeń

Wyk lad 14 Formy kwadratowe I

Suma i przeciȩcie podprzestrzeń, suma prosta, przestrzeń ilorazowa Javier de Lucas

Data Mining w doborze parametrów układu testującego urządzenia EAZ 1

Informatyka wspomaga przedmioty ścisłe w szkole

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Rozdzia l 11. Przestrzenie Euklidesowe Definicja, iloczyn skalarny i norma. iloczynem skalarnym.

WebMobile7 and Sello Integrator wersja 1.1.2

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD

POLITECHNIKA WARSZAWSKA

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Analizy na podstawie danych sprawozdawczych - Moduł analiz z obsługą broszur

ANALIZA II 15 marca 2014 Semestr letni. Ćwiczenie 1. Czy dan a funkcjȩ da siȩ dookreślić w punkcie (0, 0) tak, żeby otrzymana funkcja by la ci ag la?

PL B1. ABB Sp. z o.o.,warszawa,pl BUP 26/01. Michał Orkisz,Kraków,PL Mirosław Bistroń,Jarosław,PL

Tematyka seminariów z informatyki dla studentów I roku kierunku lekarsko-dentystycznego w roku akademickim 2017/2018.

Sterowalność liniowych uk ladów sterowania

Integracja systemu CAD/CAM Catia z bazą danych uchwytów obróbkowych MS Access za pomocą interfejsu API

Moduł mapowania danych

Wprowadzenie do pakietu STATA

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania KOMPUTEROWE SYSTEMY STEROWANIA (KSS)

Sieci komputerowe i bazy danych

Analiza zrekonstruowanych śladów w danych pp 13 TeV

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

7. Szybka transformata Fouriera fft

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2015/2016

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Konwerter XML Dla Programów Symfonia Kadry i Płace oraz Forte Kadry i Płace

Ekonomia matematyczna i dynamiczna optymalizacja

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

KOLOKWIUM PODSTAWY PROGRAMOWANIA

Statystyka w analizie i planowaniu eksperymentu

AKADEMIA MORSKA W SZCZECINIE WI-ET / IIT / ZTT. Instrukcja do zajęc laboratoryjnych nr 7 TECHNOLOGIE INFORMACYJNE

Wyk lad 9 Przekszta lcenia liniowe i ich zastosowania

Modelowanie glikemii w procesie insulinoterapii

Analizy sprzedażowe w Excelu tabele i wykresy przestawne

Tabele przestawne tabelą przestawną. Sprzedawcy, Kwartały, Wartości. Dane/Raport tabeli przestawnej i wykresu przestawnego.

WPROWADZENIE DO BAZ DANYCH

Jednolity Plik Kontrolny w IFK

WPROWADZENIE WYSZUKIWANIE OGŁOSZEŃ

Rok akademicki: 2014/2015 Kod: CCB s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Funkcje systemu Unix

Dokumentacja Końcowa

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

TOPWEB Microsoft Excel 2013 i PowerBI Przygotowanie danych, analiza i efektowna prezentacja wyników raportów

1. Protokołowanie operacji wykonywanych na danych osobowych

Analizy na podstawie danych sprawozdawczych - Moduł Analiz dla Banków Spółdzielczych

Moduł Media backup oraz konfiguracja serwera zapasowego

Zastosowanie Robotów. Ćwiczenie 6. Mariusz Janusz-Bielecki. laboratorium

Sposoby prezentacji problemów w statystyce

Zawartość. Zawartość

Implementacja prototypu modułu dostępu do danych SkOs przy pomocy protokołu LDAP

Jednolity Plik Kontrolny w IFK

PWSZ w Nowym Sa czu. Karta przedmiotu. Państwowa Wyższa Szko la Zawodowa w Nowym Sa czu. 1 Przedmiot. 2 Rodzaj zaje ć, liczba godzin w planie studiów

ECDL zaawansowany, moduł EXCEL

Transkrypt:

Akademia Górniczo-Hutnicza im. Stanis lawa Staszica w Krakowie Wydzia l Elektrotechniki, Automatyki, Informatyki i Elektroniki Projekt z Ekonometrii Maciej Fabia Rafa l Gibas Marcin Godlewski Tomasz Gryzio Piotr Jarmo lowicz S lawomir Lichoń Modele trendów technologicznych systemów eksperckich i analiza ich wp lywu na rozwój gospodarczy Prowadzacy przedmiotu: dr hab. inż. Andrzej M. J. Skulimowski prof. nadzw. AGH Kraków 5 marca 2010

Spis treści 1. Cel projektu... 3 2. Realizacja... 4 2.1. Opis danych wejściowych i sposobu ich pobierania... 4 2.1.1. Pozyskanie informacji o patentach i publikacjach... 4 2.1.2. Pozyskanie danych z google-trends... 5 2.2. Projekt implementacji... 7 2.2.1. Model systemu... 7 2.2.2. Implementacja... 7 2.2.3. Import danych... 7 2.2.4. Przetwarzanie i selekcja danych... 8 3. Wyniki... 10 A. Opis programu BiblioBot... 45 A.1. Koncepcja... 45 A.2. Opis dzia lania... 45 A.3. Plik konfiguracyjny... 46 2

Rozdzia l 1 Cel projektu Celem projektu jest zbadanie wp lywu rozwoju systemów eksperckich na rozwój gospodarczy i budowa modeli trendów rozwoju gospodarki na ich podstawie na okres kilku najbliższych lat. Do badań pos luży nam wiedza zdobyta ze źróde l dotyczacych systemów eksperckich, w postaci publikacji naukowych, danych patentowych i trendów zainteresowań, a także wiedza dospodarcza wydobyta z urzedów statystycznych. Wynikiem projektu bedzie zbiór modeli trendów, które zostana przedstawione w postaci wykresów prognoz na lata najbliższe, z podaniem empirycznego wzoru oraz uzasadnienia. 3

Rozdzia l 2 Realizacja 2.1 Opis danych wejściowych i sposobu ich pobierania Danymi wejściowymi bed a publikacje i dane patentowe dotyczace systemów eksperckich, oraz dane dotyczace zainteresowania internautów w tej dziedzinie. Dane wejściowe s luż ace do otrzymania zmiennych objaśniajacych można podzielić na trzy typy. Sa to: Dane o ilości publikacji z danej dziedziny i danej technologii, wydanych w zadanym roku Dane o ilości zg loszonych patentów dla danej technologii i dziedziny w zadanym roku Wspó lczynnik zainteresowania internautów dana technologia w danym roku. Źród lo tych danych stanowi strona: http://www.google.com/trends 2.1.1 Pozyskanie informacji o patentach i publikacjach Dane ilościowe o patentach i publikacjach zosta ly pobrane automatycznie przy pomocy programu BiblioBot (patrz za l acznik A), z nastepuj acych źróde l: Publikacje: Google scholar: http://scholar.google.com ICM: http://vls2.icm.edu.pl CiteSeerX: http://citeseerx.ist.psu.edu/ DBLP: http://dblp.mpi-inf.mpg.de Patenty: Google patents: http://www.google.com/patents Baza patentów espacenet: http://ep.espacenet.com Okres próbkowania danych to 1 rok. Dane zosta ly pobrane dla nastepuj acych technologii: 4

Eksploracja danych (data mining). Systemy wspomagania decyzji (decision support system). Bazy wiedzzy (knowledge base). Inżynieria wiedzy (knowledge engineering). Uczenie maszynowe (machine learning). Sieci semantyczne (semantic web). Dla każdej technologii dane sa podzielone wed lug dziedzin: Ogólna (dowolna dziedzina) Chemia, biologia, farmacja. S lowa kluczowe: chemiachemistry, pharmacology, biology. Ekonomia, biznes. S lowa kluczowe: business, economics, managment. Energia, elektryczność. S lowa kluczowe: energy, power, electricity. Transport, logistyka, pojazdy. S lowa kluczowe: transport, logistics vehicle. Produkcja, automatyzacja. S lowa kluczowe: manufacture, automation. Medycyna, ochrona zdrowia. S lowa kluczowe: medicine, medical. Socjologia, psychologia. S lowa kluczowe: social, human, psychology. Program BiblioBot dane wyjściowe zapisuje w plikach tekstowych. W celu latwiejszej akwizycji danych pliki te zosta ly zaimportowane do arkusza Excel-a (dane aktualne.xls). Import danych dokonany zosta l automatycznie dzieki makrom zawartym w arkuszu. Pojedyncza zak ladka arkusza zawiera dane dla jednej technologii (nazwa zak ladki stanowi nazwe technologii). Informacje na zak ladce sa zgrupowane wed lug dziedziny, typu i źród la danych. 2.1.2 Pozyskanie danych z google-trends Google-trends jest us lug a internetowa udostepnian a przez firme Google i pozwalajac a na uzyskanie danych ilościowych na temat popularności danej dziedziny wśród użytkowników wyszukiwarki Google. Dane takie można uzyskać w postaci trendów czestotliwości wyszukiwań konkretnych fraz. Wyniki uzyskuje sie w postaci wzglednych wartości odpowiadajacych danemu okresowi w stosunku to średniej uzyskanej w ca lym okresie. Takie wzgledne wartości sa jednak wystarczajace aby zaobserwować wystepuj ace trendy. Ponadto popularność us lug Google na świecie, a w szczególności w Europie pozwala na trkatowanie tak uzyskanych wyników jako wiarygodnych wskaźników popularności dziedziny wśród spo leczeństw. Dane można uzyskiwać również tylko dla konkretnego kraju. W przypadku systemów eksperckich ograniczenie sie do danych dla Polski nie prowadzi lo jednak do pożadanego celu, gdyż tak zaweżona dziedzina poszukiwań nie pozwala la systemowi na zwrócenie wiarygodnych wyników. System odmawia l udzielenia informacji z powodu zbyt ma lej ilości danych. Dlatego też zebrane zosta ly dane o charaketrze ogólnoświatowym. 5

Uzyskano dane dla nastepuj acych fraz: data mining, decision support system, decision support systems, expert system, expert systems, knowledge base, knowledge engineering, machine learning, semantic web. Wyniki otrzymuje sie dla tygodniowej rozdzielczości czasowej dla lat 2004 2009. Rozdzielczość czasowa zosta la nastepnie w fazie obróbki danych zamieniona na roczna a okres czasu wyd lużony wstecz dane zosta ly ekstrapolowane na okres lat 2000 2003. Do analizy, w celu pozyskania zmiennych objaśnianych, użyliśmy danych gospodarczych z GUS, w tym wartości nastepuj acych wskaźników: Rachunek obrotów bieżacych Rachunek obrotów kapita lowych Bezpośrednie inwestycje zagraniczne w Polsce Wydatki publiczne na edukacj e Nak lady na badania i rozwój Wykszta lcenie osób m lodych Saldo budżetu państwa Saldo budżetu państwa w stosunku do PKB D lug publiczny w stosunku do PKB D lug publiczny Saldo obrotów towarowych handlu zagranicznego Terms of trade Relacja salda obrotów towarowych handlu zagranicznego do PKB Śmiertelność noworodków na 1000 żywych urodzeń PKB w cenach bieżacych Bezrobocie Bezrobocie d lugotrwa le 6

2.2 Projekt implementacji 2.2.1 Model systemu Nasz system (2.1) sk lada si e z: bota internetowego, pobierajacego dane w sposób automatyczny aplikacji matlabowej przetwarzajacej zgromadzone dane. Dane o publikacjach, patentach, zainteresowaniach pobierane sa z sieci Internet z wybranych serwerów. Niektóre dane zosta ly pozyskane manualnie. Po wstepnym przetworzeniu dane gromadzone sa w bazie wiedzy, wykorzystywanej przez modu l g lówny aplikacji. W module g lównym wykonywana jest weryfikacja i selekcja danych do użycia ich do obliczeń prognoz. Po wstepnej ocenie generowane sa wzory empiryczne na wartości zmiennych opisywanych zależnych od zmiennych opisujacych. Z otrzymanych wzorów tworzone sa prognozy, a na ich podstawie generowane sa raporty, które znajda sie w rozdziale 3. 2.2.2 Implementacja Projekt zaimplementowany zosta l z użyciem technologii i j ezyków: Java Matlab W przetwarzaniu inormacji przydatne okaza ly si e technologie skryptowe j ezyków Python, Perl, Bash, w tym wyrażenia regularne. 2.2.3 Import danych Dane wczytywane sa do programu przy wykorzystaniu serwera komunikacyjnego COM opracowanego przez firme Microsoft wbudowanego w program Microsoft Office. Matlab przy wykorzystaniu funkcji xlsread l aczy sie z wyżej wymienionym serwerem stajac sie w stosunku do niego klientem i odbiera odczytane przez niego dane. Serwer COM zwraca dane w postaci obiektu posiadajacego dwa pola; nag lówek, dane, zgodnie z filozofia bazy danych dla Microsoft Excel: nag lówek: typ tekstowy, dane nierozdzielne pusta kolumna, koniec nag lówka poprzez rozpoczecie danych liczbowych, dane: typy liczbowe zdefiniowane przez arkusz programu Excel, dane nierozdzielne pusta kolumna, koniec danych sygnalizuje pusty wiersz. Powyższe zastrzeżenie sprawia, że Matlab tworzy tablice zawierajac a dwa wiersze; tekstowa tablice nag lówka, liczbowa tablice danych. Importujac dane tworzona jest tablica wektorów zawierajaca wektory bed ace strukturami zawierajacymi nastepuj ace pola: nazwa 7

dope lniacz nazwy - pola budowane na podstawie nag lówka arkusza programu Excel typ dope lniacz typu - pola budowane na podstawie nag lówka arkusza programu Excel t - pole przechowujace tablice liczbowa bed ac a podstawa czasowa. Pole jest budowane na podstawie pierwszej kolumny arkusza programu Excel x - pole przechowujace tablice liczbowa bed ac a zbiorem danych. Pole jest budowane na podstawie kolejnych kolumn arkusza programu Excel. 2.2.4 Przetwarzanie i selekcja danych Okresem czasu branym pod uwage przy wyznaczaniu trendów i tworzeniu prognoz by ly lata 2000-2008. Wszystkie szeregi czasowe zosta ly wiec odpowiednio przetworzone aby odpowiada ly wybranemu okresowi czasu. Szukane by ly zależności zarówno liniowe bezpośrednio pomiedzy zmiennymi jak i pomiedzy szeregami utworzonymi z logarytmów wartości zmiennych oraz z funkcji różnicowych. Dane opisujace wskaźniki gospodarcze przyjete zosta ly jako zmienne objaśniane, zaś pozosta le dane jako zmienne objaśniajace. Dla każdej pary szeregów: zmienna objaśniana zmienna objaśniajaca, zmienna objaśniana logarytm zmiennej objaśniajacej, zmienna objaśniana różniczka zmiennej objaśniajacej obliczony zosta l wspó lczynnik korelacji liniowej Pearsona. Nastepnie, w celu wyeliminowania korelacji nieistotnych, przypadkowych przeprowadzony zosta l test t-studenta istotności korelacji. Ma on s lużyć zminimalizowaniu ryzyka wystapienia sytuacji, w której korelacje wystepuj ace w analizowanej próbie nie sa w laściwe dla ca lej populacji. Ze wzgledu na stosunkowo niewielkie rozmiary szeregów czasowych test t-studenta by l jedynym możliwym do zastosowania powszechnie używanym testem. Jako graniczne, najwieksze dopuszczalne prawdopodobieństwo, że w ca lej próbie korelacja jest zerowa przyjeto wartość 0,05. Oznacza to, że poziom ufności ustalony zosta l na 0,95. Korelacje nieistotne na tym poziomie ufności zosta ly odrzucone jako zerowe. 8

Rysunek 2.1: Diagram modelu systemu i przep lywu danych 9

Rozdzia l 3 Wyniki 10

Dodatek A Opis programu BiblioBot A.1 Koncepcja Bot jest aplikacja desktopowa s luż ac a to automatycznego pobierania danych ilościowych. Bot pozwala na wyszukiwanie dwóch rodzajów danych: Publikacje. W obecnej wersji obs lugiwane sa portale: Google scholar: http://scholar.google.com ICM: http://vls2.icm.edu.pl CiteSeerX: http://citeseerx.ist.psu.edu/ DBLP: http://dblp.mpi-inf.mpg.de Patenty. W obecnej wersji obs lugiwane sa portale: Google patents: http://www.google.com/patents Baza patentów espacenet: http://ep.espacenet.com Program zosta l wykonany w technologi java (wersja kompilatora: 1.6) A.2 Opis dzia lania Rysunek A.1: Diagram przep lywu danych 45

Bot dzia la wed lug nastepuj acego scenariusza: Wczytanie danych konfiguracyjnych. Sa to dane zawierajace: list e technologii list e dziedzin zakres dat Nastepnie program dokonuje wyszukiwania na zadanych portalach. Odbywa sie to w nastepuj acy sposób: dla wszystkich zdefiniowanych technologii program dok lada po kolei s lowa kluczowe poszczególnych dziedzin. Dzieki temu uzyskuje warunek wyszukiwania publikacji, badź patentu. Ten warunek możemy zapisać: Nazwa technologii i ( s lowo kluczowe 1 dziedziny lub... lub s lowo kluczowe n dziedziny ). Dany artyku l/patent podlega warunkowi wyszukiwania, jeżeli w jego tytule, abstrakcie, lub wykazie s lów kluczowych znajduje sie fraza z nazwa technologii, oraz w jego tytule, abstrakcie, lub wykazie s lów kluczowych znajduje sie, choć jedno ze s lów kluczowych definicji dziedziny. Nastepnie zdefiniowany warunek zostaje wys lany do odpowiedniego portalu internetowego. W odpowiedzi program dostaje liste pozycji spe lniaj acych kryterium wyszukiwania. Zwrócona liste pozycji program grupuje po dacie publikacji i zapamietuj e sama ilość pozycji opublikowana w danym roku. Zapis wyniku dzia lania bot-a nastepuje do plików tekstowych. Dane z poszczególnych portali zapisywane sa w różnych katalogach (citeseerx, dblp, espacenet, googlepatents, scholar). Nazwa plików wynikowych stanowi wykaz s lów kluczowych poszczególnych dziedzin (dla jednej dziedziny powstaje jeden plik wynikowy). Dane w pliku sa zapisywane w kolejnych wierszach. Pojedynczy wiersz zawiera:,,rok ;,,Ilość dla technologii 1 ;,,Ilość pozycji dla technologii 2 A.3 Plik konfiguracyjny Sekcja citeseerx, dblp, googlepat, scholar i espacenet s luży do w l aczania i wy l aczania przeszukiwania na danych portalach. Sekcja fromyear i toyear s luży do definicji zakresu lat. Sekcja outputfolder ustawia katalog, w którym bedź zapisywane wyjściowe dane. Sekcja usecases definiuje liste dziedzin. Sekcja categories definiuje liste technologii. Zawartość przyk ladowego pliku: 46

<?xml version=,,1.0 encoding=,,utf-8?> <java version=,,1.6.0_14 class=,,java.beans.xmldecoder > <object class=,,botconfig > <void property="googlepat"> <boolean>true</boolean> <void property="citeseerx"> <boolean>true</boolean> <void property="dblp"> <boolean>true</boolean> <void property="espacenet"> <boolean>true</boolean> <void property="scholar"> <boolean>true</boolean> <void property="fromyear"> <int>1990</int> <void property="toyear"> <int>2009</int> <void property="outputfolder"> <string>c:\bibliobot</string> <void property="usecases"> <array class="java.lang.string" length="8"> <void index="0"> <string></string> <void index="1"> <string>chemistry pharmacology biology</string> <void index="2"> <string>business economics managment</string> <void index="3"> <string>energy power electricity</string> <void index="4"> <string>transport logistics vehicle</string> 47

<void index="5"> <string>manufacture automation</string> <void index="6"> <string>medicine medical</string> <void index="7"> <string>social human psychology</string> </array> <void property="categories"> <array class="java.lang.string" length="7"> <void index="0"> <string>data+mining</string> <void index="1"> <string>decision+support+system</string> <void index="2"> <string>expert+system</string> <void index="3"> <string>knowledge+base</string> <void index="4"> <string>knowledge+engineering</string> <void index="5"> <string>machine+learning</string> <void index="6"> <string>semantic+web</string> </array> </object> </java> 48