Rozszerzanie ontologii nazw geograficznych

Podobne dokumenty
Morskie Oko powstało w dawnym wyrobisku. Morskie Oko (The Eye of the Sea) was developed. Nad wodą. By the water

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

PORTS AS LOGISTICS CENTERS FOR CONSTRUCTION AND OPERATION OF THE OFFSHORE WIND FARMS - CASE OF SASSNITZ

Metody systemowe i decyzyjne w informatyce

Galeria Handlowa Starogard Gdański

Sargent Opens Sonairte Farmers' Market

Systemy uczące się wykład 2

THE MOBILITY NEWSPAPER 1ssue 3

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do uczenia maszynowego

A Zadanie

Optymalizacja systemów

Wprowadzenie do uczenia maszynowego

Data Mining Wykład 4. Plan wykładu

Elementy modelowania matematycznego

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Laboratorium 4. Naiwny klasyfikator Bayesa.

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Text mining w programie RapidMiner Michał Bereta

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLASY III

i na matematycznej wyspie materiały dla ucznia, klasa III, pakiet 75, s. 1 KARTA:... Z KLASY:...

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Baza danych dla potrzeb zgłębiania DMX

SPIS TREŚCI / INDEX OGRÓD GARDEN WYPOSAŻENIE DOMU HOUSEHOLD PRZECHOWYWANIE WINA WINE STORAGE SKRZYNKI BOXES

Metropolization : Local Development and Government in Poland

Zajęcia z języka angielskiego TELC Gimnazjum Scenariusz lekcji Prowadzący: Jarosław Gołębiewski Temat: Czas Present Perfect - wprowadzenie

Wykaz linii kolejowych, które są wyposażone w urządzenia systemu ETCS

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Pattern Classification

Wykaz linii kolejowych, które są wyposażone w urzadzenia systemu ETCS

Agnieszka Nowak Brzezińska Wykład III

Sprawdzenie czy połączenie przebiegło poprawnie if (mysqli_connect_errno()) { echo Błąd; Połączenie z bazą danych nie powiodło się.

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski

Porównywanie tagerów dopuszczajacych niejednoznaczności

Laboratorium 6. Indukcja drzew decyzyjnych.

CZYSZCZENIE DANYCH: Automatyczny podział tekstu na rekordy o określonej strukturze

EGZAMIN MATURALNY 2013 JĘZYK ANGIELSKI

Darmowy artykuł, opublikowany na:

SPOTKANIE 2: Wprowadzenie cz. I

Systemy GIS Tworzenie zapytań w bazach danych

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

ALGORYTM RANDOM FOREST

Budynki i zabudowania na terenie (T/N) Buildings / other constructions on site (Y/N)

Web page language identification based on URLs. Eda Baykan Monika Henzinger Ingmar Weber EPFL Lab. of Theory And Applications of Algorithms VLDB 08

Warsaw City Centre (Palace of 00:10


AUTOMATYKA INFORMATYKA

JĘZYK ANGIELSKI POZIOM ROZSZERZONY (A1)

JĘZYK ANGIELSKI DLA ABSOLWENTÓW KLAS DWUJĘZYCZNYCH

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Co wylicza Jasnopis? Bartosz Broda

Technologie Informacyjne

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Wydział Fizyki, Astronomii i Informatyki Stosowanej Uniwersytet Mikołaja Kopernika w Toruniu

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

JĘZYK ANGIELSKI POZIOM PODSTAWOWY

Rozmowa kwalifikacyjna z pracodawcą po angielsku str. 4 Anna Piekarczyk. Od Wydawcy

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Podzapytania. Rozdział 5. Podzapytania. Podzapytania wyznaczające wiele krotek (1) Podzapytania wyznaczające jedną krotkę

Warszawa, Śródmieście, Emilii Plater Penthouse PLN PLN / m²


Oracle PL/SQL. Paweł Rajba.

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Język PL/SQL. Rozdział 2. Kursory

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Kursor jawny. Rozdział 10a Kursory. Deklarowanie kursora (1) Deklarowanie kursora (2)

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Początek Alei Henryka dały wnioski władz

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

Kursor. Rozdział 10a Kursory. Otwieranie kursora. Deklarowanie kursora

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

9. Praktyczna ocena jakości klasyfikacji

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

KRYTERIA OCENIANIA. do podręcznika NEW ENGLISH ZONE 1, Rob Nolasco, David Newbold, wyd. Oxford University Press

Stan faktyczny bezpieczeństwa w polskich przedsiębiorstwach- 1/3

SEGRO BUSINESS PARK WARSAW

Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik

Wykład XII. optymalizacja w relacyjnych bazach danych

Beata Maciąg Board Member Grzegorz Latała - Board Member

Jakość uczenia i generalizacja

Wyszukiwanie tekstów

Dokumentacja Końcowa

Kursory i wyjątki. (c) Instytut Informatyki Politechniki Poznańskiej 1

W poszukiwaniu sensu w świecie widzialnym

Iwona Milczarek, Małgorzata Marcinkiewicz, Tomasz Staszewski. Poznań,

Oxford Explorers 2 Kryteria oceny

Algorytmy klasyfikacji

Kryteria ocen-język angielski- klasa II. Podręcznik: English Adventure - 2

Wyk lad 8: Leniwe metody klasyfikacji

Klasyfikacja LDA + walidacja

Teacher s Notes Unit 7

Post-relacyjne bazy danych

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Zapytanie ofertowe nr 1/2015 dotyczące zatrudnienia konsultantów z dziedziny maszynowego uczenia się

Nazwa projektu: Kreatywni i innowacyjni uczniowie konkurencyjni na rynku pracy

Map Reduce Proste zliczanie słów i zapytania SQL

Transkrypt:

6.11.2012

Wikipedia i DBPedia Wikipedia - przydatny zasób, jeśli chcemy dowiedzieć się czegoś o konkretnym obiekcie. Ale nie pozwala na zadawanie zapytań, odpowiedzenie na które wymaga skorzystania z wiedzy zawartej w więcej niż jednym artykule. Przykład: wszystkie interesujące miejsca w promieniu od ustalonego miejsca. Wikipedia zawiera informacje geolokalizacyjne, ale nie możemy zadać takiego zapytania. Rozwiązanie - DBPedia - baza wiedzy, która powstaje automatycznie na podstawie Wikipedii (głównie infoboxów).

DBPedia - zapytanie SPARQL PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> SELECT?res min((bif:st_distance(?geo,?bb_geo))) as?dist WHERE { <http://dbpedia.org/resource/warsaw> geo:geometry?bb_geo.?res geo:geometry?geo. FILTER (bif:st_intersects(?geo,?bb_geo, 5)) } ORDER BY?dist

Postawienie problemu Wiele artykułów z Wikipedii nie zawiera infoboxów. Istniejące infoboxy są często niekompletne. Dlatego DBPedia zawiera jedynie ułamek informacji, jakie są zawarte w Wikipedii. Celem jest rozszerzanie DBPedii poprzez ekstrakcję informacji z tekstu Wikipedii. Przykład działania: Nason, Illinois. Polska i angielska DBPedia.

Uczenie ze słabym nadzorem Uczenie z nadzorem - dane treningowe są poprawnie oznaczone. Uczenie bez nadzoru - dane treningowe są nieoznaczone. Uczenie ze słabym nadzorem (ang. distant/weak supervision learning): Dane treningowe są tworzone przy użyciu bazy wiedzy (np. DBPedii) - wyszukiwane są wystąpienia wartości z bazy wiedzy w nieoznaczonym tekście. Zakładamy, że zdanie w artykule o obiekcie, które wymienia nazwę wartości, która jest w relacji z obiektem z dużym prawdopodobieństwem wyraża tę relację. Dla niektórych relacji powyższe założenie jest zbyt silne. Drobne usprawnienie: jeżeli w artykule jest wiele zdań, które odnoszą się do wartości z DBPedii, do danych treningowych dołączane są wyłącznie te, które zawierają też odniesienie do nazwy predykatu.

Algorytm uczenia - szczegóły Dla każdej relacji trenowane są dwa modele: Klasyfikator zdań - przewiduje, czy dane zdanie wyraża relację. Klasyfikator reprezentuje zdania jako wektory wystąpień form bazowych słów. Ekstraktor wartości - ze zdań pozytywnie sklasyfikowanych przez klasyfikator zdań wybiera wartość, która jest w relacji.

Ewaluacja (dla angielskiego) Ewaluacja programu na 3 relacjach (atrybutach): population, capital, river mouth. Modele były wytrenowane na od kilkuset do kilkudziesięciu tysięcy zdań. Dla każdej relacji wylosowałem 50 obiektów geograficznych, które miały zdefiniowany atrybut w DBPedii. Dla każdego artykułu o obiekcie, ręcznie sprawdziłem jakie wartości atrybutów były wyrażone w tekście.

Ewaluacja - uwagi Ręczne oznaczanie, jakie wartości są wyrażone w tekście, okazało się być mniej oczywiste niż się spodziewałem. Przykład: In 1880 the population was 50. Przykład (relacja bycia ujściem): Przez Odrę Wschodnią płynie obecnie większość wód Odry, które następnie uchodzą przez Skośnicę do Odry Zachodniej oraz przez Regalicę do jeziora Dąbie i dalej do Odry poprzez kanał.

Wyniki (dla angielskiego) Miary poprawności działania: precision (dokładność) - ułamek wartości wybranych przez program, które są poprawne. recall (pełność) - ułamek poprawnych wartości, które zostały wybrane. F-measure (F-miara) - średnia harmoniczna dokładności i pełności. relation precision recall F-measure capital 86% 56% 68% river mouth 78% 57% 66% population 81% 96% 88%

Przykłady błędów - liczba mieszkańców False negative: It has around 8200 residents and is situated in the Forest Heath district of Suffolk close to the county boundaries of both Norfolk and Cambridgeshire and at the meeting point of the The Fens and the Breckland natural environments. False positives: Its seat is located in the town of Gnesta, with some 5000 inhabitants. In 1880 the population was 50.

Przykłady błędów - relacja bycia ujściem False negative: The Neva River is a river in northwestern Russia flowing from Lake Ladoga through the western part of Leningrad Oblast (historical region of Ingria) to the Neva Bay of the Gulf of Finland. False positive: Waiau River (Southland) is the outflow of Lake Te Anau, flowing from it into Lake Manapouri 10 kilometres to the south, and from there flows south for 70 kilometres before reaching the Foveaux Strait eight kilometres south of Tuatapere.

Przykłady błędów - stolica False negatives: The center was Bitlis, which was called Baghesh. The main town and the site of its municipal council is the city of Nyborg. The administrative center became the city of Vologda. Its administrative seat is in the town of Nykøbing Falster.