6.11.2012
Wikipedia i DBPedia Wikipedia - przydatny zasób, jeśli chcemy dowiedzieć się czegoś o konkretnym obiekcie. Ale nie pozwala na zadawanie zapytań, odpowiedzenie na które wymaga skorzystania z wiedzy zawartej w więcej niż jednym artykule. Przykład: wszystkie interesujące miejsca w promieniu od ustalonego miejsca. Wikipedia zawiera informacje geolokalizacyjne, ale nie możemy zadać takiego zapytania. Rozwiązanie - DBPedia - baza wiedzy, która powstaje automatycznie na podstawie Wikipedii (głównie infoboxów).
DBPedia - zapytanie SPARQL PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> SELECT?res min((bif:st_distance(?geo,?bb_geo))) as?dist WHERE { <http://dbpedia.org/resource/warsaw> geo:geometry?bb_geo.?res geo:geometry?geo. FILTER (bif:st_intersects(?geo,?bb_geo, 5)) } ORDER BY?dist
Postawienie problemu Wiele artykułów z Wikipedii nie zawiera infoboxów. Istniejące infoboxy są często niekompletne. Dlatego DBPedia zawiera jedynie ułamek informacji, jakie są zawarte w Wikipedii. Celem jest rozszerzanie DBPedii poprzez ekstrakcję informacji z tekstu Wikipedii. Przykład działania: Nason, Illinois. Polska i angielska DBPedia.
Uczenie ze słabym nadzorem Uczenie z nadzorem - dane treningowe są poprawnie oznaczone. Uczenie bez nadzoru - dane treningowe są nieoznaczone. Uczenie ze słabym nadzorem (ang. distant/weak supervision learning): Dane treningowe są tworzone przy użyciu bazy wiedzy (np. DBPedii) - wyszukiwane są wystąpienia wartości z bazy wiedzy w nieoznaczonym tekście. Zakładamy, że zdanie w artykule o obiekcie, które wymienia nazwę wartości, która jest w relacji z obiektem z dużym prawdopodobieństwem wyraża tę relację. Dla niektórych relacji powyższe założenie jest zbyt silne. Drobne usprawnienie: jeżeli w artykule jest wiele zdań, które odnoszą się do wartości z DBPedii, do danych treningowych dołączane są wyłącznie te, które zawierają też odniesienie do nazwy predykatu.
Algorytm uczenia - szczegóły Dla każdej relacji trenowane są dwa modele: Klasyfikator zdań - przewiduje, czy dane zdanie wyraża relację. Klasyfikator reprezentuje zdania jako wektory wystąpień form bazowych słów. Ekstraktor wartości - ze zdań pozytywnie sklasyfikowanych przez klasyfikator zdań wybiera wartość, która jest w relacji.
Ewaluacja (dla angielskiego) Ewaluacja programu na 3 relacjach (atrybutach): population, capital, river mouth. Modele były wytrenowane na od kilkuset do kilkudziesięciu tysięcy zdań. Dla każdej relacji wylosowałem 50 obiektów geograficznych, które miały zdefiniowany atrybut w DBPedii. Dla każdego artykułu o obiekcie, ręcznie sprawdziłem jakie wartości atrybutów były wyrażone w tekście.
Ewaluacja - uwagi Ręczne oznaczanie, jakie wartości są wyrażone w tekście, okazało się być mniej oczywiste niż się spodziewałem. Przykład: In 1880 the population was 50. Przykład (relacja bycia ujściem): Przez Odrę Wschodnią płynie obecnie większość wód Odry, które następnie uchodzą przez Skośnicę do Odry Zachodniej oraz przez Regalicę do jeziora Dąbie i dalej do Odry poprzez kanał.
Wyniki (dla angielskiego) Miary poprawności działania: precision (dokładność) - ułamek wartości wybranych przez program, które są poprawne. recall (pełność) - ułamek poprawnych wartości, które zostały wybrane. F-measure (F-miara) - średnia harmoniczna dokładności i pełności. relation precision recall F-measure capital 86% 56% 68% river mouth 78% 57% 66% population 81% 96% 88%
Przykłady błędów - liczba mieszkańców False negative: It has around 8200 residents and is situated in the Forest Heath district of Suffolk close to the county boundaries of both Norfolk and Cambridgeshire and at the meeting point of the The Fens and the Breckland natural environments. False positives: Its seat is located in the town of Gnesta, with some 5000 inhabitants. In 1880 the population was 50.
Przykłady błędów - relacja bycia ujściem False negative: The Neva River is a river in northwestern Russia flowing from Lake Ladoga through the western part of Leningrad Oblast (historical region of Ingria) to the Neva Bay of the Gulf of Finland. False positive: Waiau River (Southland) is the outflow of Lake Te Anau, flowing from it into Lake Manapouri 10 kilometres to the south, and from there flows south for 70 kilometres before reaching the Foveaux Strait eight kilometres south of Tuatapere.
Przykłady błędów - stolica False negatives: The center was Bitlis, which was called Baghesh. The main town and the site of its municipal council is the city of Nyborg. The administrative center became the city of Vologda. Its administrative seat is in the town of Nykøbing Falster.