Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Podobne dokumenty
Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Ontologie, czyli o inteligentnych danych

Od e-materiałów do e-tutorów

Część II Uwaga: wszystkie wyniki muszą być odzwierciedleniem dołączonej komputerowej realizacji obliczeń.

Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Wymagania edukacyjne z informatyki w klasie IIIa gimnazjum

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Open Access w technologii językowej dla języka polskiego

Program warsztatów CLARIN-PL

Audyt SEO. sklep-budowalny.pl Biuro obsługi: al. Grunwaldzka 2/ Gdańsk

INFORMATYKA POZIOM ROZSZERZONY

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

PRÓBNY EGZAMIN MATURALNY Z INFORMATYKI 2016 ROK

Wymagania edukacyjne na ocenę z informatyki klasa 3

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Katedra Automatyki

INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA.

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA

i działanie urządzeń związanych równieŝ budowę i funkcje urządzeń

ZAŁOŻENIA OGÓLNE. Cele konkursu

WOJSKOWA AKADEMIA TECHNICZNA

Informatyka kl. 1. Semestr I

Dokumentacja Użytkownika Systemu

Narzędzia do automatycznego wydobywania kolokacji

REFERAT O PRACY DYPLOMOWEJ

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

AUTOMATYCZNA KONTEKSTOWA KOREKTA TEKSTÓW Z WYKORZYSTANIEM GRAFU LHG

AUTOMATYCZNA KONTEKSTOWA KOREKTA TEKSTÓW Z WYKORZYSTANIEM GRAFU LHG

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Lokalizacja Oprogramowania

PageRank i HITS. Mikołajczyk Grzegorz

KRÓTKA INSTRUKCJA OBSŁUGI SYSTEMU NEWSÓW. O systemie

Narzędzia do automatycznego wydobywania kolokacji

Wyszukiwanie informacji

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

Opracowanie protokołu komunikacyjnego na potrzeby wymiany informacji w organizacji

Zastosowanie informatyki na lekcjach geografii

Wyszukiwanie informacji

TEST WIEDZY ICT. Diagnoza umiejętności Kandydata/tki z zakresu technologii cyfrowych

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Program modułu multimedialnego mgr Urszula Galant. PROGRAM MODUŁU MULTIMEDIALNEGO DLA UCZNIÓW KLAS IV VI SP im. Szarych Szeregów w Płochocinie

KARTA MONITOROWANIA PODSTAWY PROGRAMOWEJ KSZTAŁCENIA OGÓLNEGO

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

Zdalne monitorowanie i zarządzanie urządzeniami sieciowymi

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Nie święci garnki lepią. czyli wprowadzenie do programowania

Monitorowanie i zarządzanie urządzeniami sieciowymi przy pomocy narzędzi Net-SNMP

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

Spis treści. I. Czym jest Indeks Haseł 3 II. Wyszukiwanie hasła 4. 1) Alfabetyczna lista haseł 4 2) Wyszukiwarka haseł 4 3) Grupy haseł 6

3.1. Na dobry początek

Metody Kompilacji Wykład 3

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Analiza danych tekstowych i języka naturalnego

Projekt interdyscyplinarny chemia-informatyka KIERUNEK PRZEBIEGU REAKCJI I JEJ KINETYKA A ZNAK EFEKTU ENERGETYCZNEGO

- 1 - Liczba godzin. Nr lekcji. Nr punktu w podręczniku. Zagadnienia do realizacji według podstawy programowej (treści nauczania)

Uniwersytet Mikołaja Kopernika w Toruniu Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Instytut Fizyki

Optimizing Programs with Intended Semantics

Część II. Zadanie 3.2. (0 3)

System Korekty Tekstu Polskiego

Webowy generator wykresów wykorzystujący program gnuplot

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH W KLASIE 4 SZKOŁY PODSTAWOWEJ

Część I. Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania. Zadanie 1.1. (0 3)

Poradnik użytkownika systemu BibbyNet. Część III Raporty, export plików, pozostałe

Analiza danych i data mining.

BIBLIOTEKA CYFROWA JAKO KONTENER TREŚCI DLA PORTALI INTERNETOWYCH. DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA.

Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII

Projekt i implementacja systemu wspomagania planowania w języku Prolog

SCENARIUSZ LEKCJI. Czas realizacji. Podstawa programowa

Pozycjonowanie. Co to takiego?

Rozkład materiału informatyki w gimnazjum w Kielnie dla klasy I i II z podziałem na jednostki lekcyjne.

SIECI KOMPUTEROWE I TECHNOLOGIE INTERNETOWE

KOSZALIN 2003 KRAJE UNII EUROPEJSKIEJ W LICZBACH

Stanusch Technologies S.A. lider w rozwiązaniach opartych o sztuczną inteligencję

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Narzędzia IT dla Świętokrzyskiego Systemu Innowacji

Scenariusz lekcji Ozobot w klasie: Tabliczka mnożenia

O higienie pracy, komputerze, sieciach komputerowych i Internecie

Zadania badawcze prowadzone przez Zakład Technik Programowania:

Scenariusz lekcji biologii z wykorzystaniem metody CILIL Lekcja dla klasy IV technikum o rozszerzonym zakresie kształcenia

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Referat pracy dyplomowej

Dokument Detaliczny Projektu Temat: Księgarnia On-line Bukstor

ZAJĘCIA KOMPUTEROWE Klasa czwarta

Wybrane wymagania dla informatyki w gimnazjum i liceum z podstawy programowej

Uczeń otrzymuje ocenę z przedmiotu uzależnioną od opanowania przez niego wymagań edukacyjnych na określonym poziomie.

Przedmiotowy system oceniania z informatyki klasa 7 1. Ogólne zasady oceniania uczniów

Automatyka i Robotyka, V rok. promotor: dr Adrian Horzyk. Kraków, 3 czerwca System automatycznego rozpoznawania

WYSZUKIWANIE INFORMACJI W INTERNECIE

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

System Korekty Tekstu Polskiego

Wymagania edukacyjne i sposoby sprawdzania edukacyjnych osiągnięć uczniów z informatyki

Transkrypt:

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk

Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot internetowy 3.2. Diagramy LHG 3.3. Algorytm ekstrakcji informacji 4. Prezentacja wyniku 4.1. Prezentacja aplikacji 4.2. Prezentacja definicji hasła komputer kwantowy 5. Wnioski 6. Podsumowanie

Wstęp Powstanie i dynamiczny rozwój Internetu w XX wieku oraz wszechobecna komputeryzacja przyspieszyły rozwój społeczeństwa informacyjnego, w którym głównym towarem mającym największą wartość jest informacja. Człowiek uzyskał dostęp do narzędzi, za pomocą których może szybko pozyskiwać nowe informacje, selekcjonować je, analizować, przetwarzać, zarządzać nimi oraz przekazywać je innym ludziom na bardzo duże odległości w bardzo krótkim czasie. Ogromna ilość informacji zgromadzonych w Internecie spowodowała konieczność stworzenia wyszukiwarek, które umożliwiają dostęp do pewnych stron, bez znajomości ich adresów, na podstawie wprowadzonej kwerendy. Ciągle jednak prowadzone są badania nad szybszymi sposobami dostępu do informacji, uzyskanymi z sieci Internet.

Cele pracy Celem pracy było skonstruowanie systemu posiadającego wyspecjalizowany algorytm ekstrakcji informacji z tekstu, w celu stworzenia definicji dowolnego znaczenia. Założenia: Budowa uniwersalnego systemu, działającego dla każdego znaczenia, o którym można znaleźć informacje w Internecie. System powinien samodzielnie pobierać z Internetu teksty, zawierające istotne dane na temat definiowanego hasła, w postaci ciągów wyrazów i na ich podstawie budować definicję. Praca wykonywana dla języka polskiego.

Rozwiązanie - schemat działania algorytmu Zasoby internetowe Robot internetowy Definicja Graf LHG

Robot internetowy Roboty internetowe, zwane także pająkami internetowymi, stanowią podstawowy element działania wszystkich współczesnych wyszukiwarek. Przechodzą one po stronach internetowych, zbierając informacje. Kiedy napotkają nową stronę, której jeszcze nie zindeksowały, najczęściej pobierają jej treść bez obrazków oraz zapisują znalezione odnośniki i przechodzą do analizy kolejnych stron. Roboty internetowe spełniają różne funkcje. Najczęściej wykorzystuje się je do: wyszukiwania nowych stron internetowych dla wyszukiwarek, analizy kodu strony, gromadzenia informacji o stronach, analizy zmian zachodzących na stronach.

Robot internetowy algorytm działania

Pozyskiwanie informacji z Internetu Głównym zadaniem pająka internetowego było wyszukiwanie zdań zawierających definiowaną frazę w dowolnej formie fleksyjnej, ze stron pod odnośnikami zwróconymi przez wyszukiwarkę google.com oraz zapisywanie ich na diagramie LHG. Problemy: Wyszukiwanie tekstów zawierających definiowane hasło w dowolnej formie fleksyjnej, wygenerowanej za pomocą biblioteki lingwistycznej CLP, z której skorzystano dzięki uprzejmości p. dr inż Marka Gajęckiego z krakowskiej Grupy Lingwistyki Komputerowej i opracowanej przez zakład prof dr hab. Wiesława Lubaszewskiego. Ekstrakcja zdań. Wykorzystany został specjalnie skonstruowany mechanizm, zabezpieczający przed pomieszaniem słów, po usunięciu znaczników HTML. Zapisywanie wyszukanych ciągów słów na diagramie LHG.

Grafy Przyzwyczajeń Lingwistycznych (LHG) Grafy LHG są uproszczoną wersją Grafów Lingwistycznych Neuroasocjacji Semantycznych (GLAS), które zostały zaprojektowane przez promotora pracy dra Adriana Horzyka. Najważniejszą cechą grafów LHG jest utrzymywanie kontekstu całej wypowiedzi. Bardzo ważną część grafu stanowią krawędzie, które powstają w wyniku parsowania zdań. Stanowią one odzwierciedlenie połączeń, jakie mogą występować pomiędzy słowami i są one nazywane asocjacjami. Węzłami na grafie LHG są słowa. Każda forma fleksyjna może wystąpić tylko jeden raz. Grafy LHG gromadzą informacje ilościowe, dotyczące częstość występowania słów i asocjacji.

Fragment grafu LHG dla hasła systemy wizyjne

Ekstrakcja informacji Proces ten ma na celu wyszukanie ciągów słów w postaci fraz, na podstawie danych ilościowych zgromadzonych na diagramie LHG. Zaproponowany algorytm analizuje kolejno częstość występowania asocjacji w sąsiedztwie definiowanego hasła i tworzy z nich ciągi słów. Wykorzystana została wyszukiwarka google.com do sprawdzenia popularności występowania całej frazy w Internecie i na bazie uzyskanego wyniku, odrzucane są te najmniej popularne. Uzyskane frazy są analizowane i wyszukiwane są przymiotniki, czasowniki i rzeczowniki, które służą do budowy definicji.

Prezentacja aplikacji

Prezentacja wyniku Definicja w postaci listy słów z uzasadnieniem w postaci wyszukanych fraz, najpopularniejszych dla danego słowa. Definicja została podzielona na cztery grupy: przymiotniki opisujące definiowane hasło, czasowniki będące orzeczeniami dla podmiotu będącego definiowanym hasłem, czasowniki nie będące orzeczeniami dla podmiotu będącego definiowanym hasłem, rzeczowniki związane z definiowanym hasłem.

Prezentacja wyniku

Wnioski Zastosowane podejście wykorzystujące dane ilościowe dało bardzo obszerne i dobrze dopasowane do definiowanego hasła wyniki. W niektórych wypadkach wyszukane frazy były błędnie lub obcięte. Wiąże się to z tym, że połączenia pomiędzy kolejnymi słowami były już za mało popularne, aby algorytm dodał kolejne słowo z budowanej frazy. Czasami wynikało to z błędnych danych pobranych z Internetu. Ilość fraz pobranych przez robota, zależy od popularności danego hasła w Internecie. Jeżeli robot wyszuka więcej fraz w Internecie, to powstała definicja jest ostatecznie bardziej rozbudowana. Zbudowane w ramach pracy definicje pokazały, że dane statystyczne pozwalają na wyszukanie najważniejszych informacji związanych z danym hasłem.

Podsumowanie Zaprezentowany algorytm, jest dopiero jedną z pierwszych prób rozwiązania zagadnienia automatycznego generowania definicji pewnych pojęć, podjętą pod nadzorem promotora pracy dra Adriana Horzyka. Problem jest bardzo ciekawy, ale i kłopotliwy, z racji na swoją specyfikę. Zmiany wprowadzane w algorytmie, wymagają często wielu testów dla różnych parametrów, a to powoduje, że są one bardzo czasochłonne. Potrzeba jeszcze dużo czasu, aby dokładnie przeanalizować i wypróbować w praktyce nowe podejścia i pomysły. Problematyczne okazało się być wyszukiwanie pełnych zdań, które opisują dane znaczenie. Sam problem ekstrakcji pełnych zdań z Internetu, dostarcza sporo kłopotów. Do tego, nie zawsze mamy pewność, że całe zdanie opisuje definiowane pojęcie. Należy tutaj podkreślić fakt, że badania nad tym zagadnieniem dla języka polskiego, są bardzo potrzebne. Jeżeli sami nie będziemy rozwijać tej dziedziny, to zostaniemy w tyle za innymi krajami.

Dziękuję za uwagę!