Przetwarzanie języka naturalnego (NLP)



Podobne dokumenty
3 grudnia Sieć Semantyczna

Rozszerzenie funkcjonalności systemów wiki w oparciu o wtyczki i Prolog

Semantic Web Internet Semantyczny

Ontologie, czyli o inteligentnych danych

SZTUCZNA INTELIGENCJA Chatboty

Internet Semantyczny i Logika II

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

Internet Semantyczny. Schematy RDF i wnioskowanie

Przetwarzanie języka naturalnego

SZTUCZNA INTELIGENCJA

Internet Semantyczny. Wstęp do OWL 2

Semantic Web. dr inż. Aleksander Smywiński-Pohl. Elektroniczne Przetwarzanie Informacji Konsultacje: czw , pokój 3.211

ROLA INTEROPERACYJNOŚCI W BUDOWIE CYFROWYCH USŁUG PUBLICZNYCH ORAZ W UDOSTĘPNIANIU ZASOBÓW OTWARTYCH DANYCH

Reprezentacja wiedzy ontologie, logiki deskrypcyjne

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012

Stefan Sokołowski SZTUCZNAINTELIGENCJA. Inst. Informatyki UG, Gdańsk, 2009/2010

Neurobook. Inteligentne repozytoria wiedzy. Cezary Dołęga

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

2

Wprowadzenie do teorii systemów ekspertowych

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Internet Semantyczny. Linked Open Data

Uniwersytet Śląski w Katowicach str. 1 Wydział Informatyki i Nauki o Materiałach

Spis treści Informacje podstawowe Predykaty Przykłady Źródła RDF. Marek Prząda. PWSZ w Tarnowie. Tarnów, 6 lutego 2009

Repetytorium z matematyki 3,0 1,0 3,0 3,0. Analiza matematyczna 1 4,0 2,0 4,0 2,0. Analiza matematyczna 2 6,0 2,0 6,0 2,0

Internet Semantyczny i Logika I

RDF Schema (schematy RDF)

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Metody indeksowania dokumentów tekstowych

Internet Semantyczny. Logika opisowa

Kiedy porozmawiamy z telefonem? (A nie przez telefon) Systemy informacyjne Wykład 1.

Sztuczna inteligencja stan wiedzy, perspektywy rozwoju i problemy etyczne. Piotr Bilski Instytut Radioelektroniki i Technik Multimedialnych

Semantic Web. Grzegorz Olędzki. prezentacja w ramach seminarium Protokoły komunikacyjne. luty 2005

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY.

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Efekty kształcenia dla: nazwa kierunku

AUTOMATYKA INFORMATYKA

Metadane. Przykry obowiązek czy przydatny zasób?

POZYSKIWANIE, INTEGRACJA I UDOSTĘPNIANIE INFORMACJI PRZESTRZENNEJ W ERZE BIG DATA

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

Systemy ekspertowe. System ekspertowy wspomagający wybór zestawu komputerowego w oparciu o ontologie i system wnioskujący RacerPro

Lokalizacja Oprogramowania

JAKIEGO RODZAJU NAUKĄ JEST

WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole) MK_1. Analiza matematyczna

Wykład I. Wprowadzenie do baz danych

INSTYTUT NAUK EKONOMICZNYCH I INFORMATYKI Rozkład zajęć, Semestr zimowy, Kierunek INFORMATYKA PONIEDZIAŁEK

Linked Open Data z wykorzystaniem wolnego oprogramowania w gospodarce przestrzennej

Stanusch Technologies S.A. lider w rozwiązaniach opartych o sztuczną inteligencję

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Wykład 2. Relacyjny model danych

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Sztuczna inteligencja - wprowadzenie

Bazy danych TERMINOLOGIA

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

PRZEWODNIK PO PRZEDMIOCIE

Tabela odniesień efektów kierunkowych do efektów obszarowych

O ISTOTNYCH OGRANICZENIACH METODY

MODEL SYSTEMU WIELOAGENTOWEGO KORZYSTAJĄCEGO Z DANYCH SIECI SEMANTYCZNEJ W PROJEKCIE OPEN NATURA 2000

JAK OPTYMALNIE DOBRAĆ ODPOWIEDNIE TECHNOLOGIE INFORMATYCZNE?

UCHWAŁA NR 26/2016. SENATU AKADEMII MARYNARKI WOJENNEJ im. Bohaterów Westerplatte z dnia 02 czerwca 2016 roku

Od metadanych do map wiedzy

ZAŁOŻENIA OGÓLNE. Cele konkursu

1 Programowanie urządzen mobilnych Sztuczna inteligencja i systemy 2 ekspertowe

[1] [2] [3] [4] [5] [6] Wiedza

Informatyka- studia I-go stopnia

Technologie Sieci Semantycznych

World Wide Web? rkijanka

Kraków, 14 marca 2013 r.

Semantyczne podobieństwo stron internetowych

Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej

Jak udostępnić dane PZGiK w sieci? Artur Kapuściński

Zakładane efekty kształcenia dla kierunku Wydział Telekomunikacji, Informatyki i Elektrotechniki

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI ZGODNE Z PROGRAMEM NAUCZANIA JĘZYKA POLSKIEGO SŁOWA NA START W KLASIE VI

2. Tabele w bazach danych

MINIMALNY ZAKRES PROGRAMU STAŻU dla studentów kierunku Informatyka

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Podejście obiektowe - podstawowe pojęcia

Definicja i funkcje Systemów Informacji Geograficznej

Ontologie Wiedza semantyczna Semantic Web Inżynieria ontologii. Zarządzanie wiedzą. Wykład Sieci semantyczne. Joanna Kołodziejczyk.

technologii informacyjnych kształtowanie , procesów informacyjnych kreowanie metod dostosowania odpowiednich do tego celu środków technicznych.

Bazy danych 2. Wykład 1

Programowanie w logice

Kandydaci powinni spełniać warunki określone w Ustawie z dnia 27 lipca 2005 r. Prawo o Szkolnictwie Wyższym ( Dz. U. z 2012 r. poz. 572).

Programowanie komputerów

Informacja w perspektywie obliczeniowej. Informacje, liczby i obliczenia

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

SYSTEM DO GENEROWANIA ONTOLOGII NA PODSTAWIE DIAGRAMÓW UML SYSTEM TO ONTOLOGY GENERATION FROM UML DIAGRAMS

Język RDF. Mikołaj Morzy Agnieszka Ławrynowicz. Instytut Informatyki Poznań, rok akademicki 2013/2014

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Programowanie niskopoziomowe. dr inż. Paweł Pełczyński

System Kancelaris. Zdalny dostęp do danych

Alan M. TURING. Matematyk u progu współczesnej informatyki

PODSTAWY SZTUCZNEJ INTELIGENCJI

Matematyczne Podstawy Informatyki

Transkrypt:

Przetwarzanie języka naturalnego (NLP) NLP jest dziedziną informatyki łączącą zagadnienia sztucznej inteligencji i lingwistyki zajmującą się automatyzacją analizy, rozumienia, tłumaczenia i generowania języka naturalnego. Historia W latach czterdziestych zostały podjęte pierwsze próby automatycznego tłumaczenia tekstu. Jednak algorytmy wówczas stosowane nie były skuteczne. Polegały one na tłumaczeniu słowa po słowie a następnie układać przetłumaczone wyrazy w zdania poprawne gramatycznie. W 1966 powstała ELIZA program symulujący psychoanalityka. Pierwsze próby zbudowania maszyn wydających dźwięki przypominających mowę ludzką były podejmowane już ponad 200lat temu. w 1773 roku stworzono urządzenie, które potrafło generować dźwięki samogłoskowe w 1845 roku Joseph Faber zbudował urządzenie które potrafło śpiewać w 1936 powstała maszyna o nazwie Vocoder w 1950 Frank Cooper zbudował maszynę zdolną do czytania tekstu Metody przetwarzania NLP 1. Przeszukiwanie zdań w celu znalezienia pewnych słów kluczowych na podstawie których zachodzi wnioskowanie. 2. Indeksowane zdań na szereg różnych sposobów. 3. Wnioskowanie oparte na przetwarzaniu wielu parametrów zawartych w bazach wiedzy 4. Dokonywanie analizy semantycznej zdań na specjalną reprezentacje wewnętrzna Konkretne problemy Nie wszystkie języki jednoznacznie określają do jakiego słowa odnosi się przymiotnik. Np. prety litle girls' school Akty mowy bezpośrednie Podaj mi szklankę wody pośrednie - Och! W języku mówionym często akcentujemy dane słowo, co może wpływać na to co chcemy przekazać drugiej osobie.

Nagroda Loebnera Nagroda ufundowana przez Hugha Loebnera w 1990r. dla programisty który zdoła napisać program, który skutecznie przejdzie test Turinga. Główną nagrodą dla programisty, który przedstawi program, który zmyli wszystkich testerów programu jest złoty medal oraz 100 000 USD. Dodatkowo co roku przyznawane jest 2 000 USD i brązowy medal temu programiście, którego program w danym roku jest najlepszy. Zastosowania Przetwarzanie języka naturalnego, zarówno jako przetwarzanie informacji tekstowych, jak i rozpoznawanie i generowanie mowy ma coraz szersze zastosowania: programy i urządzenia przeznaczone dla osób niepełnosprawnych sterowanie urządzeniami za pomocą głosu np. telefonu komórkowego, komputera, tzw. inteligentnego domu aplikacje multmedialne wspomaganie nauki języków obcych rozpoznawanie tekstu występującego na obrazach automatyczne tłumaczenie tekstów pomiędzy językami automatyczne generowanie streszczeń tekstów upraszczanie tekstów rozmowy z komputerem robotyka ALICE (Artfcial Linguastc Internet Computer Entty) nazwa najskuteczniejszego obecnie programu starającego naśladować ludzką konwersację i jednocześnie nazwa projektu mającego na celu stałe doskonalenie modeli matematycznych odpowiedzialnych za 'naturalną' konwersacje. Human: Learn the sun is hot Bot: Ok I will learn that the sun is hot. Human: What is the sun Bot: hot. Human: Learn the sun is hot and yellow Bot: Ok I will learn that the sun is hot and yellow. Human: What is hot and yellow Bot: the sun. RealSpeak Program do syntezy mowy o naturalnym brzmieniu. Program radzi sobie bardzo dobrze z różnymi językami i potraf symulować głosy zarówno kobiece jak i męskie

Internet Semantyczny Informacje ogólne Internet semantyczny jest projektem, który ma przyczynić się do utworzenia i rozpowszechnienia standardów opisywania treści w internecie w taki sposób, aby przesyłane dane mogły być 'rozumiane' także przez maszyny 'Rozumienie' polega na tym, że dane przekazywane są w takiej postaci, w której można powiązać ich znaczenia między sobą, a także w ramach odpowiedniego kontekstu. Do przekazywania informacji w ramach internetu semantycznego same dane nie wystarczają. Niezbędne są także informacje o tych danych, zawierające prawa logiki, które można do nich zastosować oraz informacje dotyczące relacji między danymi. Dzięki temu można by: pogrupować dane w ramach tych samych dziedzin np. strony dotyczące flmów,dziedzin nauki rozróżnić dane, które aktualnie są nierozróżnialne ze względu na identyczny zapis np. zamek budowla?, do zamykania drzwi? Otrzymywać informacje na ich temat, które nie są zawarte 'explicite' np. 'Ewa jest żoną Adama' Ewa jest kobietą, Adam jest mężczyzną, Adam jest mężem Ewy, żaden inny mężczyzna nie jest mężem Ewy. itd Podstawy funkcjonowania internetu semantycznego: Internet semantyczny zbudowany jest na bazie istniejących i wykorzystywanych standardów internetowych, nabudowanych przez kilka kolejnych standardów takich jak: XML, RDF, RDFS i OWL. Kolejne warstwy semantycznego stosu (od dołu): 1. Unicode 2. URI 3. XML i XML Schema 4. RDF i RDF Schema 5. OWL 6. mechanizm wnioskowania 7. mechanizm certyfkacji i zaufania RDF (Resource Descripton Framework) Strukturą każdego wyrażenia w RDF jest zbiór trójek: Zbiór tego typu trójek nazywany jest grafem RDF. Każda trójka mówi nam, że istnieje pewien związek, wskazany przez predykat między naszym podmiotem a obiektem.

RDF Schema (RDFS) Jest językiem reprezentacji wiedzy opartym na RDF, który zawiera jedynie informacje o związkach między dwoma obiektami. RDFS wprowadza pojęcia klasy i podklasy do grafów RDF, co pozwala nam na strukturalne uporządkowanie danych mających cechy wspólne. RDFS tworzy jednocześnie bazę dla języka OWL, który pozwala nam na jeszcze dokładniejszy zapis danych. OWL (Web Ontology Language) Jest standardem pozwalającym na defniowanie klas na podstawie własności danych. W sposób formalny kategoryzuje i hierarchizuje klasy. Przykład: Mamy daną klasę 'Człowiek', w której zbierze posiadamy relacje 'jest mężem' i chcemy określić klasę 'Małżonek'. W języku grafów małżonkiem jest wierzchołek grafu, z którego wychodzi krawędź 'jest mężem', jak i wierzchołek do którego taka krawędź wchodzi. Dodatkowo naszą relację 'jest mężem możemy dokładnie określić. Np: Jest to relacja funkcjonalna i odwrotnie funkcjonalna, która nie jest przechodnia i posiada relację odwrotną. Mechanizmy wnioskowania Język OWL pozwala na defniowanie zależności między danymi, dzięki czemu na przeprowadzić wnioskowanie. Program przeprowadzający wnioskowanie nazywany jest reasonerem. Mechanizmy certyfkacji i zaufania Niestety aktualnie jeszcze w sferze rozważań teoretycznych. Opracowywane mechanizmy mają pozwolić na zestandaryzowanie i rozwiązanie problemów autoryzacji, a także określenia praw, na jakich te zasoby są przesyłane i mogą być udostępniane. Jakie korzyści? Dzięki dobrze określonym strukturom reprezentacji komputer będzie mógł w łatwiejszy oraz bardziej trafny sposób wyszukiwać informacji lub nawet wnioskować w poszukiwaniu nowych faktów i powiązań. Projekty DBpedia projekt który ma na celu wyciąganie danych z Wikipedii i publikowanie ich w formie RDF. Aktualnie DBpedia posiada około 274 miliony grafów RDF, które zostały stworzone na podstawie różnych wersji Wikipedii. Ponadto DBpedia umożliwia odpytywanie Wikipedii jak bazy danych. Np. 'Nazwa polskiego zespołu, który wywodzi się z miasta, w którym jest wyższa uczelnia mająca adres na ulicy Mikołajczyka'

FOAF (Friend of a Friend) jest standardem służącym do opisu danej osoby, opartym na strukturze RDF. Dzięki temu, że jest formatem przetwarzanym przez maszyny istnieje możliwość odwoływania się do innych dokuemntów FOAF (opisu innych osób), co w praktyce tworzy swoistą sieć społecznościową. Hakia eksperymentalna wyszukiwarka internetowa, której głównym atutem jest możliwość udzielania konkretnej odpowiedzi na pytania zadawane językiem naturalnym. Hakia wykorzystuje ontologie budowane na bazie statystyk uzyskanych z analizy stron www. SIOC (Semantcally-Interlinked Online Communites) inicjatywa łączenia społeczności internetowych i zasobów które w nich się znajdują.