Przetwarzanie języka naturalnego (NLP)

Przetwarzanie języka naturalnego (NLP) NLP jest dziedziną informatyki łączącą zagadnienia sztucznej inteligencji i lingwistyki zajmującą się automatyzacją analizy, rozumienia, tłumaczenia i generowania języka naturalnego. Historia W latach czterdziestych zostały podjęte pierwsze próby automatycznego tłumaczenia tekstu. Jednak algorytmy wówczas stosowane nie były skuteczne. Polegały one na tłumaczeniu słowa po słowie a następnie układać przetłumaczone wyrazy w zdania poprawne gramatycznie. W 1966 powstała ELIZA program symulujący psychoanalityka. Pierwsze próby zbudowania maszyn wydających dźwięki przypominających mowę ludzką były podejmowane już ponad 200lat temu. w 1773 roku stworzono urządzenie, które potrafło generować dźwięki samogłoskowe w 1845 roku Joseph Faber zbudował urządzenie które potrafło śpiewać w 1936 powstała maszyna o nazwie Vocoder w 1950 Frank Cooper zbudował maszynę zdolną do czytania tekstu Metody przetwarzania NLP 1. Przeszukiwanie zdań w celu znalezienia pewnych słów kluczowych na podstawie których zachodzi wnioskowanie. 2. Indeksowane zdań na szereg różnych sposobów. 3. Wnioskowanie oparte na przetwarzaniu wielu parametrów zawartych w bazach wiedzy 4. Dokonywanie analizy semantycznej zdań na specjalną reprezentacje wewnętrzna Konkretne problemy Nie wszystkie języki jednoznacznie określają do jakiego słowa odnosi się przymiotnik. Np. prety litle girls' school Akty mowy bezpośrednie Podaj mi szklankę wody pośrednie - Och! W języku mówionym często akcentujemy dane słowo, co może wpływać na to co chcemy przekazać drugiej osobie.

Nagroda Loebnera Nagroda ufundowana przez Hugha Loebnera w 1990r. dla programisty który zdoła napisać program, który skutecznie przejdzie test Turinga. Główną nagrodą dla programisty, który przedstawi program, który zmyli wszystkich testerów programu jest złoty medal oraz 100 000 USD. Dodatkowo co roku przyznawane jest 2 000 USD i brązowy medal temu programiście, którego program w danym roku jest najlepszy. Zastosowania Przetwarzanie języka naturalnego, zarówno jako przetwarzanie informacji tekstowych, jak i rozpoznawanie i generowanie mowy ma coraz szersze zastosowania: programy i urządzenia przeznaczone dla osób niepełnosprawnych sterowanie urządzeniami za pomocą głosu np. telefonu komórkowego, komputera, tzw. inteligentnego domu aplikacje multmedialne wspomaganie nauki języków obcych rozpoznawanie tekstu występującego na obrazach automatyczne tłumaczenie tekstów pomiędzy językami automatyczne generowanie streszczeń tekstów upraszczanie tekstów rozmowy z komputerem robotyka ALICE (Artfcial Linguastc Internet Computer Entty) nazwa najskuteczniejszego obecnie programu starającego naśladować ludzką konwersację i jednocześnie nazwa projektu mającego na celu stałe doskonalenie modeli matematycznych odpowiedzialnych za 'naturalną' konwersacje. Human: Learn the sun is hot Bot: Ok I will learn that the sun is hot. Human: What is the sun Bot: hot. Human: Learn the sun is hot and yellow Bot: Ok I will learn that the sun is hot and yellow. Human: What is hot and yellow Bot: the sun. RealSpeak Program do syntezy mowy o naturalnym brzmieniu. Program radzi sobie bardzo dobrze z różnymi językami i potraf symulować głosy zarówno kobiece jak i męskie

Internet Semantyczny Informacje ogólne Internet semantyczny jest projektem, który ma przyczynić się do utworzenia i rozpowszechnienia standardów opisywania treści w internecie w taki sposób, aby przesyłane dane mogły być 'rozumiane' także przez maszyny 'Rozumienie' polega na tym, że dane przekazywane są w takiej postaci, w której można powiązać ich znaczenia między sobą, a także w ramach odpowiedniego kontekstu. Do przekazywania informacji w ramach internetu semantycznego same dane nie wystarczają. Niezbędne są także informacje o tych danych, zawierające prawa logiki, które można do nich zastosować oraz informacje dotyczące relacji między danymi. Dzięki temu można by: pogrupować dane w ramach tych samych dziedzin np. strony dotyczące flmów,dziedzin nauki rozróżnić dane, które aktualnie są nierozróżnialne ze względu na identyczny zapis np. zamek budowla?, do zamykania drzwi? Otrzymywać informacje na ich temat, które nie są zawarte 'explicite' np. 'Ewa jest żoną Adama' Ewa jest kobietą, Adam jest mężczyzną, Adam jest mężem Ewy, żaden inny mężczyzna nie jest mężem Ewy. itd Podstawy funkcjonowania internetu semantycznego: Internet semantyczny zbudowany jest na bazie istniejących i wykorzystywanych standardów internetowych, nabudowanych przez kilka kolejnych standardów takich jak: XML, RDF, RDFS i OWL. Kolejne warstwy semantycznego stosu (od dołu): 1. Unicode 2. URI 3. XML i XML Schema 4. RDF i RDF Schema 5. OWL 6. mechanizm wnioskowania 7. mechanizm certyfkacji i zaufania RDF (Resource Descripton Framework) Strukturą każdego wyrażenia w RDF jest zbiór trójek: Zbiór tego typu trójek nazywany jest grafem RDF. Każda trójka mówi nam, że istnieje pewien związek, wskazany przez predykat między naszym podmiotem a obiektem.

RDF Schema (RDFS) Jest językiem reprezentacji wiedzy opartym na RDF, który zawiera jedynie informacje o związkach między dwoma obiektami. RDFS wprowadza pojęcia klasy i podklasy do grafów RDF, co pozwala nam na strukturalne uporządkowanie danych mających cechy wspólne. RDFS tworzy jednocześnie bazę dla języka OWL, który pozwala nam na jeszcze dokładniejszy zapis danych. OWL (Web Ontology Language) Jest standardem pozwalającym na defniowanie klas na podstawie własności danych. W sposób formalny kategoryzuje i hierarchizuje klasy. Przykład: Mamy daną klasę 'Człowiek', w której zbierze posiadamy relacje 'jest mężem' i chcemy określić klasę 'Małżonek'. W języku grafów małżonkiem jest wierzchołek grafu, z którego wychodzi krawędź 'jest mężem', jak i wierzchołek do którego taka krawędź wchodzi. Dodatkowo naszą relację 'jest mężem możemy dokładnie określić. Np: Jest to relacja funkcjonalna i odwrotnie funkcjonalna, która nie jest przechodnia i posiada relację odwrotną. Mechanizmy wnioskowania Język OWL pozwala na defniowanie zależności między danymi, dzięki czemu na przeprowadzić wnioskowanie. Program przeprowadzający wnioskowanie nazywany jest reasonerem. Mechanizmy certyfkacji i zaufania Niestety aktualnie jeszcze w sferze rozważań teoretycznych. Opracowywane mechanizmy mają pozwolić na zestandaryzowanie i rozwiązanie problemów autoryzacji, a także określenia praw, na jakich te zasoby są przesyłane i mogą być udostępniane. Jakie korzyści? Dzięki dobrze określonym strukturom reprezentacji komputer będzie mógł w łatwiejszy oraz bardziej trafny sposób wyszukiwać informacji lub nawet wnioskować w poszukiwaniu nowych faktów i powiązań. Projekty DBpedia projekt który ma na celu wyciąganie danych z Wikipedii i publikowanie ich w formie RDF. Aktualnie DBpedia posiada około 274 miliony grafów RDF, które zostały stworzone na podstawie różnych wersji Wikipedii. Ponadto DBpedia umożliwia odpytywanie Wikipedii jak bazy danych. Np. 'Nazwa polskiego zespołu, który wywodzi się z miasta, w którym jest wyższa uczelnia mająca adres na ulicy Mikołajczyka'

FOAF (Friend of a Friend) jest standardem służącym do opisu danej osoby, opartym na strukturze RDF. Dzięki temu, że jest formatem przetwarzanym przez maszyny istnieje możliwość odwoływania się do innych dokuemntów FOAF (opisu innych osób), co w praktyce tworzy swoistą sieć społecznościową. Hakia eksperymentalna wyszukiwarka internetowa, której głównym atutem jest możliwość udzielania konkretnej odpowiedzi na pytania zadawane językiem naturalnym. Hakia wykorzystuje ontologie budowane na bazie statystyk uzyskanych z analizy stron www. SIOC (Semantcally-Interlinked Online Communites) inicjatywa łączenia społeczności internetowych i zasobów które w nich się znajdują.