Projektowanie systemów z dostępem w języku naturalnym - wprowadzenie

Podobne dokumenty
Przetwarzanie języka naturalnego

Dariusz Banasiak. Instytut Informatyki, Automatyki i Robotyki. Politechniki Wrocławskiej

Sztuczna inteligencja - wprowadzenie

Wprowadzenie do teorii systemów ekspertowych

Open Access w technologii językowej dla języka polskiego

Elementy kognitywistyki II: Sztuczna inteligencja

PRZEWODNIK PO PRZEDMIOCIE

JĘZYK ANGIELSKI POZIOM PODSTAWOWY

Opisy efektów kształcenia dla modułu

Programowanie komputerów

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD IX: Agent przetwarza język naturalny

TEORIA CZASU FUTURE SIMPLE, PRESENT SIMPLE I CONTINOUS ODNOSZĄCYCH SIĘ DO PRZYSZŁOŚCI ORAZ WYRAŻEŃ BE GOING TO ORAZ BE TO DO SOMETHING

EGZAMIN MATURALNY 2011 JĘZYK ANGIELSKI

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

SZTUCZNA INTELIGENCJA

Kraków, 14 marca 2013 r.

Logika dla socjologów Część 2: Przedmiot logiki

HARMONOGRAM I PROGRAM SZKOLENIA - ICT. 96 godzin Podstawy pracy z komputerem. Informacje ogólne. 6

HARMONOGRAM I PROGRAM SZKOLENIA - ICT. MIEJSCE ZAJĘĆ (adres): ul. Tomaszowska 5, Nowe Miasto. 96 godzin

HARMONOGRAM I PROGRAM SZKOLENIA - ICT. GRUPA: 18 MIEJSCE ZAJĘĆ (adres): ul. Chełmska 19/21, Warszawa, Sala godzin

HARMONOGRAM I PROGRAM SZKOLENIA - ICT. 96 godzin Podstawy pracy z komputerem. Informacje ogólne. 6

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

RPMA /17

Stefan Sokołowski SZTUCZNAINTELIGENCJA. Inst. Informatyki UG, Gdańsk, 2009/2010

Ontologie, czyli o inteligentnych danych

KLUCZ PUNKTOWANIA ZADAŃ

KIERUNKOWE EFEKTY KSZTAŁCENIA

Sztuczna inteligencja

DODATKOWE ĆWICZENIA EGZAMINACYJNE

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

[LEKCJA 1. W RESTAURACJI]

INSTRUKCJE JAK AKTYWOWAĆ SWOJE KONTO PAYLUTION

Grafika i Systemy Multimedialne (IGM)

KIERUNKOWE EFEKTY KSZTAŁCENIA

Zestawienie czasów angielskich

EGZAMIN MATURALNY 2012 JĘZYK ANGIELSKI

Repetytorium z matematyki 3,0 1,0 3,0 3,0. Analiza matematyczna 1 4,0 2,0 4,0 2,0. Analiza matematyczna 2 6,0 2,0 6,0 2,0

Z punktu widzenia kognitywisty: język naturalny

Matryca pokrycia efektów kształcenia. Efekty kształcenia w zakresie wiedzy (cz. I)

AUTOMATYKA INFORMATYKA

Informatyka Studia II stopnia

JĘZYK ANGIELSKI KARTA ROZWIĄZAŃ ZADAŃ 6., 7. i 8.

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW INFORMATYKA

JĘZYK ANGIELSKI KL. IV. Wymagania edukacyjne obowiązujące ucznia

Informatyczne fundamenty

96 godzin Podstawy pracy z komputerem. Informacje ogólne Podstawy pracy w sieci cz.1.

96 godzin Podstawy pracy z komputerem. Informacje ogólne Podstawy pracy w sieci cz.1.

Lekcja 1 Przedstawianie się

96 godzin Podstawy pracy z komputerem. Informacje ogólne Podstawy pracy w sieci cz.1.

KARTA PRZEDMIOTU. M2/2/7 w języku polskim Gramatyka opisowa 2 w języku angielskim Descriptive grammar 2 USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW

UNIWERSYTET ŚLĄSKI W KATOWICACH

WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole) MK_1. Analiza matematyczna

WEWNĄTRZSZKOLNE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III

WIELODOSTĘPNE SYSTEMY OPERACYJNE 1 (SO1)

SYLABUS/KARTA PRZEDMIOTU

Informatyka w medycynie Punkt widzenia kardiologa

Zakład Inżynierii Transportu Lotniczego

Lokalizacja Oprogramowania

PROGRAM NAUCZANIA NA KIERUNKU STUDIÓW WYŻSZYCH: KULTUROZNAWSTWO SPECJALNOŚĆ: ELEKTRONICZNE PRZETWARZANIE INFORMACJI STUDIA STACJONARNE I STOPNIA

KIERUNKOWE EFEKTY KSZTAŁCENIA

Plany studiów na rok akademicki Etnolingwistyka

Angielski bezpłatne ćwiczenia - gramatyka i słownictwo. Ćwiczenie 6

[1] [2] [3] [4] [5] [6] Wiedza

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

Wymagania edukacyjne z j. angielskiego na rok szkolny 2013/2014 klasa 1 szkoła podstawowa

Angielski bezpłatne ćwiczenia - gramatyka i słownictwo. Ćwiczenie 8

PROGRAM NAUCZANIA NA KIERUNKU STUDIÓW WYŻSZYCH: KULTUROZNAWSTWO SPECJALNOŚĆ: ELEKTRONICZNE PRZETWARZANIE INFORMACJI STUDIA NIESTACJONARNE I STOPNIA

FORMULARZ REKLAMACJI Complaint Form

Elementy kognitywistyki III: Modele i architektury poznawcze

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Elementy kognitywistyki III: Modele i architektury poznawcze

MODEL ODPOWIEDZI ARKUSZ I. Zadanie 1. Za każde poprawne rozwiązanie przyznajemy 1 punkt. Maksimum 6 punktów.

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

Co to jest Komunikacja-Człowiek Komputer? Wojciech Jaśkowski (niektóre slajdy: J. Jelonek)

ZASADY OCENIANIA WEWNĄTRZSZKOLNEGO Z JĘZYKA ANGIELSKIEGO W KLASACH I-III

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

2/4. informatyka" studia I stopnia. Nazwa kierunku studiów i kod. Informatyka WM-I-N-1 programu wg USOS. Tytuł zawodowy uzyskiwany przez

Program Poprawy Efektów Kształcenia na lata Szkoła Podstawowa im. Jana Brzechwy w Osolinie

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Lektorat języka angielskiego. 2. KIERUNEK: Turystyka i rekreacja. 3. POZIOM STUDIÓW: I stopnia

Kierunek: Informatyka Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne. Wykład Ćwiczenia

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

Zajęcia z języka angielskiego TELC Gimnazjum Scenariusz lekcji Prowadzący: Jarosław Gołębiewski Temat: Czas Present Perfect - wprowadzenie

Podsumowanie wyników ankiety

Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach PROGRAM KSZTAŁCENIA. Studia III stopnia (doktoranckie) kierunek Informatyka

Podróże Ogólne. Ogólne - Niezbędnik. Ogólne - Rozmowa. Can you help me, please? Proszenie o pomoc

PRZEWODNIK PO PRZEDMIOCIE

Lekcja 10 Podróżowanie

Lesson 1. Book 1. Lesson 1

Bardzo formalny, odbiorca posiada specjalny tytuł, który jest używany zamiast nazwiska

Błędów popełnianych przez Polaków w języku angielskim

Polska Szkoła Weekendowa, Arklow, Co. Wicklow KWESTIONRIUSZ OSOBOWY DZIECKA CHILD RECORD FORM

Rozmowa kwalifikacyjna z pracodawcą po angielsku str. 4 Anna Piekarczyk. Od Wydawcy

INFORMATYKA PLAN STUDIÓW NIESTACJONARNYCH. Podstawy programowania Systemy operacyjne

Językoznawstwo transformacyjnogeneratywne

Jerzy Nawrocki, Wprowadzenie do informatyki

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW NAUCZANIE MATEMATYKI I INFORMATYKI

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Podróże Ogólne. Ogólne - Niezbędnik. Ogólne - Rozmowa. Możesz mi pomóc? [form.:] Może Pan(i) mi pomóc? Proszenie o pomoc

Transkrypt:

Projektowanie systemów z dostępem w języku naturalnym - wprowadzenie Dariusz Banasiak Katedra Informatyki Technicznej W4/K9 Politechnika Wrocławska

Kontakt: dr inż. Dariusz Banasiak, pok. 306 C-3 e-mail: dariusz.banasiak@pwr.edu.pl www: http://staff.iiar.pwr.wroc.pl/dariusz.banasiak http://dariusz.banasiak.staff.iiar.pwr.wroc.pl Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 2

Projektowanie systemów z dostępem w języku naturalnym (INEU00215WP) - wykład (30 godz.) - projekt (15 godz.) Zaliczenie: - wykład (kolokwium) - projekt (wykonanie programu rozwiązującego wybrany problem) Ocena końcowa = 50% wykład + 50% projekt Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 3

Cel przedmiotu: Kurs obejmuje przegląd metod i narzędzi umożliwiających komunikację z komputerem za pomocą języka naturalnego. Szczególną uwagę zwrócono na wykorzystanie metod przetwarzania języka naturalnego do tworzenia zaawansowanych systemów informatycznych. W ramach kursu rozpatrywane są zagadnienia: - rozpoznawania mowy, - analizy syntaktycznej i semantycznej języka naturalnego, - inteligentne przetwarzanie dokumentów tekstowych np. wyszukiwanie informacji, klasyfikacja dokumentów, - tworzenie systemów dialogowych, - automatyczne tłumaczenie. Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 4

Plan wykładu: 1. Podstawowe definicje (AI, NLP, HCI). Klasyfikacja i struktura systemów NLP. Podstawowe problemy przetwarzania języka naturalnego. Przykłady zastosowań. 2. Analiza mowy parametry opisu sygnału mowy, wybrane metody klasyfikacji. 3. Zastosowanie ukrytych modeli Markowa do rozpoznawania mowy. Biblioteka HTK. 4. Wstęp do przetwarzania tekstów w języku naturalnym (określanie granic zdań, segmentacja, analiza morfologiczna). 5. Pojęcie gramatyki. Wybrane metody analizy syntaktycznej (gramatyka bezkontekstowa, gramatyka łączeń). 6. Analiza syntaktyczna języka polskiego. Formalny opis składni języka polskiego. Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 5

Plan wykładu (c.d): 7. Analiza semantyczna zdania (gramatyka przypadków, teoria CD). 8. Elektroniczne zasoby językowe (korpusy tekstów, słowniki). 9. Automatyczna analiza tekstów (klasyfikacja, ekstrakcja informacji, streszczanie). 10.Strategie prowadzenia dialogu użytkownik komputer. Narzędzia do tworzenia chatterbotów. 11.Rozpoznanie semantyki poleceń w języku naturalnym. 12.Tłumaczenie maszynowe. 13.Przykłady systemów z dostępem w języku naturalnym. 14.Kolokwium Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 6

Literatura: 1. D. Jurafsky, J. Martin Speech and Language Processing, Prentice Hall, 2000 2. A. Mykowiecka Inżynieria lingwistyczna. Komputerowe przetwarzanie tekstów w języku naturalnym, Wydawnictwo PJWSTK, 2007 3. Z. Vetulani Komunikacja człowieka z maszyną. Komputerowe modelowanie kompetencji językowej, Exit, 2004 4. A. Przepiórkowski Powierzchniowe przetwarzanie języka polskiego", Exit, 2008 5. S. Russell, P. Norvig Artificial Intelligence: A Modern Approach", Prentice Hall, 2003 Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 7

Definicja sztucznej inteligencji: Sztuczna inteligencja to kierunek badań na styku informatyki, neurologii i psychologii. Jego zadaniem jest konstruowanie urządzeń i oprogramowania zdolnego rozwiązywać w oparciu o modelowanie wiedzy problemy nie poddające się algorytmizacji w sposób efektywny. Celem sztucznej inteligencji jest projektowanie inteligentnych systemów, to znaczy systemów wykazujących cechy podobne do cech inteligentnego działania człowieka: rozwiązywania problemów, uczenia się, rozumienia języka, rozumowania, itp. Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 8

Inne definicje: AI to nauka mająca za zadanie nauczyć maszyny zachowań podobnych do ludzkich. AI to nauka o tym, jak nauczyć maszyny robić rzeczy które obecnie ludzie robią lepiej. AI to nauka o komputerowych modelach wiedzy umożliwiających rozumienie, wnioskowanie i działanie. Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 9

Przetwarzanie języka naturalnego (NLP) Głównym celem prac prowadzonych w tej dziedzinie jest opracowanie modeli opisujących strukturę języka oraz poznanie mechanizmów rozumienia i formułowania wypowiedzi. Zrozumienie zasad budowy i posługiwania się językiem naturalnym możliwe jest dzięki wspólnym wysiłkom badaczy z wielu dyscyplin naukowych: lingwistyki, logiki, filozofii, psychologii, neurofizjologii oraz informatyki. Definicja NLP: NLP to dział AI zajmujący się poszukiwaniem metod formalnego opisu języka naturalnego oraz reprezentacji wiedzy zawartej w tekstach. Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 10

Początki zainteresowania przetwarzaniem języka naturalnego związane są z problemem automatycznego tłumaczenia tekstów z jednego języka na inny. Na przełomie lat 40 i 50 dwa czynniki były przyczyną zainteresowania się powyższą tematyką: poszukiwanie zastosowań komputerów do celów pokojowych osiągnięcia związane z rozkodowaniem szyfrowanych informacji. Pierwszy projekt badawczy dotyczący automatycznego tłumaczenia tekstów rozpoczęto w roku 1946 w Birkbeck College w Londynie. Systemy NLP możemy podzielić na dwie kategorie: systemy ułatwiające korzystanie z innych programów, systemy służące do wykonywania pewnych operacji na tekstach w języku naturalnym. Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 11

Zastosowania systemów NLP można podzielić na następujące kategorie: rozpoznawanie (rozumienie) i synteza mowy interfejsy w języku naturalnym (HCI z ang. human - computer interfaces) rozumienie i generowanie tekstów, prowadzenie dialogu (np. inteligentne wyszukiwanie informacji, dokonywanie streszczeń, tworzenie bazy wiedzy, itd.) automatyczne tłumaczenie tekstów (np. system JANUS-II) inteligentne edytory tekstów nauka języków obcych Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 12

Wykorzystanie języka naturalnego do komunikacji z komputerem posiada następujące zalety: korzystanie z komputera przez osoby bez specjalistycznego przygotowania szybkość (klawiatura 0,5 słowa/s; profesjonalna maszynistka 1.5-2.5 słowa/s; spontaniczna mowa 2.5-3.6 słowa/s) zwolnienie rąk użytkownika (równoległe wykonywanie innych czynności) komunikacja z komputerem w nietypowym środowisku (pod wodą, w statku kosmicznym) zmniejszenie czasu reakcji (szybsza reakcja werbalna niż manualna np. wyłączenie urządzenia w przypadku awarii) korzystanie z komputerów przez osoby niepełnosprawne Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 13

U podstaw procesu porozumiewania się za pomocą języka naturalnego leżą bardzo złożone mechanizmy związane z percepcją i wytwarzaniem wypowiedzi. Wyróżnia się następujące poziomy analizy języka naturalnego: akustyczny rytm i intonacja języka fonologiczny badanie struktury dźwiękowej języka (elementarne dźwięki fonemy, istnieje międzynarodowy alfabet fonetyczny) morfologiczny badanie struktury słów (rdzenie, końcówki) syntaktyczny analiza gramatyczna zdania (reguły łączenia wyrazów) semantyczny opis znaczenia wyrazów i zdań (np. sprawdzenie sensu zdania) pragmatyczny badanie znaczenia w zależności od kontekstu wypowiedzi Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 14

Podstawowe problemy związane z analizą języka naturalnego: wieloznaczność syntaktyczną wyrazów np. wyraz "work" może oznaczać rzeczownik "praca" lub czasownik "pracować" wieloznaczność semantyczną wyrazów np. czasownik "order" może posiadać jedno z następujących znaczeń: "rozkazać", "zamówić", "uporządkować" wieloznaczność syntaktyczna na poziomie fraz (lub zdań) np. John sent a package to New York John booked a flight to New York problem odniesień anaforycznych The airline bought the plane because it had already decided to do so earlier problem zakresu kwantyfikatorów i negacji Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 15

Przykładowe realizacje systemów NLP: SAD-SAM (R. Lindsay, 1963) system odpowiadający na pytania dotyczące stopnia pokrewieństwa osób BASEBALL (B. Green i inni, 1963) system bazy danych, odpowiadający na pytania dotyczące spotkań baseballowych LUNAR (W. A. Woods, 1972) system do wyszukiwania danych na temat próbek gruntu księżycowego pobranych przez Apollo 11 LADDER (G. Hendrix, 1978) system dialogowego dostępu do rozproszonych baz danych HAM-ANS (1981-86) i WISBER(1986-89) systemy prowadzące dialog na temat rezerwacji hotelowej (w języku niemieckim) ORBIS (A. Colmerauer, 1983) system bazy danych, odpowiadający na pytania dotyczące planet układu słonecznego Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 16

Program ELIZA J. Weizenbaum (1964): Pacjent: Wszyscy mężczyźni są tacy sami. Lekarz: Co masz na myśli? Pacjent: Zawsze czegoś od nas chcą. Lekarz: Czy możesz podać jakiś konkretny przykład? Pacjent: No, mój chłopak kazał mi tu przyjść. Lekarz: Twój chłopak kazał ci tu przyjść? Pacjent: On mówi, że ja ciągle mam dołek. Lekarz: Przykro mi, że ciągle masz dołek. Pacjent: Bo to prawda, stale jestem nieszczęśliwa. Lekarz: Czy myślisz, że pomoże ci, że tu przyszłaś? Pacjent: Może mógłbyś nauczyć mnie radzić sobie z matką. Lekarz: Powiedz mi więcej o swojej rodzinie. Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 17

Schemat blokowy przykładowego systemu dialogowego (wg. MIT): Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 18

Prace prowadzone w Massachusetts Institute of Technology (MIT): JUPITER system informacji o pogodzie, dostęp przez telefon (około 500 miast) MERCURY system rezerwacji lotów (dostęp przez telefon) PEGASUS system informacji o lotach (odloty, przyloty) VOYAGER system informacji o ruchu drogowym, pomoc w nawigacji (dotyczy Bostonu) Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 19

Przykład dialogu w systemie Merkury: S: Welcome to the initial development version of the MIT air travel information system. This call is being recorded for system development. You may hang up or ask for help at any time. For enrolled users please say your first and last name. Otherwise, say new user. U: Joe Polifroni S: Please speak the month and day you registered as your password, as in May first. U: I want to key in my password. S: Okay, Please enter your four digit date password... <keyed in> S: Welcome, Joe. You have successfully logged onto mercury. How may I help you? U: I want to fly to San Francisco the first Sunday in November and return the following Thursday. Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 20

S: Okay, flights from Boston to San Francisco on Sunday November 5. Can you provide the approximate departure time or airline preference? U: Are there any flights in the morning? S: Okay, flights from Boston to San Francisco departing between 5 a.m. and 12 p.m. on Sunday November 5. One moment please.... Can you provide a departure or arrival time? I have flights on American, Frontier, America West, Nordic East Airways, Northwest, and United. The earliest nonstop United flight leaves at 7 a.m. and arrives at 10:20 a.m. U: I don t want to fly on United. S: I have a nonstop American flight leaving at 9 a.m. arriving at 12:40 p.m. Would that work? U: Yes, I ll take that one. S: American flight 195 has been added to your itinerary. You depart Boston at 9 a.m. and arrive in San Francisco at 12:40 p.m. Shall I help you with the return flight now? U: Yes, please.... Autor: Dariusz Banasiak Katedra Informatyki Technicznej PWr 21