. Przetwarzanie języka naturalnego. Jan Daciuk Katedra Inteligentnych Systemów Interaktywnych Wydział ETI, Politechnika Gdańska.



Podobne dokumenty
. Natural Language Processing. Jan Daciuk Department of Intelligent Interactive Systems ETI Faculty, Gdańsk University of Technology.

Podstawy programowania: Python. Wprowadzenie. Jolanta Bachan

Model zaszumionego kanału

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Opisy efektów kształcenia dla modułu

USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW

STUDIA NIESTACJONARNE (DAWNE ZAOCZNE)

INSTRUKCJA DLA AUTORÓW

Państwowa Wyższa Szkoła Zawodowa w Raciborzu

Wstęp do Językoznawstwa

Marek Świdziński Elementy gramatyki opisowej języka polskiego Uniwersytet Warszawski * Wydział Polonistyki Seria szósta, T. XXXIII Warszawa 1997

Multimedialne Systemy Interaktywne

Wyszukiwanie dokumentów/informacji

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA... (skrajne daty)

Wiadomości wstępne dotyczące języka migowego.

2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK

Wskazówki redakcyjne w procesie pisania prac magisterskich:

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

PISEMNY EGZAMIN DOJRZAŁOŚCI Z JĘZYKA GRECKIEGO KLASYCZNEGO 2002/2003 OPIS WYMAGAŃ

OPIS MODUŁU (PRZEDMIOTU)

SYLABUS/KARTA PRZEDMIOTU

SYLLABUS. Gramatyka kontrastywna 1 i 2

Multimedia i Interfejsy

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Praktyczna nauka drugiego języka obcego II

Wstęp do Językoznawstwa

Fizyka dla Oceanografów #

FP, studia 1. stopnia I C MODUŁ PRZEDMIOTÓW KIERUNKOWYCH: IC3 MODUŁ JĘZYKOZNAWCZY

Egzamin / zaliczenie na ocenę*

1. Wstęp do językoznawstwa Wstęp do etnologii i antropologii

ZASADY REDAGOWANIA PRACY LICENCJACKIEJ

JĘZYK ŁACIŃSKI I KULTURA ANTYCZNA

Niko 2 Przedmiotowy System Oceniania

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Kierunek: filologia, specjalność filologia angielska, studia I stopnia, niestacjonarne, profil praktyczny

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

1. Wstęp do językoznawstwa Wstęp do etnologii i antropologii

Kierunek: filologia, specjalność filologia angielska, studia I stopnia, niestacjonarne, profil praktyczny

SYLLABUS. Gramatyka kontrastywna

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język rosyjski KOD WF/I/st/1

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

PROGRAM NAUCZANIA NA KIERUNKU: filologia. SPECJALNOŚĆ: filologia germańska. SPECJALIZACJA: nauczycielska (język niemiecki z językiem angielskim)

Karta przedmiotu KIERUNEK FILOLOGIA, SPECJALNOŚĆ FILOLOGIA SŁOWIAŃSKA Wspólnotowy ruch graniczny i administracja celna

Gramatyka opisowa języka polskiego Kod przedmiotu

Historia kodowania i format plików XML. Jolanta Bachan

USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW

Program studiów. Specjalność: Filologia angielska z językiem niemieckim studia stacjonarne I stopnia. Rok I 2015/2016. I semestr

Załącznik nr 7 OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

PLAN STUDIÓW Kierunek: filologia, specjalność filologia angielska - nauczycielska, studia I stopnia, stacjonarne, profil praktyczny

WSKAZÓWKI WYDAWNICZE DLA AUTORÓW

Plan studiów. Specjalność: Filologia angielska z językiem niemieckim studia stacjonarne I stopnia. Rok I. I semestr. II semestr

KARTA KURSU. Organization and management in SPA & Wellness centers. Kod Punktacja ECTS* 3

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Nauka o języku i komunikacji. 2. KIERUNEK: Nauczanie języka angielskiego na poziomie wczesnoszkolnym

Maszynowe tłumaczenie Polskiego Języka Migowego

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2019/2020

Fizyka dla Oceanografów #

Plan studiów. Specjalność: Filologia angielska z językiem niemieckim studia stacjonarne I stopnia. Rok I. I semestr


PRZEWODNIK PO PRZEDMIOCIE. Wprowadzenie do przekładu tekstów ogólnych Angielski Język Biznesu

SPECJALIZACJA: przygotowanie do uzyskania uprawnień nauczycielskich w zakresie jednokierunkowej specjalizacji nauczycielskiej

Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych

AUTOMATYKA INFORMATYKA

Kierunek: filologia, specjalność filologia angielska, studia I stopnia, stacjonarne, profil praktyczny

KARTA KURSU DLA STUDIÓW DOKTORANCKICH

I. KARTA PRZEDMIOTU Historia Języka Angielskiego - ćwiczenia studia stacjonarne I, rok III (semestr I i II)

II MODUŁY KSZTAŁCENIA WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole)

PRZEWODNIK PO PRZEDMIOCIE. Wprowadzenie do przekładu tekstów ogólnych Angielski Język Biznesu

PLAN STUDIÓW Kierunek: filologia, specjalność filologia angielska, studia I stopnia, stacjonarne, profil praktyczny

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

PRZEWODNIK PO PRZEDMIOCIE

5. WORD W POLSKIEJ WERSJI

PLAN STUDIÓW Kierunek: filologia, specjalność filologia angielska, studia I stopnia, stacjonarne, profil praktyczny

Scenariusz lekcji. uzasadnić celowość korzystania z symboli i znaków specjalnych;

Karta przedmiotu. FILOLOGIA ANGIELSKA Z PRZYGOTOWANIEM PEDAGOGICZNYM Studia pierwszego stopnia/ogólnoakademicki

Wyższa Szkoła Turystyki i Języków Obcych w Warszawie

Wstęp do Językoznawstwa

Mechanika i Budowa Maszyn I stopień ogólnoakademicki, obieralny studia stacjonarne

Opracowanie książki w formacie MARC 21/ SOWA2

Instytut Filologii Romańskiej Uniwersytet Wrocławski

znajomość j. angielskiego na poziomie średniozaawansowanym Egzamin

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 2

Percepcja, język, myślenie

Instytut Filologii Romańskiej Uniwersytet Wrocławski

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Informacje ogólne. Wstęp do współczesnej semantyki. Lingwistyka komputerowa

PRZEWODNIK PO PRZEDMIOCIE. Wprowadzenie do przekładu tekstów użytkowych Angielski Język Biznesu

Normalizacja tekstów w języku polskim aspekty lingwistyczne

UMCS, Department of English, BA Courses

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1

PRZEWODNIK PO PRZEDMIOCIE. Teoria przekładu z elementami warsztatu tłumacza Angielski Język Biznesu

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna (j.a. brytyjski) Angielski Język Biznesu

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych

Fałszywa koordynacja w wyszukiwaniu fasetowym Mit czy rzeczywistość?

SYLABUS/ OPIS PRZEDMIOTU

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

KARTA PRZEDMIOTU. WYMAGANIA WSTĘPNE: znajomość języka angielskiego na poziomie B1 (na początku semestru 2) i B1+ (na początku semestru 3)

Transkrypt:

.. Przetwarzanie języka naturalnego Jan Daciuk Katedra Inteligentnych Systemów Interaktywnych Wydział ETI, Politechnika Gdańska 25 lutego 2014 Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 0. (1 / 1)

Warunki zaliczenia Jest jedna ocena za cały przedmiot: wykład i ćwiczenia laboratoryjne. Obie części po 50% punktów. Min. 50% z każdej części. Wykład: egzamin testowy, każdy otrzymuje indywidualny, losowo wybrany zestaw, 4 możliwe odpowiedzi, jedna prawidłowa, brak punktów ujemnych, można korzystać z dodatkowych materiałów, % pkt oc. 96 100 5,5 nie można korzystać z pomocy innych osób. Punkty 90 95 5 przeskalowuje się do 45%. 5% punktów otrzymuje się 80 89 4,5 za obecność. 70 79 4 Laboratorium: suma punktów za poszczególne ćwiczenia, przeskalowana na 50 punktów. Za ćwiczenie 60 69 3,5 50 59 3 dostaje się zwykłą, tradycyjną ocenę. Zaliczenie następuje na zajęciach. W przypadku opóźnienia odej- 0 49 2 mowane jest pół stopnia za każdy rozpoczęty tydzień, w którym odbywają się zajęcia. Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (2 / 14)

Literatura.1 Daniel Jurafsky, James Martin, Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Second Edition, Prentice Hall, 2008..2 Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000..3 Emmanuel Roche, Yves Schabes, Finite-State Language Processing, MIT Press, 1997..4 Kwartalnik Computational Linguistics i materiały konferencji organizowanych przez ACL (Association for Computational Linguistics). Dostępne przez http://acl.ldc.upenn.edu/ ACL Anthology. Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (3 / 14)

Literatura uzupełniająca dotycząca języka polskiego.1 Alicja Nagórko, Zarys gramatyki polskiej, Wydawnictwo Naukowe PWN, Warszawa, 1996..2 Zygmunt Saloni, Marcin Woliński, Robert Wołosz, Włodzimierz Gruszczyński, Danuta Skowrońska, Słownik gramatyczny języka polskiego, Wydanie II, Warszawa 2012..3 Gramatyka współczesnego języka polskiego. Morfologia pod redakcją Renaty Grzegorczykowej, Romana Laskowskiego i Henryka Wróbla, tom 1 i 2, Wydawnictwo Naukowe PWN, Warszawa, 1998..4 Mirosław Bańko, Wykłady z polskiej fleksji, Wydawnictwo Naukowe PWN, Warszawa, 2002..5 Zygmunt Saloni, Czasownik polski. Odmiana. Słownik, Wiedza Powszechna, Warszawa, 2001..6 Stanisław Mędak, Słownik form koniugacyjnych czasowników polskich, Universitas, Kraków, 2004..7 Stanisław Mędak, Słownik odmiany rzeczowników polskich, Universitas, Kraków, 2003. Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (4 / 14)

Język naturalny. Język naturalny to język powstały na drodze rozwoju historycznego, zróżnicowany geograficznie i społecznie, przeciwstawiający się z jednej strony językom sztucznym (jak np. esperanto), z drugiej zaś językom formalnym i językom programowania. Od języków sztucznych różni się polisemią swoich wyrażeń oraz tym, że podlega ciągłym zmianom.. Encyklopedia językoznawstwa ogólnego (ze skrótami), Ossolineum 1993 Język naturalny to np. polski, angielski, turecki, arabski, chiński, ale nie C++ czy język predykatów pierwszego rzędu. Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (5 / 14)

Przetwarzanie języka naturalnego. Przetwarzanie języka naturalnego to takie przetwarzanie tekstów (pisanych lub mówionych), które wykorzystuje specyficzne właściwości języka. naturalnego. Liczenie znaków w tekście nie jest przetwarzaniem języka naturalnego. Liczenie zdań tak. Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (6 / 14)

Zastosowania przetwarzania języka naturalnego Korekta pisowni Tłumaczenie maszynowe Wyszukiwanie dokumentów Odpowiadanie na pytania Obsługa programu/systemu Rozstrzyganie autorstwa Streszczanie Klasyfikacja tekstów Język naturalny jest naturalnym formatem przechowywania informacji i komunikowania się ludzi. Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (7 / 14)

Poziomy przetwarzania języka naturalnego U Z Y C I E Z N A C Z E N I E S K L A D N I A S L O W N I K S E G M E N T A C J A Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (8 / 14)

Zbiory tekstów Zbiór tekstów (ang. corpus, l.mn. corpora) może być oznaczony (ang. tagged) lub nieoznaczony (ang. untagged). Rodzaj oznaczeń (ang. markup) bywa różny, chociaż ostatnio w modzie jest użycie oznaczeń opartych na XML. Zbiory tekstów odgrywają kluczową rolę w nowoczesnych systemach przetwarzania języka naturalnego. Pozwalają zbierać różne statystyki, umożliwiają też stosowanie algorytmów uczenia maszynowego. Zbiory oznaczone są dużo bardziej przydatne niż nieoznaczone. Dla języka angielskiego najbardziej znane zbiory tekstów to zbiór artykułów z czasopisma Wall Street Journal (WSJ) i British National Corpus. Dla języka polskiego wzorcowym zbiorem tekstów jest Korpus IPI PAN dostępny pod adresem http://korpus.pl/index.php?page=download Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (9 / 14)

Segmentacja testu (1/3).1 Co to jest słowo ciąg liter? Popatrzmy: cóżeś mi uczynił żebyś zdechł obym dożył tej chwili.2 Apostrofy: ang. it s a dog, dog s bone, dog s crazy, dogs house fr. qu est-ce que c est, aujourd hui, l amour, je l aime.3 Czy słowa połączone myślnikiem tworzą nowe słowo? W 1900 r. trafił do Niemieckiej Południowo-Zachodniej Afryki. Zakład Przemysłowo-Drzewny Henryków Żydowskie Stowarzyszenie Kulturalno-Oświatowe Tarbut SS-man Fuss aresztował Jankiela za sabotaż Kazimierz Opel ukrył 6-osobową rodzinę Górskich musieli oni nie tylko wykazać się znajomością programu 2-letniej państwowej szkoły elementarnej... Dochodząc w opowieści o PRL-u do takiego punktu,....4 Czy po polsku to jedno, czy dwa słowa? Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (10 / 14)

Segmentacja testu (1/3).1 Co to jest słowo ciąg liter? Popatrzmy: cóżeś mi uczynił żebyś zdechł obym dożył tej chwili.2 Apostrofy: ang. it s a dog, dog s bone, dog s crazy, dogs house fr. qu est-ce que c est, aujourd hui, l amour, je l aime.3 Czy słowa połączone myślnikiem tworzą nowe słowo? W 1900 r. trafił do Niemieckiej Południowo-Zachodniej Afryki. Zakład Przemysłowo-Drzewny Henryków Żydowskie Stowarzyszenie Kulturalno-Oświatowe Tarbut SS-man Fuss aresztował Jankiela za sabotaż Kazimierz Opel ukrył 6-osobową rodzinę Górskich musieli oni nie tylko wykazać się znajomością programu 2-letniej państwowej szkoły elementarnej... Dochodząc w opowieści o PRL-u do takiego punktu,....4 Czy po polsku to jedno, czy dwa słowa? Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (11 / 14)

Segmentacja tekstu (2/3).1 Gdzie kończy się zdanie? Na kropce?... nie ma prawdy innej, jak cała prawda; to też wszelkie zatajanie jest popełnianiem kłamstwa. Czy to nasza wina, że mamy takich władców? Myśmy ich sobie nie wybierali! W tysiącletniej afgańskiej historii żaden z władców nie został wyniesiony na tron z woli poddanych..2 Na kropce, średniku, wykrzykniku lub na znaku zapytania? W 1885 r. znalazł się Stanach Zjednoczonych, następnie w Wielkiej Brytanii; w 1900 r. w Johannesburgu i Kapsztadzie. W 1900 r. trafił do Niemieckiej Południowo-Zachodniej Afryki. Zmarł prawdopodobnie w Brukseli w 1912 r..3 Czy kropka wyłącznie kończy zdanie? Skróty (także inicjały), liczby porządkowe (zapisane cyframi)? Czy kropka należy do skrótu, czy stanowi odrębny znak? Co ze skrótami na końcu zdania? Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (12 / 14)

Segmentacja tekstu (3/3) Kiedy kropka kończy zdanie?.1 Pierwsze przybliżenie: kiedy następne słowo zaczyna się wielką literą..2 Ale: po kropce nie może następować znak przestankowy, kropka nie może kończyć skrótu, o którym wiadomo, że nie kończy zdania (wymaga następnego słowa, na ogół nazwy własnej). Prawidłowe rozpoznawanie końca zdania wymaga rozpoznawania skrótów i nazw własnych oraz oznaczania części mowy, które z kolei wymagają dobrej segmentacji... W językach takich jak japoński lub chiński wyrazy zapisuje się bez odstępów. Jeżeli segmentacji dokonujemy w stosunku do mowy, to na wejściu mamy ciąg głosek... Dobre wyniki daje podejście skupione na dokumencie. Badamy, w jakim charakterze użyte zostały słowa zakończone kropką w całym dokumencie. Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (13 / 14)

Dodatkowe materiały nt. segmentacji.1 Gregory Grefenstette, Pasi Tapanainen, What Is a Word, What Is a Sentence? Problems of Tokenization, w proceedings of the Third Conference on Computational Lexicography and Text Research COMPLEX 94, Budapest, 1994. Dostępne pod: http://iling.torreingenieria.unam.mx/curso2002 2/lecturas/mltt- 004.pdf..2 Andrei Mikheev, Periods, Capitalized Words, etc., Computational Linguistics Volume 28, Number 3, str. 289-318, September 2002. Dostępne pod: http://acl.ldc.upenn.edu/j/j02/j02-3002.pdf..3 David D. Palmer, Marti A Hearst, Adaptive Multilingual Sentence Boundary Disambiguation, Computational Linguistics, Volume 23, Number 2, str. 241-269, June 1994. Dostępne pod: http://acl.ldc.upenn.edu/j/j97/j97-2002.pdf Jan Daciuk, KIW, ETI, PG Przetwarzanie języka naturalnego 1. Wstęp, segmentacja (14 / 14)