. Natural Language Processing. Jan Daciuk Department of Intelligent Interactive Systems ETI Faculty, Gdańsk University of Technology.

Podobne dokumenty
. Przetwarzanie języka naturalnego. Jan Daciuk Katedra Inteligentnych Systemów Interaktywnych Wydział ETI, Politechnika Gdańska.

Helena Boguta, klasa 8W, rok szkolny 2018/2019

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

deep learning for NLP (5 lectures)

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Course type* German I BA C 90/120 WS/SS 8/9. German I BA C 30 WS 2. English I BA C 60/90 WS/SS 5/6. English I BA C 30 WS 2. German I BA L 30 WS 4

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Tychy, plan miasta: Skala 1: (Polish Edition)

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Stargard Szczecinski i okolice (Polish Edition)

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

TTIC 31190: Natural Language Processing

NOTES ABOUT AUTHORS Walter Rothholz Remigiusz Król Michał Wendland Wojciech Torzewski Krzysztof Przybyszewski Piotr Urbański Wojciech Majka

Wydział Fizyki, Astronomii i Informatyki Stosowanej Uniwersytet Mikołaja Kopernika w Toruniu

Życie za granicą Studia

PROGRAM STAŻU. Nazwa podmiotu oferującego staż / Company name IBM Global Services Delivery Centre Sp z o.o.

Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)

UMCS, Department of English, BA Courses

Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)

y = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.

Zarządzanie sieciami telekomunikacyjnymi

Hard-Margin Support Vector Machines

ITALIAN STUDIES ITALIANISTYKA. Study programme (table of courses) starting with the academic year

Raport bieżący: 44/2018 Data: g. 21:03 Skrócona nazwa emitenta: SERINUS ENERGY plc

Surname. Other Names. For Examiner s Use Centre Number. Candidate Number. Candidate Signature

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Egzamin maturalny z języka angielskiego na poziomie dwujęzycznym Rozmowa wstępna (wyłącznie dla egzaminującego)

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

General Certificate of Education Ordinary Level ADDITIONAL MATHEMATICS 4037/12

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

KOMUNIKAT 2. The 44 th International Biometrical Colloquium and IV Polish-Portuguese Workshop on Biometry. Conference information:

LEARNING AGREEMENT FOR STUDIES

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

PLSH1 (JUN14PLSH101) General Certificate of Education Advanced Subsidiary Examination June Reading and Writing TOTAL

Umowa Licencyjna Użytkownika Końcowego End-user licence agreement

Revenue Maximization. Sept. 25, 2018

Polska Szkoła Weekendowa, Arklow, Co. Wicklow KWESTIONRIUSZ OSOBOWY DZIECKA CHILD RECORD FORM

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

EXTERNAL ASSESSMENT SAMPLE TASKS POLISH BREAKTHROUGH LSPPOLB/0Y06

OpenPoland.net API Documentation

Oxford PWN Polish English Dictionary (Wielki Slownik Polsko-angielski)

ABOUT NEW EASTERN EUROPE BESTmQUARTERLYmJOURNAL

Zdecyduj: Czy to jest rzeczywiście prześladowanie? Czasem coś WYDAJE SIĘ złośliwe, ale wcale takie nie jest.

UMCS, English Institute, BA Courses

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

Baptist Church Records


Władysław Miodunka. CZEŚĆ, JAK SIĘ MASZ? SPOTKAMY SIĘ W EUROPIE. Tom II Podręcznik do nauki języka polskiego dla cudzoziemców. Poziom podstawowy A2

TEORIA CZASU FUTURE SIMPLE, PRESENT SIMPLE I CONTINOUS ODNOSZĄCYCH SIĘ DO PRZYSZŁOŚCI ORAZ WYRAŻEŃ BE GOING TO ORAZ BE TO DO SOMETHING

Appendix. Studia i Materiały Centrum Edukacji Przyrodniczo-Leśnej R. 10. Zeszyt 2 (17) /

Polski Krok Po Kroku: Tablice Gramatyczne (Polish Edition) By Anna Stelmach

Życie za granicą Studia

Instrukcja obsługi User s manual

Opis Przedmiotu Zamówienia oraz kryteria oceny ofert. Część nr 8

FORMULARZ REKLAMACJI Complaint Form

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

Podstawa prawna: Art. 70 pkt 1 Ustawy o ofercie - nabycie lub zbycie znacznego pakietu akcji

Extraclass. Football Men. Season 2009/10 - Autumn round

KONSPEKT DO LEKCJI MATEMATYKI W KLASIE 3 POLO/ A LAYER FOR CLASS 3 POLO MATHEMATICS

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Jak zasada Pareto może pomóc Ci w nauce języków obcych?

DOI: / /32/37

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

F+H GCSE POLISH 8688/SF+SH. Paper 2 Speaking (Foundation and Higher) Specimen 2019 SPECIMEN MATERIAL

Sargent Opens Sonairte Farmers' Market

Country fact sheet. Noise in Europe overview of policy-related data. Poland

Adult Education and Lifelong Learning

INSTRUKCJA DO NARZĘDZIA OBSERWACJI

Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI

SNP SNP Business Partner Data Checker. Prezentacja produktu

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to teachers

JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE

kdpw_stream Struktura komunikatu: Status komunikatu z danymi uzupełniającymi na potrzeby ARM (auth.ste ) Data utworzenia: r.

ANKIETA ŚWIAT BAJEK MOJEGO DZIECKA


B IURO B ADAWCZE DS. J AKOŚCI

PROJECT. Syllabus for course Global Marketing. on the study program: Management

Formularz recenzji magazynu. Journal of Corporate Responsibility and Leadership Review Form

Remember to set your printer to omit this page when running off copies.using this document.

UMOWY WYPOŻYCZENIA KOMENTARZ

Auschwitz and Birkenau Concentration Camp Records, RG M

Effective Governance of Education at the Local Level

PORTS AS LOGISTICS CENTERS FOR CONSTRUCTION AND OPERATION OF THE OFFSHORE WIND FARMS - CASE OF SASSNITZ

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Auditorium classes. Lectures

Zastrzegamy sobie prawo do zmiany cen oraz asortymentu bez wcze niejszego zawiadomienia.

Transkrypt:

.. Natural Language Processing Jan Daciuk Department of Intelligent Interactive Systems ETI Faculty, Gdańsk University of Technology May 5, 2014 Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 0. (1 / 1)

Rules for Receiving Credits There is one note for the whole subject: lecture and lab. Each part accounts for 50% of points. Min. 50% from each part. Lecture: test, each student gets individual, randomly chosen suite of questions (multiple choice) with 4 possible answers. Only one answer is correct. There are no negative points for choosing incorrect answers. % pts note 96 100 5,5 90 95 5 80 89 4,5 70 79 4 60 69 3,5 50 59 3 0 49 2 Additional materials (e.g. course materials) can be used during the test, but not the help of other people (including other students). The result is scaled to 45 points. Up to 5% of points can be received for attending lectures. Laboratory: the points (notes) for individual exercises will be summed up, and then scaled so that the maximum will be 50 points. Each exercise will be evaluated using traditional notes. The exercises are passed in the lab. There are penalties for delays: half a note for each week, in which there are lab classes. Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (2 / 14)

Bibliography.1 Daniel Jurafsky, James Martin, Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Second Edition, Prentice Hall, 2008..2 Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000..3 Emmanuel Roche, Yves Schabes, Finite-State Language Processing, MIT Press, 1997..4 Quarterly journal Computational Linguistics and proceedings of conferences organized by ACL (Association for Computational Linguistics). Available from http://acl.ldc.upenn.edu/ ACL Anthology. Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (3 / 14)

Additional bibliography Polish Language.1 Alicja Nagórko, Zarys gramatyki polskiej, Wydawnictwo Naukowe PWN, Warszawa, 1996..2 Zygmunt Saloni, Marcin Woliński, Robert Wołosz, Włodzimierz Gruszczyński, Danuta Skowrońska, Słownik gramatyczny języka polskiego, Wydanie II, Warszawa 2012..3 Gramatyka współczesnego języka polskiego. Morfologia pod redakcją Renaty Grzegorczykowej, Romana Laskowskiego i Henryka Wróbla, Volume 1 and 2, Wydawnictwo Naukowe PWN, Warszawa, 1998..4 Mirosław Bańko, Wykłady z polskiej fleksji, Wydawnictwo Naukowe PWN, Warszawa, 2002..5 Zygmunt Saloni, Czasownik polski. Odmiana. Słownik, Wiedza Powszechna, Warszawa, 2001..6 Stanisław Mędak, Słownik form koniugacyjnych czasowników polskich, Universitas, Kraków, 2004..7 Stanisław Mędak, Słownik odmiany rzeczowników polskich, Universitas, Kraków, 2003. Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (4 / 14)

Natural Language. Natural language is a language that emerged from historical development. It is geographically and socially varied. It can be opposed on the one hand to artificial languages (e.g. esperanto), and on the other hand to formal and programming languages. It differs from artificial languages by the polysemy of its expressions, and by the fact that it undergoes constant changes.. Encyklopedia językoznawstwa ogólnego (shortened), Ossolineum 1993 Polish, English, Turkish, Arab, Chinese are examples of natural language. C++ or first order predicate calculus language are not. Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (5 / 14)

Natural Language Processing. Natural language processing is such text processing that makes use of. specific properties of natural language. Counting characters in a text is not natural language processing. Counting sentences is. Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (6 / 14)

Applications of Natural Language Processing Spelling correction Machine translation Document retrieval Question answering Running a program/system Finding authorship Summarization Text classification... Natural language is natural format for storing information and for communication between people. Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (7 / 14)

Levels of Natural Language Processing P R A G M. A T I C S S E M A N T I C S S Y N T A X L E X I C O N S E G M E N T A T I O N Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (8 / 14)

Corpora A corpus can be tagged or untagged. The markup varies. The latest fashion is XML. Corpora play a key role in modern natural language processing systems. They make it possible to gather various statistics, they also make it possible to use machine learning. Tagged corpora are much more useful than untagged ones. The best known corpora for English are the Wall Street Journal corpus (WSJ) and the British National Corpus (BNC). For Polish, the canonical corpus is the IPI PAN Corpus available at http://korpus.pl/index.php?page=download Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (9 / 14)

Text Segmentation (1/3).1 What is a word? Is it a sequence of letters? Let us look at examples in Polish: cóżeś mi uczynił żebyś zdechł obym dożył tej chwili.2 Apostrophes: in English: it s a dog, dog s bone, dog s crazy, dogs house in French: qu est-ce que c est, aujourd hui, l amour, je l aime.3 Do words joined with a hyphen form a single word? W 1900 r. trafił do Niemieckiej Południowo-Zachodniej Afryki. Zakład Przemysłowo-Drzewny Henryków Żydowskie Stowarzyszenie Kulturalno-Oświatowe Tarbut SS-man Fuss aresztował Jankiela za sabotaż Kazimierz Opel ukrył 6-osobową rodzinę Górskich musieli oni nie tylko wykazać się znajomością programu 2-letniej państwowej szkoły elementarnej... Dochodząc w opowieści o PRL-u do takiego punktu,....4 Is po polsku a single word, or two words? Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (10 / 14)

Text Segmentation (1/3).1 What is a word? Is it a sequence of letters? Let us look at examples in Polish: cóżeś mi uczynił żebyś zdechł obym dożył tej chwili.2 Apostrophes: in English: it s a dog, dog s bone, dog s crazy, dogs house in French: qu est-ce que c est, aujourd hui, l amour, je l aime.3 Do words joined with a hyphen form a single word? W 1900 r. trafił do Niemieckiej Południowo-Zachodniej Afryki. Zakład Przemysłowo-Drzewny Henryków Żydowskie Stowarzyszenie Kulturalno-Oświatowe Tarbut SS-man Fuss aresztował Jankiela za sabotaż Kazimierz Opel ukrył 6-osobową rodzinę Górskich musieli oni nie tylko wykazać się znajomością programu 2-letniej państwowej szkoły elementarnej... Dochodząc w opowieści o PRL-u do takiego punktu,....4 Is po polsku a single word, or two words? Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (11 / 14)

Text Segmentation (2/3).1 Where is the end of a sentence? At a full stop (period)?... nie ma prawdy innej, jak cała prawda; to też wszelkie zatajanie jest popełnianiem kłamstwa. Czy to nasza wina, że mamy takich władców? Myśmy ich sobie nie wybierali! W tysiącletniej afgańskiej historii żaden z władców nie został wyniesiony na tron z woli poddanych..2 At a full stop, a semicolon, an exclamation mark and a question mark? W 1885 r. znalazł się Stanach Zjednoczonych, następnie w Wielkiej Brytanii; w 1900 r. w Johannesburgu i Kapsztadzie. W 1900 r. trafił do Niemieckiej Południowo-Zachodniej Afryki. Zmarł prawdopodobnie w Brukseli w 1912 r..3 Does a full stop signal only the end of a sentence? What about abbreviations, ordinal numbers (written with digits)? Does the full stop belong to the abbreviation, or is it a separate symbol? What about abbreviations at the end of a sentence? Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (12 / 14)

Text Segmentation (3/3) When does a full stop end a sentence?.1 The first approximation: when the next word begins with a capital letter..2 But there can be no punctuation after the full stop, the full stop cannot end a sentence when it ends an abbreviation that requires another word after it (e.g. a proper name). A proper end-of-sentence recognition requires recognition of abbreviations and named entities as well as part-of-speech tagging, which in turn require good segmentation... In languages such as Japanese or Chinese, words are written without spaces. When segmentation is done on voice data, the input is a string of phones... Good results can be achieved with a document-centered approach. Words that end with a full stop are investigated when they appear in other contexts. This could make it clear whether in that particular document they are abbreviations or not. Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (13 / 14)

Additional Bibliography on Segmentation.1 Gregory Grefenstette, Pasi Tapanainen, What Is a Word, What Is a Sentence? Problems of Tokenization, in proceedings of the Third Conference on Computational Lexicography and Text Research COMPLEX 94, Budapest, 1994. Available at: http://iling.torreingenieria.unam.mx/curso2002 2/lecturas/mltt- 004.pdf..2 Andrei Mikheev, Periods, Capitalized Words, etc., Computational Linguistics Volume 28, Number 3, pp. 289-318, September 2002. Available at: http://acl.ldc.upenn.edu/j/j02/j02-3002.pdf..3 David D. Palmer, Marti A Hearst, Adaptive Multilingual Sentence Boundary Disambiguation, Computational Linguistics, Volume 23, Number 2, pp. 241-269, June 1994. Available at: http://acl.ldc.upenn.edu/j/j97/j97-2002.pdf Jan Daciuk, DIIS, ETI, GUT Natural Language Processing 1. Introduction, Segmentation (14 / 14)