Anotacja dialogów w projekcie LUNA

Podobne dokumenty

Krzysztof Marasek, Ryszard Gubrynowicz PJWSTK, Warszawa

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Dialogowe akty mowy w modelach sztucznej inteligencji

1 Projektowanie systemu informatycznego

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Instrukcja. opracował Marcin Oleksy

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Analiza dialogu na potrzeby tworzenia systemów dialogowych. Jolanta Bachan

Ontologie, czyli o inteligentnych danych

030 PROJEKTOWANIE BAZ DANYCH. Prof. dr hab. Marek Wisła

jest dostępne na różne systemy operacyjne. Niniejsza instrukcja opisuje podstawowe operacje i opcje niezbędne do rozpoczęcia pracy w tym programie.

Ćwiczenie 1. Modelowanie prostego procesu

Analiza i projektowanie obiektowe 2016/2017. Wykład 10: Tworzenie projektowego diagramu klas

Nowa forma maturalnego egzaminu ustnego z języka obcego nowożytnego od 2012 roku

Post-relacyjne bazy danych

Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

Analiza i projektowanie obiektowe 2017/2018. Wykład 3: Model wiedzy dziedzinowej

Lokalizacja Oprogramowania

Zasady Nazewnictwa. Dokumentów XML Strona 1 z 9

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

ROZWINIĘCIE KORPUSU POLSKICH ROZMÓW TELEFONICZNYCH LUNA ALEKSANDRA WYSZYŃSKA

Rok akademicki: 2013/2014 Kod: ZZIP IN-s Punkty ECTS: 2. Kierunek: Zarządzanie i Inżynieria Produkcji Specjalność: Informatyka w zarządzaniu

PODRĘCZNIK UŻYTKOWNIKA

Kompleksowa informacja

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

96 godzin Podstawy pracy z komputerem. Informacje ogólne Podstawy pracy w sieci cz.1.

Wiadomości i umiejętności

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

4. Jak połączyć profil autora w bazie Scopus z identyfikatorem ORCID. 5. Jak połączyć ResearcherID (Web of Science) z identyfikatorem ORCID

Analiza danych tekstowych i języka naturalnego

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Leçon 5. Zdania wzorcowe. S³ownictwo

Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII

-1- KONSPEKT Z LEKCJI JĘZYKA FRANCUSKIEGO. Podręcznik: Francofolie Express 2, Wydawnictwo Szkolne PWN, Warszawa 2013

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

WYTYCZNE DOTYCZĄCE REALIZACJI PRAC DYPLOMOWYCH W INSTYTUCIE ORGANIZACJI SYSTEMÓW PRODUKCYJNYCH NA KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI

MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI

Modelowanie związków encji. Oracle Designer: Diagramy związków encji. Encja (1)

Analiza znaczeniowa sterowana składnią

WYMAGANIA EDUKACYJNE Z JĘZYKA HISZPAŃSKIEGO. Podręcznik :Aula Internacional 1,2,3

Internet Semantyczny i Logika II

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Wyjaśnienia z dnia r. do treści Zapytania Ofertowego nr ZO/3/FO/POPC/2017 w odpowiedzi na pytania dotyczące Zapytania ofertowego.

Strukturalizacja otoczenia agentów: ontologie, CYC, sieci semantyczne

PLAN ZARZĄDZANIA WYMAGANIAMI PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Konfiguracja i obsługa modułu Service Desk

Wstęp do Językoznawstwa

EGZAMIN MATURALNY Z JĘZYKA FRANCUSKIEGO 18 MAJA 2015 POZIOM ROZSZERZONY CZĘŚĆ I. Godzina rozpoczęcia: 14:00. Czas pracy: 120 minut

Inteligentne Multimedialne Systemy Uczące

1: 2: 3: 4: 5: 6: 7: 8: 9: 10:

Strona tytułowa, zgodnie z wymaganiami zamieszczonymi na stronie www uczelni. Wzór strony dostępny jest w dzienniku wirtualnym - 1 -

Model semistrukturalny

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Rozwiązanie ćwiczenia 7a

Marcin Miłkowski IFiS PAN

GML w praktyce geodezyjnej

ANKIETA. Projekt Sektorowej Ramy Kwalifikacji w Sporcie (SRKS) Prosimy o odesłanie wypełnionej ankiety do dnia 26 stycznia 2015 r.

Rola języka XML narzędziem

2. Podstawy narzędzia Application Builder, budowa strony, kreatory aplikacji

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Wzrost przychodów i optymalne koszty sprzedaży. Zarządzanie terytorium sprzedaży z iq GIS

Wymagania na poszczególne oceny z języka hiszpańskiego dla klasy siódmej. Podręcznik GENTE JOVEN 1

Kodowanie produktów - cz. 1

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Inforex - zarządzanie korpusami i ich anotacja

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK FRANCUSKI

EGZAMIN MATURALNY 2012

AKADEMIA KOMPETENCJI KLUCZOWYCH PROGRAM ROZWOJU UCZNIÓW SZKÓŁ PONADGIMNAZJALNYCH POLSKI WSCHODNIEJ

Przewodnik Użytkownika systemu POL-index. Opis formatu POL-index

Języki programowania zasady ich tworzenia

Synteza i eksploracja danych sekwencyjnych

Obieginformacji. Delegacje w XpertisCMS

Kryteria ocen z języka rosyjskiego dla klas I-IV szkół średnich

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Instrukcja pisania i użytkowania makroinstrukcji w programie TELE 32

Program warsztatów CLARIN-PL

Przykładowa baza danych BIBLIOTEKA

OBIEKTY TECHNICZNE OBIEKTY TECHNICZNE

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Kostki OLAP i język MDX

WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1

Scenariusz lekcji. opisać podstawowe atrybuty czcionki; scharakteryzować pojęcia indeksu górnego i dolnego; wymienić rodzaje wyrównywania tekstu;

KRYTERIA WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA FRANCUSKIEGO

WZORCE LOGIKI APLIKACJI Reużywalne składniki wymagań

Technologie informacyjne - wykład 12 -

Spis treści. Część teoretyczna WSTĘP...

Jak stworzyć własny blog w kreatorze Click Web?

Rozkład materiału dla klas 1F (2 grupa), G, H według podręcznika Adosphère 1 i Adosphère 2 w roku 2014/15

PROJEKT INTERFEJSU UśYTKOWNIKA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Common Lisp - funkcje i zmienne

Koncepcja wirtualnego uniwersytetu z wykorzystaniem technologii semantycznej. Ilona Pawełoszek Tomasz Turek Politechnika Częstochowska

Programowanie sterowników

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Transkrypt:

Anotacja dialogów w projekcie LUNA J. Rabiega-Wiśniewska, M. Marciniak, A. Mykowiecka Instytut Podstaw Informatyki PAN Warszawa, 23 kwietnia 2007

Plan wystąpienia O projekcie LUNA Zadania zespołów francuskiego i włoskiego Zadania zespołu polskiego Anotacja morfosyntaktyczna Anotacja semantyczna Akty dialogowe Podsumowanie

Projekt LUNA LUNA spoken Language UNderstanding in multilingual communication systems, http://www.ist-luna.eu/ Kierownictwo projektu manager: prof. Renato De Mori, Université d Avignon koordynator: Silvia Mosso, Loquendo Ramy czasowe projektu rozpoczęcie wrzesień 2006 okres trzy lata Partnerzy Reinisch-Westfälische Technische Hochshule Aachen Università degli studi di Trento France Télécom CSI-Piemonte Polsko-Japońska Wyższa Szkoła Technik Komputerowych Instytut Podstaw Informatyki PAN

Cele projektu Założenia projektu W ramach projektu LUNA powstanie pakiet narzędzi rozumienia mowy (Spoken Language Understanding), który może zostać wykorzystany w serwisach dialogowych kilku języków. Dalekosiężnym celem projektu jest komunikacja człowiek-maszyna. Główne cele projektu: Zebranie korpusów (naturalnych) dialogów dla języków: francuskiego, polskiego i włoskiego Anotacja semantyczna dialogów Przygotowanie materiału do trenowania: automatycznej analizy i syntezy mowy systemów dialogowych

Zadania poszczególnych zespołów język francuski Korpus MEDIA zawiera 1250 dialogów człowiek-maszyna zbieranych w środowisku Wizard-of-Oz dziedzina telefoniczna informacja o hotelach trankskrypcja dialogów jest przygotowana korpus jest anotowany semantycznie

Zadania poszczególnych zespołów język francuski FT Stock Exchange zebrano 1650 dialogów człowiek-maszyna dziedzina giełda finansowa, zarządzanie akcjami korpus zostanie uzupełniony o 1000 nowych dialogów transkrypcja zebranych dialogów jest gotowa transkrypcja nowych dialogów i anotacja semantyczna całości do zrobienia FT Customer Support service zebrano 12000 dialogów człowiek-maszyna dziedzina usługi korpus zostanie uzupełniony o 20000 nowych dialogów transkrypcja zebranych dialogów jest gotowa transkrypcja nowych dialogów i anotacja semantyczna całości do zrobienia

Zadania poszczególnych zespołów język włoski CSI Piemonte Konsorcjum założone przez Uniwersytet i Politechnikę Turynu oraz administrację Regionu Piemontu w 1977. Obecnie zrzesza poza Założycielami dwóch członków wspierających i 49 członków zwykłych. CSI Customer Support i Uniwersytet Trento zostanie zebrany korpus 500 dialogów człowiek-człowiek dziedzina help desk, usługi transkrypcja i anotacja semantyczna dialogów do zrobienia zostanie przygotowany korpus 500 dialogów człowiek-maszyna drugi korpus będzie również anotowany semantycznie po uprzedniej transkrypcji

Zadania dla zespołu języka polskiego Zebranie i anotacja korpusu dialogów w dwóch etapach: nagranie 500 dialogów człowiek-człowiek anotacja morfosyntaktyczna i semantyczna dialogów przygotowanie 500 dialogów człowiek-maszyna (najprawdopodobniej Wizard-of-Oz) anotacja morfosyntaktyczna i semantyczna dialogów Dziedzina: komunikcja miejska w Warszawie

Warszawska infolinia ZTM tel. 94-84 Pod ten numer warszawiacy dzwonią średnio 200-300 razy dziennie, aby uzyskać informacje o połączeniach komunikacyjnych, trasach np. autobusów, czy rozkładach jazdy. Tematyka rozmów: Jak dojechać z punktu A do punktu B? O której godzinie przyjedzie najbliższy/ostatni/niskopodłogowy autobus? Na którym przystanku ktoś powinien wysiąść? Gdzie się przesiąść, aby dojechać do A? Czy kogoś obejmują zniżki na bilety? Dlaczego tramwaj nie przyjechał/spóźnia się?

Zbieranie korpusu dialogów Od miesiąca nagrywane są rozmowy z dwóch linii telefonicznych (głos operatora męski i żeński). Zebrano już ponad 1500 dialogów. W projekcie zostanie zanotowane 500, pozostały materiał może zostać wykorzystany w innych badaniach. Obecnie trwa transkrypcja dialogów.

Kolejne etapy przygotowania korpusu Segmentacja tekstu na wypowiedzi Transkrypcja dialogów Anotacja morfosyntaktyczna Anotacja semantyczna: opis dziedziny poziom predykatów koreferencje i anafory Akty dialogowe

Dialog przed ustaleniem zasad transkrypcji A: dzień dobry przy telefonie..., słucham. B: dzień dobry chciałam się dowiedzieć jak eee mogę się dostać na przystanek euh Legia stadion A: tak A: to Legia stadion, czy Szwoleżerów, bo to jest B: Legia stadion nie <Event desc= b type= noise extent= instantaneous /> albo Szwoleżerów albo <Event desc= * type= pronounce extent= next /> Rozbrat <Event desc= pi type= pronounce extent= instantaneous /> coś tam takie <Comment desc= start of the speaker #1 /> go B: <Event desc= b type= noise extent= begin /> wszystko <Event desc= b type= noise extent= end /> jedno, bo e <Event desc= b type= noise extent= begin /> chodzi <Event desc= * type= pronounce extent= instantaneous /> mnie <Event desc= b type= noise extent= end /> o to jak gdyby ooo o połączenie zzz

Transkrypcja dialogów 1 Wielkie litery według zwyczajów danego języka, dodatkowo w zapisie akronimów i literowania Liczby, cyfry zapisane zostaną słowami Literowanie wyróżnione zostanie wielkimi literami i oznaczone spelled: no Tarino comune di Torino [pron=spelled-] T O R I N O [-pron=spelled] Akronimy wymawiane jako pełne słowa będą zapisywane wielkimi literami bez odstępów, akronimy literowane według poprzedniego punktu Obce słowa dostaną oznaczenie lang i etykietę języka: un hôtel à Toulouse avec piscine si possible cet hôtel doit avoir [lang=english-]wellness service[-lang=english], [lang=english-][pron=spelled-] C D [-pron=spelled] ROM [-lang=english] Interpunkcja nie powinna być wprowadzana podczas transkrypcji

Transkrypcja dialogów 2 Urwane słowa będą oznaczane przez tyldę ( ): Legia stadion nie albo szwol+[lex= ] Szwoleżerów albo Rozbrat lub coś tam takiego; a na początku lub na końcu wypowiedzi uzupełniane, gdy to możliwe: [lex= -]m[-lex= ]erci au revoir Błędna wymowa zostanie poprawiona, ale miejsce będzie zaznaczone: je souhaiterais avoir des [pron=*-]renseignements[-pron=*] sur ma facture Niezrozumiałe fragmenty oznaczone zostaną dwoma gwiazdkami (**) Z nakładających się wypowiedzi transkrybowana będzie dominująca Wahanie, westchnienia itp. dostanie oznaczenie fil: [lex=fil] nie Zakłócenia otrzymają oznaczenie noise: je veux acheter [noise] des actions L Oréal Cisza dłuższa niż 1 sekunda będzie oznaczana przez sil: rozumiem rozumiem [sil] dobra dobra

Przykład dialogu i transkrypcji DIALOG TRANSKRYPCJA

Anotacja morfosyntaktyczna 1 Transkrybowany tekst otrzyma dla każdego słowa znaczniki części mowy oraz uzgodnień. Tagset dla każdego języka będzie dostosowany do zaleceń opracowanych w projekcie EAGLES. Z placu Zamkowego do Wilanowa jedzie autobus sto szesnaście. <words> <w id= 1 word= z lemma= z POS= Prep morph= - /> <w id= 2 word= placu lemma= plac POS= Nc morph= m3.gen.sg /> <w id= 3 word= Zamkowego lemma= Zamkowy POS= ADJp morph= masc.gen.sg.pos > <w id= 6 word= jedzie lemma= jechać POS= VV morph= 3.sg.pres.imperf /> <w id= 7 word= autobus lemma= autobus POS= Nc morph= m3.nom.sg /> </words>

Anotacja morfosyntaktyczna 2 Anotacja syntaktyczna pogrupuje słowa w podstawowe frazy nominalne i werbalne. Z placu Zamkowego do Wilanowa jedzie autobus sto szesnaście. <chunks> <chunk id= 1 span= word 1 cat= Prep /> <chunk id= 2 span= word 2..word 3 cat= NP /> <chunk id= 3 span= word 4 cat= Prep /> <chunk id= 4 span= word 5 cat= NP /> <chunk id= 5 span= word 6 cat= VP /> <chunk id= 6 span= word 7..word 9 cat= NP /> </chunks>

Anotacja semantyczna Nazwa projektu zawiera sformułowanie spoken Language UNderstanding, a zatem konieczna jest próba opisu znaczenia poszczególnych wypowiedzi. Anotacja semantyczna podzielona została na następujące trzy poziomy: Poziom atrybutów dziedzinowych obowiązkowy Opis struktury predykatów nieobowiązkowy Reprezentacja koreferencji i anafor nieobowiązkowy

Atrybuty dziedzinowe anotacja model dziedziny (standard OWL, edytor Protégé) model zawierający hierarchię klas, własności i ograniczenia nałożone na te własności TownPlace BuildingOrSthElse Has BuildingName (some Values from BuildingName) IsCloseTo (multiple PublicTransportStop) LocatedAt (some values from StreetName) HasAddress (cardinality one, some values from Address)

Okno edytora z aktualną wersję ontologii

Atrybuty dziedzinowe przykład Z / placu Zamkowego / do / Wilanowa / jedzie / autobus sto szesnaście / <concept span= word 2..word 3 attribute= streetname value= plac Zamkowy /> <concept span= word 5 attribute= buildingorplacename value= Wilanów /> <concept span= word 8..word 9 attribute= buslinename value= sto szesnaście />

Stuktura predykatów anotacja Słownik czasowników z opisywanej dziedziny Koncepcja definicji zgodna z założeniami FRAMENET-u Nazwy ról semantycznych przejęte z ontologii dziedziny

Stuktura predykatów przykład Frame: DirectTripTaking Frame-elements: DirectTripStartPoint, DirectTripEndPoint, LineName Z / placu Zamkowego / do / Wilanowa / fe 7:DirectTripStartPoint fe 8:DirectTripEndPoint jedzie / autobus sto szesnaście / fe 9: target fe 10:LineName set3={fe 7, fe 8, fe 9, fe 10} <fe id= fe 7 span= word 2..word 3 frame= DirectTripTaking frame-element= DirectTripStartPoint member= set 3 pointer = fe 9 /> <fe id= fe 8 span= word 5 frame= DirectTripTaking frame-element= DirectTripEndPoint member= set 3 pointer = fe 9 /> <fe id= fe 10 span = word 8..word 9 frame= DirectTripTaking frame-element= LineName member= set 3 pointer= fe 9 />

Koreferencje anotacja Przyjęty sposób anotacji został zadoptowany z ARRAU (AnaphoRa Resolution And Underspecification), przy czym anotacja ogranicza się do fraz rzeczownikowych odpowiadających obiektom opisanym w modelu dziedziny. Główny cel tego poziomu oznaczeń powiązanie opisów tego samego obiektu w tekście, reprezentacja wiedzy o tym przez etykietę inf status. Etykieta ambiguity pozwala na określenie niejednoznaczności odwołania (alternatywa obiektów wymienionych na liście multiple phrase antecedent). Etykieta multiple phrase antecedent pozwala na wprowadzenie listy obiektów, do których odnosi się jedna fraza. Etykieta relation pozwala na opisanie zależności zachodzącej między anotowanym obiektem, a którymś poprzednio wymienionym, może to być relacja zdefiniowana w modelu dziedziny lub relacja typu element, podzbiór, nadzbiór.

Koreferencje przykłady 1 a [ Paris ]e1 je vous propose [ l hotel Ibis Montparnasse ]e2 et [ l hotel Lafayette ]e3 W Paryżu proponuję Hotel Ibis Montparnasse i Hotel Lafayette <coref id= e 1 span= word 2 inf status= new related= no /> <coref id= e 2 span= word 6..word 8 inf status= new related= no /> <coref id= e 3 span= word 10..word 11 inf status= new related= no /> [ ils ]e4 ont [ une piscine ]e5? Czy mają one basen? <coref id= e 4 span= word 12 inf status= given multiple phrase antecedent= e 2; e 3 ambiguity= unambiguous /> <coref id= e 5 span= word 14..word 15 inf status= new related= no />

Koreferencje przykłady 2 bien, et [ cet hotel ]e8 accepte [ les chiens ]e9? Dobrze, a czy ten hotel akceptuje psy? <coref id= e 8 span= word 26..word 27 inf status= given single phrase antecedent= e 3 ambiguity= unambiguous /> <coref id= e 9 span= word 29..word 30 inf status= new related= no /> [ l hotel Lafayette ]e10 n accepte pas [ les animaux ]e11 Hotel Lafayette nie akceptuje zwierząt. <coref id= e 10 span= word 31..word 32 inf status= given single phrase antecedent= e 3 ambiguity= unambiguous /> <coref id= e 11 span= word 35..word 36 inf status= new related= yes related phrase= e 9 relation= superclasseof ambiguity= unambiguous />

Akty dialogowe (Dialogue Acts, DA) W projekcie anotacja na tym poziomie nie jest obowiązkowa. Oznaczenie aktów potrzebne jest między innymi do tworzenia modelu dialogu lub systemu dialogowego. Propozycja wykorzystania schematu DAMSL Dialogue Act Markup in Several Layers. Istnieje bezpłatne narzędzie do tagowania: DAT Dialogue Annotation Tool (łatwo się zawiesza i wymaga dostosowania).

Akty dialogowe założenia anotacji Wypowiedź (ang. turn) może być podzielona na mniejsze fragmenty, którym przypisywane są tagi reprezentujące poszczególne DA. Każdemu fragmentowi można przypisać kilka tagów. W projekcie wybrano z DAMSL następujące tagi: Mające wpływ na to co się wydarzy (Forward looking function) Statement Action-directive / Open option Committing-speaker-future-action Info-request Stanowiące reakcje na wcześniejsze wypowiedzi (Backward looking function) Answer Accept / Reject Signal-understanding / Signal-non-understanding

Akty dialogowe modyfikacje anotacji Czy każdy fragment powinien być otagowany? Proponujemy uzupełnienie listy tagów (również z DAMSL): Opening Closing Abandoned (fragmenty wypowiedzi nie na temat) Powrót do koncepcji powiązania wypowiedzi stanowiącej reakcję (Backward looking function) z fragmentem dialogu zawierającym pytanie lub propozycję.

Przykład A: o której jest najbliższy autobus z Dworca Południowego do Powsina? (info-request) B: o siódmej trzydzieści (answer) A: nie (reject) to może następny? (info-request)

Aktualny stan prac Poziomy anotacji korpusów zostały uzgodnione między partnerami i została przygotowana dokumentacja opisująca (z grubsza) format anotacji. Ponad 1500 dialogów z infolinii ZTM jest już nagranych. Trwa transkrypcja dialogów, wkrótce rozpocznie się ich anotacja morfosyntaktyczna. Jest gotowa wstępna wersja ontologii. Pierwsza wersja korpusu dialogów człowiek-człowiek powinna być przygotowana do końca roku.