Ujednoznacznianie sensów słów

Transkrypt

1 ł ę ł ń ł

2 Warsztaty Ujednoznacznianie sensów słów

3 Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów: zamek Warsztaty

4 Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek Warsztaty

7 Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek. Warsztaty

8 Ujednoznacznianie sensów słów Warsztaty Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek w drzwiach.

9 Ujednoznacznianie sensów słów Warsztaty Proces polegający na przypisaniu słowu odpowiedniego znaczenia wybranego ze zbioru znaczeń słów, odpowiadającego znaczeniu słowa w danym kontekście.

10 Ujednoznacznianie sensów słów Warsztaty Uczenie na podstawie oznaczeń w tekstach: Wymagane duże zasoby ręcznie oznaczonych tekstów. Czasochłonność ręcznego oznaczania tekstów (koszty). Każde słowo z osobna posiada swoje anotacje. Rozpoznawanie znaczeń kolejnego słowa = anotacje tego słowa = kolejne koszty. Zaleta: duża dokładność systemu. Wada: niska kompletność rozpoznawanych znaczeń.

11 Ujednoznacznianie sensów słów Warsztaty Uczenie bez wstępnego oznaczania w tekście: Nie jest wymagane wstępne znakowanie znaczeń w tekstach. Wykorzystanie istniejących struktur opisujących zależności między znaczeniami słów (Słowosieć). Zaleta: dużo większa kompletność rozpoznawanych słów w stosunku do ujednoznaczniania na podstawie ręcznych anotacji. Wada: mniejsza dokładność rozpoznawanych w stosunku do systemów uczonych na podstawie ręcznych oznaczeń.

12 Ujednoznacznianie sensów słów Warsztaty Nienadzorowane podejście oparte o przetwarzanie grafu. Po powrocie z pracy zepsułem zamek w drzwiach. graf dla słowa zamek.

13 Ujednoznacznianie sensów słów Po powrocie z pracy zepsułem zamek w drzwiach. Warsztaty

14 Ujednoznacznianie sensów słów Warsztaty Proces aktywacji synsetów Nienadzorowane podejście oparte o przetwarzanie grafu.

15 Ujednoznacznianie sensów słów Warsztaty Surowe wyjście WoSeDona anotacje WSD dla słowa zamek w zdaniu Po powrocie z pracy zepsułem zamek w drzwiach. <tok> <orth>zamek</orth> <lex disamb="1"> <base>zamek</base><ctag>subst:sg:acc:m3</ctag> </lex> <prop key="sense:ukb:syns_id">419</prop> <prop key="sense:ukb:syns_rank">419/ / / / / / / </prop> <prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop> </tok> Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek.

16 Warsztaty Ujednoznacznianie sensów słów - wyniki KPWr Konf. Składnica N V Śr N V Śr. 52,22 42,66 46,12 61,74 61,67 56,69 C8 C9 C9 C1 C9 C1 C8 - PPR, graf synsetów + SUMO, inicjalizacja Słowosieci C9 - Static, graf synsetów (waga,7) + jednostek (WAGA,3) + reranking 1% całego rankingu C1 - Static, graf synsetów, reranking 3% całego rankingu

17 Ujednoznacznianie sensów słów - zastosowania Warsztaty Zastosowania: Znaczenia jako cechy w uczeniu maszynowym: klasyfikacja semantyczna tekstów wykrywanie relacji semantycznych między fragmentami tekstów wykrywanie ról semantycznych (np. wewnątrz frazy rzeczownikowej) Pogłębienie tekstu w stronę semantyki, wiemy jakie jest znaczenie danego słowa Możliwość wnioskowania z siatki relacji semantycznych Słowosieci

18 Rzutowanie Słowosieci na SUMO Darmowa, otwarta, rozszerzenia na licencji GNU GPL Formalnie zdefiniowana - SUO-KIF Warsztaty

19 Rzutowanie na SUMO Warsztaty Strona domowa: Posiada rzutowania na różne WordNety (PWN, Perski itp.) Powiazana w MCR, WordNet Domains, Base Concepts, Top Ontology oraz AdimenSUMO Co nam daje rzutowanie Słowosieci na SUMO? Przejście na poziom pojęć ontologicznych - ogólniejszy opis słów z tekstu m.in. cechy klasyfikatora: Relacje między fragmentami Klasyfikacja semantyczna Relacje przestrzenne Powiązanie Słowosieci z innymi zasobami połączonymi z SUMO

20 Rzutowanie na SUMO Warsztaty Dostępne pod adresem:

21 WoSeDon i WebWoSeDon Warsztaty

22 WebWoSeDon Warsztaty WebWoSeDon - Narzędzie do generowania i przeglądania list frekwencyjnych znaczeń Słowosieci z korpusów tekstów. Korpus musi posiadać wcześniej przypisane znaczenia, za co odpowiada WoSeDon w fazie wstępnej przetwarzania tekstu (preprocessingu). Dostępność poprzez przeglądarkę pod adresem:

23 WebWoSeDon funkcjonalność Warsztaty Generowanie i przeglądanie list frekwencyjnych znaczeń z korpusów tekstów. Generowanie listy bezpośrednio z DSpace poprzez kliknięcie w przycisk: Ewentualnie poprzez wklejenie URI (np. do WoSeDona:

24 WebWoSeDon schemat działania Warsztaty

25 WebWoSeDon okno główne Warsztaty

26 WebWoSeDon funkcjonalność Warsztaty

27 WebWoSeDon funkcjonalność Warsztaty

28 WoSeDon funkcjonalność Warsztaty

31 Warsztaty WoSeDon funkcjonalność Definicje glosy, synonimy wyłącznie synonimy hiperonimy, holonimy itp.

32 WoSeDon - przykłady działania Warsztaty Korpus: Kodeksy ( Najczęstsze rzeczowniki

33 WoSeDon - przykłady działania Warsztaty Korpus: Kodeksy ( Najczęstsze czasowniki

34 WoSeDon - przykłady działania Warsztaty Korpus: Korpus wiadomości z pl.wikinews.org (Polska) lata ( Najczęstsze rzeczowniki

35 WoSeDon - przykłady działania Warsztaty Korpus: Korpus wiadomości z pl.wikinews.org (Polska) lata ( Najczęstsze czasowniki

36 WoSeDon - przykłady działania Warsztaty Korpus: Pytania i odpowiedzi z serwisu wikipedyjnego "Czy wiesz", wersja 2. ( Najczęstsze rzeczowniki

37 WoSeDon - przykłady działania Warsztaty Korpus: Pytania i odpowiedzi z serwisu wikipedyjnego "Czy wiesz", wersja 2. ( Najczęstsze czasowniki

38 Warsztaty Semantyka dystrybucyjna

39 Semantyka dystrybucyjna Warsztaty Semantyka formalna w duchu Wittgensteina znaczenie słowa jest zdeterminowane przez reguły jego użycia w obrębie specyficznej gry językowej znajomość znaczenie słowa oznacza zdolność do poprawnego użycia go w ramach gry językowej (lub: praktyce lingwistycznej) (Wittgenstein, Philosophical Investigations, 1953) Distributional Hypothesis (Hipoteza dystrybucyjna) (Harris, Mathematical Structures of Language, 1968) za (Sahlgren, 21) znaczenie wyrażeń i znaczenie relacji gramatycznych pomiędzy nimi jest powiązane z ograniczeniami nałożonymi na (poprawne) kombinacje wyrażeń ograniczenia w kombinacji wyrażają ograniczenia semantyczne rządzące dystrybucją wyrażeń w użyciach języka podsumowując: znaczenie słowa jest zdeterminowane jego użyciem, użycie jest manifestowane jego dystrybucją, wzorzec dystrybucyjny (definiowany przez konteksty) może być postrzegany jako cenne narzędzie w określaniu znaczenia słowa

40 Miara powiązania znaczeniowego Wzorzec dystrybucji konteksty użycia Macierz (współwystępowania) koincydencji gdzie: wi - lemat cj - cecha charakteryzująca kontekst M[wi, cj] częstość współwystąpienia z określoną cechą Warsztaty

41 Miara powiązania znaczeniowego Przykładowy korpus (Landauer, Foltz i Laham,1998) tytuły krótkich artykułów technicznych z dziedziny interakcji człowiek-komputer i teorii grafów podkreślone są słowa analizowane dalej c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey Warsztaty

42 Warsztaty Miara powiązania znaczeniowego LSA konstrukcja początkowej macierzy (Landauer, Foltz i Laham,1998) human interface computer user system response time EPS survey trees graph minors c1 c2 c3 c4 c5 m1 m2 m3 m

43 Miara powiązania znaczeniowego Efekt uboczny: następuje uogólnienie podobieństw miedzy słowami, np. p(human, user)= -,38 p(human,minors) = -.29 po redukcji do 2 wymiarów: p(human, user)=,94 p(human,minors) = -.83 (!) Przykład: wzmacnianie podobieństwa między słowami po wprowadzeniu nowej osi (Widdows, 24) Warsztaty

44 Warsztaty SuperMatrix tekst oznaczony morfosyntaktycznie (TaKIPI) lista lematów Konstrukcja macierzy definicje cech (operatory) Selekcja i transformacja Porównywanie wierszy grupy JL miara testy Miara powiązania znaczeniowego: Lematy x Lematy R

45 SuperMatrix Warsztaty Typy cech: dokument fakt wystąpienia w określonym dokumencie, współwystąpienie z określonym lematem, relacja leksykalno-składniowe, np. modyfikacja_przez_przymiotnik_rozłożysty Identyfikacja relacji leksykalno-składniowych brak płytkiego parsera języka polskiego o wymaganym pokryciu i dokładności ograniczenia leksykalno-morfo-syntaktyczne (TaKIPI) identyfikacja potencjalnych powiązań wyrazów

46 Warsztaty SuperMatrix Przykład: cechy wg częstości dla budynek Modyfikator przym. częstość MI Lina GRWF(Lin) mieszkalny nowy komunalny gospodarczy stary główny szkolny wysoki wielorodzinny zakładowy

47 Warsztaty SuperMatrix Przykład: cechy wg różnych transformacji dla budynek Brak transformacji Lin/GRWF(Lin) mieszkalny średniowysoki nowy apartamentowy komunalny celniczy gospodarczy czterokondygnacyjny stary dwukondygnacyjny główny dwunastopiętrowy szkolny dziesięciopiętrowy wysoki dziewięciokondygnacyjny wielorodzinny dziesięciokondygnacyjny zakładowy luksusowy

48 SuperMatrix Warsztaty Ograniczenia: często jedno znaczenie dominuje brak rozróżnienia pomiędzy różnymi relacjami leksykalnymi przypadkowe powiązania powodowane przez przypadkowe cechy brak jasnego kryterium odcięcia listy Korzyści: często zgodność z oczekiwaniami działanie dla dużego zbioru lematów skuteczność w różnorodnych zastosowaniach

49 Ocena miary powiązania znaczeniowego Test synonimii na podstawie wordnetu (tzw. WBST) Q: poczet A: astma, eskorta, fresk, pokojówka Q: aromat A: bukiet, certyfikat, sierżant, zapaśnik Rozszerzony test synonimii (EWBST) Q: aromat A: bukiet, kłąb, mróz, wyż Warsztaty

50 Warsztaty Ocena miary powiązania znaczeniowego MPZ Ludzie H H E 69,75 E min. maks śr. min. maks śr. 73,84 96,24 86,64 52,54 81,24 71,34 52,54 81,24 71,34 rzecz. 88,14 czas. 71,85 57,54 9,4 81,84 przym. 83,26 76,24 96,24 89,94 73,84 96,24 86,64 Częste (>1) rzecz. 92,28 75,43 czas. 75,94 57,54 9,4 81,84 przym. 86,92 76,24 96,24 89,94 Powyżej, H = HWBST, E = EWBST, MPZ = miara powiązania znaczeniowego

51 Word2Vec Warsztaty Ograniczenia wielu metod semantyki dystrybucyjnej wektory dla lematów reprezentują konglomeraty co gorsza obciążone w kierunku znaczeń dominujących może pojawić się silny aspekt wpływu konkretnych, wąskich dziedzin tematycznych wiele modeli, poczynając od LSA, nie wspiera arytmetyki na wektorach np. V(mężczyzna) + V(kobieta) = V(dziecko) żart, ale X = vector( biggest ) vector( big ) + vector( small ) (Mikolov et al., 213) konstrukcja modeli jest bardzo obliczeniochłonna Modele oparte na sieciach neuronowych pojawiły się wraz ze wzrostem mocy obliczeniowej i ilości pamięci różne architektury, w tym rekursywne, oparte na głębokim uczeniu itp. Ogromny sukces algorytmu Word2Vec implementacja modelu SkipGrams i Continuos Bag of Words Efektywność Zadziwiająco dobre możliwości arytmetyki na wektorach słów przy prostocie modelu

52 Word2Vec Warsztaty (Tomas Mikolov et al. 213)

53 Word2Vec Warsztaty (Tomas Mikolov et al. 213)

54 Word2Vec Warsztaty Chris McCormick (dostęp 11 I 217) p-gram-model/

55 Word2Vec Warsztaty Output Vector values in [,1] softmax estimation of probability of co-occurence Chris McCormick (dostęp 11 I 217)

56 Warsztaty Klasyfikacja semantyczna

57 Cechy dla języka polskiego Warsztaty Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 program do rozpoznawania nazw własnych - Liner2 program do ujednoznaczniania sensów słów - WoSeDon

58 Cechy morfologiczne Długość: dokumentu, akapitu, zdania Formy wyrazowe Znaki interpunkcyjne Pseudo-sufiksy ostatnie kilka liter Dowolne tokeny wyrazowe Lematy podstawowe formy morfologiczne wyznaczane z pomocą tagera morfosyntaktycznego Sekwencje n elementowe wyrazowych tokenów lematów dwuelementowe tzw. bigramy trzyelementowe tzw. trigramy Warsztaty

59 Cechy morfosyntaktyczne Warsztaty Części mowy wyznaczane na podstawie rozpoznania klas gramtycznych Klasy gramatyczne zgodnie z definicją w Narodowym Korpusie Języka Polskiego klas gramatycznych, np. pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja) wyznaczane przez tager morfosyntaktyczny Połączenie klas i wartości kategorii gramatycznych np. czasowniki w osobie 1 lub 2 Sekwencje klas gramatycznych przybliżają do pewnego stopnia konstrukcje składniowe

60 Cechy semantyczne Znaczenia leksykalne (sensy słów) wyznaczane względem Słowosieci identyfikatory wyznaczonych synsetów Uogólnione znaczenia leksykalne hiperonimy wyznaczonych synsetów poziom hiperonimu decyduje o stopniu uogólnienia Pojęcia ze sformalizowanej ontologii SUMO Suggested Upper Merged Ontology Dziedziny tematycznie ze zbioru WordNet Domains pola tematyczne wyznaczone w sposób automatyczny Warsztaty

61 Klasyfikacja semantyczna Warsztaty Cel klasyfikacji: przypisanie do dokumentów tekstowych lub fragmentów tekstów klas semantycznych (tagowanie, kodowanie) klasy są zdefiniowane przez użytkownika np. funkcja społeczna, ekonomiczna, styl naukowy, list pożegnalny, archeologia, Rodzaje systemów klasyfikacji nienadzorowane: klasy są zdefiniowane opisowo program klasyfikatora jest konstruowany i dostrajany na podstawie dużej ilości danych nadzorowane klasy są zadana w postaci ręcznie anotowanych dokumentów lub fragmentów tekstu

62 Proces budowy klasyfikatora Identyfikacja źródeł Pozyskanie korpusu tekstów Wstępne przetwarzanie korpusu Ręczna anotacja podkorpusu treningowo-testowego Automatyczna anotacja korpusu Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6 Warsztaty

63 Przykład: klasyfikacja listów pożegnalnych Warsztaty Zadanie: Klasy: prawdziwe listy pożegnalne, sfałszowane listy pożegnalne, teksty inne Dane oparte na Polskim Korpusie Listów Pożegnalnych (Zaśko-Zielińska, 213) prawdziwe (autentyczne) listy pożegnalne 334 sfałszowane listy (eksperyment, ochotnicy) 2 2 listów z forów internetowych + 1 tekstów z Wikipedii Informatywne cechy: lematy, znaki interpunkcyjne, wielka litera, klasy gramatyczne, czasowniki 1 i 2 osoby, bigramy, klasy nazw własnych, znaczenia (Słowosieć) i uogólnienia znaczeń

64 Przykład wyniku: klasyfikacja listów pożegnalnych Warsztaty System Cindirella Cechy: wielka litera, znaki interpunkcyjne, klasy gramatyczne (wg NKJP), bigramy (dwójki) klas gramatycznych, czasownik w 1 i 2 osobie, klasy nazw własnych, uogólnione znaczenia, dziedziny, pojęcia SUMO Dokładność (ogólna): 93,78% Kompletność (prawdziwych): 88,36% Dokładność dla prawdziwych: 88,56% Dokładność odrzucania: 95,7%

65 Przykład cech istotnych: klasyfikacja listów pożegnalnych Bigram: interp_pusty Klasa gram.: interp Bigram: subst_interp Czasownik 1 i 2 Bigram: adj_interp Klasa gram.: subst Znak interp.: przecinek Klasa gram.:ppron12_count Dziedzina: rel (przym. relacyjne) Bigram: subst_adj Klasa gram.: impt Klasa gram.: noun Znak interp.: myślnik Bigram: interp_interp Bigram: interp_adj Klasa gram.: adj Warsztaty Wielka litera Dziedzina: zwz (związki) Bigram: subst_subst Klasa gram.: ger Bigram: subst_ppas Dziedzina: zdarz (zdarzenia) Znak interp.: znak zapytania Uog. znaczenie:grupa-4(grp) zbiór-1(grp) Bigram: adj_subst Klasa nazwy: kraje Bigram.: praet_aglt Bigram: subst_pusty Bigram: prep_subst Uog. znaczenie: wykonywanie_czynności_religijnyc h_bądź_magicznych-1(czy)

66 Przykład cech istotnych: klasyfikacja listów pożegnalnych Cechy semantyczne 9) Dziedzina: rel (przym. relacyjne) 18) Dziedzina: zwz (związki) 22) Dziedzina: zdarz (zdarzenia) 24) Uog. znaczenie:grupa-4(grp) zbiór-1(grp) 3) Uog. znaczenie: wykonywanie_czynności_ religijnych_bądź_magicznych-1 (czy) 39) Uog. znaczenie: właściwość-1(cech) przymiot-1(cech) cecha-1(cech) własność-2(cech) atrybut-1(cech) Infrastruktura badawcza Wrocław ) oddalanie_się-1(czy) 43) Uog. znaczenie: człowiek_określany_pieszczotliwie-1 (os) człowiek_określany_familiarnie-1 (os) 44) Uog. znaczenie: doświadczać_pozytywnego_uczucia-1 (cst) 45) Uog. znaczenie: chować-7(cczuj) żywić-2 (cczuj) 46) Uog. znaczenie: GERUNDIUM-1(bhp) 47) Uog. znaczenie: GERUNDIUM_OD_CZASOWNIKA_D YNAMICZNEGO_NIEZMIENNOSTAN OWEGO-1(czy)

67 Przykład: kategorie Wikipedii Infrastruktura badawcza Wrocław Zadanie: Dane: 67 uogólnionych kategorii z Wikipedii ręcznie wybrane nadkategorie, połączone podkategorie zróżnicowane dziedziny Cel: przypisanie klas do artykułów Najistotniejsze cechy: wielka litera, znaki interpunkcyjne, lematy, klasy gramatyczne, bigramy klas, klasy nazw własnych, znaczenia, znaczenia ogólne, pojęcia z SUMO

68 Infrastruktura badawcza Wrocław Przykład: kategorie Wikipedii Klasy Albania Astronautyka Ekologia roślin Gałęzie prawa Karkonosze Kotowate Muzyka poważna Piłka nożna Propaganda polityczna Sporty siłowe Dokładność Średnia Dokładność Dokładność Kompletno harmoniczna wyboru odrzucania ść wyboru 99,2% 98,7% 99,1% 98,1% 99,8% 1,% 98,9% 99,7% 86,21% 81,16% 84,75% 67,8% 95,45% 1,% 8,% 95,89% 89,29% 84,85% 8,65% 62,5% 1,% 1,% 91,67% 94,59% 99,49% 99,17% 99,69% 99,28% 99,8% 1,% 99,8% 99,9% 83,33% 77,78% 89,29% 74,7% 91,3% 1,% 7,97% 97,22% 97,9% 99,8% 65,57% 96,77% 64,52% 93,75% 98,97% 1,% 66,67% 1,%

69 Warsztaty Relacje między fragmentami tekstów

70 Relacje między fragmentami tekstów Warsztaty Relacje między dwoma zdaniami: S1 oraz S2. Bazuje na podejściu RST (Rhetorical Structure Theory) W Clarin: zestaw relacji z modelu CST (Cross-document Structure Theory) - 16 relacji Podział relacji CST wg. Maziero

71 Relacje między fragmentami tekstów - definicje cz. 1 Warsztaty Krzyżowanie się S1 przedstawia informacje X i Y, zaś S2 przedstawia informacje X i Z: S1: Samolot rozbił się, uderzając w 25 piętro budynku Pirelli znajdującego się w centrum miasta Milan. S2: Mały turystyczny samolot zderzył się z najwyższym budynkiem w Milanie. Zawieranie S1 zawiera wszystkie informacje z S2, oraz dodatkowe informacje niewystępujące w S2: S1: Z trzema zwycięstwami w tym roku Green Bay ma najlepszy wynik w lidze NFL. S2: Green Bay trzy razy osiągnął zwycięstwo w tym roku. Zmiana poglądu Zdanie S1 opublikowane zostało później niż S2, jednak ta sama osoba przedstawia dwie odmienne opinie dotyczącego tego samego bytu, tej samej sytuacji lub prezentuje ten sam fakt w innym świetle: S1: Giuliani skrytykował Związek Oficerów jako zbyt wymagający podczas rozmów o umowach. S2: Giuliani pochwalił Związek Oficerów, który dostarcza prawnego wsparcia i pomocy swoim członkom. Tożsamość S1 oraz S2 to dokładnie takie same zdania.

72 Relacje między fragmentami tekstów - definicje cz. 2 Warsztaty Mowa zależna S1 pośrednio cytuje coś, co zostało bezpośrednio przytoczone w S2. Mowa zależna może polegać na parafrazie pewnych słów przy zachowaniu pełnej tożsamości znaczeniowej: S1: Pan Cuban zagwarantował tłumowi darmowe cukierki. S2: Gwarantuję darmowe cukierki Pan Cuban powiedział do tłumu. Streszczanie S1 streszcza S2 (tj. S1 zawiera kluczowe informacje z S2): S1: Mets wygrali tytuł w siedmiu grach. S2: Po wyczerpujących sześciu grach, Mets przybyli dziś wieczorem by wziąć sobie tytuł. Spełnienie S1 potwierdza wystąpienie (spełnienie się) zdarzenia przewidzianego w (zapowiedzi z) S2: S1: Po podróży do Austrii, Pan Green wrócił do domu w Nowym Jorku. S2: Pan Green pojedzie do Austrii. Uszczegółowienie Zdanie S1 dostarcza dodatkowych szczegółów opisanych ogólniej w S2: S1: Publiczna telewizja RAI donosi, że S2: Włoska telewizja podała, że sygnał SOS nadany przez pilota spowodowany był problemem technicznym.

73 Relacje między fragmentami tekstów - definicje cz. 3 Warsztaty Opis w S1 znajduje się opis bytu wspomnianego w S2, S1: Greenfield, emerytowany generał i ojciec dwojga dzieci, odmówił komentarza. S2: Pan Greenfield pojawił się wczoraj w sądzie. Źródło S1 zawiera źródło informacji występującej w S2: S1: Durczok powiedział, że Ameryka wypowie wojnę Korei. S2: Ameryka wypowie wojnę Korei. Cytowanie S1 bezpośrednio cytuje fragment zdania S2 pochodzącego z innego dokumentu: S1: Wcześniejszy artykuł cytuje księcia Alberta mówiącego: Nigdy nie będę uprawiał hazardu. S2: Książę Albert kontynuował mówiąc: Nigdy nie będę uprawiał hazardu Sprzeczność S1 i S2, pochodzące z tego samego momentu czasu, zawierają konfliktujące ze sobą informacje: S1: Na pokładzie zestrzelonego samolotu były 122 osoby. S2: 126 osób było na pokładzie samolotu.

74 Relacje między fragmentami tekstów - definicje cz. 4 Warsztaty Parafraza S1 oraz S2 zawierają dokładnie takie same informacje wyrażone jednak różnymi słowami, S1: Wałęsa był agentem SB. S2: Lechu współpracował jako agent z SB. Modalność S1 z dodatkiem ramy modalnej przedstawia wersję informacji przed stawionych w S2: S1: Uważa się, że Sean Combs posiada kilka posiadłości wartych wiele milionów. S2: Puffy posiada cztery wielomilionowe domy w rejonie Nowego Jorku. Tło historyczne S1 opisuje kontekst historyczny przedstawiony w S2: S1: To był czwarty raz jak członek rodziny królewskiej rozwiódł się. S2: Duke Windsor wczoraj rozwiódł się z Duchess Windsor Dalsze informacje S1 zawiera dodatkowe informacje w stosunku do S2, jednak S1 opublikowane zostało po S2: S1: 12 ofiary zostały odnotowane w rejonie trzęsienia ziemi. S2: Do tej pory nie potwierdzono ofiar trzęsienia ziemi.

75 Warsztaty Relacje między fragmentami tekstów - znakowanie Relacja Etap 1 Etap 2 Relacja Etap 1 Etap 2 Mowa zależna Opis Streszczanie Źródło 46 5 Spełnienie Cytowanie 3 3 Uszczegółowienie Sprzeczność 17 2 Krzyżowanie się Parafraza Zawieranie Modalność 1 1 Zmiana poglądu 6 6 Tło historyczne Tożsamość 47 6 Dalsze informacje Wykorzystane teksty z Wikinews Liczba relacji oznakowanych w etapie 1: 2945 Liczba relacji oznakowanych w etapie 2: 3269 Oznakowany korpus, dostępny pod adresem:

76 Relacje między fragmentami tekstów - wyniki Wyniki klasyfikacji z podziałem na dane uczące (5%) oraz testowe (4%) Warsztaty

77 Relacje między fragmentami tekstów - zastosowanie Warsztaty Wewnątrz dokumentu, informacja o strukturze dokumentu: podział tekstu na segmenty (np. zachodzenie tej samej relacji między kolejnymi zdaniami, aż do jej zmiany). nazwanie wydzielonych segmentów, np. temat, abstrakt, itp. W procesie uczenia maszynowego: streszczanie dokumentów (relacja streszczania, krzyżowania, zawierania, ) podobieństwo dokumentów: czy dokumenty mówią o tym samym - tematyka czy dokumenty dotyczą tego samego obiektu/zdarzenia? badanie opinii/wiarygodności informacji na jakiś temat (np. zachodzenie relacji sprzeczność)

78 Warsztaty Mapa Literacka

79 Mapa Literacka Warsztaty Narzędzie do wizualizacji obiektów geograficznych na mapie Utrzymywane i rozwijane przez Centrym Technologii Językowych (CTJ) na Politechnice Wrocławskiej Inspirowane geokrytycznymi badaniami literaturoznawczymi kartografia literacka, geografia humanistyczna. Współpraca z Instytutem Badań Literackich (IBL) PAN Planowane zastosowanie m.in. w projekcie Literaturoznawstwo architektoniczne realizowanym w IBL PAN (kierownik: Aleksanda Wójtowicz)

80 Możliwe zastosowania Warsztaty Badania w zakresie kartografii literackiej wizualizacja miejsc fikcyjnych w odniesieniu do realnej przestrzeni, mapy mentalne kreowane przez pisarza. Badania nad literacko-kulturową ważnością miejsc i obiektów akcentowane są związki pisarzy i miejsc istotna jest sieć relacji kulturowych analizy zbioru tekstów związanych z działalnością kilku pisarzy (np. zgromadzonych wokół jednego czasopisma) Badania nad ewolucją ważności miejsc i obiektów uwzględnienie osi czasu i nałożenie na siebie różnych planów tego samego miasta

81 Warsztaty Potok przetwarzania Automatyczna analiza językowa CTJ Geokodowanie obiektów geograficznych Google Geocoding API konwersja dokumentów do tekstu (any2txt) segmentacja i tokenizacja (toki) analiza morfologiczna (MACA, Morfeusz) tagowanie (WCRFT2) rozpoznawanie odniesień (Liner2) rozpoznawanie relacji semantycznych (Serel) Interpretacja wyników Ręczna weryfikacja wyników Geolokalizacja /wizualizacja Google Maps

82 Geokodowanie (1/2) Warsztaty punktem zaczepienia dla geokodowania są toponimy (głównie obiekty geopolityczne) oraz urbanonimy w obrębie miast, na początku skupiamy się na istniejących obiektach, których współrzędne można ustalić przy użyciu istniejących narzędzi: Google Geocoding API geokoduje formy odmienione nazw, licencja posiada ograniczenia na liczbę zapytań, OpenStreetMap nie obsługuje form odmienionych nazw, własnej implementacji dopasowania form odmienionych bazowych, np. Grunwaldzką, Gdańsku vs. Grunwaldzka, ( darmowa wymaga do form Gdańsk

83 Warsztaty Geokodowanie (2/2) kontekstowa dezambiguacja obiektów łączenie z obiektami o wyższej wadze, które wystąpiły w bliskim kontekście danej nazwy, np. dla tekstu Wiadomości z Polski. We Wrocławiu na ul. Suchej Polska, Wrocław, ul. Sucha Wrocław, ul. Sucha ul. Sucha ustalenie lokalizacji obiektów miejskich (restauracje, kina, pomniki, itd.) istniejących w danym okresie na podstawie interpretacji relacji przestrzennych (Serel, SpatialPL) Kategoria toponimu Waga continent_nam 8 island_nam 7 peninsula_nam 68 cape_nam 65 region_nam 63 country_nam 6 country_region_nam 5 historical_region_nam 5 mountain_nam 45 admin1_nam 4 conurbation_nam 35 admin3_nam 3 admin2_nam 2 city_nam 15 river_nam 12 sea_nam 1

84 Strona główna Warsztaty

85 Dodanie nowego dokumentu Warsztaty

86 Lista obiektów (alfabetycznie) Warsztaty

87 Lista obiektów (chronologicznie) Warsztaty

88 Plany Warsztaty Włączenie w potok przetwarzania modułu do rozpoznawania wyrażeń przestrzennych (SpatialPL), modułu do rozpoznawania koreferencji, Rozbudowa interfejsu możliwość edycji wyników (edycja na poziomie odniesień i geokodowania), możliwość eksportu wyników, możliwość porównywania map dla różnych zbiorów tekstów.

89 Warsztaty WebWoSedon - krótkie ćwiczenie

90 WebWoSeDon - ćwiczenia Warsztaty Wyszukiwanie korpusu do tworzenia list frekwencyjnych (

91 WebWoSeDon - ćwiczenia Warsztaty Wyszukiwanie korpusu do tworzenia list frekwencyjnych.

92 WebWoSeDon - ćwiczenia Warsztaty Tworzenie listy frekwencyjnej za pomocą interfejsu DSpace