ł ę ł ń ł
Warsztaty Ujednoznacznianie sensów słów
Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów: zamek Warsztaty
Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek Warsztaty
Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek Warsztaty
Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek Warsztaty
Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek. Warsztaty
Ujednoznacznianie sensów słów Warsztaty Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek w drzwiach.
Ujednoznacznianie sensów słów Warsztaty Proces polegający na przypisaniu słowu odpowiedniego znaczenia wybranego ze zbioru znaczeń słów, odpowiadającego znaczeniu słowa w danym kontekście.
Ujednoznacznianie sensów słów Warsztaty Uczenie na podstawie oznaczeń w tekstach: Wymagane duże zasoby ręcznie oznaczonych tekstów. Czasochłonność ręcznego oznaczania tekstów (koszty). Każde słowo z osobna posiada swoje anotacje. Rozpoznawanie znaczeń kolejnego słowa = anotacje tego słowa = kolejne koszty. Zaleta: duża dokładność systemu. Wada: niska kompletność rozpoznawanych znaczeń.
Ujednoznacznianie sensów słów Warsztaty Uczenie bez wstępnego oznaczania w tekście: Nie jest wymagane wstępne znakowanie znaczeń w tekstach. Wykorzystanie istniejących struktur opisujących zależności między znaczeniami słów (Słowosieć). Zaleta: dużo większa kompletność rozpoznawanych słów w stosunku do ujednoznaczniania na podstawie ręcznych anotacji. Wada: mniejsza dokładność rozpoznawanych w stosunku do systemów uczonych na podstawie ręcznych oznaczeń.
Ujednoznacznianie sensów słów Warsztaty Nienadzorowane podejście oparte o przetwarzanie grafu. Po powrocie z pracy zepsułem zamek w drzwiach. graf dla słowa zamek.
Ujednoznacznianie sensów słów Po powrocie z pracy zepsułem zamek w drzwiach. Warsztaty
Ujednoznacznianie sensów słów Warsztaty Proces aktywacji synsetów Nienadzorowane podejście oparte o przetwarzanie grafu.
Ujednoznacznianie sensów słów Warsztaty Surowe wyjście WoSeDona anotacje WSD dla słowa zamek w zdaniu Po powrocie z pracy zepsułem zamek w drzwiach. <tok> <orth>zamek</orth> <lex disamb="1"> <base>zamek</base><ctag>subst:sg:acc:m3</ctag> </lex> <prop key="sense:ukb:syns_id">419</prop> <prop key="sense:ukb:syns_rank">419/.187161737 43594/.1711723551 46716/.15479231 4189/.1383621756 46718/.1349534529 52769/.117446943 43596/.17127174</prop> <prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop> </tok> Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek.
Warsztaty Ujednoznacznianie sensów słów - wyniki KPWr Konf. Składnica N V Śr N V Śr. 52,22 42,66 46,12 61,74 61,67 56,69 C8 C9 C9 C1 C9 C1 C8 - PPR, graf synsetów + SUMO, inicjalizacja Słowosieci C9 - Static, graf synsetów (waga,7) + jednostek (WAGA,3) + reranking 1% całego rankingu C1 - Static, graf synsetów, reranking 3% całego rankingu
Ujednoznacznianie sensów słów - zastosowania Warsztaty Zastosowania: Znaczenia jako cechy w uczeniu maszynowym: klasyfikacja semantyczna tekstów wykrywanie relacji semantycznych między fragmentami tekstów wykrywanie ról semantycznych (np. wewnątrz frazy rzeczownikowej) Pogłębienie tekstu w stronę semantyki, wiemy jakie jest znaczenie danego słowa Możliwość wnioskowania z siatki relacji semantycznych Słowosieci
Rzutowanie Słowosieci na SUMO Darmowa, otwarta, rozszerzenia na licencji GNU GPL Formalnie zdefiniowana - SUO-KIF Warsztaty
Rzutowanie na SUMO Warsztaty Strona domowa: http://www.adampease.org/op/ Posiada rzutowania na różne WordNety (PWN, Perski itp.) Powiazana w MCR, WordNet Domains, Base Concepts, Top Ontology oraz AdimenSUMO Co nam daje rzutowanie Słowosieci na SUMO? Przejście na poziom pojęć ontologicznych - ogólniejszy opis słów z tekstu m.in. cechy klasyfikatora: Relacje między fragmentami Klasyfikacja semantyczna Relacje przestrzenne Powiązanie Słowosieci z innymi zasobami połączonymi z SUMO
Rzutowanie na SUMO Warsztaty Dostępne pod adresem: http://hdl.handle.net/11321/37
WoSeDon i WebWoSeDon Warsztaty
WebWoSeDon Warsztaty WebWoSeDon - Narzędzie do generowania i przeglądania list frekwencyjnych znaczeń Słowosieci z korpusów tekstów. Korpus musi posiadać wcześniej przypisane znaczenia, za co odpowiada WoSeDon w fazie wstępnej przetwarzania tekstu (preprocessingu). Dostępność poprzez przeglądarkę pod adresem: http://wosedon.clarin-pl.eu/home
WebWoSeDon funkcjonalność Warsztaty Generowanie i przeglądanie list frekwencyjnych znaczeń z korpusów tekstów. Generowanie listy bezpośrednio z DSpace poprzez kliknięcie w przycisk: Ewentualnie poprzez wklejenie URI (np. http://hdl.handle.net/11321/114) do WoSeDona:
WebWoSeDon schemat działania Warsztaty
WebWoSeDon okno główne Warsztaty
WebWoSeDon funkcjonalność Warsztaty
WebWoSeDon funkcjonalność Warsztaty
WoSeDon funkcjonalność Warsztaty
WoSeDon funkcjonalność Warsztaty
WoSeDon funkcjonalność Warsztaty
Warsztaty WoSeDon funkcjonalność Definicje glosy, synonimy 91 354 wyłącznie synonimy 19 199 hiperonimy, holonimy 61 171 itp.
WoSeDon - przykłady działania Warsztaty Korpus: Kodeksy (https://clarin-pl.eu/dspace/handle/11321/22) Najczęstsze rzeczowniki
WoSeDon - przykłady działania Warsztaty Korpus: Kodeksy (https://clarin-pl.eu/dspace/handle/11321/22) Najczęstsze czasowniki
WoSeDon - przykłady działania Warsztaty Korpus: Korpus wiadomości z pl.wikinews.org (Polska) lata 213-215 (https://clarin-pl.eu/dspace/handle/11321/335) Najczęstsze rzeczowniki
WoSeDon - przykłady działania Warsztaty Korpus: Korpus wiadomości z pl.wikinews.org (Polska) lata 213-215 (https://clarin-pl.eu/dspace/handle/11321/335) Najczęstsze czasowniki
WoSeDon - przykłady działania Warsztaty Korpus: Pytania i odpowiedzi z serwisu wikipedyjnego "Czy wiesz", wersja 2. (https://clarin-pl.eu/dspace/handle/11321/324) Najczęstsze rzeczowniki
WoSeDon - przykłady działania Warsztaty Korpus: Pytania i odpowiedzi z serwisu wikipedyjnego "Czy wiesz", wersja 2. (https://clarin-pl.eu/dspace/handle/11321/324) Najczęstsze czasowniki
Warsztaty Semantyka dystrybucyjna
Semantyka dystrybucyjna Warsztaty Semantyka formalna w duchu Wittgensteina znaczenie słowa jest zdeterminowane przez reguły jego użycia w obrębie specyficznej gry językowej znajomość znaczenie słowa oznacza zdolność do poprawnego użycia go w ramach gry językowej (lub: praktyce lingwistycznej) (Wittgenstein, Philosophical Investigations, 1953) Distributional Hypothesis (Hipoteza dystrybucyjna) (Harris, Mathematical Structures of Language, 1968) za (Sahlgren, 21) znaczenie wyrażeń i znaczenie relacji gramatycznych pomiędzy nimi jest powiązane z ograniczeniami nałożonymi na (poprawne) kombinacje wyrażeń ograniczenia w kombinacji wyrażają ograniczenia semantyczne rządzące dystrybucją wyrażeń w użyciach języka podsumowując: znaczenie słowa jest zdeterminowane jego użyciem, użycie jest manifestowane jego dystrybucją, wzorzec dystrybucyjny (definiowany przez konteksty) może być postrzegany jako cenne narzędzie w określaniu znaczenia słowa
Miara powiązania znaczeniowego Wzorzec dystrybucji konteksty użycia Macierz (współwystępowania) koincydencji gdzie: wi - lemat cj - cecha charakteryzująca kontekst M[wi, cj] częstość współwystąpienia z określoną cechą Warsztaty
Miara powiązania znaczeniowego Przykładowy korpus (Landauer, Foltz i Laham,1998) tytuły krótkich artykułów technicznych z dziedziny interakcji człowiek-komputer i teorii grafów podkreślone są słowa analizowane dalej c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey Warsztaty
Warsztaty Miara powiązania znaczeniowego LSA konstrukcja początkowej macierzy (Landauer, Foltz i Laham,1998) human interface computer user system response time EPS survey trees graph minors c1 c2 c3 c4 c5 m1 m2 m3 m4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1
Miara powiązania znaczeniowego Efekt uboczny: następuje uogólnienie podobieństw miedzy słowami, np. p(human, user)= -,38 p(human,minors) = -.29 po redukcji do 2 wymiarów: p(human, user)=,94 p(human,minors) = -.83 (!) Przykład: wzmacnianie podobieństwa między słowami po wprowadzeniu nowej osi (Widdows, 24) Warsztaty
Warsztaty SuperMatrix tekst oznaczony morfosyntaktycznie (TaKIPI) lista lematów Konstrukcja macierzy definicje cech (operatory) Selekcja i transformacja Porównywanie wierszy grupy JL miara testy Miara powiązania znaczeniowego: Lematy x Lematy R
SuperMatrix Warsztaty Typy cech: dokument fakt wystąpienia w określonym dokumencie, współwystąpienie z określonym lematem, relacja leksykalno-składniowe, np. modyfikacja_przez_przymiotnik_rozłożysty Identyfikacja relacji leksykalno-składniowych brak płytkiego parsera języka polskiego o wymaganym pokryciu i dokładności ograniczenia leksykalno-morfo-syntaktyczne (TaKIPI) identyfikacja potencjalnych powiązań wyrazów
Warsztaty SuperMatrix Przykład: cechy wg częstości dla budynek Modyfikator przym. częstość MI Lina GRWF(Lin) mieszkalny 6173 5.37 6 nowy 1776.89 2 komunalny 1362 3.65 5 gospodarczy 117 1.8 3 stary 1141 1.67 3 główny 968 1.56 3 szkolny 651 2.73 4 wysoki 646.43 1 wielorodzinny 639 5.73 7 zakładowy 522 3.62 5
Warsztaty SuperMatrix Przykład: cechy wg różnych transformacji dla budynek Brak transformacji Lin/GRWF(Lin) mieszkalny średniowysoki nowy apartamentowy komunalny celniczy gospodarczy czterokondygnacyjny stary dwukondygnacyjny główny dwunastopiętrowy szkolny dziesięciopiętrowy wysoki dziewięciokondygnacyjny wielorodzinny dziesięciokondygnacyjny zakładowy luksusowy
SuperMatrix Warsztaty Ograniczenia: często jedno znaczenie dominuje brak rozróżnienia pomiędzy różnymi relacjami leksykalnymi przypadkowe powiązania powodowane przez przypadkowe cechy brak jasnego kryterium odcięcia listy Korzyści: często zgodność z oczekiwaniami działanie dla dużego zbioru lematów skuteczność w różnorodnych zastosowaniach
Ocena miary powiązania znaczeniowego Test synonimii na podstawie wordnetu (tzw. WBST) Q: poczet A: astma, eskorta, fresk, pokojówka Q: aromat A: bukiet, certyfikat, sierżant, zapaśnik Rozszerzony test synonimii (EWBST) Q: aromat A: bukiet, kłąb, mróz, wyż Warsztaty
Warsztaty Ocena miary powiązania znaczeniowego MPZ Ludzie H H E 69,75 E min. maks śr. min. maks śr. 73,84 96,24 86,64 52,54 81,24 71,34 52,54 81,24 71,34 rzecz. 88,14 czas. 71,85 57,54 9,4 81,84 przym. 83,26 76,24 96,24 89,94 73,84 96,24 86,64 Częste (>1) rzecz. 92,28 75,43 czas. 75,94 57,54 9,4 81,84 przym. 86,92 76,24 96,24 89,94 Powyżej, H = HWBST, E = EWBST, MPZ = miara powiązania znaczeniowego
Word2Vec Warsztaty Ograniczenia wielu metod semantyki dystrybucyjnej wektory dla lematów reprezentują konglomeraty co gorsza obciążone w kierunku znaczeń dominujących może pojawić się silny aspekt wpływu konkretnych, wąskich dziedzin tematycznych wiele modeli, poczynając od LSA, nie wspiera arytmetyki na wektorach np. V(mężczyzna) + V(kobieta) = V(dziecko) żart, ale X = vector( biggest ) vector( big ) + vector( small ) (Mikolov et al., 213) konstrukcja modeli jest bardzo obliczeniochłonna Modele oparte na sieciach neuronowych pojawiły się wraz ze wzrostem mocy obliczeniowej i ilości pamięci różne architektury, w tym rekursywne, oparte na głębokim uczeniu itp. Ogromny sukces algorytmu Word2Vec implementacja modelu SkipGrams i Continuos Bag of Words Efektywność Zadziwiająco dobre możliwości arytmetyki na wektorach słów przy prostocie modelu
Word2Vec Warsztaty (Tomas Mikolov et al. 213)
Word2Vec Warsztaty (Tomas Mikolov et al. 213)
Word2Vec Warsztaty Chris McCormick (dostęp 11 I 217) http://mccormickml.com/216/4/19/word2vec-tutorial-the-ski p-gram-model/
Word2Vec Warsztaty Output Vector values in [,1] softmax estimation of probability of co-occurence Chris McCormick (dostęp 11 I 217)
Warsztaty Klasyfikacja semantyczna
Cechy dla języka polskiego Warsztaty 217-2-4 Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 program do rozpoznawania nazw własnych - Liner2 program do ujednoznaczniania sensów słów - WoSeDon
Cechy morfologiczne Długość: dokumentu, akapitu, zdania Formy wyrazowe Znaki interpunkcyjne Pseudo-sufiksy ostatnie kilka liter Dowolne tokeny wyrazowe Lematy podstawowe formy morfologiczne wyznaczane z pomocą tagera morfosyntaktycznego Sekwencje n elementowe wyrazowych tokenów lematów dwuelementowe tzw. bigramy trzyelementowe tzw. trigramy Warsztaty 217-2-4
Cechy morfosyntaktyczne Warsztaty 217-2-4 Części mowy wyznaczane na podstawie rozpoznania klas gramtycznych Klasy gramatyczne zgodnie z definicją w Narodowym Korpusie Języka Polskiego klas gramatycznych, np. pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja) wyznaczane przez tager morfosyntaktyczny Połączenie klas i wartości kategorii gramatycznych np. czasowniki w osobie 1 lub 2 Sekwencje klas gramatycznych przybliżają do pewnego stopnia konstrukcje składniowe
Cechy semantyczne Znaczenia leksykalne (sensy słów) wyznaczane względem Słowosieci identyfikatory wyznaczonych synsetów Uogólnione znaczenia leksykalne hiperonimy wyznaczonych synsetów poziom hiperonimu decyduje o stopniu uogólnienia Pojęcia ze sformalizowanej ontologii SUMO Suggested Upper Merged Ontology Dziedziny tematycznie ze zbioru WordNet Domains pola tematyczne wyznaczone w sposób automatyczny Warsztaty 217-2-4
Klasyfikacja semantyczna Warsztaty 217-2-4 Cel klasyfikacji: przypisanie do dokumentów tekstowych lub fragmentów tekstów klas semantycznych (tagowanie, kodowanie) klasy są zdefiniowane przez użytkownika np. funkcja społeczna, ekonomiczna, styl naukowy, list pożegnalny, archeologia, Rodzaje systemów klasyfikacji nienadzorowane: klasy są zdefiniowane opisowo program klasyfikatora jest konstruowany i dostrajany na podstawie dużej ilości danych nadzorowane klasy są zadana w postaci ręcznie anotowanych dokumentów lub fragmentów tekstu
Proces budowy klasyfikatora 1. 2. 3. 4. 5. 6. Identyfikacja źródeł Pozyskanie korpusu tekstów Wstępne przetwarzanie korpusu Ręczna anotacja podkorpusu treningowo-testowego Automatyczna anotacja korpusu Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6 Warsztaty 217-2-4
Przykład: klasyfikacja listów pożegnalnych Warsztaty 217-2-4 Zadanie: Klasy: prawdziwe listy pożegnalne, sfałszowane listy pożegnalne, teksty inne Dane oparte na Polskim Korpusie Listów Pożegnalnych (Zaśko-Zielińska, 213) 1 224 prawdziwe (autentyczne) listy pożegnalne 334 sfałszowane listy (eksperyment, ochotnicy) 2 2 listów z forów internetowych + 1 tekstów z Wikipedii Informatywne cechy: lematy, znaki interpunkcyjne, wielka litera, klasy gramatyczne, czasowniki 1 i 2 osoby, bigramy, klasy nazw własnych, znaczenia (Słowosieć) i uogólnienia znaczeń
Przykład wyniku: klasyfikacja listów pożegnalnych Warsztaty 217-2-4 System Cindirella Cechy: wielka litera, znaki interpunkcyjne, klasy gramatyczne (wg NKJP), bigramy (dwójki) klas gramatycznych, czasownik w 1 i 2 osobie, klasy nazw własnych, uogólnione znaczenia, dziedziny, pojęcia SUMO Dokładność (ogólna): 93,78% Kompletność (prawdziwych): 88,36% Dokładność dla prawdziwych: 88,56% Dokładność odrzucania: 95,7%
Przykład cech istotnych: klasyfikacja listów pożegnalnych 1. 2. 3. 4. 5. 6. 7. 8. 9. 1. 11. 12. 13. 14. 15. 16. Bigram: interp_pusty Klasa gram.: interp Bigram: subst_interp Czasownik 1 i 2 Bigram: adj_interp Klasa gram.: subst Znak interp.: przecinek Klasa gram.:ppron12_count Dziedzina: rel (przym. relacyjne) Bigram: subst_adj Klasa gram.: impt Klasa gram.: noun Znak interp.: myślnik Bigram: interp_interp Bigram: interp_adj Klasa gram.: adj 17. 18. 19. 2. 21. 22. 23. 24. 25. 26. 27. 28. 29. 3. Warsztaty 217-2-4 Wielka litera Dziedzina: zwz (związki) Bigram: subst_subst Klasa gram.: ger Bigram: subst_ppas Dziedzina: zdarz (zdarzenia) Znak interp.: znak zapytania Uog. znaczenie:grupa-4(grp) zbiór-1(grp) Bigram: adj_subst Klasa nazwy: kraje Bigram.: praet_aglt Bigram: subst_pusty Bigram: prep_subst Uog. znaczenie: wykonywanie_czynności_religijnyc h_bądź_magicznych-1(czy)
Przykład cech istotnych: klasyfikacja listów pożegnalnych Cechy semantyczne 9) Dziedzina: rel (przym. relacyjne) 18) Dziedzina: zwz (związki) 22) Dziedzina: zdarz (zdarzenia) 24) Uog. znaczenie:grupa-4(grp) zbiór-1(grp) 3) Uog. znaczenie: wykonywanie_czynności_ religijnych_bądź_magicznych-1 (czy) 39) Uog. znaczenie: właściwość-1(cech) przymiot-1(cech) cecha-1(cech) własność-2(cech) atrybut-1(cech) Infrastruktura badawcza Wrocław 216-4-26 41) oddalanie_się-1(czy) 43) Uog. znaczenie: człowiek_określany_pieszczotliwie-1 (os) człowiek_określany_familiarnie-1 (os) 44) Uog. znaczenie: doświadczać_pozytywnego_uczucia-1 (cst) 45) Uog. znaczenie: chować-7(cczuj) żywić-2 (cczuj) 46) Uog. znaczenie: GERUNDIUM-1(bhp) 47) Uog. znaczenie: GERUNDIUM_OD_CZASOWNIKA_D YNAMICZNEGO_NIEZMIENNOSTAN OWEGO-1(czy)
Przykład: kategorie Wikipedii Infrastruktura badawcza Wrocław 216-4-26 Zadanie: Dane: 67 uogólnionych kategorii z Wikipedii ręcznie wybrane nadkategorie, połączone podkategorie https://clarin-pl.eu/dspace/handle/11321/222 https://clarin-pl.eu/dspace/handle/11321/217 zróżnicowane dziedziny Cel: przypisanie klas do artykułów Najistotniejsze cechy: wielka litera, znaki interpunkcyjne, lematy, klasy gramatyczne, bigramy klas, klasy nazw własnych, znaczenia, znaczenia ogólne, pojęcia z SUMO
Infrastruktura badawcza Wrocław 216-4-26 Przykład: kategorie Wikipedii Klasy Albania Astronautyka Ekologia roślin Gałęzie prawa Karkonosze Kotowate Muzyka poważna Piłka nożna Propaganda polityczna Sporty siłowe Dokładność Średnia Dokładność Dokładność Kompletno harmoniczna wyboru odrzucania ść wyboru 99,2% 98,7% 99,1% 98,1% 99,8% 1,% 98,9% 99,7% 86,21% 81,16% 84,75% 67,8% 95,45% 1,% 8,% 95,89% 89,29% 84,85% 8,65% 62,5% 1,% 1,% 91,67% 94,59% 99,49% 99,17% 99,69% 99,28% 99,8% 1,% 99,8% 99,9% 83,33% 77,78% 89,29% 74,7% 91,3% 1,% 7,97% 97,22% 97,9% 99,8% 65,57% 96,77% 64,52% 93,75% 98,97% 1,% 66,67% 1,%
Warsztaty Relacje między fragmentami tekstów
Relacje między fragmentami tekstów Warsztaty Relacje między dwoma zdaniami: S1 oraz S2. Bazuje na podejściu RST (Rhetorical Structure Theory) W Clarin: zestaw relacji z modelu CST (Cross-document Structure Theory) - 16 relacji Podział relacji CST wg. Maziero
Relacje między fragmentami tekstów - definicje cz. 1 Warsztaty Krzyżowanie się S1 przedstawia informacje X i Y, zaś S2 przedstawia informacje X i Z: S1: Samolot rozbił się, uderzając w 25 piętro budynku Pirelli znajdującego się w centrum miasta Milan. S2: Mały turystyczny samolot zderzył się z najwyższym budynkiem w Milanie. Zawieranie S1 zawiera wszystkie informacje z S2, oraz dodatkowe informacje niewystępujące w S2: S1: Z trzema zwycięstwami w tym roku Green Bay ma najlepszy wynik w lidze NFL. S2: Green Bay trzy razy osiągnął zwycięstwo w tym roku. Zmiana poglądu Zdanie S1 opublikowane zostało później niż S2, jednak ta sama osoba przedstawia dwie odmienne opinie dotyczącego tego samego bytu, tej samej sytuacji lub prezentuje ten sam fakt w innym świetle: S1: Giuliani skrytykował Związek Oficerów jako zbyt wymagający podczas rozmów o umowach. S2: Giuliani pochwalił Związek Oficerów, który dostarcza prawnego wsparcia i pomocy swoim członkom. Tożsamość S1 oraz S2 to dokładnie takie same zdania.
Relacje między fragmentami tekstów - definicje cz. 2 Warsztaty Mowa zależna S1 pośrednio cytuje coś, co zostało bezpośrednio przytoczone w S2. Mowa zależna może polegać na parafrazie pewnych słów przy zachowaniu pełnej tożsamości znaczeniowej: S1: Pan Cuban zagwarantował tłumowi darmowe cukierki. S2: Gwarantuję darmowe cukierki Pan Cuban powiedział do tłumu. Streszczanie S1 streszcza S2 (tj. S1 zawiera kluczowe informacje z S2): S1: Mets wygrali tytuł w siedmiu grach. S2: Po wyczerpujących sześciu grach, Mets przybyli dziś wieczorem by wziąć sobie tytuł. Spełnienie S1 potwierdza wystąpienie (spełnienie się) zdarzenia przewidzianego w (zapowiedzi z) S2: S1: Po podróży do Austrii, Pan Green wrócił do domu w Nowym Jorku. S2: Pan Green pojedzie do Austrii. Uszczegółowienie Zdanie S1 dostarcza dodatkowych szczegółów opisanych ogólniej w S2: S1: Publiczna telewizja RAI donosi, że S2: Włoska telewizja podała, że sygnał SOS nadany przez pilota spowodowany był problemem technicznym.
Relacje między fragmentami tekstów - definicje cz. 3 Warsztaty Opis w S1 znajduje się opis bytu wspomnianego w S2, S1: Greenfield, emerytowany generał i ojciec dwojga dzieci, odmówił komentarza. S2: Pan Greenfield pojawił się wczoraj w sądzie. Źródło S1 zawiera źródło informacji występującej w S2: S1: Durczok powiedział, że Ameryka wypowie wojnę Korei. S2: Ameryka wypowie wojnę Korei. Cytowanie S1 bezpośrednio cytuje fragment zdania S2 pochodzącego z innego dokumentu: S1: Wcześniejszy artykuł cytuje księcia Alberta mówiącego: Nigdy nie będę uprawiał hazardu. S2: Książę Albert kontynuował mówiąc: Nigdy nie będę uprawiał hazardu Sprzeczność S1 i S2, pochodzące z tego samego momentu czasu, zawierają konfliktujące ze sobą informacje: S1: Na pokładzie zestrzelonego samolotu były 122 osoby. S2: 126 osób było na pokładzie samolotu.
Relacje między fragmentami tekstów - definicje cz. 4 Warsztaty Parafraza S1 oraz S2 zawierają dokładnie takie same informacje wyrażone jednak różnymi słowami, S1: Wałęsa był agentem SB. S2: Lechu współpracował jako agent z SB. Modalność S1 z dodatkiem ramy modalnej przedstawia wersję informacji przed stawionych w S2: S1: Uważa się, że Sean Combs posiada kilka posiadłości wartych wiele milionów. S2: Puffy posiada cztery wielomilionowe domy w rejonie Nowego Jorku. Tło historyczne S1 opisuje kontekst historyczny przedstawiony w S2: S1: To był czwarty raz jak członek rodziny królewskiej rozwiódł się. S2: Duke Windsor wczoraj rozwiódł się z Duchess Windsor Dalsze informacje S1 zawiera dodatkowe informacje w stosunku do S2, jednak S1 opublikowane zostało po S2: S1: 12 ofiary zostały odnotowane w rejonie trzęsienia ziemi. S2: Do tej pory nie potwierdzono ofiar trzęsienia ziemi.
Warsztaty Relacje między fragmentami tekstów - znakowanie Relacja Etap 1 Etap 2 Relacja Etap 1 Etap 2 Mowa zależna 26 26 Opis 372 372 Streszczanie 54 55 Źródło 46 5 Spełnienie 16 16 Cytowanie 3 3 Uszczegółowienie 119 123 Sprzeczność 17 2 Krzyżowanie się 1299 1533 Parafraza 34 48 Zawieranie 144 194 Modalność 1 1 Zmiana poglądu 6 6 Tło historyczne 311 312 Tożsamość 47 6 Dalsze informacje 36 36 Wykorzystane teksty z Wikinews Liczba relacji oznakowanych w etapie 1: 2945 Liczba relacji oznakowanych w etapie 2: 3269 Oznakowany korpus, dostępny pod adresem: https://clarin-pl.eu/dspace/handle/11321/35
Relacje między fragmentami tekstów - wyniki Wyniki klasyfikacji z podziałem na dane uczące (5%) oraz testowe (4%) Warsztaty
Relacje między fragmentami tekstów - zastosowanie Warsztaty Wewnątrz dokumentu, informacja o strukturze dokumentu: podział tekstu na segmenty (np. zachodzenie tej samej relacji między kolejnymi zdaniami, aż do jej zmiany). nazwanie wydzielonych segmentów, np. temat, abstrakt, itp. W procesie uczenia maszynowego: streszczanie dokumentów (relacja streszczania, krzyżowania, zawierania, ) podobieństwo dokumentów: czy dokumenty mówią o tym samym - tematyka czy dokumenty dotyczą tego samego obiektu/zdarzenia? badanie opinii/wiarygodności informacji na jakiś temat (np. zachodzenie relacji sprzeczność)
Warsztaty Mapa Literacka
Mapa Literacka Warsztaty http://litmap.clarin-pl.eu Narzędzie do wizualizacji obiektów geograficznych na mapie Utrzymywane i rozwijane przez Centrym Technologii Językowych (CTJ) na Politechnice Wrocławskiej Inspirowane geokrytycznymi badaniami literaturoznawczymi kartografia literacka, geografia humanistyczna. Współpraca z Instytutem Badań Literackich (IBL) PAN Planowane zastosowanie m.in. w projekcie Literaturoznawstwo architektoniczne realizowanym w IBL PAN (kierownik: Aleksanda Wójtowicz)
Możliwe zastosowania Warsztaty Badania w zakresie kartografii literackiej wizualizacja miejsc fikcyjnych w odniesieniu do realnej przestrzeni, mapy mentalne kreowane przez pisarza. Badania nad literacko-kulturową ważnością miejsc i obiektów akcentowane są związki pisarzy i miejsc istotna jest sieć relacji kulturowych analizy zbioru tekstów związanych z działalnością kilku pisarzy (np. zgromadzonych wokół jednego czasopisma) Badania nad ewolucją ważności miejsc i obiektów uwzględnienie osi czasu i nałożenie na siebie różnych planów tego samego miasta
Warsztaty Potok przetwarzania Automatyczna analiza językowa CTJ Geokodowanie obiektów geograficznych Google Geocoding API konwersja dokumentów do tekstu (any2txt) segmentacja i tokenizacja (toki) analiza morfologiczna (MACA, Morfeusz) tagowanie (WCRFT2) rozpoznawanie odniesień (Liner2) rozpoznawanie relacji semantycznych (Serel) Interpretacja wyników Ręczna weryfikacja wyników Geolokalizacja /wizualizacja Google Maps
Geokodowanie (1/2) Warsztaty punktem zaczepienia dla geokodowania są toponimy (głównie obiekty geopolityczne) oraz urbanonimy w obrębie miast, na początku skupiamy się na istniejących obiektach, których współrzędne można ustalić przy użyciu istniejących narzędzi: Google Geocoding API geokoduje formy odmienione nazw, licencja posiada ograniczenia na liczbę zapytań, OpenStreetMap nie obsługuje form odmienionych nazw, własnej implementacji dopasowania form odmienionych bazowych, np. Grunwaldzką, Gdańsku vs. Grunwaldzka, (http://maps.clarin-pl.eu) darmowa wymaga do form Gdańsk
Warsztaty Geokodowanie (2/2) kontekstowa dezambiguacja obiektów łączenie z obiektami o wyższej wadze, które wystąpiły w bliskim kontekście danej nazwy, np. dla tekstu Wiadomości z Polski. We Wrocławiu na ul. Suchej Polska, Wrocław, ul. Sucha Wrocław, ul. Sucha ul. Sucha ustalenie lokalizacji obiektów miejskich (restauracje, kina, pomniki, itd.) istniejących w danym okresie na podstawie interpretacji relacji przestrzennych (Serel, SpatialPL) Kategoria toponimu Waga continent_nam 8 island_nam 7 peninsula_nam 68 cape_nam 65 region_nam 63 country_nam 6 country_region_nam 5 historical_region_nam 5 mountain_nam 45 admin1_nam 4 conurbation_nam 35 admin3_nam 3 admin2_nam 2 city_nam 15 river_nam 12 sea_nam 1
Strona główna Warsztaty
Dodanie nowego dokumentu Warsztaty
Lista obiektów (alfabetycznie) Warsztaty
Lista obiektów (chronologicznie) Warsztaty
Plany Warsztaty Włączenie w potok przetwarzania modułu do rozpoznawania wyrażeń przestrzennych (SpatialPL), modułu do rozpoznawania koreferencji, Rozbudowa interfejsu możliwość edycji wyników (edycja na poziomie odniesień i geokodowania), możliwość eksportu wyników, możliwość porównywania map dla różnych zbiorów tekstów.
Warsztaty WebWoSedon - krótkie ćwiczenie
WebWoSeDon - ćwiczenia Warsztaty Wyszukiwanie korpusu do tworzenia list frekwencyjnych (https://clarin-pl.eu/dspace).
WebWoSeDon - ćwiczenia Warsztaty Wyszukiwanie korpusu do tworzenia list frekwencyjnych.
WebWoSeDon - ćwiczenia Warsztaty Tworzenie listy frekwencyjnej za pomocą interfejsu DSpace
WebWoSeDon - ćwiczenia Warsztaty Przeglądanie utworzonej listy frekwencyjnej
WebWoSeDon - ćwiczenia Warsztaty Przeglądanie utworzonej listy frekwencyjnej filtrowanie wyświetlanej liczności top n 1 2
WebWoSeDon - ćwiczenia Warsztaty Przeglądanie utworzonej listy frekwencyjnej filtrowanie ze względu na część mowy oraz wyrazy z listy stopu 1 2 3
WebWoSeDon - ćwiczenia Warsztaty Przeglądanie utworzonej listy frekwencyjnej
WebWoSeDon - ćwiczenia Warsztaty Zapisywanie listy frekwencyjnej na dysk swojego komputera
WebWoSeDon - ćwiczenia Warsztaty Zapisywanie listy frekwencyjnej na dysk swojego komputera Proszę zapisać plik na dysku komputera.
WoSeDon Warsztaty Otwieranie zapisanej listy frekwencyjnej z dysku swojego komputera
WebWoSeDon - ćwiczenia Warsztaty Otwieranie zapisanej listy frekwencyjnej z dysku swojego komputera
WebWoSeDon - ćwiczenia Warsztaty Otwieranie zapisanej listy frekwencyjnej z dysku swojego komputera
WoSeDon Warsztaty Przeglądanie otwartej listy frekwencyjnej
WebWoSeDon - ćwiczenia Warsztaty Przeglądanie list wykorzystując URI DSpace Kopiujemy URI
Warsztaty WebWoSeDon - ćwiczenia Przeglądanie list wykorzystując URI DSpace Przechodzimy pod adres: wosedon.clarin-pl.eu Wklejamy URI Klikamy
WebWoSeDon - ćwiczenia Warsztaty
Dziękujemy bardzo za uwagę