Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Podobne dokumenty
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Program warsztatów CLARIN-PL

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Open Access w technologii językowej dla języka polskiego

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lokalizacja Oprogramowania

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Spis treści tomu pierwszego

AUTOMATYKA INFORMATYKA

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Co wylicza Jasnopis? Bartosz Broda

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

WebSty otwarty webowy system do analiz stylometrycznych

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

PRACA DYPLOMOWA MAGISTERSKA

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

JEDNOSTKI WIELOWYRAZOWE. PROCEDURA SPRAWDZANIA LEKSYKALNOŚCI POŁĄCZEŃ WYRAZOWYCH. Seria: PRE nr 11

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Metody selekcji cech

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Semantyczna analiza języka naturalnego

Inforex - zarządzanie korpusami i ich anotacja

Semantyczne podobieństwo stron internetowych

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

II. Kontrola i ocena pracy ucznia.

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

Socjolekt polskich alpinistów. Analiza leksykalno-semantyczna słownictwa

Publikacja sfinansowana z działalności statutowej Wydziału Filologicznego oraz Katedry Logopedii Uniwersytetu Gdańskiego

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

SYLLABUS. Leksykologia i leksykografia

Ontologie, czyli o inteligentnych danych

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

System Korekty Tekstu Polskiego

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Kontrola i ocena pracy ucznia.

Systemy Wspomagania Decyzji

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2015/2016 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

KONWERSATORIUM Z KULTURY JĘZYKA POLSKIEGO DLA 3-LETNICH STUDIÓW POLONISTYCZNYCH PIERWSZEGO STOPNIA PROBLEMATYKA ZAJĘĆ

Narzędzia do automatycznej analizy odniesień w tekstach

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Gramatyka opisowa języka polskiego Kod przedmiotu

Analiza danych tekstowych i języka naturalnego

polski ENCYKLOPEDIA W TABELACH Wydawnictwo Adamantan

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Informatyka kl. 1. Semestr I

Cele kształcenia wymagania ogólne

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Konotacja składniowajako podstawowy mechanizm zdaniotwórczy

JĘZYK NIEMIECKI - ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Text mining w programie RapidMiner Michał Bereta

II. Kontrola i ocena pracy ucznia.

Jak mysz siedzi pod miotłą? Dziecięce wyjaśnienia zwrotów frazeologicznych

Wikisłownik. (więcej niż słownik) Piotr Derbeth Kubowicz. Wikiwarsztaty Wrocław, 7 marca Stowarzyszenie Wikimedia Polska

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA NIEMIECKIEGO Nauczyciel prowadzący: mgr Agnieszka Krzeszowiak, mgr Teresa Jaśkowska

Transkrypt:

Narzędzia do wydobywania słowników związków frazeologicznych i terminów Marek Maziarz, Michał Wendelberger Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 marek.maziarz@pwr.edu.pl michal.wendelberger@pwr.edu.pl

Plan prezentacji Warsztaty

Plan prezentacji Warsztaty 1. Wstęp 2. Wydobywanie kolokacji 3. Kolokacje w aplikacji MeWeX 4. Definiowanie jednostek leksykalnych 5. Jednostki leksykalne w aplikacji MeWeX 6. Podsumowanie

Wstęp Warsztaty

Wstęp Warsztaty Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi Zachód to kolokacje, Wschód - kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.

Automatyczna ekstrakcja kolokacji z korpusu tekstów Warsztaty

Schemat przetwarzania Warsztaty

Korpus tekstowy Warsztaty Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, napotkane, opis morfologiczny, dodatkowe anotacje.

Plik z korpusem (format CCL) Warsztaty

Definicja kolokacji Warsztaty Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła, 1, 2,...)

Warsztaty Siła kolokacji Kolokacją silną jest takie współwystąpienie słów, które według danej miary ma dużą szansę na bycie jednostką wielowyrazową. ciężarowy ciężarowy samochód 10 15 samochód 1 174 czerwony czerwony samochód 12 13 samochód 24 151

Siła kolokacji Warsztaty Kolokacją silną jest takie współwystąpienie słów, które według danej miary ma dużą szansę na bycie jednostką wielowyrazową. ciężarowy ciężarowy samochód 10 15 samochód 1 174 czerwony czerwony samochód 12 13 samochód 24 151 X2 = 65,4 X2 = 17,4

Ocena nieprzypadkowości Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową. Warsztaty

Więcej o miarach Funkcje statystyczne: Pointwise Mutual Dependency, Mutual Dependency, Frequency Biased MD, Mutual Expectation, Unigram Subtuples... Testy statystyczne: X2 Persona, Loglikelihood, TScore, ZScore... Miary szyku: W Order... Warsztaty

Więcej o miarach cz. 2 Warsztaty Miary kontekstowe: więcej informacji, dane pochodzące także z otoczenia kolokacji, funkcje wykorzystujące także kontekst oprócz danych statystycznych dotyczących częstości. Funkcje wektorowe: kombinacje miar, dobór miar, sposób łączenia rankingów, metody przepunktowywania, możliwość stosowania innych miar wektorowych lub klasyfikatorów jako składowych. Metody maszynowego uczenia: dobór cech wyniki miar, sposób przygotowania cech do klasyfikacji.

Filtrowanie danych Warsztaty Filtry statystyczne: częstości, bardziej skomplikowane filtry (entropia, wariancja, ) jeśli zachowane są konteksty. Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji: względna prostota zastosowania, wymaga zbioru korpusów.

Operator języka WCCL Grupa operatorów Warsztaty Rozmiar operatora

Warsztaty Funkcje dyspersji Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania, Przykład popularnej funkcji: TF-IDF. F w korpusie 1 F w korpusie 2 F w korpusie 3 Suma Nowa częstość 3 29 1 33 0 7 17 0 24 4,23 17 0 0 17 8,11 0 37 31 68 11,97

Zestawienie przykładowych wyników ekstrakcji kolokacji Warsztaty

MeWeX Warsztaty

Kilka zrzutów ekranu z aplikacji Warsztaty

Kilka zrzutów ekranu z aplikacji Warsztaty

Czas na wydobycie Warsztaty

Przykładowe wyniki Warsztaty

Przykładowe wyniki Warsztaty

Przykładowe wyniki Warsztaty

Przykładowe wyniki Warsztaty

Przykładowe wyniki Warsztaty

Wielowyrazowe jednostki leksykalne Warsztaty

Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką),

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika),

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres),

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), wyrazy uwięzione (zbić z pantałyku),

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), wyrazy uwięzione (zbić z pantałyku), zamkniętość substytucyjna (*przemysł nielekki),

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), wyrazy uwięzione (zbić z pantałyku), zamkniętość substytucyjna (*przemysł nielekki), składniowe i fleksyjne nieregularności:

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), wyrazy uwięzione (zbić z pantałyku), zamkniętość substytucyjna (*przemysł nielekki), składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki),

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), wyrazy uwięzione (zbić z pantałyku), zamkniętość substytucyjna (*przemysł nielekki), składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka),

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), wyrazy uwięzione (zbić z pantałyku), zamkniętość substytucyjna (*przemysł nielekki), składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka), swoista odmiana lub brak odmiany (nabić guza, wyjść za mąż, do sucha),

WJL kryteria Warsztaty Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), wyrazy uwięzione (zbić z pantałyku), zamkniętość substytucyjna (*przemysł nielekki), składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka), swoista odmiana lub brak odmiany (nabić guza, wyjść za mąż, do sucha), swoisty akcent (náraz 'nagle' na ráz [dwa, trzy]),

WJL kryteria Kryteria cd. (Zgusta 1971) analogia: Warsztaty

WJL kryteria Warsztaty Kryteria cd. (Zgusta 1971) analogia: podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy),

WJL kryteria Warsztaty Kryteria cd. (Zgusta 1971) analogia: podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka),

WJL kryteria Warsztaty Kryteria cd. (Zgusta 1971) analogia: podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet),

WJL kryteria Warsztaty Kryteria cd. (Zgusta 1971) analogia: podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa),

WJL kryteria Warsztaty Kryteria cd. (Zgusta 1971) analogia: podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa),

WJL kryteria Warsztaty Kryteria cd. (Zgusta 1971) analogia: podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa), istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset),

WJL kryteria Warsztaty Kryteria cd. (Zgusta 1971) analogia: podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa), istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset), bycie terminem (jaszczurka zielona),

WJL kryteria Warsztaty Kryteria cd. (Zgusta 1971) analogia: podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa), istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset), bycie terminem (jaszczurka zielona), występowanie w słownikach (hala maszyn jest notowana w USJP).

WJL kryteria Kryteria nie są niezależne od siebie, nie tworzą spójnego systemu klasyfikacji, silnie zależą od intuicji, są argumentami post hoc gdy decyzja już została podjęta. Warsztaty

WJL kryteria Warsztaty Kryteria nie są niezależne od siebie, nie tworzą spójnego systemu klasyfikacji, silnie zależą od intuicji, są argumentami post hoc gdy decyzja już została podjęta. System zbudowany na niekompozycyjności jedyno kryterium (zamiast systemu kryteriów), zależy od definicji niekompozycyjności, decyzja podejmowana jest na podstawie analizy semantycznej, założenie a priori: leksykalność = niekompozycyjność.

WJL kryteria System zbudowany na wielu kryteriach Brak założenia a priori: leksykalność = niekompozycyjność. Ale jak zbudować spójny system? Warsztaty

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach 14 osób

WJL system kryteriów Warsztaty System zbudowany na wielu kryteriach DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE maszyna do szycia 13 1 pies Marka 0 14 WJL?

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 pies Marka 0 14

WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 14 osób 139 połączeń (varia) Warsztaty

WJL system kryteriów Warsztaty System zbudowany na wielu kryteriach DEF. 1. 139 połączeń (varia) 14 osób DEF. 1. 200 połączeń ze Słowosieci 5 osób DEF. 1. 5 osób 200 kolokacji typu N+Adj

WJL system kryteriów Warsztaty System zbudowany na wielu kryteriach DEF. 1. KRYTERIA (10) 150 połączeń (varia) DEF. 1. 200 połączeń ze Słowosieci DEF. 1. 200 kolokacji typu N+Adj

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) pies Marka (14 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) pies Marka (14 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2 maszyna do szycia (13 x TAK, 1 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) pies Marka (14 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2 maszyna do szycia (13 x TAK, 1 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) pies Marka (14 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2 maszyna do szycia (13 x TAK, 1 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2

WJL system kryteriów Warsztaty System zbudowany na wielu kryteriach KRYTERIA (10) DEF. 1. 150 połączeń (varia)

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach KRYTERIA (10) DEF. 1.

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach KRYTERIA (10) DEF. 1.

WJL system kryteriów System zbudowany na wielu kryteriach Warsztaty

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ Warsztaty

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ Warsztaty Nazwa własna? Wyraz uwięziony? Niepoprawna fraza?

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ Część mowy - rzeczownik - przymiotnik - czasownik - przysłówek

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ TERMIN?

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ WJL PARAFRAZA?

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? WJL N+Adj? WJL

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? WJL N+Adj? WJL

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? WJL nie-wjl N+Adj? SEPAROWALNOŚĆ? WJL

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? WJL nie-wjl N+Adj? WJL SEPAROWALNOŚĆ?

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? WJL nie-wjl N+Adj? WJL SEPAROWALNOŚĆ? SZYK USTALONY? WJL

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? WJL nie-wjl N+Adj? WJL SEPAROWALNOŚĆ? SZYK USTALONY? WJL

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? WJL nie-wjl N+Adj? WJL SEPAROWALNOŚĆ? SZYK USTALONY? WJL nie-wjl WJL

Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? TERMINY nie-wjl N+Adj? JEDNOSTKI NIEKOMPOZYCYJNE SEPAROWALNOŚĆ? SZYK USTALONY? ZESTAWIENIA nie-wjl ZESTAWIENIA

MeWeX jednostki leksykalne Warsztaty

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne KLIK! KLIK!

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne Typ strukturalny decyzja urobek

MeWeX jednostki leksykalne Typ strukturalny decyzja urobek

Podsumowanie

Podsumowanie dwie drogi Językoznawstwo korpusowe i frazeologia Punkt wyjścia: korpus i kolokacje Cel: jednostki leksykalne frazeologizmy terminy zestawienia Środek: aplikacja MeWeX

Dziękujemy bardzo za uwagę