Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych



Podobne dokumenty
Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Program warsztatów CLARIN-PL

Open Access w technologii językowej dla języka polskiego

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Lokalizacja Oprogramowania

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

WebSty otwarty webowy system do analiz stylometrycznych

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Spis treści tomu pierwszego

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Co wylicza Jasnopis? Bartosz Broda

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

AUTOMATYKA INFORMATYKA

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

PRACA DYPLOMOWA MAGISTERSKA

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Publikacja sfinansowana z działalności statutowej Wydziału Filologicznego oraz Katedry Logopedii Uniwersytetu Gdańskiego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

Metody selekcji cech

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Semantyczne podobieństwo stron internetowych

Inforex - zarządzanie korpusami i ich anotacja

II. Kontrola i ocena pracy ucznia.

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Socjolekt polskich alpinistów. Analiza leksykalno-semantyczna słownictwa

Narzędzia do automatycznej analizy odniesień w tekstach

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Semantyczna analiza języka naturalnego

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

JEDNOSTKI WIELOWYRAZOWE. PROCEDURA SPRAWDZANIA LEKSYKALNOŚCI POŁĄCZEŃ WYRAZOWYCH. Seria: PRE nr 11

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

Gramatyka opisowa języka polskiego Kod przedmiotu

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Kontrola i ocena pracy ucznia.

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

SYLLABUS. Leksykologia i leksykografia

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2015/2016 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

CLARIN infrastruktura naukowa technologii językowych

Ontologie, czyli o inteligentnych danych

System Korekty Tekstu Polskiego

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Analiza danych tekstowych i języka naturalnego

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Systemy Wspomagania Decyzji

Konotacja składniowajako podstawowy mechanizm zdaniotwórczy

Text mining w programie RapidMiner Michał Bereta

JĘZYK NIEMIECKI - ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

II. Kontrola i ocena pracy ucznia.

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA NIEMIECKIEGO Nauczyciel prowadzący: mgr Agnieszka Krzeszowiak, mgr Teresa Jaśkowska

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

1. Ogólne ćwiczenia przygotowawcze

KONWERSATORIUM Z KULTURY JĘZYKA POLSKIEGO DLA 3-LETNICH STUDIÓW POLONISTYCZNYCH PIERWSZEGO STOPNIA PROBLEMATYKA ZAJĘĆ

Wymagania edukacyjne w bloku humanistycznym dla klas IV VI Szkoła Podstawowa nr 55 im. Jurija Gagarina w Poznaniu

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa I gimnazjum Mgr Magdalena Mazanek Mgr Magdalena Pajor GRAMATYKA I SŁOWNICTWO.

KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS TRZECICH ODDZIAŁÓW GIMNAZJALNYCH

Transkrypt:

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 marek.maziarz@pwr.edu.pl maciej.piasecki@pwr.edu.pl michal.wendelberger@pwr.edu.pl

Plan prezentacji

Plan prezentacji Wrocław 18-20 V 2015 1. Wstęp 2. Wydobywanie kolokacji 3. Kolokacje w aplikacji MeWeX 4. Definiowanie jednostek leksykalnych 5. Jednostki leksykalne w aplikacji MeWeX 6. Podsumowanie

Wstęp

Wstęp Wrocław 18-20 V 2015 Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi Zachód to kolokacje, Wschód - kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.

Automatyczna ekstrakcja kolokacji z korpusu tekstów Wrocław 18-20 V 2015

Schemat przetwarzania Wrocław 18-20 V 2015

Korpus tekstowy Wrocław 18-20 V 2015 Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, napotkane, opis morfologiczny, dodatkowe anotacje.

Plik z korpusem (format CCL) Wrocław 18-20 V 2015

Definicja kolokacji Wrocław 18-20 V 2015 Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła, 1, 2,...)

Siła kolokacji Wrocław 18-20 V 2015 Kolokacją silną jest takie współwystąpienie słów, które według danej miary ma dużą szansę na bycie jednostką wielowyrazową. ciężarowy samochód 10 15 samochód 1 174 ciężarowy czerwony czerwony samochód 12 13 samochód 24 151

Siła kolokacji Wrocław 18-20 V 2015 Kolokacją silną jest takie współwystąpienie słów, które według danej miary ma dużą szansę na bycie jednostką wielowyrazową. ciężarowy ciężarowy samochód 10 15 samochód 1 174 X 2 = 65,4 czerwony czerwony samochód 12 13 samochód 24 151 X 2 = 17,4

Ocena nieprzypadkowości Wrocław 18-20 V 2015 Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową.

Więcej o miarach Wrocław 18-20 V 2015 Funkcje statystyczne: Pointwise Mutual Dependency, Mutual Dependency, Frequency Biased MD, Mutual Expectation, Unigram Subtuples... Testy statystyczne: X 2 Persona, Loglikelihood, TScore, ZScore... Miary szyku: W Order...

Więcej o miarach cz. 2 Wrocław 18-20 V 2015 Miary kontekstowe: więcej informacji, dane pochodzące także z otoczenia kolokacji, funkcje wykorzystujące także kontekst oprócz danych statystycznych dotyczących częstości. Funkcje wektorowe: kombinacje miar, dobór miar, sposób łączenia rankingów, metody przepunktowywania, możliwość stosowania innych miar wektorowych lub klasyfikatorów jako składowych. Metody maszynowego uczenia: dobór cech wyniki miar, sposób przygotowania cech do klasyfikacji.

Filtrowanie danych Wrocław 18-20 V 2015 Filtry statystyczne: częstości, bardziej skomplikowane filtry (entropia, wariancja, ) jeśli zachowane są konteksty. Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji: względna prostota zastosowania, wymaga zbioru korpusów.

Operator języka WCCL Grupa operatorów Rozmiar operatora

Funkcje dyspersji Wrocław 18-20 V 2015 Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania, Przykład popularnej funkcji: TF-IDF. F w korpusie 1 F w korpusie 2 F w korpusie 3 Suma Nowa częstość 3 29 1 33 0 7 17 0 24 4,23 17 0 0 17 8,11 0 37 31 68 11,97

Zestawienie przykładowych wyników ekstrakcji kolokacji Wrocław 18-20 V 2015

MeWeX Wrocław 18-20 V 2015

Kilka zrzutów ekranu z aplikacji Wrocław 18-20 V 2015

Kilka zrzutów ekranu z aplikacji Wrocław 18-20 V 2015

Czas na wydobycie Wrocław 18-20 V 2015

Przykładowe wyniki Wrocław 18-20 V 2015

Przykładowe wyniki Wrocław 18-20 V 2015

Przykładowe wyniki Wrocław 18-20 V 2015

Przykładowe wyniki Wrocław 18-20 V 2015

Przykładowe wyniki

Wielowyrazowe jednostki leksykalne Wrocław 18-20 V 2015

Wielowyrazowa jednostka leksykalna (WJL) Wrocław 18-20 V 2015 Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

Wielowyrazowa jednostka leksykalna (WJL) Wrocław 18-20 V 2015 Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

WJL kryteria Wrocław 18-20 V 2015 Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką),

WJL kryteria Wrocław 18-20 V 2015 Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika),

WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres),

WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku),

WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki),

WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności:

WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki),

WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka),

WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka), swoista odmiana lub brak odmiany (nabić guza, wyjść za mąż, do sucha),

WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka), swoista odmiana lub brak odmiany (nabić guza, wyjść za mąż, do sucha), ü swoisty akcent (náraz 'nagle' na ráz [dwa, trzy]),

WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia:

WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy),

WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka),

WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet),

WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa),

WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa),

WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa), l istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset),

WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa), l istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset), ü bycie terminem (jaszczurka zielona),

WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa), l istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset), ü bycie terminem (jaszczurka zielona), ü występowanie w słownikach (hala maszyn jest notowana w

WJL kryteria Kryteria û nie są niezależne od siebie, û nie tworzą spójnego systemu klasyfikacji, û silnie zależą od intuicji, û są argumentami post hoc gdy decyzja już została podjęta.

WJL kryteria Kryteria û nie są niezależne od siebie, û nie tworzą spójnego systemu klasyfikacji, û silnie zależą od intuicji, û są argumentami post hoc gdy decyzja już została podjęta. System zbudowany na niekompozycyjności ü jedyno kryterium ü (zamiast systemu kryteriów), û zależy od definicji niekompozycyjności, ü decyzja podejmowana jest na podstawie analizy semantycznej, û założenie a priori: leksykalność = niekompozycyjność.

WJL kryteria System zbudowany na wielu kryteriach ü Brak założenia a priori: leksykalność = niekompozycyjność. ü Ale jak zbudować spójny system?

WJL system kryteriów System zbudowany na wielu kryteriach 14 osób

WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997

WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 pies Marka 0 14

WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1!" pies Marka 0 14 #"

WJL system kryteriów System zbudowany na wielu kryteriach 14 osób DEF. 1. 139 połączeń (varia)

WJL system kryteriów System zbudowany na wielu kryteriach 14 osób 5 osób DEF. 1. DEF. 1. 139 połączeń (varia) 200 połączeń ze Słowosieci 5 osób DEF. 1. 200 kolokacji typu N+Adj

WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) KRYTERIA (10) DEF. 1. 200 połączeń ze Słowosieci DEF. 1. 200 kolokacji typu N+Adj

WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) autor Wyraz uwięziony Szyk swobodny pies Marka (14 x NIE) Termin Metaforyczność Separowalność Specjalistyczność Kompozycyjność Parafraza #1 #"!"!" #" #" #"!"!" #2 #"!" #" #" #" #"!"!"

WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) autor Wyraz uwięziony Szyk swobodny pies Marka (14 x NIE) Termin Metaforyczność Parafraza #1 #"!"!" #" #" #"!"!" #2 #"!" #" #" #" #"!"!" autor Wyraz uwięziony maszyna do szycia (13 x TAK, 1 x NIE) Szyk swobodny Termin Metaforyczność Separowalność Specjalistyczność Kompozycyjność Separowalność Specjalistyczność Kompozycyjność Parafraza #1 #" #"!" #" #"!" #" #" #2 #"!"!" #" #" #"!" #"

WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) autor Wyraz uwięziony Szyk swobodny pies Marka (14 x NIE) Termin Metaforyczność Parafraza #1 #"!"!" #" #" #"!"!" #2 #"!" #" #" #" #"!"!" autor Wyraz uwięziony maszyna do szycia (13 x TAK, 1 x NIE) Szyk swobodny Termin Metaforyczność Separowalność Specjalistyczność Kompozycyjność Separowalność Specjalistyczność Kompozycyjność Parafraza #1 #" #"!" #" #"!" #" #" #2 #"!"!" #" #" #"!" #"

WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) autor Wyraz uwięziony Szyk swobodny pies Marka (14 x NIE) Termin Metaforyczność Parafraza #1 #"!"!" #" #" #"!"!" #2 #"!" #" #" #" #"!"!" autor Wyraz uwięziony maszyna do szycia (13 x TAK, 1 x NIE) Szyk swobodny Termin Metaforyczność Separowalność Specjalistyczność Kompozycyjność Separowalność Specjalistyczność Kompozycyjność Parafraza #1 #" #"!" #" #"!" #" #" #2 #"!"!" #" #" #"!" #"

WJL system kryteriów System zbudowany na wielu kryteriach KRYTERIA (10) DEF. 1. 150 połączeń (varia)

WJL system kryteriów System zbudowany na wielu kryteriach KRYTERIA (10) DEF. 1.

WJL system kryteriów System zbudowany na wielu kryteriach KRYTERIA (10) DEF. 1.

WJL system kryteriów System zbudowany na wielu kryteriach

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ Nazwa własna? Wyraz uwięziony? Niepoprawna fraza?

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ Część mowy - rzeczownik - przymiotnik - czasownik - przysłówek

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ TERMIN?

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? #

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA?

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA?!" N+Adj? # WJL

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? #!" N+Adj?!" # WJL

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?!" #

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?!" SZYK USTALONY? # WJL

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?!" SZYK USTALONY? # WJL!" #

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?!" SZYK USTALONY? # WJL!" # WJL nie-wjl

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMINY TERMIN? # PARAFRAZA? nie-wjl #!" N+Adj?!" # JEDNOSTKI NIEKOMPO- ZYCYJNE SEPAROWALNOŚĆ?!" SZYK USTALONY? # ZESTAWIENIA!" # ZESTAWIENIA nie-wjl

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne

MeWeX jednostki leksykalne Typ strukturalny decyzja urobek

MeWeX jednostki leksykalne Typ strukturalny decyzja urobek

Podsumowanie

Podsumowanie dwie drogi Językoznawstwo korpusowe i frazeologia Punkt wyjścia: korpus i kolokacje Cel: jednostki leksykalne frazeologizmy terminy zestawienia Środek: aplikacja MeWeX

Dziękujemy bardzo za uwagę