Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych"

Transkrypt

1 Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19

2 Plan prezentacji

3 Plan prezentacji Wrocław V Wstęp 2. Wydobywanie kolokacji 3. Kolokacje w aplikacji MeWeX 4. Definiowanie jednostek leksykalnych 5. Jednostki leksykalne w aplikacji MeWeX 6. Podsumowanie

4 Wstęp

5 Wstęp Wrocław V 2015 Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi Zachód to kolokacje, Wschód - kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.

6 Automatyczna ekstrakcja kolokacji z korpusu tekstów Wrocław V 2015

7 Schemat przetwarzania Wrocław V 2015

8 Korpus tekstowy Wrocław V 2015 Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, napotkane, opis morfologiczny, dodatkowe anotacje.

9 Plik z korpusem (format CCL) Wrocław V 2015

10 Definicja kolokacji Wrocław V 2015 Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła, 1, 2,...)

11 Siła kolokacji Wrocław V 2015 Kolokacją silną jest takie współwystąpienie słów, które według danej miary ma dużą szansę na bycie jednostką wielowyrazową. ciężarowy samochód samochód ciężarowy czerwony czerwony samochód samochód

12 Siła kolokacji Wrocław V 2015 Kolokacją silną jest takie współwystąpienie słów, które według danej miary ma dużą szansę na bycie jednostką wielowyrazową. ciężarowy ciężarowy samochód samochód X 2 = 65,4 czerwony czerwony samochód samochód X 2 = 17,4

13 Ocena nieprzypadkowości Wrocław V 2015 Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową.

14 Więcej o miarach Wrocław V 2015 Funkcje statystyczne: Pointwise Mutual Dependency, Mutual Dependency, Frequency Biased MD, Mutual Expectation, Unigram Subtuples... Testy statystyczne: X 2 Persona, Loglikelihood, TScore, ZScore... Miary szyku: W Order...

15 Więcej o miarach cz. 2 Wrocław V 2015 Miary kontekstowe: więcej informacji, dane pochodzące także z otoczenia kolokacji, funkcje wykorzystujące także kontekst oprócz danych statystycznych dotyczących częstości. Funkcje wektorowe: kombinacje miar, dobór miar, sposób łączenia rankingów, metody przepunktowywania, możliwość stosowania innych miar wektorowych lub klasyfikatorów jako składowych. Metody maszynowego uczenia: dobór cech wyniki miar, sposób przygotowania cech do klasyfikacji.

16 Filtrowanie danych Wrocław V 2015 Filtry statystyczne: częstości, bardziej skomplikowane filtry (entropia, wariancja, ) jeśli zachowane są konteksty. Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji: względna prostota zastosowania, wymaga zbioru korpusów.

17 Operator języka WCCL Grupa operatorów Rozmiar operatora

18 Funkcje dyspersji Wrocław V 2015 Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania, Przykład popularnej funkcji: TF-IDF. F w korpusie 1 F w korpusie 2 F w korpusie 3 Suma Nowa częstość , , ,97

19 Zestawienie przykładowych wyników ekstrakcji kolokacji Wrocław V 2015

20 MeWeX Wrocław V 2015

21 Kilka zrzutów ekranu z aplikacji Wrocław V 2015

22 Kilka zrzutów ekranu z aplikacji Wrocław V 2015

23 Czas na wydobycie Wrocław V 2015

24 Przykładowe wyniki Wrocław V 2015

25 Przykładowe wyniki Wrocław V 2015

26 Przykładowe wyniki Wrocław V 2015

27 Przykładowe wyniki Wrocław V 2015

28 Przykładowe wyniki

29 Wielowyrazowe jednostki leksykalne Wrocław V 2015

30 Wielowyrazowa jednostka leksykalna (WJL) Wrocław V 2015 Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

31 Wielowyrazowa jednostka leksykalna (WJL) Wrocław V 2015 Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

32 WJL kryteria Wrocław V 2015 Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką),

33 WJL kryteria Wrocław V 2015 Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika),

34 WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres),

35 WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku),

36 WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki),

37 WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności:

38 WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki),

39 WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka),

40 WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka), swoista odmiana lub brak odmiany (nabić guza, wyjść za mąż, do sucha),

41 WJL kryteria Kryteria (Zgusta 1971) ü semantyczna niekompozycyjność ([On jest jego] prawą ręką), ü metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), ü zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), ü wyrazy uwięzione (zbić z pantałyku), ü zamkniętość substytucyjna (*przemysł nielekki), ü składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka), swoista odmiana lub brak odmiany (nabić guza, wyjść za mąż, do sucha), ü swoisty akcent (náraz 'nagle' na ráz [dwa, trzy]),

42 WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia:

43 WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy),

44 WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka),

45 WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet),

46 WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa),

47 WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa),

48 WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa), l istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset),

49 WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa), l istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset), ü bycie terminem (jaszczurka zielona),

50 WJL kryteria Kryteria cd. (Zgusta 1971) ü analogia: l podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <- maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), l występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), l występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), l istnienie jednowyrazowego derywatu (uniwerbizacja: podstawówka < szkoła podstawowa), l istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset), ü bycie terminem (jaszczurka zielona), ü występowanie w słownikach (hala maszyn jest notowana w

51 WJL kryteria Kryteria û nie są niezależne od siebie, û nie tworzą spójnego systemu klasyfikacji, û silnie zależą od intuicji, û są argumentami post hoc gdy decyzja już została podjęta.

52 WJL kryteria Kryteria û nie są niezależne od siebie, û nie tworzą spójnego systemu klasyfikacji, û silnie zależą od intuicji, û są argumentami post hoc gdy decyzja już została podjęta. System zbudowany na niekompozycyjności ü jedyno kryterium ü (zamiast systemu kryteriów), û zależy od definicji niekompozycyjności, ü decyzja podejmowana jest na podstawie analizy semantycznej, û założenie a priori: leksykalność = niekompozycyjność.

53 WJL kryteria System zbudowany na wielu kryteriach ü Brak założenia a priori: leksykalność = niekompozycyjność. ü Ale jak zbudować spójny system?

54 WJL system kryteriów System zbudowany na wielu kryteriach 14 osób

55 WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997

56 WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 pies Marka 0 14

57 WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1!" pies Marka 0 14 #"

58 WJL system kryteriów System zbudowany na wielu kryteriach 14 osób DEF połączeń (varia)

59 WJL system kryteriów System zbudowany na wielu kryteriach 14 osób 5 osób DEF. 1. DEF połączeń (varia) 200 połączeń ze Słowosieci 5 osób DEF kolokacji typu N+Adj

60 WJL system kryteriów System zbudowany na wielu kryteriach DEF połączeń (varia) KRYTERIA (10) DEF połączeń ze Słowosieci DEF kolokacji typu N+Adj

61 WJL system kryteriów System zbudowany na wielu kryteriach DEF połączeń (varia) autor Wyraz uwięziony Szyk swobodny pies Marka (14 x NIE) Termin Metaforyczność Separowalność Specjalistyczność Kompozycyjność Parafraza #1 #"!"!" #" #" #"!"!" #2 #"!" #" #" #" #"!"!"

62 WJL system kryteriów System zbudowany na wielu kryteriach DEF połączeń (varia) autor Wyraz uwięziony Szyk swobodny pies Marka (14 x NIE) Termin Metaforyczność Parafraza #1 #"!"!" #" #" #"!"!" #2 #"!" #" #" #" #"!"!" autor Wyraz uwięziony maszyna do szycia (13 x TAK, 1 x NIE) Szyk swobodny Termin Metaforyczność Separowalność Specjalistyczność Kompozycyjność Separowalność Specjalistyczność Kompozycyjność Parafraza #1 #" #"!" #" #"!" #" #" #2 #"!"!" #" #" #"!" #"

63 WJL system kryteriów System zbudowany na wielu kryteriach DEF połączeń (varia) autor Wyraz uwięziony Szyk swobodny pies Marka (14 x NIE) Termin Metaforyczność Parafraza #1 #"!"!" #" #" #"!"!" #2 #"!" #" #" #" #"!"!" autor Wyraz uwięziony maszyna do szycia (13 x TAK, 1 x NIE) Szyk swobodny Termin Metaforyczność Separowalność Specjalistyczność Kompozycyjność Separowalność Specjalistyczność Kompozycyjność Parafraza #1 #" #"!" #" #"!" #" #" #2 #"!"!" #" #" #"!" #"

64 WJL system kryteriów System zbudowany na wielu kryteriach DEF połączeń (varia) autor Wyraz uwięziony Szyk swobodny pies Marka (14 x NIE) Termin Metaforyczność Parafraza #1 #"!"!" #" #" #"!"!" #2 #"!" #" #" #" #"!"!" autor Wyraz uwięziony maszyna do szycia (13 x TAK, 1 x NIE) Szyk swobodny Termin Metaforyczność Separowalność Specjalistyczność Kompozycyjność Separowalność Specjalistyczność Kompozycyjność Parafraza #1 #" #"!" #" #"!" #" #" #2 #"!"!" #" #" #"!" #"

65 WJL system kryteriów System zbudowany na wielu kryteriach KRYTERIA (10) DEF połączeń (varia)

66 WJL system kryteriów System zbudowany na wielu kryteriach KRYTERIA (10) DEF. 1.

67 WJL system kryteriów System zbudowany na wielu kryteriach KRYTERIA (10) DEF. 1.

68 WJL system kryteriów System zbudowany na wielu kryteriach

69 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ

70 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ Nazwa własna? Wyraz uwięziony? Niepoprawna fraza?

71 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ Część mowy - rzeczownik - przymiotnik - czasownik - przysłówek

72 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ TERMIN?

73 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? #

74 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA?

75 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA?!" N+Adj? # WJL

76 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? #!" N+Adj?!" # WJL

77 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?

78 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?!" #

79 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?!" SZYK USTALONY? # WJL

80 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?!" SZYK USTALONY? # WJL!" #

81 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMIN? # WJL PARAFRAZA? nie-wjl #!" N+Adj? # WJL!" SEPAROWALNOŚĆ?!" SZYK USTALONY? # WJL!" # WJL nie-wjl

82 WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ!" TERMINY TERMIN? # PARAFRAZA? nie-wjl #!" N+Adj?!" # JEDNOSTKI NIEKOMPO- ZYCYJNE SEPAROWALNOŚĆ?!" SZYK USTALONY? # ZESTAWIENIA!" # ZESTAWIENIA nie-wjl

83 MeWeX jednostki leksykalne

84 MeWeX jednostki leksykalne

85 MeWeX jednostki leksykalne

86 MeWeX jednostki leksykalne

87 MeWeX jednostki leksykalne

88 MeWeX jednostki leksykalne

89 MeWeX jednostki leksykalne

90 MeWeX jednostki leksykalne

91 MeWeX jednostki leksykalne

92 MeWeX jednostki leksykalne

93 MeWeX jednostki leksykalne

94 MeWeX jednostki leksykalne

95 MeWeX jednostki leksykalne Typ strukturalny decyzja urobek

96 MeWeX jednostki leksykalne Typ strukturalny decyzja urobek

97 Podsumowanie

98 Podsumowanie dwie drogi Językoznawstwo korpusowe i frazeologia Punkt wyjścia: korpus i kolokacje Cel: jednostki leksykalne frazeologizmy terminy zestawienia Środek: aplikacja MeWeX

99 Dziękujemy bardzo za uwagę

14 Wyszukiwarka PELCRA dla danych NKJP

14 Wyszukiwarka PELCRA dla danych NKJP 14 Wyszukiwarka PELCRA dla danych NKJP Piotr Pęzik 14.1. O wyszukiwarce Wyszukiwarka PELCRA 1 to jedna z dwóch wyszukiwarek internetowych dostępnych dla danych NKJP. Narzędzie to pozwala na szybkie i wygodne

Bardziej szczegółowo

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR Piotr Pęzik Uniwersytet Łódzki. META-NET META- NET CESAR IPI PAN & UŁ http://www.meta-net.eu 2 Polskie zasoby w repozytorium META-NET

Bardziej szczegółowo

AUTOMATYCZNA KONTEKSTOWA KOREKTA TEKSTÓW Z WYKORZYSTANIEM GRAFU LHG

AUTOMATYCZNA KONTEKSTOWA KOREKTA TEKSTÓW Z WYKORZYSTANIEM GRAFU LHG Computer Science Vol. 10 2009 Marcin Gadamer, Adrian Horzyk AUTOMATYCZNA KONTEKSTOWA KOREKTA TEKSTÓW Z WYKORZYSTANIEM GRAFU LHG Automatyczna korekta tekstów stanowi ważny problem z punktu widzenia dzisiejszych

Bardziej szczegółowo

Zakład Zaawansowanych Technik Informacyjnych (Z-6)

Zakład Zaawansowanych Technik Informacyjnych (Z-6) Zakład Zaawansowanych Technik Informacyjnych (Z-6) Sprawozdanie dla grupy tematycznej PBZ i. Systemy wspomagania decyzji regulacyjnych: Wykrywanie wiedzy w dużych zbiorach danych telekomunikacyjnych PBZ

Bardziej szczegółowo

Wykrywanie wiedzy w dużych zbiorach danych: przykład personalizacji inżynierii ontologicznej

Wykrywanie wiedzy w dużych zbiorach danych: przykład personalizacji inżynierii ontologicznej Cezary Chudzian, Janusz Granat, Edward Klimasara, Jarosław Sobieszek, Andrzej P. Wierzbicki W artykule, po przedyskutowaniu szeroko rozumianego pojęcia inżynierii wiedzy, a w szczególności inżynierii ontologicznej,

Bardziej szczegółowo

Analiza i eksploracja danych biznesowych

Analiza i eksploracja danych biznesowych Analiza i eksploracja danych biznesowych Business Intelligence systemy wspomagania decyzji Dr inż. Marcin Blachnik Plan zajęć 1. Dane czym są i jak je reprezentować 2. Metody analizy statystycznej (małe

Bardziej szczegółowo

SYSTEM WERYFIKACJI KOMENTARZY NA STRONACH WWW USPRAWNIAJĄCY PRACĘ MODERATORA

SYSTEM WERYFIKACJI KOMENTARZY NA STRONACH WWW USPRAWNIAJĄCY PRACĘ MODERATORA POLITECHNIKA ŚLĄSKA WYDZIAŁ AUTOMATYKI, ELEKTRONIKI I INFORMATYKI INSTYTUT INFORMATYKI PRACA DYPLOMOWA MAGISTERSKA Rafał Jońca SYSTEM WERYFIKACJI KOMENTARZY NA STRONACH WWW USPRAWNIAJĄCY PRACĘ MODERATORA

Bardziej szczegółowo

InTrees: Modularne podejście do Drzew Decyzyjnych

InTrees: Modularne podejście do Drzew Decyzyjnych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Gracjan Wilczewski nr albumu: 158162 Praca magisterska na kierunku informatyka InTrees: Modularne podejście do Drzew Decyzyjnych Opiekun

Bardziej szczegółowo

Analiza wpływu wiadomości prasowych na cenę akcji z wykorzystaniem narzędzi text-miningu

Analiza wpływu wiadomości prasowych na cenę akcji z wykorzystaniem narzędzi text-miningu Uniwersytet Warszawski Wydział Nauk Ekonomicznych Paweł Elert Nr albumu: 203027 Analiza wpływu wiadomości prasowych na cenę akcji z wykorzystaniem narzędzi text-miningu Praca magisterska na kierunku: Informatyka

Bardziej szczegółowo

Sposoby reprezentacji wiedzy specjalistycznej w słowniku dla tłumacza

Sposoby reprezentacji wiedzy specjalistycznej w słowniku dla tłumacza Uniwersytet Warszawski Wydział Lingwistyki Stosowanej Weronika Szemińska Sposoby reprezentacji wiedzy specjalistycznej w słowniku dla tłumacza Rozprawa doktorska Praca wykonana pod kierunkiem prof. dr.

Bardziej szczegółowo

TEXT MINING JAKO NARZĘDZIE POZYSKIWANIA INFORMACJI Z DOKUMENTÓW TEKSTOWYCH

TEXT MINING JAKO NARZĘDZIE POZYSKIWANIA INFORMACJI Z DOKUMENTÓW TEKSTOWYCH TEXT MINING JAKO NARZĘDZIE POZYSKIWANIA INFORMACJI Z DOKUMENTÓW TEKSTOWYCH Paweł Lula Akademia Ekonomiczna w Krakowie, Katedra Informatyki Stale i szybko rosnące zasoby informacyjne są jedną z cech współczesności.

Bardziej szczegółowo

Eksploracja danych Jacek Rumiński

Eksploracja danych Jacek Rumiński Eksploracja danych Jacek Rumiński slajd 1 Kontakt: Katedra Inżynierii Biomedycznej, pk. 106, tel.: 3472678, fax: 3461757, e-mail: jwr@eti.pg.gda.pl Źródła, Internet, SQL/MM i inne standardy (dodatkowy

Bardziej szczegółowo

Reprezentacja dokumentów tekstowych w modelu przestrzeni wektorowej

Reprezentacja dokumentów tekstowych w modelu przestrzeni wektorowej POLITECHNIKA WARSZAWSKA WYDZIAŁ ELEKTRONIKI I TECHNIK INFORMACYJNYCH INSTYTUT INFORMATYKI Rok akademicki 2004/2005 PRACA DYPLOMOWA MAGISTERSKA Michał Kosmulski Reprezentacja dokumentów tekstowych w modelu

Bardziej szczegółowo

Leksykografia polsko-ukraińska stan obecny i perspektywy

Leksykografia polsko-ukraińska stan obecny i perspektywy Leksykografia polsko-ukraińska stan obecny i perspektywy Natalia Kotsyba 1 (gnatko@gmail.com) Instytut Slawistyki PAN Magdalena Turska (turska@domeczek.pl) Uniwersytet Warszawski 1. Istniejące słowniki

Bardziej szczegółowo

Wybrane techniki przygotowywania rekomendacji dla użytkowników serwisu internetowego

Wybrane techniki przygotowywania rekomendacji dla użytkowników serwisu internetowego POLITECHNIKA ŁÓDZKA Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej Praca dyplomowa Wybrane techniki przygotowywania rekomendacji dla użytkowników serwisu internetowego Artur Ziółkowski

Bardziej szczegółowo

Model systemu informatycznego do oceny użyteczności zdobywanych kompetencji zawodowych

Model systemu informatycznego do oceny użyteczności zdobywanych kompetencji zawodowych ZACHODNIOPOMORSKI UNIWERSYTET TECHNOLOGICZNY WYDZIAŁ INFORMATYKI ROZPRAWA DOKTORSKA Katarzyna Sikora Model systemu informatycznego do oceny użyteczności zdobywanych kompetencji zawodowych Promotor rozprawy:

Bardziej szczegółowo

NARODOWY KORPUS JĘZYKA POLSKIEGO

NARODOWY KORPUS JĘZYKA POLSKIEGO NARODOWY KORPUS JĘZYKA POLSKIEGO Praca zbiorowa pod redakcją Adama Przepiórkowskiego Mirosława Bańko Rafała L. Górskiego Barbary Lewandowskiej-Tomaszczyk NARODOWY KORPUS JĘZYKA POLSKIEGO WYDAWNICTWO NAUKOWE

Bardziej szczegółowo

red. naukowa Jarosław Protasiewicz

red. naukowa Jarosław Protasiewicz Procedury recenzowania i doboru recenzentów Tom drugi red. naukowa Jarosław Protasiewicz Projekt współfinansowany przez Unię Europejską z Europejskiego Funduszu Rozwoju Regionalnego 1 Procedury recenzowania

Bardziej szczegółowo

Małgorzata Dagiel. Pozwólmy dzieciom bawić się słowami. o doświadczeniach językowych trzecioklasistów

Małgorzata Dagiel. Pozwólmy dzieciom bawić się słowami. o doświadczeniach językowych trzecioklasistów Małgorzata Dagiel Pozwólmy dzieciom bawić się słowami o doświadczeniach językowych trzecioklasistów Warszawa 2011 Publikacja współfinansowana przez UE w ramach Europejskiego Funduszu Społecznego Publikacja

Bardziej szczegółowo

Wahania przy wyborze rodzaju gramatycznego zapożyczeń angielskich w polszczyźnie na przykładzie zapożyczeń z dziedziny informatyki

Wahania przy wyborze rodzaju gramatycznego zapożyczeń angielskich w polszczyźnie na przykładzie zapożyczeń z dziedziny informatyki POLONICA XXXIII PL ISSN 0137-9712 ALEKSANDRA WIERZBICKA Wahania przy wyborze rodzaju gramatycznego zapożyczeń angielskich w polszczyźnie na przykładzie zapożyczeń z dziedziny informatyki Celem tego artykułu

Bardziej szczegółowo

Systemy syntezy mowy z tekstu na urządzeniach mobilnych

Systemy syntezy mowy z tekstu na urządzeniach mobilnych UNIWERSYTET IM. ADAMA MICKIEWICZA WYDZIAŁ MATEMATYKI I INFORMATYKI Tomasz Konieczny nr albumu: 375291 Systemy syntezy mowy z tekstu na urządzeniach mobilnych Praca magisterska na kierunku: INFORMATYKA

Bardziej szczegółowo

danych kursy analizy i n f o r m a t o r c e n t r u m s z k o l e n i o w e g o S P S S P o l s k a

danych kursy analizy i n f o r m a t o r c e n t r u m s z k o l e n i o w e g o S P S S P o l s k a i n f o r m a t o r danych c e n t r u m s z k o l e n i o w e g o S P S S P o l s k a kursy analizy Cieszę się, iż mogę przekazać w Państwa ręce kolejny Informator Centrum Szkoleniowego SPSS Polska.

Bardziej szczegółowo

Mapowanie ontologii na przykładzie CYC i Słownika Semantycznego Języka Polskiego

Mapowanie ontologii na przykładzie CYC i Słownika Semantycznego Języka Polskiego Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Praca magisterska Mapowanie ontologii na przykładzie CYC i Słownika Semantycznego Języka Polskiego Aleksander Pohl Kierunek: Informatyka Nr

Bardziej szczegółowo

Wstęp Wraz z rozwojem nauki, jej rosnącą rolą w życiu codziennym i stałym poszerzaniem oferty edukacyjnej wzrasta zapotrzebowanie na typ komunikacji, który sprzyja systematycznemu opisowi rzeczywistości,

Bardziej szczegółowo

System do zdalnego wspomagania nauki fleksji języka polskiego

System do zdalnego wspomagania nauki fleksji języka polskiego Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Praca magisterska System do zdalnego wspomagania nauki fleksji języka polskiego Marcin Zioło Kierunek: Informatyka Specjalność: Inżynieria

Bardziej szczegółowo

Podręcznik metodyczny

Podręcznik metodyczny Podręcznik metodyczny Maciej Słomczyński 11 grudnia 2014 METODA UCZENIA SIĘ PRZEZ CAŁE ŻYCIE NA MIARĘ XXI WIEKU Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego

Bardziej szczegółowo

Dysleksja: Przewodnik dla dorosłych

Dysleksja: Przewodnik dla dorosłych Dysleksja: Przewodnik dla dorosłych Redakcja: Dr Ian Smythe Niniejsza książka jest częścią PROJEKTU WŁĄCZANIE (Leonardo Include Project) Ogólnoeuropejskiego projektu sponsorowanego przez Unię Europejską

Bardziej szczegółowo

Testowanie i Ciągła Integracja w Projektach Java Enterprise Edition

Testowanie i Ciągła Integracja w Projektach Java Enterprise Edition UNIWERSYTET JAGIELLOŃSKI W KRAKOWIE Praca magisterska Testowanie i Ciągła Integracja w Projektach Java Enterprise Edition Adam Perlik Pracę wykonano w Zakładzie Technologii Informatycznych pod kierunkiem

Bardziej szczegółowo

Rozdział 5. Współpraca...145 Czym jest współpraca między obiektami?... 145 Przygotowanie do współpracy... 146 Opisywanie współpracy kandydatów...

Rozdział 5. Współpraca...145 Czym jest współpraca między obiektami?... 145 Przygotowanie do współpracy... 146 Opisywanie współpracy kandydatów... Spis treści Przedsłowie autorstwa Ivara Jacobsona...9 Przedsłowie autorstwa Johna Vlissidesa...11 Przedmowa...13 Rozdział 1. Pojęcia używane w projektowaniu...17 Maszyneria obiektowa...17 Role... 19 Stereotypy

Bardziej szczegółowo