Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego
|
|
- Bogumił Kubiak
- 7 lat temu
- Przeglądów:
Transkrypt
1 Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego Paweł Chrząszcz 17 lutego Wstęp Przetwarzanie języka naturalnego wymaga użycia algorytmów ekstrakcji cech z tekstu. Najprostsze cechy to po prostu miary statystyczne. Aby uzyskać wyższą skuteczność, konieczne jest skorzystanie z informacji zależnej od języka, czyli cech morfologicznych i syntaktycznych jest to szczególnie istotne w przypadku języków o rozbudowanej fleksji, takich jak j. polski. Przykładowo, analizując segment psem w zdaniu Wyszedłem z psem na spacer możemy stwierdzić, że słowo to jest rzeczownikiem rodzaju męskiego żywotnego nieosobowego w narzędniku liczby pojedynczej. Ekstrakcję takiej informacji może umożliwić narzędzie wyposażone w słownik fleksyjny, np. Słownik Fleksyjny Języka Polskiego SFJP z biblioteką CLP [11, 8], Morfeusz [25] czy też Morfologik [14]. Zasoby te zawierają setki tysięcy wyrazów wraz z ich formami gramatycznymi, jednak w dalszym ciągu istnieją wyrazy występujące rzadko, których w tych słownikach nie ma. W przypadku takich słów pomocne mogą się okazać tagery, które oznaczają tekst cechami gramatycznymi. Narzędzia te wykorzystują statystyczne algorytmy uczenia z nadzorem (supervised learning), takie jak SVM, HMM czy też CRF. Są one trenowane na korpusie tekstu otagowanym wzorcowymi znacznikami i dla języka polskiego osiągają dokładność znakowania cechami syntaktycznymi na poziomie 90% [22, 17]. Narzędzia te są również przydatne do ujednoznaczniania ekstrahowanych cech, np. segment miał może być formą czasownika lub rzeczownika. Opisane cechy syntaktyczne mogą okazać się niewystarczające, np. jeżeli szukamy zdań związanych ze słowem zwierzę, nie znajdziemy zdania Wyszedłem z psem na spacer, ponieważ powiązanie słów zwierzę i pies ma charakter semantyczny, czyli dotyczy znaczenia słów. Ekstrakcja cech semantycznych z tekstu jest zagadnieniem bardziej skomplikowanym i zwykle rozwiązuje się je tworząc w sposób ręczny złożone taksonomie oparte na relacjach paradygmatycznych takich jak np. hiponimia i synonimia. Przykładami takich zasobów są WordNet [13] i ontologie, np. CYC [12]. Główną wadą tych sieci taksonomicznych jest brak relacji syntagmatycznych, czyli zależności obrazujących związki między wyrazami występującymi w konkretnym zdaniu, pełniącymi określone role semantyczne. Zasoby zawierające takie relacje to np. FrameNet [20] dla j. angielskiego. Rozwijany jest też Słownik Semantyczny Języka Polskiego, lecz jest on w dalszym ciągu daleki od ukończenia. 1
2 Głównym rodzajem słów, których nie odnajdziemy w wyżej wymienionych zasobach, są wielosegmentowe jednostki leksykalne (inaczej: wyrazy wielosegmentowe, dalej zwane WW), czyli wyrażenia składające się z kilku segmentów, które posiadają własne, odrębne znaczenie. Przykładami takich wyrazów są terminy ( tlenek węgla ), idiomy ( panna młoda, mówić trzy po trzy ), nazwy własne ( Polski Związek Wędkarski ) czy też nazwy osób ( Lech Wałęsa ). Znaczenie WW jest często inne niż suma znaczeń poszczególnych segmentów, np. słowa panna i młoda nie są semantycznie powiązane ze ślubem, a całe wyrażenie już jest. Powoduje to konieczność dołączenia wyrazów wielosegmentowych do słowników, sieci semantycznych i innych zasobów językowych. Potrzebujemy więc zasobów językowych zawierających WW oraz metod ich ekstrakcji z tekstu. Dodatkowo przydatna byłaby płytka klasyfikacja semantyczna, ograniczająca się do przydzielenia wyrazowi jedynie prostej etykiety semantycznej np. słowu pies przydzielimy etykietę zwierzę. Pozwoli to na przynajmniej częściowy opis znaczenia, a jeżeli etykiety same znajdą się w sieci semantycznej, wówczas będziemy mogli z nią powiązać również etykietowane słowo (np. jeżeli słowo Cessna otrzyma etykietę samolot znajdującą się w sieci semantycznej, będziemy mogli je powiązać z tematyką lotniczą). 1.1 Analiza problemu Najprostsze metody wykrywania wystąpień WW w tekście polegają na używaniu statystycznych miar współwystępowania słów, jednak uzyskiwane wyniki są niskie [18, 27, 15, 19]. Do podniesienia skuteczności potrzebne są leksykony WW i korpusy treningowe, zawierające oznaczone wystąpienia WW [5]. W przypadku języka polskiego problem polega na tym, że zasoby te nie są dostępne niniejsza praca ma dopiero umożliwić ich tworzenie. Widzimy więc, że badania nad nowymi metodami realizującymi nakreślone cele są w pełni uzasadnione, a niniejsza praca ma w dużej mierze charakter eksploracyjny, ponieważ nie istnieją poprzednie wyniki będące punktem odniesienia. Jednym z założeń pracy jest niekorzystanie z ręcznie tworzonych reguł i zbiorów treningowych pozwala to stwierdzić, z jaką dokładnością można ekstrahować wyrazy wielosegmentowe z nieuporządkowanego tekstu polskiego bez użycia otagowanych zbiorów treningowych, ręcznie tworzonych reguł i korzystających z nich klasyfikatorów i tagerów. Badania takie nie były jeszcze prowadzone, a ich efektem jest nie tylko wyznaczenie punktu odniesienia (baseline) dla dalszych prac, ale również stworzenie brakujących zasobów zawierających WW dla języka polskiego. Okazuje się, że obecnie coraz częściej zasoby językowe takie jak WordNet zastępowane są Wikipedią, co niejednokrotnie pozwala podnieść skuteczność różnych algorytmów ekstrakcji informacji z tekstu, np. [7]. Zawartość Wikipedii może posłużyć do ekstrakcji wyrazów w tym wielosegmentowych (hasła), etykiet semantycznych (definicje), relacji semantycznych (przekierowania, linki, kategorie) oraz do trenowania algorytmów statystycznych (treść jako korpus). Podjęto więc decyzję o wykorzystaniu polskiej Wikipedii [23] jako głównego zasobu używanego do ekstrakcji WW. 2
3 1.2 Tezy Podstawowym celem niniejszej pracy jest umożliwienie ekstrakcji wyrazów wielosegmentowych dla języka polskiego pozwala to sformułować pierwszą tezę pracy. TEZA 1 Możliwe jest opracowanie algorytmu ekstrahujacego w sposób automatyczny wyrazy wielosegmentowe z tekstu w języku polskim, wykorzystujacego jako źródła danych słownik fleksyjny i Wikipedię. Algorytm ekstrakcji może działać samodzielnie, jednak przede wszystkim może on zostać użyty do stworzenia słownika WW. Dlatego też w niniejszej pracy wykazana zostanie również prawdziwość poniższej tezy. TEZA 2 Możliwe jest utworzenie w sposób automatyczny słownika wyrazów wielosegmentowych z haseł Wikipedii oraz wyrazów wielosegmentowych wyekstrahowanych przy pomocy algorytmu opisanego w Tezie 1. Niniejsza praca opisuje więc głównie badania nad ekstrakcja wyrazów wielosegmentowych. Odnośnie klasyfikacji semantycznej tych wyrazów, prace ograniczono do dopracowania wcześniejszego algorytmu wyznaczającego etykiety semantyczne haseł Wikipedii [4] oraz wstępnych eksperymentów dotyczących wyznaczania takich etykiet dla nowo wyekstrahowanych wyrazów. Dalsze badania ujęte są w planach przyszłych prac. 2 Definicja wyrazów wielosegmentowych Problem automatycznej ekstrakcji wyrażeń wielosegmentowych z tekstu jest rozważany co najmniej od kilkunastu lat w literaturze anglojęzycznej funkcjonuje pojęcie multiword expressions (MWE), które w pracy Saga i in. [21] zdefiniowano jako idiosynkratyczne interpretacje przekraczające granice słów. W pracy tej wyróżniono 4 kategorie takich wyrażeń dla języka angielskiego. Poniżej przedstawiono ich najbliższe polskie odpowiedniki: 1. Wyrażenia nieodmienne mają stałe, odrębne znaczenie, są nieodmienne i semantycznie niedekomponowalne. Przykłady: ad hoc, mimo wszystko, ani mru-mru. 2. Wyrażenia o ustalonej strukturze mają stałe, odrębne znaczenie, funkcjonują jako jedna jednostka słownikowa odmieniająca się przez odpowiednie formy gramatyczne. Przykłady: panna młoda, biały kruk, mówić trzy po trzy. 3
4 3. Wyrażenia o swobodnej strukturze jak wyżej, lecz dopuszczają dodawanie lub zamianę niektórych segmentów, a także rozbijanie na części oddzielone innymi segmentami, co nie prowadzi do utraty znaczenia, np. działać jak płachta na byka, gotów na czyjeś każde skinienie, popełnić błąd. 4. Utarte wyrażenia nie posiadają odrębnego znaczenia (znaczenie całego wyrażenia jest sumą znaczeń segmentów), np. czyste powietrze, dookoła świata, ciężka praca. W niniejszej pracy ograniczono się do drugiej kategorii z powyższej listy. Ponadto zdecydowano, że ekstrahowane będą jedynie wyrażenia pełniące rolę rzeczownikową. Ograniczenia te pozwalają uniknąć trudnych decyzji odnośnie tego, czy dany wyraz jest WW [15] oraz problemów z nieciągłością wyrażeń [9, 10]. Wyrazy wielosegmentowe w kontekście niniejszej pracy można zdefiniować jako wyrażenia odmienne, o dokładnie zdefiniowanej, ustalonej strukturze, odmieniające się w całości jak rzeczowniki, pełniące w tekście rolę rzeczowników i posiadające określone, stałe znaczenie. Przykłady takich wyrażeń znajdują się w tabeli 1. WW zdefiniowane w ten sposób mają dobrze zdefiniowaną strukturę gramatyczną jest to ciąg co najmniej dwóch segmentów, z których każdy należy do jednej z poniższych kategorii, przy czym przynajmniej jeden z segmentów musi być odmienny. Segmenty odmienne tworzą główną część WW. Mogą nimi być rzeczowniki, przymiotniki, liczebniki lub imiesłowy przymiotnikowe. Segmenty te odmieniają się wraz z całym wyrazem przez przypadki i liczby. W formie podstawowej wszystkie segmenty odmienne występują, podobnie jak cały wyraz, w mianowniku liczby pojedynczej (wyjątkiem są wyrazy wielosegmentowe pluralia tantum). Segmenty odmienne nie muszą mieć takiego samego rodzaju, np. kobieta kot, jednak nie mogą zmieniać rodzaju podczas odmiany. Segmenty nieodmienne to wszelkie pozostałe segmenty, których forma nie zmienia się niezależnie od formy gramatycznej całego wyrazu. Mogą to być wyrazy odmienne (rzeczowniki, przymiotniki, czasowniki itp.), wyrazy nieodmienne (np. partykuły, spójniki lub wyrazy obcojęzyczne), znaki interpunkcyjne (przecinek, myślnik, kropka, cudzysłów itp.), liczby arabskie bądź rzymskie czy też inne segmenty (np. K2). Tabela 1: Przykłady wyrazów wielosegmentowych, których ekstrakcja jest przedmiotem pracy. Segmenty odmienne podkreślono. Typ wyrazu Nazwy osób Inne nazwy własne Wyrażenia zawierające nazwę Wyrazy pospolite semantycznie niedekomponowalne Wyrazy pospolite semantycznie dekomponowalne Przykłady Józef Piłsudski, Allen Vigneron, Szymon z Wilkowa Lazurowa Grota, Polski Związek Wędkarski rzeka Carron, jezioro Michigan, premier Polski panna młoda, świnka morska, czarna dziura chlorek sodu, baza wojskowa, lampa naftowa, zaimek względny 4
5 3 Metody ekstrakcji wyrazów wielosegmentowych Schemat działania zaimplementowanego systemu przedstawiono na rys. 1. Pierwszym krokiem jest wyekstrahowanie danych z Wikipedii. Wykorzystano w tym celu ogólnodostępne zrzuty bazy danych projektów fundacji Wikimedia 1. Ekstrahowane dane to treści stron, przekierowania, linki między artykułami, szablony i kategorie. Badano również przydatność Wikisłownika [24], lecz okazało się się, że podczas gdy wśród haseł Wikipedii odnaleziono 973 tys. wyrazów wielosegmentowych, w Wikisłowniku było ich jedynie Przetwarzanie języka naturalnego wymaga użycia zasobów słownikowych. Podstawowym słownikiem wykorzystywanym w niniejszej pracy jest Słownik Fleksyjny Języka Polskiego (SFJP) [11], a konkretnie biblioteka CLP. Podczas prac nad ekstrakcją wyrazów oraz ich etykiet semantycznych z Wikipedii okazało się, że znaczący odsetek błędnych wyników był spowodowany brakiem pewnych wyrazów w SFJP podjęto więc decyzję o rozszerzeniu danych SFJP o dane zasobów Morfeusz [25] i Morfologik [14]. Cechą odróżniającą te zasoby od biblioteki CLP jest całkowicie odmienny format danych, wykorzystujący znaczniki morfosyntaktyczne dokonano więc scalenia danych, a rezultat zapisano w nowym formacie CLPM, będącym rozszerzeniem CLP. Ponieważ czas dostępu do słownika ma znaczenie krytyczne dla systemu, dane zapisano w wysoko zoptymalizowanej na czas odczytu bazie danych LMDB. Jako przykład działania słownika przeanalizujmy znacznik słownikowy zwrócony dla napotkanego w tekście segmentu wole : {(ADA-wola, {1}), (AEA-wole, {2, 8, 11, 14}), (CC-woli, {15, 21})} Rozpoznanie jest niejednoznaczne są trzy możliwe jednostki słownikowe: ADA-wola (rzecz., r. żeński), AEA-wole (rzecz., r. nijaki) i CC-woli (przymiotnik). Każda z nich może wystąpić w różnych formach, np. zapis {2, 8, 11, 14} oznacza dopełniacz l.p. lub mianownik, biernik albo wołacz l.mn. 2 Wyekstrahowane z Wikipedii dane są następnie używane przez metody ekstrakcji wyrazów wielosegmentowych. W niniejszej pracy przygotowano i przetestowano kilka różnych algorytmów ekstrakcji. 3.1 Metoda DM Hasła Wikipedii można potraktować jako słownik wyrazów wielosegmentowych. Jest to oczywiście duże uproszczenie: nie wiadomo, które segmenty są odmienne, niektóre z nich mogą być niejednoznaczne, a część haseł nie będzie w ogóle wyrazami wielosegmentowymi. Ponadto zakres Wikipedii jest ograniczony. Mimo to z całą pewnością taka prosta metoda może posłużyć jako punkt wyjścia, a zarazem odniesienia (baseline) dla metod bardziej zaawansowanych oraz jako składnik ewentualnych metod złożonych. Aby dane wyrażenie mogło zostać rozpoznane w tekście, potrzebny jest algorytm rozpoznający. Zastosowane podejście polega na utworzeniu na podstawie haseł wzorców słownikowych (rys. 1, operacja 1a), które są później rozpoznawane w tekście. Wzorce te mogą być niejednoznaczne, ponieważ trzeba wziąć pod Niejednoznaczności można eliminować, korzystając ze statystycznych tagerów lub parserów regułowych, jednak wprowadza to duży odsetek błędów przenoszący się do kolejnych etapów przetwarzania danych. 5
6 Wikipedia Ekstrakcja danych Wiki DB 2a Wzorce odmiany 3a 4a Dodatkowy słownik 1a 2b 4b Niejednoznaczne wzorce słownikowe Jednoznaczne wzorce słownikowe Wzorce syntaktyczne Dodatkowe wzorce słownikowe 1b 2c 3b 4c Metoda DM Metoda pdm Metoda SM Metoda SDM Test na korpusie PAP-TEST Wyniki testów Rysunek 1: Schemat działania systemu ekstrakcji wyrazów wielosegmentowych. uwagę wszystkie możliwe warianty odmiany danego wyrażenia. Jako przykład rozważmy hasło Droga wojewódzka nr 485. Występują tu następujące niejednoznaczności: Segment Droga może być pisany wielką bądź małą literą nie możemy tego stwierdzić, ponieważ hasła Wikipedii zaczynają się zawsze od wielkiej litery. Segment Droga może być odmienny lub nieodmienny. Analogicznie, segment wojewódzka może być odmienny lub nieodmienny. Wiemy jedynie, że co najmniej jeden z nich musi być odmienny, by wyrażenie było WW. Segment Droga może on być rzeczownikiem lub przymiotnikiem. Jeżeli jest on odmienny, będzie to miało wpływ na sposób odmiany. Utworzono prosty tekstowy format zapisu wszystkich możliwych wariantów, a następnie powstałe wzorce posłużyły do skonstruowania automatu Moore a 3 (rys. 1, operacja 1b) rozpoznającego je w tekście. Ponieważ opisywany problem dotyczy nie tylko rozpoznawania wyrażeń w tekście, ale także ich 3 Wybrano ten rodzaj automatu, ponieważ pozwala on na wypisywanie w każdym stanie bieżąco rozpoznanego wzorca, a zatem umożliwia rozpoznanie wielu częściowo pokrywających się wzorców jednocześnie. 6
7 ekstrakcji, dla każdego rozpoznanego wyrażenia zapisywane są w bazie danych wszystkie możliwości jego odmiany. Przykładowo, w zdaniu Rozpoczął się remont drogi wojewódzkiej nr 485. uda się rozwiązać wszystkie powyższe niejednoznaczności, ale zdanie Droga wojewódzka nr 485 rozpoczyna się w Gdańsku. nie pozwoli na to. Ponadto algorytm wspiera rozpoznawanie wzorców pokrywających się częściowo lub całkowicie dzięki temu można dokonać późniejszej analizy i ewaluacji wszystkich możliwości. Ten algorytm ekstrakcji WW nazwano DM (Dictionary Matching). 3.2 Metoda pdm Po analizie metody DM w ramach eksperymentu podjęto próbę zastosowania heurystycznego algorytmu ujednoznaczniającego wzorce słownikowe, co spowodowało zmniejszenie niejednoznaczności wyników ekstrakcji. W niniejszej pracy dążymy jednak do tego, by unikać metod, które wprowadzają ograniczenia strukturalne rozpoznawanych wyrazów. W związku z tym potrzebna jest metoda automatycznego wyznaczenia wzorców odmiany haseł Wikipedii (rys. 1, operacja 2a). Pomysł polega na tym, by wykorzystać linki przychodzące do artykułów. Linki zawierają hasło w różnych formach fleksyjnych, np. do hasła Czarna dziura może prowadzić link czarnej dziury. Pozwala to na stwierdzenie, które segmenty są odmienne. Powinno to również umożliwić ujednoznacznienie wielu niejednoznacznych segmentów, a także podjęcie decyzji co do tego, czy hasło pisane jest wielką czy małą literą. Kolejną zaletą jest fakt, że hasła, do których nie prowadzą linki, często nie są wyrazami wielosegmentowymi 4, więc możemy je przy okazji odfiltrować. Wada metody polega jednak na tym, że treść linku jest czasami błędna. Powoduje to konieczność zastosowania dość złożonego algorytmu: 1. W pierwszej kolejności tworzona jest statystyka linków przychodzących. 2. Następnie dla każdego linku wyznaczane są odpowiadające mu wzorce odmiany hasła. 3. Kolejnym krokiem jest próba korekty pisowni pierwszej litery hasła. 4. Kolejny etap to wyznaczanie zbioru linków o maksymalnej liczności, dla którego nie ma sprzeczności we wzorcach odmiany. 5. Następnie do bazy danych zapisywany jest nowy wiersz odpowiadający wzorcowi odmiany. W przypadku tych haseł, dla których udało się utworzyć jednoznaczne wzorce odmiany, tworzone są wzorce słownikowe, a następnie konstruowany jest automat analogiczny jak dla metody DM (rys. 1, operacje 2b i 2c). Ten wariant nazwano pdm. 3.3 Metoda SM Dotychczas opisane metody ekstrakcji wyrazów wielosegmentowych, DM i pdm, dokonywały jedynie rozpoznawania wyrazów będących hasłami Wikipedii. Aby pokonać to ograniczenie, konieczne jest wprowadzenie pewnych reguł lub wzorców, które mogłyby posłużyć do ekstrakcji nowych wyrazów. 4 Obserwacja opiera się przeglądaniu kilkuset losowo wybranych haseł zarówno z linkami przychodzącymi jak i bez nich. 7
8 Wzorce takie zwykle są definiowane ręcznie [1, 26, 2, 16, 19]. Okazuje się jednak, że wiele można osiągnąć wykorzystując opisaną w poprzednim podrozdziale metodę automatycznego wyznaczania wzorców odmiany haseł Wikipedii skoro dla danego hasła znamy wzorzec odmiany, można wykorzystać jego budowę do znajdowania w tekście wyrazów o podobnej strukturze. Np. dla wyrazów wielosegmentowych tlenek węgla, siarczan miedzi, wodorotlenek sodu pierwszy segment to odmienny rzeczownik r. męskiego, a drugi nieodmienny rzeczownik w dopełniaczu. Dodatkowo wzorzec może uwzględniać kontekst, w którym występuje wyraz wielosegmentowy 5, np. wymienione związki chemiczne występują często w podobnych wyrażeniach, np.... zawartość tlenku węgla w...,... reakcja siarczanu miedzi z...,... nadmiar wodorotlenku sodu w.... W oparciu o powyższe obserwacje utworzono algorytm, który w oparciu o wzorce odmiany z metody pdm oraz analizę kontekstu wystąpień linków tworzy wzorce syntaktyczne opisujące strukturę składniową samego WW, a także kontekstu, w którym występuje (rys. 1, operacja 3a). Rozważano różne poziomy szczegółowości wzorców i wybrano wariant, w którym zapisywane są następujące informacje: Część mowy i odmienność każdego z segmentów hasła, a także rodzaj i liczba dla segmentów odmiennych oraz przypadek dla nieodmiennych. Kontekst ograniczony jest do jednego segmentu po lewej i po prawej stronie. Dla segmentów kontekstu zapisywana jest informacja zbliżona do tej dla nieodmiennych segmentów hasła. Przykładowo dla wyrażenia centralnej czarnej dziury. zapiszemy wzorzec cc16, cc17, cc20 *cc15 *ad1_p. Oznacza on przymiotnik w dopełniaczu, celowniku lub miejscowniku l.poj. r. żeńskiego, po którym występuje WW składający się z dwóch odmiennych segmentów w rodzaju żeńskim: przymiotnika i rzeczownika. Prawy kontekst to znak interpunkcyjny. Razem z wzorcem zapisywana jest forma, w której wystąpił tutaj dopełniacz l.p. W taki sposób tworzymy statystykę wzorców wraz z formami, w których wystąpiły. Następnie konstruowany jest automat podobny jak dla DM i pdm (rys. 1, operacja 3b), który służy do rozpoznawania wzorców. Powstałą metodę nazwano SM. W przeciwieństwie do metod słownikowych daje ona wyniki silnie niejednoznaczne dane wyrażenie może pasować do wielu wzorców. Wybór właściwego wyniku wymaga wprowadzenia funkcji oceniającej wynik. W tym przypadku zdecydowano się na miarę ilościową, sumującą wystąpienia danego wzorca w Wikipedii w konkretnej formie gramatycznej. Wprowadzono parametr rs min umożliwiający odcięcie wyników poniżej pewnej wartości tej miary Metoda SDM Wynik działania metody SM na pewnym korpusie tekstów można przekształcić do postaci słownikowej (rys. 1, operacja 4a) w ten sposób uzyskamy dodatkowy zasób słownikowy, który następnie może zwiększyć skuteczność rozpoznawania i ekstrakcji WW z tekstu. Zdecydowano wykorzystać do tej operacji dwa korpusy tekstowe: 5 Zauważono to też np. w pracy [6]. 6 W przyszłości można wprowadzić tutaj metody uczenia maszynowego z nadzorem, wymagają one jednak dużego wysiłku poświęconego na tworzenie zbiorów treningowych. 8
9 PAP-TRAIN korpus notatek prasowych PAP liczący ok. 3.6 mln segmentów. WIKI korpus zawierający treść wszystkich artykułów Wikipedii, liczący mln segmentów. Słownik utworzony z korpusu WIKI poddano szczegółowej analizie. Jego dokładność zależy od wybranej wartości progu rs min. Przykładowo, jeżeli próg ten ustalimy tak, że słownik ma 1 milion haseł, ponad 75% z nich będzie poprawnymi WW. Po utworzeniu słownika należy podobnie jak dla metody pdm utworzyć wzorce słownikowe, a następnie automat je rozpoznający (rys. 1, operacje 4b i 4c). Powstałą metodę nazywamy SDM. 4 Testy metod ekstrakcji Aby zweryfikować prawdziwość Tezy 1, trzeba ocenić jakość wyników generowanych przez algorytmy ekstrahujące WW z tekstu. W tym celu przetestowano działanie algorytmów na losowo wybranej próbce 100 notatek prasowych z korpusu PAP, w której ręcznie oznakowane zostały wyrazy wielosegmentowe. Tagowanie przeprowadzane było przez dwie osoby (autor i promotor pracy). Powstały korpus oznaczmy przez PAP-TEST 7. Fragment otagowanej notatki pokazano poniżej: Zdaniem prezes {{*** Narodowego Banku Polskiego}} {{*--- Hanny Gronkiewicz-Waltz}} {{** Jarosław Bauc}} jest odpowiednim kandydatem na {{*- ministra finansów}}. Podwójne nawiasy klamrowe oznaczają miejsca wystąpień WW, a segmenty odmienne i nieodmienne oznaczamy odpowiednio przez * i -. Test polega na wyborze co najmniej jednej spośród dostępnych metod (DM, pdm, SM i SDM), ustaleniu wartości ich parametrów liczbowych (np. rs min dla metody SM) 8 oraz wykonaniu tagowania na korpusie PAP-TEST pozbawionym tagów wybranymi metodami w przypadku wyboru kilku metod należy określić ich priorytety. W wyniku tagowania otrzymujemy otagowany korpus wynikowy PAP-WW. Porównując go z PAP-TEST możemy wyznaczyć cztery zbiory wyrażeń: T i zbiór poprawnie rozpoznanych wyrażeń z prawidłowo zidentyfikowanymi segmentami odmiennymi. T d zbiór poprawnie rozpoznanych wyrażeń z nieprawidłowo zidentyfikowanymi segmentami odmiennymi. F n zbiór wyrażeń, które powinny być rozpoznane, lecz nie zostały rozpoznane. F p zbiór wyrażeń, które nie powinny być rozpoznane, lecz zostały rozpoznane. Wprowadzono dwa rodzaje testu w zależności od sposobu traktowania wyrażeń ze zbioru T d : test rozpoznawania uznaje je za poprawne, natomiast test ekstrakcji uznaje je za błędne podział ten 7 Należy tutaj podkreślić, że wybrane notatki zostały wykluczone z korpusu treningowego PAP-TRAIN. 8 Wartości optymalnych parametrów były walidowane krzyżowo: korpus PAP-TEST dzielono na pół, po czym jedną z połówek używano do optymalizacji, a druga do testu. 9
10 wynika z faktu, że o ile elementy T d są poprawnie rozpoznane, to jednak nie można ich uznać za w pełni wyekstrahowane WW, ponieważ posiadają błędny wzorzec odmiany. Wyniki działania algorytmów rozpoznawania i ekstrakcji informacji z tekstu tradycyjnie podaje się w postaci wartości wskaźników precyzji (precision, P ) i pełności (recall, R). Precyzja określa, jaka część rozpoznanych wyników jest poprawna, natomiast pełność jaką część oczekiwanych wyników rozpoznano poprawnie. Dla testu rozpoznawania wskaźniki te wyrażają się wzorami: P rec = T i T d T i T d F p R rec = T i T d T i T d F n Z kolei dla testu ekstrakcji obowiązują wzory: P ext = T i T i T d F p R ext = T i T i T d F n Dla obu metod wyznaczamy jeszcze miarę F 1 (F-measure) będącą ich średnią harmoniczną: F 1 = 2P R P +R. Jest to popularnie stosowana miara łącząca precyzję i pełność. Współczynniki F 1 dla obu testów oznaczymy odpowiednio przez F rec i F ext. 4.1 Wyniki testów Wyniki testów wszystkich metod zebrano w poniższej tabeli 2. Najwyższą precyzję osiąga metoda pdm, ponieważ ekstrahuje ona wyłącznie hasła Wikipedii, które dodatkowo zostały przefiltrowane podczas wyznaczania wzorców odmiany. Widać też wyraźną poprawę P ext dla pdm w stosunku do DM. Metoda SM co prawda sama osiąga niezbyt wysokie wyniki, lecz pozwala ona na skonstruowanie słownika, z którego korzysta metoda SDM osiągająca wysoką pełność. W ostatnim wierszu przedstawiono metodę łączoną, wykorzystującą kolejno pdm, SDM i SM. Dzięki takiej kolejności zostaje zachowana w dużym stopniu precyzja pdm, natomiast SDM i SM zwiększają wartość pełności. Metoda ta osiąga najlepsze Tabela 2: Wyniki testów rozpoznawania i ekstrakcji wyrazów wielosegmentowych różnymi metodami. Wyróżniono najlepszy wynik w każdej z kolumn. Test rozpoznawania Test ekstrakcji Metoda P rec R rec F rec P ext R ext F ext DM pdm SM SDM pdm + SDM + SM
11 rezultaty, jednak istnieje też znaczna liczba błędnych wyników wśród przyczyn błędów dominują: Długa, nietypowa struktura wyrażeń, np. zamiast V Liceum Ogólnokształcące im. Augusta Witkowskiego rozpoznano osobno Liceum Ogólnokształcące i Augusta Witkowskiego. W tym przypadku jeden błąd spowodował zwiększenie F n o jeden element i F d o dwa. Brak obcojęzycznych nazw i nazwisk w CLPM, np. Pete Sampras. Błędy ortograficzne, np. W.Brytania (brak spacji po kropce), Białego Domy. Nadmiarowe wyrażenia z Wikipedii, np. stycznia 1921, grudniu Podsumowując możemy stwierdzić, że rezultat liczbowy dość dobrze odzwierciedla rzeczywistą jakość wyników, chociaż może on być zaniżony. Istnieją możliwości dalszej poprawy. 5 Etykiety semantyczne wyrazów wielosegmentowych Algorytm ekstrakcji etykiet semantycznych został zaprojektowany i zaimplementowany w ramach pracy magisterskiej Autora [3], natomiast później już w ramach przygotowań do pracy doktorskiej został on dopracowany i dostosowany do nowej struktury bazy danych. Ulepszona wersja została opisana w publikacji [4], po czym jeszcze została ona zmodyfikowana tak, by korzystała ze słownika CLPM. Celem działania algorytmu jest wyznaczenie etykiety semantycznej krótkiej definicji składającej się z kilku słów, np. dla słowa Kraków etykieta powinna brzmieć miasto, a dla Karol Bielecki piłkarz ręczny. Etykieta zawiera rzeczownik główny oraz inne opcjonalne rzeczowniki lub przymiotniki, jednak powinna być krótka i zwięzła. Czasami trudno jest podać definicję przy pomocy rzeczownika i potrzebne są dodatkowe operatory, np. część samochodu, rasa kota, grupa ludzi, które powinny zostać dołączone do etykiety. Jako źródłowy zasób danych ponownie wykorzystano Wikipedię, a konkretnie wyekstrahowane z niej początkowe akapity każdego z artykułów. Problem polega na przydzieleniu każdemu wyrazowi wielosegmentowemu z Wikipedii etykiety, która jest ekstrahowana z pierwszych zdań artykułu. Algorytm opiera się na spostrzeżeniach odnośnie struktury typowej definicji encyklopedycznej haseł i składa się z kilku etapów. 1. Usunięcie powtórzonego hasła z początkowego akapitu. 2. Podział artykułu na zdania i ich fragmenty, uporządkowane według rozpoczynającego je segmentu, np. fragment zdania zaczynający się od znaku będzie prawdopodobnie zawierał definicję. 3. Wyszukiwanie rzeczownika głównego we fragmentach zdań z uwzględnieniem operatorów. 4. Uzupełnianie definicji o dodatkowe elementy. Algorytm korzystający z CLPM generuje słownik zawierający 94.3% poprawnych etykiet semantycznych 9, co jest poprawą o ok. 2% w stosunku do poprzedniej wersji wykorzystującej bibliotekę CLP. 9 Test wykonano na próbce 500 haseł. 11
12 Oprócz przydzielenia etykiet hasłom Wikipedii istnieje potrzeba ekstrakcji etykiet semantycznych dla dowolnych wyrazów wielosegmentowych wyekstrahowanych z tekstu. Jest to problem złożony, ponieważ w tekście nie znajdziemy bezpośredniej informacji na temat znaczenia danego wyrazu. Podjęto próbę zbadania, czy można wyznaczyć etykietę nowo wyekstrahowanego WW na podstawie etykiet haseł, z których wygenerowano wzorce syntaktyczne (metoda SM), jednak okazało się, że podejście to daje niskie wyniki wstępne testy pokazały dokładność poniżej 25% dla 100 przypadkowo wybranych wyrazów z automatycznie utworzonego słownika liczącego 171 tys. wyrazów. Nie pomogła również próba użycia WordNetu do znalezienia wspólnego hiperonimu w przypadku kilku konfliktujących etykiet. Powodem jest drobnoziarnistość etykiet oraz brak bezpośredniej implikacji miedzy syntaktyką a semantyką. W przyszłości należy dopracować istniejące etykiety tak, by mogły posłużyć za zbiór treningowy i użyć uczenia maszynowego z nadzorem do ekstrakcji etykiet dla nowych wyrazów. 6 Podsumowanie Przeprowadzone badania wykazują prawdziwość przedstawionych tez. Teza 1 została udowodniona przez wyniki uzyskane przez metody SM, SDM oraz metodę łączoną. Zaprezentowane rezultaty pokazują, że istnieje możliwość automatycznej ekstrakcji wyrazów wielosegmentowych z tekstu przy pomocy słownika fleksyjnego i artykułów Wikipedii bez wykorzystania dodatkowych reguł i zbiorów treningowych. Metoda łączona (pdm + SDM + SM) uzyskała w teście rozpoznawania wyrazów wielosegmentowych wartość F 1 przekraczającą 71%, a w teście ekstrakcji 68%, co pozwala stwierdzić, że teza ta została potwierdzona. Prawdziwość Tezy 2 wykazują z kolei przedstawione metody tworzenia słownika WW z Wikipedii (metody DM i pdm) i z wyników działania algorytmu SM. Literatura [1] Božo Bekavac i Marko Tadic. A generic method for multi word extraction from Wikipedia. 30th International Conference on Information Technology Interfaces (ITI), str IEEE, [2] Aleksander Buczyński i Adam Przepiórkowski. Spejd: A shallow processing and morphological disambiguation tool. Human Language Technology. Challenges of the Information Society, str Springer, [3] Paweł Chrząszcz. Automatyczne rozpoznawanie i klasyfikacja nazw wielosegmentowych na podstawie analizy haseł encyklopedycznych. Praca magisterska, Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie, [4] Paweł Chrząszcz. Enrichment of inflection dictionaries: automatic extraction of semantic labels from encyclopedic definitions. Proceedings of the 9th International Workshop on Natural Language Processing and Cognitive Science (NLPCS, w połączeniu z ICEIS), str SciTePress,
13 [5] Matthieu Constant i Anthony Sigogne. MWU-aware part-of-speech tagging with a CRF model and lexical resources. Proceedings of the Workshop on Multiword Expressions: from Parsing and Generation to the Real World, str Association for Computational Linguistics, [6] Meghdad Farahmand i Ronaldo Martins. A supervised model for extraction of multiword expressions based on statistical context features. Proceedings of the 10th Workshop on Multiword Expressions (MWE, w połączeniu z EACL), str Association for Computational Linguistics, [7] Evgeniy Gabrilovich i Shaul Markovitch. Computing semantic relatedness using Wikipedia-based explicit semantic analysis. Proceedings of the 20th International Joint Conference on Artifical Intelligence (IJCAI), tom 7, str Morgan Kaufmann Publishers Inc., [8] Marek Gajęcki. Słownik fleksyjny jako biblioteka języka C. Słowniki komputerowe i automatyczna ekstrakcja informacji z tekstu (pod redakcją Wiesława Lubaszewskiego). Wydawnictwa AGH, Kraków, [9] Filip Graliński, Agata Savary, Monika Czerepowicka i Filip Makowiecki. Computational lexicography of multi-word units: how efficient can it be? Proceedings of the Workshop on Multiword Expressions: from Theory to Applications (MWE), str Association for Computational Linguistics, [10] Roman Kurc, Maciej Piasecki i Bartosz Broda. Constraint based description of Polish multiword expressions. Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC), str European Language Resources Association, [11] Wiesław Lubaszewski, H. Wróbel, M. Gajęcki, B. Moskal, A. Orzechowska, P. Pietras, P. Pisarek i T. Rokicka. Słownik Fleksyjny Języka Polskiego. Grupa Lingwistyki Komputerowej, Katedra Informatyki AGH i Katedra Lingwistyki Komputerowej UJ, Kraków, [12] Cynthia Matuszek, John Cabral, Michael J. Witbrock i John DeOliveira. An introduction to the syntax and content of Cyc. AAAI Spring Symposium: Formalizing and Compiling Background Knowledge and Its Applications to Knowledge Representation and Question Answering, str [13] Marek Maziarz, Maciej Piasecki i Stanisław Szpakowicz. Approaching plwordnet 2.0. Proceedings of the 6th Global Wordnet Conference. Global WordNet Association, [14] Morfologik. Analizator morfologiczny + słownik morfologiczny + korektor gramatyczny + biblioteki. Dostępny 8 maja [15] Pavel Pecina. A machine learning approach to multiword expression extraction. Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions (MWE), str European Language Resources Association,
14 [16] Jakub Piskorski, Peter Homola, Małgorzata Marciniak, Agnieszka Mykowiecka, Adam Przepiórkowski i Marcin Woliński. Information extraction for Polish using the SProUT platform. Intelligent Information Processing and Web Mining, tom 25 z serii Advances in Soft Computing, str Springer Berlin Heidelberg, [17] Aleksander Pohl i Bartosz Ziółko. A comparison of Polish taggers in the application for automatic speech recognition. Proceedings of the 6th Language and Technology Conference (LTC), str [18] Carlos Ramisch, Paulo Schreiner, Marco Idiart i Aline Villavicencio. An evaluation of methods for the extraction of multiword expressions. Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions (MWE), str European Language Resources Association, [19] Carlos Ramisch, Aline Villavicencio i Christian Boitet. MWEToolkit: a framework for multiword expression identification. Proceedings of the 7th International Conference on Language Resources and Evaluation (LREC), str European Language Resources Association, [20] Josef Ruppenhofer, Michael Ellsworth, Miriam R.L. Petruck, Christopher R. Johnson i Jan Scheffczyk. FrameNet II: Extended theory and practice. International Computer Science Institute, Berkeley, CA, [21] Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake i Dan Flickinger. Multiword expressions: a pain in the neck for NLP. Computational Linguistics and Intelligent Text Processing, tom 2276 z serii Lecture Notes in Computer Science, str Springer Berlin Heidelberg, [22] Jakub Waszczuk. Harnessing the CRF complexity with domain-specific constraints. The case of morphosyntactic tagging of a highly inflected language. Proceedings of the 24th International Conference on Computational Linguistics (COLING), str [23] Wikipedia. Wolna encyklopedia. Dostępny 8 maja [24] Wikisłownik. Wolny, wielojęzyczny słownik. Dostępny 23 maja [25] Marcin Woliński. Morfeusz a practical tool for the morphological analysis of Polish. Advances in Soft Computing, 26(6), str , [26] Michał Woźniak. Automatic extraction of multiword lexical units from Polish text. 5th Language and Technology Conference (LTC) [27] Yi Zhang, Valia Kordoni, Aline Villavicencio i Marco Idiart. Automated multiword expression prediction for grammar engineering. Proceedings of the Workshop on Multiword Expressions: Identifying and Exploiting Underlying Properties, str Association for Computational Linguistics,
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych
Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych IPI PAN 26 stycznia 2015 Przeglad treści Wstęp 1 Wstęp 2 3 4 5 Problem podstawowy Odmiana jednostek wieloczłonowych: (np.:
Maszynowe tłumaczenie Polskiego Języka Migowego
Maszynowe tłumaczenie Polskiego Języka Migowego Projekt WiTKoM Dorota Grądalska VoicePIN.com Sp. z o.o; Akademia Górniczo-Hutnicza, Wydział Informatyki, Elektroniki i Telekomunikacji, Katedra Elektroniki
Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego
AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE WYDZIAŁ INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI KATEDRA INFORMATYKI Paweł Chrzaszcz Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych
Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
Zastosowanie Wikipedii w przetwarzaniu języka naturalnego
Zastosowanie Wikipedii w przetwarzaniu języka naturalnego Plan prezentacji Wikipedia Klasyfikacja Zastosowanie w NLP Plan prezentacji Wikipedia Klasyfikacja Zastosowanie w NLP Rysunek : http://img2.wikia.nocookie.net/
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych
1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych Marcin Wolińſki, Witold Kieraś, Dorota Komo ńska, Emanuel Modrzejewſki Zespół Inżynieriey Lingw tyczney In ytut Pod aw Informatyki Polſkiey Akademii Nauk
Języki programowania zasady ich tworzenia
Strona 1 z 18 Języki programowania zasady ich tworzenia Definicja 5 Językami formalnymi nazywamy każdy system, w którym stosując dobrze określone reguły należące do ustalonego zbioru, możemy uzyskać wszystkie
Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa
Spis treści -1 LXIII Zjazd PTJ, Warszawa 16-17.09.2003 Pomor, Humor Morfeusz SIAT Poliqarp Holmes Kryteria wyboru Robert Wołosz Marcin Woliński Adam Przepiórkowski Michał Rudolf Niebieska gramatyka Saloni,
Co wylicza Jasnopis? Bartosz Broda
Co wylicza Jasnopis? Bartosz Broda Analiza języka polskiego Ekstrakcja tekstu Dokument narzędzie do mierzenia zrozumiałości Analiza morfologiczna Analiza morfosyntaktyczna Indeksy Klasa trudności:
Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych
Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych mgr inż. Michał Marcińczuk opiekun naukowy prof. Zbigniew Huzar Instytut Informatyki Stosowanej Politechnika Wrocławska 17 czerwca 2008 Plan
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
CLARIN rozproszony system technologii językowych dla różnych języków europejskich
CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN
System Korekty Tekstu Polskiego
Wnioski Grzegorz Szuba System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Rozszerzenie pracy - uproszczona
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P7 KWIECIEŃ 2017 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P2 KWIECIEŃ 2017 Zadanie 1. (0 1) FP Zadanie 2. (0 1) B Zadanie 3. (0 1)
CAŁOŚĆ OPRACOWANIA POWINNA ZAWIERAĆ MAKSYMALNIE 10 STRON.
CAŁOŚĆ OPRACOWANIA POWINNA ZAWIERAĆ MAKSYMALNIE 10 STRON. REDAKCJA NIE INGERUJE W ZAWARTOŚĆ MERYTORYCZNĄ NADESŁANYCH ARTYKUŁÓW I NIE DOKONUJE KOREKTY PISOWNI. REDAKCJA PRZYJMUJE PLIKI WYŁĄCZNIE W FORMACIE
Sylabus Moduł 2: Przetwarzanie tekstów
Sylabus Moduł 2: Przetwarzanie tekstów Niniejsze opracowanie przeznaczone jest dla osób zamierzających zdać egzamin ECDL (European Computer Driving Licence) na poziomie podstawowym. Publikacja zawiera
Porównywanie tagerów dopuszczajacych niejednoznaczności
Porównywanie tagerów dopuszczajacych niejednoznaczności (na przykładzie tagerów wykorzystanych w Korpusie IPI PAN) 3 listopad 2008 Plan prezentacji 1 Wprowadzenie Problem niejednoznaczności Poprawna interpretacja
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Automatyczna klasyfikacja zespołów QRS
Przetwarzanie sygnałów w systemach diagnostycznych Informatyka Stosowana V Automatyczna klasyfikacja zespołów QRS Anna Mleko Tomasz Kotliński AGH EAIiE 9 . Opis zadania Tematem projektu było zaprojektowanie
Eksploracja Zasobów Internetu
document accents, spacing, etc. stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms When Google encounters a hyphen ( ) in a query term, e.g.,
Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji cha- rakteru opinii konsumenckich. 1 Wstęp
mgr Katarzyna Wójcik mgr Janusz Tuchowski Uniwersytet Ekonomiczny w Krakowie Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji charakteru opinii konsumenckich. 1 Wstęp Analiza opinii
Języki formalne i automaty Ćwiczenia 6
Języki formalne i automaty Ćwiczenia 6 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Wyrażenia regularne... 2 Standardy IEEE POSIX Basic Regular Expressions (BRE) oraz Extended
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania
OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI
Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych
Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych Instytut Podstaw Informatyki Polskiej Akademii Nauk 16 kwietnia 2012 Plan prezentacji Ekstrakcja informacji Zasoby językowe
CZYTANIE CICHE ZE ZROZUMIENIEM
Edukacja polonistyczna klasa 2 PISANIE - kryteria pięknego pisania 1. Pismo utrzymuję w liniaturze. 2. Litery w wyrazach są z sobą połączone. 3. Unikam skreśleń i poprawek. 4. Wyraz błędnie napisany przekreślam
Programowanie komputerów
Programowanie komputerów Wykład 1-2. Podstawowe pojęcia Plan wykładu Omówienie programu wykładów, laboratoriów oraz egzaminu Etapy rozwiązywania problemów dr Helena Dudycz Katedra Technologii Informacyjnych
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P2 KWIECIEŃ 2019 Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)
Nr Tytuł Przykład Str.
Spis treści Nr Tytuł Przykład Str. 1. Bezokolicznik Ӏ Pytania bezokolicznika:?? Zakończenia bezokolicznika -, -, - 10 2. Czasowniki niedokonane i dokonane Użycie postaci czasowników Nieregularne formy
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
Word. Korespondencja seryjna
1 (Pobrane z slow7.pl) Korespondencja seryjnajestto taki sposób utworzenia jednolitego dokumentu, który będzie różnił się jedynie zawartością wybranych pól. Pola te będą automatycznie wypełniane przez
Matematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Gramatyki bezkontekstowe I Gramatyką bezkontekstową
5.5. Wybieranie informacji z bazy
5.5. Wybieranie informacji z bazy Baza danych to ogromny zbiór informacji, szczególnie jeśli jest odpowiedzialna za przechowywanie danych ogromnych firm lub korporacji. Posiadając tysiące rekordów trudno
NaCoBeZu na co będę zwracać uwagę. Nauka o języku
NaCoBeZu na co będę zwracać uwagę Komunikacja językowa: Nauka o języku znam pojęcia z zakresu komunikacji językowej: schemat komunikacyjny; nadawca; odbiorca; komunikat; kod; kontekst ; znaki niewerbalne
PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI
PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ Copyright by Nowa Era Sp. z o.o. Zadanie 1. (0 1) Wymagania szczegółowe 2) wyszukuje w wypowiedzi potrzebne
Programowanie dynamiczne
Programowanie dynamiczne Ciąg Fibonacciego fib(0)=1 fib(1)=1 fib(n)=fib(n-1)+fib(n-2), gdzie n 2 Elementy tego ciągu stanowią liczby naturalne tworzące ciąg o takiej własności, że kolejny wyraz (z wyjątkiem
Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki
Analiza leksykalna 1 Teoria kompilacji Dr inż. Janusz Majewski Katedra Informatyki Zadanie analizy leksykalnej Kod źródłowy (ciąg znaków) Analizator leksykalny SKANER Ciąg symboli leksykalnych (tokenów)
EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa
, semantyczne powiązanie i podobieństwo, odległość Projekt przejściowy ARR Politechnika Wrocławska Wydział Elektroniki Wrocław, 22 października 2013 Spis treści 1 językowa 2, kryteria 3 Streszczenie artykułu
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
KATEGORIA OBSZAR WIEDZY
Moduł 3 - Przetwarzanie tekstów - od kandydata wymaga się zaprezentowania umiejętności wykorzystywania programu do edycji tekstu. Kandydat powinien wykonać zadania o charakterze podstawowym związane z
Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
System gromadzenia, indeksowania i opisu słownikowego norm i rekomendacji Praca magisterska Jakub Reczycki Opiekun : dr inż. Jacek Rumiński Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
Open Access w technologii językowej dla języka polskiego
Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika
ZASADY REDAGOWANIA PRACY LICENCJACKIEJ
1 ZASADY REDAGOWANIA PRACY LICENCJACKIEJ ZASADY OGÓLNE Praca licencjacka pisana jest samodzielnie przez studenta. Format papieru: A4. Objętość pracy: 40-90 stron. Praca drukowana jest dwustronnie. Oprawa:
Instrukcja dla autorów monografii
Instrukcja dla autorów monografii SPIS TREŚCI czcionka Times New Roman (dalej: TNR), rozmiar 16 STRESZCZENIE TNR 11... 6 1. WSTĘP... 7 2. ROZDZIAŁ 2... 23 2.1. Podrozdział TNR 11... 36 2.2. Podrozdział
0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
5. WORD W POLSKIEJ WERSJI
5. WORD W POLSKIEJ WERSJI 5.1. PISOWNIA I GRAMATYKA Polska wersja pakietu Microsoft Office 2000 jest dostarczana wraz z narzędziami sprawdzania pisowni dla języka polskiego, angielskiego i niemieckiego.
SQL - Structured Query Language -strukturalny język zapytań SQL SQL SQL SQL
Wprowadzenie do SQL SQL - Structured Query Language -strukturalny język zapytań Światowy standard przeznaczony do definiowania, operowania i sterowania danymi w relacyjnych bazach danych Powstał w firmie
Przykłady zastosowań funkcji tekstowych w arkuszu kalkulacyjnym
S t r o n a 1 Bożena Ignatowska Przykłady zastosowań funkcji tekstowych w arkuszu kalkulacyjnym Wprowadzenie W artykule zostaną omówione zagadnienia związane z wykorzystaniem funkcji tekstowych w arkuszu
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski
Samochodowy system detekcji i rozpoznawania znaków drogowych Sensory w budowie maszyn i pojazdów Maciej Śmigielski Rozpoznawanie obrazów Rozpoznawaniem obrazów możemy nazwać proces przetwarzania i analizowania
Ogranicz listę klasyfikacji budżetowych do powiązanych z danym kontem księgowym
Zależności i kontrola danych budżetowych w systemie Sz@rk FK 1. Wstęp Począwszy od wersji Sz@rk FK 2011 (11.03.30) wprowadzono do programu finansowoksięgowego nowe możliwości dotyczące kontrolowania poprawności
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P7 KWIECIEŃ 2019 Zadanie 1. (0 1) PF Zadanie 2. (0 1) II. Analiza i interpretacja
Maciej Piotr Jankowski
Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
Tematy lekcji informatyki klasa 4a luty/marzec 2013
Tematy lekcji informatyki klasa 4a luty/marzec 2013 temat 11. z podręcznika (str. 116-120) Jak uruchomić edytor tekstu MS Word 2007? ćwiczenia 2-5 (str. 117-120); Co to jest przycisk Office? W jaki sposób
Od e-materiałów do e-tutorów
Od e-materiałów do e-tutorów Lech Banachowski, Elżbieta Mrówka-Matejewska, Agnieszka Chądzyńska-Krasowska, Jerzy Paweł Nowacki, Wydział Informatyki, Polsko-Japońska Akademia Technik Komputerowych Plan
KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE
Excel - podstawa teoretyczna do ćwiczeń. 26 lutego 2013
26 lutego 2013 Ćwiczenia 1-2 Częste błędy i problemy: 1 jeżeli użyjemy niewłaściwego znaku dziesiętnego Excel potraktuje liczbę jak tekst - aby uniknać takich sytuacji używaj klawiatury numerycznej, 2
Wymagania edukacyjne z języka polskiego. dla klasy III gimnazjum
Wymagania edukacyjne z języka polskiego dla klasy III gimnazjum PO UKOŃCZENIU KLASY III UCZEŃ POWINIEN UMIEĆ : -wyróżnić czasowniki w formie osobowej i nieosobowej, określić formy gramatyczne, odmienić
PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI
PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ Copyright by Nowa Era Sp. z o.o. Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje [ ]. PP Zadanie
ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 5.0
ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 5.0 Przeznaczenie sylabusa Dokument ten zawiera szczegółowy sylabus dla modułu ECDL/ICDL Przetwarzanie tekstów. Sylabus opisuje zakres wiedzy i
Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych
Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki
Procesy ETL. 10maja2009. Paweł Szołtysek
Procesy 10maja2009 Paweł Szołtysek 1/12 w praktyce w praktyce 2/12 Zagadnienie Business Inteligence w praktyce 3/12 Czym jest proces? w praktyce Dane: dowolny zbiór danych ze źródeł zewnętrznych. Szukane:
KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V
KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V OCENA CELUJĄCĄ otrzymuje ją uczeń, który opanował pełny zakres wiadomości i umiejętności określonych programem nauczania dla klasy V oraz: twórczo i samodzielnie
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015
EGZMIN W KLSIE TRZECIEJ GIMNZJUM W ROKU SZKOLNYM 2014/2015 CZĘŚĆ 1. JĘZYK POLSKI ZSDY OCENINI ROZWIĄZŃ ZDŃ RKUSZ GH-P7 KWIECIEŃ 2015 Zadanie 1. (0 1) PP Zadanie 2. (0 1) Zadanie 3. (0 1) II. naliza i interpretacja
Zautomatyzowane tworzenie korpusów błędów dla języka polskiego
Zautomatyzowane tworzenie korpusów błędów dla języka polskiego Marcin Miłkowski Instytut Filozofii i Socjologii PAN Zakład Logiki i Kognitywistyki Adres projektu: morfologik.blogspot.com Korpusy błędów
Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat
Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat Użytkownik Indywidualny Raport podobieństwa: ułatwia ocenę samodzielności badanego tekstu, wskazuje liczbę zapożyczonych fragmentów i podaje
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P7 KWIECIEŃ 2016 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji
Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII
Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII Rozdział 1 Ocenę dopuszczającą otrzymuje uczeń, który: Przy pomocy kolegów lub nauczyciela łączy nazwy czynności
INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE
Studia podyplomowe dla nauczycieli INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Przedmiot JĘZYKI PROGRAMOWANIA DEFINICJE I PODSTAWOWE POJĘCIA Autor mgr Sławomir Ciernicki 1/7 Aby
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa
Metody indeksowania dokumentów tekstowych
Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19 Metody indeksowania dokumentów tekstowych 2/ 19 Czym jest wyszukiwanie informacji? Wyszukiwanie
Temat 1. Więcej o opracowywaniu tekstu
Temat 1. Więcej o opracowywaniu tekstu Cele edukacyjne Celem tematu 1. jest uporządkowanie i rozszerzenie wiedzy uczniów na temat opracowywania dokumentów tekstowych (m.in. stosowania tabulatorów, spacji
#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL
#1 Wartościowa treść Treść artykułu powinna być unikatowa (algorytm wyszukiwarki nisko ocenia skopiowaną zawartość, a na strony zawierające powtórzoną treść może zostać nałożony filtr, co skutkuje spadkiem
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,
OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017
EGZMIN W KLSIE TRZECIEJ GIMNZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZSDY OCENINI ROZWIĄZŃ ZDŃ RKUSZ GH-P8 KWIECIEŃ 2017 Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje [ ].
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Plan prezentacji
Personalizacja oraz treści dynamiczne w szablonach
Personalizacja oraz treści dynamiczne w szablonach Kraków 20 maja 2010 Uwagi ogólne Wszystkie tagi w postaci: $$nazwa_pola_dodatkowego$$ $$filtr:nazwa_pola$$ $$if:nazwa_pola$$ $$endif$$ $$wyrażenie_czasowe$$
Model zaszumionego kanału
W X kanal Y W^ koder dekoder p(y x) Oryginalna praca Shannona polegała na poszukiwaniu takiego kodowania, które umożliwiało ustalenie nadmiarowości informacji w taki sposób, żeby na wyjściu można było
Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz r. Roman Grundkiewicz. 1 z 31
1 z 31 Pozyskiwanie przykładów błędów językowych z historii edycji tekstu 09.04.2013 r. Roman Grundkiewicz 2 z 31 Po co korpus błędów? Jedną ze słabości ewaluacji systemów korekty tekstu są testy na ręcznie
Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu
Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu DEC-2012/07/B/HS2/00570 Magdalena Derwojedowa Witold Kieraś Danuta Skowrońska Robert
8. Listy wartości, dodatkowe informacje dotyczące elementów i przycisków
8. Listy wartości, dodatkowe informacje dotyczące elementów i przycisków 1. Jak wspomnieliśmy wcześniej, nie można wymagać od użytkowników, znajomości wszystkich identyfikatorów prowadzących, wykonawców
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P8 KWIECIEŃ 2016 Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje