Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Wielkość: px
Rozpocząć pokaz od strony:

Download "Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich"

Transkrypt

1 Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008

2 O czym będzie mowa 1 Wprowadzenie 2 Przetwarzanie morfo-syntaktyczne 3 Stan badań 4 Propozycja 5 Podsumowanie 2 / 24

3 Wprowadzenie Zadania przetwarzania tesktu (1) Wydobywanie informacji z tekstu Duży zbiór dokumentów tekstowych, np. raportów medycznych Potrzeba informacyjna użytkownika Automatyczne wypełnienie rekordów, np. P, O, S, C : Pacjent P przyjęty na oddział O szpitala S po rozpoznaniu jednostki chorobowej C Maszynowe tłumaczenie Wejście: tekst w języku J Wyjście: tekst w języku K Automatyczne streszczanie Wejście: tekst w języku J Wyjście: krótszy tekst w języku J zawierający najistotniejsze informacje z tekstu wejściowego 3 / 24

4 Wprowadzenie Zadania przetwarzania tesktu (2) Trudne i złożone zadania Wstępne przetworzenie tekstu wejściowego pozwala abstrahować od cech morfologicznych i składniowych Redukcja niejednoznaczności ogromna przepaść jak można tak przepaść Ustalenie ról pełnionych przez wyrazy Prezydent odwiedził ministra Prezydenta odwiedził minister 4 / 24

5 Wprowadzenie Zadania przetwarzania tesktu (3) Dziedzina: przetwarzanie języka naturalnego Rozpatrywane poziomy: morfologia i składnia Dążymy do opracowania uniwersalnych metod przetwarzania języka polskiego, które ułatwią wykonywanie innych zadań Zastosowanie praktyczne: stworzenie narzędzi do przetwarzania języka polskiego potrzebnych w ramach projektów realizowanych w instytucie Common Language Resources and INfrastructure Wspomaganie decyzji systemy nowej generacji 5 / 24

6 Przetwarzanie morfo-syntaktyczne Analiza morfologiczna (1) Klasyfikacja każdego wystąpienia jednostki leksykalnej (tokenu) Realizowana jest poprzez przypisanie znacznika określającego: klasę słowa (część mowy), wybrane własności wyrazu (głównie związane z odmianą) Analiza morfologiczna M : W 2 T T skończony ustalony zbiór znaczników, które mogą być przypisane jednostce leksykalnej. W zbiór tokenów 6 / 24

7 Przetwarzanie morfo-syntaktyczne Analiza morfologiczna (2) Nie patrzymy na kontekst wystąpienia Analiza morfologiczna jest wieloznaczna M : W 2 T przepaść czasownik, bezokolicznik rzeczownik, mianownik, rodzaj żeński, l. poj. rzeczownik, biernik, rodzaj żeński, l. poj. Kilka analizatorów dla języka polskiego Morfeusz Marcina Wolińskiego rozpoznaje form Odgadywacz ponad 70% dokładności [Piasecki, Radziszewski 2007] 7 / 24

8 Przetwarzanie morfo-syntaktyczne Ujednoznacznianie morfo-syntaktyczne (1) Wybieramy właściwy w danym kontekście znacznik Uzyskujemy przypisanie każdemu tokenowi dokładnie jednego znacznika Narzędzia ujednoznacznianiające nazywane są tagerami Aby ocenić jakość tagera, potrzebujemy wzorcowego tekstu oznakowanego ręcznie Trafność tagera (accuracy): procent tokenów oznaczonych prawidłowo 8 / 24

9 Przetwarzanie morfo-syntaktyczne Ujednoznacznianie morfo-syntaktyczne (2) Po analizie morfologicznej wielka przymiotnik, mianownik, rodzaj żeński, l. poj. przepaść czasownik, bezokolicznik rzeczownik, mianownik, rodzaj żeński, l. poj. rzeczownik, biernik, rodzaj żeński, l. poj. 9 / 24

10 Przetwarzanie morfo-syntaktyczne Ujednoznacznianie morfo-syntaktyczne (3) Po ujednoznacznieniu morfo-syntaktycznym wielka przymiotnik, mianownik, rodzaj żeński, l. poj. przepaść czasownik, bezokolicznik rzeczownik, mianownik, rodzaj żeński, l. poj. rzeczownik, biernik, rodzaj żeński, l. poj. 10 / 24

11 Przetwarzanie morfo-syntaktyczne Kontekst a ujednoznacznianie morfo-syntaktyczne Tybetańskie władze na wygnaniu przekonują, że liczba ofiar jest o wiele większa i sięga ponad 150 osób. * * * Tybetańskie władze na wygnaniu * * Tybetańskie władze na wygnaniu przekonują * Tybetańskie władze na wygnaniu przekonują, Tybetańskie władze na wygnaniu przekonują, że władze na wygnaniu przekonują, że liczba Lewy kontekst K L = <M(władze), M(na), M(wygnaniu)> Prawy kontekst K P = <M(,), M(że), M(liczba)> Pozycja p 5 = <K L, K P, M(przekonują)> p 5 Poz Poz = Kon Kon 2 T Ujednoznacznianie D: Poz T 11 / 24

12 Przetwarzanie morfo-syntaktyczne Analiza składniowa Pełna analiza składniowa: pełna struktura zdania Najczęściej: drzewo rozbioru składniowego Dokładny opis wszystkich fraz, pełen stopień zagnieżdżenia Istniejące analizatory składniowe dla języka polskiego są niepraktyczne Dla wielu zdań nie potrafią dać żadnej analizy Dla wielu zdań dają tysiące alternatywnych analiz Mają charakter eksperymentalno-badawczy Płytka analiza składniowa (ang. shallow parsing) Rezygnujemy z dokładności opisu na rzecz pewności Ograniczony stopień zagłębienia lub struktura płaska Ograniczony zestaw wyróżnianych fraz lub całostek 12 / 24

13 Przetwarzanie morfo-syntaktyczne Całostki składniowe Całostka (ang. chunk) [Abney, 1996] Nierekursywny rdzeń frazy wewnątrzzdaniowej rozciągający się od początku frazy do jej elementu nadrzędnego. Przykłady całostek rzeczownikowych [ Tybetańskie władze ] na [ wygnaniu ] przekonują, że [ liczba ] [ ofiar ] jest o wiele większa i sięga ponad 150 [ osób ]. Całostkowanie (znakowanie całostek) można sprowadzić do klasyfikacji tokenów. Tokenowi możemy przypisać znacznik określający: do jakiego typu całostki należy (lub nie należy do żadnej z rozpatrywanych), czy stanowi początek całostki 13 / 24

14 Stan badań Ujednoznacznianie języków słowiańskich (1) Swobodny szyk wyrazów oraz mnogość form w językach słowiańskich czynią metody czysto statystyczne bezużytecznymi [Sharoff, 2004] Język polski Tager TaKIPI [Piasecki, Godlewski 2006] Trafność 93,44% Drzewa decyzyjne, niewielka liczba reguł pisanych ręcznie Ręcznie dobierane atrybuty dla drzew decyzyjnych Język czeski Reguły ręczne i model Markowa: 95,16% [Hajič et al. 2001] ILP: 1% błędu przy ok. 50-procentowej redukcji niejednoznaczności [Nepil et al. 2001] 14 / 24

15 Stan badań Ujednoznacznianie języków słowiańskich (2) Tager TaKIPI: trafność 93,44% Dużą część tekstu stanowią jednostki jednoznaczne (50,0% tokenów korpusu znakowanego ręcznie) Dla jednostek wieloznacznych: 86,3% Zastosowania pokazują, że dokładność ta jest niewystarczająca Eksperymenty z automatycznym wydobywaniem synonimii Wyniki: synonimem słowa robot są robota, praca, urządzenie Błąd tagera: robota jako dopełniacz słowa robot 15 / 24

16 Stan badań Płytka analiza składniowa Formalizm dla języka polskiego prace Przepiórkowskiego Jednoczesne ujednoznacznianie i płytka analiza składniowa Założenie: wszystkie reguły pisane ręczne Brak wyników i systematyki planowanych typów fraz Formalizm wydaje się zbyt skomplikowany dla maszynowego uczenia całostkowania Gramatyki regularne pisane ręcznie [Przepiórkowski 1997] Brak uniwersalnego płytkiego parsera dla języka polskiego Znakowanie całostek rzeczownikowym w słoweńskich instrukcjach użytkownika: 77% [Tanev, Mitkov 2002] 16 / 24

17 Propozycja Cel i zakres Cel pracy Opracowanie metody znakowania całostek składniowych dla języka polskiego, która umożliwi jednoczesne ujednoznacznianie morfo-syntaktyczne. Poprawa trafności ujednoznaczniania w stosunku do znanych metod. Zakres 1 Metoda ma ujednoznaczniać tekst poddany analizie morfologicznej. 2 Zestaw całostek będzie ograniczony do kilku (1 4). 3 Badania prowadzone będą w kierunku metod pozyskujących wiedzę z dostępnego tekstu oznakowanego ręcznie. 17 / 24

18 Propozycja Schemat Tybetańskie władze na wygnaniu przekonują, że... Analizator morfologiczny Tybetańskie {adj,...} władze {...} na {...} wygnaniu {...} przekonują {...}, {interp} że {...}... Ujednoznacznianie i całostkowanie Tekst (ciąg tokenów) Tekst poddany analizie morfologicznej [Tybetańskieadj władze] subst na prep [wygnaniu] subst przekonują fin, interp że conj... Tekst ujednoznaczniony z oznaczonymi całostkami 18 / 24

19 Propozycja Propozycja kształtu rozwiązania (1) Złączenie ujednoznaczniania z płytką analizą składniową Informacja potrzebna do ujednoznacznienia ma charakter składniowy Oznaczenie całostki pociąga za sobą ograniczenie możliwych znaczników Znacznikom morfo-syntaktycznym przypisujemy typowe znaczniki całostek za [Karlsson 1990] W tekście nieujednoznacznionym część tokenów jest jednoznaczna Część tokenów należy jednoznacznie do pewnej całostki Oznaczamy takie tokeny, po czym stosujemy reguły 19 / 24

20 Propozycja Propozycja kształtu rozwiązania (2) Indukcja reguł ujednoznaczniających, które ingerują również w całostki Reguły powiększają całostki w lewo lub w prawo, ograniczając jednocześnie możliwe znaczniki morfo-syntaktyczne Reguły nie mogą zawęzić całostki, mogą jednak określać miejsca, przez które nie może przechodzić całostka Szablony reguł definiują wiedzę lingwistyczną podaną ręcznie Swobodny szyk wyrazów w zdaniu W tekście występują tokeny, które nie mają większego wpływu na ujednoznacznianie pozostałych Ma sens utworzenie pośredniej reprezentacji zdania pomijającej takie tokeny Zdanie złożone może być podzielone na więcej niż jedną pośrednią reprezentację 20 / 24

21 Propozycja Propozycja kształtu rozwiązania (3) Władze wielokrotnie zapewniały, że zginęło jedynie 22 demonstrantów. Władze wielokrotnie zapewniały, że zginęło jedynie 22 demonstrantów. Władze wielokrotnie zapewniały, zginęło jedynie 22 demonstrantów. A: Władze wielokrotnie zapewniały, że zginęło jedynie 22 demonstrantów. B: Władze zapewniały, C: zginęło 22 demonstrantów. 21 / 24

22 Podsumowanie Podsumowanie Przetwarzanie morfo-syntaktyczne języka polskiego Analiza morfologiczna: istnieją narzędzia o wysokiej trafności Ujednoznaczanie morfo-syntaktyczne: istnieją narzędzia, warto poprawić ich trafność Płytka analiza składniowa: praktycznie brak narzędzi Wyzwania Bogata fleksja języków słowiańskich, duży zbiór znaczników Szyk wyrazów nie determinuje funkcji przez nie pełnionych Szyk jest swobodny, występują długodystansowe zależności Możliwe korzyści Poprawa jakości istniejących i przyszłych systemów przetwarzania języka naturalnego Poprawa oznakowania korpusu języka polskiego IPI PAN Możliwość przetestowania opracowanych metod na innych językach 22 / 24

23 Podsumowanie Literatura (1) Dębowski, Tagowanie i dezambiguacja morfosyntaktyczna. Przegląd metod i oprogramowania Piasecki, Godlewski, Effective Architecture of the Polish Tagger. Piasecki, Radziszewski, Polish morphological guesser based on a statistical a tergo index. Sharoff, What is at stake: a case study of Russian expressions starting with a preposition Hajič, Hladka, Tagging inflective languages. Hajič et al., Serial combination of rules and statistics: a case study in Czech tagging. 23 / 24

24 Podsumowanie Literatura (2) Abney, Parsing by chunks. Abney, Chunk stylebook. Bird et al, Natural language processing in Python. Karlsson, Constraint Grammar as a Framework for Parsing Running Text. Nepil et al., Part-of-Speech Tagging by Means of Shallow Parsing, ILP and Active Learning Przepiórkowski, Slavic Information Extraction and Partial Parsing. Tanev, Mitkov, Shallow language processing architecture for Bulgarian. 24 / 24

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN rozproszony system technologii językowych dla różnych języków europejskich CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN

Bardziej szczegółowo

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016

Bardziej szczegółowo

Maszynowe tłumaczenie Polskiego Języka Migowego

Maszynowe tłumaczenie Polskiego Języka Migowego Maszynowe tłumaczenie Polskiego Języka Migowego Projekt WiTKoM Dorota Grądalska VoicePIN.com Sp. z o.o; Akademia Górniczo-Hutnicza, Wydział Informatyki, Elektroniki i Telekomunikacji, Katedra Elektroniki

Bardziej szczegółowo

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne: WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji

Bardziej szczegółowo

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych 1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych Marcin Wolińſki, Witold Kieraś, Dorota Komo ńska, Emanuel Modrzejewſki Zespół Inżynieriey Lingw tyczney In ytut Pod aw Informatyki Polſkiey Akademii Nauk

Bardziej szczegółowo

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r. Korpusy językowe podstawowa terminologia i metody tworzenia Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r. Czym jest korpus? Zbiór tekstów albo zapisanych wypowiedzi, wykorzystywany

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

Open Access w technologii językowej dla języka polskiego

Open Access w technologii językowej dla języka polskiego Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika

Bardziej szczegółowo

Analiza znaczeniowa sterowana składnią

Analiza znaczeniowa sterowana składnią S e ISA(e, Czytanie) Czytający(e, Ola) Czytany(e, Książka) NP VP N.Ola V.czyta NP N.książkę W jaki sposób przenieść znaczenie pojedynczych słów ze słownika w odpowiednie miejsca w reprezentacji zdania?

Bardziej szczegółowo

Eksploracja Zasobów Internetu

Eksploracja Zasobów Internetu document accents, spacing, etc. stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms When Google encounters a hyphen ( ) in a query term, e.g.,

Bardziej szczegółowo

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,

Bardziej szczegółowo

Metody Kompilacji Wykład 1 Wstęp

Metody Kompilacji Wykład 1 Wstęp Metody Kompilacji Wykład 1 Wstęp Literatura: Alfred V. Aho, Ravi Sethi, Jeffrey D. Ullman: Compilers: Princiles, Techniques, and Tools. Addison-Wesley 1986, ISBN 0-201-10088-6 Literatura: Alfred V. Aho,

Bardziej szczegółowo

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13

Bardziej szczegółowo

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej.piasecki@pwr.wroc.pl

Bardziej szczegółowo

Program warsztatów CLARIN-PL

Program warsztatów CLARIN-PL W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

AUTOMATYKA INFORMATYKA

AUTOMATYKA INFORMATYKA AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów

Bardziej szczegółowo

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych II cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych 18-20 maja 2015 roku Politechnika Wrocławska, Centrum Kongresowe,

Bardziej szczegółowo

Lokalizacja Oprogramowania

Lokalizacja Oprogramowania mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji

Bardziej szczegółowo

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN Podstawowe informacje o projekcie

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4. Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl

Bardziej szczegółowo

Semantyczne podobieństwo stron internetowych

Semantyczne podobieństwo stron internetowych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana

Bardziej szczegółowo

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych Maciej Piasecki Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii J

Bardziej szczegółowo

Semantyczna analiza języka naturalnego

Semantyczna analiza języka naturalnego Semantyczna analiza języka naturalnego Rozwiązanie Applica oparte o IBM SPSS Modeler Piotr Surma Applica 2 Agenda O Applica Analiza tekstu w języku polskim - wyzwania Rozwiązanie Applica Analiza Tekstu

Bardziej szczegółowo

Wstęp do Językoznawstwa

Wstęp do Językoznawstwa Wstęp do Językoznawstwa Prof. Nicole Nau UAM, IJ, Językoznawstwo Komputerowe Dziesiąte zajęcie 08.12.2015 Składnia: Co bada? Jak bada? Konstrukcja składniowa a) ciąg (zespół) form wyrazowych związanych

Bardziej szczegółowo

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Bardziej szczegółowo

LEM wydobywanie statystyk z korpusów

LEM wydobywanie statystyk z korpusów LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia

Bardziej szczegółowo

Porównywanie tagerów dopuszczajacych niejednoznaczności

Porównywanie tagerów dopuszczajacych niejednoznaczności Porównywanie tagerów dopuszczajacych niejednoznaczności (na przykładzie tagerów wykorzystanych w Korpusie IPI PAN) 3 listopad 2008 Plan prezentacji 1 Wprowadzenie Problem niejednoznaczności Poprawna interpretacja

Bardziej szczegółowo

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych mgr inż. Michał Marcińczuk opiekun naukowy prof. Zbigniew Huzar Instytut Informatyki Stosowanej Politechnika Wrocławska 17 czerwca 2008 Plan

Bardziej szczegółowo

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne

Bardziej szczegółowo

Inteligentne systemy decyzyjne. Przetwarzanie języka naturalnego

Inteligentne systemy decyzyjne. Przetwarzanie języka naturalnego Inteligentne systemy decyzyjne Przetwarzanie języka naturalnego Plan wykładu Etapy analizy językowej. Rozumienie języka naturalnego. Generowanie tekstu. Szukanie semantyczne. Tłumaczenie maszynowe. Rozwiązania

Bardziej szczegółowo

Zasady Nazewnictwa. Dokumentów XML 2007-11-08. Strona 1 z 9

Zasady Nazewnictwa. Dokumentów XML 2007-11-08. Strona 1 z 9 Zasady Nazewnictwa Dokumentów 2007-11-08 Strona 1 z 9 Spis treści I. Wstęp... 3 II. Znaczenie spójnych zasady nazewnictwa... 3 III. Zasady nazewnictwa wybrane zagadnienia... 3 1. Język oraz forma nazewnictwa...

Bardziej szczegółowo

Płytki parsing języka francuskiego

Płytki parsing języka francuskiego Uniwersytet im. A. Mickiewicza - Wydział Matematyki i Informatyki Leszek Manicki nr albumu: 287533 Płytki parsing języka francuskiego Praca magisterska na kierunku: INFORMATYKA Promotor: dr hab. Krzysztof

Bardziej szczegółowo

Konwersja tekstu ortograficznego na tekst fonetyczny przy użyciu parsingu płytkiego

Konwersja tekstu ortograficznego na tekst fonetyczny przy użyciu parsingu płytkiego Uniwersytet im. Adama Mickiewicza w Poznaniu Wydział Matematyki i Informatyki Adam Sosnowski Nr albumu: 329559 Konwersja tekstu ortograficznego na tekst fonetyczny przy użyciu parsingu płytkiego Praca

Bardziej szczegółowo

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE

Bardziej szczegółowo

10. Translacja sterowana składnią i YACC

10. Translacja sterowana składnią i YACC 10. Translacja sterowana składnią i YACC 10.1 Charakterystyka problemu translacja sterowana składnią jest metodą generacji przetworników tekstu języków, których składnię opisano za pomocą gramatyki (bezkontekstowej)

Bardziej szczegółowo

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Studia podyplomowe dla nauczycieli INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Przedmiot JĘZYKI PROGRAMOWANIA DEFINICJE I PODSTAWOWE POJĘCIA Autor mgr Sławomir Ciernicki 1/7 Aby

Bardziej szczegółowo

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji

Bardziej szczegółowo

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI W dniu 14.02.2017r. odbył się próbny egzamin gimnazjalny z języka polskiego. Do

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0 Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga

Bardziej szczegółowo

1. Opis merytoryczny

1. Opis merytoryczny WNIOSEK O PORTFOLIO: Opracowanie koncepcji wielojęzycznych generatorów gramatycznych pełniących rolę narzędzi informatycznych typu Machine-Aided Human Translation Autorzy: Mirosław Gajer, Zbigniew Handzel,

Bardziej szczegółowo

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67 Spis treści Wykaz skrótów... 11 Przedmowa... 15 Podziękowania... 17 ROZDZIAŁ 1 Wprowadzenie: założenia metodologiczne i teoretyczne... 19 1. Cel i układ pracy...... 19 2. Język jako przedmiot badań...

Bardziej szczegółowo

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI W dniu 18.04.2016r. odbył się egzamin gimnazjalny z języka polskiego. Do badania diagnostycznego

Bardziej szczegółowo

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN Podstawowe informacje o projekcie Projekt realizowany przez IJP

Bardziej szczegółowo

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii Językowej

Bardziej szczegółowo

Temat: Mechanizm uczenia się ograniczeń składniowych na potrzeby ujednoznaczniania morfo-syntaktycznego tekstów w języku polskim.

Temat: Mechanizm uczenia się ograniczeń składniowych na potrzeby ujednoznaczniania morfo-syntaktycznego tekstów w języku polskim. Temat: Mechanizm uczenia się ograniczeń składniowych na potrzeby ujednoznaczniania morfo-syntaktycznego tekstów w języku polskim. Mechanism of Learning of Syntactic Constraints for the Needs of Morfosyntactic

Bardziej szczegółowo

Komputerowa weryfikacja gramatyki Świdzińskiego

Komputerowa weryfikacja gramatyki Świdzińskiego Marcin Woliński Komputerowa weryfikacja gramatyki Świdzińskiego 12 maja 2005 j INSTYTUT PODSTAW INFORMATYKI POLSKIEJ AKADEMII NAUK ul. J. K. Ordona 21, 01-237 Warszawa Automatyczna analiza składniowa Niniejsza

Bardziej szczegółowo

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy Cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy 13 15 kwietnia 2015 roku Warszawa, Pałac Staszica, ul. Nowy Świat 72, sala 144

Bardziej szczegółowo

Uproszczony schemat działania kompilatora

Uproszczony schemat działania kompilatora Uproszczony schemat działania kompilatora Wykład7,str.1 program źródłowy ciąg leksemów drzewo wywodu drzewo i tablice symboli analiza leksykalna analiza syntaktyczna analiza semantyczna KOMPILATOR generacja

Bardziej szczegółowo

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD IX: Agent przetwarza język naturalny

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD IX: Agent przetwarza język naturalny Elementy kognitywistyki II: Sztuczna inteligencja WYKŁAD IX: Agent przetwarza język naturalny Przetwarzanie języka naturalnego Natural Language Processing, NLP... to formułowanie i testowanie obliczeniowo

Bardziej szczegółowo

Matematyczne Podstawy Informatyki

Matematyczne Podstawy Informatyki Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Stany równoważne Stany p i q są równoważne,

Bardziej szczegółowo

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Plan prezentacji

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)

Bardziej szczegółowo

Analizator fleksyjny Morfeusz 2

Analizator fleksyjny Morfeusz 2 Analizator fleksyjny Morfeusz 2 Katarzyna Krasnowska-Kieraś Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Lublin, 25 września 2019 Katarzyna Krasnowska-Kieraś Morfeusz

Bardziej szczegółowo

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010 Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą

Bardziej szczegółowo

CLARIN infrastruktura naukowa technologii językowych

CLARIN infrastruktura naukowa technologii językowych CLARIN infrastruktura naukowa technologii językowych Maciej Piasecki Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl Przykład: analiza pojęcia Problem:

Bardziej szczegółowo

Ewaluacja mowy syntetycznej za pomocą systemu rozpoznawania mowy

Ewaluacja mowy syntetycznej za pomocą systemu rozpoznawania mowy za pomocą systemu rozpoznawania mowy Jolanta Bachan Tomasz Kuczmarski Piotr Francuzik Rozpoznawanie mowy i mówców 17-18 września 2012 Poznań Cel Eksperymentalna ocena mowy syntetycznej za pomocą systemu

Bardziej szczegółowo

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI W dniu 16.01.2018r. odbył się próbny egzamin gimnazjalny z języka polskiego. Do

Bardziej szczegółowo

Wprowadzenie do analizy składniowej. Bartosz Bogacki.

Wprowadzenie do analizy składniowej. Bartosz Bogacki. Wprowadzenie do analizy składniowej Bartosz Bogacki Bartosz.Bogacki@cs.put.poznan.pl Witam Państwa. Wykład, który za chwilę Państwo wysłuchają dotyczy wprowadzenia do analizy składniowej. Zapraszam serdecznie

Bardziej szczegółowo

Uproszczony schemat działania kompilatora

Uproszczony schemat działania kompilatora Wykład7,13XI2009,str.1 Uproszczony schemat działania kompilatora program źródłowy ciąg leksemów drzewo wywodu drzewo i tablice symboli analiza leksykalna analiza syntaktyczna analiza semantyczna KOMPILATOR

Bardziej szczegółowo

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dorota Adamiec Instytut Języka Polskiego PAN Elektroniczny

Bardziej szczegółowo

Gramatyka TAG dla języka polskiego

Gramatyka TAG dla języka polskiego Gramatyka TAG dla języka polskiego Katarzyna Krasnowska IPI PAN 25 lutego 2013 Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 1 / 31 Plan prezentacji 1 TAG 2 Ekstrakcja

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P7 KWIECIEŃ 2017 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek

Bardziej szczegółowo

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P8 KWIECIEŃ 2016 Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje

Bardziej szczegółowo

Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji cha- rakteru opinii konsumenckich. 1 Wstęp

Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji cha- rakteru opinii konsumenckich. 1 Wstęp mgr Katarzyna Wójcik mgr Janusz Tuchowski Uniwersytet Ekonomiczny w Krakowie Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji charakteru opinii konsumenckich. 1 Wstęp Analiza opinii

Bardziej szczegółowo

MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI

MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI ul. Wspólna 1/3 00-529 Warszawa ZASADY NAZEWNICTWA DOKUMENTÓW XML Projekt współfinansowany Przez Unię Europejską Europejski Fundusz

Bardziej szczegółowo

Tworzenie języków specyfikacji dla zagadnień numerycznych

Tworzenie języków specyfikacji dla zagadnień numerycznych Tworzenie języków specyfikacji dla zagadnień numerycznych prof. dr hab. inż. Norbert Sczygiol dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 11 września

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych

Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych Instytut Podstaw Informatyki Polskiej Akademii Nauk 16 kwietnia 2012 Plan prezentacji Ekstrakcja informacji Zasoby językowe

Bardziej szczegółowo

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN) Polszczyzna i inżynieria lingwistyczna Autor: Marcin Miłkowski (IFiS PAN) 1 Polszczyzna i jej cechy szczególne Polszczyzną posługuje się od 40 do 48 milionów osób: najczęściej używany język zachodniosłowiański

Bardziej szczegółowo

Język niemiecki. Kryteria oceny biegłości językowej w zakresie szkolnych wymagań edukacyjnych: podstawowym i ponadpodstawowym

Język niemiecki. Kryteria oceny biegłości językowej w zakresie szkolnych wymagań edukacyjnych: podstawowym i ponadpodstawowym Język niemiecki Kryteria oceny biegłości językowej w zakresie szkolnych wymagań edukacyjnych: podstawowym i ponadpodstawowym Ocenę niedostateczną otrzymuje uczeń, który nie spełnia kryteriów oceny dopuszczającej,

Bardziej szczegółowo

Analizator syntaktyczny

Analizator syntaktyczny Analizator syntaktyczny program źródłowy analizator leksykalny token daj nast. token analizator syntaktyczny drzewo rozbioru syntaktycznego analizator semantyczny kod pośredni tablica symboli Analizator

Bardziej szczegółowo

Języki formalne i automaty Ćwiczenia 2

Języki formalne i automaty Ćwiczenia 2 Języki formalne i automaty Ćwiczenia 2 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Metoda brute force... 2 Konwersja do postaci normalnej Chomskiego... 5 Algorytm Cocke a-youngera-kasamiego

Bardziej szczegółowo

Narzędzia NLP Wzmocniona ekstrakcja relacji IS-A na bazie przypadka gramatycznego. System NEKST - wykorzystanie narzędzi NLP

Narzędzia NLP Wzmocniona ekstrakcja relacji IS-A na bazie przypadka gramatycznego. System NEKST - wykorzystanie narzędzi NLP Outline 1 Narzędzia NLP Analiza morfosyntaktyczna Rozpoznawanie nazw własnych Wykrywanie fraz rzeczownikowych/czasownikowych Parsowanie zależnościowe Wykrywanie Question Focus 2 Wzmocniona ekstrakcja relacji

Bardziej szczegółowo

Wizualizacja wyników analizy syntaktycznej

Wizualizacja wyników analizy syntaktycznej Janusz S. Bień Wizualizacja wyników analizy syntaktycznej Reprezentacja struktur syntaktycznych za pomocą wykresów nazywanych technicznie grafami ma długą tradycję. Najczęściej stosuje się drzewa, czyli

Bardziej szczegółowo

Bank częściowo ujednoznacznionych struktur LFG

Bank częściowo ujednoznacznionych struktur LFG Bank częściowo ujednoznacznionych struktur LFG Katarzyna Krasnowska 1 Witold Kieraś 1,2 1 IPI PAN 2 IJP UW 7 października 2013 Katarzyna Krasnowska Witold Kieraś Bank struktur LFG 7 października 2013 1

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów IJP PAN / UP Kraków maciejeder@gmail.com WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów ws.clarin-pl.eu/websty.shtml Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika

Bardziej szczegółowo

Perl a XML. Narzędzia informatyczne w językoznawstwie. Generowanie danych XML - Przykład. Generowanie danych XML. Perl - Przetwarzanie XML

Perl a XML. Narzędzia informatyczne w językoznawstwie. Generowanie danych XML - Przykład. Generowanie danych XML. Perl - Przetwarzanie XML Perl a XML Narzędzia informatyczne w językoznawstwie Perl - Przetwarzanie XML Marcin Junczys-Dowmunt junczys@amu.edu.pl Zakład Logiki Stosowanej http://www.logic.amu.edu.pl 31 modułów w CPAN zawiera w

Bardziej szczegółowo

Karta przedmiotu KIERUNEK FILOLOGIA, SPECJALNOŚĆ FILOLOGIA SŁOWIAŃSKA Wspólnotowy ruch graniczny i administracja celna

Karta przedmiotu KIERUNEK FILOLOGIA, SPECJALNOŚĆ FILOLOGIA SŁOWIAŃSKA Wspólnotowy ruch graniczny i administracja celna Karta przedmiotu KIERUNEK FILOLOGIA, SPECJALNOŚĆ FILOLOGIA SŁOWIAŃSKA Wspólnotowy ruch graniczny i administracja celna studia pierwszego stopnia/profil ogólnoakademicki Przedmiot: Gramatyka kontrastywna

Bardziej szczegółowo

WebSty otwarty webowy system do analiz stylometrycznych

WebSty otwarty webowy system do analiz stylometrycznych WebSty otwarty webowy system do analiz stylometrycznych Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl

Bardziej szczegółowo

II. Kontrola i ocena pracy ucznia.

II. Kontrola i ocena pracy ucznia. II. Kontrola i ocena pracy ucznia. Formy kontroli A. Kontrola bieżąca (sprawdza postępy uczniów, zachęcając ich do dalszej systematycznej pracy, pozwala na uzupełnienie braków w wiedzy i skorygować błędy).

Bardziej szczegółowo

Obliczenia inspirowane Naturą

Obliczenia inspirowane Naturą Obliczenia inspirowane Naturą Wykład 01 Modele obliczeń Jarosław Miszczak IITiS PAN Gliwice 05/10/2016 1 / 33 1 2 3 4 5 6 2 / 33 Co to znaczy obliczać? Co to znaczy obliczać? Deterministyczna maszyna Turinga

Bardziej szczegółowo

KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA

KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA Nazwa kierunku studiów: Informatyczne Techniki Zarządzania Ścieżka kształcenia: IT Project Manager, Administrator Bezpieczeństwa

Bardziej szczegółowo

INFORMATYKA TECHNICZNA Badanie możliwości wykorzystania języka AutoLISP i środowiska VisualLISP w systemie CAx

INFORMATYKA TECHNICZNA Badanie możliwości wykorzystania języka AutoLISP i środowiska VisualLISP w systemie CAx INFORMATYKA TECHNICZNA Badanie możliwości wykorzystania języka AutoLISP i środowiska VisualLISP w systemie CAx 1. WPROWADZENIE Program AutoCAD ma wielu użytkowników i zajmuje znaczące miejsce w graficznym

Bardziej szczegółowo

Analiza wyników egzaminu gimnazjalnego 2014 r. Test humanistyczny język polski

Analiza wyników egzaminu gimnazjalnego 2014 r. Test humanistyczny język polski Analiza wyników egzaminu gimnazjalnego 2014 r. Test humanistyczny język polski Zestaw standardowy zawierał 22 zadania, w tym 20 zadań zamkniętych i 2 zadania otwarte. Wśród zadań zamkniętych dominowały

Bardziej szczegółowo