Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów"

Transkrypt

1 Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa Naukowa G4.19 Technologii Językowej i Lingwistyki Informatycznej maciej.piasecki@pwr.edu.pl

2 Cel Tło lingwistyczna analiza tekstów w Polskim Korpusie Listów Pożegnalnych (Zaśko-Zielińska, 2013) ujawniła szereg cech, które wydają się charakterystyczne dla listów pożegnalnych głównie cech na poziomie semantyki i pragmatyki językowej Cel opracowanie automatycznej metody do rozpoznawania autentycznych listów pożegnalnych pomiędzy innymi rodzajami tekstów Identyfikacja cech lingwistycznych, które są charakterystyczne dla listów pożegnalnych i które mogą stanowić cenną informację na temat osób popełniających samobójstwa

3 Dane Polski Korpus Listów Pożegnalnych ( Zaśko-Zielińska, 2013) autentyczne listy pożegnalne skanowe, ręcznie transkrybowane opatrzone warstwą skorygowaną pod względem błędów językowych anotowane lingwistycznie na kilku poziomach 334 symulowane listy pożegnalne napisane przez ochotników w celu oszukania programu każdy list dla zadanej charakterystyki osoby, która miałaby popełnić samobójstwo tekstów o charakterze listów z Internetu Np. cytowane listy, posty na forach internetowych losowo wybranych tekstów z Wikipedii

4 Cechy opisowe Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 (Radziszewski, 2013), program do rozpoznawania nazw własnych - Liner2 (Marcińczuk et al., 2013) program do ujednoznaczniania sensów słów WoSeDon (Kędzia et al., 2015) Pracujący w oparciu o Słowosieć 3.0 emo (Maziarz et al., 2016)

5 Cechy opisowe Główne typy leksykalno-syntaktyczne znaczeń leksykalnych Leksykalno-syntaktyczne lemat wystąpienie konkretnej podstawowe formy morfologicznej wyznaczane z pomocą tagera morfosyntaktycznego WCRFT2 np. o wszystkich zmartwieniach [zmartwienie] znak_interpunkcyjny - znaki interpunkcyjne wielka_litera wystąpienie słowa napisanego z wielkiej litery czasownik12 wystąpienie czasownika w 1 i 2 osobie bigram wystąpienie konkretnej dwuelementowej sekwencji klas gramatycznych

6 Cechy opisowe Leksykalno-syntaktyczne c.d. bigram wystąpienie konkretnej dwuelementowej sekwencji klas gramatycznych według tagsetu (zbioru tagów) Narodowego Korpusu Języka Polskiego np. o wszystkich zmartwieniach -> prep adj subst -> <empty> prep, prep adj, adj subst, subst <empty> deminutyw wystąpienie konkretnego zdrobnienia (wg Słowosieci 3.0) augmentatyw wystąpienie konkretnego augmentatywu w tekście (wg Słowosieci 3.0) klasa_nazwy wystąpienie nazwy własnej przynależnej do określonej klasy semantycznej wg Liner2 np. Jan Kowalski -> <person_name>

7 Cechy opisowe Oparte na znaczeniach leksykalnych synset wystąpienie konkretnego synsetu ze Słowosieci, reprezentującego określone znaczenie leksykalne np. {zmartwienie 1, zafrasowanie 1, strapienie 1} {zmartwienie 2, znieruchomienie 1, zamarcie 1, zastygnięcie 1, zakrzepnięcie 1} {zmartwienie 4, zgryzota 1, frasunek 1, strapienie 2, utrapienie 2, troska 3} wyznaczony za pomocą WoSeDona hiperonim5 hiperonimy synsetu z tekstu do 5 poziomów np. {zmartwienie 1, }: ->{wbudzenie uczuć negatywnych 1} -> {wzbudzenie 1} -> {wywołanie 1} -> {GERUNDIUM WYPADEK oznaczający spowodowanie zmiany sytuacji związanych (lub sytuacje związane) ze współżyciem w społeczeństwie 1}

8 Cechy opisowe Oparte na znaczeniach leksykalnych c.d. wn.domains dziedzina semantyczna WordNet Domains (Bentivogli et al., 2004) przypisana do synsetu z tekstu sumo najbardziej szczegółowe pojęcie z ontologii SUMO przypisane do synsetu z tekstu synset.hyp hiperonim synsetu z tekstu znajdujący się dwa poziomy wyżej Np. {zmartwienie 1, }: ->{wbudzenie uczuć negatywnych 1} -> {wzbudzenie 1} -> {wywołanie 1} -> dziedzina dziedzina lingwistyczna synsetu z tekstu wg podziału synsetów na tzw. pliki leksykograficzne, około 100

9 Cechy opisowe Oparte na znaczeniach leksykalnych c.d. czas_emo wystąpienie lematu czasownikowego ze zbioru wyznaczonego jako czasowniki wyrażające emocje wg (Zaśko- Zielińska, 2013) rzecz_emo j.w. tylko lematy rzeczownikowe przym_emo j.w. tylko lematy przymiotnikowe Słowniki synsetów ustalone dla poszczególnych typów tekstów Cel: wyznaczenie synsetów, które są charakterystyczne dla poszczególnych klas tekstów (Kocoń and Marcińczuk, 2016) zbalansowane uogólnienie synsetów dla słów z tekstów równowaga pomiędzy wielkością a szczegółowością klasy wyznaczone na podstawie wydzielonego, odłożonego podzbioru tekstów

10 Nadzorowana klasyfikacja semantyczna Klasy wyznaczone poprzez zbiory przykładów główne: listy pożegnalne vs inne teksty szczegółowe: listy pożegnalne, udawane listy pożegnalne, inne teksty Proces 1. wyznaczenie słowników synsetów na podstawie zbioru odłożonego 2. Losowy podział na zbiór treningowy (k-1 części) i testowy (1 część) 3. wyznaczenie wartości cech (częstości) dla każdego z dokumentów 4. nauczenie klasyfikatora na zbiorze treningowym 5. testowanie na zbiorze testowym 6. powtórzenie 2-5 k razy

11 Proces budowy klasyfikatora Identyfikacja źródeł Pozyskanie korpusu tekstów Wstępne przetwarzanie korpusu 4. Ręczna anotacja podkorpusu treningowo-testowego Automatyczna anotacja korpusu Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6

12 Eksperymenty Podział: 9 części na zbiór treningowo-testowy, 1 na zbiór odłożony Ważenie wartości cech przekształcenie częstości w miary istotności cechy dla klasy Miara informacji wzajemnej wg ( Lin, 1998) częstość dokumentowa tf normalizowana przez najczęstsze słowo/synset w dokumencie Progi minimalna częstość cechy: 20 minimalna liczba dokumentów zawierających cechę: 5 Algorytm klasyfikacji SVM (maszyna wektorów wspierających) z biblioteki programistycznej LIBSVM library (Chang i Lin, 2011) jądro RBF

13 Eksperymenty: wyniki AnnLemmas lematy, interpunkcja, klasy gram., czasownik12, klasy nazw, bigramy; AnLem+Deriv = AnnLemmas plus wielka litera, deminutywy, i augmentatywy NonPerLem = AnLem+Deriv minus verb12

14 Eksperymenty: wyniki Synsets = AnLem+Deriv minus lematy plus synsety, hypernonimy5, wn.domains i sumo GenSyn+Dom = AnLem+Deriv minus lematy plus synset_hyp, dziedziny, czas_emo, rzecz_emo, przym_emo i sumo Dom+SUMO = GenSyn+Dom minus synset_hyp SenseDict = GenSyn+Dom plus słowniki synsetów

15 Przykład cech istotnych: klasyfikacja listów pożegnalnych 1. Słownik: teksty inne 2. lexclass:subst 3. Bigram: interp+empty 4. lexclass:interp 5. Bigram: adj+interp 6. Słownik: prawdziwe listy 7. Czasownik 1 i 2 8. Bigram: subst+interp 9. lexclass:ppron interp:comma 11. lexclass:noun 12. lexclass:prep 13. Bigram:subst+adj 14. Dziedzina: przym. relacyjne 15. lexclass:adj 16. Słownik: listy symulowane 17. Bigram:prep+subst 18. lexclass:impt 19. Bigram:interp+interp 20. lexclass:ger 21. interp:question 22. Bigram:adj+subst 23. interp:hyphen 24. Bigram:subst+subst 25. interp:fullstop 26. Bigram:interp+adj 27. Bigram:subst+ppas 28. synhyp:{grupa 4, zbiór 1} 29. synhyp:{właściwość 1, przymiot 1, cecha 1, własność 2, atrybut 1} 30. Bigram:ppas+prep

16 Przykład cech istotnych: klasyfikacja listów pożegnalnych 31. Bigram:num+subst 32. Bigram:interp+subst 33. Nazwy: kraj 34. Dziedzina: zdarz 35. synsethyp:gerundium 36. sumo:sbjassessmentatr 37. synhyp:{ [sztuczny] wykonywanie czynności religijnych bądź magicznych 1} 38. synhyp:{oddalanie się 1} 39. interp:dash 40. synhyp:{ [sztuczny] człowiek ze względu na relacje społeczne 1} 41. synhyp:{stan 1} 42. synhyp:{[sztuczny] GERUNDIUM OD CZASOWNIKA DYNAMICZNEGO NIEZMIENNOSTANOWEGO} 43. Bigram:adj+prep 44. lexclass:aglt 45. Bigram:ppron12+praet

17 Przykład cech istotnych: klasyfikacja listów pożegnalnych Cechy semantyczne 9) Dziedzina: rel (przym. relacyjne) 18) Dziedzina: zwz (związki) 22) Dziedzina: zdarz (zdarzenia) 24) Uog. znaczenie:grupa-4(grp) zbiór-1(grp) 30) Uog. znaczenie: wykonywanie_czynności_ religijnych_bądź_magicznych-1 (czy) 39) Uog. znaczenie: właściwość- 1(cech) przymiot-1(cech) cecha- 1(cech) własność-2(cech) atrybut-1(cech) 41) oddalanie_się-1(czy) 43) Uog. znaczenie: człowiek_określany_pieszczotliwie-1 (os) człowiek_określany_familiarnie-1 (os) 44) Uog. znaczenie: doświadczać_pozytywnego_uczucia-1 (cst) 45) Uog. znaczenie: chować-7(cczuj) żywić-2 (cczuj) 46) Uog. znaczenie: GERUNDIUM- 1(bhp) 47) Uog. znaczenie: GERUNDIUM_OD_CZASOWNIKA_D YNAMICZNEGO_NIEZMIENNOSTAN OWEGO-1(czy)

18 Wnioski Uzyskane rezultaty wskazują na fundamentalne różnice pomiędzy prawdziwymi i symulowanymi listami pożegnalnymi. różnice są szczególnie widoczne w stosunku do innych rodzajów tekstów Porównywane były wersje transkrybowane i skorygowane językowo różne typy błędów nie były brane pod uwagę Analiza była ukierunkowana na cechy lingwistyczne Modele klasyfikacji oparte na synsetach są trochę lepsze niż modele oparte na słowach Zastosowana metoda budowy słowników synsetów okazała się najlepszym sposobem poprawy wyników klasyfikacji

19 Szczegółowe informacje Maciej Piasecki, Ksenia Młynarczyk i Jan Kocoń (2017) Recognition of Genuine Polish Suicide Notes. W Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP.

20 Dziękuję bardzo za uwagę

WebSty otwarty webowy system do analiz stylometrycznych

WebSty otwarty webowy system do analiz stylometrycznych WebSty otwarty webowy system do analiz stylometrycznych Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl

Bardziej szczegółowo

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Plan prezentacji

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

System do klasyfikacji tekstu i analizy stylometrycznej

System do klasyfikacji tekstu i analizy stylometrycznej System do klasyfikacji tekstu i analizy stylometrycznej Maciej Eder, Maciej Piasecki IJP PAN / UP Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciejeder@gmail.com maciej.piasecki@pwr.edu.pl

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów IJP PAN / UP Kraków maciejeder@gmail.com WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów ws.clarin-pl.eu/websty.shtml Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika

Bardziej szczegółowo

Program warsztatów CLARIN-PL

Program warsztatów CLARIN-PL W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4. Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

Ujednoznacznianie sensów słów

Ujednoznacznianie sensów słów ł ę ł ń ł Warsztaty Ujednoznacznianie sensów słów Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów: zamek Warsztaty Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.):

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra

Bardziej szczegółowo

Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Paweł Ke dzia, Marek Maziarz, Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji

Bardziej szczegółowo

Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Paweł Ke dzia, Marek Maziarz, Maciej Piasecki Politechnika ska Katedra Inteligencji

Bardziej szczegółowo

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów) KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów) Marcin Oleksy Michał Marcińczuk Politechnika ska Instytut Informatyki

Bardziej szczegółowo

LEM wydobywanie statystyk z korpusów

LEM wydobywanie statystyk z korpusów LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia

Bardziej szczegółowo

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN rozproszony system technologii językowych dla różnych języków europejskich CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN

Bardziej szczegółowo

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016

Bardziej szczegółowo

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy Cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy 13 15 kwietnia 2015 roku Warszawa, Pałac Staszica, ul. Nowy Świat 72, sala 144

Bardziej szczegółowo

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii Językowej

Bardziej szczegółowo

Open Access w technologii językowej dla języka polskiego

Open Access w technologii językowej dla języka polskiego Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika

Bardziej szczegółowo

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych II cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych 18-20 maja 2015 roku Politechnika Wrocławska, Centrum Kongresowe,

Bardziej szczegółowo

CLARIN infrastruktura naukowa technologii językowych

CLARIN infrastruktura naukowa technologii językowych CLARIN infrastruktura naukowa technologii językowych Maciej Piasecki Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl Przykład: analiza pojęcia Problem:

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl

Bardziej szczegółowo

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania

Bardziej szczegółowo

Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznej analizy odniesień w tekstach CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl

Bardziej szczegółowo

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13

Bardziej szczegółowo

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1 Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1 Jan Kocoń, Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki

Bardziej szczegółowo

Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania

Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania Agnieszka Dziob Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@pwr.edu.pl 2018-05-24

Bardziej szczegółowo

AUTOMATYKA INFORMATYKA

AUTOMATYKA INFORMATYKA AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów

Bardziej szczegółowo

Zapytanie ofertowe nr 1/2016

Zapytanie ofertowe nr 1/2016 to Zapytanie ofertowe nr 1/2016 z dnia 11052016 Espeo Software Sp z oo 2 Zapytanie ofertowe nr 1/2016 z dnia 11052016 Zapytanie ofertowe nr 1/2016 z dnia 11052016 Zamawiający: Espeo Software Sp z oo Adres:

Bardziej szczegółowo

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowania

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowania Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej zastosowania Agnieszka Dziob, Marek Maziarz, Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa

Bardziej szczegółowo

Rzutowanie Słowosieci na pojęcia ontologii SUMO i inne zasoby semantyczne

Rzutowanie Słowosieci na pojęcia ontologii SUMO i inne zasoby semantyczne Rzutowanie Słowosieci na pojęcia ontologii SUMO i inne zasoby semantyczne Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy Grupa Naukowa G4.19 Katedra Inteligencji

Bardziej szczegółowo

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE

Bardziej szczegółowo

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Seminarium przetwarzania języka naturalnego Mateusz Kopeć Instytut Podstaw Informatyki Polskiej Akademii Nauk 6 lutego 2012 Plan 1 Zadanie

Bardziej szczegółowo

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O

Bardziej szczegółowo

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych Maciej Piasecki Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii J

Bardziej szczegółowo

Narzędzia do ekstrakcji informacji z tekstu

Narzędzia do ekstrakcji informacji z tekstu CLARIN-PL Narzędzia do ekstrakcji informacji z tekstu Politechnika Wrocławska, 2016-04-26 Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl

Bardziej szczegółowo

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych... Spis treści 1 Wstęp 11 1.1 Do kogo adresowana jest ta książka... 12 1.2 Historia badań nad mową i językiem... 12 1.3 Obecne główne trendy badań... 16 1.4 Opis zawartości rozdziałów... 18 2 Wyzwania i możliwe

Bardziej szczegółowo

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne: WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji

Bardziej szczegółowo

Spis treści Wstęp 1. Językoznawstwo sądowe

Spis treści Wstęp 1. Językoznawstwo sądowe Spis treści Podziękowania... 11 Wstęp... 13 1. Językoznawstwo sądowe... 17 1.1. Język a prawo... 17 1.2. Językoznawstwo sądowe metody badań... 20 1.2.1. Metody ilościowe... 20 1.2.1.1. Stylometria i metody

Bardziej szczegółowo

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,

Bardziej szczegółowo

Automatyczne rozpoznawanie polskich leksykalnych relacji derywacyjno-semantycznych

Automatyczne rozpoznawanie polskich leksykalnych relacji derywacyjno-semantycznych Automatyczne rozpoznawanie polskich leksykalnych relacji derywacyjno-semantycznych Maciej Piasecki, Marek Maziarz, Radosław Ramocki, Paweł Minda Grupa Naukowa G4.19 Instytut Informatyki PWr. Słowosieć

Bardziej szczegółowo

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania Słowosiec 4.0 - leksykalna siec semantyczna języka polskiego i jej zastosowania Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji

Bardziej szczegółowo

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego Zastosowanie Wikipedii w przetwarzaniu języka naturalnego Plan prezentacji Wikipedia Klasyfikacja Zastosowanie w NLP Plan prezentacji Wikipedia Klasyfikacja Zastosowanie w NLP Rysunek : http://img2.wikia.nocookie.net/

Bardziej szczegółowo

S owosiec leksykalna siec semantyczna jezyka polskiego i jej zastosowania

S owosiec leksykalna siec semantyczna jezyka polskiego i jej zastosowania S owosiec 3.0 - leksykalna siec semantyczna jezyka polskiego i jej zastosowania Agnieszka Dziob, Marek Maziarz, Maciej Piasecki Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa

Bardziej szczegółowo

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dorota Adamiec Instytut Języka Polskiego PAN Elektroniczny

Bardziej szczegółowo

Co wylicza Jasnopis? Bartosz Broda

Co wylicza Jasnopis? Bartosz Broda Co wylicza Jasnopis? Bartosz Broda Analiza języka polskiego Ekstrakcja tekstu Dokument narzędzie do mierzenia zrozumiałości Analiza morfologiczna Analiza morfosyntaktyczna Indeksy Klasa trudności:

Bardziej szczegółowo

Spis treści tomu pierwszego

Spis treści tomu pierwszego Spis treści tomu pierwszego WSTĘP.... 11 DŹWIĘK JAKO ZJAWISKO FIZYCZNE...15 CHARAKTERYSTYKA AKUSTYCZNA I AUDYTYWNA DŹWIĘKÓW MOWY.. 17 SŁUCH...20 WYŻSZE PIĘTRA UKŁADU SŁUCHOWEGO...22 EMISJE OTOAKUSTYCZNE...25

Bardziej szczegółowo

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych mgr inż. Michał Marcińczuk opiekun naukowy prof. Zbigniew Huzar Instytut Informatyki Stosowanej Politechnika Wrocławska 17 czerwca 2008 Plan

Bardziej szczegółowo

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Bardziej szczegółowo

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Dorota Adamiec IJP PAN Włodzimierz Gruszczyński IJP PAN Maciej Ogrodniczuk IPI PAN Stan przekrojowych badań nad słownictwem polskim

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen

Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen Paweł Ke dzia, Marek Maziarz, Maciej Piasecki i Piotr Pe zik * Politechnika ska Katedra Inteligencji

Bardziej szczegółowo

Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki Wydobywanie informacji z tekstu i stylometria Część 1 Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania

Bardziej szczegółowo

Prof. Stanisław Jankowski

Prof. Stanisław Jankowski Prof. Stanisław Jankowski Zakład Sztucznej Inteligencji Zespół Statystycznych Systemów Uczących się p. 228 sjank@ise.pw.edu.pl Zakres badań: Sztuczne sieci neuronowe Maszyny wektorów nośnych SVM Maszyny

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS Techniki uczenia maszynowego nazwa SYLABUS Obowiązuje od cyklu kształcenia: 2014/20 Część A. Informacje ogólne Elementy składowe sylabusu Nazwa jednostki prowadzącej studiów Poziom kształcenia Profil studiów

Bardziej szczegółowo

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania Słowosiec 3.2 - leksykalna siec semantyczna je zyka polskiego i jej zastosowania Poziom rozszerzony Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@pwr.edu.pl

Bardziej szczegółowo

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra

Bardziej szczegółowo

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej.piasecki@pwr.wroc.pl

Bardziej szczegółowo

Lokalizacja Oprogramowania

Lokalizacja Oprogramowania mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN Podstawowe informacje o projekcie

Bardziej szczegółowo

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika ska Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki CLARINPL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Jan Wieczorek Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa

Bardziej szczegółowo

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury Paweł Kobojek, prof. dr hab. inż. Khalid Saeed Zakres pracy Przegląd stanu wiedzy w dziedzinie biometrii, ze szczególnym naciskiem

Bardziej szczegółowo

Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego

Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE WYDZIAŁ INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI KATEDRA INFORMATYKI Paweł Chrzaszcz Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych

Bardziej szczegółowo

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1 ZESZYTY NAUKOWE WYDZIAŁU ELEKTRONIKI, TELEKOMUNIKACJI I INFORMATYKI POLITECHNIKI GDAŃSKIEJ Nr 10 Seria:ICT Young 2012 SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1 Politechnika

Bardziej szczegółowo

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń Paweł Kędzia, Marek Maziarz, Maciej Piasecki, Ewa Rudnicka i Piotr Pęzik * Politechnika Wrocławska Katedra

Bardziej szczegółowo

Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności

Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności językowe. SPRAWNOŚĆ MÓWIENIA - potrafi mówić płynnie, bez

Bardziej szczegółowo

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak CLARIN-PL Ekstrakcja informacji oraz stylometria na usługach psychologii Część 1 Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania

Bardziej szczegółowo

Programowanie komputerów

Programowanie komputerów Programowanie komputerów Wykład 1-2. Podstawowe pojęcia Plan wykładu Omówienie programu wykładów, laboratoriów oraz egzaminu Etapy rozwiązywania problemów dr Helena Dudycz Katedra Technologii Informacyjnych

Bardziej szczegółowo

Podstawy Informatyki. Algorytmy i ich poprawność

Podstawy Informatyki. Algorytmy i ich poprawność Podstawy Informatyki Algorytmy i ich poprawność Błędy Błędy: językowe logiczne Błędy językowe Związane ze składnią języka Wykrywane automatycznie przez kompilator lub interpreter Prosty sposób usuwania

Bardziej szczegółowo

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja

Bardziej szczegółowo

Semantyczna analiza języka naturalnego

Semantyczna analiza języka naturalnego Semantyczna analiza języka naturalnego Rozwiązanie Applica oparte o IBM SPSS Modeler Piotr Surma Applica 2 Agenda O Applica Analiza tekstu w języku polskim - wyzwania Rozwiązanie Applica Analiza Tekstu

Bardziej szczegółowo

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki

Bardziej szczegółowo

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT.

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT. WYDZIAŁ: GEOLOGII, GEOFIZYKI I OCHRONY ŚRODOWISKA KIERUNEK STUDIÓW: INFORMATYKA STOSOWANA RODZAJ STUDIÓW: STACJONARNE I STOPNIA ROK AKADEMICKI 2014/2015 WYKAZ PRZEDMIOTÓW EGZAMINACYJNYCH: I. Systemy operacyjne

Bardziej szczegółowo

Marcin Miłkowski IFiS PAN

Marcin Miłkowski IFiS PAN Morfologik Marcin Miłkowski IFiS PAN koordynator pl.openoffice.org Adres projektu: morfologik.blogspot.com Morfologik Trzy składniki projektu: Automatycznie generowany słownik form wyrazowych Reguły korektora

Bardziej szczegółowo

Ontologie, czyli o inteligentnych danych

Ontologie, czyli o inteligentnych danych 1 Ontologie, czyli o inteligentnych danych Bożena Deka Andrzej Tolarczyk PLAN 2 1. Korzenie filozoficzne 2. Ontologia w informatyce Ontologie a bazy danych Sieć Semantyczna Inteligentne dane 3. Zastosowania

Bardziej szczegółowo

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Mapa Literacka analiza odniesień geograficznych w tekstach literackich CLARIN-PL Mapa Literacka analiza odniesień geograficznych w tekstach literackich Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl

Bardziej szczegółowo

CLARIN-PL w praktyce badawczej

CLARIN-PL w praktyce badawczej CLARIN-PL w praktyce badawczej Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN- PL jest infrastrukturą naukową technologii językowych, która udostępnia narzędzia badawcze do analizy zapisów

Bardziej szczegółowo

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA NR 43 w BIAŁYMSTOKU

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA NR 43 w BIAŁYMSTOKU PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA NR 43 w BIAŁYMSTOKU I. ZASADY OGÓLNE Przedmiotowy System Nauczania ma na celu: 1) bieżące i systematyczne obserwowanie

Bardziej szczegółowo

Tytuł rozprawy: Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych.

Tytuł rozprawy: Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych. dr hab. inż. Piotr Gawrysiak, prof. PW Instytut Informatyki Wydział Elektroniki i Technik Informacyjnych Politechnika Warszawska Warszawa, 29 marca 2019 RECENZJA ROZPRAWY DOKTORSKIEJ MGR. PIOTRA BORKOWSKIEGO

Bardziej szczegółowo

Umysł-język-świat 2012

Umysł-język-świat 2012 Umysł-język-świat 2012 Wykład X: Między psycholingwistyką a neurolingwistyką Teorie neurolingwistyczne John Hughlings Jackson (1835-1911) badał jak bodźce wywołują reakcje i złożoność reakcji Dwa poziomy

Bardziej szczegółowo

Słowosieć jako narzędzie wspomagające pracę tłumacza

Słowosieć jako narzędzie wspomagające pracę tłumacza Rocznik Kognitywistyczny V/2011 DOI 10.4467/20843895RK.12.004.0408 s. 33 42 AGNIESZKA DZIOB, PAULINA ŁAZAREWICZ Uniwersytet Wrocławski, Politechnika Wrocławska Słowosieć jako narzędzie wspomagające pracę

Bardziej szczegółowo

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Bardziej szczegółowo

Widzenie komputerowe (computer vision)

Widzenie komputerowe (computer vision) Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja

Bardziej szczegółowo

Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznej analizy odniesień w tekstach CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl

Bardziej szczegółowo

Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych

Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych Instytut Podstaw Informatyki Polskiej Akademii Nauk 16 kwietnia 2012 Plan prezentacji Ekstrakcja informacji Zasoby językowe

Bardziej szczegółowo

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO Szkoła Podstawowa w Mysiadle

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO Szkoła Podstawowa w Mysiadle PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO Szkoła Podstawowa w Mysiadle I. Zasady ogólne Przedmiotowy System Oceniania ma na celu: 1) bieżące i systematyczne obserwowanie postępów ucznia w nauce,

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Znaczenia złapane w sieć

Znaczenia złapane w sieć e Znaczenia złapane w sieć Derwojedowa Festiwal Nauki 23 września 2009 1 Semantyka i leksyka Porządek wystąpienia 2 tezaurus? 3 wordnet? 4 5 Założenia semantyki ramowej 6 FrameNet 7 RAMKI 8 Podsumowanie

Bardziej szczegółowo