Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1
|
|
- Eleonora Kaczor
- 6 lat temu
- Przeglądów:
Transkrypt
1 Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1 Jan Kocoń, Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania Katedra Informatyki Technicznej Wydział Elektroniki Tomasz.Walkowiak@pwr.edu.pl
2 Wydobywanie informacji z tekstów Kompetencje Informatyka Eksploracja danych NLP Lingwistyka Wiedza dziedzinowa Plan Czwartek Część 1: LEM Część 2: MeWex, TermoPL Piątek Analiza semantyczna tekstów Narzędzia: Topic, WebSty Forum
3 Centrum Technologii Językowych Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach C++, Java, Python, R, Perl, Haskell, Julia złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania Integracja zasobów i usług w oparciu o usługi sieciowe (REST) dostęp poprzez aplikacje webowe brak konieczności ściągania i instalowania Infrastruktura chmura obliczeniowa 3
4 Możliwości wykorzystania Utworzone aplikacje webowe są do państwa dyspozycji służymy pomocą w ich obsłudze w zrozumieniu zasad ich działania/użytych metod nie tylko w ramach warsztatów: webserwisy@clarin-pl.eu Jeżeli nie spełniają one państwa potrzeb, to możemy: zbudować potrzebną aplikacje badawczą na bazie istniejących usług przetworzyć korpus za pomocą usług CTJ Clarin-PL Możecie państwo samodzielnie wykorzystać usługi API REST-owe: przykłady w Javie, Python efektywność przetwarzania Zasoby obliczeniowe są zawsze ograniczone Warsztaty to bardzo trudny model przetwarzania 4
5 Proste narzędzia, ale skomplikowane
6 LEM = System eksploracji tekstów literackich Opracowywany przez we współpracy z Instytutem Badań Literackich Polskiej Akademii Nauk Maciej Maryl, Maciej Piasecki, Tomasz Walkowiak
7 LEM LEM = Literary Exploratory Machine Złożone metody. prosta funkcjonalność
8 Załadowanie korpusów Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf Apache Tika do konwersji Różnorodność źródeł ZIP Lokalny plik, URL, prywatna chmura Problemy Zip wersje, struktura Konwersje automatyczne: kolumny wzory, obrazy, tabele nagłówki, stopki
9 Tagowanie morfosyntaktyczne Morfeusz + WCRFT2, MorphoDiTa tokenizacja forma bazowa znacznik, tagset NKJP: <chunk id="ch1" type="p"> <sentence id="s1"> <tok> <orth>wysoka</orth> <lex disamb="1"> <base>wysoki</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>kształtna</orth> <lex disamb="1"><base>kształtny</base> <ctag>adj:sg:nom:f:pos</ctag></lex> </tok> <ns/> <tok> <orth>,</orth> <lex disamb="1"><base>,</base> <ctag>interp</ctag></lex> </tok> <tok> <orth>z</orth> <lex disamb="1"><base>z</base> <ctag>prep:gen:nwok</ctag></lex> </tok> <tok> <orth>twarzą</orth> <lex disamb="1"><base>twarz</base> <ctag>subst:sg:inst:f</ctag></lex> </tok>
10 LEM: lematyzacja Tekst przykładowy (Orzeszkowa, Szczęśliwa) Wysoka, kształtna, z twarzą myślącą, zimną nieco, ale pięknie zarysowaną i bardzo świeżą, w stroju pełnym smaku i powagi, siedzi pod rozłożystemi drzewami wspaniałego parku i myśli o tem, jaki ten park jest piękny, jaki ten dzień letni jest pogodny i jaka ona sama jest szczęśliwa. Rezultat lematyzacji (Orzeszkowa, Szczęśliwa) wysoki, kształtny, z twarz myśląca, zimny nieco, ale pięknie zarysować i bardzo świeży, w strój pełny smak i powaga, siedzieć pod rozłożystemi drzewo wspaniały park i myśleć o tema, jaki ten park być piękny, jaki ten dzień letni być pogodny i jaki on sam być szczęśliwy.
11 Wydobywanie statystyk z korpusów Wyznaczanie części mowy (Orzeszkowa, Kto winien) Nie nie qub była być praet już już qub młodą młody adj,, interp lecz lecz conj twarz twarz subst jej on ppron3 zachowała zachować praet delikatność delikatność subst rysów rys subst i i conj cery cer subst,, interp kibić kibić subst
12 Wydobywanie statystyk z korpusów Charakterystyka czasownikowa (Orzeszkowa, Kto winien) Tokeny czas owni ki Czas 1os lp Czas 1os lm Czas 2os lp Czas 3os lp Czas czas 3os 3osl lp_m p_z Czas 3os lp_n czas 3os lm_ m Czas 3os lm_z Czas 3os lm_n Statystyki lematów i znaczników w tagsecie NKJP Czas 3os lm Czas 2os lm czas bezo kolic znik człowiek 36 ale 34 o 34 życie 33 od 33 oko 32 subst:sg:gen:m3 122 subst:sg:nom:f 119 subst:sg:gen:n 115 subst:sg:nom:n 111 prep:gen 107 prep:gen:nwok 105
13 Nazwy własne Liner2 narzędzie do rozpoznawania i znakowania nazw własnych oraz wyrażeń temporalnych w tekście modele:
14 Wydobywanie statystyk z korpusów Wyszukanie nazw własnych (Żuławski, Veneri et romae) Statystki nazw własnych Adrjatyku Afrodyty Albano Albańskich Alpach Amfiteatrowi Flawjusza Asklepjosa Augusta Baedeker Baedekera Berniniego Bibljoteki Augusta Bogu Borghese Cavour Rzym Rzym 19 Palatynie Palatyn 13 Kapitolu Kapitol 7 Forum forum 6 Konstantyna Konstantyn 4 Koloseum Koloseum 3 Piotra Piotr 3 Słońce słońce 3 Via Sacra via sacrum 3 Baedeker Baedeker 2 Grecji Grecja 2 Kastora Kastor 2 Marka Aureljusza Marek aureljusza 2
15 Słowosieć (plwordnet) Elektroniczny słownik relacyjny, rodzaj tezaurusa Podstawy teoretyczne: Princeton WordNet Pochodzenie: Politechnika Wrocławska, Cel: bardzo obszerny opis systemu językowego z wykorzystaniem relacji leksykalno-semantycznych Opis czterech części mowy: czasowników, rzeczowników, przymiotników i przysłówków Zastosowanie: słownik (do użytku przez nieprofesjonalnego użytkownika) zasób leksykalny (do użytku przez badaczy języka z różnych dziedzin) baza danych (w przetwarzaniu języka naturalnego)
16 Proces budowy Słowosieci Kto tworzy Słowosieć? zespół polonistów i anglistów informatycy, specjaliści od przetwarzania języka sztuczna inteligencja (narzędzia półautomatyczne)
17 Proces budowy Słowosieci Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) n.a. - przykłady `o zwierzętach: użycia gryźć -> używając wyróżnianie zębów znaczeń, przykłady typowe, 10 znaczeń (Marek) `o zjawiskach pogodowych (np. mrozie): gryźć `o owadach: gryźć `o wyrzutach sumienia: gryźć `o ludziach: dokuczać, szkodzić komuś Przykłady użycia wyrazu kąsać narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia
18 Zawartość Słowosieci Ponad 191 tys. słów (lematów) jedno- i wielowyrazowych = ok. 287 tys. znaczeń (jednostek leksykalnych) Opisanych ponad 635 tys. relacjami jednostek i synsetów Ok. 230 tys. haseł polsko-angielskich Ok. 80 tys. jednostek z anotacją emotywną Ponad 163 tys. definicji Ponad 73 tys. przykładów użycia
19 Synset Synset zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, jednostki zawarte w synsecie są uznawane za synonimy jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2} hiperonim {zakochanie 1, zadurzenie 1} Relacje konstytutywne podstawa konstrukcji synsetu, współdzielone i relatywnie częste Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt
20 Relacje synsetów Hiponimia Najważniejsza z relacji synsetów 66% instancji wszystkich relacji synsetów kościec każdego wordnetu
21 Przeglądanie relacji synsetów hiperonimy
22 Przeglądanie relacji synsetów hiponimy
23 Ujednoznacznianie znaczeń
24 Wydobywanie statystyk z korpusów Ujednoznacznianie znaczeń leksykalnych WoSeDon (Żuławski, Veneri et romae) niespokojny niespokojny adj niespokojny.3(42:jak) sen sen subst spoczynek.2(23:st) sen.1(23:st) jakiejś jakiś adj jakowyś.1(42:jak) który.1(42:jak) jaki.1(42:jak) jakiś.1(42:jak) jakowy.1(42:jak) któryś.2(42:jak) jednej jeden adj pewien.1(42:jak) jeden.3(42:jak) nocy noc subst noc.2(25:czas) jesiennej jesienny adj jesienny.1(43:rel) Hiperonimy i hiponimy sen sen subst spoczynek.2(23:st) sen.1(23:st) proces fizjologiczny.1;odpoczynek.1 wypoczynek.1 spoczynek.1 relaks.1 drzemka.1 półsen.1;sen zimowy.1 hibernacja.1 diapauza zimowa.1; sen letni.1 estywacja.1 diapauza letnia.1;hibernacja.2;twardy sen.1 głęboki sen.1 mocny sen.1
25 Nastawienie emocjonalne ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne, ambiwalentne. Ponad oznakowanych jednostek.
26 Nastawienie emocjonalne Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki; Superanotator, którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji; Anotatorzy nie widzą wzajemnie swoich anotacji.
27 Analiza emotywna tekstu tiny.cc/clarinemo
28 Wydobywanie statystyk z korpusów Charakterystyka czasownikowe, zaimkowe, Polaryzacja emocjonalna, wartościowanie emocji Częstości wystąpień w tekstach Prus Faraon tokeny czas1oslpoj czas1oslmn czas2oslpoj czas2oslmn czas3oslpoj czas3oslmn zaim1oslpoj zaim1oslmn zaim2oslpoj zaim2oslmn zaim3oslpoj zaim3oslmn polneu polpos polneg błąd nieszczęście szczęście strach zaufanie złość użyteczność radość krzywda zaskoczenie czymś nieużytecz cieszenie się na coś nieprzewidy smutek piękno wiedza ność niewiedza wstręt dobro oczekiwanego wanym brzydota prawda
29 Dziękuję bardzo za uwagę ws.clarin-pl.eu
30 LEM - ćwiczenia Przykładowy zbiór plików Zadania Załadowanie zbioru musi to być pojedynczy plik zip Uruchomienie poszczególnych funkcji przetwarzania Pobranie pliku z rezultatami Rozpakowanie pliku Analiza poszczególnych rezultatów w na komputerze lokalnym za pomocą arkusza kalkulacyjnego lub edytora plików tekstowych
Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki
Wydobywanie informacji z tekstu i stylometria Część 1 Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania
LEM wydobywanie statystyk z korpusów
LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia
Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna
Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania
Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak
CLARIN-PL Ekstrakcja informacji oraz stylometria na usługach psychologii Część 1 Tomasz Walkowiak Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Wydział Informatyki i Zarządzania
Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi
CLARIN-PL Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi Marcin Pol, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
S owosiec leksykalna siec semantyczna jezyka polskiego i jej zastosowania
S owosiec 3.0 - leksykalna siec semantyczna jezyka polskiego i jej zastosowania Agnieszka Dziob, Marek Maziarz, Maciej Piasecki Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Paweł Ke dzia, Marek Maziarz, Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Paweł Ke dzia, Marek Maziarz, Maciej Piasecki Politechnika ska Katedra Inteligencji
Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych
CLARIN-PL Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych Marcin Pol, Tomasz Walkowiak, Marcin Oleksy Politechnika
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego
Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika ska Katedra Inteligencji Obliczeniowej
Open Access w technologii językowej dla języka polskiego
Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika
Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania
Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania Agnieszka Dziob Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@pwr.edu.pl 2018-05-24
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych
wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych Maciej Piasecki Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii J
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowania
Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej zastosowania Agnieszka Dziob, Marek Maziarz, Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Plan prezentacji
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen Paweł Ke dzia, Marek Maziarz, Maciej Piasecki i Piotr Pe zik * Politechnika ska Katedra Inteligencji
CLARIN rozproszony system technologii językowych dla różnych języków europejskich
CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa
Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń
Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń Paweł Kędzia, Marek Maziarz, Maciej Piasecki, Ewa Rudnicka i Piotr Pęzik * Politechnika Wrocławska Katedra
Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania
Słowosiec 4.0 - leksykalna siec semantyczna języka polskiego i jej zastosowania Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
WebSty otwarty webowy system do analiz stylometrycznych
WebSty otwarty webowy system do analiz stylometrycznych Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl
CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy
Cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy 13 15 kwietnia 2015 roku Warszawa, Pałac Staszica, ul. Nowy Świat 72, sala 144
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania
Słowosiec 3.2 - leksykalna siec semantyczna je zyka polskiego i jej zastosowania Poziom rozszerzony Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@pwr.edu.pl
Mapa Literacka analiza odniesień geograficznych w tekstach literackich
CLARIN-PL Mapa Literacka analiza odniesień geograficznych w tekstach literackich Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Publikacja w repozytorium i przetwarzanie w systemie DSpace
Publikacja w repozytorium i przetwarzanie w systemie DSpace Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
CLARIN infrastruktura naukowa technologii językowych
CLARIN infrastruktura naukowa technologii językowych Maciej Piasecki Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl Przykład: analiza pojęcia Problem:
WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów
IJP PAN / UP Kraków maciejeder@gmail.com WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów ws.clarin-pl.eu/websty.shtml Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika
Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud
Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji
II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych
II cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych 18-20 maja 2015 roku Politechnika Wrocławska, Centrum Kongresowe,
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,
Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud
Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl
Inforex - zarządzanie korpusami i ich anotacja
Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii
TECHNOLOGIA INFORMACYJNA
Rozkład materiału nauczania z przedmiotu TECHNOLOGIA INFORMACYJNA dla liceum ogólnokształcącego (wykonany w oparciu o program nauczania nr DKOS 05-99/03) Ilość godzin: 72 jednostki lekcyjne w dwuletnim
Zaawansowane narzędzie do analizy korpusu w oparciu o reguły
CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13
Narzędzia do automatycznej analizy odniesień w tekstach
CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.
Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.
Efekty dla studiów pierwszego stopnia profil ogólnoakademicki na kierunku Informatyka w języku polskim i w języku angielskim (Computer Science) na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie-
Grafika i Systemy Multimedialne (IGM)
Nowa Specjalność na Kierunku Informatyka Informatyka Techniczna (ITN) Grafika i Systemy Multimedialne (IGM) dr inż. Jacek Mazurkiewicz (K-9) Motywacja 2 narastająca potrzeba aktualizacji, modernizacji
KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE
OSA OTWARTY SYSTEM ANTYPLAGIATOWY
OSA OTWARTY SYSTEM ANTYPLAGIATOWY Kontrola antyplagiatowa pisemnych prac na Uniwersytecie Mikołaja Kopernika w Toruniu Mariusz Czerniak Plan prezentacji Informacje o systemie OSA Kontrola wstępnych wersji
Narzędzia do automatycznej analizy odniesień w tekstach
CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Oprogramowanie typu CAT
Oprogramowanie typu CAT (Computer Aided Translation) Informacje ogólne Copyright Jacek Scholz 2009 Wprowadzenie: narzędzia do wspomagania translacji Bazy pamięci tłumaczet umaczeń (Translation Memory)
Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
System gromadzenia, indeksowania i opisu słownikowego norm i rekomendacji Praca magisterska Jakub Reczycki Opiekun : dr inż. Jacek Rumiński Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
SIECI KOMPUTEROWE I TECHNOLOGIE INTERNETOWE
Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania SIECI KOMPUTEROWE I TECHNOLOGIE INTERNETOWE Temat: Prosty serwis internetowy oparty o zestaw powiązanych
CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego
CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej.piasecki@pwr.wroc.pl
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji
Analiza danych tekstowych i języka naturalnego
Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach
Ontologie, czyli o inteligentnych danych
1 Ontologie, czyli o inteligentnych danych Bożena Deka Andrzej Tolarczyk PLAN 2 1. Korzenie filozoficzne 2. Ontologia w informatyce Ontologie a bazy danych Sieć Semantyczna Inteligentne dane 3. Zastosowania
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN Podstawowe informacje o projekcie
Semantyczna analiza języka naturalnego
Semantyczna analiza języka naturalnego Rozwiązanie Applica oparte o IBM SPSS Modeler Piotr Surma Applica 2 Agenda O Applica Analiza tekstu w języku polskim - wyzwania Rozwiązanie Applica Analiza Tekstu
METODY REPREZENTACJI INFORMACJI
Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Magisterskie Studia Uzupełniające METODY REPREZENTACJI INFORMACJI Ćwiczenie 1: Budowa i rozbiór gramatyczny dokumentów XML Instrukcja
Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki
Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
CLARIN-PL w praktyce badawczej
CLARIN-PL w praktyce badawczej Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN- PL jest infrastrukturą naukową technologii językowych, która udostępnia narzędzia badawcze do analizy zapisów
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O
Rok I, semestr I (zimowy) Liczba godzin
Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy i sieci komputerowe, SSK studia stacjonarne Dla rocznika: 2018/2019 Rok I, semestr I (zimowy) Lp. Nazwa przedmiotu zajęć
INFORMATYKA. PLAN STUDIÓW STACJONARNYCH INŻYNIERSKICH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2018/19.
PLAN STUDIÓ STACJONARNYCH INŻYNIERSKICH 1-go STOPNIA 2018-2022 STUDIA ROZPOCZYNAJĄCE SIĘ ROKU AKADEMICKIM 2018/19 Semestr I stęp do matematyki 20 20 z oc. 3 Podstawy programowania* 20 45 65 z oc. /E 6
KARTA MONITOROWANIA PODSTAWY PROGRAMOWEJ KSZTAŁCENIA OGÓLNEGO
KARTA MONITOROWANIA PODSTAWY PROGRAMOWEJ KSZTAŁCENIA OGÓLNEGO III etap edukacyjny PG im. Tadeusza Kościuszki w Kościerzycach Przedmiot informatyka Klasa......... Rok szkolny Imię i nazwisko nauczyciela
Grafika i Systemy Multimedialne (IGM)
Nowa Specjalność na Kierunku Informatyka Informatyka Techniczna (ITN) Grafika i Systemy Multimedialne (IGM) dr inż. Jacek Mazurkiewicz (K-9) Motywacja 2 narastająca potrzeba aktualizacji, modernizacji
KIERUNKOWE EFEKTY KSZTAŁCENIA
WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA I STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA NAUK TECHNICZNYCH Dyscyplina
CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki
CLARINPL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Jan Wieczorek Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa
KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)
KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów) Marcin Oleksy Michał Marcińczuk Politechnika ska Instytut Informatyki
Instytut Informatyki, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy i sieci komputerowe, SSK studia stacjonarne Rok 2012/2013
Instytut Informatyki, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy i sieci komputerowe, SSK studia stacjonarne Rok 2012/2013 Rok I, semestr I (zimowy) 1 Etykieta w życiu publicznym 1 Przedmiot
INFORMATYKA. PLAN STUDIÓW NIESTACJONARNYCH INŻYNIERSKICH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2018/19.
PLAN STUDIÓ NIESTACJONARNYCH INŻYNIERSKICH 1-go STOPNIA 2018-2022 STUDIA ROZPOCZYNAJĄCE SIĘ ROKU AKADEMICKIM 2018/19 Semestr I stęp do matematyki 20 20 z oc. 3 Podstawy programowania* 15 30 45 z oc. /E
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Seminarium przetwarzania języka naturalnego Mateusz Kopeć Instytut Podstaw Informatyki Polskiej Akademii Nauk 6 lutego 2012 Plan 1 Zadanie
Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...
MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA 2014 1/28 Zespół Małgorzata Marciniak nadzór ogólny Marcin Woliński specyfikacja Michał Lenart implementacja Jan Daciuk konsultacja automatologiczna
biegle i poprawnie posługuje się terminologią informatyczną,
INFORMATYKA KLASA 1 1. Wymagania na poszczególne oceny: 1) ocenę celującą otrzymuje uczeń, który: samodzielnie wykonuje na komputerze wszystkie zadania z lekcji, wykazuje inicjatywę rozwiązywania konkretnych
Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy i sieci komputerowe, SSK studia niestacjonarne Dla rocznika:
Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy i sieci komputerowe, SSK studia niestacjonarne Dla rocznika: Rok I, semestr I (zimowy) 1 Etykieta w życiu publicznym
Przedmiotowy System Oceniania z informatyki Oddziały gimnazjalne SP 3 w Gryfinie, klasy II.
Przedmiotowy System Oceniania z informatyki Oddziały gimnazjalne SP 3 w Gryfinie, klasy II. PODSTAWA PROGRAMOWA KSZTAŁCENIA OGÓLNEGO DLA GIMNAZJÓW... 2 PODRĘCZNIK:... 3 PROGRAM NAUCZANIA:... 3 NARZĘDZIA
Proporcje podziału godzin na poszczególne bloki. Tematyka lekcji. Rok I. Liczba godzin. Blok
Proporcje podziału godzin na poszczególne bloki Blok Liczba godzin I rok II rok Na dobry początek 7 Internet i gromadzenie danych 6 2 Multimedia 5 3 Edytory tekstu i grafiki 6 4 Arkusz kalkulacyjny 7 4
Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu
Załącznik nr 1 do Uchwały nr 9/12 Rady Instytutu Inżynierii Technicznej PWSTE w Jarosławiu z dnia 30 marca 2012r Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu EFEKTY KSZTAŁCENIA DLA KIERUNKU
PROGRAM NAUCZANIA DLA I I II KLASY GIMNAZJUM
PROGRAM NAUCZANIA DLA I I II KLASY GIMNAZJUM Proporcje podziału godzin na poszczególne bloki Blok Liczba godzin I rok II rok Na dobry początek 7 Internet i gromadzenie danych 6 2 Multimedia 5 3 Edytory
Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa
:Informatyka- - inż., rok I specjalność: Grafika komputerowa Rok akademicki 018/019 Metody uczenia się i studiowania. 1 Podstawy prawne. 1 Podstawy ekonomii. 1 Matematyka dyskretna. 1 30 Wprowadzenie do
INFORMATYKA. PLAN STUDIÓW STACJONARNYCH INŻYNIERSKICH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2019/2020.
PLAN STUDIÓ STACJONARNYCH INŻYNIERSKICH 1-go STOPNIA 2019-2023 STUDIA ROZPOCZYNAJĄCE SIĘ ROKU AKADEMICKIM 2019/2020 Semestr I stęp do matematyki 20 20 zal z oc. 3 Podstawy programowania* 20 45 65 zal z
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010 Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą
Wykaz zmian w systemie edok 9.1
Wykaz zmian w systemie edok 9.1 1. Integracja edok SyriuszSTD w zakresie pism z portalu Praca.gov.pl 2. Integracja z bramką SMS 3. Wysłanie dowolnego sms-a do adresata pisma 4. Wysyłanie sms statusów spraw
KARTA ZGŁOSZENIA NAZWA SZKOŁY: Imię i nazwisko uczestnika. uczestnika Opiekun Kontakt do opiekuna (tel. lub )
KARTA ZGŁOSZENIA Załącznik nr 1 NAZWA SZKOŁY: Imię i nazwisko uczestnika E-mail uczestnika Opiekun Kontakt do opiekuna (tel. lub email) 1 Załącznik nr 2 OŚWIADCZENIE O WYRAŻENIU ZGODY NA UDZIAŁ W KONKURSIE
LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS
UNIWERSYTET ZIELONOGÓRSKI INSTYTUT INFORMATYKI I ELEKTROTECHNIKI ZAKŁAD INŻYNIERII KOMPUTEROWEJ Przygotowali: mgr inż. Arkadiusz Bukowiec mgr inż. Remigiusz Wiśniewski LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS
INFORMATYKA W SELEKCJI
- zagadnienia. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel). Podstawy pracy z relacyjną bazą danych w programie MS Access. Specjalistyczne programy statystyczne na przykładzie pakietu SAS
i działanie urządzeń związanych równieŝ budowę i funkcje urządzeń
Wymagania edukacyjne Informatyka III etap edukacyjny (gimnazjum) Uczeń potrafi I. Bezpiecznie posługiwać się komputerem i jego oprogramowaniem, wykorzystywać sieć komputerową; komunikować się za pomocą
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Wymagania na poszczególne oceny w klasach 3 gimnazjum
Wymagania na poszczególne oceny w klasach 3 gimnazjum Znaczenie komputera we współczesnym świecie Przypomnienie wiadomości na temat języka HTML Wstawianie tabeli na stronę WWW Wstawianie listy punktowanej
REGULAMIN IV Powiatowego Konkursu Informatycznego BAJTEK dla uczniów szkół gimnazjalnych
REGULAMIN IV Powiatowego Konkursu Informatycznego BAJTEK dla uczniów szkół gimnazjalnych Organizatorem konkursu jest Zespół Szkół Licealnych im. Bolesława Chrobrego w Leżajsku. Cele konkursu Wyłanianie
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Rok I, semestr I (zimowy) Liczba godzin
Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Gry komputerowe i multimedia, GKiM studia stacjonarne Dla rocznika: 2018/2019 Rok I, semestr I (zimowy) Lp. Nazwa przedmiotu
5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z
1. Nazwa kierunku informatyka 2. Cykl rozpoczęcia 2016/2017Z, 2016/2017L 3. Poziom kształcenia studia drugiego stopnia 4. Profil kształcenia ogólnoakademicki 5. Forma prowadzenia studiów niestacjonarna
Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki
Dariusz Brzeziński Politechnika Poznańska, Instytut Informatyki Język programowania prosty bezpieczny zorientowany obiektowo wielowątkowy rozproszony przenaszalny interpretowany dynamiczny wydajny Platforma
Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol
KIERUNKOWE EFEKTY KSZTAŁCENIA Wydział Informatyki i Zarządzania Kierunek studiów INFORMATYKA (INF) Stopień studiów - pierwszy Profil studiów - ogólnoakademicki Projekt v1.0 z 18.02.2015 Odniesienie do
OPIS PRZEDMIOTU ZAMÓWIENIA
Lubelskie Centrum Transferu Technologii Politechniki Lubelskiej ul. Nadbystrzycka 36, 20-618 Lublin Tel. 81 538 42 70, fax. 81 538 42 67; e-mail: lctt@pollub.pl OPIS PRZEDMIOTU ZAMÓWIENIA Do realizacji
Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego
Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dorota Adamiec Instytut Języka Polskiego PAN Elektroniczny
Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9
Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9 Uruchamianie edytora OpenOffice.ux.pl Writer 9 Dostosowywanie środowiska pracy 11 Menu Widok 14 Ustawienia dokumentu 16 Rozdział 2. OpenOffice
Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych
Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki