Ujednoznacznianie sensów słów
|
|
- Fabian Kucharski
- 8 lat temu
- Przeglądów:
Transkrypt
1 ł ę ł ń ł
2 Warsztaty Ujednoznacznianie sensów słów
3 Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów: zamek Warsztaty
4 Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek Warsztaty
5 Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek Warsztaty
6 Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek Warsztaty
7 Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek. Warsztaty
8 Ujednoznacznianie sensów słów Warsztaty Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek w drzwiach.
9 Ujednoznacznianie sensów słów Warsztaty Proces polegający na przypisaniu słowu odpowiedniego znaczenia wybranego ze zbioru znaczeń słów, odpowiadającego znaczeniu słowa w danym kontekście.
10 Ujednoznacznianie sensów słów Warsztaty Uczenie na podstawie oznaczeń w tekstach: Wymagane duże zasoby ręcznie oznaczonych tekstów. Czasochłonność ręcznego oznaczania tekstów (koszty). Każde słowo z osobna posiada swoje anotacje. Rozpoznawanie znaczeń kolejnego słowa = anotacje tego słowa = kolejne koszty. Zaleta: duża dokładność systemu. Wada: niska kompletność rozpoznawanych znaczeń.
11 Ujednoznacznianie sensów słów Warsztaty Uczenie bez wstępnego oznaczania w tekście: Nie jest wymagane wstępne znakowanie znaczeń w tekstach. Wykorzystanie istniejących struktur opisujących zależności między znaczeniami słów (Słowosieć). Zaleta: dużo większa kompletność rozpoznawanych słów w stosunku do ujednoznaczniania na podstawie ręcznych anotacji. Wada: mniejsza dokładność rozpoznawanych w stosunku do systemów uczonych na podstawie ręcznych oznaczeń.
12 Ujednoznacznianie sensów słów Warsztaty Nienadzorowane podejście oparte o przetwarzanie grafu. Po powrocie z pracy zepsułem zamek w drzwiach. graf dla słowa zamek.
13 Ujednoznacznianie sensów słów Po powrocie z pracy zepsułem zamek w drzwiach. Warsztaty
14 Ujednoznacznianie sensów słów Warsztaty Proces aktywacji synsetów Nienadzorowane podejście oparte o przetwarzanie grafu.
15 Ujednoznacznianie sensów słów Warsztaty Surowe wyjście WoSeDona anotacje WSD dla słowa zamek w zdaniu Po powrocie z pracy zepsułem zamek w drzwiach. <tok> <orth>zamek</orth> <lex disamb="1"> <base>zamek</base><ctag>subst:sg:acc:m3</ctag> </lex> <prop key="sense:ukb:syns_id">419</prop> <prop key="sense:ukb:syns_rank">419/ / / / / / / </prop> <prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop> </tok> Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek.
16 Warsztaty Ujednoznacznianie sensów słów - wyniki KPWr Konf. Składnica N V Śr N V Śr. 52,22 42,66 46,12 61,74 61,67 56,69 C8 C9 C9 C1 C9 C1 C8 - PPR, graf synsetów + SUMO, inicjalizacja Słowosieci C9 - Static, graf synsetów (waga,7) + jednostek (WAGA,3) + reranking 1% całego rankingu C1 - Static, graf synsetów, reranking 3% całego rankingu
17 Ujednoznacznianie sensów słów - zastosowania Warsztaty Zastosowania: Znaczenia jako cechy w uczeniu maszynowym: klasyfikacja semantyczna tekstów wykrywanie relacji semantycznych między fragmentami tekstów wykrywanie ról semantycznych (np. wewnątrz frazy rzeczownikowej) Pogłębienie tekstu w stronę semantyki, wiemy jakie jest znaczenie danego słowa Możliwość wnioskowania z siatki relacji semantycznych Słowosieci
18 Rzutowanie Słowosieci na SUMO Darmowa, otwarta, rozszerzenia na licencji GNU GPL Formalnie zdefiniowana - SUO-KIF Warsztaty
19 Rzutowanie na SUMO Warsztaty Strona domowa: Posiada rzutowania na różne WordNety (PWN, Perski itp.) Powiazana w MCR, WordNet Domains, Base Concepts, Top Ontology oraz AdimenSUMO Co nam daje rzutowanie Słowosieci na SUMO? Przejście na poziom pojęć ontologicznych - ogólniejszy opis słów z tekstu m.in. cechy klasyfikatora: Relacje między fragmentami Klasyfikacja semantyczna Relacje przestrzenne Powiązanie Słowosieci z innymi zasobami połączonymi z SUMO
20 Rzutowanie na SUMO Warsztaty Dostępne pod adresem:
21 WoSeDon i WebWoSeDon Warsztaty
22 WebWoSeDon Warsztaty WebWoSeDon - Narzędzie do generowania i przeglądania list frekwencyjnych znaczeń Słowosieci z korpusów tekstów. Korpus musi posiadać wcześniej przypisane znaczenia, za co odpowiada WoSeDon w fazie wstępnej przetwarzania tekstu (preprocessingu). Dostępność poprzez przeglądarkę pod adresem:
23 WebWoSeDon funkcjonalność Warsztaty Generowanie i przeglądanie list frekwencyjnych znaczeń z korpusów tekstów. Generowanie listy bezpośrednio z DSpace poprzez kliknięcie w przycisk: Ewentualnie poprzez wklejenie URI (np. do WoSeDona:
24 WebWoSeDon schemat działania Warsztaty
25 WebWoSeDon okno główne Warsztaty
26 WebWoSeDon funkcjonalność Warsztaty
27 WebWoSeDon funkcjonalność Warsztaty
28 WoSeDon funkcjonalność Warsztaty
29 WoSeDon funkcjonalność Warsztaty
30 WoSeDon funkcjonalność Warsztaty
31 Warsztaty WoSeDon funkcjonalność Definicje glosy, synonimy wyłącznie synonimy hiperonimy, holonimy itp.
32 WoSeDon - przykłady działania Warsztaty Korpus: Kodeksy ( Najczęstsze rzeczowniki
33 WoSeDon - przykłady działania Warsztaty Korpus: Kodeksy ( Najczęstsze czasowniki
34 WoSeDon - przykłady działania Warsztaty Korpus: Korpus wiadomości z pl.wikinews.org (Polska) lata ( Najczęstsze rzeczowniki
35 WoSeDon - przykłady działania Warsztaty Korpus: Korpus wiadomości z pl.wikinews.org (Polska) lata ( Najczęstsze czasowniki
36 WoSeDon - przykłady działania Warsztaty Korpus: Pytania i odpowiedzi z serwisu wikipedyjnego "Czy wiesz", wersja 2. ( Najczęstsze rzeczowniki
37 WoSeDon - przykłady działania Warsztaty Korpus: Pytania i odpowiedzi z serwisu wikipedyjnego "Czy wiesz", wersja 2. ( Najczęstsze czasowniki
38 Warsztaty Semantyka dystrybucyjna
39 Semantyka dystrybucyjna Warsztaty Semantyka formalna w duchu Wittgensteina znaczenie słowa jest zdeterminowane przez reguły jego użycia w obrębie specyficznej gry językowej znajomość znaczenie słowa oznacza zdolność do poprawnego użycia go w ramach gry językowej (lub: praktyce lingwistycznej) (Wittgenstein, Philosophical Investigations, 1953) Distributional Hypothesis (Hipoteza dystrybucyjna) (Harris, Mathematical Structures of Language, 1968) za (Sahlgren, 21) znaczenie wyrażeń i znaczenie relacji gramatycznych pomiędzy nimi jest powiązane z ograniczeniami nałożonymi na (poprawne) kombinacje wyrażeń ograniczenia w kombinacji wyrażają ograniczenia semantyczne rządzące dystrybucją wyrażeń w użyciach języka podsumowując: znaczenie słowa jest zdeterminowane jego użyciem, użycie jest manifestowane jego dystrybucją, wzorzec dystrybucyjny (definiowany przez konteksty) może być postrzegany jako cenne narzędzie w określaniu znaczenia słowa
40 Miara powiązania znaczeniowego Wzorzec dystrybucji konteksty użycia Macierz (współwystępowania) koincydencji gdzie: wi - lemat cj - cecha charakteryzująca kontekst M[wi, cj] częstość współwystąpienia z określoną cechą Warsztaty
41 Miara powiązania znaczeniowego Przykładowy korpus (Landauer, Foltz i Laham,1998) tytuły krótkich artykułów technicznych z dziedziny interakcji człowiek-komputer i teorii grafów podkreślone są słowa analizowane dalej c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey Warsztaty
42 Warsztaty Miara powiązania znaczeniowego LSA konstrukcja początkowej macierzy (Landauer, Foltz i Laham,1998) human interface computer user system response time EPS survey trees graph minors c1 c2 c3 c4 c5 m1 m2 m3 m
43 Miara powiązania znaczeniowego Efekt uboczny: następuje uogólnienie podobieństw miedzy słowami, np. p(human, user)= -,38 p(human,minors) = -.29 po redukcji do 2 wymiarów: p(human, user)=,94 p(human,minors) = -.83 (!) Przykład: wzmacnianie podobieństwa między słowami po wprowadzeniu nowej osi (Widdows, 24) Warsztaty
44 Warsztaty SuperMatrix tekst oznaczony morfosyntaktycznie (TaKIPI) lista lematów Konstrukcja macierzy definicje cech (operatory) Selekcja i transformacja Porównywanie wierszy grupy JL miara testy Miara powiązania znaczeniowego: Lematy x Lematy R
45 SuperMatrix Warsztaty Typy cech: dokument fakt wystąpienia w określonym dokumencie, współwystąpienie z określonym lematem, relacja leksykalno-składniowe, np. modyfikacja_przez_przymiotnik_rozłożysty Identyfikacja relacji leksykalno-składniowych brak płytkiego parsera języka polskiego o wymaganym pokryciu i dokładności ograniczenia leksykalno-morfo-syntaktyczne (TaKIPI) identyfikacja potencjalnych powiązań wyrazów
46 Warsztaty SuperMatrix Przykład: cechy wg częstości dla budynek Modyfikator przym. częstość MI Lina GRWF(Lin) mieszkalny nowy komunalny gospodarczy stary główny szkolny wysoki wielorodzinny zakładowy
47 Warsztaty SuperMatrix Przykład: cechy wg różnych transformacji dla budynek Brak transformacji Lin/GRWF(Lin) mieszkalny średniowysoki nowy apartamentowy komunalny celniczy gospodarczy czterokondygnacyjny stary dwukondygnacyjny główny dwunastopiętrowy szkolny dziesięciopiętrowy wysoki dziewięciokondygnacyjny wielorodzinny dziesięciokondygnacyjny zakładowy luksusowy
48 SuperMatrix Warsztaty Ograniczenia: często jedno znaczenie dominuje brak rozróżnienia pomiędzy różnymi relacjami leksykalnymi przypadkowe powiązania powodowane przez przypadkowe cechy brak jasnego kryterium odcięcia listy Korzyści: często zgodność z oczekiwaniami działanie dla dużego zbioru lematów skuteczność w różnorodnych zastosowaniach
49 Ocena miary powiązania znaczeniowego Test synonimii na podstawie wordnetu (tzw. WBST) Q: poczet A: astma, eskorta, fresk, pokojówka Q: aromat A: bukiet, certyfikat, sierżant, zapaśnik Rozszerzony test synonimii (EWBST) Q: aromat A: bukiet, kłąb, mróz, wyż Warsztaty
50 Warsztaty Ocena miary powiązania znaczeniowego MPZ Ludzie H H E 69,75 E min. maks śr. min. maks śr. 73,84 96,24 86,64 52,54 81,24 71,34 52,54 81,24 71,34 rzecz. 88,14 czas. 71,85 57,54 9,4 81,84 przym. 83,26 76,24 96,24 89,94 73,84 96,24 86,64 Częste (>1) rzecz. 92,28 75,43 czas. 75,94 57,54 9,4 81,84 przym. 86,92 76,24 96,24 89,94 Powyżej, H = HWBST, E = EWBST, MPZ = miara powiązania znaczeniowego
51 Word2Vec Warsztaty Ograniczenia wielu metod semantyki dystrybucyjnej wektory dla lematów reprezentują konglomeraty co gorsza obciążone w kierunku znaczeń dominujących może pojawić się silny aspekt wpływu konkretnych, wąskich dziedzin tematycznych wiele modeli, poczynając od LSA, nie wspiera arytmetyki na wektorach np. V(mężczyzna) + V(kobieta) = V(dziecko) żart, ale X = vector( biggest ) vector( big ) + vector( small ) (Mikolov et al., 213) konstrukcja modeli jest bardzo obliczeniochłonna Modele oparte na sieciach neuronowych pojawiły się wraz ze wzrostem mocy obliczeniowej i ilości pamięci różne architektury, w tym rekursywne, oparte na głębokim uczeniu itp. Ogromny sukces algorytmu Word2Vec implementacja modelu SkipGrams i Continuos Bag of Words Efektywność Zadziwiająco dobre możliwości arytmetyki na wektorach słów przy prostocie modelu
52 Word2Vec Warsztaty (Tomas Mikolov et al. 213)
53 Word2Vec Warsztaty (Tomas Mikolov et al. 213)
54 Word2Vec Warsztaty Chris McCormick (dostęp 11 I 217) p-gram-model/
55 Word2Vec Warsztaty Output Vector values in [,1] softmax estimation of probability of co-occurence Chris McCormick (dostęp 11 I 217)
56 Warsztaty Klasyfikacja semantyczna
57 Cechy dla języka polskiego Warsztaty Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 program do rozpoznawania nazw własnych - Liner2 program do ujednoznaczniania sensów słów - WoSeDon
58 Cechy morfologiczne Długość: dokumentu, akapitu, zdania Formy wyrazowe Znaki interpunkcyjne Pseudo-sufiksy ostatnie kilka liter Dowolne tokeny wyrazowe Lematy podstawowe formy morfologiczne wyznaczane z pomocą tagera morfosyntaktycznego Sekwencje n elementowe wyrazowych tokenów lematów dwuelementowe tzw. bigramy trzyelementowe tzw. trigramy Warsztaty
59 Cechy morfosyntaktyczne Warsztaty Części mowy wyznaczane na podstawie rozpoznania klas gramtycznych Klasy gramatyczne zgodnie z definicją w Narodowym Korpusie Języka Polskiego klas gramatycznych, np. pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja) wyznaczane przez tager morfosyntaktyczny Połączenie klas i wartości kategorii gramatycznych np. czasowniki w osobie 1 lub 2 Sekwencje klas gramatycznych przybliżają do pewnego stopnia konstrukcje składniowe
60 Cechy semantyczne Znaczenia leksykalne (sensy słów) wyznaczane względem Słowosieci identyfikatory wyznaczonych synsetów Uogólnione znaczenia leksykalne hiperonimy wyznaczonych synsetów poziom hiperonimu decyduje o stopniu uogólnienia Pojęcia ze sformalizowanej ontologii SUMO Suggested Upper Merged Ontology Dziedziny tematycznie ze zbioru WordNet Domains pola tematyczne wyznaczone w sposób automatyczny Warsztaty
61 Klasyfikacja semantyczna Warsztaty Cel klasyfikacji: przypisanie do dokumentów tekstowych lub fragmentów tekstów klas semantycznych (tagowanie, kodowanie) klasy są zdefiniowane przez użytkownika np. funkcja społeczna, ekonomiczna, styl naukowy, list pożegnalny, archeologia, Rodzaje systemów klasyfikacji nienadzorowane: klasy są zdefiniowane opisowo program klasyfikatora jest konstruowany i dostrajany na podstawie dużej ilości danych nadzorowane klasy są zadana w postaci ręcznie anotowanych dokumentów lub fragmentów tekstu
62 Proces budowy klasyfikatora Identyfikacja źródeł Pozyskanie korpusu tekstów Wstępne przetwarzanie korpusu Ręczna anotacja podkorpusu treningowo-testowego Automatyczna anotacja korpusu Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6 Warsztaty
63 Przykład: klasyfikacja listów pożegnalnych Warsztaty Zadanie: Klasy: prawdziwe listy pożegnalne, sfałszowane listy pożegnalne, teksty inne Dane oparte na Polskim Korpusie Listów Pożegnalnych (Zaśko-Zielińska, 213) prawdziwe (autentyczne) listy pożegnalne 334 sfałszowane listy (eksperyment, ochotnicy) 2 2 listów z forów internetowych + 1 tekstów z Wikipedii Informatywne cechy: lematy, znaki interpunkcyjne, wielka litera, klasy gramatyczne, czasowniki 1 i 2 osoby, bigramy, klasy nazw własnych, znaczenia (Słowosieć) i uogólnienia znaczeń
64 Przykład wyniku: klasyfikacja listów pożegnalnych Warsztaty System Cindirella Cechy: wielka litera, znaki interpunkcyjne, klasy gramatyczne (wg NKJP), bigramy (dwójki) klas gramatycznych, czasownik w 1 i 2 osobie, klasy nazw własnych, uogólnione znaczenia, dziedziny, pojęcia SUMO Dokładność (ogólna): 93,78% Kompletność (prawdziwych): 88,36% Dokładność dla prawdziwych: 88,56% Dokładność odrzucania: 95,7%
65 Przykład cech istotnych: klasyfikacja listów pożegnalnych Bigram: interp_pusty Klasa gram.: interp Bigram: subst_interp Czasownik 1 i 2 Bigram: adj_interp Klasa gram.: subst Znak interp.: przecinek Klasa gram.:ppron12_count Dziedzina: rel (przym. relacyjne) Bigram: subst_adj Klasa gram.: impt Klasa gram.: noun Znak interp.: myślnik Bigram: interp_interp Bigram: interp_adj Klasa gram.: adj Warsztaty Wielka litera Dziedzina: zwz (związki) Bigram: subst_subst Klasa gram.: ger Bigram: subst_ppas Dziedzina: zdarz (zdarzenia) Znak interp.: znak zapytania Uog. znaczenie:grupa-4(grp) zbiór-1(grp) Bigram: adj_subst Klasa nazwy: kraje Bigram.: praet_aglt Bigram: subst_pusty Bigram: prep_subst Uog. znaczenie: wykonywanie_czynności_religijnyc h_bądź_magicznych-1(czy)
66 Przykład cech istotnych: klasyfikacja listów pożegnalnych Cechy semantyczne 9) Dziedzina: rel (przym. relacyjne) 18) Dziedzina: zwz (związki) 22) Dziedzina: zdarz (zdarzenia) 24) Uog. znaczenie:grupa-4(grp) zbiór-1(grp) 3) Uog. znaczenie: wykonywanie_czynności_ religijnych_bądź_magicznych-1 (czy) 39) Uog. znaczenie: właściwość-1(cech) przymiot-1(cech) cecha-1(cech) własność-2(cech) atrybut-1(cech) Infrastruktura badawcza Wrocław ) oddalanie_się-1(czy) 43) Uog. znaczenie: człowiek_określany_pieszczotliwie-1 (os) człowiek_określany_familiarnie-1 (os) 44) Uog. znaczenie: doświadczać_pozytywnego_uczucia-1 (cst) 45) Uog. znaczenie: chować-7(cczuj) żywić-2 (cczuj) 46) Uog. znaczenie: GERUNDIUM-1(bhp) 47) Uog. znaczenie: GERUNDIUM_OD_CZASOWNIKA_D YNAMICZNEGO_NIEZMIENNOSTAN OWEGO-1(czy)
67 Przykład: kategorie Wikipedii Infrastruktura badawcza Wrocław Zadanie: Dane: 67 uogólnionych kategorii z Wikipedii ręcznie wybrane nadkategorie, połączone podkategorie zróżnicowane dziedziny Cel: przypisanie klas do artykułów Najistotniejsze cechy: wielka litera, znaki interpunkcyjne, lematy, klasy gramatyczne, bigramy klas, klasy nazw własnych, znaczenia, znaczenia ogólne, pojęcia z SUMO
68 Infrastruktura badawcza Wrocław Przykład: kategorie Wikipedii Klasy Albania Astronautyka Ekologia roślin Gałęzie prawa Karkonosze Kotowate Muzyka poważna Piłka nożna Propaganda polityczna Sporty siłowe Dokładność Średnia Dokładność Dokładność Kompletno harmoniczna wyboru odrzucania ść wyboru 99,2% 98,7% 99,1% 98,1% 99,8% 1,% 98,9% 99,7% 86,21% 81,16% 84,75% 67,8% 95,45% 1,% 8,% 95,89% 89,29% 84,85% 8,65% 62,5% 1,% 1,% 91,67% 94,59% 99,49% 99,17% 99,69% 99,28% 99,8% 1,% 99,8% 99,9% 83,33% 77,78% 89,29% 74,7% 91,3% 1,% 7,97% 97,22% 97,9% 99,8% 65,57% 96,77% 64,52% 93,75% 98,97% 1,% 66,67% 1,%
69 Warsztaty Relacje między fragmentami tekstów
70 Relacje między fragmentami tekstów Warsztaty Relacje między dwoma zdaniami: S1 oraz S2. Bazuje na podejściu RST (Rhetorical Structure Theory) W Clarin: zestaw relacji z modelu CST (Cross-document Structure Theory) - 16 relacji Podział relacji CST wg. Maziero
71 Relacje między fragmentami tekstów - definicje cz. 1 Warsztaty Krzyżowanie się S1 przedstawia informacje X i Y, zaś S2 przedstawia informacje X i Z: S1: Samolot rozbił się, uderzając w 25 piętro budynku Pirelli znajdującego się w centrum miasta Milan. S2: Mały turystyczny samolot zderzył się z najwyższym budynkiem w Milanie. Zawieranie S1 zawiera wszystkie informacje z S2, oraz dodatkowe informacje niewystępujące w S2: S1: Z trzema zwycięstwami w tym roku Green Bay ma najlepszy wynik w lidze NFL. S2: Green Bay trzy razy osiągnął zwycięstwo w tym roku. Zmiana poglądu Zdanie S1 opublikowane zostało później niż S2, jednak ta sama osoba przedstawia dwie odmienne opinie dotyczącego tego samego bytu, tej samej sytuacji lub prezentuje ten sam fakt w innym świetle: S1: Giuliani skrytykował Związek Oficerów jako zbyt wymagający podczas rozmów o umowach. S2: Giuliani pochwalił Związek Oficerów, który dostarcza prawnego wsparcia i pomocy swoim członkom. Tożsamość S1 oraz S2 to dokładnie takie same zdania.
72 Relacje między fragmentami tekstów - definicje cz. 2 Warsztaty Mowa zależna S1 pośrednio cytuje coś, co zostało bezpośrednio przytoczone w S2. Mowa zależna może polegać na parafrazie pewnych słów przy zachowaniu pełnej tożsamości znaczeniowej: S1: Pan Cuban zagwarantował tłumowi darmowe cukierki. S2: Gwarantuję darmowe cukierki Pan Cuban powiedział do tłumu. Streszczanie S1 streszcza S2 (tj. S1 zawiera kluczowe informacje z S2): S1: Mets wygrali tytuł w siedmiu grach. S2: Po wyczerpujących sześciu grach, Mets przybyli dziś wieczorem by wziąć sobie tytuł. Spełnienie S1 potwierdza wystąpienie (spełnienie się) zdarzenia przewidzianego w (zapowiedzi z) S2: S1: Po podróży do Austrii, Pan Green wrócił do domu w Nowym Jorku. S2: Pan Green pojedzie do Austrii. Uszczegółowienie Zdanie S1 dostarcza dodatkowych szczegółów opisanych ogólniej w S2: S1: Publiczna telewizja RAI donosi, że S2: Włoska telewizja podała, że sygnał SOS nadany przez pilota spowodowany był problemem technicznym.
73 Relacje między fragmentami tekstów - definicje cz. 3 Warsztaty Opis w S1 znajduje się opis bytu wspomnianego w S2, S1: Greenfield, emerytowany generał i ojciec dwojga dzieci, odmówił komentarza. S2: Pan Greenfield pojawił się wczoraj w sądzie. Źródło S1 zawiera źródło informacji występującej w S2: S1: Durczok powiedział, że Ameryka wypowie wojnę Korei. S2: Ameryka wypowie wojnę Korei. Cytowanie S1 bezpośrednio cytuje fragment zdania S2 pochodzącego z innego dokumentu: S1: Wcześniejszy artykuł cytuje księcia Alberta mówiącego: Nigdy nie będę uprawiał hazardu. S2: Książę Albert kontynuował mówiąc: Nigdy nie będę uprawiał hazardu Sprzeczność S1 i S2, pochodzące z tego samego momentu czasu, zawierają konfliktujące ze sobą informacje: S1: Na pokładzie zestrzelonego samolotu były 122 osoby. S2: 126 osób było na pokładzie samolotu.
74 Relacje między fragmentami tekstów - definicje cz. 4 Warsztaty Parafraza S1 oraz S2 zawierają dokładnie takie same informacje wyrażone jednak różnymi słowami, S1: Wałęsa był agentem SB. S2: Lechu współpracował jako agent z SB. Modalność S1 z dodatkiem ramy modalnej przedstawia wersję informacji przed stawionych w S2: S1: Uważa się, że Sean Combs posiada kilka posiadłości wartych wiele milionów. S2: Puffy posiada cztery wielomilionowe domy w rejonie Nowego Jorku. Tło historyczne S1 opisuje kontekst historyczny przedstawiony w S2: S1: To był czwarty raz jak członek rodziny królewskiej rozwiódł się. S2: Duke Windsor wczoraj rozwiódł się z Duchess Windsor Dalsze informacje S1 zawiera dodatkowe informacje w stosunku do S2, jednak S1 opublikowane zostało po S2: S1: 12 ofiary zostały odnotowane w rejonie trzęsienia ziemi. S2: Do tej pory nie potwierdzono ofiar trzęsienia ziemi.
75 Warsztaty Relacje między fragmentami tekstów - znakowanie Relacja Etap 1 Etap 2 Relacja Etap 1 Etap 2 Mowa zależna Opis Streszczanie Źródło 46 5 Spełnienie Cytowanie 3 3 Uszczegółowienie Sprzeczność 17 2 Krzyżowanie się Parafraza Zawieranie Modalność 1 1 Zmiana poglądu 6 6 Tło historyczne Tożsamość 47 6 Dalsze informacje Wykorzystane teksty z Wikinews Liczba relacji oznakowanych w etapie 1: 2945 Liczba relacji oznakowanych w etapie 2: 3269 Oznakowany korpus, dostępny pod adresem:
76 Relacje między fragmentami tekstów - wyniki Wyniki klasyfikacji z podziałem na dane uczące (5%) oraz testowe (4%) Warsztaty
77 Relacje między fragmentami tekstów - zastosowanie Warsztaty Wewnątrz dokumentu, informacja o strukturze dokumentu: podział tekstu na segmenty (np. zachodzenie tej samej relacji między kolejnymi zdaniami, aż do jej zmiany). nazwanie wydzielonych segmentów, np. temat, abstrakt, itp. W procesie uczenia maszynowego: streszczanie dokumentów (relacja streszczania, krzyżowania, zawierania, ) podobieństwo dokumentów: czy dokumenty mówią o tym samym - tematyka czy dokumenty dotyczą tego samego obiektu/zdarzenia? badanie opinii/wiarygodności informacji na jakiś temat (np. zachodzenie relacji sprzeczność)
78 Warsztaty Mapa Literacka
79 Mapa Literacka Warsztaty Narzędzie do wizualizacji obiektów geograficznych na mapie Utrzymywane i rozwijane przez Centrym Technologii Językowych (CTJ) na Politechnice Wrocławskiej Inspirowane geokrytycznymi badaniami literaturoznawczymi kartografia literacka, geografia humanistyczna. Współpraca z Instytutem Badań Literackich (IBL) PAN Planowane zastosowanie m.in. w projekcie Literaturoznawstwo architektoniczne realizowanym w IBL PAN (kierownik: Aleksanda Wójtowicz)
80 Możliwe zastosowania Warsztaty Badania w zakresie kartografii literackiej wizualizacja miejsc fikcyjnych w odniesieniu do realnej przestrzeni, mapy mentalne kreowane przez pisarza. Badania nad literacko-kulturową ważnością miejsc i obiektów akcentowane są związki pisarzy i miejsc istotna jest sieć relacji kulturowych analizy zbioru tekstów związanych z działalnością kilku pisarzy (np. zgromadzonych wokół jednego czasopisma) Badania nad ewolucją ważności miejsc i obiektów uwzględnienie osi czasu i nałożenie na siebie różnych planów tego samego miasta
81 Warsztaty Potok przetwarzania Automatyczna analiza językowa CTJ Geokodowanie obiektów geograficznych Google Geocoding API konwersja dokumentów do tekstu (any2txt) segmentacja i tokenizacja (toki) analiza morfologiczna (MACA, Morfeusz) tagowanie (WCRFT2) rozpoznawanie odniesień (Liner2) rozpoznawanie relacji semantycznych (Serel) Interpretacja wyników Ręczna weryfikacja wyników Geolokalizacja /wizualizacja Google Maps
82 Geokodowanie (1/2) Warsztaty punktem zaczepienia dla geokodowania są toponimy (głównie obiekty geopolityczne) oraz urbanonimy w obrębie miast, na początku skupiamy się na istniejących obiektach, których współrzędne można ustalić przy użyciu istniejących narzędzi: Google Geocoding API geokoduje formy odmienione nazw, licencja posiada ograniczenia na liczbę zapytań, OpenStreetMap nie obsługuje form odmienionych nazw, własnej implementacji dopasowania form odmienionych bazowych, np. Grunwaldzką, Gdańsku vs. Grunwaldzka, ( darmowa wymaga do form Gdańsk
83 Warsztaty Geokodowanie (2/2) kontekstowa dezambiguacja obiektów łączenie z obiektami o wyższej wadze, które wystąpiły w bliskim kontekście danej nazwy, np. dla tekstu Wiadomości z Polski. We Wrocławiu na ul. Suchej Polska, Wrocław, ul. Sucha Wrocław, ul. Sucha ul. Sucha ustalenie lokalizacji obiektów miejskich (restauracje, kina, pomniki, itd.) istniejących w danym okresie na podstawie interpretacji relacji przestrzennych (Serel, SpatialPL) Kategoria toponimu Waga continent_nam 8 island_nam 7 peninsula_nam 68 cape_nam 65 region_nam 63 country_nam 6 country_region_nam 5 historical_region_nam 5 mountain_nam 45 admin1_nam 4 conurbation_nam 35 admin3_nam 3 admin2_nam 2 city_nam 15 river_nam 12 sea_nam 1
84 Strona główna Warsztaty
85 Dodanie nowego dokumentu Warsztaty
86 Lista obiektów (alfabetycznie) Warsztaty
87 Lista obiektów (chronologicznie) Warsztaty
88 Plany Warsztaty Włączenie w potok przetwarzania modułu do rozpoznawania wyrażeń przestrzennych (SpatialPL), modułu do rozpoznawania koreferencji, Rozbudowa interfejsu możliwość edycji wyników (edycja na poziomie odniesień i geokodowania), możliwość eksportu wyników, możliwość porównywania map dla różnych zbiorów tekstów.
89 Warsztaty WebWoSedon - krótkie ćwiczenie
90 WebWoSeDon - ćwiczenia Warsztaty Wyszukiwanie korpusu do tworzenia list frekwencyjnych (
91 WebWoSeDon - ćwiczenia Warsztaty Wyszukiwanie korpusu do tworzenia list frekwencyjnych.
92 WebWoSeDon - ćwiczenia Warsztaty Tworzenie listy frekwencyjnej za pomocą interfejsu DSpace
93 WebWoSeDon - ćwiczenia Warsztaty Przeglądanie utworzonej listy frekwencyjnej
94 WebWoSeDon - ćwiczenia Warsztaty Przeglądanie utworzonej listy frekwencyjnej filtrowanie wyświetlanej liczności top n 1 2
95 WebWoSeDon - ćwiczenia Warsztaty Przeglądanie utworzonej listy frekwencyjnej filtrowanie ze względu na część mowy oraz wyrazy z listy stopu 1 2 3
96 WebWoSeDon - ćwiczenia Warsztaty Przeglądanie utworzonej listy frekwencyjnej
97 WebWoSeDon - ćwiczenia Warsztaty Zapisywanie listy frekwencyjnej na dysk swojego komputera
98 WebWoSeDon - ćwiczenia Warsztaty Zapisywanie listy frekwencyjnej na dysk swojego komputera Proszę zapisać plik na dysku komputera.
99 WoSeDon Warsztaty Otwieranie zapisanej listy frekwencyjnej z dysku swojego komputera
100 WebWoSeDon - ćwiczenia Warsztaty Otwieranie zapisanej listy frekwencyjnej z dysku swojego komputera
101 WebWoSeDon - ćwiczenia Warsztaty Otwieranie zapisanej listy frekwencyjnej z dysku swojego komputera
102 WoSeDon Warsztaty Przeglądanie otwartej listy frekwencyjnej
103 WebWoSeDon - ćwiczenia Warsztaty Przeglądanie list wykorzystując URI DSpace Kopiujemy URI
104 Warsztaty WebWoSeDon - ćwiczenia Przeglądanie list wykorzystując URI DSpace Przechodzimy pod adres: wosedon.clarin-pl.eu Wklejamy URI Klikamy
105 WebWoSeDon - ćwiczenia Warsztaty
106 Dziękujemy bardzo za uwagę
Mapa Literacka analiza odniesień geograficznych w tekstach literackich
CLARIN-PL Mapa Literacka analiza odniesień geograficznych w tekstach literackich Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Plan prezentacji
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Paweł Ke dzia, Marek Maziarz, Maciej Piasecki Politechnika ska Katedra Inteligencji
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa
Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa Paweł Ke dzia, Marek Maziarz, Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji
WebSty otwarty webowy system do analiz stylometrycznych
WebSty otwarty webowy system do analiz stylometrycznych Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
Inforex - zarządzanie korpusami i ich anotacja
Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii
Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.
Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów
IJP PAN / UP Kraków maciejeder@gmail.com WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów ws.clarin-pl.eu/websty.shtml Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika
Narzędzia do automatycznej analizy odniesień w tekstach
CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Zaawansowane narzędzie do analizy korpusu w oparciu o reguły
CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13
System do klasyfikacji tekstu i analizy stylometrycznej
System do klasyfikacji tekstu i analizy stylometrycznej Maciej Eder, Maciej Piasecki IJP PAN / UP Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciejeder@gmail.com maciej.piasecki@pwr.edu.pl
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
CLARIN rozproszony system technologii językowych dla różnych języków europejskich
CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)
KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów) Marcin Oleksy Michał Marcińczuk Politechnika ska Instytut Informatyki
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Seminarium przetwarzania języka naturalnego Mateusz Kopeć Instytut Podstaw Informatyki Polskiej Akademii Nauk 6 lutego 2012 Plan 1 Zadanie
CLARIN infrastruktura naukowa technologii językowych
CLARIN infrastruktura naukowa technologii językowych Maciej Piasecki Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl Przykład: analiza pojęcia Problem:
Open Access w technologii językowej dla języka polskiego
Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O
WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu
WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl
WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu
WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl
WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu
WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl
Semantyczna analiza języka naturalnego
Semantyczna analiza języka naturalnego Rozwiązanie Applica oparte o IBM SPSS Modeler Piotr Surma Applica 2 Agenda O Applica Analiza tekstu w języku polskim - wyzwania Rozwiązanie Applica Analiza Tekstu
LEM wydobywanie statystyk z korpusów
LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji
WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu
WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl
Wykorzystanie standardów serii ISO 19100 oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych
Wykorzystanie standardów serii ISO 19100 oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych dr inż. Adam Iwaniak Infrastruktura Danych Przestrzennych w Polsce i Europie Seminarium, AR Wrocław
CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego
CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej.piasecki@pwr.wroc.pl
CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy
Cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy 13 15 kwietnia 2015 roku Warszawa, Pałac Staszica, ul. Nowy Świat 72, sala 144
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
2
1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem
Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego
Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika ska Katedra Inteligencji Obliczeniowej
Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi
CLARIN-PL Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi Marcin Pol, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Instrukcja. opracował Marcin Oleksy
Instrukcja opracował Marcin Oleksy Wstęp Zarządzanie korpusem Flagi Flagowanie korpusu Usuwanie i edytowanie flag Użytkownicy Przypisywanie użytkowników Role użytkowników Cofnięcie dostępu Podkorpusy Tworzenie
Dziennik Urzędowy Unii Europejskiej L 274/9
20.10.2009 Dziennik Urzędowy Unii Europejskiej L 274/9 ROZPORZĄDZENIE KOMISJI (WE) NR 976/2009 z dnia 19 października 2009 r. w sprawie wykonania dyrektywy 2007/2/WE Parlamentu Europejskiego i Rady w zakresie
Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska
Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska Czym jest znaczenie Reprezentacja wektorowa Ograniczenia modelu BOW Słowa w kontekście Redukcja wymiarów Word2vec GloVe Materiały sporządzone
Narzędzia do automatycznej analizy odniesień w tekstach
CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)
Scenariusze obsługi danych MPZP
Scenariusze obsługi danych MPZP S t r o n a 2 I. URUCHOMIENIE MODUŁU PLANOWANIE PRZESTRZENNE... 3 II. NARZĘDZIA OBSŁUGI MPZP... 4 III. WYSZUKIWANIE PLANU... 5 Scenariusz wyszukiwania planu... 5 IV. WYSZUKIWANIE
Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski
Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,
Wyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Geofabrik.
OpenStreetMap (OSM) OpenStreetMap jest globalnym projektem społeczności internetowej, mający na celu stworzenie darmowej oraz swobodnie dostępnej mapy świata. Mapa może być edytowalna poprzez zarejestrowanych
TEST DIAGNOSTYCZNY. w ramach projektu TIK? tak! - na kompetencje cyfrowe najwyższy czas!
TEST DIAGNOSTYCZNY w ramach projektu TIK? tak! - na kompetencje cyfrowe najwyższy czas! ZASADY OCENY TESTU 1. Test diagnostyczny składa się z 20 pytań. 2. Każde pytanie zawiera cztery propozycje odpowiedzi.
Kategorialny Parser Składniowo-Semantyczny dla języka polskiego
Kategorialny Parser Składniowo-Semantyczny dla języka polskiego Wojciech Jaworski Instytut Informatyki Uniwersytetu Warszawskiego Instytut Podstaw Informatyki Polskiej Akademii Nauk 26 kwietnia 2016 Wojciech
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Monitoring procesów z wykorzystaniem systemu ADONIS
Monitoring procesów z wykorzystaniem systemu ADONIS BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych
Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław
Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.
Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013 Spis treści Wprowadzenie 11 1. Audacity - program do edycji i obróbki
Publikacja w repozytorium i przetwarzanie w systemie DSpace
Publikacja w repozytorium i przetwarzanie w systemie DSpace Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści
Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop. 2017 Spis treści O autorach 9 0 recenzencie 10 Wprowadzenie 11 Rozdział 1. Pierwsze kroki 15 Wprowadzenie do nauki o danych
Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud
Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl
Ontologie, czyli o inteligentnych danych
1 Ontologie, czyli o inteligentnych danych Bożena Deka Andrzej Tolarczyk PLAN 2 1. Korzenie filozoficzne 2. Ontologia w informatyce Ontologie a bazy danych Sieć Semantyczna Inteligentne dane 3. Zastosowania
Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud
Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji
Kryteria ocen z języka polskiego dla klasy V szkoły podstawowej
Kryteria ocen z języka polskiego dla klasy V szkoły podstawowej 1. Kształcenie literackie i kulturalne: Ocena dopuszczająca- uczeń: - poprawnie czyta i wygłasza tekst poetycki - wyodrębnia elementy świata
Institution data management
Institution data management Qulto user manual - Instrukcja obsługi Qulto Site: Qulto support Course: Qulto user manual - Instrukcja obsługi Qulto Book: Institution data management Printed by: Test Man
SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu
SI w procesach przepływu i porządkowania informacji Paweł Buchwald Wyższa Szkoła Biznesu Początki SI John MC Carthy prekursor SI Alan Thuring pomysłodawca testu na określenie inteligencji maszyn Powolny
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Zautomatyzowane tworzenie korpusów błędów dla języka polskiego
Zautomatyzowane tworzenie korpusów błędów dla języka polskiego Marcin Miłkowski Instytut Filozofii i Socjologii PAN Zakład Logiki i Kognitywistyki Adres projektu: morfologik.blogspot.com Korpusy błędów
Wymagania edukacyjne z języka polskiego. dla klasy III gimnazjum
Wymagania edukacyjne z języka polskiego dla klasy III gimnazjum PO UKOŃCZENIU KLASY III UCZEŃ POWINIEN UMIEĆ : -wyróżnić czasowniki w formie osobowej i nieosobowej, określić formy gramatyczne, odmienić
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Architektura Systemu. Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu.
Architektura Systemu Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu. Architektura jest zbiorem decyzji dotyczących: organizacji systemu komputerowego,
Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników
Uniwersytet Mikołaja Kopernika w Toruniu Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Tomasz Kapelak Nr albumu: 187404 Praca magisterska na kierunku Informatyka
Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)
Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Ewa Wołoszko Praca pisana pod kierunkiem Pani dr hab. Małgorzaty Doman Plan tego wystąpienia Teoria Narzędzia
Zapytanie ofertowe nr 1/2016
to Zapytanie ofertowe nr 1/2016 z dnia 11052016 Espeo Software Sp z oo 2 Zapytanie ofertowe nr 1/2016 z dnia 11052016 Zapytanie ofertowe nr 1/2016 z dnia 11052016 Zamawiający: Espeo Software Sp z oo Adres:
Instrukcja Użytkownika
Instrukcja Użytkownika Systemu Antyplagiatowego Plagiat.pl System Plagiat.pl jest narzędziem informatycznym służącym do porównywania dokumentów tekstowych. Wytypowani przez władze uczelni Użytkownicy,
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Analiza egzaminu z języka angielskiego w roku szkolnym 2013/2014.
Analiza egzaminu z języka angielskiego w roku szkolnym 2013/2014. Opracowała: Monika Mikocka Analiza egzaminu z języka angielskiego w roku szkolnym 2013/2014 I. Do egzaminu pisemnego z języka angielskiego
Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013 http://www.wilno.uwb.edu.
SYLLABUS na rok akademicki 01/013 Tryb studiów Studia stacjonarne Kierunek studiów Informatyka Poziom studiów Pierwszego stopnia Rok studiów/ semestr /3 Specjalność Bez specjalności Kod katedry/zakładu
Z punktu widzenia kognitywisty: język naturalny
Z punktu widzenia kognitywisty: język naturalny Wykład I: Czym jest język? http://konderak.eu/pwk13.html Piotr Konderak kondorp@bacon.umcs.lublin.pl p. 205, Collegium Humanicum konsultacje: czwartki, 11:10-12:40
II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych
II cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych 18-20 maja 2015 roku Politechnika Wrocławska, Centrum Kongresowe,
Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)
Zagadnienia (1/3) Rola modelu systemu w procesie analizy wymagań (inżynierii wymagań) Prezentacja różnego rodzaju informacji o systemie w zależności od rodzaju modelu. Budowanie pełnego obrazu systemu
Narzędzia do automatycznej analizy odniesień w tekstach
CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl
Planowanie przestrzenne
Planowanie przestrzenne Powszechny, szybki dostęp do pełnej i aktualnej informacji planistycznej jest niezbędny w realizacji wielu zadań administracji publicznej. Digitalizacja zbioru danych planistycznych
Instrukcja przygotowania pliku do deponowania
Instrukcja przygotowania pliku do deponowania Etapy przygotowania pliku Przygotowanie pliku w formacie PDF Uzupełnienie metadanych w dokumencie Nadanie nazwy pliku PDF Format tekstowy pliku PDF Uporządkowanie
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Zobacz jak wygląda Serwis po zalogowaniu.
Zobacz jak wygląda Serwis po zalogowaniu Strona główna Cztery moduły Serwisu WZORY HARMONOGRAMY tu znajdować się będą wzory i formularze stosowane w środowiskowych postępowaniach administracyjnych przez
Spis treści. 1: Wyszukiwanie elementu : Do linii modelu : Powiel arkusze : Długość kabla : Rozmieszczenie widoków...
Co nowego 2018 R2 Spis treści NOWOŚCI... 5 1: Wyszukiwanie elementu... 5 2: Do linii modelu... 6 3: Powiel arkusze... 7 4: Długość kabla... 8 5: Rzędne poziomów... 9 ULEPSZENIA... 10 1: Połączenie z Excel...
CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych
wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii Językowej
SPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
Instrukcja obsługi dla studenta
Instrukcja obsługi dla studenta Akademicki System Archiwizacji Prac (ASAP) to nowoczesne, elektroniczne archiwum prac dyplomowych zintegrowane z systemem antyplagiatowym Plagiat.pl. Student korzystający
1. Szybko o MSA dla narzędzi pomiarowych.
1. Szybko o MSA dla narzędzi pomiarowych. Podczas wykonywania analizy MSA najważniejsze jest ustalenie, jakie badania w ramach analizy będą wykonywane. Odbywa się to podczas tworzenia nowej analizy MSA.
Co wylicza Jasnopis? Bartosz Broda
Co wylicza Jasnopis? Bartosz Broda Analiza języka polskiego Ekstrakcja tekstu Dokument narzędzie do mierzenia zrozumiałości Analiza morfologiczna Analiza morfosyntaktyczna Indeksy Klasa trudności:
Analiza danych tekstowych i języka naturalnego
Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach
W poszukiwaniu sensu w świecie widzialnym
W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały
Świat rzeczywisty i jego model
2 Świat rzeczywisty i jego model Świat rzeczywisty (dziedzina problemu) Świat obiektów (model dziedziny) Dom Samochód Osoba Modelowanie 3 Byty i obiekty Byt - element świata rzeczywistego (dziedziny problemu),
Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki
Analiza leksykalna 1 Teoria kompilacji Dr inż. Janusz Majewski Katedra Informatyki Zadanie analizy leksykalnej Kod źródłowy (ciąg znaków) Analizator leksykalny SKANER Ciąg symboli leksykalnych (tokenów)