Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Podobne dokumenty
CLARIN rozproszony system technologii językowych dla różnych języków europejskich

AUTOMATYKA INFORMATYKA

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Lokalizacja Oprogramowania

Zapytanie ofertowe nr 1/2016

Program warsztatów CLARIN-PL

Semantyczne podobieństwo stron internetowych

Open Access w technologii językowej dla języka polskiego

Narzędzia do automatycznego wydobywania kolokacji

Temat: Mechanizm uczenia się ograniczeń składniowych na potrzeby ujednoznaczniania morfo-syntaktycznego tekstów w języku polskim.

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Narzędzia do automatycznego wydobywania kolokacji

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Bieżący sylabus w semestrze zimowym roku 2016/17

Metadane. Przykry obowiązek czy przydatny zasób?

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Semantyczny Monitoring Cyberprzestrzeni

Metody indeksowania dokumentów tekstowych

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Wyszukiwanie informacji w internecie. Nguyen Hung Son

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Przetwarzanie Języka Naturalnego dr inż. Krzysztof Rzecki. Przetwarzanie Języka Naturalnego konspekt (30 godzin) Dr inż.

Analiza danych tekstowych i języka naturalnego

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Widzenie komputerowe (computer vision)

Semantic Web Internet Semantyczny

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

3 grudnia Sieć Semantyczna

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Gramatyka kontrastywna polsko-angielska. III rok filologii angielskiej studia niestacjonarne I stopnia, semestr II. Profil ogólnoakademicki

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Oprogramowanie typu CAT

Od CAQDAS do Text Miningu Nowe techniki w analizie danych jakościowych

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Metody Kompilacji Wykład 1 Wstęp

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Podstawy programowania. Wprowadzenie

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Kompetencje informacyjne jako element założeń programowych KRK dla szkolnictwa wyższego oferta BGPW. Oddział Informacji Naukowej BG PW

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Plan wykładu. Kompilatory. Literatura. Translatory. Literatura Translatory. Paweł J. Matuszyk

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Rok akademicki: 2012/2013 Kod: EAR s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK

POZYCJONOWANIE STRONY SKLEPU

SYLLABUS. Gramatyka kontrastywna 1 i 2

SYLLABUS. Gramatyka kontrastywna

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Systemy GIS Systemy baz danych

KIERUNKOWE EFEKTY KSZTAŁCENIA

SYLLABUS. Leksykologia i leksykografia

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Semantyczna analiza języka naturalnego

KARTA KURSU. Internet jako narzędzie pracy infobrokera. The use of internet in information brokerage. Kod Punktacja ECTS* 2

Specjalnościowy Obowiązkowy Polski Semestr VI

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Grupy pytań na egzamin magisterski na kierunku Informatyka (dla studentów niestacjonarnych studiów II stopnia)

KARTA KURSU. Przetwarzanie dokumentów XML i zaawansowane techniki WWW

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Wykład Ćwiczenia Laboratorium Projekt Seminarium

Języki deskryptorowe. Dr Marek Nahotko

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

WYKŁAD. Jednostka prowadząca: Wydział Techniczny. Kierunek studiów: Elektronika i telekomunikacja. Nazwa przedmiotu: Język programowania C++

Egzamin / zaliczenie na ocenę*

Grupy pytań na egzamin magisterski na kierunku Informatyka (dla studentów dziennych studiów II stopnia)

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

PRZEWODNIK PO PRZEDMIOCIE. Filologia specjalność język biznesu angielski

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Ontologie, czyli o inteligentnych danych

Analiza znaczeniowa sterowana składnią

Spis treści. Przedmowa

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

Co to jest jest oprogramowanie? 8. Co to jest inżynieria oprogramowania? 9. Jaka jest różnica pomiędzy inżynierią oprogramowania a informatyką?

SZCZEGÓŁOWE KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO I ANGIELSKIEGO. Klasy IV-VIII. Szkoła Podstawowa w Zdunach

Czym jest Java? Rozumiana jako środowisko do uruchamiania programów Platforma software owa

UCHWAŁA NR 46/2013. Senatu Akademii Marynarki Wojennej im. Bohaterów Westerplatte z dnia 19 września 2013 roku

Imagination Is More Important Than Knowledge

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Co wylicza Jasnopis? Bartosz Broda

Projektowanie oprogramowania

Wprowadzenie. Organizacja pracy i środowisko programistyczne. Mirosław Ochodek

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Język opisu sprzętu VHDL

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1

Biblioteka Wirtualnej Nauki

CLARIN infrastruktura naukowa technologii językowych

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

PRZEWODNIK PO PRZEDMIOCIE

Transkrypt:

WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji oraz technik implementacji wyszukiwarek internetowych jak i znaczące ograniczenia tej technologii. Główny nacisk jest położony na poznanie metod zmierzających do przezwyciężenia tych ograniczeń (elementy inżynierii języka naturalnego i ekstrakcja informacji). Ponadto studenci zostaną zapoznani z istniejącymi metodami dostępu do informacji wielojęzycznej (automatyczne tłumaczenie i wielojęzyczna ekstrakcja informacji). Umiejętności nabywane przez studentów Po ukończeniu kursu studenci będą posiadali niezbędne umiejętności aby: zastosować metody wyszukiwania informacji w sposób dostosowany do postawionego zadania, posłużyć się dostępnymi zasobami i narzędziami językowymi w wyszukiwaniu informacji, zpersonalizować pracę systemu wyszukiwania informacji, uczestniczyć w procesie budowy zasobów językowych, skonstruować niektóre narzędzia językowe, zaprojektować i skonstruować system ekstrakcji informacji dla postawionego zadania, wykorzystać sieć semantyczną w dostępie do informacji tekstowej, skonstruować prosty system automatycznego tłumaczenia, śledzić rozwój metod i technologii dostępu przetwarzania informacji tekstowej. Wymagania wstępne: Zaliczenie kursu: Programowanie obiektowe

Program wykładu 1. Wprowadzenie (1h) 1.1. Morze elektronicznych dokumentów o niedostępnej treści: ograniczone możliwości odnalezienia potrzebnej informacji, ograniczone możliwości poznanie odnalezionej informacji. 1.2. Wyszukiwanie informacji jako technologia stosowana powszechnie. 1.3. Technologie wchodzące do użycia: elementy inżynierii języka naturalnego w wyszukiwaniu, strukturalizacja oparta na XML i sieciach semantycznych, ekstrakcja informacji, automatyczne tłumaczenie,... 2. Elementy wyszukiwania informacji (Information/Document Retrieval) (9h) 2.1. Podstawowe pojęcia, zadania i kryteria oceny (dokładność i kompletność) 2.2. Modele systemów wyszukiwania informacji: model boolowski, model wektorowy, model probabilistyczny. 2.3. Konstrukcja wyszukiwarki internetowej: przyczyny dominacji modelu boolowskiego, metody indeksowania: przedmiot indeksowania, organizacja indeksu (odwrócona lista terminów), języki zapytań, metody rankingu dokumentów odpowiedzi. 2.4. Elementy inżynierii języka naturalnego tokenizacja, analiza morfo-syntaktyczną: steming, konwersja do formy podstawowej, pełny opis, ujednoznacznianie morfo-syntaktyczne, płytki parsing (shallow parsing) i rozpoznawanie fraz, analiza semantyczna w obszarze semantyki leksykalnej: ujednoznacznianie sensów, identyfikacja klas (pól) semantycznych (tezaurus), relacje semantyczne (synonimia, hypernimia, meronimia, troponimia itd.) 2.5. Elementy inżynierii języka naturalnego w poprawie jakości wyszukiwania: identyfikacja form w oparciu o analizę morfo-syntaktyczną, identyfikacja wyrażeń wielosłowowych, identyfikacja dziedziny (poprzez klasy i pola), zawężanie/rozszerzanie zapytania w oparciu o podobieństwo znaczeniowe terminów lub tezaurus automatyczna konstrukcja tezaurusa (typy tezaurusów) 2.6. Personalizacja wyszukiwania: profil użytkownika i jego dynamika, wyszukiwanie dokumentów podobnych do wskazanych.

3. Filtrowanie informacji (2h) 3.1. Możliwości i ograniczenia filtrowania w oparciu o metody wyszukiwania informacji. 3.2. Podobieństwo dokumentów, klasy dokumentów i wsparcie w nawigacji. 3.3. Klastrowanie dokumentów odpowiedzi. 4. Sieci semantyczne (Semantic Networks/Semantic Web) (3h) 4.1. Sieć semantyczna jako rodzaj leksykonu: globalna sieć lokalnych leksykonów specyficznych dla dziedziny, 4.2. Standardy sieci semantycznych, 4.3. Wykorzystanie sieci semantycznych do opisu dokumentów, 4.4. Dokumenty strukturalne. 5. Ekstrakcja informacji (Information Extraction)(4h) 5.1. Cele, sposób formułowania zadania i obszar zastosowania: teksty o charakterze informacyjnym, głównie wydobywanie informacji o zdarzeniach i bytach w nie zaangażowanych, konferencja i konkurs serii MUC (Message Understanding Conference), przykłady systemów i realizacji zadań, ocena istniejących systemów, praktyczne zastosowania, perspektywy rozwoju. 5.2. Zasoby językowe: korpusy (oznaczone/nieoznaczone), zbiory testowe, tokenizatory, słowniki morfo-syntaktyczne, analizatory morfologiczne, tagery (dehomonimizatory), słowniki wyrażeń wielosłowowych, słowniki wzorców wymagań syntaktyczno-składniowych (np. FrameNet), leksykony semantyczne, tezaurusy hierarchiczne: leksemów (np. WordNet), pól semantycznych (np. Roget), gramatyki, bazy wiedzy ogólnej (np. CYC) i dziedzinowej. 5.3. Paradygmaty konstrukcji systemu podejście oparte na inżynierii wiedzy (Knowledge Engineering Approach), podejście oparte na maszynowym uczeniu się (Automatic Training Approach) 5.4. Architektura systemu i dostępne systemy szkieletowe: tokenizacja, przetwarzanie morfologiczne i leksykalne, analiza składniowa, analiza dziedzinowa

5.5. Identyfikacja nazw własnych: metody, rozpoznanie synonimii i klasyfikacja. 5.6. Koreferencja: identyczność referenta, względna lokalizacja w czasie i przestrzeni, różne formy anafory. 6. Analiza dziedzinowa w obrębie IE (4h) 6.1. Wzorce ekstrakcji: ich sformułowanie/pozyskanie, zastosowanie wzorców do wydobycia informacji, 6.2. Paradygmaty konstrukcji wzorców ekstrakcji: podejście molekularne (molecular approach), podejście atomowe (atomic approach). 6.3. Ogólna wiedza lingwistyczna pełny parsing ( głęboki ) i ograniczenia jego zastosowania wzorce parametryczne i ich powiązanie ze specyficznymi dla konkretnego zastosowania. 6.4. Proces ekstrakcji: technologia oparta na transduktorach (maszynach skończenie stanowych), konwersja do postaci wymaganej. 7. Automatyczne tłumaczenie (Machine Translation) w dostępie do informacji (5h) 7.1. Typy systemów: bezpośrednie (direct), oparte na transferze, oparte na języku pośrednim (interlingua) 7.2. Istniejące systemy i ich praktyczne zastosowania. 7.3. Architektura systemu opartego na transferze 7.4. Dodatkowe zasoby językowe: słowniki dwujęzyczne leksemów, słowniki dwujęzyczne wyrażeń wielosłowowych (w tym idiomów). 7.5. Problemy praktyczne stosowania tagerów i parserów. 7.6. Problem wyboru tłumaczenia niejednoznacznych leksemów/wyrażeń. 7.7. Konstrukcja reguł transferu. 7.8. Generacja wypowiedzi w języku docelowym 8. Wybrane metody analizy znaczenia tekstu (2h) 8.1. Ekstrakcja wiedzy (Text Mining=IE + Data Mining). 8.2. Automatyczna generacja słów kluczowych i streszczenia. 8.3. Pełna analiza znaczenia (Text Understanding)

Program laboratorium Zadanie 1 (4h) Konstrukcja systemu wyszukiwania w ograniczonym zbiorze dokumentów w oparciu o model boolowski/wektorowy (do wyboru). Zadanie 2 (4h) Konstrukcja funkcji identyfikującej w zbiorze dokumentów dokumenty podobne do wskazanego/wskazanych. Zadanie 3 (6h) Automatyczna konstrukcja tezaurusa na podstawie dostępnego zbioru dokumentów (wybór metody pozostawiony zostaje studentowi), lub (drugi wariant do wyboru) propozycja i implementacja metody rankingu wyszukanych dokumentów. Zadanie 4 (4h) Budowa programu wspierającego użytkownika w sformułowaniu zapytania właściwego do poszukiwanych dokumentów (dla uproszczenia przyjmujemy założenie ograniczonego zbioru dokumentów). Zadanie 5 (6h) Konstrukcja prostego systemu ekstrakcji informacji dla podanego zadania oraz korpusów tekstów: przykładowych (znanych studentowi) i testowych (nieznanych w trakcie realizacji), na bazie systemu szkieletowego. Zadanie 6 (6h) Budowa prostego systemu automatycznego tłumaczenia dla bardzo ograniczonej dziedziny w oparciu o istniejący parser.