WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji oraz technik implementacji wyszukiwarek internetowych jak i znaczące ograniczenia tej technologii. Główny nacisk jest położony na poznanie metod zmierzających do przezwyciężenia tych ograniczeń (elementy inżynierii języka naturalnego i ekstrakcja informacji). Ponadto studenci zostaną zapoznani z istniejącymi metodami dostępu do informacji wielojęzycznej (automatyczne tłumaczenie i wielojęzyczna ekstrakcja informacji). Umiejętności nabywane przez studentów Po ukończeniu kursu studenci będą posiadali niezbędne umiejętności aby: zastosować metody wyszukiwania informacji w sposób dostosowany do postawionego zadania, posłużyć się dostępnymi zasobami i narzędziami językowymi w wyszukiwaniu informacji, zpersonalizować pracę systemu wyszukiwania informacji, uczestniczyć w procesie budowy zasobów językowych, skonstruować niektóre narzędzia językowe, zaprojektować i skonstruować system ekstrakcji informacji dla postawionego zadania, wykorzystać sieć semantyczną w dostępie do informacji tekstowej, skonstruować prosty system automatycznego tłumaczenia, śledzić rozwój metod i technologii dostępu przetwarzania informacji tekstowej. Wymagania wstępne: Zaliczenie kursu: Programowanie obiektowe
Program wykładu 1. Wprowadzenie (1h) 1.1. Morze elektronicznych dokumentów o niedostępnej treści: ograniczone możliwości odnalezienia potrzebnej informacji, ograniczone możliwości poznanie odnalezionej informacji. 1.2. Wyszukiwanie informacji jako technologia stosowana powszechnie. 1.3. Technologie wchodzące do użycia: elementy inżynierii języka naturalnego w wyszukiwaniu, strukturalizacja oparta na XML i sieciach semantycznych, ekstrakcja informacji, automatyczne tłumaczenie,... 2. Elementy wyszukiwania informacji (Information/Document Retrieval) (9h) 2.1. Podstawowe pojęcia, zadania i kryteria oceny (dokładność i kompletność) 2.2. Modele systemów wyszukiwania informacji: model boolowski, model wektorowy, model probabilistyczny. 2.3. Konstrukcja wyszukiwarki internetowej: przyczyny dominacji modelu boolowskiego, metody indeksowania: przedmiot indeksowania, organizacja indeksu (odwrócona lista terminów), języki zapytań, metody rankingu dokumentów odpowiedzi. 2.4. Elementy inżynierii języka naturalnego tokenizacja, analiza morfo-syntaktyczną: steming, konwersja do formy podstawowej, pełny opis, ujednoznacznianie morfo-syntaktyczne, płytki parsing (shallow parsing) i rozpoznawanie fraz, analiza semantyczna w obszarze semantyki leksykalnej: ujednoznacznianie sensów, identyfikacja klas (pól) semantycznych (tezaurus), relacje semantyczne (synonimia, hypernimia, meronimia, troponimia itd.) 2.5. Elementy inżynierii języka naturalnego w poprawie jakości wyszukiwania: identyfikacja form w oparciu o analizę morfo-syntaktyczną, identyfikacja wyrażeń wielosłowowych, identyfikacja dziedziny (poprzez klasy i pola), zawężanie/rozszerzanie zapytania w oparciu o podobieństwo znaczeniowe terminów lub tezaurus automatyczna konstrukcja tezaurusa (typy tezaurusów) 2.6. Personalizacja wyszukiwania: profil użytkownika i jego dynamika, wyszukiwanie dokumentów podobnych do wskazanych.
3. Filtrowanie informacji (2h) 3.1. Możliwości i ograniczenia filtrowania w oparciu o metody wyszukiwania informacji. 3.2. Podobieństwo dokumentów, klasy dokumentów i wsparcie w nawigacji. 3.3. Klastrowanie dokumentów odpowiedzi. 4. Sieci semantyczne (Semantic Networks/Semantic Web) (3h) 4.1. Sieć semantyczna jako rodzaj leksykonu: globalna sieć lokalnych leksykonów specyficznych dla dziedziny, 4.2. Standardy sieci semantycznych, 4.3. Wykorzystanie sieci semantycznych do opisu dokumentów, 4.4. Dokumenty strukturalne. 5. Ekstrakcja informacji (Information Extraction)(4h) 5.1. Cele, sposób formułowania zadania i obszar zastosowania: teksty o charakterze informacyjnym, głównie wydobywanie informacji o zdarzeniach i bytach w nie zaangażowanych, konferencja i konkurs serii MUC (Message Understanding Conference), przykłady systemów i realizacji zadań, ocena istniejących systemów, praktyczne zastosowania, perspektywy rozwoju. 5.2. Zasoby językowe: korpusy (oznaczone/nieoznaczone), zbiory testowe, tokenizatory, słowniki morfo-syntaktyczne, analizatory morfologiczne, tagery (dehomonimizatory), słowniki wyrażeń wielosłowowych, słowniki wzorców wymagań syntaktyczno-składniowych (np. FrameNet), leksykony semantyczne, tezaurusy hierarchiczne: leksemów (np. WordNet), pól semantycznych (np. Roget), gramatyki, bazy wiedzy ogólnej (np. CYC) i dziedzinowej. 5.3. Paradygmaty konstrukcji systemu podejście oparte na inżynierii wiedzy (Knowledge Engineering Approach), podejście oparte na maszynowym uczeniu się (Automatic Training Approach) 5.4. Architektura systemu i dostępne systemy szkieletowe: tokenizacja, przetwarzanie morfologiczne i leksykalne, analiza składniowa, analiza dziedzinowa
5.5. Identyfikacja nazw własnych: metody, rozpoznanie synonimii i klasyfikacja. 5.6. Koreferencja: identyczność referenta, względna lokalizacja w czasie i przestrzeni, różne formy anafory. 6. Analiza dziedzinowa w obrębie IE (4h) 6.1. Wzorce ekstrakcji: ich sformułowanie/pozyskanie, zastosowanie wzorców do wydobycia informacji, 6.2. Paradygmaty konstrukcji wzorców ekstrakcji: podejście molekularne (molecular approach), podejście atomowe (atomic approach). 6.3. Ogólna wiedza lingwistyczna pełny parsing ( głęboki ) i ograniczenia jego zastosowania wzorce parametryczne i ich powiązanie ze specyficznymi dla konkretnego zastosowania. 6.4. Proces ekstrakcji: technologia oparta na transduktorach (maszynach skończenie stanowych), konwersja do postaci wymaganej. 7. Automatyczne tłumaczenie (Machine Translation) w dostępie do informacji (5h) 7.1. Typy systemów: bezpośrednie (direct), oparte na transferze, oparte na języku pośrednim (interlingua) 7.2. Istniejące systemy i ich praktyczne zastosowania. 7.3. Architektura systemu opartego na transferze 7.4. Dodatkowe zasoby językowe: słowniki dwujęzyczne leksemów, słowniki dwujęzyczne wyrażeń wielosłowowych (w tym idiomów). 7.5. Problemy praktyczne stosowania tagerów i parserów. 7.6. Problem wyboru tłumaczenia niejednoznacznych leksemów/wyrażeń. 7.7. Konstrukcja reguł transferu. 7.8. Generacja wypowiedzi w języku docelowym 8. Wybrane metody analizy znaczenia tekstu (2h) 8.1. Ekstrakcja wiedzy (Text Mining=IE + Data Mining). 8.2. Automatyczna generacja słów kluczowych i streszczenia. 8.3. Pełna analiza znaczenia (Text Understanding)
Program laboratorium Zadanie 1 (4h) Konstrukcja systemu wyszukiwania w ograniczonym zbiorze dokumentów w oparciu o model boolowski/wektorowy (do wyboru). Zadanie 2 (4h) Konstrukcja funkcji identyfikującej w zbiorze dokumentów dokumenty podobne do wskazanego/wskazanych. Zadanie 3 (6h) Automatyczna konstrukcja tezaurusa na podstawie dostępnego zbioru dokumentów (wybór metody pozostawiony zostaje studentowi), lub (drugi wariant do wyboru) propozycja i implementacja metody rankingu wyszukanych dokumentów. Zadanie 4 (4h) Budowa programu wspierającego użytkownika w sformułowaniu zapytania właściwego do poszukiwanych dokumentów (dla uproszczenia przyjmujemy założenie ograniczonego zbioru dokumentów). Zadanie 5 (6h) Konstrukcja prostego systemu ekstrakcji informacji dla podanego zadania oraz korpusów tekstów: przykładowych (znanych studentowi) i testowych (nieznanych w trakcie realizacji), na bazie systemu szkieletowego. Zadanie 6 (6h) Budowa prostego systemu automatycznego tłumaczenia dla bardzo ograniczonej dziedziny w oparciu o istniejący parser.