Wyszukiwanie dokumentów/informacji

Podobne dokumenty
Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Wyszukiwanie tekstów

Bazy dokumentów tekstowych

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search

Wstęp do przetwarzania języka naturalnego

Eksploracja złożonych typów danych Text i Web Mining

Architektury Usług Internetowych. Wyszukiwanie usług w systemie BeesyCluster

Model zaszumionego kanału

Systemy Wspomagania Decyzji

Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym

Text mining w programie RapidMiner Michał Bereta

Metody indeksowania dokumentów tekstowych

O szukaniu sensu w stogu siana

Grupowanie danych. Wprowadzenie. Przykłady

Warszawa. Indeksowanietreściwteoriipraktyce. warsztaty

TEORETYCZNE PODSTAWY INFORMATYKI

Technologie Informacyjne

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Od CAQDAS do Text Miningu Nowe techniki w analizie danych jakościowych

REGULAMIN przyznawania nauczycielom akademickim nagród Rektora Politechniki Opolskiej

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

SPOTKANIE 2: Wprowadzenie cz. I

STYPENDIA DOKTORANCKIE

W poszukiwaniu sensu w świecie widzialnym

REGULAMIN PRZYZNAWANIA NAGRÓD REKTORA POLITECHNIKI KRAKOWSKIEJ NAUCZYCIELOM AKADEMICKIM

REGULAMIN PRZYZNAWANIA NAGRÓD REKTORA POLITECHNIKI KRAKOWSKIEJ NAUCZYCIELOM AKADEMICKIM (Tekst jednolity)

Poprawianie pisowni. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6. Korekta pisowni: odległość Levenshteina (166 / 188)

Analiza danych tekstowych i języka naturalnego

ZARZĄDZENIE NR 20/2014

REPREZENTACJA I WYSZUKIWANIE DOKUMENTÓW TEKSTOWYCH W BAZACH DANYCH

OPTYMALIZACJA SCHEMATU WAŻENIA TERMINÓW DLA MODELU WEKTOROWEGO TERM FREQUENCY OPTIMIZATION FOR THE VECTOR SPACE MODEL

TEXT MINING W ANALIZIE ZBIORÓW PUBLIKACJI NAUKOWYCH TEXT MINING IN ANALYSIS OF SCIENTIFIC PUBLICATIONS

Zarządzenie Nr 115/2012. Rektora Uniwersytetu Jana Kochanowskiego w Kielcach. z dnia 20 grudnia 2012 r.

1 Zbiory i działania na zbiorach.

Macierze. Rozdział Działania na macierzach

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Analiza znaczeniowa sterowana składnią

ARKUSZ OCENY OKRESOWEJ NAUCZYCIELA AKADEMICKIEGO ZATRUDNIONEGO NA STANOWISKU DYDAKTYCZNYM ...

Nowy wymiar jakości danych w ubezpieczeniach. Wojciech Partyka

Indeksowanie full text search w chmurze

Regulamin w sprawie zasad i trybu przyznawania nagród Rektora nauczycielom akademickim w Szkole Głównej Gospodarstwa Wiejskiego w Warszawie

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Przetwarzanie Języka Naturalnego dr inż. Krzysztof Rzecki. Przetwarzanie Języka Naturalnego konspekt (30 godzin) Dr inż.

UKŁADY RÓWNAŃ LINIOWYCH -Metody dokładne

Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski

Stosowana Analiza Regresji

Zaawansowane metody numeryczne

Elementy inteligencji obliczeniowej

Dydaktyka matematyki (II etap edukacyjny) II rok matematyki Semestr letni 2018/2019 Ćwiczenia nr 7

UCHWAŁA NR 5/2010 SENATU KOLEGIUM KARKONOSKIEGO W JELENIEJ GÓRZE z dnia 22 lutego 2010 roku

OCENIANIE WYPOWIEDZI PISEMNYCH

3. Macierze i Układy Równań Liniowych

Procedura weryfikacji prac licencjackich, inżynierskich i magisterskich przez Uczelniany System Antyplagiatowy

Matematyczne Podstawy Informatyki

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

Zastosowania obliczeń inteligentnych do wyszukiwania w obrazowych bazach danych

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

WZÓR SPRAWOZDANIA Z OCENY OKRESOWEJ PRACOWNIKA NAUKOWO-DYDAKTYCZNEGO ORAZ PRACOWNIKA DYDAKTYCZNEGO NA WYDZIALE.UKSW W ROKU AKADEMICKIM..

REGULAMIN PRZYZNAWANIA NAGRÓD REKTORA POLITECHNIKI ŁÓDZKIEJ NAUCZYCIELOM AKADEMICKIM

Uchwała nr 89 (2008/2009) Senatu Uniwersytetu Ekonomicznego w Poznaniu z dnia 24 kwietnia 2009 roku

L A TEX krok po kroku

Zwiększenie udziału osób dorosłych w kształceniu w zakresie narzędzi informatycznych i technologii NITKA

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

Zarządzenie 46/2011/2012 Rektora Uniwersytetu Kazimierza Wielkiego z dnia 28 lutego 2012 r.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Pracownicy Uniwersytetu Śląskiego w Katowicach będący nauczycielami akademickimi mogą otrzymywać nagrody Rektora, zwane dalej nagrodami.

Znaczenie słowa. N szkoła {Szkoła}

ZARZĄDZENIE NR 32 Rektora Uniwersytetu Przyrodniczego w Lublinie z dnia 16 czerwca 2017 r.

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Hierarchiczna analiza skupień

1. Grupowanie Algorytmy grupowania:

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Wojskowa Akademia Techniczna

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Uchwała nr 155/2016 Senatu Uniwersytetu Medycznego im. Karola Marcinkowskiego w Poznaniu z dnia 28 września 2016 roku

Zarządzenie Rektora Uniwersytetu im. Adama Mickiewicza w Poznaniu

b) Ministra właściwego do spraw wewnętrznych - w odniesieniu do uczelni służb państwowych;

Komisja oceniająca 2. Cele programu stypendialnego 3. Warunki i kryteria przyznawania stypendiów

Oświadczenia pracownicze

AUTOMATYKA INFORMATYKA

Wprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze

Zgłoszenie udziału w projekcie

Metoda list prostych Wykład II. Agnieszka Nowak - Brzezińska

Wykład 6. Metoda eliminacji Gaussa: Eliminacja z wyborem częściowym Eliminacja z wyborem pełnym

Uchwała Nr Senatu Uniwersytetu Medycznego we Wrocławiu z dnia 17 grudnia 2014r.

ROZPORZĄDZENIE MINISTRA NAUKI I SZKOLNICTWA WYŻSZEGO 1) z dnia 14 września 2011 r.

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego

Zarządzenie nr 17 Rektora Uniwersytetu Przyrodniczego w Lublinie z dnia 16 kwietnia 2018 r.

Rozwiązywanie układów równań liniowych

System EwOs. Ewidencja Osiągnięć. nauczycieli akademickich Uniwersytetu im. Adama Mickiewicza w Poznaniu. Pierwsze kroki

Transkrypt:

Wyszukiwanie dokumentów/informacji Wyszukiwanie dokumentów (ang. document retrieval, text retrieval) polega na poszukiwaniu dokumentów tekstowych z pewnego zbioru, które pasują do zapytania. Wyszukiwanie informacji (ang. information retrieval) jest bardziej ogólnym pojęciem dokumenty mogą być multimedialne, wyszukiwanie dotyczy także metadanych itd. Wyłuskiwanie informacji (ang. information extraction) polega na wypełnianiu formularzy z polami typu kto, gdzie, kiedy, jak, za ile itp. na podstawie informacji w zapisanych w języku naturalnym w dokumentach. Wyszukiwanie dokumentów często poprzedza wyszukiwanie informacji, a także odpowiadanie na pytania. Najpierw chcemy wiedzieć, gdzie jest informacja, potem ją analizujemy. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (208 / 222)

Model przestrzeni wektorowej Jest to przykład bardziej ogólnego modelu worka słów (ang. bag of words) modelu, w którym znaczenie dokumentu wynika ze złożenia znaczeń występujących w nich słów. Kolejność słów i kontekst ich występowania nie ma znaczenia. Zbiory słów reprezentowane są przez wektory w przestrzeni wielowymiarowej jeden wymiar to jedno słowo.. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (209 / 222)

Model przestrzeni wektorowej Dokumenty i zapytanie opisywane są przez wektory wag słów. W najprostszym podejściu elementy wektora są równe 1, gdy dane słowo występuje w dokumencie, 0 w przeciwnym przypadku. dj = (t 1,j, t 2,j,..., t N,j ) qk = (t 1,k, t 2,k,..., t N,k ) sim( q k, d j ) =. Nauczyciele akademiccy mogą otrzymywać za osiągnięcia naukowe, dydaktyczne lub organizacyjne albo za całokształt dorobku nagrody rektora oraz nagrody ministra właściwego do. spraw szkolnictwa wyższego. N t i,k t i,j = q k d j i=1 0 agentura 0 akademia 1 akademicki 0 akord 0 aktywista 0 alarm 1 albo 0 alert Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (210 / 222)

Model przestrzeni wektorowej Wagi można ulepszyć zastępując je np. częstością użycia danego słowa w danym dokumencie/zapytaniu. Otrzymujemy wówczas: dj = (w 1,j, w 2,j,..., w N,j ) qk = (w 1,k, w 2,k,..., w N,k ), sim( q k, d j ) = N w i,k w i,j = k q d j gdzie w i,j jest wagą (tu równą częstości) słowa i w dokumencie j.. Nauczyciele akademiccy zatrudnieni w uczelni wojskowej, uczelni służb państwowych, uczelni artystycznej, uczelni morskiej 2 nagrody lub uczelni medycznej mogą otrzymywać 5 uczelnia za osiągnięcia naukowe, dydaktyczne lub organizacyjne albo za całokształt dorobku 4 w nagrody rektora oraz nagrody właściwego ministra wskazanego w art. 33 ust. 2, na 2 za zasadach. i w trybie określonych w ust. 3 7. i=1 Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (211 / 222)

Model przestrzeni wektorowej Wagi będące częstościami użycie słów w dokumencie kładą zbyt wielki nacisk na liczbę wystąpień. Im dłuższy dokument, tym ważniejszy. Dlatego wektor wag słów poddaje się normalizacji dzieląc wagi przez jego długość, N czyli przez i=1 w2 i. Wówczas podobieństwo: sim( q k, d j ) = N i=1 t i,k t i,j N N i=1 q2 i i=1 d2 i = qk d j q k d j jest cosinusem kąta między wektorami jednostkowymi zapytania i dokumentu (lub dwóch dokumentów). Jeśli jest równe jeden, to dokumenty sa identyczne, jeśli zero niezależne (prostopadłe). Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (212 / 222)

Model przestrzeni wektorowej Częstość użycia poszczególnych słów w danym dokumencie nie oddaje ich wagi. Słowa, które występują w wielu dokumentach są mniej ważne niż te, które występują w nielicznych. Waga odwróconej częstotliwości występowania w dokumentach (ang. inverse document frequency) jest zdefiniowana jako: idf i = log( N n i ) gdzie n i to liczba dokumentów, w których występuje słowo i, a N to całkowita liczba dokumentów w zbiorze. Połączenie tej wagi z wagą częstości występowania słowa w dokumencie daje nam: w i,j = tf i,j idf i Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (213 / 222)

Wagi zapytania Zapytania na ogół wcale nie przypominają dokumentów. Dlatego do obliczania wagi występującej w nich słów lepiej jest używać innych algorytmów. Salton i Bukley polecają następujący wzór, w którym max j tf j,k oznacza częstość występowania najczęstszego słowa w zapytaniu k: ( w i,k = 0.5 + 0.5 tf ) i,k idf i max i tf j,k Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (214 / 222)

Wybór indeksowanych słów Najczęściej występujące w dokumentach (i zapytaniach) słowa (ang. stop words) mają niewielki wpływ (z powodu małej wagi) na znalezienie dokumentu, natomiast zajmują miejsce w plikach indeksowych, dlatego się je z tych plików usuwa. Dla zapytań w języku angielskim lematyzacja (sprowadzenie formy odmienionej słowa do wyrazu hasłowego) często nie poprawia jakości wyszukiwania (bywa wręcz odwrotnie). Jednak dla języków z bogatą fleksją, a więc dla języków słowiańskich, lematyzacja pozwala na zwiększenie kompletności wyszukiwania i na wydatne zmniejszenie objętości plików indeksowych. Dla języków aglutynacyjnych jest wręcz konieczna. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (215 / 222)

Wykorzystanie informacji zwrotnej Prosimy użytkownika o zaznaczenie tych z dokumentów przedstawionych mu jako odpowiedź na zapytanie, które uznaje za związane z zapytaniem. Następnie tworzymy nowe zapytanie używając innych wag. Chcemy odepchnąć wektor zapytania od niewłaściwych dokumentów w stronę tych właściwych. Uzyskujemy to przez dodanie uśrednione wektora dla właściwych dokumentów i odjęcie uśrednionego wektora dla dokumentów niewłaściwych. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (216 / 222)

Wykorzystanie informacji zwrotnej Niech q i reprezentuje wektor wag oryginalnego zapytania, R liczbę dokumentów dotyczących pytania, S liczbę dokumentów niezwiązanych z pytaniem. Niech γ i β przyjmują wartości należące do przedziału < 0, 1 > oraz γ + β = 1. Wówczas: q i+1 = q i + β R R rj γ S Salton i Buckley osiągnęli dobre wyniki dla wartości β = 0.75 i γ = 0.25. j=1 S k=1 sk Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (217 / 222)

Rozszerzenie zapytania Oryginalne pytanie można rozszerzyć używając słownika wyrazów bliskoznacznych (ang. thesaurus). Zamiast stosować zwykły słownik wyrazów bliskoznacznych, można taki utworzyć samodzielnie poprzez grupowanie słów (ang. term clustering). Można to zrobić jednokrotnie dla całego zbioru dokumentów lub na podstawie dokumentów uznanych przez użytkownika za związane z pytaniem. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (218 / 222)

Dodatkowe materiały nt. wyszukiwania dokumentów/informacji Dobrym źródłem są oba wymienione we wstępie podręczniki oraz materiały serii konferencji MUC (dostępne przez ACL Anthology). Poza tym:.1 Gerard Salton, James Allan, Chris Buckley, Amit Singhal, Automatic Analysis, Theme Generation, and Summarization of Machine-Readable Texts, Science, vol. 264, 3 June 1994..2 Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008..3 Stefan Büttcher, Charles L. A. Clarke, Gordon V. Cormack, Information Retrieval. Implementing and Evaluating Search Engines, MIT Press, 2010. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (219 / 222)

Miary (1/2) Kompletność (ang. recall) jest miarą tego, jak wiele istotnych danych zostało wyłuskanych z tekstu: Kompletność = Liczba prawidłowych odp. dostarczonych przez system Liczba możliwych prawidłowych odp. w tekście Dokładność (ang. precision, accuracy) jest miarą poprawności odpowiedzi dostarczonych przez system: Dokładność = Liczba prawidłowych odp. dostarczonych przez system Liczba odp. dostarczonych przez system Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (220 / 222)

Miary (2/2) Miara F (ang. F-measure, F-score) łączy kompletność z dokładnością (β jest parametrem): Miara F = (β2 + 1) Dokładność Kompletność β 2 Dokładność + Kompletność Pokrycie (ang. coverage) to udział elementów, dla których system udzielił odpowiedzi (poprawnej lub nie), w ogólnej ich liczbie: Pokrycie = Liczba elementów, dla których system może dostarczyć odp. Liczba wszystkich elementów Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (221 / 222)

Przykłady miar prawda system 1 V,N V,N 2 V V,N 3 V,A V,N 4 V,N N 5 N V 6 V,N,A V,N 7 A - kompletność = 7/(7+4) 63.64% dokładność = 7/(7+3) = 70.0% pokrycie = 6/7 85.71% β 1/2 1 2 F 245/357 98/147 245/378 68.63% 66.67% 64.81% Dla ostatniego elementu system nie mógł zostać zastosowany. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 8. Wyszukiwanie dokumentów/informacji (222 / 222)