Eksploracja Zasobów Internetu

Podobne dokumenty
Eksploracja Zasobów Internetu

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search

Nr Tytuł Przykład Str.

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA

Wykaz skrótów 17. Grafia pierwszej edycji Księgi Syracha wobec druków z pierwszej połowy XVI wieku 19. Grafia pierwszej edycji Księgi Syracha 21

Poznajemy różne formy rzeczownika odmieniamy rzeczownik przez przypadki

Wykład 6 Kategorie morfologiczne

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Lokalizacja Oprogramowania

Kategorie gramatyczne polszczyzny

Lekcja V I.3.7 I.3.8 I.3.9

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Wymagania edukacyjne z języka polskiego w klasie VI Szkoły Podstawowej nr 1 im. Jana Pawła II w Czerwionce - Leszczynach

Tydzień 8 Podręcznik Zeszyt Ćwiczeń Funkcje Językowe Gramatyka Pisanie Poniedziałek Zeszyt Ćwiczeń Co lubisz robić? Czym się interesujesz?

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

43. Narzędnik Liczba mnoga

Gramatyka. języka rosyjskiego z ćwiczeniami

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

System Korekty Tekstu Polskiego

Współczesne moduły automatycznego sprawdzania pisowni dla języka polskiego i angielskiego

Marcin Miłkowski IFiS PAN

Text mining w programie RapidMiner Michał Bereta

Wyszukiwanie w repozytoriach tekstowych w języku polskim

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Kategorie imienne polszczyzny

Full Text Search. Study Group Tomasz Libera

Warszawa. Indeksowanietreściwteoriipraktyce. warsztaty

Narzędzia do automatycznego wydobywania kolokacji

Wykład 9 Kategoria przypadka

AUTOMATYKA INFORMATYKA

Eksploracja Zasobów Internetu

Grupowanie wyników zapytań do wyszukiwarek internetowych

Reprezentacja dokumentów tekstowych w modelu przestrzeni wektorowej

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK NIEMIECKI Klasa I technikum i liceum

POZYCJONOWANIE STRONY SKLEPU

Wprowadzenie do składni

Wyszukiwanie tekstów

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Open Access w technologii językowej dla języka polskiego

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

System Korekty Tekstu Polskiego

Wstęp do Językoznawstwa

3. Cele sformułowane w języku ucznia: dowiesz się, czym są przypadki rzeczownika, dowiesz się, jak odmieniać rzeczownik przez przypadki

Analiza znaczeniowa sterowana składnią

Wyszukiwanie dokumentów/informacji

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Darmowy fragment

Wyszukiwanie informacji

Netsprint Search. Koncepcja

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Od CAQDAS do Text Miningu Nowe techniki w analizie danych jakościowych

Metody indeksowania dokumentów tekstowych

baton OR mars 282,000, ,000,000 baton OR mars 283,000,000 WYSZUKIWANIE BOOLOWSKIE

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak

5. FLEKSJA IMIENNA. 1. Rzeczownik i jego kategorie fleksyjne. 2. Liczba

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

NaCoBeZu na co będę zwracać uwagę. Nauka o języku

Kategorie werbalne polszczyzny

Analizator fleksyjny Morfeusz 2

Analiza danych tekstowych i języka naturalnego

1. Opis merytoryczny

Gramatyka opisowa języka polskiego Kod przedmiotu

Księgarnia PWN: Albina Gołubiewa, Magdalena Kuratczyk - Gramatyka języka rosyjskiego z ćwiczeniami. Przedmowa CZASOWNIKI ( )

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Idę drogą tupiąc nogą. Problemy pisowni wyrazów z ą, ę, em, en, om, on

2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. umiejętność budowania poprawnych struktur zdaniowych oraz użycia poznanych

Narzędzia do automatycznego wydobywania kolokacji

JĘZYK ANGIELSKI KL. IV. Wymagania edukacyjne obowiązujące ucznia

Wymagania edukacyjne niezbędne do uzyskania śródrocznych ocen klasyfikacyjnych z języka niemieckiego w klasie VII-ej w roku szkolnym 2017/2018

TEST NAUCZYCIELSKI SUMUJĄCY Z MATERIAŁU DLA KLASY CZWARTEJ SZKOŁY PODSTAWOWEJ OPRACOWANY NA PODSTAWIE PROGRAMU

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

Semantyczne podobieństwo stron internetowych

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

JĘZYK NIEMIECKI. Klasa pierwsza dwie godziny tygodniowo od podstaw

Cele uczenia się Język Niemiecki Poziom A1 Celem nauki języka niemieckiego na poziomie A1 jest nabycie podstawowej sprawności słuchania, mówienia,

ZASTOSOWANIE WYBRANYCH METOD EKSPLORACJI DANYCH DO TWORZENIA STRESZCZEŃ TEKSTÓW PRASOWYCH DLA JEZYKA POLSKIEGO

WYMAGANIA PROGRAMOWE DLA KLASY IV SZKOŁY PODSTAWOWEJ Z PRZEDMIOTU JĘZYK POLSKI NA ROK SZKOLNY 2014/2015

Koncepcja architektury systemu komputerowego wyszukiwania dokumentów w języku polskim przy pomocy zapytań w języku naturalnym

WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI KLASA IV

PROGRAM NAUCZANIA PRZEDMIOTU: JĘZYK POLSKI, POZIOM A1

Personalizacja oraz treści dynamiczne w szablonach

Bazy dokumentów tekstowych

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLASY IV. Szkoła Podstawowa z Oddziałami Integracyjnymi nr 343 im. Matki Teresy z Kalkuty

Przetwarzanie Języka Naturalnego dr inż. Krzysztof Rzecki. Przetwarzanie Języka Naturalnego konspekt (30 godzin) Dr inż.

Biblioteka Wirtualnej Nauki

Wymagania programowe. Konieczny K Podstawowy- P Rozszerzający- R Dopełniający- D

KARTA PRZEDMIOTU. 1. Wypracowanie przez studenta umiejętności budowania poprawnych struktur

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

Pobieranie i przetwarzanie treści stron WWW

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Z punktu widzenia kognitywisty: język naturalny

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

Wymagania edukacyjne z języka niemieckiego w klasie VIII. Nauczyciel: mgr Lucjan Zaporowski. Rozdział 1. Wymagania podstawowe

1 Jednostka słownika: morfem czy słowo?

Transkrypt:

document accents, spacing, etc. stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms

When Google encounters a hyphen ( ) in a query term, e.g., [ e-mail ], it searches for: the term with the hyphen, e.g., e-mail the term without the hyphen, e.g., email the term with the hyphen replaced by a space, e.g., e mail [ e-mail ] matches e-mail, e mail, and email [ e mail ] matches e-mail and e mail http://www.googleguide.com/favorite_results.html

http://www.webpageanalyse.com/dev/stopwords/pl https://pl.wikipedia.org/wiki/wikipedia:stopwords

ad 3. Ściśle mówiąc: Lematyzacja odkrywa formy podstawowe (słownikowe) wyrazów Stemming wyodrębnia rdzenie wyrazów Większość stemmerów nie zapewnia tego, iż tworzone przez nie ciągi liter to rzeczywiste rdzenie wyrazów (lecz hasła) Podział: Stemmery specjalizowane do zastosowań lingwistycznych (generowane rdzenie powinny rzeczywiście odpowiadać rdzeniom w rozumieniu lingwistyki) Stemmery specjalizowane do zastosowań IR (szybkość działania jest zwykle bardzo istotna)

W zastosowaniach IR wystarczy by dla wszystkich wyrazów należących do danego leksemu otrzymać taki sam rdzeń, a jeszcze lepiej: sprowadzić formy wyrazowe pochodzące od jednego leksemu do tego samego hasła, oraz oddzielić formy wyrazowe pochodzących od różnych leksemów przez sprowadzanie do różnych haseł, przy zachowaniu wydajnego (szybkiego) przetwarzania bardzo dużych zbiorów tekstowych. zamiana wszystkich wyrazów w kolekcji na rdzenie (faza wstępnego przetwarzania) zamiana wyrazów zapytania użytkownika na rdzenie (faza wyszukiwania)

W języku polskim, zależnie od części mowy, można wyróżnić odmianę przez: przypadki (tj. mianownik, dopełniacz, celownik, biernik, narzędnik, miejscownik i wołacz), rodzaje (męski, żeński, nijaki, (nie)/męskoosobowy), liczby (pojedynczą i mnogą), osoby (pierwszą: ja, my; drugą: ty, wy; trzecią: on, ona, ono, oni, one), czasy (przeszły, teraźniejszy, przyszły), tryby (oznajmujący, przypuszczający, rozkazujący), strony (czynną, bierną, zwrotną).

Homonimia występuje na różnych poziomach: morfologii (np. dam może być formą czasownika dać lub dopełniaczem liczby mnogiej rzeczownika dama ), słownictwa (np. rola, która może być aktorską lub uprawną), składni (np. zdrada przyjaciela może oznaczać zarówno fakt, że przyjaciel zdradził, jak i to, że został zdradzony). Polisemia dotyczy wieloznaczności wielu znaczeń tego samego leksemu, a nie różnych leksemów ( zamek w drzwiach, a w spodniach)

Pierwszy skuteczny algorytm dla angielskiego - Lovin s stemmer (1968) stemmer jednoprzebiegowy, wykorzystujący tablicę 250 możliwych podstawień końcówek oraz dodatkowy etap postprocessingu był projektowany jako uniwersalny Obecnie najpopularniejszy stemmer Porter s stemmer (1971), specjalizowany dla IR, wieloprzebiegowy, nie generuje poprawnych językowo rdzeni Inne Krovets (1993) trójprzebiegowy stemmer wyłącznie fleksyjny, Dawson (1974) poprawiona wersja stemmera Lovins, zawiera tablicę 1200 podstawień, Paice/Husk (1990) stemmer oparty na dopasowywaniu reguł, nie ma ograniczenia na liczbę kroków podstawień

http://nlp.stanford.edu/ir-book/html/htmledition/stemming-and-lemmatization-1.html

Za: D. Weiss, 2001

Lematyzatory dla języka polskiego Morfeusz (analizator morfologiczny) Marcina Wolińskiego Oferuje słownikowe metody hasłowania i oznaczania części mowy (ang. POS-Tagging) SAM-95 (analizator morfologiczny) Krzysztofa Szafrana Lametyzator Dawida Weissa oprócz lematów zwraca on równieź informację gramatyczną (dla wyrazów ze słownika Ispell, które taką informację mają) Stempel Andrzeja Białeckiego algorytm regułowy Stempelator Dawida Weissa połączenie Lametyzatora z algorytmem Stempel (algorytm hybrydowy) TaKIPI Macieja Piaseckiego, Grzegorza Godlewskiego, Adama Radziszewskiego, Bartosza Brody i Adama Wardyńskiego Przyporządkowuje opis morfo-syntaktyczny do wyrazów w zdaniu i określa znaczenia poszczególnych wyrazów LEMOT Tomasza Dragosza algorytm hybrydowy stworzony na potrzeby lematyzacji słów pozasłownikowych

ad 4.(wybór jednostek indeksujących) automatyczna selekcja rzeczowników lub grup rzeczownikowych ma na celu wyłonienie jednostek indeksujących o jak największej semantyce. W przypadku grup jednostki indeksujące przestają być pojedynczymi słowami kluczowymi. Grupy rzeczowników mogą być identyfikowane automatycznie jako zbiory rzeczowników oddalonych od siebie w tekście o nie więcej niż zadaną liczbę pozycji (np. 3) lub z wykorzystaniem informacji lingwistycznej Potencjalny problem: konieczność kosztownej analizy semantycznej POS tagging (ang. Part Of Speech tagging), np.: N - proper nouns; X - function words including articles and prepositions extended biword - any string of terms of the form NX*N renegotiation of the constitution renegotiation constitution N X X N NN

ad 5.(budowa tezaurusa) w najprostszej formie słownik taki składa się z: utworzonej jednorazowo (z góry) listy słów istotnych w danej dziedzinie, list słów związanych ze słowami listy powyżej (często są to po prostu listy synonimów) W ogólnym przypadku słownik taki może zawierać jednostki bardziej złożone niż słowa (np. frazy) i organizować je jednocześnie w hierarchiczną strukturę kategorii

Metody opracowania słownika: Słowniki ręcznie utrzymywane przez edytorów WordNet http://wordnet.princeton.edu, itp. Słowniki tworzone automatycznie (na zasadzie obserwacji współwystępowania słów) por. modele IR: model fuzzy Analiza zapytań użytkowników wyszukiwarek (query log mining)

Możliwe zastosowania: - wyłonienie jednostek indeksujących - wspomaganie użytkownika w formułowaniu zapytań - tzw. query expansion, query narrowing Specjalistyczne bazy danych (np. medyczne) Ogólne systemy wyszukiwawcze w Internecie? budowa tezaurusa a lokalność kontekstu

Rozszerzanie zapytań (ang. query expansion) Dodawanie do zapytania podobnych słów Cel: poprawa kompletności (recall) odpowiedzi systemu IR Często realizowane bez udziału użytkownika Adresuje problem synonimów, ale nie polisemii słów

Zawężanie zapytań (ang. query narrowing, query refinement) Sugerowanie użytkownikowi (kilku) wariantów bardziej szczegółowych zapytań (podpowiadanie dodatkowych słów) Cel: poprawa precyzji (precision) odpowiedzi systemu IR Użytkownik wybiera czy skorzystać z podpowiedzi /i której Adresuje zarówno problem synomimów jak i polisemii