Semantyczne podobieństwo stron internetowych



Podobne dokumenty
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

AUTOMATYKA INFORMATYKA

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

Analiza danych tekstowych i języka naturalnego

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Text mining w programie RapidMiner Michał Bereta

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

2

ZNACZNIKI META. Znacznik META

Przetwarzanie Języka Naturalnego dr inż. Krzysztof Rzecki. Przetwarzanie Języka Naturalnego konspekt (30 godzin) Dr inż.

POZYCJONOWANIE STRONY SKLEPU

O stronach www, html itp..

Metody indeksowania dokumentów tekstowych

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Pobieranie i przetwarzanie treści stron WWW

Instrukcja Użytkownika

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Uniwersytet Mikołaja Kopernika. Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej

Steganografia w HTML. Łukasz Polak

Lokalizacja Oprogramowania

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Instrukcja interpretacji Raportu podobieństwa serwisu Plagiat.pl

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

System SINUS otwarte narzędzie do budowy bibliograficznych baz danych

POZYCJONOWANIE STRON PORADY

Hosting WWW Bezpieczeństwo hostingu WWW. Dr Michał Tanaś (

POZYCJONOWANIE CHORZÓW >>>WIĘCEJ<<<

Wyszukiwanie informacji

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Informatyka kl. 1. Semestr I

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych

2 Podstawy tworzenia stron internetowych

Tematy magisterskie: Lp. Sugerowany stopień, kierunek studiów oraz specjalność Elektrotechnika Magisterska Dr hab. inż.

Systemy pojedynczego logowania (Single Sign-On)

Proporcje podziału godzin na poszczególne bloki. Tematyka lekcji. Rok I. Liczba godzin. Blok

PROGRAM NAUCZANIA DLA I I II KLASY GIMNAZJUM

POZYCJONOWANIE W WYSZUKIWARKACH APTEK INTERNETOWYCH

Program warsztatów CLARIN-PL

Dokumentacja 2SMS

Uniwersytet Mikołaja Kopernika w Toruniu. Profilowanie ruchu sieciowego w systemie GNU/Linux

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Tajemnice skutecznego wyszukiwania na przykładzie

Monitorowanie i zarządzanie urządzeniami sieciowymi przy pomocy narzędzi Net-SNMP

SPOTKANIE 2: Wprowadzenie cz. I

Grupowanie opisowe dużych repozytoriów danych tekstowych. Grupowanie opisowe

W poszukiwaniu sensu w świecie widzialnym

Przetwarzanie języka naturalnego (NLP)

O szukaniu sensu w stogu siana

Współczesna problematyka klasyfikacji Informatyki

Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat

Internetowa strategia marketingowa

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

PageRank i HITS. Mikołajczyk Grzegorz

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Plan dzisiejszego wykładu. Narzędzia informatyczne w językoznawstwie. XML - Definicja. Zalety XML

Program nauczania przedmiotu uzupełniającego Praktyczne zastosowania informatyki

Strategia SEO. Załącznik B

Tytuł rozprawy: Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych.

Wprowadzenie do technologii XML

Semantyczna analiza języka naturalnego

Sposoby wyszukiwania multimedialnych zasobów w Internecie

METODY INDEKSOWANIA DOKUMENTÓW TEKSTOWYCH W SYSTEMACH WEBOWYCH

Biblioteka Wirtualnej Nauki

Jak podnieść pozycje w Google?

Uniwersytet Łódzki Wydział Matematyki i Informatyki, Katedra Analizy Nieliniowej. Wstęp. Programowanie w Javie 2. mgr inż.

IMIĘ I NAZWISKO... Wykorzystując wyszukiwarkę Google wykonaj poniższe polecenia:

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Matematyczne Podstawy Informatyki

Semantyczny Monitoring Cyberprzestrzeni

XHTML - Extensible Hypertext Markup Language, czyli Rozszerzalny Hipertekstowy Język Oznaczania.

Kurs języka Python Wykład 8. Przetwarzanie tekstu Wyrażenia regularne Biblioteka urllib Parsowanie html'a XML

<html> </html> <body> </body> <p> [</p>] <br> <html> <head> </head> <body> </body> </html> Materiały dydaktyczne 1/5

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Historia kodowania i format plików XML. Jolanta Bachan

STRONY INTERNETOWE mgr inż. Adrian Zapała

Bezpieczeństwo systemów i lokalnej sieci komputerowej

Biblioteka Wirtualnej Nauki

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

Wykrywanie agresywności z polskojęzycznych postów użytkowników sieci socjalnych

Ontologie, czyli o inteligentnych danych

Tematy prac dyplomowych inżynierskich

Ocena nadzoru nad samodzielnością tworzenia prac dyplomowych

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Transkrypt:

Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana pod kierunkiem prof. dra hab. Włodzisława Ducha w Katedrze Informatyki Stosowanej TORUŃ 2008

Spis treści 1 Wprowadzenie 3 1.1 Motywacja............................. 3 1.2 Cel i zakres pracy......................... 3 1.3 Struktura............................. 3 1.4 Konwencje typograficzne..................... 3 2 Znajdowanie informacji w sieci 4 2.1 Wyszukiwarki internetowe.................... 4 2.1.1 Robot internetowy.................... 4 2.1.2 Indeksowanie....................... 4 2.1.3 Ranking.......................... 4 2.1.4 Wizualizacja wyników.................. 4 2.2 Serwisy społecznościowe..................... 4 2.2.1 Grupy wspólnych zainteresowań............. 4 2.3 Eksperymentalne rozwiazania.................. 4 2.3.1 Carrot 2.......................... 4 2.3.2 Clusty........................... 4 2.3.3 Kartoo........................... 4 2.3.4 Mooter........................... 4 3 Klasteryzacja danych 5 3.1 Klasteryzacja dokumentów tekstowych............. 5 3.1.1 Model przestrzeni wektorowej.............. 5 3.2 Automatyczne przetwarzanie dokumentów........... 5 3.2.1 Analiza leksykalna.................... 5 3.2.2 Stoplista.......................... 6 3.2.3 Stemming......................... 6 3.2.4 Wykrywanie fraz..................... 6 3.3 Przegląd metod klasteryzacji................... 6 4 Semantyczny internet 7 1

5 Implementacja 8

Rozdział 1 Wprowadzenie Tu będzie wstęp. Internet semantyczny jest martwy! 1.1 Motywacja 1.2 Cel i zakres pracy 1.3 Struktura 1.4 Konwencje typograficzne 3

Rozdział 2 Znajdowanie informacji w sieci 2.1 Wyszukiwarki internetowe 2.1.1 Robot internetowy 2.1.2 Indeksowanie 2.1.3 Ranking 2.1.4 Wizualizacja wyników 2.2 Serwisy społecznościowe 2.2.1 Grupy wspólnych zainteresowań 2.3 Eksperymentalne rozwiazania 2.3.1 Carrot 2 2.3.2 Clusty 2.3.3 Kartoo 2.3.4 Mooter 4

Rozdział 3 Klasteryzacja danych Klasteryzacja danych (grupowanie, analiza skupień) jest to... 3.1 Klasteryzacja dokumentów tekstowych 3.1.1 Model przestrzeni wektorowej 3.2 Automatyczne przetwarzanie dokumentów Wstępne przetwarzanie dokumentów jest bardzo ważnym etapem w procesie wydobywania informacji. Od jego przebiegu zależy nie tylko ilość zredukowanych cech (termów), ale również celność wybranych terminów. Niektóre z przedstawionych w tym rozdziale technik takich jak analiza leksykalna są koniecznością, natomiast inne, takie jak stemming, są opcjonalne i służą głównie poprawie jakości procesu wyszukiwania. Warto zwrócić uwagę, iż proces wstępnego przetwarzania jest jedyną częścią, w której znaczenie odgrywa język przetwarzanego dokumentu. 3.2.1 Analiza leksykalna Analiza leksykalna jest procesem polegającym na zamianie ciągu znaków na ciąg tokenów (bloków tekstu). Jakość dokonanej analizy znacząco wpływa na efektywność później zastosowanych algorytmów. Teoretycznie, zadanie sprowadza się głównie do rozdzielenia tekstu zgodnie z występującymi w nim znakami białymi i interpunkcyjnymi. Znaki takie jak liczby czy znaki specjalne (przykładowo \, * itp.) z reguły nie wnoszą żadnego znaczenia i mogą zostać usunięte, co więcej, mogą posłużyć jako dodatkowe separatory wyrazów. 5

ROZDZIAŁ 3. KLASTERYZACJA DANYCH 6 Niestety, w praktyce często potrzebujemy dużo bardziej wyrafinowanych metod, gdzie znaki interpunkcyjne pozwolą na rozróżnienie przynależności słów do konkretnych zdań, a liczby pozostaną ważnymi częściami akronimów (np. D2H2 1 ). Techniki używane podczas przetwarzania powinny zostać dobrane pod kontem rodzaju rozpatrywanego dokumentu. W przypadku analizy dokumentów sieci World Wide Web, wyrażanych najczęściej za pomocą języka HTML 2 należy zwrócić szczególną uwagę na konstrukcję dokumentu gdyż jego drzewiasta struktura pozwala na wyróżnienie bardziej reprezentatywnych słów. Wyrazy znajdujące się w tytule strony oraz tagach <META/> nierzadko są cenniejsze niż te występujące w głównej części dokumentu - tagu <BODY>[1, Riboni, 2002]. Znaki specjalne HTML takie jak &nbsp powinny zostać zamienione na ich słowne odpowiedniki i poddane kolejnym etapom przetwarzania. Ostatecznie wszystkie tagi HTML muszą zostać usunięte, gdyż nie niosą ze sobą żadnego znaczenia. 3.2.2 Stoplista 3.2.3 Stemming 3.2.4 Wykrywanie fraz 3.3 Przegląd metod klasteryzacji 1 Distributed Diagnosis and Home Healthcare 2 HyperText Markup Language

Rozdział 4 Semantyczny internet 7

Rozdział 5 Implementacja 8

Bibliografia [1] Daniele Riboni. Feature selection for web page classification, 2002. 9