Metody analizy spójności i zgodności kolekcji dokumentów WWW



Podobne dokumenty
Metody analizy spójności i zgodności kolekcji dokumentów WWW

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Wyszukiwanie w czasie rzeczywistym sposób na zwiększenie widoczności zasobów bibliotek cyfrowych w wyszukiwarkach internetowych Karolina Żernicka

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Podobieństwo semantyczne w ontologiach biomedycznych

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Internet Semantyczny. Linked Open Data

SEO. Optymalizacja TYPO3 dla wyszukiwarek internetowych

WPROWADZENIE DO EKSPLORACJI DANYCH TEKSTOWYCH W ŚRODOWISKU WWW WYSZUKIWANIE INFORMACJI WYKŁAD 6. Piotr Gawrysiak. Anna Wróblewska Piotr Andruszkiewicz

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Wyszukiwanie informacji w internecie. Nguyen Hung Son

NOWY PARADYGMAT PUBLIKACJI I WYSZUKIWANIA DANYCH PRZESTRZENNYCH W SIECI WWW

Wyszukiwarka naukowa EBSCO Discovery Service - przewodnik

EBSCO Discovery Service - przewodnik

Otwarte książki w sieci na przykładzie Directory of Open Access Books

Matematyczne Podstawy Informatyki

NoSQL: Riak. dr inż. Sebastian Ernst Katedra Informatyki Stosowanej

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

dr inż. Jacek Naruniec

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Oferta SEO. Analiza i optymalizacja

Repozytoria otwarte. Małgorzata Rychlik Biblioteka Uniwersytecka w Poznaniu Repozytorium AMUR

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Rok akademicki: 2030/2031 Kod: EEE s Punkty ECTS: 3. Poziom studiów: Studia III stopnia Forma i tryb studiów: -

Pojęcie bazy danych. Funkcje i możliwości.

PrestaShop. Sklep internetowy szyty na miarę

POZYCJONOWANIE STRONY SKLEPU

PageRank i HITS. Mikołajczyk Grzegorz

Django : praktyczne tworzenie aplikacji sieciowych / Antonio Mele. Gliwice, cop Spis treści

Repozytoria uczelniane i ich rola w projekcie SYNAT

Zastosowanie wartości własnych macierzy

Scopus jako pomocnik w pisaniu wniosków o granty. dr inż. Katarzyna Gaca Trener Elsevier

Inteligentne systemy informacyjne

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Metadane w Jagiellońskiej Bibliotece Cyfrowej. Piotr Myszkowski

POZYCJONOWANIE STRON PROGRAM >>>WIĘCEJ<<<

SPRAWDŹ SWÓJ SKLEP! 1. SEO. Checklista opisów produktów WERSJA 1.0 ABOUTPRODUCTS.PL OPISY PRODUKTÓW W E-COMMERCE

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Biblioteka Wirtualnej Nauki

rdf:type ex:homepage ex:createdwith /amaya rdf:type ex:htmleditor

Doświadczenia z funkcjonowania pierwszego w Polsce repozytorium instytucjonalnego na Uniwersytecie im. Adama Mickiewicza w Poznaniu

Pozycjonowanie i SEO w czym jest różnica pojęć?

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Sklep Internetowy - OS Commerce

Księgarnia PWN: Paweł Kobis - Marketing z Google CZYNNIKI WPŁYWAJĄCE NA POZYCJĘ W WYSZUKIWARKACH

Semantyczne podobieństwo stron internetowych

Czytelnik w bibliotece cyfrowej

Text mining w programie RapidMiner Michał Bereta

UMIEJĘTNE WYSZUKIWANIE INFORMACJI

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Odkrywanie niewidzialnych zasobów sieci

Audyt SEO. sklep-obuwniczy.pl Biuro obsługi: al. Grunwaldzka 2/ Gdańsk

Paweł Rajba

Semantic Web. dr inż. Aleksander Smywiński-Pohl. Elektroniczne Przetwarzanie Informacji Konsultacje: czw , pokój 3.211

SERWISY BIBLIOTECZNE w perspektywie SEO

Wyszukiwanie informacji

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Ranking wyników na bazie linków

Indeksowanie full text search w chmurze

RFP. Wymagania dla projektu. sklepu internetowego B2C dla firmy Oplot

Integracja APD z Ogólnopolskim Repozytorium Prac Dyplomowych i Otwartym Systemem Antyplagiatowym

ZMIANA PARADYGMATU W WYKORZYSTANIA DANYCH I INFORMACJI PRZESTRZENNYCH W BUDOWIE SPOŁECZEŃSTWA OPARTEGO NA WIEDZY

Wstęp do Technologii Semantycznych. Idea, język RDF

MODEL SYSTEMU WIELOAGENTOWEGO KORZYSTAJĄCEGO Z DANYCH SIECI SEMANTYCZNEJ W PROJEKCIE OPEN NATURA 2000


Narzędzia do analizy działań marketingowych w internecie: Google Analytics & Webmaster Tools, analityka social media

(Niniejsze zapytanie nie stanowi zapytania ofertowego w rozumieniu przepisów ustawy PZP)

3 grudnia Sieć Semantyczna

Model przestrzenny Diagramu Obiegu Dokumentów. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

Porozmawiajmy o BW PW. Weronika Kubrak Anna Wasilewska

Jak promować własne badania w Internecie?

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Bazy tworzone w Bibliotece Głównej Uniwersytetu Ekonomicznego w Poznaniu

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Sposoby wyszukiwania multimedialnych zasobów w Internecie

CZEGO OCZEKUJĄ OD BIBLIOTEKI

Digitalizacja zbiorów muzycznych analiza od strony użytkownika na podstawie Federacji Bibliotek Cyfrowych (FBC)

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Marketing z Google Autor Paweł Kobis

Mapa witryny - Poradnik od A do Z

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

Praktyczne aspekty użytkowania zasobów Zintegrowanej Platformy Polskich Czasopism Naukowych MERKURIUSZ

Internet Semantyczny. Idea

Pojęcie systemu informacyjnego i informatycznego

Przekierowanie Redirect Poradnik

Politechnika Łódzka Biblioteka. Dokumentowanie i rozpowszechniania informacji o publikacjach naukowych pracowników Politechniki Łódzkiej

Pozycjonowanie i optymalizacja stron WWW. Jak się to robi. Wydanie III.

Netsprint Search. Koncepcja

WPROWADZENIE DO BAZ DANYCH

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane

Multiwyszukiwarka EBSCO Discovery Service (EDS) Przewodnik użytkownika

Spider s Web to skuteczne narzędzie marketingowe oparte o opinie i analizy na temat technologii. Przemysław Pająk, właściciel SpidersWeb.

Możliwości i wykorzystanie idei WEB 2.0 w GIS

Wyszukiwanie strukturalne

Specyfikacja dla strony internetowej Fundacji Śląskie Hospicjum dla Dzieci

Matematyczne Podstawy Informatyki

Transkrypt:

Metody analizy spójności i zgodności kolekcji dokumentów WWW Ph.D. wrap-up Marek Kopel @ Zakład Systemów Informacyjnych Instytut Informatyki Politechnika Wrocławska

Plan wystąpienia Przewód doktorski Cel i tło pracy Spójność i zgodność Graf DAC Aktualne i dalsze badania Możliwości rozwiązania Zastosowania Metody weryfikacji 2

Przewód 2003.06.03: otwarcie przewodu doktorskiego Metody analizy spójności i zgodności kolekcji dokumentów WWW na WiZ, PWr Promotorzy: dr hab. inż. Czesław Daniłowicz, prof. PWr. dr hab. inż. Aleksander Zgrzywa, prof. PWr. (od kwietnia 2007) 5 publikacji (książka, 3 konf. międzynar. i 1 kraj.) 3

Potrzeba informacyjna użytkownika Znalezienie informacji najpełniejszej najtrafniejszej przez wyszukiwarkę jak najszybciej jak najwygodniej Czyli Relewancja Intuicyjność Prezentacja wyników grupowanie fasety zawężanie (drill-down) poszerzanie podobne treściowo, ten sam autor, źródło... 4

Cel Badanie kolekcji dokumentów WWW Analiza spójności i zgodności dokumentów Miary (poziomy) spójności i zgodności Grupowanie wyników wyszukiwania w WWW Poszerzanie i zawężanie poszukiwania Poprawa relewancji (reranking) wyników 5

Tło pracy 1/2 Standardy WWW: (X)HTML, RSS, Atom,... Modele systemów wyszukiwania tf-idf Zapytanie - wyr. Bool'owskie (Lucene) Indeksowanie, rankowanie (Solr) Wizualizacja SERP (REST, AJAX) Analiza struktury linków dla SCI, HITS i PageRank XLink, FOAF i XFN (GGG) OWL Trackback i Pingback Black hat SEO, reprocical link Splog 6

Tło pracy 2/2 Semantic Web Linked Data RDF/XML, Sparql OAI-PMH, OAI-ORE Dbpedia, Freebase, Powerset, Parallax WordNet Grupowanie Filtrowanie kolaboratywne (WoT) Graph clustering Graf => Hypergraph Web 2.0 Serwisy społecznościowe Relacje 7

REST FOAF Ontologie Web of Data Sparql Linked Data, RDF/XML 8

...i mogę spytać np.: 1. ile razem napisali 2. na ilu konferencjach byli 3. w jakich latach 3. kto był chair'em/editor'em 9

fasety 10

Nie tylko naukowcy 11

12

Spójność i zgodność (a) Φ jest spójne (pisane: Con Φ) wtedy i tylko wtedy, gdy nie istnieje formuła φ taka, że Φ φ i Φ φ. - (Ebbinghaus et al. 1996, s.72) DSM ACID (ang. Atomicity, Consistency, Isolation and Durability) Zgodność - Wypełnienie przez produkt, proces, system lub usługę wyszczególnionego zbioru wymagań. - (Rosenthal et al. 2005) Acid Walidacja WAI 13

Spójność i zgodność wg MK spójny - logicznie powiązany, harmonijny, konsekwentny zgodny - niesprzeczny z czymś, jednomyślny, jednakowy, harmonijny - (PWN 2008) Miary podobieństwa dokumentów Spójność relacje między dokumentami wynikające z powiązań na poziomie metadanych. Zgodność podobieństwo na poziomie danych wynikające np. z ich niesprzeczności. 14

Spójność i zgodność - przykłady 1/2 Przykład 1: Słońce. Mamy dwie prognozy pogody na dany dzień. Spójność wysoka wynika z typu informacji i czasu, którego dotyczy. Zgodność - niewielka jedna prognoza przewiduje słońce druga deszcz Z drugiej strony: 2 komunikaty prasowe Zgodność wysoka oba dotyczą słońca Spójność niewielka jeden jest komunikatem meteorologicznym (pogoda) drugi astronomicznym (gwiazda) 15

Spójność i zgodność - przykłady 2/2 Przykład 2: Album muzyczny Recenzje 2 albumów Spójne mają jednego autora Nie zgodne jedna recenzja jest pozytywna druga negatywna. Alternatywnie: Dwie opinie na temat albumu Zgodne pozytywna ocena Spójność niewielka jedna opinia to autoryzowana recenzja druga - średnia ocena klientów sklepu internetowego 16

Graf DAC 3 rozdaje węzłów: Dokument, Autor, Pojęcie Krawędzie relacje: fakt istnienia hiperłącza między dokumentami semantyka zawarta w hiperłączu (atrybut rel), np. XFN podobieństwo tytułów i abstraktów dokumentów np. liczba jednakowych słów miara kosinusowa dla wektorów terminów ważonych dokumentów różnica długości dokumentów np. liczba słów, obrazków, tabel relacje typu ogólny-szczegółowy, rozdział-spis treści, adnotacja, tekst źródłowy relacje typu errata, aktualizacja, draft, kolejna wersja relacje pomiędzy autorami dokumentów np. współautorzy, rodzina, naukowcy z jednej instytucji, współużytkownicy serwisu np. SIOC tematyka dokumentów np. odległości słów kluczowych w ontologii używanie wspólnej folksonomii (tagi) pochodzenie dokumentów np. wydawca, podobieństwo URL (ten sam serwis) daty wydania/opublikowania/modyfikacji dokumentów format/liczba dostępnych formatów dokumentów język dokumentów licencja dokumentów wzajemne cytowania dokumentów, np. bibliografia, komentarz do posta popularność dokumentów, np. liczba komentarzy/trackback, cytowań, wyświetleń oceny użytkowników, oceny w rankingu (PageRank) 17

Analiza spójności i zgodności 1/2 Wyważanie krawędzi w grafie DAC Usuwanie krawędzi: waga<próg (miara) Kolekcja dokumentów po odrzuceniu dokumentów incydentnych tylko z pojęciami = kolekcja o zadanej spójności (próg) Kolekcja dokumentów po odrzuceniu dokumentów incydentnych tylko z autorami = kolekcja o zadanej zgodności 18

Analiza spójności i zgodności 2/2 Wyważanie krawędzi w grafie DAC Graf spójności bez węzłów pojęć Graf zgodności bez węzłów autorów Ewentualne szacowanie relacji pośrednich Graf Hipergraf (grupowanie) Największa grupa kolekcja spójna/zgodna Alternatywnie maksymalna klika 19

20

21

22

marek@zsi5:~/wordnet-similarity-2.05/samples$./sample.pl love#n#1 life#n#1 Loading WordNet... done. [...] JCN Similarity = 0.109241217357514 RES Similarity = 3.16883168920948 LIN Similarity = 0.409100116777277 WUP Similarity = 0.666666666666667 method by Jiang and Conrath (1997) measure described by Resnik (1995) measure described by Lin (1998) method of Wu & Palmer (1994) LCH Similarity = 1.89711998488588 method by Leacock and Chodorow (1998) HSO Similarity = 2 method described by Hirst and St-Onge (1998) HSO TRACE? Horizontal Links of love#n#1: hate#n#1 Upward Links of love#n#1: emotion#n#1 Downward Links of love#n#1: worship#n#2 agape#n#2 agape#n#1 filial_love#n#1 ardor#n#2 amorousness#n#1 puppy_love#n#1 devotion#n#1 benevolence#n#1 heartstrings#n#1 lovingness#n#1 loyalty#n#2 Horizontal Links of life#n#1: Upward Links of life#n#1: being#n#1 Downward Links of life#n#1: ghetto#n#2 MedStrong relation path... love#n#1 [U] emotion#n#1 [U] feeling#n#1 [U] state#n#2 [D] being#n#1 [D] life#n#1 PATH Similarity = 0.166666666666667 RANDOM Similarity = 2.170 LESK Similarity = 0.129504156891797 VECTOR Similarity = 0.0802074118768873 VECTOR_PAIRS Similarity = 0.0122593830204407 23

love OR tag:love Solr search results (38 documents) 24

25

Dziękuję pytania? więcej? >> blog naukowy http://marekopel.wordpress.com 26