Metody analizy spójności i zgodności kolekcji dokumentów WWW Ph.D. wrap-up Marek Kopel @ Zakład Systemów Informacyjnych Instytut Informatyki Politechnika Wrocławska
Plan wystąpienia Przewód doktorski Cel i tło pracy Spójność i zgodność Graf DAC Aktualne i dalsze badania Możliwości rozwiązania Zastosowania Metody weryfikacji 2
Przewód 2003.06.03: otwarcie przewodu doktorskiego Metody analizy spójności i zgodności kolekcji dokumentów WWW na WiZ, PWr Promotorzy: dr hab. inż. Czesław Daniłowicz, prof. PWr. dr hab. inż. Aleksander Zgrzywa, prof. PWr. (od kwietnia 2007) 5 publikacji (książka, 3 konf. międzynar. i 1 kraj.) 3
Potrzeba informacyjna użytkownika Znalezienie informacji najpełniejszej najtrafniejszej przez wyszukiwarkę jak najszybciej jak najwygodniej Czyli Relewancja Intuicyjność Prezentacja wyników grupowanie fasety zawężanie (drill-down) poszerzanie podobne treściowo, ten sam autor, źródło... 4
Cel Badanie kolekcji dokumentów WWW Analiza spójności i zgodności dokumentów Miary (poziomy) spójności i zgodności Grupowanie wyników wyszukiwania w WWW Poszerzanie i zawężanie poszukiwania Poprawa relewancji (reranking) wyników 5
Tło pracy 1/2 Standardy WWW: (X)HTML, RSS, Atom,... Modele systemów wyszukiwania tf-idf Zapytanie - wyr. Bool'owskie (Lucene) Indeksowanie, rankowanie (Solr) Wizualizacja SERP (REST, AJAX) Analiza struktury linków dla SCI, HITS i PageRank XLink, FOAF i XFN (GGG) OWL Trackback i Pingback Black hat SEO, reprocical link Splog 6
Tło pracy 2/2 Semantic Web Linked Data RDF/XML, Sparql OAI-PMH, OAI-ORE Dbpedia, Freebase, Powerset, Parallax WordNet Grupowanie Filtrowanie kolaboratywne (WoT) Graph clustering Graf => Hypergraph Web 2.0 Serwisy społecznościowe Relacje 7
REST FOAF Ontologie Web of Data Sparql Linked Data, RDF/XML 8
...i mogę spytać np.: 1. ile razem napisali 2. na ilu konferencjach byli 3. w jakich latach 3. kto był chair'em/editor'em 9
fasety 10
Nie tylko naukowcy 11
12
Spójność i zgodność (a) Φ jest spójne (pisane: Con Φ) wtedy i tylko wtedy, gdy nie istnieje formuła φ taka, że Φ φ i Φ φ. - (Ebbinghaus et al. 1996, s.72) DSM ACID (ang. Atomicity, Consistency, Isolation and Durability) Zgodność - Wypełnienie przez produkt, proces, system lub usługę wyszczególnionego zbioru wymagań. - (Rosenthal et al. 2005) Acid Walidacja WAI 13
Spójność i zgodność wg MK spójny - logicznie powiązany, harmonijny, konsekwentny zgodny - niesprzeczny z czymś, jednomyślny, jednakowy, harmonijny - (PWN 2008) Miary podobieństwa dokumentów Spójność relacje między dokumentami wynikające z powiązań na poziomie metadanych. Zgodność podobieństwo na poziomie danych wynikające np. z ich niesprzeczności. 14
Spójność i zgodność - przykłady 1/2 Przykład 1: Słońce. Mamy dwie prognozy pogody na dany dzień. Spójność wysoka wynika z typu informacji i czasu, którego dotyczy. Zgodność - niewielka jedna prognoza przewiduje słońce druga deszcz Z drugiej strony: 2 komunikaty prasowe Zgodność wysoka oba dotyczą słońca Spójność niewielka jeden jest komunikatem meteorologicznym (pogoda) drugi astronomicznym (gwiazda) 15
Spójność i zgodność - przykłady 2/2 Przykład 2: Album muzyczny Recenzje 2 albumów Spójne mają jednego autora Nie zgodne jedna recenzja jest pozytywna druga negatywna. Alternatywnie: Dwie opinie na temat albumu Zgodne pozytywna ocena Spójność niewielka jedna opinia to autoryzowana recenzja druga - średnia ocena klientów sklepu internetowego 16
Graf DAC 3 rozdaje węzłów: Dokument, Autor, Pojęcie Krawędzie relacje: fakt istnienia hiperłącza między dokumentami semantyka zawarta w hiperłączu (atrybut rel), np. XFN podobieństwo tytułów i abstraktów dokumentów np. liczba jednakowych słów miara kosinusowa dla wektorów terminów ważonych dokumentów różnica długości dokumentów np. liczba słów, obrazków, tabel relacje typu ogólny-szczegółowy, rozdział-spis treści, adnotacja, tekst źródłowy relacje typu errata, aktualizacja, draft, kolejna wersja relacje pomiędzy autorami dokumentów np. współautorzy, rodzina, naukowcy z jednej instytucji, współużytkownicy serwisu np. SIOC tematyka dokumentów np. odległości słów kluczowych w ontologii używanie wspólnej folksonomii (tagi) pochodzenie dokumentów np. wydawca, podobieństwo URL (ten sam serwis) daty wydania/opublikowania/modyfikacji dokumentów format/liczba dostępnych formatów dokumentów język dokumentów licencja dokumentów wzajemne cytowania dokumentów, np. bibliografia, komentarz do posta popularność dokumentów, np. liczba komentarzy/trackback, cytowań, wyświetleń oceny użytkowników, oceny w rankingu (PageRank) 17
Analiza spójności i zgodności 1/2 Wyważanie krawędzi w grafie DAC Usuwanie krawędzi: waga<próg (miara) Kolekcja dokumentów po odrzuceniu dokumentów incydentnych tylko z pojęciami = kolekcja o zadanej spójności (próg) Kolekcja dokumentów po odrzuceniu dokumentów incydentnych tylko z autorami = kolekcja o zadanej zgodności 18
Analiza spójności i zgodności 2/2 Wyważanie krawędzi w grafie DAC Graf spójności bez węzłów pojęć Graf zgodności bez węzłów autorów Ewentualne szacowanie relacji pośrednich Graf Hipergraf (grupowanie) Największa grupa kolekcja spójna/zgodna Alternatywnie maksymalna klika 19
20
21
22
marek@zsi5:~/wordnet-similarity-2.05/samples$./sample.pl love#n#1 life#n#1 Loading WordNet... done. [...] JCN Similarity = 0.109241217357514 RES Similarity = 3.16883168920948 LIN Similarity = 0.409100116777277 WUP Similarity = 0.666666666666667 method by Jiang and Conrath (1997) measure described by Resnik (1995) measure described by Lin (1998) method of Wu & Palmer (1994) LCH Similarity = 1.89711998488588 method by Leacock and Chodorow (1998) HSO Similarity = 2 method described by Hirst and St-Onge (1998) HSO TRACE? Horizontal Links of love#n#1: hate#n#1 Upward Links of love#n#1: emotion#n#1 Downward Links of love#n#1: worship#n#2 agape#n#2 agape#n#1 filial_love#n#1 ardor#n#2 amorousness#n#1 puppy_love#n#1 devotion#n#1 benevolence#n#1 heartstrings#n#1 lovingness#n#1 loyalty#n#2 Horizontal Links of life#n#1: Upward Links of life#n#1: being#n#1 Downward Links of life#n#1: ghetto#n#2 MedStrong relation path... love#n#1 [U] emotion#n#1 [U] feeling#n#1 [U] state#n#2 [D] being#n#1 [D] life#n#1 PATH Similarity = 0.166666666666667 RANDOM Similarity = 2.170 LESK Similarity = 0.129504156891797 VECTOR Similarity = 0.0802074118768873 VECTOR_PAIRS Similarity = 0.0122593830204407 23
love OR tag:love Solr search results (38 documents) 24
25
Dziękuję pytania? więcej? >> blog naukowy http://marekopel.wordpress.com 26