Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym Paweł Szołtysek 09 listopada 2009 1/46
metod metod 2/46
metod 199 stron, 2 cytowania własne 7rozdziałów Promotor: NT Nguyen 3/46
metod 199 stron, 2 cytowania własne 7rozdziałów Promotor: NT Nguyen 3/46
metod 199 stron, 2 cytowania własne 7rozdziałów Promotor: NT Nguyen 3/46
metod System rekomendujący Co to jest system rekomendujący? System, który sugeruje użytkownikowi potencjalnie interesujące go elementy. Jaki problem rozwiązuje system rekomendujący? Do czego możemy wykorzystać systemy rekomendujące? 4/46
metod System rekomendujący Co to jest system rekomendujący? Jaki problem rozwiązuje system rekomendujący? Na przykład: problem nieuporządkowania informacji w sieci Internet. Do czego możemy wykorzystać systemy rekomendujące? 4/46
metod System rekomendujący Co to jest system rekomendujący? Jaki problem rozwiązuje system rekomendujący? Do czego możemy wykorzystać systemy rekomendujące? Nie tylko hipertekst- biblionetka, lastfm, pandora, wowd. 4/46
Wyszukiwarka a system rekomendujący metod 5/46
Wyszukiwarka a system rekomendujący metod podobieństwa różnice wspólny cel sposób prezentacji wyników wykorzystanie rankingu sposób charakteryzowania wyników feedback użytkownika ingerencja użytkownika 5/46
metod Wyszukiwanie informacji a wyszukiwarki(1) Niechęć użytkownika do zadawania pytań wynika m.in. z: braku umiejętności w posługiwaniu się wyszukiwarką; lenistwa użytkownika; trudności ujęcia swojej potrzeby w słowach kluczowych; niewiedzy dotycząca istnienia w systemie elementów, które odpowiadają potrzebom. 6/46
metod Wyszukiwanie informacji a wyszukiwarki(1) Niechęć użytkownika do zadawania pytań wynika m.in. z: braku umiejętności w posługiwaniu się wyszukiwarką; lenistwa użytkownika; trudności ujęcia swojej potrzeby w słowach kluczowych; niewiedzy dotycząca istnienia w systemie elementów, które odpowiadają potrzebom. 6/46
metod Wyszukiwanie informacji a wyszukiwarki(1) Niechęć użytkownika do zadawania pytań wynika m.in. z: braku umiejętności w posługiwaniu się wyszukiwarką; lenistwa użytkownika; trudności ujęcia swojej potrzeby w słowach kluczowych; niewiedzy dotycząca istnienia w systemie elementów, które odpowiadają potrzebom. 6/46
metod Wyszukiwanie informacji a wyszukiwarki(1) Niechęć użytkownika do zadawania pytań wynika m.in. z: braku umiejętności w posługiwaniu się wyszukiwarką; lenistwa użytkownika; trudności ujęcia swojej potrzeby w słowach kluczowych; niewiedzy dotycząca istnienia w systemie elementów, które odpowiadają potrzebom. 6/46
metod Wyszukiwanie informacji a wyszukiwarki(1) Niechęć użytkownika do zadawania pytań wynika m.in. z: braku umiejętności w posługiwaniu się wyszukiwarką; lenistwa użytkownika; trudności ujęcia swojej potrzeby w słowach kluczowych; niewiedzy dotycząca istnienia w systemie elementów, które odpowiadają potrzebom. 6/46
Wyszukiwanie informacji a wyszukiwarki(2) metod System rekomendujący nie tylko ułatwia dotarcie do szukanej informacji, ale także pełni funkcję informacyjną. Rekomendując- powiadamiamy użytkownika o posiadaniu informacji Rekomendując- uzupełniamy wiedzę użytkownika 7/46
Wyszukiwanie informacji a wyszukiwarki(2) metod System rekomendujący nie tylko ułatwia dotarcie do szukanej informacji, ale także pełni funkcję informacyjną. Rekomendując- powiadamiamy użytkownika o posiadaniu informacji Rekomendując- uzupełniamy wiedzę użytkownika 7/46
Wyszukiwanie informacji a wyszukiwarki(2) metod System rekomendujący nie tylko ułatwia dotarcie do szukanej informacji, ale także pełni funkcję informacyjną. Rekomendując- powiadamiamy użytkownika o posiadaniu informacji Rekomendując- uzupełniamy wiedzę użytkownika 7/46
Wyszukiwanie informacji a wyszukiwarki(2) metod System rekomendujący nie tylko ułatwia dotarcie do szukanej informacji, ale także pełni funkcję informacyjną. Rekomendując- powiadamiamy użytkownika o posiadaniu informacji Rekomendując- uzupełniamy wiedzę użytkownika Ze względu na podobieństwa, można wykorzystywać te same miary - dokładności i kompletności 7/46
metod rekomendacji Czym jest dobra metoda rekomendacji? metod Dobra metoda rekomendacji nie charakteryzuje się tylko proponowaniem dokumentów relewantnych. 8/46
metod metod rekomendacji Dokładność i kompletność R p -wszystkiedokumentywsystemie D p -wyszukanedokumentywsystemie Dokładność(ang. precision)- stosunek liczby wyszukanych dokumentów relewantnych do liczby wszystkich wyszukanych dokumentów prec(p)= card(r p D p ) card(r p ) Kompletność(ang. recall)- stosunek liczby wyszukanych dokumentów relewantnych do liczby relewantnych dokumentów znajdujących się w systemie (1) rec(p)= card(r p D p ) card(d p ) (2) 9/46
metod rekomendacji Określenie efektywności rekomendacji metod Na efektywność rekomendacji składać się będzie dokładność(prec) i kompletność(rec). Borko:rec+prec 1 Meadowa:1 Heinego: 1 1 (1 prec 2 )+(1 rec 2 ) 2 1 rec + 1 prec 1 Voiskunski: prec rec 10/46
metod metod rekomendacji Określenie efektywności rekomendacji Jak osiągnąć wysoki wskaźnik kompletności w systemach rekomendujących? Jak zinterpretować zignorowanie dokumentu przez użytkownika? A co, jeśli użytkownik w międzyczasie zmieni swoje zainteresowania? 11/46
metod metod rekomendacji Określenie efektywności rekomendacji Jak osiągnąć wysoki wskaźnik kompletności w systemach rekomendujących? Jak zinterpretować zignorowanie dokumentu przez użytkownika? A co, jeśli użytkownik w międzyczasie zmieni swoje zainteresowania? 11/46
metod metod rekomendacji Określenie efektywności rekomendacji Jak osiągnąć wysoki wskaźnik kompletności w systemach rekomendujących? Jak zinterpretować zignorowanie dokumentu przez użytkownika? A co, jeśli użytkownik w międzyczasie zmieni swoje zainteresowania? 11/46
systemów rekomendujących metod Ogólne cechy systemu rekomendacji Zarządzanie profilem Architektura 12/46
metod systemów rekomendujących Ogólne cechy systemu rekomendacji Dziedzina Technika rekomendacji Zastosowane uczące się Sposób pobierania danych Różnorodność rekomendacji 13/46
systemów rekomendujących Zarządzanie profilem metod Reprezentacja profilu użytkownika Profil początkowy Adaptacja profilu Prywatność 14/46
systemów rekomendujących Architektura metod Czasową dystrybucję obliczeń Miejsce instalacji Prezentację rekomendacji 15/46
metod 16/46
metod Metoda słów kluczowych 16/46
metod Metoda słów kluczowych + metoda wspólnych zachowań 16/46
metod Metoda słów kluczowych + metoda wspólnych zachowań = AdaptRank 16/46
Następne seminarium metod metod i opis hybrydowej metody rekomendacji Algorytm rekomendacji Eksperymentalna weryfikacja metody Podsumowanie 17/46
Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym Paweł Szołtysek 15 listopada 2009 18/46
metod systemu rekomendującego System rekomendujący oparty na hipertekście opisujemy trójką SR=<D,S,f>,gdzie: D-zbiórdokumentów S-zbiórsesjihistorycznych(dwójek(s,d s ),gdzie s=(s 1,...,s n )) f-funkcjarekomendacji(d S R) 19/46
metod Metoda rekomendacji oparta na podobieństwie tekstowym metod Rekomenduje dokumenty hipertekstowe podobne do dokumentów odwiedzonych przez użytkownika. Dla każdego dokumentu oblicza się wektor deskryptorów v d =(v1 d,...,vd n w ),gdzievj dokreślapoziomistotnościdekryptoraw dokumencie. FormułaSaltona:vj d=wfd j log(n n j ). Podobieństwo tekstowe: sim(d j,d k )=cos(v d j,v d k ) Funkcja rekomendacji: ik=1 f t (d j,s (i) b )= sim(v d j,v d(k) ) i 20/46
metod Metoda rekomendacji oparta na podobieństwie tekstowym metod Rekomenduje dokumenty hipertekstowe podobne do dokumentów odwiedzonych przez użytkownika. Dla każdego dokumentu oblicza się wektor deskryptorów v d =(v1 d,...,vd n w ),gdzievj dokreślapoziomistotnościdekryptoraw dokumencie. FormułaSaltona:vj d=wfd j log(n n j ). Podobieństwo tekstowe: sim(d j,d k )=cos(v d j,v d k ) Funkcja rekomendacji: ik=1 f t (d j,s (i) b )= sim(v d j,v d(k) ) i 20/46
metod Metoda rekomendacji oparta na podobieństwie tekstowym metod Rekomenduje dokumenty hipertekstowe podobne do dokumentów odwiedzonych przez użytkownika. Dla każdego dokumentu oblicza się wektor deskryptorów v d =(v1 d,...,vd n w ),gdzievj dokreślapoziomistotnościdekryptoraw dokumencie. FormułaSaltona:vj d=wfd j log(n n j ). Podobieństwo tekstowe: sim(d j,d k )=cos(v d j,v d k ) Funkcja rekomendacji: ik=1 f t (d j,s (i) b )= sim(v d j,v d(k) ) i 20/46
metod Metoda rekomendacji oparta na podobieństwie tekstowym metod Rekomenduje dokumenty hipertekstowe podobne do dokumentów odwiedzonych przez użytkownika. Dla każdego dokumentu oblicza się wektor deskryptorów v d =(v1 d,...,vd n w ),gdzievj dokreślapoziomistotnościdekryptoraw dokumencie. FormułaSaltona:vj d=wfd j log(n n j ). Podobieństwo tekstowe: sim(d j,d k )=cos(v d j,v d k ) Funkcja rekomendacji: ik=1 f t (d j,s (i) b )= sim(v d j,v d(k) ) i 20/46
metod Metoda rekomendacji oparta na podobieństwie tekstowym metod Rekomenduje dokumenty hipertekstowe podobne do dokumentów odwiedzonych przez użytkownika. Dla każdego dokumentu oblicza się wektor deskryptorów v d =(v1 d,...,vd n w ),gdzievj dokreślapoziomistotnościdekryptoraw dokumencie. FormułaSaltona:vj d=wfd j log(n n j ). Podobieństwo tekstowe: sim(d j,d k )=cos(v d j,v d k ) Funkcja rekomendacji: ik=1 f t (d j,s (i) b )= sim(v d j,v d(k) ) i 20/46
metod metod Metoda rekomendacji oparta na zachowaniach użytkowników Rekomenduje dokumenty hipertekstowe w oparciu o wzorce nawigacyjne. Wyznaczanie wzorców nawigacyjnych odbywa się przez klasteryzację, kryterium- cosinus kąta między parami wektorów historycznych sesji. S= n c j=0 C j C 0 C 1... C nc = Wzorzecnawigacyjnytowektorśrednic j =(c j1,...,c jn ); s C j s k card(c j ) c jk = Funkcja rekomendacji: f c (d j,s (i) b )=max(c 1j sim(c 1,z (i) ),...,c nc j sim(c nc,z (i) ) 21/46
metod metod Metoda rekomendacji oparta na zachowaniach użytkowników Rekomenduje dokumenty hipertekstowe w oparciu o wzorce nawigacyjne. Wyznaczanie wzorców nawigacyjnych odbywa się przez klasteryzację, kryterium- cosinus kąta między parami wektorów historycznych sesji. S= n c j=0 C j C 0 C 1... C nc = Wzorzecnawigacyjnytowektorśrednic j =(c j1,...,c jn ); s C j s k card(c j ) c jk = Funkcja rekomendacji: f c (d j,s (i) b )=max(c 1j sim(c 1,z (i) ),...,c nc j sim(c nc,z (i) ) 21/46
metod metod Metoda rekomendacji oparta na zachowaniach użytkowników Rekomenduje dokumenty hipertekstowe w oparciu o wzorce nawigacyjne. Wyznaczanie wzorców nawigacyjnych odbywa się przez klasteryzację, kryterium- cosinus kąta między parami wektorów historycznych sesji. S= n c j=0 C j C 0 C 1... C nc = Wzorzecnawigacyjnytowektorśrednic j =(c j1,...,c jn ); s C j s k card(c j ) c jk = Funkcja rekomendacji: f c (d j,s (i) b )=max(c 1j sim(c 1,z (i) ),...,c nc j sim(c nc,z (i) ) 21/46
metod metod Metoda rekomendacji oparta na zachowaniach użytkowników Rekomenduje dokumenty hipertekstowe w oparciu o wzorce nawigacyjne. Wyznaczanie wzorców nawigacyjnych odbywa się przez klasteryzację, kryterium- cosinus kąta między parami wektorów historycznych sesji. S= n c j=0 C j C 0 C 1... C nc = Wzorzecnawigacyjnytowektorśrednic j =(c j1,...,c jn ); s C j s k card(c j ) c jk = Funkcja rekomendacji: f c (d j,s (i) b )=max(c 1j sim(c 1,z (i) ),...,c nc j sim(c nc,z (i) ) 21/46
metod metod Metoda rekomendacji oparta na zachowaniach użytkowników Rekomenduje dokumenty hipertekstowe w oparciu o wzorce nawigacyjne. Wyznaczanie wzorców nawigacyjnych odbywa się przez klasteryzację, kryterium- cosinus kąta między parami wektorów historycznych sesji. S= n c j=0 C j C 0 C 1... C nc = Wzorzecnawigacyjnytowektorśrednic j =(c j1,...,c jn ); s C j s k card(c j ) c jk = Funkcja rekomendacji: f c (d j,s (i) b )=max(c 1j sim(c 1,z (i) ),...,c nc j sim(c nc,z (i) ) 21/46
Korzyści z korzystania z różnych źródeł danych metod Wyższa jakość rekomendacji Nadspecjalizacja i uogólnianie Niedostępność danych w poszczególnych źródłach 22/46
metod hybrydowej metody rekomendacji Cechy systemu AdaptRank Ogólne cechy systemu rekomendacji: Dziedzina: Dokumenty hipertekstowe Technika rekomendacji: Hybrydowa Zastosowane uczące się: Grupowanie Sposób pobierania danych: Pośredni(obserwacja żądanych dokumentów + rekomendacja zigonorowanych) Różnorodność rekomendacji: zmniejszenie relewancji rekomendacji 23/46
hybrydowej metody rekomendacji Cechy systemu AdaptRank metod Zarządzanie profilem: Reprezentacja profilu użytkownika: Model wektorowy Profil początkowy: Przydatność dokumentu określana za pomocą funkcji Adaptacja profilu: Stopniowe zapominanie Prywatność: Anonimowy identyfikator sesji 24/46
hybrydowej metody rekomendacji Cechy systemu AdaptRank metod Architektura: Czasowa dystrybucja obliczeń: Częściowa Miejsce instalacji: Zależne od implementacji(serwer WWW) Prezentacja rekomendacji: Zależna od implementacji(krótkie streszczenie + link) 25/46
hybrydowej metody rekomendacji Funkcja rekomendacji metod W opisywanym systemie na funkcję rekomendacji składać się będzie: Podobieństwo tekstowe dokumentu do dokumentów odwiedzonych w sesji Liczba odwiedzin dokumentu w historycznych sesjach podobnych do aktualnej Fakt ignoracji dokumentu Przydatność dokumentu(kombinacja liniowa popularności i jakości dokumentu) Fakt odwiedzenia dokumentu 26/46
hybrydowej metody rekomendacji Podział na dwie fazy pracy metod 27/46
metod hybrydowej metody rekomendacji Określanie przydatności dokumentów Przydatność dokumentów jako bezkontekstowa miara jakości. Współczynniki użytkowania- otwarcia i liczby odwiedzin Współczynniki jakości- dostępność, nowość, liczba odsyłaczy 28/46
metod hybrydowej metody rekomendacji Określanie przydatności dokumentów Przydatność dokumentów jako bezkontekstowa miara jakości. Współczynniki użytkowania- otwarcia i liczby odwiedzin Współczynniki jakości- dostępność, nowość, liczba odsyłaczy 28/46
metod hybrydowej metody rekomendacji Określanie przydatności dokumentów Przydatność dokumentów jako bezkontekstowa miara jakości. Współczynniki użytkowania- otwarcia i liczby odwiedzin Współczynniki jakości- dostępność, nowość, liczba odsyłaczy 28/46
metod hybrydowej metody rekomendacji Określanie przydatności dokumentów Współczynnik otwarcia Dokumenty, które są otwierane w sesji jako pierwsze. Stanowią interfejs między systemem a światem zewnętrznym. Identyfikator wpisany z pamięci Identyfikator wybrany z innego systemu hipertekstowego Identyfikator odnaleziony w systemie wyszukiwania or(d) = { card(s d 1 ) card(s d ) dla card(s d )>0 0 dla card(s d )=0 29/46
hybrydowej metody rekomendacji Określanie przydatności dokumentów Współczynnik liczby odwiedzin metod Liczba odwiedzin to podstawowa wielkość wykorzystywana w statystykach aktywności. Problem: ciągłe wzmacnianie dokumentów, które się cieszą wysoką popularnością. tr(d) = card(u d ) t c t d 0 dla t c t d 0 >0 0 dla t c t d 0 =0 Potrzebna normalizacja funkcji. 30/46
hybrydowej metody rekomendacji Określanie przydatności dokumentów Współczynnik dostępności metod Dokument, który nie jest zawsze dostępny, nie powinien być często rekomendowany. av(d)=1 td u t c t d 0 31/46
metod hybrydowej metody rekomendacji Określanie przydatności dokumentów Współczynnik nowości Nowe dokumenty nie posiadają wysokiego miejsca w rankingach wyszukiwania(mała ilość linków, mała ilość odwiedzin). nr(d) = { gdzieρ t (0,1) dla day(t c ) day(t d 0 )>ɛ 0 dla day(t c ) day(t d 0 ) ɛ ρ day(t c) day(t d 0 ) t 32/46
metod hybrydowej metody rekomendacji Określanie przydatności dokumentów Współczynnik liczby działających odsyłaczy gl(d) = card(l d g card(l d ) dla card(l d )>0 0 dla card(l d )=0 33/46
hybrydowej metody rekomendacji funkcji przydatności metod Funkcja przydatności dokumentu d to znormalizowana kombinacja liniowa przedstawionych współczynników. q(d)= µ max(nr(d),wtr(d))+λ or(d)+φ gl(d)+χ av(d) µ+λ+φ+χ gdzieµ+λ+φ+χ>0orazµ,λ,φ,χ [0,1] Wartości parametrów są uzależnione od charakterystyki systemu. 34/46
hybrydowej metody rekomendacji Wektor dokumentów odwiedzonych metod Służy do formalnego zapisu aktualnych preferencji ujawionych w bieżącej sesji. z (i+1) j = { ρ s z (i) j dla d (i) d j 1 dla d (i) =d j 35/46
metod hybrydowej metody rekomendacji Wektor dokumentów zignorowanych Określajakdawnodokumentd j zostałzignorowanywbieżącej sesji. g (i+1) j = gdzieγ (α,1) 1 α dla d (i) d j g (i) j =1 γ g (i) j dla d (i) d j g (i) j 1 1 dla d (i) =d j 36/46
hybrydowej metody rekomendacji Wektor wzorców nawigacyjnych metod Określa zainteresowanie użytkownika dokumentami na podstawie zachowań innych użytkowników. Składowa wektora nv (i) =(nv (i) 1,...,nv(i) n) nv (i) j = 1 n c n b gdzie waga wzorca nawigacyjnego k=1 b k c kj b k = { sim(z (i),c k ) gdy sim(z (i),c k ) ɛ b 0 gdy sim(z (i),c k )<ɛ b 37/46
hybrydowej metody rekomendacji Wektor wzorców nawigacyjnych metod 38/46
hybrydowej metody rekomendacji Funkcja rekomendacji(1) metod f(d j,s (1) b )=(0,5 (β+δ) α q(d j )+β nv (i) j +δ sim(v d(1),v d j )) (1 z (1) j ) Gdy użytkownik wysyła żądanie dotyczące pierwszego dokumentu, wartość funkcji jest kombinacją liniową przydatności tego dokumentu, podobieństwa tekstowego i współrzędnej współczynnika wzorca. (3) 39/46
hybrydowej metody rekomendacji Funkcja rekomendacji(2) metod f(d j,s (i+1) b )=(α f(d j,s (i) b )+β nv(i+1) j +δ sim(v d(i+1),v d j ) g (i+1) j ) (1 z (i+1) j ) W kolejnych krokach dodatkowo wartość funkcji zależy od wartości w kroku poprzednim oraz współrzędnej wektora dokumentów zignorowanych. (4) 40/46
hybrydowej metody rekomendacji Algorytm rekomendacji metod Wektor rekomendacji: r (i) =(r (i) 1,...,r(i) n) r (i) j =f(d j,s (i) b ) Wektor podobieństwa tekstowego: tex d j k =sim(vd j,v d k ) 41/46
hybrydowej metody rekomendacji Algorytm rekomendacji metod 42/46
- symulacyjne badania efektywności metod 43/46
- symulacyjne badania efektywności metod 44/46
- symulacyjne badania efektywności metod 45/46
- symulacyjne badania efektywności metod 46/46