Zastosowanie wartości własnych macierzy

Podobne dokumenty
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

PageRank i HITS. Mikołajczyk Grzegorz

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Układy równań liniowych. Krzysztof Patan

PageRank. Bartosz Makuracki. 28 listopada B. Makuracki PageRank

Zaawansowane metody numeryczne

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Procesy stochastyczne

Ranking wyników na bazie linków

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Inteligentne systemy informacyjne

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Spacery losowe generowanie realizacji procesu losowego

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Obliczenia iteracyjne

Zaawansowane metody numeryczne

5. Rozwiązywanie układów równań liniowych

Wstęp do metod numerycznych Faktoryzacja QR i SVD. P. F. Góra

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

Metody numeryczne. materiały do wykładu dla studentów

Wokół wyszukiwarek internetowych

Wykład z Technologii Informacyjnych. Piotr Mika

Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe. P. F. Góra

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Obliczenia równoległe w zagadnieniach inżynierskich. Wykład 6

Elementy modelowania matematycznego

Grafy Alberta-Barabasiego

POZYCJONOWANIE STRONY SKLEPU

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Układy równań liniowych

PROGRAMOWANIE SIECIOWE. METODA ŚCIEŻKI KRYTYCZNEJ

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Optymalizacja ciągła

Analiza numeryczna Lista nr 3 (ćwiczenia) x x 2 n x.

Plan wykładu. Obliczenia równoległe w zagadnieniach inżynierskich. Wykład 6 p. Rozwiazywanie układów równań. metody bezpośrednie,

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

OBLICZANIE POCHODNYCH FUNKCJI.

Wykład 14. Elementy algebry macierzy

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Metody numeryczne Wykład 4

3. Macierze i Układy Równań Liniowych

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Rozwiązywanie układów równań liniowych metody przybliżone Materiały pomocnicze do ćwiczeń z metod numerycznych

2. Układy równań liniowych

Transformaty. Kodowanie transformujace

Peter W. Shor - Polynomial-Time Algorithms for Prime Factorization and Discrete Logarithms on a Quantum Computer. 19 listopada 2004 roku

AiSD zadanie trzecie

Ćwiczenia: Ukryte procesy Markowa lista 1 kierunek: matematyka, specjalność: analiza danych i modelowanie, studia II

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Metody numeryczne w przykładach

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

Układy równań i nierówności liniowych

Wyk lad 5 W lasności wyznaczników. Macierz odwrotna

1 Układy równań liniowych

Układy równań liniowych

5 Wyznaczniki. 5.1 Definicja i podstawowe własności. MIMUW 5. Wyznaczniki 25

Przekształcenia liniowe

Matematyka stosowana i metody numeryczne

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

; B = Wykonaj poniższe obliczenia: Mnożenia, transpozycje etc wykonuję programem i przepisuję wyniki. Mam nadzieję, że umiesz mnożyć macierze...

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Przekształcenia liniowe

Wstęp do metod numerycznych Zadania numeryczne 2016/17 1

Lista. Algebra z Geometrią Analityczną. Zadanie 1 Przypomnij definicję grupy, które z podanych struktur są grupami:

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Najprostszy element. F+R = 0, u A = 0. u A = 0. Mamy problem - równania zawierają siły, a warunek umocowania - przemieszczenia

Metody numeryczne I Równania nieliniowe

Rozwiązania, seria 5.

Programowanie liniowe metoda sympleks

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Obliczenia naukowe Wykład nr 8

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Elementy inteligencji obliczeniowej

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

0 + 0 = 0, = 1, = 1, = 0.

Wstęp do sieci neuronowych, wykład 12 Wykorzystanie sieci rekurencyjnych w optymalizacji grafowej

Finanse i Rachunkowość studia niestacjonarne/stacjonarne Model Przepływów Międzygałęziowych

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

Zastosowania wyznaczników

Wyk lad 8 macierzy i twierdzenie Kroneckera-Capellego

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

UKŁADY RÓWNAŃ LINIOWYCH - Metody dokładne

Problem skoczka szachowego i inne cykle Hamiltona na szachownicy n x n

Wyk lad 11 1 Wektory i wartości w lasne

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Algorytmy mrówkowe. H. Bednarz. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne

Macierze i Wyznaczniki

Wyk lad 4 Macierz odwrotna i twierdzenie Cramera

Formy kwadratowe. Mirosław Sobolewski. Wydział Matematyki, Informatyki i Mechaniki UW. 14. wykład z algebry liniowej Warszawa, styczeń 2011

19 marzec, Łańcuchy Markowa z czasem dyskretnym. Procesy Stochastyczne, wykład 6, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1136

F + R = 0, u A = 0. u A = 0. f 0 f 1 f 2. Relację pomiędzy siłami zewnętrznymi i wewnętrznymi

Analiza matematyczna i algebra liniowa Macierze

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Wstęp do metod numerycznych Algebraiczna metoda gradientów sprzężonych. P. F. Góra

Transkrypt:

Uniwersytet Warszawski 15 maja 2008

Agenda Postawienie problemu 1 Postawienie problemu Motywacja Jak zbudować wyszukiwarkę? Dlaczego to nie jest takie trywialne? Możliwe rozwiazania Model 2 3 4

Motywacja Postawienie problemu Motywacja Jak zbudować wyszukiwarkę? Dlaczego to nie jest takie trywialne? Możliwe rozwiazania Model Mamy do czynienia z eksplozja informacji. Dokładność wielu systemów przeszukujacych pozostawia wiele do życzenia. Wiele systemów opartych jest na algebrze liniowej. Tradycyjne metody, takie jak LSI (Latent Semantic Indexing) dobre w odniesieniu do małych zbiorów, okazuja się praktycznie bezużyteczne w przypadku internetu, ze względu na duża złożoność.

Model Jak zbudować wyszikiwarkę? Motywacja Jak zbudować wyszukiwarkę? Dlaczego to nie jest takie trywialne? Możliwe rozwiazania Wymaga to trzech prostych kroków: Trzeba umieć ściagn ać wszystkie dokumenty (albo chociaż duża część). Trzeba umieć przeszukać te dokumenty znajdujac te zwiazane z danym zapytaniem. Trzeba umieć posortować otrzymana listę, tak by najwazniejsze dokumenty znalazły się na samej górze.

Motywacja Jak zbudować wyszukiwarkę? Dlaczego to nie jest takie trywialne? Możliwe rozwiazania Model Dlaczego internet jest trudny do przetwarzania Jest ogromny. Nieustannie się zmienia. Nowe strony się pojawiaja, istniejace się dezaktualizuja, inne zostaja usunięte. Zawiera wiele redundantnych dokumentów, a także wiele niskiej jakości materiałów. Wielu użytkowników stara się umyślnie wprowadzić w bład systemy, tak by ich strony pojawiały się wysoko w wynikach wyszukiwania.

Motywacja Jak zbudować wyszukiwarkę? Dlaczego to nie jest takie trywialne? Możliwe rozwiazania Model Dlaczego użytkownicy nie ułatwiaja tego zadania Zapytania często sa krótkie i lakoniczne, najczęściej składaj ace się z 1 2 słów. Użytkownicy rzadko używaja zaawansowanych cech wyszukiwarek. Zwykle przegladane jest 10 20 pierwszych wyników.

Motywacja Jak zbudować wyszukiwarkę? Dlaczego to nie jest takie trywialne? Możliwe rozwiazania Model Co może pomóc w przetwarzaniu danych zawartych w internecie? Unikalna struktura, powiazana linkami (referencjami). Jest ona wykorzystywana w 3 najczęściej omawianych metodach: HITS (Hypertext Induced Topic Search) PageRank SALSA

Latent Semantic Indexing Motywacja Jak zbudować wyszukiwarkę? Dlaczego to nie jest takie trywialne? Możliwe rozwiazania Model Opiera się na rozkładzie na wartości własne macierzy, której jeden wymiar stanowia dokumenty, a drugi terminy. Umożliwia znalezienie ukrytych zwiazków między terminami. Dzięki temu radzi sobie z polisemami i synonimami przypisujac dokumenty i terminy do pewnych pojęć. Wada jest to, że nie bierze pod uwagę jakości dokumentów.

Model internetu Postawienie problemu Motywacja Jak zbudować wyszukiwarkę? Dlaczego to nie jest takie trywialne? Możliwe rozwiazania Model Każda strona /dokument w sieci, jest reprezentowana jako wierzchołek w bardzo dużym grafie. Skierowane krawędzie między wierzchołkami reprezentuja referencje między dokumentami.

Pojęcia Znawca / Autorytet Znawca jest wierzchołkiem, który posiada wiele linków wchodzacych (ma duży stopień wejściowy). Węzeł Węzeł jest wierzchołkiem, z którego wychodzi wiele linków (ma duży stopień wyjściowy).

Założenia Postawienie problemu Teza opiera się na stwierdzeniu, że dobre węzły wskazuja na dobrych znawców i że dobzi znawcy sa wskazywani przez dobre węzły. przypisuje każdemu dokumentow dwie oceny jedna mówiaca o tym na ile jest on dobrym autorytetem, a druga mówiaca o tym czy jest dobrym węzłem.

Obliczenia Postawienie problemu Niech i będzie wierzchołkiem odpowiadajacym pewnej stronie, wówczas x i i y i będa odpowiednio jego rankingiem jako autorytetu i węzła. Niech E będzie zbiorem wszystkich krawędzi skierowanych w grafie, a e i j reprezentuje skierowana krawędź od wierzchołka i do j. Załóżmy, że na poczatku wszystkie strony maja przypisana jakaś inicjalna wartość x (0) i i y (0) i, wówczas algorytm iteracyjnie poprawia oceny zgodnie ze wzorem: x (k) i = j:e ji E y (k 1) j i y (k) i = x (k) j j:e ij E

Obliczenia c.d. Jeśli teraz użyjemy macierzy sasiedztwa L, możemy te równania zapisać w formie macierzowej: x (k) = L T y (k 1) y (k) = L x (k) k = k + 1 Jako poczatkowy wektor można przyjać: y (0) = e.

Obliczenia c.d. Postawienie problemu Powyższe równanie można rozwinać o jeden krok więcej otrzymujac: x (k) = L T L x (k 1) y (k) = LL T y (k 1) Równania te wyznaczaja iteracyjna metodę obliczania rankingów za pomoca potęgowania. Obie macierze (LL T i L T L) sa nieujemnieokreślone. Tak naprawdę wystarczy policzyć tylko jedno równanie iteracyjnie, a drugie z wcześniejszej zależności.

Implementacja Postawienie problemu Implementacja składa się z dwóch głównych kroków: Utworzeniu grafu sasiedztwa N powiazanego z zapytaniem. Obliczenia rankingów i zaprezentowaniu użytkownikowi dwóch list.

Wady i zalety Postawienie problemu Podwójny ranking czasem użytkownika interesuje bardziej jeden z nich. Redukuje duży problem do małej instancji. Jest zależny od zapytania i obliczenia musza być wykonane na bieżaco. Zwłaszcza jeden ranking jest podatny na spam. Jest bardzo lokalny. Możliwe jest odpłynięcie (zboczenie) od tematu.

Powiazania Algorytm jest silnie zwiazany z badaniami bibliometrycznymi i takimi pojęciami jak: co-citation Ma ono miejsce, kiedy oba dokumenty sa cytowane przez trzeci dokument. co-reference Ma miejsce kiedy dwa dokumenty odnosza się do tego samego trzeciego dokumentu. Zostało pokazane, że zachodza równości: L T L = D in + C cit i LL T = D out + C ref

Motywacja Postawienie problemu traktuje linki wchodzace, jako swojego rodzaju rekomendacje danego dokumentu, przez autora strony linkujacej. Jednak linki z dobrych (poważanych) stron powinny wnosić więcej, niż linki ze stron marginalnych. W ten sposób każda strona ma przypisana liczbę (PageRank), która mówi jak ważna jest dana strona.

Obliczenia Powyższa idea może być zapisana jako: gdzie: r(p) = r(q) Q Q B P r(p) oznacza wartość PageRank dla strony P B P jest zbiorem wszystkich stron wskazujacych na P Q jest liczba linków wychodzacych z Q

Obliczenia c.d. Postawienie problemu Obliczenia podobnie jak przy HITSie moga być prowadzone iteracyjnie, poczatkowy wektor można przyjać arbitralnie wszystkim dokumentom przypisujac wartość 1 n. Niech πj T = ( r j (P 1 ), r j (P 2 ),..., r j (P n ) ) wówczas: π T j = π T j 1 P a P jest macierza: p ij = { 1 P i jeśli P i wskazuje na P j 0 wpp

Model Postawienie problemu Jeśli założymy, że nie ma stron bez linków wychodzacych, albo stronom takim arbitralnie dodamy takie linki, to macierz P jest macierza stochastyczna. Oznacza to, że każda iteracja obliczania PageRanku jest przejściem łańcuchem Markowa. Łańcuch ten jest losowym bładzeniem po grafie zdefiniowanym przez strukturę linków. PageRank odpowiada rozkładowi stacjonarnemu tego łańcucha Markowa, dlatego wartość PageRank mówi o proporcji czasu spędzonego na danej stronie, przy założeniu losowego klikania na linki.

Dostosowywanie macierzy Jest kilka problemów, które powoduja, że nie powinniśmy używać dokładnie macierzy reprezentujacej nasz graf: Macierz może nie być stochastyczna (niektóre wiersze moga mieć zerowa sumę). Wówczas zamiast takiego wiersza możemy użyć et n Powstała macierz może być redukowalna (odpowiadajacy jej łańcuch może być redukowalny istnieja zbiory stanów, z których nie można się wydostać).

Wady i zalety Odpływanie od tematu. Niezależność od zapytania. Odporność na spam. Możliwość personalizacji, przez wektor perturbacji.

Stochastic Approach for Link Structure Analysis Jest to połaczenie idei HITS i PageRanka. Tak jak w HITSie tworzone sa dwa rankingi. Sa one generowane za pomoca łańcuchów Markowa tak jak w przypadku PageRanka.

Sposób obliczania Postawienie problemu Podobnie jak w przypadku HITSa w czasie zapytania tworzony jest graf sasiedztwa. Następnym krokiem zamiast tworzenia macierzy sasiedztwa jest stworzenia grafu dwódzielnego, którego jedna grupę wierzchołków stanowia dokumenty o niezerowym stopniu wyściowym, a druga dokumenty o niezerowym stopniu wejściowym. Krawędziemi sa odpowiadajace im krawędzie skierowane w pierwotnym grafie.

Sposób obliczania c.d. Kolejnym krokiem jest obliczenie macierzy prawdopodobieństwa H odpowiadajacej węzłowatości i A odpowiadajacej autorytarności. O ile Google owa macierz P była ważona tylko w wierszach, to w przypadku SALSy mamy dwie macierze sasiedztwa L c (L r ), w których każda niezerowa kolumna (wiersz) została podzielona przez swoja sumę. Następnie kładziemy: H = L r L T c A = L T c L r

Sposób obliczania c.d. Pozostaje już tylko znaleźć rozkłady stacjonarne πh T macierzy H oraz πa T macierzy A. Jednak w przypadku SALSy z redukowalnościa radzimy sobie w inny sposób: zerowe wiersze i kolumny sa usuwane, liczymy rozkłady stacjonarne dla spójnych składowych grafu oddzielnie, następnie przeskalowujemy je, aby utworzyły globalny rozkład.

Wady i zalety Jest mniej podatny na spam. Jest zależny od zapytania. Jest mnie podatny na odpływanie od tematu. Poprzez podział na spójne składowe ułatwia obliczanie. Posiada dwa rankingi.

Dodatek Bibliografia Bibliografia Carl D. Meyer, Amy N. Langville, A Survey of Eigenvector Methods of Web Information Retrieval http://en.wikipedia.org/wiki/latent_ semantic_analysis http: //mathworld.wolfram.com/eigenvector.html