ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH



Podobne dokumenty
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Zastosowanie wartości własnych macierzy

Spacery losowe generowanie realizacji procesu losowego

Metody numeryczne. materiały do wykładu dla studentów

Inteligentne systemy informacyjne

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

UKŁADY RÓWNAŃ LINIOWYCH - Metody dokładne

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

UKŁADY RÓWNAŃ LINIOWYCH -Metody dokładne

Zaawansowane metody numeryczne

Układy równań liniowych. Krzysztof Patan

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

3. Macierze i Układy Równań Liniowych

TEORETYCZNE PODSTAWY INFORMATYKI

PageRank i HITS. Mikołajczyk Grzegorz

5. Rozwiązywanie układów równań liniowych

POD- I NADOKREŚLONE UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

ALHE. prof. Jarosław Arabas semestr 15Z

PageRank. Bartosz Makuracki. 28 listopada B. Makuracki PageRank

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Obliczenia Naukowe. Wykład 12: Zagadnienia na egzamin. Bartek Wilczyński

Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe. P. F. Góra

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Zaawansowane metody numeryczne

19 marzec, Łańcuchy Markowa z czasem dyskretnym. Procesy Stochastyczne, wykład 6, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1136

Uniwersytet Warszawski Teoria gier dr Olga Kiuila LEKCJA 3

Elementy modelowania matematycznego

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Wykład z Technologii Informacyjnych. Piotr Mika

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Metody numeryczne Wykład 4

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Eksploracja sieci Web

1 Układy równań liniowych

Obliczenia naukowe Wykład nr 8

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Ranking wyników na bazie linków

Programowanie liniowe metoda sympleks

Układy równań liniowych, macierze, Google

Algorytmika Internetu

METODY NUMERYCZNE. wykład. konsultacje: wtorek 10:00-11:30 środa 10:00-11:30. dr inż. Grażyna Kałuża pokój

2. Układy równań liniowych

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Algebra linowa w pigułce

Analiza numeryczna Lista nr 3 (ćwiczenia) x x 2 n x.

Programowanie liniowe metoda sympleks

Zał nr 4 do ZW. Dla grupy kursów zaznaczyć kurs końcowy. Liczba punktów ECTS charakterze praktycznym (P)

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

= Zapiszemy poniższy układ w postaci macierzy. 8+$+ 2&=4 " 5 3$ 7&=0 5$+7&=4

UKŁADY RÓWNAŃ LINIOWYCH

Matematyka stosowana i metody numeryczne

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Przykład: budowa placu zabaw (metoda ścieżki krytycznej)

Układy równań liniowych

Wykład 5. Metoda eliminacji Gaussa

Modelowanie rynków finansowych z wykorzystaniem pakietu R

Algebra grafów. dr hab. Piotr Fronczak

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.

Układy równań liniowych i metody ich rozwiązywania

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Metody uporządkowania

Rozwiazywanie układów równań liniowych. Ax = b

Zał nr 4 do ZW. Dla grupy kursów zaznaczyć kurs końcowy. Liczba punktów ECTS charakterze praktycznym (P)

Układ równań liniowych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Modelowanie sieci złożonych

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Układy równań i nierówności liniowych

Metoda eliminacji Gaussa

Ćwiczenia: Ukryte procesy Markowa lista 1 kierunek: matematyka, specjalność: analiza danych i modelowanie, studia II

TEORETYCZNE PODSTAWY INFORMATYKI

III TUTORIAL Z METOD OBLICZENIOWYCH

ALGEBRA z GEOMETRIA, ANALITYCZNA,

Układy równań liniowych. Ax = b (1)

KADD Minimalizacja funkcji

Układy równań liniowych

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

Analiza numeryczna Kurs INP002009W. Wykłady 6 i 7 Rozwiązywanie układów równań liniowych. Karol Tarnowski A-1 p.

Grafy Alberta-Barabasiego

13. Równania różniczkowe - portrety fazowe

ALGEBRA LINIOWA Z GEOMETRIĄ, LISTA ZADAŃ NR 8

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Fizyka statystyczna, elementy termodynamiki nierównowagowej Cele, zakres zagadnień

OBLICZANIE POCHODNYCH FUNKCJI.

Weryfikacja hipotez statystycznych

Algorytmy stochastyczne laboratorium 03

Algorytmy analizy skupień / Sławomir Wierzchoń, Mieczysław Kłopotek. wyd. 1, 1. dodr. (PWN). Warszawa, Spis treści

Równania liniowe. Rozdział Przekształcenia liniowe. Niech X oraz Y będą dwiema niepustymi przestrzeniami wektorowymi nad ciałem

Matematyczne Podstawy Informatyki

ZLICZANIE REKURENCYJNE

TEORETYCZNE PODSTAWY INFORMATYKI

Metody uporządkowania

Lista. Algebra z Geometrią Analityczną. Zadanie 1 Przypomnij definicję grupy, które z podanych struktur są grupami:

Wykład 2. Przykład zastosowania teorii prawdopodobieństwa: procesy stochastyczne (Markova)

EGZAMIN MAGISTERSKI, czerwiec 2015 Biomatematyka

Transkrypt:

1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów

2 Dane w postaci grafów

Przykład: social network 3

Przykład: media network 4

Przykład: information network 5

Przykład: communication network 6

Przykład: technological network 7

Web jako graf 8 Web jako skierowany graf Węzły: strony internetowe Strzałki: hyperlinki

Web jako skierowany graf 9

Jak organizować web 10 Pierwsza próba: ręcznie tworzone katalogi Yahoo, DMOZ, LookSmart Następna próba: WebSearch Przeszukiwanie zawartości stron z małych i wiarygodnych podzbiorów: artykuły w gazetach, patenty, etc. Ale: Web jest ogromny, wiarygodność stron trudna do weryfikacji, spamowanie web, itd.

Podstawowe wyzwania 11 W jaki sposób sprawdzać że strona jest wiarygodna? Jaka jest najlepsza odpowiedź na hasło gazeta? Nie ma jednej najlepszej odpowiedzi Strony które pokazują informacje na temat gazet mogą dotyczyć wielu różnych gazet

Które strony są najważniejsze? 12 Nie wszystkie strony są tak samo ważne Zróbmy ranking stron ze względu na ilość linków

Algorytmy do analizy linków 13 Wiele różnych algorytmów zostało rozwiniętych Omówię algorytm PageRank używany przez Google. Każdy link liczy się jako punkt, bardziej ważna strona to ta która ma więcej linków: Wchodzących? Wychodzących? A linki a ważnych stron do danej strony powinny się liczyć bardziej! Hm.. To wygląda jak pytanie rekurencyjne..

Przykład: PageRank punktacja 14

Prosta rekurencyjna formuła 15 Wartość każdego linku jest proporcjonalna do wartości strony z której wychodzi Jeżeli strona j z wartością r j na n-wychodzących linków to każdy ma wartość r j /n. Wartość strony j jest sumą wartości linków do niej wchodzących.

PageRank: flow model 16 Link z ważnej strony jest więcej warty Strona jest ważna jeżeli jest wskazywana przez wiele innych stron. Zdefiniujemy rank strony

Rozwiązanie dla flow równania 17 3 równiania, 3 niewiadome, nie ma stałej Nie ma jednego rozwiązania Dodatkowy warunek dot. Normalizacji Układ równań możemy rozwiązać np. metodą eliminacji Gaussa. Ale potrzebujemy czegoś lepszego

Interpretacja macierzowa 18 Ponieważ kolumny normalizowane do 1 => interpretacja prawdopodobieństwowa. Page i ma d i out-link Jeżeli i -> j, to M ji = 1/d i, w pozostałych M ji = 0 Kolumny tej macierzy sumują się do 1 Oznaczmy r i = rank strony Równanie flow

Przykład 19

Power iteration 20 Jak efektywnie możemy rozwiązać takie równanie? Metoda power iteration Wektor r jest wektorem własnym macierzy prawdopodobieństwa.

Przykład 21

Power iteration metoda 22 Mając dany graf z N węzłami, gdzie każdy węzeł to są strony a skierowane krawędzie to są hiperlinki Zainicjalizuj r(0) = [1/N,. 1/N] T Iteruj: r (t+1) = M r (t) Zatrzymaj jeżeli r (t+1) r (t) 1 < e

Przykład 23

Błądzenie przypadkowe 24 Oglądamy przypadkowe strony internetowe W momencie t, jesteśmy na stronie i W czasie (t+1) przechodzimy losowo na jedna ze stron podłączonych ze strony i W pewnym momencie kończymy na stronie j Powtarzamy ten krok nieskończoną ilość razy.

Rozkład stacjonarny 25 Na jakiej stronie jesteśmy w czasie (t+1)? Błądzimy losowo Załóżmy że rozwiązanie jest stacjonarne Nasze orginalne równanie to było

Procesy Markova 26 Dla grafów które spełniają pewne warunki rozwiązanie stacjonarne będzie osiągnięte niezależnie od warunków początkowych. To rozwiazanie jest jednoznaczne.

PageRank wg. Googla 27 Trzy pytania: Czy rozwiązanie zbieżne? Czy zbieżne do rozwiązania które oczekujemy? Czy rozwiązanie jest rozsądne?

Czy rozwiązanie jest zbieżne? 28 Spider trap problem

29 Czy zbieżne do tego co oczekujemy? Dead end problem

PageRank: problemy 30 Niektóre strony są dead end czyli nie mają wychodzacych linków Takie strony powodują wyciekanie informacji o ważności stron Niektóre grupy stron tworzą spider traps czyli wszystkie out-linki są do zamkniętej grupy stron. I wtedy tak grupa stron zaasimiluje wszystkie punkty ważności stron.

Spider Traps 31

Rozwiązanie: teleportacja 32 W każdym kroku błądzenia można z prawdopodobieństwem b pójść jedną z wychodzących ścieżek z prawdopodobieństwem (1 b) przeskoczyć na losowo wybraną stronę Najczęściej stosowane wartości b = 0.8-0.9

Problem: dead end 33

Rozwiązanie: teleportacja 34 Zawsze przeskocz do losowo wybranej strony Odpowiednio zmodyfikuj macierz przejść

Teleportacja 35 Powoduje że macierz staje się stochastyczna

Teleportacja 36 Powoduje że macierz staje się aperiodyczna i nieredukowalna Niezerowe prawdopodobieństwo Przejścia z każdego stanu do każdego innego.

Rozwiązanie Googla 37

Rozwiązanie Googla 38

Przykład 39

PageRank: kompletny algorytm 40