Walka ze spamem przy wykorzystaniu TrustRank

Wielkość: px
Rozpocząć pokaz od strony:

Download "Walka ze spamem przy wykorzystaniu TrustRank"

Transkrypt

1 Walka ze spamem przy wykorzystaniu TrustRank (Na podstawie artykułu: Combating Web Spam with TrustRank ) Streszczenie Wraz z rozwojem sieci, wyszukiwarki odgrywają kluczową rolę w coraz większym stopniu pozwalając użytkownikom znaleźć interesujące informacje. Jednak dziś wyszukiwarki są poważnie zagrożona przez złośliwy spam internetowy, który próbuje obalić bezstronność wyników wyszukiwania. Wyszukiwarki internetowe zwalczają obecnie spam internetowy przy wykorzystaniu różnych często własnych zastrzeżonych technik. Omówiony artykuł jest próbą sformalizowania problemu i ma na celu wprowadzenie kompleksowego rozwiązania pomocnego w wykrywaniu spamu internetowego. Spamerskie strony internetowe korzystają z różnych technik w celu osiągnięcia wyższej niż zasłużona pozycji w rankingu wyszukiwarki internetowej. Podczas gdy eksperci mogą ręcznie zidentyfikować spam, to jest to zbyt drogie, aby ręcznie sprawdzać tak ogromne ilości stron. W artykule przedstawione zostały technik półautomatyczne do oddzielania renomowanych, dobrych stron od spamu. Zasada polega na tym, że najpierw wybierany jest mały zestaw stron materiału siewnego do ręcznej oceny przez ekspertów. Po ręcznym określeniu renomowanych/wartościowych stron materiału siewnego, wykorzystywana jest struktura linków dostępnych w sieci w celu odkrycia innych stron, które mogą być dobre. W artykule przedstawione zostały możliwe sposoby realizacji selekcji materiału siewnego oraz odkrycia dobrych stron. Wyniki pokazują, że można skutecznie odfiltrować spam ze znacznej części sieci, w oparciu o dobry materiał siewny określony poniżej 00 stron.

2 Wprowadzenie Spam internetowy odnosi się do linkowania stron WWW, które są tworzone z zamiarem wprowadzenia wyszukiwarek w błąd. Na przykład autorzy stron tworzą spam poprzez dodanie tysięcy słów kluczowych do strony głównej, często czyniąc je niewidzialnym dla ludzi, poprzez pomysłowe użycie kolorów, itp. Wyszukiwarka następnie indeksuje te dodatkowe słowa kluczowe i zwraca daną stronę w odpowiedzi na zapytanie z nią nie powiązane. Inną techniką spamowania Internetu jest umieszczenie dużej liczby fałszywych stron internetowych, wskazujących na jedną stronę docelową. Ponieważ wiele wyszukiwarek bierze pod uwagę liczbę linków przychodzących, pozycja strony docelowej prawdopodobnie wzrośnie i pojawi się wyżej w wynikach wyszukiwania. Podobnie jak w przypadku spamu rozsyłanego przez pocztę , określenie, czy strona lub grupa stron jest spamem jest subiektywne. Jednak, podobnie jak w przypadku spamu , większość ludzi może łatwo zidentyfikować nachalny i rażący spam internetowy. Na przykład większość zgodzi się, że jeśli duża część tekstu na stronie jest ukrywana przed użytkownikiem (jak wspomniano powyżej) i nie jest powiązana z głównym tematem strony, to strona została zbudowana z zamiarem wprowadzenia w błąd. Podczas gdy większość ludzi zgodzi się, że są to rażące przypadki spamu internetowego, nie oznacza to, że wykrycie takich przypadków jest łatwe dla komputerów/robotów wyszukiwarek. Firmy do których należą wyszukiwarki zazwyczaj zatrudniają pracowników, którzy specjalizują się w wykrywaniu spamu internetowej, stale skanując sieć w poszukiwaniu tego typu stron. Jeśli strona ze spamem zostanie zidentyfikowany, wyszukiwarka przestanie indeksować treść takiej strony. Taki proces wykrywania spamu jest jednak bardzo kosztowny i długotrwały, ale jest kluczem do sukcesu w wyszukiwarkach, w przeciwnym razie jakość wyników wyszukiwania może znacznie się pogorszyć. Ponieważ algorytmiczna identyfikacja spamu jest bardzo trudna, mechanizmy opisane w artykule nie działają zupełnie bez pomocy człowieka. Głównym proponowany algorytm również wymaga pomocy człowieka. Algorytm najpierw wybiera mały zestaw stron (tzw. materiał siewny ), który musi być następnie zbadany przez człowieka, w celu określenia które ze stron są spamem (złe strony), a które nie (dobre strony). Dopiero wówczas, algorytm określa inne stron, które mogą być dobre w oparciu o połączenia (linki) między nimi, a dobrymi stronami z materiału siewnego. W omawianym artykule poruszone zostały następujące kwestie: Sformalizowany został problem spamu internetowego oraz przedstawiony został algorytm wykrywania spamu. Zdefiniowane zostały miary badające skuteczność algorytmów wykrywania spamu. Przedstawione zostały modele wyboru stron materiału siewnego do ręcznej oceny. Przedstawiony został algorytm TrustRank do określenia prawdopodobieństwa, ze strony są wartościowe. Podsumowanie otrzymanych wyników oceny, która została przeprowadzona w oparciu o 3 mln stron internetowych zindeksowanych przez wyszukiwarkę AltaVista oraz wyników ręcznego zbadania ponad 000 serwisów internetowych

3 Wstęp Model sieci W prezentowanych algorytmach sieć została przedstawiona w postaci grafu składającego się z zestawu stron (serwisów), będących wierzchołkami grafu oraz zestawu linków będących krawędziami grafu, łączącymi strony W przypadku kiedy z jednej strony do drugiej prowadzi kilka linków, łączone są one w jeden link, a ponadto usuwane są wszystkie linki prowadzące z danej strony do samej siebie. Rysunek przedstawia bardzo prosty wykres czterech stron www i czterech linków. 3 4 Rysunek : Prosty graf stron internetowych Strony, do których nie prowadzą żadne linki są nazywane niepolecanymi stronami, natomiast strony bez linków na zewnątrz są nazywane niepolecającymi stronami. Stron, które są jednocześnie 'niepolecanymi i niepolecającymi to tzw strony odizolowane. Na przykład strona z rysunku jest stroną niepolecaną, a strona 4 jest strona niepolecającą. Wprowadzone zostały również dwie macierze reprezentujące graf sieci, które odgrywać będą dalej istotną rolę: macierz przejścia (T) i odwrócona macierz przejścia (U): T = 0 0 0, U = PageRank PageRank jest powszechnie znanym algorytmem, który wykorzystuje informacje przekazywane przez linki, aby przypisać wszystkim stronom w sieci globalny wynik znaczenia. Model algorytmu opisanego w artykule opiera się na PageRank, tak więc poniżej przestawiony zostanie jego krótki opis. Zasada kryjąca się za PageRank polega na tym, że dana strona internetowa jest ważna, gdy kilka innych ważnych stron internetowych na nią wskazuje. Inaczej, PageRank opiera się na wzajemnym wspieraniu się stron. PageRank jest rozwinięciem heurystyki, wedle której jakość tekstu jest proporcjonalna do liczby tekstów na niego się powołujących. Ulepszenie zaproponowane w przypadku PageRank polega na ważeniu jakości odnośników wskazujących na rozpatrywaną stronę, ich własną wartością PageRank. Innymi słowy: jeśli na daną stronę powołuje się strona, który sama ma wysoką ocenę, ma to większe znaczenie, niż gdy na tą samą stronę powołuje się mało popularna strona.

4 PageRank można obliczyć iteracyjnie, na przykład, przy zastosowaniu metody Jacobiego. Jednak podczas gdy w ściśle matematycznym znaczeniu, powtórzenia powinny być prowadzone aż do zbieżności, to w przypadku algorytmów PageRank bardziej rozpowszechnione jest stosowanie tylko stałej liczby powtórzeń M. Ocena zaufania Funkcje Oracle i Trust Tak jak wspomniane zostało na początku, określenie, czy strona jest spamem jest subiektywne i wymaga ludzkiej oceny. W artykule sformalizowane zostało pojęcie ludzkiej kontroli strony pod względem spamu i wprowadzona została binarna funkcja Oracle (wyrocznia), która zwraca wartość 0 w przypadku gdy dana strona jest zła (tzn. jest spamem) i wartość w przypadku kiedy jest ona dobra (wartościowa). 3 4 * dobra strona zła strona Rysunek : Fragment sieci składający się z dobrych (białe) i złych (czarne) stron Rysunek przedstawia siedem stron internetowych gdzie dobre strony są zaznaczone jako białe, a złe strony jako czarne. W tym przykładzie, wywołując funkcję Oracle dla stron od do 4, funkcja zwróci wartość, a dla stron od 5 do 7 wartość 0. Ponieważ wywołania funkcji Oracle są kosztowne i czasochłonne, tak więc należy unikać sytuacji w której byłaby ona wywoływana dla wszystkich stron. Aby odkrywać dobre strony bez odwoływania się do funkcji Oracle w przypadku wszystkich stron w sieci, w celu wyodrębnienia przybliżonego zestawu dobrych stron, można powołać się na ważną obserwację empiryczną, a mianowicie, że dobre strony rzadko wskazują na złe. Zasada ta jest dość intuicyjna, zakłada, że złe strony są zbudowane tak aby wprowadzić wyszukiwarki w błąd, nie dostarczają użytecznych informacji. Dlatego osoby tworzące dobre strony nie mają powodów aby linkować do złych stron. Jednak twórcy dobrych stron mogą również czasem zostać oszukani, więc nie da się całkowicie uniknąć linków ze stron dobrych do złych. (Na rysunku istnieje jeden taki link prowadzący ze

5 strony 4 do strony 5, został on oznaczony gwiazdką). Na przykład, biorąc pod uwagę jakieś dobre, ale niemoderowane forum, spamerzy mogą dołączać linki do stron spamerskich jako część wiadomości, wyglądającej pozornie jako niewinny post. W taki sposób dobre strony forum będą linkować do złych stron. Innym przykładem może być sytuacja, kiedy to spamerska strona oferuje tzw honey pot, czyli zestaw stron, które dostarczają przydatnych zasobów (np. kopie niektórych stron dokumentacji, itp), ale zawierają również ukryte linki do innych spamerskich stron. Honey pot przyciąga nieświadomych ludzi i zachęca do tego, aby wskazywali na niego, zwiększając tym samym pozycje w rankingu stron spamerskich. Zasada ta nie działa w drugą stronę, a mianowicie strony spamerskie mogą i faktycznie często linkują do dobrych stron. Do oceny stron, bez powoływania się na funkcję Oracle, dla każdej z nich powinno zostać oszacowane prawdopodobieństwa, że dana strona jest dobra. Bardziej formalnie, zdefiniowana została funkcja Trust, która daje zakres wartości od 0 (strona zła) do (strona dobra). Poniżej przedstawione zostaną trzy wartości funkcji Trust, które będą wykorzystywane w dalszej części dokumentu: Najlepiej byłoby, gdyby dla każdej strony, funkcja Trust dała prawdopodobieństwo tego, że jest ona dobra (równa ) wówczas byłaby to Idealna Własność Zaufania ( Trust ). Aby to zilustrować, można rozważyć zbiór na przykład 00 stron i założyć, że wartość zaufania każdej z tych stron wynosi powiedzmy 0,7. Ponadto wszystkie 00 stron powinno zostać ocenionych również przy wykorzystaniu funkcji Oracle. Wtedy, jeśli funkcja Trust działa prawidłowo, dla 70 stron ocena funkcji Oracle powinna być równa, a dla pozostałych 30 stron równa 0. W praktyce bardzo trudno jest zachować, wykorzystując funkcję Trust, opisaną własność. Jednak, mimo, że funkcja Trust w większości przypadków nie daje dokładnego pomiaru prawdopodobieństwa, może być przydatna do porównania w odniesieniu do pozostałych stron czy ich prawdopodobieństwo jest dobre. Oznacza to, że jeśli mamy dwie strony i pierwsza z nich w porównaniu z drugą, ma niższą wartość zaufania ( Trust ), wówczas informuje to o tym, że mniej prawdopodobne jest to, że pierwsza strona jest dobra niż strona druga. W rezultacie taka funkcja jest przydatna do porządkowania wyników wyszukiwania, dając pierwszeństwo stronom, w przypadku których istnieje większe prawdopodobieństwo, że są dobre. Jest to tzw. Porządkująca Własność Zaufania ( Trust ) Kolejnym sposobem na określenie zaufania jest wprowadzenie Progowej Własności Zaufania ( Trust ). Oznacza to, że jeśli dana strona otrzymuje wynik powyżej określonej wartości progowej, wówczas wiadomo, że jest ona dobra. W przeciwnym wypadku nie można nic powiedzieć o takiej stronie. Taka funkcja Trust, powinna przynajmniej być w stanie określić, że pewien podzbiór stron z wynikiem zaufania powyżej określonej wartości progowej jest dobry, jednak funkcja ta nie porządkuje stron w oparciu o ich prawdopodobieństwo bycia dobrymi.

6 Miary oceny W tej części przedstawione zostały trzy miary, które pozwalają ocenić, czy dana funkcja Trust spełnia niektóre pożądane właściwości. Wybrany został przykładowy zestaw X stron internetowych, dla których można powoływać się zarówno na funkcję Trust jak i Oracle. Wówczas można ocenić jak dobrze pożądana własność jest osiągnięta w tym zbiorze. Pierwsza miara, Pairwise orderedness, jest związana z porządkującą własnością zaufania. Dla wszystkich stron wywoływana została binarna funkcja sygnalizująca jeśli zła strona otrzymała ocenę zaufania Trust równą lub wyższą niż strona dobra (naruszenie porządkującej własności zaufania). Następnie wygenerowano ze zbioru X podzbiór P uporządkowanych par stron (p, q) i obliczono ułamek dla tych par stron, dla których funkcja Trust nie popełniła błędu. Tak więc, jeśli Pairwise orderedness wynosi, wówczas nie ma przypadków, aby funkcja Trust źle oceniła pary stron. Natomiast jeśli Pairwise orderedness wynosi 0, to funkcja Trust źle oceniła wszystkie pary. Kolejne dwie miary związane są z progową własnością zaufania. Istotne jest, aby myśleć o wykonywaniu funkcji Trust w odniesieniu do powszechnie stosowanych miar Precision (precyzja) i Recall (kompletność) dla określonej wartości progowej. Precyzję definiujemy jako ułamek dobrych stron mających wynik zaufania powyżej określonej wartości progowej do wszystkich stron zestawu X, które maja wynik zaufania powyżej tej wartości. Podobnie definiujemy kompletność - jako stosunek liczby dobrych stron z wynikiem zaufania powyżej określonej wartości progowej i całkowitej liczby dobrych stron w zbiorze X. Automatyzacja oceny zaufania Aby wyznaczyć prawidłową funkcję zaufania ( Trust ), rozpoczęto od prostych rozwiązań, aby potem połączyć zebrane uwagi i zbudować algorytm TrustRank. Biorąc pod uwagę ograniczony budżet L na wywołania funkcji Oracle, bezpośrednio wybrano losowy zbiór materiału siewnego S z L stron i wywołana dla tych stron funkcje Oracle. Oznaczono podgrupy dobrych i złych stron materiału siewnego odpowiednio przez S+ i S-. Dla pozostałych stron, nie kontrolowanych przez eksperta, ustawiono ocenę zaufania na /, aby zasygnalizować w ich przypadku brak informacji. Dlatego nazywamy tę funkcję Ignorant Trust (nie wiedza zaufania) Na przykład dla rysunku i L równego 3, losowo wybrany zestaw nasion może wyglądać następująco: S = {,3,6}. Niech o i t oznaczają odpowiednio wektory: wynik funkcji Oracle i ocenę zaufania dla każdej ze stron. W tym przypadku: o = [,,,, 0, 0, 0], t = [, /,, /, /, 0, / ]. Do oceny wyników funkcji Ignorant Trust, założono, że zbiór X składa się ze wszystkich 7 stron, i że brane są pod uwagę wszystkie możliwe 4 uporządkowane pary stron. Ocena Pairwise

7 orderedness wyniosła 7/. Podobnie dla określonej wartości progowej na poziomie /, precyzja równa się, podczas gdy kompletność wynosi /. Rozprzestrzenianie zaufania W kolejnym kroku automatyzacji oceny zaufania, skorzystano z przybliżonej izolacji dobrych stron. Wybrano losowo zbiór S z L stron, na których wykonano funkcję Oracle. Potem, oczekując, że dobre strony wskazują tylko na inne dobre strony, przypisano ocenę do wszystkich stron, do których można było dojść ze stron zbioru S+ w M lub mniej kroków. Pozostałe strony otrzymały wartość /. Ścieżka taka o maksymalnej długości M, nie może zawierać złych stron materiału siewnego. M Pairwise Ordneredness Precyzja Kompletność 9/ 3/4 3 7/ 4/5 Tabela : Wykonanie funkcji zaufania dla M kroków, M = {,,3} Na przykład dla rysunku i zbioru materiału siewnego S = {,3,6}, ocena zaufania właściwa dla trzech różnych wartości M prezentuje się w następujący sposób: M = : t = [,,, /, /, 0, / ], M = : t = [,,,, /, 0, / ], M = 3 : t3 = [,,,,, 0, /]. Oczekiwano, że funkcja zaufania w M krokach wykonuje się lepiej niż funkcja Ignorant Trust. Rzeczywiście, tabela pokazuje, że dla M = i M =, zarówno Pairwise Orderedness, jak i kompletność rosną, a precyzja pozostaje na poziomie. Istnieje jednak spadek wydajności dla M = 3. Powodem jest to, że zła strona 5 otrzymuje ocenę na poziomie ze względu na link od dobrej strony 4 (oznaczony gwiazdką na rysunku ). Problem z zaufaniem osiąganym w M-krokach jest taki, że nie ma absolutnej pewności, że strony osiągalne z dobrych nasion są rzeczywiście dobre. W rzeczywistości, im dalej od dobrych stron materiału siewnego, tym mniej jest pewne, że strona jest dobra. Na przykład, na rysunku są strony (tj. strona i 4), które mają co najwyżej linki od dobrych stron materiału siewnego. Jak obie są dobre, prawdopodobieństwo, że osiągniemy dobre strony w maksymalnie krokach wynosi. Podobnie, liczba stron osiągalnych z dobrej strony materiału siewnego w maksymalnie 3 krokach wynosi 3. Tylko dwie z nich (strony i 4) są dobre, podczas gdy strona 5 jest zła. Tak więc prawdopodobieństwo znalezienia dobrej strony spada do /3.

8 Osłabienie zaufania Obserwacje z punktu poprzedniego sugerują, że zaufanie zmniejsza się im dalej od dobrej strony materiału siewnego. Istnieje wiele sposobów na osiągnięcie tego osłabienia zaufania. Poniżej opisane zostały dwa możliwe schematy. Rysunek 3 przedstawia pierwszy pomysł, który nazywano tłumieniem zaufania ( trust dampening ). Do strony istnieje jeden link od dobrej strony materiału siewnego (strona ), w związku z czym przypisuje się jej ocenę zaufania β gdzie β <. Z kolei strona 3 jest dostępna w jednym kroku ze strony (strona z oceną β), dlatego dostaje ocenę β β. dobra strona β β materiału siewnego β β β 3 t()= t()= β t(3)= β Rysunek 3: Tłumienie zaufania Druga technika osłabiania zaufania, którą nazywano podziałem zaufania ( trust splitting ), oparta została na następującej obserwacji: staranność, z jaką ludzie dodają linki do swoich stron jest często odwrotnie proporcjonalna do liczby linków na stronie. Oznacza to, że jeśli strona ma tylko kilka dobrych linków prowadzących na zewnątrz, to jest prawdopodobne, że wskazywane strony są również dobre. Jeżeli jednak dobra strona ma bardzo dużo linków zewnętrznych to, jest bardziej prawdopodobne, że niektóre z nich wskazują na strony złe. Obserwacja ta prowadzi do pojęcia podziału zaufania, jakie rozprzestrzenia się do innych stron: jeżeli pewna strona p ma swoją określoną ocenę zaufania i wskazuje na pewną ilość stron, to każda z tych stron otrzyma od strony p ocenę w postaci ułamka jej zaufania i liczby stron na które wskazuje. W tym przypadku rzeczywista ocena każdej strony będzie sumą ułamków ocen otrzymaną z wszystkich linków przychodzących. Im większa jest ta rzeczywista ocena, tym bardziej prawdopodobne, że dana strona jest dobra. dobra strona materiału siewnego t()= t()= dobra strona materiału siewnego / / 5/ /3 /3 /3 3 t(3)= 5/6 Rysunek 4: Podział zaufania 5/

9 Rysunek 4 przedstawia podział zaufania. Dobra strona materiału siewnego (strona ) posiada dwa linki zewnętrzne, więc rozprowadza po połowie swoją ocenę do obu stron, na które wskazuje. Z kolei inna dobra strona materiału siewnego (strona ) posiada trzy linki zewnętrzne, więc każdej stronie na którą wskazuje przekazuje jedną trzecią swojej wartości. Ocena strony 3 będzie wówczas wynosić / +/3 = 5/6. Algorytm TrustRank Algorytm TrustRank, oblicza ocenę zaufania przy wykorzystaniu grafów stron internetowych. Wejściem do algorytmu jest graf składający się z macierzy przejścia T i liczby stron internetowych oraz parametry, które kontrolują jego wykonanie (L, M liczba powtórzeń/kroków, α współczynnik osłabienia). W pierwszym kroku algorytm wykonuje funkcję wyboru stron materiału siewnego, która zwraca wektor s. Dla przykładu z rysunku funkcja ta zwraca następujący wektor: s = [0,08, 0,3, 0,08, 0,0, 0,09, 0,06, 0,0]. W kolejnym kroku porządkowane są wszystkie strony materiału siewnego w oparciu o ich ocenę zawartą w wektorze s. Dla omawianego przykładu otrzymano: δ = [, 4, 5,, 3, 6, 7]. Oznacza to, że strona jest najbardziej pożądaną stroną z materiału siewnego, kolejna jest strona 4, i tak dalej. W kroku trzecim wywoływana jest funkcja Oracle dla najbardziej pożądanych L stron materiału siewnego. W przypadku strony dobrej jej wartość ustawiana jest na, a w przypadku strony złej na 0 i na tej podstawie tworzony jest wektor d. W kroku czwartym normalizuje się wektor d, tak aby jego wpisy sumowały się do. W omawianym przykładzie, przy założeniu, że L = 3, a zbiór materiału siewnego jest {,4,5}, strony i 4 są dobrymi stronami, a wektor dystrybucji ocen statycznych ma postać: d = [0, /, 0, /, 0, 0, 0]. W kroku piątym wyznaczana jest wartość TrustRank przy wykorzystaniu do obliczeń jednostronnego PageRank oraz wektora d. W kroku tym wykorzystywane są również opisane wcześniej: tłumienie zaufania i podział zaufania w każdej iteracji wynik zaufania danego węzła jest dzielony między sąsiadów i osłabiony przez współczynnik α. Dla omawianego przykładu, zakładając, że α = 0,85 i M = 0, algorytm oblicza następujący wynik: t* = [0, 0.8, 0., 0.5, 0.3, 0.05, 0.05].

10 Warto zwrócić uwagę na to że ze względu na iteracyjny sposób rozprzestrzeniania oceny zaufania, dobre strony materiału siewnego (tj. i 4) nie mają wysokiej oceny zaufania, jednak oceny te nadal są najwyższe spośród ocenianych stron. Dodatkowo warto zauważyć, że dobra strona z materiału siewnego (strona 4) ma niższą punktację niż dobra strona materiału siewnego (strona ). Jest to spowodowane strukturą linków w tym przykładzie: strona posiada linki przychodzące z wysoko punktowanej strony (strona 3), podczas gdy strona 4, nie. Tak więc, przedstawiony algorytm TrustRank "poprawia" wyniki otrzymane w wyniku wywołania funkcji Oracle, Analizując przykład można zauważyć, że algorytm TrustRank zwykle daje dobrym stronom wyższą ocenę. W szczególności, trzy z czterech stron dobrych (tj. strony, 3 i 4), mają wyższy wynik i dwie z trzech stron złych (tj. strony 6 i 7) mają niższe wyniki. Jednak nie udało się przypisać odpowiednich wyników stronom i 5. Strona nie była jednym z nasion, i nie miała linków przychodzących, dzięki którym mogłaby akumulować punkty, więc jej ocena pozostała równa 0. Wszystkie dobre ale niepolecane stron internetowe są podobne traktowanie, chyba że są wybrane do zbioru stron materiału siewnego. Zła strona 5 otrzymała wysoki wynik, ponieważ jest ona bezpośrednio wskazana przez dobrą stronę.dalej pokazane zostanie, że mimo błędów, jak te opisane powyżej, algorytm TrustRank jest w stanie poprawnie zidentyfikować znaczną liczbę dobrych stron. Wybór stron materiału siewnego Wybór stron materiału siewnego polega na znalezieniu stron, które będą najbardziej przydatne w identyfikacji dodatkowych dobrych stron. Jednocześnie, zbiór stron materiału siewnego powinien być nieduży, w celu ograniczenia liczby wywołań funkcji Oracle. Poniżej przedstawione zostaną dwie strategie wyboru stron materiału siewnego, dodatkowo istniej jeszcze strategia polegająca na losowym wyborze stron. Odwrotny PageRank Ponieważ zaufanie wypływa z dobrych stron materiału siewnego, jednym z podejść jest preferowanie stron, z których można dotrzeć do wielu innych stron. W szczególności, można wybrać strony materiału siewnego, na bazie liczby ich linków zewnętrznych. Dla przykładu z rysunku, odpowiednim zbiorem stron materiału siewnego dla L = będzie S = {,5}, ponieważ strony i 5 mają największą liczbę linków prowadzących na zewnątrz (po dwa). Podążając tym tokiem rozumowania, zakres ten można zwiększyć jeszcze bardziej. Można budować zestaw stron materiały siewnego z tych stron, które wskazują na wiele stron, które to również prowadzą do wielu stron i tak dalej. Takie podejście prowadzi do schematu ściśle związanego z PageRank, różnica jest taka, że w tym przypadku znaczenie strony zależy od liczby linków wychodzących a nie przychodzących, w związku z czym algorytm ten nazwano odwrotnym Page- Rank. Obliczenia są takie same jak w tradycyjnym algorytmie PageRank, z takim wyjątkiem, że wykorzystywana jest odwrócona macierz przejścia U zamiast zwykłej macierzy przejścia T.

11 Dla przykładu z rysunku, odwrócony algorytm PageRank (α= 0,85, M = 0) daje wynik: s = [0,08, 0,3, 0,08, 0,0, 0,09, 0,06, 0,0]. Dla wartości L = 3, zbiór materiału siewnego S = {,4,5}. Dobry zestaw nasion to S+ = {,4}, więc strony i 4 są używane jako punkty wyjścia do podziału punktów. Ważne jest, aby pamiętać, że odwrotny PageRank jest heurystyczny. Początkowo, odwrotny PageRank nie gwarantuje maksymalnego zasięgu pokrycia. Na przykład na rysunku 5 dla L =, maksymalne pokrycie odbywa się poprzez zestaw nasion {,3} lub {,3}, jednak odwrotny PageRank daje wektor ocen: s = [0,05, 0,05, 0,04, 0,0, 0,0, 0,0, 0,0], co prowadzi do materiału siewnego zbiór S = {,} Rysunek 5: Graf dla którego odwrotny PageRank nie daje maksymalnego zasięgu Niemniej jednak, odwrócony PageRank jest atrakcyjny, ponieważ czas jego realizacji jest stosunkowo szybki. Drugim powodem tego, dlaczego odwrotny PageRank jest heurystyczny jest to, że maksymalizacja zasięgu, może nie zawsze być najlepszą strategią. Na przykład zakładając dla grafu z rysunku 5, że występuje rozprzestrzenianie się zaufania przez podział bez tłumienia, gdy do materiału siewnego wybrana zostanie tylko strona i okaże się ona być dobra, to każda ze stron: 4, 5 i 6 otrzyma wynik /3. Natomiast gdy wybrana zostanie tylko strona 3 i ona również okaże się być dobra, wówczas strona 7 dostanie ocenę. W zależności od ostatecznego celu, może być wskazane użycie strony 3, ponieważ można być bardziej pewnym, że strona ta wskazuje na stronę, nawet wtedy, gdy zbiór jest mniejszy. Jeśli jednak do porównania wykorzystywana jest wyłącznie ocena zaufania, wówczas może być lepiej, aby dowiedzieć się więcej na temat stron, nawet z mniejszą dokładnością. Wysoki PageRank Do tej pory przyjęte było, że wartość określenia strony jako dobrej lub złej jest taka sama dla wszystkich stron. Jednak może być istotne ustalenie dobrych stron, które jednocześnie pojawią się wysoko w wynikach wyszukiwania. Ponieważ jest bardziej prawdopodobne, że użytkownicy są bardziej zainteresowanych stronami znajdującymi się wysoko w wynikach wyszukiwania, bardziej użyteczne wydaje się uzyskanie dokładnych wyników zaufania dla stron znajdujących się wysoko.

12 Tak więc, druga strategia wyboru zestawu stron materiału siewnego zakłada wprowadzenie preferencji dla stron z wysokim PageRank. Ponieważ strony z wysokim PageRank często prowadzą do innych stron z wysokim PageRank, to dobre wyniki zaufania rozprzestrzeniane będą również na te strony, które mogą być na wysokich pozycjach w wynikach wyszukiwania. Wyniki badania Zestaw danych W celu oceny wyżej opisanych algorytmów, został wykonany, przez autorów artykułu, eksperymenty z wykorzystaniem pełnego zestawu stron zindeksowanych przez wyszukiwarkę AltaVista w sierpniu 003 roku. W celu zmniejszenia potrzeb obliczeniowych, badanie odbyło się na poziomie witryn, a nie poszczególnych stron internetowych. (Przedstawione wyżej metody działają równie dobrze dla poszczególnych stron, jak i dla całych witryn.) Kilka miliardów stron zostało pogrupowanych w witryny. Ponad jedna trzecia z tych stron (397046) nie była wskazywana przez żadną inną. Algorytm rozprzestrzeniania zaufania oparty jest na informacjach przekazywanych poprzez linki przychodzące, więc ta grupa stron nie mogła zostać zróżnicowana. Na szczęście, niewskazywane witryny były nisko w rankingu wyników wyszukiwania (otrzymały identyczny, minimalny wynik PageRank), więc nie miały znaczącego wpływu na prawidłowe oddzielenie dobrych i złych stron od siebie. Najpierw ręcznie ocenione zostały strony różnych witryn, w celu określenia czy są one spamem, czy nie, jak również wykonane zostały dodatkowe klasyfikacje. Ta ręczna ocena zajęła tygodnie, gdyż sprawdzanie witryny wiązało się z patrzeniem na wiele z jej stron, a także stron z nią powiązanych w celu ustalenia, czy istnieje zamiar oszukania wyszukiwarki. Zestaw stron materiału siewnego (seed set) Pierwszy eksperyment polegał na porównani strategii odwrotnego PageRank i wysokiego PageRank do wyboru materiału siewnego. Aby porównanie to odbyło się szybko, przeprowadzono eksperyment na syntetycznych grafach stron internetowych, które oddają podstawowe funkcje związane ze spamem w Internecie. Strategia oparta na odwrotnym PageRank okazała się nieznacznie lepsza w identyfikacji przydatnego zestawu stron materiału siewnego, dlatego oparto się na niej przy realizacji kolejnych eksperymentów. Po uporządkowaniu witryn w oparciu o ich wyniki odwrotnego PageRank, skupiono uwagę na najlepszych 5, 000 witrynach. Najpierw dokonano pobieżne oceny tych witryn w celu wyeliminowania niektórych problematycznych stron. Aby pozbyć się spamu usunięto z listy wszystkich witryn, te które nie zostały wymienione w żadnym z najważniejszych katalogów internetowych, zmniejszając początkowy zbiór na około 7, 900. Poprzez pobieranie próbek witryn, które były filtrowane, okazało się, że nieznaczna ilość stron renomowanych została usunięta w procesie.

13 Z pozostałych witryn, ręcznie ocenionych zostało 50 najlepszych (zestaw nasion S) i wybrano z nich 78 witryny do wykorzystania jako dobre nasiona. Na stosunkowo niewielki rozmiar zbioru dobrych stron materiału siewnego (S +) miały wpływ bardzo rygorystyczne kryteria wyboru, które zostały przyjęte. Próba/zestaw stron do oceny W celu oceny miar przedstawionych wcześniej wybrano zbiór witryn X, dla których znana była ocena Oracle. Próbę tą ustalono na 000 witryn, nie została ona wybrana losowo, gdyż. z próby losowej, duża liczba witryn byłaby bardzo mała i/lub miała niewielki PageRank, a tak jak zaznaczono wcześniej ważniejsze jest poprawne wykrywanie spamu w przypadku stron z wysokim PageRank, ponieważ strony te będą częściej pojawiać się wysoko w wynikach wyszukiwania. W celu zapewnienia różnorodności, przyjęto następujące metody pobierania próbek. Wygenerowano wykaz witryn w porządku malejącym względem ich PageRank, i podzielono je na 0 segmentów. Każdy z segmentów zawierał inną liczbę witryn, wybranych na postawie oceny Page- Rank (co 5 procent wartości całego wyniku PageRank.) W związku z tym pierwszy segment zawierał 86 witryn o najwyższym PageRanku, segment, następne 665 o niższym PageRank, a 0 segment zawierał 5 milionów witryn, do których przypisano najniższy PageRank. Rysunek 6: Skład ocenianej próby witryn Przykładowy zestaw 000 witryn zbudowano wybierając losowo po 50 witryn z każdego segmentu. Następnie wykonano ręczna ocenę Oracle na tej próbie witryn, określając czy są one spamem czy nie. Wynik procesu oceny został przedstawiony na rysunku 8, wykres kołowy, który pokazuje w jaki sposób próba rozkłada się na różne rodzaje witryn. Okazało się, że można użyć 748 z wszystkich witryn należących do próby w celu oceny TrustRank: Strony renomowane: 563 witryn zawierających wysokiej jakości treści z zerową lub nieistotną statystycznie ilością linków wskazujących na witryny spamerskie.

14 Strony organizacji: 37 witryn należących do organizacji. Podczas gdy wszystkie z nich były dobrymi stronami, to większość ich linków była automatyczna, dlatego zdecydowano się dać im odrębną etykietę, aby móc śledzić je oddzielnie. Strony reklamowe: 3 witryn działających jako cele dla banerów reklamowych. Na tych stronach brak jest rzeczywiście przydatnych treści i ich wysokie noty PageRank wynikają wyłącznie z dużej liczby automatycznych linków, które otrzymują. Niemniej jednak, nadal kwalifikują się jako dobre strony, bez żadnych oznak działalności spamerskiej. Spam: 35 witryn przybierających rożne formy spamu. Uznano te witryny za złe Z tych 748 witryn utworzono zbiór próby X. Pozostałe 5 witryny zostały uznane za nieużyteczne dla oceny TrustRank z różnych powodów: Strony prywatne: z witryny były utrzymywane na prywatnych serwerach, było niemożliwe, albo sklasyfikować je jako złe lub dobre. Alias: 35 witryn było lepiej znanych pod inną nazwą. Puste strony: 56 witryn było pustych, składających się z jednej strony, nie zawierającej przydatnych informacji. Nie istniejące strony: 96 witryn nie istniało, albo wyszukiwanie DNS nie powiodło się, lub systemy nie były w stanie nawiązać połączenie TCP/IP z odpowiednim komputerem. Nieznane/niewiadome strony: 43 witryn których nie można było właściwie ocenić, w oparciu o dostępne informacje. Te witryny pochodziły głównie z Azji Wschodniej, co stanowiło wyzwanie ze względu na brak angielskiego tłumaczenia. Wyniki W tym punkcie opisana została ocena skuteczności strategii rozmnożenia zaufania ze zbioru dobrych nasion(stron) materiału siewnego, algorytmu TrustRank i innych miar opisanych wcześniej na podstawie wybranej próby X..TrustRank: Wykorzystano algorytm TrustRank opisany w poprzednim rozdziale dla M = 0 powtórzeń i współczynnika osłabienia α = 0,85 dla 78 wybranych dobrych witryn materiału siewnego.. PageRank: PageRank był pierwotnie wysoce odporny na spamowanie, ponieważ jest środkiem o globalnym znaczeniu (ograniczone, lokalne zmiany w strukturze linków mają niewielki wpływ na ocenę). Tak więc sprawdzono, jak dobrze PageRank radzi sobie ze spamem obecnie. W tym celu wykorzystano po prostu PageRank danej witryny jako jej wartość Trust (dla M = 0 powtórzeń, ze wskaźnikiem osłabienia α = 0,85). 3. Ignorant Trust : Jak w pozostałych przypadkach wygenerowano ocenę ignorant trust witryn. Wszystkim witrynom przypisana została ocena ignorancji trust na /, z wyjątkiem 50 stron materiału siewnego, które otrzymały ocenę 0 lub.

15 Porównanie PageRank i TrustRank W punkcie tym omówiona została różnica między PageRank i TrustRank. Należy pamiętać o tym, że algorytm PageRank nie zawiera żadnej wiedzy na temat jakości serwisu, a także nie kara wyraźnie złych witryn. W rzeczywistości, można się przekonać, że stosunkowo często jest tak, że strony tworzone przez wykwalifikowanych spamerów otrzymują wysoki PageRank. Dlatego zaproponowano TrustRank, który miał rozróżnić dobre i złe strony: oczekiwano, że spamerskim witrynom nie zostanie przypisany wysoki TrustRank Rysunek 7: Dobre strony z podziałem na poszczególne segmenty PageRank Rysunek 8: Dobre strony z podziałem na poszczególne segmenty TrustRank

16 Rysunek 9: Złe strony z podziałem na poszczególne segmenty PageRank Rysunek 0: Złe strony z podziałem na poszczególne segmenty TrustRank Rysunki 7-0 dokonują porównania PageRank i TrustRank w odniesieniu do stosunku dobrych i złych witryn w każdym segmencie. Segmenty TrustRank zawierają tą samą liczbę witryn co zdefiniowane wcześniej segmenty PageRank. Segmenty 7-0 zostały połączone zarówno dla PageRank, jak i TrustRank. (Zawierają one 3 milionów witryn, do których nie prowadza żadne linki. Wszystkie te witryny otrzymały taki sam minimalny wyniki PageRank i zerowy wynik TrustRank, co uniemożliiło ich uporządkowanie.) Na rysunkach 7-0 na osi poziomej oznaczono numer segmentu odpowiednio dla PageRank i TrustRank. Natomiast pionowej osi dla pierwszych dwóch rysunków odpowiada odsetek dobrych witryn w określonym segmencie, czyli liczba dobrych witryn w danym segmencie podzielona przez liczbę wszystkich witryn tego segmentu. Jako dobre zakwalifikowano: witryny renomowane, witryny z reklamami oraz witryny organizacji; ich względny udział zaznaczony został odpowiednio w postaci żółtych, zielonych i niebieskich fragmentów. Osi pionowej na kolejnych dwóch rysunkach od-

17 powiada odsetek złych witryn w określonym segmencie. Na przykład z rysunku 0 można odczytać, że ze wszystkich użytych w próbie witryn segmentu dla TrustRank 3% jest złych, itd. Na podstawie tych danych można stwierdzić, że TrustRank jest istotnym narzędziem przy wykrywania spamu. W szczególności warto zwrócić uwagę na to, że praktycznie nie ma spamu w pierwszych pięciu segmentach TrustRank, podczas gdy występuje znaczny wzrost natężenia spamu w kolejnych segmentach. Jednocześnie, zaskakujące jest, że prawie 0% w drugim z segmentów PageRank to złe witryny. Dla PageRank, odsetek złych stron jest największy w segmentach 9 i 0 (50% spamu), co wskazuje, że prawdopodobnie jest to poziom do którego maksymalnie przeciętni spamerzy mogą dociągnąć swoje strony Rysunek : Degradacja na poziomie segmentów TrustRank Rysunek przedstawia inne spojrzenie na związek między PageRank i TrustRank. Wprowadza pojęcie degradacji (demotion), zjawisko, to polega na tym, że niektóre witryny z wyższego segmentu PageRank pojawiają się w niższym segmencie dla TrustRank. Negatywną degradacją jest promocja (promotion), która występuje wówczas gdy strony z niższego segmentu PageRank pojawia się w wyższych segmentach dla TrustRank. Na rysunku na osi poziomej oznaczono numer segmentu PageRank. Oś pionowa pokazuje średnią liczbę segmentów, różniącą witryny z określonego segmentu PageRank od ich TrustRank. Na żółto oznaczone są dobre witryny, a szare słupki oznaczają spam. Na przykład z rysunku można odczytać, że witryny spamerskie z segmentu dla Page- Rank zostały zdegradowane średnio o 7 segmentów, lądując gdzieś około segmentu 9 dla TrustRank. Przykład promocji: dobre witryny z segmentu 6 dla PageRank, pojawiają się średnio o jeden segment wyżej w porządku TrustRank. Obrazek ten raz jeszcze pokazuje bardzo dobrze, że TrustRank skutecznie usuwa większość spamu z najwyżej znajdujących się stron. Ponadto pokazuje również, że w większości przypadków dobre strony zachowują swoje oryginalną pozycję w segmencie. W związku z można stwierdzić, że TrustRank gwarantuje, że strony znajdujące się wysoko w wynikach wyszukiwania są dobre. Należy jednak zaznaczyć, że TrustRank nie jest w stanie skutecznie oddzielić niżej znajdujących się witryn

18 dobrych od złych, ze względu na brak w przypadku tych stron cechy wyróżniających, jak chociażby linków do nich prowadzących. Pairwise Orderedness W punkcie tym przedstawione zostało badanie wykorzystujące miarę Pairwise Orderedness do oceny TrustRank w odniesieniu do uporządkowanej wartości zaufania. W przypadku tego eksperymentu, stworzono zbiór P wszystkich możliwych par witryn dla kilku podgrup próby X. Zaczęto od podzbioru próby X, składającego się ze 00 witryn z najwyższym PageRank, w celu sprawdzenia TrustRank dla najważniejszych witryn. Potem, stopniowo w porządku malejącym ze względu na PageRank dodawano kolejne witryn do tego podzbioru. Ostatecznie użyto wszystkich par z 748 witryn należących do próby do obliczenia Pairwise Orderedness. Rysunek : Pairwise Orderedness Rysunek pokazuje wyniki tego eksperymentu. Oś pozioma pokazuje liczbę witryn próby użytych do oceny, a oś pionowa reprezentuje wynik Pairwise orderedness dla konkretnych rozmiarów próby. Na przykład, możemy wnioskować, że dla 500 witryn z próby z największym Page- Rank, TrustRank otrzymuje wynik Pairwise orderedness wynoszący około Rysunek pokazuje również wynik Pairwise orderedness dla Ignorant Trust i Page- Rank. Wynik Pairwise orderedness dla Ignorant Trust reprezentuje przypadki, gdy nie ma prawie żadnych informacji na temat jakości witryn. Podobnie wynik Pairwise orderedness dla Page- Rank pokazuje, jak bardzo znajomość znaczenia może pomóc w rozróżnieniu dobrych i złych stron. Jak widać, TrustRank stale przewyższa zarówno Ignorant Trust jak i PageRank. Precyzja i Kompletność Ostatni zestaw wyników eksperymentalnych, pokazano na rysunku 3, przedstawia on wyniki TrustRank w odniesieniu do parametrów precyzji i kompletności. Jako wartość progową użyto graniczną ocenę TrustRank, która oddziela 7 segment TrustRank. Na osi poziomej oznaczono nu-

19 mer segmentu, natomiast wyniki dla precyzji i kompletności przedstawione zostały na osi pionowej. Rysunek 3: Precyzja i kompletność TrustRank przypisuje najwyższe oceny dobrym witrynom, a odsetek złych zwiększa się proporcjonalnie jak przesuwamy się w kierunku niższych wyników. Co za tym idzie, precyzja i kompletność przedstawiają odpowiednio liniowy spadek i wzrost. Warto zauważyć, że wysoki wynik precyzji (0,8) związany jest z tym, że zbiór próby składał się w większości z dobrych witryn, z których wszystkie były "istotne".

PageRank i HITS. Mikołajczyk Grzegorz

PageRank i HITS. Mikołajczyk Grzegorz PageRank i HITS Mikołajczyk Grzegorz PageRank Metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Algorytm PageRank jest wykorzystywany przez popularną

Bardziej szczegółowo

INTERNET - NOWOCZESNY MARKETING

INTERNET - NOWOCZESNY MARKETING STRONA INTERNETOWA TO JUŻ ZBYT MAŁO! INTERNET ROZWIJA SIĘ Z KAŻDYM DNIEM MÓWIMY JUŻ O: SEM Search Engine Marketing, czyli wszystko co wiąże się z marketingiem internetowym w wyszukiwarkach. SEM jest słowem

Bardziej szczegółowo

Wyszukiwanie binarne

Wyszukiwanie binarne Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

AiSD zadanie trzecie

AiSD zadanie trzecie AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Dane w postaci grafów Przykład: social network 3 Przykład: media network 4 Przykład: information network

Bardziej szczegółowo

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je. Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie

Bardziej szczegółowo

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite Tomasz Boiński: 1 Pozycjonowanie stron i zastosowanie mod_rewrite Pozycjonowanie stron Promocja strony odbywa się poprzez umiejscowienie jej jak najwyżej w wynikach wyszukiwania Wyszukiwarki indeksują

Bardziej szczegółowo

Ogranicz listę klasyfikacji budżetowych do powiązanych z danym kontem księgowym

Ogranicz listę klasyfikacji budżetowych do powiązanych z danym kontem księgowym Zależności i kontrola danych budżetowych w systemie Sz@rk FK 1. Wstęp Począwszy od wersji Sz@rk FK 2011 (11.03.30) wprowadzono do programu finansowoksięgowego nowe możliwości dotyczące kontrolowania poprawności

Bardziej szczegółowo

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<< POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF. Wszystko O Pozycjonowaniu I Marketingu. >>>SEO STRONA Z SEO PORADAMI POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ

Bardziej szczegółowo

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe?

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe? Co to jest pozycjonowanie stron internetowych? Pozycjonowanie to wszelkie działania mające na celu podniesienie pozycji strony internetowej, na określone słowa kluczowe, w wyszukiwarce Google. Dlaczego

Bardziej szczegółowo

Wykład 4. Określimy teraz pewną ważną klasę pierścieni.

Wykład 4. Określimy teraz pewną ważną klasę pierścieni. Wykład 4 Określimy teraz pewną ważną klasę pierścieni. Twierdzenie 1 Niech m, n Z. Jeśli n > 0 to istnieje dokładnie jedna para licz q, r, że: m = qn + r, 0 r < n. Liczbę r nazywamy resztą z dzielenia

Bardziej szczegółowo

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

R-PEARSONA Zależność liniowa

R-PEARSONA Zależność liniowa R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe

Bardziej szczegółowo

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać?

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać? Poradnik SEO Poradnik SEO Internet to najszybciej rozwijające się medium. W Polsce jest już 15 mln użytkowników, ponad 90% z nich używa wyszukiwarki Google. Dziennie użytkownicy zadają ponad 130 milionów

Bardziej szczegółowo

Programowanie w Baltie klasa VII

Programowanie w Baltie klasa VII Programowanie w Baltie klasa VII Zadania z podręcznika strona 127 i 128 Zadanie 1/127 Zadanie 2/127 Zadanie 3/127 Zadanie 4/127 Zadanie 5/127 Zadanie 6/127 Ten sposób pisania programu nie ma sensu!!!.

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe Wykład 8: Wyszukiwarki internetowe Marcin Bieńkowski Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe (II UWr) Wykład 8 1 / 37 czyli jak znaleźć igłę w sieci Sieci komputerowe

Bardziej szczegółowo

Jak zdobywać linki z profili TR? Strona 1

Jak zdobywać linki z profili TR? Strona 1 1 Spis treści 1. Wstęp 2. Tabela profili 3. Zakładanie profili krok po kroku 4. Podsumowanie 2 1. Wstęp Witamy wszystkich w poradniku przygotowanym przez zespół SEOsklep24.pl. Tematem przewodnim niniejszej

Bardziej szczegółowo

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów Wykład 2. Reprezentacja komputerowa grafów 1 / 69 Macierz incydencji Niech graf G będzie grafem nieskierowanym bez pętli o n wierzchołkach (x 1, x 2,..., x n) i m krawędziach (e 1, e 2,..., e m). 2 / 69

Bardziej szczegółowo

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski Dane w sieciach (i inne historie) Marcin Bieńkowski Jak przechowywać dane w sieciach (strony WWW, bazy danych, ) tak, żeby dowolne ciągi odwołań do (części) tych obiektów mogły być obsłużone małym kosztem?

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie

Bardziej szczegółowo

Metrologia: organizacja eksperymentu pomiarowego

Metrologia: organizacja eksperymentu pomiarowego Metrologia: organizacja eksperymentu pomiarowego (na podstawie: Żółtowski B. Podstawy diagnostyki maszyn, 1996) dr inż. Paweł Zalewski Akademia Morska w Szczecinie Teoria eksperymentu: Teoria eksperymentu

Bardziej szczegółowo

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu XXVIII Letnia Szkoła Naukowa Metodologii Nauk Empirycznych Zakopane, 12-14.05.2014 Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu Maciej Zaborowicz Instytut Inżynierii

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Priorytetyzacja przypadków testowych za pomocą macierzy

Priorytetyzacja przypadków testowych za pomocą macierzy Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.

Bardziej szczegółowo

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH Transport, studia I stopnia rok akademicki 2012/2013 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Adam Wosatko Ewa Pabisek Pojęcie

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

POZYCJONOWANIE CHORZÓW >>>WIĘCEJ<<<

POZYCJONOWANIE CHORZÓW >>>WIĘCEJ<<< POZYCJONOWANIE CHORZÓW. Wszystko O Pozycjonowaniu I Marketingu. >>>POZYCJONOWANIE STRON W WYSZUKIWARCE POZYCJONOWANIE CHORZÓW >>>WIĘCEJ

Bardziej szczegółowo

znalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany.

znalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany. Przedstawiamy algorytmy porządkowania dowolnej liczby elementów, którymi mogą być liczby, jak również elementy o bardziej złożonej postaci (takie jak słowa i daty). Porządkowanie, nazywane również często

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ). Algorytm A* Opracowanie: Joanna Raczyńska 1.Wstęp Algorytm A* jest heurystycznym algorytmem służącym do znajdowania najkrótszej ścieżki w grafie. Jest to algorytm zupełny i optymalny, co oznacza, że zawsze

Bardziej szczegółowo

10. Wstęp do Teorii Gier

10. Wstęp do Teorii Gier 10. Wstęp do Teorii Gier Definicja Gry Matematycznej Gra matematyczna spełnia następujące warunki: a) Jest co najmniej dwóch racjonalnych graczy. b) Zbiór możliwych dezycji każdego gracza zawiera co najmniej

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Zajęcia nr. 3 notatki

Zajęcia nr. 3 notatki Zajęcia nr. 3 notatki 22 kwietnia 2005 1 Funkcje liczbowe wprowadzenie Istnieje nieskończenie wiele funkcji w matematyce. W dodaktu nie wszystkie są liczbowe. Rozpatruje się funkcje które pobierają argumenty

Bardziej szczegółowo

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Badania sondażowe Schematy losowania Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa 1 Próba jako miniatura populacji CELOWA subiektywny dobór jednostek

Bardziej szczegółowo

Usługi finansowe. Raport z badania ilościowego przeprowadzonego w Internecie. 7-25 października 2004

Usługi finansowe. Raport z badania ilościowego przeprowadzonego w Internecie. 7-25 października 2004 Usługi finansowe Raport z badania ilościowego przeprowadzonego w Internecie 7-25 października 2004 Spis treści Podsumowanie... 3 O badaniu... 6 Znajomość dostępnych w Internecie usług finansowych. Źródła

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Materiały dla finalistów

Materiały dla finalistów Materiały dla finalistów Malachoviacus Informaticus 2016 11 kwietnia 2016 Wprowadzenie Poniższy dokument zawiera opisy zagadnień, które będą niezbędne do rozwiązania zadań w drugim etapie konkursu. Polecamy

Bardziej szczegółowo

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:

Bardziej szczegółowo

Metody numeryczne w przykładach

Metody numeryczne w przykładach Metody numeryczne w przykładach Bartosz Ziemkiewicz Wydział Matematyki i Informatyki UMK, Toruń Regionalne Koło Matematyczne 8 kwietnia 2010 r. Bartosz Ziemkiewicz (WMiI UMK) Metody numeryczne w przykładach

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji. Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie

Bardziej szczegółowo

Programowanie i techniki algorytmiczne

Programowanie i techniki algorytmiczne Temat 2. Programowanie i techniki algorytmiczne Realizacja podstawy programowej 1) wyjaśnia pojęcie algorytmu, podaje odpowiednie przykłady algorytmów rozwiązywania różnych 2) formułuje ścisły opis prostej

Bardziej szczegółowo

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu 1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie

Bardziej szczegółowo

Luty 2001 Algorytmy (4) 2000/2001

Luty 2001 Algorytmy (4) 2000/2001 Mając dany zbiór elementów, chcemy znaleźć w nim element największy (maksimum), bądź najmniejszy (minimum). We wszystkich naturalnych metodach znajdywania najmniejszego i największego elementu obecne jest

Bardziej szczegółowo

POZYCJONOWANIE STRON PROGRAM >>>WIĘCEJ<<<

POZYCJONOWANIE STRON PROGRAM >>>WIĘCEJ<<< . Wszystko O Pozycjonowaniu I Marketingu. >>>OPTYMALIZACJA SERWISU POZYCJONOWANIE STRON PROGRAM >>>WIĘCEJ

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Wszystko o sitelinkach w Google AdWords No prawie wszystko ;)

Wszystko o sitelinkach w Google AdWords No prawie wszystko ;) Wszystko o sitelinkach w Google AdWords No prawie wszystko ;) Rozszerzeń reklam Google AdWords jest coraz więcej rodzajów i są one coraz bardziej powszechnie używane. Szczególnie popularne są tzw. Sitelinki

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

Podstawy działań na wektorach - dodawanie

Podstawy działań na wektorach - dodawanie Podstawy działań na wektorach - dodawanie Metody dodawania wektorów można podzielić na graficzne i analityczne (rachunkowe). 1. Graficzne (rysunkowe) dodawanie dwóch wektorów. Założenia: dane są dwa wektory

Bardziej szczegółowo

Algorytmy sztucznej inteligencji

Algorytmy sztucznej inteligencji www.math.uni.lodz.pl/ radmat Przeszukiwanie z ograniczeniami Zagadnienie przeszukiwania z ograniczeniami stanowi grupę problemów przeszukiwania w przestrzeni stanów, które składa się ze: 1 skończonego

Bardziej szczegółowo

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań Raport 1/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych z zastosowaniem

Bardziej szczegółowo

6.4 Podstawowe metody statystyczne

6.4 Podstawowe metody statystyczne 156 Wstęp do statystyki matematycznej 6.4 Podstawowe metody statystyczne Spóbujemy teraz w dopuszczalnym uproszczeniu przedstawić istotę analizy statystycznej. W szczególności udzielimy odpowiedzi na postawione

Bardziej szczegółowo

Karta pracy do doświadczeń

Karta pracy do doświadczeń 1 Karta pracy do doświadczeń UWAGA: Pola z poleceniami zapisanymi niebieską czcionką i ramkami z przerywaną linią wypełniają uczniowie uczestniczący w zajęciach. A. Temat w formie pytania badawczego lub

Bardziej szczegółowo

Porównywanie populacji

Porównywanie populacji 3 Porównywanie populacji 2 Porównywanie populacji Tendencja centralna Jednostki (w grupie) według pewnej zmiennej porównuje się w ten sposób, że dokonuje się komparacji ich wartości, osiągniętych w tej

Bardziej szczegółowo

WFiIS CEL ĆWICZENIA WSTĘP TEORETYCZNY

WFiIS CEL ĆWICZENIA WSTĘP TEORETYCZNY WFiIS LABORATORIUM Z ELEKTRONIKI Imię i nazwisko: 1. 2. TEMAT: ROK GRUPA ZESPÓŁ NR ĆWICZENIA Data wykonania: Data oddania: Zwrot do poprawy: Data oddania: Data zliczenia: OCENA CEL ĆWICZENIA Ćwiczenie

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Budowa argumentacji bezpieczeństwa z użyciem NOR-STA Instrukcja krok po kroku

Budowa argumentacji bezpieczeństwa z użyciem NOR-STA Instrukcja krok po kroku Budowa argumentacji bezpieczeństwa z użyciem NOR-STA Instrukcja krok po kroku NOR-STA jest narzędziem wspierającym budowę, ocenę oraz zarządzanie strukturą argumentacji wiarygodności (assurance case),

Bardziej szczegółowo

Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane

Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane 1 Strona wyników wyszukiwania (SERP) Strona wyników wyszukiwania to dwa obszary: PPC i SEO. Tworzą one jeden ekosystem i są współzależne, mimo,

Bardziej szczegółowo

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień. Zadanie Należy zacząć od sprawdzenia, co studenci pamiętają ze szkoły średniej na temat funkcji jednej zmiennej. Na początek można narysować kilka krzywych na tle układu współrzędnych (funkcja gładka,

Bardziej szczegółowo

Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation)

Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation) Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation) Jest to technika probabilistyczna rozwiązywania problemów obliczeniowych, które mogą zostać sprowadzone do problemu znalezienie

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

POZYCJONOWANIE STRONY SKLEPU

POZYCJONOWANIE STRONY SKLEPU . Wszystko O Pozycjonowaniu I Marketingu. >>>POZYCJONOWANIE STRON LEGNICA POZYCJONOWANIE STRONY SKLEPU >>>WIĘCEJ

Bardziej szczegółowo

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach.

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach. Wykład Przebieg zmienności funkcji. Celem badania przebiegu zmienności funkcji y = f() jest poznanie ważnych własności tej funkcji na podstawie jej wzoru. Efekty badania pozwalają naszkicować wykres badanej

Bardziej szczegółowo

Maciej Piotr Jankowski

Maciej Piotr Jankowski Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji

Bardziej szczegółowo

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<< INTERNETOWYCH. Wszystko O Pozycjonowaniu I Marketingu. >>>POZYCJONOWANIE STRON BYDGOSZCZ OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ

Bardziej szczegółowo

Jak statystyka może pomóc w odczytaniu wyników sprawdzianu

Jak statystyka może pomóc w odczytaniu wyników sprawdzianu 16 Jak statystyka może pomóc w odczytaniu wyników sprawdzianu Wyniki pierwszego ważnego egzaminu sprawdzianu w klasie szóstej szkoły podstawowej mogą w niebagatelny sposób wpływać na losy pojedynczych

Bardziej szczegółowo

Funkcja liniowa - podsumowanie

Funkcja liniowa - podsumowanie Funkcja liniowa - podsumowanie 1. Funkcja - wprowadzenie Założenie wyjściowe: Rozpatrywana będzie funkcja opisana w dwuwymiarowym układzie współrzędnych X. Oś X nazywana jest osią odciętych (oś zmiennych

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

W poszukiwaniu sensu w świecie widzialnym

W poszukiwaniu sensu w świecie widzialnym W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały

Bardziej szczegółowo

Wykład 3. Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy

Wykład 3. Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy Wykład 3 Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy Dynamiczne struktury danych Lista jest to liniowo uporządkowany zbiór elementów, z których dowolny element

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Algorytmy wyznaczania centralności w sieci Szymon Szylko Algorytmy wyznaczania centralności w sieci Szymon Szylko Zakład systemów Informacyjnych Wrocław 10.01.2008 Agenda prezentacji Cechy sieci Algorytmy grafowe Badanie centralności Algorytmy wyznaczania centralności

Bardziej szczegółowo

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010 ERGODESIGN - Podręcznik użytkownika Wersja 1.0 Warszawa 2010 Spis treści Wstęp...3 Organizacja menu nawigacja...3 Górne menu nawigacyjne...3 Lewe menu robocze...4 Przestrzeń robocza...5 Stopka...5 Obsługa

Bardziej szczegółowo

Dobra pozycja w Google? Dlaczego warto nam zaufać?

Dobra pozycja w Google? Dlaczego warto nam zaufać? Pozycja w Google to główny czynnik wpływający na popularność Twojej strony internetowej WWW. Dzięki wysokim pozycjom w wyszukiwarkach strona zyskuje coraz więcej unikalnych odwiedzin, a co za tym idzie,

Bardziej szczegółowo

Efekt motyla i dziwne atraktory

Efekt motyla i dziwne atraktory O układzie Lorenza Wydział Matematyki i Informatyki Uniwersytet Mikołaja kopernika Toruń, 3 grudnia 2009 Spis treści 1 Wprowadzenie Wyjaśnienie pojęć 2 O dziwnych atraktorach 3 Wyjaśnienie pojęć Dowolny

Bardziej szczegółowo

Wydajność systemów a organizacja pamięci, czyli dlaczego jednak nie jest aż tak źle. Krzysztof Banaś, Obliczenia wysokiej wydajności.

Wydajność systemów a organizacja pamięci, czyli dlaczego jednak nie jest aż tak źle. Krzysztof Banaś, Obliczenia wysokiej wydajności. Wydajność systemów a organizacja pamięci, czyli dlaczego jednak nie jest aż tak źle Krzysztof Banaś, Obliczenia wysokiej wydajności. 1 Organizacja pamięci Organizacja pamięci współczesnych systemów komputerowych

Bardziej szczegółowo

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości

Bardziej szczegółowo

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

WYZNACZANIE PRZEMIESZCZEŃ SOLDIS

WYZNACZANIE PRZEMIESZCZEŃ SOLDIS WYZNACZANIE PRZEMIESZCZEŃ SOLDIS W programie SOLDIS-PROJEKTANT przemieszczenia węzła odczytuje się na końcu odpowiednio wybranego pręta. Poniżej zostanie rozwiązane przykładowe zadanie, które również zostało

Bardziej szczegółowo

Instrukcja właściwego wykonania wykresów na zajęcia dydaktyczne.

Instrukcja właściwego wykonania wykresów na zajęcia dydaktyczne. Instrukcja właściwego wykonania wykresów na zajęcia dydaktyczne. 1. Wstęp Opracował: Michał Dyjak, Fizyka II r. Instrukcja dla studentów, opisująca krok po kroku jak prawidłowo sformatować wykres na potrzeby

Bardziej szczegółowo

Wartość Shapleya w grach koalicyjnych

Wartość Shapleya w grach koalicyjnych Wartość Shapleya w grach koalicyjnych Dawid Migacz, i LO w Tarnowie 1 Wprowadzenie W zasadzie każdą sytuację występującą na świecie można wymodelować matematycznie. W przypadku sytuacji, w których kilka

Bardziej szczegółowo

Metoda Karnaugh. B A BC A

Metoda Karnaugh. B A BC A Metoda Karnaugh. Powszechnie uważa się, iż układ o mniejszej liczbie elementów jest tańszy i bardziej niezawodny, a spośród dwóch układów o takiej samej liczbie elementów logicznych lepszy jest ten, który

Bardziej szczegółowo

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek Algorytmy i str ruktury danych Metody algorytmiczne Bartman Jacek jbartman@univ.rzeszow.pl Metody algorytmiczne - wprowadzenia Znamy strukturę algorytmów Trudność tkwi natomiast w podaniu metod służących

Bardziej szczegółowo

Małgorzata Zięba. 1 z :28 INFORMACJE O AUTORZE: MAŁGORZATA ZIĘBA

Małgorzata Zięba. 1 z :28 INFORMACJE O AUTORZE: MAŁGORZATA ZIĘBA 1 z 6 2015-01-24 20:28 Małgorzata Zięba INFORMACJE O AUTORZE: MAŁGORZATA ZIĘBA Autorka jest adiunktem w Katedrze Zarządzania Wiedzą i Informacją na Wydziale Zarządzania i Ekonomii Politechniki Gdańskiej.

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Publiczna Szkoła Podstawowa nr 14 w Opolu. Edukacyjna Wartość Dodana

Publiczna Szkoła Podstawowa nr 14 w Opolu. Edukacyjna Wartość Dodana Publiczna Szkoła Podstawowa nr 14 w Opolu Edukacyjna Wartość Dodana rok szkolny 2014/2015 Edukacyjna Wartość Dodana (EWD) jest miarą efektywności nauczania dla szkoły i uczniów, którzy do danej placówki

Bardziej szczegółowo

LI OLIMPIADA FIZYCZNA ETAP II Zadanie doświadczalne

LI OLIMPIADA FIZYCZNA ETAP II Zadanie doświadczalne LI OLIMPIADA FIZYCZNA ETAP II Zadanie doświadczalne ZADANIE D1 Cztery identyczne diody oraz trzy oporniki o oporach nie różniących się od siebie o więcej niż % połączono szeregowo w zamknięty obwód elektryczny.

Bardziej szczegółowo

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL #1 Wartościowa treść Treść artykułu powinna być unikatowa (algorytm wyszukiwarki nisko ocenia skopiowaną zawartość, a na strony zawierające powtórzoną treść może zostać nałożony filtr, co skutkuje spadkiem

Bardziej szczegółowo