Walka ze spamem przy wykorzystaniu TrustRank

Wielkość: px
Rozpocząć pokaz od strony:

Download "Walka ze spamem przy wykorzystaniu TrustRank"

Transkrypt

1 Walka ze spamem przy wykorzystaniu TrustRank (Na podstawie artykułu: Combating Web Spam with TrustRank ) Streszczenie Wraz z rozwojem sieci, wyszukiwarki odgrywają kluczową rolę w coraz większym stopniu pozwalając użytkownikom znaleźć interesujące informacje. Jednak dziś wyszukiwarki są poważnie zagrożona przez złośliwy spam internetowy, który próbuje obalić bezstronność wyników wyszukiwania. Wyszukiwarki internetowe zwalczają obecnie spam internetowy przy wykorzystaniu różnych często własnych zastrzeżonych technik. Omówiony artykuł jest próbą sformalizowania problemu i ma na celu wprowadzenie kompleksowego rozwiązania pomocnego w wykrywaniu spamu internetowego. Spamerskie strony internetowe korzystają z różnych technik w celu osiągnięcia wyższej niż zasłużona pozycji w rankingu wyszukiwarki internetowej. Podczas gdy eksperci mogą ręcznie zidentyfikować spam, to jest to zbyt drogie, aby ręcznie sprawdzać tak ogromne ilości stron. W artykule przedstawione zostały technik półautomatyczne do oddzielania renomowanych, dobrych stron od spamu. Zasada polega na tym, że najpierw wybierany jest mały zestaw stron materiału siewnego do ręcznej oceny przez ekspertów. Po ręcznym określeniu renomowanych/wartościowych stron materiału siewnego, wykorzystywana jest struktura linków dostępnych w sieci w celu odkrycia innych stron, które mogą być dobre. W artykule przedstawione zostały możliwe sposoby realizacji selekcji materiału siewnego oraz odkrycia dobrych stron. Wyniki pokazują, że można skutecznie odfiltrować spam ze znacznej części sieci, w oparciu o dobry materiał siewny określony poniżej 00 stron.

2 Wprowadzenie Spam internetowy odnosi się do linkowania stron WWW, które są tworzone z zamiarem wprowadzenia wyszukiwarek w błąd. Na przykład autorzy stron tworzą spam poprzez dodanie tysięcy słów kluczowych do strony głównej, często czyniąc je niewidzialnym dla ludzi, poprzez pomysłowe użycie kolorów, itp. Wyszukiwarka następnie indeksuje te dodatkowe słowa kluczowe i zwraca daną stronę w odpowiedzi na zapytanie z nią nie powiązane. Inną techniką spamowania Internetu jest umieszczenie dużej liczby fałszywych stron internetowych, wskazujących na jedną stronę docelową. Ponieważ wiele wyszukiwarek bierze pod uwagę liczbę linków przychodzących, pozycja strony docelowej prawdopodobnie wzrośnie i pojawi się wyżej w wynikach wyszukiwania. Podobnie jak w przypadku spamu rozsyłanego przez pocztę , określenie, czy strona lub grupa stron jest spamem jest subiektywne. Jednak, podobnie jak w przypadku spamu , większość ludzi może łatwo zidentyfikować nachalny i rażący spam internetowy. Na przykład większość zgodzi się, że jeśli duża część tekstu na stronie jest ukrywana przed użytkownikiem (jak wspomniano powyżej) i nie jest powiązana z głównym tematem strony, to strona została zbudowana z zamiarem wprowadzenia w błąd. Podczas gdy większość ludzi zgodzi się, że są to rażące przypadki spamu internetowego, nie oznacza to, że wykrycie takich przypadków jest łatwe dla komputerów/robotów wyszukiwarek. Firmy do których należą wyszukiwarki zazwyczaj zatrudniają pracowników, którzy specjalizują się w wykrywaniu spamu internetowej, stale skanując sieć w poszukiwaniu tego typu stron. Jeśli strona ze spamem zostanie zidentyfikowany, wyszukiwarka przestanie indeksować treść takiej strony. Taki proces wykrywania spamu jest jednak bardzo kosztowny i długotrwały, ale jest kluczem do sukcesu w wyszukiwarkach, w przeciwnym razie jakość wyników wyszukiwania może znacznie się pogorszyć. Ponieważ algorytmiczna identyfikacja spamu jest bardzo trudna, mechanizmy opisane w artykule nie działają zupełnie bez pomocy człowieka. Głównym proponowany algorytm również wymaga pomocy człowieka. Algorytm najpierw wybiera mały zestaw stron (tzw. materiał siewny ), który musi być następnie zbadany przez człowieka, w celu określenia które ze stron są spamem (złe strony), a które nie (dobre strony). Dopiero wówczas, algorytm określa inne stron, które mogą być dobre w oparciu o połączenia (linki) między nimi, a dobrymi stronami z materiału siewnego. W omawianym artykule poruszone zostały następujące kwestie: Sformalizowany został problem spamu internetowego oraz przedstawiony został algorytm wykrywania spamu. Zdefiniowane zostały miary badające skuteczność algorytmów wykrywania spamu. Przedstawione zostały modele wyboru stron materiału siewnego do ręcznej oceny. Przedstawiony został algorytm TrustRank do określenia prawdopodobieństwa, ze strony są wartościowe. Podsumowanie otrzymanych wyników oceny, która została przeprowadzona w oparciu o 3 mln stron internetowych zindeksowanych przez wyszukiwarkę AltaVista oraz wyników ręcznego zbadania ponad 000 serwisów internetowych

3 Wstęp Model sieci W prezentowanych algorytmach sieć została przedstawiona w postaci grafu składającego się z zestawu stron (serwisów), będących wierzchołkami grafu oraz zestawu linków będących krawędziami grafu, łączącymi strony W przypadku kiedy z jednej strony do drugiej prowadzi kilka linków, łączone są one w jeden link, a ponadto usuwane są wszystkie linki prowadzące z danej strony do samej siebie. Rysunek przedstawia bardzo prosty wykres czterech stron www i czterech linków. 3 4 Rysunek : Prosty graf stron internetowych Strony, do których nie prowadzą żadne linki są nazywane niepolecanymi stronami, natomiast strony bez linków na zewnątrz są nazywane niepolecającymi stronami. Stron, które są jednocześnie 'niepolecanymi i niepolecającymi to tzw strony odizolowane. Na przykład strona z rysunku jest stroną niepolecaną, a strona 4 jest strona niepolecającą. Wprowadzone zostały również dwie macierze reprezentujące graf sieci, które odgrywać będą dalej istotną rolę: macierz przejścia (T) i odwrócona macierz przejścia (U): T = 0 0 0, U = PageRank PageRank jest powszechnie znanym algorytmem, który wykorzystuje informacje przekazywane przez linki, aby przypisać wszystkim stronom w sieci globalny wynik znaczenia. Model algorytmu opisanego w artykule opiera się na PageRank, tak więc poniżej przestawiony zostanie jego krótki opis. Zasada kryjąca się za PageRank polega na tym, że dana strona internetowa jest ważna, gdy kilka innych ważnych stron internetowych na nią wskazuje. Inaczej, PageRank opiera się na wzajemnym wspieraniu się stron. PageRank jest rozwinięciem heurystyki, wedle której jakość tekstu jest proporcjonalna do liczby tekstów na niego się powołujących. Ulepszenie zaproponowane w przypadku PageRank polega na ważeniu jakości odnośników wskazujących na rozpatrywaną stronę, ich własną wartością PageRank. Innymi słowy: jeśli na daną stronę powołuje się strona, który sama ma wysoką ocenę, ma to większe znaczenie, niż gdy na tą samą stronę powołuje się mało popularna strona.

4 PageRank można obliczyć iteracyjnie, na przykład, przy zastosowaniu metody Jacobiego. Jednak podczas gdy w ściśle matematycznym znaczeniu, powtórzenia powinny być prowadzone aż do zbieżności, to w przypadku algorytmów PageRank bardziej rozpowszechnione jest stosowanie tylko stałej liczby powtórzeń M. Ocena zaufania Funkcje Oracle i Trust Tak jak wspomniane zostało na początku, określenie, czy strona jest spamem jest subiektywne i wymaga ludzkiej oceny. W artykule sformalizowane zostało pojęcie ludzkiej kontroli strony pod względem spamu i wprowadzona została binarna funkcja Oracle (wyrocznia), która zwraca wartość 0 w przypadku gdy dana strona jest zła (tzn. jest spamem) i wartość w przypadku kiedy jest ona dobra (wartościowa). 3 4 * dobra strona zła strona Rysunek : Fragment sieci składający się z dobrych (białe) i złych (czarne) stron Rysunek przedstawia siedem stron internetowych gdzie dobre strony są zaznaczone jako białe, a złe strony jako czarne. W tym przykładzie, wywołując funkcję Oracle dla stron od do 4, funkcja zwróci wartość, a dla stron od 5 do 7 wartość 0. Ponieważ wywołania funkcji Oracle są kosztowne i czasochłonne, tak więc należy unikać sytuacji w której byłaby ona wywoływana dla wszystkich stron. Aby odkrywać dobre strony bez odwoływania się do funkcji Oracle w przypadku wszystkich stron w sieci, w celu wyodrębnienia przybliżonego zestawu dobrych stron, można powołać się na ważną obserwację empiryczną, a mianowicie, że dobre strony rzadko wskazują na złe. Zasada ta jest dość intuicyjna, zakłada, że złe strony są zbudowane tak aby wprowadzić wyszukiwarki w błąd, nie dostarczają użytecznych informacji. Dlatego osoby tworzące dobre strony nie mają powodów aby linkować do złych stron. Jednak twórcy dobrych stron mogą również czasem zostać oszukani, więc nie da się całkowicie uniknąć linków ze stron dobrych do złych. (Na rysunku istnieje jeden taki link prowadzący ze

5 strony 4 do strony 5, został on oznaczony gwiazdką). Na przykład, biorąc pod uwagę jakieś dobre, ale niemoderowane forum, spamerzy mogą dołączać linki do stron spamerskich jako część wiadomości, wyglądającej pozornie jako niewinny post. W taki sposób dobre strony forum będą linkować do złych stron. Innym przykładem może być sytuacja, kiedy to spamerska strona oferuje tzw honey pot, czyli zestaw stron, które dostarczają przydatnych zasobów (np. kopie niektórych stron dokumentacji, itp), ale zawierają również ukryte linki do innych spamerskich stron. Honey pot przyciąga nieświadomych ludzi i zachęca do tego, aby wskazywali na niego, zwiększając tym samym pozycje w rankingu stron spamerskich. Zasada ta nie działa w drugą stronę, a mianowicie strony spamerskie mogą i faktycznie często linkują do dobrych stron. Do oceny stron, bez powoływania się na funkcję Oracle, dla każdej z nich powinno zostać oszacowane prawdopodobieństwa, że dana strona jest dobra. Bardziej formalnie, zdefiniowana została funkcja Trust, która daje zakres wartości od 0 (strona zła) do (strona dobra). Poniżej przedstawione zostaną trzy wartości funkcji Trust, które będą wykorzystywane w dalszej części dokumentu: Najlepiej byłoby, gdyby dla każdej strony, funkcja Trust dała prawdopodobieństwo tego, że jest ona dobra (równa ) wówczas byłaby to Idealna Własność Zaufania ( Trust ). Aby to zilustrować, można rozważyć zbiór na przykład 00 stron i założyć, że wartość zaufania każdej z tych stron wynosi powiedzmy 0,7. Ponadto wszystkie 00 stron powinno zostać ocenionych również przy wykorzystaniu funkcji Oracle. Wtedy, jeśli funkcja Trust działa prawidłowo, dla 70 stron ocena funkcji Oracle powinna być równa, a dla pozostałych 30 stron równa 0. W praktyce bardzo trudno jest zachować, wykorzystując funkcję Trust, opisaną własność. Jednak, mimo, że funkcja Trust w większości przypadków nie daje dokładnego pomiaru prawdopodobieństwa, może być przydatna do porównania w odniesieniu do pozostałych stron czy ich prawdopodobieństwo jest dobre. Oznacza to, że jeśli mamy dwie strony i pierwsza z nich w porównaniu z drugą, ma niższą wartość zaufania ( Trust ), wówczas informuje to o tym, że mniej prawdopodobne jest to, że pierwsza strona jest dobra niż strona druga. W rezultacie taka funkcja jest przydatna do porządkowania wyników wyszukiwania, dając pierwszeństwo stronom, w przypadku których istnieje większe prawdopodobieństwo, że są dobre. Jest to tzw. Porządkująca Własność Zaufania ( Trust ) Kolejnym sposobem na określenie zaufania jest wprowadzenie Progowej Własności Zaufania ( Trust ). Oznacza to, że jeśli dana strona otrzymuje wynik powyżej określonej wartości progowej, wówczas wiadomo, że jest ona dobra. W przeciwnym wypadku nie można nic powiedzieć o takiej stronie. Taka funkcja Trust, powinna przynajmniej być w stanie określić, że pewien podzbiór stron z wynikiem zaufania powyżej określonej wartości progowej jest dobry, jednak funkcja ta nie porządkuje stron w oparciu o ich prawdopodobieństwo bycia dobrymi.

6 Miary oceny W tej części przedstawione zostały trzy miary, które pozwalają ocenić, czy dana funkcja Trust spełnia niektóre pożądane właściwości. Wybrany został przykładowy zestaw X stron internetowych, dla których można powoływać się zarówno na funkcję Trust jak i Oracle. Wówczas można ocenić jak dobrze pożądana własność jest osiągnięta w tym zbiorze. Pierwsza miara, Pairwise orderedness, jest związana z porządkującą własnością zaufania. Dla wszystkich stron wywoływana została binarna funkcja sygnalizująca jeśli zła strona otrzymała ocenę zaufania Trust równą lub wyższą niż strona dobra (naruszenie porządkującej własności zaufania). Następnie wygenerowano ze zbioru X podzbiór P uporządkowanych par stron (p, q) i obliczono ułamek dla tych par stron, dla których funkcja Trust nie popełniła błędu. Tak więc, jeśli Pairwise orderedness wynosi, wówczas nie ma przypadków, aby funkcja Trust źle oceniła pary stron. Natomiast jeśli Pairwise orderedness wynosi 0, to funkcja Trust źle oceniła wszystkie pary. Kolejne dwie miary związane są z progową własnością zaufania. Istotne jest, aby myśleć o wykonywaniu funkcji Trust w odniesieniu do powszechnie stosowanych miar Precision (precyzja) i Recall (kompletność) dla określonej wartości progowej. Precyzję definiujemy jako ułamek dobrych stron mających wynik zaufania powyżej określonej wartości progowej do wszystkich stron zestawu X, które maja wynik zaufania powyżej tej wartości. Podobnie definiujemy kompletność - jako stosunek liczby dobrych stron z wynikiem zaufania powyżej określonej wartości progowej i całkowitej liczby dobrych stron w zbiorze X. Automatyzacja oceny zaufania Aby wyznaczyć prawidłową funkcję zaufania ( Trust ), rozpoczęto od prostych rozwiązań, aby potem połączyć zebrane uwagi i zbudować algorytm TrustRank. Biorąc pod uwagę ograniczony budżet L na wywołania funkcji Oracle, bezpośrednio wybrano losowy zbiór materiału siewnego S z L stron i wywołana dla tych stron funkcje Oracle. Oznaczono podgrupy dobrych i złych stron materiału siewnego odpowiednio przez S+ i S-. Dla pozostałych stron, nie kontrolowanych przez eksperta, ustawiono ocenę zaufania na /, aby zasygnalizować w ich przypadku brak informacji. Dlatego nazywamy tę funkcję Ignorant Trust (nie wiedza zaufania) Na przykład dla rysunku i L równego 3, losowo wybrany zestaw nasion może wyglądać następująco: S = {,3,6}. Niech o i t oznaczają odpowiednio wektory: wynik funkcji Oracle i ocenę zaufania dla każdej ze stron. W tym przypadku: o = [,,,, 0, 0, 0], t = [, /,, /, /, 0, / ]. Do oceny wyników funkcji Ignorant Trust, założono, że zbiór X składa się ze wszystkich 7 stron, i że brane są pod uwagę wszystkie możliwe 4 uporządkowane pary stron. Ocena Pairwise

7 orderedness wyniosła 7/. Podobnie dla określonej wartości progowej na poziomie /, precyzja równa się, podczas gdy kompletność wynosi /. Rozprzestrzenianie zaufania W kolejnym kroku automatyzacji oceny zaufania, skorzystano z przybliżonej izolacji dobrych stron. Wybrano losowo zbiór S z L stron, na których wykonano funkcję Oracle. Potem, oczekując, że dobre strony wskazują tylko na inne dobre strony, przypisano ocenę do wszystkich stron, do których można było dojść ze stron zbioru S+ w M lub mniej kroków. Pozostałe strony otrzymały wartość /. Ścieżka taka o maksymalnej długości M, nie może zawierać złych stron materiału siewnego. M Pairwise Ordneredness Precyzja Kompletność 9/ 3/4 3 7/ 4/5 Tabela : Wykonanie funkcji zaufania dla M kroków, M = {,,3} Na przykład dla rysunku i zbioru materiału siewnego S = {,3,6}, ocena zaufania właściwa dla trzech różnych wartości M prezentuje się w następujący sposób: M = : t = [,,, /, /, 0, / ], M = : t = [,,,, /, 0, / ], M = 3 : t3 = [,,,,, 0, /]. Oczekiwano, że funkcja zaufania w M krokach wykonuje się lepiej niż funkcja Ignorant Trust. Rzeczywiście, tabela pokazuje, że dla M = i M =, zarówno Pairwise Orderedness, jak i kompletność rosną, a precyzja pozostaje na poziomie. Istnieje jednak spadek wydajności dla M = 3. Powodem jest to, że zła strona 5 otrzymuje ocenę na poziomie ze względu na link od dobrej strony 4 (oznaczony gwiazdką na rysunku ). Problem z zaufaniem osiąganym w M-krokach jest taki, że nie ma absolutnej pewności, że strony osiągalne z dobrych nasion są rzeczywiście dobre. W rzeczywistości, im dalej od dobrych stron materiału siewnego, tym mniej jest pewne, że strona jest dobra. Na przykład, na rysunku są strony (tj. strona i 4), które mają co najwyżej linki od dobrych stron materiału siewnego. Jak obie są dobre, prawdopodobieństwo, że osiągniemy dobre strony w maksymalnie krokach wynosi. Podobnie, liczba stron osiągalnych z dobrej strony materiału siewnego w maksymalnie 3 krokach wynosi 3. Tylko dwie z nich (strony i 4) są dobre, podczas gdy strona 5 jest zła. Tak więc prawdopodobieństwo znalezienia dobrej strony spada do /3.

8 Osłabienie zaufania Obserwacje z punktu poprzedniego sugerują, że zaufanie zmniejsza się im dalej od dobrej strony materiału siewnego. Istnieje wiele sposobów na osiągnięcie tego osłabienia zaufania. Poniżej opisane zostały dwa możliwe schematy. Rysunek 3 przedstawia pierwszy pomysł, który nazywano tłumieniem zaufania ( trust dampening ). Do strony istnieje jeden link od dobrej strony materiału siewnego (strona ), w związku z czym przypisuje się jej ocenę zaufania β gdzie β <. Z kolei strona 3 jest dostępna w jednym kroku ze strony (strona z oceną β), dlatego dostaje ocenę β β. dobra strona β β materiału siewnego β β β 3 t()= t()= β t(3)= β Rysunek 3: Tłumienie zaufania Druga technika osłabiania zaufania, którą nazywano podziałem zaufania ( trust splitting ), oparta została na następującej obserwacji: staranność, z jaką ludzie dodają linki do swoich stron jest często odwrotnie proporcjonalna do liczby linków na stronie. Oznacza to, że jeśli strona ma tylko kilka dobrych linków prowadzących na zewnątrz, to jest prawdopodobne, że wskazywane strony są również dobre. Jeżeli jednak dobra strona ma bardzo dużo linków zewnętrznych to, jest bardziej prawdopodobne, że niektóre z nich wskazują na strony złe. Obserwacja ta prowadzi do pojęcia podziału zaufania, jakie rozprzestrzenia się do innych stron: jeżeli pewna strona p ma swoją określoną ocenę zaufania i wskazuje na pewną ilość stron, to każda z tych stron otrzyma od strony p ocenę w postaci ułamka jej zaufania i liczby stron na które wskazuje. W tym przypadku rzeczywista ocena każdej strony będzie sumą ułamków ocen otrzymaną z wszystkich linków przychodzących. Im większa jest ta rzeczywista ocena, tym bardziej prawdopodobne, że dana strona jest dobra. dobra strona materiału siewnego t()= t()= dobra strona materiału siewnego / / 5/ /3 /3 /3 3 t(3)= 5/6 Rysunek 4: Podział zaufania 5/

9 Rysunek 4 przedstawia podział zaufania. Dobra strona materiału siewnego (strona ) posiada dwa linki zewnętrzne, więc rozprowadza po połowie swoją ocenę do obu stron, na które wskazuje. Z kolei inna dobra strona materiału siewnego (strona ) posiada trzy linki zewnętrzne, więc każdej stronie na którą wskazuje przekazuje jedną trzecią swojej wartości. Ocena strony 3 będzie wówczas wynosić / +/3 = 5/6. Algorytm TrustRank Algorytm TrustRank, oblicza ocenę zaufania przy wykorzystaniu grafów stron internetowych. Wejściem do algorytmu jest graf składający się z macierzy przejścia T i liczby stron internetowych oraz parametry, które kontrolują jego wykonanie (L, M liczba powtórzeń/kroków, α współczynnik osłabienia). W pierwszym kroku algorytm wykonuje funkcję wyboru stron materiału siewnego, która zwraca wektor s. Dla przykładu z rysunku funkcja ta zwraca następujący wektor: s = [0,08, 0,3, 0,08, 0,0, 0,09, 0,06, 0,0]. W kolejnym kroku porządkowane są wszystkie strony materiału siewnego w oparciu o ich ocenę zawartą w wektorze s. Dla omawianego przykładu otrzymano: δ = [, 4, 5,, 3, 6, 7]. Oznacza to, że strona jest najbardziej pożądaną stroną z materiału siewnego, kolejna jest strona 4, i tak dalej. W kroku trzecim wywoływana jest funkcja Oracle dla najbardziej pożądanych L stron materiału siewnego. W przypadku strony dobrej jej wartość ustawiana jest na, a w przypadku strony złej na 0 i na tej podstawie tworzony jest wektor d. W kroku czwartym normalizuje się wektor d, tak aby jego wpisy sumowały się do. W omawianym przykładzie, przy założeniu, że L = 3, a zbiór materiału siewnego jest {,4,5}, strony i 4 są dobrymi stronami, a wektor dystrybucji ocen statycznych ma postać: d = [0, /, 0, /, 0, 0, 0]. W kroku piątym wyznaczana jest wartość TrustRank przy wykorzystaniu do obliczeń jednostronnego PageRank oraz wektora d. W kroku tym wykorzystywane są również opisane wcześniej: tłumienie zaufania i podział zaufania w każdej iteracji wynik zaufania danego węzła jest dzielony między sąsiadów i osłabiony przez współczynnik α. Dla omawianego przykładu, zakładając, że α = 0,85 i M = 0, algorytm oblicza następujący wynik: t* = [0, 0.8, 0., 0.5, 0.3, 0.05, 0.05].

10 Warto zwrócić uwagę na to że ze względu na iteracyjny sposób rozprzestrzeniania oceny zaufania, dobre strony materiału siewnego (tj. i 4) nie mają wysokiej oceny zaufania, jednak oceny te nadal są najwyższe spośród ocenianych stron. Dodatkowo warto zauważyć, że dobra strona z materiału siewnego (strona 4) ma niższą punktację niż dobra strona materiału siewnego (strona ). Jest to spowodowane strukturą linków w tym przykładzie: strona posiada linki przychodzące z wysoko punktowanej strony (strona 3), podczas gdy strona 4, nie. Tak więc, przedstawiony algorytm TrustRank "poprawia" wyniki otrzymane w wyniku wywołania funkcji Oracle, Analizując przykład można zauważyć, że algorytm TrustRank zwykle daje dobrym stronom wyższą ocenę. W szczególności, trzy z czterech stron dobrych (tj. strony, 3 i 4), mają wyższy wynik i dwie z trzech stron złych (tj. strony 6 i 7) mają niższe wyniki. Jednak nie udało się przypisać odpowiednich wyników stronom i 5. Strona nie była jednym z nasion, i nie miała linków przychodzących, dzięki którym mogłaby akumulować punkty, więc jej ocena pozostała równa 0. Wszystkie dobre ale niepolecane stron internetowe są podobne traktowanie, chyba że są wybrane do zbioru stron materiału siewnego. Zła strona 5 otrzymała wysoki wynik, ponieważ jest ona bezpośrednio wskazana przez dobrą stronę.dalej pokazane zostanie, że mimo błędów, jak te opisane powyżej, algorytm TrustRank jest w stanie poprawnie zidentyfikować znaczną liczbę dobrych stron. Wybór stron materiału siewnego Wybór stron materiału siewnego polega na znalezieniu stron, które będą najbardziej przydatne w identyfikacji dodatkowych dobrych stron. Jednocześnie, zbiór stron materiału siewnego powinien być nieduży, w celu ograniczenia liczby wywołań funkcji Oracle. Poniżej przedstawione zostaną dwie strategie wyboru stron materiału siewnego, dodatkowo istniej jeszcze strategia polegająca na losowym wyborze stron. Odwrotny PageRank Ponieważ zaufanie wypływa z dobrych stron materiału siewnego, jednym z podejść jest preferowanie stron, z których można dotrzeć do wielu innych stron. W szczególności, można wybrać strony materiału siewnego, na bazie liczby ich linków zewnętrznych. Dla przykładu z rysunku, odpowiednim zbiorem stron materiału siewnego dla L = będzie S = {,5}, ponieważ strony i 5 mają największą liczbę linków prowadzących na zewnątrz (po dwa). Podążając tym tokiem rozumowania, zakres ten można zwiększyć jeszcze bardziej. Można budować zestaw stron materiały siewnego z tych stron, które wskazują na wiele stron, które to również prowadzą do wielu stron i tak dalej. Takie podejście prowadzi do schematu ściśle związanego z PageRank, różnica jest taka, że w tym przypadku znaczenie strony zależy od liczby linków wychodzących a nie przychodzących, w związku z czym algorytm ten nazwano odwrotnym Page- Rank. Obliczenia są takie same jak w tradycyjnym algorytmie PageRank, z takim wyjątkiem, że wykorzystywana jest odwrócona macierz przejścia U zamiast zwykłej macierzy przejścia T.

11 Dla przykładu z rysunku, odwrócony algorytm PageRank (α= 0,85, M = 0) daje wynik: s = [0,08, 0,3, 0,08, 0,0, 0,09, 0,06, 0,0]. Dla wartości L = 3, zbiór materiału siewnego S = {,4,5}. Dobry zestaw nasion to S+ = {,4}, więc strony i 4 są używane jako punkty wyjścia do podziału punktów. Ważne jest, aby pamiętać, że odwrotny PageRank jest heurystyczny. Początkowo, odwrotny PageRank nie gwarantuje maksymalnego zasięgu pokrycia. Na przykład na rysunku 5 dla L =, maksymalne pokrycie odbywa się poprzez zestaw nasion {,3} lub {,3}, jednak odwrotny PageRank daje wektor ocen: s = [0,05, 0,05, 0,04, 0,0, 0,0, 0,0, 0,0], co prowadzi do materiału siewnego zbiór S = {,} Rysunek 5: Graf dla którego odwrotny PageRank nie daje maksymalnego zasięgu Niemniej jednak, odwrócony PageRank jest atrakcyjny, ponieważ czas jego realizacji jest stosunkowo szybki. Drugim powodem tego, dlaczego odwrotny PageRank jest heurystyczny jest to, że maksymalizacja zasięgu, może nie zawsze być najlepszą strategią. Na przykład zakładając dla grafu z rysunku 5, że występuje rozprzestrzenianie się zaufania przez podział bez tłumienia, gdy do materiału siewnego wybrana zostanie tylko strona i okaże się ona być dobra, to każda ze stron: 4, 5 i 6 otrzyma wynik /3. Natomiast gdy wybrana zostanie tylko strona 3 i ona również okaże się być dobra, wówczas strona 7 dostanie ocenę. W zależności od ostatecznego celu, może być wskazane użycie strony 3, ponieważ można być bardziej pewnym, że strona ta wskazuje na stronę, nawet wtedy, gdy zbiór jest mniejszy. Jeśli jednak do porównania wykorzystywana jest wyłącznie ocena zaufania, wówczas może być lepiej, aby dowiedzieć się więcej na temat stron, nawet z mniejszą dokładnością. Wysoki PageRank Do tej pory przyjęte było, że wartość określenia strony jako dobrej lub złej jest taka sama dla wszystkich stron. Jednak może być istotne ustalenie dobrych stron, które jednocześnie pojawią się wysoko w wynikach wyszukiwania. Ponieważ jest bardziej prawdopodobne, że użytkownicy są bardziej zainteresowanych stronami znajdującymi się wysoko w wynikach wyszukiwania, bardziej użyteczne wydaje się uzyskanie dokładnych wyników zaufania dla stron znajdujących się wysoko.

12 Tak więc, druga strategia wyboru zestawu stron materiału siewnego zakłada wprowadzenie preferencji dla stron z wysokim PageRank. Ponieważ strony z wysokim PageRank często prowadzą do innych stron z wysokim PageRank, to dobre wyniki zaufania rozprzestrzeniane będą również na te strony, które mogą być na wysokich pozycjach w wynikach wyszukiwania. Wyniki badania Zestaw danych W celu oceny wyżej opisanych algorytmów, został wykonany, przez autorów artykułu, eksperymenty z wykorzystaniem pełnego zestawu stron zindeksowanych przez wyszukiwarkę AltaVista w sierpniu 003 roku. W celu zmniejszenia potrzeb obliczeniowych, badanie odbyło się na poziomie witryn, a nie poszczególnych stron internetowych. (Przedstawione wyżej metody działają równie dobrze dla poszczególnych stron, jak i dla całych witryn.) Kilka miliardów stron zostało pogrupowanych w witryny. Ponad jedna trzecia z tych stron (397046) nie była wskazywana przez żadną inną. Algorytm rozprzestrzeniania zaufania oparty jest na informacjach przekazywanych poprzez linki przychodzące, więc ta grupa stron nie mogła zostać zróżnicowana. Na szczęście, niewskazywane witryny były nisko w rankingu wyników wyszukiwania (otrzymały identyczny, minimalny wynik PageRank), więc nie miały znaczącego wpływu na prawidłowe oddzielenie dobrych i złych stron od siebie. Najpierw ręcznie ocenione zostały strony różnych witryn, w celu określenia czy są one spamem, czy nie, jak również wykonane zostały dodatkowe klasyfikacje. Ta ręczna ocena zajęła tygodnie, gdyż sprawdzanie witryny wiązało się z patrzeniem na wiele z jej stron, a także stron z nią powiązanych w celu ustalenia, czy istnieje zamiar oszukania wyszukiwarki. Zestaw stron materiału siewnego (seed set) Pierwszy eksperyment polegał na porównani strategii odwrotnego PageRank i wysokiego PageRank do wyboru materiału siewnego. Aby porównanie to odbyło się szybko, przeprowadzono eksperyment na syntetycznych grafach stron internetowych, które oddają podstawowe funkcje związane ze spamem w Internecie. Strategia oparta na odwrotnym PageRank okazała się nieznacznie lepsza w identyfikacji przydatnego zestawu stron materiału siewnego, dlatego oparto się na niej przy realizacji kolejnych eksperymentów. Po uporządkowaniu witryn w oparciu o ich wyniki odwrotnego PageRank, skupiono uwagę na najlepszych 5, 000 witrynach. Najpierw dokonano pobieżne oceny tych witryn w celu wyeliminowania niektórych problematycznych stron. Aby pozbyć się spamu usunięto z listy wszystkich witryn, te które nie zostały wymienione w żadnym z najważniejszych katalogów internetowych, zmniejszając początkowy zbiór na około 7, 900. Poprzez pobieranie próbek witryn, które były filtrowane, okazało się, że nieznaczna ilość stron renomowanych została usunięta w procesie.

13 Z pozostałych witryn, ręcznie ocenionych zostało 50 najlepszych (zestaw nasion S) i wybrano z nich 78 witryny do wykorzystania jako dobre nasiona. Na stosunkowo niewielki rozmiar zbioru dobrych stron materiału siewnego (S +) miały wpływ bardzo rygorystyczne kryteria wyboru, które zostały przyjęte. Próba/zestaw stron do oceny W celu oceny miar przedstawionych wcześniej wybrano zbiór witryn X, dla których znana była ocena Oracle. Próbę tą ustalono na 000 witryn, nie została ona wybrana losowo, gdyż. z próby losowej, duża liczba witryn byłaby bardzo mała i/lub miała niewielki PageRank, a tak jak zaznaczono wcześniej ważniejsze jest poprawne wykrywanie spamu w przypadku stron z wysokim PageRank, ponieważ strony te będą częściej pojawiać się wysoko w wynikach wyszukiwania. W celu zapewnienia różnorodności, przyjęto następujące metody pobierania próbek. Wygenerowano wykaz witryn w porządku malejącym względem ich PageRank, i podzielono je na 0 segmentów. Każdy z segmentów zawierał inną liczbę witryn, wybranych na postawie oceny Page- Rank (co 5 procent wartości całego wyniku PageRank.) W związku z tym pierwszy segment zawierał 86 witryn o najwyższym PageRanku, segment, następne 665 o niższym PageRank, a 0 segment zawierał 5 milionów witryn, do których przypisano najniższy PageRank. Rysunek 6: Skład ocenianej próby witryn Przykładowy zestaw 000 witryn zbudowano wybierając losowo po 50 witryn z każdego segmentu. Następnie wykonano ręczna ocenę Oracle na tej próbie witryn, określając czy są one spamem czy nie. Wynik procesu oceny został przedstawiony na rysunku 8, wykres kołowy, który pokazuje w jaki sposób próba rozkłada się na różne rodzaje witryn. Okazało się, że można użyć 748 z wszystkich witryn należących do próby w celu oceny TrustRank: Strony renomowane: 563 witryn zawierających wysokiej jakości treści z zerową lub nieistotną statystycznie ilością linków wskazujących na witryny spamerskie.

14 Strony organizacji: 37 witryn należących do organizacji. Podczas gdy wszystkie z nich były dobrymi stronami, to większość ich linków była automatyczna, dlatego zdecydowano się dać im odrębną etykietę, aby móc śledzić je oddzielnie. Strony reklamowe: 3 witryn działających jako cele dla banerów reklamowych. Na tych stronach brak jest rzeczywiście przydatnych treści i ich wysokie noty PageRank wynikają wyłącznie z dużej liczby automatycznych linków, które otrzymują. Niemniej jednak, nadal kwalifikują się jako dobre strony, bez żadnych oznak działalności spamerskiej. Spam: 35 witryn przybierających rożne formy spamu. Uznano te witryny za złe Z tych 748 witryn utworzono zbiór próby X. Pozostałe 5 witryny zostały uznane za nieużyteczne dla oceny TrustRank z różnych powodów: Strony prywatne: z witryny były utrzymywane na prywatnych serwerach, było niemożliwe, albo sklasyfikować je jako złe lub dobre. Alias: 35 witryn było lepiej znanych pod inną nazwą. Puste strony: 56 witryn było pustych, składających się z jednej strony, nie zawierającej przydatnych informacji. Nie istniejące strony: 96 witryn nie istniało, albo wyszukiwanie DNS nie powiodło się, lub systemy nie były w stanie nawiązać połączenie TCP/IP z odpowiednim komputerem. Nieznane/niewiadome strony: 43 witryn których nie można było właściwie ocenić, w oparciu o dostępne informacje. Te witryny pochodziły głównie z Azji Wschodniej, co stanowiło wyzwanie ze względu na brak angielskiego tłumaczenia. Wyniki W tym punkcie opisana została ocena skuteczności strategii rozmnożenia zaufania ze zbioru dobrych nasion(stron) materiału siewnego, algorytmu TrustRank i innych miar opisanych wcześniej na podstawie wybranej próby X..TrustRank: Wykorzystano algorytm TrustRank opisany w poprzednim rozdziale dla M = 0 powtórzeń i współczynnika osłabienia α = 0,85 dla 78 wybranych dobrych witryn materiału siewnego.. PageRank: PageRank był pierwotnie wysoce odporny na spamowanie, ponieważ jest środkiem o globalnym znaczeniu (ograniczone, lokalne zmiany w strukturze linków mają niewielki wpływ na ocenę). Tak więc sprawdzono, jak dobrze PageRank radzi sobie ze spamem obecnie. W tym celu wykorzystano po prostu PageRank danej witryny jako jej wartość Trust (dla M = 0 powtórzeń, ze wskaźnikiem osłabienia α = 0,85). 3. Ignorant Trust : Jak w pozostałych przypadkach wygenerowano ocenę ignorant trust witryn. Wszystkim witrynom przypisana została ocena ignorancji trust na /, z wyjątkiem 50 stron materiału siewnego, które otrzymały ocenę 0 lub.

15 Porównanie PageRank i TrustRank W punkcie tym omówiona została różnica między PageRank i TrustRank. Należy pamiętać o tym, że algorytm PageRank nie zawiera żadnej wiedzy na temat jakości serwisu, a także nie kara wyraźnie złych witryn. W rzeczywistości, można się przekonać, że stosunkowo często jest tak, że strony tworzone przez wykwalifikowanych spamerów otrzymują wysoki PageRank. Dlatego zaproponowano TrustRank, który miał rozróżnić dobre i złe strony: oczekiwano, że spamerskim witrynom nie zostanie przypisany wysoki TrustRank Rysunek 7: Dobre strony z podziałem na poszczególne segmenty PageRank Rysunek 8: Dobre strony z podziałem na poszczególne segmenty TrustRank

16 Rysunek 9: Złe strony z podziałem na poszczególne segmenty PageRank Rysunek 0: Złe strony z podziałem na poszczególne segmenty TrustRank Rysunki 7-0 dokonują porównania PageRank i TrustRank w odniesieniu do stosunku dobrych i złych witryn w każdym segmencie. Segmenty TrustRank zawierają tą samą liczbę witryn co zdefiniowane wcześniej segmenty PageRank. Segmenty 7-0 zostały połączone zarówno dla PageRank, jak i TrustRank. (Zawierają one 3 milionów witryn, do których nie prowadza żadne linki. Wszystkie te witryny otrzymały taki sam minimalny wyniki PageRank i zerowy wynik TrustRank, co uniemożliiło ich uporządkowanie.) Na rysunkach 7-0 na osi poziomej oznaczono numer segmentu odpowiednio dla PageRank i TrustRank. Natomiast pionowej osi dla pierwszych dwóch rysunków odpowiada odsetek dobrych witryn w określonym segmencie, czyli liczba dobrych witryn w danym segmencie podzielona przez liczbę wszystkich witryn tego segmentu. Jako dobre zakwalifikowano: witryny renomowane, witryny z reklamami oraz witryny organizacji; ich względny udział zaznaczony został odpowiednio w postaci żółtych, zielonych i niebieskich fragmentów. Osi pionowej na kolejnych dwóch rysunkach od-

17 powiada odsetek złych witryn w określonym segmencie. Na przykład z rysunku 0 można odczytać, że ze wszystkich użytych w próbie witryn segmentu dla TrustRank 3% jest złych, itd. Na podstawie tych danych można stwierdzić, że TrustRank jest istotnym narzędziem przy wykrywania spamu. W szczególności warto zwrócić uwagę na to, że praktycznie nie ma spamu w pierwszych pięciu segmentach TrustRank, podczas gdy występuje znaczny wzrost natężenia spamu w kolejnych segmentach. Jednocześnie, zaskakujące jest, że prawie 0% w drugim z segmentów PageRank to złe witryny. Dla PageRank, odsetek złych stron jest największy w segmentach 9 i 0 (50% spamu), co wskazuje, że prawdopodobnie jest to poziom do którego maksymalnie przeciętni spamerzy mogą dociągnąć swoje strony Rysunek : Degradacja na poziomie segmentów TrustRank Rysunek przedstawia inne spojrzenie na związek między PageRank i TrustRank. Wprowadza pojęcie degradacji (demotion), zjawisko, to polega na tym, że niektóre witryny z wyższego segmentu PageRank pojawiają się w niższym segmencie dla TrustRank. Negatywną degradacją jest promocja (promotion), która występuje wówczas gdy strony z niższego segmentu PageRank pojawia się w wyższych segmentach dla TrustRank. Na rysunku na osi poziomej oznaczono numer segmentu PageRank. Oś pionowa pokazuje średnią liczbę segmentów, różniącą witryny z określonego segmentu PageRank od ich TrustRank. Na żółto oznaczone są dobre witryny, a szare słupki oznaczają spam. Na przykład z rysunku można odczytać, że witryny spamerskie z segmentu dla Page- Rank zostały zdegradowane średnio o 7 segmentów, lądując gdzieś około segmentu 9 dla TrustRank. Przykład promocji: dobre witryny z segmentu 6 dla PageRank, pojawiają się średnio o jeden segment wyżej w porządku TrustRank. Obrazek ten raz jeszcze pokazuje bardzo dobrze, że TrustRank skutecznie usuwa większość spamu z najwyżej znajdujących się stron. Ponadto pokazuje również, że w większości przypadków dobre strony zachowują swoje oryginalną pozycję w segmencie. W związku z można stwierdzić, że TrustRank gwarantuje, że strony znajdujące się wysoko w wynikach wyszukiwania są dobre. Należy jednak zaznaczyć, że TrustRank nie jest w stanie skutecznie oddzielić niżej znajdujących się witryn

18 dobrych od złych, ze względu na brak w przypadku tych stron cechy wyróżniających, jak chociażby linków do nich prowadzących. Pairwise Orderedness W punkcie tym przedstawione zostało badanie wykorzystujące miarę Pairwise Orderedness do oceny TrustRank w odniesieniu do uporządkowanej wartości zaufania. W przypadku tego eksperymentu, stworzono zbiór P wszystkich możliwych par witryn dla kilku podgrup próby X. Zaczęto od podzbioru próby X, składającego się ze 00 witryn z najwyższym PageRank, w celu sprawdzenia TrustRank dla najważniejszych witryn. Potem, stopniowo w porządku malejącym ze względu na PageRank dodawano kolejne witryn do tego podzbioru. Ostatecznie użyto wszystkich par z 748 witryn należących do próby do obliczenia Pairwise Orderedness. Rysunek : Pairwise Orderedness Rysunek pokazuje wyniki tego eksperymentu. Oś pozioma pokazuje liczbę witryn próby użytych do oceny, a oś pionowa reprezentuje wynik Pairwise orderedness dla konkretnych rozmiarów próby. Na przykład, możemy wnioskować, że dla 500 witryn z próby z największym Page- Rank, TrustRank otrzymuje wynik Pairwise orderedness wynoszący około Rysunek pokazuje również wynik Pairwise orderedness dla Ignorant Trust i Page- Rank. Wynik Pairwise orderedness dla Ignorant Trust reprezentuje przypadki, gdy nie ma prawie żadnych informacji na temat jakości witryn. Podobnie wynik Pairwise orderedness dla Page- Rank pokazuje, jak bardzo znajomość znaczenia może pomóc w rozróżnieniu dobrych i złych stron. Jak widać, TrustRank stale przewyższa zarówno Ignorant Trust jak i PageRank. Precyzja i Kompletność Ostatni zestaw wyników eksperymentalnych, pokazano na rysunku 3, przedstawia on wyniki TrustRank w odniesieniu do parametrów precyzji i kompletności. Jako wartość progową użyto graniczną ocenę TrustRank, która oddziela 7 segment TrustRank. Na osi poziomej oznaczono nu-

19 mer segmentu, natomiast wyniki dla precyzji i kompletności przedstawione zostały na osi pionowej. Rysunek 3: Precyzja i kompletność TrustRank przypisuje najwyższe oceny dobrym witrynom, a odsetek złych zwiększa się proporcjonalnie jak przesuwamy się w kierunku niższych wyników. Co za tym idzie, precyzja i kompletność przedstawiają odpowiednio liniowy spadek i wzrost. Warto zauważyć, że wysoki wynik precyzji (0,8) związany jest z tym, że zbiór próby składał się w większości z dobrych witryn, z których wszystkie były "istotne".

PageRank i HITS. Mikołajczyk Grzegorz

PageRank i HITS. Mikołajczyk Grzegorz PageRank i HITS Mikołajczyk Grzegorz PageRank Metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Algorytm PageRank jest wykorzystywany przez popularną

Bardziej szczegółowo

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite Tomasz Boiński: 1 Pozycjonowanie stron i zastosowanie mod_rewrite Pozycjonowanie stron Promocja strony odbywa się poprzez umiejscowienie jej jak najwyżej w wynikach wyszukiwania Wyszukiwarki indeksują

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Dane w postaci grafów Przykład: social network 3 Przykład: media network 4 Przykład: information network

Bardziej szczegółowo

Ogranicz listę klasyfikacji budżetowych do powiązanych z danym kontem księgowym

Ogranicz listę klasyfikacji budżetowych do powiązanych z danym kontem księgowym Zależności i kontrola danych budżetowych w systemie Sz@rk FK 1. Wstęp Począwszy od wersji Sz@rk FK 2011 (11.03.30) wprowadzono do programu finansowoksięgowego nowe możliwości dotyczące kontrolowania poprawności

Bardziej szczegółowo

INTERNET - NOWOCZESNY MARKETING

INTERNET - NOWOCZESNY MARKETING STRONA INTERNETOWA TO JUŻ ZBYT MAŁO! INTERNET ROZWIJA SIĘ Z KAŻDYM DNIEM MÓWIMY JUŻ O: SEM Search Engine Marketing, czyli wszystko co wiąże się z marketingiem internetowym w wyszukiwarkach. SEM jest słowem

Bardziej szczegółowo

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe?

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe? Co to jest pozycjonowanie stron internetowych? Pozycjonowanie to wszelkie działania mające na celu podniesienie pozycji strony internetowej, na określone słowa kluczowe, w wyszukiwarce Google. Dlaczego

Bardziej szczegółowo

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe Wykład 8: Wyszukiwarki internetowe Marcin Bieńkowski Instytut Informatyki Uniwersytet Wrocławski Sieci komputerowe (II UWr) Wykład 8 1 / 37 czyli jak znaleźć igłę w sieci Sieci komputerowe

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Metrologia: organizacja eksperymentu pomiarowego

Metrologia: organizacja eksperymentu pomiarowego Metrologia: organizacja eksperymentu pomiarowego (na podstawie: Żółtowski B. Podstawy diagnostyki maszyn, 1996) dr inż. Paweł Zalewski Akademia Morska w Szczecinie Teoria eksperymentu: Teoria eksperymentu

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

10. Wstęp do Teorii Gier

10. Wstęp do Teorii Gier 10. Wstęp do Teorii Gier Definicja Gry Matematycznej Gra matematyczna spełnia następujące warunki: a) Jest co najmniej dwóch racjonalnych graczy. b) Zbiór możliwych dezycji każdego gracza zawiera co najmniej

Bardziej szczegółowo

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań Raport 1/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych z zastosowaniem

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu XXVIII Letnia Szkoła Naukowa Metodologii Nauk Empirycznych Zakopane, 12-14.05.2014 Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu Maciej Zaborowicz Instytut Inżynierii

Bardziej szczegółowo

Wydajność systemów a organizacja pamięci, czyli dlaczego jednak nie jest aż tak źle. Krzysztof Banaś, Obliczenia wysokiej wydajności.

Wydajność systemów a organizacja pamięci, czyli dlaczego jednak nie jest aż tak źle. Krzysztof Banaś, Obliczenia wysokiej wydajności. Wydajność systemów a organizacja pamięci, czyli dlaczego jednak nie jest aż tak źle Krzysztof Banaś, Obliczenia wysokiej wydajności. 1 Organizacja pamięci Organizacja pamięci współczesnych systemów komputerowych

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane

Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane 1 Strona wyników wyszukiwania (SERP) Strona wyników wyszukiwania to dwa obszary: PPC i SEO. Tworzą one jeden ekosystem i są współzależne, mimo,

Bardziej szczegółowo

Podstawy działań na wektorach - dodawanie

Podstawy działań na wektorach - dodawanie Podstawy działań na wektorach - dodawanie Metody dodawania wektorów można podzielić na graficzne i analityczne (rachunkowe). 1. Graficzne (rysunkowe) dodawanie dwóch wektorów. Założenia: dane są dwa wektory

Bardziej szczegółowo

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change Raport 4/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych

Bardziej szczegółowo

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi

Bardziej szczegółowo

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski Dane w sieciach (i inne historie) Marcin Bieńkowski Jak przechowywać dane w sieciach (strony WWW, bazy danych, ) tak, żeby dowolne ciągi odwołań do (części) tych obiektów mogły być obsłużone małym kosztem?

Bardziej szczegółowo

Jak statystyka może pomóc w odczytaniu wyników sprawdzianu

Jak statystyka może pomóc w odczytaniu wyników sprawdzianu 16 Jak statystyka może pomóc w odczytaniu wyników sprawdzianu Wyniki pierwszego ważnego egzaminu sprawdzianu w klasie szóstej szkoły podstawowej mogą w niebagatelny sposób wpływać na losy pojedynczych

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

Technologia wykrawania w programie SigmaNEST

Technologia wykrawania w programie SigmaNEST Technologia wykrawania w programie SigmaNEST 1. Wstęp Wykrawanie - obok cięcia plazmą, laserem, nożem, tlenem oraz wodą - jest kolejnym procesem, obsługiwanym przez program SigmaNEST. Jednak w tym przypadku,

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Wszystko o sitelinkach w Google AdWords No prawie wszystko ;)

Wszystko o sitelinkach w Google AdWords No prawie wszystko ;) Wszystko o sitelinkach w Google AdWords No prawie wszystko ;) Rozszerzeń reklam Google AdWords jest coraz więcej rodzajów i są one coraz bardziej powszechnie używane. Szczególnie popularne są tzw. Sitelinki

Bardziej szczegółowo

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać?

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać? Poradnik SEO Poradnik SEO Internet to najszybciej rozwijające się medium. W Polsce jest już 15 mln użytkowników, ponad 90% z nich używa wyszukiwarki Google. Dziennie użytkownicy zadają ponad 130 milionów

Bardziej szczegółowo

Struktura terminowa rynku obligacji

Struktura terminowa rynku obligacji Krzywa dochodowości pomaga w inwestowaniu w obligacje Struktura terminowa rynku obligacji Wskazuje, które obligacje są atrakcyjne a których unikać Obrazuje aktualną sytuację na rynku długu i zmiany w czasie

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można jednak wyróżnić 3 główne elementy, które brane są pod uwagę:

Bardziej szczegółowo

Dobra pozycja w Google? Dlaczego warto nam zaufać?

Dobra pozycja w Google? Dlaczego warto nam zaufać? Pozycja w Google to główny czynnik wpływający na popularność Twojej strony internetowej WWW. Dzięki wysokim pozycjom w wyszukiwarkach strona zyskuje coraz więcej unikalnych odwiedzin, a co za tym idzie,

Bardziej szczegółowo

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO STATYSTYCZNA ANALIZA ZMIAN LICZBY HOTELI W POLSCE W LATACH 1995-2004

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO STATYSTYCZNA ANALIZA ZMIAN LICZBY HOTELI W POLSCE W LATACH 1995-2004 ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 429 EKONOMICZNE PROBLEMY TURYSTYKI NR 7 2006 RAFAŁ CZYŻYCKI, MARCIN HUNDERT, RAFAŁ KLÓSKA STATYSTYCZNA ANALIZA ZMIAN LICZBY HOTELI W POLSCE W LATACH 1995-2004

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH Transport, studia I stopnia rok akademicki 2012/2013 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Adam Wosatko Ewa Pabisek Pojęcie

Bardziej szczegółowo

W tym celu korzystam z programu do grafiki wektorowej Inkscape 0.46.

W tym celu korzystam z programu do grafiki wektorowej Inkscape 0.46. 1. Wprowadzenie Priorytetem projektu jest zbadanie zależności pomiędzy wartościami średnich szybkości przemieszczeń terenu, a głębokością eksploatacji węgla kamiennego. Podstawowe dane potrzebne do wykonania

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Inwestor musi wybrać następujące parametry: instrument bazowy, rodzaj opcji (kupna lub sprzedaży, kurs wykonania i termin wygaśnięcia.

Inwestor musi wybrać następujące parametry: instrument bazowy, rodzaj opcji (kupna lub sprzedaży, kurs wykonania i termin wygaśnięcia. Opcje na GPW (II) Wbrew ogólnej opinii, inwestowanie w opcje nie musi być trudne. Na rynku tym można tworzyć strategie dla doświadczonych inwestorów, ale również dla początkujących. Najprostszym sposobem

Bardziej szczegółowo

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą 1. Statystyka odczytać informacje z tabeli odczytać informacje z diagramu 2. Mnożenie i dzielenie potęg o tych samych podstawach 3. Mnożenie i dzielenie potęg o tych samych wykładnikach 4. Potęga o wykładniku

Bardziej szczegółowo

POZYCJONOWANIE STRON INTERNETOWYCH (SEO)

POZYCJONOWANIE STRON INTERNETOWYCH (SEO) POZYCJONOWANIE STRON INTERNETOWYCH (SEO) Nasza oferta różni się od ofert innych firm pozycjonujących. W Polsce firmy pozycjonujące strony przygotowują zestaw słów kluczowych pod które przygotowują pozycjonowanie.

Bardziej szczegółowo

Wykrywanie anomalii w zbiorze danych o dużym wymiarze

Wykrywanie anomalii w zbiorze danych o dużym wymiarze Wykrywanie anomalii w zbiorze danych o dużym wymiarze Piotr Kroll Na podstawie pracy: Very Fast Outlier Detection In Large Multidimensional Data Set autorstwa: A. Chandhary, A. Shalay, A. Moore Różne rozwiązania

Bardziej szczegółowo

Księgowość Optivum. Jak zweryfikować poprawność kwot w zestawieniu budżetowym?

Księgowość Optivum. Jak zweryfikować poprawność kwot w zestawieniu budżetowym? Księgowość Optivum Jak zweryfikować poprawność kwot w zestawieniu budżetowym? Na wyliczenie kwoty w zestawieniu budżetowym ma wpływ wiele czynników, głównie jest to ustalona definicja na zakładce Kolumny

Bardziej szczegółowo

Zwrot z inwestycji w IT: prawda czy mity

Zwrot z inwestycji w IT: prawda czy mity Zwrot z inwestycji w IT: prawda czy mity Inwestycje w technologie IT 1 muszą podlegać takim samym regułom oceny, jak wszystkie inne: muszą mieć ekonomiczne uzasadnienie. Stanowią one koszty i jako takie

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

Efekt motyla i dziwne atraktory

Efekt motyla i dziwne atraktory O układzie Lorenza Wydział Matematyki i Informatyki Uniwersytet Mikołaja kopernika Toruń, 3 grudnia 2009 Spis treści 1 Wprowadzenie Wyjaśnienie pojęć 2 O dziwnych atraktorach 3 Wyjaśnienie pojęć Dowolny

Bardziej szczegółowo

Usługi finansowe. Raport z badania ilościowego przeprowadzonego w Internecie. 7-25 października 2004

Usługi finansowe. Raport z badania ilościowego przeprowadzonego w Internecie. 7-25 października 2004 Usługi finansowe Raport z badania ilościowego przeprowadzonego w Internecie 7-25 października 2004 Spis treści Podsumowanie... 3 O badaniu... 6 Znajomość dostępnych w Internecie usług finansowych. Źródła

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

V Konkurs Matematyczny Politechniki Białostockiej

V Konkurs Matematyczny Politechniki Białostockiej V Konkurs Matematyczny Politechniki iałostockiej Rozwiązania - klasy pierwsze 27 kwietnia 2013 r. 1. ane są cztery liczby dodatnie a b c d. Wykazać że przynajmniej jedna z liczb a + b + c d b + c + d a

Bardziej szczegółowo

Automatyczny dobór parametrów algorytmu genetycznego

Automatyczny dobór parametrów algorytmu genetycznego Automatyczny dobór parametrów algorytmu genetycznego Remigiusz Modrzejewski 22 grudnia 2008 Plan prezentacji Wstęp Atrakcyjność Pułapki Klasyfikacja Wstęp Atrakcyjność Pułapki Klasyfikacja Konstrukcja

Bardziej szczegółowo

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010 ERGODESIGN - Podręcznik użytkownika Wersja 1.0 Warszawa 2010 Spis treści Wstęp...3 Organizacja menu nawigacja...3 Górne menu nawigacyjne...3 Lewe menu robocze...4 Przestrzeń robocza...5 Stopka...5 Obsługa

Bardziej szczegółowo

Matematyczne Podstawy Informatyki

Matematyczne Podstawy Informatyki Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Informacje podstawowe 1. Konsultacje: pokój

Bardziej szczegółowo

Projektowanie systemu krok po kroku

Projektowanie systemu krok po kroku Rozdział jedenast y Projektowanie systemu krok po kroku Projektowanie systemu transakcyjnego jest ciągłym szeregiem wzajemnie powiązanych decyzji, z których każda oferuje pewien zysk i pewien koszt. Twórca

Bardziej szczegółowo

Rekurencja (rekursja)

Rekurencja (rekursja) Rekurencja (rekursja) Rekurencja wywołanie funkcji przez nią samą wewnątrz ciała funkcji. Rekurencja może być pośrednia funkcja jest wywoływana przez inną funkcję, wywołaną (pośrednio lub bezpośrednio)

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania

Bardziej szczegółowo

Podstawowym zadaniem, które realizuje

Podstawowym zadaniem, które realizuje Funkcje wyszukiwania i adresu INDEKS Mariusz Jankowski autor strony internetowej poświęconej Excelowi i programowaniu w VBA; Bogdan Gilarski właściciel firmy szkoleniowej Perfect And Practical; Pytania:

Bardziej szczegółowo

Heurystyki. Strategie poszukiwań

Heurystyki. Strategie poszukiwań Sztuczna inteligencja Heurystyki. Strategie poszukiwań Jacek Bartman Zakład Elektrotechniki i Informatyki Instytut Techniki Uniwersytet Rzeszowski DLACZEGO METODY PRZESZUKIWANIA? Sztuczna Inteligencja

Bardziej szczegółowo

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Politechnika Poznańska Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Joanna Józefowska POZNAŃ 2010/11 Spis treści Rozdział 1. Metoda programowania dynamicznego........... 5

Bardziej szczegółowo

Monitoring procesów z wykorzystaniem systemu ADONIS

Monitoring procesów z wykorzystaniem systemu ADONIS Monitoring procesów z wykorzystaniem systemu ADONIS BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

Spis treści. O autorce. O recenzentach. Wprowadzenie

Spis treści. O autorce. O recenzentach. Wprowadzenie Spis treści O autorce O recenzentach Wprowadzenie Rozdział 1. Badanie rynku i konkurencji oraz ustalanie celów Koncentracja na trafności Identyfikowanie konkurentów przy użyciu wyników wyszukiwania w Google

Bardziej szczegółowo

Podstawowe definicje statystyczne

Podstawowe definicje statystyczne Podstawowe definicje statystyczne 1. Definicje podstawowych wskaźników statystycznych Do opisu wyników surowych (w punktach, w skali procentowej) stosuje się następujące wskaźniki statystyczne: wynik minimalny

Bardziej szczegółowo

Osiągnięcia ponadprzedmiotowe

Osiągnięcia ponadprzedmiotowe W rezultacie kształcenia matematycznego uczeń potrafi: Osiągnięcia ponadprzedmiotowe Umiejętności konieczne i podstawowe czytać teksty w stylu matematycznym wykorzystywać słownictwo wprowadzane przy okazji

Bardziej szczegółowo

W okresie pierwszych dwóch i pół roku istnienia funduszu ponad 50% podmiotów było lepszych od średniej.

W okresie pierwszych dwóch i pół roku istnienia funduszu ponad 50% podmiotów było lepszych od średniej. W okresie pierwszych dwóch i pół roku istnienia funduszu ponad 50% podmiotów było lepszych od średniej. Istnieje teoria, że fundusze inwestycyjne o stosunkowo krótkiej historii notowań mają tendencję do

Bardziej szczegółowo

Brandle.pl. Przykładowe opisy kampanii

Brandle.pl. Przykładowe opisy kampanii Brandle.pl Przykładowe opisy kampanii Opis kampanii to zestaw wytycznych dla wykonawców (agentów). Jest on najważniejszym elementem założeń, które tworzysz za pomocą kreatora kampanii. Poniżej stworzyliśmy

Bardziej szczegółowo

Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ

Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ Mariusz Jankowski autor strony internetowej poświęconej Excelowi i programowaniu w VBA; Bogdan Gilarski właściciel firmy szkoleniowej Perfect And Practical;

Bardziej szczegółowo

KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W WYSZUKIWARKACH I TER ETOWYCH I ICH WYKORZYSTA IE DO PROMOCJI WITRY REGIO AL YCH

KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W WYSZUKIWARKACH I TER ETOWYCH I ICH WYKORZYSTA IE DO PROMOCJI WITRY REGIO AL YCH Ewa Białek * KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W WYSZUKIWARKACH I TER ETOWYCH I ICH WYKORZYSTA IE DO PROMOCJI WITRY REGIO AL YCH Streszczenie W pracy przedstawiono kryteria, którymi kieruje się Google

Bardziej szczegółowo

W jakim stopniu uczniowie opanowali umiejętność Wykorzystywania wiedzy w praktyce? Analiza zadań otwartych z arkusza Sprawdzian 2012

W jakim stopniu uczniowie opanowali umiejętność Wykorzystywania wiedzy w praktyce? Analiza zadań otwartych z arkusza Sprawdzian 2012 Jerzy Matwijko Okręgowa Komisja Egzaminacyjna w Krakowie W jakim stopniu uczniowie opanowali umiejętność Wykorzystywania wiedzy w praktyce? Analiza zadań otwartych z arkusza Sprawdzian 2012 W Pracowni

Bardziej szczegółowo

Reklama w wyszukiwarkach internetowych. Jak planować i prowadzić kampanię. Wydanie II.

Reklama w wyszukiwarkach internetowych. Jak planować i prowadzić kampanię. Wydanie II. Reklama w wyszukiwarkach internetowych. Jak planować i prowadzić kampanię. Wydanie II. Autorzy: Kevin Lee, Catherine Seda Poznaj sekrety reklamy w wyszukiwarkach i zwiększaj swoje zyski Jak przekształcić

Bardziej szczegółowo

Normalizacja baz danych

Normalizacja baz danych Normalizacja baz danych Definicja 1 1 Normalizacja to proces organizowania danych w bazie danych. Obejmuje to tworzenie tabel i ustanawianie relacji między tymi tabelami zgodnie z regułami zaprojektowanymi

Bardziej szczegółowo

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Ewaluacja biegłości językowej Od pomiaru do sztuki pomiaru Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Tomasz Żółtak Instytut Badań Edukacyjnych oraz

Bardziej szczegółowo

Rysunek zwykle bardziej przemawia do wyobraźni niż kolumna liczb. Dlatego tak często dane statystyczne przedstawia się graficznie.

Rysunek zwykle bardziej przemawia do wyobraźni niż kolumna liczb. Dlatego tak często dane statystyczne przedstawia się graficznie. PROCENTY I DIAGRAMY Rysunek zwykle bardziej przemawia do wyobraźni niż kolumna liczb. Dlatego tak często dane statystyczne przedstawia się graficznie. Często spotykamy się z diagramami kołowymi. Przedstawiają

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: O czym mówią współczynniki funkcji liniowej? - wykorzystanie arkusza kalkulacyjnego na lekcjach matematyki

SCENARIUSZ LEKCJI. TEMAT LEKCJI: O czym mówią współczynniki funkcji liniowej? - wykorzystanie arkusza kalkulacyjnego na lekcjach matematyki SCENARIUSZ LEKCJI OPRACOWANY w RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE i OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Stateczność ramy - wersja komputerowa

Stateczność ramy - wersja komputerowa Stateczność ramy - wersja komputerowa Cel ćwiczenia : - Obliczenie wartości obciążenia krytycznego i narysowanie postaci wyboczenia. utraty stateczności - Obliczenie przemieszczenia i sił przekrojowych

Bardziej szczegółowo

Ranking wyników na bazie linków

Ranking wyników na bazie linków Eksploracja zasobów internetowych Wykład 4 Ranking wyników na bazie linków mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Poznane do tej pory mechanizmy sortowania istotności zwróconych wyników bazowały

Bardziej szczegółowo

Reklama w wyszukiwarce

Reklama w wyszukiwarce Reklama w wyszukiwarce RYNEK NIERUCHOMOŚCI Czego użytkownicy szukają częściej? Ile kosztuje jedno kliknięcie w reklamę wyświetlaną po słowie mieszkanie do wynajęcia? Jak wygląda sezonowość na rynku reklamowym

Bardziej szczegółowo

Pozycjonowanie stron w wyszukiwarkach internetowych. Szansa dla małych i średnich firm na konkurowanie z największymi

Pozycjonowanie stron w wyszukiwarkach internetowych. Szansa dla małych i średnich firm na konkurowanie z największymi Pozycjonowanie stron w wyszukiwarkach internetowych Szansa dla małych i średnich firm na konkurowanie z największymi Podstawowe informacje na temat pozycjonowania Według badań Search Engine Watch 81% internautów

Bardziej szczegółowo

Komunikacja człowiek - komputer. Ćwiczenie 1. Temat: ocena funkcjonalności witryny internetowej. Wykonali:... ... ... ...

Komunikacja człowiek - komputer. Ćwiczenie 1. Temat: ocena funkcjonalności witryny internetowej. Wykonali:... ... ... ... Komunikacja człowiek - komputer Ćwiczenie 1 Temat: ocena funkcjonalności witryny internetowej Wykonali:............ Zadanie: należy ocenić wybrana witrynę internetową odpowiadając na pytania z tabeli.

Bardziej szczegółowo

Rozdział 4 KLASY, OBIEKTY, METODY

Rozdział 4 KLASY, OBIEKTY, METODY Rozdział 4 KLASY, OBIEKTY, METODY Java jest językiem w pełni zorientowanym obiektowo. Wszystkie elementy opisujące dane, za wyjątkiem zmiennych prostych są obiektami. Sam program też jest obiektem pewnej

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Życie w oceanie danych: wczoraj, dziś i jutro

Życie w oceanie danych: wczoraj, dziś i jutro Życie w oceanie danych: wczoraj, dziś i jutro 8 Studencki Festiwal Informatyczny, 8-10 marca 2012 Przemyslaw.Biecek@gmail.com IBM Polska / MIM UW / SmarterPoland Czy rozmiar się liczy? MB Dane nie kłamią

Bardziej szczegółowo

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne Metody numeryczne materiały do wykładu dla studentów 7. Całkowanie numeryczne 7.1. Całkowanie numeryczne 7.2. Metoda trapezów 7.3. Metoda Simpsona 7.4. Metoda 3/8 Newtona 7.5. Ogólna postać wzorów kwadratur

Bardziej szczegółowo

Ekonometria - ćwiczenia 11

Ekonometria - ćwiczenia 11 Ekonometria - ćwiczenia 11 Mateusz Myśliwski Zakład Ekonometrii Stosowanej Instytut Ekonometrii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa 21 grudnia 2012 Na poprzednich zajęciach zajmowaliśmy

Bardziej szczegółowo

Notacja Denavita-Hartenberga

Notacja Denavita-Hartenberga Notacja DenavitaHartenberga Materiały do ćwiczeń z Podstaw Robotyki Artur Gmerek Umiejętność rozwiązywania prostego zagadnienia kinematycznego jest najbardziej bazową umiejętność zakresu Robotyki. Wyznaczyć

Bardziej szczegółowo

SPIS TREŚCI WSTĘP... 8 1. LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI

SPIS TREŚCI WSTĘP... 8 1. LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI SPIS TREŚCI WSTĘP.................................................................. 8 1. LICZBY RZECZYWISTE Teoria............................................................ 11 Rozgrzewka 1.....................................................

Bardziej szczegółowo

Uwaga: Nie przesuwaj ani nie pochylaj stołu, na którym wykonujesz doświadczenie.

Uwaga: Nie przesuwaj ani nie pochylaj stołu, na którym wykonujesz doświadczenie. Mając do dyspozycji 20 kartek papieru o gramaturze 80 g/m 2 i wymiarach 297mm na 210mm (format A4), 2 spinacze biurowe o masie 0,36 g każdy, nitkę, probówkę, taśmę klejącą, nożyczki, zbadaj, czy maksymalna

Bardziej szczegółowo

2 Podstawy tworzenia stron internetowych

2 Podstawy tworzenia stron internetowych 2 Podstawy tworzenia stron internetowych 2.1. HTML5 i struktura dokumentu Podstawą działania wszystkich stron internetowych jest język HTML (Hypertext Markup Language) hipertekstowy język znaczników. Dokument

Bardziej szczegółowo

Maria Romanowska UDOWODNIJ, ŻE... PRZYKŁADOWE ZADANIA MATURALNE Z MATEMATYKI

Maria Romanowska UDOWODNIJ, ŻE... PRZYKŁADOWE ZADANIA MATURALNE Z MATEMATYKI Maria Romanowska UDOWODNIJ, ŻE... PRZYKŁADOWE ZADANIA MATURALNE Z MATEMATYKI Matematyka dla liceum ogólnokształcącego i technikum w zakresie podstawowym i rozszerzonym Z E S Z Y T M E T O D Y C Z N Y Miejski

Bardziej szczegółowo

SQL (ang. Structured Query Language)

SQL (ang. Structured Query Language) SQL (ang. Structured Query Language) SELECT pobranie danych z bazy, INSERT umieszczenie danych w bazie, UPDATE zmiana danych, DELETE usunięcie danych z bazy. Rozkaz INSERT Rozkaz insert dodaje nowe wiersze

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Osiągnięcia przedmiotowe

Osiągnięcia przedmiotowe 1. Zbieranie, porządkowanie i prezentowanie danych przedstawione w tabelach przedstawione na przedstawiać dane w tabelach przedstawiać dane na przedstawione w tabelach przedstawione na porównywać informacje

Bardziej szczegółowo

Oddziaływanie wirnika

Oddziaływanie wirnika Oddziaływanie wirnika W każdej maszynie prądu stałego, pracującej jako prądnica lub silnik, może wystąpić taki szczególny stan pracy, że prąd wirnika jest równy zeru. Jedynym przepływem jest wówczas przepływ

Bardziej szczegółowo

Sprawdziany w USOSweb instrukcja dla prowadzących zajęcia.

Sprawdziany w USOSweb instrukcja dla prowadzących zajęcia. Sprawdziany w USOSweb instrukcja dla prowadzących zajęcia. I. Wstęp Moduł Sprawdziany, służy do przekazywania w łatwy sposób, drogą elektroniczną zasad zaliczania przedmiotów oraz wyników kartkówek czy

Bardziej szczegółowo

DOTACJE NA INNOWACJE. Inwestujemy w waszą przyszłość. Zapytanie ofertowe

DOTACJE NA INNOWACJE. Inwestujemy w waszą przyszłość. Zapytanie ofertowe Empower Sp. z o.o.- Ul.Chmielna 10/23-00-020 Warszawa NIP 5252535482 Warszawa, dnia 02-02-2015 Zapytanie ofertowe W związku z realizacją projektu pn. Stworzenie platformy Empower jako narzędzia do automatycznego

Bardziej szczegółowo

Audyt SEO. sklep-budowalny.pl. +531 525 600 biuro@semtec.pl www.semtec.pl. Biuro obsługi: al. Grunwaldzka 2/5 80-236 Gdańsk

Audyt SEO. sklep-budowalny.pl. +531 525 600 biuro@semtec.pl www.semtec.pl. Biuro obsługi: al. Grunwaldzka 2/5 80-236 Gdańsk Audyt SEO sklep-budowalny.pl Spis treści 1 WSTĘP... 3 2 ZALECENIA OGÓLNE... 5 2.1 OPTYMALIZACJA NAGŁÓWKÓW NA WSZYSTKICH PODSTRONACH... 5 2.2 KONFIGURACJA PARAMETRÓW W GOOGLE WEBMASTER TOOLS... 6 2.3 USUNIĘCIE

Bardziej szczegółowo