EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM IV WEB ADVERTISING + LATENT SEMANTIC INDEXING



Podobne dokumenty
EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM V INDEKS ODWROTNY + WEB ADVERTISING + MINING NAVIGATIONAL PATTERNS + APRIORI

Temat: Operacje elementarne na wierszach macierzy

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Zadanie 2. Dany jest szereg rozdzielczy przedziałowy, wyznaczyć następujące miary: wariancja, odchylenie standardowe

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Zaawansowane metody numeryczne

Praca i energia. x jest. x i W Y K Ł A D Praca i energia kinetyczna. Ruch jednowymiarowy pod działaniem stałych sił.

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Blok 7: Zasada zachowania energii mechanicznej. Zderzenia

Pokazać, że wyżej zdefiniowana struktura algebraiczna jest przestrzenią wektorową nad ciałem

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

SZTUCZNA INTELIGENCJA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Laboratorium ochrony danych

Definicje ogólne

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Procedura normalizacji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

KINEMATYKA MANIPULATORÓW

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

f 4,3 m l 20 m 4 f l x x 2 y x l 2 4 4,3 20 x x ,86 x 0,043 x 2 y x 4 f l 2 x l 2 4 4, x dy dx tg y x ,86 0,086 x

METODY PLANOWANIA EKSPERYMENTÓW. dr hab. inż. Mariusz B. Bogacki

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Ćwiczenie 10. Metody eksploracji danych

3 BADANIE WYDAJNOŚCI SPRĘŻARKI TŁOKOWEJ. 1. Wprowadzenie

-Macierz gęstości: stany czyste i mieszane (przykłady) -równanie ruchu dla macierzy gęstości -granica klasyczna rozkładów kwantowych

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Obliczanie średniej, odchylenia standardowego i mediany oraz kwartyli w szeregu szczegółowym i rozdzielczym?

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Ćwiczenia nr 3 Finanse II Robert Ślepaczuk. Teoria portfela papierów wartościowych

Natalia Nehrebecka. Zajęcia 4

Przypomnienie: wykłady i zadania kursu były zaczerpnięte z podręczników: Model statystyczny Format danych

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Sprawozdanie powinno zawierać:

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)


SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

Symetrie i struktury ciała stałego - W. Sikora

METODY HODOWLANE - zagadnienia

Wykład 5 12/15/2013. Problemy algebry liniowej w Matlabie


Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Oligopol dynamiczny. Rozpatrzmy model sekwencyjnej konkurencji ilościowej jako gra jednokrotna z pełną i doskonalej informacją

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

WikiWS For Business Sharks

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

KONSTRUKCJA OPTYMALNYCH PORTFELI Z ZASTOSOWANIEM METOD ANALIZY FUNDAMENTALNEJ UJĘCIE DYNAMICZNE

ZASADA ZACHOWANIA MOMENTU PĘDU: PODSTAWY DYNAMIKI BRYŁY SZTYWNEJ

Wykaz ważniejszych oznaczeń... 5 Wykaz ważniejszych akronimów... 9

( ) Statystyka Studenta. s n SE X. Wykład 2 Porównanie dwóch populacji testy Studenta i testy nieparametryczne

WPŁYW OSZCZĘDNOŚCI W STRATACH ENERGII NA DOBÓR TRANSFORMATORÓW ROZDZIELCZYCH SN/nn

i odwrotnie: ; D) 20 km h

Nieparametryczne Testy Istotności

SZTUCZNA INTELIGENCJA

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

ALGEBRY HALLA DLA POSETÓW SKOŃCZONEGO TYPU PRINJEKTYWNEGO

RUCH OBROTOWY Można opisać ruch obrotowy ze stałym przyspieszeniem ε poprzez analogię do ruchu postępowego jednostajnie zmiennego.

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1


KONKURS NA NAJLEPSZEGO ANALITYKA/ZESPÓŁ ANALITYCZNY

Kier. MTR Programowanie w MATLABie Laboratorium Ćw. 12

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

MINISTER EDUKACJI NARODOWEJ

Portfel. Portfel pytania. Portfel pytania. Analiza i Zarządzanie Portfelem cz. 2. Katedra Inwestycji Finansowych i Zarządzania Ryzykiem

dy dx stąd w przybliżeniu: y

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

11/22/2014. Jeśli stała c jest równa zero to takie gry nazywamy grami o sumie zerowej.

Pattern Classification

Algorytmy ewolucyjne (2)

Za: Stanisław Latoś, Niwelacja trygonometryczna, [w:] Ćwiczenia z geodezji II [red.] J. Beluch

Maksymalny błąd oszacowania prędkości pojazdów uczestniczących w wypadkach drogowych wyznaczonej różnymi metodami

s Dla prętów o stałej lub przedziałami stałej sztywności zginania mianownik wyrażenia podcałkowego przeniesiemy przed całkę 1 EI s

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

I. Elementy analizy matematycznej

Wprowadzenie do reklamy w wyszukiwarkach

Reprezentacje grup symetrii. g s

EKONOMETRIA I Spotkanie 1, dn

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

ZAJĘCIA X. Zasada największej wiarygodności

LABORATORIUM PRZYRZĄDÓW I UKŁADÓW MOCY. Ćwiczenie 3 B. Stany dynamiczne Przetwornica impulsowa

Nowe europejskie prawo jazdy w celu większej ochrony, bezpieczeństwa i swobodnego przemieszczania się

DIAGNOSTYKA WYMIENNIKÓW CIEPŁA Z UWIARYGODNIENIEM WYNIKÓW POMIARÓW EKPLOATACYJNYCH

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Minister Edukacji Narodowej Pani Katarzyna HALL Ministerstwo Edukacji Narodowej al. J. Ch. Szucha Warszawa Dnia 03 czerwca 2009 r.

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

Wprowadzenie do Sieci Neuronowych Sieci rekurencyjne

Komputer kwantowy Zasady funkcjonowania. Dr hab. inż. Krzysztof Giaro Politechnika Gdańska Wydział ETI

Prawdopodobieństwo i statystyka r.

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

Badania operacyjne w logistyce i zarządzaniu produkcją

Weryfikacja hipotez dla wielu populacji

Część III: Termodynamika układów biologicznych

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

Transkrypt:

EPLORACJA ZAOBÓW INERNEU - IŁOZ AZIŃI LABORAORIU IV WEB AVERIING + LAEN EANIC INEXING. Laboratorum IV.. Web advertng algorytm BALANCE oraz podtawy algorytmu Adword.2. Latent emantc Indexng algorytm redukcj wymarów przetrzen reprezentacj tron 2. Web Advertng Banery - 995-200, zwykle kozt X$ za 000 wyśwetleń (cot per ml CP), czaam opłata była poberana ne za amo wyśwetlene, a klknęce (cot per clck CPC). ponored earch, earch advertng wprowadzone przez frmę Goto (Overture) w 2000r. Reklamodawcy kładają oferty na łowa kluczowe Gdy ktoś w zapytanu użyje tego łowa kluczowego, wyśwetlana jet reklama zwązana z najwyżzą ofertą (lub rankng reklam uporządkowanych wg malejącej wyokośc ofert) Reklamodawca jet zobowązany zapłacć tylko, jeśl reklama zotane klknęta Algorthmc earch reult v. ponored earch reult połączene Adword problem ekwencja zapytań, 2, Welu reklamodawców kłada ofertę na każde zapytane edy pojawa ę, wyzukwarka mu określć zbór reklamodawców, których reklamy zotaną pokazane użytkownkow Cel: makymalzacja zyku wyzukwark BALANCE (proty) ażdy reklamodawca ma budżet b jednotek kłada oferty w wyokośc 0/ jednotek na każde zapytane Wyśwetlana jet reklama tego reklamodawcy, który ma najwękzy newydany budżet Compettve Rato mn all poble nput alg / opt /e BALANCE (uogólnony) owolne oferty, dowolne budżety Oferta x Budżet b wota wydana do tej pory m Część budżetu, która pozotała reklamodawcy: f m /b la zapytana zotane wyśwetlona reklama reklamodawcy, dla którego najwękzą wartość ma funkcja: ψ () x (-e -f ) Compettve Rato -/e - -

Google Adword Algorthm (werja początkowa) Prota, zrozumała, nawązująca do Goto, your bd determne your poton we zmenne: CR (Clck hrough Rate dla łowa kluczowego) oraz AX BI (oferta makymalnej kwoty, jaką jeteś w tane zapłacć za klknęce reklamy) Rank core [CR * AX BI] Reklamadawcy (łowo wdget ) CR AX [CR * AX BI]Rank core Rank core Rank BI Bdder A 0.04 $0.09 0.04 * 0.09.0036 #2 Bdder B 0.05 $0.09 0.05 * 0.09.0045 # Bdder C 0.02 $0. 0.02 * 0..0022 #3 Wada z punktu wdzena Google: łowo mało popularne v. top rankng Zmany: Oberwacja (2004): I'm bddng on keyword [exa purple wdget] (that' exact match) and my bd $0.0 - here no way anybody ele bddng on th term, o why my ad rankng never any better that 9th? AN, nce nobody ele bddng on that carefully elected exact match keyword, why are all thoe ad howng ahead of me? Odpowedź: Google określa zerzy temat, z którym powązane jet zapytane trzeba rywalzować z nnym reklamodawcam, którzy ne określ dokładne tych łów jako kluczowe. kutek: Ne da ę już znaleźć tanch łów kluczowych, które pozwalają na oągnęce perwzych pozycj. Oberwacja (2005): I keep rang my bd, but my ad poton (rankng) refue to get better." Odpowedź: Google uwzględnł wele dodatkowych parametrów takch, jak: htora konta merzona jako CR wzytkch reklam łów kluczowych na konce; htoryczny CR tzw. dplay URL (adreu wyśwetlanego na dole reklamy, które wkazuje tronę na którą przejdzemy po klknęcu) w ad group (grupe reklam opracowanych przez reklamodawcą, które ą dedykowane dla pojedynczego łowa kluczowego); totność (relevance) łowa kluczowego w tounku do reklam w ad group kutek: Cężko kontrolować pozycję tylko za pomocą oferty (a nawet jeśl to 0.$ ->.5$) Oberwacja (2005): Wat a mnute... y Google AdWord ad for my keyword ha ranked n the top poton for over a year and on onday t' all of a udden rankng 27th! I changed nothng and I'm tll bddng an outrageou amount, o WHY A I EEING Y A IN 27th poton?" Odpowedź: Google uwzględna tzw. localzaton factor (kuteczność reklamy w regone geografcznym, z którego pochodz zapytane) kutek: Reklamy mogą meć różne pozycje w różnych częścach śwata olejna zmana: landng page factor wele, wele nnych :) - 2 -

3. Latent emantc Indexng łowa ą nejednoznaczne (ynonmy, homonmy) lepej dokonać dopaowywana pojęć nż łów (concept matchng) (tylko 20% ludz używa tych amych łów, by opać to amo pojęce) Pomył: dokonać odwzorowana wektorów zwązanych z dokumentam zapytanam do przetrzen o mnejzej lczbe wymarów zwązanej z pojęcam: Problem: jak zdefnować oblczyć pojęca (concept)? Czy da ę to zrobć automatyczne? Procedura PCA: przykład bologczny Jolcoeur oman w 960r. dokonywal pomarów żółw, otrzymując orygnalne zmenne: długość, zerokość wyokość; ze względu na duże korelacje (tałe proporcje powyżzych welkośc) możność uzykać jedną zmenną: welkość, która nee ze obą 98,64% nformacj (podobne badana Wrght, 954 bałe leghorny) przykład pychologczny Brren orron w 96r. badal wynk tetów Wechlera (tety na ntelgencję dla dorołych) oberwowano wynk tetów ( zmennych) oraz wek wykztałcene.; w rezultace przekztałcena PC otrzymano zmenne, które (po zanalzowanu z orygnalnym wynkam tetów) znterpretowano natępująco: ogólna wydajność ntelektualna (5,47%), dośwadczena (0,9%), mernk wyobraźn przetrzennej (6,5%), mernk umejętnośc rachunkowych (5,48%). macerz txn (term x dokument) t termów, N dokumentów j waga termu t w dokumence d j (bag-of-word, F-IF, td.) Rozkład V (ngular value decompoton) macerzy C: acerz macerz wektorów włanych uzykana z macerzy (macerzy korelacj term-to-term) acerz o wymarze rxr, gdze r to rząd macerzy (r mn(t,n)) acerz macerz wektorów włanych uzykana z macerzy (macerzy korelacj document-todocument) - 3 -

- 4 - ażdy wartość odpowada wymarow przetrzen pojęć Redukcja polega na zachowanu jedyne najwękzych wartośc z macerzy ( to wymar nowej przetrzen); rezta jet uuwana (0 zatępują małe wartośc włane) wraz z odpowadającym m kolumnam oraz (werzama w ) etoda daje mnmalną wartość normy Frobenua (różnca mędzy macerzą oraz ): okumenty można porównać, lcząc marę conuową w przetrzen dokumentów, tj. porównując kolumny d oraz d j macerzy Zapytane jet traktowane jajo dodatkowy dokument: Jet dodawany do macerzy (łaba wydajność, gdy jet wele zapytań) ożna zatoować tę amą tranformację, która mapuje na (to będzemy toować) Jak wygląda przekztałcene, które należy zatoować? ' d m ) ( ' ) ( ' ) ', ( gdze ) ( jet -tą kolumną macerzy.

5. Ćwczena. wóch reklamodawców A oraz B dyponuje budżetem 4$. A kłada ofertę na zapytane x, a B kłada ofertę na zapytana x oraz y. Wzytke oferty mają wyokość $. Jak będze wybór reklam dokonany przez algorytm BALANCE dla cągu zapytań: xxxxyyyy, a jak dla cągu zapytań: yxyxxyxy? Jak jet optymalny przydzał? Podaj compettve rato dla tego przykładu. Zapytana: xxxxyyyy; compettve rato BAL [ ], OP [ ] Zapytana: yxyxxyxy; compettve rato BAL [ ], OP [ ] 2. ana jet macerz term-dokument, dla której dokonano rozkłady V. Wykorzytując metodę LI oraz ogranczene przetrzen do dwóch wymarów, oblcz podobeńtwo dokumentów z zapytanem boat trp. Wzór: ' 2 3 4 5 6 m(q, ) hp 0 0 0 0 boat 0 0 0 0 0 2 ocean 0 0 0 0 3 voyage 0 0 0-4 rp 0 0 0 0 5 6 2 3 4 5 2 3 4 5 6 hp -0.44-0.30 0.57 0.58 0.25 2.6 0 0 0 0-0.75-0.28-0.20-0.45-0.33-0.2 Boat -0.3-0.33-0.59 0.00 0.73 0.59 0 0 0 2-0.29-0.53-0.9 0.63 0.22 0.4 Ocean -0.48-0.5-0.37 0.00-0.6 0 0.28 0 0 3 0.28-0.75 0.45-0.20 0,2-0.33 Voyage -0.70 0.35 0.5-0.58 0.6 0 0 0.00 0 4 0.00 0.00 0.58 0.00-0,58 0.58 rp -0.26 0.65-0.4 0.58-0.09 0 0 0 0 0.39 5-0.53 0.29 0.63 0.9 0.4-0.22-5 -

6. Omówene zadań do amodzelnego wykonana. [] etoda Goto tworzyła rankng reklamodawców dla danego zapytana tylko w oparcu o kładane przez nch oferty (bd) na łowa kluczowe: reklamodawca z najwękzą ofertą był na czele wyśwetlanego rankngu, td. Jaka jet wada tego podejśca? Rozważ przypadek, gdy reklamodawca dający najwękzą ofertę obtawa łowa kluczowe, które ne ą zwązane z jego troną (dzałalnoścą)? Jaka mogła być motywacja takego reklamodawcy, by potępować w poób opany powyżej? 2. [2] anych jet 3 reklamodawców R, R2 R3. W yteme wytępują tylko trzy typy zapytań do reklam: X, Y Z. ażdy z reklamodawców ma budżet w wyokośc 3 jednotek: R płac za X, oraz 0 za Y Z, R2 płac za X Y, oraz 0 za Z, R3 płac za X, Y Z. Jak jet zyk wyzukwark dla cągu zapytań: XYZXZXYZY, jeśl używa ona uogólnonego algorytmu BALANCE? [] Jaka jet ekwencja zapytań, która dałaby najgorzy wpółczynnk compettve rato, przy założenu że uzeregowane optymalne daje zyk makymalny 9 jednotek. [] 3. [3] Napz program rangujący dokumenty, dzałający w oparcu o Latent emantc Indexng (LI). ane ą macerz term-dokument (matrx.txt) oraz wektor zapytana (uery.txt). Pokaż mary podobeńtwa dla wzytkch dokumentów, używając 2 lub 4 najwękzych wartośc włanych macerzy. rok: Oblcz macerze,,, używając rozkładu V (ngular Value ecompoton), Zachowaj tyko 2 lub 4 najwękze wartośc włane zmodyfkuj odpowedno, oraz (wytnj z orygnalnej reprezentacj werze kolumny, które Cę ntereują) Przekztałć wektor do, tranponując go, a natępne używając odpowedno oraz, Porównaj wektor z macerzą, używając tandardowej mary konuowej (porównaj z wektorem zapytana oobno każdą kolumnę macerzy, która reprezentuje pojedynczy dokument w ogranczonej przetrzen pojęć) oblcz podobeńtwa dla wzytkch dokumentów Wyśwetl podobeńtwa wraz z lczbowym dentyfkatoram dokumentów (,., n) ne muz porządkować dokumentów pod względem podobeńtwa Implementacja w języku Java: zkelet rozwązana znajdzez w LI-Lab4.java. Wykorzytaj Java atrx Package (Jama-.0.2.jar). Rozkład V w pakece JAA jet bardzo proty (patrz Jama Javaoc - http://math.nt.gov/javanumerc/jama/doc/). Nektóre przydatne funkcje lub klay: ngularvalueecompoton, atrx, getatrx(), getrowmenon(), getcolumnmenon(), nvere(), tranpoe(), tme(), getarray(), norm2(). Prześlj klaę LILab4.java oraz plk z rezultatam (dla 2 oraz 4). Część, którą należy dopać to ok. 0 ln kodu, z których wękzość to odczytywane zmennych lub wycnane odpowednch werzy lub kolumn. - 6 -