EPLORACJA ZAOBÓW INERNEU - IŁOZ AZIŃI LABORAORIU IV WEB AVERIING + LAEN EANIC INEXING. Laboratorum IV.. Web advertng algorytm BALANCE oraz podtawy algorytmu Adword.2. Latent emantc Indexng algorytm redukcj wymarów przetrzen reprezentacj tron 2. Web Advertng Banery - 995-200, zwykle kozt X$ za 000 wyśwetleń (cot per ml CP), czaam opłata była poberana ne za amo wyśwetlene, a klknęce (cot per clck CPC). ponored earch, earch advertng wprowadzone przez frmę Goto (Overture) w 2000r. Reklamodawcy kładają oferty na łowa kluczowe Gdy ktoś w zapytanu użyje tego łowa kluczowego, wyśwetlana jet reklama zwązana z najwyżzą ofertą (lub rankng reklam uporządkowanych wg malejącej wyokośc ofert) Reklamodawca jet zobowązany zapłacć tylko, jeśl reklama zotane klknęta Algorthmc earch reult v. ponored earch reult połączene Adword problem ekwencja zapytań, 2, Welu reklamodawców kłada ofertę na każde zapytane edy pojawa ę, wyzukwarka mu określć zbór reklamodawców, których reklamy zotaną pokazane użytkownkow Cel: makymalzacja zyku wyzukwark BALANCE (proty) ażdy reklamodawca ma budżet b jednotek kłada oferty w wyokośc 0/ jednotek na każde zapytane Wyśwetlana jet reklama tego reklamodawcy, który ma najwękzy newydany budżet Compettve Rato mn all poble nput alg / opt /e BALANCE (uogólnony) owolne oferty, dowolne budżety Oferta x Budżet b wota wydana do tej pory m Część budżetu, która pozotała reklamodawcy: f m /b la zapytana zotane wyśwetlona reklama reklamodawcy, dla którego najwękzą wartość ma funkcja: ψ () x (-e -f ) Compettve Rato -/e - -
Google Adword Algorthm (werja początkowa) Prota, zrozumała, nawązująca do Goto, your bd determne your poton we zmenne: CR (Clck hrough Rate dla łowa kluczowego) oraz AX BI (oferta makymalnej kwoty, jaką jeteś w tane zapłacć za klknęce reklamy) Rank core [CR * AX BI] Reklamadawcy (łowo wdget ) CR AX [CR * AX BI]Rank core Rank core Rank BI Bdder A 0.04 $0.09 0.04 * 0.09.0036 #2 Bdder B 0.05 $0.09 0.05 * 0.09.0045 # Bdder C 0.02 $0. 0.02 * 0..0022 #3 Wada z punktu wdzena Google: łowo mało popularne v. top rankng Zmany: Oberwacja (2004): I'm bddng on keyword [exa purple wdget] (that' exact match) and my bd $0.0 - here no way anybody ele bddng on th term, o why my ad rankng never any better that 9th? AN, nce nobody ele bddng on that carefully elected exact match keyword, why are all thoe ad howng ahead of me? Odpowedź: Google określa zerzy temat, z którym powązane jet zapytane trzeba rywalzować z nnym reklamodawcam, którzy ne określ dokładne tych łów jako kluczowe. kutek: Ne da ę już znaleźć tanch łów kluczowych, które pozwalają na oągnęce perwzych pozycj. Oberwacja (2005): I keep rang my bd, but my ad poton (rankng) refue to get better." Odpowedź: Google uwzględnł wele dodatkowych parametrów takch, jak: htora konta merzona jako CR wzytkch reklam łów kluczowych na konce; htoryczny CR tzw. dplay URL (adreu wyśwetlanego na dole reklamy, które wkazuje tronę na którą przejdzemy po klknęcu) w ad group (grupe reklam opracowanych przez reklamodawcą, które ą dedykowane dla pojedynczego łowa kluczowego); totność (relevance) łowa kluczowego w tounku do reklam w ad group kutek: Cężko kontrolować pozycję tylko za pomocą oferty (a nawet jeśl to 0.$ ->.5$) Oberwacja (2005): Wat a mnute... y Google AdWord ad for my keyword ha ranked n the top poton for over a year and on onday t' all of a udden rankng 27th! I changed nothng and I'm tll bddng an outrageou amount, o WHY A I EEING Y A IN 27th poton?" Odpowedź: Google uwzględna tzw. localzaton factor (kuteczność reklamy w regone geografcznym, z którego pochodz zapytane) kutek: Reklamy mogą meć różne pozycje w różnych częścach śwata olejna zmana: landng page factor wele, wele nnych :) - 2 -
3. Latent emantc Indexng łowa ą nejednoznaczne (ynonmy, homonmy) lepej dokonać dopaowywana pojęć nż łów (concept matchng) (tylko 20% ludz używa tych amych łów, by opać to amo pojęce) Pomył: dokonać odwzorowana wektorów zwązanych z dokumentam zapytanam do przetrzen o mnejzej lczbe wymarów zwązanej z pojęcam: Problem: jak zdefnować oblczyć pojęca (concept)? Czy da ę to zrobć automatyczne? Procedura PCA: przykład bologczny Jolcoeur oman w 960r. dokonywal pomarów żółw, otrzymując orygnalne zmenne: długość, zerokość wyokość; ze względu na duże korelacje (tałe proporcje powyżzych welkośc) możność uzykać jedną zmenną: welkość, która nee ze obą 98,64% nformacj (podobne badana Wrght, 954 bałe leghorny) przykład pychologczny Brren orron w 96r. badal wynk tetów Wechlera (tety na ntelgencję dla dorołych) oberwowano wynk tetów ( zmennych) oraz wek wykztałcene.; w rezultace przekztałcena PC otrzymano zmenne, które (po zanalzowanu z orygnalnym wynkam tetów) znterpretowano natępująco: ogólna wydajność ntelektualna (5,47%), dośwadczena (0,9%), mernk wyobraźn przetrzennej (6,5%), mernk umejętnośc rachunkowych (5,48%). macerz txn (term x dokument) t termów, N dokumentów j waga termu t w dokumence d j (bag-of-word, F-IF, td.) Rozkład V (ngular value decompoton) macerzy C: acerz macerz wektorów włanych uzykana z macerzy (macerzy korelacj term-to-term) acerz o wymarze rxr, gdze r to rząd macerzy (r mn(t,n)) acerz macerz wektorów włanych uzykana z macerzy (macerzy korelacj document-todocument) - 3 -
- 4 - ażdy wartość odpowada wymarow przetrzen pojęć Redukcja polega na zachowanu jedyne najwękzych wartośc z macerzy ( to wymar nowej przetrzen); rezta jet uuwana (0 zatępują małe wartośc włane) wraz z odpowadającym m kolumnam oraz (werzama w ) etoda daje mnmalną wartość normy Frobenua (różnca mędzy macerzą oraz ): okumenty można porównać, lcząc marę conuową w przetrzen dokumentów, tj. porównując kolumny d oraz d j macerzy Zapytane jet traktowane jajo dodatkowy dokument: Jet dodawany do macerzy (łaba wydajność, gdy jet wele zapytań) ożna zatoować tę amą tranformację, która mapuje na (to będzemy toować) Jak wygląda przekztałcene, które należy zatoować? ' d m ) ( ' ) ( ' ) ', ( gdze ) ( jet -tą kolumną macerzy.
5. Ćwczena. wóch reklamodawców A oraz B dyponuje budżetem 4$. A kłada ofertę na zapytane x, a B kłada ofertę na zapytana x oraz y. Wzytke oferty mają wyokość $. Jak będze wybór reklam dokonany przez algorytm BALANCE dla cągu zapytań: xxxxyyyy, a jak dla cągu zapytań: yxyxxyxy? Jak jet optymalny przydzał? Podaj compettve rato dla tego przykładu. Zapytana: xxxxyyyy; compettve rato BAL [ ], OP [ ] Zapytana: yxyxxyxy; compettve rato BAL [ ], OP [ ] 2. ana jet macerz term-dokument, dla której dokonano rozkłady V. Wykorzytując metodę LI oraz ogranczene przetrzen do dwóch wymarów, oblcz podobeńtwo dokumentów z zapytanem boat trp. Wzór: ' 2 3 4 5 6 m(q, ) hp 0 0 0 0 boat 0 0 0 0 0 2 ocean 0 0 0 0 3 voyage 0 0 0-4 rp 0 0 0 0 5 6 2 3 4 5 2 3 4 5 6 hp -0.44-0.30 0.57 0.58 0.25 2.6 0 0 0 0-0.75-0.28-0.20-0.45-0.33-0.2 Boat -0.3-0.33-0.59 0.00 0.73 0.59 0 0 0 2-0.29-0.53-0.9 0.63 0.22 0.4 Ocean -0.48-0.5-0.37 0.00-0.6 0 0.28 0 0 3 0.28-0.75 0.45-0.20 0,2-0.33 Voyage -0.70 0.35 0.5-0.58 0.6 0 0 0.00 0 4 0.00 0.00 0.58 0.00-0,58 0.58 rp -0.26 0.65-0.4 0.58-0.09 0 0 0 0 0.39 5-0.53 0.29 0.63 0.9 0.4-0.22-5 -
6. Omówene zadań do amodzelnego wykonana. [] etoda Goto tworzyła rankng reklamodawców dla danego zapytana tylko w oparcu o kładane przez nch oferty (bd) na łowa kluczowe: reklamodawca z najwękzą ofertą był na czele wyśwetlanego rankngu, td. Jaka jet wada tego podejśca? Rozważ przypadek, gdy reklamodawca dający najwękzą ofertę obtawa łowa kluczowe, które ne ą zwązane z jego troną (dzałalnoścą)? Jaka mogła być motywacja takego reklamodawcy, by potępować w poób opany powyżej? 2. [2] anych jet 3 reklamodawców R, R2 R3. W yteme wytępują tylko trzy typy zapytań do reklam: X, Y Z. ażdy z reklamodawców ma budżet w wyokośc 3 jednotek: R płac za X, oraz 0 za Y Z, R2 płac za X Y, oraz 0 za Z, R3 płac za X, Y Z. Jak jet zyk wyzukwark dla cągu zapytań: XYZXZXYZY, jeśl używa ona uogólnonego algorytmu BALANCE? [] Jaka jet ekwencja zapytań, która dałaby najgorzy wpółczynnk compettve rato, przy założenu że uzeregowane optymalne daje zyk makymalny 9 jednotek. [] 3. [3] Napz program rangujący dokumenty, dzałający w oparcu o Latent emantc Indexng (LI). ane ą macerz term-dokument (matrx.txt) oraz wektor zapytana (uery.txt). Pokaż mary podobeńtwa dla wzytkch dokumentów, używając 2 lub 4 najwękzych wartośc włanych macerzy. rok: Oblcz macerze,,, używając rozkładu V (ngular Value ecompoton), Zachowaj tyko 2 lub 4 najwękze wartośc włane zmodyfkuj odpowedno, oraz (wytnj z orygnalnej reprezentacj werze kolumny, które Cę ntereują) Przekztałć wektor do, tranponując go, a natępne używając odpowedno oraz, Porównaj wektor z macerzą, używając tandardowej mary konuowej (porównaj z wektorem zapytana oobno każdą kolumnę macerzy, która reprezentuje pojedynczy dokument w ogranczonej przetrzen pojęć) oblcz podobeńtwa dla wzytkch dokumentów Wyśwetl podobeńtwa wraz z lczbowym dentyfkatoram dokumentów (,., n) ne muz porządkować dokumentów pod względem podobeńtwa Implementacja w języku Java: zkelet rozwązana znajdzez w LI-Lab4.java. Wykorzytaj Java atrx Package (Jama-.0.2.jar). Rozkład V w pakece JAA jet bardzo proty (patrz Jama Javaoc - http://math.nt.gov/javanumerc/jama/doc/). Nektóre przydatne funkcje lub klay: ngularvalueecompoton, atrx, getatrx(), getrowmenon(), getcolumnmenon(), nvere(), tranpoe(), tme(), getarray(), norm2(). Prześlj klaę LILab4.java oraz plk z rezultatam (dla 2 oraz 4). Część, którą należy dopać to ok. 0 ln kodu, z których wękzość to odczytywane zmennych lub wycnane odpowednch werzy lub kolumn. - 6 -