Learning to rank: RankLib. Krzysztof Pawlak, Jakub Sobieski

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Learning to rank: RankLib. Krzysztof Pawlak, Jakub Sobieski"

Mirosław Sosnowski
9 lat temu
Przeglądów:

1 Learning to rank: RankLib Krzysztof Pawlak, Jakub Sobieski

2 Spis Treści 1) Wprowadzenie Machine learning, Learning to rank 2) Lemur Project 3) RankLib 4) Omówienie algorytmu AdaRank 5) Przykład działania a) Transformacja danych b) Uczenie c) Tworzenie rankingów d) Dane konkursowe e) Porównywanie algorytmów

AdaRank 5) Przykład działania a) Transformacja danych b)

3 Wprowadzenie Machine Learning Uczenie maszynowe - praktyczne zastosowanie dokonań w dziedzinie sztucznej inteligencji do stworzenia automatycznego systemu potrafiącego doskonalić się przy pomocy zgromadzonego doświadczenia (czyli danych) i nabywania na tej podstawie nowej wiedzy. (Wikipedia) Początkiem uczenia maszynowego może być projekt Arthura Samuela z firmy IBM, który w latach rozwijał program do szkolenia zawodników szachowych. Przykłady zastosowań: analiza i użytkowanie olbrzymich baz danych, dostosowywanie się systemu do środowiska, systemy eksperckie, wyszukiwarki internetowe, oprogramowanie do rozpoznawania mowy, automatyczna nawigacja i sterowanie.

(Wikipedia) Początkiem uczenia maszynowego może być projekt Arthura Samuela z firmy IBM, który w latach 1952-1962 rozwijał program do szkolenia zawodników szachowych.

4 Wprowadzenie Learning to rank Learning to rank czy machine-learned ranking (MLR) jest zastosowaniem uczenia maszynowego do konstrukcji modelów rankingowych i systemów wydobywania informacji. Wykorzystywanie wydobywania dokumentów/informacji w wyszukiwarkach internetowych, do automatycznego konstruowania modeli rankingowych, przy wykorzystaniu zbiorów treningowych i testowych.

5 Spis Treści 1) Wprowadzenie Machine learning, Learning to rank 2) Lemur Project 3) RankLib 4) Omówienie algorytmu AdaRank 5) Przykład działania a) Transformacja danych b) Uczenie c) Tworzenie rankingów d) Dane konkursowe e) Porównywanie algorytmów

6 Lemur Project Powstał poprzez współpracę University of Massachusetts i Carnegie Mellon University. Dostarcza zbiór open-source funkcjonalności do modelowania językowego i wydobywania informacji. Wspiera wiele technologii jak ad-hoc retrieval, site-search i text mining. Zawiera także moduł wyszukiwania Indri, który wspiera indeksowanie dużych baz tekstowych, tworzenie prostych modelów językowych dla dokumentów, zapytania, implementacje systemów wydobywania opartym na modelach językowych itp. Napisany w C i C++, zaprojektowany jako system wyszukiwania pod systemu UNIX, ale może być uruchomiony także pod Windows.

Wspiera wiele technologii jak ad-hoc retrieval, site-search i text mining.

7 Spis Treści 1) Wprowadzenie Machine learning, Learning to rank 2) Lemur Project 3) RankLib 4) Omówienie algorytmu AdaRank 5) Przykład działania a) Transformacja danych b) Uczenie c) Tworzenie rankingów d) Dane konkursowe e) Porównywanie algorytmów

8 RankLib Biblioteka zawarta w Lemur Project, zawiera algorytmy learning to rank. Aktualnie zaimplementowanie algorytmy: MART (Multiple Additive Regression Trees, a.k.a. Gradient boosted regression tree) [6] RankNet [1] RankBoost [2] AdaRank [3] Coordinate Ascent [4] LambdaMART [5] ListNet [7] Random Forests [8]

9 Spis Treści 1) Wprowadzenie Machine learning, Learning to rank 2) Lemur Project 3) RankLib 4) Omówienie przykładowego algorytmu AdaRank 5) Przykład działania a) Transformacja danych b) Uczenie c) Tworzenie rankingów d) Dane konkursowe e) Porównywanie algorytmów

AdaRank 5) Przykład działania a) Transformacja danych b) Uczenie

10 Omówienie przykładowego algorytmu AdaRank Jest to algorytm typu listwise, buduje model rankingowy przez wykorzystanie podejści teorii Boosting. Teoria boosting opiera się na koncepcie słabych i mocnych ranker'ów Słabi ranker'zy są słabo związani z prawdziwą klasyfikacją. Mocni ranker'rzy są za to mocno związani. Paradygmat teorii Boosting wiąże się z stworzeniem jednego silnego ranker'a poprzez kombinacje zestawu słabych ranker'ów. AdaRank trenuje jednego słabego rankera przy każdym obrocie pętli iteracji, i łączy tych słabych rankerów jako finalną funkcję rankingową. Po każdym obrocie pętli wagi dokumentów są przeliczane, obniża wagi poprawnie ocenionych dokumentów dla danej metryki, i podwyższa wagi dokumentów które zostały ocenione źle dla tej samej metryki.

Paradygmat teorii Boosting wiąże się z stworzeniem jednego silnego ranker'a poprzez kombinacje zestawu słabych ranker'ów.

11 Omówienie przykładowego algorytmu AdaRank

12 Omówienie przykładowego algorytmu AdaRank Przy starcie algorytmu, wagi są równo rozdzielone po zapytaniach. W każdym obrocie pętli AdaRank dystrybuuje wagi do zapytań w zestawie treningowym. Kiedy słaby ranker zostanie zbudowany, algorytm wiąże do niego wagę at > 0, która oznacza ważność danego rankera.

W każdym obrocie pętli AdaRank dystrybuuje wagi do zapytań w zestawie

13 Spis Treści 1) Wprowadzenie Machine learning, Learning to rank 2) Lemur Project 3) RankLib 4) Omówienie przykładowego algorytmu AdaRank 5) Przykład działania a) Transformacja danych b) Uczenie c) Tworzenie rankingów d) Dane konkursowe e) Porównywanie algorytmów

14 PRZYKŁAD DZIAŁANIA

15 DANE KONKURSOWE

16 DANE ALLEGRO - PRODUKTY "IT_ID" "IT_NAME" "IT_BUY_NOW_PRICE" "PRIC E_WITH_DELIVERY" "BUY_COUNT" "BOLD" "FEA TURED" "THUMB" "SHOP_ITEM" "FREE_SHIPPIN G" "HIGHLIGHT" "SA" "Przyssawka mocowan na szybę do GoPro HERO4 Session" 24 27, "Toner Brother TN-2005, HL-2035, HL Super cena" 33,19 45, "AAB COOLING THERMOPAD taśma 3mm 6,0 W/mK + KLEJ 3M" 16,9 19,

HERO4 Session" 24 27,94 0 0 0 1 1 0 0 1 5030987655 "Toner Brother TN-2005, HL-2035, HL- 2037 Super cena" 33,19

17 DANE ALLEGRO id","p.searchtime","p.searchq","p.item_position","p.i t_id","p.pv","p.userhash" "1"," ","automat do chleba","0"," ","0","n000234f32eac619b ce598741d598221e" "2"," ","automat do chleba","1"," ","0","n000234f32eac619b ce598741d598221e" "3"," ","automat do chleba","2"," ","0","n000234f32eac619b ce598741d598221e"

ce598741d598221e" "2","1441962641155","automat do

18 PLIK WEJŚCIOWY <line>.=. <target> qid:<qid> <feature>:<value> <feature>:<value>... <feature>:<value> # <info> <target>.=. <positive integer> <qid>.=. <positive integer> <feature>.=. <positive integer> <value>.=. <float> <info>.=. <string>

19 PRZYKŁAD 0 qid:3649 1: : :0 4:0 5:0 6:1 7:1 8:0 9:0 10:1 # "ANDROID BOX MINIX X8H PLUS TRANSLATOR MESSENGER" 0 qid:3649 1: : :0 4:0 5:0 6:1 7:0 8:0 9:0 10:0 # "The Pragmatic Translator Massimiliano Morini" 0 qid:3649 1:1299 2:1299 3:0 4:1 5:1 6:1 7:1 8:1 9:0 10:1 # "Comet V71 Tablet Translator Tłumacz" 0 qid:3649 1:0 2:7.99 3:0 4:0 5:0 6:1 7:0 8:0 9:0 10:0 # "KURS NAUKA ANGIELSKIEGO TRANSLATOR NOWE ZESTAW" 0 qid:3649 1:0 2:12 3:0 4:0 5:0 6:1 7:0 8:0 9:0 10:0 # "SHARP IQ-3100 ładny translator, kalkulator"

1 3:0 4:0 5:0 6:1 7:0 8:0 9:0 10:0 # "The Pragmatic Translator Massimiliano Morini" 0 qid:3649 1:1299 2:1299 3:0 4:1 5:1 6:1 7:1 8:1

20 TRANSFORMACJA DANYCH

21 MODEL DANYCH

22 KROK 1. IMPORT DANYCH SEARCH

23 KROK 2. IMPORT DANYCH ITEM

24 KROK 3. STWORZENIE TABELI ZAPYTAŃ

25 KROK 4. STWORZENIE TABELI WYNIKÓW

26 KROK 5. POZYSKANIE DANYCH

27 KROK 6. EKSPORT DANYCH

28 WYNIK

29 UCZENIE

30 KROK 1. WYBÓR ALGORYTMU (-RANKER) MART (gradient boosted regression tree) RankNet RankBoost AdaRank Coordinate Ascent LambdaMART ListNet Random Forests

31 KROK 2. WYBÓR METRYK (-METRIC2T) MAP

32 KROK 3. WSKAZYWANIE ZBIORÓW -train -> plik ze zbiorem uczącym -test -> plik ze zbiorem testowym w celu oszacowania danych uczących -validate -> plik ze zbiorem sprawdzającym (służy do dostrojenia modelu) -save -> plik do którego ma zostać zapisany model

33 KROK 4. DODATKOWE PARAMETRY -feature -> Plik wskazujący które własności mają być uwzględniane w rankowaniu -norm -> normalizacja wektorów własności -kcv -tts -tvs

34 KROK 4. URUCHOMIENIE UCZENIA java -jar bin/ranklib.jar -train data/train.txt -test data/test.txt -validate data/vali.txt -ranker 6 -metric2t NDCG@10 -metric2t ERR@10 -save mymodel.txt

35 TWORZENIE RANKINGU

36 KROK 1. PARAMETRY OBOWIĄZKOWE -load -> wczytanie modelu -test -> wskazanie zbioru testowego do oszacowania -rank -> wskazanie zbioru testowego do stworzenia rankingu

37 KROK 2. DODATKOWE PARAMETRY -metric2t -> Wskazanie testowanej metryki -score -> wskazanie w jakim pliku ma zostać zapisany ranking -idv -> zapisanie osiągów modelu -norm -> normalizacja wektorów właściwości

38 KROK 3. URUCHOMIENIE PROGRAMU java -jar RankLib.jar -load mymodel.txt -rank data/test.txt -score myscorefile.txt

39 PORÓWNYWANIE ALGORYTMÓW

40 KROK 1. STWORZENIE WSZYSTKICH MODELI java -jar bin/ranklib.jar -train data/train.txt -test data/test.txt -validate data/vali.txt -ranker 6 - metric2t NDCG@10 -metric2t ERR@10 -save mymodel.txt

41 KROK 2. UZYSKANIE PLIKÓW WYDAJNOŚCI java -jar RankLib.jar -load lm.model.txt -test MQ2008/Fold1/test.txt -metric2t -idv output/lm.ndcg.txt

42 KROK 3. PORÓWNANIE MODELI java -cp bin/ranklib.jar ciir.umass.edu.eval.analyzer -all output/ -base baseline.ndcg.txt > analysis.txt

43 OVERALL COMPARISON System Performance Improvement Win Loss baseline.txt method0.txt ( %) method1.txt (+55.31%) method2.txt (+68.21%) method3.txt (+97.36%) method4.txt ( %) method5.txt ( %) method6.txt ( %) method7.txt ( %)

44 DETAILED BREAK DOWN [ < -100%) [-100%, -75%) [-75%, -50%) [-50%, -25%) [- 25%, 0%) (0%, +25%] (+25%, +50%] (+50%, +75%] (+75%, +100%] ( > +100%] method0.txt method1.txt method2.txt method3.txt method4.txt method5.txt method6.txt method7.txt

45 PRZYKŁADOWE ZAPYTANIE zrodlo min max rank MART RankNet RankBoost AdaRank Coordinate Ascent LambdaMART ListNet Random Forests

Podobne dokumenty

ALGORYTM RANDOM FOREST

SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM