word2vec dla Polskiego Internetu

Transkrypt

1 word2vec dla Polskiego Internetu 27 listopada 2015 Wojciech Stokowiec Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy

2 Agenda 1 word2vec CBOW Skip-Gram Optymalizacje Hierarchical Softmax Negative Sampling Internety Common Crawl Akka Przykłady Common Crawl Wiki

3 Przykład motywujący 2

8 word2vec + Google News 3 Korzystając z gotowego modelu ze strony from gensim.models.word2vec import word2vec model = word2vec.load_word2vec_format( GoogleNews-vectors-negative300.bin, binary=true) model.most_similar(positive=[ woman, king ], negative=[ man ], topn=5) [(u queen, ), (u monarch, ), (u princess, ), (u crown_prince, ), (u prince, )]

9 word2vec + Google News 4 Co ciekawe, poza semantycznymi relacjami, word2vec jest w stanie "wyłapać"podstawy gramatyki, takie jak stopniowanie przymiotników: model.most_similar(positive=[ biggest, small ], negative=[ big ], topn=5) [(u smallest, ), (u largest, ), (u tiny, ), (u large, ), (u minuscule, )]

10 word2vec 5 Należy pamiętać, że: word2vec to nie jeden model! word2vec to nie deep learning! Rysunek: CBOW oraz Skip-gram

11 Continuous Bag of Words 6 Rysunek: CBOW z jednym słowem w kontekście

12 CBOW 7 Dla danego kontekstu x, zakładając kodowanie 1 z N, tj x k = 1 oraz x k = 0 dla x k x k możemy obliczyć wartości warstwy ukrytej: h = x T W = W (k, ) := v wi (1) Następnie wyliczamy wartość funkcji oceny u j dla każdego słowa w j w słowniku: u j = v w j T h. (2) Aby wyznaczyć prawdopodobieństwo wyemitowania słowa w j pod warunkiem zaobserwowania danego kontekstu korzystamy z funkcji softmax: ) p(w O w I ) = exp(u exp (v O) T V i=1 exp(u i) = wo v wi ). (3) V i=1 (v exp w T i v wi

13 CBOW 8 Rysunek: CBOW z dłuższym kontekstem

14 CBOW 9 Analogicznie, tylko że warstwa ukryta wygląda w sposób następujący: h = 1 C W (x 1 + x x C ) = 1 C (v w 1 + v w v wc ). (4)

15 Skip-Gram 10 Rysunek: Skig-gram

16 Skip-Gram 11 Skip-gram jest lustrzanym odbiciem architektury CBOW, tj. na podstawie słowa staramy się przewidzieć jego kontekst. Niech dany będzie ciąg słów: w 1, w 2,..., w T oraz długość kontekstu c, wtedy staramy się maksymalizować następującą funkcję: 1 T T t=1 c j c, j 0 log p(w t+j wt ), (5) a prawdopodobieństwa p(w t+j wt ) zdefiniowane są w sposób następujący: p(w O w I ) = exp ( v w O T v wi ) W w=1 exp ( v w T v wi, ) (6) gdzie v w oraz v w oznaczają "wejściowe"i "wyjścioweżeprezentacje wektorowe słowa "w", a W jest liczbą słów w słowniku.

17 Optymalizacje 12 Przypomnijmy, że w wzorze 7 w mianowniku znajduje się czynnik normalizujący: p(w O w I ) = exp ( v w O T v wi ) W w=1 exp ( v w T v wi, ) (7) Przy dużym słowniku (a takie występują w przyrodzie) metody optymalizacyjne oparte na prostym gradiencie są co najmniej nieefektywne. Można sobie z tym radzić na parę sposobów!

18 Hierarchical Softmax 13 Jest to efektywny sposób na znalezienie szukanego prawdopodobieństwa Model używa drzewa binarnego do reprezentacji słów ze słownika

19 Hierarchical Softmax 14 Rysunek: Przykład drzewa binarnego dla hierarchicznego sofmax u Prawdopodobieństwo, że dane słowo w jest słowem wyjściowym zadane jest następującym wzorem: p(w = w O ) = L(w) 1 j=1 ( ) σ n(w, j + 1) = ch(n(w, j)) v T n(w,j) h (8)

20 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne

21 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet

22 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet Można użyć metod klastrowania hierarchicznego:

27 Hierarchical Softmax 15 Skąd wziąć to drzewo? Użyć losowo wygenerowanego Rozwiązanie w najlepszym przypadku nieoptymalne Można użyć zewnętrznych źródeł, np. WordNet Można użyć metod klastrowania hierarchicznego: Mikolov w swojej implementacji word2vec a używa drzew Huffmana

28 Negative Sampling 16 W swojej pracy z 2013 roku Mikolov używają następującej funkcji celu: log σ ( v w T ) k ( vwi O + E wi P n(w )[ log σ v T )] wi vwi, (9) i=1 Gdzie k, to liczba próbek z rozkładu śzumu"p n (W ). Równanie 9 można zapisać w trochę czytelniejszy sposób: Prawidłowy rozkład Rozkład szumu {}}{ log σ ( { v w T ) }}{ vwi O + log σ ( v w T ) vwi i i P n(w ) (10)

29 Negative Sampling 16 W swojej pracy z 2013 roku Mikolov używają następującej funkcji celu: log σ ( v w T ) k ( vwi O + E wi P n(w )[ log σ v T )] wi vwi, (9) i=1 Gdzie k, to liczba próbek z rozkładu śzumu"p n (W ). Równanie 9 można zapisać w trochę czytelniejszy sposób: Prawidłowy rozkład Rozkład szumu {}}{ log σ ( { v w T ) }}{ vwi O + log σ ( v w T ) vwi i i P n(w ) maksymalizujemy prawdopodobieństwo wystąpienia rzeczywistego kontekstu (10)

30 Negative Sampling 16 W swojej pracy z 2013 roku Mikolov używają następującej funkcji celu: log σ ( v w T ) k ( vwi O + E wi P n(w )[ log σ v T )] wi vwi, (9) i=1 Gdzie k, to liczba próbek z rozkładu śzumu"p n (W ). Równanie 9 można zapisać w trochę czytelniejszy sposób: Prawidłowy rozkład Rozkład szumu {}}{ log σ ( { v w T ) }}{ vwi O + log σ ( v w T ) vwi i i P n(w ) (10) maksymalizujemy prawdopodobieństwo wystąpienia rzeczywistego kontekstu minimalizujemy prawdopodobieństwo wystąpienia losowych słów w kontekście

31 Negative Sampling 16 W swojej pracy z 2013 roku Mikolov używają następującej funkcji celu: log σ ( v w T ) k ( vwi O + E wi P n(w )[ log σ v T )] wi vwi, (9) i=1 Gdzie k, to liczba próbek z rozkładu śzumu"p n (W ). Równanie 9 można zapisać w trochę czytelniejszy sposób: Prawidłowy rozkład Rozkład szumu {}}{ log σ ( { v w T ) }}{ vwi O + log σ ( v w T ) vwi i i P n(w ) (10) maksymalizujemy prawdopodobieństwo wystąpienia rzeczywistego kontekstu minimalizujemy prawdopodobieństwo wystąpienia losowych słów w kontekście P n (w) U(w) 3/4 /Z

32 Common Crawl 17 Fundacja Common Crawl to organizacja non-profit której celem jest demokratyzacja dostępu do informacji zawartej w internecie poprzez stworzenie i utrzymanie otwartego repozytorium tekstowych danych internetowych, które są powszechnie dostępne i łatwe do analizy. strona fundacji Common Crawl

33 Common Crawl 18 Mnóstwo danych! Jeden dump "ważyókoło 140TB danych i zawiera 1.80 mld stron internetowych Około 17 dumpów, zrobionych na przestrzeni lat Każdy dump składa się z plików: WARC - zawierających nieobrobione dane WAT - zawierających meta-dane opisujące dany rekord WET - zawierających wyłuskany ze strony tekst Jeden dump zawiera około 10TB danych w formacie WET Do tej pory przetworzyliśmy 9 dumpów, co daje około 90TB danych tekstowych, ale...

34 Common Crawl 18 Mnóstwo danych! Jeden dump "ważyókoło 140TB danych i zawiera 1.80 mld stron internetowych Około 17 dumpów, zrobionych na przestrzeni lat Każdy dump składa się z plików: WARC - zawierających nieobrobione dane WAT - zawierających meta-dane opisujące dany rekord WET - zawierających wyłuskany ze strony tekst Jeden dump zawiera około 10TB danych w formacie WET Do tej pory przetworzyliśmy 9 dumpów, co daje około 90TB danych tekstowych, ale około 0.3% jest w języku polskim.

35 WET 19 Format WET zawiera minimalną ilość meta-danych, główną jego zawartością jest czysty tekst ze strony. Rysunek: Przykład pliku w formacie WET

36 Narzędzia 20

37 Akka 21 Obowiązkowe Hello World (cz. 1): // definiujemy protokol rozmowy case class Hello(who: String) // minimalny aktor class Greeter extends Actor { def receive = { case Hello(who) => println(s"it s a you, a $who!") case _ => println("name, please!") } }

38 Akka 22 Obowiązkowe Hello World (cz. 2): object Main extends App { } // inicjalizacja systemu aktorow val system = ActorSystem("HelloWorldSystem") // stworzenie aktora val greeter = system.actorof(props[greeter], name = "helloactor") // przeslanie wiadomosci greeter! "Mario!"

39 Nasi aktorzy 23 System aktorów do zarządzania aplikacją 1 File Master tworzący File Workerów oraz rozdzielający im prace 1 Terminator monitorujący cykl życia aktorów, oraz zamykający system 24 File Workerów do przetwarzania strumienia danych oraz wysyłania kawałków tekstu reprezentujących stronę do identyfikacji języka 36 Bouncerów filtrują teksy z języka polskiego przy pomocy biblioteki CLD2 zapis do Cassandry

40 Nasi aktorzy 24 w 1 b 1 M w R w 2 b R. Db. b M w N Workers Bouncers Rysunek: Architektura crawlera

41 word2vec na zbiorze Common Crawl 25 Tablica: Najbliższe słowa Słowo Najbliższy Wektor Dystans Król Cesarz Tusk Donald Kobieta Dziewczyna Mężczyzna Chłopak Sushi Pizza Apple Tablety Dziewczyna Rozochocona :-)

42 word2vec na zbiorze Common Crawl 26 Wyrażenie Tablica: Algebra wektorów Najbliższy wektor Król Mężczyzna + Kobieta Edyp :-) Większy Duży + Mały Mniejszy Włochy Rzym + Francja Paryż Dżungla + Król tarzantarzan lewkról

43 word2vec na polskiej Wikipedii 27 Tablica: Najbliższe słowa Słowo Najbliższy Wektor Dystans Król Władca Tusk Ramotar :-) Kobieta Dziewczyna Mężczyzna Chłopak Sushi Chowder Apple Iphone Dziewczyna Kobieta Kaczyński Wałęsa Kwaśnieswki Komorowski

44 word2vec na polskiej 28 Tablica: Algebra wektorów Wyrażenie Najbliższy wektor Król Mężczyzna + Kobieta Królowa Większy Duży + Mały Mniejszy Włochy Rzym + Francja Szwajcaria :-(

45 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale...

46 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik.

47 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem.

48 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem. Wektorowe reprezentacje słów uzyskane poprzez uczenie word2veca na naszym korpusie są przesycone seksem :-)

49 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem. Wektorowe reprezentacje słów uzyskane poprzez uczenie word2veca na naszym korpusie są przesycone seksem :-) Wektorowe reprezentacje słów na polskiej wiki są nieznacznie lepsze.

50 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem. Wektorowe reprezentacje słów uzyskane poprzez uczenie word2veca na naszym korpusie są przesycone seksem :-) Wektorowe reprezentacje słów na polskiej wiki są nieznacznie lepsze. Zastosowanie word2veca do uzupełniania leksykonów sentymentu w zagadnieniu analizy wydźwięku

51 Podsumowanie 29 Udało się stworzyć największy korpus języka polskiego filtrując zbiory fundacji Commmon Crawl, ale to straszny śmietnik. Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem. Wektorowe reprezentacje słów uzyskane poprzez uczenie word2veca na naszym korpusie są przesycone seksem :-) Wektorowe reprezentacje słów na polskiej wiki są nieznacznie lepsze. Zastosowanie word2veca do uzupełniania leksykonów sentymentu w zagadnieniu analizy wydźwięku Polska język, trudna język.

52 Uwagi Informacje kontaktowe 30 W razie jakichkolwiek uwag, komentarzy lub wątpliwości proszę o kontakt: Wojciech Stokowiec wojciech.stokowiec@opi.org.pl

53 Dziękuje za uwagę!