Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Transkrypt

1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Tomáš Brus Sumarizace českých textů z více zdrojů Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: RNDr. Ondřej Bojar, Ph.D. Studijní program: teoretická informatika 2011

2 Děkuji panu Bojarovi za pomoc a cenné připomínky v průběhu vývoje celého projektu a dokumentace a rovněž za jeho vstřícnost. Prohlašuji, že jsem svou diplomovou práci napsal(a) samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce a jejím zveřejňováním. V Praze dne Tomáš Brus 2

3 Obsah 1 Úvod do sumarizace textu 8 2 Vstupní data Důležitost faktů článku Testovací množina dat Formát dat Prague Dependency Treebank Prague Markup Language Tektogramatická rovina Sběr testovacích dat Způsob sběru Úprava dat Míra shody článků Variabilita témat Psaní sumarizací Algoritmus sumarizace Důležitost slov: algoritmus TF*IDF Řazení vět do sumarizace Koeficient podobnosti vět Jaccardův koeficient Diceův koeficient Koeficient překrytí Q-gram koeficient Kosinový koeficient Skupiny podobnosti vět Omezení koeficientů podobnosti Sestavení skupiny podobnosti

4 4.4.3 Reprezentant skupiny podobnosti Pořadí vět v sumarizaci Délka sumarizace Výběr kandidátů do sumarizace Dle TF*IDF Dle koeficientu podobnosti Dle velikosti skupin podobnosti Dle pokrytí všemi články Shrnutí variant Metriky úspěšnosti sumarizace Nevýhody ruční metriky Automatická metrika Metrika BLEU N-gramový model N-gramová jemnost Výpočet metriky Metriky ROUGE ROUGE-N ROUGE-L ROUGE-W ROUGE-S Aplikace z pohledu uživatele Spuštění Ovládání Nastavení Logování výsledků Aplikace z pohledu programátora Multiplatformnost Návrhový vzor singleton Modul Main Modul Data Node TectoNode SentenceNode ArticleNode ArticleGroupNode

5 7.4.6 Summary SimilarityGroup Modul TextReader Modul Metrics TF IDF SentenceSimilarity Summarizer MetricBase MetricCalc NgramCalc Bleu RougeN RougeL RougeS Modul Display Vyhodnocení Údaje o vstupních datech TF*IDF Koeficienty podobnosti Konfigurace algoritmu sumarizace Opakování vět Pořadí vět Striktnost pokrytí všemi články Specifické články Porovnání metrik úspěšnosti Subjektivní dojem Doba výpočtu Závěr práce Možná vylepšení A Příklad výpočtu TF*IDF slova 62 B Příklad výpočtu kosinového koeficientu 64 C Příklad vyhodnocení metrikou BLEU 67 5

6 D Příklady vyhodnocení ROUGE metrikami 69 D.1 ROUGE-N D.2 ROUGE-L D.3 ROUGE-W D.4 ROUGE-S E Testovací množina článků 74 Literatura 76 6

7 Název práce: Sumarizace českých textů z více zdrojů Autor: Tomáš Brus Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: RNDr. Ondřej Bojar, Ph.D. vedoucího: bojar@ufal.mff.cuni.cz Abstrakt: Diplomová práce se zabývá problémem sumarizace sady článků na dané téma. Rozebírá několik možných způsobů sestavování sumarizace a způsoby vyhodnocení jejich výsledků. Součástí práce je implementace popsaných algoritmů a jejich aplikace na vybrané texty. Ty pocházejí z českých zpravodajských webových serverů a jsou reprezentovány formálně pomocí hloubkové syntaxe (tektogramatická rovina). Klíčová slova: sumarizace, novinové články, TF*IDF, BLEU, ROUGE, kosinový koeficient, Jaccard, Dice, overlap, Prague Dependency Treebank, Treex Title: Multi-source Text Summarization for Czech Author: Tomáš Brus Department: Institute of Formal and Applied Linguistics Supervisor: RNDr. Ondřej Bojar, Ph.D. Supervisor s address: bojar@ufal.mff.cuni.cz Abstract: This work focuses on the summarization task for a set of articles on the same topic. It discusses several possible ways of summarizations and ways to assess their final quality. The implementation of the described algorithms and their application to selected texts constitutes a part of this work. The input texts come from several Czech news servers and they are represented as deep syntactic trees (the so called tectogrammatical layer). Keywords: summarization, news articles, TF*IDF, BLEU, ROUGE, cosine coefficient, Jaccard, Dice, overlap, Prague Dependency Treebank, Treex 7

8 Kapitola 1 Úvod do sumarizace textu Je lidskou přirozeností snažit se zjednodušovat si veškerou činnost. Do této kategorie spadá také programování specifických aplikací, v našem případě aplikace, která sumarizuje daný text. Pokud člověk například nemá čas přečíst si na webu celý novinový článek, rád se podívá jen na jeho stručnou verzi na úvodní stránce periodika. Sumarizace je tedy výběr těch nejdůležitějších informací a jejich shrnutí v kratším textu. Problém sumarizace samozřejmě není tak jednoduchý. Které informace považovat za důležité? V jakém pořadí je prezentovat? Při sestavování úvodní stránky zpravodajského portálu podobná rozhodnutí dělají lidé, kteří se snaží odhadnout, co by mohlo čtenáře zaujmout, a podle toho napíší k článku sumarizaci. Jak již však bylo řečeno v úvodu: proč si nezjednodušit život a tuto práci nezkusit přenechat stroji? V následujících kapitolách se budeme tomuto tématu podrobně věnovat. V kapitole 2 si upřesníme zadání ohledně formátu vstupních dat. Kapitola 3 popisuje přípravnou část projektu sestávající ze sběru vstupních dat a jejich následného zpracování. Nejobsáhlejší kapitola 4 pojednává o jednotlivých algoritmech podílejících se na celkovém procesu sumarizace. V následující kapitole 5 jsou popsány metody měření, jakými se vyhodnocuje úspěšnost sestavených sumarizací. Kapitoly 6 a 7 popisují naprogramovanou aplikaci z pohledu uživatele, resp. z pohledu programátora. Kapitola 8 obsahuje vyhodnocení výstupu programu a patřičné závěry z pozorování daných výsledků. Závěrečná kapitola 9 rekapituluje nabytá zjištění a navrhuje případná budoucí vylepšení programu. 8

9 Kapitola 2 Vstupní data Následující kapitola se tedy zabývá definicí vstupních dat a jejich formátu, který určuje způsob zpracování článků a dostupné možnosti při práci s nimi. Vstupní data jsou také dostupná na přiloženém CD. 2.1 Důležitost faktů článku Abychom věděli, jakým způsobem naprogramovat sumarizátor, je třeba v několika směrech upřesnit řešený problém. Jak stroj pozná, která fakta článku jsou důležitá? Takové rozhodování může být dost subjektivní, avšak jedno pravidlo platí triviálně: je-li nějaký fakt důležitý, v novinovém článku se vyskytne. Proto dostane program na vstupu více článků na totéž téma a o sumarizaci se pokusí z celé této sady článků. O důležitosti faktů vztahujících se k danému tématu tak zprostředkovaně rozhodnou lidé autoři článků. 2.2 Testovací množina dat Tato práce se zabývá výhradně sumarizací. Byt například anglický sumarizátor Columbia s Newsblaster ([MBE + 02] nebo [EK03]) sám stahuje články z různých serverů a také řeší přiřazování článků se stejným tématem k sobě, tyto podproblémy náš program řešit nebude, naopak již bude mít testovací množinu ručně připravenou (nachází se na přiloženém CD). Testovací články jsou vybírány pokud možno z různě orientovaných periodik a také s dostatečnou variabilitou témat. 9

10 2.3 Formát dat Pro účely případného budoucího rozšíření program nenačítá články v prostém textu, ale jsou zpracovávány z takzvaného tektogramatického stromu, kde jsou jednotlivá slova lingvisticky zpracována a svázána tak, aby obsahovala nemálo užitečných dodatečných informací. Ani převod prostého textu do tektogramatické podoby nebude cílem této práce tuto část zajistí Treex [Žab11] Prague Dependency Treebank Prague Dependency Treebank ([MBH + 05]) v češtině Pražský závislostní korpus je projekt pro ruční anotaci českých textů, aneb laicky řečeno: lidé ručně přiřadili lingvistické informace k velkému množství textového materiálu, aby tyto informace mohly zpětně opět využívat programy (jako např. náš sumarizátor). PDT obsahuje tři roviny anotace: mimo tyto tři se začíná na tzv. slovní rovině (w-rovině), která obsahuje původní slova věty s jednoznačnými identifikátory, používanými pak i v dalších rovinách. První anotační rovinou je tzv. morfologická (m-rovina), která daná slova řadí do svých specifických tříd: např. dle pádu, rodu, času atd. Analytická rovina (a-rovina) popisuje vztahy slov a staví z věty strom vztahů: např. přívlastek shodný, předmět atd. Náš program má však zájem až o poslední t-rovinu, resp. tektogramatickou rovinu, kterou si popíšeme podrobněji zvlášt Prague Markup Language Běžný text je po příslušném zpracování přes všechny roviny uložen ve formátu PML (Prague Markup Language), což je jak již název napovídá formát založený na XML (více v [Paj08]). Tyto speciální soubory se neznalému člověku jeví jako nepřehledné, naštěstí však existuje editor těchto souborů zvaný TrEd ( který danou stromovou strukturu PML souboru zobrazuje velmi přehledně (a je také platformně nezávislý). PML struktuře t-roviny se rovněž budeme věnovat zvlášt Tektogramatická rovina T-rovina popisuje významovou strukturu věty. Jeho uzly jsou na rozdíl od m-roviny tvořeny pouze plnovýznamovými slovy (např. chybějí předložky, zvratné částice jsou zahrnuty v příslušném slovese apod.), naopak některé 10

11 uzly jsou zde navíc (např. nevyjádřený podmět). Informace, jež nelže odvodit přímo ze struktury, funktorů (zachycujících funkce slov) či jiných atributů, jsou k uzlům připojeny takzvanými gramatémy. Tato aplikace však bude z tektogramatické roviny plně využívat pouze omezené množství informací. Především se využijí základní tvary slov, takzvaná tektogramatická lemmata. Pomocí nich lze například spočítat počet výskytů daného slova, přestože bude v různých výskytech třeba skloňováno nebo časováno jinak. 11

12 Kapitola 3 Sběr testovacích dat Tato kapitola se věnuje přípravám vstupních dat jak samotnému vyhledávání vhodných článků, tak i jejich následné úpravě pro potřeby našeho programu. 3.1 Způsob sběru V rámci přípravy dat bylo třeba vybrat několik témat a ke každému z nich sesbírat několik článků. Nejrychlejší se tudíž jevilo vyhledávání klíčových frází známých událostí (odpovídající zhruba nadpisům sesbíraných článků). Problém nastával, byla-li zvolená událost popsána v médiích natolik detailně, že jednotlivé články se i přes podobné téma zabývaly něčím navzájem zcela jiným (typickým příkladem je např. pokus o vyhledání události Obama v Praze ). Jistější tedy bylo volit konkrétnější události, které zpravidla proběhly v rámci jednoho dne, až několika hodin. 3.2 Úprava dat Z daných adres zdrojů (uvedených v příloze E) byl převzat skutečně pouze text článku. V jeho okolí se totiž často vyskytovaly další texty, často reklamy nebo odkazy na další související články daného zpravodajského serveru. Kromě těchto očividně irelevantních textů bylo třeba se rozhodnout, zda odstranit i popisky obrázků náležejících článku a případné krátké podnadpisy k odstavcům. Nakonec byly odstraňovány i tyto krátké pasáže, aby nedocházelo k matení aplikace a tyto popisky nebyly považovány za 12

13 samostatné věty a tím i za případné kandidáty do sumarizace. Odstranění těchto textů bylo provedeno ručně, tomuto problému se však kromě Columbia s Newsblasteru ([EK03] věnoval například CleanEval pořádaný v Belgii roku 2007, jehož se účastnili mimo jiné Michal Marek, Pavel Pecina a Miroslav Spousta. Ve své práci [MPS07] popisuji zacházení s kompletním zdrojovým kódem stránek a jeho čištění od všech webových sekcí, které nejsou součástí hlavního článku. Takový nástroj se hodí pro automatický sběr lingvistických dat z internetu, data pro tuto práci však byla však očištěna ručně. Při opětovném podrobném čtení článků pro účely napsání vzorových sumarizací prošly články také zběžnou korekturou. Ta sice měla být ostatně provedena už v příslušných redakcích, avšak úroveň internetové korektury bohužel nedosahuje té z tištěných periodik, takže dodatečné provedení vlastní korektury rozhodně nebylo zbytečné. 3.3 Míra shody článků Pokud by byly články takřka identické, ztrácelo by smysl vytvářet sumarizace z více zdrojových textů. Klíčovým bodem výběru článků tudíž byla jejich alespoň částečná variabilita. Poměrně častým jevem mezi periodiky bývá přejímání jedné identické zprávy od České tiskové kanceláře (ČTK), na což bylo nutné si dát pozor. Žádoucí oživení mezi standardně psané články seriózních zpravodajských serverů zpravidla přinášely bulvárně psané varianty vyskytující se na portálu TV Nova, příp. Blesku takové články totiž občas obsahovaly emotivní náboj žádaný cílovou skupinou čtenářů (typickým příkladem budiž titulek zprávy o Federerově prohře na US Open na tn.cz). Perličkou mezi články je téma o protestu squatterů, protože sumarizátor má vedle standardních zpráv připraven i článek přímo od squatterů tedy dva zcela diametrálně odlišné pohledy na tutéž událost. 3.4 Variabilita témat Kromě variability mezi články k jednomu tématu bylo také vhodné zajistit variabilitu samotných témat. Proto mezi nimi najdeme reprezentanty událostí z typických tematických bloků, jako je např. politika, kultura, sport, nehody nebo celebrity. Pro zpestření repertoáru jsou připraveny i recenze na tutéž počítačovou hru. Výčet všech článků lze nalézt v příloze E. 13

14 3.5 Psaní sumarizací Aby bylo možné měřit úspěšnosti sumarizace sestavené naším programem, bylo třeba ke každé sadě článků na dané téma sestavit alespoň jednu tématickou sumarizaci referenční, k jejímuž obsahu by se program snažil přiblížit. Jelikož ideální sumarizace je taková, která obsahuje všechna důležitá fakta z dané sady článků a je zároveň čitelná pro člověka, bylo samozřejmé, že autorem referenčních sumarizací musí být čtenář, člověk. Autorem sumarizací jsem tedy já sám. K tomu, aby byly vzorové sumarizace napsány zodpovědně, bylo třeba si znovu přečíst všechny články na právě zpracovávané téma, postřehnout informace, které se ve článcích opakují, a přenést je do vytvářené sumarizace. V důsledku takto podrobného zkoumání článků vyšel najevo jeden zajímavý fakt ohledně vytváření novinových článků. Přestože důležitou snahou při sběru článků na konkrétní téma bylo nevybírat články s totožným obsahem což se nakonec vždy podařilo při ručním porovnávání konkrétních vět pro účely sepsání vzorové sumarizace jsem byl překvapen frekvencí naprosto totožných vět. Přestože tedy byly články podepsány vždy jinými autory a struktura článků se zpravidla lišila, zjevně se internetoví novináři neštítí zcela otevřeně kopírovat věty, někdy i celé bloky článků od konkurenčních portálů, a to bez uvedení původního zdroje. Při psaní vzorových sumarizací jsem vyhledával opakující se věty s podobnou informací a zahrnoval je do sumarizace s případnými korekcemi pro lepší celkovou čitelnost sumarizace. V nemálo případech jsem tak neměl jinou možnost, než do sumarizace zahrnout přesnou kopii věty, která se opakovala ve všech článcích na dané téma. Toto však nelze považovat za chybu sběru dat, ani za zkreslování metriky použitím týchž vět. Zvolené články i se svými shodnými větami totiž věrně reprezentují stav českého internetového novinářství a zahrnutí totožné věty do vzorové sumarizace zcela odpovídá její podstatě sumarizace má být shrnutím důležitých faktů z dané množiny článků. 14

15 Kapitola 4 Algoritmus sumarizace V této kapitole se podrobně seznámíme se všemi algoritmy, jež se podílejí na celém procesu sumarizace. Nejprve si ohodnotíme důležitost jednotlivých slov, z čehož pak bude vycházet důležitost vět. Pak budeme určovat vzájemnou podobnost vět z různých článků, abychom určili, která informace se vyskytuje ve vícero článcích a patří tak do výsledné sumarizace. Následně budeme z podobných vět tvořit jakési skupiny podobnosti, z nichž se do sumarizací bude vybírat jedna věta jako reprezentant skupiny. Na závěr kapitoly určíme několik možných způsobů, jak věty do sumarizací vybírat a které upřednostňovat. 4.1 Důležitost slov: algoritmus TF*IDF Abychom mohli vybírat důležité věty do sumarizace, bude nejlepší tyto úkony provádět na základě důležitosti jednotlivých slov. Hodnota důležitosti pro danou větu pak bude počítána jako součet hodnot důležitosti jejích slov. Užitečným měřítkem důležitosti konkrétního slova je jeho frekvence v článku. Nutno ovšem rozlišit frekventovaná důležitá slova od frekventovaných běžných slov jako jsou spojky, předložky a podobně. Tento problém řeší algoritmus TF*IDF [Ram03]. Samotný název je již sám o sobě vzorcem daného algoritmu, který spočívá ve vynásobení dvou zásadních parametrů slova: prvním z nich je Term Frequency, druhý se nazývá Inverse Document Frequency. (TF-IDF) i,j = T F i,j IDF i (4.1) 15

16 Konkrétně se vždy počítá TF*IDF daného slova vzhledem k nějakému dokumentu. Mějme tedy množinu dokumentů D a počítejme (TF-IDF) i,j pro slovo t i a dokument d j, kde obecně n k,l je počet výskytů slova t k v dokumentu d l. T F i,j = n i,j k n (4.2) k,j Term Frequency je jednoduchá frekvence slova t i v dokumentu d j, tzn. počet výskytů slova v daném dokumentu ku počtu všech slov v daném dokumentu. Čím větší počet výskytů slova v dokumentu, tím vyšší má Term Frequency a tedy vyšší TF*IDF. IDF i = log D {d : t i d} (4.3) Inverse Document Frequency je tou částí algoritmu, která odlišuje běžná slova od těch specifických pro daný dokument. Jedná se o logaritmus podílu počtu všech dokumentů ku počtu dokumentů obsahujících dané slovo. Čím větší počet dokumentů, kde se slovo vyskytuje, tím má nižší Inverse Document Frequency a tedy nižší TF*IDF. Ukázkový příklad výpočtu TF*IDF pro dané slovo s popisem všech kroků výpočtu lze nalézt v příloze A. 4.2 Řazení vět do sumarizace Princip přijímání vět do závěrečné sumarizace je v zásadě takový, že v sumarizaci by mělo být vše, na čem se shodnou články k sumarizovanému tématu, čili věty, jejichž sdělení se nacházejí v nějaké formě nejlépe ve všech článcích. Zde využijeme princip používaný například v již zmíněném sumarizátoru Columbia s Newsblaster [MBE + 02]. Aby ve výsledné sumarizaci nedocházelo k opakování týchž informací v různých větách z různých článků na dané téma, je vhodné věty sdružovat do skupinek zmiňujících se o tomtéž faktu. Z takových skupinek pak stačí nějakým způsobem vybrat jen jednoho reprezentanta skupiny, který bude kandidátem na zařazení do sumarizace. Kdyby měl skládání věty významově zcela od začátku na starosti program, nezřídka by výsledek zněl poměrně strojově. Proto bude pro čtenářovo oko příjemnější číst vybrané původní věty z článků. 16

17 Náš program vybírané věty dále nijak neupravuje, aby bylo možné text sestavené sumarizace ihned vyhodnotit. Nicméně tato varianta je uvažována jako možné vylepšení v sekci Koeficient podobnosti vět Je tedy zapotřebí nějakým způsobem identifikovat podobné věty, nejlépe mít nějakou možnost, jak vzájemnou podobnost vět kvantifikovat. V takovém případě by se pak do skupin přirozeně sdružovaly věty s vysokým spočítaným skóre podobnosti. Naštěstí však stejně jako pro metriku úspěšnosti sumarizace i pro podobnost vět existuje hned několik metrik, které lze pro výpočet podobnosti použít. Tento program se inspiroval z volně použitelné knihovny SimMetrics od Sama Chapmana napsané v jazyce Java (tu však nebudeme využívat), která implementuje nemalý výčet různých metrik podobnosti (jejich seznam je např. na Jelikož jde o metriky použitelné obecně pro libovolné dvě sekvence prvků z dané množiny, lze je aplikovat i na náš případ, kdy věty tvoří sekvence slov. Podrobnější srovnání vyčerpávajícího výčtu metrik poskytuje [CCT10]. Náš program si vystačí s vybranou podmnožinou metrik popsanou dále. Ještě než dojde na představení jednotlivých koeficientů podobnosti, je třeba si uvědomit, že přestože všechny programem užívané neberou v potaz pořadí slov ve větách, obsahuje-li jedna věta značnou většinu nebo dokonce všechna slova té druhé, těžko si lze u novinových článků představit, že by v takovém případě jedna věta pojednávala s týmiž slovy v jiném pořadí o něčem jiném, než ta druhá. Z tohoto důvodu by tento koeficient fungoval pro žádanou úlohu spárovat věty pojednávající o tomtéž. Důležitým faktem je také to, že koeficienty využívají tzv. tektogramatická lemmata, což jsou základní tvary slov různě skloňované nebo časované slovo se tedy v rámci koeficientů podobnosti považuje za totožné Jaccardův koeficient Výpočet Jaccardova koeficientu je relativně snadný. Porovnáváme-li podobnost dvou množin A a B, jedná se o podíl počtu prvků v průniku obou množin ku počtu prvků ve sjednocení obou množin. J(A, B) = A B A B (4.4) 17

18 Jsou-li A a B reprezentanty vět, pak prvky budou jednotlivá slova a vzorec je pak podílem počtu slov nacházejících se v obou větách k celkovému počtu slov použitých v obou větách. Tento koeficient je tedy závislý výhradně na užívání týchž slov Diceův koeficient Diceův koeficient je vcelku podobný. Tentokrát se dělí dvojnásobný počet prvků v průniku součtem prvků v obou množinách. Nutno upozornit na to, že součet počtu prvků v obou množinách je něco jiného než počet prvků ve sjednocení obou množin, nebot sjednocení nezapočítává tatáž slova vícenásobně. Jmenovatelé v Jaccardově a Diceově koeficientu se tedy liší. D(A, B) = 2 A B A + B (4.5) Jelikož se však oba koeficienty od sebe neliší mnoho, lze také matematicky vyjádřit jejich vzájemný vztah: J = D 2 D D = 2 J 1 + J (4.6) (4.7) Koeficient překrytí Koeficient překrytí (v originále overlap coefficient ) je specifický tím, že je-li jedna množina podmnožinou druhé, má tento koeficient nejvyšší možnou hodnotu (tedy 1). V praxi to odpovídá případu, kdy je kratší ze dvou vět součástí té delší. O(A, B) = A B min ( A, B ) (4.8) Q-gram koeficient Pokud by však však přesto bylo třeba do výsledného koeficientu nějakým způsobem zahrnout i pořadí slov, bylo by možné jako prvky vět místo jednotlivých slov označovaných někdy jako unigramy zvolit například bigramy, tedy dvojice po sobě jdoucích slov. Tím budou mít větší skóre 18

19 podobnosti ty věty, které používají nejen stejná slova, ale stejné dvojice slov, čili podobnější celé úseky vět. A to je právě myšlenkou q-gram koeficientu, v němž hraje roli počet shodných q-gramů. Není samozřejmě náhodou, že tato úvaha pro úpravu koeficientů se přibližuje myšlence způsobu výpočtu metriky BLEU (popsán dále v sekci 5.3), kde jsou q-gramy označovány jako n-gramy (jde pouze o záměnu písmene reprezentujícího stupeň). BLEU totiž také počítá podobnost textů, jen místo vět porovnává celé sumarizace. Vzhledem k velmi blízké podobnosti s myšlenkou metriky BLEU nebude program tento koeficient podobnosti využívat. V případě zájmu je však k dispozici podrobnější popis q-gram koeficientu v [GIJ + 01] Kosinový koeficient Nejzajímavějším počinem je však kosinový koeficient, jehož název neklame, poněvadž na goniometrickou funkci kosinus při výpočtu nakonec dojde řada. Aby bylo vůbec představitelné, k čemu je při měření podobnosti dobrý kosinus, je třeba se do daného problému ponořit o něco hlouběji a vysvětlit si pozadí celé myšlenky kosinového koeficientu. Cílem je totiž převést vágní představu podobnosti vět do představy v matematickém světě, kde by podobnost vět také byla vizuálně vidět. Kosinový koeficient totiž ve skutečnosti porovnává podobnost směru dvou vektorů v n-rozměrném prostoru spočítáním jejich vzájemného úhlu. A aby byly výsledné hodnoty úhlů převedeny do zažitého intervalu metrik < 0; 1 >, o to se právě postará kosinus spočítaného úhlu. Co má však podobnost směru dvou vektorů společného s podobností dvou vět? Zde nám zbývá zásadní krok: převod vět do vektorů tak, aby odpovídala i jejich podobnost. Takový vektor se bude skládat z počtů výskytů slov použitých v obou větách. Někdy se označuje příhodně jako term frequency vector, což ne náhodou připomíná část pojmenování TF*IDF algoritmu, kde se také počítá s počtem výskytů slov. Aby se dal daný princip dobře představit, začneme v dvourozměrném prostoru, což znamená počítání výskytů dvou slov, řekněme fotbal a hokej. Je-li v první větě fotbal jednou a hokej čtyřikrát, pak je její vektor v dvourozměrném prostoru reprezentován bodem [1;4]. je-li v druhém dokumentu stejný poměr výskytu těchto dvou slov například dvě ku osmi (nebo rovnou stejný počet, jedna ku čtyřem), pak bude mít stejný směr a vektory budou svírat nulový úhel. Bude-li mít druhý vektor podobný poměr například jednou fotbal a pětkrát hokej bude věta považována za velmi 19

20 podobnou, na rozdíl od poměru opačného. Trojrozměrný model odpovídá přidání dalšího slova do výpočtu, například desetiboj, a tak dále pro vyšší rozměry. S touto ozřejměnou představou je tedy vidět, že čím jsou výskyty slov ve dvou větách podobnější, tím budou jejich příslušně vytvořené vektory svírat menší úhel. Pokud spolu věty nemají vůbec nic společného jedna věta je například jen o hokeji (vektor [0;3]) a druhá jen o fotbalu (vektor [5;0]) budou jejich vektory svírat pravý úhel (budou takzvaně ortogonální). Přidáme-li k této představě závěrečný krok s kosinem, je vidět, že naprosto nesourodé věty budou mít konečný koeficient roven cos(90) = 0. Naopak identické věty obdrží koeficient cos(0) = 1. Nyní je třeba sestavit vzorec, podle kterého by se daný kosinus úhlu dvou vektorů počítal. K tomu nám poslouží vzorec pro skalární součin vektorů, z něhož lze vycházet. a b = a b cos α (4.9) cos α = a b a b (4.10) Jasnější detailní postup lze najít v příkladu zařazeném v příloze B. 4.4 Skupiny podobnosti vět Jsou-li k dispozici spočítané koeficienty podobnosti pro jednotlivé páry vět, lze pomocí nich seskupovat věty do skupin navzájem velmi podobných vět, z nichž se následně vybere jeden reprezentant jakožto kandidát do sestavované sumarizace. Nejdůležitějším přínosem tohoto postupu je omezení duplicitních informací v nově tvořené sumarizaci, jelikož všechny duplicity by se měly dostat do téže skupiny, z níž vzejde jediná věta. Druhým přínosem je nový pohled na důležitost daných vět. Algoritmus TF*IDF spočítal důležitost slov na základě jejich frekvence výskytu. Rozdělení vět do skupin podobnosti však ukazuje, kolikrát se opakuje určitý úsek textu s danou informací. Informace opakující se ve všech článcích by logicky měla mít větší skupinu podobnosti reprezentovanou větami s danou informací, zatímco věta s unikátní informací vyskytující se pouze v jednom článku nenajde do své skupiny podobnosti žádné další podobné věty. Tím lze snadno identifikovat, které údaje jsou potvrzeny několika články a které 20

21 se vyskytují pouze v jediném exempláři takové by se pak do sestavované sumarizace neměly dostat, aby šlo skutečně o sumarizaci z více článků, proto se jednočlenné skupiny ze seznamů skupin rovnou ruší Omezení koeficientů podobnosti Při tvorbě skupin podobnosti je třeba mít stanoven nějaký limit, kterým se omezí minimální podobnost vět, které mohou skupinu utvořit. Ty koeficienty, které nastaveným způsobem omezení neprojdou, tak budou představovat příliš odlišné věty, které nemohou patřit do téže skupiny podobnosti. Tento program počítá se třemi možnostmi, které jsou nastavitelné v konfiguračním souboru (viz 6.3). Metoda nazvaná jednoduše Minimum omezí koeficienty zadaným dolním limitem. Metoda Ratio zahodí nastavenou poměrnou část spočítaných nenulových koeficientů. Nastaví-li se tedy procentuální část 0,9, znamená to, že se použije jen 10% nejvyšších nenulových koeficientů a zbylých 90% se zahodí. Poslední možností je metoda SentenceEstimate, jež vypočítává počet průchozích koeficientů stanoveným součinem. počet vět ve skupině článků počet článků ve skupině (4.11) Idea za tímto omezením je, že to odpovídá případu, kdy věta ve skupině článků má k sobě jeden ideální pár z každého článku ve skupině. V praxi nemusí mít nutně nejlepší skóre právě takové páry, ale jak se ukazuje v konečném vyhodnocení, je to rozumný konstantní odhad použitelných koeficientů Sestavení skupiny podobnosti Pro každou skupinu článků se prochází seznam párů podobných vět a zkouší obě věty z páru přiřadit do nějaké skupiny podobnosti. Má-li již jedna z nich přiřazení a druhá ne, algoritmus nejprve zkouší druhou větu přiřadit do téže skupiny, v níž se nachází její protějšek v páru, pak zkouší další existující skupiny. Nelze-li větu nikam zařadit, vytvoří pro ni novou jednoprvkovou skupinu podobnosti. Důležitou otázkou je způsob procházení koeficientů podobnosti (tj. párů vět). Ideální je před průchodem koeficientů tyto seřadit sestupně, to pak totiž v důsledku znamená několik výhod. Zejména se tím zajistí, že se do 21

22 společných skupin dostanou nejprve věty s nejvyšším koeficientem podobnosti, tedy stejné nebo velmi podobné věty. Nedojde tak k tomu, že by se daná věta vlivem špatného seřazení koeficientů zařadila do méně podobné skupiny, než která by byla k dispozici. Tímto průchodem seřazenými koeficienty se vlastně řeší volba nejlepší skupiny podobnosti pro danou větu. Tento způsob také zabraňuje tomu, aby právě přiřazená málo podobná věta ve skupině neblokovala přiřazení jiných podobnějších vět, které by však byly příliš vzdálené od té aktuálně přidané. Zařazování do skupin by bývalo komplikovanější, pokud by věty měly mezi sebou nesourodé vztahy například pokud by byly dvojice [A, B] a [B, C] velmi podobné, ale dvojice [A, C] by byla od sebe zcela odlišná. V našem konkrétním případě jsou však vztahy mezi větami v relativně silné závislosti podobné tranzitivitě, tzn. jsou-li dvojice [A, B] a [B, C] velmi podobné, pak i dvojice [A, C] bude velmi pravděpodobně také podobná. Přiřazení věty do skupiny podobnosti je podmíněno tím, aby věta byla dostatečně podobná všem ostatním větám z dané skupiny. Představíme-li si tedy věty jako vrcholy grafu a hrany jako koeficienty podobnosti překračující nastavený limit, pak sestavení skupiny podobnosti odpovídá hledání kliky v grafu. Případná volnější implementace, kdy by stačila podobnost s alespoň jednou větou ve skupině, by odpovídala hledání komponent souvislosti. Tento způsob by však nepřímo umožňoval přiřazení dvou nedostatečně podobných vět do téže skupiny Reprezentant skupiny podobnosti Větou, která bude ze své skupiny kandidátem do sumarizace, bude ta, která je nejpodobnější ostatním větám ve skupině. V praxi to znamená nejvyšší součet koeficientů podobnosti v rámci dané skupiny. Tento výběr má svou logiku, nebot obsah vybrané věty má co nejvěrněji reprezentovat svou skupinu. Jiný způsob výběru (například dle TF*IDF nebo dle délky vět) by totiž nereflektoval obsahy ostatních vět. Ozřejmujícím příkladem může být skupina tří totožných vět, do níž se dostane čtvrtá věta, která je jim sice dostatečně podobná, ale ne stejná. Intuitivně je zřejmé, že skupinu by měla reprezentovat jedna z trojice stejných vět. Čtvrtá věta však může dosahovat v jiných ohledech lepších výsledků (může mít větší skóre TF*IDF nebo může být kratší), proto se reprezentant vybírá dle vzájemné podobnosti. Až v případě shody v tomto kritériu (často pro dvouprvkové skupiny) rozhoduje lepší skóre TF*IDF. 22

23 4.5 Pořadí vět v sumarizaci Jak se může program rozhodnout, kterou informaci zařadí jako první? Nejlepší referencí je opět člověk, nejlépe autoři daných článků, kteří již sami seřazují informace tak, jak pokládají za vhodné pro své čtenáře. Pokud totiž byly vybrané věty za sebou v některém z článků, je nanejvýš rozumné předpokládat, že i ve výsledné sumarizaci budou hned za sebou dávat největší smysl. A obecně vyskytuje-li se vybraná věta někde na začátku nebo naopak někde ke konci článku, bude zase rozumné umístit ji na podobnou pozici i v samotné sumarizaci. Bude-li téma pojednávat kupříkladu o schůzi poslanecké sněmovny, novinář zpravidla zmíní informaci ze začátku schůze před informací na jejím konci a tak by se měla chovat i výsledná sumarizace. Po každém konkrétním způsobu výběru vět do sumarizace tedy následuje jejich seřazení dle pozic v původních článcích v případě rovnosti pozic rozhoduje TF*IDF skóre věty. 4.6 Délka sumarizace Sumarizace by také měla mít nějakou únosnou délku, aby se jednalo skutečně o sumarizaci a nikoli jen o kratší verzi článku. Z tohoto důvodu se z kandidátů vybraných do sumarizace musí vybrat omezený počet vět. Jedním způsobem by mohlo být určení konstantního počtu vět v sumarizaci takové omezení by však mohlo zkreslit sumarizaci v případě, že se do popředí výběru dostanou krátké nebo naopak dlouhé věty. Lepším omezujícím faktorem tedy bude počet slov. Aby však nebylo nutné volit nějakou konstantu vyvozenou ze studia jiných sumarizací, program využije data, která má k dispozici sadu vzorových sumarizací. Z nich vypočítá průměrnou slovní délku vzorové sumarizace a tento průměr stanoví jako limitující faktor pro sestavované sumarizace. Nově tvořené sumarizace samozřejmě nemohou kvůli tomuto slovnímu omezení končit uprostřed věty, proto se kandidáti ve formě vět přijímají kompletní až do doby, kdy součet jejich slov přesáhne spočtený sumarizační průměr. 4.7 Výběr kandidátů do sumarizace Program má k dispozici několik možných způsobů výběru vět do sumarizace, což je v konečném důsledku ten nejdůležitější krok ovlivňující hod- 23

24 noty z metrik úspěšnosti pro danou sestavovanou sumarizaci. Díky metrikám zmíněným v sekci 5 pak lze dobře určit, který ze způsobů sestavování sumarizací se osvědčí více a která méně, a zda nedojde k nějakým překvapivým zjištěním. Aby bylo patrné, zda tvorba skupin podobnosti vět má nebo nemá pozitivní vliv na výsledné sumarizace, mezi způsoby výběru figurují i výběry z párů podobnosti či přímo ze všech vět na dané téma. Připomeňme, že vybírá-li se kandidát ze skupiny podobnosti, je zvolena ta věta, která je nejpodobnější všem ostatním ve skupině. Počet variant tvorby sumarizací je také navýšen různými variantami výpočtu koeficientu podobnosti vět ze čtveřice implementovaných, jež jsou popsané v sekci Dle TF*IDF Prvním naivním postupem na sestavení sumarizace je výběr vět dle jejich TF*IDF skóre. Věty se setřídí dle zmíněné hodnoty a kandidáti se schvalují od nejlepšího tak dlouho, dokud jejich společná délka nepřekročí průměrnou délku vzorových sumarizací. Při této absenci skupin podobnosti vět lze očekávat, že se do sumarizací mohou díky vyššímu TF*IDF dostat věty z různých článků pojednávající o tomtéž (ne-li dokonce věty identické). Toto nežádoucí chování by mělo být eliminováno právě užitím skupin podobnosti, které k sobě sdruží věty o podobném obsahu a do sumarizace se pak dostane pouze jediná z nich. Stejně tak může být do sumarizace zařazena věta s vyšším TF*IDF, která však nemá žádné podobné protějšky v jiných článcích. Jelikož taková věta tvoří jednočlennou skupinu podobnosti, při jejich užití se taková osamocená věta, nepotvrzená výskytem v jiných článcích, do sumarizace nedostane, protože program automaticky jednočlenné skupiny podobnosti ignoruje. Mají-li se dle TF*IDF řadit skupiny podobnosti, řadí se ve skutečnosti dle TF*IDF jejich reprezentantů, jejichž výběr je popsán výše. Pak se stejným způsobem plní sumarizace danými reprezentanty tak dlouho, dokud nepřekročí průměrnou délku těch vzorových Dle koeficientu podobnosti Také další postup obsahuje variantu bez použití skupin podobnosti kandidáti se vyberou průchodem přes spočítané koeficienty podobnosti od 24

25 Podobnost Jednotka shlukování Řazení jednotek Výběr reprezentanta Počet variant - věta dle TF*IDF - 1 pár vět dle koeficientu podobnosti lepší TF*IDF 4 Cosine, pár vět dle koeficientu podobnosti kratší 4 Jaccard, skupina vět dle TF*IDF reprezentanta 4 Dice, skupina vět dle koeficientu podobnosti věta nejpodobnější 4 Overlap skupina vět dle velikosti ostatním ve skupině 4 skupina vět dle pokrytí všemi články 4 Tabulka 4.1: Souhrn konfigurací sumarizace. nejlepšího (tj. od totožných vět) a z dané dvojice se vybere bud věta s lepším TF*IDF, nebo kratší věta. I zde hrozí nežádoucí chování popsaná v předešlém odstavci. Varianta se skupinami podobnosti seřadí skupiny dle průměrného koeficientu podobnosti mezi větami v rámci skupiny. Jako první tedy přijde na řadu reprezentant skupiny s nejpodobnejšími (ne-li přímo stejnými) větami Dle velikosti skupin podobnosti Jak je zmíněno v sekci 4.4, kromě TF*IDF je i samotná velikost skupiny podobnosti indikátorem toho, jak důležitá je daná informace z pohledu tématu. Další variantou výběru kandidátů je tedy seřazení skupin podobnosti dle jejich velikosti a již popsaný výběr reprezentanta z každé skupiny Dle pokrytí všemi články Velmi přísným způsobem výběru je omezení na ty skupiny podobnosti vět, jež jsou stejně velké jako počet článků na dané téma. To odpovídá výběru pouze těch vět, které obsahují podobné protějšky ve všech článcích, tzn. informace potvrzené všemi články. U takového výběru lze však předpokládat, že takto striktním sítem projde mnohem méně skupin podobnosti a kandidátů do sumarizace tak bude nedostatek. Ty, které projdou, se pak seřadí dle TF*IDF reprezentantů. 4.8 Shrnutí variant V tabulce 4.1 je uveden kompletní seznam všech možných způsobů výběru vět do sumarizace. První sloupec poukazuje na čtyři varianty výpočtu koeficientu podobnosti, který ovlivňuje pořadí párů a skupin podobnosti. Druhý sloupec určuje, zda daný způsob vybírá ze všech vět, z párů podobných 25

26 vět, vzniklých počítáním koeficientů podobnosti, nebo ze skupin podobných vět sestavených dle daných koeficientů. Třetí sloupec popisuje způsob řazení daných vět, párů či skupin do sumarizace se pak z těchto jednotek vybírá v seřazeném seznamu od prvního dále. Vybírá-li se výsledný kandidát z páru, bere se ohled bud na skóre TF*IDF, nebo na délku vět. Ze skupiny se vždy vybírá věta, jejíž součet koeficientů podobnosti s ostatními větami ve skupině je nejvyšší. Poslední sloupec rekapituluje počet možných konfigurací pro daný způsob řazení. Po sečtení dostaneme 25 různých konfigurací algoritmu pro sestavování sumarizací. 26

27 Kapitola 5 Metriky úspěšnosti sumarizace Následující kapitola nás seznámí s několika způsoby měření kvality programem sestavené sumarizace. Tím, že budou výsledky vyhodnoceny několika různými metodami, dochází ke zpřesnění a případnému potvrzení pozorovaných výsledků. 5.1 Nevýhody ruční metriky Jak již bylo uvedeno na začátku abychom byli schopni posoudit, jak dobře se programu daří sumarizovat články, je třeba umět definovat, která z různých sumarizací je nejlepší. Jelikož pomyslnou dokonalou sumarizací je ta, kterou by uznal průměrný čtenář (tj. člověk), nabízí se posouzení sumarizace rozhodčím. Takové vyhodnocení však má své zápory: především je nákladné na lidské zdroje. Mimo to bývá občas nekonzistentní nejenže různí rozhodčí mohou posuzovat tutéž sumarizaci různě, ale i jednotlivec nemusí přesně zopakovat své rozhodování a jeho výsledek tak nemusí být nutně reprodukovatelný. 5.2 Automatická metrika Náš program si tedy bude sumarizace vyhodnocovat sám. Bude mít vedle článků připraveny i ukázkové sumarizace sestavené člověkem, který si před vlastním sestavením nejprve přečte všechny články k danému tématu, přičemž se pak na základě takového studia článků rozhodne, které informace a jak budou obsaženy ve vzorové sumarizaci. Programem utvořené suma- 27

28 rizace lze pak porovnávat mezi sebou a hledat tu, která je k oné vzorové nejblíže. A právě o to se bude starat několik dále popsaných algoritmů. Automatické metriky se také hodí nejen při závěrečném vyhodnocení všech způsobů tvorby sumarizací, ale i při potenciálním dalším vývoji programu pro sledování nově volených způsobů. 5.3 Metrika BLEU Jednou z používaných metrik bude BLEU (blíže popsána v [PRWZ02]). Samotná zkratka znamená BiLingual Evaluation Understudy proč? Slovo Bilingual (dvojjazyčný) má původ ve strojovém překladu z jednoho jazyka do druhého, pro nějž byla metrika BLEU vymyšlena. Evaluation (ohodnocení) samozřejmě zdůrazňuje účel metriky: vyhodnotit podobnost programem stvořeného textu se vzorovým výsledkem od člověka. Understudy (učedník) poukazuje na to, že metrika BLEU staví program do pozice žáka, který se snaží přiblížit práci mistra (vzorové sumarizaci) N-gramový model Hodnocení přibližování programu k vzorovým sumarizacím lze vyjádřit jednoduše: programem sestavená sumarizace je tím lepší, čím je podobnější té vzorové. BLEU pracuje s tzv. n-gramy, což je n po sobě následujících slov ve vzorové sumarizaci. Sumarizace je pak tím podobnější, čím více n-gramů má stejných se vzorovou, přičemž n-gramy vyššího stupně lze považovat za cennější (obsahuje souvislejší stejné kusy textu). Rovněž je zřejmé, že čím vyšší stupeň n-gramu, tím nižší pravděpodobnost, že se nachází i ve vzorové sumarizaci. Proto se lze pro zjednodušení omezit pouze na n-gramy čtvrtého a nižšího stupně (rozdíl při započítání vyšších stupňů nehraje v praxi roli) N-gramová jemnost Triviální ohodnocovací algoritmus sumarizací by patrně napadl každého: spočítat u hodnocené sumarizace poměr slov nacházejících se i ve vzorové ku všem slovům, stejně i pro n-gramy vyššího stupně než 1. Dostali bychom tedy zlomek 1, kde rozdíl mezi čitatelem a jmenovatelem by činila ta slova, která by byla v hodnocené, ale ne ve vzorové sumarizaci. Tento jednoduchý výpočet, označovaný jako standardní unigramová jemnost, se 28

29 však dá snadno ošálit: stačí trefit nějaké slovo obsažené ve vzorové sumarizaci a použít jenom to n-gramová jemnost je pak 1/1 = 1. Kontrolovala-li by se délka sumarizace, i tak by stačilo jen dané slovo použít v patřičném počtu a opět n/n = 1. Tomuto zneužívání je třeba zabránit. To se provede tak, že obrazně řečeno slovo ve vzorové sumarizaci jednou použité k pokrytí slova v hodnocené sumarizaci se považuje za vyčerpané a nemůže posloužit k pokrytí dalšího stejného slova (což se u standardní jemnosti děje). Stejná slova se tedy do čitatele zlomku započítají pouze tolikrát, kolikrát je ve vzorové sumarizaci. Tento výpočet se označuje jako modifikovaná unigramová jemnost (modified unigram precision) Výpočet metriky Počítání samotné metriky BLEU začneme ústřední rovnicí, v níž se suma počítá přes všechny délky n-gramů (jak již bylo řečeno, lze položit N = 4), od níž se odrazíme dále: BLEU = BP exp( N w n log p n ) (5.1) Proměnná BP je zkratkou pro tzv. Brevity Penalty, což je penalizace za příliš krátkou podobnou větu hodnocená sumarizace reprezentovaná jediným slovem z vzorové sumarizace by dosáhla stoprocentní úspěšnosti v unigramech a nasbíralo by tak neúměrně slušné skóre. Označíme-li c délku sestavené sumarizace a r délku vzorové sumarizace, pak platí: { 1 pro c > r BP = exp (1 r) pro c r (5.2) c Tedy pro hodnocenou sumarizaci delší než vzorová se žádná penalizace neprojeví. Dalšími proměnnými v rovnici BLEU jsou w n, což jsou volitelné váhy příslušných n-gramů. Můžeme tak například přisoudit delším n-gramům větší důležitost, nebo zvolit uniformní rozdělení a položit všechna w n = 1/N. Posledními nezmíněnými proměnnými jsou dříve popsané modifikované n-gramové jemnosti. V následujícím vzorci je Candidates množina vybraných kandidátů v našem případě věty ze sestavené sumarizace C je tedy jedna z nich, c je pak n-gram z dané věty, Count(c) je počet všech výskytů n-gramu mezi vzorovými větami a Count clip (c) je počet napárovaných výskytů: n=1 29

30 p n = C Candidates C Candidates c C Count clip(c) c C Count(c) (5.3) Chování rovnice BLEU např. rozsah hodnot v intervalu od 0 do 1, přičemž BLEU blíže 1 značí sumarizaci podobnější té vzorové je někdy lépe vidět z jejího logaritmického zápisu: log BLEU = min(1 r N c, 0) + w n log p n (5.4) 5.4 Metriky ROUGE Zatímco výsledná hodnota metriky BLEU má vypovídací hodnotu sama o sobě (dle pozice na hodnotící škále od 0 do 1), ROUGE metriky se užívají spíše pro porovnání sestavených sumarizací mezi sebou než pro absolutní vyhodnocení jedné z nich. Samotný název je zkratkou pro Recall-Oriented Understudy for Gisting Evaluation. Jak je však patrné z nadpisu kapitoly, ROUGE metrika není jen jedna, ale má hned několik možných variant ty jsou popsány v [C.Y04]. Zatímco variabilita metriky BLEU se omezuje jen na nastavení n-gramových vah, jednotlivé druhy ROUGE metrik se ve způsobu výpočtu liší poněkud více. Co se týče společných znaků, tak stejně jako BLEU operuje s n-gramy, tj. s úseky n po sobě jdoucích slov ROUGE-N Tato varianta je nejjednodušší a také nejpodobnější metrice BLEU počítá totiž shodné n-gramy vzorové a sestavené sumarizace, takže jde o část BLEU vzorce počítající jemnost n-gramů délky N (viz 5.3.3). Sumarizace s lepším ROUGE-N skóre je pak označena za lépe sestavenou ROUGE-L Přídomek L je odvozen z pojmu Longest Common Subsequence, tedy nejdelší společná podposloupnost. Tento překlad jednoduše vysvětluje princip ROUGE-L metriky ze dvou sumarizací je lepší ta, která má se vzorovou větší nejdelší společnou podposloupnost slov. Výslednou hodnotou metriky je podíl velikosti nejdelší společné podposloupnosti ku délce vzorové metriky (obě délky jsou uváděny v počtech slov). 30 n=1

31 5.4.3 ROUGE-W ROUGE-W je upravená ROUGE-L, její název totiž vychází z pojmu Weighted Longest Common Subsequence. Stejně jako předchůdce počítá nejdelší společné podposloupnosti, ale v případě shody preferuje nepřerušené sekvence společné podposloupnosti, tedy společné n-gramy s větší délkou. Jelikož v dostupné literatuře nebylo nijak specifikováno, jak se má toto vylepšení projevit na výsledném skóre, bylo třeba toto vyřešit vlastním návrhem popsaným v programátorské dokumentaci (7.6.9) ROUGE-S Poslední metrikou do rodiny ROUGE je ROUGE-S jejíž S značí Skip Bigram. Skip-bigram je dvojice slov, kde první se v sumarizaci vyskytuje za druhým, jejich odstup však může být libovolný. Metrika pak kontroluje, kolik těchto dvojic ze vzorové sumarizace obsahuje i sestavovaná, pro niž se ROUGE-S počítá. Tento postup v zásadě kontroluje správné pořadí slov podobně jako počítání nejdelší společné podposloupnosti. 31

32 Kapitola 6 Aplikace z pohledu uživatele Tato kapitola slouží jako uživatelská dokumentace, která má uživatele obeznámit s ovládáním programu (nastavení vstupů a konfiguračního souboru) a charakterizací výsledného výstupu. 6.1 Spuštění Program je konzolovou aplikací, tudíž ji lze spustit jednoduchým zadáním názvu programu do příkazové řádky. Jelikož aplikace načítá všechny důležité parametry z konfiguračního souboru, který musí být přítomen ve složce s programem, nepřijímá při spouštění jako vstupy žádné parametry. 6.2 Ovládání Po spuštění si aplikace načte požadované články a je připravena provádět výpočty potřebné až k samotnému sestavení sumarizací. Uživatel si v úvodní nabídce může zvolit zahájení nějakého konkrétního výpočtu (jejich průběh je po zvolení vidět v konzoli), prohlížení dat, jejichž vyplněné podrobnosti záleží na již proběhnutých výpočtech, nebo zápis aktuálně spočítaných výsledků do souboru. Při volbě Spočítat vše dochází k zápisu do souboru automaticky. Pohyb v aplikaci je pak pokud možno maximálně intuitivní. Například pohyb ve vypsaném textu se provádí kurzorovými šipkami nebo klávesami [PageUp] a [PageDown], které fungují tak, jak uživatel očekává i v jiných programech. Ukončení programu se provádí stisknutím klávesy [Esc] nebo [Q] na hlavní nabídce. 32

33 Jako první se po volbě Prohlížet data zobrazí seznam očíslovaných témat, do nichž se sdružují články. Z této obrazovky lze přejít zpět do hlavní nabídky klávesami [Esc] nebo [Q]. Zadáním čísla a jeho potvrzením klávesou [Enter] se lze přesunout na téma s daným číslem. Zadávané číslo se zobrazuje pod vždy viditelnou rychlou nápovědou. Zadání čísla vyššího než daný počet zobrazených položek neprovede nic. Zadání nuly je ekvivalentní zadání jedničky. Po zvolení tématu se vypíše jeho název, počet vět a slov, nejdůležitější podstatné jméno a sloveso, dále očíslované články na dané téma a očíslované sestavené sumarizace a také skupiny podobnosti vět k danému tématu. Zadáním čísla se lze opět přesunout o úroveň níž bud na článek, na sumarizaci, nebo na skupinu podobnosti se zadaným číslem. Zadáním klávesy [Esc] nebo [Q] lze přejít o úroveň výše, tzn. zpět na seznam témat. Vybere-li se článek, vypíše se jeho titulek, autor, název souboru, věta s nejlepším TF*IDF skóre, počet slov a nejdůležitější podstatné jméno a sloveso. Tato statistika je následována výpisem očíslovaných vět. Přesun do vyšší nebo nižší úrovně (na větu) zde funguje stejně jako v těch předchozích. Kromě vlastního znění obsahuje věta výpis svého ID, počet slov, průměrné TF*IDF na slovo a takzvaný podpis, což jsou tři slova s největším TF*IDF. Následuje výčet slov s několika parametry a odsazením dle hloubky v tektogramatickém stromě. Odchod odtud zpět do vyšší úrovně je opět stejný. Výpis sumarizace obsahuje název, výsledné hodnoty metrik úspěšnosti, jejich průměr, počet vět a informaci, zda délka sumarizace naplnila limit určený průměrnou délkou vzorových sumarizací. Vzorové sumarizace samozřejmě žádné výsledky z metrik nemají, protože vzhledem k nim se počítají. Statistiky jsou následovány samotným textem sumarizace. Vybere-li se v tématu skupina podobnosti, vypíší se věty do ní patřící, následovány mřížkou s koeficienty podobnosti mezi jednotlivými páry. 6.3 Nastavení Nastavení aplikace se provádí prostřednictvím hodnot v konfiguračním souboru o stejném názvu jako aplikace a s koncovkou.config, což je v konečném důsledku XML soubor s hierarchickou stromovou strukturou. Jednotlivá nastavení jsou obsažena v kořenovém uzlu GeneralSettings. Cesta ke složce se zpracovávanými články se nastavuje v uzlu articles parametrem path. Aplikace na zadaném místě očekává články v XML 33

Pokazać jeszcze