Univerzita Karlova v Praze Matematicko-fyzikální fakulta
|
|
- Jadwiga Bożena Domagała
- 5 lat temu
- Przeglądów:
Transkrypt
1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Tomáš Brus Sumarizace českých textů z více zdrojů Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: RNDr. Ondřej Bojar, Ph.D. Studijní program: teoretická informatika 2011
2 Děkuji panu Bojarovi za pomoc a cenné připomínky v průběhu vývoje celého projektu a dokumentace a rovněž za jeho vstřícnost. Prohlašuji, že jsem svou diplomovou práci napsal(a) samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce a jejím zveřejňováním. V Praze dne Tomáš Brus 2
3 Obsah 1 Úvod do sumarizace textu 8 2 Vstupní data Důležitost faktů článku Testovací množina dat Formát dat Prague Dependency Treebank Prague Markup Language Tektogramatická rovina Sběr testovacích dat Způsob sběru Úprava dat Míra shody článků Variabilita témat Psaní sumarizací Algoritmus sumarizace Důležitost slov: algoritmus TF*IDF Řazení vět do sumarizace Koeficient podobnosti vět Jaccardův koeficient Diceův koeficient Koeficient překrytí Q-gram koeficient Kosinový koeficient Skupiny podobnosti vět Omezení koeficientů podobnosti Sestavení skupiny podobnosti
4 4.4.3 Reprezentant skupiny podobnosti Pořadí vět v sumarizaci Délka sumarizace Výběr kandidátů do sumarizace Dle TF*IDF Dle koeficientu podobnosti Dle velikosti skupin podobnosti Dle pokrytí všemi články Shrnutí variant Metriky úspěšnosti sumarizace Nevýhody ruční metriky Automatická metrika Metrika BLEU N-gramový model N-gramová jemnost Výpočet metriky Metriky ROUGE ROUGE-N ROUGE-L ROUGE-W ROUGE-S Aplikace z pohledu uživatele Spuštění Ovládání Nastavení Logování výsledků Aplikace z pohledu programátora Multiplatformnost Návrhový vzor singleton Modul Main Modul Data Node TectoNode SentenceNode ArticleNode ArticleGroupNode
5 7.4.6 Summary SimilarityGroup Modul TextReader Modul Metrics TF IDF SentenceSimilarity Summarizer MetricBase MetricCalc NgramCalc Bleu RougeN RougeL RougeS Modul Display Vyhodnocení Údaje o vstupních datech TF*IDF Koeficienty podobnosti Konfigurace algoritmu sumarizace Opakování vět Pořadí vět Striktnost pokrytí všemi články Specifické články Porovnání metrik úspěšnosti Subjektivní dojem Doba výpočtu Závěr práce Možná vylepšení A Příklad výpočtu TF*IDF slova 62 B Příklad výpočtu kosinového koeficientu 64 C Příklad vyhodnocení metrikou BLEU 67 5
6 D Příklady vyhodnocení ROUGE metrikami 69 D.1 ROUGE-N D.2 ROUGE-L D.3 ROUGE-W D.4 ROUGE-S E Testovací množina článků 74 Literatura 76 6
7 Název práce: Sumarizace českých textů z více zdrojů Autor: Tomáš Brus Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: RNDr. Ondřej Bojar, Ph.D. vedoucího: bojar@ufal.mff.cuni.cz Abstrakt: Diplomová práce se zabývá problémem sumarizace sady článků na dané téma. Rozebírá několik možných způsobů sestavování sumarizace a způsoby vyhodnocení jejich výsledků. Součástí práce je implementace popsaných algoritmů a jejich aplikace na vybrané texty. Ty pocházejí z českých zpravodajských webových serverů a jsou reprezentovány formálně pomocí hloubkové syntaxe (tektogramatická rovina). Klíčová slova: sumarizace, novinové články, TF*IDF, BLEU, ROUGE, kosinový koeficient, Jaccard, Dice, overlap, Prague Dependency Treebank, Treex Title: Multi-source Text Summarization for Czech Author: Tomáš Brus Department: Institute of Formal and Applied Linguistics Supervisor: RNDr. Ondřej Bojar, Ph.D. Supervisor s address: bojar@ufal.mff.cuni.cz Abstract: This work focuses on the summarization task for a set of articles on the same topic. It discusses several possible ways of summarizations and ways to assess their final quality. The implementation of the described algorithms and their application to selected texts constitutes a part of this work. The input texts come from several Czech news servers and they are represented as deep syntactic trees (the so called tectogrammatical layer). Keywords: summarization, news articles, TF*IDF, BLEU, ROUGE, cosine coefficient, Jaccard, Dice, overlap, Prague Dependency Treebank, Treex 7
8 Kapitola 1 Úvod do sumarizace textu Je lidskou přirozeností snažit se zjednodušovat si veškerou činnost. Do této kategorie spadá také programování specifických aplikací, v našem případě aplikace, která sumarizuje daný text. Pokud člověk například nemá čas přečíst si na webu celý novinový článek, rád se podívá jen na jeho stručnou verzi na úvodní stránce periodika. Sumarizace je tedy výběr těch nejdůležitějších informací a jejich shrnutí v kratším textu. Problém sumarizace samozřejmě není tak jednoduchý. Které informace považovat za důležité? V jakém pořadí je prezentovat? Při sestavování úvodní stránky zpravodajského portálu podobná rozhodnutí dělají lidé, kteří se snaží odhadnout, co by mohlo čtenáře zaujmout, a podle toho napíší k článku sumarizaci. Jak již však bylo řečeno v úvodu: proč si nezjednodušit život a tuto práci nezkusit přenechat stroji? V následujících kapitolách se budeme tomuto tématu podrobně věnovat. V kapitole 2 si upřesníme zadání ohledně formátu vstupních dat. Kapitola 3 popisuje přípravnou část projektu sestávající ze sběru vstupních dat a jejich následného zpracování. Nejobsáhlejší kapitola 4 pojednává o jednotlivých algoritmech podílejících se na celkovém procesu sumarizace. V následující kapitole 5 jsou popsány metody měření, jakými se vyhodnocuje úspěšnost sestavených sumarizací. Kapitoly 6 a 7 popisují naprogramovanou aplikaci z pohledu uživatele, resp. z pohledu programátora. Kapitola 8 obsahuje vyhodnocení výstupu programu a patřičné závěry z pozorování daných výsledků. Závěrečná kapitola 9 rekapituluje nabytá zjištění a navrhuje případná budoucí vylepšení programu. 8
9 Kapitola 2 Vstupní data Následující kapitola se tedy zabývá definicí vstupních dat a jejich formátu, který určuje způsob zpracování článků a dostupné možnosti při práci s nimi. Vstupní data jsou také dostupná na přiloženém CD. 2.1 Důležitost faktů článku Abychom věděli, jakým způsobem naprogramovat sumarizátor, je třeba v několika směrech upřesnit řešený problém. Jak stroj pozná, která fakta článku jsou důležitá? Takové rozhodování může být dost subjektivní, avšak jedno pravidlo platí triviálně: je-li nějaký fakt důležitý, v novinovém článku se vyskytne. Proto dostane program na vstupu více článků na totéž téma a o sumarizaci se pokusí z celé této sady článků. O důležitosti faktů vztahujících se k danému tématu tak zprostředkovaně rozhodnou lidé autoři článků. 2.2 Testovací množina dat Tato práce se zabývá výhradně sumarizací. Byt například anglický sumarizátor Columbia s Newsblaster ([MBE + 02] nebo [EK03]) sám stahuje články z různých serverů a také řeší přiřazování článků se stejným tématem k sobě, tyto podproblémy náš program řešit nebude, naopak již bude mít testovací množinu ručně připravenou (nachází se na přiloženém CD). Testovací články jsou vybírány pokud možno z různě orientovaných periodik a také s dostatečnou variabilitou témat. 9
10 2.3 Formát dat Pro účely případného budoucího rozšíření program nenačítá články v prostém textu, ale jsou zpracovávány z takzvaného tektogramatického stromu, kde jsou jednotlivá slova lingvisticky zpracována a svázána tak, aby obsahovala nemálo užitečných dodatečných informací. Ani převod prostého textu do tektogramatické podoby nebude cílem této práce tuto část zajistí Treex [Žab11] Prague Dependency Treebank Prague Dependency Treebank ([MBH + 05]) v češtině Pražský závislostní korpus je projekt pro ruční anotaci českých textů, aneb laicky řečeno: lidé ručně přiřadili lingvistické informace k velkému množství textového materiálu, aby tyto informace mohly zpětně opět využívat programy (jako např. náš sumarizátor). PDT obsahuje tři roviny anotace: mimo tyto tři se začíná na tzv. slovní rovině (w-rovině), která obsahuje původní slova věty s jednoznačnými identifikátory, používanými pak i v dalších rovinách. První anotační rovinou je tzv. morfologická (m-rovina), která daná slova řadí do svých specifických tříd: např. dle pádu, rodu, času atd. Analytická rovina (a-rovina) popisuje vztahy slov a staví z věty strom vztahů: např. přívlastek shodný, předmět atd. Náš program má však zájem až o poslední t-rovinu, resp. tektogramatickou rovinu, kterou si popíšeme podrobněji zvlášt Prague Markup Language Běžný text je po příslušném zpracování přes všechny roviny uložen ve formátu PML (Prague Markup Language), což je jak již název napovídá formát založený na XML (více v [Paj08]). Tyto speciální soubory se neznalému člověku jeví jako nepřehledné, naštěstí však existuje editor těchto souborů zvaný TrEd ( který danou stromovou strukturu PML souboru zobrazuje velmi přehledně (a je také platformně nezávislý). PML struktuře t-roviny se rovněž budeme věnovat zvlášt Tektogramatická rovina T-rovina popisuje významovou strukturu věty. Jeho uzly jsou na rozdíl od m-roviny tvořeny pouze plnovýznamovými slovy (např. chybějí předložky, zvratné částice jsou zahrnuty v příslušném slovese apod.), naopak některé 10
11 uzly jsou zde navíc (např. nevyjádřený podmět). Informace, jež nelže odvodit přímo ze struktury, funktorů (zachycujících funkce slov) či jiných atributů, jsou k uzlům připojeny takzvanými gramatémy. Tato aplikace však bude z tektogramatické roviny plně využívat pouze omezené množství informací. Především se využijí základní tvary slov, takzvaná tektogramatická lemmata. Pomocí nich lze například spočítat počet výskytů daného slova, přestože bude v různých výskytech třeba skloňováno nebo časováno jinak. 11
12 Kapitola 3 Sběr testovacích dat Tato kapitola se věnuje přípravám vstupních dat jak samotnému vyhledávání vhodných článků, tak i jejich následné úpravě pro potřeby našeho programu. 3.1 Způsob sběru V rámci přípravy dat bylo třeba vybrat několik témat a ke každému z nich sesbírat několik článků. Nejrychlejší se tudíž jevilo vyhledávání klíčových frází známých událostí (odpovídající zhruba nadpisům sesbíraných článků). Problém nastával, byla-li zvolená událost popsána v médiích natolik detailně, že jednotlivé články se i přes podobné téma zabývaly něčím navzájem zcela jiným (typickým příkladem je např. pokus o vyhledání události Obama v Praze ). Jistější tedy bylo volit konkrétnější události, které zpravidla proběhly v rámci jednoho dne, až několika hodin. 3.2 Úprava dat Z daných adres zdrojů (uvedených v příloze E) byl převzat skutečně pouze text článku. V jeho okolí se totiž často vyskytovaly další texty, často reklamy nebo odkazy na další související články daného zpravodajského serveru. Kromě těchto očividně irelevantních textů bylo třeba se rozhodnout, zda odstranit i popisky obrázků náležejících článku a případné krátké podnadpisy k odstavcům. Nakonec byly odstraňovány i tyto krátké pasáže, aby nedocházelo k matení aplikace a tyto popisky nebyly považovány za 12
13 samostatné věty a tím i za případné kandidáty do sumarizace. Odstranění těchto textů bylo provedeno ručně, tomuto problému se však kromě Columbia s Newsblasteru ([EK03] věnoval například CleanEval pořádaný v Belgii roku 2007, jehož se účastnili mimo jiné Michal Marek, Pavel Pecina a Miroslav Spousta. Ve své práci [MPS07] popisuji zacházení s kompletním zdrojovým kódem stránek a jeho čištění od všech webových sekcí, které nejsou součástí hlavního článku. Takový nástroj se hodí pro automatický sběr lingvistických dat z internetu, data pro tuto práci však byla však očištěna ručně. Při opětovném podrobném čtení článků pro účely napsání vzorových sumarizací prošly články také zběžnou korekturou. Ta sice měla být ostatně provedena už v příslušných redakcích, avšak úroveň internetové korektury bohužel nedosahuje té z tištěných periodik, takže dodatečné provedení vlastní korektury rozhodně nebylo zbytečné. 3.3 Míra shody článků Pokud by byly články takřka identické, ztrácelo by smysl vytvářet sumarizace z více zdrojových textů. Klíčovým bodem výběru článků tudíž byla jejich alespoň částečná variabilita. Poměrně častým jevem mezi periodiky bývá přejímání jedné identické zprávy od České tiskové kanceláře (ČTK), na což bylo nutné si dát pozor. Žádoucí oživení mezi standardně psané články seriózních zpravodajských serverů zpravidla přinášely bulvárně psané varianty vyskytující se na portálu TV Nova, příp. Blesku takové články totiž občas obsahovaly emotivní náboj žádaný cílovou skupinou čtenářů (typickým příkladem budiž titulek zprávy o Federerově prohře na US Open na tn.cz). Perličkou mezi články je téma o protestu squatterů, protože sumarizátor má vedle standardních zpráv připraven i článek přímo od squatterů tedy dva zcela diametrálně odlišné pohledy na tutéž událost. 3.4 Variabilita témat Kromě variability mezi články k jednomu tématu bylo také vhodné zajistit variabilitu samotných témat. Proto mezi nimi najdeme reprezentanty událostí z typických tematických bloků, jako je např. politika, kultura, sport, nehody nebo celebrity. Pro zpestření repertoáru jsou připraveny i recenze na tutéž počítačovou hru. Výčet všech článků lze nalézt v příloze E. 13
14 3.5 Psaní sumarizací Aby bylo možné měřit úspěšnosti sumarizace sestavené naším programem, bylo třeba ke každé sadě článků na dané téma sestavit alespoň jednu tématickou sumarizaci referenční, k jejímuž obsahu by se program snažil přiblížit. Jelikož ideální sumarizace je taková, která obsahuje všechna důležitá fakta z dané sady článků a je zároveň čitelná pro člověka, bylo samozřejmé, že autorem referenčních sumarizací musí být čtenář, člověk. Autorem sumarizací jsem tedy já sám. K tomu, aby byly vzorové sumarizace napsány zodpovědně, bylo třeba si znovu přečíst všechny články na právě zpracovávané téma, postřehnout informace, které se ve článcích opakují, a přenést je do vytvářené sumarizace. V důsledku takto podrobného zkoumání článků vyšel najevo jeden zajímavý fakt ohledně vytváření novinových článků. Přestože důležitou snahou při sběru článků na konkrétní téma bylo nevybírat články s totožným obsahem což se nakonec vždy podařilo při ručním porovnávání konkrétních vět pro účely sepsání vzorové sumarizace jsem byl překvapen frekvencí naprosto totožných vět. Přestože tedy byly články podepsány vždy jinými autory a struktura článků se zpravidla lišila, zjevně se internetoví novináři neštítí zcela otevřeně kopírovat věty, někdy i celé bloky článků od konkurenčních portálů, a to bez uvedení původního zdroje. Při psaní vzorových sumarizací jsem vyhledával opakující se věty s podobnou informací a zahrnoval je do sumarizace s případnými korekcemi pro lepší celkovou čitelnost sumarizace. V nemálo případech jsem tak neměl jinou možnost, než do sumarizace zahrnout přesnou kopii věty, která se opakovala ve všech článcích na dané téma. Toto však nelze považovat za chybu sběru dat, ani za zkreslování metriky použitím týchž vět. Zvolené články i se svými shodnými větami totiž věrně reprezentují stav českého internetového novinářství a zahrnutí totožné věty do vzorové sumarizace zcela odpovídá její podstatě sumarizace má být shrnutím důležitých faktů z dané množiny článků. 14
15 Kapitola 4 Algoritmus sumarizace V této kapitole se podrobně seznámíme se všemi algoritmy, jež se podílejí na celém procesu sumarizace. Nejprve si ohodnotíme důležitost jednotlivých slov, z čehož pak bude vycházet důležitost vět. Pak budeme určovat vzájemnou podobnost vět z různých článků, abychom určili, která informace se vyskytuje ve vícero článcích a patří tak do výsledné sumarizace. Následně budeme z podobných vět tvořit jakési skupiny podobnosti, z nichž se do sumarizací bude vybírat jedna věta jako reprezentant skupiny. Na závěr kapitoly určíme několik možných způsobů, jak věty do sumarizací vybírat a které upřednostňovat. 4.1 Důležitost slov: algoritmus TF*IDF Abychom mohli vybírat důležité věty do sumarizace, bude nejlepší tyto úkony provádět na základě důležitosti jednotlivých slov. Hodnota důležitosti pro danou větu pak bude počítána jako součet hodnot důležitosti jejích slov. Užitečným měřítkem důležitosti konkrétního slova je jeho frekvence v článku. Nutno ovšem rozlišit frekventovaná důležitá slova od frekventovaných běžných slov jako jsou spojky, předložky a podobně. Tento problém řeší algoritmus TF*IDF [Ram03]. Samotný název je již sám o sobě vzorcem daného algoritmu, který spočívá ve vynásobení dvou zásadních parametrů slova: prvním z nich je Term Frequency, druhý se nazývá Inverse Document Frequency. (TF-IDF) i,j = T F i,j IDF i (4.1) 15
16 Konkrétně se vždy počítá TF*IDF daného slova vzhledem k nějakému dokumentu. Mějme tedy množinu dokumentů D a počítejme (TF-IDF) i,j pro slovo t i a dokument d j, kde obecně n k,l je počet výskytů slova t k v dokumentu d l. T F i,j = n i,j k n (4.2) k,j Term Frequency je jednoduchá frekvence slova t i v dokumentu d j, tzn. počet výskytů slova v daném dokumentu ku počtu všech slov v daném dokumentu. Čím větší počet výskytů slova v dokumentu, tím vyšší má Term Frequency a tedy vyšší TF*IDF. IDF i = log D {d : t i d} (4.3) Inverse Document Frequency je tou částí algoritmu, která odlišuje běžná slova od těch specifických pro daný dokument. Jedná se o logaritmus podílu počtu všech dokumentů ku počtu dokumentů obsahujících dané slovo. Čím větší počet dokumentů, kde se slovo vyskytuje, tím má nižší Inverse Document Frequency a tedy nižší TF*IDF. Ukázkový příklad výpočtu TF*IDF pro dané slovo s popisem všech kroků výpočtu lze nalézt v příloze A. 4.2 Řazení vět do sumarizace Princip přijímání vět do závěrečné sumarizace je v zásadě takový, že v sumarizaci by mělo být vše, na čem se shodnou články k sumarizovanému tématu, čili věty, jejichž sdělení se nacházejí v nějaké formě nejlépe ve všech článcích. Zde využijeme princip používaný například v již zmíněném sumarizátoru Columbia s Newsblaster [MBE + 02]. Aby ve výsledné sumarizaci nedocházelo k opakování týchž informací v různých větách z různých článků na dané téma, je vhodné věty sdružovat do skupinek zmiňujících se o tomtéž faktu. Z takových skupinek pak stačí nějakým způsobem vybrat jen jednoho reprezentanta skupiny, který bude kandidátem na zařazení do sumarizace. Kdyby měl skládání věty významově zcela od začátku na starosti program, nezřídka by výsledek zněl poměrně strojově. Proto bude pro čtenářovo oko příjemnější číst vybrané původní věty z článků. 16
17 Náš program vybírané věty dále nijak neupravuje, aby bylo možné text sestavené sumarizace ihned vyhodnotit. Nicméně tato varianta je uvažována jako možné vylepšení v sekci Koeficient podobnosti vět Je tedy zapotřebí nějakým způsobem identifikovat podobné věty, nejlépe mít nějakou možnost, jak vzájemnou podobnost vět kvantifikovat. V takovém případě by se pak do skupin přirozeně sdružovaly věty s vysokým spočítaným skóre podobnosti. Naštěstí však stejně jako pro metriku úspěšnosti sumarizace i pro podobnost vět existuje hned několik metrik, které lze pro výpočet podobnosti použít. Tento program se inspiroval z volně použitelné knihovny SimMetrics od Sama Chapmana napsané v jazyce Java (tu však nebudeme využívat), která implementuje nemalý výčet různých metrik podobnosti (jejich seznam je např. na Jelikož jde o metriky použitelné obecně pro libovolné dvě sekvence prvků z dané množiny, lze je aplikovat i na náš případ, kdy věty tvoří sekvence slov. Podrobnější srovnání vyčerpávajícího výčtu metrik poskytuje [CCT10]. Náš program si vystačí s vybranou podmnožinou metrik popsanou dále. Ještě než dojde na představení jednotlivých koeficientů podobnosti, je třeba si uvědomit, že přestože všechny programem užívané neberou v potaz pořadí slov ve větách, obsahuje-li jedna věta značnou většinu nebo dokonce všechna slova té druhé, těžko si lze u novinových článků představit, že by v takovém případě jedna věta pojednávala s týmiž slovy v jiném pořadí o něčem jiném, než ta druhá. Z tohoto důvodu by tento koeficient fungoval pro žádanou úlohu spárovat věty pojednávající o tomtéž. Důležitým faktem je také to, že koeficienty využívají tzv. tektogramatická lemmata, což jsou základní tvary slov různě skloňované nebo časované slovo se tedy v rámci koeficientů podobnosti považuje za totožné Jaccardův koeficient Výpočet Jaccardova koeficientu je relativně snadný. Porovnáváme-li podobnost dvou množin A a B, jedná se o podíl počtu prvků v průniku obou množin ku počtu prvků ve sjednocení obou množin. J(A, B) = A B A B (4.4) 17
18 Jsou-li A a B reprezentanty vět, pak prvky budou jednotlivá slova a vzorec je pak podílem počtu slov nacházejících se v obou větách k celkovému počtu slov použitých v obou větách. Tento koeficient je tedy závislý výhradně na užívání týchž slov Diceův koeficient Diceův koeficient je vcelku podobný. Tentokrát se dělí dvojnásobný počet prvků v průniku součtem prvků v obou množinách. Nutno upozornit na to, že součet počtu prvků v obou množinách je něco jiného než počet prvků ve sjednocení obou množin, nebot sjednocení nezapočítává tatáž slova vícenásobně. Jmenovatelé v Jaccardově a Diceově koeficientu se tedy liší. D(A, B) = 2 A B A + B (4.5) Jelikož se však oba koeficienty od sebe neliší mnoho, lze také matematicky vyjádřit jejich vzájemný vztah: J = D 2 D D = 2 J 1 + J (4.6) (4.7) Koeficient překrytí Koeficient překrytí (v originále overlap coefficient ) je specifický tím, že je-li jedna množina podmnožinou druhé, má tento koeficient nejvyšší možnou hodnotu (tedy 1). V praxi to odpovídá případu, kdy je kratší ze dvou vět součástí té delší. O(A, B) = A B min ( A, B ) (4.8) Q-gram koeficient Pokud by však však přesto bylo třeba do výsledného koeficientu nějakým způsobem zahrnout i pořadí slov, bylo by možné jako prvky vět místo jednotlivých slov označovaných někdy jako unigramy zvolit například bigramy, tedy dvojice po sobě jdoucích slov. Tím budou mít větší skóre 18
19 podobnosti ty věty, které používají nejen stejná slova, ale stejné dvojice slov, čili podobnější celé úseky vět. A to je právě myšlenkou q-gram koeficientu, v němž hraje roli počet shodných q-gramů. Není samozřejmě náhodou, že tato úvaha pro úpravu koeficientů se přibližuje myšlence způsobu výpočtu metriky BLEU (popsán dále v sekci 5.3), kde jsou q-gramy označovány jako n-gramy (jde pouze o záměnu písmene reprezentujícího stupeň). BLEU totiž také počítá podobnost textů, jen místo vět porovnává celé sumarizace. Vzhledem k velmi blízké podobnosti s myšlenkou metriky BLEU nebude program tento koeficient podobnosti využívat. V případě zájmu je však k dispozici podrobnější popis q-gram koeficientu v [GIJ + 01] Kosinový koeficient Nejzajímavějším počinem je však kosinový koeficient, jehož název neklame, poněvadž na goniometrickou funkci kosinus při výpočtu nakonec dojde řada. Aby bylo vůbec představitelné, k čemu je při měření podobnosti dobrý kosinus, je třeba se do daného problému ponořit o něco hlouběji a vysvětlit si pozadí celé myšlenky kosinového koeficientu. Cílem je totiž převést vágní představu podobnosti vět do představy v matematickém světě, kde by podobnost vět také byla vizuálně vidět. Kosinový koeficient totiž ve skutečnosti porovnává podobnost směru dvou vektorů v n-rozměrném prostoru spočítáním jejich vzájemného úhlu. A aby byly výsledné hodnoty úhlů převedeny do zažitého intervalu metrik < 0; 1 >, o to se právě postará kosinus spočítaného úhlu. Co má však podobnost směru dvou vektorů společného s podobností dvou vět? Zde nám zbývá zásadní krok: převod vět do vektorů tak, aby odpovídala i jejich podobnost. Takový vektor se bude skládat z počtů výskytů slov použitých v obou větách. Někdy se označuje příhodně jako term frequency vector, což ne náhodou připomíná část pojmenování TF*IDF algoritmu, kde se také počítá s počtem výskytů slov. Aby se dal daný princip dobře představit, začneme v dvourozměrném prostoru, což znamená počítání výskytů dvou slov, řekněme fotbal a hokej. Je-li v první větě fotbal jednou a hokej čtyřikrát, pak je její vektor v dvourozměrném prostoru reprezentován bodem [1;4]. je-li v druhém dokumentu stejný poměr výskytu těchto dvou slov například dvě ku osmi (nebo rovnou stejný počet, jedna ku čtyřem), pak bude mít stejný směr a vektory budou svírat nulový úhel. Bude-li mít druhý vektor podobný poměr například jednou fotbal a pětkrát hokej bude věta považována za velmi 19
20 podobnou, na rozdíl od poměru opačného. Trojrozměrný model odpovídá přidání dalšího slova do výpočtu, například desetiboj, a tak dále pro vyšší rozměry. S touto ozřejměnou představou je tedy vidět, že čím jsou výskyty slov ve dvou větách podobnější, tím budou jejich příslušně vytvořené vektory svírat menší úhel. Pokud spolu věty nemají vůbec nic společného jedna věta je například jen o hokeji (vektor [0;3]) a druhá jen o fotbalu (vektor [5;0]) budou jejich vektory svírat pravý úhel (budou takzvaně ortogonální). Přidáme-li k této představě závěrečný krok s kosinem, je vidět, že naprosto nesourodé věty budou mít konečný koeficient roven cos(90) = 0. Naopak identické věty obdrží koeficient cos(0) = 1. Nyní je třeba sestavit vzorec, podle kterého by se daný kosinus úhlu dvou vektorů počítal. K tomu nám poslouží vzorec pro skalární součin vektorů, z něhož lze vycházet. a b = a b cos α (4.9) cos α = a b a b (4.10) Jasnější detailní postup lze najít v příkladu zařazeném v příloze B. 4.4 Skupiny podobnosti vět Jsou-li k dispozici spočítané koeficienty podobnosti pro jednotlivé páry vět, lze pomocí nich seskupovat věty do skupin navzájem velmi podobných vět, z nichž se následně vybere jeden reprezentant jakožto kandidát do sestavované sumarizace. Nejdůležitějším přínosem tohoto postupu je omezení duplicitních informací v nově tvořené sumarizaci, jelikož všechny duplicity by se měly dostat do téže skupiny, z níž vzejde jediná věta. Druhým přínosem je nový pohled na důležitost daných vět. Algoritmus TF*IDF spočítal důležitost slov na základě jejich frekvence výskytu. Rozdělení vět do skupin podobnosti však ukazuje, kolikrát se opakuje určitý úsek textu s danou informací. Informace opakující se ve všech článcích by logicky měla mít větší skupinu podobnosti reprezentovanou větami s danou informací, zatímco věta s unikátní informací vyskytující se pouze v jednom článku nenajde do své skupiny podobnosti žádné další podobné věty. Tím lze snadno identifikovat, které údaje jsou potvrzeny několika články a které 20
21 se vyskytují pouze v jediném exempláři takové by se pak do sestavované sumarizace neměly dostat, aby šlo skutečně o sumarizaci z více článků, proto se jednočlenné skupiny ze seznamů skupin rovnou ruší Omezení koeficientů podobnosti Při tvorbě skupin podobnosti je třeba mít stanoven nějaký limit, kterým se omezí minimální podobnost vět, které mohou skupinu utvořit. Ty koeficienty, které nastaveným způsobem omezení neprojdou, tak budou představovat příliš odlišné věty, které nemohou patřit do téže skupiny podobnosti. Tento program počítá se třemi možnostmi, které jsou nastavitelné v konfiguračním souboru (viz 6.3). Metoda nazvaná jednoduše Minimum omezí koeficienty zadaným dolním limitem. Metoda Ratio zahodí nastavenou poměrnou část spočítaných nenulových koeficientů. Nastaví-li se tedy procentuální část 0,9, znamená to, že se použije jen 10% nejvyšších nenulových koeficientů a zbylých 90% se zahodí. Poslední možností je metoda SentenceEstimate, jež vypočítává počet průchozích koeficientů stanoveným součinem. počet vět ve skupině článků počet článků ve skupině (4.11) Idea za tímto omezením je, že to odpovídá případu, kdy věta ve skupině článků má k sobě jeden ideální pár z každého článku ve skupině. V praxi nemusí mít nutně nejlepší skóre právě takové páry, ale jak se ukazuje v konečném vyhodnocení, je to rozumný konstantní odhad použitelných koeficientů Sestavení skupiny podobnosti Pro každou skupinu článků se prochází seznam párů podobných vět a zkouší obě věty z páru přiřadit do nějaké skupiny podobnosti. Má-li již jedna z nich přiřazení a druhá ne, algoritmus nejprve zkouší druhou větu přiřadit do téže skupiny, v níž se nachází její protějšek v páru, pak zkouší další existující skupiny. Nelze-li větu nikam zařadit, vytvoří pro ni novou jednoprvkovou skupinu podobnosti. Důležitou otázkou je způsob procházení koeficientů podobnosti (tj. párů vět). Ideální je před průchodem koeficientů tyto seřadit sestupně, to pak totiž v důsledku znamená několik výhod. Zejména se tím zajistí, že se do 21
22 společných skupin dostanou nejprve věty s nejvyšším koeficientem podobnosti, tedy stejné nebo velmi podobné věty. Nedojde tak k tomu, že by se daná věta vlivem špatného seřazení koeficientů zařadila do méně podobné skupiny, než která by byla k dispozici. Tímto průchodem seřazenými koeficienty se vlastně řeší volba nejlepší skupiny podobnosti pro danou větu. Tento způsob také zabraňuje tomu, aby právě přiřazená málo podobná věta ve skupině neblokovala přiřazení jiných podobnějších vět, které by však byly příliš vzdálené od té aktuálně přidané. Zařazování do skupin by bývalo komplikovanější, pokud by věty měly mezi sebou nesourodé vztahy například pokud by byly dvojice [A, B] a [B, C] velmi podobné, ale dvojice [A, C] by byla od sebe zcela odlišná. V našem konkrétním případě jsou však vztahy mezi větami v relativně silné závislosti podobné tranzitivitě, tzn. jsou-li dvojice [A, B] a [B, C] velmi podobné, pak i dvojice [A, C] bude velmi pravděpodobně také podobná. Přiřazení věty do skupiny podobnosti je podmíněno tím, aby věta byla dostatečně podobná všem ostatním větám z dané skupiny. Představíme-li si tedy věty jako vrcholy grafu a hrany jako koeficienty podobnosti překračující nastavený limit, pak sestavení skupiny podobnosti odpovídá hledání kliky v grafu. Případná volnější implementace, kdy by stačila podobnost s alespoň jednou větou ve skupině, by odpovídala hledání komponent souvislosti. Tento způsob by však nepřímo umožňoval přiřazení dvou nedostatečně podobných vět do téže skupiny Reprezentant skupiny podobnosti Větou, která bude ze své skupiny kandidátem do sumarizace, bude ta, která je nejpodobnější ostatním větám ve skupině. V praxi to znamená nejvyšší součet koeficientů podobnosti v rámci dané skupiny. Tento výběr má svou logiku, nebot obsah vybrané věty má co nejvěrněji reprezentovat svou skupinu. Jiný způsob výběru (například dle TF*IDF nebo dle délky vět) by totiž nereflektoval obsahy ostatních vět. Ozřejmujícím příkladem může být skupina tří totožných vět, do níž se dostane čtvrtá věta, která je jim sice dostatečně podobná, ale ne stejná. Intuitivně je zřejmé, že skupinu by měla reprezentovat jedna z trojice stejných vět. Čtvrtá věta však může dosahovat v jiných ohledech lepších výsledků (může mít větší skóre TF*IDF nebo může být kratší), proto se reprezentant vybírá dle vzájemné podobnosti. Až v případě shody v tomto kritériu (často pro dvouprvkové skupiny) rozhoduje lepší skóre TF*IDF. 22
23 4.5 Pořadí vět v sumarizaci Jak se může program rozhodnout, kterou informaci zařadí jako první? Nejlepší referencí je opět člověk, nejlépe autoři daných článků, kteří již sami seřazují informace tak, jak pokládají za vhodné pro své čtenáře. Pokud totiž byly vybrané věty za sebou v některém z článků, je nanejvýš rozumné předpokládat, že i ve výsledné sumarizaci budou hned za sebou dávat největší smysl. A obecně vyskytuje-li se vybraná věta někde na začátku nebo naopak někde ke konci článku, bude zase rozumné umístit ji na podobnou pozici i v samotné sumarizaci. Bude-li téma pojednávat kupříkladu o schůzi poslanecké sněmovny, novinář zpravidla zmíní informaci ze začátku schůze před informací na jejím konci a tak by se měla chovat i výsledná sumarizace. Po každém konkrétním způsobu výběru vět do sumarizace tedy následuje jejich seřazení dle pozic v původních článcích v případě rovnosti pozic rozhoduje TF*IDF skóre věty. 4.6 Délka sumarizace Sumarizace by také měla mít nějakou únosnou délku, aby se jednalo skutečně o sumarizaci a nikoli jen o kratší verzi článku. Z tohoto důvodu se z kandidátů vybraných do sumarizace musí vybrat omezený počet vět. Jedním způsobem by mohlo být určení konstantního počtu vět v sumarizaci takové omezení by však mohlo zkreslit sumarizaci v případě, že se do popředí výběru dostanou krátké nebo naopak dlouhé věty. Lepším omezujícím faktorem tedy bude počet slov. Aby však nebylo nutné volit nějakou konstantu vyvozenou ze studia jiných sumarizací, program využije data, která má k dispozici sadu vzorových sumarizací. Z nich vypočítá průměrnou slovní délku vzorové sumarizace a tento průměr stanoví jako limitující faktor pro sestavované sumarizace. Nově tvořené sumarizace samozřejmě nemohou kvůli tomuto slovnímu omezení končit uprostřed věty, proto se kandidáti ve formě vět přijímají kompletní až do doby, kdy součet jejich slov přesáhne spočtený sumarizační průměr. 4.7 Výběr kandidátů do sumarizace Program má k dispozici několik možných způsobů výběru vět do sumarizace, což je v konečném důsledku ten nejdůležitější krok ovlivňující hod- 23
24 noty z metrik úspěšnosti pro danou sestavovanou sumarizaci. Díky metrikám zmíněným v sekci 5 pak lze dobře určit, který ze způsobů sestavování sumarizací se osvědčí více a která méně, a zda nedojde k nějakým překvapivým zjištěním. Aby bylo patrné, zda tvorba skupin podobnosti vět má nebo nemá pozitivní vliv na výsledné sumarizace, mezi způsoby výběru figurují i výběry z párů podobnosti či přímo ze všech vět na dané téma. Připomeňme, že vybírá-li se kandidát ze skupiny podobnosti, je zvolena ta věta, která je nejpodobnější všem ostatním ve skupině. Počet variant tvorby sumarizací je také navýšen různými variantami výpočtu koeficientu podobnosti vět ze čtveřice implementovaných, jež jsou popsané v sekci Dle TF*IDF Prvním naivním postupem na sestavení sumarizace je výběr vět dle jejich TF*IDF skóre. Věty se setřídí dle zmíněné hodnoty a kandidáti se schvalují od nejlepšího tak dlouho, dokud jejich společná délka nepřekročí průměrnou délku vzorových sumarizací. Při této absenci skupin podobnosti vět lze očekávat, že se do sumarizací mohou díky vyššímu TF*IDF dostat věty z různých článků pojednávající o tomtéž (ne-li dokonce věty identické). Toto nežádoucí chování by mělo být eliminováno právě užitím skupin podobnosti, které k sobě sdruží věty o podobném obsahu a do sumarizace se pak dostane pouze jediná z nich. Stejně tak může být do sumarizace zařazena věta s vyšším TF*IDF, která však nemá žádné podobné protějšky v jiných článcích. Jelikož taková věta tvoří jednočlennou skupinu podobnosti, při jejich užití se taková osamocená věta, nepotvrzená výskytem v jiných článcích, do sumarizace nedostane, protože program automaticky jednočlenné skupiny podobnosti ignoruje. Mají-li se dle TF*IDF řadit skupiny podobnosti, řadí se ve skutečnosti dle TF*IDF jejich reprezentantů, jejichž výběr je popsán výše. Pak se stejným způsobem plní sumarizace danými reprezentanty tak dlouho, dokud nepřekročí průměrnou délku těch vzorových Dle koeficientu podobnosti Také další postup obsahuje variantu bez použití skupin podobnosti kandidáti se vyberou průchodem přes spočítané koeficienty podobnosti od 24
25 Podobnost Jednotka shlukování Řazení jednotek Výběr reprezentanta Počet variant - věta dle TF*IDF - 1 pár vět dle koeficientu podobnosti lepší TF*IDF 4 Cosine, pár vět dle koeficientu podobnosti kratší 4 Jaccard, skupina vět dle TF*IDF reprezentanta 4 Dice, skupina vět dle koeficientu podobnosti věta nejpodobnější 4 Overlap skupina vět dle velikosti ostatním ve skupině 4 skupina vět dle pokrytí všemi články 4 Tabulka 4.1: Souhrn konfigurací sumarizace. nejlepšího (tj. od totožných vět) a z dané dvojice se vybere bud věta s lepším TF*IDF, nebo kratší věta. I zde hrozí nežádoucí chování popsaná v předešlém odstavci. Varianta se skupinami podobnosti seřadí skupiny dle průměrného koeficientu podobnosti mezi větami v rámci skupiny. Jako první tedy přijde na řadu reprezentant skupiny s nejpodobnejšími (ne-li přímo stejnými) větami Dle velikosti skupin podobnosti Jak je zmíněno v sekci 4.4, kromě TF*IDF je i samotná velikost skupiny podobnosti indikátorem toho, jak důležitá je daná informace z pohledu tématu. Další variantou výběru kandidátů je tedy seřazení skupin podobnosti dle jejich velikosti a již popsaný výběr reprezentanta z každé skupiny Dle pokrytí všemi články Velmi přísným způsobem výběru je omezení na ty skupiny podobnosti vět, jež jsou stejně velké jako počet článků na dané téma. To odpovídá výběru pouze těch vět, které obsahují podobné protějšky ve všech článcích, tzn. informace potvrzené všemi články. U takového výběru lze však předpokládat, že takto striktním sítem projde mnohem méně skupin podobnosti a kandidátů do sumarizace tak bude nedostatek. Ty, které projdou, se pak seřadí dle TF*IDF reprezentantů. 4.8 Shrnutí variant V tabulce 4.1 je uveden kompletní seznam všech možných způsobů výběru vět do sumarizace. První sloupec poukazuje na čtyři varianty výpočtu koeficientu podobnosti, který ovlivňuje pořadí párů a skupin podobnosti. Druhý sloupec určuje, zda daný způsob vybírá ze všech vět, z párů podobných 25
26 vět, vzniklých počítáním koeficientů podobnosti, nebo ze skupin podobných vět sestavených dle daných koeficientů. Třetí sloupec popisuje způsob řazení daných vět, párů či skupin do sumarizace se pak z těchto jednotek vybírá v seřazeném seznamu od prvního dále. Vybírá-li se výsledný kandidát z páru, bere se ohled bud na skóre TF*IDF, nebo na délku vět. Ze skupiny se vždy vybírá věta, jejíž součet koeficientů podobnosti s ostatními větami ve skupině je nejvyšší. Poslední sloupec rekapituluje počet možných konfigurací pro daný způsob řazení. Po sečtení dostaneme 25 různých konfigurací algoritmu pro sestavování sumarizací. 26
27 Kapitola 5 Metriky úspěšnosti sumarizace Následující kapitola nás seznámí s několika způsoby měření kvality programem sestavené sumarizace. Tím, že budou výsledky vyhodnoceny několika různými metodami, dochází ke zpřesnění a případnému potvrzení pozorovaných výsledků. 5.1 Nevýhody ruční metriky Jak již bylo uvedeno na začátku abychom byli schopni posoudit, jak dobře se programu daří sumarizovat články, je třeba umět definovat, která z různých sumarizací je nejlepší. Jelikož pomyslnou dokonalou sumarizací je ta, kterou by uznal průměrný čtenář (tj. člověk), nabízí se posouzení sumarizace rozhodčím. Takové vyhodnocení však má své zápory: především je nákladné na lidské zdroje. Mimo to bývá občas nekonzistentní nejenže různí rozhodčí mohou posuzovat tutéž sumarizaci různě, ale i jednotlivec nemusí přesně zopakovat své rozhodování a jeho výsledek tak nemusí být nutně reprodukovatelný. 5.2 Automatická metrika Náš program si tedy bude sumarizace vyhodnocovat sám. Bude mít vedle článků připraveny i ukázkové sumarizace sestavené člověkem, který si před vlastním sestavením nejprve přečte všechny články k danému tématu, přičemž se pak na základě takového studia článků rozhodne, které informace a jak budou obsaženy ve vzorové sumarizaci. Programem utvořené suma- 27
28 rizace lze pak porovnávat mezi sebou a hledat tu, která je k oné vzorové nejblíže. A právě o to se bude starat několik dále popsaných algoritmů. Automatické metriky se také hodí nejen při závěrečném vyhodnocení všech způsobů tvorby sumarizací, ale i při potenciálním dalším vývoji programu pro sledování nově volených způsobů. 5.3 Metrika BLEU Jednou z používaných metrik bude BLEU (blíže popsána v [PRWZ02]). Samotná zkratka znamená BiLingual Evaluation Understudy proč? Slovo Bilingual (dvojjazyčný) má původ ve strojovém překladu z jednoho jazyka do druhého, pro nějž byla metrika BLEU vymyšlena. Evaluation (ohodnocení) samozřejmě zdůrazňuje účel metriky: vyhodnotit podobnost pro- gramem stvořeného textu se vzorovým výsledkem od člověka. Understudy (učedník) poukazuje na to, že metrika BLEU staví program do pozice žáka, který se snaží přiblížit práci mistra (vzorové sumarizaci) N-gramový model Hodnocení přibližování programu k vzorovým sumarizacím lze vyjádřit jednoduše: programem sestavená sumarizace je tím lepší, čím je podobnější té vzorové. BLEU pracuje s tzv. n-gramy, což je n po sobě následujících slov ve vzorové sumarizaci. Sumarizace je pak tím podobnější, čím více n-gramů má stejných se vzorovou, přičemž n-gramy vyššího stupně lze považovat za cennější (obsahuje souvislejší stejné kusy textu). Rovněž je zřejmé, že čím vyšší stupeň n-gramu, tím nižší pravděpodobnost, že se nachází i ve vzorové sumarizaci. Proto se lze pro zjednodušení omezit pouze na n-gramy čtvrtého a nižšího stupně (rozdíl při započítání vyšších stupňů nehraje v praxi roli) N-gramová jemnost Triviální ohodnocovací algoritmus sumarizací by patrně napadl každého: spočítat u hodnocené sumarizace poměr slov nacházejících se i ve vzorové ku všem slovům, stejně i pro n-gramy vyššího stupně než 1. Dostali bychom tedy zlomek 1, kde rozdíl mezi čitatelem a jmenovatelem by činila ta slova, která by byla v hodnocené, ale ne ve vzorové sumarizaci. Tento jednoduchý výpočet, označovaný jako standardní unigramová jemnost, se 28
29 však dá snadno ošálit: stačí trefit nějaké slovo obsažené ve vzorové sumarizaci a použít jenom to n-gramová jemnost je pak 1/1 = 1. Kontrolovala-li by se délka sumarizace, i tak by stačilo jen dané slovo použít v patřičném počtu a opět n/n = 1. Tomuto zneužívání je třeba zabránit. To se provede tak, že obrazně řečeno slovo ve vzorové sumarizaci jednou použité k pokrytí slova v hodnocené sumarizaci se považuje za vyčerpané a nemůže posloužit k pokrytí dalšího stejného slova (což se u standardní jemnosti děje). Stejná slova se tedy do čitatele zlomku započítají pouze tolikrát, kolikrát je ve vzorové sumarizaci. Tento výpočet se označuje jako modifikovaná unigramová jemnost (modified unigram precision) Výpočet metriky Počítání samotné metriky BLEU začneme ústřední rovnicí, v níž se suma počítá přes všechny délky n-gramů (jak již bylo řečeno, lze položit N = 4), od níž se odrazíme dále: BLEU = BP exp( N w n log p n ) (5.1) Proměnná BP je zkratkou pro tzv. Brevity Penalty, což je penalizace za příliš krátkou podobnou větu hodnocená sumarizace reprezentovaná jediným slovem z vzorové sumarizace by dosáhla stoprocentní úspěšnosti v unigramech a nasbíralo by tak neúměrně slušné skóre. Označíme-li c délku sestavené sumarizace a r délku vzorové sumarizace, pak platí: { 1 pro c > r BP = exp (1 r) pro c r (5.2) c Tedy pro hodnocenou sumarizaci delší než vzorová se žádná penalizace neprojeví. Dalšími proměnnými v rovnici BLEU jsou w n, což jsou volitelné váhy příslušných n-gramů. Můžeme tak například přisoudit delším n-gramům větší důležitost, nebo zvolit uniformní rozdělení a položit všechna w n = 1/N. Posledními nezmíněnými proměnnými jsou dříve popsané modifikované n-gramové jemnosti. V následujícím vzorci je Candidates množina vybraných kandidátů v našem případě věty ze sestavené sumarizace C je tedy jedna z nich, c je pak n-gram z dané věty, Count(c) je počet všech výskytů n-gramu mezi vzorovými větami a Count clip (c) je počet napárovaných výskytů: n=1 29
30 p n = C Candidates C Candidates c C Count clip(c) c C Count(c) (5.3) Chování rovnice BLEU např. rozsah hodnot v intervalu od 0 do 1, přičemž BLEU blíže 1 značí sumarizaci podobnější té vzorové je někdy lépe vidět z jejího logaritmického zápisu: log BLEU = min(1 r N c, 0) + w n log p n (5.4) 5.4 Metriky ROUGE Zatímco výsledná hodnota metriky BLEU má vypovídací hodnotu sama o sobě (dle pozice na hodnotící škále od 0 do 1), ROUGE metriky se užívají spíše pro porovnání sestavených sumarizací mezi sebou než pro absolutní vyhodnocení jedné z nich. Samotný název je zkratkou pro Recall-Oriented Understudy for Gisting Evaluation. Jak je však patrné z nadpisu kapitoly, ROUGE metrika není jen jedna, ale má hned několik možných variant ty jsou popsány v [C.Y04]. Zatímco variabilita metriky BLEU se omezuje jen na nastavení n-gramových vah, jednotlivé druhy ROUGE metrik se ve způsobu výpočtu liší poněkud více. Co se týče společných znaků, tak stejně jako BLEU operuje s n-gramy, tj. s úseky n po sobě jdoucích slov ROUGE-N Tato varianta je nejjednodušší a také nejpodobnější metrice BLEU počítá totiž shodné n-gramy vzorové a sestavené sumarizace, takže jde o část BLEU vzorce počítající jemnost n-gramů délky N (viz 5.3.3). Sumarizace s lepším ROUGE-N skóre je pak označena za lépe sestavenou ROUGE-L Přídomek L je odvozen z pojmu Longest Common Subsequence, tedy nejdelší společná podposloupnost. Tento překlad jednoduše vysvětluje princip ROUGE-L metriky ze dvou sumarizací je lepší ta, která má se vzorovou větší nejdelší společnou podposloupnost slov. Výslednou hodnotou metriky je podíl velikosti nejdelší společné podposloupnosti ku délce vzorové metriky (obě délky jsou uváděny v počtech slov). 30 n=1
31 5.4.3 ROUGE-W ROUGE-W je upravená ROUGE-L, její název totiž vychází z pojmu Weighted Longest Common Subsequence. Stejně jako předchůdce počítá nejdelší společné podposloupnosti, ale v případě shody preferuje nepřerušené sekvence společné podposloupnosti, tedy společné n-gramy s větší délkou. Jelikož v dostupné literatuře nebylo nijak specifikováno, jak se má toto vylepšení projevit na výsledném skóre, bylo třeba toto vyřešit vlastním návrhem popsaným v programátorské dokumentaci (7.6.9) ROUGE-S Poslední metrikou do rodiny ROUGE je ROUGE-S jejíž S značí Skip Bigram. Skip-bigram je dvojice slov, kde první se v sumarizaci vyskytuje za druhým, jejich odstup však může být libovolný. Metrika pak kontroluje, kolik těchto dvojic ze vzorové sumarizace obsahuje i sestavovaná, pro niž se ROUGE-S počítá. Tento postup v zásadě kontroluje správné pořadí slov podobně jako počítání nejdelší společné podposloupnosti. 31
32 Kapitola 6 Aplikace z pohledu uživatele Tato kapitola slouží jako uživatelská dokumentace, která má uživatele obeznámit s ovládáním programu (nastavení vstupů a konfiguračního souboru) a charakterizací výsledného výstupu. 6.1 Spuštění Program je konzolovou aplikací, tudíž ji lze spustit jednoduchým zadáním názvu programu do příkazové řádky. Jelikož aplikace načítá všechny důležité parametry z konfiguračního souboru, který musí být přítomen ve složce s programem, nepřijímá při spouštění jako vstupy žádné parametry. 6.2 Ovládání Po spuštění si aplikace načte požadované články a je připravena provádět výpočty potřebné až k samotnému sestavení sumarizací. Uživatel si v úvodní nabídce může zvolit zahájení nějakého konkrétního výpočtu (jejich průběh je po zvolení vidět v konzoli), prohlížení dat, jejichž vyplněné podrobnosti záleží na již proběhnutých výpočtech, nebo zápis aktuálně spočítaných výsledků do souboru. Při volbě Spočítat vše dochází k zápisu do souboru automaticky. Pohyb v aplikaci je pak pokud možno maximálně intuitivní. Například pohyb ve vypsaném textu se provádí kurzorovými šipkami nebo klávesami [PageUp] a [PageDown], které fungují tak, jak uživatel očekává i v jiných programech. Ukončení programu se provádí stisknutím klávesy [Esc] nebo [Q] na hlavní nabídce. 32
33 Jako první se po volbě Prohlížet data zobrazí seznam očíslovaných témat, do nichž se sdružují články. Z této obrazovky lze přejít zpět do hlavní nabídky klávesami [Esc] nebo [Q]. Zadáním čísla a jeho potvrzením klávesou [Enter] se lze přesunout na téma s daným číslem. Zadávané číslo se zobrazuje pod vždy viditelnou rychlou nápovědou. Zadání čísla vyššího než daný počet zobrazených položek neprovede nic. Zadání nuly je ekvivalentní zadání jedničky. Po zvolení tématu se vypíše jeho název, počet vět a slov, nejdůležitější podstatné jméno a sloveso, dále očíslované články na dané téma a očíslované sestavené sumarizace a také skupiny podobnosti vět k danému tématu. Zadáním čísla se lze opět přesunout o úroveň níž bud na článek, na sumarizaci, nebo na skupinu podobnosti se zadaným číslem. Zadáním klávesy [Esc] nebo [Q] lze přejít o úroveň výše, tzn. zpět na seznam témat. Vybere-li se článek, vypíše se jeho titulek, autor, název souboru, věta s nejlepším TF*IDF skóre, počet slov a nejdůležitější podstatné jméno a sloveso. Tato statistika je následována výpisem očíslovaných vět. Přesun do vyšší nebo nižší úrovně (na větu) zde funguje stejně jako v těch předchozích. Kromě vlastního znění obsahuje věta výpis svého ID, počet slov, průměrné TF*IDF na slovo a takzvaný podpis, což jsou tři slova s největším TF*IDF. Následuje výčet slov s několika parametry a odsazením dle hloubky v tektogramatickém stromě. Odchod odtud zpět do vyšší úrovně je opět stejný. Výpis sumarizace obsahuje název, výsledné hodnoty metrik úspěšnosti, jejich průměr, počet vět a informaci, zda délka sumarizace naplnila limit určený průměrnou délkou vzorových sumarizací. Vzorové sumarizace samozřejmě žádné výsledky z metrik nemají, protože vzhledem k nim se počítají. Statistiky jsou následovány samotným textem sumarizace. Vybere-li se v tématu skupina podobnosti, vypíší se věty do ní patřící, následovány mřížkou s koeficienty podobnosti mezi jednotlivými páry. 6.3 Nastavení Nastavení aplikace se provádí prostřednictvím hodnot v konfiguračním souboru o stejném názvu jako aplikace a s koncovkou.config, což je v konečném důsledku XML soubor s hierarchickou stromovou strukturou. Jednotlivá nastavení jsou obsažena v kořenovém uzlu GeneralSettings. Cesta ke složce se zpracovávanými články se nastavuje v uzlu articles parametrem path. Aplikace na zadaném místě očekává články v XML 33
Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.
Příklad Známe následující hodnoty funkce Φ: u Φ(u) 1,00 0,841 1,10 0,864 1,20 0,885 Odhadněte přibližně hodnoty Φ(1,02) a Φ(1,16). Možnosti: Vezmeme hodnotu v nejbližším bodě. Body proložíme lomenou čarou.
Linea rnı (ne)za vislost
[1] Lineární (ne)závislost Skupiny, resp. množiny, vektorů mohou být lineárně závislé nebo lineárně nezávislé... a) zavislost, 3, b) P. Olšák, FEL ČVUT, c) P. Olšák 2010, d) BI-LIN, e) L, f) 2009/2010,
1 Soustava lineárních rovnic
Soustavy lineárních rovnic Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Soustava lineárních rovnic 2 Řešitelnost soustavy lineárních rovnic 3 Gaussova eliminační metoda 4 Jordanova eliminační
Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18
Komplexní analýza Mocninné řady Martin Bohata Katedra matematiky FEL ČVUT v Praze bohata@math.feld.cvut.cz Martin Bohata Komplexní analýza Mocninné řady 1 / 18 Posloupnosti komplexních čísel opakování
Numerické metody minimalizace
Numerické metody minimalizace Než vám klesnou víčka - Stříbrnice 2011 12.2. 16.2.2011 Emu (Brkos 2011) Numerické metody minimalizace 12.2. 16.2.2011 1 / 19 Obsah 1 Úvod 2 Základní pojmy 3 Princip minimalizace
5. a 12. prosince 2018
Integrální počet Neurčitý integrál Seminář 9, 0 5. a. prosince 08 Neurčitý integrál Definice. Necht funkce f (x) je definovaná na intervalu I. Funkce F (x) se nazývá primitivní k funkci f (x) na I, jestliže
Edita Pelantová, katedra matematiky / 16
Edita Pelantová, katedra matematiky seminář současné matematiky, září 2010 Axiomy reálných čísel Axiomy tělesa Axiom 1. x + y = y + x a xy = yx (komutativní zákon). Axiom 2. x + (y + z) = (x + y) + z a
Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!
Krykiet W krykieta może grać od 2 do 4 osób, którzy albo grają każdy przeciw każdemu, albo dzielą się na dwie drużyny. Bramki oraz palik startowy i powrotne umieszcza się tak, jak pokazano na rysunku.
Numerické metody 8. května FJFI ČVUT v Praze
Obyčejné diferenciální rovnice Numerické metody 8. května 2018 FJFI ČVUT v Praze 1 Úvod Úvod Základní metody Pokročilejší metody Soustava Vyšší řád Program 1 Úvod Úvod - Úloha Základní úloha, kterou řešíme
Internet a zdroje. (Zdroje na Internetu) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17.
Internet a zdroje (Zdroje na Internetu) Mgr. Petr Jakubec Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17. listopadu 12 26. listopadu 2010 (KFC-INTZ) Databáze, citování 26. listopadu 2010
(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35
(1) Derivace Kristýna Kuncová Matematika B2 17/18 Kristýna Kuncová (1) Derivace 1 / 35 Růst populací Zdroj : https://www.tes.com/lessons/ yjzt-cmnwtvsq/noah-s-ark Kristýna Kuncová (1) Derivace 2 / 35 Růst
Úvodní informace. 18. února 2019
Úvodní informace Funkce více proměnných Cvičení první 18. února 2019 Obsah 1 Úvodní informace. 2 Funkce více proměnných Definiční obor Úvodní informace. Komunikace: e-mail: olga@majling.eu nebo olga.majlingova@fs.cvut.cz
Funkce zadané implicitně. 4. března 2019
Funkce zadané implicitně 4. března 2019 Parciální derivace druhého řádu Parciální derivace druhého řádu funkce z = f (x, y) jsou definovány: Parciální derivace 2 f 2 = ( ) f 2 f 2 = ( ) f 2 f a 2 f 2 f
Matematika 2, vzorová písemka 1
Matematika 2, vzorová písemka Pavel Kreml 9.5.20 Přesun mezi obrazovkami Další snímek: nebo Enter. Zpět: nebo Shift + Enter 2 3 4 Doporučení Pokuste se vyřešit zadané úlohy samostatně. Pokud nebudete vědět
Matematika (KMI/PMATE)
Matematika (KMI/PMATE) Úvod do matematické analýzy Limita a spojitost funkce Matematika (KMI/PMATE) Osnova přednášky lineární funkce y = kx + q definice lineární funkce význam (smysl) koeficientů lineární
Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky
Monotónie a extrémy funkce Diferenciální počet - průběh funkce Věta o střední hodnotě (Lagrange) Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f (ξ)
podle přednášky doc. Eduarda Fuchse 16. prosince 2010
Jak souvisí plochá dráha a konečná geometrie? L ubomíra Balková podle přednášky doc. Eduarda Fuchse Trendy současné matematiky 16. prosince 2010 (FJFI ČVUT v Praze) Konečná geometrie 16. prosince 2010
MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATIKA 3 Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Osnova: Komplexní funkce - definice, posloupnosti, řady Vybrané komplexní funkce
DFT. verze:
Výpočet spektra signálu pomocí DFT kacmarp@fel.cvut.cz verze: 009093 Úvod Signály můžeme rozdělit na signály spojité v čase nebo diskrétní v čase. Další možné dělení je na signály periodické nebo signály
Kristýna Kuncová. Matematika B2
(3) Průběh funkce Kristýna Kuncová Matematika B2 Kristýna Kuncová (3) Průběh funkce 1 / 26 Monotonie (x 2 ) = 2x (sin x) = cos x Jak souvisí derivace funkce a fakt, zda je funkce rostoucí nebo klesající?
Kapitola 4: Soustavy diferenciálních rovnic 1. řádu
Sbírka příkladů Matematika II pro strukturované studium Kapitola 4: Soustavy diferenciálních rovnic 1 řádu Chcete-li ukončit prohlížení stiskněte klávesu Esc Chcete-li pokračovat stiskněte klávesu Enter
Kristýna Kuncová. Matematika B3
(10) Vícerozměrný integrál II Kristýna Kuncová Matematika B3 Kristýna Kuncová (10) Vícerozměrný integrál II 1 / 30 Transformace Otázka Jaký obrázek znázorňuje čtverec vpravo po transformaci u = x + y a
TGH01 - Algoritmizace
TGH01 - Algoritmizace Jan Březina Technical University of Liberec 28. února 2017 Co je to algoritmus? Porovnávání algoritmů Porovnávání algoritmů Co je to algoritmus? Který algoritmus je lepší? Záleží
Martin Pergel. 26. února Martin Pergel
26. února 2017 Užitečné informace Navážeme na Programování I, změníme jazyk na C#, podrobnosti o C# budou v navazujícím kurzu, soustředíme se na totéž, co v zimě, tedy: technické programování, návrh a
Kristýna Kuncová. Matematika B2 18/19
(6) Určitý integrál Kristýna Kuncová Matematika B2 18/19 Kristýna Kuncová (6) Určitý integrál 1 / 28 Newtonův integrál Zdroj: https://kwcalculus.wikispaces.com/integral+applications Kristýna Kuncová (6)
Inverzní Z-transformace
Modelování systémů a procesů (11MSP) Bohumil Kovář, Jan Přikryl, Miroslav Vlček Ústav aplikované matematiky ČVUT v Praze, Fakulta dopravní 9. přednáška 11MSP úterý 16. dubna 2019 verze: 2019-04-15 12:25
NÁVOD K POUŽITÍ KEZELÉSI KÉZIKÖNYV INSTRUKCJA OBSŁUGI NÁVOD NA POUŽÍVANIE. Česky. Magyar. Polski. Slovensky
CANON INC. 30-2 Shimomaruko 3-chome, Ohta-ku, Tokyo 146-8501, Japan Europe, Africa & Middle East CANON EUROPA N.V. PO Box 2262, 1180 EG Amstelveen, The Netherlands For your local Canon office, please refer
Co nám prozradí derivace? 21. listopadu 2018
Co nám prozradí derivace? Seminář sedmý 21. listopadu 2018 Derivace základních funkcí Tečna a normála Tečna ke grafu funkce f v bodě dotyku T = [x 0, f (x 0 )]: y f (x 0 ) = f (x 0 )(x x 0 ) Normála: y
Lineární algebra - iterační metody
Lineární algebra - iterační metody Numerické metody 7. dubna 2018 FJFI ČVUT v Praze 1 Úvod Úvod Rozdělení Metody Zastavení SOR Programy 1 Úvod Úvod - LAR Mějme základní úlohu A x = b, (1) kde A R n,n je
TGH01 - Algoritmizace
TGH01 - Algoritmizace Jan Březina Technical University of Liberec 31. března 2015 Metainformace materiály: jan.brezina.matfyz.cz/vyuka/tgh (./materialy/crls8.pdf - Introduction to algorithms) SPOX: tgh.spox.spoj.pl
Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze
Elementární funkce Edita Pelantová FJFI, ČVUT v Praze Seminář současné matematiky katedra matematiky, FJFI, ČVUT v Praze únor 2013 c Edita Pelantová (FJFI) Elementární funkce únor 2013 1 / 19 Polynomiální
Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Automatové modely Stefan Ratschan Katedra číslicového návrhu Fakulta informačních technologíı České vysoké učení technické v Praze Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Stefan
Geometrická nelinearita: úvod
Geometrická nelinearita: úvod Opakování: stabilita prutů Eulerovo řešení s využitím teorie 2. řádu) Stabilita prutů Ritzovou metodou Stabilita tenkých desek 1 Geometrická nelinearita Velké deformace průhyby,
Statistika (KMI/PSTAT)
Statistika (KMI/PSTAT) Cvičení deváté aneb Důležitá rozdělení pravděpodobnosti spojité náhodné veličiny Statistika (KMI/PSTAT) 1 / 15 Spojitá náhodná veličina Spojitá náhodná veličina Spojitá náhodná veličina
Obsah Atributová tabulka Atributové dotazy. GIS1-2. cvičení. ČVUT v Praze, Fakulta stavební, katedra mapování a kartografie
ČVUT v Praze, Fakulta stavební, katedra mapování a kartografie září 2010 prezentace 1 2 Obecně otevření atributové tabulky (vlastnosti vrstvy Open Attribute Table) řádky v tabulce jednotlivé záznamy (objekty)
(13) Fourierovy řady
(13) Fourierovy řady Kristýna Kuncová Matematika B3 Kristýna Kuncová (13) Fourierovy řady 1 / 22 O sinech a kosinech Lemma (O sinech a kosinech) Pro m, n N 0 : 2π 0 2π 0 2π 0 sin nx dx = sin nx cos mx
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Filip Železný (ČVUT) Vytěžování dat 1 / 26
Vybrané kapitoly z matematiky
Vybrané kapitoly z matematiky VŠB-TU Ostrava 2018-2019 Vybrané kapitoly z matematiky 2018-2019 1 / 11 Křivkový integrál Vybrané kapitoly z matematiky 2018-2019 2 / 11 Parametricky zadaná křivka v R 3 :
Paradoxy geometrické pravděpodobnosti
Katedra aplikované matematiky 1. června 2009 Úvod Cíle práce : Analýza Bertrandova paradoxu. Tvorba simulačního softwaru. Osnova 1 2 3 4 Osnova 1 2 3 4 Osnova 1 2 3 4 Osnova 1 2 3 4 V rovině je zadán kruh
Zásuvný modul QGISu. QGIS plugin pro práci s katastrálními daty
Zásuvný modul QGISu pro práci s katastrálními daty Anna Kratochvílová, Václav Petráš České vysoké učení technické v Praze Fakulta stavební 19. dubna 2012 Obsah 1 Úvod 2 Nástroje a knihovny 3 Funkcionalita
Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn
Obsah 1 2 3 Použití Zobrazení rozsáhlého území, ale hodnoty zkreslení nesmí přesáhnout určitou hodnotu Rozdělením území na menší části a ty pak zobrazíme zvlášť Nevýhodou jsou však samostatné souřadnicové
ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016
ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016 Jak vizualizovat? Požadované vlastnosti nástroje opakovatelnost, spolehlivost separace formy a obsahu flexibilita,
Reprezentace dat. BI-PA1 Programování a Algoritmizace I. Ladislav Vagner
Reprezentace dat BI-PA1 Programování a Algoritmizace I. Ladislav Vagner Katedra teoretické informatiky Fakulta informačních technologíı ČVUT v Praze xvagner@fit.cvut.cz 9., 11. a 12. října 2017 Obsah Dvojková
Návod k použití BUBNOVÁ SUŠIČKA
Návod k použití BUBNOVÁ SUŠIČKA CZ Česky, 1 SK Slovenčina, 52 TCD 83B HU Magyar, 18 TR Türkçe, 69 PL Polski, 35 Při prvním zapnutí sušičky musíte zvolit preferovaný jazyk, viz str. 6 Obsah Důležité informace,
Kristýna Kuncová. Matematika B2 18/19. Kristýna Kuncová (1) Vzorové otázky 1 / 36
(1) Vzorové otázky Kristýna Kuncová Matematika B2 18/19 Kristýna Kuncová (1) Vzorové otázky 1 / 36 Limity - úlohy Otázka Určete lim x 0 f (x) A -3 B 0 C 5 D 7 E D Zdroj: Calculus: Single and Multivariable,
Zadání: Vypočítejte hlavní momenty setrvačnosti a vykreslete elipsu setrvačnosti na zadaných
Příklad k procvičení : Průřeové charakteristik Zadání: Vpočítejte hlavní moment setrvačnosti a vkreslete elipsu setrvačnosti na adaných obracích. Příklad. Zadání: Rokreslení na jednoduché obrace: 500 T
GEM a soustavy lineárních rovnic, část 2
GEM a soustavy lineárních rovnic, část Odpřednesenou látku naleznete v kapitole 6 skript Abstraktní a konkrétní lineární algebra. Jiří Velebil: B6B0LAG 8.3.09: GEM a soustavy, část / Minulá přednáška Gaussova
Průvodce studiem V této kapitole se budeme zabývat diferenciálním počtem pro funkce více
5 Diferenciální počet funkcí více proměnných Průvodce studiem V této kapitole se budeme zabývat diferenciálním počtem pro funkce více proměnných, především budeme pracovat s funkcemi dvou proměnných Ukážeme
Kombinatorika a grafy I
Kombinatorika a grafy I Martin Balko 1. přednáška 19. února 2019 Základní informace Základní informace úvodní kurs, kde jsou probrány základy kombinatoriky a teorie grafů ( pokračování diskrétní matematiky
Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12
Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı České vysoké učení technické v Praze c Kateřina Trlifajová, 2010 BI-MLO, ZS 2011/12 Evropský sociální
Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava
Lineární algebra 5. přednáška: Báze a řešitelnost soustav Dalibor Lukáš Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava email: dalibor.lukas@vsb.cz http://www.am.vsb.cz/lukas/la1 Text
(2) Funkce. Kristýna Kuncová. Matematika B2. Kristýna Kuncová (2) Funkce 1 / 25
(2) Funkce Kristýna Kuncová Matematika B2 Kristýna Kuncová (2) Funkce 1 / 25 Sudá a lichá funkce Určete, které funkce jsou sudé a které liché: liché: A, D, E sudé: B Kristýna Kuncová (2) Funkce 2 / 25
Cauchyova úloha pro obyčejnou diferenciální rovnici
Řešení ODR v MATLABu Přednáška 3 15. října 2018 Cauchyova úloha pro obyčejnou diferenciální rovnici y = f (x, y), y(x 0 ) = y 0 Víme, že v intervalu a, b existuje jediné řešení. (f (x, y) a f y jsou spojité
kontaktní modely (Winklerův, Pasternakův)
TÉMA 7: Pružný poloprostor, modely podloží pružný poloprostor základní předpoklady pružný poloprostor Boussinesqueovo řešení kontaktní modely (Winklerův, Pasternakův) 1 Pružný poloprostor (1) vychází z
Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17
Parciální diferenciální rovnice ve zpracování obrazu Anna Kratochvílová FJFI ČVUT 10. 6. 2009 Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu 10. 6. 2009 1 / 17 Obsah 1 Motivace 2 Vyšetření pomocí
Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.
Podpořeno z projektu FRVŠ 584/2011. Obsah 1 2 Obsah 1 2 Společné vlastnosti jednoduchých zobrazení: Zobrazovací ref. plocha je rovina - souřadnice X, Y, případně ρ, ɛ Zobrazovaná ref. plocha je eliposid
Biosignál II. Lékařská fakulta Masarykovy univerzity Brno
Biofyzikální ústav Lékařská fakulta Masarykovy univerzity Brno 2010 Fourierova analýza periodická funkce a posloupnost periodická funkce: f (t) = f (t + nt ), n N periodická posloupnost: a(i) = a(i + it
Diferenciální rovnice základní pojmy. Rovnice se
Diferenciální rovnice základní pojmy. Rovnice se separovanými proměnnými. Vyšší matematika, Inženýrská matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské
K SAMOSTATNÉ MODULOVÉ SCHODY MONTÁŽI. asta
N O V I N K A K SAMOSTATNÉ MODULOVÉ SCHODY MONTÁŽI asta MODULOVÉ SCHODY asta...jsou nejnovějším výrobkem švédsko-polského koncernu, který se již 10 let specializuje na výrobu schodů různého typu. Jednoduchá
Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.
Podpořeno z projektu FRVŠ 584/2011. Obsah 1 2 Obsah 1 2 Společné vlastnosti jednoduchých zobrazení: Zobrazovací ref. plocha je rovina - souřadnice X, Y, případně ρ, ɛ Zobrazovaná ref. plocha je eliposid
Operace s funkcemi [MA1-18:P2.1] funkční hodnota... y = f(x) (x argument)
KAPITOLA : Funkce - úvod [MA-8:P.] reálná funkce (jedné) reálné proměnné... f : A R...... zobrazení množin A R do množin reálných čísel R funkční hodnota... = f() ( argument) ( tj. reálná funkce f : A
Rovnice proudění Slapový model
do oceánského proudění Obsah 1 2 3 Co způsobuje proudění v oceánech? vyrovnávání rozdílů v teplotě, salinitě, tlaku, ρ = ρ(p, T, S) vítr - wind stress F wind = ρ air C D AU 2 10 slapy produkují silné proudy,
Euklidovský prostor. Funkce dvou proměnných: základní pojmy, limita a spojitost.
Euklidovský prostor. Funkce dvou proměnných: základní pojmy, limita a spojitost. Vyšší matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU
Register and win! www.kaercher.com
Register and win! www.kaercher.com A B A, B A B 2 6 A régi készülékek értékes újrahasznosítható anyagokat tartalmaznak, amelyeket tanácsos újra felhasználni. Szárazelemek, olaj és hasonló anyagok ne kerüljenek
návod k použití instrukcja obsługi
návod k použití instrukcja obsługi Pračka Pralka EWF 106510 W 2 electrolux OBSAH Electrolux. Thinking of you. Více o nás naleznete na adrese www.electrolux.com Bezpečnostní informace 2 Popis spotřebiče
Definice Řekneme, že PDA M = (Q,Σ,Γ,δ,q 0,Z 0,F) je. 1. pro všechna q Q a Z Γ platí: kdykoliv δ(q,ε,z), pak δ(q,a,z) = pro všechna a Σ;
Deterministické zásobníkové automaty Definice 3.72. Řekneme, že PDA M = (Q,Σ,Γ,δ,q 0,Z 0,F) je deterministický (DPDA), jestliže jsou splněny tyto podmínky: 1. pro všechna q Q a Z Γ platí: kdykoliv δ(q,ε,z),
Funkce více proměnných: limita, spojitost, parciální a směrové derivace, diferenciál
Matematika III 2. přednáška Funkce více proměnných: limita, spojitost, parciální a směrové derivace, diferenciál Michal Bulant Masarykova univerzita Fakulta informatiky 29. 9. 2010 Obsah přednášky 1 Literatura
Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006
Modelování systémů a procesů (K611MSAP) Přednáška 4 Katedra aplikované matematiky Fakulta dopravní ČVUT Pravidelná přednáška K611MSAP čtvrtek 20. dubna 2006 Obsah 1 Laplaceova transformace Přenosová funkce
Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Vysvětlování modelovacích chyb 133 / 156
Vysvětlování modelovacích chyb Petr Křemen FEL ČVUT Petr Křemen (FEL ČVUT) Vysvětlování modelovacích chyb 133 / 156 Co nás čeká 1 Konjunktivní dotazy 2 Vyhodnocování konjunktivních dotazů v jazyce ALC
Rekrutacja List Motywacyjny
- Początek Szanowny Panie, Vážený pane, Formalny, odbiorcą jest mężczyzna, którego nazwiska nie znamy. Zamiennie możemy użyć jednego z dwóch zwrotów formalnych Vážená paní, Formalny, odbiorcą jest kobieta,
Matematika III Stechiometrie stručný
Matematika III Stechiometrie stručný matematický úvod Miroslava Dubcová, Drahoslava Janovská, Daniel Turzík Ústav matematiky Přednášky LS 2015-2016 Obsah 1 Zápis chemické reakce 2 umožňuje jednotný přístup
Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Úvod 1 / 32
Komplexní analýza Úvod Martin Bohata Katedra matematiky FEL ČVUT v Praze bohata@math.feld.cvut.cz Martin Bohata Komplexní analýza Úvod 1 / 32 Základní informace Stránky předmětu: http://math.feld.cvut.cz/bohata/kan.html
PA152,Implementace databázových systémů 2 / 25
PA152 Implementace databázových systémů Pavel Rychlý pary@fi.muni.cz Laboratoř zpracování přirozeného jazyka http://www.fi.muni.cz/nlp/ 19. září 2008 PA152,Implementace databázových systémů 1 / 25 Technické
Ústav teorie informace a automatizace RESEARCH REPORT. Pavel Boček, Karel Vrbenský: Implementace algoritmu MIDIA v prostředí Google Spreadsheets
Akademie věd České republiky Ústav teorie informace a automatizace Academy of Sciences of the Czech Republic Institute of Information Theory and Automation RESEARCH REPORT Pavel Boček, Karel Vrbenský:
Teorie. kuncova/ Definice 1. Necht f je reálná funkce a a R. Jestliže existuje.
8. cvičení http://www.karlin.mff.cuni.cz/ kuncova/ kytaristka@gmail.com Teorie Definice. Necht f je reálná funkce a a R. Jestliže eistuje h 0 fa + h) fa), h pak tuto itu nazýváme derivací funkce f v bodě
ULS4805FE. Návod k použití Návod na použitie Instrukcja obsługi Instruction Manual Használatı utasítás. Licensed by Hyundai Corporation, Korea
ULS4805FE Návod k použití Návod na použitie Instrukcja obsługi Instruction Manual Használatı utasítás Licensed by Hyundai Corporation, Korea Obsah Bezpečnostní informace...2 Označení na produktu...2 Informace
TVL 26925 LED NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE
TVL 26925 LED NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE BAREVNÝ TELEVIZNÍ PŘÍJÍMAČ S DÁLKOVÝM OVLÁDÁNÍM FAREBNÝ TELEVÍZNY PRIJÍMAČ S DIALKOVÝM OVLÁDÁNÍM TELEWIZOR KOLOROWY Z PILOTEM Obsah Vlastnosti... 2 Úvod...
HOBGARSKA KARKONOSZE
M I E J S C A J A N I N A HOBGARSKA KARKONOSZE Fotografie powstały w latach 2002 2005 M I E J S C E Do miejsc się trafia, przybywa, traci się je i wspomina. Ale też, jak twierdzi Nina Hobgarska, to miejsca
Algebra I Cvičení. Podstatná část příkladů je převzata od kolegů, jmenovitě Prof. Kučery, Doc. Poláka a Doc. Kunce, se
Algebra I Cvičení Podstatná část příkladů je převzata od kolegů, jmenovitě Prof. Kučery, Doc. Poláka a Doc. Kunce, se kterými jsem při přípravě cvičení spolupracoval. Sbírka vznikla modifikací některých
Vlastnosti. Příprava. Czech - 2 -
Obsah Vlastnosti... 2 Úvod... 2 Příprava... 2 Bezpečnostní opatření... 3 Obsah balení... 4 Informace o životním prostředí... 5 Tlačítka dálkového ovládání... 6 LCD TV a Ovládací tlačítka... 7 Přehled zapojení
IB047. Pavel Rychlý. 21. února
Úvod do korpusové lingvistiky a počítačové lexikografie pary@fi.muni.cz Centrum zpracování přirozeného jazyka 21. února 2018 Technické informace http://www.fi.muni.cz/ pary/ib047/ Technické informace http://www.fi.muni.cz/
Obsah. 1.2 Integrály typu ( ) R x, s αx+β
Sbírka úloh z matematické analýzy. Čížek Jiří Kubr Milan. prosince 006 Obsah Neurčitý integrál.. Základní integrály...................................... Integrály typu ) R, s α+β γ+δ d...........................
Pojem množiny nedefinujeme, pouze připomínáme, že množina je. Nejprve shrneme pojmy a fakta, které znáte ze střední školy.
1 Kapitola 1 Množiny 1.1 Základní množinové pojmy Pojem množiny nedefinujeme, pouze připomínáme, že množina je souhrn, nebo soubor navzájem rozlišitelných objektů, kterým říkáme prvky. Pro známé množiny
ZÁVĚREČNÁ KONFERENCE Poslanecká sněmovna PČR Praha 28. 4. 2014 MEZINÁRODNÍ DOTAZNÍKOVÉ ŠETŘENÍ ANKIETY MIEDZYNARODOWE
ZÁVĚREČNÁ KONFERENCE oslanecká sněmovna ČR raha 28. 4. 2014 MEZINÁRODNÍ DOTAZNÍKOVÉ ŠETŘENÍ ANKIETY MIEDZYNARODOWE ZÁKLADNÍ INFORMACE ODSTAWOWE INFORMACJE sběr dat proběhl v olsku a v České republice ankiety
DXDB 215 NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE INSTRUKCJA OBSŁUGI USER MANUAL
DXDB 215 NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE INSTRUKCJA OBSŁUGI USER MANUAL KOMBINOVANÝ PŘEHRÁVAČ DVD/DVB-T KOMBINOVANÝ PREHRÁVAČ DVD/DVB-T KOMBINOWANY ODTWARZACZ DVD/DVB-T DVD\DVB-T COMBO PLAYER Podpora
fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.
Extrémy Vyšší matematika, Inženýrská matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného
Vladimír Ulman Centre for Biomedical Image Analysis. 10th October, 2007 FI MU, Brno
Gáborovy filtry nebo spíš rychlé počítání Gausse Vladimír Ulman Centre for Biomedical Image Analysis th October, 7 FI MU, Brno Vladimír Ulman (CBIA, FI MU) Gáborovy filtry th October, 7 / 39 Gáborovy filtry
Základní elektrotechnická terminologie,
Přednáška č. 1: Základní elektrotechnická terminologie, veličiny a zákony Obsah 1 Terminologie 2 2 Veličiny 6 3 Kirchhoffovy zákony 11 4 Literatura 14 OBSAH Strana 1 / 14 1 TERMINOLOGIE Strana 2 / 14 1
Univerzita Palackého v Olomouci
Počítačová grafika - 5. cvičení Radek Janoštík Univerzita Palackého v Olomouci 22.10.2018 Radek Janoštík (Univerzita Palackého v Olomouci) Počítačová grafika - 5. cvičení 22.10.2018 1 / 10 Reakce na úkoly
x2 + 2x 15 x 2 + 4x ) f(x) = x 2 + 2x 15 x2 + x 12 3) f(x) = x 3 + 3x 2 10x. x 3 + 3x 2 10x x 2 + x 12 10) f(x) = log 2.
Příklady k 1 zápočtové písemce Definiční obor funkce Určete definiční obor funkce: x + x 15 1 f(x x + x 1 ( x + x 1 f(x log x + x 15 x + x 1 3 f(x x 3 + 3x 10x ( x 3 + 3x 10x f(x log x + x 1 x3 + 5x 5
7. Aplikace derivace
7. Aplikace derivace 7A. Taylorův polynom 7. Aplikace derivace Verze 20. července 207 Derivace funkce se využívá při řešení úloh technické prae i teorie. Uvedeme několik z nich: vyčíslení hodnot funkce,
návod k použití instrukcja obsługi
návod k použití instrukcja obsługi Pračka Pralka EWS 106540 W EWS 126540 W 2 electrolux Obsah Electrolux. Thinking of you. Více o nás naleznete na adrese www.electrolux.com Bezpečnostní informace 2 Popis
Ústav teorie informace a automatizace. Tato prezentace je k dispozici na:
Aplikace bayesovských sítí Jiří Vomlel Ústav teorie informace a automatizace Akademie věd České republiky Tato prezentace je k dispozici na: http://www.utia.cas.cz/vomlel/ Obsah přednášky Podmíněná pravděpodobnost,
Představení projektu
Moderní zpřístupnění historických pramenů Představení projektu P. Král 1,2 K. Halla 3 R. Široký4 L. Lenc 2 J. Martínek 1 1 Katedra informatiky a výpočetní techniky, FAV ZČU v Plzni 2 Nové technologie pro
Pracovní listy. Stereometrie hlavního textu
v tomto dodatu jsou sebrána zadání všech úloh řešených v aitolách Planimetrie a tereometrie hlavního textu slouží ta jao racovní listy samostatnému rocvičení uvedených úloh Zracoval Jiří Doležal 1 eznam
TVL 22800 UMP2 NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE
TVL 22800 UMP2 NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE 50193148 BAREVNÝ TELEVIZNÍ PŘÍJÍMAČ S DÁLKOVÝM OVLÁDÁNÍM FAREBNÝ TELEVÍZNY PRIJÍMAČ S DIALKOVÝM OVLÁDÁNÍM TELEWIZOR KOLOROWY Z PILOTEM Obsah Obsah balení...
Určitý (Riemannův) integrál a aplikace. Nevlastní integrál. 19. prosince 2018
Určitý (Riemnnův) integrál plikce. Nevlstní integrál Seminář 9. prosince 28 Určitý integrál Existence: Necht funkce f (x) je definovná n uzvřeném intervlu, b. Necht je splněn n tomto intervlu kterákoliv
Obsah. Limita posloupnosti a funkce. Petr Hasil. Limita posloupnosti. Pro a R definujeme: Je-li a < 0, pak a =, a ( ) =. vlastní body.
Obsah a funkce Petr Hasil Přednáška z Matematické analýzy I Úvod 2 c Petr Hasil (MUNI) a funkce Matematická analýza / 90 c Petr Hasil (MUNI) a funkce Matematická analýza 2 / 90 Úvod Úvod Pro a R definujeme:
LBF/ZUB22 Programové vybavení ordinace zubního lékaře. Mgr. Markéta Trnečková, Ph.D. Palacký University, Olomouc
Databáze LBF/ZUB22 Programové vybavení ordinace zubního lékaře Mgr. Markéta Trnečková, Ph.D. www.marketa-trneckova.cz Palacký University, Olomouc Databáze databáze = uložiště dat dříve členěny hierarchicky,
Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava
Lineární algebra 8. přednáška: Kvadratické formy Dalibor Lukáš Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava email: dalibor.lukas@vsb.cz http://www.am.vsb.cz/lukas/la Text byl vytvořen