Poznámky k předměu Saisika 3 Jan Kracík. dubna 04 Značení i.i.d. - nezávislé a sejně rozdělené (náhodné veličiny Není-li řečeno jinak, pak: Nerozlišujeme náhodnou veličinu a její hodnou. Význam bude vždy zřejmý z konexu. Husoy pravděpodobnosi jsou zapisovány bez explicině uvedených náhodných veličin. Ty jsou jednoznačně určeny argumeny. Úvod Kdykoliv sojíme před volbou jedné z alespoň dvou různých možnosí, řešíme jisou rozhodovací úlohu. V případě, že nejsme z nějakého důvodu schopni přesně urči důsledky jednolivých rozhodnuí, mluvíme o úloze rozhodování za neurčiosi. Téměř každá skuečná rozhodovací úloha je přiom do jisé míry neurčiosí zaížena. Je přirozené požadova, aby rozhodnuí byla určiým způsobem racionální, nebo dokonce v jisém smyslu co nejlepší. Abychom byli schopni omuo požadavku vyhově, je obecně pořeba v rámci možnosí minimalizova míru neurčiosi v dané úloze, o znamená získa a využí informace, keré umožní co nejlépe předpovída důsledky jednolivých rozhodnuí. Exisuje řada možnosí, jak v konkréních případech reprezenova neurčios, například pomocí násrojů eorie pravděpodobnosi, fuzzy eorie, nepřesné pravděpodobnosi, nebo possibilisické eorie. Dominanní roli mezi ěmio přísupy nepochybně hrají pravděpodobnosní modely. Násrojem, kerý v akovém případě umožňuje získáva a zpracováva informace vedoucí ke snížení neurčiosi je pak maemaická saisika. Parně nejpropracovanějším přísupem k rozhodování za neurčiosi je zv. Bayesovská eorie. Tao eorie bývá označována jako normaivní, což znamená, že rozhodovací sraegie na ní založené jsou navrhovány ak, aby splňovaly určié předem dané podmínky, díky kerým lze yo sraegie považova za v jisém smyslu racionální a konzisenní. Nejde edy o deskripivní eorii, kerá by si kladla za cíl modelova skuečné rozhodování nějaké skupiny v konkréních podmínkách. V rámci bayesovské eorie je neurčios v rozhodovací úloze reprezenována pomocí pravděpodobnosi a veličiny jejichž hodnoy nelze přesně urči jsou považovány za náhodné. Cíle rozhodování jsou popsány pomocí zv. zráové funkce, kerá závisí na zvoleném rozhodnuí a dalších (náhodných veličinách. Opimální rozhodnuí jsou pak navrhována ak, aby minimalizovala sřední hodnou zráové funkce. Nedílnou součásí návrhu opimální sraegie je získávání informací z da, díky čemuž je snižována míra neurčiosi. Proože všechny neznámé veličiny jsou považovány za náhodné, redukuje se eno proces na využií Bayesova vzorce.
Bayesovská rozhodovací úloha Bayesovské meody jsou založeny na jednoduché ale přiom geniální myšlence, se kerou přišel v 8. soleí Thomas Bayes: Všechny neznámé paramery vyskyující se v úloze jsou považovány za náhodné veličiny. Uvažujeme určiý sysém popsaný (vekorovou náhodnou veličinou x, jejíž rozdělení závisí parameru θ, jehož hodnoa není známa. Z Bayesovy myšlenky okamžiě plynou následující důsledky: Saisický model ve smyslu paramerizovaného sysému pravděpodobnosních rozdělení náhodné veličiny x je z bayesovského pohledu reprezenován podmíněnou pravděpodobnosí f(x θ. ( Pro náhodnou veličinu θ reprezenující neznámý paramer v modelu ( lze zvoli husou pravděpodobnosi f(θ. ( Tao husoa se nazývá apriorní husoa a v bayesovských meodách má zásadní význam. Volbou apriorní husoy lze do úlohy vnés zv. apriorní informaci, což je informace o parameru, kerá je dosupná před ím, než jsou pozorována jakákoliv daa. Zdrojem akovéo informace může bý např. fyzikální model nebo dřívější zkušenos s podobnými problémy. Prosřednicvím apriorní husoy lze aké vyjádři předem známá omezení pro hodnou neznámého parameru. Apriorní rozdělení ale může bý rovněž zdrojem problémů, nebo v někerých případech nemusí bý vhodná apriorní informace dosupná. Bez apriorního rozdělení přiom bayesovskou rozhodovací úlohu nelze zformulova. V akových případech lze ale využí zv. neinformaivní apriorní rozdělení. Z apriorního rozdělení ( a modelu ( lze pomocí Bayesova vzorce odvodi zv. aposeriorní husou f(θ x, f(θ x = f(x θf(θ, (3 f(x kde marginální husou f(x získáme inegrací sdružené husoy f(x, θ, f(x = f(x, θdθ = f(x θf(θdθ. 3 Podmíněná husoa (3 reprezenuje celkovou informaci o parameru θ, kerá v sobě zahrnuje jednak apriorní informaci a dále informaci získanou pozorováním da x. Pokud v úloze uvažujeme další náhodnou veličinu y, kerá na parameru θ a veličině x závisí prosřednicvím podmíněné husoy f(y x, θ, lze z ní s využiím aposeriorní husoy (3 odvodi podmíněnou husou f(y x = f(y, θ xdθ = f(y x, θf(θ xdθ. (4 Podmíněná husoa (4 se nazývá predikivní husoa. Tao husoa v jisém smyslu předpovídá chování náhodné veličiny y na základě pozorování veličiny x ale aké apriorní informace f(θ. Všude v exu pro zjednodušení předpokládáme, že uvažovaná pravděpodobnosní rozdělení mají husoy vzhledem k Lebesgueově míře (pro spojié náhodné veličiny nebo k číací míře (pro diskréní náhodné veličiny. V celém exu nebudeme značením rozlišova náhodnou veličinu a její hodnou, bude-li význam zřejmý z konexu. Dále nebudeme u huso pravděpodobnosi apod. explicině zapisova, kerých náhodných veličin se ýkají, nebo oo bude jednoznačně určeno argumeny. Např. zápis f(x y je zjednodušené vyjádření podmíněné husoy f X Y (x y náhodné veličiny X za podmínky Y = y. 3 Nebude-li řečeno jinak, chápeme všechny inergály v exu jako určié inegrály přes celý obor hodno příslušné náhodné veličiny.
Poznámky:. Neznámý paramer θ nemusí mí jen význam parameru pravděpodobnosního rozdělení, ale může jí obecně o jakoukoliv veličinu, na níž rozdělení veličiny x závisí prosřednicvím modelu (. Kromě paramerů rozdělení v běžném smyslu může jí například o fyzikální veličiny, keré nelze pozorova přímo. Příkladem akové veličiny může bý poloha a rychlos leadla v určiém čase, přičemž pozorovanou veličinou x by v omo případě mohly bý údaje naměřené radarem.. Náhodná veličina x sejně jako paramer θ mohou bý obecně vekorové. Náhodný vekor x může reprezenova posloupnos nezávislých sejně rozdělených pozorování, nebo aké nějakým způsobem závislá daa. Například v případě saisického zpracování obrazové informace může x reprezenova náhodný vekor dimenze v řádu milionů obsahující pozorované inenziy jasu pro jednolivé obrazové body, paramer θ pak může předsavova vekor skuečných hodno jasu. Význam modelu ( i apriorní husoy ( se ím nijak nemění, sejně jako zůsávají v planosi vzahy (3 a (4. Z prakického hlediska ale může jí o velmi složié objeky a například inegrály v (3 a (4 nejen, že časo nelze spočía analyicky, ale kvůli obrovské dimenzi nelze využí ani běžných numerických meod. Díky vzorkovacím meodám (MCMC nemusí ani ako složié úlohy předsavova neřešielný problém. 3. Bayesův vzorec předsavuje mechanizmus učení, kdy je k apriorní informaci reprezenované apriorní husoou f(θ přidávána informace získaná z da a celková dosupná informace o parameru θ je pak reprezenována aposeriorní husoou f(θ x. Teno proces učení je názorně vidě v případě, kdy vekorová veličina x = (x,..., x předsavuje posloupnos náhodných veličin, jejichž hodnoy jsou získávány posupně a index ak lze inerpreova jako čas. Pro zjednodušení předpokládejme, že pozorování jsou nezávislá a pro model edy plaí z čehož plyne pro všechna τ {,..., } f(x, x,..., x θ = f(x τ θ, τ= f(x τ x,..., x τ, θ = f(x τ θ. (5 Aposeriorní husou f(θ x lze vyjádři rekurenně pomocí vzahů f(θ x = f(x θf(θ f(x θf(θdθ a pro τ =,..., f(θ x,..., x τ = f(x τ x,..., x τ, θf(θ x,..., x τ f(xτ x,..., x τ, θf(θ x,..., x τ dθ (6 = f(x τ θf(θ x,..., x τ f(xτ θf(θ x,..., x τ dθ, (7 kde (7 plyne z (6 díky (5. Podmíněnou husou f(θ x,..., x τ můžeme inerpreova jako aposeriorní husou v čase τ. Vzah (7 pak není nic jiného než Bayesův vzorec, v němž je jako apriorní husoa použia aposeriorní husoa f(θ x,..., x τ z času τ a jako daa zde vysupuje pouze nové pozorování x τ. 4. Vzah (3 pro výpoče aposeriorní husoy se časo zapisuje ve varu f(θ x f(x θf(θ, (8 3
kde symbol značí, že levá srana je úměrná pravé až na normalizační člen nezávislý na θ. Teno člen je jednoznačně určen podmínkou f(θ xdθ = a je roven f(x =. f(x θf(θdθ Použií ohoo zápisu v praxi zjednodušuje posup odvození aposeriorní husoy. Aposeriorní husoa hraje v bayesovském přísupu k rozhodování za neurčiosi klíčovou roli, nebo reprezenuje celkovou informaci o neznámém parameru. Přeso je věšinou jen meziprodukem v rozhodovací procesu, kerý směřuje k volbě určiého rozhodnuí. Tímo rozhodnuím může bý určié rozhodnuí v běžném smyslu (proda nebo neproda akcie, řídící zásah v nějakém sysému (nasavielná velikos proudu procházející moorem, sanovení předpovědi (množsví srážek během následujícího dne, ale může například i běžné saisické odhady. Sanovení hodnoy bodového odhadu, nebo řeba es hypoézy jsou z bayesovského pohledu rozhodovací úlohy. Každé racionální rozhodování sleduje určiý cíl. V rámci bayesovského přísupu jsou cíle rozhodování specifikovány pomocí zv. zráové funkce, kerá každému rozhodnuí přiřazuje určiou hodnou ve smyslu zráy, kerou oo rozhodnuí způsobí, a o v závislosi na hodnoě parameru θ. Označíme-li A množinu všech rozhodnuí, pak zráová funkce je libovolná funkce L : A Θ R +, (9 kde Θ je obor hodno náhodné veličiny θ. Za opimální rozhodnuí a op pak považujeme rozhodnuí, keré minimalizuje sřední hodnou zráové funkce vzhledem k aposeriornímu rozdělení, j. a op Argmin a A L(a, θf(θ xdθ. 4 (0 Opimální rozhodnuí obecně nemusí exisova a pokud exisuje, nemusí bý jednoznačné.. Shrnuí Formulaci bayesovské úlohy můžeme shrnou do následujících kroků:. Pro daný problém specifikujeme saisický model: f(x θ, apriorní husou pravděpodobnosi: f(θ, množinu rozhodnuí: A, zráovou funkci: L : A Θ R +.. Opimální rozhodnuí a op A hledáme ak, aby splňovalo podmínku a op Argmin L(a, θf(θ xdθ, a A kde f(θ x = f(x θf(θ f(x θf(θdθ. Poznámky: 4 Argmin je použio pro označení množiny všech bodů, pro něž daná funkce nabývá svého minima. 4
. Výše uvedená srukura rozhodovací úlohy je přímo aplikovaelná na relaivně jednoduché úlohy, kdy na základě apriorní informace a da hledáme opimální rozhodnuí. Takovéo úlohy bývají označovány jako saické. Sejný princip však můžeme uplani např. i při řízení dynamického sysému, kdy jsou rozhodnuí generována sekvenčně v návaznosi na posupně získávaná daa, přičemž rozhodnuí zároveň ovlivňují budoucí chování celého sysému. V akovém případě mluvíme o dynamickém rozhodování. Příkladem dynamického rozhodování může bý např. řízení dopravy v určié oblasi, řízení mobilního roboa v neznámém prosředí apod.. Z prakického hlediska mají bayesovské meody dvě hlavní výhody: (a Úlohy rozhodování za neurčiosi včeně dynamických úloh lze formulova relaivně jednoduše, přičemž je zaručena určiá racionalia rozhodovacího procesu (minimalizace očekávané zráy. (b Prosřednicvím apriorní husoy je explicině reprezenována apriorní informace. V úlohách, kde se poýkáme z nedosakem da, je přiom důsledné využií apriorní informace nezbyné. 3. I když je srukura bayesovské rozhodovací úlohy v principu jednoduchá, jednolivé kroky samy o sobě mohou bý obížné a časo se neobejdou se bez vhodných aproximačních násrojů. Až na jednodušší případy bývá zdrojem obíží aposeriorní husoa, kerou časo nelze vhodně vyjádři. V případě dynamických úloh pak návrh opimální rozhodovací sraegie vede k naolik výpočeně náročným úlohám, že je prakicky vždy nuné omezi se na hledání sub-opimálního řešení (zjednodušené úlohy. 3 Ilusrační příklady Následující příklady jsou ukázkou možných aplikací bayesovské eorie. Uvažujme nejprve běžnou úlohu odhadu parameru saisického modelu. Pro srovnání uo úlohu budeme nejprve řeši klasicky. Sesrojíme maximálně věrohodný odhad a poé ješě najdeme inervalový odhad. Příklad Odhad sřední hodnoy normálního rozdělení Nech x, x,..., x jsou i.i.d. náhodné veličiny s rozdělením s husoou pravděpodobnosi f µ (x = (x µ exp ( π ( závisející na neznámém parameru µ R. Díky předpokládané nezávislosi pro sdruženou husou pravděpodobnosi plaí ( f µ (x, x,..., x = f µ (x τ = (π exp (x τ µ. ( τ= Jesliže při daných hodnoách x, x,..., x chápeme sdruženou husou ( jako funkci parameru µ, nazýváme ji věrohodnosní funkcí parameru µ. Časo používaným ypem bodového odhadu je zv. maximálně věrohodný odhad, ˆµ ML : R R, kerý každé posloupnosi x,..., x přiřazuje hodnou parameru, v níž věrohodnosní funkce nabývá svého maxima: τ= ˆµ ML (x, x,..., x = arg max µ R f µ(x, x,..., x. Maximalizací věrohodnosní funkce ( dosaneme maximálně věrohodný odhad modelu ( ve varu ˆµ ML (x,..., x = x τ. τ= 5
Při hledání inervalového odhadu vyjdeme ze skuečnosi, že při známém rozpylu σ má saisika τ= x τ µ σ rozdělení N (0,. Odud dojdeme k inervalovému odhadu x τ z α, kde z α, z α τ= τ= x τ + z α, jsou kvanily sandardizovaného normálního rozdělení. Plaí edy, že P ( τ= x τ z α µ x τ + z α = α. Příklad Bayesovský odhad sřední hodnoy normálního rozdělení Uvažujme nyní sejnou úlohu formulovanou a řešenou pomocí bayesovského přísupu. Saisický model je reprezenován podmíněnou husoou pravděpodobnosi f(x µ = π exp τ= ( (x µ kde neznámý paramer µ je chápán jako náhodná veličina. Husoa pravděpodobnosi náhodného vekoru x, x,..., x má var ( f(x, x,..., x µ = f(x τ µ = (π exp (x τ µ. (4 τ= Dále je pořeba zvoli apriorní husou pro paramer µ. Z čisě prakických důvodů zvolíme normální apriorní rozdělení. Jelikož kromě da nemáme žádnou další informaci o skuečné hodnoě parameru µ, zvolíme rozdělení s velkým rozpylem a sřední hodnoou 0, např. f(µ = π exp ( µ 00 S využiím zjednodušeného zápisu (8 můžeme vyjádři aposeriorní husou τ= (3. 5 (5 f(µ x,..., x f(x,..., x µf(µ ( exp ( (x τ µ exp µ 00 τ= ( ( ( exp + ( µ x τ µ 00 τ= ( exp µ + τ= x τ 00 + 00. (6 Odud vidíme, že aposeriorní rozdělení je rovněž normální, a o konkréně ( N + x τ, 00 +. (7 00 τ= 5 Pro případy, kdy nemáme prakicky žádnou apriorní informaci, exisují vhodnější způsoby volby apriorního rozdělení - zv. neinformaivní apriorní rozdělení. 6
Sřední hodnoa aposeriorního rozdělení se edy přibližně rovná výběrovému průměru z hodno x,..., x a směrodaná odchylka je přibližně nepřímo úměrná. Abychom nyní mohli sanovi bodový odhad parameru µ, je pořeba zvoli zráovou funkci (9. Množina rozhodnuí je zřejmě množina všech přípusných hodno pro paramer µ, edy R. Použijeme v praxi časo využívanou kvadraickou zráovou funkci, kerá rozhodnuí přiřazuje druhou mocninu eukleidovské vzdálenosi od skuečné hodnoy parameru, edy L(a, µ = (a µ. (8 Opimálním rozhodnuím je v našem případě hodnoa bodového odhadu, budeme jej proo znači ˆµ. Podle (0 hledáme ˆµ ak, aby plailo ˆµ Argmin a R (a µ f(µ x,..., x dµ. (9 Inegrál v (9 je kvadraická funkce proměnné a, kerou lze vyjádři ve varu a a µf(µ x,..., x dµ + µ f(µ x,..., x dµ. Tao funkce má globální minimum v bodě µf(µ x,..., x dµ, kerý je roven sřední hodnoě parameru vzhledem k aposeriornímu rozdělení. Pro hodnou bodového odhadu ˆµ edy plaí ˆµ = + x τ. 00 Jinou možnosí sanovení bodového odhadu parameru na základě aposeriorního rozdělení je bayesovská obdoba maximálně věrohodného odhadu (8, kdy je hodnoa odhadu sanovena ak, aby pro každé x, x,..., x maximalizovala hodnou aposeriorní husoy, τ= ˆµ MAP (x, x,..., x = arg max a A f(µ x, x,..., x (0 Teno odhad je označován jako maximální aposeriorní odhad. Vzhledem k omu, že aposeriorní rozdělení (6 je normální, dosaneme v omo případě ˆµ MAP = ˆµ, kde ˆµ je již nalezený odhad minimalizující sřední hodnou kvadraické zráové funkce. Obecně akováo rovnos neplaí. Poznamenejme, že i když je eno odhad v praxi velmi časo využíván (např. při zpracování obrazu, nejde o ypicky bayesovské řešení, nebo jej nelze vyjádři jako argumen minima sřední hodnoy konkréní zráové funkce. Bayesovskou obdobou inervalového odhadu (credible inerval bude množina C, pro niž plaí P (µ C x,..., x = α pro malé α, např. α = 0.05. Je přiom přirozené požadova, aby ao množina byla co nejmenší. Množinu C edy budeme hleda ve varu C = {µ R f(µ x,..., x k} pro nějaké k > 0. Vzhledem k omu, že aposeriorní rozdělení (7 je normální, bude množina C inerval C = + x τ z α, 00 τ= + + x τ + z α ( 00 00 τ= + 00 Povšimněme si několika deailů příkladech a (: 7
Neznámý paramer µ v bayesovském modelu je považován za náhodnou veličinu s hodnoami v množině R, zaímco v klasickém modelu jde o bod z éo množiny. Saisický model v klasickém přísupu chápeme jako rozdělení pravděpodobnosi závislé na parameru µ, kdežo model v bayesovském pojeí je reprezenován podmíněnou husoou pravděpodobnosi. Pro libovolnou konkréní hodnou parameru µ 0 R ale oba modely f µ0 (x τ i f(x τ µ = µ 0 předsavují sejná rozdělení pravděpodobnosi veličiny x τ. Klasický inervalový odhad parameru (v příkladu je dvojice náhodných veličin T l (x, T u (x, pro keré plaí µ R : P (T l (x µ T u (x = α, přičemž rozdělení saisik T l (x, T u (x je určeno paramerem µ. Naproi omu bayesovský inerval spolehlivosi je množina C, pro kerou plaí P (µ C x,..., x = α. Díky omu, že neznámý paramer je považován za náhodnou veličinu, je inerpreace bayesovského inervalového odhadu přímočará v porovnání s klasickým inervalovým odhadem. Zaímco veličiny x, x,..., x byly v rámci klasického přísupu podle předpokladu nezávislé (viz. (, z bayesovského pohledu už omu ak není. Sdruženou husou veličin x, x,..., x lze vyjádři jako f(x, x,..., x = f(µ f(x τ µdµ, ( τ= kdežo pro součin marginálních huso veličin x, x,..., x plaí f(x τ = τ= f(µf(x τ µdµ. (3 τ= Sdružené husoy ( a (3 se přiom obecně nerovnají, až na exrémní případy, kdy veličiny x τ na µ ve skuečnosi nezávisí, nebo kdy je hodnoa parameru µ předem známa, což lze ne zcela korekně vyjádři apriorní husoou ve varu f(µ = δ(µ µ 0 pro nějaké µ 0 R, kde δ( předsavuje Diracovu δ funkci. Z bayesovského pohledu edy veličiny x, x,..., x obecně nejsou nezávislé, ale jsou podmíněně nezávislé při dané hodnoě µ, viz. (4. Teno pohled je přiom ve shodě s běžnou předsavou: V případě, že opakovaně pozorujeme realizace náhodných veličin se sejným rozdělením, keré ale není přesně známo, pak s přibývajícím počem pozorování zpravidla umíme sále přesněji předpovída hodnoy budoucích pozorování. Uvažujeme-li všechna pravděpodobnosní rozdělení libovolné z náhodných veličin x τ, pak ao rozdělení voří obecně jakýsi nekonečně rozměrný prosor. Předpoklad v příkladu, že daa pochází z rozdělení f µ (x pro nějaké µ R přináší informaci, že skuečné rozdělení veličin x τ leží v konkréním konečně rozměrném podprosoru. Předpoklad konkréního saisického modelu f µ (x je edy silnou apriorní informaci o neznámém rozdělení veličin x τ. V rámci klasického přísupu je veškerá apriorní informace, kerá do úlohy vsupuje, vyjádřena pouze saisickým modelem. Známe var skuečného rozdělení, ale nemáme možnos do úlohy jednoduše zanés další informaci ýkající se hodnoy neznámého parameru. Naproi omu bayesovský přísup kromě informace o varu rozdělení reprezenované modelem (3 vnáší do úlohy deailnější informaci o hodnoě neznámého parameru µ, kerá je explicině reprezenována apriorní husoou f(µ. Příklad 3 Odhad parameru a predikce posloupnosi Bernoulliových pokusů Předpokládejme, že x, x,..., x voří posloupnos Bernoulliových pokusů. Jde edy o nezávislé sejně rozdělené náhodné veličiny s hodno- 8
ami v množině {0, }. Odpovídající saisický model má var f(x τ p = p δ(xτ, ( p δ(xτ,0, f(x, x,..., x p = f(x τ p, kde p 0, je neznámý paramer. Zvolme apriorní rozdělení v podobě bea rozdělení (opě hlavně z prakických důvodů s paramery ν 0, ν R + : f(p = ( pν0 p ν, B(ν 0, ν τ= kde B : R + R + R + je zv. bea funkce definovaná vzahem Pro aposeriorní husou poom plaí B(a, b = 0 a ( b d. f(p x,..., x f(pf(x,..., x p f(p f(x τ p τ= ( p ν0 p ν p δ(xτ, ( p δ(xτ,0. (4 Označíme-li V = τ= δ(x τ,, můžeme aposeriorní husou vyjádři ve varu τ= f(p x,..., x ( p ν0 p ν p V ( p V ( p ν0+ V p ν+v. Odud plyne, že aposeriorní rozdělení parameru p je aké bea rozdělení, a o s paramery ν 0 + V a ν + V, f(p x,..., x = ( pν0+ V ν+v p B(ν 0 + V, ν + V. (5 Pokud bychom na základě pozorování x,..., x chěli předpovědě hodnou (ve smyslu rozdělení pravděpodobnosi veličiny x +, pořebujeme urči podmíněnou husou f(x + x,..., x. K omu využijeme aposeriorní husou (5. f(x + x,..., x = f(x +, p x,..., x dp = f(x + p, x,..., x f(p x,..., x dp = f(x + pf(p x,..., x dp = ( p δ(x +,0+ν 0+ V δ(x+,+ν+v p B(ν 0 + V, ν + V = B(δ(x +, 0 + ν 0 + V, δ(x +, + ν + V B(ν 0 + V, ν + V 9
Pro x + = 0 pak dosaneme f(x + = 0 x,..., x = B(ν 0 + V +, ν + V B(ν 0 + V, ν + V = Γ(ν 0 + V + Γ(ν + V Γ(ν 0 + ν + + = ν 0 + V ν 0 + ν + Obdobně pro x + = bychom dosali f(x + = x,..., x = ν + V ν 0 + ν +. Γ(ν 0 + ν + Γ(ν 0 + V Γ(ν + V Bayesovský přísup je časo používán aké při zpracování obrazu. Saisické modely používané v éo oblasi ale mají mnohem širší využií - lze je použí v případě, že náhodné veličiny mají určié uspořádání (např. prosorové, na jehož základě lze předpokláda nějakou (nezávislosní srukuru. Následující příklad ukazuje, jak důležiou roli v akových případech hraje apriorní informace. Příklad 4 (Segmenace obrazu Uvažujme digiální obraz o rozměrech n n bodů. Pro jednoduchos budeme předpokláda, že každý bod obrazu je popsán jedním reálným číslem, např. hodnoou jasu. Dále předpokládejme, že obraz zachycuje scénu, v níž se vyskyují věší jednoduché objeky vyplněné náhodnou exurou (všechny sejnou, kerá je odlišná od exury, již je vyplněno pozadí scény, přičemž známe pravděpodobnosní modely ěcho dvou exur. Takovýo obraz je edy pokry dvěma druhy ploch s odlišnou náhodnou vyplní. Pokusíme se o segmenaci akového obrazu, j. pro každý bod obrazu určíme (odhadneme, zda je zaplněn objekem nebo pozadím. Obrazová daa v omo případě voří náhodný vekor y s hodnoami v R (n. Označíme-li S = {,..., n} {,..., n}, kde prvky množiny S chápeme jako souřadnice jednolivých bodů, můžeme náhodný vekor y reprezenova po složkách jako y = (y ij (i,j S. Podobně můžeme reprezenova druhy výplně jako vekor x = (x ij (i,j S, s hodnoami v {0, } (n. Skuečná hodnoa ohoo vekoru není známa, proo vekor x považujeme za náhodný a v úloze vysupuje v roli parameru. Předpokládejme pro jednoduchos, že pozorované veličiny y ij v libovolném bodě (i, j závisí pouze na druhu exury v omo bodě (hodnoě x ij a že mají normální rozdělení se známými paramery, edy f(y x = f(y ij x ij, (6 (i,j S kde pro všechny (i, j S, c {0, } f(y ij x ij = c = exp ( (y ij µ c πσc σ c (7 a (µ 0, σ 0, (µ, σ R R + jsou známé paramery. Husou (7 lze aké vyjádři ve varu f(y ij x ij = c {0,} ( πσc exp ( (y ij µ c σ c δ(xij,c, (8 0
(a Segmenace (hodnoa n. v. x (b Pozorovaný obraz (hodnoa n. v. y Obrázek : Příklad segmenace a pozorovaného obrazu kde funkce δ(, je Kroneckerovo δ, definované δ(a, b = { 0 pro a b pro a = b. Tvar (8 je vhodnější pro další výpočy, proože podmíněná husoa je vyjádřena jako funkce proměnných x ij a y ij a přiom jsme se vyhnuli hodnoám x ij vysupujícím v indexu. Příklad segmenace a obrazu o rozměru 40 40, edy konkréních realizací náhodných vekorů x a y je na obrázku. Body (i, j, s hodnoou x ij = 0 jsou zobrazeny černě, s hodnoou x ij = bíle. Obraz závisí na segmenaci prosřednicvím modelu (7, kde µ 0 = µ a σ 0 > σ. Texury se edy liší pouze rozpylem. Nalezení odhadu segmenace odpovídá nalezení odhadu parameru x, k čemuž je pořeba vyjádři aposeriorní husou f(x y. Napřed je edy nuno zvoli vhodnou apriorní husou f(x. Zkusme nejprve uvažova ako: Nemáme žádnou informaci o om, jak jsou jednolivé ypy výplně zasoupeny ani informaci o om, kde se jednolivé objeky v obraze nachází a proo žádné hodnoy segmenace nemůžeme preferova před jinými. To by znamenalo, apriorní husou pravděpodobnosi volíme jako rovnoměrnou, edy f(x = (n, (9 proože vekor x může nabýva (n různých hodno. Z (4 je zřejmé, pro každé (i, j S je f(x ij = a veličiny x ij jsou navzájem nezávislé, j. f(x = (i,j S f(x ij. (30
Pro model (6 a apriorní husou dosaneme aposeriorní husou ve varu f(x y = f(y xf(x f(y ( ( (i,j S f(y ij x ij (i,j S ij f(x = = = = = ( ( x {0,} (n (i,j S f(y ij x ij = x ij (i,j S f(x ij = x ij (i,j S f(y ij x ij f(x ij x {0,} (n (i,j S f(y ij x ij = x ij f(x ij = x ij (i,j S f(y ij x ij f(x ij (i,j S (i,j S (i,j S x ij {0,} f(y ij x ij = x ij f(x ij = x ij f(y ij x ij f(x ij x f(y ij {0,} ij x ij = x ij f(x ij = x ij f(x ij y ij. (3 Z varu aposeriorní husoy plyne, že f(x y = (i,j S f(x ij y, což znamená, že x ij jsou podmíněně nezávislé při dané hodnoě y a dále f(x ij y = f(x ij y ij, edy že x ij jsou podmíněně nezávislé na yĩ j pro (ĩ, j S, (ĩ, j (i, j při dané hodnoě y ij. Jinými slovy, aposeriorní rozdělení x ij závisí pouze na hodnoě pixelu y ij a hodnoy osaních pixelů už žádnou informaci o ypu exury v bodě (i, j nepřináší. Pro model (7 a apriorní husou (4 pak dosaneme f(x ij y ij ve varu f(x ij = c y ij = σ c exp c {0,} ( (yij µc ( exp σ c σ c (yij µ c σ c pro c {0, }. Abychom mohli urči konkréní odhad segmenace ˆx, musíme nyní zvoli vhodnou zráovou funkci. V oblasi zpracování obrazu se časo volí zv. 0 zráová funkce L(a, x = δ(a, x, kerá nabývá hodnoy 0 pouze pro x = a, jinak je rovna. Pro sřední hodnou zráové funkce vzhledem k aposeriornímu rozdělení dosaneme a edy plaí E[L(a, x y] = f(x = a y ˆx Argmax f(a y. a {0,} (n Proože má aposeriorní husoa díky volbě uniformní apriorní husoy var (3, dosáváme pro očekávanou zráu E[L(a, x y] = f(x ij = a ij y ij. (3 (i,j S Vzhledem k omu, že jednolivé členy v součinu (3 můžeme maximalizova nezávisle, dosaneme pro ˆx Argmin E[L(a, x y] a {0,} (n ˆx ij Argmax f(x ij y ij. (33 x ij {0,},
Obrázek : Odhad segmenace pro uniformní apriorní husou Výsledný odhad segmenace založený na daech z obrázku (b je zobrazen na obrázku. I když je v odhadu ˆx parná podobnos se skuečnou segmenací (viz obrázek (a, je výsledek mírně řečeno neuspokojivý. Z (33 je přiom zřejmé, že sejný odhad bychom v omo případě dosali odhadem meodou maximální věrohodnosi. Bayesovský odhad segmenace lze ale uděla mnohem lépe, pokud důsledně využijeme dosupnou apriorní informaci. Při formulaci úlohy bylo řečeno, že scéna zachycuje věší jednoduché objeky, což znamená, že oblasi se sejnou hodnoou segmenace budou s věší pravděpodobnosí voři věší souvislé plochy, což však uniformní apriorní husoa (4 nijak nereflekuje. Podaří-li se nám sesavi apriorní husou, kerá vyjadřuje akovouo apriorní informaci, můžeme očekáva zlepšení výsledného odhadu. K omuo účelu lze využí akzvané Gibbsovy disribuce, což jsou pravděpodobnosní rozdělení s husoami ve varu f(x = exp( βh(x, (34 Z(β kde Z(β = exp( βh(xdx. (35 Tao rozdělení ve saisické mechanice popisují rozdělení pravděpodobnosi savů velkého sysému čásic v rovnovážném savu. Funkce H(x má význam energie a koeficien β > 0 odpovídá převrácené hodnoě eploy. Z varu husoy (34 je vidě, že věší pravděpodobnos je přiřazována savům s nižší hodnoou energie a naopak. S rosoucí hodnoou parameru β (j. s klesající eploou rose rozdíl husoy pravděpodobnosi pro savy s vysokou a nízkou hodnoou energie. Zajímavý případ nasane, pokud energii H(x můžeme vyjádři jako souče příspěvků, keré jsou funkcí savů malých skupin čásic. Zpravidla jde o čásice, keré spolu v nějakém smyslu sousedí. Tyo modely našly uplanění mimo jiné v oblasi zpracování obrazu. Původní fyzikální erminologie se přiom přenesla i do ěcho oblasí. V našem případě můžeme energii H(x voli úměrnou poču sousedních pixelů s odlišnými hodnoami segmenace. Označíme-li N(i, j S množinu všech bodů, keré přímo sousedí s bodem (i, j S, j. lze energii H(x vyjádři ve varu N(i, j = {(k, l S : i k + j l = }, H(x = (i,j S (k,l N(i,j δ(x ij, x kl. (36 3
Lze snadno nahlédnou, že energie (36 je přímo úměrná celkové délce hranice mezi jednolivými oblasmi. Pro apriorní rozdělení (34 s energií (36 a model daný vzahy (6 a (8 dosaneme aposeriorní husou ve varu f(x y (i,j S c {0,} ( σ c exp ( (y ij µ c σ c δ(xij,c exp ( βh(x. (37 Vzhledem k omu, že x ij nejsou vzhledem k apriorní husoě (34 nezávislé, nelze aposeriorní husou (37 fakorizova, jak omu bylo v případě aposeriorní husoy (3. Další posup při minimalizaci sřední hodnoy zráové funkce se nyní neobejde bez numerického řešení. Povšimněme si alespoň dvou deailů: Vzah (37 určuje aposeriorní husou až na normalizační konsanu, kerá je rovna x {0,} (n (i,j S c {0,} ( σ c exp ( (y ij µ c σ c δ(xij,c k čemuž je pořeba řádově (n operací, což je i pro relaivně malá n prakicky nemožné. Pro obrázek 40 40 pixelů jde řádově o 0 48 operací. Pokud by veličina x byla spojiá, spočíval by výpoče např. normalizační konsany, nebo sř. hodnoy parameru x ve výpoču inegrálu přes množinu R (n. Too opě lze pomocí běžných numerických meod pro přibližný výpoče inegrálu realizova jen pro velmi malá n. Pro výpoče inegrálů, keré lze vyjádři jako sřední hodnou určié funkce náhodné veličiny vzhledem k nějakému rozdělení (v naše případě aposeriornímu, se v praxi používají numerické meody založené na generování velkého množsví vzorků z dané husoy, přičemž hledaná sřední hodnoa je pak aproximována výběrovým průměrem. Vzhledem k dimenzi úlohy a obížnému určení normalizační konsany, je i samoné generování vzorků neriviální. Teno problém lze řeši pomocí zv. Markov Chain Mone Carlo meod (MCMC, kerými lze přibližně generova vzorky i z mnohorozměrných rozdělení, určených až na normalizační konsanu. Aproximace aposeriorní husoy pro daa z obrázku (b a apriorní husou ve varu Gibbsovy disribuce s paramerem β = 0.4 vzorkována pomocí zv. Gibbsova sampleru je na obrázku 3. Přesněji jde o aproximace aposeriorních marginálních huso paramerů x ij. Výsledek ilusruje skuečnos, že důsledné využií dosupné apriorní informace může bý pro úspěšné řešení úlohy rozhodující, a o zvlášě v siuacích, kdy je k dispozici jen malé množsví da (vzhledem k poču paramerů. Dále je z příkladu zřejmé, že s využiím bayesovského přísupu a MCMC meod lze pracova i s modely, keré mají isíce paramerů., 4
Obrázek 3: Vizualizace marginálních aposeriorních huso veličin x ij. Bod na souřadnici (i, j je zobrazen s odsínem šedi úměrným f(x ij = y (pro f(x ij = y = 0 černě, f(x ij = y = bíle. Skuečná hodnoa vekoru x je na obrázku (a. 4 Dodaek: Základní pojmy a vzahy z eorie pravděpodobnosi Bayesovská saisika se opírá o několik základních vzahů z eorie pravděpodobnosi. Připomeňme nejprve základní pojmy a důležié vzahy ýkající se náhodných jevů a jejich pravděpodobnosí. Nech A, B, C jsou náhodné jevy ze společného pravděpodobnosního prosoru s pravděpodobnosí P. Předpokládejme pro jednoduchos, že P (A > 0, P (B > 0, P (C > 0. Podmíněná pravděpodobnos: Podmíněná pravděpodobnos jev A za podmínky, že nasal jev B je definována ako: P (A B P (A B =. P (B Odud plyne P (A B = P (A BP (B. Řeězové pravidlo: Z definice podmíněné pravděpodobnosi plyne následující řeězové pravidlo : P (A B C = P (A B CP (B CP (C Nezávislos: Náhodné jevy A a B jsou nezávislé, právě když P (A B = P (A(B. Odud pro nezávislé jevy plyne P (A B = P (A a P (B A = P (B. Podmíněná nezávislos: Náhodné jevy A a B jsou podmíněně nezávislé za podmínky, že nasal jev C, právě když plaí P (A B C = P (A CP (B C. Odud plyne P (A B C = P (A B C P (B C = P (A CP (B CP (C P (B CP (C = P (A C. Věa o úplné pravděpodobnosi: Nech B, B,..., B n voří úplný sysém vzájemně disjunkních náhodných jevů. Pak plaí n n P (A = P (A B i P (B i = P (A B i. i= i= 5
Bayesova věa: Nech B, B,..., B n voří úplný sysém vzájemně disjunkních náhodných jevů. Pak plaí P (B i A = P (A B ip (B i P (A B i P (B i = P (A n i= P (A B ip (B i. Časěji než se samonými náhodnými jevy a jejich pravděpodobnosmi pracujeme s náhodnými veličinami a jejich husoami pravděpodobnosi. Výše uvedené pojmy a vzahy budou plai obdobně pro náhodné veličiny. Nech X, Y, Z jsou náhodné veličiny se sdruženou husoou pravděpodobnosi f X,Y,Z (x, y, z. Předpokládejme pro jednoduchos, že f X,Y,Z (x, y, z > 0 pro všechna x, y, z. Marginalizace: Pro marginální husoy pravděpodobnosi veličin X a Y plaí f X (x = f X,Y (x, ydy, f Y (y = f X,Y (x, ydx. Podmíněná husoa: Pro podmíněnou husou pravděpodobnosi náhodné veličiny X za podmínky Y = y plaí: f X Y (x y = f X,Y (x, y. f Y (y Odud plyne f X,Y (x, y = f X Y (x yf Y (y. Řeězové pravidlo: f X,Y,Z (x, y, z = f X Y,Z (x y, zf Y Z (y zf Z (z Nezávislos: Náhodné veličiny X a Y jsou nezávislé, právě když f X,Y (x, y = f X (xf Y (y. Odud pro nezávislé veličiny plyne f X Y (x y = f X (x. Podmíněná nezávislos: Náhodné veličiny X a Y jsou podmíněně nezávislé za podmínky Z = z, právě když plaí f X,Y Z (x, y z = f X Z (x zf Y Z (y z. Odud plyne f X Y,Z (x y, z = f X Z (x z Bayesův vzorec: f X Y (x y = f Y X(y xf X (x f Y (y = f Y X(y xf X (x fy X (y xf X (xdx. 6