Kybernetika a umělá inteligence. Gerstnerova laboratoř katedra kybernetiky. Daniel Novák

Podobne dokumenty
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Edita Pelantová, katedra matematiky / 16

Kristýna Kuncová. Matematika B3

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Linea rnı (ne)za vislost

5. a 12. prosince 2018

Vybrané kapitoly z matematiky

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

Funkce zadané implicitně. 4. března 2019

Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

Numerické metody minimalizace

Matematika (KMI/PMATE)

1 Soustava lineárních rovnic

Co nám prozradí derivace? 21. listopadu 2018

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

nejsou citlivé na monotónní transformace vstupů, dost dobře se vyrovnají s nerelevantními vstupy.

Numerické metody 8. května FJFI ČVUT v Praze

Stochastické modelování v ekonomii a financích Konzistence odhadu LWS. konzistence OLS odhadu. Předpoklady pro konzistenci LWS

Úvodní informace. 18. února 2019

Kristýna Kuncová. Matematika B2 18/19

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 3. listopadu Filip Železný (ČVUT) Vytěžování dat 3. listopadu / 1

z geoinformatických dat

Statistika (KMI/PSTAT)

Kristýna Kuncová. Matematika B2

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

Matematika III Stechiometrie stručný

Inverzní Z-transformace

Matematika 2, vzorová písemka 1

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

kontaktní modely (Winklerův, Pasternakův)

(2) Funkce. Kristýna Kuncová. Matematika B2. Kristýna Kuncová (2) Funkce 1 / 25

Geometrická nelinearita: úvod

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Paradoxy geometrické pravděpodobnosti

podle přednášky doc. Eduarda Fuchse 16. prosince 2010

Ústav teorie informace a automatizace. Tato prezentace je k dispozici na:

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

GEM a soustavy lineárních rovnic, část 2

TGH01 - Algoritmizace

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Úvod 1 / 32

Rovnice proudění Slapový model

(13) Fourierovy řady

MATEMATIKA 3 NUMERICKÉ METODY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

TGH01 - Algoritmizace

Diferenciální rovnice základní pojmy. Rovnice se

DFT. verze:

Obsah: Rozhodovací stromy. Úvod do umělé inteligence 11/12 2 / 41. akce

Definice Řekneme, že PDA M = (Q,Σ,Γ,δ,q 0,Z 0,F) je. 1. pro všechna q Q a Z Γ platí: kdykoliv δ(q,ε,z), pak δ(q,a,z) = pro všechna a Σ;

vystavit agenta realitě místo přepisování reality do pevných pravidel

Kristýna Kuncová. Matematika B2 18/19. Kristýna Kuncová (1) Vzorové otázky 1 / 36

Tvarová optimalizace pro 3D kontaktní problém

Lucie Mazurová AS

Hard-Margin Support Vector Machines

Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn

heteroskedasticitě Radim Navrátil, Jana Jurečková Katedra pravděpodobnosti a matematické statistiky, MFF UK, Praha

Kombinatorika a grafy I

(a). Pak f. (a) pro i j a 2 f

Numerické metody a statistika

x2 + 2x 15 x 2 + 4x ) f(x) = x 2 + 2x 15 x2 + x 12 3) f(x) = x 3 + 3x 2 10x. x 3 + 3x 2 10x x 2 + x 12 10) f(x) = log 2.

Univerzita Palackého v Olomouci

Lucie Mazurová. AS a

Lineární algebra - iterační metody

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Operace s funkcemi [MA1-18:P2.1] funkční hodnota... y = f(x) (x argument)

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Základní elektrotechnická terminologie,

Poslední úprava dokumentu: 7. května 2019

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

ROBUST January 19, Zdeněk Fabián Ústav informatiky AVČR Praha

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Euklidovský prostor. Funkce dvou proměnných: základní pojmy, limita a spojitost.

tum.de/fall2018/ in2357

Matematika pro ekonomiku

Martin Dlask (KSI FJFI) 3. března 2016

Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Vysvětlování modelovacích chyb 133 / 156

Kapitola 2. Nelineární rovnice

Obsah. 1.2 Integrály typu ( ) R x, s αx+β

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Matematika 1 Jiˇr ı Fiˇser 24. z aˇr ı 2013 Jiˇr ı Fiˇser (KMA, PˇrF UP Olomouc) KMA MAT1 24. z aˇr ı / 52

Martin Pergel. 26. února Martin Pergel

Petr Hasil. c Petr Hasil (MUNI) Nekonečné řady MA III (M3100) 1 / 187

Zpracování digitalizovaného obrazu (ZDO) - Klasifikace

Algebra I Cvičení. Podstatná část příkladů je převzata od kolegů, jmenovitě Prof. Kučery, Doc. Poláka a Doc. Kunce, se

Cauchyova úloha pro obyčejnou diferenciální rovnici

Ústav teorie informace a automatizace RESEARCH REPORT. Pavel Boček, Karel Vrbenský: Implementace algoritmu MIDIA v prostředí Google Spreadsheets

Laplaceova transformace

Určitý (Riemannův) integrál a aplikace. Nevlastní integrál. 19. prosince 2018

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Západočeská univerzita v Plzni Fakulta aplikovaných věd. Katedra matematiky. Semestrální práce - matematika a byznys

Uvod Symbolick e modelov an ı Neuronov e s ıtˇ e Shrnut ı Modelov an ı myˇslen ı Radek Pel anek

Obsah. Petr Hasil. (konjunkce) (disjunkce) A B (implikace) A je dostačující podmínka pro B; B je nutná podmínka pro A A B: (A B) (B A) A (negace)

Matematická analýza 2. Kubr Milan

Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky

Obsah. Limita posloupnosti a funkce. Petr Hasil. Limita posloupnosti. Pro a R definujeme: Je-li a < 0, pak a =, a ( ) =. vlastní body.

Transkrypt:

Kybernetika a umělá inteligence 2. Strojové učení laboratory Gerstner Gerstnerova laboratoř katedra kybernetiky České vysoké učení technické v Praze Daniel Novák Poděkování: Filip Železný

Shrnutí minulé přednášky Rozhodování s neurčitostí, zavedení ztrátové funkce vede na minimalizaci Bayesovského rizika, ilustativní příklad na sdružené pravděpodobnosti - p.novák a příprava večeře Klasifikaci je speciální případ rozhodování s neurčitostí V případě ztrátové funkce l 01 (d, s) Bayesovská klasifikace: klasifikuj do třídy s, pro kterou platí arg max s P (s x). Bayesovský klasifikátor má nejmenší riziko (klasifikační chybu) mezi všemi klasifikátory. Klasifikace je založena na znalosti P (s x). Často neznáme P (s x) nebo P ( x, s), pouze změřená i.i.d data. Je velmi težké odhadnout P ( x, s) s rostoucí dimenzí příznaků x. Prokletí dimenzionality není případem, kdy x jsou statisticky nezávislé. Často známe tvar pravděpodobnosti, P ( x s), z dat musíme odhadnout neznámý parametr s. Tedy s je funkcí x [zavedeme metodu maximalní věrohodnosti]. Pro klasifikaci můžeme použít i neparametrické metody - metoda nejmenšího souseda. pojmy generalizace, přeučení, výběr parametrů klasifikátoru

Statistické rozhodování: shrnutí Zadány: Množina možných stavů: S Množina možných rozhodnutí: D Ztrátová funkce: zobrazení l : D S R (reálná čísla) Množina možných hodnot příznaku X Pravděpodobnostní rozložení příznaku za daného stavu P (x s), x X, s S. Definujeme: Strategie: zobrazení δ : X D Riziko strategie δ při stavu s S: R(δ, s) = x l(s, δ(x))p (x s) MiniMaxová úloha: Dále zadána: množina přípustných strategíı. Úloha: nalézt optimální strategii δ = arg min δ max s S R(δ, s) Bayesovská úloha: Dále zadáno: pravděpodobnostní rozdělení stavů P (s), s S. Dále definujeme: střední riziko strategie δ: r(δ) = s R(δ, s)p (s) Úloha: nalézt optimální strategii δ = arg min δ r(δ) Řešení: δ (x) = arg min d s l(d, s)p (s x)

Známá forma pravděpodobnostního rozdělení Předpokládáme, že P ( x s) má známou formu a z trénovacích dat je třeba odhadnout jen jeho parametry. Tedy: P ( x s) = φ( x, s, θ 1, θ 2,... ), kde φ je známá funkce a θ i jsou neznámé parametry. Př.: normální hustota pravděpodobnosti, φ( x, s, θ 1, θ 2,... ) = N(x, µ, σ), θ 1 = µ, θ 2 = σ: N(x, µ, σ) = 1 σ 2π exp (x µ)2 2σ 2 Ústřední limitní věta: Součet mnoha náhodnodných proměnných s jakkýmikoliv rozděleními se řídí rozdělením, které se bĺıží normálnímu. Uvažujeme-li jediný reálný skalární příznak, předpoklad normálního rozdělení zní, že pro každou třídu s je podmíněná hustota x: p(x s) = N(x, µ s, σ s ) Parametry rozdělení se často zapisují v podmínkové části: p(x s, µ s, σ s ) = N(x, µ s, σ s )

Normální rozdělení Též Gaussovské

Diskriminační funkce Za předpokladu normálního rozdělení postupujeme při Bayesovské klasifikace následovně: kde arg max s = arg max s = arg max s p(s x, µ s, σ s ) = arg max s 1 σ s 2π exp (x µ s) 2 = arg max s 2σ 2 s ( 1 2 ln σ2 s 1 2σ 2 s a s = 1 2σ 2 s 1 2 ln σ2 s 1 2 p(x s, µ s, σ s )p(s) = arg max p(x s, µ s, σ s )p(s) p(x) s ( 1 p(s) = arg max ln exp (x µ s) 2 s σ s 2π 2σs 2 (x µ s ) 2 ln 2π+ + ln p(s) } {{ } lze vypustit 2σ 2 s ) ( ) x 2 2xµ s + µ 2 s + ln p(s) b s = µ s σ 2 s = arg max s c s = 1 2 ln σ2 s µ2 s 2σ 2 s + ln p(s) Tímto je definována kvadratická diskriminační funkce pro každé s S, ) p(s) a s x 2 + b s x + c s g s (x) = a s x 2 + b s x + c s Použití: pro zadané x, klasifikuj do max s g s (x).

Kvadratická diskriminace (Duda, Hart, Stork: Pattern Classification) Dvě třídy: černá (s1) a červená (s2). Černá křivka vede body, v nichž g s1( x) = g s2 ( x). Tato křivka je hranicí rozhodnutí mezi třídami s1 a s2.

Normální rozdělení, stejné σ pro všechny třídy Jednoduchý případ: stejné směrodatné odchylky σ. Příklad: s = {muž, žena}, x = výška. Protože s σ s = σ, je možné další zjednodušení max s P (s x, µ s, σ) = max s x2 } 2σ {{ 2+ } lze vypustit kde b s = µ s and c σ 2 s = µ2 s + ln P (s). 2σ 2 Nyní je diskriminační funkce lineární: 1 2σ 2 ( 2xµs µ 2 s ) + ln P (s) = max (b s x + c s ) s g s (x) = b s x + c s

Mnoharozměrný případ [bonusová látka] Mnoharozměrný případ ( x je n-rozměrný reálný vektor, x R n ) 1 N( x, µ, Σ) = [ (2π)n det(σ) exp 1 ] 2 ( x µ)t Σ ( x µ) σ 1,1 σ 2,1... σ n,1 σ Σ = 1,2 σ 2,2... σ n,2...... kovariační matice: σ i,j = (x i µ i )(x j µ j ) σ i,i = σi 2 σ 1,n σ 2,n... σ n,n Předpoklad normálního rozdělení: p( x s, µ, Σ) = N( x, µ s, Σ s ) pro každou třídu s. Kvadratická diskriminační funkce gs (x) = x t A s x+ b t s x+c s kde A s = 1 2 Σ 1 s bs = Σ 1 s µ s c s = 1 2 µt sσ 1 s µ s 1 2 ln det(σ s) + ln P (s) Zvláštní případ: s Σ s = Σ: Lineární diskriminační funkce g s (x) = b t s x + c s kde bs = Σ 1 s µ s c s = 1 2 µt sσ 1 s µ s + ln P (s)

Příklad hranice ( Σ 1 2 0 1 = 0 1/2 hranice pro dvourozměrný případ [ ] [ 3 1 µ 1 =, Σ 6 1 = 2 0 ] [ ] [ ] 3 2 0, µ 0 2 2 =, Σ 2 2 = 0 2 apriorní pravděpodobnosti p(s 1 ) = p(s 2 ) = 0.5 hranici dostaneme, když g 1 ( x) = g 2 ( x) = x2 1 3x 2 18.69 tedy x 2 = 0.187x 2 1 1.125x 1 + 3.8925 ) and ( Σ 1 1/2 0 2 = 0 1/2 We assume equal prior probabilities, P (ω 1 )=P(ω 2 )=0.5, and substitute these into the general form for a discriminant, Eqs. 64 67, setting g 1 (x) =g 2 (x) to obtain the decision boundary: ). [ ] 2 0 [ 1 2 0 ], x 2 =3.514 1.125x 1 +0.1875x Σ 1 1 = 2 1. 0 1 a Σ 1 2 = This equation describes a parabola with vertex at ( 2 0 1 3 1.83). Note that despite the 2 fact that the variance in the data along the x 2 direction for both distributions is the same, the decision boundary does not pass through the point ( 3 2), midway between the means, as we might have naively guessed. This 4 x2 is 2 4 + 3x because for the ω 1 distribution, 1 the probability distribution is squeezed in the x 1 -direction more so than for the ω 2 distribution. Because the overall prior probabilities are the same (i.e., the integral over space of the probability density), the distribution is increased along the x 2 direction (relative to that for the ω 2 distribution). Thus the decision boundary lies slightly 2 x 2 3.12 = x1 2 x2 2 4 + 6x 1 + lower than the point midway between the two means, as can be seen in the decision boundary. 10 x 2 7.5 5 µ 1 2.5-2 2 4 6 8 10 x 1-2.5 µ 2 The computed Bayes decision boundary for two Gaussian distributions, each based Kvadratická diskriminační onfunkce four data points. g s(x) = x t A s x + b t sx + c s kde A s = 1 2 Σ 1 s bs = Σ 1 s µ s c s = 1 2 µt sσ 1 s µ s 1 ln det(σs) + ln P (s) 2 -

Lineární vs. Kvadratická diskriminace Vlevo: lineární diskriminace v R 2. Body x, kde s = arg max s g s ( x) pro dané s tvoří konvexní oblasti s hranicemi po částech lineárními. Vpravo: kvadratická diskriminace v R 2. Body x, kde s = arg max s g s ( x) pro dané s tvoří konvexní oblasti s hranicemi po částech kvadratickými. -

Carl Friedrich Gauss (1777-1855) Matematický genius, podle některých autorů patří mezi tři největší matematiky - Archimedes, Newton, Gauss Matematika je královnou vědy a teorie čísel je královnou matematiky. O jeho schopnostech kolují mnohé historky, např. v 7 letech řešil úlohu součtu čísel od 1 do 100 aritmetickou posloupností 50 dvojic 1 + 100 = 101 = 2 + 99 = 101 = 3 + 98 = 101, tedy 50 101 = 5050

Učení: Maximální věrohodnost Předpoklad normální hustoty p( x s): jak lze využít v učení? Namísto odhadu neznámé hustoty rozdělení p odhadujeme parametry normálního rozdělení p( x s, µ, Σ) Tedy odhadujeme µ s a Σ s pro každou třídu s. Maximální věrohodnost: ze zadaného vzorku x 1, x 2,... x m třídy s, najdi (ˆ µ s, ˆΣ s ) = arg max p( x 1, x 2,... s, µ, Σ) µ,σ m m = arg max p( x i s, µ, Σ) = arg max ln p( x i s, µ, Σ) µ,σ µ,σ i=1 tj. maximalizuj věrohodnost toho, že vzorek byl generován ze třídy s s parametry µ, Σ. Řešení je ve shodě s intuicí: ˆ µ s = 1 m x i m i=1 ˆΣs = 1 m i=1 m ( x i ˆ µ s )( x i ˆ µ s ) t Tedy: vypočítej střední hodnotu vzorku a průměr m matic ( x i ˆ µ s )( x i ˆ µ s ) t. Toto pro všechny třídy s. i=1

Předpoklad 4: lineární forma klasifikátoru Předpokládejme binární klasifikační problém S = {s 1, s 2 }, x je n-dimenzionální příznak { s1, pokud g( x) > 0; Zde postačí jedna diskriminační funkce g( x): klasifikuj y = s 2, jinak. Motivace: za předpokladu normálního rozdělení, pokud Σ s1 = Σ s2, g( x) je lineární, tj. g( x) = b t x + c. Namísto odhadu µ, Σ s a následného výpočtu b and c můžeme odhadovat b, c přímo ze zadaného vzorku D = {( x 1, y 1 ), ( x 2, y 2 )... ( x m, y m )}. ( ( Požadujeme b t x i + c) > 0 pokud y i = s 1 a b t x i + c) < 0 jinak. ( Totéž, jako požadovat b t z i + c) > 0 pro všechna z i, kde z i = x i pokud y i = s 1 a z i = x i jinak. Formálně, necht z 0 i = 1 i a w = [ b, c] (přidejme c jako poslední složku w). Nyní můžeme jednoduše psát g( z) = w t z a požadovat w t z i > 0 pro všechna z i. Necht J( w) = z i M w t z i kde M je množina všech nesprávně klasifikovaných z i.

Perceptron J( b, c) je vždy nezáporná. Pokud J( w) = 0, tak všechny příklady v D jsou správně klasifikovány a D je lineárně separabilní. Chceme najít minimum J( w). J( w) je po částech lineární. Pro hledání minima lze použít gradientního algoritmu. Gradientní algoritmus: přibližuj se k minimu pomocí malých diskrétních krorků v R n+1 ve směru proti gradientu J( w). ( J( w) (J( w)) =, J( w),... J( w) ) = z w 1 w 2 w n+1 z i M Perceptronový gradientní algoritmus: 1. k = 0. Zvol náhodně w. 2. k k + 1 3. w w + η(k) z i M k z 4. pokud z i M k z > θ jdi na 2 5. vrat w η - rychlost učení, θ - mez přijatelné chyby. Příklad pro w R 2, J( w) na svislé ose.

Percepton II Sjednocení terminologie se cvičením - rozšíření na K tříd Necht η =1, g s (x) = w s t x + b s, s = 1... K w 2 = w 2 + x, b 2 = b 2 + 1, pokud x má patřít do třídy s = 2, váhy pro správnou třídu posíĺım w 4 = w 4 x, b 4 = b 4 1, x bylo vyhodnoceno jako třída s = 4, váhy pro špatnou třídu oslabím grafické znázornění rozhodovací hranice (změna symbolů) y( x) = w t x + w 0, y( x a ) = y( x b ) x a a x b leží na rozhodovací hranici, tedy w t ( x a x b ) = 0) w je ortonormální na rozhodovací hranici, ω 0 (b) je posunutí [Bishop]

Percepton - grafické znázornění učení grafické znázornění [Bishop]

Perceptron: lineární diskriminace Perceptron je využíván obecně pro úlohy lineární klasifikace, nejen za předpokladu normálně rozdělených příznaků. Je-li zadaný vzorek dvou tříd lineárně separabilní, perceptronový algoritmus skončí v konečném čase s nulovou chybou (pro θ = 0 a dostatečně malé η(k)). Vzorek lineárně neseparabilní v R n může být separabilní po transformaci do R n n > n. Např. pro x R n, T ( x) = Schema perceptronu [x(1),..., x(n), x }{{} 2 (1), x(1)x(2), x(1)x(3),... x 2 (n)] = x Tj. přidány kvadratické členy. Lineární diskriminace v transformovaném prostoru odpovídá nelineární (zde kvadratické) diskriminaci v původním prostoru R n. Lineární diskriminační metody, jako je perceptron, mohou být tedy pomocí tranformace využity i pro hledání nelineární diskriminace. DEMO - iterace rozhodovací hranice ve 2D případu Lineárně problém neseparabilní

Percepton - historie Frank Rosenblatt - HW realizace perceptonu v roce 1958 Učení jednoduchých písmen a tvarů - inspirace neuronovými sítěmi v mozku Světla osvětlují objekt, foceno na pole 20 x 20 cadmium-sulfádových buněk, dostáváme tedy obrázek o 400 pixelech Přepojovací deska - možnost různé konfigurace vstupů Adaptivní váhy - potenciometr ovládáný elektrickým motorem - automatické nastavování vah učícím algoritmem Implementace na počítačí Mark 1 (Hardvard-IBM spolupráce) - 765000 součastek, 16 m dlouhý 2.4 m vysoký, 2 m široký, 3 operace za sekundu, násobení trvalo 6 vteřin

Neuronové sítě Umělá neuronová sít je distribuovaný výpočetní systém sestávající z dílčích podsystémů (neuronů), který je inspirován neurofyziologickými poznatky o struktuře a činnosti neuronu a nervových systému živých organizmů, a který je ve vetší či menší míře realizuje. Neurony mezi sebou komunikují na základě přenášení elektrického potenciálu pomocí synapsí Schopnost extrahovat a reprezentovat závislosti v datech, které nejsou zřejmé Schopnost učit se, schopnost zevšeobecňovat Schopnost rešit silně nelineární úlohy

Definice neuronu Neuron je základní výpocetní jednotkou neuronových sítí Vstupy x i jsou váhovány parametry ω i net = n i=1 x iω i + w 0 = n i=0 Zavedení nelinearity do neuronové sítě y = f(net), nejčastěji sigmoid třida, např, tanh či 1 logistická funkce y = f(net) = 1+exp λ net Přednášky pokračují v angličtině na základě kapitoly 6 knihy Duda, Pattern Classification

Rozhodovací strom V mnoha aplikacích strojového učení vyžadujeme klasifikační model přímo srozumitelný člověku. Příkladem srozumitelného modelu je rozhodovací strom. Souvislý graf bez smyček s ohodnocenými uzly a hranami. Označme i-tou složku příznaku příkladu jako x(i). Uzly stromu (mimo listy) odpovídají nějaké složce příznaku x(i). Má-li x(i) konečný obor hodnot: každá hrana vycházející z toho uzlu odpovídá jedné hodnotě z tohoto oboru hodnot. Uzel označený x(i) a z něho vycházející hrana s označená hodnotou v definují podmínku x(i) = v Je-li x(i) reálné: každá hrana vycházející z toho uzlu odpovídá nějakému reálnému intervalu. Např pro dvě hrany: (, h) a (h, ), kde h je nějaká prahová hodnota. Uzel označený x(i) a z něho vycházející hrana s označená intervalem I definují podmínku x(i) I

Diskriminační hranice rozhodovacího stromu Diskriminační hranice rozhodovacího stromu pro reálné příznaky jsou nadroviny rovnobězné s osami. Příklad pro binární klasifikaci v R 2 :

Priklad Mam 9 pozitivnich a 5 negativnich prikladu

Konstrukce rozhodovacího stromu Pro tvorbu rozhodovacího stromu z trénovacích dat se užívá strategie rozděl a panuj. Zavedeme míru informace info([2, 3]) = 0.971,info([4, 0]) = 0.0, info([3, 2]) = 0.971 info([2, 3], [4, 0], [3, 2]) = ( 5 14 )0.971 + ( 4 14 )0 + ( 5 14 )0.971 = 0.693.

Konstrukce rozhodovacího stromu Zavedeme informacni zisk V korenu stromu: info([9, 5]) = 0.94 Informacni zisk gain(outlook) = info([9, 5]) info([2, 3], [4, 0], [3, 2]) = 0.940 0.693 = 0.247 bits, gain(temperature) = 0.029 bits,gain(humidity) = 0.152 bits,gain(windy) = 0.048 bits Vybereme atribut outlook!

Konstrukce rozhodovacího stromu Pokracujeme v konstrukci gain(temperature) = 0.571 bits, gain(humidity) = 0.971 bits,gain(windy) = 0.020 bits vybereme humidity

Volba testu v uzlu rozhodovacího stromu Jak formalizovat pojem nejčistšího rozdělení množiny příkladů? Lze využít pojmu entropie. Uvažujme vzorek D, γ tříd, a relativními četnostmi p 1, p 2,... p γ příkladů v těchto třídách. Entropie vzorku je potom H(D) = γ p i log 2 p i H(D) je minimální (H(D) = 0), pokud jsou všechny příklady ve stejné třídě. Maximální H(D) = log 2 γ, pokud je rozdělení rovnoměrné. i=1 Heuristika pro výběr x(i) pro nový uzel: snížení entropie po přidání tohoto uzlu. Pro x(i) s konečným oborem: G(D, i) = H(D) v j Obor(x(i)) D j D H(D j) D j = množina příkladů z D, pro něž platí x(i) = v j Součet entropíı v následných uzlech vážený relativní velikostí jim přiřazených množin.

Shlukovaní Nemam k dispozici trenovaci mnozinu Hledam v datech prirozene shluky (a) k-means, (b) fuzzy shlukovani, (c) pravdebodobnosti, napr. Gaussovska smes (EM algortimus), (d) hierarchicke shlukovani (dendogram)

K-means 1. begin inicializuj k, µ 1, µ 2,..., µ k 2. do klasifikuj vzorek podle nejblizsiho µ i 3. prepocitej µ i 4. until zadna zmena µ i 5. return µ 1, µ 2,..., µ k 6. end

Hierarchicke shlukovani agglomerative: bottom-up merging divisive: top-down splitting 1. begin inicializuj k, ˆk n, D i {X i }, i = 1,..., n 2. do ˆk = ˆk 1 3. Najdi nejblizsi shluky, napr. D i a D j 4. until k = ˆk 5. return k shluku 6. end d min (x, x ) = min x x, x D i, x D i

Hierarchicke shlukovani - priklad