Robustní architektura vícevrstvých

Podobne dokumenty
Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

Numerické metody minimalizace

vystavit agenta realitě místo přepisování reality do pevných pravidel

Obsah: Rozhodovací stromy. Úvod do umělé inteligence 11/12 2 / 41. akce

TGH01 - Algoritmizace

1 Soustava lineárních rovnic

Numerické metody 8. května FJFI ČVUT v Praze

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

Kristýna Kuncová. Matematika B3

MATEMATIKA 3 NUMERICKÉ METODY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Paralelní implementace a optimalizace metody BDDC

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

Numerické metody a statistika

Inverzní Z-transformace

Reprezentace dat. BI-PA1 Programování a Algoritmizace I. Ladislav Vagner

TGH01 - Algoritmizace

Design of Experiment (DOE) Petr Misák. Brno 2016

Edita Pelantová, katedra matematiky / 16

z geoinformatických dat

Úvodní informace. 18. února 2019

Vybrané kapitoly z matematiky

Kristýna Kuncová. Matematika B2 18/19

Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

Uvod Symbolick e modelov an ı Neuronov e s ıtˇ e Shrnut ı Modelov an ı myˇslen ı Radek Pel anek

Kombinatorika a grafy I

IEL Přechodové jevy, vedení

Geometrická nelinearita: úvod

Matematická analýza II pro kombinované studium. Konzultace první a druhá. RNDr. Libuše Samková, Ph.D. pf.jcu.cz

Laplaceova transformace

Internet a zdroje. (Zdroje na Internetu) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17.

GENETICKÉ PROGRAMOVÁNÍ S JAZYKEM BRAINFUCK

Rovnice proudění Slapový model

Přehled aplikací matematického programovaní a

Kristýna Kuncová. Matematika B2 18/19. Kristýna Kuncová (1) Vzorové otázky 1 / 36

Funkce zadané implicitně. 4. března 2019

Cauchyova úloha pro obyčejnou diferenciální rovnici

Paradoxy geometrické pravděpodobnosti

Modelov an ı v yukov ych dat, obt ıˇznosti probl em u Radek Pel anek

Představení projektu

(2) Funkce. Kristýna Kuncová. Matematika B2. Kristýna Kuncová (2) Funkce 1 / 25

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Úvod 1 / 32

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Vladimír Ulman Centre for Biomedical Image Analysis. 10th October, 2007 FI MU, Brno

(13) Fourierovy řady

Linea rnı (ne)za vislost

5. a 12. prosince 2018

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Kristýna Kuncová. Matematika B2

x2 + 2x 15 x 2 + 4x ) f(x) = x 2 + 2x 15 x2 + x 12 3) f(x) = x 3 + 3x 2 10x. x 3 + 3x 2 10x x 2 + x 12 10) f(x) = log 2.

Klasifikační metody (nejen) pro molekulárně genetická data

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra kybernetiky

Matematika (KMI/PMATE)

Michal Mašek Genetické algoritmy v evoluční robotice

K SAMOSTATNÉ MODULOVÉ SCHODY MONTÁŽI. asta

Matematika 2, vzorová písemka 1

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 3. listopadu Filip Železný (ČVUT) Vytěžování dat 3. listopadu / 1

Ústav teorie informace a automatizace. Tato prezentace je k dispozici na:

Periodický pohyb obecného oscilátoru ve dvou dimenzích

kontaktní modely (Winklerův, Pasternakův)

Metody, s nimiž se seznámíme v této kapitole, lze použít pro libovolnou

DFT. verze:

Chyby, podmíněnost a stabilita

Expresivní deskripční logiky

ČVUT v Praze, katedra geomatiky. zimní semestr 2014/2015

Co nám prozradí derivace? 21. listopadu 2018

Průvodce studiem V této kapitole se budeme zabývat diferenciálním počtem pro funkce více

Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn

Zadání: Vypočítejte hlavní momenty setrvačnosti a vykreslete elipsu setrvačnosti na zadaných

Statistika (KMI/PSTAT)

nejsou citlivé na monotónní transformace vstupů, dost dobře se vyrovnají s nerelevantními vstupy.

POLIURETANOWE SPRĘŻYNY NACISKOWE. POLYURETHANOVÉ TLAČNÉ PRUŽINY

3. Problémy s omezujícími podmínkami (CSP Constraint Satisfaction Problems)

Univerzita Palackého v Olomouci

Shrnutí. Vladimír Brablec

Zásuvný modul QGISu. QGIS plugin pro práci s katastrálními daty

podle přednášky doc. Eduarda Fuchse 16. prosince 2010

Biosignál II. Lékařská fakulta Masarykovy univerzity Brno

Logický agent, výroková logika

GENETICKÉM PROGRAMOVÁNÍ

ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016

BRNO UNIVERSITY OF TECHNOLOGY FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA MASTER S THESIS AUTHOR

Platforma pro analýzu, agregaci a vizualizaci otevřených dat souv

Zpracování digitalizovaného obrazu (ZDO) - Klasifikace

Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!

ZÁVĚREČNÁ KONFERENCE Poslanecká sněmovna PČR Praha MEZINÁRODNÍ DOTAZNÍKOVÉ ŠETŘENÍ ANKIETY MIEDZYNARODOWE

Lucie Mazurová AS

Lucie Mazurová. AS a

(např. ve Weka) vycházejí z tzv. matice záměn (confusion matrix): + TP true positive FN false negative - FP false positive TN true negative

Diferenciální rovnice základní pojmy. Rovnice se

Obsah: CLP Constraint Logic Programming. Úvod do umělé inteligence 6/12 1 / 17

Statistika (KMI/PSTAT)

Transkrypt:

Robustní architektura vícevrstvých neuronových sítí Zuzana Petříčková reitezuz@fjfi.cvut.cz Katedra softwarového inženýrství, Fakulta jaderná a fyzikálně inženýrská, ČVUT v Praze Na základě dizertační práce: Umělé neuronové sítě a jejich využití při extrakci znalostí Školitel: doc. RNDr. Iveta Mrázová, CSc. Škoĺıcí pracoviště: Katedra teoretické informatiky a matematické logiky MFF UK. Obhájeno: 22. září 2015. Seminář strojového učení a modelování, 24.listopadu 2016 v Praze

Obsah prezentace 1 Úvod Motivace Vrstevnaté neuronové sítě Optimalizace struktury 2 Navržený framework Rychlá extrakce znalostí (SCGIR) Zjednodušení vnitřní struktury BP-sítě (SCGS) Rychlé učení s vytvořením jednodušší a jasnější vnitřní struktury sítě (SCGSA) 3 Experimenty Rychlost učení a schopnost zobecňovat Stabilita metod Vytvoření jednoduché a transparentní struktury během učení Citlivostní analýza 4 Závěr 2 / 37

Robustnı architektura vı cevrstvy ch neuronovy ch sı tı U vod Motivace Motivace: Data ze Sve tove Banky Indika tory sve tove ho vy voje, 162 zemı, 2001-2006, 956 pr ı kladu 3 / 37

Úvod Vrstevnaté neuronové sítě Vrstevnaté neuronové sítě typu zpětného šíření (BP-sítě) Klasický výpočetní model (Werbos, 1975), (Parker, 1985), (LeCun, 1985), (Rumelhart, 1986). Gradientní metody učení (např. back-propagation): Učení na základě množiny trénovacích příkladů. Adaptace vah a prahů proti směru gradientu chybové funkce. zpětně: směrem od výstupní vrstvy ke vstupní. 4 / 37

Úvod Vrstevnaté neuronové sítě Vrstevnaté neuronové sítě typu zpětného šíření (BP-sítě) Klasický výpočetní model (Werbos, 1975), (Parker, 1985), (LeCun, 1985), (Rumelhart, 1986). Hlavní klady Jednoduchý, výpočetně poměrně nenáročný model. Jsou schopné dobře aproximovat neznámou funkci. Dobře zobecňují. Zdroj poznatků pro složitější modely neuronových sítí - např. hluboké neuronové sítě (LeCun, 1998), (Hinton, 2009), rekurentní modely. 5 / 37

Úvod Vrstevnaté neuronové sítě Vrstevnaté neuronové sítě typu zpětného šíření (BP-sítě) Klasický výpočetní model (Werbos, 1975), (Parker, 1985), (LeCun, 1985), (Rumelhart, 1986). Hlavní nevýhody: Učení je poměrně pomalé. Nebezpečí přeučení. Mají tendenci vytvářet složitou a netransparentní vnitřní strukturu. Vysoká citlivost k volbě parametrů (architektura, algoritmus učení, trénovací data,...) 6 / 37

Úvod Optimalizace struktury Optimalizace architektury a detekce důležitých vstupních příznaků Často řešeno odděleně odlišná motivace. Proč hledat důležité vstupní příznaky? Součást předzpracování dat. Efektivnější výpočet modelu. Zvýšení přesnosti modelu např. v případě nedostatku trénovacích dat. Porozumění datům. BP-sítě umožňují řešit obě úlohy zároveň. Proč optimalizovat architekturu? Součást algoritmu učení. Lepší predikce a zobecňování. Jednodušší a transparentnější struktura modelu. Porozumění tomu, jak model počítá. 7 / 37

Úvod Optimalizace struktury Optimalizace architektury a detekce důležitých vstupních příznaků Jak optimalizovat strukturu BP-sítě? Metody hrubé síly Vyzkoušet různé architektury a vybrat tu s nejmenší chybou po naučení. Nevýhody: Časová náročnost, obtížné učení a stabilita minimálního modelu, citlivost k lokálním minimům chybové funkce. Prořezávání Regularizace Konstrukční metody Pravděpodobnostně-optimalizační metody (genetické algoritmy, simulované žíhání,...)... 8 / 37

Úvod Optimalizace struktury Optimalizace architektury a detekce důležitých vstupních příznaků Prořezávání - základní algoritmus: 1 Nauč BP-síť s dostatečně velkou počáteční topologíı. 2 Dokud je chyba sítě větší určená mez nebo dokud klesá: 1 Spočítej relevanci skrytých neuronů nebo hran. 2 Odstraň z BP-sítě nejméně relevantní část(i). 3 Přeuč model. Otázky: Jak vyhodnotit důležitost jednotlivých neuronů/hran míra relevance. Jak rozpoznat, které části sítě prořezat heuristiky. 9 / 37

Úvod Optimalizace struktury Optimalizace architektury a detekce důležitých vstupních příznaků Regularizační techniky Přidávají k chybové funkci další členy: E = c mse E mse + c F F + c G G +... Weight decay (Werbos, 1988) Jednoduchý penalizační člen: E = E mse + β i w i 2 Vynucuje snížení absolutní hodnoty všech vah. Cíle: Usnadnit odstranění hran s malými vahami. Zlepšit schopnost modelu zobecňovat. E... chybová funkce, E mse... střední kvadratická odchylka mezi skutečným a požadovaným výstupem, i... index přes všechny váhy w v BP-síti, 0 < β << 1... konstantní parametr. 10 / 37

Navržený framework Cíle mé dizertační práce Vytvořit obecný framework pro učení BP-sítí s důrazem na: 1 Rychlou extrakci znalostí (SCGIR). 2 Zjednodušení vnitřní struktury BP-sítě (SCGS). 3 Oba předchozí cíle zároveň (SCGSA). (Rychlé učení s vytvořením jednodušší a jasnější vnitřní struktury sítě) 11 / 37

Navržený framework Rychlá extrakce znalostí I. Rychlá extrakce znalostí (SCGIR) Učící algoritmus by měl: Být rychlý a robustní k volbě parametrů Metoda škálovaných konjugovaných gradientů (SCG) 1 1-1 1-1 0 0 výstupní vrstva skryté vrstvy vstupní vrstva Vytvořit transparentní strukturu sítě a umožnit tak jednoduchou interpretaci získaných znalostí Metoda vynucované kondenzované interní reprezentace (IR) Vytvořit jednoduchý model, který dobře zobecňuje Učení s nápovědou Prořezávání 12 / 37

Navržený framework Rychlá extrakce znalostí I. Rychlá extrakce znalostí (SCGIR) Metoda škálovaných konjugovaných gradientů (Moller, 1993) w 1 w 1 w 1 w w 1 w w 2 w 2 (a) BP (b) SCG Velmi rychlý a robustní algoritmus, s malým počtem volitelných parametrů. 13 / 37

Navržený framework Rychlá extrakce znalostí I. Rychlá extrakce znalostí (SCGIR) Metoda vynucované kondenzované interní reprezentace (IR) (Mrázová, Wang, 2007) Regularizační technika - vynucuje vytvoření transparentní a stabilní vnitřní struktury BP-sítě Chybová funkce: E = E mse + c F F F = (1 + y j,p ) s (1 y j,p ) s yjp 2 p Aktivity skrytých neuronů bĺızké hodnotám: 1... NE 1... ANO 0... NEVÍM (bez odpovědi) Usnadňuje prořezání nadbytečných skrytých neuronů. j 1 1-1 1 0.12 0.1 0.08 f(x) 0.06 0.04 0.02 0 1 0.5 0 0.5 1 x -1 0 0 s = 3 výstupní vrstva skryté vrstvy vstupní vrstva 14 / 37

Navržený framework Rychlá extrakce znalostí I. Rychlá extrakce znalostí (SCGIR) Prořezávání skrytých neuronů založené na interní reprezentaci (Sietsma, Dow, 1991) 1 Naučení modelu 2 Nalezení a odstranění / sloučení skrytých neuronů s: uniformní reprezentací navzájem identickou reprezentací navzájem inverzní reprezentací 3 Přepočtení vah (doučení není třeba) 1 1-1 1-1 0 0 výstupní vrstva skryté vrstvy vstupní vrstva 15 / 37

Navržený framework Zjednodušení vnitřní struktury BP-sítě (SCGS) II. Zjednodušení vnitřní struktury BP-sítě (SCGS) Citlivostní koeficienty jako míra relevance: S uv,p... jak velký má malá změna u-tého vstupu sítě vliv na v-tý výstup: S uv,p = y v,p = S kv,p S uk,p = f (ξ v,pj )w kv S uk,p x u,p Použití k k Identifikace a prořezání nadbytečných vstupních a skrytých neuronů. y v Oslabování celkové citlivosti sítě v průběhu učení. u... vstupy sítě, v... výstupy sítě, k... neurony v poslední skryté vrstvě, x... aktuální vstup, y... aktuální výstup, p... trénovací příklady, S uv,p... citlivostní koeficient, w kv... váha z k do v, S kv,p = f (ξ v,pj )w kv f (ξ v,p)... derivace přenosové funkce f (ξ) 1 0.5 0 4 2 0 2 4 ξ x u 16 / 37

Navržený framework Zjednodušení vnitřní struktury BP-sítě (SCGS) II. Zjednodušení vnitřní struktury BP-sítě (SCGS) Strategie prořezávání Iterativní opakování následujících kroků: 1 Učení (doučení) modelu 2 Prořezávání Prořezání skrytých neuronů založené na interní reprezentaci. Prořezání vstupních a skrytých neuronů na základě spočtených citlivostních koeficientů. Heuristické pravidlo pro prořezání neuronu i ve vrstvě L: y v max p mean v S iv,p < δ L = βmean {v,j,p} S jv,p. v... výstupy sítě, j... neurony ve vrstvě L, p... trénovací příklady, S iv,p = yv,p... cilivostní koeficient, y i,p y i,p... výstup neuronu i pro trénovací příklad p, 0 < β 1... konstantní parametr. x u 17 / 37

Navržený framework Zjednodušení vnitřní struktury BP-sítě (SCGS) II. Zjednodušení vnitřní struktury BP-sítě (SCGS) Analytická metoda pro snižování citlivosti sítě (SC) Snižování citlivosti výstupů sítě ke vstupům. Chybová funkce: H = E mse + c G G G = 1 2 p u v S 2 uv,p, S uv,p = y v,p x u,p = k Minimalizace G v průběhu učení je velmi výpočetně náročná. f (ξ v,p ) w kv S uk,p y v u... vstupy sítě, v... výstupy sítě, k... neurony v poslední skryté vrstvě, x... aktuální vstup, y... aktuální výstup, p... trénovací příklady, S uv,p... citlivostní koeficient, w kv... váha z k do v, f (ξ v,p)... derivace přenosové funkce f (ξ) 1 0.5 0 4 2 0 2 4 ξ x u 18 / 37

Navržený framework Zjednodušení vnitřní struktury BP-sítě (SCGS) II. Zjednodušení vnitřní struktury BP-sítě (SCGS) Kombinace následujících technik: + Metoda škálovaných konjugovaných gradientů (SCG) + Regularizace: + Metoda vynucované kondenzované interní reprezentace (IR) + Analytická metoda pro snižování citlivosti sítě (SC) + Prořezávání založené na: + citlivostní analýze + interní reprezentaci Chybová funkce H = E mse + c F F + c G G E mse... standarní chybová funkce (MSE), F... chybová funkce regulující interní reprezentaci, G... nově navržená chybová funkce pro snižování citlivosti, c F, c G... parametry regulující váhu E, F and G v H. 19 / 37

Navržený framework Rychlé učení s vytvořením jednodušší a jasnější vnitřní struktury sítě (SCGSA) Aproximativní metoda pro snižování citlivosti sítě (SCA) Alternativní vzorec pro citlivostní chybovou funkci: G = 1 ( ) 2 yv,p G 1 = 1 2 2 p u v x u,p p u v ( ) 2 yv,p x u,p x u,p... x u,p s přidaným 0.1-1% náhodným šumem, y u,p... výstup sítě pro x u,p, x u,p = x u,p x u,p a y v,p = y v,p y v,p. Příklad: ( ) y 2 ( ) y 2 G 1 + = x 1 x 2 y y y = f(x 1,x 2 ) = (y y ) 2 (x 1 x 1 )2 + (y y ) 2 (x 2 x 2 )2 x 2 x 2 x 1 x 1 20 / 37

Navržený framework Rychlé učení s vytvořením jednodušší a jasnější vnitřní struktury sítě (SCGSA) Aproximativní metoda pro snižování citlivosti sítě (SCA) Příklad: Problém: y y y y = f(x 1,x 2 ) y = f(x 1,x 2 ) y x 2 x 2 x 1 x 1 x 1 x 1 x x 2 ~ 0 2 ( ) y 2 ( ) y 2 G 1 + = (y y ) 2 x 1 x 2 (x 1 x1 + (y y ) 2 )2 (x 2 x2 )2 malá hodnota jmenovatele velké problémy kvůli zaokrouhlení výsledku 21 / 37

Navržený framework Rychlé učení s vytvořením jednodušší a jasnější vnitřní struktury sítě (SCGSA) Aproximativní metoda pro snižování citlivosti sítě (SCA) Řešení: Alternativní vzorec pro citlivostní chybovou funkci: G 1 = 1 2 p u v ( yv,p x u,p ) 2 G 2 = 1 2 p v 2 y v,p u 2 x u,p Příklad: x u,p = x u,p xu,p a y v,p = y v,p yv,p. xu,p... xu,p s přidaným 0.1-1% náhodným šumem, yu,p... výstup sítě pro xu,p, G 2 2 y 2 x 1 + 2 x 2 = y y y = f(x 1,x 2 ) = x 2 ( y y ) 2 x 1 x 1 ( x 1 x1 )2 + ( x 2 x2 )2 x 2 22 / 37

Navržený framework Rychlé učení s vytvořením jednodušší a jasnější vnitřní struktury sítě (SCGSA) Rychlé učení s vytvořením jednodušší a jasnější vnitřní struktury sítě (SCGSA) Kombinace následujících technik: + Metoda škálovaných konjugovaných gradientů (SCG) + Regularizace: + Metoda vynucované kondenzované interní reprezentace (IR) + Aproximativní metoda pro snižování citlivosti sítě (SCA) + Prořezávání založené na: + citlivostní analýze + interní reprezentaci Chybová funkce H = E mse + c F F + c G G 1 E mse... standarní chybová funkce (MSE), F... chybová funkce regulující interní reprezentaci, G 1... nově navržená chybová funkce pro snižování citlivosti, c F, c G... parametry regulující váhu E, F and G 1 v H. 23 / 37

Experimenty Experimenty Testované vlastnosti: 1 Schopnost zobecňovat 2 Rychlost učení 3 Stabilita metod 4 Vytvoření jednoduché a transparentní struktury modelu Testovací data: Diskrétní data Binární sčítání a násobení 3-bitových čísel Spojitá data Světová Banka (Indikátory světového vývoje) Ke každé datové sadě jsme přidali 10-12 irelevantních (náhodně vygenerovaných) vstupních příznaků. Testovány různé počáteční topologie BP-sítí s jednou či dvěma skrytými vrstvami. 24 / 37

Experimenty Souhrnné výsledky experimentů Metoda Schopnost zobecňovat Rychlost Robustnost k parametrům Transparentnost Struktura SCG *** dobrá ***** rychlý ***** robustní * není vynucovaná * neprořezává SCGIR *** **** *** ***** *** srovnatelná s SCG nejvýše dvakrát pomalejší než SCG relativně citlivý k volbě c F silně vynucovaná pro větší hodnoty c F prořezávání skrytých neuronů SCGS ***** * ***** **** ***** lepší než SCG pro diskrétní data a více skrytých vrstev extrémně pomalá robustní k volbě c F a c G středně, ale stabilně vynucovaná prořezávání skrytých a vstupních neuronů SCGSA ***** **** ***** **** ***** lepší než SCG pro diskrétní data a více skrytých vrstev nejvýše dvakrát pomalejší než SCG robustní k volbě c F a c G středně, ale stabilně vynucovaná prořezávání skrytých a vstupních neuronů 25 / 37

Experimenty Rychlost učení a schopnost zobecňovat Robustnost k šumu v testovacích datech Průměrná chyba MSE na testovacích datech pro různé hodnoty šumu v datech: prumerna chyba (vyjadrena MSE(noise t )) 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 Binarni scitani 18 12 4 SCG SCG* SCGIR SCGS SCGSA 0 1 2 3 4 5 6 7 8 9 10 procento sumu prumerna chyba (vyjadrena MSE(noise t )) 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 Binarni nasobeni 18 12 12 6 SCG SCG* SCGIR SCGS SCGSA 0 1 2 3 4 5 6 7 8 9 10 procento sumu prumerna chyba (vyjadrena MSE(noise t )) 0.07 0.065 0.06 0.055 0.05 0.045 Svetova Banka 35 50 5 SCG SCG* SCGIR SCGS SCGSA 0 1 2 3 4 5 6 7 8 9 10 procento sumu Přidání p-procentního šumu k testovacímu příkladu x q : x noise i,q = x i,q (1 + 0.01 p rand({0, 1, 1})) 26 / 37

Experimenty Vytvoření jednoduché a transparentní struktury během učení Vytvoření jednoduché a transparentní struktury během učení Binární sčítání Typická BP-síť naučená pomocí SCG 0 0 0-1 -1.0 1 2 3 4-0.4 1.0 1.0 0.5 2.3-1.0-1.1 1.0-1.0-1.3 0.1 1.5 1.7 2.0 1.3 0.5 0.6 5-1.4-1.4 12-1.5-1.6-3.6-5.4-6.6-2.8-2.8-3.7-3.6-1.6 1.6 5.1 4.0 0.3-1.4-2.4-2.8 2.5 9-1.7 6 1 7 2 3-1.7-1.0 0.5 4 8 10 11-0.5-0.4-2.0-3.8-1.0-0.5-2.1-0.5 2.3-2.3-2.2-2.3-2.2-2.1 2.3-2.0-0.6-1.0 2.4-2.3 1 4 2 5 3 6 Typická BP-síť naučená pomocí SCGSA 7-18 0 0 0-1 1 2 3 4-1.0 1.0 2.8-2.6-2.8-2.8-3.0-3.0-11.2-11.1 8-10.4-10.4 4 1-1.0 1.0-1.0-1.0-1.0-1.6-1.7 1.5 0.9 0.9-2.8 0.2 11 2.5 2.6 9 10 3 12 1 2 4 5 6 7 2.8 5.4 2.8 3.1 2.2 0.9 2.8 2.7-3.0 5.0 3.1 5.1 5.4-5.4-3.1-5.5-5.3-5.6-2.8-2.9 5 2-1.0-1.0 6 3 7-18 27 / 37

Experimenty Vytvoření jednoduché a transparentní struktury během učení Vytvoření jednoduché a transparentní struktury během učení Binární násobení Typická BP-síť naučená pomocí SCG ABCD AC( ~B v ~D) &~( ) (BC v AD) ABCD 0.4 0.3-1.4-1.0 BD 1.4 0.2 1.3-1.4 0.2-1.1-0.2-1.0-1.0 2.7-1.6-2.6-1.1 1.1 1.6-2.0-1.3-0.3-1.3-1.8-0.8 3.2-1.0 1.8-1.7 0.7-2.7 1.4-1.1-2.7 2.2 1.3-0.7-1.7 2.2 0.7 0.5-2.5 1.9 1.9-1.5 0.7 0.7 0.6-1.6 1.3 A B C D Typická BP-síť naučená pomocí SCGS (BC v AD) & ABCD AC( ~B v ~D) ~( ) ABCD 0.3 0.0-1.3-1.0 BD 1.2 1.1-1.3-1.0-1.0-1.1 ( ABCD) ~ BCvAD ~ ( ) AC( ~B v ~D) ~( ACvBD) 3.3-2.0-2.7-1.6-1.5 1.2-2.5-1.7 3.2 1.8-2.6-1.6-2.2 0.9 ~ ( BCv(AB ~C D) ) AC -2.7 BD 1.2-1.3 (AD ~C )v( ~A BCD) -2.7 2.2 AD~C 1.3-0.8-1.2 2.2 0.7-2.2-1.9 2.0 2.1-1.6 1.3 A B C D 28 / 37

Experimenty Vytvoření jednoduché a transparentní struktury během učení Data ze Světové Banky - Indikátory světového vývoje (25 indikátorů, 162 zemí, 2001-2006, 956 trénovacích vzorů) Vstupní příznaky: 1 PPP konverzní faktor, místní měna vzhledem k mezinárodnímu $ 2 Míra PPP konverzního faktoru vzhledem k oficiálnímu směnnému kurzu 3 Aktuální hodnota státního dluhu, % vývozu 4 Krátkodobý dluh, % státního dluhu 5 Krátkodobý dluh, % vývozu 6 Celkový státní dluh, % HNP 7 Giniho koeficient 8 Příjem státního rozpočtu z daní, % HDP 9 Daně z příjmu, zisku a investic, % příjmů 10 Daně ze zboží a služeb, % příjmů 11 Daně z mezinárodního obchodu, % příjmů 12 Sociální příspěvky, % příjmů 13 Výdaje na výzkum a školství, % HDP 14 Deflace HDP, % růstu 15 Porodnost, celkem (počet porodů na ženu) 16 Vlastníci pevných a mobilních telefonů, na 1000 obyvatel 17 Růst HDP, ročně, % 18 Vývoz vyspělých technologíı, % vývozu průmyslového zboží 19 Inflace, deflace HDP (ročně, %) 20 Uživatelé internetu, na 1000 obyvatel 21 Průměrná délka života, roky 22 Výdaje na zbrojení, % HDP 23 Počet obyvatel pod hranicí národní míry chudoby, % obyvatelstva 24 Aktuální hodnota státního dluhu, % HNP 25 Celkový státní dluh, % vývozu 26..35 Náhodně generované vstupní příznaky Výstupní příznaky: 1..5 Příjmová skupina (Vysoký příjem & člen OECD, Vysoký příjem, Vyšší střední příjem, Nižší střední příjem, Nízký příjem) 29 / 37

Experimenty Citlivostní analýza Citlivostní analýza Průměrná citlivost naučených BP-sítí S u = mean {v,p} S uv,p, průměr přes 100 různých inicializací před prořezáním: po prořezání: 35 SCGSA SCG 35 SCGSA SCG 30 30 25 25 index vstupního příznaku 20 15 10 index vstupního příznaku 20 15 10 5 5 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 průměrná citlivost výstupů sítě na daný příznak 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 průměrná citlivost výstupů sítě na daný příznak 30 / 37

Experimenty Citlivostní analýza Citlivostní analýza Pořadí nejdůležitějších příznaků podle citlivostních koeficientů: pořadí SCG SCGSA význam (SCGSA) 1. 7 20 Uživatelé internetu 2. 20 7 Giniho koeficient 3. 13 13 Výdaje na výzkum a školství 4. 16 11 Daně z mezinárodního obchodu 5. 21 21 Průměrná délka života 6. 11 16 Vlastníci mobilních či pevných telefonů 7. 10 10 Daně ze zboží a služeb 8. 15 15 Porodnost......... 23. 8 19 Inflace, deflace HDP 24. 19 8 Příjem rozpočtu z daní 25. 17 17 Růst HDP 26..35. 26..35 26..35 Náhodně generované příznaky Průměrná citlivost naučených BP-sítí po prořezání: index vstupního příznaku 35 30 25 20 15 10 5 SCGSA SCG 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 průměrná citlivost výstupů sítě na daný příznak 31 / 37

Experimenty Citlivostní analýza Citlivostní analýza Průměrná citlivost pro jednotlivé příjmové skupiny (metoda SCGSA, po prořezání) průměrná citlivost výstupů sítě na daný příznak 0.25 0.2 0.15 0.1 0.05 High income OECD High income nonoec Upper middle income Lower middle income Low income 0 0 5 10 15 20 25 30 35 index vstupního příznaku 1. 7. Giniho koeficient 7. Giniho koeficient 20. Uživatelé internetu 2. 21. Průměrná délka života 20. Uživatelé internetu 13. Výdaje na výzkum a školství 3. 16. Vlastníci telefonního 18. Vývoz vyspělých technologíı 6. Celkový státní dluh připojení 32 / 37

Závěr Závěr Navržený framework zlepšuje schopnost naučených BP/sítí: 1 Dobře zobecňovat. 2 Rychle vytvořit jednodušší a transparentní strukturu neuronové sítě. 3 Adekvátně prořezat vstupní i skryté neurony. Nižší citlivost modelu k volbě parametrů a k šumu v datech. Snadnější interpretace extrahovaných znalostí. Nejlepší výsledky pro diskrétní data a pro sítě s více skrytými vrstvami. 33 / 37

Závěr Závěr Děkuji Vám za pozornost. 34 / 37

Podrobnější výsledky Rychlost učení a schopnost zobecňovat Binární sčítání topologie 18-12-4 method c F c G n A c R c A MSE(noise t) imp sensitivity epochs time(s) SCG 20 14 3 0.035 ± 0.028 1.0 0.09 ± 0.12 1413.7 5.9 SCG* 23 25 13 0.031 ± 0.035 1.1 0.09 ± 0.09 1312.9 7.1 SCGIR 10 6 25 39 18 0.036 ± 0.036 1.0 0.08 ± 0.11 1429.2 11.2 SCGS 5 10 7 22 33 11 0.028 ± 0.022 1.3 0.07 ± 0.07 1636.3 420.5 SCGS 10 6 5 10 7 21 39 11 0.027 ± 0.020 1.3 0.07 ± 0.06 1625.7 420.1 SCGSA 10 5 22 29 12 0.028 ± 0.020 1.2 0.09 ± 0.09 1308.6 8.4 SCGSA 10 6 10 5 19 31 10 0.029 ± 0.022 1.2 0.08 ± 0.08 1378.3 13.5 Binární násobení topologie 18-12-12-6 method c F c G n I c c n MSE(noise t) imp sensitivity epochs time(s) SCG 33 51 0 0.297 ± 0.189 1.0 0.28 ± 0.22 601.0 6.1 SCG* 38 49 0 0.300 ± 0.210 1.0 0.26 ± 0.22 601.0 10.4 SCGIR 10 6 35 50 0 0.301 ± 0.191 1.0 0.28 ± 0.23 601.0 10.5 SCGS 5 10 7 34 55 11 0.098 ± 0.057 3.0 0.14 ± 0.09 601.0 3733.8 SCGS 10 6 5 10 7 31 53 10 0.097 ± 0.060 3.0 0.14 ± 0.09 601.0 3620.7 SCGSA 5 10 5 30 38 19 0.085 ± 0.064 3.5 0.11 ± 0.06 601.0 8.3 SCGSA 10 6 5 10 5 27 42 16 0.079 ± 0.053 3.8 0.10 ± 0.06 600.8 13.3 Nejlepší výsledky pro binární násobení. Výrazné zvýšení schopnosti zobecňovat a snížení citlivosti k šumu v datech. Časová složitost SCGSA je srovnatelná s SCG. 35 / 37

Podrobnější výsledky Rychlost učení a schopnost zobecňovat Světová banka topologie 35-50-5 method c F c G MSE(noise t) imp sensitivity epochs time(s) SCG 0.063 ± 0.017 1.00 0.09 ± 0.03 969.0 23.6 SCG* 0.062 ± 0.017 1.02 0.09 ± 0.03 974.5 32.0 SCGIR 10 6 0.063 ± 0.017 1.00 0.09 ± 0.03 968.0 48.5 SCGS 10 5 0.051 ± 0.016 1.23 0.05 ± 0.02 964.0 2036.0 SCGS 10 6 10 5 0.050 ± 0.016 1.25 0.05 ± 0.02 968.4 1984.2 SCGSA 2 10 4 0.054 ± 0.015 1.17 0.06 ± 0.03 978.2 35.2 SCGSA 10 6 2 10 4 0.055 ± 0.017 1.14 0.06 ± 0.02 945.4 59.0 Světová banka topologie 35-15-15-5 method c F c G MSE(noise t) imp sensitivity epochs time(s) SCG 0.064 ± 0.038 1.00 0.05 ± 0.02 305.1 15.6 SCG* 0.057 ± 0.025 1.11 0.04 ± 0.02 305.9 18.5 SCGIR 10 6 0.064 ± 0.037 0.99 0.05 ± 0.02 304.5 24.2 SCGS 10 5 0.050 ± 0.021 1.26 0.03 ± 0.01 302.7 53188.0 SCGSA 10 4 0.052 ± 0.022 1.23 0.04 ± 0.01 303.4 19.8 SCGSA 10 6 10 4 0.054 ± 0.025 1.19 0.04 ± 0.02 304.1 28.5 Průměrná finální topologie byla 23-23-5 a 21-12-8-5. Obdobné výsledky pro obě topologie. Výrazné zvýšení schopnosti zobecňovat a snížení citlivosti k šumu v datech. Časová složitost SCGSA je srovnatelná s SCG. 36 / 37

Podrobnější výsledky Stabilita metod Robustnost metod k volbě parametrů c F a c G Binární sčítání topologie 18-12-4 method c F c G n I c R MSE(noise t) imp sensitivity epochs time(s) SCGS 10 6 5 10 7 87 39 0.027 ± 0.020 1.3 0.07 ± 0.06 1625.7 420.1 SCGS 10 [ 7, 5] 5 10 [ 8, 6] 92 36 0.022 ± 0.011 1.6 0.07 ± 0.07 1527.2 271.8 SCGSA 10 6 10 5 84 31 0.029 ± 0.022 1.2 0.08 ± 0.08 1378.3 13.5 SCGSA 10 [ 7, 5] 10 [ 6, 4] 93 31 0.023 ± 0.010 1.5 0.08 ± 0.06 1341.0 12.5 Binární násobení topologie 18-12-12-6 method c F c G n I c MSE(noise t) imp sensitivity epochs time(s) SCGS 10 6 5 10 7 31 53 0.097 ± 0.060 3.1 0.14 ± 0.09 601.0 3620.7 SCGS 10 [ 7, 5] 5 10 [ 8, 6] 35 56 0.098 ± 0.065 3.0 0.14 ± 0.13 601.0 3438.1 SCGSA 10 6 5 10 5 27 42 0.079 ± 0.053 3.8 0.10 ± 0.06 600.8 13.3 SCGSA 10 [ 7, 5] 5 10 [ 6, 4] 49 42 0.080 ± 0.052 3.7 0.11 ± 0.07 946.7 13.7 Světová banka topologie 35-50-5 method c F c G n I MSE(noise t) imp sensitivity epochs time(s) SCGS 10 6 10 5 88 0.050 ± 0.016 1.25 0.05 ± 0.02 968.4 1984.2 SCGS 10 [ 7, 5] 10 [ 6, 4] 59 0.054 ± 0.016 1.16 0.05 ± 0.02 987.0 1704.0 SCGSA 10 6 2 10 4 97 0.055 ± 0.017 1.14 0.06 ± 0.02 945.4 59.0 SCGSA 10 [ 7, 5] 2 10 [ 5, 3] 86 0.058 ± 0.016 1.09 0.07 ± 0.03 990.6 48.3 37 / 37