(např. ve Weka) vycházejí z tzv. matice záměn (confusion matrix): + TP true positive FN false negative - FP false positive TN true negative

Podobne dokumenty
Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

Numerické metody minimalizace

1 Soustava lineárních rovnic

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Linea rnı (ne)za vislost

Co nám prozradí derivace? 21. listopadu 2018

5. a 12. prosince 2018

Kristýna Kuncová. Matematika B2 18/19

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

Funkce zadané implicitně. 4. března 2019

Numerické metody 8. května FJFI ČVUT v Praze

Matematika 2, vzorová písemka 1

Úvodní informace. 18. února 2019

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Edita Pelantová, katedra matematiky / 16

Kristýna Kuncová. Matematika B3

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

Kristýna Kuncová. Matematika B2

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Vybrané kapitoly z matematiky

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 3. listopadu Filip Železný (ČVUT) Vytěžování dat 3. listopadu / 1

nejsou citlivé na monotónní transformace vstupů, dost dobře se vyrovnají s nerelevantními vstupy.

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!

Diferenciální rovnice základní pojmy. Rovnice se

TGH01 - Algoritmizace

(13) Fourierovy řady

Inverzní Z-transformace

heteroskedasticitě Radim Navrátil, Jana Jurečková Katedra pravděpodobnosti a matematické statistiky, MFF UK, Praha

kontaktní modely (Winklerův, Pasternakův)

Stochastické modelování v ekonomii a financích Konzistence odhadu LWS. konzistence OLS odhadu. Předpoklady pro konzistenci LWS

Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn

Cauchyova úloha pro obyčejnou diferenciální rovnici

Výzvy, které před matematiku staví

Lineární algebra - iterační metody

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

TGH01 - Algoritmizace

podle přednášky doc. Eduarda Fuchse 16. prosince 2010

x2 + 2x 15 x 2 + 4x ) f(x) = x 2 + 2x 15 x2 + x 12 3) f(x) = x 3 + 3x 2 10x. x 3 + 3x 2 10x x 2 + x 12 10) f(x) = log 2.

Geometrická nelinearita: úvod

Reprezentace dat. BI-PA1 Programování a Algoritmizace I. Ladislav Vagner

z geoinformatických dat

Určitý (Riemannův) integrál a aplikace. Nevlastní integrál. 19. prosince 2018

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

ROBUST January 19, Zdeněk Fabián Ústav informatiky AVČR Praha

Matematika (KMI/PMATE)

Kristýna Kuncová. Matematika B2 18/19. Kristýna Kuncová (1) Vzorové otázky 1 / 36

Obsah. Limita posloupnosti a funkce. Petr Hasil. Limita posloupnosti. Pro a R definujeme: Je-li a < 0, pak a =, a ( ) =. vlastní body.

Martin Pergel. 26. února Martin Pergel

Lineární regrese. Skutečné regresní funkce nejsou nikdy lineární! regrese extrémně užitečná jak svou koncepcí, tak prakticky.

Obsah: Rozhodovací stromy. Úvod do umělé inteligence 11/12 2 / 41. akce

vystavit agenta realitě místo přepisování reality do pevných pravidel

GEM a soustavy lineárních rovnic, část 2

Matematika III Stechiometrie stručný

(2) Funkce. Kristýna Kuncová. Matematika B2. Kristýna Kuncová (2) Funkce 1 / 25

Co to znamená pro vztah mezi simultánní a marginální hustotou pravděpodobnosti f (x) (pravděpodobnostní funkci p(x))?

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Úvod 1 / 32

(a). Pak f. (a) pro i j a 2 f

Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17

Rovnice proudění Slapový model

Paradoxy geometrické pravděpodobnosti

Operace s funkcemi [MA1-18:P2.1] funkční hodnota... y = f(x) (x argument)

Okrajový problém podmínky nejsou zadány v jednom bodu nejčastěji jsou podmínky zadány ve 2 bodech na okrajích, ale mohou být

7. Aplikace derivace

POLIURETANOWE SPRĘŻYNY NACISKOWE. POLYURETHANOVÉ TLAČNÉ PRUŽINY

Petr Hasil. c Petr Hasil (MUNI) Nekonečné řady MA III (M3100) 1 / 187

DFT. verze:

Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Vysvětlování modelovacích chyb 133 / 156

Kybernetika a umělá inteligence. Gerstnerova laboratoř katedra kybernetiky. Daniel Novák

Metody, s nimiž se seznámíme v této kapitole, lze použít pro libovolnou

Internet a zdroje. (Zdroje na Internetu) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17.

Lineární algebra II, přednáška Mgr. Milana Hladíka, Ph.D.

ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016

David Nádhera Kontinuace implicitně zadané křivky

MATEMATIKA 1 ALEŠ NEKVINDA. + + pokud x < 0; x. Supremum a infimum množiny.

Ústav teorie informace a automatizace. Tato prezentace je k dispozici na:

Paralelní implementace a optimalizace metody BDDC

Indukowane Reguły Decyzyjne I. Wykład 8

MATEMATIKA 3 NUMERICKÉ METODY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Anotace. Martin Pergel,

Kombinatorika a grafy I

Lucie Mazurová. AS a

Definice Řekneme, že PDA M = (Q,Σ,Γ,δ,q 0,Z 0,F) je. 1. pro všechna q Q a Z Γ platí: kdykoliv δ(q,ε,z), pak δ(q,a,z) = pro všechna a Σ;

1 Definice. A B A B vlastní podmnožina. 4. Relace R mezi množinami A a B libovolná R A B. Je-li A = B relace na A

Průvodce studiem V této kapitole se budeme zabývat diferenciálním počtem pro funkce více

Západočeská univerzita v Plzni Fakulta aplikovaných věd. Katedra matematiky. Semestrální práce - matematika a byznys

Numerické metody KI/NME. Doc. RNDr. Jiří Felcman, CSc. RNDr. Petr Kubera, Ph.D.

Obsah. Petr Hasil. (konjunkce) (disjunkce) A B (implikace) A je dostačující podmínka pro B; B je nutná podmínka pro A A B: (A B) (B A) A (negace)

Obsah Atributová tabulka Atributové dotazy. GIS1-2. cvičení. ČVUT v Praze, Fakulta stavební, katedra mapování a kartografie

Matematika 1 Jiˇr ı Fiˇser 24. z aˇr ı 2013 Jiˇr ı Fiˇser (KMA, PˇrF UP Olomouc) KMA MAT1 24. z aˇr ı / 52

Matematika prˇedna sˇka Lenka Prˇibylova 7. u nora 2007 c Lenka Prˇibylova, 200 7

Ústav teorie informace a automatizace RESEARCH REPORT. Pavel Boček, Karel Vrbenský: Implementace algoritmu MIDIA v prostředí Google Spreadsheets

Zadání: Vypočítejte hlavní momenty setrvačnosti a vykreslete elipsu setrvačnosti na zadaných

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

6 Dedekindovy řezy (30 bodů)

Statistika (KMI/PSTAT)

Matematika pro ekonomiku

Transkrypt:

Ohodnocení úspěšnosti klasifikace Základní statistiky uváděné při ohodnocování modelů pro klasifikaci (např. ve Weka) vycházejí z tzv. matice záměn (confusion matrix): správná třída \ klasifikace + - + TP true positive FN false negative - FP false positive TN true negative Česky se říká správně/falešně positivní/negativní.

správná třída \ klasifikace + - + TP true positive FN false negative - FP false positive TN true negative Základní míry ohodnocení modelu celková správnost accurancy Acc = TP+TN TP+TN+FP+FN chyba error Err = FP+FN TP+TN+FP+FN přesnost precision Prec = TP TP+FP úplnost, sensitivita recall, sensitivity Sensit = Rec = TP TP+FN specificita specificity Speci f icity = TN TN+FP

Různá cena chyby Raději zařadím spam do normální pošty než normální email do spamu. L kk matice ceny za chybnou klasifikaci k jakožto k. Predikce na listech se změní tak (minimalizuje cenu chyb), v listu klasifikujeme k(m) = argmin k l L lk ˆp ml. Můžeme tvořit strom uzpůsobený na ceny L kk. Pro vícekategoriální klasifikaci modifikujeme Gini = k =k L kk ˆp mk ˆp mk. Pro dvouhodnotovou vážíme prvky třídy k L kk krát. Pro porovnání modelů s proměnnou cenou chyb slouží křivka ROC (obrázek).

Cena za pozorování Gain 2 (S, X j ) Cost(X j ) učení robota, nakolik objekty mohou být uchopeny nebo Medicínská diagnostika. 2 Gain(S,X j) 1 (Cost(X j ) + 1) w

Pravidla ze stromů Ze stromu můžeme vytvořit pravidla napsáním pravidla pro každý list. Ta pravidla ale můžeme ještě zlepšit tím, že uvažujeme každý atribut v každém pravidle a zjistíme, jestli jeho vynecháním pravidlo nezlepšíme (tj. nezlepšíme chybu na validačních datech resp. pesimistický odhad chyby na trénovacích datech). To funguje celkem dobře, ale učí se dlouho, protože pro každý atribut musíme projít všechny trénovací příklady. Algoritmy tvořící pravidla přímo bývají rychlejší. Výsledná pravidla setřídíme podle klesající úspěšnosti.

Stromy pro numerickou predikci Listy stromů obsahují numerické hodnoty, rovné průměru trénovacích příkladů v listu. pro výběr atributu k dělení zkoušíme všechny řezy, vybíráme maximální zlepšení střední kvadratické chyby. Tyto stromy se nazývají také regresní stromy, protože statistici nazývají regrese proces pro predikci numerických hodnot. Můžeme i kombinovat regresní přímku a rozhodovací strom tím, že v každém uzlu bude regresní přímka takový strom se nazývá model tree.

CART Hledá proměnnou j a bod řezu s na oblasti R 1 ( j, s) = {X X j s} a R 2 ( j, s) = {X X j > s} takové, aby minimalizovaly [ min j,s = min c1 ] (y i c 1 ) 2 + min c2 (y i c 2 ) 2 x i R 1 ( j,s) x i R 2 ( j,s) vnitřní minima jsou průměry, tj. ĉ 1 = avg(y i x i R 1 ( j, s)).

Prořezávání v CART Naučme strom T 0 až k listům s málo (5 ti) záznamy. Vytvoříme hierarchii podstromů T T 0 postupným sléváním listů dohromady. Listy stromu T o velikosti T indexujeme m, list m pokrývá oblast R m, definujeme: ĉ m = 1 N m Q m (T) = 1 N m x i R m y i, x i R m (y i ĉ m ) 2.

Definujeme kriterium k optimalizaci: C α (T) = T m=1 N m Q m (T) + α T. Vyjdeme z T 0, postupně slijeme vždy dva listy, které způsobí nejmenší nárůst m N m Q m (T), až nám zbyde jen kořen. Dá se ukázat, že tato posloupnost obsahuje T α optimální stromy pro daná α. α = 0 neprořezáváme, necháme T 0, pro α = necháme jen kořen, vhodné α zvolíme na základě krosvalidace, ˆα minimalizuje krosvalidační chybu RSS, vydáme model Tˆα.

Krosvalidace (Crossvalidation) Snažím se odhadnout chybu z více, než jednoho testu, tím dostat stabilnější odhad. Rozdělím (stratifikovaně) data na daný počet stejných částí. Jednu část zadržím pro učení, na ostatních naučím model a otestuji schovanou částí. Tohle provedu s každou částí, jednotlivé chyby zprůměruji. Zkušenost velí dělit na 10 částí, tenfold crossvalidation.

Slabší stránky CART nestabilita stromů: pro trochu jiná data mohu dostat naprosto jiný strom; lze zmírnit průměrováním přes více stromů (bagging) řezy pouze kolmo na osy; dalo by se rozšířit, ale pak se hůře optimalizuje výsledek není hladký, ale schodovitý. Pokud předpokládám hladkou cílovou funkci, je to divné. MARS bude hladký (Multivariate Adaptive Regression Splines ) špatně podchytí aditivní strukturu Y = c 1 I(X 1 < t 1 ) + c 2 I(X 2 < t 2 ) +... + c k I(X k < t k ) + ɛ po prvním dělení bude v různých větvích dělit různě, globální vzorec z toho nikdo nevykouká a nejspíš ani strom neodhalí (pro nedostatek dat u listů). MARS toto zvládne.

Pravidla pro regresi Hon na maxima PRIM = Bump Hunting Patient Rule Induction Method iterativně hledáme oblasti, kde je Y velké; pro každou oblast vytvoříme pravidlo CART po cca. log 2 (N) 1 řezech přijde o data, PRIM si může dovolit cca. log(n) log(1 α). Pro N = 128 a α = 0.1 to je 6 a 46 resp. 29, protože počty pozorování musí být celé. Např. XOR s matoucími nezávislými dimenzemi PRIM hravě zvládne, CART má problém.

PRIM Pravidla pro regresi 1. Vezmi všechna data a prostor obsahující všechna data, α = 0.05 nebo 0.10 2. Najdi X j a jeho horní či dolní okraj, jehož oříznutím o α 100 procent pozorování vede k největší střední hodnotě zbytku. 3. Opakuj 2. dokud zbývá aspoň 10 pozorování. 4. Rozšiř oblast v libovolném směru, pokud to zvýší střední hodnotu. 5. Vyber z oblastí generovaných 1 až 4 tu (ten počet pozorování), který je nejlepší při krosvalidaci. Nazvěme odpovídající oblast B 1. 6. Odstraníme data v B 1 z databáze a opakujeme 2 až 5, vytvoříme B 2, atd., dokud je libo.

Lineární regrese Cíl: aproximovat funkci f (x), kde x je n rozměrný vektor, pomocí lineární funkce ŷ = ˆ β 0 + n x j ˆβ j j=1 Není li X T X singulární, dostaneme jednoznačné řešení ˆβ = (X T X) 1 X T y a odhad ŷ pro dané x i je ŷ(x i ) = x T i ˆβ.

MARS Multivariate Adaptive Regression Splines Zobecnění postupné lineární regrese i zobecnění CART model je tvaru f (X) = β 0 + M β m h m (X) m=1 kde h m (X) je funkce z C nebo součin libovolného počtu funkcí z C pro pevně zvolená h m spočteme koeficienty β m standardní lineární regresí (minimalizujeme součet kvadrátů reziduí) funkce h m volíme postupně.

MARS pokračování Pro každou vstupní proměnnou a každý datový bod vytvoříme dvojici funkcí báze (x t) + a (t x) +, kde to + značí nezápornou část, zápornou ořízneme nulou. Tuto dvojici nazýváme zrcadlový pár. máme tedy množinu funkcí C = {(X j t) +, (t X j ) + } t {x1, j,x 2, j,...,x N, j }, j=1,2,...,p tedy 2Np funkcí, jsou li všechny vstupní hodnoty různé.

MARS volba báze Začneme s konstantní h 0 = 1, funkci přidáme do modelu M = {h 0 }. Uvažujeme součin každé funkce z modelu M s každou dvojicí v C ˆβ M+1 h l (X)(X j t) + + ˆβ M+2 h l (X)(t X j ) +, h l M vybereme ten, co nejvíce sníží trénovací chybu (vždy dopočteme regresní koeficienty ˆβ). Opakujeme, dokud M nemá předem daný počet členů protože je model často přeučený, zas ubíráme, vždy tu, co nejméně zvýší trénovací chybu. Máme tak posloupnost modelů ˆf λ pro různé počty parametrů λ.

vybereme tu, co minimalizuje zobecněnou krosvalidaci (abychom se nemuseli namáhat krosvalidaci počítat) GCV(λ) = N i=1(y i ˆf λ (x i )) 2 (1 M(λ)/N) 2. M(λ) je počet efektivních parametrů v modelu, tj. počet funkcí h m (označím r) plus počet uzlů K (tj. použitých datových bodů t), zkušenost radí násobit počet uzlů třikrát, tj. M(λ) = r + 3K.

I když se nezdá, souvisí. Z MARSu CART místo po částech lineární zvolíme po částech konstantní funkce I(x t > 0) a I(x t 0) Pokud funkci modelu h m použijeme pro násobení, tak jí z modelu vymažeme, aby nešla znovu použít. Tím zajistíme, že se použije maximálně pro jedno násobení, tj. jen pro jedno dělení a máme binární strukturu stromu. a máme CART.

Strukturované regresní modely Minimalizaci RSS splňuje nekonečně mnoho funkcí interpolujících naměřené hodnoty to ale nebývá vhodné pro predikci (velká očekávaná a testovací chyba). Omezíme přípustné funkce, ve zvolené třídě jednoznačné řešení. Chceme jednoduché funkce, které nejsou divoké na malých okolích ve vstupním prostoru. Velikost okolí bývá parametrem, čím větší, tím větší restrikce.

Penalizace za složitost Míru chyby RSS přímo upravíme penaltou J( f ) za složitost modelu PRSS( f ; λ) = RSS( f ) + λj( f ) např. Hřebenová (ridge) regrese penalizuje nenulové složky β ˆβ ridge = argmin β N i=1(y i β 0 p x i j β j ) 2 + λ j=1 kubický vyhlazující splajn pro jednorozměrný vstup PRSS( f ; λ) = N i=1 (y i f (x i )) 2 + λ p β 2 j. j=1 [ f (x)] 2 dx. λ 0 řídí velikost penalty, λ = 0 vede k interpolaci, λ = dovolí jen lineární funkce x.

Jádrové funkce a lokální regrese Nejbližší sousedi tvoří skokovou aproximující funkci, není to hezké a je to zbytečné specifikujme okolí jádrovou funkcí K λ (x 0, x) určující, nakolik je x v okolí x 0, např. gausovské jádro K λ (x 0, x) = 1 [ λ exp x x 0 2 ] 2λ y pak odhadneme ˆf (x 0 ) = N i=1 K λ(x 0, x i )y i N i=1 K λ(x 0, x i )

nebo naučíme parametrickou funkci f θ minimalizací RSS RSS( f θ, x 0 ) = N K λ (x 0, x i )(y i f θ (x i )) 2 i=1 f θ = θ 0 vede na odhad viz výše (Nadaraya Watson) f θ = θ 0 + θ 1 x dává lokálně lineární regresní model. Nejbližší sousedi mají jádrovou funkci závislou na datech, je 1 ve vzdálenosti menší či rovné vzdálensti ktého souseda, jinak nula.

Báze funkcí a slovníkové metody vezmeme bázi funkcí {h m (x)} a modelujeme f jako jejich lineární kombinaci, θ značí parametry: f θ (x) = M θ m h m (x) m=1 vejde se sem lineární a polynomiální expanze splajny a součiny tenzorů báze radiálních funkcí jednovrstvé dopředné neuronové sítě a další.