Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 3. listopadu Filip Železný (ČVUT) Vytěžování dat 3. listopadu / 1

Podobne dokumenty
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

Linea rnı (ne)za vislost

Statistika (KMI/PSTAT)

Matematika 2, vzorová písemka 1

Edita Pelantová, katedra matematiky / 16

1 Soustava lineárních rovnic

Lineární algebra - iterační metody

Statistika (KMI/PSTAT)

Úvodní informace. 18. února 2019

Kristýna Kuncová. Matematika B3

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Kybernetika a umělá inteligence. Gerstnerova laboratoř katedra kybernetiky. Daniel Novák

Matematika (KMI/PMATE)

Paralelní implementace a optimalizace metody BDDC

Kristýna Kuncová. Matematika B2

Indukowane Reguły Decyzyjne I. Wykład 8

DFT. verze:

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!

Funkce zadané implicitně. 4. března 2019

Zpracování digitalizovaného obrazu (ZDO) - Klasifikace

9. Praktyczna ocena jakości klasyfikacji

Kristýna Kuncová. Matematika B2 18/19

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Kombinatorika a grafy I

Numerické metody minimalizace

Lucie Mazurová. AS a

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

Matematika pro ekonomiku

Lucie Mazurová AS

Co to znamená pro vztah mezi simultánní a marginální hustotou pravděpodobnosti f (x) (pravděpodobnostní funkci p(x))?

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

GEM a soustavy lineárních rovnic, část 2

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

z geoinformatických dat

Krzywe ROC i inne techniki oceny jakości klasyfikatorów

Co nám prozradí derivace? 21. listopadu 2018

Matematika III Stechiometrie stručný

Ústav teorie informace a automatizace. Tato prezentace je k dispozici na:

kontaktní modely (Winklerův, Pasternakův)

NDMI002 Diskrétní matematika

Internet a zdroje. (Zdroje na Internetu) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17.

(např. ve Weka) vycházejí z tzv. matice záměn (confusion matrix): + TP true positive FN false negative - FP false positive TN true negative

Paradoxy geometrické pravděpodobnosti

nejsou citlivé na monotónní transformace vstupů, dost dobře se vyrovnají s nerelevantními vstupy.

Numerické metody 8. května FJFI ČVUT v Praze

MATEMATIKA 3 NUMERICKÉ METODY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

PA152,Implementace databázových systémů 2 / 25

Martin Dlask (KSI FJFI) 3. března 2016

Shrnutí. Vladimír Brablec

Design of Experiment (DOE) Petr Misák. Brno 2016

5. a 12. prosince 2018

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

podle přednášky doc. Eduarda Fuchse 16. prosince 2010

Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

Inverzní Z-transformace

Martin Pergel. 26. února Martin Pergel

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. rizik. Katedra pravděpodobnosti a matematické statistiky

Ocena dokładności diagnozy

Úvod do pravděpodobnosti a statistiky

Poslední úprava dokumentu: 7. května 2019

Stochastické modelování v ekonomii a financích Konzistence odhadu LWS. konzistence OLS odhadu. Předpoklady pro konzistenci LWS

Obsah: Rozhodovací stromy. Úvod do umělé inteligence 11/12 2 / 41. akce

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Zadání: Vypočítejte hlavní momenty setrvačnosti a vykreslete elipsu setrvačnosti na zadaných

PROGRAMECH JOSEF TVRDÍK ČÍSLO OBLASTI PODPORY: STUDIJNÍCH PROGRAMECH OSTRAVSKÉ UNIVERZITY REGISTRAČNÍ ČÍSLO PROJEKTU: CZ.1.07/2.2.00/28.

TGH01 - Algoritmizace

Geometrická nelinearita: úvod

Základní elektrotechnická terminologie,

ČVUT v Praze, katedra geomatiky. zimní semestr 2014/2015

Martin Branda. Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky

Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Vysvětlování modelovacích chyb 133 / 156

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

TGH01 - Algoritmizace

Lineární regrese. Skutečné regresní funkce nejsou nikdy lineární! regrese extrémně užitečná jak svou koncepcí, tak prakticky.

Biosignál II. Lékařská fakulta Masarykovy univerzity Brno

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

Určitý (Riemannův) integrál a aplikace. Nevlastní integrál. 19. prosince 2018

(2) Funkce. Kristýna Kuncová. Matematika B2. Kristýna Kuncová (2) Funkce 1 / 25

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Vybrané partie z kvantitativního řízení rizik - kreditní riziko

Plyny v dynamickém stavu. Jsou-li ve vakuovém systému různé teploty, nebo tlaky dochází k přenosu energie, nebo k proudění plynu.

Vybrané kapitoly z matematiky

Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn

Chyby, podmíněnost a stabilita

Západočeská univerzita v Plzni Fakulta aplikovaných věd. Katedra matematiky. Semestrální práce - matematika a byznys

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra kybernetiky

Matematický ústav UK Matematicko-fyzikální fakulta. Ukázky aplikací matematiky

(13) Fourierovy řady

Ústav teorie informace a automatizace RESEARCH REPORT. Pavel Boček, Karel Vrbenský: Implementace algoritmu MIDIA v prostředí Google Spreadsheets

Transkrypt:

Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 3. listopadu 2014 Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 1 / 1

Metafora pro tuto přednášku Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 2 / 1

Metafora pro tuto přednášku Zajímá nás, jak student umí látku. Chybovost: Err % chybných odpovědí na všechny možné otázky z dané látky Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 2 / 1

Statistický odhad Chybovost Err můžeme odhadnout zkouškou m vybraných otázek ze všech otázek látky Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 3 / 1

Statistický odhad Chybovost Err můžeme odhadnout zkouškou m vybraných otázek ze všech otázek látky Předpokládejme, že otázky jsou vybrány náhodně tzv. iid výběr: všechny z původního pr. rozdělení a na sobě nezávisle Spravedlivá zkouška Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 3 / 1

Nevychýlený odhad Výsledek zkoušky e je náhodná veličina s rozdělením P(e) Střední hodnota ē = e e P(e) Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 4 / 1

Nevychýlený odhad Výsledek zkoušky e je náhodná veličina s rozdělením P(e) Střední hodnota ē = e e P(e) ē = Err: e je nevychýleným odhadem Err Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 4 / 1

Statistický odhad Předpokládejme, že schválně vybíráme těžké otázky. Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 5 / 1

Vychýlený odhad ē Err: e je vychýleným odhadem Err Nespravedlivá zkouška Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 6 / 1

Výběr studenta Skupina studentů píše spravedlivou zkoušku Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 7 / 1

Výběr studenta Skupina studentů píše spravedlivou zkoušku Vybíráme náhodného studenta č. i s výsledkem zkoušky e i Je e i nevychýlený odhad Err i? Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 7 / 1

Výběr studenta Skupina studentů píše spravedlivou zkoušku Vybíráme náhodného studenta č. i s výsledkem zkoušky e i Je e i nevychýlený odhad Err i? ANO Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 7 / 1

Výběr studenta Skupina studentů píše spravedlivou zkoušku Vybíráme studenta č. j s nejlepším výsledkem zkoušky e j Je e j nevychýlený odhad Err j? Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 7 / 1

Výběr studenta Skupina studentů píše spravedlivou zkoušku Vybíráme studenta č. j s nejlepším výsledkem zkoušky e j Je e j nevychýlený odhad Err j? NE! Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 7 / 1

Výchylka zavedená výběrem Výběrem nejlepšího e j zavádíme výchylku! e j již není nevychýleným odhadem Err j přesto, že student j psal spravedlivou zkoušku Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 8 / 1

Výběr studenta Jak získat nevychýlený odhad pro již vybraného nejlepšího studenta? Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 9 / 1

Výběr studenta Jak získat nevychýlený odhad pro již vybraného nejlepšího studenta? Napíše novou zkoušku, otázky vybrány opět iid, nezávisle na předchozí zkoušce Její výsledek e j je nevychýleným odhadem E j Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 9 / 1

Analogie Student Klasifikátor Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 10 / 1

Analogie Student Chybovost studenta Err Minimalizovaná výběrem studenta nejlépe ovládajícího látku. V praxi obvykle nevíme, který to je. Klasifikátor Skutečná chyba klasifikátoru Err Minimalizovaná výběrem klasifikátoru maximalizující aposteriorní pravděpodobnost. V praxi obvykle nevíme, který to je. Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 10 / 1

Analogie Student Chybovost studenta Err Minimalizovaná výběrem studenta nejlépe ovládajícího látku. V praxi obvykle nevíme, který to je. Chyba u zkoušky e Podíl špatně zodpovězených otázek zkoušky. Nevychýlený odhad Err, pokud dle e nevybíráme Klasifikátor Skutečná chyba klasifikátoru Err Minimalizovaná výběrem klasifikátoru maximalizující aposteriorní pravděpodobnost. V praxi obvykle nevíme, který to je. Trénovací chyba e Podíl instancí chybně klasifikovaných instancí v trénovacích datech. Nevychýlený odhad Err, pokud dle e nevybíráme Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 10 / 1

Analogie Student Chybovost studenta Err Minimalizovaná výběrem studenta nejlépe ovládajícího látku. V praxi obvykle nevíme, který to je. Chyba u zkoušky e Podíl špatně zodpovězených otázek zkoušky. Nevychýlený odhad Err, pokud dle e nevybíráme Výběr studenta Klasifikátor Skutečná chyba klasifikátoru Err Minimalizovaná výběrem klasifikátoru maximalizující aposteriorní pravděpodobnost. V praxi obvykle nevíme, který to je. Trénovací chyba e Podíl instancí chybně klasifikovaných instancí v trénovacích datech. Nevychýlený odhad Err, pokud dle e nevybíráme Trénování (= výběr) klasifikátoru Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 10 / 1

Trénování výběr Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 11 / 1

Trénování výběr Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 11 / 1

Trénování výběr Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 11 / 1

Trénování výběr Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 11 / 1

Trénování výběr Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 11 / 1

Analogie Množství studentů, z nichž vybíráme Množství klasifikátorů, z nichž vybíráme. Obykle úměrné maximální složitosti klasifikátorů, kterou připouštíme Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 12 / 1

Analogie Nová zkouška pro nevychýlený odhad Err vybraného studenta Nová data, pro nevychýlený odhad skutečné chyby Err vybraného klasifikátoru Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 12 / 1

Analogie Počet otázek ve zkoušce Množství trénovacích dat Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 12 / 1

Testovací data Nová data pro nevychýlený odhad (tzv. testovací data) obvykle nemáme k dipozici Musíme použít část původních dostupných dat (a tím přijít kus trénovacích) Obvykle např. 70% vs. 30% Horší odhad: stále nevychýlený, ale větší rozptyl Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 13 / 1

Rozptyl odhadu Velký rozptyl: horší nevychýlený odhad Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 14 / 1

Rozptyl odhadu Malý rozptyl: lepší nevychýlený odhad Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 15 / 1

Křivka učení Populární pojetí Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 16 / 1

Křivka učení Skutečná přesnost 1 Err klasifikátoru v závislosti na množství trénovacích dat Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 16 / 1

Křivka učení Odhadnutná přesnost 1 e klasifikátoru (e na testovacích datech) Čím více trénovacích, tím méně testovacích, tím vyšší rozptyl e Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 16 / 1

Stratifikované dělení Např. pro data se třemi třídami Stejné poměry velikostí tříd v trénovacích i testovacích datech Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 17 / 1

Souhrn Předpokládejme, že všechny chyby jsou stejně drahé. Přednáška 2: Optimální je klasifikace dle maximální aposteriorní pravděpodobnosti P u p (y x). (u, p... n.v. třídy, resp. příznaků) Minimalizujeme tak skutečnou chybu Err Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 18 / 1

Souhrn Předpokládejme, že všechny chyby jsou stejně drahé. Přednáška 2: Optimální je klasifikace dle maximální aposteriorní pravděpodobnosti P u p (y x). (u, p... n.v. třídy, resp. příznaků) Minimalizujeme tak skutečnou chybu Err V praxi nedosažitelné, obvykle neznáme rozdělení P u p Přednáška 3 a 4: Vybíráme tedy z množiny klasifikátorů (např. všech lineárních) ten s nejmenší chybou e na trénovacích datech Skutečnou chybu Err pak odhadneme na testovacích datech Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 18 / 1

Odhad rizika Předpokládejme, že chyby jsou různě drahé a máme zadánu ztrátovou funkci L. Přednáška 2: Optimální je klasifikace dle minimálního rizika r u p = t L(t, y)p u p (t x) V praxi nedosažitelné, obvykle neznáme rozdělení P u p Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 19 / 1

Odhad rizika Na trénovací množině můžeme odhadnout riziko analogicky jako odhadujeme chybu 1 m L(y i, y i ) m i=1 y i... skutečná třída instance i, y i... třída instance i určená klasifikátorem m... počet trénovacích dat I další postup analogický vybíráme z množiny klasifikátorů (např. všech lineárních) ten s nejmenším odhadnutým rizikem na trénovacích datech skutečné riziko pak odhadneme na testovacích datech. Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 20 / 1

Složky chyby při binárním problému Předpokládejme binární klasifikační problém: právě dvě třídy: ano, ne. Odhad rizika je potom: 1 k m i=1 L(y i, y i ) = 1 k k i=1 L(ano, ne) + 1 m k m i=k+1 L(ne, ano) kde instance 1... k jsou klasifikované jako ano, ale ve skutečnosti jsou ne tzv. false positives (FP) a instance k + 1... m jsou klasifikované jako ne, ale ve skutečnosti jsou ano tzv. false negatives (FP) Analogicky: true positives (ano, ano) a true negatives (ne, ne). Ty se v riziku neprojeví, nebot L(y, y) = 0. Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 21 / 1

Matice záměn klasifikace skutečnost ano ne ano TP FN ne FP TN TP počet true positives FP počet false positives TN počet true negatives FN počet false negatives Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 22 / 1

Poměrné veličiny v [0;1] klasifikace skutečnost ano ne ano TP FN ne FP TN TPr = TP/(TP + FN) true positive rate (recall, sensitivity) FPr = FP/(FP + TN) false positive rate TNr = TN/(TN + FP) true negative rate (specificity) FNr = FN/(TN + FP) false negative rate Pre = TP/(TP + FP) precision Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 23 / 1

Výběr klasifikátoru Při binárních klasifikačních problémech vybíráme model na základě kompromisu mezi dvěma veličinami z {TPr, FPr, TNr, FNr, Pre}. Např. odhad chyby Err je FPr + FNr odhad rizika r je a FPr + b FNr, kde a a b jsou koeficienty úměrné L(ano, ne) resp L(ne, ano). Proč kompromis? Každou jednotlivou veličinu z {TPr, FPr, TNr, FNr, Pre} lze minimalizovat triválně! Jak? tzv. míra F1 (F1 measure) 2 Pre Tpr Pre + Tpr Kompromis mezi Precision a Recall, vhodná pro data s velmi nerovnoměrným rozdělením tříd Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 24 / 1

Přizpůsobení klasifikátoru TPr naučeného klasifikátoru lze obvykle snadno zvýšit (snížit) na úkor (ve prospěch) FPr Např pro lineární klasifikátor namísto uvažujeme ax 1 + bx 2 + c > 0 ax 1 + bx 2 + c > θ Dostaneme parametrizovaný klasifikátor k θ ( x) {ano,ne} Mějme dva různé parametrizované klasifikátory k θ, k θ Který z nich je lepší? Pro každé θ to může být jinak! Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 25 / 1

Analýza ROC Receiver Operating Characteristics Křivka složená ze všech bodů (Fpr, Tpr) pro měnící se θ AUC (Area Under ROC Curve) = měřítko nezávislé na θ Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 26 / 1

Analýza Precision-Recall Analogicky křivka Precision vs. Recall Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 27 / 1

Analýza ROC pro konečnou množinu klasifikátorů Kvalita množiny modelů plocha pod konvexním obalem bodů AUCH Area Under ROC Convex Hull Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 28 / 1

Připomínka Všechny dosud jmenované veličiny FP, TP, TN, FN TPr, FPr, TNr, FNr, Pre e, F1 ROC křivka, AUC, AUCH, Precision-Recall křivka můžeme počítat jak na trénovacích, tak na testovacích datech. Na trénovacích: vychýlené odhady skutečnosti! Využijeme pouze pro výběr klasifikátoru Na testovacích: nevychýlené odhady skutečnosti! Využijeme pro odhad skutečné kvality klasifikátoru Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 29 / 1

Rozptyl odhadu Náhodné rozdělení na trénovací a testovací data Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 30 / 1

Rozptyl odhadu Jiné rozdělení na trénovací a testovací data, jiný odhad Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 30 / 1

Rozptyl odhadu Jiné rozdělení na trénovací a testovací data, jiný odhad Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 30 / 1

Rozptyl odhadu Šlo by snížit rozptyl zprůměrováním odhadů z několika různých train/test rozdělení? Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 30 / 1

Křížová validace n-složková křížová validace Rozlož trénovací množinu X na n stejně velkých složek X i (folds) náhodným výběrem X = n i X i X i X j = Pro i = 1... n Sestroj klasifikátor na X 1... X i 1 X i+1... X n Spočítej veličinu na X i Zprůměruj výsledky: 1/n i X i Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 31 / 1

Křížová validace Pro každé i jiný klasifikátor! Neodhadujeme veličinu pro konkrétní klasifikátor, ale pro Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 32 / 1

Křížová validace Pro každé i jiný klasifikátor! Neodhadujeme veličinu pro konkrétní klasifikátor, ale pro algoritmus, který klasifikátory konstruuje Stratifikovaná křížová validace Rozdělení četnosti tříd totožné v každé složce Viz stratifikované rozdělení na train/test Křížová validace leave-one-out extrémní případ: počet složek = počet dat Otázky Odhadujeme-li chybu křížovou validací, jak závisí odhad na počtu složek? Je odhad chyby křížovou validací nevychýleným odhadem chybovosti klasifikátorů konstruovaných validovaným algoritmem? Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 32 / 1

Výběr a testování K.V. můžeme použít pro výběr algoritmu resp. parametru např. pro stanovení nejlepšího k pro klasifikaci dle sousedů nebo pro stanovení stupně polynomu pro polynomiální klasifikaci nebo kombinace obojího atd. Provedeme K.V. pro všechny soutěžící verze a vybereme verzi s nejlepším výsledkem K.V. Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 33 / 1

Výběr a testování Úplný postup pro výběr algoritmu křížovou validací, získání klasifikátoru a odhad jeho kvality 1 Rozděĺıme data na Train / Test 2 Křížovou validací na Train vybereme algoritmus 3 Zvoleným algoritmem sestrojíme klasifikátor na Train 4 Jeho kvalitu odhadneme na Test Filip Železný (ČVUT) Vytěžování dat 3. listopadu 2014 34 / 1