Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Podobne dokumenty
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 3. listopadu Filip Železný (ČVUT) Vytěžování dat 3. listopadu / 1

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Numerické metody minimalizace

Numerické metody 8. května FJFI ČVUT v Praze

5. a 12. prosince 2018

Statistika (KMI/PSTAT)

Funkce zadané implicitně. 4. března 2019

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

1 Soustava lineárních rovnic

Edita Pelantová, katedra matematiky / 16

Kristýna Kuncová. Matematika B2 18/19

Kybernetika a umělá inteligence. Gerstnerova laboratoř katedra kybernetiky. Daniel Novák

Úvodní informace. 18. února 2019

Co nám prozradí derivace? 21. listopadu 2018

Matematika (KMI/PMATE)

Ústav teorie informace a automatizace. Tato prezentace je k dispozici na:

Cauchyova úloha pro obyčejnou diferenciální rovnici

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Kristýna Kuncová. Matematika B3

Paralelní implementace a optimalizace metody BDDC

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!

Kristýna Kuncová. Matematika B2

Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

Statistika (KMI/PSTAT)

Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17

Geometrická nelinearita: úvod

Vybrané kapitoly z matematiky

(2) Funkce. Kristýna Kuncová. Matematika B2. Kristýna Kuncová (2) Funkce 1 / 25

(13) Fourierovy řady

Matematika III Stechiometrie stručný

Určitý (Riemannův) integrál a aplikace. Nevlastní integrál. 19. prosince 2018

Matematika pro ekonomiku

Inverzní Z-transformace

Linea rnı (ne)za vislost

Zpracování digitalizovaného obrazu (ZDO) - Klasifikace

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Průvodce studiem V této kapitole se budeme zabývat diferenciálním počtem pro funkce více

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

nejsou citlivé na monotónní transformace vstupů, dost dobře se vyrovnají s nerelevantními vstupy.

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. rizik. Katedra pravděpodobnosti a matematické statistiky

Paradoxy geometrické pravděpodobnosti

Matematika 2, vzorová písemka 1

Kristýna Kuncová. Matematika B2 18/19. Kristýna Kuncová (1) Vzorové otázky 1 / 36

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Internet a zdroje. (Zdroje na Internetu) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17.

Matematická analýza II pro kombinované studium. Konzultace první a druhá. RNDr. Libuše Samková, Ph.D. pf.jcu.cz

Kombinatorika a grafy I

Lucie Mazurová AS

Rovnice proudění Slapový model

Zadání: Vypočítejte hlavní momenty setrvačnosti a vykreslete elipsu setrvačnosti na zadaných

Popisná statistika. David Hampel. Přednáška Statistika 1 (BKMSTA1) 13. říjen 2012, Brno.

Vybrané partie z kvantitativního řízení rizik - kreditní riziko

Stochastické modelování v ekonomii a financích Konzistence odhadu LWS. konzistence OLS odhadu. Předpoklady pro konzistenci LWS

kontaktní modely (Winklerův, Pasternakův)

Kapitola 2. Nelineární rovnice

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

POLIURETANOWE SPRĘŻYNY NACISKOWE. POLYURETHANOVÉ TLAČNÉ PRUŽINY

z geoinformatických dat

Martin Dlask (KSI FJFI) 3. března 2016

NÁVOD K POUŽITÍ KEZELÉSI KÉZIKÖNYV INSTRUKCJA OBSŁUGI NÁVOD NA POUŽÍVANIE. Česky. Magyar. Polski. Slovensky

Martin Pergel. 26. února Martin Pergel

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

podle přednášky doc. Eduarda Fuchse 16. prosince 2010

Sb ırka pˇr ıklad u z matematick e anal yzy II Petr Tomiczek

Laplaceova transformace

(např. ve Weka) vycházejí z tzv. matice záměn (confusion matrix): + TP true positive FN false negative - FP false positive TN true negative

Ekonomicko-statistický návrh regulačního diagramu

Lineární regrese. Skutečné regresní funkce nejsou nikdy lineární! regrese extrémně užitečná jak svou koncepcí, tak prakticky.

ZÁVĚREČNÁ KONFERENCE Poslanecká sněmovna PČR Praha MEZINÁRODNÍ DOTAZNÍKOVÉ ŠETŘENÍ ANKIETY MIEDZYNARODOWE

Univerzita Palackého v Olomouci

Obsah. 1.2 Integrály typu ( ) R x, s αx+β

Biosignál II. Lékařská fakulta Masarykovy univerzity Brno

Lucie Mazurová. AS a

Lineární algebra - iterační metody

Definice Řekneme, že PDA M = (Q,Σ,Γ,δ,q 0,Z 0,F) je. 1. pro všechna q Q a Z Γ platí: kdykoliv δ(q,ε,z), pak δ(q,a,z) = pro všechna a Σ;

Přehled aplikací matematického programovaní a

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Bc. Hana Tritová. Katedra pravděpodobnosti a matematické statistiky

Register and win!

DFT. verze:

Skraplacze wyparne. Odpaøovací kondenzátory D 127/3-5 PL/CZ

heteroskedasticitě Radim Navrátil, Jana Jurečková Katedra pravděpodobnosti a matematické statistiky, MFF UK, Praha

Reprezentace a vyvozování znalostí

x2 + 2x 15 x 2 + 4x ) f(x) = x 2 + 2x 15 x2 + x 12 3) f(x) = x 3 + 3x 2 10x. x 3 + 3x 2 10x x 2 + x 12 10) f(x) = log 2.

Shrnutí. Vladimír Brablec

Reprezentace dat. BI-PA1 Programování a Algoritmizace I. Ladislav Vagner

Diferenciální rovnice základní pojmy. Rovnice se

IEL Přechodové jevy, vedení

Zwój Prawoskrętny. Vinutí Pravé

ČVUT v Praze, katedra geomatiky. zimní semestr 2014/2015

NDMI002 Diskrétní matematika

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. bankovnictví. Katedra pravděpodobnosti a matematické statistiky

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra kybernetiky

Transkrypt:

Vytěžování dat: klasifikace Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Filip Železný (ČVUT) Vytěžování dat: klasifikace 1 / 1

Učení s učitelem Pravděpodobnostní rozdělení P XY na X Y Předpokládáme, že Y je konečná množina Data: D je multimnožina D = {(x 1, y 1 ), (x 2, y 2 ),... (x m, y 2 )} (m N) prvky vybrány náhodně a navzájem nezávisle z P XY Vzor se bude používat na tomtéž X, Y a P XY Obvykle hledáme vzory aproximující (pro zadané x X) podmíněnou pravděpodobnost P Y X (y x) = P XY (x, y)/p X (x) nebo nejpravděpodobnější hodnotu arg max y Y P Y X (y x) tyto vzory nazýváme klasifikátory Filip Železný (ČVUT) Vytěžování dat: klasifikace 2 / 1

Klasifikace s jedním příznakem X Vysoké příjmy ne ne ne ne ne Y Splácí úvěr ne ne ne ne Kontingenční tabulka Y (splácí úvěr) ne X (vysoké 5 1 6 příjmy) ne 2 3 5 7 4 11 Nový žadatel o úvěr má vysoké příjmy. Bude splácet úvěr? S jakou pravděpodobností? Filip Železný (ČVUT) Vytěžování dat: klasifikace 3 / 1

Klasifikace dle aposteriorní pravděpodobnosti Klient má vysoké příjmy. Jak bude splácet úvěr? Tedy z x = vysoké urči nejpravděpodobnější hodnotu y (třídu). Hledáme y vyhovující Řešení je y = splácí y = arg max P Y X (y vysoké) y P Y X (y vysoké) 2/3 S pravděpodobností 1 P Y X (y vysoké) klasifikujeme chybně. Klasifikací y = splácí tedy minimalizujeme chybu. Filip Železný (ČVUT) Vytěžování dat: klasifikace 4 / 1

Ztrátová funkce Každá chyba klasifikace je jinak drahá. Např. příliš optimististické hodnocení klienta stojí víc než příliš skeptické. Klasifikace dle aposteriorní pravděpodobnosti toto nerespektuje. Pro zohlednění odlišných ztrát pro různé chyby potřebujeme pojem ztrátové funkce. Ztrátová funkce L(y, y ) zachycuje ztrátu pro každou kombinaci y - skutečná třída y - třída, do které klasifikujeme Pro náš příklad L(y, y ) např.: y y splácí problémy nesplácí splácí 0 1 2 problémy 5 0 1 nesplácí 10 5 0 Filip Železný (ČVUT) Vytěžování dat: klasifikace 5 / 1

Klasifikátor a Riziko Hledáme klasifikátor, tj. funkci f : X Y minimalizující střední hodnotu ztráty: R(f) = x,y L(y, f(x))p XY (x, y) Střední hodnotu ztráty pro f se nazývá riziko klasifikátoru f. Řešením f = arg min f R(f) je funkce f (x) = arg min y r(x, y ) kde r(x, y ) = y L(y, y )P Y X (y x) je riziko klasifikace y při příznaku x Filip Železný (ČVUT) Vytěžování dat: klasifikace 6 / 1

Klasifikace jako minimalizace rizika Jak klasifikovat vysokopříjmového klienta? P Y X x y splácí problémy nesplácí vysoké 2/3 1/3 0/3 střední 2/6 2/6 2/6 nízké 0/2 1/2 1/2 L y y splácí problémy nesplácí splácí 0 1 2 problémy 5 0 1 nesplácí 10 5 0 Klasifikace y = splácí skut. třída ztráta s pravděp. splácí 0 2/3 problémy 5 1/3 nesplácí 10 0 Riziko při této klasifikaci: 0 2/3 + 5 1/3 + 10 0 = 5/3 Filip Železný (ČVUT) Vytěžování dat: klasifikace 7 / 1

Klasifikace jako minimalizace rizika Jak klasifikovat vysokopříjmového klienta? P Y X x y splácí problémy nesplácí vysoké 2/3 1/3 0/3 střední 2/6 2/6 2/6 nízké 0/2 1/2 1/2 L y y splácí problémy nesplácí splácí 0 1 2 problémy 5 0 1 nesplácí 10 5 0 Klasifikace y = problémy skut. třída ztráta s pravděp. splácí 1 2/3 problémy 0 1/3 nesplácí 5 0 Riziko při této klasifikaci: 1 2/3 + 0 1/3 + 5 0 = 2/3 Filip Železný (ČVUT) Vytěžování dat: klasifikace 8 / 1

Klasifikace jako minimalizace rizika Jak klasifikovat vysokopříjmového klienta? P Y X x y splácí problémy nesplácí vysoké 2/3 1/3 0/3 střední 2/6 2/6 2/6 nízké 0/2 1/2 1/2 L y y splácí problémy nesplácí splácí 0 2 2 problémy 5 1 1 nesplácí 10 0 0 Klasifikace y = nesplácí skut. třída ztráta s pravděp. splácí 2 2/3 problémy 1 1/3 nesplácí 0 0 Riziko při této klasifikaci: 2 2/3 + 1 1/3 + 0 0 = 4/3 Filip Železný (ČVUT) Vytěžování dat: klasifikace 9 / 1

Klasifikace jako minimalizace rizika Klasifikujeme do y = arg min r(vysoké, y) = problémy y Pozor, jiný výsledek než dle aposteriorní pravděpodobnosti y = arg max P Y X (y vysoké) = splácí y Při jaké ztrátové funkci L(y, y ) by výsledky vyšly stejně? y y splácí problémy nesplácí splácí 0 1 1 problémy 1 0 1 nesplácí 1 1 0 Tzv. L 01 ztrátová funkce. Je-li použita, je r(x, y ) pravděpodobnost, že klasifikace instance s příznakem x do třídy y je chybná. Filip Železný (ČVUT) Vytěžování dat: klasifikace 10 / 1

Klasifikace s několika příznaky Zatím jsme klasifikovali pouze dle jediného příznaku (x - výše příjmů) O klientech toho víme obvykle více. Příjmy (p) Rok narození (n) Úvěr (y) vysoké 1969 splácí nízké 1974 nesplácí střední 1940 problémy nízké 1985 problémy......... x (p, n) Třírozměrná kontingenční tabulka p vs. n vs. y Filip Železný (ČVUT) Vytěžování dat: klasifikace 11 / 1

Klasifikace s několika příznaky Na principech klasifikace se nic nemění. Např. jak klasifikovat nízkopříjmového klienta narozeného v r. 1985? Maximalizací aposteriorní pravděpodobnosti f(x) = y = arg max P Y P,N (y nízké, 1974) y Minimalizací rizika Z kontingenční tabulky f(x) = y = arg min y r((nízké, 1974), y) P Y P,N (y nízké, 1974) počet klientů s y = y, p = nízké, n = 1974 počet klientů s p = nízké, n = 1974 Filip Železný (ČVUT) Vytěžování dat: klasifikace 12 / 1

Prokletí rozměrnosti P Y P,N (y nízké, 1974) počet klientů s y = y, p = nízké, n = 1974 počet klientů s p = nízké, n = 1974 Čím více příznaků, tím větší nebezpečí výsledku 0/0! Kolik dat potřebujeme, aby odhady dobře konvergovaly k pravděpodobnostem? Kontingenční tabulka musí být dostatečně zaplněna. V předchozím příkladě (jediný příznak) p y splácí problémy nesplácí P vysoké 2 1 0 3 střední 2 2 2 6 nízké P 0 1 1 2 4 4 3 11 v průměru 11/9 případů na kolonku tabulky. Filip Železný (ČVUT) Vytěžování dat: klasifikace 13 / 1

Prokletí rozměrnosti Předpokládejme, že 11/9 je dostatečný poměr. Kolik případů (m) potřebujeme pro jeho zachování se dvěma příznaky p a n? Přepodkládejme 100 možných roků narození. Kontingenční tabulka má 100 3 3 = 900 kolonek. m 900 = 11 9 tedy nyní již potřebujeme 11 900/9 = 1100 dat. Po přidání dalšího příznaku, např. roku ukončení studia už potřebujeme 11 90000/9 = 110000 dat! Obecně pro odhady z kontingenční tabulky (tzv. neparametrické odhady) roste potřebný počet dat exponenciálně s počtem příznaků. Prokletí rozměrnosti Filip Železný (ČVUT) Vytěžování dat: klasifikace 14 / 1

Podmíněně nezávislé příznaky Situace se zjednoduší, jsou-li výše příjmů a rok narození podmíněně nezávislé, tj. platí P P,N Y (p, n y) = P P Y (p y) P N Y (n y) pro každou z hodnot y {splácí, problémy, nesplácí) Využijeme tzv. Bayesova pravidla P Y P,N (y p, n) = P P,N Y (p, n y)p Y (y) P P,N (p, n) Filip Železný (ČVUT) Vytěžování dat: klasifikace 15 / 1

Podmíněně nezávislé příznaky Z Bayesova pravidla platí pro klasifikaci maximalizací aposteriorní pravděpodobnosti arg max y P Y P,N (y p, n) = arg max P P,N Y (p, n y)p Y (y) y Podobně pro klasifikaci minimalizací rizika arg min L(y, y )P Y P,N (y p, n) y y = arg min L(y, y )P P,N Y (p, n y)p Y (y) Proč zmizelo P P,N (p, n)? Nezávisí na y! y y K oběma typům klasifikace tedy potřebujeme odhady dvou rozdělení: P P,N Y a P Y. Filip Železný (ČVUT) Vytěžování dat: klasifikace 16 / 1

Podmíněně nezávislé příznaky K oběma typům klasifikace tedy potřebujeme odhady dvou rozdělení: P P,N Y a P Y. P Y odhadneme z jednorozměrné kontingenční tabulky Z podmíněné nezávislosti plyne P P,N Y = P P Y P N Y P P Y odhadneme z dvourozměrné tabulky 3 3 P N Y odhadneme z dvourozměrné tabulky 100 3. Nejnáročnější na počet dat, pro zachování poměru 11/9 vyžaduje cca 367 (<< 1100). Obecně: při podmíněně nezávislých příznacích neroste potřebný počet dat exponenciálně s počtem příznaků. Je určen příznakem s největším oborem hodnot. Příznaky obvykle nejsou podmíněně nezávislé! Je-li přesto použita tato metoda, mluvíme o naivní Bayesovské klasifikaci. Filip Železný (ČVUT) Vytěžování dat: klasifikace 17 / 1

Klasifikace dle nejbližšího souseda Metoda, která nevyžaduje odhad pravděpodobností. Předpoklad: umíme spočítat podobnost dvou datových instancí (jako např. u shlukování) Zde p, n N, u {splácí, problémy, nesplácí} Filip Železný (ČVUT) Vytěžování dat: klasifikace 18 / 1

Klasifikace dle nejbližšího souseda Zde podobnost např. (p 1 p 2 ) 2 + (n 1 n 2 ) 2 Zařazujeme do třídy nejpodobnější instance. Náchylné k šumu v datech. Filip Železný (ČVUT) Vytěžování dat: klasifikace 19 / 1

Klasifikace dle k nejbližších sousedů Zde podobnost např. (p 1 p 2 ) 2 + (n 1 n 2 ) 2 Zařazujeme do třídy převládající mezi k nejpodobnějšími instancemi. S rostoucím k klesá náchylnost k šumu. Nevýhody? Filip Železný (ČVUT) Vytěžování dat: klasifikace 20 / 1

Trénovací a skutečná chyba klasifikátoru Trénovací chyba Podíl instancí v datech chybně klasifikovaných klasifikátorem f sestrojeným z těchto dat (tzv. trénovacích dat). Skutečná chyba Pravděpodobnost chybné klasifikace f při náhodném výběru (x X, y Y ) dle P XY. Při použití ztrátové funkce L 01 rovna riziku R(f). Filip Železný (ČVUT) Vytěžování dat: klasifikace 21 / 1

Jaké k je nejlepší? Experiment: generovaná data [Hastie et al.: Elements of Statistical Learning] k = 1 Nulová trénovací chyba, přesto klasifikace odlišná od optimální Dle maximální aposteriorní pravděpodobnosti (optimální) k = 15 Malá náchylnost k šumu, přesto klasifikace odlišná od optimální Filip Železný (ČVUT) Vytěžování dat: klasifikace 22 / 1

Trénovací vs. skutečná chyba Typický průběh chyb pro k = m (počet dat), m 1,... 1 Trénovací chyba obecně není dobrým odhadem skutečné chyby! Filip Železný (ČVUT) Vytěžování dat: klasifikace 23 / 1

Klasifikace dle etalonů Metoda nevyžadující přístup ke všem instancím při klasifikaci. Každá třída má etalon, tj. instanci s minimální průměrnou vzdáleností ke všem instancím třídy. (vybírána bud to z trénovacích dat, nebo z celého oboru hodnot (p, n)) Etalony jsou jednoduchým nepravděpodobnostním modelem dat. Filip Železný (ČVUT) Vytěžování dat: klasifikace 24 / 1