Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Podobne dokumenty
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 3. listopadu Filip Železný (ČVUT) Vytěžování dat 3. listopadu / 1

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Kybernetika a umělá inteligence. Gerstnerova laboratoř katedra kybernetiky. Daniel Novák

Edita Pelantová, katedra matematiky / 16

1 Soustava lineárních rovnic

Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

Linea rnı (ne)za vislost

Úvodní informace. 18. února 2019

Funkce zadané implicitně. 4. března 2019

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

DFT. verze:

5. a 12. prosince 2018

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

Kristýna Kuncová. Matematika B3

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

Kristýna Kuncová. Matematika B2 18/19

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Matematika (KMI/PMATE)

Algebra I Cvičení. Podstatná část příkladů je převzata od kolegů, jmenovitě Prof. Kučery, Doc. Poláka a Doc. Kunce, se

TGH01 - Algoritmizace

z geoinformatických dat

Statistika (KMI/PSTAT)

TGH01 - Algoritmizace

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Matematika 2, vzorová písemka 1

Ústav teorie informace a automatizace. Tato prezentace je k dispozici na:

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

(13) Fourierovy řady

MATEMATIKA 3 NUMERICKÉ METODY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Co nám prozradí derivace? 21. listopadu 2018

Základní elektrotechnická terminologie,

Numerické metody 8. května FJFI ČVUT v Praze

Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Vysvětlování modelovacích chyb 133 / 156

Univerzita Palackého v Olomouci

Geometrická nelinearita: úvod

Reprezentace dat. BI-PA1 Programování a Algoritmizace I. Ladislav Vagner

Statistika (KMI/PSTAT)

TGH08 - Optimální kostry

Operace s funkcemi [MA1-18:P2.1] funkční hodnota... y = f(x) (x argument)

Euklidovský prostor. Funkce dvou proměnných: základní pojmy, limita a spojitost.

Kristýna Kuncová. Matematika B2

Ústav teorie informace a automatizace RESEARCH REPORT. Pavel Boček, Karel Vrbenský: Implementace algoritmu MIDIA v prostředí Google Spreadsheets

Zpracování digitalizovaného obrazu (ZDO) - Klasifikace

Martin Pergel. 26. února Martin Pergel

Vybrané kapitoly z matematiky

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Úvod 1 / 32

Obsah: CLP Constraint Logic Programming. Úvod do umělé inteligence 6/12 1 / 17

podle přednášky doc. Eduarda Fuchse 16. prosince 2010

Expresivní deskripční logiky

3. Problémy s omezujícími podmínkami (CSP Constraint Satisfaction Problems)

CA CZ, s.r.o. May 21, Radek Mařík Testování řídicích struktur May 21, / 45

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

(2) Funkce. Kristýna Kuncová. Matematika B2. Kristýna Kuncová (2) Funkce 1 / 25

x2 + 2x 15 x 2 + 4x ) f(x) = x 2 + 2x 15 x2 + x 12 3) f(x) = x 3 + 3x 2 10x. x 3 + 3x 2 10x x 2 + x 12 10) f(x) = log 2.

Paralelní implementace a optimalizace metody BDDC

Kombinatorika a komplexní aritmetika

ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016

Anotace. Martin Pergel,

Cauchyova úloha pro obyčejnou diferenciální rovnici

Matematika 1 Jiˇr ı Fiˇser 24. z aˇr ı 2013 Jiˇr ı Fiˇser (KMA, PˇrF UP Olomouc) KMA MAT1 24. z aˇr ı / 52

Inverzní Z-transformace

Biosignál II. Lékařská fakulta Masarykovy univerzity Brno

nejsou citlivé na monotónní transformace vstupů, dost dobře se vyrovnají s nerelevantními vstupy.

Obsah: Rozhodovací stromy. Úvod do umělé inteligence 11/12 2 / 41. akce

Algoritmy a datové struktury 2. Sylabus: Vyhledávání vzorků v textu: alg. Aho-Corasicková

Matematika III Stechiometrie stručný

Lineární algebra - iterační metody

NÁVOD K POUŽITÍ KEZELÉSI KÉZIKÖNYV INSTRUKCJA OBSŁUGI NÁVOD NA POUŽÍVANIE. Česky. Magyar. Polski. Slovensky

Scheelova kometa. Dušan Merta. Colours of Sepsis 2019, OSTRAVA!!!

Tabulky, součin tabulek

kontaktní modely (Winklerův, Pasternakův)

GEM a soustavy lineárních rovnic, část 2

Shrnutí. Vladimír Brablec

ČVUT FEL, K Radek Mařík Strukturované testování 20. října / 52

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

vystavit agenta realitě místo přepisování reality do pevných pravidel

Obsah. Petr Hasil. (konjunkce) (disjunkce) A B (implikace) A je dostačující podmínka pro B; B je nutná podmínka pro A A B: (A B) (B A) A (negace)

Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!

Co to znamená pro vztah mezi simultánní a marginální hustotou pravděpodobnosti f (x) (pravděpodobnostní funkci p(x))?

Výzvy, které před matematiku staví

Určitý (Riemannův) integrál a aplikace. Nevlastní integrál. 19. prosince 2018

Numerické metody minimalizace

Matematika pro ekonomiku

NDMI002 Diskrétní matematika

Martin Dlask (KSI FJFI) 3. března 2016

Metoda hlavních komponent a faktorová analýza


Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra kybernetiky

katedra informatiky FEI VŠB-TU Ostrava etr Šaloun (katedra informatiky FEI VŠB-TU Ostrava) Začínáme s C/C září / 25

Kristýna Kuncová. Matematika B2 18/19. Kristýna Kuncová (1) Vzorové otázky 1 / 36

plánu protonové terapie Multi-criteria optimization of proton therapy treatment plan

Pojem množiny nedefinujeme, pouze připomínáme, že množina je. Nejprve shrneme pojmy a fakta, které znáte ze střední školy.

Matematická analýza II pro kombinované studium. Konzultace první a druhá. RNDr. Libuše Samková, Ph.D. pf.jcu.cz

(např. ve Weka) vycházejí z tzv. matice záměn (confusion matrix): + TP true positive FN false negative - FP false positive TN true negative

Transkrypt:

Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Filip Železný (ČVUT) Vytěžování dat 1 / 26

Reálné příznaky Lineární/polynomiální modely: příznaky jsou reálná čísla Filip Železný (ČVUT) Vytěžování dat 2 / 26

Nominální příznaky teplota bolest svalů diagnóza zvýšená ne nachlazení normální ne hypochondr horečka ano chřipka......... Filip Železný (ČVUT) Vytěžování dat 3 / 26

Nominální příznaky teplota bolest svalů diagnóza zvýšená ne nachlazení normální ne hypochondr horečka ano chřipka......... Lze převést na příznaky s oborem {0, 1} : reprezentace 1 z n teplota bolest diagnóza normální zvýšená horečka svalů nachlaz. chřipka hypoch. 0 1 0 0 1 0 0..................... Umožňuje využití lineárních resp. polynomiálních klasifikátorů, ale nešikovné. Klasifikační modely přímo pro nominální příznaky? Filip Železný (ČVUT) Vytěžování dat 3 / 26

Rozhodovací strom Klasifikační model Uzly (mimo listy): testy příznaků, hrany: možné hodnoty Filip Železný (ČVUT) Vytěžování dat 4 / 26

Rozhodovací strom Klasifikační model Uzly (mimo listy): testy příznaků, hrany: možné hodnoty Klasifikace: cesta z kořene do listu podle hodnot příznaků Filip Železný (ČVUT) Vytěžování dat 4 / 26

Rozhodovací strom Klasifikační model Uzly (mimo listy): testy příznaků, hrany: možné hodnoty Klasifikace: cesta z kořene do listu podle hodnot příznaků Jak strom zkonstruovat? Filip Železný (ČVUT) Vytěžování dat 4 / 26

Rekurzivní rozdělování: příklad 2 binární příznaky x 1, x 2 {+, } Instance spadají do 3 tříd: 10 červených instancí 8 zelených instancí 5 modrých instancí Všech 10 s x 1 = + má y = Filip Železný (ČVUT) Vytěžování dat 5 / 26

Rekurzivní rozdělování: příklad Všech 10 s x 1 = + má y = Zbývá 13 instancí s x 1 = Filip Železný (ČVUT) Vytěžování dat 5 / 26

Rekurzivní rozdělování: příklad Všech 8 s x 2 = + má y = Všech 5 s x 2 = má y = Filip Železný (ČVUT) Vytěžování dat 5 / 26

Algoritmus pro tvorbu rozhodovacího stromu TDIT(D,I) /* Top Down Induction of Decision Trees */ Input: D trénovací data, I indexy příznaků if všechny instance v D mají stejnou třídu y then return uzel označený y else if I = then return uzel označený většinovou třídou v D else vyber i I a vytvoř uzel označený x i for v j Range(x i ) /* konečný obor hodnot x i */ do E j = všechny instance z D u nichž x i = v j Vyved z uzlu x i hranu označenou v j if E j = then připoj list na hranu v j označený většinovou třídou v D else připoj výsledek TDIT(E j, I \ {i}) na hranu v i end end end end return vytvořený strom s kořenem x i Filip Železný (ČVUT) Vytěžování dat 6 / 26

TDIT: rekurzivní volání Filip Železný (ČVUT) Vytěžování dat 7 / 26

Výběr příznaku Jak implementovat příkaz vyber i I v algoritmu TDIT? Příklad Třída: barva Příznaky: tvar, velikost, průhlednost Začínáme konstruovat strom. Jaký příznak zvolit první? Měl by co nejčistěji dělit data podle tříd Filip Železný (ČVUT) Vytěžování dat 8 / 26

Výběr příznaku Filip Železný (ČVUT) Vytěžování dat 9 / 26

Entropie Entropie množiny instancí D s t třídami H(D) = t p i log 2 p i i=1 p 1, p 2... p t... poměrné velikosti tříd p i = počet instancí třídy i v D počet všech instancí v D Minimální H(D) = 0, pokud jsou všechny příklady v jedné třídě. Maximální H(D) = log 2 t, pokud p 1 = p 2 =... = p t. Filip Železný (ČVUT) Vytěžování dat 10 / 26

Entropie Pro dvě třídy Filip Železný (ČVUT) Vytěžování dat 11 / 26

Entropie p zelená = pčervená = 1 2 H(D) = 1 ( ) 1 2 log 2 1 ( ) 1 2 2 log 2 = 1 2 Filip Železný (ČVUT) Vytěžování dat 12 / 26

Entropie po rozdělení množiny E velké = velké instance p zelená = pčervená = 0.5 E malé = malé instance p zelená = pčervená = 0.5 H(E velké ) = 1 Vážený průměr entropíı j {velké,malé} H(E malé ) = 1 E j D H(E j) = 2 4 1 + 2 4 1 = 1 Filip Železný (ČVUT) Vytěžování dat 13 / 26

Entropie po rozdělení množiny E průhledné = průhledné instance p zelená = 1 E neprůhledné = neprůhledné instance p zelená = 1/3 pčervená = 0 H(E průhledné ) = 0 Vážený průměr entropíı j {průhledné,neprůhledné} pčervená = 2/3 H(E neprůhledné ) = 0.92 E j D H(E j) = 1 4 0 + 3 0.92 = 0.69 4 Filip Železný (ČVUT) Vytěžování dat 14 / 26

Entropie po rozdělení množiny E hranaté = hranaté instance p zelená = 1 E kulaté = kulaté instance p zelená = 0 pčervená = 0 H(E hranaté ) = 0 Vážený průměr entropíı j {hranaté,kulaté} pčervená = 1 H(E kulaté ) = 0 E j D H(E j) = 2 4 0 + 2 4 0 = 0 Filip Železný (ČVUT) Vytěžování dat 15 / 26

Pokles entropie H(D, x i ) = H(D) v j Range(x i ) E j D H(E j) Rozdíl entropie původní množiny D a váženého průměru entropíı množiny rozdělené hodnotami příznaku x i Jak implementovat příkaz vyber i I v algoritmu TDIT? Vybereme i, které maximalizuje H(D, x i ) Pozn: pro výběr i není sčítanec H(D) důležitý (nezávisí na i). Filip Železný (ČVUT) Vytěžování dat 16 / 26

Pokles entropie Jak implementovat příkaz vyber i I v algoritmu TDIT? Vybereme i, které maximalizuje H(D, xi ) Filip Železný (ČVUT) Vytěžování dat 17 / 26

Složitost rozhodovacího stromu Algoritmus TDIT se snaží minimalizovat trénovací chybu za cenu velké složitosti (košatosti) stromu Stále platí kompromis mezi složitostí modelu a trénovací chybou! Vymyslete úpravu algoritmu TDIT omezující složitost stromu Filip Železný (ČVUT) Vytěžování dat 18 / 26

Složitost rozhodovacího stromu Algoritmus TDIT se snaží minimalizovat trénovací chybu za cenu velké složitosti (košatosti) stromu Stále platí kompromis mezi složitostí modelu a trénovací chybou! Vymyslete úpravu algoritmu TDIT omezující složitost stromu Nevětvíme, pokud maxi H(D, x i ) < θ, θ > 0... parametr Filip Železný (ČVUT) Vytěžování dat 18 / 26

Ordinální příznaky Ordinální veličina Veličina, jejíž obor hodnot je uspořádán Např. přirozená (nebo reálná) čísla 1 < 2 < 3 <... ale i např. nízký < střední < vysoký Filip Železný (ČVUT) Vytěžování dat 19 / 26

Ordinální příznaky Pro ordinální příznaky obvykle test x > h v uzlech, kde h je zvolená hraniční hodnota Filip Železný (ČVUT) Vytěžování dat 20 / 26

Převod na nominální příznaky Před tvorbou stromu můžeme každý ordinální příznak, např. teplota převést na množinu nominálních příznaků teplota > h 1, teplota > h 2,..., teplota > h n z nichž každý má binární obor hodnot. Co jsou h 1, h 2,... h n? V nejjednodušším případě celý obor hodnot původního příznaku, je-li konečný (a malý). Obvykle ale jen některé z oboru hodnot. Které? Filip Železný (ČVUT) Vytěžování dat 21 / 26

Diskretizace U některých veličin se hraniční hodnoty nabízejí. x i < 36.5 podchlazení 36.5 x i < 37 normální teplota 37 x i < 38 zvýšená teplota 38 x i < 42 horečka 42 x i smrt Zde tedy uvažujeme hraniční hodnoty {36.5, 37, 38, 42} Pozn.: převedení reálné veličiny (teplota) na veličinu s konečným oborem hodnot = diskretizace. V obecném případě vhodné hraniční hodnoty předem neznáme. Filip Železný (ČVUT) Vytěžování dat 22 / 26

Diskretizace: 3 obecné způsoby Intervaly stejné délky Intervaly stejné pravděpodobnosti Intervaly obsahující instance stejné třídy (nejužívanější pro stromy) Filip Železný (ČVUT) Vytěžování dat 23 / 26

Separace: srovnání Separace v prostoru dvou reálných příznaků Lineární klasifikátor (nelze rozdělit) Filip Železný (ČVUT) Vytěžování dat 24 / 26

Separace: srovnání Separace v prostoru dvou reálných příznaků Kvadratický klasifikátor Filip Železný (ČVUT) Vytěžování dat 24 / 26

Separace: srovnání Separace v prostoru dvou reálných příznaků Rozhodovací strom Filip Železný (ČVUT) Vytěžování dat 24 / 26

Separace rozhodovacím stromem Separace v prostoru dvou reálných příznaků Filip Železný (ČVUT) Vytěžování dat 25 / 26

Separace rozhodovacím stromem Separace v prostoru dvou reálných příznaků Filip Železný (ČVUT) Vytěžování dat 25 / 26

Separace rozhodovacím stromem Separace v prostoru dvou reálných příznaků Filip Železný (ČVUT) Vytěžování dat 25 / 26

Minimalizace nákladů na rozhodování Rozhodovací strom netestuje vždy všechny příznaky! TDIT lze přizpůsobit tak, aby levné testy byly bĺıže ke kořeni Filip Železný (ČVUT) Vytěžování dat 26 / 26