Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Podobne dokumenty
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 3. listopadu Filip Železný (ČVUT) Vytěžování dat 3. listopadu / 1

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

Linea rnı (ne)za vislost

Edita Pelantová, katedra matematiky / 16

Funkce zadané implicitně. 4. března 2019

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

Úvodní informace. 18. února 2019

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

podle přednášky doc. Eduarda Fuchse 16. prosince 2010

kontaktní modely (Winklerův, Pasternakův)

Co nám prozradí derivace? 21. listopadu 2018

Kybernetika a umělá inteligence. Gerstnerova laboratoř katedra kybernetiky. Daniel Novák

Kristýna Kuncová. Matematika B2 18/19

1 Soustava lineárních rovnic

Matematika (KMI/PMATE)

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Numerické metody minimalizace

Numerické metody 8. května FJFI ČVUT v Praze

Kristýna Kuncová. Matematika B3

Cauchyova úloha pro obyčejnou diferenciální rovnici

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

5. a 12. prosince 2018

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

Geometrická nelinearita: úvod

ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016

Kombinatorika a grafy I

Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

z geoinformatických dat

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

GEM a soustavy lineárních rovnic, část 2

Statistika (KMI/PSTAT)

Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Vysvětlování modelovacích chyb 133 / 156

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

Vybrané kapitoly z matematiky

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Stochastické modelování v ekonomii a financích Konzistence odhadu LWS. konzistence OLS odhadu. Předpoklady pro konzistenci LWS

Inverzní Z-transformace

Matematika 2, vzorová písemka 1

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Martin Pergel. 26. února Martin Pergel

Co to znamená pro vztah mezi simultánní a marginální hustotou pravděpodobnosti f (x) (pravděpodobnostní funkci p(x))?

Kristýna Kuncová. Matematika B2

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Úvod 1 / 32

TGH01 - Algoritmizace

Operace s funkcemi [MA1-18:P2.1] funkční hodnota... y = f(x) (x argument)

DFT. verze:

Univerzita Palackého v Olomouci

PA152,Implementace databázových systémů 2 / 25

TGH01 - Algoritmizace

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Obsah: CLP Constraint Logic Programming. Úvod do umělé inteligence 6/12 1 / 17

Biosignál II. Lékařská fakulta Masarykovy univerzity Brno

Ústav teorie informace a automatizace RESEARCH REPORT. Pavel Boček, Karel Vrbenský: Implementace algoritmu MIDIA v prostředí Google Spreadsheets

Západočeská univerzita v Plzni Fakulta aplikovaných věd. Katedra matematiky. Semestrální práce - matematika a byznys

Rovnice proudění Slapový model

Algebra I Cvičení. Podstatná část příkladů je převzata od kolegů, jmenovitě Prof. Kučery, Doc. Poláka a Doc. Kunce, se

(13) Fourierovy řady

Obsah: Rozhodovací stromy. Úvod do umělé inteligence 11/12 2 / 41. akce

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Euklidovský prostor. Funkce dvou proměnných: základní pojmy, limita a spojitost.

Zadání: Vypočítejte hlavní momenty setrvačnosti a vykreslete elipsu setrvačnosti na zadaných

ROBUST January 19, Zdeněk Fabián Ústav informatiky AVČR Praha

Expresivní deskripční logiky

Klasifikační metody (nejen) pro molekulárně genetická data

6 Dedekindovy řezy (30 bodů)

Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17

Ústav teorie informace a automatizace. Tato prezentace je k dispozici na:

Obsah. Petr Hasil. (konjunkce) (disjunkce) A B (implikace) A je dostačující podmínka pro B; B je nutná podmínka pro A A B: (A B) (B A) A (negace)

MATEMATIKA 3 NUMERICKÉ METODY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Robustní architektura vícevrstvých

Matematika III Stechiometrie stručný

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

heteroskedasticitě Radim Navrátil, Jana Jurečková Katedra pravděpodobnosti a matematické statistiky, MFF UK, Praha

Shrnutí. Vladimír Brablec

Statistika (KMI/PSTAT)

x2 + 2x 15 x 2 + 4x ) f(x) = x 2 + 2x 15 x2 + x 12 3) f(x) = x 3 + 3x 2 10x. x 3 + 3x 2 10x x 2 + x 12 10) f(x) = log 2.

vystavit agenta realitě místo přepisování reality do pevných pravidel

1 Dedekindovy řezy (30 bodů)

Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn

Matematika 1 Jiˇr ı Fiˇser 24. z aˇr ı 2013 Jiˇr ı Fiˇser (KMA, PˇrF UP Olomouc) KMA MAT1 24. z aˇr ı / 52

Odpřednesenou látku naleznete v kapitolách skript Abstraktní a konkrétní lineární algebra.

Matematika pro ekonomiku

Uvod Symbolick e modelov an ı Neuronov e s ıtˇ e Shrnut ı Modelov an ı myˇslen ı Radek Pel anek

Modelov an ı v yukov ych dat, obt ıˇznosti probl em u Radek Pel anek

Diferenciální rovnice základní pojmy. Rovnice se

Periodický pohyb obecného oscilátoru ve dvou dimenzích

Obsah Atributová tabulka Atributové dotazy. GIS1-2. cvičení. ČVUT v Praze, Fakulta stavební, katedra mapování a kartografie

Lineární algebra - iterační metody

Martin Dlask (KSI FJFI) 3. března 2016

Robotika. Kinematika 13. dubna 2017 Ing. František Burian Ph.D.

Paralelní implementace a optimalizace metody BDDC

Numerické metody a statistika

Platforma pro analýzu, agregaci a vizualizaci otevřených dat souv

Laplaceova transformace

nejsou citlivé na monotónní transformace vstupů, dost dobře se vyrovnají s nerelevantními vstupy.

Transkrypt:

Vytěžování dat Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Filip Železný (ČVUT) Vytěžování dat 1 / 27

Vytěžování dat: základní myšlenky Co následuje? Odpovídá vzoru 1, 2, 4, 8,? 16 x 1 =1 x k =2x k 1 (k 2) Vytěžování dat = hledání srozumitelných vzorů v datech Filip Železný (ČVUT) Vytěžování dat 2 / 27

Vzor vs. Data Odvozování dat ze vzorů: x k = 2x k 1 1, 2, 4, 8,... Vytěžování dat 1, 2, 4, 8,... x k = 2x k 1 vzor předpis model hypotéza teorie... Filip Železný (ČVUT) Vytěžování dat 3 / 27

Využití vzorů x k = 2x k 1 Predikce (x 5 = 16, x 6 = 32,...) Zlepšení rozhodování Interpretace člověkem (vzor vyjadřuje znalost) Porozumění procesům Filip Železný (ČVUT) Vytěžování dat 4 / 27

Vytěžování dat (Data Mining) Data Mining je netriviální proces identifikace pravdivých, dosud neznámých, potenciálně využitelných a zcela srozumitelných vzorů v datech (Fayyad) Používá techniky oborů statistika strojové učení (umělá inteligence) databázové technologie vizualizace dat Filip Železný (ČVUT) Vytěžování dat 5 / 27

Reálné příklady vytěžování: Asociace v nákupních košících pivo párky horčice pleny... + + + + + + (atd.) pleny pivo Filip Železný (ČVUT) Vytěžování dat 6 / 27

Reálné příklady vytěžování: Predikce karcinogenity karcinogenní kontrolní v karcinogenních Filip Železný (ČVUT) Vytěžování dat 7 / 27

Reálné příklady vytěžování: Rozpoznávání obrazu 6 Filip Železný (ČVUT) Vytěžování dat 8 / 27

Struktura a parametry vzoru struktura parametry Vzory jsou rozličných druhů (rovnice, pravidla, grafy,...). x k = ax k 1 pleny pivo a (žádné) Rozlišujeme jejich diskrétní strukturu reálné parametry (žádné) váhy synapsí W Filip Železný (ČVUT) Vytěžování dat 9 / 27

Parametrické vs. neparametrické metody Parametrické metody: Struktura je zadána předem Úkolem vytěžování je vyhledat hodnoty parametrů a R n maximalizující soulad s daty Neparametrické metody: Hledá se struktura i případné parametry Struktura se hledá v nějaké předepsané konečné množině struktur S Zaujetí algoritmu Čím menší n resp. S, tím větší zaujetí vytěžovacího algoritmu. Větší zaujetí = menší flexibilita = menší možnost adaptace na data. Filip Železný (ČVUT) Vytěžování dat 10 / 27

Zaujetí y = a 1 x y = a 1 x + a 2 x 2 + a 3 x 3 příliš slabé zaujetí, velká flexibilita Filip Železný (ČVUT) Vytěžování dat 11 / 27

Zaujetí y = a 1 x příliš silné zaujetí, malá flexibilita y = a 1 x + a 2 x 2 + a 3 x 3 Filip Železný (ČVUT) Vytěžování dat 12 / 27

Vytěžování dat: definice 1 Úloha nalezení množiny vzorů φ Vstupní data {φ L platí q(d, φ)} Prohledávaná množina, tj. zaujetí algoritmu. Obsahuje všechny přípustné vzory. Vyhodnocovací predikát. Platí, pokud φ je v souladu s D Filip Železný (ČVUT) Vytěžování dat 13 / 27

Vytěžování dat: definice 2 Úloha nalezení nejlepšího vzoru φ φ = arg max φ L Vstupní data q(d, φ) Prohledávaná množina, tj. zaujetí algoritmu Vyhodnocovací funkce. Měří kvalitu φ vzhledem k D. Může zohlednit i vlastnosti nezávislé na D, např. složitost vzoru. Pro parametrické metody: hledáme optimální parametry pro zadanou strukturu S. Zde tedy L = {(S, a) a R n } Filip Železný (ČVUT) Vytěžování dat 14 / 27

Jak hledat vzory Konkrétní techniky: v dalších přednáškách Obecně: Parametrické metody: optimální parametry lze někdy vyjádřit a spočítat analyticky, jindy prohledávání L ( pokus-omyl ) Neparametrické metody: téměř vždy prohledávání Filip Železný (ČVUT) Vytěžování dat 15 / 27

Volba zaujetí Konkrétní techniky: v dalších přednáškách Obecně: Voĺıme dle typu dat (grafy, vektory reálných čísel,...) toho, co se chceme dozvědět dostupnosti algoritmů (různá zaujetí - různé algoritmy) Čím více o datech předem víme, tím silnější zaujetí můžeme stanovit Např. data leží na přímce y = ax, hledáme jen a Occamova břitva: fungují-li dva vzory stejně dobře na datech, preferujeme ten jednodušší Filip Železný (ČVUT) Vytěžování dat 16 / 27

Generativní modely x 1 =1 x k =2x k 1 (k 2) pleny pivo Generativní (též globální) model Vzor jednoznačně určující, jak generovat data Ostatní (lokální) vzory fungují jako omezující podmínky Nejsou předpisem pro generování dat Filip Železný (ČVUT) Vytěžování dat 17 / 27

Data: statistické předpoklady Budou nalezené vzory platit i v budoucích datech? Neplatí ve vytěžených datech jen náhodou? Je třeba zavést statistické předpoklady na data: Uvažujeme množinu všech možných instancí X obsahy nákupních košíků, grafy molekul, řádky v relační tabulce,... Pravděpodobnostní rozdělení P X na X Data: D je multimnožina D = {x 1, x 2,... x m } (m N) prvky vybrány náhodně a navzájem nezávisle z P X Vzor se bude používat na tomtéž X a P X. Filip Železný (ČVUT) Vytěžování dat 18 / 27

Data: statistické předpoklady (pokr.) Nalezené generativní vzory pak aproximují P X, např. P X (x) = N(µ, σ) Jiné typy nalezených vzorů zachycují určité vlastnosti P X, např. pivo pleny říká, že P X (x) je malá pro instance x v nichž implikace neplatí. Takto definované úloze říkáme učení (vytěžování) bez učitele (terminologie strojového učení) Cvičení Jak za právě definovaných statistických předpokladů zformulovat úlohu vytěžování z úvodu přednášky (str. 2)? Filip Železný (ČVUT) Vytěžování dat 19 / 27

Učení s učitelem Speciální, zvláště častá úloha vytěžování: najít vzor pro předpovídání cílové veličiny (třídy) instance ze zbylého popisu instance. Příklad: karcinogenní kontrolní Vedle X uvažujeme ještě Y : množinu hodnot cílové veličiny. Zde X: struktury molekul (grafy) Y = {karcinogenní, kontrolní} Filip Železný (ČVUT) Vytěžování dat 20 / 27

Učení s učitelem (pokr.) Předpoklady na data: Pravděpodobnostní rozdělení P XY Data: D je multimnožina na X Y D = {(x 1, y 1 ), (x 2, y 2 ),... (x m, y 2 )} (m N) prvky vybrány náhodně a navzájem nezávisle z P XY Vzor se bude používat na tomtéž X, Y a P XY Obvykle hledáme vzory aproximující podmíněnou pravděpodobnost P Y X (y x) = P XY (x, y)/p X (x) nebo nejpravděpodobnější hodnotu arg max y Y P Y X (y x) pro zadané x X. Filip Železný (ČVUT) Vytěžování dat 21 / 27

Učení s učitelem: příklad Např. nalezený vzor v karcinogenních interpretujeme jako resp. P Y X (y, x) = y = { 1 je-li tato struktura v x 0 jinak { karcinogenní, je-li tato struktura v x jinak kontrolní Filip Železný (ČVUT) Vytěžování dat 22 / 27

Učení s učitelem (pokr.) Proč učení s učitelem? Terminologie strojového učení. Učitel poskytuje x i y prostřednictvím dat D (trénovací data) Žák (algoritmus) se učí odvozovat y z x (trénovací fáze) Potom učitel zadává pouze x a žák odhaduje y pomocí naučených vzorů Filip Železný (ČVUT) Vytěžování dat 23 / 27

Příznakový popis Většina známých vytěžovacích algoritmů umí pracovat pouze s daty v příznakovém popisu. Předpokládají, že X = X 1 X 2... X n (n N) kde každé X i je obor hodnot příznaku i, např. X i = R (reálná čísla) X i = {muž, žena} (kategorie) tedy pouze jednoduché datové typy, ne struktury, grafy apod. Některé algoritmy dále omezují přípustné typy příznaků, např. pouze numerické, pouze kategorické ( nominální ), pouze binární... Filip Železný (ČVUT) Vytěžování dat 24 / 27

Příznakový popis (pokr.) Data D = {x 1, x 2,... x m } (m N), x i X (1 i m) jsou tedy n-ticemi hodnot příznaků. Příklad: x 1 : x 2 : x 3 : x 4 : věk pohlaví kuřák rakovina 56 muž + + 32 žena 48 žena + + 60 muž + + Příznaková data tedy tvoří matici odpovídající jedné tabulce relační databáze. Jednotlivé instance jsou její řádky. Filip Železný (ČVUT) Vytěžování dat 25 / 27

Příznakový popis (pokr.) Co s daty, která nejsou v příznakovém popisu? grafy relační struktury signály (např. zvuk) obrazy číselné řady texty Použít specializovaných algoritmů graph mining, text mining, induktivní logické programování, počítačové vidění,... Převést na příznakovou reprezentaci nelehký úkol, je třeba zachovat podstatnou informaci. (mimo rozsah tohoto kursu) Filip Železný (ČVUT) Vytěžování dat 26 / 27

Přehled přednášek 1 Úvod 2 Odhad parametrů Gaussovské směsi, EM algoritmus 3 Grafické pravděpodobností modely 4 Shluková analýza 5 Samoorganizující se mapy 6 Časté množiny a asociační pravidla 7 Klasifikační úloha, klasifikace dle podobnosti a Bayesovská 8 Rozhodovací stromy a pravidla 9 Lineární a polynomiální klasifikace 10 Perceptron a neuronové sítě s dopřednou strukturou 11 Testování modelů 12 Kombinování modelů a výběr příznaků 13 Rezerva (aplikace vytěžování dat) Bez učitele S učitelem Filip Železný (ČVUT) Vytěžování dat 27 / 27

Přehled přednášek 1 Úvod 2 Odhad parametrů Gaussovské směsi, EM algoritmus 3 Grafické pravděpodobností modely 4 Shluková analýza 5 Samoorganizující se mapy 6 Časté množiny a asociační pravidla 7 Klasifikační úloha, klasifikace dle podobnosti a Bayesovská 8 Rozhodovací stromy a pravidla 9 Lineární a polynomiální klasifikace 10 Perceptron a neuronové sítě s dopřednou strukturou 11 Testování modelů 12 Kombinování modelů a výběr příznaků 13 Rezerva (aplikace vytěžování dat) Parametrické Neparametrické Filip Železný (ČVUT) Vytěžování dat 27 / 27