Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych
|
|
- Bogna Pawlik
- 7 lat temu
- Przeglądów:
Transkrypt
1 Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych Nguyen Hung Son Nguyen Hung Son () Data mining 1 / 39
2 Funkcja rekurencyjna buduj drzewo(u, dec, T): 1: if (kryterium stopu(u, dec) = true) then 2: T.etykieta = kategoria(u, dec); 3: return; 4: end if 5: t := wybierz test(u, TEST); 6: T.test := t; 7: for v R t do 8: U v := {x U : t(x) = v}; 9: utwórz nowe poddrzewo T ; 10: T.ga l aź(v) = T ; 11: buduj drzewo(u v, dec, T ) 12: end for Nguyen Hung Son () Data mining 2 / 39
3 Funkcje pomocnicze Kryterium stopu: Zatrzymamy konstrukcji drzewa, gdy aktualny zbiór obiektów: jest pusty lub zawiera obiekty wy l acznie jednej klasy decyzyjnej lub nie ulega podziale przez żaden test Wyznaczenie etykiety zasada wiekszościow a: kategoria(p, dec) = arg max c V dec P [dec=c] tzn., etykieta dla danego zbioru obiektów jest klasa decyzyjna najliczniej reprezentowana w tym zbiorze. Kryterium wyboru testu: heurytyczna funkcja oceniajaca testy. Nguyen Hung Son () Data mining 3 / 39
4 Miary różnorodności zbioru Każdy zbiór obiektów X ulega podziale na klasy decyzyjne: X = C 1 C 2... C d gdzie C i = {u X : dec(u) = i}. Wektor (p 1,..., p r ), gdzie p i = C i X, nazywamy rozk ladem klas decyzyjnych w X. Conflict(X) = i<j C i C j = 1 2 ( X 2 C i 2) Entropy(X) = C i X log C i X = p i log p i Gini(X) = 1 p 2 i Nguyen Hung Son () Data mining 4 / 39
5 Ocena funkcji testu Każdy test t jest oceniony na podstawie informacji zawartych w X, X 1,..., X nt Podzia l zbioru X dokonany przez test t; Nguyen Hung Son () Data mining 5 / 39
6 Ocena funkcji testu Rozróżnialność: disc(t, X) = conflict(x) conflict(x i ) Przyrostu informacji (Information gain). Gini s index Gain(t, X) = Entropy(X) X i X Entropy(X i) G(t, X) = Gini(X) X i X Gini(X i) Kara za zbyt drobny podzia l, np. gain ratio Gain ratio = Gain(t, X) r X i i=1 X log X i X Nguyen Hung Son () Data mining 6 / 39
7 Przyk lad Nguyen Hung Son () Data mining 7 / 39
8 S labości standardowego algorytmu: Każdy weze l jest skojarzony z podzbiorem danych: ograniczenie pamieciowe Wyznaczenie najlepszego podzia lu wymaga wielokrotnego sortowania danych: czasoch lonne Dany atrybut rzeczywisty a i zbiór możliwych cieć (c 1, c 2,...c N ), najlepszy test (a, c i ) można znaleźć w czasie Ω(N) Minimalna liczba prostych zapytań SQL potrzebna do szukania najlepszego testu jest O(dN), gdzie d jest liczba klas decyzyjnych Wniosek: szukanie najlepszego podzia lu jest kosztowne, jeśli atrybut zawiera dużo różnych wartości. Nguyen Hung Son () Data mining 8 / 39
9 Charaterystyka algorytmu SPRINT Nadaje si e dla danych cz eściowo umieszczonych na dysku Używa si e techniki pre-sortowania w celu przyspieszenia procesu obliczenia na atrybutach rzeczywistych; Dane sa sortowane tylko raz przed obliczeniem Latwo można zrównoleglić Nguyen Hung Son () Data mining 9 / 39
10 Struktura danych w SPRINT Każdy atrybut ma swoja liste wartości Każdy element listy ma trzy pole: - wartość atrybutu, - numer klasy i - rid (numer obiektu w zbiorze danych) Rzeczywiste atrybuty sa uporzadkowane (tylko raz przy utworzeniu) Na poczatku listy sa stowarzyszone z korzeniem drzewa Kiedy weze l podlega podziale, listy sa podzielone i sa skojarzone z odpowiednimi nastepnikami Listy sa zapisane na dysku w razie potrzeby Nguyen Hung Son () Data mining 10 / 39
11 Przyk lad Nguyen Hung Son () Data mining 11 / 39
12 Struktura danych w SPRINT SPRINT używa: indeksu Gini do oceny jakości podzia lu testu typu (a c) dla atrybutów rzeczywistych testu typu (a V ) dla atrybutów symbolicznych Histogram: rozk lad klas decyzyjnych zbadanego zbioru danych Dla atrybutu rzeczywistego dwa histogramy: C below : histogram dla danych poniżej wartości progowej C above : histogram dla danych powyżej wartości progowej Dla atrybutu symbolicznego jeden histogram zwany count matrix Nguyen Hung Son () Data mining 12 / 39
13 Przyk lad Car Type family sports sports family truck family Class High High High Low Low high rid Punkt podziału Age Class rid 17 High 1 20 High 5 23 High 0 32 Low 4 43 High 2 68 Low 3 Count matrix Histogram klas H L family 2 1 sports 2 0 Nguyen Hung Son () Data mining 13 / 39
14 Outline 1 Motywacje 2 Algorytm SPRINT Szukanie najlepszego podzia lu Dokonanie podzia lu SPRINT - wersja równoleg la 3 Metoda Wnioskowania Boolowskiego Nguyen Hung Son () Data mining 14 / 39
15 Wyznaczanie podzia lu atrybutu rzeczywistego Nguyen Hung Son () Data mining 15 / 39
16 Wyznaczanie podzia lu atrybutu symbolicznego Lista wartości CarType Count Matrix Car Type Class rid family High 0 H L sports High 1 family 2 1 sports High 2 family Low 3 sports 2 0 truck Low 4 truck 0 1 family high 5 1. Wyznacz macierz rozkładu klas obiektów w danym węźle 2. Używając algorytmu aproksymacyjnego (w SLIQ) wyznacz podzbiór wartości V D a t. żeby test (a V) był optymalny Nguyen Hung Son () Data mining 16 / 39
17 Outline 1 Motywacje 2 Algorytm SPRINT Szukanie najlepszego podzia lu Dokonanie podzia lu SPRINT - wersja równoleg la 3 Metoda Wnioskowania Boolowskiego Nguyen Hung Son () Data mining 17 / 39
18 G lówna idea Każda lista jest podzielona na dwie listy Atrybut zawierajacy test: Podziel wartości listy zgodnie z testem Atrybut niewierajacy test: Nie można korzystać z informacji w funkcji testu. Skorzystaj z rid Skorzystaj z tablicy haszujacej Przy podziale atrybutu zawierajacy test: wstaw rid rekordów do tablicy haszujacej. Tablica haszujaca: informacje o tym do którego poddrzewa rekord zosta l przeniesiony. Algorytm: Przegladaj kolejny rekord listy Dla każdego rekordu wyznacz (na podstawie tablicy haszujacej) poddrzewo, do którego rekord ma być przeniesiony Nguyen Hung Son () Data mining 18 / 39
19 Problem: zbyt duża tablica haszujaca Algorytm: Krok 1: Podziel zbiór wartości atrybutu testujacego na ma le porcje tak, żeby tablica haszujaca mieści la sie w pamieci Krok 2: Dla każdej porcji Podziel rekordy atrybutu testujacego do w laściwego podrzewa Buduj tablice haszujacej Przegladaj kolejny rekord atrybutu nietestujacego i przynieś go do odpowiedniego poddrzewa jeśli rekord wystepuje w tablicy haszujacej Krok 3: Jeśli wszystkie rekordy zosta ly przydzielone do poddrzew stop, wpp. idź do krok 2 Nguyen Hung Son () Data mining 19 / 39
20 Outline 1 Motywacje 2 Algorytm SPRINT Szukanie najlepszego podzia lu Dokonanie podzia lu SPRINT - wersja równoleg la 3 Metoda Wnioskowania Boolowskiego Nguyen Hung Son () Data mining 20 / 39
21 Równoleg ly SPRINT Listy wartości atrybutów sa równo podzielone Atrybut rzeczywisty: sortuj zbiór wartości i podziel go na równe przedzia ly Atrybut numeryczny: podziel wed lug rid Każdy procesor ma jedna cześć każdej listy Nguyen Hung Son () Data mining 21 / 39
22 Szukanie najlepszego podzia lu Dla atrybutu rzeczywistego: Każdy procesor ma przedzia l wartości atrybutu Każdy procesor inicjalizuje C below i C above uwzgledniaj ac rozk lad klas w innych procesorach Każdy procesor przeglada swoja liste i wyznacza najlepsza lokalna wartość progowa Procesory komunikuja sie w celu znalezienia globalnie najlepszego ciecia Dla atrybutu symbolicznego: Każdy procesor buduje lokalne count matrix i wysy la wynik do centralnego procesora Centralny procesor oblicza globalny count matrix Procesory wyznaczaja najlepszy podzia l na podstawie globalnego count matrix Nguyen Hung Son () Data mining 22 / 39
23 Przyk lad Procesor 0 Age Class rid 17 High 1 20 High 5 23 High 0 Car Type Class rid family High 0 sports High 1 sports High 2 Procesor 1 Age Class rid 32 Low 4 43 High 2 68 Low 3 Car Type Class rid family Low 3 truck Low 4 family high 5 Nguyen Hung Son () Data mining 23 / 39
24 Dokonanie podzia lu Podzia l atrybutu zawierajacy test: Każdy procesor wyznacza poddrzewa, do których rekordy w lokalnej liście bed a przeniesione Procesory wymieniaja ze soba informacje rids, poddrzewo Podzia l pozosta lych atrybutów: Po otrzymaniu informacji ze wszystkich procesorów każdy procesor buduje tablice haszujac a i wykonuje podzia ly dla pozosta lych atrybutów Nguyen Hung Son () Data mining 24 / 39
25 Wady algorytmu SPRINT Dodatkowe struktury danych Nieefektywny jeśli atrybut ma dużo wartości Nie wykorzystuje mocnych narz edzi systemów baz danych Nguyen Hung Son () Data mining 25 / 39
26 Dyskretyzacja S a b d 3 u u u u u u u Zmienne Boolowskie: p a 1, p a 2, p a 3, p a 4, p b 1, p b 2, p b 3 odpowiadaja(a, 0.9), (a, 1.15), (a, 1.35), (a, 1.5), (b, 0.75), (b, 1.5), (b, 2.5); Nguyen Hung Son () Data mining 26 / 39
27 Dyskretyzacja S a b d 3 u u u u u u u Zmienne Boolowskie: p a 1, p a 2, p a 3, p a 4, p b 1, p b 2, p b 3 odpowiadaja(a, 0.9), (a, 1.15), (a, 1.35), (a, 1.5), (b, 0.75), (b, 1.5), (b, 2.5); Funkcja kodujaca problem dyskretyzacji Φ S = ( p a 1 + p b 1 + p b ( 2) p a 1 + p a 2 + p b 3) (p a 1 + p a 2 + p a 3) ( p a 2 + p a 3 + p b ) 1 p b ( 2 p a 2 + p b 2 + p b ( 3) p a 2 + p a 3 + p a 4 + p b 1 + p b 2 + p b 3) (p a 3 + p a 4) ( p a 4 + p b ) ( 3 p a 2 + p b ) ( 1 p b 2 + p b ) ( 3 p a 3 + p b 2) Nguyen Hung Son () Data mining 26 / 39
28 Dyskretyzacja S a b d 3 u u u u u u u Zmienne Boolowskie: p a 1, p a 2, p a 3, p a 4, p b 1, p b 2, p b 3 odpowiadaja(a, 0.9), (a, 1.15), (a, 1.35), (a, 1.5), (b, 0.75), (b, 1.5), (b, 2.5); Funkcja kodujaca problem dyskretyzacji Φ S = ( p a 1 + p b 1 + p b ( 2) p a 1 + p a 2 + p b 3) (p a 1 + p a 2 + p a 3) ( p a 2 + p a 3 + p b ) 1 p b ( 2 p a 2 + p b 2 + p b ( 3) p a 2 + p a 3 + p a 4 + p b 1 + p b 2 + p b 3) (p a 3 + p a 4) ( p a 4 + p b ) ( 3 p a 2 + p b ) ( 1 p b 2 + p b ) ( 3 p a 3 + p b 2) Po redukcji: Φ S = p a 2p a 4p b 2 + p a 2p a 3p b 2p b 3 + p a 3p b 1p b 2p b 3 + p a 1p a 4p b 1p b 2. Nguyen Hung Son () Data mining 26 / 39
29 Dyskretyzacja S a b d 3 u u u u u u u Zmienne Boolowskie: p a 1, p a 2, p a 3, p a 4, p b 1, p b 2, p b 3 odpowiadaja(a, 0.9), (a, 1.15), (a, 1.35), (a, 1.5), (b, 0.75), (b, 1.5), (b, 2.5); Funkcja kodujaca problem dyskretyzacji Φ S = ( p a 1 + p b 1 + p b ( 2) p a 1 + p a 2 + p b 3) (p a 1 + p a 2 + p a 3) ( p a 2 + p a 3 + p b ) 1 p b ( 2 p a 2 + p b 2 + p b ( 3) p a 2 + p a 3 + p a 4 + p b 1 + p b 2 + p b 3) (p a 3 + p a 4) ( p a 4 + p b ) ( 3 p a 2 + p b ) ( 1 p b 2 + p b ) ( 3 p a 3 + p b 2) Po redukcji: Φ S = p a 2p a 4p b 2 + p a 2p a 3p b 2p b 3 + p a 3p b 1p b 2p b 3 + p a 1p a 4p b 1p b 2. Nguyen Hung Son () Data mining 26 / 39
30 MD-heuristics Funkcja Boolowska kodujaca problem dyskretyzacji posiada O(nk) zmiennych i O(n 2 ) klauzuli, gdzie n jest liczba obiektów, k jest liczba atrybutów. Nguyen Hung Son () Data mining 27 / 39
31 MD-heuristics Funkcja Boolowska kodujaca problem dyskretyzacji posiada O(nk) zmiennych i O(n 2 ) klauzuli, gdzie n jest liczba obiektów, k jest liczba atrybutów. W algorytmie zach lannej, preferujemy ciecia, które rozróżniaja najwiecej par obiektów. Nguyen Hung Son () Data mining 27 / 39
32 MD-heuristics Funkcja Boolowska kodujaca problem dyskretyzacji posiada O(nk) zmiennych i O(n 2 ) klauzuli, gdzie n jest liczba obiektów, k jest liczba atrybutów. W algorytmie zach lannej, preferujemy ciecia, które rozróżniaja najwiecej par obiektów. Taki algorytm nazywamy heurystyka MD. Opracowane sa wersje globalne i lokalne. Nguyen Hung Son () Data mining 27 / 39
33 MD-heuristics Funkcja Boolowska kodujaca problem dyskretyzacji posiada O(nk) zmiennych i O(n 2 ) klauzuli, gdzie n jest liczba obiektów, k jest liczba atrybutów. W algorytmie zach lannej, preferujemy ciecia, które rozróżniaja najwiecej par obiektów. Taki algorytm nazywamy heurystyka MD. Opracowane sa wersje globalne i lokalne. Bezpośrednia implementacja heurystyki MD (z użyciem funkcji Boolowskiej) wymaga O(n 3 k) obliczeń w każdym kroku. Nguyen Hung Son () Data mining 27 / 39
34 MD-heuristics Funkcja Boolowska kodujaca problem dyskretyzacji posiada O(nk) zmiennych i O(n 2 ) klauzuli, gdzie n jest liczba obiektów, k jest liczba atrybutów. W algorytmie zach lannej, preferujemy ciecia, które rozróżniaja najwiecej par obiektów. Taki algorytm nazywamy heurystyka MD. Opracowane sa wersje globalne i lokalne. Bezpośrednia implementacja heurystyki MD (z użyciem funkcji Boolowskiej) wymaga O(n 3 k) obliczeń w każdym kroku. Można realizować heurystyk e MD w czasie O(nk log n P ), gdzie P jest zbiorem ci eć znalezionych przez algorytm Nguyen Hung Son () Data mining 27 / 39
35 Dyskretyzacja za pomoca zapytań SQL Dany atrybut rzeczywisty a i zbiór możliwych wartości progowych (t 1, t 2,...t N ), najlepszy ci ecie (a, t Best ) można znaleźć w czasie O(N); Nguyen Hung Son () Data mining 28 / 39
36 Dyskretyzacja za pomoca zapytań SQL Dany atrybut rzeczywisty a i zbiór możliwych wartości progowych (t 1, t 2,...t N ), najlepszy ci ecie (a, t Best ) można znaleźć w czasie O(N); Minimalna liczba prostych zapytań SQL potrzebna do szukania najlepszego ciecia jest O(dN), gdzie d jest liczba klas decyzyjnych Nguyen Hung Son () Data mining 28 / 39
37 Dyskretyzacja za pomoca zapytań SQL Dany atrybut rzeczywisty a i zbiór możliwych wartości progowych (t 1, t 2,...t N ), najlepszy ci ecie (a, t Best ) można znaleźć w czasie O(N); Minimalna liczba prostych zapytań SQL potrzebna do szukania najlepszego ciecia jest O(dN), gdzie d jest liczba klas decyzyjnych Przedstawione w rozprawie 3 techniki pozwalajace wyznaczyć najlepsze ciecie za pomoca O(d log N) zapytań: Nguyen Hung Son () Data mining 28 / 39
38 Dyskretyzacja za pomoca zapytań SQL Dany atrybut rzeczywisty a i zbiór możliwych wartości progowych (t 1, t 2,...t N ), najlepszy ci ecie (a, t Best ) można znaleźć w czasie O(N); Minimalna liczba prostych zapytań SQL potrzebna do szukania najlepszego ciecia jest O(dN), gdzie d jest liczba klas decyzyjnych Przedstawione w rozprawie 3 techniki pozwalajace wyznaczyć najlepsze ciecie za pomoca O(d log N) zapytań: Eliminacja cieć nie bed acych brzegami; Nguyen Hung Son () Data mining 28 / 39
39 Dyskretyzacja za pomoca zapytań SQL Dany atrybut rzeczywisty a i zbiór możliwych wartości progowych (t 1, t 2,...t N ), najlepszy ci ecie (a, t Best ) można znaleźć w czasie O(N); Minimalna liczba prostych zapytań SQL potrzebna do szukania najlepszego ciecia jest O(dN), gdzie d jest liczba klas decyzyjnych Przedstawione w rozprawie 3 techniki pozwalajace wyznaczyć najlepsze ciecie za pomoca O(d log N) zapytań: Eliminacja cieć nie bed acych brzegami; Obcinanie ogonków; Nguyen Hung Son () Data mining 28 / 39
40 Dyskretyzacja za pomoca zapytań SQL Dany atrybut rzeczywisty a i zbiór możliwych wartości progowych (t 1, t 2,...t N ), najlepszy ci ecie (a, t Best ) można znaleźć w czasie O(N); Minimalna liczba prostych zapytań SQL potrzebna do szukania najlepszego ciecia jest O(dN), gdzie d jest liczba klas decyzyjnych Przedstawione w rozprawie 3 techniki pozwalajace wyznaczyć najlepsze ciecie za pomoca O(d log N) zapytań: Eliminacja cieć nie bed acych brzegami; Obcinanie ogonków; Strategia dziel i rzadź Nguyen Hung Son () Data mining 28 / 39
41 Obcinanie ogonków Distribution for first class Median(1) Distribution for second class Median(2) Distribution for third class Median(3) Nguyen Hung Son () Data mining 29 / 39
42 Dziel i rzadź Podziel zbiór wartości atrybutu na k przedzia lów Oceń przedzia ly, aby zgadnać który z przedzia lów zawiera najlepsze ciecie Eval([c L, c R ]) = W (c L) + W (c R ) + conflict([c L, c R ]) 2 Wybierz najlepszy przedzia l (lub odrzuć s labe przedzia ly); Powtórz proces dla wybranego przedzia lu (wybranych przedzia lów); + Nguyen Hung Son () Data mining 30 / 39
43 ABR w problemie dyskretyzacji Dziel i rzadź jest kolejnym przyk ladem podejścia ABR: Nguyen Hung Son () Data mining 31 / 39
44 ABR w problemie dyskretyzacji Dziel i rzadź jest kolejnym przyk ladem podejścia ABR: Analizujemy przedzia ly, czyli zbiory zmiennych Boolowskich (lub zbiory odpowiednich cieć) zamiast pojedynczych cieć; Nguyen Hung Son () Data mining 31 / 39
45 ABR w problemie dyskretyzacji Dziel i rzadź jest kolejnym przyk ladem podejścia ABR: Analizujemy przedzia ly, czyli zbiory zmiennych Boolowskich (lub zbiory odpowiednich cieć) zamiast pojedynczych cieć; Wykorzystane sa cechy zwiazane z porzadkiem liniowym na cieciach; Nguyen Hung Son () Data mining 31 / 39
46 ABR w problemie dyskretyzacji Dziel i rzadź jest kolejnym przyk ladem podejścia ABR: Analizujemy przedzia ly, czyli zbiory zmiennych Boolowskich (lub zbiory odpowiednich cieć) zamiast pojedynczych cieć; Wykorzystane sa cechy zwiazane z porzadkiem liniowym na cieciach; Przedstawione sa metody zarówno na pojedynczych atrybutach jak i na wszystkich atrybutach. Nguyen Hung Son () Data mining 31 / 39
47 ABR w problemie dyskretyzacji Dziel i rzadź jest kolejnym przyk ladem podejścia ABR: Analizujemy przedzia ly, czyli zbiory zmiennych Boolowskich (lub zbiory odpowiednich cieć) zamiast pojedynczych cieć; Wykorzystane sa cechy zwiazane z porzadkiem liniowym na cieciach; Przedstawione sa metody zarówno na pojedynczych atrybutach jak i na wszystkich atrybutach. Eksperymenty pokazuja, że znalezione ciecia sa dość bliskie optymalnych; Nguyen Hung Son () Data mining 31 / 39
48 ABR w problemie dyskretyzacji Dziel i rzadź jest kolejnym przyk ladem podejścia ABR: Analizujemy przedzia ly, czyli zbiory zmiennych Boolowskich (lub zbiory odpowiednich cieć) zamiast pojedynczych cieć; Wykorzystane sa cechy zwiazane z porzadkiem liniowym na cieciach; Przedstawione sa metody zarówno na pojedynczych atrybutach jak i na wszystkich atrybutach. Eksperymenty pokazuja, że znalezione ciecia sa dość bliskie optymalnych; Opracowane sa podobne metody dla miary entropii; Nguyen Hung Son () Data mining 31 / 39
49 ABR w problemie dyskretyzacji Dziel i rzadź jest kolejnym przyk ladem podejścia ABR: Analizujemy przedzia ly, czyli zbiory zmiennych Boolowskich (lub zbiory odpowiednich cieć) zamiast pojedynczych cieć; Wykorzystane sa cechy zwiazane z porzadkiem liniowym na cieciach; Przedstawione sa metody zarówno na pojedynczych atrybutach jak i na wszystkich atrybutach. Eksperymenty pokazuja, że znalezione ciecia sa dość bliskie optymalnych; Opracowane sa podobne metody dla miary entropii; Można te metode wykorzystać do konstrukcji drzew decyzyjnych z dużych zbiorów danych; Nguyen Hung Son () Data mining 31 / 39
50 ABR w problemie dyskretyzacji Dziel i rzadź jest kolejnym przyk ladem podejścia ABR: Analizujemy przedzia ly, czyli zbiory zmiennych Boolowskich (lub zbiory odpowiednich cieć) zamiast pojedynczych cieć; Wykorzystane sa cechy zwiazane z porzadkiem liniowym na cieciach; Przedstawione sa metody zarówno na pojedynczych atrybutach jak i na wszystkich atrybutach. Eksperymenty pokazuja, że znalezione ciecia sa dość bliskie optymalnych; Opracowane sa podobne metody dla miary entropii; Można te metode wykorzystać do konstrukcji drzew decyzyjnych z dużych zbiorów danych;... i do znalezienia elastycznych ci eć. Nguyen Hung Son () Data mining 31 / 39
51 Soft cuts and soft DT A soft cut is any triple p = a, l, r, where a A is an attribute, l, r R are called the left and right bounds of p ; the value ε = r l 2 is called the uncertain radius of p. We say that a soft cut p discerns a pair of objects x 1, x 2 if a (x 1 ) < l and a (x 2 ) > r. l r a The intuitive meaning of p = a, l, r : there is a real cut somewhere between l and r. for any value v [l, r] we are not able to check if v is either on the left side or on the right side of the real cut. [l, r] is an uncertain interval of the soft cut p. normal cut can be treated as soft cut of radius 0. Nguyen Hung Son () Data mining 32 / 39
52 Soft Decision Tree The test functions can be defined by soft cuts Here we propose two strategies using described above soft cuts: fuzzy decision tree: any new object u can be classified as follows: For every internal node, compute the probability that u turns left and u turns right; For every leave L compute the probability that u is reaching L; The decision for u is equal to decision labeling the leaf with largest probability. rough decision tree: in case of uncertainty Use both left and right subtrees to classify the new object; Put together their answer and return the answer vector; Vote for the best decision class. Nguyen Hung Son () Data mining 33 / 39
53 Searching for soft cuts STANDARD ALGORITHM FOR BEST CUT For a given attribute a and a set of candidate cuts {c 1,..., c N }, the best cut (a, c i ) with respect to given heuristic measure can be founded in time Ω(N). F : {c 1,..., c N } R + The minimal number of simple SQL queries of form SELECT COUNT FROM datatable WHERE (a BETWEEN c L AND c R ) GROUPED BY d. necessary to find out the best cut is Ω(dN) OUR PROPOSITIONS FOR SOFT CUTS Tail cuts can be eliminated Divide and Conquer Technique Nguyen Hung Son () Data mining 34 / 39
54 Divide and Conquer Technique This measure should estimate the quality of the best cut from [c L ; c R ]. Nguyen Hung Son () Data mining 35 / 39 The algorithm outline: 1. Divide the set of possible cuts into k intervals 2. Chose the interval to which the best cut may belong with the highest probability. 3. If the considered interval is not STABLE enough then Go to Step 1 4. Return the current interval as a result. The number of SQL queries is O(d k log k n) and is minimum for k = 3; How to define the measure evaluating the quality of the interval [c L ; c R ]?
55 Discernibility measure: We construct estimation measures for intervals in four cases: Independency assumption Dependency assumption Under dependency assumption, i.e. x 1 M 1 x 2 M 2... x d M d Discernibility measure Entropy Measure???? x x d M M d = x M discernibility measure for [c L ; c R ] can be estimated by: W (c L ) + W (c R ) + conflict(c L ; c R ) 2 =: t [0, 1] + [W (c R) W (c L )] 2 conflict(c L ; x R ) Nguyen Hung Son () Data mining 36 / 39
56 Under dependency assumption, i.e. x 1,..., x d are independent random variables with uniform distribution over sets {0,..., M 1 },..., {0,..., M d }, respectively. The mean E(W (c)) for any cut c [c L ; c R ] satisfies E(W (c)) = W (c L) + W (c R ) + conflict(c L ; c R ) 2 and for the standard deviation of W (c) we have D 2 (W (c)) = 2 n M i(m i + 2) j L j ) 12 j i(r i=1 One can construct the measure estimating quality of the best cut in [c L ; c R ] by Eval ([c L ; c R ], α) = E(W (c)) + α D 2 (W (c)) Nguyen Hung Son () Data mining 37 / 39
57 Example Nguyen Hung Son () Data mining 38 / 39
58 Conclusions Soft cuts as a novel discretization concept; Soft decision tree; Efficient method for construction of soft cuts from large data (one can reduce the number of simple queries from O(N) to O(log N) to construct the partition very close to the optimal one). Nguyen Hung Son () Data mining 39 / 39
Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych
Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych Funkcja rekurencyjna buduj drzewo(u, dec, T): 1: if (kryterium stopu(u, dec) = true) then 2: T.etykieta = kategoria(u, dec); 3: return; 4: end if 5:
Bardziej szczegółowoDrzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34
Drzewa decyzyjne Nguyen Hung Son Nguyen Hung Son () DT 1 / 34 Outline 1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie
Bardziej szczegółowoSystemy decyzyjne Wyk lad 4: Drzewa decyzyjne
Systemy decyzyjne Wyk lad 4: Outline Wprowadzenie 1 Wprowadzenie 2 Problem brakujacych wartości 3 Co to jest drzewo decyzyjne Jest to struktura drzewiasta, w której wez ly wewnetrzne zawieraja testy na
Bardziej szczegółowoWyk lad 8: Leniwe metody klasyfikacji
Wyk lad 8: Leniwe metody Wydzia l MIM, Uniwersytet Warszawski Outline 1 2 lazy vs. eager learning lazy vs. eager learning Kiedy stosować leniwe techniki? Eager learning: Buduje globalna hipoteze Zaleta:
Bardziej szczegółowoWyk lad 6: Drzewa decyzyjne
Wyk lad 6: Drzewa decyzyjne Outline 1 2 Konstrukcja drzew decyzyjnych Ogólny Kryterium wyboru testu Przycinanie drzew Problem brakujacych wartości 3 Soft cuts and soft Decision tree Co to jest drzewo decyzyjne
Bardziej szczegółowoData Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Bardziej szczegółowoSystemy decyzyjne Wykªad 5: Drzewa decyzyjne
Nguyen Hung Son () W5: Drzewa decyzyjne 1 / 38 Systemy decyzyjne Wykªad 5: Drzewa decyzyjne Nguyen Hung Son Przykªad: klasyfikacja robotów Nguyen Hung Son () W5: Drzewa decyzyjne 2 / 38 Przykªad: drzewo
Bardziej szczegółowoMachine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis
Machine Learning for Data Science (CS4786) Lecture11 5 Random Projections & Canonical Correlation Analysis The Tall, THE FAT AND THE UGLY n X d The Tall, THE FAT AND THE UGLY d X > n X d n = n d d The
Bardziej szczegółowoHard-Margin Support Vector Machines
Hard-Margin Support Vector Machines aaacaxicbzdlssnafiyn9vbjlepk3ay2gicupasvu4iblxuaw2hjmuwn7ddjjmxm1bkcg1/fjqsvt76fo9/gazqfvn8y+pjpozw5vx8zkpvtfxmlhcwl5zxyqrm2vrg5zw3vxmsoezi4ogkr6phieky5crvvjhriqvdom9l2xxftevuwcekj3lktmhghgniauiyutvrwxtvme34a77kbvg73gtygpjsrfati1+xc8c84bvraowbf+uwnipyehcvmkjrdx46vlykhkgykm3ujjdhcyzqkxy0chur6ax5cbg+1m4bbjptjcubuz4kuhvjoql93hkin5hxtav5x6yyqopnsyuneey5ni4keqrxbar5wqaxbik00icyo/iveiyqqvjo1u4fgzj/8f9x67bzmxnurjzmijtlybwfgcdjgfdtajwgcf2dwaj7ac3g1ho1n4814n7wwjgjmf/ys8fenfycuzq==
Bardziej szczegółowoMachine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering
Machine Learning for Data Science (CS4786) Lecture 11 Spectral Embedding + Clustering MOTIVATING EXAMPLE What can you say from this network? MOTIVATING EXAMPLE How about now? THOUGHT EXPERIMENT For each
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Bardziej szczegółowoRozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów
Rozpoznawanie twarzy metodą PCA Michał Bereta www.michalbereta.pl 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Wiemy, że możemy porównywad klasyfikatory np. za pomocą kroswalidacji.
Bardziej szczegółowoHelena Boguta, klasa 8W, rok szkolny 2018/2019
Poniższy zbiór zadań został wykonany w ramach projektu Mazowiecki program stypendialny dla uczniów szczególnie uzdolnionych - najlepsza inwestycja w człowieka w roku szkolnym 2018/2019. Składają się na
Bardziej szczegółowoTTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 9: Inference in Structured Prediction 1 intro (1 lecture) Roadmap deep learning for NLP (5 lectures) structured prediction
Bardziej szczegółowoWeronika Mysliwiec, klasa 8W, rok szkolny 2018/2019
Poniższy zbiór zadań został wykonany w ramach projektu Mazowiecki program stypendialny dla uczniów szczególnie uzdolnionych - najlepsza inwestycja w człowieka w roku szkolnym 2018/2019. Tresci zadań rozwiązanych
Bardziej szczegółowoRevenue Maximization. Sept. 25, 2018
Revenue Maximization Sept. 25, 2018 Goal So Far: Ideal Auctions Dominant-Strategy Incentive Compatible (DSIC) b i = v i is a dominant strategy u i 0 x is welfare-maximizing x and p run in polynomial time
Bardziej szczegółowoLinear Classification and Logistic Regression. Pascal Fua IC-CVLab
Linear Classification and Logistic Regression Pascal Fua IC-CVLab 1 aaagcxicbdtdbtmwfafwdgxlhk8orha31ibqycvkdgpshdqxtwotng2pxtvqujmok1qlky5xllzrnobbediegwcap4votk2kqkf+/y/tnphdschtadu/giv3vtea99cfma8fpx7ytlxx7ckns4sylo3doom7jguhj1hxchmy/irhrlgh67lxb5x3blis8jjqynmedqujiu5zsqqagrx+yjcfpcrydusshmzeluzsg7tttiew5khhcuzm5rv0gn1unw6zl3gbzlpr3liwncyr6aaqinx4wnc/rpg6ix5szd86agoftuu0g/krjxdarph62enthdey3zn/+mi5zknou2ap+tclvhob9sxhwvhaqketnde7geqjp21zvjsfrcnkfhtejoz23vq97elxjlpbtmxpl6qxtl1sgfv1ptpy/yq9mgacrzkgje0hjj2rq7vtywnishnnkzsqekucnlblrarlh8x8szxolrrxkb8n6o4kmo/e7siisnozcfvsedlol60a/j8nmul/gby8mmssrfr2it8lkyxr9dirxxngzthtbaejv
Bardziej szczegółowoutrzymania swoich obecnych klientów i dowiedzia la sie, że metody data mining moga
Imiȩ i nazwisko: Nr indeksu: Egzamin z Wyk ladu Monograficznego p.t. DATA MINING 1. (6 pkt.) Firma X jest dostawca us lug po l aczeń bezprzewodowych (wireless) w USA, która ma 34.6 milionów klientów. Firma
Bardziej szczegółowo< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >
Typy indeksów Indeks jest zakładany na atrybucie relacji atrybucie indeksowym (ang. indexing field). Indeks zawiera wartości atrybutu indeksowego wraz ze wskaźnikami do wszystkich bloków dyskowych zawierających
Bardziej szczegółowoPodstawy Informatyki. Metody dostępu do danych
Podstawy Informatyki c.d. alina.momot@polsl.pl http://zti.polsl.pl/amomot/pi Plan wykładu 1 Bazy danych Struktury danych Średni czas odszukania rekordu Drzewa binarne w pamięci dyskowej 2 Sformułowanie
Bardziej szczegółowoWYKŁAD 11 Uczenie maszynowe drzewa decyzyjne
WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne
Bardziej szczegółowoDrzewa AVL definicje
Drzewa AVL definicje Uporzadkowane drzewo binarne jest drzewem AVL 1, jeśli dla każdego wez la różnica wysokości dwóch jego poddrzew wynosi co najwyżej 1. M D S C H F K Z typowe drzewo AVL minimalne drzewa
Bardziej szczegółowotum.de/fall2018/ in2357
https://piazza.com/ tum.de/fall2018/ in2357 Prof. Daniel Cremers From to Classification Categories of Learning (Rep.) Learning Unsupervised Learning clustering, density estimation Supervised Learning learning
Bardziej szczegółowoKlasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2
Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję
Bardziej szczegółowoA Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Bardziej szczegółowoDrzewa podstawowe poj
Drzewa podstawowe poj ecia drzewo graf reprezentujacy regularna strukture wskaźnikowa, gdzie każdy element zawiera dwa lub wiecej wskaźników (ponumerowanych) do takich samych elementów; wez ly (albo wierzcho
Bardziej szczegółowoIndeksowanie w bazach danych
w bazach Katedra Informatyki Stosowanej AGH 5grudnia2013 Outline 1 2 3 4 Czym jest indeks? Indeks to struktura, która ma przyspieszyć wyszukiwanie. Indeks definiowany jest dla atrybutów, które nazywamy
Bardziej szczegółowoAlgorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Bardziej szczegółowoKompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Bardziej szczegółowoTadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
: idea Indeksowanie: Drzewo decyzyjne, przeszukiwania binarnego: F = {5, 7, 10, 12, 13, 15, 17, 30, 34, 35, 37, 40, 45, 50, 60} 30 12 40 7 15 35 50 Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
Bardziej szczegółowoWprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów
Wprowadzenie do programu RapidMiner, część 2 Michał Bereta www.michalbereta.pl 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów Zaimportuj dane pima-indians-diabetes.csv. (Baza danych poświęcona
Bardziej szczegółowoModelowanie hierarchicznych struktur w relacyjnych bazach danych
Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego
Bardziej szczegółowoPRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR Wojciech Zieliński Katedra Ekonometrii i Statystyki SGGW Nowoursynowska 159, PL-02-767 Warszawa wojtek.zielinski@statystyka.info
Bardziej szczegółowoSystemy decyzyjne. Wykład 3: Wnioskowanie Boolowskie w obliczeniu Redutów i reguł decyzyjnych. Nguyen Hung Son. Nguyen Hung Son () 1 / 61
Systemy decyzyjne Wykład 3: Wnioskowanie Boolowskie w obliczeniu Redutów i reguł decyzyjnych Nguyen Hung Son Nguyen Hung Son () 1 / 61 Spis treści 1 Wprowadzenie do teorii zbiorów przybliżonych Systemy
Bardziej szczegółowoOpenPoland.net API Documentation
OpenPoland.net API Documentation Release 1.0 Michał Gryczka July 11, 2014 Contents 1 REST API tokens: 3 1.1 How to get a token............................................ 3 2 REST API : search for assets
Bardziej szczegółowoPrzykładowe B+ drzewo
Przykładowe B+ drzewo 3 8 1 3 7 8 12 Jak obliczyć rząd indeksu p Dane: rozmiar klucza V, rozmiar wskaźnika do bloku P, rozmiar bloku B, liczba rekordów w indeksowanym pliku danych r i liczba bloków pliku
Bardziej szczegółowoSSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like
SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1 I SSW1.1, HFW Fry #65, Zeno #67 Benchmark: Qtr.1 like SSW1.2, HFW Fry #47, Zeno #59 Benchmark: Qtr.1 do SSW1.2, HFW Fry #5, Zeno #4 Benchmark: Qtr.1 to SSW1.2,
Bardziej szczegółowoIndeksy. Wprowadzenie. Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny. Indeksy wielopoziomowe
1 Plan rozdziału 2 Indeksy Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny Indeksy wielopoziomowe Indeksy typu B-drzewo B-drzewo B+ drzewo B* drzewo Wprowadzenie 3 Indeks podstawowy
Bardziej szczegółowoMetody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Bardziej szczegółowoStruktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott
Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott Metody konstrukcji algorytmów: Siłowa (ang. brute force), Dziel i zwyciężaj (ang. divide-and-conquer), Zachłanna (ang.
Bardziej szczegółowoCo to są drzewa decyzji
Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni
Bardziej szczegółowoOracle PL/SQL. Paweł Rajba.
Paweł Rajba pawel@ii.uni.wroc.pl http://www.kursy24.eu/ Zawartość modułu 8 Wprowadzenie Definiowanie typu obiektowego Porównywanie obiektów Tabele z obiektami Operacje DML na obiektach Dziedziczenie -
Bardziej szczegółowoDrzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Bardziej szczegółowoy = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.
The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Eplain your answer, write in complete sentences. 1. Find the derivative of the functions y 7 (b) (a) ( ) y t 1 + t 1 (c)
Bardziej szczegółowoWnioskowanie Boolowskie i teoria zbiorów przybli»onych
Wnioskowanie Boolowskie i teoria zbiorów przybli»onych 4 Zbiory przybli»one Wprowadzenie do teorii zbiorów przybli»onych Zªo»ono± problemu szukania reduktów 5 Wnioskowanie Boolowskie w obliczaniu reduktów
Bardziej szczegółowoWysokość drzewa Głębokość węzła
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Bardziej szczegółowoAnalysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2
Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2 aaaklnictzzjb9tgfmcnadpg7oy0lxa9edva9kkapdarhyk2k7gourinlwsweyzikuyiigvyleiv/cv767fpf/5crc1xt9va5mx7w3m/ecuqw1kuztpx/rl3/70h73/w4cog9dhhn3z62d6jzy+yzj766txpoir9nzszisjynetqr+rvlfvyoozu5xbybpsxb1wahul8phczdt2v4zgchb7uecwphlyigrgkjcyiflfyci0kxnmr4z6kw0jsokvot8isntpa3gbknlcufiv/h+hh+eur4fomd417rvtfjoit5pfju6yxiab2fmwk0y/feuybobqk+axnke8xzjjhfyd8kkpl9zdoddkazd5j6bzpemjb64smjb6vb4xmehysu08lsrszopxftlzee130jcb0zjxy7r5wa2f1s2off2+dyatrughnrtpkuprlcpu55zlxpss/yqe2eamjkcf0jye8w8yas0paf6t0t2i9stmcua+inbi2rt01tz22tubbqwidypvgz6piynkpobirkxgu54ibzoti4pkw2i5ow9lnuaoabhuxfxqhvnrj6w15tb3furnbm+scyxobjhr5pmj5j/w5ix9wsa2tlwx9alpshlunzjgnrwvqbpwzjl9wes+ptyn+ypy/jgskavtl8j0hz1djdhzwtpjbbvpr1zj7jpg6ve7zxfngj75zee0vmp9qm2uvgu/9zdofq6r+g8l4xctvo+v+xdrfr8oxiwutycu0qgyf8icuyvp/sixfi9zxe11vp6mrjjovpmxm6acrtbia+wjr9bevlgjwlz5xd3rfna9g06qytaoofk8olxbxc7xby2evqjmmk6pjvvzxmpbnct6+036xp5vdbrnbdqph8brlfn/n/khnfumhf6z1v7h/80yieukkd5j0un82t9mynxzmk0s/bzn4tacdziszdhwrl8x5ako8qp1n1zn0k6w2em0km9zj1i4yt1pt3xiprw85jmc2m1ut2geum6y6es2fwx6c+wlrpykblopbuj5nnr2byygfy5opllv4+jmm7s6u+tvhywbnb0kv2lt5th4xipmiij+y1toiyo7bo0d+vzvovjkp6aoejsubhj3qrp3fjd/m23pay8h218ibvx3nicofvd1xi86+kh6nb/b+hgsjp5+qwpurzlir15np66vmdehh6tyazdm1k/5ejtuvurgcqux6yc+qw/sbsaj7lkt4x9qmtp7euk6zbdedyuzu6ptsu2eeu3rxcz06uf6g8wyuveznhkbzynajbb7r7cbmla+jbtrst0ow2v6ntkwv8svnwqnu5pa3oxfeexf93739p93chq/fv+jr8r0d9brhpcxr2w88bvqbr41j6wvrb+u5dzjpvx+veoaxwptzp/8cen+xbg==
Bardziej szczegółowoMachine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout
Machine Learning for Data Science (CS4786) Lecture 24 Differential Privacy and Re-useable Holdout Defining Privacy Defining Privacy Dataset + Defining Privacy Dataset + Learning Algorithm Distribution
Bardziej szczegółowowww.irs.gov/form990. If "Yes," complete Schedule A Schedule B, Schedule of Contributors If "Yes," complete Schedule C, Part I If "Yes," complete Schedule C, Part II If "Yes," complete Schedule C, Part
Bardziej szczegółowoIndukcja drzew decyzyjnych
Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Divide et impera
Bardziej szczegółowoProcedury i funkcje składowane
Procedury i funkcje składowane Zmienne podstawienia i zmienne wiązane, podprogramy, procedury składowane, typy argumentów, wywoływanie procedur, funkcje składowane, poziomy czystości funkcji, funkcje tablicowe
Bardziej szczegółowoMateriały. Technologie baz danych. Plan wykładu Kursory. Wykład 5: Kursory jawne. Podprogramy. Kursory jawne. Kursory niejawne
Materiały dostępne są na stronie: Materiały Technologie baz danych aragorn.pb.bialystok.pl/~gkret Wykład 5: Kursory jawne. Podprogramy. Małgorzata Krętowska Wydział Informatyki Politechnika Białostocka
Bardziej szczegółowoAlgorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
Bardziej szczegółowoZarządzanie sieciami komputerowymi - wprowadzenie
Zarządzanie sieciami komputerowymi - wprowadzenie Model zarządzania SNMP SNMP standardowy protokół zarządzania w sieci Internet stosowany w dużych sieciach IP (alternatywa logowanie i praca zdalna w każdej
Bardziej szczegółowoParadygmaty programowania. Paradygmaty programowania
Paradygmaty programowania Paradygmaty programowania Dr inż. Andrzej Grosser Cz estochowa, 2013 2 Spis treści 1. Zadanie 2 5 1.1. Wprowadzenie.................................. 5 1.2. Wskazówki do zadania..............................
Bardziej szczegółowoPreviously on CSCI 4622
More Naïve Bayes aaace3icbvfba9rafj7ew423vr998obg2gpzkojyh4rcx3ys4lafzbjmjifdototmhoilml+hf/mn3+kl+jkdwtr64gbj+8yl2/ywklhsfircg/dvnp33s796mhdr4+fdj4+o3fvywvorkuqe5zzh0oanjakhwe1ra5zhaf5xvgvn35f62rlvtcyxpnm50awundy1hzwi46jbmgprbtrrvidrg4jre4g07kak+picee6xfgiwvfaltorirucni64eeigkqhpegbwaxglabftpyq4gjbls/hw2ci7tr2xj5ddfmfzwtazj6ubmyddgchbzpf88dmrktfonct6vazputos5zakunhfweow5ukcn+puq8m1ulm7kq+d154pokysx4zgxw4nwq6dw+rcozwnhbuu9et/tgld5cgslazuci1yh1q2ynca/u9ais0kukspulds3xxegvtyfycu8iwk1598e0z2xx/g6ef94ehbpo0d9ok9yiowsvfskh1ix2zcbpsdvaxgww7wj4zdn+he2hogm8xz9s+e7/4cuf/ata==
Bardziej szczegółowoTTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 8: Structured PredicCon 2 1 Roadmap intro (1 lecture) deep learning for NLP (5 lectures) structured predic+on (4 lectures)
Bardziej szczegółowoREGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008
REGU LY ASOCJACYJNE Nguyen Hung Son Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski 28.II i 6.III, 2008 Nguyen Hung Son (MIMUW) W2 28.II i 6.III, 2008 1 / 38 Outline 1 Dane transakcyjne
Bardziej szczegółowoSubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS
Piotr Mikulski 2006 Subversion is a free/open-source version control system. That is, Subversion manages files and directories over time. A tree of files is placed into a central repository. The repository
Bardziej szczegółowoProcedury wyzwalane. (c) Instytut Informatyki Politechniki Poznańskiej 1
Procedury wyzwalane procedury wyzwalane, cel stosowania, typy wyzwalaczy, wyzwalacze na poleceniach DML i DDL, wyzwalacze typu INSTEAD OF, przykłady zastosowania, zarządzanie wyzwalaczami 1 Procedury wyzwalane
Bardziej szczegółowoMetody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2
Metody teorii gier ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier Cel: Wyprowadzenie oszacowania dolnego na oczekiwany czas działania dowolnego algorytmu losowego dla danego problemu.
Bardziej szczegółowoOptymalizacja zapytań. Proces przetwarzania i obliczania wyniku zapytania (wyrażenia algebry relacji) w SZBD
Optymalizacja zapytań Proces przetwarzania i obliczania wyniku zapytania (wyrażenia algebry relacji) w SZBD Elementy optymalizacji Analiza zapytania i przekształcenie go do lepszej postaci. Oszacowanie
Bardziej szczegółowoDrzewo. Drzewo uporządkowane ma ponumerowanych (oznaczonych) następników. Drzewo uporządkowane składa się z węzłów, które zawierają następujące pola:
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Bardziej szczegółowoFew-fermion thermometry
Few-fermion thermometry Phys. Rev. A 97, 063619 (2018) Tomasz Sowiński Institute of Physics of the Polish Academy of Sciences Co-authors: Marcin Płodzień Rafał Demkowicz-Dobrzański FEW-BODY PROBLEMS FewBody.ifpan.edu.pl
Bardziej szczegółowoStrategie ewolucyjne. Gnypowicz Damian Staniszczak Łukasz Woźniak Marek
Strategie ewolucyjne Gnypowicz Damian Staniszczak Łukasz Woźniak Marek Strategie ewolucyjne, a algorytmy genetyczne Podobieństwa: Oba działają na populacjach rozwiązań Korzystają z zasad selecji i przetwarzania
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Bardziej szczegółowoIndukowane Reguły Decyzyjne I. Wykład 3
Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie
Bardziej szczegółowoAlgorytmy i. Wykład 5: Drzewa. Dr inż. Paweł Kasprowski
Algorytmy i struktury danych Wykład 5: Drzewa Dr inż. Paweł Kasprowski pawel@kasprowski.pl Drzewa Struktury przechowywania danych podobne do list ale z innymi zasadami wskazywania następników Szczególny
Bardziej szczegółowoMetody getter https://www.python-course.eu/python3_object_oriented_programming.php 0_class http://interactivepython.org/runestone/static/pythonds/index.html https://www.cs.auckland.ac.nz/compsci105s1c/lectures/
Bardziej szczegółowoTychy, plan miasta: Skala 1: (Polish Edition)
Tychy, plan miasta: Skala 1:20 000 (Polish Edition) Poland) Przedsiebiorstwo Geodezyjno-Kartograficzne (Katowice Click here if your download doesn"t start automatically Tychy, plan miasta: Skala 1:20 000
Bardziej szczegółowoAlgorytmy Równoległe i Rozproszone Część V - Model PRAM II
Algorytmy Równoległe i Rozproszone Część V - Model PRAM II Łukasz Kuszner pokój 209, WETI http://www.sphere.pl/ kuszner/ kuszner@sphere.pl Oficjalna strona wykładu http://www.sphere.pl/ kuszner/arir/ 2005/06
Bardziej szczegółowoTraceability. matrix
Traceability matrix Radek Smilgin W testowaniu od 2002 roku Tester, test manager, konsultant Twórca testerzy.pl i mistrzostw w testowaniu Fan testowania eksploracyjnego i testowania w agile [zdjecie wikipedia:
Bardziej szczegółowoDynamiczny przydział pamięci w języku C. Dynamiczne struktury danych. dr inż. Jarosław Forenc. Metoda 1 (wektor N M-elementowy)
Rok akademicki 2012/2013, Wykład nr 2 2/25 Plan wykładu nr 2 Informatyka 2 Politechnika Białostocka - Wydział Elektryczny Elektrotechnika, semestr III, studia niestacjonarne I stopnia Rok akademicki 2012/2013
Bardziej szczegółowoSztuczna Inteligencja i Systemy Doradcze
Sztuczna Inteligencja i Systemy Doradcze Przeszukiwanie przestrzeni stanów algorytmy ślepe Przeszukiwanie przestrzeni stanów algorytmy ślepe 1 Strategie slepe Strategie ślepe korzystają z informacji dostępnej
Bardziej szczegółowoKOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów
KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów SQL3 wprowadza następujące kolekcje: zbiory ( SETS ) - zestaw elementów bez powtórzeń, kolejność nieistotna listy ( LISTS ) - zestaw
Bardziej szczegółowoLaboratorium 6. Indukcja drzew decyzyjnych.
Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Bardziej szczegółowoZłożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.
Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Plan wykładu Generowanie
Bardziej szczegółowoDrzewa klasyfikacyjne algorytm podstawowy
DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą
Bardziej szczegółowoKolejka priorytetowa. Często rozważa się kolejki priorytetowe, w których poszukuje się elementu minimalnego zamiast maksymalnego.
Kolejki Kolejka priorytetowa Kolejka priorytetowa (ang. priority queue) to struktura danych pozwalająca efektywnie realizować następujące operacje na zbiorze dynamicznym, którego elementy pochodzą z określonego
Bardziej szczegółowoInstrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX
UNIWERSYTETU BIBLIOTEKA IEGO UNIWERSYTETU IEGO Instrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX 1. Make a new connection Open the System Preferences by going to the Apple menu
Bardziej szczegółowoWstęp do Programowania potok funkcyjny
Wstęp do Programowania potok funkcyjny Marcin Kubica 2010/2011 Outline Zasada dziel i rządź i analiza złożoności 1 Zasada dziel i rządź i analiza złożoności Definition : Zbiór wartości: nieograniczonej
Bardziej szczegółowoAgnostic Learning and VC dimension
Agnostic Learning and VC dimension Machine Learning Spring 2019 The slides are based on Vivek Srikumar s 1 This Lecture Agnostic Learning What if I cannot guarantee zero training error? Can we still get
Bardziej szczegółowoKolekcje Zbiory obiektów, rodzaje: tablica o zmiennym rozmiarze (ang. varray) (1) (2) (3) (4) (5) Rozszerzenie obiektowe w SZBD Oracle
Rozszerzenie obiektowe w SZBD Oracle Cześć 2. Kolekcje Kolekcje Zbiory obiektów, rodzaje: tablica o zmiennym rozmiarze (ang. varray) (1) (2) (3) (4) (5) Malinowski Nowak Kowalski tablica zagnieżdżona (ang.
Bardziej szczegółowoAnaliza Sieci Społecznych Pajek
Analiza Sieci Społecznych Pajek Dominik Batorski Instytut Socjologii UW 25 marca 2005 1 Wprowadzenie Regularności we wzorach relacji często są nazywane strukturą. Analiza sieci społecznych jest zbiorem
Bardziej szczegółowoData Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Bardziej szczegółowoSAS Podstawowe informacje przed ćwiczeniem 1
SAS Podstawowe informacje przed ćwiczeniem 1 Zasady tworzenia programów każda instrukcja zakończona się średnikiem małe i duże litery nie są rozróżniane instrukcje mogą być kontynuowane w następnej linii
Bardziej szczegółowoZarządzanie sieciami telekomunikacyjnymi
SNMP Protocol The Simple Network Management Protocol (SNMP) is an application layer protocol that facilitates the exchange of management information between network devices. It is part of the Transmission
Bardziej szczegółowoĆwiczenie 6. Hurtownie danych
Ćwiczenie 6. Hurtownie danych Drzewa decyzyjne 1. Reprezentacja drzewa decyzyjnego Metody uczenia si e drzew decyzyjnych to najcz eściej stosowane algorytmy indukcji symbolicznej reprezentacji wiedzy z
Bardziej szczegółowoKORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona
KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona 3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi
Bardziej szczegółowoMaPlan Sp. z O.O. Click here if your download doesn"t start automatically
Mierzeja Wislana, mapa turystyczna 1:50 000: Mikoszewo, Jantar, Stegna, Sztutowo, Katy Rybackie, Przebrno, Krynica Morska, Piaski, Frombork =... = Carte touristique (Polish Edition) MaPlan Sp. z O.O Click
Bardziej szczegółowowww.irs.gov/form990. If "Yes," complete Schedule A Schedule B, Schedule of Contributors If "Yes," complete Schedule C, Part I If "Yes," complete Schedule C, Part II If "Yes," complete Schedule C, Part
Bardziej szczegółowoSVM: Maszyny Wektorów Podpieraja cych
SVM 1 / 24 SVM: Maszyny Wektorów Podpieraja cych Nguyen Hung Son Outline SVM 2 / 24 1 Wprowadzenie 2 Brak liniowej separowalności danych Nieznaczna nieseparowalność Zmiana przetrzeń atrybutów 3 Implementacja
Bardziej szczegółowoConvolution semigroups with linear Jacobi parameters
Convolution semigroups with linear Jacobi parameters Michael Anshelevich; Wojciech Młotkowski Texas A&M University; University of Wrocław February 14, 2011 Jacobi parameters. µ = measure with finite moments,
Bardziej szczegółowoFunkcje w PL/SQL Funkcja to nazwany blok języka PL/SQL. Jest przechowywana w bazie i musi zwracać wynik. Z reguły, funkcji utworzonych w PL/SQL-u
Funkcje w PL/SQL Funkcja to nazwany blok języka PL/SQL. Jest przechowywana w bazie i musi zwracać wynik. Z reguły, funkcji utworzonych w PL/SQL-u będziemy używać w taki sam sposób, jak wbudowanych funkcji
Bardziej szczegółowoBaza danych dla potrzeb zgłębiania DMX
Baza danych dla potrzeb zgłębiania DMX ID Outlook Temperature Humidity Windy PLAY 1 sunny hot high false N 2 sunny hot high true N 3 overcast hot high false T 4rain mild high false T 5rain cool normal
Bardziej szczegółowoWstęp do programowania
Wstęp do programowania Złożoność obliczeniowa, poprawność programów Paweł Daniluk Wydział Fizyki Jesień 2013 P. Daniluk(Wydział Fizyki) WP w. XII Jesień 2013 1 / 20 Złożoność obliczeniowa Problem Ile czasu
Bardziej szczegółowoWojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
Bardziej szczegółowoKursor. Rozdział 10a Kursory. Otwieranie kursora. Deklarowanie kursora
Kursor Rozdział 10a Kursory Kursory i praca z kursorami, kursory jawne i niejawne, otwieranie kursora, pobieranie z kursora, zamykanie kursora, zmienne kursorowe, wyrażenie CURSOR Każde zapytanie SQL umieszczone
Bardziej szczegółowoStatystyka w analizie i planowaniu eksperymentu
29 marca 2011 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś
Bardziej szczegółowoZnajdowanie skojarzeń na maszynie równoległej
11 grudnia 2008 Spis treści 1 Skojarzenia w różnych klasach grafów Drzewa Grafy gęste Grafy regularne dwudzielne Claw-free graphs 2 Drzewa Skojarzenia w drzewach Fakt Wybierajac krawędź do skojarzenia
Bardziej szczegółowo