Plan laboratorium. Eksploracja danych. Co to jest eksploracja danych. Wprowadzenie do eksploracji danych
|
|
- Jadwiga Żurawska
- 8 lat temu
- Przeglądów:
Transkrypt
1 Plan laboratorium Eksploracja danych Wprowadzenie do eksploracji danych Pakiety PL/SQL i funkcje SQL Transformacja danych Algorytmy eksploracji danych określanie ważności atrybutów odkrywanie reguł asocjacyjnych klasyfikacja naiwny klasyfikator Bayesa drzewa decyzyjne analiza skupień Narzędzia graficzne: Oracle Data Miner, Weka, RapidMiner Co to jest eksploracja danych Wprowadzenie do eksploracji danych Proces odkrywania wzorców w dużych bazach danych Element procesu odkrywania wiedzy Liczne określenia: data mining, data dredging, data harvesting, data archeology, data pattern analysis, data fishing, data snooping Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy: Eksploracja danych to nowa dyscyplina badawcza, której celem jest odkrywanie i wydobywanie użytecznych, wcześniej nieznanych, nietrywialnych i zrozumiałych wzorców z dużych baz danych i hurtowni danych
2 Statystyka dla niedouczonych Ostrożnie z optymizmem Eksperymenty J.B.Rhine a z kartami Zenera jak często udaje się zgadnąć kolor karty (czarna/czerwona) 10 razy z rzędu? co się dzieje, jeśli osoba posiadająca ESP dowie się o tym? Ostrożnie z optymizmem Ostrożnie z optymizmem
3 Proces odkrywania wiedzy Metody eksploracji danych Elementy procesu odkrywania wiedzy (Fayyad et al., 1996) określenie problemu wybór danych czyszczenie danych integracja danych transformacja danych eksploracja danych ocena wzorców wykorzystanie wzorców analiza skupień odkrywanie anomalii reguły asocjacyjne odkrywanie cech klasyfikacja regresja ważność atrybutów kmeans OCluster One-Class SVM Apriori Non-Negative Matrix Factorization Naive Bayes Decision Tree Logistic Regression SVM Multiple Regression SVM Minimum Description Length Oracle Data Mining 11g Pakiety PL/SQL i funkcje SQL Pakiety PL/SQL DBMS_DATA_MINING DBMS_DATA_MINING_TRANSFORM DBMS_PREDICTIVE_ANALYTICS DBMS_FREQUENT_ITEMSET Funkcje SQL PREDICTION_* CLUSTER_* FEATURE_* Pakiety Java javax.datamining.* oracle.dmt.jdm.* Metadane
4 DBMS_DATA_MINING Pakiety PL/SQL zawiera procedury i funkcje do tworzenia i usuwania modeli, testowania modeli, stosowania modeli do nowych danych, wyświetlania szczegółów modeli, wyliczania miar oceny modeli oraz importowania i eksportowania modeli DBMS_DATA_MINING_TRANSFORM zawiera pomocnicze procedury do transformacji danych, umożliwia dyskretyzację, normalizację i przycinanie danych oraz obsługę brakujących wartości DBMS_PREDICTIVE_ANALYTICS zawiera procedury automatycznej eksploracji danych, w tym wyjaśnianie danych, ranking atrybutów i klasyfikację DBMS_FREQUENT_ITEMSET zawiera funkcje odkrywania zbiorów częstych w poziomej i pionowej organizacji bazy danych PREDICTION_* Funkcje SQL rodzina funkcji służących do klasyfikacji, umożliwiają predykcję wartości atrybutu decyzyjnego, szacowanie kosztu i prawdopodobieństwa predykcji, oraz wytłumaczenie predykcji dla modeli pełnych i częściowych CLUSTER_* rodzina funkcji służących do analizy skupień, umożliwiają wskazanie skupienia i wyznaczenie prawdopodobieństwa przynależności do danego skupienia FEATURE_* rodzina funkcji służących do odkrywania cech, umożliwiają odwzorowanie instancji na przestrzeń cech i wyznaczenie wartości nowych cech WIDTH_BUCKET, NTILE funkcje umożliwiające dyskretyzację danych javax.datamining.* Pakiety Java pakiety składające się na standard JSR 73: Java Data Mining, zawierają klasy reprezentujące dane, statystyki, reguły, zadania, asocjacje, algorytmy, szczegóły modelu, analizę skupień, klasyfikację i regresję oracle.dmt.jdm.* pakiety rozszerzające standard JSR 73: Java Data Mining o rozwiązania specyficzne dla dostawcy, zawierają m.in.: szczegóły algorytmów NNMF, ABN, OCluster, GLM, a także pakiety oferujące możliwość transformacji danych ALL_MINING_MODELS Metadane perspektywa przechowująca informacje o wszystkich modelach zbudowanych przez użytkownika, zawiera nazwę właściciela modelu, nazwę modelu, funkcję i algorytm eksploracji, datę utworzenia, czas tworzenia oraz rozmiar modelu ALL_MINING_MODEL_ATTRIBUTES perspektywa przechowująca informacje o wszystkich atrybutach wchodzących w skład modeli i ich roli (atrybut decyzyjny, predyktor, atrybut nieaktywny) ALL_MINING_MODEL_SETTINGS Perspektywa przechowująca informacje o parametrach początkowych, jakie były wykorzystane do utworzenia każdego modelu
5 Ogólny schemat działania Kroki działania przygotuj dane określ parametry i ustawienia algorytmu uruchom algorytm obejrzyj szczegóły uzyskanego modelu testuj model zastosuj model CREATE TABLE settings ( ); INSERT INTO settings VALUES ( ); Transformacja danych EXECUTE DBMS_DATA_MINING.CREATE_MODEL ( ); SELECT * FROM TABLE ( DBMS_DATA_MINING.GET_MODEL_DETAILS( ) ); EXECUTE DBMS_DATA_MINING.COMPUTE_CONFUSION_MATRIX( ); EXECUTE DBMS_DATA_MINING.COMPUTE_LIFT( ); EXECUTE DBMS_DATA_MINING.APPLY( ); CREATE Ogólne kroki transformacji tworzy tabele przechowujące definicje transformacji INSERT wypełnia tabele przechowujące definicje transformacji parametrami transformacji (np. wyliczonymi przedziałami dyskretyzacji) STACK dodaje polecenie transformacji do stosu transformacji, które mają być zaaplikowane w momencie tworzenia modelu XFORM tworzy perspektywy pokazujące dane źródłowe po zastosowaniu transformacji zdefiniowanych przez polecenia INSERT Metody transformacji (1/2) Dysktretyzacja (ang. binning) podział domeny atrybutu kategorycznego lub ciągłego na przedziały, w wyniku podziału gwałtownie maleje rozmiar domeny atrybutu wspierane metody supervised binning: przedziały obliczane automatycznie przez DT top-n frequency: pozostawienie określonej liczby najczęstszych wartości equi-width: podział na przedziały o równej szerokości quantile: podział na przedziały o równej głębokości (kwantyle) Normalizacja (ang. normalization) v shift przeskalowanie domeny atrybutu ciągłego v' = scale wspierane metody min-max scale z-score min v' = v (max' min') + min' max min v v ' = max{ abs(min), abs(max)} v' = v µ σ
6 Metody transformacji (2/2) Osobliwości (ang. outlier treatment) usunięcie ekstremalnych wartości atrybutu wspierane metody trimming: zamiana osobliwości na wartość NULL winsorizing: zamiana osobliwości na wartość brzegowego percentyla Wartości brakujące (ang. missing value treatment) wypełnienie wartości brakujących atrybutów, nie dotyczy atrybutów rzadkich (ang. sparse data) wspierane metody atrybuty numeryczne: wypełnienie wartością średnią atrybuty kategoryczne: wypełnienie wartością modalną Przykład transformacji danych (1/8) Dyskretyzacja atrybutu JOB metodą top-n DBMS_DATA_MINING_TRANSFORM.CREATE_BIN_CAT( bin_table_name => 'categorical_binning', bin_schema_name => 'ploug_odm'); DBMS_DATA_MINING_TRANSFORM.INSERT_BIN_CAT_FREQ( bin_table_name data_table_name => 'EMP', bin_num => 3, exclude_list => 'categorical_binning', SELECT * FROM categorical_binning; tabela z definicją transformacji wyznaczenie przedziałów transformacji => DBMS_DATA_MINING_TRANSFORM.Column_List('ENAME')); lista atrybutów, które nie mają podlegać dyskretyzacji Przykład transformacji danych (2/8) Dyskretyzacja atrybutu SAL metodą quantile Przykład transformacji danych (3/8) Wygenerowanie wyniku dyskretyzacji DBMS_DATA_MINING_TRANSFORM.CREATE_BIN_NUM( bin_table_name => 'numerical_binning', bin_schema_name => 'ploug_odm'); DBMS_DATA_MINING_TRANSFORM.INSERT_BIN_NUM_QTILE( bin_table_name data_table_name => 'EMP', bin_num => 3, exclude_list => 'numerical_binning', => DBMS_DATA_MINING_TRANSFORM.Column_List( 'EMPNO','MGR','COMM','DEPTNO')); SELECT * FROM numerical_binning; tabela z definicją transformacji wyznaczenie przedziałów transformacji lista atrybutów, które nie mają podlegać dyskretyzacji DBMS_DATA_MINING_TRANSFORM.XFORM_BIN_CAT( bin_table_name=>'categorical_binning', data_table_name=>'emp', xform_view_name=>'v_emp_1'); SELECT * FROM v_emp_1; DBMS_DATA_MINING_TRANSFORM.XFORM_BIN_NUM( bin_table_name=>'numerical_binning', data_table_name=>'v_emp_1', xform_view_name=>'v_emp_2'); utworzenie perspektywy pokazującej dane po dyskretyzacji atrybutów kategorycznych utworzenie perspektywy pokazującej dane po dyskretyzacji atrybutów numerycznych Uwaga: można automatycznie wyznaczyć przedziały przy użyciu procedury DBMS_DATA_MINING_TRANSFORM.INSERT_AUTOBIN_NUM_EQWIDTH SELECT * FROM v_emp_2;
7 Przykład transformacji danych (4/8) Normalizacja atrybutu SAL metodą z-score Przykład transformacji danych (5/8) Wygenerowanie wyniku normalizacji DBMS_DATA_MINING_TRANSFORM.CREATE_NORM_LIN( norm_table_name => 'linear_normalization', norm_schema_name => 'ploug_odm'); DBMS_DATA_MINING_TRANSFORM.INSERT_NORM_LIN_ZSCORE( norm_table_name data_table_name => 'EMP', exclude_list => 'linear_normalization', => DBMS_DATA_MINING_TRANSFORM.Column_List( 'EMPNO','MGR','COMM','DEPTNO')); SELECT * FROM linear_normalization; tabela z definicją normalizacji wyznaczenie współczynników normalizacji lista atrybutów, które nie mają podlegać normalizacji DBMS_DATA_MINING_TRANSFORM.XFORM_NORM_LIN( norm_table_name=>'linear_normalization', data_table_name=>'emp', xform_view_name=>'v_emp_3'); SELECT * FROM v_emp_3; utworzenie perspektywy pokazującej dane po normalizacji atrybutów ciągłych Przykład transformacji danych (6/8) Przycięcie atrybutu SAL Przykład transformacji danych (7/8) Wygenerowanie wyniku przycinania DBMS_DATA_MINING_TRANSFORM.CREATE_CLIP( clip_table_name => 'clipping', clip_schema_name => 'ploug_odm'); DBMS_DATA_MINING_TRANSFORM.INSERT_CLIP_WINSOR_TAIL( clip_table_name => 'clipping', data_table_name => 'EMP', tail_frac => 0.3, exclude_list => DBMS_DATA_MINING_TRANSFORM.Column_List( 'EMPNO','MGR','COMM','DEPTNO')); tabela z definicją przycięcia wyznaczenie granic przycięcia lista atrybutów, które nie mają podlegać przycięciu DBMS_DATA_MINING_TRANSFORM.XFORM_CLIP( clip_table_name=>'clipping', data_table_name=>'emp', xform_view_name=>'v_emp_4'); SELECT * FROM v_emp_4 ORDER BY sal; utworzenie perspektywy pokazującej dane po przycięciu atrybutów numerycznych SELECT * FROM clipping;
8 Przykład transformacji danych (8/8) Funkcje SQL przydatne do transformacji danych SELECT ename, sal, NTILE(3) OVER (ORDER BY sal) AS qtile, WIDTH_BUCKET(sal,0,5001,3) AS equi_width FROM emp; Algorytmy eksploracji danych dolna granica górna granica liczba przedziałów Określanie ważności atrybutów Uwagi: NTILE() jest funkcją niedeterministyczną WIDTH_BUCKET() tworzy przedziały prawostronnie otwarte WIDTH_BUCKET() tworzy przedziały nadmiarowe Wycieczka w odległą przeszłość William z Ockham (c.1288-c.1348) entia non sunt multiplicanda praeter necessitatem Odkrywanie ważności atrybutów (1/2) SELECT * FROM VOTES; predyktory Andrei N. Kolmogorov ( ) K(s)= d(s) Jorma Rissanen (1932-) Minimum Description Length DESC VOTES; atrybut decyzyjny
9 Odkrywanie ważności atrybutów (2/2) nazwa modelu DBMS_DATA_MINING.CREATE_MODEL( funkcja eksploracji model_name => 'Attribute_Importance', mining_function => DBMS_DATA_MINING.ATTRIBUTE_IMPORTANCE, data_table_name => 'VOTES', case_id_column_name => 'id', target_column_name => 'class'); atrybut decyzyjny Algorytmy eksploracji danych SELECT * FROM TABLE(DBMS_DATA_MINING. GET_MODEL_DETAILS_AI( 'Attribute_Importance')) ORDER BY RANK; Odkrywanie reguł asocjacyjnych Model reguł asocjacyjnych Wykorzystanie reguł asocjacyjnych Zbiór częsty podzbiór elementów występujący wystarczająco często w dużej kolekcji zbiorów Reguła asocjacyjna wyrażenie statystycznie wiążące elementy zbioru częstego kiełbaski musztarda piwo wsparcie: 2% klientów kupiło kiełbaski, musztardę i piwo ufność: 77% klientów, którzy kupili kiełbaski i musztardę, kupiło także piwo reguły asocjacyjne
10 Odkrywanie reguł asocjacyjnych (1/5) Odkrywanie reguł asocjacyjnych (2/5) SELECT * FROM MOVIES NATURAL JOIN RATINGS; CREATE OR REPLACE VIEW ar_vertical AS SELECT cid, title FROM movies NATURAL JOIN ratings WHERE rating = 5; pionowa baza danych pozioma baza danych DESC MOVIES; DESC RATINGS; CREATE OR REPLACE VIEW ar_horizontal AS SELECT A.cid, CAST ( MULTISET ( SELECT DM_Nested_Numerical(title,1) FROM ar_vertical WHERE cid = A.cid ) AS DM_Nested_Numericals ) Movies FROM ar_vertical A GROUP BY A.cid; SELECT * FROM ar_vertical WHERE cid = ; SELECT * FROM ar_horizontal WHERE cid = ; Odkrywanie reguł asocjacyjnych (3/5) Odkrywanie reguł asocjacyjnych (4/5) CREATE TABLE settings ( setting_name VARCHAR2(30), setting_value VARCHAR2(128) ); tabela z parametrami algorytmu ważne są tylko nazwy kolumn INSERT INTO settings VALUES (DBMS_DATA_MINING.ASSO_MAX_RULE_LENGTH,3); INSERT INTO settings VALUES (DBMS_DATA_MINING.ASSO_MIN_SUPPORT,0.01); INSERT INTO settings VALUES (DBMS_DATA_MINING.ASSO_MIN_CONFIDENCE,0.5); COMMIT; SELECT t.itemset_id, i.attribute_subname AS item, t.support, t.number_of_items FROM TABLE (DBMS_DATA_MINING.GET_FREQUENT_ITEMSETS('Associations')) t, TABLE (t.items) i GROUP BY t.itemset_id, i.attribute_subname, t.support, t.number_of_items ORDER BY t.itemset_id, i.attribute_subname, t.support, t.number_of_items; DBMS_DATA_MINING.CREATE_MODEL( przekazanie parametrów do algorytmu model_name => 'Associations', mining_function => DBMS_DATA_MINING.ASSOCIATION, data_table_name => 'AR_HORIZONTAL', case_id_column_name => 'cid', settings_table_name => 'settings' );
11 Odkrywanie reguł asocjacyjnych (5/5) DBMS_FREQUENT_ITEMSET SELECT t.rule_id, t.rule_support, t.rule_confidence, a.attribute_subname AS item_a, c.attribute_subname AS item_b FROM TABLE (DBMS_DATA_MINING.GET_ASSOCIATION_RULES('Associations')) t, TABLE (t.antecedent) a, TABLE (t.consequent) c ORDER BY t.rule_id, t.rule_support DESC, t.rule_confidence; SELECT * FROM bad_movies; CREATE TYPE fi_movies AS TABLE OF VARCHAR2(100); SELECT CAST(itemset AS fi_movies) itemset, support, length, total_tranx FROM TABLE(DBMS_FREQUENT_ITEMSET.FI_TRANSACTIONAL( CURSOR(SELECT cid, title FROM bad_movies), 0.005, wsparcie 2, min liczba elementów 5, max liczba elementów NULL, elementy które mają się znaleźć w wyniku CURSOR(SELECT * FROM TABLE(fi_movies('A.I. Artificial Intelligence'))))); elementy które nie mają się znaleźć w wyniku Co to jest klasyfikacja? Algorytmy eksploracji danych Klasyfikacja Kategoryzacja podział bytów na rozłączne klasy (kategorie) zawierające byty tego samego typu Uczenie nadzorowane dedukowanie funkcji na podstawie danych, przeciwdziedzina ciągła (regresja) lub dyskretna (klasyfikacja) Dane wejściowe zbiór uczący (ang. train set) zbiór testujący (ang. test set) atrybut decyzyjny (ang. target attribute)
12 Naiwny klasyfikator Bayesa Thomas Bayes ( ) prawdopodobieństwo a posteriori hipotezy h przy obserwacji D P( D h)* P( h) P ( h D) =, P( D) = P( h i D) P( D) prawdopodobieństwo obserwacji danych D przy założeniu prawdziwości hipotezy h prawdopodobieństwo a priori hipotezy h Przykład za którymi drzwiami jest nagroda? i tylko przy założeniu hipotezy o zamkniętym świecie SELECT * FROM zoo_build; DESC zoo_build Budowa NBC (1/5) atrybut decyzyjny Budowa NBC (2/5) Budowa NBC (3/5) CREATE TABLE priors ( target_value NUMBER, prior_probability NUMBER); INSERT INTO priors VALUES ('fish',0.16); INSERT INTO priors VALUES ('mammal',0.39); INSERT INTO priors VALUES ('insect',0.07); INSERT INTO priors VALUES ('reptile',0.05);... CREATE TABLE settings ( setting_name VARCHAR2(30), setting_value VARCHAR2(30)); prawdopodobieństwa a priori poszczególnych klas ustawienia algorytmu INSERT INTO settings VALUES (DBMS_DATA_MINING.ALGO_NAME,DBMS_DATA_MINING.ALGO_NAIVE_BAYES); INSERT INTO settings VALUES (DBMS_DATA_MINING.CLAS_PRIORS_TABLE_NAME,'priors'); INSERT INTO settings VALUES (DBMS_DATA_MINING.NABS_PAIRWISE_THRESHOLD,0.01); INSERT INTO settings VALUES (DBMS_DATA_MINING.NABS_SINGLETON_THRESHOLD,0.005); w modelu znajdą się tylko atrybuty przekraczające te progi DBMS_DATA_MINING.CREATE_MODEL( model_name => 'NaiveBayes', mining_function => DBMS_DATA_MINING.CLASSIFICATION, data_table_name => 'zoo_build', case_id_column_name => 'name', target_column_name => 'type', settings_table_name => 'settings'); SELECT target_attribute_str_value, prior_probability, c.attribute_name, c.attribute_str_value, c.conditional_probability FROM TABLE(DBMS_DATA_MINING. GET_MODEL_DETAILS_NB('NaiveBayes')) t, TABLE(t.conditionals) c ORDER BY target_attribute_str_value, c.attribute_name, c.attribute_str_value;
13 Budowa NBC (4/5) Budowa NBC (5/5) DBMS_DATA_MINING.APPLY_MODEL( model_name => 'NaiveBayes', data_table_name => 'zoo_apply', case_id_column_name => 'name', result_table_name => 'zoo_applied'); SELECT name, predykcja pełna PREDICTION(NaiveBayes USING *), PREDICTION_PROBABILITY(NaiveBayes, 'mammal' USING *), PREDICTION(NaiveBayes USING aquatic, predator, toothed), PREDICTION_PROBABILITY(NaiveBayes, 'fish' USING aquatic, predator, toothed) FROM zoo_apply WHERE name='dolphin'; predykcja częściowa SELECT * FROM zoo_applied; SELECT P.name, PS.prediction, PS.probability FROM ( SELECT name, PREDICTION_SET(NaiveBayes USING *) AS pset FROM zoo_apply ) P, TABLE(P.pset) PS; Indukcja drzew decyzyjnych Model drzewa liście reprezentują decyzję modelu (przypisanie do klasy) węzły wewnętrzne reprezentują testy wartości predyktorów krawędzie reprezentują wyniki testów predyktorów Corrado Gini ( ) Indeks Gini ego Miara nierównomierności rozkładu dochodu wykorzystywany w socjologii, medycynie, ekologii, chemii stosunek powierzchni obszaru między krzywą Lorenza a prostą idealnego rozkładu do powierzchni całego obszaru pod prostą idealnego rozkładu może mierzyć nierównomierność rozkładu wartości atrybutu decyzyjnego wewnątrz węzła drzewa 2 S1 S2 gini( S) = 1 p j gini( S1, S2) = gini( S1) + gini( S2) j S + S S + S Przykład AD92 W AKD 84 D87 AK
14 Entropia Miara niepewności związana ze zmienną losową wartość informacyjna mierzona w bitach strata informacji związana z obecnością zmiennej losowej H ( X ) = n i= 1 p( x i )log2 p( x i ) Koszty błędów i dokładność klasyfikacji Problem wysyłki reklamowej przewidywane rzeczywiste Klasyczny przykład entropia rzutu monetą Problem inseminacji krów Tworzenie drzewa decyzyjnego (1/4) atrybut decyzyjny SELECT * FROM titanic; CREATE TABLE settings ( setting_name VARCHAR2(30), setting_value VARCHAR2(30)); tablica kosztów CREATE TABLE cost ( actual_target_value NUMBER, predicted_target_value NUMBER, cost NUMBER); INSERT INTO cost VALUES ('no','no',0); INSERT INTO cost VALUES ('no','yes',1); INSERT INTO cost VALUES ('yes','no',4); INSERT INTO cost VALUES ('yes', 'yes',0); COMMIT; Tworzenie drzewa decyzyjnego (2/4) INSERT INTO settings VALUES(DBMS_DATA_MINING.ALGO_NAME, DBMS_DATA_MINING.ALGO_DECISION_TREE); INSERT INTO settings VALUES(DBMS_DATA_MINING.CLAS_COST_TABLE_NAME, 'cost'); -- miara czystości węzła wewnętrznego drzewa (dla Gini stala 'TREE_IMPURITY_GINI') INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_IMPURITY_METRIC, 'TREE_IMPURITY_ENTROPY'); -- maksymalna głębokość wygenerowanego drzewa INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MAX_DEPTH, 5); -- minimalna liczba rekordów w węźle przed podziałem węzła INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MINREC_SPLIT, 5); -- minimalny procent rekordów w węźle przed podziałem INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MINPCT_SPLIT, 0.01); -- minimalna liczba rekordów w węźle/liściu INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MINREC_NODE, 5); -- minimalny procent rekordów w węźle/liściu INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MINPCT_NODE, 0.005); COMMIT;
15 Tworzenie drzewa decyzyjnego (3/4) Tworzenie drzewa decyzyjnego (4/4) DBMS_DATA_MINING.CREATE_MODEL( SELECT model_name mining_function data_table_name => 'DecisionTree', => DBMS_DATA_MINING.CLASSIFICATION, => 'titanic', case_id_column_name => 'id', target_column_name => 'survived', settings_table_name => 'settings'); DBMS_DATA_MINING.GET_MODEL_DETAILS_XML('DecisionTree').extract('/') FROM dual; SELECT survived AS actual_target_value, PREDICTION(DecisionTree USING *) AS predicted_target_value, COUNT(*) AS value FROM titanic GROUP BY survived, PREDICTION(DecisionTree USING *) ORDER BY 1,2; SELECT survived AS actual_target_value, PREDICTION(DecisionTree COST MODEL USING *) AS predicted_target_value, COUNT(*) AS value FROM titanic GROUP BY survived, PREDICTION(DecisionTree COST MODEL USING *) ORDER BY 1,2; eksport modelu do PMML 2.1 Problem znajdowania skupień Algorytmy eksploracji danych Analiza skupień (ang. clustering) grupowanie obiektów w skupienia w taki sposób, który maksymalizuje podobieństwo między parami obiektów przydzielonych do jednego skupienia i jednocześnie minimalizuje podobieństwo między parami obiektów przydzielonymi do różnych skupień liczba skupień w danych nie jest znana a priori Analiza skupień Fundamentalne pytania co to znaczy, że dwa obiekty są do siebie podobne? skąd wiadomo, że zbudowany model jest poprawny?
16 Miary podobieństwa (1/2) Miarą podobieństwa może być dowolna metryka d(x,y) spełniająca aksjomaty d(x,x)=0 d(x,y)=d(y,x) d(x,z) d(x,y)+d(y,z) W przestrzeniach metrycznych naturalną miarą podobieństwa jest metryka mierząca odległość (miary Minkowskiego) L1 ( x, y) = 10 Lp ( x, y) = ( ( xi yi ) ) n i= 1 L2 ( x, y) = L3 ( x, y) = p 1/ p 7 3 x 2 8 y Miary podobieństwa (2/2) Co zrobić, gdy dane nie są opisane przez atrybuty numeryczne? zmienne binarne symetryczne i niesymetryczne zmienne kategoryczne zmienne stanowiące serie wartości ( x, y) = x + y 2* LCS( x, y) wektory wartości kategorycznych i liczbowych L cos x = ( x, y) = 1 n 2 x i i= 1 xo y x * y xo y = n i= 1 ( x i * y i ) L S rozrywka sport polityka Algorytmy k-means i k-medoids Przykładowy zbiór danych wylosuj k punktów jako początkowe centroidy; WHILE (zmiana przypisania punktów) DO przypisz kaŝdy obiekt do najbliŝszego centroidu; uaktualnij centroidy; END WHILE; Cechy algorytmu k-means centroidem jest średnia geometryczna punktów w klastrze złożoność O(n) bardzo czuły na występowanie wartości osobliwych może wpaść w optimum lokalne zależny od wyboru parametru k Cechy algorytmu k-medoids centroidem jest najbardziej centralny punkt w klastrze złożoność O(n 2 ) nieczuły na występowanie wartości osobliwych
17 Tworzenie modelu k-means (1/3) Tworzenie modelu k-means (2/3) INSERT INTO settings VALUES(DBMS_DATA_MINING.ALGO_NAME, DBMS_DATA_MINING.ALGO_KMEANS); -- miara podobieństwa (alternatywnie 'KMNS_COSINE') INSERT INTO settings VALUES(DBMS_DATA_MINING.KMNS_DISTANCE, DBMS_DATA_MINING.KMNS_EUCLIDEAN); -- miara wyboru partycji do podziału (alternatywnie 'KMNS_SIZE') INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_SPLIT_CRITERION, DBMS_DATA_MINING.KMNS_VARIANCE); -- tolerancja konwersji INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_CONV_TOLERANCE, 0.01); -- liczba przedziałów do obowiązkowej dyskretyzacji INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_NUM_BINS, 100); -- próg minimalnego wsparcia wartości kaŝdego atrybutu INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_MIN_PCT_ATTR_SUPPORT, 0.01); -- maksymalna liczba iteracji INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_ITERATIONS, 10); COMMIT; DBMS_DATA_MINING.CREATE_MODEL( model_name mining_function data_table_name => 'kmeans', => DBMS_DATA_MINING.CLUSTERING, => 'clouds', case_id_column_name => 'id', settings_table_name => 'settings'); SELECT cluster_id, SYS_CONNECT_BY_PATH(cluster_id,'/') AS path FROM TABLE( DBMS_DATA_MINING.GET_MODEL_DETAILS_KM('kMeans') ) WHERE tree_level = 5 CONNECT BY PRIOR cluster_id = parent START WITH tree_level = 1; SELECT cluster_id, C.attribute_name, C.mean FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_KM('kMeans')) T, TABLE(T.centroid) C WHERE tree_level = 5 ORDER BY cluster_id, C.attribute_name; Tworzenie modelu k-means (3/3) Pakiet DBMS_PREDICTIVE_ANALYTICS (1/2) One-click data mining czyli eksploracja dla leniwych DBMS_PREDICTIVE_ANALYTICS.EXPLAIN('zoo','type','explain_table'); DBMS_PREDICTIVE_ANALYTICS.PROFILE('zoo','type','profile_table'); SELECT x1, x2, CLUSTER_ID(kMeans USING *) AS cnum, CLUSTER_PROBABILITY(kMeans, 16 USING *) AS prob FROM clouds WHERE x1 BETWEEN 65 AND 70 ORDER BY cnum, prob DESC;
18 Pakiet DBMS_PREDICTIVE_ANALYTICS (2/2) One-click data mining czyli eksploracja dla leniwych DECLARE v_accuracy NUMBER := 0; DBMS_PREDICTIVE_ANALYTICS.PREDICT( accuracy => v_accuracy, data_table_name => 'zoo', case_id_column_name => 'name', target_column_name => 'type', result_table_name => 'predict_table'); Narzędzia graficzne do eksploracji danych DBMS_OUTPUT.PUT_LINE(v_accuracy); SELECT name, type, prediction FROM zoo NATURAL JOIN predict_table WHERE type!= prediction; Oracle Data Miner Oracle Data Miner Darmowy graficzny interfejs do Oracle Data Mining Funkcjonalność uruchamianie wszystkich algorytmów ODM w trybie graficznym graficzna prezentacja wyników (krzywe lift, ROC, regresji) SQL Worksheet podgląd zawartości schematu bazy danych dostęp do wcześniejszych modeli i wyników testów możliwość wstępnego przetwarzania danych wersje 10g i 11g
19 Weka 3 Weka 3 Projekt open-source rozwijany na Uniwersytecie Waikato "Data Mining: Practical Machine Learning Tools and Techniques", Ian Witten, Eibe Frank Narzędzie graficzne oraz bogate API (Java) Możliwość implementacji własnych algorytmów środowisko do wstępnego przetwarzania danych, znajdowania asocjacji, budowania klasyfikatorów i modeli skupień narzędzie umożliwiające równoległe testowanie różnych algorytmów na tym samym zbiorze danych graficzne środowisko projektowania przepływów pracy uruchamianie programów bezpośrednio z linii poleceń RapidMiner RapidMiner Środowisko inteligencji biznesowej RapidMiner RapidMiner Enterprise Analytics Server RapidNet RapidSentilyzer RapidDoc Technologie: analiza i eksploracja, ETL, raportowanie Ogromna liczba zaimplementowanych algorytmów Generatory danych syntetycznych Bogate możliwości wizualizacji danych i wyników
Plan laboratorium. Eksploracja danych. Co to jest eksploracja danych. Wprowadzenie do eksploracji danych
Plan laboratorium Eksploracja danych Wprowadzenie do eksploracji danych Pakiety PL/SQL i funkcje SQL Transformacja danych Algorytmy eksploracji danych odkrywanie reguł asocjacyjnych klasyfikacja naiwny
Laboratorium 12. Odkrywanie osobliwości.
Laboratorium 12 Odkrywanie osobliwości. Odkrywanie osobliwości (ang. outliers) za pomocą algorytmu SVM zostanie w pierwszej części ćwiczenia przeprowadzone w środowisku SQL, a w drugiej części wykorzystamy
Ćwiczenie 5. Eksploracja danych
Ćwiczenie 5. Eksploracja danych 1. Uruchomienie i skonfigurowanie środowiska do ćwiczeń Czas trwania: 15 minut Zadaniem niniejszych ćwiczeń jest przedstawienie podstawowych zagadnień dotyczących wykorzystywania
Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.
Laboratorium 10 Odkrywanie cech i algorytm Non-Negative Matrix Factorization. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie
Implementacja metod eksploracji danych - Oracle Data Mining
Implementacja metod eksploracji danych - Oracle Data Mining 395 Plan rozdziału 396 Wprowadzenie do eksploracji danych Architektura Oracle Data Mining Możliwości Oracle Data Mining Etapy procesu eksploracji
Laboratorium 11. Regresja SVM.
Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z
1. Przygotowanie danych do analizy. Transformacja danych
Spis treści: 1. 2. 3. 3. Przygotowanie danych do analizy. Transformacja danych.1 Rapid Miner transformacja danych.2 Oracle Data Miner - Przygotowanie danych do analizy...5 Transformacja danych w ODM JAVA
Laboratorium 4. Naiwny klasyfikator Bayesa.
Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Laboratorium 3. Odkrywanie reguł asocjacyjnych.
Laboratorium 3 Odkrywanie reguł asocjacyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Tools SQL Worksheet. W górnym oknie wprowadź i wykonaj
Laboratorium 6. Indukcja drzew decyzyjnych.
Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Laboratorium 13. Eksploracja danych tekstowych.
Laboratorium 13 Eksploracja danych tekstowych. Eksploracja danych tekstowych oraz kroki wstępne przetwarzania tekstu zostaną wykonane zarówno w środowisku SQL, jak i za pomocą narzędzia Oracle Data Miner.
KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów
KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów SQL3 wprowadza następujące kolekcje: zbiory ( SETS ) - zestaw elementów bez powtórzeń, kolejność nieistotna listy ( LISTS ) - zestaw
Określanie ważności atrybutów. OracleData Miner
Określanie ważności atrybutów OracleData Miner Algorytm MDL (intuicja) (1) William of Ockham (1285-1349): Nie należy mnożyć bytów ponad potrzebę Reguła minimalnej długości opisu (Minimum DescriptionLengthMDL)
Laboratorium 5. Adaptatywna sieć Bayesa.
Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.
Laboratorium 2. Określanie ważności atrybutów.
Laboratorium 2 Określanie ważności atrybutów. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Baza danych dla potrzeb zgłębiania DMX
Baza danych dla potrzeb zgłębiania DMX ID Outlook Temperature Humidity Windy PLAY 1 sunny hot high false N 2 sunny hot high true N 3 overcast hot high false T 4rain mild high false T 5rain cool normal
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
DMX DMX DMX Data Mining Extensions jest językiem do tworzenia i działania na modelach eksploracji danych w Microsoft SQL Server Analysis Services SSAS. Za pomocą DMX można tworzyć strukturę nowych modeli
Oracle Data Mining 10g
Oracle Data Mining 10g Zastosowanie algorytmu Support Vector Machines do problemów biznesowych Piotr Hajkowski Oracle Consulting Agenda Podstawy teoretyczne algorytmu SVM SVM w bazie danych Klasyfikacja
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Tworzenie raportów XML Publisher przy użyciu Data Templates
Tworzenie raportów XML Publisher przy użyciu Data Templates Wykorzystanie Szablonów Danych (ang. Data templates) jest to jedna z metod tworzenia raportów w technologii XML Publisher bez użycia narzędzia
Wprowadzenie do technologii informacyjnej.
Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining
Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK
Ewelina Dziura Krzysztof Maryański
Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład
Pakiety podprogramów Dynamiczny SQL
Pakiety podprogramów Dynamiczny SQL Pakiety podprogramów, specyfikacja i ciało pakietu, zmienne i kursory pakietowe, pseudoinstrukcje (dyrektywy kompilatora), dynamiczny SQL 1 Pakiety Pakiet (ang. package)
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Modelowanie hierarchicznych struktur w relacyjnych bazach danych
Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Data Mining podstawy analizy danych Część druga
Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany
Bazy danych. dr inż. Arkadiusz Mirakowski
Bazy danych dr inż. Arkadiusz Mirakowski Początek pracy z Transact SQL (T-SQL) 153.19.7.13,1401 jkowalski nr indeksu 2 Perspektywa - tabela tymczasowa - grupowanie Perspektywa (widok) Perspektywa (widok)
w PL/SQL bloki nazwane to: funkcje, procedury, pakiety, wyzwalacze
w PL/SQL bloki nazwane to: funkcje, procedury, pakiety, wyzwalacze Cechy bloków nazwanych: w postaci skompilowanej trwale przechowywane na serwerze wraz z danymi wykonywane na żądanie użytkownika lub w
Wyzwalacz - procedura wyzwalana, składowana fizycznie w bazie, uruchamiana automatycznie po nastąpieniu określonego w definicji zdarzenia
Wyzwalacz - procedura wyzwalana, składowana fizycznie w bazie, uruchamiana automatycznie po nastąpieniu określonego w definicji zdarzenia Składowe wyzwalacza ( ECA ): określenie zdarzenia ( Event ) określenie
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Technologia Przykłady praktycznych zastosowań wyzwalaczy będą omawiane na bazie systemu MS SQL Server 2005 Wprowadzenie
Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.
Spis treści: 1. Cele eksploracyjnej analizy danych...1 2. Rapid Miner zasady pracy i wizualizacja danych...3 3. Oracle Data Miner -zasady pracy.12 3.1 ODM PL/SQL.......12 3.2 ODM JAVA API......12 3.2.1
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Przykłady najlepiej wykonywać od razu na bazie i eksperymentować z nimi.
Marek Robak Wprowadzenie do języka SQL na przykładzie baz SQLite Przykłady najlepiej wykonywać od razu na bazie i eksperymentować z nimi. Tworzenie tabeli Pierwsza tabela W relacyjnych bazach danych jedna
Ćwiczenie 5. Metody eksploracji danych
Ćwiczenie 5. Metody eksploracji danych Reguły asocjacyjne (association rules) Badaniem atrybutów lub cech, które są powiązane ze sobą, zajmuje się analiza podobieństw (ang. affinity analysis). Metody analizy
data mining machine learning data science
data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe
SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy
Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu
Bazy danych. Andrzej Łachwa, UJ, /15
Bazy danych Andrzej Łachwa, UJ, 2013 andrzej.lachwa@uj.edu.pl www.uj.edu.pl/web/zpgk/materialy 6/15 Statystyki w języku SQL W różnych produktach SQL spotkamy rozmaite funkcje wbudowane ułatwiające analizy
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
UPDATE Studenci SET Rok = Rok + 1 WHERE Rodzaj_studiow =' INŻ_ST'; UPDATE Studenci SET Rok = Rok 1 WHERE Nr_albumu IN ( '111345','100678');
polecenie UPDATE służy do aktualizacji zawartości wierszy tabel lub perspektyw składnia: UPDATE { } SET { { = DEFAULT NULL}, {
Szczegółowy opis przedmiotu zamówienia
ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów
Procedury wyzwalane. (c) Instytut Informatyki Politechniki Poznańskiej 1
Procedury wyzwalane procedury wyzwalane, cel stosowania, typy wyzwalaczy, wyzwalacze na poleceniach DML i DDL, wyzwalacze typu INSTEAD OF, przykłady zastosowania, zarządzanie wyzwalaczami 1 Procedury wyzwalane
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Klasyfikacja i regresja Wstęp do środowiska Weka
Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.
Programowanie w SQL procedury i funkcje. UWAGA: Proszę nie zapominać o prefiksowaniu nazw obiektów ciągiem [OLIMP\{nr indeksu}] Funkcje użytkownika
Programowanie w SQL procedury i funkcje UWAGA: Proszę nie zapominać o prefiksowaniu nazw obiektów ciągiem [OLIMP\{nr indeksu}] Funkcje użytkownika 1. Funkcje o wartościach skalarnych ang. scalar valued
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Wykład 8. SQL praca z tabelami 5
Wykład 8 SQL praca z tabelami 5 Podzapytania to mechanizm pozwalający wykorzystywać wyniki jednego zapytania w innym zapytaniu. Nazywane często zapytaniami zagnieżdżonymi. Są stosowane z zapytaniami typu
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
1. Odkrywanie asocjacji
1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł
Język SQL. Rozdział 10. Perspektywy Stosowanie perspektyw, tworzenie perspektyw prostych i złożonych, perspektywy modyfikowalne i niemodyfikowalne.
Język SQL. Rozdział 10. Perspektywy Stosowanie perspektyw, tworzenie perspektyw prostych i złożonych, perspektywy modyfikowalne i niemodyfikowalne. 1 Perspektywa Perspektywa (ang. view) jest strukturą
Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.
Prezentacja Danych i Multimedia II r Socjologia Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL. Celem ćwiczeń jest poznanie zasad tworzenia baz danych i zastosowania komend SQL. Ćwiczenie I. Logowanie
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
1. Grupowanie Algorytmy grupowania:
1. 1.1. 2. 3. 3.1. 3.2. Grupowanie...1 Algorytmy grupowania:...1 Grupowanie metodą k-średnich...3 Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner...3 Grupowanie z wykorzystaniem algorytmu K-Means
projekt zaliczeniowy Eksploracja Danych
Ostaszewski Paweł [55566] Piła, 22.02.2006 projekt zaliczeniowy Eksploracja Danych 1. Obejrzyj histogramy dla wszystkich atrybutów, na podstawie wartości średniej i zakresu wartości oceń, dla których atrybutów
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Analiza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Obiektowe bazy danych Ćwiczenia laboratoryjne (?)
Obiektowe bazy danych Ćwiczenia laboratoryjne (?) Tworzenie typów obiektowych 1. Zdefiniuj typ obiektowy reprezentujący SAMOCHODY. Każdy samochód powinien mieć markę, model, liczbę kilometrów oraz datę
Systemy uczące się wykład 1
Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Data Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Kolekcje Zbiory obiektów, rodzaje: tablica o zmiennym rozmiarze (ang. varray) (1) (2) (3) (4) (5) Rozszerzenie obiektowe w SZBD Oracle
Rozszerzenie obiektowe w SZBD Oracle Cześć 2. Kolekcje Kolekcje Zbiory obiektów, rodzaje: tablica o zmiennym rozmiarze (ang. varray) (1) (2) (3) (4) (5) Malinowski Nowak Kowalski tablica zagnieżdżona (ang.
strukturalny język zapytań używany do tworzenia i modyfikowania baz danych oraz do umieszczania i pobierania danych z baz danych
SQL SQL (ang. Structured Query Language): strukturalny język zapytań używany do tworzenia strukturalny język zapytań używany do tworzenia i modyfikowania baz danych oraz do umieszczania i pobierania danych
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2
Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł
Modelowanie wymiarów
Wymiar Modelowanie wymiarów struktura umożliwiająca grupowanie danych z tabeli faktów implementowana jako obiekt bazy danych DIMENSION wykorzystanie DIMENSION zaawansowane przepisywanie zapytań (ang. query
PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
Relacyjne bazy danych. Podstawy SQL
Relacyjne bazy danych Podstawy SQL Język SQL SQL (Structured Query Language) język umożliwiający dostęp i przetwarzanie danych w bazie danych na poziomie obiektów modelu relacyjnego tj. tabel i perspektyw.
Wykład 5. SQL praca z tabelami 2
Wykład 5 SQL praca z tabelami 2 Wypełnianie tabel danymi Tabele można wypełniać poprzez standardową instrukcję INSERT INTO: INSERT [INTO] nazwa_tabeli [(kolumna1, kolumna2,, kolumnan)] VALUES (wartosc1,
Systemy GIS Tworzenie zapytań w bazach danych
Systemy GIS Tworzenie zapytań w bazach danych Wykład nr 6 Analizy danych w systemach GIS Jak pytać bazę danych, żeby otrzymać sensowną odpowiedź......czyli podstawy języka SQL INSERT, SELECT, DROP, UPDATE
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com
XI Konferencja PLOUG Kościelisko Październik 2005 Zastosowanie reguł asocjacyjnych, pakietu Oracle Data Mining for Java do analizy koszyka zakupów w aplikacjach e-commerce. Integracja ze środowiskiem Oracle
Pakiety są logicznymi zbiorami obiektów takich jak podprogramy, typy, zmienne, kursory, wyjątki.
Pakiety Pakiety są logicznymi zbiorami obiektów takich jak podprogramy, typy, zmienne, kursory, wyjątki. Pakiet składa się ze: specyfikacji (interfejsu) i ciała (implementacji). W specyfikacji mieszczą
Wykład XII. optymalizacja w relacyjnych bazach danych
Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych
Sztuczna Inteligencja Projekt
Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować
Funkcje w PL/SQL Funkcja to nazwany blok języka PL/SQL. Jest przechowywana w bazie i musi zwracać wynik. Z reguły, funkcji utworzonych w PL/SQL-u
Funkcje w PL/SQL Funkcja to nazwany blok języka PL/SQL. Jest przechowywana w bazie i musi zwracać wynik. Z reguły, funkcji utworzonych w PL/SQL-u będziemy używać w taki sam sposób, jak wbudowanych funkcji
Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych
Łukasz Przywarty 171018 Wrocław, 05.12.2012 r. Grupa: CZW/N 10:00-13:00 Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Część 1: OLAP Prowadzący: dr inż. Henryk Maciejewski
2. Ocena dokładności modelu klasyfikacji:
Spis treści: 1. Klasyfikacja... 1 2. Ocena dokładności modelu klasyfikacji:...1 2.1. Miary dokładności modelu...2 2.2. Krzywe oceny...2 3. Wybrane algorytmy...3 3.1. Naiwny klasyfikator Bayesa...3 3.2.
Drzewa klasyfikacyjne algorytm podstawowy
DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą
Relacyjne bazy danych. Podstawy SQL
Relacyjne bazy danych Podstawy SQL Język SQL SQL (Structured Query Language) język umoŝliwiający dostęp i przetwarzanie danych w bazie danych na poziomie obiektów modelu relacyjnego tj. tabel i perspektyw.
Indeksowanie w bazach danych
w bazach Katedra Informatyki Stosowanej AGH 5grudnia2013 Outline 1 2 3 4 Czym jest indeks? Indeks to struktura, która ma przyspieszyć wyszukiwanie. Indeks definiowany jest dla atrybutów, które nazywamy
Inżynieria biomedyczna
Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.
Bloki anonimowe w PL/SQL
Język PL/SQL PL/SQL to specjalny język proceduralny stosowany w bazach danych Oracle. Język ten stanowi rozszerzenie SQL o szereg instrukcji, znanych w proceduralnych językach programowania. Umożliwia
Wprowadzenie do technologii Business Intelligence i hurtowni danych
Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence
Ćwiczenie 12. Metody eksploracji danych
Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych
Optymalizacja poleceń SQL Wprowadzenie
Optymalizacja poleceń SQL Wprowadzenie 1 Fazy przetwarzania polecenia SQL 2 Faza parsingu (1) Krok 1. Test składniowy weryfikacja poprawności składniowej polecenia SQL. Krok 2. Test semantyczny m.in. weryfikacja
A Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Przestrzenne bazy danych Podstawy języka SQL
Przestrzenne bazy danych Podstawy języka SQL Stanisława Porzycka-Strzelczyk porzycka@agh.edu.pl home.agh.edu.pl/~porzycka Konsultacje: wtorek godzina 16-17, p. 350 A (budynek A0) 1 SQL Język SQL (ang.structured
Język PL/SQL Pakiety podprogramów
Język PL/SQL Pakiety podprogramów Pakiety podprogramów, specyfikacja i ciało pakietu, zmienne i kursory pakietowe, pseudoinstrukcje (dyrektywy kompilatora) 1 Pakiety Pakiet (ang. package) grupuje powiązane
Nauczycielem wszystkiego jest praktyka Juliusz Cezar. Nauka to wiara w ignorancję ekspertów Richard Feynman
Oracle i DB2 zadanie współfinansowane przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń - zintegrowany rozwój Politechniki Łódzkiej