Plan laboratorium. Eksploracja danych. Co to jest eksploracja danych. Wprowadzenie do eksploracji danych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Plan laboratorium. Eksploracja danych. Co to jest eksploracja danych. Wprowadzenie do eksploracji danych"

Transkrypt

1 Plan laboratorium Eksploracja danych Wprowadzenie do eksploracji danych Pakiety PL/SQL i funkcje SQL Transformacja danych Algorytmy eksploracji danych określanie ważności atrybutów odkrywanie reguł asocjacyjnych klasyfikacja naiwny klasyfikator Bayesa drzewa decyzyjne analiza skupień Narzędzia graficzne: Oracle Data Miner, Weka, RapidMiner Co to jest eksploracja danych Wprowadzenie do eksploracji danych Proces odkrywania wzorców w dużych bazach danych Element procesu odkrywania wiedzy Liczne określenia: data mining, data dredging, data harvesting, data archeology, data pattern analysis, data fishing, data snooping Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy: Eksploracja danych to nowa dyscyplina badawcza, której celem jest odkrywanie i wydobywanie użytecznych, wcześniej nieznanych, nietrywialnych i zrozumiałych wzorców z dużych baz danych i hurtowni danych

2 Statystyka dla niedouczonych Ostrożnie z optymizmem Eksperymenty J.B.Rhine a z kartami Zenera jak często udaje się zgadnąć kolor karty (czarna/czerwona) 10 razy z rzędu? co się dzieje, jeśli osoba posiadająca ESP dowie się o tym? Ostrożnie z optymizmem Ostrożnie z optymizmem

3 Proces odkrywania wiedzy Metody eksploracji danych Elementy procesu odkrywania wiedzy (Fayyad et al., 1996) określenie problemu wybór danych czyszczenie danych integracja danych transformacja danych eksploracja danych ocena wzorców wykorzystanie wzorców analiza skupień odkrywanie anomalii reguły asocjacyjne odkrywanie cech klasyfikacja regresja ważność atrybutów kmeans OCluster One-Class SVM Apriori Non-Negative Matrix Factorization Naive Bayes Decision Tree Logistic Regression SVM Multiple Regression SVM Minimum Description Length Oracle Data Mining 11g Pakiety PL/SQL i funkcje SQL Pakiety PL/SQL DBMS_DATA_MINING DBMS_DATA_MINING_TRANSFORM DBMS_PREDICTIVE_ANALYTICS DBMS_FREQUENT_ITEMSET Funkcje SQL PREDICTION_* CLUSTER_* FEATURE_* Pakiety Java javax.datamining.* oracle.dmt.jdm.* Metadane

4 DBMS_DATA_MINING Pakiety PL/SQL zawiera procedury i funkcje do tworzenia i usuwania modeli, testowania modeli, stosowania modeli do nowych danych, wyświetlania szczegółów modeli, wyliczania miar oceny modeli oraz importowania i eksportowania modeli DBMS_DATA_MINING_TRANSFORM zawiera pomocnicze procedury do transformacji danych, umożliwia dyskretyzację, normalizację i przycinanie danych oraz obsługę brakujących wartości DBMS_PREDICTIVE_ANALYTICS zawiera procedury automatycznej eksploracji danych, w tym wyjaśnianie danych, ranking atrybutów i klasyfikację DBMS_FREQUENT_ITEMSET zawiera funkcje odkrywania zbiorów częstych w poziomej i pionowej organizacji bazy danych PREDICTION_* Funkcje SQL rodzina funkcji służących do klasyfikacji, umożliwiają predykcję wartości atrybutu decyzyjnego, szacowanie kosztu i prawdopodobieństwa predykcji, oraz wytłumaczenie predykcji dla modeli pełnych i częściowych CLUSTER_* rodzina funkcji służących do analizy skupień, umożliwiają wskazanie skupienia i wyznaczenie prawdopodobieństwa przynależności do danego skupienia FEATURE_* rodzina funkcji służących do odkrywania cech, umożliwiają odwzorowanie instancji na przestrzeń cech i wyznaczenie wartości nowych cech WIDTH_BUCKET, NTILE funkcje umożliwiające dyskretyzację danych javax.datamining.* Pakiety Java pakiety składające się na standard JSR 73: Java Data Mining, zawierają klasy reprezentujące dane, statystyki, reguły, zadania, asocjacje, algorytmy, szczegóły modelu, analizę skupień, klasyfikację i regresję oracle.dmt.jdm.* pakiety rozszerzające standard JSR 73: Java Data Mining o rozwiązania specyficzne dla dostawcy, zawierają m.in.: szczegóły algorytmów NNMF, ABN, OCluster, GLM, a także pakiety oferujące możliwość transformacji danych ALL_MINING_MODELS Metadane perspektywa przechowująca informacje o wszystkich modelach zbudowanych przez użytkownika, zawiera nazwę właściciela modelu, nazwę modelu, funkcję i algorytm eksploracji, datę utworzenia, czas tworzenia oraz rozmiar modelu ALL_MINING_MODEL_ATTRIBUTES perspektywa przechowująca informacje o wszystkich atrybutach wchodzących w skład modeli i ich roli (atrybut decyzyjny, predyktor, atrybut nieaktywny) ALL_MINING_MODEL_SETTINGS Perspektywa przechowująca informacje o parametrach początkowych, jakie były wykorzystane do utworzenia każdego modelu

5 Ogólny schemat działania Kroki działania przygotuj dane określ parametry i ustawienia algorytmu uruchom algorytm obejrzyj szczegóły uzyskanego modelu testuj model zastosuj model CREATE TABLE settings ( ); INSERT INTO settings VALUES ( ); Transformacja danych EXECUTE DBMS_DATA_MINING.CREATE_MODEL ( ); SELECT * FROM TABLE ( DBMS_DATA_MINING.GET_MODEL_DETAILS( ) ); EXECUTE DBMS_DATA_MINING.COMPUTE_CONFUSION_MATRIX( ); EXECUTE DBMS_DATA_MINING.COMPUTE_LIFT( ); EXECUTE DBMS_DATA_MINING.APPLY( ); CREATE Ogólne kroki transformacji tworzy tabele przechowujące definicje transformacji INSERT wypełnia tabele przechowujące definicje transformacji parametrami transformacji (np. wyliczonymi przedziałami dyskretyzacji) STACK dodaje polecenie transformacji do stosu transformacji, które mają być zaaplikowane w momencie tworzenia modelu XFORM tworzy perspektywy pokazujące dane źródłowe po zastosowaniu transformacji zdefiniowanych przez polecenia INSERT Metody transformacji (1/2) Dysktretyzacja (ang. binning) podział domeny atrybutu kategorycznego lub ciągłego na przedziały, w wyniku podziału gwałtownie maleje rozmiar domeny atrybutu wspierane metody supervised binning: przedziały obliczane automatycznie przez DT top-n frequency: pozostawienie określonej liczby najczęstszych wartości equi-width: podział na przedziały o równej szerokości quantile: podział na przedziały o równej głębokości (kwantyle) Normalizacja (ang. normalization) v shift przeskalowanie domeny atrybutu ciągłego v' = scale wspierane metody min-max scale z-score min v' = v (max' min') + min' max min v v ' = max{ abs(min), abs(max)} v' = v µ σ

6 Metody transformacji (2/2) Osobliwości (ang. outlier treatment) usunięcie ekstremalnych wartości atrybutu wspierane metody trimming: zamiana osobliwości na wartość NULL winsorizing: zamiana osobliwości na wartość brzegowego percentyla Wartości brakujące (ang. missing value treatment) wypełnienie wartości brakujących atrybutów, nie dotyczy atrybutów rzadkich (ang. sparse data) wspierane metody atrybuty numeryczne: wypełnienie wartością średnią atrybuty kategoryczne: wypełnienie wartością modalną Przykład transformacji danych (1/8) Dyskretyzacja atrybutu JOB metodą top-n DBMS_DATA_MINING_TRANSFORM.CREATE_BIN_CAT( bin_table_name => 'categorical_binning', bin_schema_name => 'ploug_odm'); DBMS_DATA_MINING_TRANSFORM.INSERT_BIN_CAT_FREQ( bin_table_name data_table_name => 'EMP', bin_num => 3, exclude_list => 'categorical_binning', SELECT * FROM categorical_binning; tabela z definicją transformacji wyznaczenie przedziałów transformacji => DBMS_DATA_MINING_TRANSFORM.Column_List('ENAME')); lista atrybutów, które nie mają podlegać dyskretyzacji Przykład transformacji danych (2/8) Dyskretyzacja atrybutu SAL metodą quantile Przykład transformacji danych (3/8) Wygenerowanie wyniku dyskretyzacji DBMS_DATA_MINING_TRANSFORM.CREATE_BIN_NUM( bin_table_name => 'numerical_binning', bin_schema_name => 'ploug_odm'); DBMS_DATA_MINING_TRANSFORM.INSERT_BIN_NUM_QTILE( bin_table_name data_table_name => 'EMP', bin_num => 3, exclude_list => 'numerical_binning', => DBMS_DATA_MINING_TRANSFORM.Column_List( 'EMPNO','MGR','COMM','DEPTNO')); SELECT * FROM numerical_binning; tabela z definicją transformacji wyznaczenie przedziałów transformacji lista atrybutów, które nie mają podlegać dyskretyzacji DBMS_DATA_MINING_TRANSFORM.XFORM_BIN_CAT( bin_table_name=>'categorical_binning', data_table_name=>'emp', xform_view_name=>'v_emp_1'); SELECT * FROM v_emp_1; DBMS_DATA_MINING_TRANSFORM.XFORM_BIN_NUM( bin_table_name=>'numerical_binning', data_table_name=>'v_emp_1', xform_view_name=>'v_emp_2'); utworzenie perspektywy pokazującej dane po dyskretyzacji atrybutów kategorycznych utworzenie perspektywy pokazującej dane po dyskretyzacji atrybutów numerycznych Uwaga: można automatycznie wyznaczyć przedziały przy użyciu procedury DBMS_DATA_MINING_TRANSFORM.INSERT_AUTOBIN_NUM_EQWIDTH SELECT * FROM v_emp_2;

7 Przykład transformacji danych (4/8) Normalizacja atrybutu SAL metodą z-score Przykład transformacji danych (5/8) Wygenerowanie wyniku normalizacji DBMS_DATA_MINING_TRANSFORM.CREATE_NORM_LIN( norm_table_name => 'linear_normalization', norm_schema_name => 'ploug_odm'); DBMS_DATA_MINING_TRANSFORM.INSERT_NORM_LIN_ZSCORE( norm_table_name data_table_name => 'EMP', exclude_list => 'linear_normalization', => DBMS_DATA_MINING_TRANSFORM.Column_List( 'EMPNO','MGR','COMM','DEPTNO')); SELECT * FROM linear_normalization; tabela z definicją normalizacji wyznaczenie współczynników normalizacji lista atrybutów, które nie mają podlegać normalizacji DBMS_DATA_MINING_TRANSFORM.XFORM_NORM_LIN( norm_table_name=>'linear_normalization', data_table_name=>'emp', xform_view_name=>'v_emp_3'); SELECT * FROM v_emp_3; utworzenie perspektywy pokazującej dane po normalizacji atrybutów ciągłych Przykład transformacji danych (6/8) Przycięcie atrybutu SAL Przykład transformacji danych (7/8) Wygenerowanie wyniku przycinania DBMS_DATA_MINING_TRANSFORM.CREATE_CLIP( clip_table_name => 'clipping', clip_schema_name => 'ploug_odm'); DBMS_DATA_MINING_TRANSFORM.INSERT_CLIP_WINSOR_TAIL( clip_table_name => 'clipping', data_table_name => 'EMP', tail_frac => 0.3, exclude_list => DBMS_DATA_MINING_TRANSFORM.Column_List( 'EMPNO','MGR','COMM','DEPTNO')); tabela z definicją przycięcia wyznaczenie granic przycięcia lista atrybutów, które nie mają podlegać przycięciu DBMS_DATA_MINING_TRANSFORM.XFORM_CLIP( clip_table_name=>'clipping', data_table_name=>'emp', xform_view_name=>'v_emp_4'); SELECT * FROM v_emp_4 ORDER BY sal; utworzenie perspektywy pokazującej dane po przycięciu atrybutów numerycznych SELECT * FROM clipping;

8 Przykład transformacji danych (8/8) Funkcje SQL przydatne do transformacji danych SELECT ename, sal, NTILE(3) OVER (ORDER BY sal) AS qtile, WIDTH_BUCKET(sal,0,5001,3) AS equi_width FROM emp; Algorytmy eksploracji danych dolna granica górna granica liczba przedziałów Określanie ważności atrybutów Uwagi: NTILE() jest funkcją niedeterministyczną WIDTH_BUCKET() tworzy przedziały prawostronnie otwarte WIDTH_BUCKET() tworzy przedziały nadmiarowe Wycieczka w odległą przeszłość William z Ockham (c.1288-c.1348) entia non sunt multiplicanda praeter necessitatem Odkrywanie ważności atrybutów (1/2) SELECT * FROM VOTES; predyktory Andrei N. Kolmogorov ( ) K(s)= d(s) Jorma Rissanen (1932-) Minimum Description Length DESC VOTES; atrybut decyzyjny

9 Odkrywanie ważności atrybutów (2/2) nazwa modelu DBMS_DATA_MINING.CREATE_MODEL( funkcja eksploracji model_name => 'Attribute_Importance', mining_function => DBMS_DATA_MINING.ATTRIBUTE_IMPORTANCE, data_table_name => 'VOTES', case_id_column_name => 'id', target_column_name => 'class'); atrybut decyzyjny Algorytmy eksploracji danych SELECT * FROM TABLE(DBMS_DATA_MINING. GET_MODEL_DETAILS_AI( 'Attribute_Importance')) ORDER BY RANK; Odkrywanie reguł asocjacyjnych Model reguł asocjacyjnych Wykorzystanie reguł asocjacyjnych Zbiór częsty podzbiór elementów występujący wystarczająco często w dużej kolekcji zbiorów Reguła asocjacyjna wyrażenie statystycznie wiążące elementy zbioru częstego kiełbaski musztarda piwo wsparcie: 2% klientów kupiło kiełbaski, musztardę i piwo ufność: 77% klientów, którzy kupili kiełbaski i musztardę, kupiło także piwo reguły asocjacyjne

10 Odkrywanie reguł asocjacyjnych (1/5) Odkrywanie reguł asocjacyjnych (2/5) SELECT * FROM MOVIES NATURAL JOIN RATINGS; CREATE OR REPLACE VIEW ar_vertical AS SELECT cid, title FROM movies NATURAL JOIN ratings WHERE rating = 5; pionowa baza danych pozioma baza danych DESC MOVIES; DESC RATINGS; CREATE OR REPLACE VIEW ar_horizontal AS SELECT A.cid, CAST ( MULTISET ( SELECT DM_Nested_Numerical(title,1) FROM ar_vertical WHERE cid = A.cid ) AS DM_Nested_Numericals ) Movies FROM ar_vertical A GROUP BY A.cid; SELECT * FROM ar_vertical WHERE cid = ; SELECT * FROM ar_horizontal WHERE cid = ; Odkrywanie reguł asocjacyjnych (3/5) Odkrywanie reguł asocjacyjnych (4/5) CREATE TABLE settings ( setting_name VARCHAR2(30), setting_value VARCHAR2(128) ); tabela z parametrami algorytmu ważne są tylko nazwy kolumn INSERT INTO settings VALUES (DBMS_DATA_MINING.ASSO_MAX_RULE_LENGTH,3); INSERT INTO settings VALUES (DBMS_DATA_MINING.ASSO_MIN_SUPPORT,0.01); INSERT INTO settings VALUES (DBMS_DATA_MINING.ASSO_MIN_CONFIDENCE,0.5); COMMIT; SELECT t.itemset_id, i.attribute_subname AS item, t.support, t.number_of_items FROM TABLE (DBMS_DATA_MINING.GET_FREQUENT_ITEMSETS('Associations')) t, TABLE (t.items) i GROUP BY t.itemset_id, i.attribute_subname, t.support, t.number_of_items ORDER BY t.itemset_id, i.attribute_subname, t.support, t.number_of_items; DBMS_DATA_MINING.CREATE_MODEL( przekazanie parametrów do algorytmu model_name => 'Associations', mining_function => DBMS_DATA_MINING.ASSOCIATION, data_table_name => 'AR_HORIZONTAL', case_id_column_name => 'cid', settings_table_name => 'settings' );

11 Odkrywanie reguł asocjacyjnych (5/5) DBMS_FREQUENT_ITEMSET SELECT t.rule_id, t.rule_support, t.rule_confidence, a.attribute_subname AS item_a, c.attribute_subname AS item_b FROM TABLE (DBMS_DATA_MINING.GET_ASSOCIATION_RULES('Associations')) t, TABLE (t.antecedent) a, TABLE (t.consequent) c ORDER BY t.rule_id, t.rule_support DESC, t.rule_confidence; SELECT * FROM bad_movies; CREATE TYPE fi_movies AS TABLE OF VARCHAR2(100); SELECT CAST(itemset AS fi_movies) itemset, support, length, total_tranx FROM TABLE(DBMS_FREQUENT_ITEMSET.FI_TRANSACTIONAL( CURSOR(SELECT cid, title FROM bad_movies), 0.005, wsparcie 2, min liczba elementów 5, max liczba elementów NULL, elementy które mają się znaleźć w wyniku CURSOR(SELECT * FROM TABLE(fi_movies('A.I. Artificial Intelligence'))))); elementy które nie mają się znaleźć w wyniku Co to jest klasyfikacja? Algorytmy eksploracji danych Klasyfikacja Kategoryzacja podział bytów na rozłączne klasy (kategorie) zawierające byty tego samego typu Uczenie nadzorowane dedukowanie funkcji na podstawie danych, przeciwdziedzina ciągła (regresja) lub dyskretna (klasyfikacja) Dane wejściowe zbiór uczący (ang. train set) zbiór testujący (ang. test set) atrybut decyzyjny (ang. target attribute)

12 Naiwny klasyfikator Bayesa Thomas Bayes ( ) prawdopodobieństwo a posteriori hipotezy h przy obserwacji D P( D h)* P( h) P ( h D) =, P( D) = P( h i D) P( D) prawdopodobieństwo obserwacji danych D przy założeniu prawdziwości hipotezy h prawdopodobieństwo a priori hipotezy h Przykład za którymi drzwiami jest nagroda? i tylko przy założeniu hipotezy o zamkniętym świecie SELECT * FROM zoo_build; DESC zoo_build Budowa NBC (1/5) atrybut decyzyjny Budowa NBC (2/5) Budowa NBC (3/5) CREATE TABLE priors ( target_value NUMBER, prior_probability NUMBER); INSERT INTO priors VALUES ('fish',0.16); INSERT INTO priors VALUES ('mammal',0.39); INSERT INTO priors VALUES ('insect',0.07); INSERT INTO priors VALUES ('reptile',0.05);... CREATE TABLE settings ( setting_name VARCHAR2(30), setting_value VARCHAR2(30)); prawdopodobieństwa a priori poszczególnych klas ustawienia algorytmu INSERT INTO settings VALUES (DBMS_DATA_MINING.ALGO_NAME,DBMS_DATA_MINING.ALGO_NAIVE_BAYES); INSERT INTO settings VALUES (DBMS_DATA_MINING.CLAS_PRIORS_TABLE_NAME,'priors'); INSERT INTO settings VALUES (DBMS_DATA_MINING.NABS_PAIRWISE_THRESHOLD,0.01); INSERT INTO settings VALUES (DBMS_DATA_MINING.NABS_SINGLETON_THRESHOLD,0.005); w modelu znajdą się tylko atrybuty przekraczające te progi DBMS_DATA_MINING.CREATE_MODEL( model_name => 'NaiveBayes', mining_function => DBMS_DATA_MINING.CLASSIFICATION, data_table_name => 'zoo_build', case_id_column_name => 'name', target_column_name => 'type', settings_table_name => 'settings'); SELECT target_attribute_str_value, prior_probability, c.attribute_name, c.attribute_str_value, c.conditional_probability FROM TABLE(DBMS_DATA_MINING. GET_MODEL_DETAILS_NB('NaiveBayes')) t, TABLE(t.conditionals) c ORDER BY target_attribute_str_value, c.attribute_name, c.attribute_str_value;

13 Budowa NBC (4/5) Budowa NBC (5/5) DBMS_DATA_MINING.APPLY_MODEL( model_name => 'NaiveBayes', data_table_name => 'zoo_apply', case_id_column_name => 'name', result_table_name => 'zoo_applied'); SELECT name, predykcja pełna PREDICTION(NaiveBayes USING *), PREDICTION_PROBABILITY(NaiveBayes, 'mammal' USING *), PREDICTION(NaiveBayes USING aquatic, predator, toothed), PREDICTION_PROBABILITY(NaiveBayes, 'fish' USING aquatic, predator, toothed) FROM zoo_apply WHERE name='dolphin'; predykcja częściowa SELECT * FROM zoo_applied; SELECT P.name, PS.prediction, PS.probability FROM ( SELECT name, PREDICTION_SET(NaiveBayes USING *) AS pset FROM zoo_apply ) P, TABLE(P.pset) PS; Indukcja drzew decyzyjnych Model drzewa liście reprezentują decyzję modelu (przypisanie do klasy) węzły wewnętrzne reprezentują testy wartości predyktorów krawędzie reprezentują wyniki testów predyktorów Corrado Gini ( ) Indeks Gini ego Miara nierównomierności rozkładu dochodu wykorzystywany w socjologii, medycynie, ekologii, chemii stosunek powierzchni obszaru między krzywą Lorenza a prostą idealnego rozkładu do powierzchni całego obszaru pod prostą idealnego rozkładu może mierzyć nierównomierność rozkładu wartości atrybutu decyzyjnego wewnątrz węzła drzewa 2 S1 S2 gini( S) = 1 p j gini( S1, S2) = gini( S1) + gini( S2) j S + S S + S Przykład AD92 W AKD 84 D87 AK

14 Entropia Miara niepewności związana ze zmienną losową wartość informacyjna mierzona w bitach strata informacji związana z obecnością zmiennej losowej H ( X ) = n i= 1 p( x i )log2 p( x i ) Koszty błędów i dokładność klasyfikacji Problem wysyłki reklamowej przewidywane rzeczywiste Klasyczny przykład entropia rzutu monetą Problem inseminacji krów Tworzenie drzewa decyzyjnego (1/4) atrybut decyzyjny SELECT * FROM titanic; CREATE TABLE settings ( setting_name VARCHAR2(30), setting_value VARCHAR2(30)); tablica kosztów CREATE TABLE cost ( actual_target_value NUMBER, predicted_target_value NUMBER, cost NUMBER); INSERT INTO cost VALUES ('no','no',0); INSERT INTO cost VALUES ('no','yes',1); INSERT INTO cost VALUES ('yes','no',4); INSERT INTO cost VALUES ('yes', 'yes',0); COMMIT; Tworzenie drzewa decyzyjnego (2/4) INSERT INTO settings VALUES(DBMS_DATA_MINING.ALGO_NAME, DBMS_DATA_MINING.ALGO_DECISION_TREE); INSERT INTO settings VALUES(DBMS_DATA_MINING.CLAS_COST_TABLE_NAME, 'cost'); -- miara czystości węzła wewnętrznego drzewa (dla Gini stala 'TREE_IMPURITY_GINI') INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_IMPURITY_METRIC, 'TREE_IMPURITY_ENTROPY'); -- maksymalna głębokość wygenerowanego drzewa INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MAX_DEPTH, 5); -- minimalna liczba rekordów w węźle przed podziałem węzła INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MINREC_SPLIT, 5); -- minimalny procent rekordów w węźle przed podziałem INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MINPCT_SPLIT, 0.01); -- minimalna liczba rekordów w węźle/liściu INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MINREC_NODE, 5); -- minimalny procent rekordów w węźle/liściu INSERT INTO settings VALUES (DBMS_DATA_MINING.TREE_TERM_MINPCT_NODE, 0.005); COMMIT;

15 Tworzenie drzewa decyzyjnego (3/4) Tworzenie drzewa decyzyjnego (4/4) DBMS_DATA_MINING.CREATE_MODEL( SELECT model_name mining_function data_table_name => 'DecisionTree', => DBMS_DATA_MINING.CLASSIFICATION, => 'titanic', case_id_column_name => 'id', target_column_name => 'survived', settings_table_name => 'settings'); DBMS_DATA_MINING.GET_MODEL_DETAILS_XML('DecisionTree').extract('/') FROM dual; SELECT survived AS actual_target_value, PREDICTION(DecisionTree USING *) AS predicted_target_value, COUNT(*) AS value FROM titanic GROUP BY survived, PREDICTION(DecisionTree USING *) ORDER BY 1,2; SELECT survived AS actual_target_value, PREDICTION(DecisionTree COST MODEL USING *) AS predicted_target_value, COUNT(*) AS value FROM titanic GROUP BY survived, PREDICTION(DecisionTree COST MODEL USING *) ORDER BY 1,2; eksport modelu do PMML 2.1 Problem znajdowania skupień Algorytmy eksploracji danych Analiza skupień (ang. clustering) grupowanie obiektów w skupienia w taki sposób, który maksymalizuje podobieństwo między parami obiektów przydzielonych do jednego skupienia i jednocześnie minimalizuje podobieństwo między parami obiektów przydzielonymi do różnych skupień liczba skupień w danych nie jest znana a priori Analiza skupień Fundamentalne pytania co to znaczy, że dwa obiekty są do siebie podobne? skąd wiadomo, że zbudowany model jest poprawny?

16 Miary podobieństwa (1/2) Miarą podobieństwa może być dowolna metryka d(x,y) spełniająca aksjomaty d(x,x)=0 d(x,y)=d(y,x) d(x,z) d(x,y)+d(y,z) W przestrzeniach metrycznych naturalną miarą podobieństwa jest metryka mierząca odległość (miary Minkowskiego) L1 ( x, y) = 10 Lp ( x, y) = ( ( xi yi ) ) n i= 1 L2 ( x, y) = L3 ( x, y) = p 1/ p 7 3 x 2 8 y Miary podobieństwa (2/2) Co zrobić, gdy dane nie są opisane przez atrybuty numeryczne? zmienne binarne symetryczne i niesymetryczne zmienne kategoryczne zmienne stanowiące serie wartości ( x, y) = x + y 2* LCS( x, y) wektory wartości kategorycznych i liczbowych L cos x = ( x, y) = 1 n 2 x i i= 1 xo y x * y xo y = n i= 1 ( x i * y i ) L S rozrywka sport polityka Algorytmy k-means i k-medoids Przykładowy zbiór danych wylosuj k punktów jako początkowe centroidy; WHILE (zmiana przypisania punktów) DO przypisz kaŝdy obiekt do najbliŝszego centroidu; uaktualnij centroidy; END WHILE; Cechy algorytmu k-means centroidem jest średnia geometryczna punktów w klastrze złożoność O(n) bardzo czuły na występowanie wartości osobliwych może wpaść w optimum lokalne zależny od wyboru parametru k Cechy algorytmu k-medoids centroidem jest najbardziej centralny punkt w klastrze złożoność O(n 2 ) nieczuły na występowanie wartości osobliwych

17 Tworzenie modelu k-means (1/3) Tworzenie modelu k-means (2/3) INSERT INTO settings VALUES(DBMS_DATA_MINING.ALGO_NAME, DBMS_DATA_MINING.ALGO_KMEANS); -- miara podobieństwa (alternatywnie 'KMNS_COSINE') INSERT INTO settings VALUES(DBMS_DATA_MINING.KMNS_DISTANCE, DBMS_DATA_MINING.KMNS_EUCLIDEAN); -- miara wyboru partycji do podziału (alternatywnie 'KMNS_SIZE') INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_SPLIT_CRITERION, DBMS_DATA_MINING.KMNS_VARIANCE); -- tolerancja konwersji INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_CONV_TOLERANCE, 0.01); -- liczba przedziałów do obowiązkowej dyskretyzacji INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_NUM_BINS, 100); -- próg minimalnego wsparcia wartości kaŝdego atrybutu INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_MIN_PCT_ATTR_SUPPORT, 0.01); -- maksymalna liczba iteracji INSERT INTO settings VALUES (DBMS_DATA_MINING.KMNS_ITERATIONS, 10); COMMIT; DBMS_DATA_MINING.CREATE_MODEL( model_name mining_function data_table_name => 'kmeans', => DBMS_DATA_MINING.CLUSTERING, => 'clouds', case_id_column_name => 'id', settings_table_name => 'settings'); SELECT cluster_id, SYS_CONNECT_BY_PATH(cluster_id,'/') AS path FROM TABLE( DBMS_DATA_MINING.GET_MODEL_DETAILS_KM('kMeans') ) WHERE tree_level = 5 CONNECT BY PRIOR cluster_id = parent START WITH tree_level = 1; SELECT cluster_id, C.attribute_name, C.mean FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_KM('kMeans')) T, TABLE(T.centroid) C WHERE tree_level = 5 ORDER BY cluster_id, C.attribute_name; Tworzenie modelu k-means (3/3) Pakiet DBMS_PREDICTIVE_ANALYTICS (1/2) One-click data mining czyli eksploracja dla leniwych DBMS_PREDICTIVE_ANALYTICS.EXPLAIN('zoo','type','explain_table'); DBMS_PREDICTIVE_ANALYTICS.PROFILE('zoo','type','profile_table'); SELECT x1, x2, CLUSTER_ID(kMeans USING *) AS cnum, CLUSTER_PROBABILITY(kMeans, 16 USING *) AS prob FROM clouds WHERE x1 BETWEEN 65 AND 70 ORDER BY cnum, prob DESC;

18 Pakiet DBMS_PREDICTIVE_ANALYTICS (2/2) One-click data mining czyli eksploracja dla leniwych DECLARE v_accuracy NUMBER := 0; DBMS_PREDICTIVE_ANALYTICS.PREDICT( accuracy => v_accuracy, data_table_name => 'zoo', case_id_column_name => 'name', target_column_name => 'type', result_table_name => 'predict_table'); Narzędzia graficzne do eksploracji danych DBMS_OUTPUT.PUT_LINE(v_accuracy); SELECT name, type, prediction FROM zoo NATURAL JOIN predict_table WHERE type!= prediction; Oracle Data Miner Oracle Data Miner Darmowy graficzny interfejs do Oracle Data Mining Funkcjonalność uruchamianie wszystkich algorytmów ODM w trybie graficznym graficzna prezentacja wyników (krzywe lift, ROC, regresji) SQL Worksheet podgląd zawartości schematu bazy danych dostęp do wcześniejszych modeli i wyników testów możliwość wstępnego przetwarzania danych wersje 10g i 11g

19 Weka 3 Weka 3 Projekt open-source rozwijany na Uniwersytecie Waikato "Data Mining: Practical Machine Learning Tools and Techniques", Ian Witten, Eibe Frank Narzędzie graficzne oraz bogate API (Java) Możliwość implementacji własnych algorytmów środowisko do wstępnego przetwarzania danych, znajdowania asocjacji, budowania klasyfikatorów i modeli skupień narzędzie umożliwiające równoległe testowanie różnych algorytmów na tym samym zbiorze danych graficzne środowisko projektowania przepływów pracy uruchamianie programów bezpośrednio z linii poleceń RapidMiner RapidMiner Środowisko inteligencji biznesowej RapidMiner RapidMiner Enterprise Analytics Server RapidNet RapidSentilyzer RapidDoc Technologie: analiza i eksploracja, ETL, raportowanie Ogromna liczba zaimplementowanych algorytmów Generatory danych syntetycznych Bogate możliwości wizualizacji danych i wyników

Plan laboratorium. Eksploracja danych. Co to jest eksploracja danych. Wprowadzenie do eksploracji danych

Plan laboratorium. Eksploracja danych. Co to jest eksploracja danych. Wprowadzenie do eksploracji danych Plan laboratorium Eksploracja danych Wprowadzenie do eksploracji danych Pakiety PL/SQL i funkcje SQL Transformacja danych Algorytmy eksploracji danych odkrywanie reguł asocjacyjnych klasyfikacja naiwny

Bardziej szczegółowo

Laboratorium 12. Odkrywanie osobliwości.

Laboratorium 12. Odkrywanie osobliwości. Laboratorium 12 Odkrywanie osobliwości. Odkrywanie osobliwości (ang. outliers) za pomocą algorytmu SVM zostanie w pierwszej części ćwiczenia przeprowadzone w środowisku SQL, a w drugiej części wykorzystamy

Bardziej szczegółowo

Ćwiczenie 5. Eksploracja danych

Ćwiczenie 5. Eksploracja danych Ćwiczenie 5. Eksploracja danych 1. Uruchomienie i skonfigurowanie środowiska do ćwiczeń Czas trwania: 15 minut Zadaniem niniejszych ćwiczeń jest przedstawienie podstawowych zagadnień dotyczących wykorzystywania

Bardziej szczegółowo

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization. Laboratorium 10 Odkrywanie cech i algorytm Non-Negative Matrix Factorization. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie

Bardziej szczegółowo

Implementacja metod eksploracji danych - Oracle Data Mining

Implementacja metod eksploracji danych - Oracle Data Mining Implementacja metod eksploracji danych - Oracle Data Mining 395 Plan rozdziału 396 Wprowadzenie do eksploracji danych Architektura Oracle Data Mining Możliwości Oracle Data Mining Etapy procesu eksploracji

Bardziej szczegółowo

Laboratorium 11. Regresja SVM.

Laboratorium 11. Regresja SVM. Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z

Bardziej szczegółowo

1. Przygotowanie danych do analizy. Transformacja danych

1. Przygotowanie danych do analizy. Transformacja danych Spis treści: 1. 2. 3. 3. Przygotowanie danych do analizy. Transformacja danych.1 Rapid Miner transformacja danych.2 Oracle Data Miner - Przygotowanie danych do analizy...5 Transformacja danych w ODM JAVA

Bardziej szczegółowo

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 4. Naiwny klasyfikator Bayesa. Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Laboratorium 3. Odkrywanie reguł asocjacyjnych. Laboratorium 3 Odkrywanie reguł asocjacyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Tools SQL Worksheet. W górnym oknie wprowadź i wykonaj

Bardziej szczegółowo

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 6. Indukcja drzew decyzyjnych. Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Laboratorium 13. Eksploracja danych tekstowych.

Laboratorium 13. Eksploracja danych tekstowych. Laboratorium 13 Eksploracja danych tekstowych. Eksploracja danych tekstowych oraz kroki wstępne przetwarzania tekstu zostaną wykonane zarówno w środowisku SQL, jak i za pomocą narzędzia Oracle Data Miner.

Bardziej szczegółowo

KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów

KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów SQL3 wprowadza następujące kolekcje: zbiory ( SETS ) - zestaw elementów bez powtórzeń, kolejność nieistotna listy ( LISTS ) - zestaw

Bardziej szczegółowo

Określanie ważności atrybutów. OracleData Miner

Określanie ważności atrybutów. OracleData Miner Określanie ważności atrybutów OracleData Miner Algorytm MDL (intuicja) (1) William of Ockham (1285-1349): Nie należy mnożyć bytów ponad potrzebę Reguła minimalnej długości opisu (Minimum DescriptionLengthMDL)

Bardziej szczegółowo

Laboratorium 5. Adaptatywna sieć Bayesa.

Laboratorium 5. Adaptatywna sieć Bayesa. Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.

Bardziej szczegółowo

Laboratorium 2. Określanie ważności atrybutów.

Laboratorium 2. Określanie ważności atrybutów. Laboratorium 2 Określanie ważności atrybutów. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Baza danych dla potrzeb zgłębiania DMX

Baza danych dla potrzeb zgłębiania DMX Baza danych dla potrzeb zgłębiania DMX ID Outlook Temperature Humidity Windy PLAY 1 sunny hot high false N 2 sunny hot high true N 3 overcast hot high false T 4rain mild high false T 5rain cool normal

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski DMX DMX DMX Data Mining Extensions jest językiem do tworzenia i działania na modelach eksploracji danych w Microsoft SQL Server Analysis Services SSAS. Za pomocą DMX można tworzyć strukturę nowych modeli

Bardziej szczegółowo

Oracle Data Mining 10g

Oracle Data Mining 10g Oracle Data Mining 10g Zastosowanie algorytmu Support Vector Machines do problemów biznesowych Piotr Hajkowski Oracle Consulting Agenda Podstawy teoretyczne algorytmu SVM SVM w bazie danych Klasyfikacja

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Tworzenie raportów XML Publisher przy użyciu Data Templates

Tworzenie raportów XML Publisher przy użyciu Data Templates Tworzenie raportów XML Publisher przy użyciu Data Templates Wykorzystanie Szablonów Danych (ang. Data templates) jest to jedna z metod tworzenia raportów w technologii XML Publisher bez użycia narzędzia

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Pakiety podprogramów Dynamiczny SQL

Pakiety podprogramów Dynamiczny SQL Pakiety podprogramów Dynamiczny SQL Pakiety podprogramów, specyfikacja i ciało pakietu, zmienne i kursory pakietowe, pseudoinstrukcje (dyrektywy kompilatora), dynamiczny SQL 1 Pakiety Pakiet (ang. package)

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Modelowanie hierarchicznych struktur w relacyjnych bazach danych Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Data Mining podstawy analizy danych Część druga

Data Mining podstawy analizy danych Część druga Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany

Bardziej szczegółowo

Bazy danych. dr inż. Arkadiusz Mirakowski

Bazy danych. dr inż. Arkadiusz Mirakowski Bazy danych dr inż. Arkadiusz Mirakowski Początek pracy z Transact SQL (T-SQL) 153.19.7.13,1401 jkowalski nr indeksu 2 Perspektywa - tabela tymczasowa - grupowanie Perspektywa (widok) Perspektywa (widok)

Bardziej szczegółowo

w PL/SQL bloki nazwane to: funkcje, procedury, pakiety, wyzwalacze

w PL/SQL bloki nazwane to: funkcje, procedury, pakiety, wyzwalacze w PL/SQL bloki nazwane to: funkcje, procedury, pakiety, wyzwalacze Cechy bloków nazwanych: w postaci skompilowanej trwale przechowywane na serwerze wraz z danymi wykonywane na żądanie użytkownika lub w

Bardziej szczegółowo

Wyzwalacz - procedura wyzwalana, składowana fizycznie w bazie, uruchamiana automatycznie po nastąpieniu określonego w definicji zdarzenia

Wyzwalacz - procedura wyzwalana, składowana fizycznie w bazie, uruchamiana automatycznie po nastąpieniu określonego w definicji zdarzenia Wyzwalacz - procedura wyzwalana, składowana fizycznie w bazie, uruchamiana automatycznie po nastąpieniu określonego w definicji zdarzenia Składowe wyzwalacza ( ECA ): określenie zdarzenia ( Event ) określenie

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik

Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Technologia Przykłady praktycznych zastosowań wyzwalaczy będą omawiane na bazie systemu MS SQL Server 2005 Wprowadzenie

Bardziej szczegółowo

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji

Bardziej szczegółowo

1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.

1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy. Spis treści: 1. Cele eksploracyjnej analizy danych...1 2. Rapid Miner zasady pracy i wizualizacja danych...3 3. Oracle Data Miner -zasady pracy.12 3.1 ODM PL/SQL.......12 3.2 ODM JAVA API......12 3.2.1

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Przykłady najlepiej wykonywać od razu na bazie i eksperymentować z nimi.

Przykłady najlepiej wykonywać od razu na bazie i eksperymentować z nimi. Marek Robak Wprowadzenie do języka SQL na przykładzie baz SQLite Przykłady najlepiej wykonywać od razu na bazie i eksperymentować z nimi. Tworzenie tabeli Pierwsza tabela W relacyjnych bazach danych jedna

Bardziej szczegółowo

Ćwiczenie 5. Metody eksploracji danych

Ćwiczenie 5. Metody eksploracji danych Ćwiczenie 5. Metody eksploracji danych Reguły asocjacyjne (association rules) Badaniem atrybutów lub cech, które są powiązane ze sobą, zajmuje się analiza podobieństw (ang. affinity analysis). Metody analizy

Bardziej szczegółowo

data mining machine learning data science

data mining machine learning data science data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe

Bardziej szczegółowo

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu

Bardziej szczegółowo

Bazy danych. Andrzej Łachwa, UJ, /15

Bazy danych. Andrzej Łachwa, UJ, /15 Bazy danych Andrzej Łachwa, UJ, 2013 andrzej.lachwa@uj.edu.pl www.uj.edu.pl/web/zpgk/materialy 6/15 Statystyki w języku SQL W różnych produktach SQL spotkamy rozmaite funkcje wbudowane ułatwiające analizy

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

UPDATE Studenci SET Rok = Rok + 1 WHERE Rodzaj_studiow =' INŻ_ST'; UPDATE Studenci SET Rok = Rok 1 WHERE Nr_albumu IN ( '111345','100678');

UPDATE Studenci SET Rok = Rok + 1 WHERE Rodzaj_studiow =' INŻ_ST'; UPDATE Studenci SET Rok = Rok 1 WHERE Nr_albumu IN ( '111345','100678'); polecenie UPDATE służy do aktualizacji zawartości wierszy tabel lub perspektyw składnia: UPDATE { } SET { { = DEFAULT NULL}, {

Bardziej szczegółowo

Szczegółowy opis przedmiotu zamówienia

Szczegółowy opis przedmiotu zamówienia ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów

Bardziej szczegółowo

Procedury wyzwalane. (c) Instytut Informatyki Politechniki Poznańskiej 1

Procedury wyzwalane. (c) Instytut Informatyki Politechniki Poznańskiej 1 Procedury wyzwalane procedury wyzwalane, cel stosowania, typy wyzwalaczy, wyzwalacze na poleceniach DML i DDL, wyzwalacze typu INSTEAD OF, przykłady zastosowania, zarządzanie wyzwalaczami 1 Procedury wyzwalane

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Klasyfikacja i regresja Wstęp do środowiska Weka

Klasyfikacja i regresja Wstęp do środowiska Weka Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.

Bardziej szczegółowo

Programowanie w SQL procedury i funkcje. UWAGA: Proszę nie zapominać o prefiksowaniu nazw obiektów ciągiem [OLIMP\{nr indeksu}] Funkcje użytkownika

Programowanie w SQL procedury i funkcje. UWAGA: Proszę nie zapominać o prefiksowaniu nazw obiektów ciągiem [OLIMP\{nr indeksu}] Funkcje użytkownika Programowanie w SQL procedury i funkcje UWAGA: Proszę nie zapominać o prefiksowaniu nazw obiektów ciągiem [OLIMP\{nr indeksu}] Funkcje użytkownika 1. Funkcje o wartościach skalarnych ang. scalar valued

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Wykład 8. SQL praca z tabelami 5

Wykład 8. SQL praca z tabelami 5 Wykład 8 SQL praca z tabelami 5 Podzapytania to mechanizm pozwalający wykorzystywać wyniki jednego zapytania w innym zapytaniu. Nazywane często zapytaniami zagnieżdżonymi. Są stosowane z zapytaniami typu

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

1. Odkrywanie asocjacji

1. Odkrywanie asocjacji 1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł

Bardziej szczegółowo

Język SQL. Rozdział 10. Perspektywy Stosowanie perspektyw, tworzenie perspektyw prostych i złożonych, perspektywy modyfikowalne i niemodyfikowalne.

Język SQL. Rozdział 10. Perspektywy Stosowanie perspektyw, tworzenie perspektyw prostych i złożonych, perspektywy modyfikowalne i niemodyfikowalne. Język SQL. Rozdział 10. Perspektywy Stosowanie perspektyw, tworzenie perspektyw prostych i złożonych, perspektywy modyfikowalne i niemodyfikowalne. 1 Perspektywa Perspektywa (ang. view) jest strukturą

Bardziej szczegółowo

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL. Prezentacja Danych i Multimedia II r Socjologia Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL. Celem ćwiczeń jest poznanie zasad tworzenia baz danych i zastosowania komend SQL. Ćwiczenie I. Logowanie

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

1. Grupowanie Algorytmy grupowania:

1. Grupowanie Algorytmy grupowania: 1. 1.1. 2. 3. 3.1. 3.2. Grupowanie...1 Algorytmy grupowania:...1 Grupowanie metodą k-średnich...3 Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner...3 Grupowanie z wykorzystaniem algorytmu K-Means

Bardziej szczegółowo

projekt zaliczeniowy Eksploracja Danych

projekt zaliczeniowy Eksploracja Danych Ostaszewski Paweł [55566] Piła, 22.02.2006 projekt zaliczeniowy Eksploracja Danych 1. Obejrzyj histogramy dla wszystkich atrybutów, na podstawie wartości średniej i zakresu wartości oceń, dla których atrybutów

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Analiza danych i data mining.

Analiza danych i data mining. Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data

Bardziej szczegółowo

Obiektowe bazy danych Ćwiczenia laboratoryjne (?)

Obiektowe bazy danych Ćwiczenia laboratoryjne (?) Obiektowe bazy danych Ćwiczenia laboratoryjne (?) Tworzenie typów obiektowych 1. Zdefiniuj typ obiektowy reprezentujący SAMOCHODY. Każdy samochód powinien mieć markę, model, liczbę kilometrów oraz datę

Bardziej szczegółowo

Systemy uczące się wykład 1

Systemy uczące się wykład 1 Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Kolekcje Zbiory obiektów, rodzaje: tablica o zmiennym rozmiarze (ang. varray) (1) (2) (3) (4) (5) Rozszerzenie obiektowe w SZBD Oracle

Kolekcje Zbiory obiektów, rodzaje: tablica o zmiennym rozmiarze (ang. varray) (1) (2) (3) (4) (5) Rozszerzenie obiektowe w SZBD Oracle Rozszerzenie obiektowe w SZBD Oracle Cześć 2. Kolekcje Kolekcje Zbiory obiektów, rodzaje: tablica o zmiennym rozmiarze (ang. varray) (1) (2) (3) (4) (5) Malinowski Nowak Kowalski tablica zagnieżdżona (ang.

Bardziej szczegółowo

strukturalny język zapytań używany do tworzenia i modyfikowania baz danych oraz do umieszczania i pobierania danych z baz danych

strukturalny język zapytań używany do tworzenia i modyfikowania baz danych oraz do umieszczania i pobierania danych z baz danych SQL SQL (ang. Structured Query Language): strukturalny język zapytań używany do tworzenia strukturalny język zapytań używany do tworzenia i modyfikowania baz danych oraz do umieszczania i pobierania danych

Bardziej szczegółowo

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2 Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł

Bardziej szczegółowo

Modelowanie wymiarów

Modelowanie wymiarów Wymiar Modelowanie wymiarów struktura umożliwiająca grupowanie danych z tabeli faktów implementowana jako obiekt bazy danych DIMENSION wykorzystanie DIMENSION zaawansowane przepisywanie zapytań (ang. query

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

Relacyjne bazy danych. Podstawy SQL

Relacyjne bazy danych. Podstawy SQL Relacyjne bazy danych Podstawy SQL Język SQL SQL (Structured Query Language) język umożliwiający dostęp i przetwarzanie danych w bazie danych na poziomie obiektów modelu relacyjnego tj. tabel i perspektyw.

Bardziej szczegółowo

Wykład 5. SQL praca z tabelami 2

Wykład 5. SQL praca z tabelami 2 Wykład 5 SQL praca z tabelami 2 Wypełnianie tabel danymi Tabele można wypełniać poprzez standardową instrukcję INSERT INTO: INSERT [INTO] nazwa_tabeli [(kolumna1, kolumna2,, kolumnan)] VALUES (wartosc1,

Bardziej szczegółowo

Systemy GIS Tworzenie zapytań w bazach danych

Systemy GIS Tworzenie zapytań w bazach danych Systemy GIS Tworzenie zapytań w bazach danych Wykład nr 6 Analizy danych w systemach GIS Jak pytać bazę danych, żeby otrzymać sensowną odpowiedź......czyli podstawy języka SQL INSERT, SELECT, DROP, UPDATE

Bardziej szczegółowo

Optymalizacja systemów

Optymalizacja systemów Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji

Bardziej szczegółowo

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com XI Konferencja PLOUG Kościelisko Październik 2005 Zastosowanie reguł asocjacyjnych, pakietu Oracle Data Mining for Java do analizy koszyka zakupów w aplikacjach e-commerce. Integracja ze środowiskiem Oracle

Bardziej szczegółowo

Pakiety są logicznymi zbiorami obiektów takich jak podprogramy, typy, zmienne, kursory, wyjątki.

Pakiety są logicznymi zbiorami obiektów takich jak podprogramy, typy, zmienne, kursory, wyjątki. Pakiety Pakiety są logicznymi zbiorami obiektów takich jak podprogramy, typy, zmienne, kursory, wyjątki. Pakiet składa się ze: specyfikacji (interfejsu) i ciała (implementacji). W specyfikacji mieszczą

Bardziej szczegółowo

Wykład XII. optymalizacja w relacyjnych bazach danych

Wykład XII. optymalizacja w relacyjnych bazach danych Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych

Bardziej szczegółowo

Sztuczna Inteligencja Projekt

Sztuczna Inteligencja Projekt Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować

Bardziej szczegółowo

Funkcje w PL/SQL Funkcja to nazwany blok języka PL/SQL. Jest przechowywana w bazie i musi zwracać wynik. Z reguły, funkcji utworzonych w PL/SQL-u

Funkcje w PL/SQL Funkcja to nazwany blok języka PL/SQL. Jest przechowywana w bazie i musi zwracać wynik. Z reguły, funkcji utworzonych w PL/SQL-u Funkcje w PL/SQL Funkcja to nazwany blok języka PL/SQL. Jest przechowywana w bazie i musi zwracać wynik. Z reguły, funkcji utworzonych w PL/SQL-u będziemy używać w taki sam sposób, jak wbudowanych funkcji

Bardziej szczegółowo

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Łukasz Przywarty 171018 Wrocław, 05.12.2012 r. Grupa: CZW/N 10:00-13:00 Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Część 1: OLAP Prowadzący: dr inż. Henryk Maciejewski

Bardziej szczegółowo

2. Ocena dokładności modelu klasyfikacji:

2. Ocena dokładności modelu klasyfikacji: Spis treści: 1. Klasyfikacja... 1 2. Ocena dokładności modelu klasyfikacji:...1 2.1. Miary dokładności modelu...2 2.2. Krzywe oceny...2 3. Wybrane algorytmy...3 3.1. Naiwny klasyfikator Bayesa...3 3.2.

Bardziej szczegółowo

Drzewa klasyfikacyjne algorytm podstawowy

Drzewa klasyfikacyjne algorytm podstawowy DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą

Bardziej szczegółowo

Relacyjne bazy danych. Podstawy SQL

Relacyjne bazy danych. Podstawy SQL Relacyjne bazy danych Podstawy SQL Język SQL SQL (Structured Query Language) język umoŝliwiający dostęp i przetwarzanie danych w bazie danych na poziomie obiektów modelu relacyjnego tj. tabel i perspektyw.

Bardziej szczegółowo

Indeksowanie w bazach danych

Indeksowanie w bazach danych w bazach Katedra Informatyki Stosowanej AGH 5grudnia2013 Outline 1 2 3 4 Czym jest indeks? Indeks to struktura, która ma przyspieszyć wyszukiwanie. Indeks definiowany jest dla atrybutów, które nazywamy

Bardziej szczegółowo

Inżynieria biomedyczna

Inżynieria biomedyczna Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.

Bardziej szczegółowo

Bloki anonimowe w PL/SQL

Bloki anonimowe w PL/SQL Język PL/SQL PL/SQL to specjalny język proceduralny stosowany w bazach danych Oracle. Język ten stanowi rozszerzenie SQL o szereg instrukcji, znanych w proceduralnych językach programowania. Umożliwia

Bardziej szczegółowo

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Optymalizacja poleceń SQL Wprowadzenie

Optymalizacja poleceń SQL Wprowadzenie Optymalizacja poleceń SQL Wprowadzenie 1 Fazy przetwarzania polecenia SQL 2 Faza parsingu (1) Krok 1. Test składniowy weryfikacja poprawności składniowej polecenia SQL. Krok 2. Test semantyczny m.in. weryfikacja

Bardziej szczegółowo

A Zadanie

A Zadanie where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona

Bardziej szczegółowo

Przestrzenne bazy danych Podstawy języka SQL

Przestrzenne bazy danych Podstawy języka SQL Przestrzenne bazy danych Podstawy języka SQL Stanisława Porzycka-Strzelczyk porzycka@agh.edu.pl home.agh.edu.pl/~porzycka Konsultacje: wtorek godzina 16-17, p. 350 A (budynek A0) 1 SQL Język SQL (ang.structured

Bardziej szczegółowo

Język PL/SQL Pakiety podprogramów

Język PL/SQL Pakiety podprogramów Język PL/SQL Pakiety podprogramów Pakiety podprogramów, specyfikacja i ciało pakietu, zmienne i kursory pakietowe, pseudoinstrukcje (dyrektywy kompilatora) 1 Pakiety Pakiet (ang. package) grupuje powiązane

Bardziej szczegółowo

Nauczycielem wszystkiego jest praktyka Juliusz Cezar. Nauka to wiara w ignorancję ekspertów Richard Feynman

Nauczycielem wszystkiego jest praktyka Juliusz Cezar. Nauka to wiara w ignorancję ekspertów Richard Feynman Oracle i DB2 zadanie współfinansowane przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń - zintegrowany rozwój Politechniki Łódzkiej

Bardziej szczegółowo