Hurtownie danych. Dlaczego? Wnioski z danych. Adam Pelikant. Dlaczego?

Wielkość: px
Rozpocząć pokaz od strony:

Download "Hurtownie danych. Dlaczego? Wnioski z danych. Adam Pelikant. Dlaczego?"

Transkrypt

1 Dlaczego? Hurtownie danych Człowiek, który potrafi czytać ale nie ma książek, nie ma przewagi nad tymi, którzy w ogóle nie umieją czytać Mark Twain Adam Pelikant Człowiek który posiada dane ale nie potrafi ich zobaczyć, nie ma przewagi nad tymi, którzy w ogóle nie mają danych Bob Lokken (CEO Knosys Inc.) Instytut Mechatroniki i Systemów Informatycznych Politechniki Łódzkiej Dlaczego? Wnioski z danych Szybsze podejmowanie lepszych decyzji Zwiększenie przewagi konkurencyjnej Usprawnienie procesów biznesowych Poprawa obsługi klientów Rozwiązania e-business Celem działania nie jest raport lecz decyzja, a złe decyzje są kosztowne. Dane nie są informacją! Aby dostrzec znaczenie danych, należy najpierw zobaczyć te dane. Jeden obraz z właściwą informacją jest więcej wart niż dowolna ilość wierszy i kolumn danych. 1

2 h Dostęp h Analiza Business Intelligence (BI) BI klucz do uwolnienia wiedzy i Łatwy dostęp do różnych źródeł danych i Narzędzia do eksploracji danych h Dystrybucja i Aktywny i bierny dostęp do informacji h W ramach organizacji i poza nią i Pracownicy, dostawcy, klienci, partnerzy,... Terminologia ETL (extraction, transformation, loading) Ekstrakcja danych Transformacja danych Ładowanie danych Hurtownia danych Wydzielona baza danych Zawiera dane historyczne i bieżące Data Mart - Składnica danych Ściśle związana z mniejszą grupą użytkowników Tematycznie dostosowana, zoptymalizowana dla ich potrzeb OLAP (On-Line Analytical Processing) Przetwarzanie danych wielowymiarowych Krótki czas odpowiedzi na dowolne zapytanie Czym jest Business Intelligence? Narzędzia i techniki wspomagające proces podejmowania decyzji Business Intelligence pozwala zrozumieć dane Co się wydarzyło? Co się aktualnie dzieje? Dlaczego? Co się stanie? Co chciałbym, aby się stało? Poziom strategiczny Zarząd Potencjał BI Kierownicy Pracownicy operacyjni ERP CRM SCM TPP inne Ilość podejmowanych decyzji 2

3 Ewolucja systemów informatycznych w zarządzaniu Informacja staje się najistotniejsza Przewaga konkurencyjna Wiedza i informacja biznesowa Działalność produkcyjna Czas Przedsiębiorstwa stają się przede wszystkim przetwórcami informacji biznesowej konkurując jednocześnie o jej źródła. Zwiększa się rola systemów inf. Wprowadzenie Systemy informatyczne Systemy informatyczne Systemy informatyczne Modelem przetwarzania nazywamy sposób w jaki użytkownik korzysta z bazy danych. Czas Zmiany techniczne Zarządzanie Poziom całej organizacji Modele przetwarzania: - przetwarzanie operacyjne - przetwarzanie analityczne 3

4 Przetwarzanie operacyjne (1) OLTP - OnLine Transaction Processing - przetwarzanie transakcji w trybie on-line Celem jest wspomaganie bieżącej obsługi działalności danej firmy, dla dobrze zdefiniowanych procesów (np.: obsługa sprzedaży) Oparty na transakcjach, które operują na niewielkiej części danych przechowywanych w bazie danych Przetwarzanie operacyjne (2) Dostarcza rozwiązań dla problemów: efektywnego i bezpiecznego przechowywania danych, optymalizacji dostępu do danych, dostępności danych, zarządzania współbieżnością Podstawowym kryterium oceny efektywności działania systemu OLTP jest liczba transakcji na sekundę Przetwarzanie analityczne OLAP - OnLine Analytical Processing - przetwarzanie analityczne w trybie on-line Celem jest przeprowadzanie analizy danych i wspomaganie decyzji. Posiadanie danych opisujących działanie przedsiębiorstwa w dłuższym przedziale czasu pozwala na analizę trendów, anomalii, poszukiwanie wzorców zachowań klientów, itp. Zalety przeprowadzania analizy danych Zrozumienie zachowania się klientów i zapotrzebowania na produkt, pozwala efektywnie kierować kampaniami reklamowymi Zarządzanie zapasami umożliwia producentom posiadanie właściwych produktów we właściwym miejscu i czasie Analiza rentowności pokazuje firmom, którzy klienci są dochodowi, a którzy nie 4

5 Przetwarzanie operacyjne a analityczne Definicja hurtowni danych Dlaczego potrzebnych informacji nie da się uzyskiwać bezpośrednio z operacyjnych systemów przetwarzania danych? Dane w aplikacjach operacyjnych są: - ukierunkowane na aplikacje operacyjne a nie analityczne - rozproszone po wielu aplikacjach operacyjnych - przechowywane w mało czytelnej postaci Hurtownie danych są bardzo dużymi bazami danych, w których gromadzi się dane pochodzące z wielu heterogenicznych źródeł: scentralizowanych lub rozproszonych baz relacyjnych, relacyjno-obiektowych, obiektowych oraz ze źródeł innych niż bazy danych (np.: pliki tekstowe). Jest to zbiór technologii, których celem jest wspieranie menadżerów i umożliwienie podejmowania im szybszych i lepszych decyzji. Systemy BI starej generacji Cechy hurtowni danych Hurtownia danych powinna być: - zorientowana tematycznie - nieulotna (trwała) - wielowersyjna czasowo - zintegrowana Wady! Słaba integracja Długie cykle wdrożeniowe Mała elastyczność Wysokie koszty utrzymania Client(s) OLAP Data Warehouse Za drogo! ETL 5

6 Systemy BI nowej generacji Zalety! Pełna integracja Systemy BI nowej generacji Zalety! Pełna integracja Krótkie cykle wdrożeniowe Końcówka klienta Krótkie cykle wdrożeniowe Końcówka klienta Duża elastyczność SQL Server 2000 Analysis Service Duża elastyczność SQL Server 2005 Bussines Inteligence Niskie koszty utrzymania SQL Server 2000 Meta Data Services Niskie koszty utrzymania SQL Server 2005 Meta Data Services Mniej szkoleń SQL Server 2000 Data Transformation Services Mniej szkoleń SQL Server 2005 Integration Services Taniej! Taniej! MS SQL ORACLE ERP EXCEL.DBF Projektowanie aplikacji analitycznych Serwer Analityczny DANE DTS (filtrowanie danych) SQL Server OLAP Services ProClarity Reguły Biznesowe ZAWARTOŚĆ Jakie parametry (wymiary, miary) będziemy analizować? Jakie są ich kryteria oceny? Kto, co i w jaki sposób będzie otrzymywał? Prezentacja UŻYTKOWNIK WIELE SPOSOBÓW DOSTĘPU MS Office Digital Dashboard PowerPoint Excel Przeglądarka www Program specjalizowany Architektura logiczna hurtowni danych 6

7 Konwerter Zadaniem konwertera jest transformowanie danych z formatu wykorzystywanego w źródle, do formatu wykorzystywanego w hurtowni danych. Etapy konwersji danych: - ekstrakcja danych - czyszczenie danych - ładowanie danych -odświeżanie danych Etapy konwersji danych (1) Ekstrakcja danych odbywa się przez bramki (gateways) lub standardowe interfejsy (ODBC, JDBC, Oracle Open Connect, Informix Enterprise Gateway, itd.) Czyszczenie danych ma na celu zapewnienie jakości i poprawności danych. Metody czyszczenia: konwersja i normalizacja, czyszczenie specjalne, czyszczenie oparte na regułach. Etapy konwersji danych (2) Ładowanie danych tym procesem zarządza moduł integratora. Najczęściej odbywa się to w trybie wsadowym. Dodatkowe przetwarzanie, np.: sortowanie danych, budowanie indeksów Odświeżanie danych proces propagowania zmian zachodzących w źródłach danych do hurtowni. Repozytorium metadanych Jest to składnik hurtowni danych, w którym przechowywane są informacje wspomagające zarządzanie hurtownią. (Przykład narzędzia do zarządzania metadanymi: IBM DataGuide) Zawiera ono zazwyczaj metadane: fizyczne; logiczne; operacyjne; historyczne; administracyjne; personalizacyjne 7

8 Wielowymiarowy model danych Dostępne narzędzia i technologie Podstawowym modelem logicznym dla OLAP jest wielowymiarowy model danych (MDD model - multidimensional data model). Dane są postrzegane przez użytkowników w postaci wielowymiarowej perspektywy. Obiektem analizy w modelu MDD jest zbiór miar numerycznych (faktów). Wartość każdej miary zależy od zbioru wymiarów. Development tools Microsoft Office End User Environment Reporting Services Repository & Distribution Bussines Inteligence OLAP & Data Mining Integration Services Extract Transform & Load Microsoft SQL Server Relational Engine Management tools Cechy charakterystyczne systemu analitycznego Model danych Zrozumiały dla użytkownika Łatwy w zastosowaniu Interaktywność Dowolne analizy dostępne od ręki Elastyczność Modelowanie widoków Zwiń / rozwiń Wejdź do wewnątrz / wyjdź na zewnątrz Pokaż dokumenty źródłowe OLAP Raportowanie relacyjne Modele aplikacji analitycznych - ewolucja Kostka Kostka Data mart Data mart Model danych Model danych Model danych Przeglądarka OLAP 2 Przeglądarka OLAP 1 Aplikacja 3 Aplikacja 2 Hurtownia Aplikacja 1 Duplikacja danych Duplikacja modeli 8

9 Raportowanie relacyjne czy OLAP? Właściwość Elastyczny, pełny schemat (wiele tabel faktów) Dane w czasie rzeczywistym Pojedyncza kopia danych Łatwe zarządzanie Raportowanie detali Wysoka wydajność Zorientowane na użytkownika Łatwość użycia Bogate możliwości analiz SQL OLAP Połączy nas Unified Dimensional Model Wiele tabel faktów Atrybuty dla wymiarów Raportowanie do poziomu dokumentu Gwiazda, płatek, 3FN Skomplikowane relacje (M2M, RPD ) Rekurencyjne join y Wymiary zmienne w czasie (SCDs) Wielowymiarowa nawigacja Hierarchiczna prezentacja Ekspozycja modelu biznesowego Doskonały aparat obliczeniowy (MDX) Wskaźniki (KPIs) Akcje Partycje, agregacje Unified Dimensional Model Ewolucja narzędzi do budowy aplikacji Kostka Kostka Data mart Data mart SQL 2005 Analysis Services UDM Cache XML / ODBO Przeglądarka OLAP 2 Przeglądarka OLAP 1 Aplikacja 3 Aplikacja 2 Enterprise Manager Query Analyzer Analysis Manager SQL 2000 SQL Management Workbench + BI Development Workbench Yukon Hurtownia Aplikacja 1 9

10 Schemat przetwarzania w technologii OLAP (ONLINE ANALYTICAL PROCESSING) Miejsce hurtowni danych w systemie Oczyszczanie SYSTEMY ŹRÓDŁOWE EXTRACTION TRANSFORM LOAD MANAGE DATA WAREHOUSE DATA MARTS PREZENTACJA / OLAP DOSTĘP UŻYTKOWNIKÓW I ANALIZY Baza A Synchronizacja Ekstrakcja Przesyłanie Data Warehouse / Data Mart i OLAP : - HOLAP -ROLAP -MOLAP OLE DB XML/A Ad-hoc Query Tools Raporty Operational Data Store Aplikacje na zamówienie Baza B Integracja Hurtownia Danych Data Mining Modele OLE DB XML/A Aplikacje analityczne Web Services i Aplikacje mobilne Baza X OLAP Analizy wspierające proces podejmowania decyzji biznesowych Analiza przekrojów Oddział Poznań Kraków Gdańsk ROR Kredyt Produkt 69,059,440 PLN 8,755 szt. 7,888 PLN Depozyt Rach. Inwest. Inne Q1 Q2 Q3 Czas Q4 10

11 Analiza przekrojów Business Intelligence architektura Informacja Wiedza Wnioski Działanie Wyniki Systemy źródłowe DM Kostka OLAP ETL Hurtownia danych DM Kostka OLAP Użytkownicy: - Raporty - Zapytania do bazy - Analizy OLAP - EIS - Budżetowanie - Data Mining Budowa systemu BI Etapy procesu Projekt aplikacji analitycznych Systemy źródłowe SQL DB2 Oracle SQL Server Data Warehouse Data Marts SQL SQL Analysis Services Analysis Services Klienci Stworzenie struktury bazy Stworzenie Dostęp i zasilanie hurtowni danych kostek OLAP do danych Narzędzia Query Raportowanie Analizy Data Mining SQL Server Oracle DB2 Excel ZBIORY DANYCH Microsoft SQL Server HURTOWNIA DANYCH Sprzedaż Produkcja Koszty MICROSOFT OLAP & ANALYSIS SERVICES UŻYTKOWNICY 11

12 MS Analysis Services Integracja z dowolnym źródłem danych (OLEDB) Skalowalność - wsparcie wszystkich sposobów przechowywania danych (MOLAP, ROLAP, HOLAP) Analysis Services - Wymiary Wspólne/prywatne Regularne/nieregularne Hierarchia drzewiasta (relacja rodzic potomek) Dane w węzłach O dużej liczbie elementów (grupowanie) Wymiary o liczbie potomków większej niż 64k Atrybuty Wiele hierarchii Własne formuły podsumowujące Struktura hurtowni danych Schemat pojęciowy hurtowni - schemat gwiazdy Problem wielowymiarowości Dwie podstawowe struktury Model gwiazdy Model płatka śniegu - tablica faktów - hierarchia wymiaru 12

13 Schemat pojęciowy hurtowni - schemat płatka śniegu Modele przechowywania dla hurtowni danych ROLAP - Relational OLAP - hurtownie wykorzystujące model relacyjny MOLAP - Multidimensional OLAP - hurtownie wykorzystujące wielowymiarowy model danych HOLAP -HybridOLAP -hurtownie łączące w sobie cechy MOLAP i ROLAP Efektywność hurtowni danych W celu poprawy efektywności działania hurtowni danych stosuje się wiele technik: - materializowanie agregatów - przetwarzanie równoległe - partycjonowanie danych - indeksowanie danych SQL Server 2005 Bussines Inteligence Zabezpieczenia, zarządzanie Uprawnienia Dla bazy OLAP / poszczególnych kostek Dla poszczególnych wymiarów ( hierarchii ) Zakres poziomów, zakres elementów, wyrażenia Opcjonalne uprawnienia w zbiorze danych Do poziomu poszczególnych komórek dla zapisu i/lub odczytu Zarządzanie Narzędzie graficzne Programowo - Decision Support Objects 13

14 Analysis Services - Kostki Kostki wirtualne Distributed Partitions Cubes Partycje Jednostka przetwarzania Storage (MOLAP, ROLAP, HOLAP) Optymalizacje Lokalne/zdalne Rozproszone Miary wyliczane Drillthrough Odczyt danych źródłowych Writeback Lazy aggregations Analysis Services - Aggregation Wizard w MS SQL 2000 AW znajduje regułę dla danych 20% wszystkich możliwych agregacji, które zapewniają 80% zysku wydajności Wyszukuje agregacje najczęściej wykorzystywane przez inne agregacje Niezależny od modelu danych OLAP Optymalizacja dla partycji Data source MS SQL 2005 Data view 14

15 Dimension Dimension Dimension Dimension 15

16 Cube Cube miara obliczana Cube rezultat Cube definicja złączenia 16

17 Cube definicja złączenia - zaawansowane Cube rezultat Cube rezultat Schemat przetwarzania w technologii DSS (DECISION SUPPORT SYSTEM) Raporty bieżące Dane bieżące Dane nadmiarowe DSS Usługi Pivot Table Dane archiwalne Hurtownia Danych 17

18 Systemy analizujące dane Data Mining dla SQL 2000 Systemy poszukujące w danych wiedzy (Data Mining) - do tych systemów zaliczyć można wszelkie hurtownie danych posługujące się narzędziami typu OLAP (OnLine Analitical Processing - przetwarzanie analityczne na bieżąco). Systemy wspomagania decyzji (Decision Support System) - stanowią one rozwinięcie i uzupełnienie narzędzi OLAP Data mining zintegrowane z Analysis Services Niezależne od postaci bazy ( [ R H M ] OLAP ) Dwa wbudowane algorytmy Income Good (2) Microsoft Decision Trees Poor (3) Klasyfikacja, predykcja High Microsoft Clustering Good (2) Poor (1) Wyszukiwanie podobieństw Married Mechanizm rozszerzalny Good (2) Poor (0) Poor (1) OLE DB for Data Mining MDX Extensions for Data Mining Not married Good (0) Low Good (0) Poor (2) Algorytmy zgłębiania danych w Bussines Inteligence MS SQL 2005 Maining model definiowanie kolumn Decision Trees (Algorytm klasyfikacji ) Naive Bayes (Algorytm klasyfikacji ) Neutral Network (Algorytm klasyfikacji ) Time Series (Algorytm regresji) Linear Regression (Algorytm regresji) Logistic Regresion (Algorytm regresji) Clustering (Algorytm grupowania) Sequence Clustering (Algorytm grupowania sekwencyjnego) Association Rules (Algorytm tworzenia reguł) 18

19 Maining model - Drzewo decyzyjne Maining model - Drzewo decyzyjne Stan domyślny Pozycja REGRESOR musi być odznaczona bo kolumna ma zmieniony typ z CONTINOUS na DISCRETIZED Histogramy dla węzła ALL i wybranego węzła potomnego Maining model - Drzewo decyzyjne Maining model - Drzewo decyzyjne Sieć zależności Przypadek dla wielu kolumn przewidywanych (PREDICT) Typy kolumn KEY INPUT PREDICT PREDICTONLY IGNORE 19

20 Maining model - Drzewo decyzyjne Maining model - Drzewo decyzyjne Ustawianie parametrów dla modelu zgłębiania danych Sprzężenia dla różnej siły powiązań Przypadek dla wielu kolumn przewidywanych (PREDICT) SCORE_METHOD metoda tworzenia drzewa 1 ENTROPIA 3 BAYES z predykcją 4 BAYES z porządkowaniem Dirichleta 4 Bayes uniform prior - domyślny Drzewo decyzyjne Drzewa otrzymywane dla różnych algorytmów są różne. To samo dotyczy zmiany typu danych pomiędzy CONTINOUS, DISCRETIZED, DISCRITE NumberEmployees DISCRETIZED Drzewo decyzyjne Drzewa otrzymywane dla różnych algorytmów są różne. To samo dotyczy zmiany typu danych pomiędzy CONTINOUS, DISCRETIZED, DISCRITE NumberEmployees CONTINOUS 1- Entropia 3 Bayes z predykcją K2 NumberEmployees DISCRETED 20

21 Grupowanie klastering Grupowanie klastering Parametry modelu Diagram cieniowany dla wartości zmiennej przewidywanej Definicja zawartości klastra w postaci mapy barwnej Grupowanie klastering Grupowanie klastering 1 i 4 1 i (NOT 1) Definicja prawdopodobieństwa przynależności do klastra (Cluster1) dla różnych wartości zmiennych wejściowych Definicja rozróżnialności między klastrami na podstawie wartości zmiennych wejściowych 21

22 Assosiation Rules Naive Bayes Może być tylko jedna kolumna przewidywana. Ze względu na dużą ilość wartości atrybut City pominięto Zależności między atrybutami Charakterystyka atrybutu Różnice między atrybutami Definicje reguł stowarzyszonych Opis atrybutu Neural Network Logistic Regresion Może być tylko jedna kolumna przewidywana. Ze względu na dużą ilość wartości atrybut City pominięto Może być tylko jedna kolumna przewidywana. Ze względu na dużą ilość wartości atrybut City pominięto Różnice między atrybutami Różnice między atrybutami 22

23 Drzewa decyzyjne -każdy węzeł reprezentuje test przeprowadzony na atrybucie -każda gałąź reprezentuje wynik testu -każdy liść reprezentuje klasę Prawo jazdy<3 nie tak Wiek >28 Ryzyko duże tak nie Auto >10 Ryzyko małe nie tak Rys. 6. Ryzyko małe Ryzyko duże Drzewa decyzyjne Drzewo decyzji: Ogólne => Szczegółowe węzeł - test atrybutu rozgałęzienie - wartość atrybutu lub podzbiór liście - przypisane do klas Testy: podział pojedynczej cechy, lub kombinacji Attrybut={wartość i } lub Attrybut < wartość i Kryteria: maksymalizacja ilości informacji, maksymalizacja liczby poprawnie podzielonych obiektów, czystość węzła Przycinanie: usuń gałęzie, które zawierają zbyt mało przypadków prostsze drzewo może lepiej generalizować oceń optymalną złożoność na zbiorze walidacyjnym. Kryterium stopu: osiągnięta dokładność podziałów, zbyt wiele gałęzi. Wybór atrybutu Który atrybut powinien być najpierw? p + i p - proporcje w lewej i prawej gałęzi. Zbiór wektorów S Obliczenia ilości informacji (entropi) E: E( p1, p2,... pn) = pilg 2 pi i q r E( p, q, r) = E( p, q+ r) + ( q+ r) E, q + r q + r Ile informacji zawiera dany podział? (Entropia) Średnia l. bitów do zakodowania dowolnego wektora z S wynosi: IS ( ) = plg p plg p S+ S GSA (, ) = IS ( ) IS ( + ) IS ( ) S S Informacja dla czystych węzłów = 0; jest max dla najbardziej pomieszanych. 23

24 , , , , , , , , , , , , , , , , , , , , , , E = log log = 0,985 Humidity = High S:[3+,4-] E=0,985 Entropia Humidity S:[9+,5-] E=0,94 Humidity = Normal S:[6+,1-] E=0, Gain= 0,94 0,985 0,592= 0, E = log log = E = log log = 0,94 0,592 TDIDT - Top Down Iterative Decision Tree function DT(E: zbiór przykładów) returns drzewo; T' := buduj_drzewo(e); T := obetnij_drzewo(t'); return T; function buduj_drzewo(e: zbiór przyk.) returns drzewo; T := generuj_tests(e); t := najlepszy_test(t, E); P := podział E indukowany przez t; if kryterium_stopu(e, P) then return liść(info(e)) else for all E j in P: t j := buduj_drzewo(e j ); return węzeł(t, {(j,t j )}; Tworzenie drzewa Tworzenie drzewa: szukanie w przestrzeni hipotez. Granice decyzji Podział hierarchiczny na hiperprostokąty. ID3 - podział w oparciu o zysk informacyjny. Lepsze mniejsze drzewo. Dość odporne na szum. Lokalne minima. 24

25 Drzewa proste i skośne Granice skośne Niestabilność DT Brzytwa Ockhama Czemu preferować prostsze drzewa? Mało prostych hipotez, więc mała szansa, że przypadkiem pasują do danych. Proste drzewa nie powinny zbytnio dopasować się do danych. Przetrenowanie modelu dla zbyt złożonych drzew, zła generalizacja. Ale: Dla małych zbiorów o wielu atrybutach można tworzyć wiele prostych opisów danych. 25

26 DT => reguły Zamień DT na reguły i uprość: łatwo ocenić, które reguły można usunąć i optymalizować pozostałe. 1R: najprostsze drzewo (Holte 1993), Niezłe rezultaty. Jeden poziom, atrybuty nominalne. Algorytm: Dla każdego atrybutu A dla każdej wartości atrybutu A : i policz częstości występowania klas znajdź klasę C występującą najczęściej utwórz regułę: IF A i THEN C Oblicz dokładność tej reguły. Wybierz reguły o największej dokładności. Wartość brakująca? traktowana jest jak każda inna. Ciągłe wartości numeryczne w DT Podziel obszary na interwały i traktuje je jak nominalne. Dla każdego atrybutu A porządkuj przypadki zgodnie z wartościami tego atrybutu ustal granice przedziałów dla wartości, przy których zmienia się klasa mająca większość. Minimalizuje to liczbę błędów w algorytmie 1R. Przykład: temperatura i jej korelacja z decyzją gracza: By uniknąć szumu można wprowadzić minimalną liczbę danych/interwał: ID3: Interactive dichotomizer version 3 Pierwotnie CLS (Concept Learning System), R. Quinlan (1986) Tylko do atrybutów nominalnych (nieuporządkowanych). Dla atrybutów rzeczywistych: konieczna dyskretyzacja. Ocena podziałów - za pomocą zysku informacji, Gain(D,A) Podział węzła na kilka podgałęzi, dla różnych wartości A Preferencje: wszystkie hipotezy możliwe, ale te dla drzew o dużym zysku informacyjnym w pobliżu korzenia preferowane - lokalne minima. Brakowało przycinania i dyskretyzacji. Rozwinięcie ID3 => drzewo C4.5 i C5 26

27 C 4.5 R. Quinlan (1993), jedno z najbardziej popularnych DT Typowy algorytm TDIDT Testy: A=? dla nominalnych, A<t, dla t=(a + i A i+1 )/2 (wystarczy sprawdzić tylko te wartości, dla których zmienia się klasa) Ocena podziałów - za pomocą zysku informacji, Gain(D,A) Dla testu atrybutu A o k wynikach: k Di GDA (, ) = ID ( ) I( Di ) i= 1 D k D i D i Split( D, A) = lg2 i= 1 D D GR ( D, A) = G( D, A)/ Split( D, A) Największy zysk dla największego k Informacja zawarta w podziałach. Końcowe kryterium C4.5. NewID Algorytm: dane przykłady E, atrybuty A i klasy c=1..c Lista bieżących przykładów D = E w korzeniu drzewa Jeśli D ma czyste liście (przykłady z pojedynczej klasy) to zatrzymaj. Dla każdego węzła i jeszcze nie użytych atrybutów powtarzaj: jeśli dostępne atrybuty nie mają określonych wartości utwórz węzeł typu Konflikt else: oblicz max j Gain(A j,c); utwórz węzły potomne dzieląc D k na podzbiory Końcowe drzewo jest zbytnio dopasowane. Drzewo do regresji: wybierz podział tak, by wariancja wewnątrz klas po podziale była jak najmniejsza: ( C X ) min Var ( ) v X Dv NewID cd. Brakujące wartości? i wartości obojętne * Jeśli niektóre A=? dla atrybutu binarnego w danych treningowych to węzłom potomnym przypisujemy wektory z A=T i A=N zgodnie z rozkładem a priori lub oceną Laplace a: N(T) = (N(c,A=T)+1)/(N(c)+N(A)); N(A)=2, l. wartości A Dla testu ocena l. wszystkich wektorów, a nie tylko w klasie c Wartości * są powielane. Przycinanie: ( C X ) min Var ( ) v X D Ocena na zbiorze walidacyjnym, próg R (zwykle R=10): Jeśli poddrzewo T W poprawia o R% dokładność klasyfikacji węzła W to schodź niżej; else zamień W na liść. NewID używa podzbiorów, atrybutów porządkowych, w. ciągłych. v NewID regresja. Drzewo do regresji: klasy ciągłe C(X) Wybierz podział tak, by wariancja wewnątrz klas po podziale była jak najmniejsza: ( C X ) min Var ( ) v X D v Kryterium stopu: nie rozwijaj węzła jeśli σ(d k ) < κσ(e). 27

28 CHAID CHi-squared Automatic Interaction Detection Kryterium podziału atrybutu A jest test χ 2 Hipoteza: jeśli test A<A 0 (lub A=A 0 ) jest skorelowany z podziałem na klasę C i pozostałe to test χ 2 da małą wartość. Przykład: podział gatunków. Atrybut = dł. ogona. Tabela kontyngencji: Gatunek N. ptaki N. gady N. ssaki N. ryby Suma Długi n 11 n 12 n 13 n 14 N 1o Krótki n 21 n 22 n 23 n 24 N 2o Brak n 31 n 32 n 33 n 34 N 2o Suma N g1 N g2 N g3 N g4 N Oczekiwane: e ij = N io x N gj / N Rozkład χ 2 dla: 2 n e / e ( ) ij ij ij ij 2 ( χ ) = erf (, χ ) p k k k=(n io -1) x (N gj -1) stopni swobody. CART Classification and Regression Trees (Breiman 1984). Kryterium podziału: indeks Gini; w danym węźle p c określa procent wektorów z klasy c; czystość węzła można zmierzyć za pomocą: C C 2 Gini = p p = 1 p c d c c d c= 1 Mi = 1 max p c c Kryterium stopu: MDL, złożoność drzewa + informacja w liściach αsize( Tree) + I( l) l leaf SSV Kryterium separowalności par danych z różnych klas. Oddziel maksymalnie dużo par z różnych klas. Jeśli różne podziały dają to samo minimalizuj l. podziałów wewnątrz klasy { x D: f( x) < s}, f ciągłe LS ( s, f, D) = { x D: f( x) s}, f dyskretne RS s, f, D = D LS s, f, D Kryterium: ( ) ( ) ( ) I c ( ) I( c) c C ( LS( s f D) IDc RS( s f D) IDc ) SSV() s = 2 LS s, f, D D RS s, f, D D D c C min,,,,, Proste kryterium, różne metody obcinania drzewa, dobre wyniki. DT: szybkie i proste. Ocena i wyniki Zalety: Zwykle bardzo dobre wyniki w porównaniu z innymi klasyfikatorami. Łatwe w użyciu, prawie nie mają parametrów do ustawiania. Dane nominalne lub numeryczne. Zastosowania: klasyfikacja i regresja. Prawie wszystkie pakiety Data Mining mają drzewa decyzji. Problemy z DT: mało danych, duża liczba ciągłych cech; niższe partie drzewa mają b. mało danych, przypadkowe podziały; nie wszystkie koncepcje dają się dobrze ująć za pomocą DT, np. większość jest za. 28

29 Zadania do rozwiązania Drzewa wieloczynnikowe: skośne granice decyzji; drzewa sieci neuronowych; rekursywny podział za pomocą LDA lub FDA Kryteria podziału: informacja w pobliżu korzenia, dokładność w pobliżu liści. przycinanie na podstawie reguł - działa również przy korzeniu; Komitety drzew: wielokrotne uczenie na randomizowanych danych (boosting) uczenie z różnymi parametrami obcinania Drzewa rozmyte Mechanizmy wspomagania decyzji Do mechanizmów używanych w systemach OLAP i DSS zaliczają się: Reguły asocjacyjne Np.: 75% reklamowanych w 2002 dysków twardych zawierających bad sektory i okresowo zawieszajacych komputer miało ślady uszkodzeń mechanicznych. Takie dyski stanowiły 0,6% produkcji Bad sektory ^ wieszanie systemu uszkodzenie mechaniczne s=0,6 c=75 Klasyfikacja Grupowanie (klasteryzacja) NIE Dysk w serwerze TAK Użytkownik >17 NIE TAK Wiatrak systemowy TAK NIE NIE Klimatyzacja =1 NIE TAK UPS=1 TAK Ryzyko duże Ryzyko średnie Ryzyko małe Rys. 2. Rys

30 Algorytmm Fuzzy K-means Algorytmm Fuzzy K-means należy do grupy nie-hierarchicznych algorytmów grupowania. Jego istotą jest początkowy losowy wybór położenia środków grup. W kolejnych krokach iteracji po obliczeniu funkcji przynależności poszczególnych punktów od środków grup są one każdorazowo przeliczane. Takie postępowanie powoduje, że środki grup "wędrują" do swoich prawidłowych położeń. gdzie p( ω i x j ) n b p( ωi x j ) j= 1 = j n b p( ωi x j ) jest prawdopodobieństwem warunkowym przynależności j-go elementu do i-tej grupy, b - parametr, którego wartość musi być różna od 1, najczęściej jest przyjmowana jako 2. Funkcja przynależności jest normalizowana według: c j= 1 ( ) μ j= 1 p ω = 1 gdzie j=1,2 n i x j x j k-means clustering Przykład klasteryzacji algorytmem k-means K=2 K=3 m m 2 m 2 m 2 2 m 1 m 1 m m2 m 2 2 m 1 m 2 m 1 m 3 m 1 3 m m 3 1 m 1 Algorytmm Fuzzy K-means Przynależność elementu do każdej z grup obliczane jest według: p ( ω x ) i j = 1 dij p( ω i x j ) r= 1 rj gdzie 2 2 dij = x j μ j jest odległością punktu x j od środka grupy μ i, natomiast b jest parametrem, którego wartość musi być różna od 1, najczęściej jest przyjmowana jako 2. c 1 b 1 1 d 1 b 1 Algorytmm Fuzzy K-means Schemat działania algorytmu K-means można przedstawić w kilku punktach: 1. Losowe wyznaczenie środków poszukiwanych grup, 2. Obliczenie odległości punktów od środków grup, 3. Obliczenie wartości funkcji przynależności wszystkich elementów, 4. Obliczenie środków grup μ i Jeżeli: brak zmian w μ i oraz p( ωi x j ) w przeciwnym wypadku skok do p.2. - zwróć μ, μ, K, 1 2 ( ) p ω i x j μ c 30

31 Algorytm Fuzzy C-means Algorytm Fuzzy C-means należy do grupy nie-hierarchicznych algorytmów grupowania. Jego istotą jest początkowe usytuowanie położenia środków grup w środkowej części rozpatrywanej przestrzeni. W kolejnych krokach iteracji po obliczeniu funkcji przynależności poszczególnych punktów od środków grup są one każdorazowo przeliczane. Takie postępowanie powoduje, że środki grup "wędrują" do swoich prawidłowych położeń. Mając do obliczeń skończony zbiór elementów X={x 1,...,x N ) oraz liczbę C środków grup, wyznaczamy N elementów dla C grup i przedstawiamy w postaci macierzy przynależności U=[u ik ]. Z k=1,...,n, i=1,...,c oraz u ik wyraża rozmytą przynależność elementu v k do środka grupy v i. Algorytm Fuzzy C-means Środki zgrupowań oraz przynależność elementów wyznaczamy z zależności: gdzie 1 i C u ik ν k = 1 i = n = c j= 1 n ( uik ) ( uik ) k = 1 1 d d ik jk m 2 m 1 m - parametr fuzyfikacji, d ik - miara odległości pomiędzy środkiem v i oraz elementem x k, która w tym wypadku jest odległością Euklidesową. m x k Algorytm Fuzzy C-means Schemat działania algorytmu K-means można przedstawić w kilku punktach: 1. Ustalanie liczby C środków grup. Inicjalizacja macierzy przynależności, ( 0) U Metoda górska Pierwszy etap metody górskiej polega na stworzeniu dyskretnej przestrzeni X x Y przez podział X i Y za pomocą odpowiednio r1 i r2 równomiernie oddalonych od siebie linii. Przecięcia tych linii siatkowych, zwane węzłami, tworzą nasz zbiór potencjalnych środków grupowania. Oznaczamy element N przez N ij, (X i,y j ). 2. Obliczenie C środków grup v i zgodnie z aktualna macierzą przynależności, ( 0) ( l+1) 3. Przeliczenie U do U zgodnie z aktualnymi środkami grup v i, Jeżeli: () l ( l+1) U U < ε -zwróć macierz przynależności w przeciwnym wypadku skok do p.2. ( l ) U dla każdego punktu N ij, (X i,y j ) w zbiorze N funkcję górską określa zależność M ( N ) = ij q k = 1 ( αd ( N ij, Ok )) e przy czym O k jest k-tym punktem danych (x k,y k ), α jest stałą dodatnią i d(n ij,o k ) jest miarą odległości miedzy N ij i O k. Najczęściej, ale nie koniecznie tą miarą jest miara Euklidesowa d ( N O ) = ( X x ) 2 + ( Y y ) 2 ij, k i k j k 31

32 Metoda górska Trzeci etap metody górskiej polega na wykorzystaniu funkcji górskiej do tworzenia środków grupowania. Niech węzeł N 1 * będzie punktem siatki o maksymalnej sumie całkowitej, szczytem funkcji górskiej. Jego wygraną będziemy oznaczali M 1 *=Max[M(N ij )]. Jeżeli jest więcej niż jedno maksimum, to wybieramy losowo jeden z nich. Wyróżniamy ten węzeł jako pierwszy środek grupowania i oznaczamy jego współrzędne N 1 *=(x 1 *,y 1 *). Aby otrzymać następny środek grupowania, musimy wyeliminować wpływ dopiero co zidentyfikowanego środka, ponieważ zazwyczaj ten szczyt jest otoczony przez pewną liczbę punktów siatki, które również mają wysokie wygrane. W tym celu musimy usunąć wpływ szczytu będącego ostatnio zidentyfikowanym środkiem grupowania i skorygować funkcję górską. Dokładniej mówiąc, tworzymy skorygowaną funkcję górską M 2, określoną na N, taką że M ( N 2 ij ) = M 1 ( N ij ) M * 1 * ( βd ( N1, N ij )) e przy czym M 1 jest pierwotną funkcją górską M, β jest stałą dodatnią, N 1 * i M 1 * są to położenie i wygrana środka grupowania ostatnio zidentyfikowanego i d=(n 1 *,N ij ) jest miarą odległości. Klastrowanie algorytmem górskim Przykład: m 1 m 2 2 m 2 m 1 m 1 m 4 m 3 m 3 m 4 m3 K=3 Metoda górska Teraz użyjemy skorygowanej funkcji górskiej M 2 do znalezienia następnego środka grupowania, określając jego położenie N 2 * i wygraną M 2 * o wartości maksymalnej. N 2 * staje się nowym drugim środkiem grupowania. Następnie korygujemy naszą funkcję, aby otrzymać M 3 Mówiąc ogólnie, startując od skorygowanej funkcji górskiej M k, którą otrzymujemy w rezultacie znalezienia (k-1)-szego środka grupowania, postępujemy następująco: 1. Znajdź M k *=Max[(M k (N ij )] 2. Oznacz k-ty środek grupowania w N k * - położenia maksymalnego węzła, znalezionego w punkcie Utwórz skorygowaną funkcje górską M k+1 jako M k + 1( N ij ) = M k ( N ij ) 4. Jeżeli: -M* m+1 d - zakończ proces - w przeciwnym wypadku skok do punktu 2. * ( βd ( N k, N ij )) M e * k Metoda górska Ważną cechą metody funkcji górskiej jest brak wymagania założenia liczby środków grupowania. Metoda ta wyznacza m pierwszych środków, które spełniają kryterium zakończenia obliczeń, począwszy od najważniejszych, które mają maksymalne wartości funkcji górskiej w węzłach N 1 *,N 2 *,...,N m *. u ik = d d 2 m 1 j= 1 jk m - parametr fuzyfikacji, d ik - miara odległości pomiędzy środkiem v i oraz elementem x k, która w tym wypadku jest odległością Euklidesową. c 1 ik 32

Hurtownie danych. 31 stycznia 2017

Hurtownie danych. 31 stycznia 2017 31 stycznia 2017 Definicja hurtowni danych Hurtownia danych wg Williama Inmona zbiór danych wyróżniający się następującymi cechami uporządkowany tematycznie zintegrowany zawierający wymiar czasowy nieulotny

Bardziej szczegółowo

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury

Bardziej szczegółowo

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Usługi analityczne budowa kostki analitycznej Część pierwsza. Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.

Bardziej szczegółowo

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence

Bardziej szczegółowo

Co to jest Business Intelligence?

Co to jest Business Intelligence? Cykl: Cykl: Czwartki z Business Intelligence Sesja: Co Co to jest Business Intelligence? Bartłomiej Graczyk 2010-05-06 1 Prelegenci cyklu... mariusz@ssas.pl lukasz@ssas.pl grzegorz@ssas.pl bartek@ssas.pl

Bardziej szczegółowo

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych

Bardziej szczegółowo

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty

Bardziej szczegółowo

OLAP i hurtownie danych c.d.

OLAP i hurtownie danych c.d. OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji

Bardziej szczegółowo

Baza danych dla potrzeb zgłębiania DMX

Baza danych dla potrzeb zgłębiania DMX Baza danych dla potrzeb zgłębiania DMX ID Outlook Temperature Humidity Windy PLAY 1 sunny hot high false N 2 sunny hot high true N 3 overcast hot high false T 4rain mild high false T 5rain cool normal

Bardziej szczegółowo

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Wprowadzenie do Hurtowni Danych. Mariusz Rafało Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl WARSTWA PREZENTACJI HURTOWNI DANYCH Wykorzystanie hurtowni danych - aspekty Analityczne zbiory danych (ADS) Zbiór danych tematycznych (Data

Bardziej szczegółowo

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykładów Wprowadzenie - integracja

Bardziej szczegółowo

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykład adów Wprowadzenie - integracja

Bardziej szczegółowo

Spis tre±ci. Przedmowa... Cz ± I

Spis tre±ci. Przedmowa... Cz ± I Przedmowa.................................................... i Cz ± I 1 Czym s hurtownie danych?............................... 3 1.1 Wst p.................................................. 3 1.2 Denicja

Bardziej szczegółowo

Politechnika Łódzka, ul. Żeromskiego 116, 90-924 Łódź, tel. (042) 631 28 83. Projekt współfinansowany przez Unię Europejską

Politechnika Łódzka, ul. Żeromskiego 116, 90-924 Łódź, tel. (042) 631 28 83. Projekt współfinansowany przez Unię Europejską Oracle i DB2 zadanie współfinansowane przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń - zintegrowany rozwój Politechniki Łódzkiej

Bardziej szczegółowo

Hurtownie danych a transakcyjne bazy danych

Hurtownie danych a transakcyjne bazy danych Hurtownie danych a transakcyjne bazy danych Materiały źródłowe do wykładu: [1] Jerzy Surma, Business Intelligence. Systemy wspomagania decyzji, Wydawnictwo Naukowe PWN, Warszawa 2009 [2] Arkadiusz Januszewski,

Bardziej szczegółowo

Modele danych - wykład V

Modele danych - wykład V Modele danych - wykład V Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie

Bardziej szczegółowo

Business Intelligence

Business Intelligence Business Intelligence Paweł Mielczarek Microsoft Certified Trainer (MCT) MCP,MCSA, MCTS, MCTS SQL 2005, MCTS SQL 2008, MCTS DYNAMICS, MBSS, MBSP, MCITP DYNAMICS. Geneza Prowadzenie firmy wymaga podejmowania

Bardziej szczegółowo

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE Modele danych - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. modele danych 4. Podsumowanie 5. Zadanie fajne

Bardziej szczegółowo

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services Spis treści Wstęp... ix Odkąd najlepiej rozpocząć lekturę?... ix Informacja dotycząca towarzyszącej ksiąŝce płyty CD-ROM... xi Wymagania systemowe... xi Instalowanie i uŝywanie plików przykładowych...

Bardziej szczegółowo

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej

Bardziej szczegółowo

Wstęp do Business Intelligence

Wstęp do Business Intelligence Wstęp do Business Intelligence Co to jest Buisness Intelligence Business Intelligence (analityka biznesowa) - proces przekształcania danych w informacje, a informacji w wiedzę, która może być wykorzystana

Bardziej szczegółowo

Część I Istota analizy biznesowej a Analysis Services

Część I Istota analizy biznesowej a Analysis Services Spis treści Część I Istota analizy biznesowej a Analysis Services 1 Analiza biznesowa: podstawy analizy danych... 3 Wprowadzenie do analizy biznesowej... 3 Wielowymiarowa analiza danych... 5 Atrybuty w

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/

Bardziej szczegółowo

Pierwsze wdrożenie SAP BW w firmie

Pierwsze wdrożenie SAP BW w firmie Pierwsze wdrożenie w firmie Mirosława Żurek, BCC Poznao, maj 2013 Zakres tematyczny wykładu Podstawowe założenia i pojęcia hurtowni danych ; Przykładowe pierwsze wdrożenie w firmie i jego etapy; Przykładowe

Bardziej szczegółowo

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Systemy OLAP I Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2008/09 Studia

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Wprowadzenie do hurtowni danych

Wprowadzenie do hurtowni danych Wprowadzenie do hurtowni danych przygotował: Paweł Kasprowski Kostka Kostka (cube) to podstawowy element hurtowni Kostka jest wielowymiarowa (od 1 do N wymiarów) Kostka składa się z: faktów wektora wartości

Bardziej szczegółowo

Rola analityki danych w transformacji cyfrowej firmy

Rola analityki danych w transformacji cyfrowej firmy Rola analityki danych w transformacji cyfrowej firmy Piotr Czarnas Querona CEO Analityka biznesowa (ang. Business Intelligence) Proces przekształcania danych w informacje, a informacji w wiedzę, która

Bardziej szczegółowo

Kostki OLAP i język MDX

Kostki OLAP i język MDX Kostki OLAP i język MDX 24 kwietnia 2015 r. Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne rodzaje zadań,

Bardziej szczegółowo

Data Mining podstawy analizy danych Część druga

Data Mining podstawy analizy danych Część druga Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany

Bardziej szczegółowo

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa Budowa systemu wspomagającego podejmowanie decyzji Metodyka projektowo wdrożeniowa Agenda Systemy wspomagające decyzje Business Intelligence (BI) Rodzaje systemów BI Korzyści z wdrożeń BI Zagrożenia dla

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017 dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl

Bardziej szczegółowo

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego BD2 BazyDanych2 dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego ³ Copyright c Tomasz Traczyk Instytut Automatyki i Informatyki Stosowanej Politechniki Warszawskiej Materiały dydaktyczne

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2007/08 Studia uzupełniajace magisterskie

Bardziej szczegółowo

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL Podstawy baz danych: Rysunek 1. Tradycyjne systemy danych 1- Obsługa wejścia 2- Przechowywanie danych 3- Funkcje użytkowe 4- Obsługa wyjścia Ewolucja baz danych: Fragment świata rzeczywistego System przetwarzania

Bardziej szczegółowo

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence Hurtownie danych Wprowadzenie do systemów typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika

Bardziej szczegółowo

Szczegółowy opis przedmiotu zamówienia

Szczegółowy opis przedmiotu zamówienia ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów

Bardziej szczegółowo

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Wprowadzenie do Hurtowni Danych. Mariusz Rafało Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl PROJEKTOWANIE WARSTWY DANYCH DETALICZNYCH - ZAGADNIENIA Partycjonowanie Partycja jest wydzielonym miejscem na dysku, w którym przechowywane

Bardziej szczegółowo

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1) Hurtownie danych dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki Maciej Zakrzewicz (1) Plan wykładu Wprowadzenie do Business Intelligence (BI) Hurtownia danych Zasilanie hurtowni

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Biznesowe słowniki pojęć biznesowych odwzorowania pojęć

Bardziej szczegółowo

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Wprowadzenie do Hurtowni Danych. Mariusz Rafało Wprowadzenie do Hurtowni Danych Mariusz Rafało mariusz.rafalo@hotmail.com WPROWADZENIE DO HURTOWNI DANYCH Co to jest hurtownia danych? Hurtownia danych jest zbiorem danych zorientowanych tematycznie, zintegrowanych,

Bardziej szczegółowo

Specjalizacja magisterska Bazy danych

Specjalizacja magisterska Bazy danych Specjalizacja magisterska Bazy danych Strona Katedry http://bd.pjwstk.edu.pl/katedra/ Prezentacja dostępna pod adresem: http://www.bd.pjwstk.edu.pl/bazydanych.pdf Wymagania wstępne Znajomość podstaw języka

Bardziej szczegółowo

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw. Hurtownie danych Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.pl/hur UZASADNIENIE BIZNESOWE Po co nam hurtownia danych? Jakie mogą

Bardziej szczegółowo

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX Architektura i struktura funkcjonalna systemu PROPHIX PROPHIX Corporate Performance Management (Zarządzanie Wydajnością Firmy) System do samodzielnego planowania,

Bardziej szczegółowo

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne

Bardziej szczegółowo

Schematy logiczne dla hurtowni danych

Schematy logiczne dla hurtowni danych Schematy logiczne dla hurtowni danych 26 Plan rozdziału 27 Model biznesowy, logiczny i fizyczny hurtowni danych Podstawowe pojęcia w modelu logicznym, logiczny model wielowymiarowy Implementacje ROLAP/MOLAP

Bardziej szczegółowo

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski DMX DMX DMX Data Mining Extensions jest językiem do tworzenia i działania na modelach eksploracji danych w Microsoft SQL Server Analysis Services SSAS. Za pomocą DMX można tworzyć strukturę nowych modeli

Bardziej szczegółowo

Wykład I. Wprowadzenie do baz danych

Wykład I. Wprowadzenie do baz danych Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4 1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4 2 Tabele przestawne, wykresy przestawne i formatowanie warunkowe 11 Co to

Bardziej szczegółowo

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence Hurtownie danych Rola hurtowni danych w systemach typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika

Bardziej szczegółowo

Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com

Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com Media Partners Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com Adrian Chodkowski Konsultant Business Intelligence w Jcommerce S.A Certyfikowany

Bardziej szczegółowo

Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot

Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot Alberto Ferrari i Marco Russo Przekład: Marek Włodarz APN Promise Warszawa 2014 Spis treści Wprowadzenie............................................................

Bardziej szczegółowo

2011-11-04. Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL

2011-11-04. Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL Instalacja, konfiguracja Dr inŝ. Dziwiński Piotr Katedra InŜynierii Komputerowej Kontakt: piotr.dziwinski@kik.pcz.pl 2 Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

Wprowadzenie do hurtowni danych

Wprowadzenie do hurtowni danych Wprowadzenie do hurtowni danych przygotował: Paweł Kasprowski Informacje ogólne ( pawel@kasprowski.pl ) Wykładowca: Paweł Kasprowski Temat: Wprowadzenie do hurtowni danych Umiejętności wymagane: Znajomość

Bardziej szczegółowo

Kasy Fiskalne Lublin Analityk

Kasy Fiskalne Lublin Analityk Kasy Fiskalne Lublin Analityk http://sklep.soft-tec.lublin.pl/produkt/analityk Producent Cena Cena netto Insert 984.00 PLN 800.00 PLN Analityk to system wspomagania decyzji, który opiera się na najnowszych

Bardziej szczegółowo

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019 dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl

Bardziej szczegółowo

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego 1 85-240 Bydgoszcz www.softmaks.pl kontakt@softmaks.pl

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego 1 85-240 Bydgoszcz www.softmaks.pl kontakt@softmaks.pl Paweł Gołębiewski Softmaks.pl Sp. z o.o. ul. Kraszewskiego 1 85-240 Bydgoszcz www.softmaks.pl kontakt@softmaks.pl Droga na szczyt Narzędzie Business Intelligence. Czyli kiedy podjąć decyzję o wdrożeniu?

Bardziej szczegółowo

Co to są drzewa decyzji

Co to są drzewa decyzji Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni

Bardziej szczegółowo

Portale raportowe, a narzędzia raportowe typu self- service

Portale raportowe, a narzędzia raportowe typu self- service Portale raportowe, a narzędzia raportowe typu self- service Bartłomiej Graczyk Kierownik Projektów / Architekt rozwiązań Business Intelligence E mail: bartek@graczyk.info.pl Site: www.graczyk.info.pl Agenda

Bardziej szczegółowo

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych 1 Plan wykładu 2 Hurtownie danych Integracja danych za pomocą hurtowni danych Przetwarzanie analityczne OLAP Model wielowymiarowy Implementacje modelu wielowymiarowego ROLAP MOLAP Odświeżanie hurtowni

Bardziej szczegółowo

Bazy danych i ich aplikacje

Bazy danych i ich aplikacje ORAZ ZAPRASZAJĄ DO UDZIAŁU W STUDIACH PODYPLOMOWYCH Celem Studiów jest praktyczne zapoznanie słuchaczy z podstawowymi technikami tworzenia i administrowania bazami oraz systemami informacyjnymi. W trakcie

Bardziej szczegółowo

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych Plan wykładu Bazy Wykład 14: Hurtownie Bazy operacyjne i analityczne Architektura hurtowni Projektowanie hurtowni Małgorzata Krętowska, Agnieszka Oniśko Wydział Informatyki PB Bazy (studia dzienne) 2 Rodzaje

Bardziej szczegółowo

Bazy analityczne (hurtownie danych, bazy OLAP)

Bazy analityczne (hurtownie danych, bazy OLAP) Bazy analityczne (hurtownie danych, bazy OLAP) Materiały pomocnicze. Bazy produkcyjne (transakcyjne) i analityczne Większość systemów baz danych to systemy produkcyjne, inaczej nazywane transakcyjnymi,

Bardziej szczegółowo

OPIS PRZEDMIOTU ZAMÓWIENIA

OPIS PRZEDMIOTU ZAMÓWIENIA Załącznik nr 1 OPIS PRZEDMIOTU ZAMÓWIENIA Licencja Microsoft Windows SQL Server Standard 2012 (nie OEM) lub w pełni równoważny oraz licencja umożliwiająca dostęp do Microsoft Windows SQL Server Standard

Bardziej szczegółowo

Oracle11g: Wprowadzenie do SQL

Oracle11g: Wprowadzenie do SQL Oracle11g: Wprowadzenie do SQL OPIS: Kurs ten oferuje uczestnikom wprowadzenie do technologii bazy Oracle11g, koncepcji bazy relacyjnej i efektywnego języka programowania o nazwie SQL. Kurs dostarczy twórcom

Bardziej szczegółowo

CZĘŚĆ I ZASTOSOWANIE PROGRAMU EXCEL DO ANALIZ BUSINESS INTELLIGENCE

CZĘŚĆ I ZASTOSOWANIE PROGRAMU EXCEL DO ANALIZ BUSINESS INTELLIGENCE Spis treści O autorach Wprowadzenie CZĘŚĆ I ZASTOSOWANIE PROGRAMU EXCEL DO ANALIZ BUSINESS INTELLIGENCE Rozdział 1. Istotne zagadnienia bazodanowe Bazy danych jako remedium na standardowe ograniczenia

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

OfficeObjects e-forms

OfficeObjects e-forms OfficeObjects e-forms Rodan Development Sp. z o.o. 02-820 Warszawa, ul. Wyczółki 89, tel.: (+48-22) 643 92 08, fax: (+48-22) 643 92 10, http://www.rodan.pl Spis treści Wstęp... 3 Łatwość tworzenia i publikacji

Bardziej szczegółowo

Ewolucja technik modelowania hurtowni danych

Ewolucja technik modelowania hurtowni danych Baza wiedzy JPro Ewolucja technik modelowania hurtowni Porównanie technik modelowania hurtowni podsumowanie: Strona 1/6 Nazwa podejścia Corporate Information Factory Kimball Bus Architecture Data Vault

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.

Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o. Usługa archiwizacji danych w systemie Eureca Marek Jelenik CONTROLLING SYSTEMS sp. z o.o. Na czym polega usługa archiwizacji danych w systemie Eureca? 2012 2013 2014 2015 Przed archiwizacją SQL OLAP BAZA

Bardziej szczegółowo

Data Mining podstawy analizy danych Cześć pierwsza. Wprowadzenie

Data Mining podstawy analizy danych Cześć pierwsza. Wprowadzenie Data Mining podstawy analizy danych Cześć pierwsza Wprowadzenie Usługa Data Mining w środowisku serwera SQL 2005 jest jednym z komponentów technologii business intelligence. Umożliwia ona budowę złożonych

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017 Analityka danych w środowisku Hadoop Piotr Czarnas, 27 czerwca 2017 Hadoop i Business Intelligence - wyzwania 1 Ładowane danych do Hadoop-a jest trudne 2 Niewielu specjalistów dostępnych na rynku Dostęp

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Hurtownie danych wykład 3

Hurtownie danych wykład 3 Hurtownie danych wykład 3 dr Sebastian Zając SGH Warszawa 7 lutego 2017 Architektura relacyjna i wielowymiarowa Ze względu na przechowywanie danych na serwerze możemy zdecydować się na relacyjną bazę danych

Bardziej szczegółowo

Monitoring procesów z wykorzystaniem systemu ADONIS

Monitoring procesów z wykorzystaniem systemu ADONIS Monitoring procesów z wykorzystaniem systemu ADONIS BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management

Bardziej szczegółowo

Pojęcie bazy danych. Funkcje i możliwości.

Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

COMARCH DATA WAREHOUSE MANAGER 6.2

COMARCH DATA WAREHOUSE MANAGER 6.2 COMARCH DATA WAREHOUSE MANAGER 6.2 WSTĘP DO ZAGADNIENIA HURTOWNI DANYCH Gromadzenie danych biznesowych z systemów rozproszonych, oraz doprowadzenie do ich uwspólnienia, w celu przeprowadzenia analiz oraz

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści Ramowy plan kursu Lp. Moduły Wyk. Lab. Przekazywane treści 1 3 4 Technologia MS SQL Server 2008 R2. Podstawy relacyjnego modelu i projektowanie baz. Zaawansowane elementy języka SQL. Programowanie w języku

Bardziej szczegółowo

Trendy BI z perspektywy. marketingu internetowego

Trendy BI z perspektywy. marketingu internetowego Trendy BI z perspektywy marketingu internetowego BI CECHUJE ORGANIZACJE DOJRZAŁE ANALITYCZNIE 2 ALE JAKA JEST TA DOJRZAŁOŚĆ ANALITYCZNA ORGANIZACJI? 3 Jaka jest dojrzałość analityczna organizacji? Zarządzanie

Bardziej szczegółowo

Szkolenia SAS Cennik i kalendarz 2017

Szkolenia SAS Cennik i kalendarz 2017 Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS

Bardziej szczegółowo

HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.

HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K. HURTOWNIE DANYCH Krzysztof Goczyła Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska kris@eti.pg.gda.pl # 1 Część I. Tworzenie hurtowni danych 1. Co to jest hurtownia danych? 2. Model

Bardziej szczegółowo

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL Hurtownie danych Ładowanie, integracja i aktualizacja danych. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH Źródła danych ETL Centralna hurtownia danych Do hurtowni

Bardziej szczegółowo

Część I Rozpoczęcie pracy z usługami Reporting Services

Część I Rozpoczęcie pracy z usługami Reporting Services Spis treści Podziękowania... xi Wprowadzenie... xiii Część I Rozpoczęcie pracy z usługami Reporting Services 1 Wprowadzenie do usług Reporting Services... 3 Platforma raportowania... 3 Cykl życia raportu...

Bardziej szczegółowo

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Modelowanie hierarchicznych struktur w relacyjnych bazach danych Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego

Bardziej szczegółowo