Hurtownie danych. Dlaczego? Wnioski z danych. Adam Pelikant. Dlaczego?
|
|
- Antoni Leszczyński
- 8 lat temu
- Przeglądów:
Transkrypt
1 Dlaczego? Hurtownie danych Człowiek, który potrafi czytać ale nie ma książek, nie ma przewagi nad tymi, którzy w ogóle nie umieją czytać Mark Twain Adam Pelikant Człowiek który posiada dane ale nie potrafi ich zobaczyć, nie ma przewagi nad tymi, którzy w ogóle nie mają danych Bob Lokken (CEO Knosys Inc.) Instytut Mechatroniki i Systemów Informatycznych Politechniki Łódzkiej Dlaczego? Wnioski z danych Szybsze podejmowanie lepszych decyzji Zwiększenie przewagi konkurencyjnej Usprawnienie procesów biznesowych Poprawa obsługi klientów Rozwiązania e-business Celem działania nie jest raport lecz decyzja, a złe decyzje są kosztowne. Dane nie są informacją! Aby dostrzec znaczenie danych, należy najpierw zobaczyć te dane. Jeden obraz z właściwą informacją jest więcej wart niż dowolna ilość wierszy i kolumn danych. 1
2 h Dostęp h Analiza Business Intelligence (BI) BI klucz do uwolnienia wiedzy i Łatwy dostęp do różnych źródeł danych i Narzędzia do eksploracji danych h Dystrybucja i Aktywny i bierny dostęp do informacji h W ramach organizacji i poza nią i Pracownicy, dostawcy, klienci, partnerzy,... Terminologia ETL (extraction, transformation, loading) Ekstrakcja danych Transformacja danych Ładowanie danych Hurtownia danych Wydzielona baza danych Zawiera dane historyczne i bieżące Data Mart - Składnica danych Ściśle związana z mniejszą grupą użytkowników Tematycznie dostosowana, zoptymalizowana dla ich potrzeb OLAP (On-Line Analytical Processing) Przetwarzanie danych wielowymiarowych Krótki czas odpowiedzi na dowolne zapytanie Czym jest Business Intelligence? Narzędzia i techniki wspomagające proces podejmowania decyzji Business Intelligence pozwala zrozumieć dane Co się wydarzyło? Co się aktualnie dzieje? Dlaczego? Co się stanie? Co chciałbym, aby się stało? Poziom strategiczny Zarząd Potencjał BI Kierownicy Pracownicy operacyjni ERP CRM SCM TPP inne Ilość podejmowanych decyzji 2
3 Ewolucja systemów informatycznych w zarządzaniu Informacja staje się najistotniejsza Przewaga konkurencyjna Wiedza i informacja biznesowa Działalność produkcyjna Czas Przedsiębiorstwa stają się przede wszystkim przetwórcami informacji biznesowej konkurując jednocześnie o jej źródła. Zwiększa się rola systemów inf. Wprowadzenie Systemy informatyczne Systemy informatyczne Systemy informatyczne Modelem przetwarzania nazywamy sposób w jaki użytkownik korzysta z bazy danych. Czas Zmiany techniczne Zarządzanie Poziom całej organizacji Modele przetwarzania: - przetwarzanie operacyjne - przetwarzanie analityczne 3
4 Przetwarzanie operacyjne (1) OLTP - OnLine Transaction Processing - przetwarzanie transakcji w trybie on-line Celem jest wspomaganie bieżącej obsługi działalności danej firmy, dla dobrze zdefiniowanych procesów (np.: obsługa sprzedaży) Oparty na transakcjach, które operują na niewielkiej części danych przechowywanych w bazie danych Przetwarzanie operacyjne (2) Dostarcza rozwiązań dla problemów: efektywnego i bezpiecznego przechowywania danych, optymalizacji dostępu do danych, dostępności danych, zarządzania współbieżnością Podstawowym kryterium oceny efektywności działania systemu OLTP jest liczba transakcji na sekundę Przetwarzanie analityczne OLAP - OnLine Analytical Processing - przetwarzanie analityczne w trybie on-line Celem jest przeprowadzanie analizy danych i wspomaganie decyzji. Posiadanie danych opisujących działanie przedsiębiorstwa w dłuższym przedziale czasu pozwala na analizę trendów, anomalii, poszukiwanie wzorców zachowań klientów, itp. Zalety przeprowadzania analizy danych Zrozumienie zachowania się klientów i zapotrzebowania na produkt, pozwala efektywnie kierować kampaniami reklamowymi Zarządzanie zapasami umożliwia producentom posiadanie właściwych produktów we właściwym miejscu i czasie Analiza rentowności pokazuje firmom, którzy klienci są dochodowi, a którzy nie 4
5 Przetwarzanie operacyjne a analityczne Definicja hurtowni danych Dlaczego potrzebnych informacji nie da się uzyskiwać bezpośrednio z operacyjnych systemów przetwarzania danych? Dane w aplikacjach operacyjnych są: - ukierunkowane na aplikacje operacyjne a nie analityczne - rozproszone po wielu aplikacjach operacyjnych - przechowywane w mało czytelnej postaci Hurtownie danych są bardzo dużymi bazami danych, w których gromadzi się dane pochodzące z wielu heterogenicznych źródeł: scentralizowanych lub rozproszonych baz relacyjnych, relacyjno-obiektowych, obiektowych oraz ze źródeł innych niż bazy danych (np.: pliki tekstowe). Jest to zbiór technologii, których celem jest wspieranie menadżerów i umożliwienie podejmowania im szybszych i lepszych decyzji. Systemy BI starej generacji Cechy hurtowni danych Hurtownia danych powinna być: - zorientowana tematycznie - nieulotna (trwała) - wielowersyjna czasowo - zintegrowana Wady! Słaba integracja Długie cykle wdrożeniowe Mała elastyczność Wysokie koszty utrzymania Client(s) OLAP Data Warehouse Za drogo! ETL 5
6 Systemy BI nowej generacji Zalety! Pełna integracja Systemy BI nowej generacji Zalety! Pełna integracja Krótkie cykle wdrożeniowe Końcówka klienta Krótkie cykle wdrożeniowe Końcówka klienta Duża elastyczność SQL Server 2000 Analysis Service Duża elastyczność SQL Server 2005 Bussines Inteligence Niskie koszty utrzymania SQL Server 2000 Meta Data Services Niskie koszty utrzymania SQL Server 2005 Meta Data Services Mniej szkoleń SQL Server 2000 Data Transformation Services Mniej szkoleń SQL Server 2005 Integration Services Taniej! Taniej! MS SQL ORACLE ERP EXCEL.DBF Projektowanie aplikacji analitycznych Serwer Analityczny DANE DTS (filtrowanie danych) SQL Server OLAP Services ProClarity Reguły Biznesowe ZAWARTOŚĆ Jakie parametry (wymiary, miary) będziemy analizować? Jakie są ich kryteria oceny? Kto, co i w jaki sposób będzie otrzymywał? Prezentacja UŻYTKOWNIK WIELE SPOSOBÓW DOSTĘPU MS Office Digital Dashboard PowerPoint Excel Przeglądarka www Program specjalizowany Architektura logiczna hurtowni danych 6
7 Konwerter Zadaniem konwertera jest transformowanie danych z formatu wykorzystywanego w źródle, do formatu wykorzystywanego w hurtowni danych. Etapy konwersji danych: - ekstrakcja danych - czyszczenie danych - ładowanie danych -odświeżanie danych Etapy konwersji danych (1) Ekstrakcja danych odbywa się przez bramki (gateways) lub standardowe interfejsy (ODBC, JDBC, Oracle Open Connect, Informix Enterprise Gateway, itd.) Czyszczenie danych ma na celu zapewnienie jakości i poprawności danych. Metody czyszczenia: konwersja i normalizacja, czyszczenie specjalne, czyszczenie oparte na regułach. Etapy konwersji danych (2) Ładowanie danych tym procesem zarządza moduł integratora. Najczęściej odbywa się to w trybie wsadowym. Dodatkowe przetwarzanie, np.: sortowanie danych, budowanie indeksów Odświeżanie danych proces propagowania zmian zachodzących w źródłach danych do hurtowni. Repozytorium metadanych Jest to składnik hurtowni danych, w którym przechowywane są informacje wspomagające zarządzanie hurtownią. (Przykład narzędzia do zarządzania metadanymi: IBM DataGuide) Zawiera ono zazwyczaj metadane: fizyczne; logiczne; operacyjne; historyczne; administracyjne; personalizacyjne 7
8 Wielowymiarowy model danych Dostępne narzędzia i technologie Podstawowym modelem logicznym dla OLAP jest wielowymiarowy model danych (MDD model - multidimensional data model). Dane są postrzegane przez użytkowników w postaci wielowymiarowej perspektywy. Obiektem analizy w modelu MDD jest zbiór miar numerycznych (faktów). Wartość każdej miary zależy od zbioru wymiarów. Development tools Microsoft Office End User Environment Reporting Services Repository & Distribution Bussines Inteligence OLAP & Data Mining Integration Services Extract Transform & Load Microsoft SQL Server Relational Engine Management tools Cechy charakterystyczne systemu analitycznego Model danych Zrozumiały dla użytkownika Łatwy w zastosowaniu Interaktywność Dowolne analizy dostępne od ręki Elastyczność Modelowanie widoków Zwiń / rozwiń Wejdź do wewnątrz / wyjdź na zewnątrz Pokaż dokumenty źródłowe OLAP Raportowanie relacyjne Modele aplikacji analitycznych - ewolucja Kostka Kostka Data mart Data mart Model danych Model danych Model danych Przeglądarka OLAP 2 Przeglądarka OLAP 1 Aplikacja 3 Aplikacja 2 Hurtownia Aplikacja 1 Duplikacja danych Duplikacja modeli 8
9 Raportowanie relacyjne czy OLAP? Właściwość Elastyczny, pełny schemat (wiele tabel faktów) Dane w czasie rzeczywistym Pojedyncza kopia danych Łatwe zarządzanie Raportowanie detali Wysoka wydajność Zorientowane na użytkownika Łatwość użycia Bogate możliwości analiz SQL OLAP Połączy nas Unified Dimensional Model Wiele tabel faktów Atrybuty dla wymiarów Raportowanie do poziomu dokumentu Gwiazda, płatek, 3FN Skomplikowane relacje (M2M, RPD ) Rekurencyjne join y Wymiary zmienne w czasie (SCDs) Wielowymiarowa nawigacja Hierarchiczna prezentacja Ekspozycja modelu biznesowego Doskonały aparat obliczeniowy (MDX) Wskaźniki (KPIs) Akcje Partycje, agregacje Unified Dimensional Model Ewolucja narzędzi do budowy aplikacji Kostka Kostka Data mart Data mart SQL 2005 Analysis Services UDM Cache XML / ODBO Przeglądarka OLAP 2 Przeglądarka OLAP 1 Aplikacja 3 Aplikacja 2 Enterprise Manager Query Analyzer Analysis Manager SQL 2000 SQL Management Workbench + BI Development Workbench Yukon Hurtownia Aplikacja 1 9
10 Schemat przetwarzania w technologii OLAP (ONLINE ANALYTICAL PROCESSING) Miejsce hurtowni danych w systemie Oczyszczanie SYSTEMY ŹRÓDŁOWE EXTRACTION TRANSFORM LOAD MANAGE DATA WAREHOUSE DATA MARTS PREZENTACJA / OLAP DOSTĘP UŻYTKOWNIKÓW I ANALIZY Baza A Synchronizacja Ekstrakcja Przesyłanie Data Warehouse / Data Mart i OLAP : - HOLAP -ROLAP -MOLAP OLE DB XML/A Ad-hoc Query Tools Raporty Operational Data Store Aplikacje na zamówienie Baza B Integracja Hurtownia Danych Data Mining Modele OLE DB XML/A Aplikacje analityczne Web Services i Aplikacje mobilne Baza X OLAP Analizy wspierające proces podejmowania decyzji biznesowych Analiza przekrojów Oddział Poznań Kraków Gdańsk ROR Kredyt Produkt 69,059,440 PLN 8,755 szt. 7,888 PLN Depozyt Rach. Inwest. Inne Q1 Q2 Q3 Czas Q4 10
11 Analiza przekrojów Business Intelligence architektura Informacja Wiedza Wnioski Działanie Wyniki Systemy źródłowe DM Kostka OLAP ETL Hurtownia danych DM Kostka OLAP Użytkownicy: - Raporty - Zapytania do bazy - Analizy OLAP - EIS - Budżetowanie - Data Mining Budowa systemu BI Etapy procesu Projekt aplikacji analitycznych Systemy źródłowe SQL DB2 Oracle SQL Server Data Warehouse Data Marts SQL SQL Analysis Services Analysis Services Klienci Stworzenie struktury bazy Stworzenie Dostęp i zasilanie hurtowni danych kostek OLAP do danych Narzędzia Query Raportowanie Analizy Data Mining SQL Server Oracle DB2 Excel ZBIORY DANYCH Microsoft SQL Server HURTOWNIA DANYCH Sprzedaż Produkcja Koszty MICROSOFT OLAP & ANALYSIS SERVICES UŻYTKOWNICY 11
12 MS Analysis Services Integracja z dowolnym źródłem danych (OLEDB) Skalowalność - wsparcie wszystkich sposobów przechowywania danych (MOLAP, ROLAP, HOLAP) Analysis Services - Wymiary Wspólne/prywatne Regularne/nieregularne Hierarchia drzewiasta (relacja rodzic potomek) Dane w węzłach O dużej liczbie elementów (grupowanie) Wymiary o liczbie potomków większej niż 64k Atrybuty Wiele hierarchii Własne formuły podsumowujące Struktura hurtowni danych Schemat pojęciowy hurtowni - schemat gwiazdy Problem wielowymiarowości Dwie podstawowe struktury Model gwiazdy Model płatka śniegu - tablica faktów - hierarchia wymiaru 12
13 Schemat pojęciowy hurtowni - schemat płatka śniegu Modele przechowywania dla hurtowni danych ROLAP - Relational OLAP - hurtownie wykorzystujące model relacyjny MOLAP - Multidimensional OLAP - hurtownie wykorzystujące wielowymiarowy model danych HOLAP -HybridOLAP -hurtownie łączące w sobie cechy MOLAP i ROLAP Efektywność hurtowni danych W celu poprawy efektywności działania hurtowni danych stosuje się wiele technik: - materializowanie agregatów - przetwarzanie równoległe - partycjonowanie danych - indeksowanie danych SQL Server 2005 Bussines Inteligence Zabezpieczenia, zarządzanie Uprawnienia Dla bazy OLAP / poszczególnych kostek Dla poszczególnych wymiarów ( hierarchii ) Zakres poziomów, zakres elementów, wyrażenia Opcjonalne uprawnienia w zbiorze danych Do poziomu poszczególnych komórek dla zapisu i/lub odczytu Zarządzanie Narzędzie graficzne Programowo - Decision Support Objects 13
14 Analysis Services - Kostki Kostki wirtualne Distributed Partitions Cubes Partycje Jednostka przetwarzania Storage (MOLAP, ROLAP, HOLAP) Optymalizacje Lokalne/zdalne Rozproszone Miary wyliczane Drillthrough Odczyt danych źródłowych Writeback Lazy aggregations Analysis Services - Aggregation Wizard w MS SQL 2000 AW znajduje regułę dla danych 20% wszystkich możliwych agregacji, które zapewniają 80% zysku wydajności Wyszukuje agregacje najczęściej wykorzystywane przez inne agregacje Niezależny od modelu danych OLAP Optymalizacja dla partycji Data source MS SQL 2005 Data view 14
15 Dimension Dimension Dimension Dimension 15
16 Cube Cube miara obliczana Cube rezultat Cube definicja złączenia 16
17 Cube definicja złączenia - zaawansowane Cube rezultat Cube rezultat Schemat przetwarzania w technologii DSS (DECISION SUPPORT SYSTEM) Raporty bieżące Dane bieżące Dane nadmiarowe DSS Usługi Pivot Table Dane archiwalne Hurtownia Danych 17
18 Systemy analizujące dane Data Mining dla SQL 2000 Systemy poszukujące w danych wiedzy (Data Mining) - do tych systemów zaliczyć można wszelkie hurtownie danych posługujące się narzędziami typu OLAP (OnLine Analitical Processing - przetwarzanie analityczne na bieżąco). Systemy wspomagania decyzji (Decision Support System) - stanowią one rozwinięcie i uzupełnienie narzędzi OLAP Data mining zintegrowane z Analysis Services Niezależne od postaci bazy ( [ R H M ] OLAP ) Dwa wbudowane algorytmy Income Good (2) Microsoft Decision Trees Poor (3) Klasyfikacja, predykcja High Microsoft Clustering Good (2) Poor (1) Wyszukiwanie podobieństw Married Mechanizm rozszerzalny Good (2) Poor (0) Poor (1) OLE DB for Data Mining MDX Extensions for Data Mining Not married Good (0) Low Good (0) Poor (2) Algorytmy zgłębiania danych w Bussines Inteligence MS SQL 2005 Maining model definiowanie kolumn Decision Trees (Algorytm klasyfikacji ) Naive Bayes (Algorytm klasyfikacji ) Neutral Network (Algorytm klasyfikacji ) Time Series (Algorytm regresji) Linear Regression (Algorytm regresji) Logistic Regresion (Algorytm regresji) Clustering (Algorytm grupowania) Sequence Clustering (Algorytm grupowania sekwencyjnego) Association Rules (Algorytm tworzenia reguł) 18
19 Maining model - Drzewo decyzyjne Maining model - Drzewo decyzyjne Stan domyślny Pozycja REGRESOR musi być odznaczona bo kolumna ma zmieniony typ z CONTINOUS na DISCRETIZED Histogramy dla węzła ALL i wybranego węzła potomnego Maining model - Drzewo decyzyjne Maining model - Drzewo decyzyjne Sieć zależności Przypadek dla wielu kolumn przewidywanych (PREDICT) Typy kolumn KEY INPUT PREDICT PREDICTONLY IGNORE 19
20 Maining model - Drzewo decyzyjne Maining model - Drzewo decyzyjne Ustawianie parametrów dla modelu zgłębiania danych Sprzężenia dla różnej siły powiązań Przypadek dla wielu kolumn przewidywanych (PREDICT) SCORE_METHOD metoda tworzenia drzewa 1 ENTROPIA 3 BAYES z predykcją 4 BAYES z porządkowaniem Dirichleta 4 Bayes uniform prior - domyślny Drzewo decyzyjne Drzewa otrzymywane dla różnych algorytmów są różne. To samo dotyczy zmiany typu danych pomiędzy CONTINOUS, DISCRETIZED, DISCRITE NumberEmployees DISCRETIZED Drzewo decyzyjne Drzewa otrzymywane dla różnych algorytmów są różne. To samo dotyczy zmiany typu danych pomiędzy CONTINOUS, DISCRETIZED, DISCRITE NumberEmployees CONTINOUS 1- Entropia 3 Bayes z predykcją K2 NumberEmployees DISCRETED 20
21 Grupowanie klastering Grupowanie klastering Parametry modelu Diagram cieniowany dla wartości zmiennej przewidywanej Definicja zawartości klastra w postaci mapy barwnej Grupowanie klastering Grupowanie klastering 1 i 4 1 i (NOT 1) Definicja prawdopodobieństwa przynależności do klastra (Cluster1) dla różnych wartości zmiennych wejściowych Definicja rozróżnialności między klastrami na podstawie wartości zmiennych wejściowych 21
22 Assosiation Rules Naive Bayes Może być tylko jedna kolumna przewidywana. Ze względu na dużą ilość wartości atrybut City pominięto Zależności między atrybutami Charakterystyka atrybutu Różnice między atrybutami Definicje reguł stowarzyszonych Opis atrybutu Neural Network Logistic Regresion Może być tylko jedna kolumna przewidywana. Ze względu na dużą ilość wartości atrybut City pominięto Może być tylko jedna kolumna przewidywana. Ze względu na dużą ilość wartości atrybut City pominięto Różnice między atrybutami Różnice między atrybutami 22
23 Drzewa decyzyjne -każdy węzeł reprezentuje test przeprowadzony na atrybucie -każda gałąź reprezentuje wynik testu -każdy liść reprezentuje klasę Prawo jazdy<3 nie tak Wiek >28 Ryzyko duże tak nie Auto >10 Ryzyko małe nie tak Rys. 6. Ryzyko małe Ryzyko duże Drzewa decyzyjne Drzewo decyzji: Ogólne => Szczegółowe węzeł - test atrybutu rozgałęzienie - wartość atrybutu lub podzbiór liście - przypisane do klas Testy: podział pojedynczej cechy, lub kombinacji Attrybut={wartość i } lub Attrybut < wartość i Kryteria: maksymalizacja ilości informacji, maksymalizacja liczby poprawnie podzielonych obiektów, czystość węzła Przycinanie: usuń gałęzie, które zawierają zbyt mało przypadków prostsze drzewo może lepiej generalizować oceń optymalną złożoność na zbiorze walidacyjnym. Kryterium stopu: osiągnięta dokładność podziałów, zbyt wiele gałęzi. Wybór atrybutu Który atrybut powinien być najpierw? p + i p - proporcje w lewej i prawej gałęzi. Zbiór wektorów S Obliczenia ilości informacji (entropi) E: E( p1, p2,... pn) = pilg 2 pi i q r E( p, q, r) = E( p, q+ r) + ( q+ r) E, q + r q + r Ile informacji zawiera dany podział? (Entropia) Średnia l. bitów do zakodowania dowolnego wektora z S wynosi: IS ( ) = plg p plg p S+ S GSA (, ) = IS ( ) IS ( + ) IS ( ) S S Informacja dla czystych węzłów = 0; jest max dla najbardziej pomieszanych. 23
24 , , , , , , , , , , , , , , , , , , , , , , E = log log = 0,985 Humidity = High S:[3+,4-] E=0,985 Entropia Humidity S:[9+,5-] E=0,94 Humidity = Normal S:[6+,1-] E=0, Gain= 0,94 0,985 0,592= 0, E = log log = E = log log = 0,94 0,592 TDIDT - Top Down Iterative Decision Tree function DT(E: zbiór przykładów) returns drzewo; T' := buduj_drzewo(e); T := obetnij_drzewo(t'); return T; function buduj_drzewo(e: zbiór przyk.) returns drzewo; T := generuj_tests(e); t := najlepszy_test(t, E); P := podział E indukowany przez t; if kryterium_stopu(e, P) then return liść(info(e)) else for all E j in P: t j := buduj_drzewo(e j ); return węzeł(t, {(j,t j )}; Tworzenie drzewa Tworzenie drzewa: szukanie w przestrzeni hipotez. Granice decyzji Podział hierarchiczny na hiperprostokąty. ID3 - podział w oparciu o zysk informacyjny. Lepsze mniejsze drzewo. Dość odporne na szum. Lokalne minima. 24
25 Drzewa proste i skośne Granice skośne Niestabilność DT Brzytwa Ockhama Czemu preferować prostsze drzewa? Mało prostych hipotez, więc mała szansa, że przypadkiem pasują do danych. Proste drzewa nie powinny zbytnio dopasować się do danych. Przetrenowanie modelu dla zbyt złożonych drzew, zła generalizacja. Ale: Dla małych zbiorów o wielu atrybutach można tworzyć wiele prostych opisów danych. 25
26 DT => reguły Zamień DT na reguły i uprość: łatwo ocenić, które reguły można usunąć i optymalizować pozostałe. 1R: najprostsze drzewo (Holte 1993), Niezłe rezultaty. Jeden poziom, atrybuty nominalne. Algorytm: Dla każdego atrybutu A dla każdej wartości atrybutu A : i policz częstości występowania klas znajdź klasę C występującą najczęściej utwórz regułę: IF A i THEN C Oblicz dokładność tej reguły. Wybierz reguły o największej dokładności. Wartość brakująca? traktowana jest jak każda inna. Ciągłe wartości numeryczne w DT Podziel obszary na interwały i traktuje je jak nominalne. Dla każdego atrybutu A porządkuj przypadki zgodnie z wartościami tego atrybutu ustal granice przedziałów dla wartości, przy których zmienia się klasa mająca większość. Minimalizuje to liczbę błędów w algorytmie 1R. Przykład: temperatura i jej korelacja z decyzją gracza: By uniknąć szumu można wprowadzić minimalną liczbę danych/interwał: ID3: Interactive dichotomizer version 3 Pierwotnie CLS (Concept Learning System), R. Quinlan (1986) Tylko do atrybutów nominalnych (nieuporządkowanych). Dla atrybutów rzeczywistych: konieczna dyskretyzacja. Ocena podziałów - za pomocą zysku informacji, Gain(D,A) Podział węzła na kilka podgałęzi, dla różnych wartości A Preferencje: wszystkie hipotezy możliwe, ale te dla drzew o dużym zysku informacyjnym w pobliżu korzenia preferowane - lokalne minima. Brakowało przycinania i dyskretyzacji. Rozwinięcie ID3 => drzewo C4.5 i C5 26
27 C 4.5 R. Quinlan (1993), jedno z najbardziej popularnych DT Typowy algorytm TDIDT Testy: A=? dla nominalnych, A<t, dla t=(a + i A i+1 )/2 (wystarczy sprawdzić tylko te wartości, dla których zmienia się klasa) Ocena podziałów - za pomocą zysku informacji, Gain(D,A) Dla testu atrybutu A o k wynikach: k Di GDA (, ) = ID ( ) I( Di ) i= 1 D k D i D i Split( D, A) = lg2 i= 1 D D GR ( D, A) = G( D, A)/ Split( D, A) Największy zysk dla największego k Informacja zawarta w podziałach. Końcowe kryterium C4.5. NewID Algorytm: dane przykłady E, atrybuty A i klasy c=1..c Lista bieżących przykładów D = E w korzeniu drzewa Jeśli D ma czyste liście (przykłady z pojedynczej klasy) to zatrzymaj. Dla każdego węzła i jeszcze nie użytych atrybutów powtarzaj: jeśli dostępne atrybuty nie mają określonych wartości utwórz węzeł typu Konflikt else: oblicz max j Gain(A j,c); utwórz węzły potomne dzieląc D k na podzbiory Końcowe drzewo jest zbytnio dopasowane. Drzewo do regresji: wybierz podział tak, by wariancja wewnątrz klas po podziale była jak najmniejsza: ( C X ) min Var ( ) v X Dv NewID cd. Brakujące wartości? i wartości obojętne * Jeśli niektóre A=? dla atrybutu binarnego w danych treningowych to węzłom potomnym przypisujemy wektory z A=T i A=N zgodnie z rozkładem a priori lub oceną Laplace a: N(T) = (N(c,A=T)+1)/(N(c)+N(A)); N(A)=2, l. wartości A Dla testu ocena l. wszystkich wektorów, a nie tylko w klasie c Wartości * są powielane. Przycinanie: ( C X ) min Var ( ) v X D Ocena na zbiorze walidacyjnym, próg R (zwykle R=10): Jeśli poddrzewo T W poprawia o R% dokładność klasyfikacji węzła W to schodź niżej; else zamień W na liść. NewID używa podzbiorów, atrybutów porządkowych, w. ciągłych. v NewID regresja. Drzewo do regresji: klasy ciągłe C(X) Wybierz podział tak, by wariancja wewnątrz klas po podziale była jak najmniejsza: ( C X ) min Var ( ) v X D v Kryterium stopu: nie rozwijaj węzła jeśli σ(d k ) < κσ(e). 27
28 CHAID CHi-squared Automatic Interaction Detection Kryterium podziału atrybutu A jest test χ 2 Hipoteza: jeśli test A<A 0 (lub A=A 0 ) jest skorelowany z podziałem na klasę C i pozostałe to test χ 2 da małą wartość. Przykład: podział gatunków. Atrybut = dł. ogona. Tabela kontyngencji: Gatunek N. ptaki N. gady N. ssaki N. ryby Suma Długi n 11 n 12 n 13 n 14 N 1o Krótki n 21 n 22 n 23 n 24 N 2o Brak n 31 n 32 n 33 n 34 N 2o Suma N g1 N g2 N g3 N g4 N Oczekiwane: e ij = N io x N gj / N Rozkład χ 2 dla: 2 n e / e ( ) ij ij ij ij 2 ( χ ) = erf (, χ ) p k k k=(n io -1) x (N gj -1) stopni swobody. CART Classification and Regression Trees (Breiman 1984). Kryterium podziału: indeks Gini; w danym węźle p c określa procent wektorów z klasy c; czystość węzła można zmierzyć za pomocą: C C 2 Gini = p p = 1 p c d c c d c= 1 Mi = 1 max p c c Kryterium stopu: MDL, złożoność drzewa + informacja w liściach αsize( Tree) + I( l) l leaf SSV Kryterium separowalności par danych z różnych klas. Oddziel maksymalnie dużo par z różnych klas. Jeśli różne podziały dają to samo minimalizuj l. podziałów wewnątrz klasy { x D: f( x) < s}, f ciągłe LS ( s, f, D) = { x D: f( x) s}, f dyskretne RS s, f, D = D LS s, f, D Kryterium: ( ) ( ) ( ) I c ( ) I( c) c C ( LS( s f D) IDc RS( s f D) IDc ) SSV() s = 2 LS s, f, D D RS s, f, D D D c C min,,,,, Proste kryterium, różne metody obcinania drzewa, dobre wyniki. DT: szybkie i proste. Ocena i wyniki Zalety: Zwykle bardzo dobre wyniki w porównaniu z innymi klasyfikatorami. Łatwe w użyciu, prawie nie mają parametrów do ustawiania. Dane nominalne lub numeryczne. Zastosowania: klasyfikacja i regresja. Prawie wszystkie pakiety Data Mining mają drzewa decyzji. Problemy z DT: mało danych, duża liczba ciągłych cech; niższe partie drzewa mają b. mało danych, przypadkowe podziały; nie wszystkie koncepcje dają się dobrze ująć za pomocą DT, np. większość jest za. 28
29 Zadania do rozwiązania Drzewa wieloczynnikowe: skośne granice decyzji; drzewa sieci neuronowych; rekursywny podział za pomocą LDA lub FDA Kryteria podziału: informacja w pobliżu korzenia, dokładność w pobliżu liści. przycinanie na podstawie reguł - działa również przy korzeniu; Komitety drzew: wielokrotne uczenie na randomizowanych danych (boosting) uczenie z różnymi parametrami obcinania Drzewa rozmyte Mechanizmy wspomagania decyzji Do mechanizmów używanych w systemach OLAP i DSS zaliczają się: Reguły asocjacyjne Np.: 75% reklamowanych w 2002 dysków twardych zawierających bad sektory i okresowo zawieszajacych komputer miało ślady uszkodzeń mechanicznych. Takie dyski stanowiły 0,6% produkcji Bad sektory ^ wieszanie systemu uszkodzenie mechaniczne s=0,6 c=75 Klasyfikacja Grupowanie (klasteryzacja) NIE Dysk w serwerze TAK Użytkownik >17 NIE TAK Wiatrak systemowy TAK NIE NIE Klimatyzacja =1 NIE TAK UPS=1 TAK Ryzyko duże Ryzyko średnie Ryzyko małe Rys. 2. Rys
30 Algorytmm Fuzzy K-means Algorytmm Fuzzy K-means należy do grupy nie-hierarchicznych algorytmów grupowania. Jego istotą jest początkowy losowy wybór położenia środków grup. W kolejnych krokach iteracji po obliczeniu funkcji przynależności poszczególnych punktów od środków grup są one każdorazowo przeliczane. Takie postępowanie powoduje, że środki grup "wędrują" do swoich prawidłowych położeń. gdzie p( ω i x j ) n b p( ωi x j ) j= 1 = j n b p( ωi x j ) jest prawdopodobieństwem warunkowym przynależności j-go elementu do i-tej grupy, b - parametr, którego wartość musi być różna od 1, najczęściej jest przyjmowana jako 2. Funkcja przynależności jest normalizowana według: c j= 1 ( ) μ j= 1 p ω = 1 gdzie j=1,2 n i x j x j k-means clustering Przykład klasteryzacji algorytmem k-means K=2 K=3 m m 2 m 2 m 2 2 m 1 m 1 m m2 m 2 2 m 1 m 2 m 1 m 3 m 1 3 m m 3 1 m 1 Algorytmm Fuzzy K-means Przynależność elementu do każdej z grup obliczane jest według: p ( ω x ) i j = 1 dij p( ω i x j ) r= 1 rj gdzie 2 2 dij = x j μ j jest odległością punktu x j od środka grupy μ i, natomiast b jest parametrem, którego wartość musi być różna od 1, najczęściej jest przyjmowana jako 2. c 1 b 1 1 d 1 b 1 Algorytmm Fuzzy K-means Schemat działania algorytmu K-means można przedstawić w kilku punktach: 1. Losowe wyznaczenie środków poszukiwanych grup, 2. Obliczenie odległości punktów od środków grup, 3. Obliczenie wartości funkcji przynależności wszystkich elementów, 4. Obliczenie środków grup μ i Jeżeli: brak zmian w μ i oraz p( ωi x j ) w przeciwnym wypadku skok do p.2. - zwróć μ, μ, K, 1 2 ( ) p ω i x j μ c 30
31 Algorytm Fuzzy C-means Algorytm Fuzzy C-means należy do grupy nie-hierarchicznych algorytmów grupowania. Jego istotą jest początkowe usytuowanie położenia środków grup w środkowej części rozpatrywanej przestrzeni. W kolejnych krokach iteracji po obliczeniu funkcji przynależności poszczególnych punktów od środków grup są one każdorazowo przeliczane. Takie postępowanie powoduje, że środki grup "wędrują" do swoich prawidłowych położeń. Mając do obliczeń skończony zbiór elementów X={x 1,...,x N ) oraz liczbę C środków grup, wyznaczamy N elementów dla C grup i przedstawiamy w postaci macierzy przynależności U=[u ik ]. Z k=1,...,n, i=1,...,c oraz u ik wyraża rozmytą przynależność elementu v k do środka grupy v i. Algorytm Fuzzy C-means Środki zgrupowań oraz przynależność elementów wyznaczamy z zależności: gdzie 1 i C u ik ν k = 1 i = n = c j= 1 n ( uik ) ( uik ) k = 1 1 d d ik jk m 2 m 1 m - parametr fuzyfikacji, d ik - miara odległości pomiędzy środkiem v i oraz elementem x k, która w tym wypadku jest odległością Euklidesową. m x k Algorytm Fuzzy C-means Schemat działania algorytmu K-means można przedstawić w kilku punktach: 1. Ustalanie liczby C środków grup. Inicjalizacja macierzy przynależności, ( 0) U Metoda górska Pierwszy etap metody górskiej polega na stworzeniu dyskretnej przestrzeni X x Y przez podział X i Y za pomocą odpowiednio r1 i r2 równomiernie oddalonych od siebie linii. Przecięcia tych linii siatkowych, zwane węzłami, tworzą nasz zbiór potencjalnych środków grupowania. Oznaczamy element N przez N ij, (X i,y j ). 2. Obliczenie C środków grup v i zgodnie z aktualna macierzą przynależności, ( 0) ( l+1) 3. Przeliczenie U do U zgodnie z aktualnymi środkami grup v i, Jeżeli: () l ( l+1) U U < ε -zwróć macierz przynależności w przeciwnym wypadku skok do p.2. ( l ) U dla każdego punktu N ij, (X i,y j ) w zbiorze N funkcję górską określa zależność M ( N ) = ij q k = 1 ( αd ( N ij, Ok )) e przy czym O k jest k-tym punktem danych (x k,y k ), α jest stałą dodatnią i d(n ij,o k ) jest miarą odległości miedzy N ij i O k. Najczęściej, ale nie koniecznie tą miarą jest miara Euklidesowa d ( N O ) = ( X x ) 2 + ( Y y ) 2 ij, k i k j k 31
32 Metoda górska Trzeci etap metody górskiej polega na wykorzystaniu funkcji górskiej do tworzenia środków grupowania. Niech węzeł N 1 * będzie punktem siatki o maksymalnej sumie całkowitej, szczytem funkcji górskiej. Jego wygraną będziemy oznaczali M 1 *=Max[M(N ij )]. Jeżeli jest więcej niż jedno maksimum, to wybieramy losowo jeden z nich. Wyróżniamy ten węzeł jako pierwszy środek grupowania i oznaczamy jego współrzędne N 1 *=(x 1 *,y 1 *). Aby otrzymać następny środek grupowania, musimy wyeliminować wpływ dopiero co zidentyfikowanego środka, ponieważ zazwyczaj ten szczyt jest otoczony przez pewną liczbę punktów siatki, które również mają wysokie wygrane. W tym celu musimy usunąć wpływ szczytu będącego ostatnio zidentyfikowanym środkiem grupowania i skorygować funkcję górską. Dokładniej mówiąc, tworzymy skorygowaną funkcję górską M 2, określoną na N, taką że M ( N 2 ij ) = M 1 ( N ij ) M * 1 * ( βd ( N1, N ij )) e przy czym M 1 jest pierwotną funkcją górską M, β jest stałą dodatnią, N 1 * i M 1 * są to położenie i wygrana środka grupowania ostatnio zidentyfikowanego i d=(n 1 *,N ij ) jest miarą odległości. Klastrowanie algorytmem górskim Przykład: m 1 m 2 2 m 2 m 1 m 1 m 4 m 3 m 3 m 4 m3 K=3 Metoda górska Teraz użyjemy skorygowanej funkcji górskiej M 2 do znalezienia następnego środka grupowania, określając jego położenie N 2 * i wygraną M 2 * o wartości maksymalnej. N 2 * staje się nowym drugim środkiem grupowania. Następnie korygujemy naszą funkcję, aby otrzymać M 3 Mówiąc ogólnie, startując od skorygowanej funkcji górskiej M k, którą otrzymujemy w rezultacie znalezienia (k-1)-szego środka grupowania, postępujemy następująco: 1. Znajdź M k *=Max[(M k (N ij )] 2. Oznacz k-ty środek grupowania w N k * - położenia maksymalnego węzła, znalezionego w punkcie Utwórz skorygowaną funkcje górską M k+1 jako M k + 1( N ij ) = M k ( N ij ) 4. Jeżeli: -M* m+1 d - zakończ proces - w przeciwnym wypadku skok do punktu 2. * ( βd ( N k, N ij )) M e * k Metoda górska Ważną cechą metody funkcji górskiej jest brak wymagania założenia liczby środków grupowania. Metoda ta wyznacza m pierwszych środków, które spełniają kryterium zakończenia obliczeń, począwszy od najważniejszych, które mają maksymalne wartości funkcji górskiej w węzłach N 1 *,N 2 *,...,N m *. u ik = d d 2 m 1 j= 1 jk m - parametr fuzyfikacji, d ik - miara odległości pomiędzy środkiem v i oraz elementem x k, która w tym wypadku jest odległością Euklidesową. c 1 ik 32
Hurtownie danych. 31 stycznia 2017
31 stycznia 2017 Definicja hurtowni danych Hurtownia danych wg Williama Inmona zbiór danych wyróżniający się następującymi cechami uporządkowany tematycznie zintegrowany zawierający wymiar czasowy nieulotny
Bardziej szczegółowoHurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury
Bardziej szczegółowoUsługi analityczne budowa kostki analitycznej Część pierwsza.
Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.
Bardziej szczegółowoWprowadzenie do technologii Business Intelligence i hurtowni danych
Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence
Bardziej szczegółowoCo to jest Business Intelligence?
Cykl: Cykl: Czwartki z Business Intelligence Sesja: Co Co to jest Business Intelligence? Bartłomiej Graczyk 2010-05-06 1 Prelegenci cyklu... mariusz@ssas.pl lukasz@ssas.pl grzegorz@ssas.pl bartek@ssas.pl
Bardziej szczegółowoHurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH
Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych
Bardziej szczegółowoHurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty
Bardziej szczegółowoOLAP i hurtownie danych c.d.
OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji
Bardziej szczegółowoBaza danych dla potrzeb zgłębiania DMX
Baza danych dla potrzeb zgłębiania DMX ID Outlook Temperature Humidity Windy PLAY 1 sunny hot high false N 2 sunny hot high true N 3 overcast hot high false T 4rain mild high false T 5rain cool normal
Bardziej szczegółowoWprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl WARSTWA PREZENTACJI HURTOWNI DANYCH Wykorzystanie hurtowni danych - aspekty Analityczne zbiory danych (ADS) Zbiór danych tematycznych (Data
Bardziej szczegółowoHurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykładów Wprowadzenie - integracja
Bardziej szczegółowoHurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykład adów Wprowadzenie - integracja
Bardziej szczegółowoSpis tre±ci. Przedmowa... Cz ± I
Przedmowa.................................................... i Cz ± I 1 Czym s hurtownie danych?............................... 3 1.1 Wst p.................................................. 3 1.2 Denicja
Bardziej szczegółowoPolitechnika Łódzka, ul. Żeromskiego 116, 90-924 Łódź, tel. (042) 631 28 83. Projekt współfinansowany przez Unię Europejską
Oracle i DB2 zadanie współfinansowane przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń - zintegrowany rozwój Politechniki Łódzkiej
Bardziej szczegółowoHurtownie danych a transakcyjne bazy danych
Hurtownie danych a transakcyjne bazy danych Materiały źródłowe do wykładu: [1] Jerzy Surma, Business Intelligence. Systemy wspomagania decyzji, Wydawnictwo Naukowe PWN, Warszawa 2009 [2] Arkadiusz Januszewski,
Bardziej szczegółowoModele danych - wykład V
Modele danych - wykład V Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie
Bardziej szczegółowoBusiness Intelligence
Business Intelligence Paweł Mielczarek Microsoft Certified Trainer (MCT) MCP,MCSA, MCTS, MCTS SQL 2005, MCTS SQL 2008, MCTS DYNAMICS, MBSS, MBSP, MCITP DYNAMICS. Geneza Prowadzenie firmy wymaga podejmowania
Bardziej szczegółowoModele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE
Modele danych - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. modele danych 4. Podsumowanie 5. Zadanie fajne
Bardziej szczegółowoSpis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services
Spis treści Wstęp... ix Odkąd najlepiej rozpocząć lekturę?... ix Informacja dotycząca towarzyszącej ksiąŝce płyty CD-ROM... xi Wymagania systemowe... xi Instalowanie i uŝywanie plików przykładowych...
Bardziej szczegółowoHURTOWNIE DANYCH I BUSINESS INTELLIGENCE
BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej
Bardziej szczegółowoWstęp do Business Intelligence
Wstęp do Business Intelligence Co to jest Buisness Intelligence Business Intelligence (analityka biznesowa) - proces przekształcania danych w informacje, a informacji w wiedzę, która może być wykorzystana
Bardziej szczegółowoCzęść I Istota analizy biznesowej a Analysis Services
Spis treści Część I Istota analizy biznesowej a Analysis Services 1 Analiza biznesowa: podstawy analizy danych... 3 Wprowadzenie do analizy biznesowej... 3 Wielowymiarowa analiza danych... 5 Atrybuty w
Bardziej szczegółowoHurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU
Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie
Bardziej szczegółowoHURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/
Bardziej szczegółowoPierwsze wdrożenie SAP BW w firmie
Pierwsze wdrożenie w firmie Mirosława Żurek, BCC Poznao, maj 2013 Zakres tematyczny wykładu Podstawowe założenia i pojęcia hurtowni danych ; Przykładowe pierwsze wdrożenie w firmie i jego etapy; Przykładowe
Bardziej szczegółowoSystemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Systemy OLAP I Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2008/09 Studia
Bardziej szczegółowoData Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Bardziej szczegółowoWprowadzenie do hurtowni danych
Wprowadzenie do hurtowni danych przygotował: Paweł Kasprowski Kostka Kostka (cube) to podstawowy element hurtowni Kostka jest wielowymiarowa (od 1 do N wymiarów) Kostka składa się z: faktów wektora wartości
Bardziej szczegółowoRola analityki danych w transformacji cyfrowej firmy
Rola analityki danych w transformacji cyfrowej firmy Piotr Czarnas Querona CEO Analityka biznesowa (ang. Business Intelligence) Proces przekształcania danych w informacje, a informacji w wiedzę, która
Bardziej szczegółowoKostki OLAP i język MDX
Kostki OLAP i język MDX 24 kwietnia 2015 r. Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne rodzaje zadań,
Bardziej szczegółowoData Mining podstawy analizy danych Część druga
Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany
Bardziej szczegółowoBudowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa
Budowa systemu wspomagającego podejmowanie decyzji Metodyka projektowo wdrożeniowa Agenda Systemy wspomagające decyzje Business Intelligence (BI) Rodzaje systemów BI Korzyści z wdrożeń BI Zagrożenia dla
Bardziej szczegółowoPODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
Bardziej szczegółowodr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl
Bardziej szczegółowoBD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego
BD2 BazyDanych2 dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego ³ Copyright c Tomasz Traczyk Instytut Automatyki i Informatyki Stosowanej Politechniki Warszawskiej Materiały dydaktyczne
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowoSystemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2007/08 Studia uzupełniajace magisterskie
Bardziej szczegółowoModel logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL
Podstawy baz danych: Rysunek 1. Tradycyjne systemy danych 1- Obsługa wejścia 2- Przechowywanie danych 3- Funkcje użytkowe 4- Obsługa wyjścia Ewolucja baz danych: Fragment świata rzeczywistego System przetwarzania
Bardziej szczegółowoHurtownie danych. Wprowadzenie do systemów typu Business Intelligence
Hurtownie danych Wprowadzenie do systemów typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Bardziej szczegółowoSzczegółowy opis przedmiotu zamówienia
ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów
Bardziej szczegółowoWprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl PROJEKTOWANIE WARSTWY DANYCH DETALICZNYCH - ZAGADNIENIA Partycjonowanie Partycja jest wydzielonym miejscem na dysku, w którym przechowywane
Bardziej szczegółowoHurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)
Hurtownie danych dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki Maciej Zakrzewicz (1) Plan wykładu Wprowadzenie do Business Intelligence (BI) Hurtownia danych Zasilanie hurtowni
Bardziej szczegółowoHurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Bardziej szczegółowoHurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Biznesowe słowniki pojęć biznesowych odwzorowania pojęć
Bardziej szczegółowoWprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mariusz.rafalo@hotmail.com WPROWADZENIE DO HURTOWNI DANYCH Co to jest hurtownia danych? Hurtownia danych jest zbiorem danych zorientowanych tematycznie, zintegrowanych,
Bardziej szczegółowoSpecjalizacja magisterska Bazy danych
Specjalizacja magisterska Bazy danych Strona Katedry http://bd.pjwstk.edu.pl/katedra/ Prezentacja dostępna pod adresem: http://www.bd.pjwstk.edu.pl/bazydanych.pdf Wymagania wstępne Znajomość podstaw języka
Bardziej szczegółowoHurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.
Hurtownie danych Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.pl/hur UZASADNIENIE BIZNESOWE Po co nam hurtownia danych? Jakie mogą
Bardziej szczegółowoPREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX
PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX Architektura i struktura funkcjonalna systemu PROPHIX PROPHIX Corporate Performance Management (Zarządzanie Wydajnością Firmy) System do samodzielnego planowania,
Bardziej szczegółowoWYKŁAD 11 Uczenie maszynowe drzewa decyzyjne
WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne
Bardziej szczegółowoSchematy logiczne dla hurtowni danych
Schematy logiczne dla hurtowni danych 26 Plan rozdziału 27 Model biznesowy, logiczny i fizyczny hurtowni danych Podstawowe pojęcia w modelu logicznym, logiczny model wielowymiarowy Implementacje ROLAP/MOLAP
Bardziej szczegółowoDMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
DMX DMX DMX Data Mining Extensions jest językiem do tworzenia i działania na modelach eksploracji danych w Microsoft SQL Server Analysis Services SSAS. Za pomocą DMX można tworzyć strukturę nowych modeli
Bardziej szczegółowoWykład I. Wprowadzenie do baz danych
Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles
Bardziej szczegółowoData Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoPODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
Bardziej szczegółowoHurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Bardziej szczegółowo1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4
1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4 2 Tabele przestawne, wykresy przestawne i formatowanie warunkowe 11 Co to
Bardziej szczegółowoHurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence
Hurtownie danych Rola hurtowni danych w systemach typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Bardziej szczegółowoProcesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com
Media Partners Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com Adrian Chodkowski Konsultant Business Intelligence w Jcommerce S.A Certyfikowany
Bardziej szczegółowoMicrosoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot
Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot Alberto Ferrari i Marco Russo Przekład: Marek Włodarz APN Promise Warszawa 2014 Spis treści Wprowadzenie............................................................
Bardziej szczegółowo2011-11-04. Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL
Instalacja, konfiguracja Dr inŝ. Dziwiński Piotr Katedra InŜynierii Komputerowej Kontakt: piotr.dziwinski@kik.pcz.pl 2 Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management
Bardziej szczegółowoAlicja Marszałek Różne rodzaje baz danych
Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy
Bardziej szczegółowoWprowadzenie do hurtowni danych
Wprowadzenie do hurtowni danych przygotował: Paweł Kasprowski Informacje ogólne ( pawel@kasprowski.pl ) Wykładowca: Paweł Kasprowski Temat: Wprowadzenie do hurtowni danych Umiejętności wymagane: Znajomość
Bardziej szczegółowoKasy Fiskalne Lublin Analityk
Kasy Fiskalne Lublin Analityk http://sklep.soft-tec.lublin.pl/produkt/analityk Producent Cena Cena netto Insert 984.00 PLN 800.00 PLN Analityk to system wspomagania decyzji, który opiera się na najnowszych
Bardziej szczegółowodr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl
Bardziej szczegółowoIntegracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining
Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK
Bardziej szczegółowo1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Bardziej szczegółowoPaweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego 1 85-240 Bydgoszcz www.softmaks.pl kontakt@softmaks.pl
Paweł Gołębiewski Softmaks.pl Sp. z o.o. ul. Kraszewskiego 1 85-240 Bydgoszcz www.softmaks.pl kontakt@softmaks.pl Droga na szczyt Narzędzie Business Intelligence. Czyli kiedy podjąć decyzję o wdrożeniu?
Bardziej szczegółowoCo to są drzewa decyzji
Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni
Bardziej szczegółowoPortale raportowe, a narzędzia raportowe typu self- service
Portale raportowe, a narzędzia raportowe typu self- service Bartłomiej Graczyk Kierownik Projektów / Architekt rozwiązań Business Intelligence E mail: bartek@graczyk.info.pl Site: www.graczyk.info.pl Agenda
Bardziej szczegółowoPlan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych
1 Plan wykładu 2 Hurtownie danych Integracja danych za pomocą hurtowni danych Przetwarzanie analityczne OLAP Model wielowymiarowy Implementacje modelu wielowymiarowego ROLAP MOLAP Odświeżanie hurtowni
Bardziej szczegółowoBazy danych i ich aplikacje
ORAZ ZAPRASZAJĄ DO UDZIAŁU W STUDIACH PODYPLOMOWYCH Celem Studiów jest praktyczne zapoznanie słuchaczy z podstawowymi technikami tworzenia i administrowania bazami oraz systemami informacyjnymi. W trakcie
Bardziej szczegółowoBazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?
Bardziej szczegółowoTransformacja wiedzy w budowie i eksploatacji maszyn
Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces
Bardziej szczegółowoBazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych
Plan wykładu Bazy Wykład 14: Hurtownie Bazy operacyjne i analityczne Architektura hurtowni Projektowanie hurtowni Małgorzata Krętowska, Agnieszka Oniśko Wydział Informatyki PB Bazy (studia dzienne) 2 Rodzaje
Bardziej szczegółowoBazy analityczne (hurtownie danych, bazy OLAP)
Bazy analityczne (hurtownie danych, bazy OLAP) Materiały pomocnicze. Bazy produkcyjne (transakcyjne) i analityczne Większość systemów baz danych to systemy produkcyjne, inaczej nazywane transakcyjnymi,
Bardziej szczegółowoOPIS PRZEDMIOTU ZAMÓWIENIA
Załącznik nr 1 OPIS PRZEDMIOTU ZAMÓWIENIA Licencja Microsoft Windows SQL Server Standard 2012 (nie OEM) lub w pełni równoważny oraz licencja umożliwiająca dostęp do Microsoft Windows SQL Server Standard
Bardziej szczegółowoOracle11g: Wprowadzenie do SQL
Oracle11g: Wprowadzenie do SQL OPIS: Kurs ten oferuje uczestnikom wprowadzenie do technologii bazy Oracle11g, koncepcji bazy relacyjnej i efektywnego języka programowania o nazwie SQL. Kurs dostarczy twórcom
Bardziej szczegółowoCZĘŚĆ I ZASTOSOWANIE PROGRAMU EXCEL DO ANALIZ BUSINESS INTELLIGENCE
Spis treści O autorach Wprowadzenie CZĘŚĆ I ZASTOSOWANIE PROGRAMU EXCEL DO ANALIZ BUSINESS INTELLIGENCE Rozdział 1. Istotne zagadnienia bazodanowe Bazy danych jako remedium na standardowe ograniczenia
Bardziej szczegółowoAlgorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Bardziej szczegółowoOfficeObjects e-forms
OfficeObjects e-forms Rodan Development Sp. z o.o. 02-820 Warszawa, ul. Wyczółki 89, tel.: (+48-22) 643 92 08, fax: (+48-22) 643 92 10, http://www.rodan.pl Spis treści Wstęp... 3 Łatwość tworzenia i publikacji
Bardziej szczegółowoEwolucja technik modelowania hurtowni danych
Baza wiedzy JPro Ewolucja technik modelowania hurtowni Porównanie technik modelowania hurtowni podsumowanie: Strona 1/6 Nazwa podejścia Corporate Information Factory Kimball Bus Architecture Data Vault
Bardziej szczegółowoKlasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Bardziej szczegółowoUsługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.
Usługa archiwizacji danych w systemie Eureca Marek Jelenik CONTROLLING SYSTEMS sp. z o.o. Na czym polega usługa archiwizacji danych w systemie Eureca? 2012 2013 2014 2015 Przed archiwizacją SQL OLAP BAZA
Bardziej szczegółowoData Mining podstawy analizy danych Cześć pierwsza. Wprowadzenie
Data Mining podstawy analizy danych Cześć pierwsza Wprowadzenie Usługa Data Mining w środowisku serwera SQL 2005 jest jednym z komponentów technologii business intelligence. Umożliwia ona budowę złożonych
Bardziej szczegółowo4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Bardziej szczegółowoAnalityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017
Analityka danych w środowisku Hadoop Piotr Czarnas, 27 czerwca 2017 Hadoop i Business Intelligence - wyzwania 1 Ładowane danych do Hadoop-a jest trudne 2 Niewielu specjalistów dostępnych na rynku Dostęp
Bardziej szczegółowoAlgorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Bardziej szczegółowoHurtownie danych wykład 3
Hurtownie danych wykład 3 dr Sebastian Zając SGH Warszawa 7 lutego 2017 Architektura relacyjna i wielowymiarowa Ze względu na przechowywanie danych na serwerze możemy zdecydować się na relacyjną bazę danych
Bardziej szczegółowoMonitoring procesów z wykorzystaniem systemu ADONIS
Monitoring procesów z wykorzystaniem systemu ADONIS BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management
Bardziej szczegółowoPojęcie bazy danych. Funkcje i możliwości.
Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór
Bardziej szczegółowoMetody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Bardziej szczegółowoCOMARCH DATA WAREHOUSE MANAGER 6.2
COMARCH DATA WAREHOUSE MANAGER 6.2 WSTĘP DO ZAGADNIENIA HURTOWNI DANYCH Gromadzenie danych biznesowych z systemów rozproszonych, oraz doprowadzenie do ich uwspólnienia, w celu przeprowadzenia analiz oraz
Bardziej szczegółowoMetody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Bardziej szczegółowoRamowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści
Ramowy plan kursu Lp. Moduły Wyk. Lab. Przekazywane treści 1 3 4 Technologia MS SQL Server 2008 R2. Podstawy relacyjnego modelu i projektowanie baz. Zaawansowane elementy języka SQL. Programowanie w języku
Bardziej szczegółowoTrendy BI z perspektywy. marketingu internetowego
Trendy BI z perspektywy marketingu internetowego BI CECHUJE ORGANIZACJE DOJRZAŁE ANALITYCZNIE 2 ALE JAKA JEST TA DOJRZAŁOŚĆ ANALITYCZNA ORGANIZACJI? 3 Jaka jest dojrzałość analityczna organizacji? Zarządzanie
Bardziej szczegółowoSzkolenia SAS Cennik i kalendarz 2017
Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS
Bardziej szczegółowoHURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.
HURTOWNIE DANYCH Krzysztof Goczyła Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska kris@eti.pg.gda.pl # 1 Część I. Tworzenie hurtowni danych 1. Co to jest hurtownia danych? 2. Model
Bardziej szczegółowoHurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL
Hurtownie danych Ładowanie, integracja i aktualizacja danych. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH Źródła danych ETL Centralna hurtownia danych Do hurtowni
Bardziej szczegółowoCzęść I Rozpoczęcie pracy z usługami Reporting Services
Spis treści Podziękowania... xi Wprowadzenie... xiii Część I Rozpoczęcie pracy z usługami Reporting Services 1 Wprowadzenie do usług Reporting Services... 3 Platforma raportowania... 3 Cykl życia raportu...
Bardziej szczegółowoModelowanie hierarchicznych struktur w relacyjnych bazach danych
Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego
Bardziej szczegółowo