SAS wybrane elementy. DATA MINING Część I. Seweryn Kowalski 2006



Podobne dokumenty
Wstęp do Business Intelligence

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Hurtownie danych. 31 stycznia 2017

Hurtownie danych i systemy wspomagania decyzji. Olaf Morawski Hewlett-Packard Polska Sp. z o.o., ul. Szturmowa 2A, Warszawa

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Business Intelligence

Hurtownie danych a transakcyjne bazy danych

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Rola analityki danych w transformacji cyfrowej firmy

Modele danych - wykład V

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Hurtownie danych wykład 3

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Ewolucja technik modelowania hurtowni danych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Co to jest Business Intelligence?

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Hurtownia danych praktyczne zastosowania

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Wielowymiarowy model danych

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Analiza danych i data mining.

Systemy baz danych i hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.

Bazy analityczne (hurtownie danych, bazy OLAP)

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

Analiza internetowa czyli Internet jako hurtownia danych

Spis tre±ci. Przedmowa... Cz ± I

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Wprowadzenie do Hurtowni Danych

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Problematyka hurtowni danych

Hurtownie danych - przegląd technologii

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

1. Ewolucja systemów opartych na bazach danych 2. Czym się rożni modelowanie od strukturalizacji danych? Model danych Struktury (danych)

Schematy logiczne dla hurtowni danych

Matematyka kodem nowoczesności. Zaproszenie do składania ofert

Proces odkrywania wiedzy z baz danych

SYSTEMY KLASY BI PLATFORMĄ EFEKTYWNEGO WSPÓŁDZIAŁANIA WSPÓŁCZESNYCH ORGANIZACJI. Piotr Zaskórski

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Marcin Adamczak Jakub Gruszka MSP. Business Intelligence

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

Eksploracja danych (data mining)

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Ewolucja systemów baz danych

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Bazy danych i ich aplikacje

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Szkolenia SAS Cennik i kalendarz 2017

OLAP i hurtownie danych c.d.

Spojrzenie na systemy Business Intelligence

Pierwsze wdrożenie SAP BW w firmie

Baza danych. Baza danych to:

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy

Projektowanie architektury systemu rozproszonego. Jarosław Kuchta Projektowanie Aplikacji Internetowych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Część I Istota analizy biznesowej a Analysis Services

HARMONOGRAM: DZIEŃ GODZINA MIEJSCE PROWADZĄCY TEMAT OPIS

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Plan. Inteligencja bisnesowa (Bussiness Intelligence) Hurtownia danych OLAP

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Modelowanie koncepcyjne hurtowni danych

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informatyzacja przedsiębiorstw

Terminologia baz danych

Księgarnia PWN: Pod red. Celiny Olszak i Ewy Ziemby - Strategie i modele gospodarki elektronicznej. Spis treści

Typy systemów informacyjnych

Hurtownie danych w praktyce

Baza danych. Modele danych

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Wprowadzenie do hurtowni danych

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

CRM VISION FUNKCJE SYSTEMU

Hurtownie danych czyli jak zapewnić dostęp do wiedzy tkwiącej w danych

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Wprowadzenie do hurtowni danych

ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Transkrypt:

SAS wybrane elementy DATA MINING Część I Seweryn Kowalski 2006

Motywacja Stan: Olbrzymia ilość danych WalMart: 20 mln transakcji/dzień Mobil: bazy ok. 100 TB (eksploracja złóż ropy) Human Genome Project: ~GB danych SkyCat > 3TB danych NASA Earth Observing System: 50GB/godz. (!) Komputeryzacja wszystkich dziedzin życia: Handel kody kreskowe, karty kredytowe Banki, ubezpieczenia Telekomunikacja, ochrona zdrowia, itd. Nauka (biologia, monitorowanie pogody, satelity, teleskopy,...) Problem: Potop danych przy jednoczesnym głodzie wiedzy Rozwiązanie: Hurtownie danych i data mining: Hurtownie danych (data warehouse) i OLAP (on-line analytical processing) Wydobywanie wiedzy z danych (poszukiwanie reguł, reguralności, tworzenie wzorców) pochodzących z ogromnych baz danych 3/15/2006 2

Ewolucja technologii bazodanowych 1960 1970 1980 Pierwsze zbiory danych, pierwsze bazy danych, DBMS (Data Base Management System) i IMS (Information Management System) serwery bazodanowe Relacyjny model danych, relacyjne DBMS Zawansowane modele (rozszerzenie relacyjności, OO), programowo zorientowane bazy danych (naukowe, inżynieryjne) 1990 - dzień obecny Data mining, hurtownie danych, bazy multimedialne 3/15/2006 3

Co to DATA MINING DATA MINING poszukiwanie wiedzy w danych (bazach danych) Wydobycie interesujących (nietrywialnych, ukrytych, wcześniej nie znanych ale potencjalnie użytecznych) informacji wzorców z olbrzymich baz danych Inne nazwy: Knowledge discovery(mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. 3/15/2006 4

DATA MINING Zgłębianie danych (data minig) to proces analityczny, przeznaczony do eksploracji dużych zasobów danych (zazwyczaj powiązanych z zagadnieniami gospodarczymi lub rynkowymi) w poszukiwaniu regularnych wzorców oraz systematycznych współzależności pomiędzy zmiennymi, a następnie do oceny wyników poprzez zastosowanie wykrytych wzorców do nowych podzbiorów danych. Finalnym celem data mining jest najczęściej przewidywanie (zachowań klientów, sprzedaży, prawdopodobieństwa utraty klienta itp.), dlatego też predykcyjny data mining jest bardzo popularny. Predykcyjny data mining daje bezpośrednie korzyści biznesowe 3/15/2006 5

Zastosowania Zarządzanie i analiza sprzedażą: target marketing, customer relation management (CRM), analiza koszyka, segmentacja rynku Analiza ryzyka: Kontrola jakości, prognozowanie, zdobywanie i utrzymanie klienta Wyszukiwanie oszust (defraudacji) Inne: Wyszukiwanie wzorców w tekstach (newsgroup, email) Budowa inteligentnych odpowiedzi (faq, wsparcie techniczne) 3/15/2006 6

Proces KDD Trzy główne etapy 1. eksploracji 2. budowania modelu (z określania wzorców) 3. oceny lub weryfikacji poprawności Pattern Evaluation 90 80 70 60 Data Mining 50 40 30 20 10 0 1. Kw 2. Kw 3. Kw 4. Kw Selection Data Warehouse Data Cleaning Data Integration Task-relevant Data Databases 3/15/2006 7

Podstawowe elementy KDD Poznanie problemu: Poznanie wcześniejszej wiedzy na temat problemu oraz wyznaczenie celu Selekcja danych tworzenie grupy danych Czyszczenie danych i wstępne przygotowanie, przekształcanie, wybór podzbiorów rekordów (przypadków) Redukcja danych poszukiwanie zależności, redukcja zmiennych i wymiarów zredukowanie liczby analizowanych zmiennych do poziomu pozwalającego efektywnie wykonywać analizy Wybór funkcji data mining: Regresja, klasteryzacja Wybór modelu data mining: rozważane są różnorodne modele, po czym wybierany jest najlepszy z nich Data mining: Jest to końcowy etap, na którym stosujemy dla nowych danych model uzyskany i uznany za najlepszy w drugim etapie. Celem stosowania modelu jest uzyskanie przewidywanych wartości lub klasyfikacji. Prezentacja zdobytej wiedzy Wykorzystanie wiedzy 3/15/2006 8

Data Mining jaki typ danych? Relacyjne bazy danych Hurtownie danych (Data warehouse) Zawansowane bazy danych i informacyjne repozytoria Obiektowo zorientowane i obiektowo relacyjne bazy danych Przestrzenne (geograficzne) bazy danych Szeregi czasowe Tekstowe i multimedialne bazy danych www 3/15/2006 9

Data Mining współpraca wielu dziedzin Data Mining jest traktowany jako "zagadnienie z pogranicza statystyki, sztucznej inteligencji [AI] oraz badania baz danych" 3/15/2006 10

Hurtownie danych Hurtownia danych (data warehouse) jest definowana na wiele sposobów lecz ogólnie można ją przedstawić jaki bazę danych wpierająca decyzje, jest osobna (wydzieloną) częścią systemu baz danych przedsiębiorstwa (organizacji) rodzaj bazy danych, która jest zorganizowana i zoptymalizowana pod kątem pewnego wycinka rzeczywistości. Hurtownia danych jest wyższym szczeblem abstrakcji niż zwykła relacyjna baza danych (choć do jej tworzenia używane są także podobne technologie). W skład hurtowni wchodzą zbiory danych zorientowanych tematycznie (np. hurtownia danych klientów). Dane te często pochodzą z wielu źródeł, są one zintegrowane i przeznaczone wyłącznie do odczytu A A data warehouse is a subject-oriented oriented, integrated, time- variant,, and nonvolatile collection of data in support of management s decision-making process. W. H. Inmon 3/15/2006 11

Przykład: Tak stać się może, gdy mamy do czynienia z hurtownią danych sprzedaży, wtedy nie będą występowały w niej poszczególne pozycje na fakturach a jedynie kwoty faktur, gdyż to jest podstawą analizy. (Oczywiście to osoby korzystające z hurtowni określają, jakie dane są dla nich użyteczne). Bill Inmon, is recognized as the "father of the data warehouse" and co-creator of the "Corporate Information Factory." He has 35 years of experience in database technology management and data warehouse design. He is known globally for his seminars on developing data warehouses and has been a keynote speaker for every major computing association and many industry conferences, seminars, and tradeshows. As an author, Bill has written about a variety of topics on the building, usage, and maintenance of the data warehouse and the Corporate Information Factory. He has written more than 651 articles, many of them have been published in major computer journals such as Datamation, ComputerWorld, DM Review and Byte Magazine. Bill currently publishes a free weekly newsletter for the Business Intelligence Network, and has been a major contributor since its inception. 3/15/2006 12

Hurtownia danych vs. Tradycyjna DBMS OLTP (on-line transaction processing) Podstawowy system zadań dla tradycyjnej relacyjnej bezy danych Operacje dzień po dniu: sprzedaż, ksiegowość produkcja, płace itp. OLAP (on-line analytical processing) Podstawowy system zadań dla hurtowni danych Wykorzystanie do analizy danych i wprowadzania decyzji Różnice OLAP vs. OLTP Orientacja (użytkownik, system): klient vs. rynek Zawartość danych: bieżące, szczegółowe vs. historyczne, skonsolidowane Architektura: tabele, obiekty vs. Gwiazda Dostęp: uaktualniane vs. tylko do odczytu, 3/15/2006 13

OLAP - definicja OLAP (OnLine Analytical Processing) - oprogramowanie wspierające podejmowanie decyzji, które pozwala użytkownikowi analizować szybko informacje zawarte w wielowymiarowych widokach i hierarchiach. Narzędzia OLAP są często używane do wykonywania analiz trendów sprzedaży czy analiz finansowych (hurtownie danych). OLAP i MOLAP Tradycyjne produkty OLAP są często nazywane wielowymiarowymi OLAP (ang. multidimensional OLAP lub MOLAP), gdyż przekładają transakcje na wielowymiarowe widoki. Dane są organizowane w postaci trójwymiarowych kostek, które można obracać, co jest bardziej poglądowe dla użytkownika. Relacyjny OLAP (ROLAP) Narzędzia ROLAP ekstrahują dane z relacyjnych baz danych. Używając złożonych poleceń SQL w odniesieniu do tablic bazodanowych ROLAP jest w stanie błyskawicznie tworzyć wielowymiarowe widoki. ROLAP jest najczęściej stosowany w odniesieniu do danych mających dużą liczbę atrybutów, które trudno jest umieścić w kostkowych strukturach (np. dane klienta z wieloma polami opisowymi). Database OLAP (DOLAP) i Web OLAP (WOLAP) Database OLAP dotyczy relacyjnych baz danych, które są "gospodarzami" struktur OLAP i przeprowadzają obliczenia OLAP. Web OLAP odnosi się do danych OLAP, które są dostępne z poziomu przeglądarki internetowej. 3/15/2006 14

OLAP vs. OLTP 3/15/2006 15

Od tabeli do kostki wielowymiarowej Dane w hurtowni danych są oparte na wielowymiarowym modelu danych i przechowywane są w postaci kostek (cube) n-d (n wymiarowa) kostka jest nazywana base cuboid wymiar 0-D (najwyższy poziom sumowania) jest nazywany apex cuboid 3/15/2006 16

Cubiod i Cube 3/15/2006 17

Model danych dla hurtowni danych Dane są zorganizowane w strukturę wielowymiarową, w której fakty (liczby przechowywane w bazie) są zależne od wielu parametrów (nazywanych wymiarami). W najprostszym przypadku baza ma strukturę gwiazdy, w której dane dotyczące sprzedaży (wielkość, wartość, ) gromadzone są w centralnej tabeli faktów, natomiast parametry (wymiary) od których sprzedaż zależy znajdują się w mniejszych tabelach takich jak np. produkt, geografia czy czas. Elementy wymiarów (dla geografii np. województwa) mogą posiadać cechy charakterystyczne (np. rozmiar, liczba ludności), które będą wykorzystywane w analizach. 3/15/2006 18

Model danych dla hurtowni danych Różne typy schematów danych: Gwiazda: tabela faktów jest w miejscu centranym połączona jest z wymiarami znajdującymi się w mniejszych tabelach Płatek śniegu (snowflake): udoskonalenie gwiazdy gdzie tabele wymiarów mogą być rozbite na mniejsze elementy Konstelacja (gwiazdozbiór) faktów: wiele tabel faktów dzieli między sobą wymiary, konstrukcja taka jest widoczna jako zespół gwiazd 3/15/2006 19

Gwiazda 3/15/2006 20

Płatek śniegu 3/15/2006 21

Konstelacja faktów 3/15/2006 22

Procedury ekstrakcji Organizacja danych w strukturze wielowymiarowej nie jest jedynym wyróżnikiem hurtowni danych. Ważnym elementem tych systemów są procedury ekstrakcji, czyszczenia, transformacji i ładowania danych do bazy (ang. Extract, Transformation, Load ETL). Procedury ekstrakcji danych z systemów OLTP uruchamiane są w czasie minimalnego obciążenia tych systemów. Dane wyekstrahowane są następnie weryfikowane względem reguł i danych słownikowych przechowywanych w repozytorium metadanych, przekształcane do pożądanej w hurtowni postaci i następnie ładowane do bazy. Dzięki procedurom ETL dane w hurtowni charakteryzują się wysoką jakością, przewyższającą znacznie jakość danych systemów OLTP. Przykład: deduplikacja procedura usuwająca powtórzenia danych: w systemach OLTP panowie Jan Kowalski i Jan Piotr Kowalski mogą być różnymi klientami, mimo iż mieszkają pod tym samym adresem, w hurtowni (dzięki procesowi deduplikacji) zostaną zidentyfikowani jako ta sama osoba umożliwiając tym samym rzeczywistą analizę zachowań klienta. 3/15/2006 23

Zastosowania hurtowni danych W bankowości od początku hurtownie danych budowane były z myślą o wspomaganiu zarządzania i ułatwieniu: Oceny sytuacji finansowej oddziałów i planowania rozwoju, Badania zyskowności produktów i usług oraz kształtowania ich portfela, Analizy kredytowej i szacowaniu ryzyka, Analizy płatności, należności i zaległości. W sektorze ubezpieczeń wspomagają podejmowanie decyzji biznesowych. Umożliwiają: zwiększenie zysku z istniejących polis poprzez ograniczenie ryzyka, ograniczenie fałszerstw, ustanowienie stawek zapewniających odpowiedni zysk, ograniczenie kosztów marketingowych i sprzedaży związanej z produktami (agenci, niezależni akwizytorzy), wprowadzenie na rynek nowych produktów i przejęcie części rynku od innych instytucji W telekomunikacji hurtownie danych wykorzystujące dane bilingowe umożliwiają między innymi segmentację klientów na grupy w różny sposób korzystających z usług operatora. W handlu hurtownie danych stały się istotnym narzędziem wspomagającym sprzedaż, marketing, promocje czy nawet sposób wystawiania towarów w sklepie. 3/15/2006 24