SAS wybrane elementy DATA MINING Część I Seweryn Kowalski 2006
Motywacja Stan: Olbrzymia ilość danych WalMart: 20 mln transakcji/dzień Mobil: bazy ok. 100 TB (eksploracja złóż ropy) Human Genome Project: ~GB danych SkyCat > 3TB danych NASA Earth Observing System: 50GB/godz. (!) Komputeryzacja wszystkich dziedzin życia: Handel kody kreskowe, karty kredytowe Banki, ubezpieczenia Telekomunikacja, ochrona zdrowia, itd. Nauka (biologia, monitorowanie pogody, satelity, teleskopy,...) Problem: Potop danych przy jednoczesnym głodzie wiedzy Rozwiązanie: Hurtownie danych i data mining: Hurtownie danych (data warehouse) i OLAP (on-line analytical processing) Wydobywanie wiedzy z danych (poszukiwanie reguł, reguralności, tworzenie wzorców) pochodzących z ogromnych baz danych 3/15/2006 2
Ewolucja technologii bazodanowych 1960 1970 1980 Pierwsze zbiory danych, pierwsze bazy danych, DBMS (Data Base Management System) i IMS (Information Management System) serwery bazodanowe Relacyjny model danych, relacyjne DBMS Zawansowane modele (rozszerzenie relacyjności, OO), programowo zorientowane bazy danych (naukowe, inżynieryjne) 1990 - dzień obecny Data mining, hurtownie danych, bazy multimedialne 3/15/2006 3
Co to DATA MINING DATA MINING poszukiwanie wiedzy w danych (bazach danych) Wydobycie interesujących (nietrywialnych, ukrytych, wcześniej nie znanych ale potencjalnie użytecznych) informacji wzorców z olbrzymich baz danych Inne nazwy: Knowledge discovery(mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. 3/15/2006 4
DATA MINING Zgłębianie danych (data minig) to proces analityczny, przeznaczony do eksploracji dużych zasobów danych (zazwyczaj powiązanych z zagadnieniami gospodarczymi lub rynkowymi) w poszukiwaniu regularnych wzorców oraz systematycznych współzależności pomiędzy zmiennymi, a następnie do oceny wyników poprzez zastosowanie wykrytych wzorców do nowych podzbiorów danych. Finalnym celem data mining jest najczęściej przewidywanie (zachowań klientów, sprzedaży, prawdopodobieństwa utraty klienta itp.), dlatego też predykcyjny data mining jest bardzo popularny. Predykcyjny data mining daje bezpośrednie korzyści biznesowe 3/15/2006 5
Zastosowania Zarządzanie i analiza sprzedażą: target marketing, customer relation management (CRM), analiza koszyka, segmentacja rynku Analiza ryzyka: Kontrola jakości, prognozowanie, zdobywanie i utrzymanie klienta Wyszukiwanie oszust (defraudacji) Inne: Wyszukiwanie wzorców w tekstach (newsgroup, email) Budowa inteligentnych odpowiedzi (faq, wsparcie techniczne) 3/15/2006 6
Proces KDD Trzy główne etapy 1. eksploracji 2. budowania modelu (z określania wzorców) 3. oceny lub weryfikacji poprawności Pattern Evaluation 90 80 70 60 Data Mining 50 40 30 20 10 0 1. Kw 2. Kw 3. Kw 4. Kw Selection Data Warehouse Data Cleaning Data Integration Task-relevant Data Databases 3/15/2006 7
Podstawowe elementy KDD Poznanie problemu: Poznanie wcześniejszej wiedzy na temat problemu oraz wyznaczenie celu Selekcja danych tworzenie grupy danych Czyszczenie danych i wstępne przygotowanie, przekształcanie, wybór podzbiorów rekordów (przypadków) Redukcja danych poszukiwanie zależności, redukcja zmiennych i wymiarów zredukowanie liczby analizowanych zmiennych do poziomu pozwalającego efektywnie wykonywać analizy Wybór funkcji data mining: Regresja, klasteryzacja Wybór modelu data mining: rozważane są różnorodne modele, po czym wybierany jest najlepszy z nich Data mining: Jest to końcowy etap, na którym stosujemy dla nowych danych model uzyskany i uznany za najlepszy w drugim etapie. Celem stosowania modelu jest uzyskanie przewidywanych wartości lub klasyfikacji. Prezentacja zdobytej wiedzy Wykorzystanie wiedzy 3/15/2006 8
Data Mining jaki typ danych? Relacyjne bazy danych Hurtownie danych (Data warehouse) Zawansowane bazy danych i informacyjne repozytoria Obiektowo zorientowane i obiektowo relacyjne bazy danych Przestrzenne (geograficzne) bazy danych Szeregi czasowe Tekstowe i multimedialne bazy danych www 3/15/2006 9
Data Mining współpraca wielu dziedzin Data Mining jest traktowany jako "zagadnienie z pogranicza statystyki, sztucznej inteligencji [AI] oraz badania baz danych" 3/15/2006 10
Hurtownie danych Hurtownia danych (data warehouse) jest definowana na wiele sposobów lecz ogólnie można ją przedstawić jaki bazę danych wpierająca decyzje, jest osobna (wydzieloną) częścią systemu baz danych przedsiębiorstwa (organizacji) rodzaj bazy danych, która jest zorganizowana i zoptymalizowana pod kątem pewnego wycinka rzeczywistości. Hurtownia danych jest wyższym szczeblem abstrakcji niż zwykła relacyjna baza danych (choć do jej tworzenia używane są także podobne technologie). W skład hurtowni wchodzą zbiory danych zorientowanych tematycznie (np. hurtownia danych klientów). Dane te często pochodzą z wielu źródeł, są one zintegrowane i przeznaczone wyłącznie do odczytu A A data warehouse is a subject-oriented oriented, integrated, time- variant,, and nonvolatile collection of data in support of management s decision-making process. W. H. Inmon 3/15/2006 11
Przykład: Tak stać się może, gdy mamy do czynienia z hurtownią danych sprzedaży, wtedy nie będą występowały w niej poszczególne pozycje na fakturach a jedynie kwoty faktur, gdyż to jest podstawą analizy. (Oczywiście to osoby korzystające z hurtowni określają, jakie dane są dla nich użyteczne). Bill Inmon, is recognized as the "father of the data warehouse" and co-creator of the "Corporate Information Factory." He has 35 years of experience in database technology management and data warehouse design. He is known globally for his seminars on developing data warehouses and has been a keynote speaker for every major computing association and many industry conferences, seminars, and tradeshows. As an author, Bill has written about a variety of topics on the building, usage, and maintenance of the data warehouse and the Corporate Information Factory. He has written more than 651 articles, many of them have been published in major computer journals such as Datamation, ComputerWorld, DM Review and Byte Magazine. Bill currently publishes a free weekly newsletter for the Business Intelligence Network, and has been a major contributor since its inception. 3/15/2006 12
Hurtownia danych vs. Tradycyjna DBMS OLTP (on-line transaction processing) Podstawowy system zadań dla tradycyjnej relacyjnej bezy danych Operacje dzień po dniu: sprzedaż, ksiegowość produkcja, płace itp. OLAP (on-line analytical processing) Podstawowy system zadań dla hurtowni danych Wykorzystanie do analizy danych i wprowadzania decyzji Różnice OLAP vs. OLTP Orientacja (użytkownik, system): klient vs. rynek Zawartość danych: bieżące, szczegółowe vs. historyczne, skonsolidowane Architektura: tabele, obiekty vs. Gwiazda Dostęp: uaktualniane vs. tylko do odczytu, 3/15/2006 13
OLAP - definicja OLAP (OnLine Analytical Processing) - oprogramowanie wspierające podejmowanie decyzji, które pozwala użytkownikowi analizować szybko informacje zawarte w wielowymiarowych widokach i hierarchiach. Narzędzia OLAP są często używane do wykonywania analiz trendów sprzedaży czy analiz finansowych (hurtownie danych). OLAP i MOLAP Tradycyjne produkty OLAP są często nazywane wielowymiarowymi OLAP (ang. multidimensional OLAP lub MOLAP), gdyż przekładają transakcje na wielowymiarowe widoki. Dane są organizowane w postaci trójwymiarowych kostek, które można obracać, co jest bardziej poglądowe dla użytkownika. Relacyjny OLAP (ROLAP) Narzędzia ROLAP ekstrahują dane z relacyjnych baz danych. Używając złożonych poleceń SQL w odniesieniu do tablic bazodanowych ROLAP jest w stanie błyskawicznie tworzyć wielowymiarowe widoki. ROLAP jest najczęściej stosowany w odniesieniu do danych mających dużą liczbę atrybutów, które trudno jest umieścić w kostkowych strukturach (np. dane klienta z wieloma polami opisowymi). Database OLAP (DOLAP) i Web OLAP (WOLAP) Database OLAP dotyczy relacyjnych baz danych, które są "gospodarzami" struktur OLAP i przeprowadzają obliczenia OLAP. Web OLAP odnosi się do danych OLAP, które są dostępne z poziomu przeglądarki internetowej. 3/15/2006 14
OLAP vs. OLTP 3/15/2006 15
Od tabeli do kostki wielowymiarowej Dane w hurtowni danych są oparte na wielowymiarowym modelu danych i przechowywane są w postaci kostek (cube) n-d (n wymiarowa) kostka jest nazywana base cuboid wymiar 0-D (najwyższy poziom sumowania) jest nazywany apex cuboid 3/15/2006 16
Cubiod i Cube 3/15/2006 17
Model danych dla hurtowni danych Dane są zorganizowane w strukturę wielowymiarową, w której fakty (liczby przechowywane w bazie) są zależne od wielu parametrów (nazywanych wymiarami). W najprostszym przypadku baza ma strukturę gwiazdy, w której dane dotyczące sprzedaży (wielkość, wartość, ) gromadzone są w centralnej tabeli faktów, natomiast parametry (wymiary) od których sprzedaż zależy znajdują się w mniejszych tabelach takich jak np. produkt, geografia czy czas. Elementy wymiarów (dla geografii np. województwa) mogą posiadać cechy charakterystyczne (np. rozmiar, liczba ludności), które będą wykorzystywane w analizach. 3/15/2006 18
Model danych dla hurtowni danych Różne typy schematów danych: Gwiazda: tabela faktów jest w miejscu centranym połączona jest z wymiarami znajdującymi się w mniejszych tabelach Płatek śniegu (snowflake): udoskonalenie gwiazdy gdzie tabele wymiarów mogą być rozbite na mniejsze elementy Konstelacja (gwiazdozbiór) faktów: wiele tabel faktów dzieli między sobą wymiary, konstrukcja taka jest widoczna jako zespół gwiazd 3/15/2006 19
Gwiazda 3/15/2006 20
Płatek śniegu 3/15/2006 21
Konstelacja faktów 3/15/2006 22
Procedury ekstrakcji Organizacja danych w strukturze wielowymiarowej nie jest jedynym wyróżnikiem hurtowni danych. Ważnym elementem tych systemów są procedury ekstrakcji, czyszczenia, transformacji i ładowania danych do bazy (ang. Extract, Transformation, Load ETL). Procedury ekstrakcji danych z systemów OLTP uruchamiane są w czasie minimalnego obciążenia tych systemów. Dane wyekstrahowane są następnie weryfikowane względem reguł i danych słownikowych przechowywanych w repozytorium metadanych, przekształcane do pożądanej w hurtowni postaci i następnie ładowane do bazy. Dzięki procedurom ETL dane w hurtowni charakteryzują się wysoką jakością, przewyższającą znacznie jakość danych systemów OLTP. Przykład: deduplikacja procedura usuwająca powtórzenia danych: w systemach OLTP panowie Jan Kowalski i Jan Piotr Kowalski mogą być różnymi klientami, mimo iż mieszkają pod tym samym adresem, w hurtowni (dzięki procesowi deduplikacji) zostaną zidentyfikowani jako ta sama osoba umożliwiając tym samym rzeczywistą analizę zachowań klienta. 3/15/2006 23
Zastosowania hurtowni danych W bankowości od początku hurtownie danych budowane były z myślą o wspomaganiu zarządzania i ułatwieniu: Oceny sytuacji finansowej oddziałów i planowania rozwoju, Badania zyskowności produktów i usług oraz kształtowania ich portfela, Analizy kredytowej i szacowaniu ryzyka, Analizy płatności, należności i zaległości. W sektorze ubezpieczeń wspomagają podejmowanie decyzji biznesowych. Umożliwiają: zwiększenie zysku z istniejących polis poprzez ograniczenie ryzyka, ograniczenie fałszerstw, ustanowienie stawek zapewniających odpowiedni zysk, ograniczenie kosztów marketingowych i sprzedaży związanej z produktami (agenci, niezależni akwizytorzy), wprowadzenie na rynek nowych produktów i przejęcie części rynku od innych instytucji W telekomunikacji hurtownie danych wykorzystujące dane bilingowe umożliwiają między innymi segmentację klientów na grupy w różny sposób korzystających z usług operatora. W handlu hurtownie danych stały się istotnym narzędziem wspomagającym sprzedaż, marketing, promocje czy nawet sposób wystawiania towarów w sklepie. 3/15/2006 24