Analityka danych & big data

Podobne dokumenty
Rola analityki danych w transformacji cyfrowej firmy

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Pierwsze wdrożenie SAP BW w firmie

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

Co to jest Business Intelligence?

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Dopasowanie IT/biznes

Odkryj w danych to, co najważniejsze

Hurtownia danych praktyczne zastosowania

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

IBM DATASTAGE COMPETENCE CENTER

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Trendy BI z perspektywy. marketingu internetowego

Dopasowanie IT/biznes

Hurtownie danych w praktyce

Samodzielny Business Intelligence in memory duże i małe. Paweł Gajda Business Solution Architect

Architecture Best Practices for Big Data Deployments

Nowoczesne narzędzia w relacjach z klientami

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Ewolucja technik modelowania hurtowni danych

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

COMARCH DATA WAREHOUSE MANAGER 6.2

SYSTEM VILM ZARZĄDZANIE CYKLEM ŻYCIA ŚRODOWISK WIRTUALNYCH. tel: +48 (032)

Szybkość instynktu i rozsądek rozumu$

Informacja o firmie i oferowanych rozwiązaniach

StatSoft profesjonalny partner w zakresie analizy danych

Marcin Adamczak Jakub Gruszka MSP. Business Intelligence

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Elektroniczne kontrole podatkowe już od 1 lipca 2016 r.


Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Jarosław Żeliński analityk biznesowy, projektant systemów

Wstęp do Business Intelligence

Migracja Business Intelligence do wersji

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Dajemy WIĘCEJ CALL CENTER? WIĘCEJ? ODWAŻNIE, chcą ROZWIJAĆ SIĘ każdego dnia i pomagają w tym innym,

VI Kongres BOUG Praktyczne aspekty wykorzystania Business Intelligence w przemyśle wydobywczym węgla kamiennego

Lean management w procesie obsługi klienta

CZY TWOJE ŚRODOWISKO PLIKOWE RÓWNIEŻ ROŚNIE SZYBCIEJ NIŻ BAZODANOWE?

Uruchamianie bazy PostgreSQL

Migracja Business Intelligence do wersji 11.0

Workplace by Facebook. Twoja bezpieczna, firmowa sieć społecznościowa

Analityka i BigData w służbie cyberbezpieczeństa

Katalog handlowy e-quality

Katalog handlowy e-production

PLANOWANIE I BUDŻETOWANIE Z WYKORZYSTANIEM NARZĘDZI CYFROWYCH

Skuteczna Strategia CRM - wyzwanie dla organizacji. Artur Kowalski Prometriq

E-logistyka Redakcja naukowa Waldemar Wieczerzycki

9 elementów zarządzania projektami Narzędzia Nowoczesnego Project Managera

produkować, promować i sprzedawać produkty, zarządzać i rozliczać przedsięwzięcia, oraz komunikować się wewnątrz organizacji.

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

trendów, które zmieniają IT (technologię informatyczną)

Migracja XL Business Intelligence do wersji

Business Intelligence

Robotyzacja procesów biznesowych

Wprowadzenie do Hurtowni Danych

Informatyzacja przedsiębiorstw WYKŁAD

Migracja Business Intelligence do wersji

Hurtownie danych i przetwarzanie analityczne - projekt

Praktyczne wykorzystanie elementów raportowania Microsoft Project 2010 /Project Server 2010 Sesja 5 PowerPivot & PowerView Bartłomiej Graczyk

Migracja Business Intelligence do wersji

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Jak opisać wymagania zamawiającego wybrane elementy

Wybór Discoverer 10g czy BI Beans

Nadajemy pracy sens. Business case study. ValueView w SGB Banku SA, czyli o nowatorskim podejściu do pomiaru rentowności zadań stanowisk i procesów.

Skuteczność => Efekty => Sukces

Narzędzia IT we współczesnych strategiach utrzymaniowych

RAPORT KWARTALNY KBJ S.A. ZA I KWARTAŁ 2012 ROKU. Warszawa, dnia 15 maja 2012 roku.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hadoop i Spark. Mariusz Rafało

dr inż. Maciej Kiewra Prezentacja wygłoszona na konferencji BI vs Big Data podczas Kongresu GigaCon Warszawa, r.

Krzysztof Wawrzyniak Quo vadis BS? Ożarów Mazowiecki, styczeń 2014

Narzędzia PMR do analizy sektora transportu drogowego

IMPLEMENTATION OF WDROŻENIE COMARCHW MINISTERSTWIE FINANSÓW SINDBAD RAPORTY ANALIZY BADANIA PROGNOZY CASE STUDY 1

Business Intelligence Odkryj szerszą perspektywę dla swojego biznesu

BI: przegląd, ETL, raportowanie i analizy

Systemy Business Intelligence w praktyce. Maciej Kiewra

Spectrum Spatial. Dla systemów BI (Business Intelligence)

omnia.pl, ul. Kraszewskiego 62A, Jarosław, tel

Portale raportowe, a narzędzia raportowe typu self- service

Transkrypt:

TomaszJangas.com Analityka danych & big data 15 października 2017 W tym artykule opiszę architekturę, jaka często wykorzystywana jest dzisiaj w środowiskach do analityki danych w wielu różnych organizacjach oraz jak ta architektura się zmienia w kontekście dużych zbiorów danych. 1 2017 Tomasz Jangas

Dlaczego patrzymy w kierunku wykorzystania dużych zbiorów danych? Powodów jest wiele i pewnie każda organizacja będzie miała w tym zakresie swoje własne priorytety. Ważne moim zdaniem, aby przy wdrażaniu tego typu projektów robić to w odpowiedzi na konkretne wymagania biznesowe, a nie dlatego, aby móc się pochwalić rozwiązaniem big data w swoim środowisku, dla którego później "być może znajdziemy jakieś zastosowanie". W takim razie, jakie są te biznesowe cele i wymagania? One w zasadzie nie zmieniają się od lat. Zmienia się natomiast technologia i co za tym idzie, możliwości z jakich możemy korzystać, aby te cele zrealizować. Już od dłuższego czasu mówi się między innymi o: powiększaniu przychodów poprzez lepsze zrozumienie, czy nawet przewidywanie zachowań klientów, korzystając przy tym z tzw. analityki predykcyjnej ("co się wydarzy?") oraz analityki preskryptywnej ("co powinniśmy zrobić?"), monetyzowaniu posiadanych w organizacji danych przechowywanych w wielu różnych źródłach, łączenie tych danych i dostarczanie nowych perspektyw, bardziej precyzyjnych informacji oraz szerszego kontekstu, zwiększanie efektywności operacyjnej, poprzez przewidywanie cyberataków, oszustw finansowych, awarii sprzętu (tutaj wkraczamy dodatkowo w świat IoT), ale również poprzez redukcję kosztów utrzymania np. hurtowni danych, poprawianie poziomu zadowolenia klientów np. poprzez stosowanie automatycznych rekomendacji, gdzie znowu z pomocą przychodzi analityka preskryptywna Przykład, czyli jak mogło by to wyglądać? Wyobraź sobie, że w naszym przykładowym przedsiębiorstwie powstała biznesowa inicjatywa wdrożenia robota-doradcy w zakresie oferowania usług i produktów klientom firmy. Przy czym, pisząc robota, mam tutaj na myśli zautomatyzowane oprogramowanie, które potrafi doradzać, korzystając z: analityki opisowej (np.: tradycyjne historyczne raporty i analiza 360o naszego klienta) analityki predykcyjnej (np.: przewidywanie trendów i zachowania rynku) analityki preskryptywnej (np.: silnik rekomendacji) Abyśmy takie moduły analityczne mogli uruchomić w ramach naszego projektu robotadoradcy i aby spełniały one swoje zadanie, musimy najpierw dostarczyć odpowiednich danych do analizy i upewnić się, że dane te będą zawsze gotowe na czas. Dlatego, realizując taki projekt, najprawdopodobniej będziemy musieli: zbudować tzw. "jezioro danych" (data lake), w którym dane będą przechowywane i przetwarzane, 2 2017 Tomasz Jangas

zagwarantować mechanizmy, które pozwolą na wzbogacanie danych wpływających i wypływających z tego "jeziora" w sposób strumieniowy, dostarczyć technologię, pozwalającą na eksplorację dużych zbiorów danych, które są bardzo dynamiczne i zmieniają się bardzo szybko, umożliwić budowanie tematycznych mini hurtowni danych (data mart) i ich dostarczanie na żądanie naszym interesariuszom (np. liniom biznesowym wewnątrz naszego przedsiębiorstwa). To oczywiście na koniec oznacza dla nas konieczność zaimplementowania konkretnych rozwiązań i produktów oraz wdrożenia konkretnych technologii, o których tutaj jednak nie będę pisał, bo nie taki jest cel tego artykułu. Warto przy tym pamiętać również o uwzględnieniu wszystkich potrzebnych źródeł danych - systemów, z których będziemy czerpać dane do ich dalszej analizy (dane o klientach, dane finansowe, dane marketingowe, dane z portali społecznościowych i prawdopodobnie wiele innych). Jak to wyglądało kiedyś i jak wygląda dzisiaj jeszcze w wielu przedsiębiorstwach i organizacjach? Architektura, którą można zobaczyć w zasadzie w większości organizacji, bazuje i ogranicza się do typowych i tradycyjnych źródeł, z których dane poddawane są analizie biznesowej. Są to z reguły transakcyjne systemy biznesowe (różne w zależności od rodzaju prowadzonego biznesu), systemy CRM i ERP, systemy finansowe, systemy kadrowe i wiele, wiele innych. W procesie analizy danych przetwarzanych i przechowywanych w tych systemach, wykorzystywane są hurtownie danych. Dlaczego? Przede wszystkim, ponieważ: nikt nie będzie ryzykował kariery, aby analizować te dane bezpośrednio w transakcyjnych systemach produkcyjnych przedsiębiorstwa (w systemach typu OLTP), chcemy, aby analiza ta była efektywna i wydajna oraz aby przyniosła pożądane rezultaty i dlatego musimy wykonać pewnego rodzaju transformacje modelu danych z "transakcyjnego" do "analitycznego". Najprościej mówiąc, chcemy, aby dane nadawały się do zapisania w schemacie, wykorzystywanym w hurtowni danych (w systemie typu OLAP). Ponadto zapytania naszych użytkowników biznesowych, dla których analiza jest wykonywana, często wymagają zebrania danych z wielu różnych źródeł i systemów, dlatego ma sens zapisanie ich w centralnym repozytorium, jakim jest nasza hurtownia danych. Przy czym warto pamiętać, że centralne repozytorium nie oznacza tutaj utrzymywania tylko jednej hurtowni danych. Organizacje zazwyczaj mają takich hurtowni wiele. 3 2017 Tomasz Jangas

To co widzisz na powyższym rysunku, to logiczny schemat takiej architektury. Mamy tutaj przykładowe systemy transakcyjne (CRM, ERP, HR), z których ładujemy dane do hurtowni danych (EDW - Enterprise Data Warehouse). W procesie tym wykorzystujemy narzędzie ETL (Extract Transform Load), które właśnie m.in. pozwala wykonać opisaną wcześniej transformację danych. Jest to również narzędzie wykorzystywane do integracji danych oraz do tworzenia tematycznych hurtowni danych (DM - Data Mart). W nich przechowujemy już tylko ograniczone zbiory danych, potrzebne na przykład określonym liniom biznesowym lub departamentom. Tak przygotowane dane mogą być dalej analizowane za pomocą narzędzi BI (Business Intelligence), które są wykorzystywane bezpośrednio przez użytkowników biznesowych lub przez IT na żądanie tych użytkowników. Z kolei odpowiedzi na pytania, które zadają Ci użytkownicy biznesowi, dostarczane są w tych narzędziach zazwyczaj w postaci raportów, wizualizacji lub paneli informacyjnych (dashboard). Co się jednak stanie, gdy użytkownik biznesowy będzie chciał zadać pytanie spoza zdefiniowanej wcześniej listy? Cały proces przygotowania danych, aby dostarczyć żądaną treść i odpowiedź na to nowe zapytanie jest bardzo czasochłonny. Z różnych obserwacji wynika, że przygotowanie danych do analizy biznesowej stanowi aż 80% czasu całego procesu. Jest to na pewno jedno z poważniejszych wyzwań i wpływa na ostateczne koszty rozwiązania. Jest to również jeden z wielu powodów, dla których powyższa architektura w wielu organizacjach ewoluuje, albo już wyewoluowała w kierunku opisanym poniżej. Kierunek zmian. Ewolucja ta spowodowana jest również pojawianiem się nowych źródeł danych. Mowa tutaj o systemach, w których przechowywane są dane niestrukturalne lub semistrukturalne, takie jak pliki, logi, audio, video, posty w portalach społecznościowych. Jest to zupełnie inny rodzaj danych niż te, z którymi mamy do czynienia w przypadku systemów transakcyjnych. Tam przechowujemy dane strukturalne, czyli dane uporządkowane w tabelach, wierszach i kolumnach. Ale dlaczego nie wykorzystać posiadanej już hurtowni danych i za pomocą wspomnianych wcześniej narzędzi integracji danych ETL nie uzupełnić jej danymi z nowych źródeł? Niestety tradycyjne hurtownie danych nie są przystosowane do 4 2017 Tomasz Jangas

przechowywania danych niestrukturalnych. W związku z tym taka integracja często jest albo w ogóle niemożliwa, albo bardzo kosztowa. Dlatego w przypadku nowych źródeł danych wykorzystywane są nieco inne narzędzia i mechanizmy, natomiast logika działania jak widzisz na poniższym rysunku jest bardzo podobna. A podobieństwo to wynika z tego, że niezależnie od rodzaju danych i źródeł, z których one pochodzą, użytkownik biznesowy "na koniec dnia" chce otrzymać ten sam rezultat, czyli odpowiedzi na swoje zapytania w postaci na przykład raportów, wizualizacji lub paneli informacyjnych (dashboard). Powyżej widzisz logiczny schemat architektury, w której rolę "hurtowni danych" pełni Hadoop i/lub baza danych NO SQL (Not Only SQL). Narzędzia te są znakomicie przystosowane do przechowywania i przetwarzania dużych zbiorów danych niestrukturalnych. Analogicznie jak na poprzednim rysunku, w tematycznych hurtowniach danych (ADB - Analytical DB) przechowywane są zbiory danych przygotowywane do analizy na przykład dla określonego klienta biznesowego. A czy nie byłoby idealnie, gdybyśmy byli w stanie połączyć te dwa światy? Problemem mogą być tutaj stosowane narzędzia do integracji danych (ETL) oraz systemy do analityki (BI). Nie wszystkie umożliwiają pracę w tak szerokim zakresie. Istnieją oczywiście wyjątki, które pozwalają na wdrożenie takiej architektury, jak ta zaprezentowana na rysunku poniżej. 5 2017 Tomasz Jangas

Chcę zostawić Cię na koniec z kilkoma przemyśleniami i wyzwaniami, na które moim zdaniem warto zwrócić uwagę: Jakie narzędzia wykorzystać do ładowania danych do Hadoopa? Ekosystem tych narzędzi jest bardzo duży i bardzo szybko się zmienia. Jakiego mechanizmu ETL użyć do połączenia tych dwóch światów? Chcemy analizować jednocześnie dane strukturalne z hurtowni danych jak i dane niestrukturalne przechowywane i przetwarzane w Hadoopie. Jak optymalnie wykorzystać samego Hadoopa? Nie jest to łatwe środowisko i wymaga dużych umiejętności programistycznych. Z kolei programowanie wymaga czasu, a dla biznesu czas wdrożenia rozwiązania oznacza często, czy zdążymy z danym produktem lub usługą przed naszą konkurencją. Jak odpowiedzieć na wymagania biznesu, który nie chce kolejnego narzędzia BI lub co więcej wymaga, aby analitykę taką realizować wewnątrz aplikacji biznesowej? Musimy pomyśleć jak zintegrować moduł do analityki biznesowej z naszą aplikacją i czy dane narzędzie w ogóle na to pozwoli. Jak sprostać wymaganiom użytkownika biznesowego w zakresie czasu oczekiwania na wynik analizy szczególnie w kontekście responsywności Hadoopa? I tutaj znowu wyzwaniem jest mnogość narzędzi i częstotliwość zmian w ekosystemie Hadoopa. Chcemy wybrać takie rozwiązanie, które sprawi, aby zapytania spoza wcześniej zdefiniowanej listy obsługiwane były w akceptowalnym czasie. Aby ominąć ograniczenia, czasami stosuje się podejście, w którym tworzy się dodatkowe zbiory danych, przechowywane wewnątrz pamięci bezpośrednio w rozwiązaniach analitycznych. Pytanie, czy rozwiązując w ten sposób jeden problem, nie tworzymy przypadkiem kolejnego, 6 2017 Tomasz Jangas

związanego z brakiem kontroli nad danymi, ryzykiem utraty ich spójności oraz dodatkowymi trudnościami w zarządzaniu. Podstawowe pytania jakie nasuwają się często w momencie, gdy zaczniemy myśleć o wdrożeniu tego typu architektury dla naszego systemu analityki biznesowej, to: Czy mamy umiejętności do zrealizowania projektu (szczególnie w kontekście Hadoopa), czy mamy je wewnątrz organizacji, gdzie je znaleźć? W jakim czasie osiągniemy pożądaną wartość, szczególnie jeżeli będziemy musieli sporo tego czasu przeznaczyć na programowanie komponentów rozwiązania? Jak zbudować środowisko do analizy danych niestrukturalnych, które będzie bardziej elastyczne niż to, do czego jesteśmy przyzwyczajeni w przypadku tradycyjnych hurtowni danych (o mocnym ukierunkowaniu na znalezienie odpowiedzi na konkretne rodzaje zapytań i wykonywanie konkretnych, zdefiniowanych wcześniej zadań analitycznych). Generalnie wolelibyśmy nie "zamykać się" w ten sam sposób w przypadku analizowania danych niestrukturalnych. 7 2017 Tomasz Jangas