Big Data w strategii przedsiębiorstwa. Warszawa,

Podobne dokumenty
Big Data. Chwilowe zauroczenie czy trwały element krajobrazu? 26 listopada 2014

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Wprowadzenie do Hurtowni Danych

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Rola analityki danych w transformacji cyfrowej firmy

Sage ACT! Twój CRM! Zdobywaj, zarządzaj, zarabiaj! Zdobywaj nowych Klientów! Zarządzaj relacjami z Klientem! Zarabiaj więcej!

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Analityka danych & big data

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Adam Dolega Architekt Rozwiązań Biznesowych Microsoft

Hadoop i Spark. Mariusz Rafało

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Co to jest Business Intelligence?

Technologie cyfrowe i użytkowanie internetu przez firmy kanadyjskie w 2012 r :36:34

LIDERZY DATA SCIENCE CENTRUM TECHNOLOGII ICM CENTRUM TECHNOLOGII ICM ICM UW TO NAJNOWOCZEŚNIEJSZY OŚRODEK DATA SCIENCE W EUROPIE ŚRODKOWEJ.

One Size Doesn t Fit All, czyli case study stworzenia BI dostosowanego do strategicznych, operacyjnych oraz analitycznych potrzeb

Misja. Strategia. Cele UNIT4 TETA BI CENTER. Plan prezentacji. Grupa UNIT4 TETA. Grupa kapitałowa UNIT4 UNIT4 TETA BI CENTER

Hurtownie danych wykład 5

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Samodzielny Business Intelligence in memory duże i małe. Paweł Gajda Business Solution Architect

Efektywne przetwarzanie informacji

SERWERY KOMUNIKACYJNE ALCATEL-LUCENT

Specjalizacja magisterska Bazy danych

Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl AIUT Sp. z o. o.

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Jarosław Żeliński analityk biznesowy, projektant systemów

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Digital Analytics vs Business Analytics Jak łączyć by osiągnąć maksimum korzyści? Maciej Gałecki

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

dr inż. Maciej Kiewra Prezentacja wygłoszona na konferencji BI vs Big Data podczas Kongresu GigaCon Warszawa, r.

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

NEC & CONNECTIA - siła w perfekcji

Kształcenie analityków danych sektora publicznego

System Obsługi Wniosków

Deduplikacja danych. Zarządzanie jakością danych podstawowych

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

III Edycja ITPro 16 maja 2011

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Trendy BI z perspektywy. marketingu internetowego

HP Service Anywhere Uproszczenie zarządzania usługami IT

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

System Profesal. Zarządzanie przez fakty

Asseco HOME: obniżenie kosztów operacyjnych telekomów dzięki rozwiązaniu Big Data.

CZY TWOJE ŚRODOWISKO PLIKOWE RÓWNIEŻ ROŚNIE SZYBCIEJ NIŻ BAZODANOWE?

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Architecture Best Practices for Big Data Deployments

Szkolenia SAS Cennik i kalendarz 2017

Analityka skoncentrowana na kliencie

Portal Technology Day

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Szybkość instynktu i rozsądek rozumu$

Zastosowania narzędzi analitycznych w komunikacji społecznej

Rozpocznij swój pierwszy projekt IoT i AR z Transition Technologies PSC

pilotażowe staże dla nauczycieli i instruktorów kształcenia zawodowego w przedsiębiorstwach

Polityka prywatności serwisów internetowych Narodowego Instytutu Architektury i Urbanistyki (NIAiU) i plików cookies

BigData rewolucja czy ewolucja w świecie rozwiązań analityki biznesowej. Grzegorz Oleś Big Data Sales Executive

bo od menedżera wymaga się perfekcji ANKIETY ONLINE W SYSTEMIE BUSINESS NAVIGATOR

Zapewnienie dostępu do Chmury

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

Tomasz Grześ. Systemy zarządzania treścią

Potwierdzanie tożsamości w cyfrowym świecie VII Konferencja i Narodowy Test Interoperacyjności Podpisu Elektronicznego CommonSign 2017

EXPERIENCE IS THE KING

Big Data w poszukiwaniu actionable data.

egroupware czy phpgroupware jest też mniej stabilny.

VI Kongres BOUG Praktyczne aspekty wykorzystania Business Intelligence w przemyśle wydobywczym węgla kamiennego

PLANOWANIE I BUDŻETOWANIE Z WYKORZYSTANIEM NARZĘDZI CYFROWYCH

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

LearnIT project PL/08/LLP-LdV/TOI/140001

IBM MobileFirst! Wprowadzenie do strategii IBM w zakresie rozwiązań mobilnych! Włodek Dymaczewski"

Analiza internetowa czyli Internet jako hurtownia danych

Bank innowacyjny w erze cyfrowej

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Splunk w akcji. Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o.

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

TURNING DATA INTO GOLD. Od czego zacząć?

Pierwsze wdrożenie SAP BW w firmie

Opis Architektury Systemu Galileo

Polityka prywatności

Jak wybrać 45 najlepszych prezentacji na FORUM?

FUNKCJE REALIZOWANE PRZEZ PRZYKŁADOWE APLIKACJE CRM W OPARCIU O DANE Z CENTRAL SLICAN

WSTĘP PARADYGMATY I DETERMINANTY ROZWOJU SPOŁECZEŃSTWA INFORMACYJNEGO I GOSPODARKI OPARTEJ NA WIEDZY... 17

Referat pracy dyplomowej

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Internet wszechrzeczy W KIERUNKU REALLY BIG DATA

Hurtownie danych - przegląd technologii

Portale raportowe, a narzędzia raportowe typu self- service


CASE STUDY SUKCES KAMPANII NAPĘDZANEJ DANYMI DLA MARKI RAINBOW

Galileo - encyklopedia internetowa Plan testów

CELE I TREŚCI NAUCZANIA POSZCZEGÓLNYCH PRZEDMIOTÓW I. PRZEDMIOTY PODSTAWOWE, WSPÓLNE DLA OBYDWU ŚCIEŻEK:

Studium przypadku Bank uniwersalny

Transkrypt:

Big Data w strategii przedsiębiorstwa Warszawa, 2016-03-17 1

Czemu stoję przed Paostwem? Przez przeszło 12 lat odpowiadałem za systemy raportujące w portalu Onet.pl. Odpowiadałem za wybór narzędzi do analizy danych. W tym za przejście z rozwiązao komercyjnych na rozwiązania open source. Brałem czynny udział w jednym z najciekawszych projektów Big Data w Alior Bank. Pracowałem przy wdrożeniu systemu rekomendacji treści w TVN. Obecnie w Allegro odpowiadam za rozwój platformy eksperymentacyjnej. Czynnie zajmuję się analizą dużych zbiorów danych i doborem narzędzi analitycznych od początku tego stulecia 2

O czym nie chcę mówid Nie chcę opowiadad o tym, o czym czytałem w Internecie tylko o czymś, co robiłem w praktyce. 3

Big Data vs Small Data Kategoria Big Data Small Data źródła danych media społeczne mierniki/czujniki logi dane tekstowe materiały wideo, streamy Internet rzeczy klasyczne systemy transakcyjne Systemy CRM (Customer Relationship Management) transakcje na stronach www dane finansowe wielkośd (Volume) Tera/Peta/Exa/Zetta Mega/Giga/Tera szybkośd pozyskiwania (Velocity) często czas rzeczywisty wymagają reakcji w czasie rzeczywistym zmiennośd (Variety) ustrukturyzowane nieustrukturyzowane częściowo ustrukturyzowane przetwarzanie wsadowe nie zawsze wymagają reakcji w czasie rzeczywistym ustrukturyzowane 4

Big Data vs Small Data Kategoria Big Data Small Data wartośd (Value) możliwośd przetworzenia w nowy sposób danych z przeszłości wyszukiwanie nowych wzorców technologie Hadoop Spark Cassandra elasticsearch sposób gromadzenia danych klastry tanich serwerów Business Intelligence klasyczne raportowanie klasyczne bazy relacyjne (SQL) drogie wyspecjalizowane serwery główny cel przewidzied przyszłośd wyjaśnid przeszłośd zawód Data Engineer Data Scientist analityk danych Częściowo w oparciu o materiały z kursu BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark https://courses.edx.org/courses/berkeleyx/cs100.1x/1t2015/info 5

Big Data definicja Gartnera http://www.rosebt.com/blog/data-veracity 6

Data Science http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 7

Data Science Communication skills http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 8

Ale tak na koniec dnia Możliwośd stworzenia spójnego obrazu potrzeb klientów. Na podstawie wielu zróżnicowanych źródeł danych. Nadającego się do praktycznego wykorzystania. W rozsądnym czasie. Przy rozsądnych kosztach. Po co? Data driven company 9

A tak konkretniej Chcemy połączyd dane o zachowaniu naszych klientów: Systemy transakcyjne Co robią na naszych stronach Co piszą w mediach społecznych Jakich treści szukają w Internecie W jakiej sprawie dzwonili do call center Czy zainteresował ich mailling Jak korzystają z telefonu komórkowego 10

Jeszcze konkretniej Musimy przejśd z danych typu: identyfikator klienta data zdarzenia opis zdarzenia wartośd opłata rachunku za 1 2009-01-01 gaz 315 zł zakup w sklepie internetowym 1 2009-01-01 artykuły sportowe 124 zł do danych o postaci: identyfika tor klienta data zdarzenia url useragent iip Mozilla/5.0 (Windows NT 5.1; rv:26.0) 23456781 2009-01- www.wp. 01 pl Gecko/20100101 Firefox/26.0 217.67.211.123 identyfikator klienta wartośd rachunku za gaz M-6 wartośd rachunku za gaz M-5 rachunek za gaz ile dni przed/po terminie M-6 wartośd bilety lotnicze M-6 Kwota wydana na benzynę M-5 Kwota wydana na zakupy żywnościowe w sklepach wyższej półki M-5 Czas spędzony na serwisach o tematyce biznesowej M-6 Wydatki na edukację dziecka M-5 Klasa posiadanego telefonu 1 315 zł 320 zł 10 0 zł 300 zł 20 zł 3:40 140 zł Wysoka 2 420 zł 350 zł 5 800 zł 500 zł 550 zł 0:15 0 zł średnia 11

Co mnie pociąga w analizie danych 1. Prawdziwy obraz zjawiska: nie ma podstawie deklaracji, nie na podstawie panelu, nie na podstawie sztucznego eksperymentu. 2. Możliwośd przekładu problemów biznesowych na język danych. 12

Miejsce Hadoop w ekosystemie firmy Systemy produkcyjne Systemy analityczne Systemy raportujące 13

Miejsce Hadoop w ekosystemie firmy Systemy produkcyjne Tysiące miliardy użytkowników Kilka typów użytkowników Zoptymalizowane pod utrzymanie usług Odporne na ataki z zewnątrz i wewnątrz Przeważnie nie wymagają korzystania z danych z przeszłości Działają na bardzo szczegółowych danych Poziom dostępności > 99,999% 14

Miejsce Hadoop w ekosystemie firmy Systemy raportujące Kilku kilkuset użytkowników Dziesiątki typów użytkowników Odporne na ataki z zewnątrz i wewnątrz Zapewniające detaliczną kontrolę dostępu Możliwość wycofywania transakcji i modyfikowania zapisów Rozbudowana wizualizacja wyników Jednolity interface zarówno dla komputerów jak i tabletów i urządzeń mobilnych Możliwość łatwego personalizowania widzianych treści na poziomie pojedynczych użytkowników i grup użytkowników Działają na bardzo zagregowanych danych Niskie umiejętności techniczne użytkowników 15

Miejsce Hadoop w ekosystemie firmy Systemy analityczne Kilku kilkuset użytkowników Kilka typów użytkowników Odporne na ataki z wewnątrz Zapewniające ogólną kontrolę dostępu Możliwość modyfikowania zapisów Działają na bardzo detalicznych danych Im dłuższy okres, za który mamy dane, tym lepiej Łatwość podpięcia narzędzi statystycznych Wysokie umiejętności techniczne użytkowników 16

Miejsce Hadoop w ekosystemie firmy Czemu wydzielać systemy analityczne? Zapytania mogą bardzo obciążać system i pojawiać w trudnych do przewidzenia momentach w czasie. Konieczność dostępu do dużej ilości bardzo detalicznych danych Nie muszą mieć wyrafinowanych mechanizmów bezpieczeństwa Nie muszą mieć bardzo wysokiego poziomu dostępności Nie muszą zapewniać bardzo krótkiego czasu odpowiedzi 17

Miejsce Hadoop w ekosystemie firmy Hadoop jako podstawa systemu analitycznego Słabe mechanizmy bezpieczeństwa (praktycznie tylko na poziomie systemu operacyjnego) Brak możliwości wycofania transakcji Stosunkowo długi i trudny do przewidzenia czas odpowiedzi Wymaga umiejętności technicznych od użytkowników 18

Miejsce Hadoop w ekosystemie firmy Hadoop jako podstawa systemu analitycznego Łatwo skalowalny Oparty o tani sprzęt Open Source Radzi sobie z dużymi zbiorami danych Może przejmować zarówno dane o wyraźnej strukturze (np.: z baz relacyjnych), pseudostrukturze (XML, JSON), czy bez struktury 19

Przykładowe rozwiązania Zabierzcie się ze swoją analityką Drogi ale spełniający najwyższe standardy jakości system transakcyjny Dane 1-1 przenoszone do Hadoop Analiza tylko w Hadoop Dane z systemów zewnętrznych pozyskiwane w nieregularnych odcinkach czasu, duże zróżnicowanie danych, różna identyfikacja użytkownika 20

Przykładowe rozwiązania Zabierzcie się ze swoją analityką Tani w utrzymaniu system analityczny Możliwość prowadzenia dowolnie skomplikowanych lub eksperymentalnych analiz Bezpieczeństwo (?!) 21

Przykładowy problem Chcemy połączyć dane o zachowaniu użytkownika w Internecie z danymi z systemów transakcyjnych. Problemy? 22

Przykładowy problem Chcemy połączyć dane o zachowaniu użytkownika w Internecie z danymi z systemów transakcyjnych. Problemy? 1. Jednolita identyfikacja użytkownika w Internecie i w naszych systemach. 23

Przykładowy problem Chcemy połączyć dane o zachowaniu użytkownika w Internecie z danymi z systemów transakcyjnych. Zapewnienie jednolitej identyfikacji użytkownika między stronami web (naszymi i instytucji, z którymi współpracujemy): 1. Wspólne międzydomenowe cookie 2. Przekazywanie parametru w url 24

Przykładowy problem Chcemy połączyć dane o zachowaniu użytkownika w Internecie z danymi z systemów transakcyjnych. Przejście od cookie do identyfikatora w naszych systemach: Regularne współwystępowanie user-agent i adresu IP w obu systemach 25

Przykładowe rozwiązania Hadoop jako podstawa gromadzenia danych Dane z systemów transakcyjnych są zapisywane do Hadoopa poprzez serwery Kafki Dane nie są przechowywane nigdzie więcej poza Hadoopem W Hadoop następuje agregacja danych dla systemów raportujących (opartych o bazy relacyjne i systemy klasy Business Intelligence) 26

Przykładowe rozwiązania Hadoop jako podstawa gromadzenia danych Możliwe różne modele dostępu do danych: od niewielki zespół analityków do praktycznie cała firma Potencjalne źródło wycieku danych Ryzyko redundancji danych zespoły mogą utrzymywać kopie dużych wolumenów danych Ryzyko używania różnych definicji biznesowych 27

Przykładowe rozwiązania Hadoop jako podstawa gromadzenia danych Duża innowacyjność Duża elastyczność co do zakresu gromadzonych danych W przypadku problemów z jakością danych przetworzonych jest do czego sięgać Można prowadzić analizy według nowych wytycznych na danych przeszłości 28

Architektura Lambda/Kappa 29

Strata+Hadoop World 2015 30

Dwa światy Szybkie analizy (czas odpowiedzi < minuta) Przetwarzanie wsadowe 31

Szybka analiza https://storm.apache.org/ https://spark.apache.org/ https://flink.apache.org/ 32

Hadoop + http://drill.apache.org/ dostęp do czystego JSON, praca na samoopisujących się danych http://tez.apache.org/ lepsze zarządzanie zadaniami 33

Różne mechanizmy wykonywania zapytań 34

Różne mechanizmy wykonywania zapytań 35

Big Data technologia pierwsze wrażenie Klasyczne systemy Big data 36

Small @ Big Data - kooperacja 1. Big Data: wydajniejsza kontrola jakości danych. 2. Big Data: możliwośd integracji danych pochodzących z różnych źródeł. 3. Big Data: szybki dostęp do danych z dowolnie długiego okresu czasu i dla dowolnie dużej grupy klientów. 4. Zaawansowane techniki analizy tekstu. 5. Analiza danych grafowych. 6. A wszystko to, żeby zmienid Big w Small 37

Big Data To nie jest coś co się dopiero może wydarzy. Dla wielu firm, to codziennośd od wielu lat. Dla innych firm, to bardzo pociągająca przyszłośd. Coś co musi się wydarzyd. Tam, gdzie pojawia się Big Data, zmieniają warunki gry. 38

Dziękuję za uwagę. 39