Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków 14 listopada 2018 r 8:45-12:45 Warszawa https://alterdata.evenea.pl "Dzisiaj praca analityka składa się w 15% z analizowania. Cała reszta czynności wiąże się z dostępem do danych, ich przygotowaniem, czyszczeniem, przetwarzaniem, kod rabatowy dla uczestników Big Data Day czy wizualizacją. Dobranie właściwych narzędzi może zmienić te proporcje z 15% nawet na 50%" - Marcin Kolenda BigDataDay2018 `
strategia biznesowa i cyfrowa transformacja w oparciu o dane zaawansowana analityka i machine learning projektowanie, tworzenie i wdrażanie rozwiązań do analityki danych
O mnie i o tym dlaczego zajmują mnie duże dane Początki 2002 - sql server visual basic ado technology warehouse data (nie DWH) Doświadczenie 2006 Era (T-mobile), Oracle + SAS największa w tym czasie hurtownia danych w Polsce analizy behawioralne klientów telekomu optymalizacja pricing-u konsulting data rozwiązania do w obszarze engineering przetwarzania danych & science i analizy danych Big Data startupy BigData 2012 Vertica Google Big Query współzałozyciel Alterdata.io Kontakt: Marcin.Kolenda@alterdata.io M: +48 601 135 066 szkolenia www.alterdata.io
Jak radzić sobie z dużymi set-ami danych? punkt widzenia analityka
Co robi analityk? pozyskuje dane, opanowuje i łączy źródła najróżniejszych typów i formatów przygotowuje, czyści, przegląda i transformuje dane, aby były gotowe do analizy tworzy i przechowuje zbiory danych do analizy eksploruje dane, analizuje, poszukuje wniosków avg 15%-20% czasu * Forbes Gil Press wizualizuje wnioski, prezentuje wyniki, tworzy i publikuje raporty, dashboardy
Dylematy i trudne wybory? narzędzia komercyjne Open Source? chmura OPS własna infrastruktura no OPS
Dylematy i trudne wybory? narzędzia komercyjne Open Source? chmura OPS własna infrastruktura no OPS
Odczarujmy python & R ops open source cloud & not cloud Percepcja 1. 2. 3. Podstawowe narzędzie a. analizy danych b. budowy modeli machine learning mnogość dostępnych a. szkoleń & kursów b. dostępnych bibliotek (analityka, machine learning) intelektualnie niska bariera wejścia (python) Rzeczywistość 1. 2. 3. 4. wygoda pracy na małych subsetach danych (interaktywność, czytelność, prostota) współpraca (integracja) z bardzo szerokim zakresem narzędzi: m.in. chmurowych, open source (hadoop, spark, hive, beam), etc. nośnik procesu i/lub algorytmu ideał do oskryptowania i automatyzacja innych narzędzi Konsekwencje 1. 2. nie przeniesiemy tak po prostu na duże środowisko produkcyjne 500GB czy 500 TB Musimy zintegrować się z innymi narzędziami (wiedza & czas) `
Dylematy i trudne wybory? narzędzia komercyjne Open Source? chmura OPS własna infrastruktura no OPS
no ops pay as you go cloud only Google Cloud 1. 2. 3. 4. API Skalowalność Rozdzielenie przechowania od obliczania web UI Cloud Console command line (bash) Cloud SDK python Cloud SDK inne języki Cloud SDK & API no ops bariera wejścia brak hardware ops mniej data engineering wiedza (sql only) opex zamiast capex `
no ops pay as you go cloud only Co robi analityk? pozyskuje dane, opanowuje i łączy źródła najróżniejszych typów i formatów Google Big Query storage (import) przygotowuje, czyści, przegląda i transformuje dane, aby były gotowe do analizy Google Big Query analysis (SQL) tworzy i przechowuje zbiory danych do analizy Cloud Dataprep (preparation) eksploruje dane, analizuje, poszukuje wniosków Cloud Storage Google Big Query (buckets) storage (tables) wizualizuje wnioski, prezentuje wyniki, tworzy i publikuje raporty, dashboardy Google Big Query Google DataStudio analysis (SQL) Looker other BI tools
Dylematy i trudne wybory? narzędzia komercyjne Open Source? chmura OPS własna infrastruktura no OPS
Vertica - analityczna baza danych do big data half ops commercial & community cloud & not cloud MPP Baza kolumnowa kompresja i kodowanie Szybkość 5-1000 x szybsza odpowiedź na zapytania do bazy Skalowalność ExaBajt* zwerfikowana skalowalność * 1PB = 1 000 000 000 GB `
Vertica - analityczna baza danych do big data User-Defined Functions R Java Geospatial Messaging Time series SQL Python Real-Time Event Series User Defined Loads ETL C++ BI & Visualization Text Analytics Pattern Matching Machine Learning Regression ODBC, JDBC, OLEDB Data Transformation half ops commercial & community cloud & not cloud User Defined Storage Security External tables to analyze in place `
Co robi analityk? pozyskuje dane, opanowuje i łączy źródła najróżniejszych typów i formatów przygotowuje, czyści, przegląda i transformuje dane, aby były gotowe do analizy Kafka flex tables CSV parsers SQL ANSI 99, 92 SQL extension tworzy i przechowuje zbiory danych do analizy export CSV pełna integracja Hadoop (Parquet, ORC) wydajna kompresja half ops commercial & community cloud & not cloud eksploruje dane, analizuje, poszukuje wniosków wizualizuje wnioski, prezentuje wyniki, tworzy i publikuje raporty, dashboardy SQL ANSI 99, 92 SQL extension embedded Machine Learning ODBC, JDBC integracja Tableau, PowerBI, Looker i wiele innych
Dylematy i trudne wybory? narzędzia komercyjne 300$ na start 1 TB / mc za darmo Open Source OPS chmura własna infrastruktura no OPS 1 TB za darmo Community License
Skontaktuj się z nami i znajdź wartość w swoich danych