BIG DATA DEFINICJE, WYZWANIA I TECHNOLOGIE INFORMATYCZNE
|
|
- Wacława Janik
- 10 lat temu
- Przeglądów:
Transkrypt
1 INFORMATYKA EKONOMICZNA BUSINESS INFORMATICS 1(31) 2014 ISSN Marta Tabakow, Jerzy Korczak, Bogdan Franczyk Uniwersytet Ekonomiczny we Wrocławiu BIG DATA DEFINICJE, WYZWANIA I TECHNOLOGIE INFORMATYCZNE Streszczenie: Big Data jako kompleks zagadnień informatycznych stanowi jedno z najważniejszych wyzwań współczesnego świata cyfrowego. W obecnych czasach, przy ciągłym napływie dużej ilości informacji pochodzących z różnych źródeł, a zatem o różnej charakterystyce, wymaga się wprowadzenia nowych technik analizy danych oraz rozwiązań technologicznych. W szczególności Big Data wymaga stosowania równoległego przetwarzania danych oraz odejścia od klasycznego schematu przechowywania danych. Zatem w niniejszej pracy dokonano przeglądu podstawowych zagadnień związanych z tematyką Big Data. Przedstawiono różne definicje Big Data, problemy badawcze i technologiczne oraz wyzwania dotyczące wolumenu danych, ich zróżnicowania, redukcji wymiaru, jakości danych i możliwości wnioskowania. Wskazano także dalszy kierunek prac w zakresie rozpoznania możliwości Big Data w różnych obszarach zarządzania. Słowa kluczowe: Big Data, definicja Big Data, wyzwania Big Data, Hadoop, NoSql, Map Reduce, przetwarzanie równoległe. DOI: /ie Wstęp Codziennie ma miejsce masowy napływ dużej ilości danych cyfrowych, pochodzących z różnych źródeł informacyjnych, takich jak: czujniki, dokumenty, fora internetowe. W ciągu ostatnich dwóch lat mamy do czynienia z takim przyrostem danych w postaci cyfrowej, że w tym czasie ich liczba osiągnęła 90% wszystkich zgromadzonych danych. Według IBM codziennie jest generowane 2,5 tryliona bajtów danych [ w tym przeważa zdecydowanie ilość danych semistrukturalnych (np. pliki typu XML wraz z odpowiednimi plikami XMLSchema), prawie strukturalnych (np. strumienie web clicks),niestrukturalnych (np. pliki tekstowe, PDFs, images videos). Obecnie olbrzymia ilość powstających informacji jest zjawiskiem globalnym, które dotyczy wszystkich podmiotów uczestniczących w różnych rynkach. Wzrost ilości danych cyfrowych na świecie spowodował, iż konwencjonalne techniki ich przetwarzania i przechowywania stały się nieadekwatne do
2 Big Data definicje, wyzwania i technologie informatyczne 139 obecnych potrzeb. W związku z tym pojawił się trend zarządzania zasobami typu Big Data [Buhl i in. 2013, Zikopoulos i in. 2012], co stanowi wyzwanie nowoczesnego świata cyfrowego. Big Data jest przedmiotem dyskusji w badaniach naukowych oraz ma liczne zastosowania w praktyce. Termin Big Data jest trudny do zdefiniowania. W ogólnym znaczeniu dotyczy technologii gromadzenia i analizy danych o dużej objętości i złożoności. Dane pochodzą zarówno z tradycyjnych baz danych, np. funkcjonujących w przedsiębiorstwach, które zawierają tzw. dane wewnętrzne, jak i z innych źródeł (dokumentów, i, blogów, mediów społecznościowych, różnego typu czujników elektronicznych, urządzeń lokalizacyjnych, np. GPS). Dane mają zarówno strukturę określoną, jak i nieokreśloną, co utrudnia ich dystrybucję i przetwarzanie za pomocą dostępnej infrastruktury informatycznej (architektury i narządzi analitycznych) oraz metod obliczeniowych. Ta złożoność i różnorodność danych stwarza nowe wyzwanie dla analityków danych. Wyszukując publikacje naukowe na przełomie listopada i grudnia 2013 r. według słowa kluczowego big data w bazie danych światowych wydawnictw naukowych Elsevier [ i Springer Journals [link.springer.com], wyświetla się 395 wyników, natomiast w bazie danych IEEE [ 661 wyników. Wyniki te reprezentują wszystkie dziedziny, co wskazuje na duże zainteresowanie ze strony naukowców i dużą interdyscyplinarność tematu. W tym okresie obserwuje się również liczne konferencje naukowe i biznesowe na temat Big Data oraz zainteresowanie tym tematem komercyjnych czasopism IT, takich jak: New York Times, Forbes, IBMSystems Magazine, które oferują specjalne wydania na ten temat. Duże koncerny, takie jak: IBM, HP, Teradata, Oracle, SAP, EMC, Amazon, Microsoft, Google, VMware, Cloudera, Hortonworks, Splunk, 10Gen, MapR, dostrzegają przyszłość w zbieraniu informacji i przetwarzaniu ich w taki sposób, aby ujawnić nową wiedzę o rynku, w którym funkcjonują, zobaczyć różne zależności i wzorce zachowań w społeczeństwie i środowisku [Korolov 2013]. Koncerny inwestują w gromadzenie danych, architekturę, platformy programistyczne, produkty i usługi, aplikacje analityczne itd. Prawidłowa interpretacja danych odgrywa kluczową rolę w przedsiębiorstwach, a także znaczącą rolę w gospodarce krajowej, światowej i również społecznej. W przypadku zarządzania większa dostępność danych to dokładniejsza analiza i lepsze decyzje prowadzące do większej wydajności operacyjnej, obniżenia kosztów i zmniejszenia ryzyka [ Dużą ilość informacji zawdzięcza się rozwojowi Internetu, coraz szerszej jego dostępności zarówno dla firm, jak i osób indywidualnych oraz rozwojowi nowoczesnych technologii i urządzeń do przekazu i przesyłu danych, takich jak telefony komórkowe, smartfony, tablety, GPS, czujniki mierzące i podające lokalizację, ruch, drgania, temperaturę, wilgotność, zawartość chemiczną w powietrzu (w szerokiej gamie urządzeń). To generacja innych, nowych danych nowych w sensie dzisiejszego, łatwego dostępu do nich. Celem niniejszej pracy jest przegląd literatury oraz przedstawienie propozycji definicji i atrybutów pojęcia Big Data. Opisane zostaną główne problemy badaw-
3 140 Marta Tabakow, Jerzy Korczak, Bogdan Franczyk cze związane z gromadzeniem, przechowywaniem, wyszukiwaniem, udostępnianiem, przesyłaniem, analizą i wizualizacją tego typu danych, a także wyzwania związane z dostosowaniem technologii informatycznych do zarządzania zasobami Big Data, szczególnie w zakresie stosowania systemów rozproszonych do przetwarzania i przechowywania danych, takich jak narzędzia Hadoop i modele NoSql. Analizę literatury przeprowadzono etapowo. Początkowo objęto badaniem publikacje naukowe z lat od 2009 do 2013, stanowiące 80% cytowanej literatury. Jednak podczas studiowania literatury dotyczącej Big Data należało sięgnąć do kilku publikacji z wcześniejszych lat: , gdzie również poruszano tematykę dużego przyrostu informacji i wyzwań z tym związanych. Autorzy do wyszukiwania literatury wybrali bazy danych: EBCSO Publishing, Springer, IEEE Xplore, Science Direct i Scopus. Zawężono przeszukiwania do publikacji pełnotekstowych w recenzowanych czasopismach naukowych, wydanych w latach Ze względu na dużą interdyscyplinarność tematu wyszukiwano publikacje z różnych kategorii czasopism, takich jak: business, management, computer science, decision sciences, engineering and technology, social science. Wstępnie zastosowano słowo kluczowe big data, następnie stosowano pary słów ze słowem big data i kolejnymi: definition, challenges, opportunities, technologies, architecture, new technologies, management, map reduce. Zastosowano procedurę iteracyjną przeszukiwania baz danych aż do wyodrębnienia oczekiwanych, ze względu na niniejszy przegląd, publikacji. W kolejnym etapie wyeliminowano opracowania spoza zakresu przeglądu. W tak powstałej bazie publikacji dokonano analizy abstraktów ze względu na istotne zagadnienia, a następnie pełnych tekstów publikacji naukowych. Dodatkowo przeanalizowano kilka najnowszych raportów kluczowych firm IT oraz opracowania międzynarodowych organizacji i firm konsultingowych. Niniejsza praca została zorganizowana w następujący sposób. W kolejnym rozdziale zaprezentowana została definicja i charakterystyka najważniejszych atrybutów związanych z Big Data. Następnie przedstawiono składowe i wyzwania dotyczące architektury dedykowanej Big Data. 2. Big Data ogólna charakterystyka W związku z narastającym gwałtownie zainteresowaniem Big Data wielu naukowców i firm z branży IT podjęło próby rozpoznania i opisania tego terminu. Charakterystyka i definicje przez lata ewoluowały. Interpretując Big Data, należy się odnieść do nowych rozwiązań technologicznych dotyczących przetwarzania wielkich wolumenów danych o całkowicie innym charakterze (ilościowym i jakościowym) niż dotychczas [McKinsey 2011]. W artykule zaprezentowane zostały wybrane definicje oraz propozycja definicji wraz atrybutami, które charakteryzują Big Data. Przedstawiono wyzwania badawcze i technologiczne, m.in. istotność informacji, objętość danych, integracja danych, wnioskowanie.
4 Big Data definicje, wyzwania i technologie informatyczne Przegląd definicji Poniżej przedstawiono kilka popularnych definicji Big Data. Jedna z pierwszych definicji Big Data została wprowadzona przez M. Cox i D. Ellsworth [Cox, Ellsworth 1997]. Autorzy traktują Big Data jako duże dane do analizowania, których liczbę należy maksymalizować w celu wydobycia wartości informacyjnych. Inną propozycję definicji wysunął analityk pracujący dla Gartner w 2001 r., ówcześnie META Group (firmy analityczno-doradczej specjalizującej się w technologiach informacyjnych). Oparł ją na koncepcji trzech atrybutów w modelu 3V. Big Data charakteryzują atrybuty: objętość (volume), różnorodność (variety), szybkość przetwarzania (velocity) [Doug 2001]. Następnie w roku 2012 firma Gartner [ wprowadziła dodatkowe dwa wymiary odnoszące się do dużych danych: zmienność (variability) i złożoność (complexity). Big Data to duża liczba danych, która wymaga zastosowania nowych technologii i architektur, tak by była możliwa ekstrakcja wartości płynącej z tych danych poprzez uchwycenie i analizę procesu, to sentencja, jaką przedstawiają autorzy publikacji [Katal i in. 2013]. Kolejną definicję Big Data prezentują Fan i Bifet [2012], opisując w niej Big Data jako termin oznaczający zbiory danych, którymi nie można zarządzać za pomocą obecnych metod eksploracji lub narzędzi programowych ze względu na duży rozmiar i złożoność danych. IBM w 2013 r. definiuje Big Data jako różnorodne dane generowane z różnych źródeł, z dużą prędkością oraz w dużej ilości. IBM charakteryzuje Big Data za pomocą czterech atrybutów: objętość (volume), szybkość przetwarzania (velocity), różnorodność (variety) oraz wiarygodność (veracity) [ SAS [ definiuje Big Data jako tendencje do poszukiwania i wykorzystania wartości biznesowej drzemiącej w dostępnych, coraz większych wolumenach danych, które charakteryzują się dużą zmiennością i złożonością. SAS opisując Big Data, zwraca uwagę na dodatkowe dwa atrybuty: zmienność (variability) oraz złożoność (complexity). Na podstawie analizy definicji pojęcia Big Data można zauważyć, iż pojedynczo nie odzwierciedlają one w pełni tej problematyki. Nie można też wskazać na konkretną ilość bajtów, od których można mówić o dużych ilościach danych, gdyż tempo ich przyrostu jest zbyt wielkie [Cisco 2012]. W związku z tym poniżej przedstawiona została propozycja definicji Big Data. Big Data to określenie stosowane dla takich zbiorów danych, które jednocześnie charakteryzują się dużą objętością, różnorodnością, strumieniowym napływem w czasie rzeczywistym, zmiennością, złożonością, jak również wymagają zastosowania innowacyjnych technologii, narzędzi i metod informatycznych w celu wydobycia z nich nowej i użytecznej wiedzy.
5 142 Marta Tabakow, Jerzy Korczak, Bogdan Franczyk 2.2. Cechy charakterystyczne Big Data Termin Big Data jest charakteryzowany przede wszystkim kilkoma kluczowymi atrybutami, takimi jak: objętość (volume), różnorodność (variety), złożoność (complexity), strumień (velocity), zmienność (variability) i wartość (value). Big Data należy rozumieć jako techniki łączące rozwiązania z poniższych obszarów charakteryzujących dane. Poniżej przedstawiono definicje cech Big Data. Objętość charakteryzuje się znaczącą dynamiką przyrostu danych, dla których wymagane są nowe technologie bazodanowe. Badania wskazują, że liczba danych do 2020 r. wzrośnie o 40% zeta bajtów, co oznacza 50-krotny wzrost od początku 2010 r. Szybkość dane napływające szybko, strumieniowo, które w związku z procesami biznesowymi wymagają dodatkowej mocy obliczeniowej do ich analizy w czasie rzeczywistym. Dane, które w związku z ograniczoną przepustowością sieci należy pobierać porcjami i wybierać tylko te, które mają istotną wartość informacyjną czy biznesową z punktu widzenia danej organizacji. Różnorodność dane pochodzą z wielu źródeł i często występują w różnych formatach i są zapisywane za pomocą różnych modeli oraz wyrażane w dowolnej formie, np.: liczbowo, tekstowo, obrazowo, dźwiękowo, oraz generowane w różny sposób. Przykładem źródeł i różnego sposobu generowania danych są: dane tzw. wewnętrzne organizacji, przechowywane w bazach danych, np. transakcyjne, księgowe, kadrowe; dane ze źródeł zewnętrznych: internetowe, tworzone przez użytkowników Internetu; można tutaj wymienić: tweety, blogi, fora internetowe, sieci społecznościowe; dane z wszelkich transakcji [Chang i in. 2006]; ich źródłem mogą być sklepy, usługodawcy, instytucje finansowe; dane mające swoje źródło w placówkach służby zdrowia; dane z głębokiego Internetu (Deep Web data), które nie są indeksowane przez standardowe wyszukiwarki [He i in. 2007, Wei i in. 2010]; można wśród nich wyróżnić pochodzące z dynamicznych stron internetowych, odłączone treści na stronach internetowych, niezwiązane z innymi stronami, prywatne strony WWW, do których dostęp jest możliwy po zalogowaniu, lub strony o ograniczonym dostępie, gdzie aby przejrzeć ich zawartość, należy uprzednio wpisać sekwencję znaków; dane z wykresów, tworzone przez dużą liczbę węzłów informacyjnych i powiązań między nimi [Aggarwal, Wang 2010]. Zmienność dane, których natężenie jest zmienne w czasie, a przepływy danych podlegają okresowym cyklom i trendom, a także szczytom, co związane jest również z dynamiką procesów i zmian gospodarczych czy politycznych. Przykładem może być sprzedaż produktów i usług w okresie Bożego Narodzenia, wzmożona aktywność w mediach społecznościowych towarzysząca wyborom parlamentarnym, nagłe ruchy na giełdzie czy okresowa rotacja portfeli inwestycyjnych.
6 Big Data definicje, wyzwania i technologie informatyczne 143 Złożoność złożoność danych jest ściśle związana z różnorodnością. Charakteryzuje się różnym uporządkowaniem danych. Są to m.in. dane o określonej strukturze, mające określony typ i format, dane o mieszanej strukturze, częściowo uporządkowane (semi-struktured, quazi structured), posiadające pewne właściwości organizacyjne, oraz dane niemające naturalnej struktury (unstructured), które należy zintegrować w celu odkrycia nieznanych relacji, powiązań i hierarchii. Do danych strukturalnych należą: numery telefonów, pesel, numer karty kredytowej zawsze zawierają one zdefiniowaną liczbę pól. Dane o mieszanej strukturze to np. pliki XML, , Elektroniczna Wymiana Danych (Electronic Data Interchange, EDI). Natomiast dane niestrukturalne to: dokumenty, pliki wideo i zdjęcia. Ekstrakcja informacji z tych surowych treści oraz odpowiednio dobrane do nich metody są niezbędne do dalszego przetwarzania informacji przez algorytmy analizy [Chang i in. 2006; Labrinidis, Jagadish 2012]. Wartość unikatowa wartość informacyjna ukryta w dużych i złożonych strukturach danych, dająca możliwość wyciągania nowych wniosków, które następnie przyczyniają się do wzrostu efektywności działania organizacji na różnych płaszczyznach. Można wskazać niektóre elementy działalności przedsiębiorstwa, na które ma wpływ wykorzystanie wartości, jakie niesie Big Data: efektywniejszy wewnętrzny model biznesowy, model doboru kadr, spersonalizowana oferta dla klientów, strategia marketingowa i konkurencyjna. Dodatkowo można zauważyć kolejną zaletę związaną ze stosowaniem Big Data w organizacji: dzięki Big Data można odpowiedzieć niemal natychmiast na stawiane pytania czy zdefiniowane problemy biznesowe. Wartość jest istotnym atrybutem Big Data. Może być rozumiana jako unikalna wiedza z naukowego punktu widzenia, jak i wartość informacyjna będąca korzyścią biznesową, mającą wpływ na obniżenie kosztów działalności organizacji czy na poprawę relacji biznesowych i zysków. Inwestycje w Big Data, właściwie skierowane, mogą przyczynić się do osiągnięć naukowych i biznesowych na wielu płaszczyznach. Współczesne podmioty muszą sprostać tym wyzwaniom, aby mogły stanowić konkurencję na rynku zarówno krajowym, jak i międzynarodowym. Big Data to nowe wyzwanie i możliwości informacyjne [Jinchuan i in. 2013]. Prawidłowa interpretacja danych może odegrać kluczową rolę w gospodarce światowej i lokalnej, polityce społecznej oraz w przedsiębiorstwach. W zarządzaniu większa dostępność danych to dokładniejsza analiza i lepsze decyzje prowadzące do większej wydajności operacyjnej, obniżenia kosztów i zmniejszenia ryzyka [ Z raportu Big Data, Big Impact, opublikowanego w 2012 r. przez The World Economic Forum, wynika że dane stanowią nową klasę ekonomicznych aktywów. Jednak, aby w pełni wykorzystać możliwości Big Data, należy traktować zagadnienie kompleksowo i opracowywać koncepcję architektoniczną, czyli szkielet działania systemu informatycznego, od podstaw dla konkretnej branży czy zastosowania.
7 144 Marta Tabakow, Jerzy Korczak, Bogdan Franczyk Analizując obszary wykorzystania możliwości Big Data, trudno wymienić wszystkie. Niewątpliwie są to: usługi finansowe, edukacja, zdrowie, rolnictwo, bezpieczeństwo, inteligentne zarządzanie, planowanie miejskie, logistyka w transporcie, modelowanie środowiska, oszczędzanie energii, wody. Niektóre przykłady zastosowań można znaleźć w [Labrinidis, Jagadish 2012]. Definicja Big Data w dalszym ciągu ewoluuje w wyniku powstawania nowych źródeł informacji, rozszerzania się zakresu zastosowań i rozwoju technologii informacyjno-komunikacyjnych Systematyka Big Data Można wstępnie dokonać próby syntezy prac naukowych i raportów branży IT w obszarze tematycznym Big Data. Główną grupę stanowią publikacje ogólne, przedstawiające charakterystykę i definicję Big Data, często przekrojowo wskazujące wyzwania i możliwości, jakie się w związku z tym pojawiają, zarówno dla biznesu, jak i dla nauki, w różnych branżach. Kolejne publikacje związane są z technologiami przetwarzania i przechowywania danych [Boja i in. 2012]. Można w tym obszarze wyróżnić taką technologię, jak Cloud Computing stanowiącą możliwość korzystania z zasobów informatycznych poza siedzibą przedsiębiorstwa. Następnie zestaw narzędzi Hadoop, stanowiący uzupełnienie istniejącej infrastruktury informatycznej o możliwość analizy w czasie rzeczywistym dużych zbiorów danych [Zikopoulos i in. 2012] oraz platforma Map Reduce, związana z rozproszonym systemem plików [Sakr i in. 2013]. Kolejna grupa publikacji dotyczy badań związanych ze wstępnym przetwarzaniem danych i sposobem ich analizowania, śledzenia, poszukiwania wzorców w czasie rzeczywistym oraz przetwarzania zdarzeń, łączących dane z różnych źródeł [Sakr i in. 2013]. Można tu wyróżnić metodę złożonego przetwarzania zdarzeń (Complex Event Procesing, CEP) [Mozafari i in. 2013] oraz prace opisujące narzędzia i metody do przetwarzania danych. Szczególną grupą publikacji są opracowania dotyczące przetwarzania danych pozyskanych z różnych źródeł, występujących w różnych formatach [Bostock i in. 2013]. Szczególną uwagę zwraca się na metody Web Miningowe [Chang i in. 2006], służące do odkrywania wzorców w sieci, i metody analizy dokumentów o złożonej strukturze [Bostock i in. 2013] Wyzwania technologiczne dla Big Data Wyzwania badawcze wynikają z charakterystyki Big Data. Związane są z ilością danych, z ich złożonością, różnorodnością oraz liczbą źródeł informacji [Jinchuan i in. 2013]. Wyzwania badawcze można podzielić na technologiczne i związane z samymi danymi. Wyzwania technologiczne to przede wszystkim opracowanie innowacyjnej architektury, przy czym architekturę rozumie się jako szkielet dla całego procesu związanego z wykorzystywaniem danych, począwszy od wyznaczenia źródeł danych, które są interesujące z punktu widzenia biznesowego, poprzez ich
8 Big Data definicje, wyzwania i technologie informatyczne 145 pobieranie, gromadzenie, wstępne przetwarzanie, rozdzielanie, analizę, modelowanie do wnioskowania. Obecnie Big Data to nowe dane z różnych źródeł. Potrzebna jest zatem identyfikacja istotnych źródeł danych. Nasuwają się więc pytania: Z jakich źródeł czerpać dane? Jakie źródła będą istotne dla realizacji celów biznesowych? Jak identyfikować te źródła? Czy można je identyfikować automatycznie i czy te narzędzia będą personalizowane? Narzędzia takie powinny być częścią architektury przeznaczonej do zarządzania Big Data. Identyfikacja istotnych źródeł danych prowokuje kolejne pytania i wyzwania, które zostaną poruszone w dalszej części rozdziału. Identyfikacja istotnych informacji to ważny aspekt zarządzania danymi Big Data. Istnieje konieczność określenia filtrów danych, by z jednej strony nie pobierać nadmiernych, niepotrzebnych danych i nie generować zbędnych kosztów, a z drugiej strony, by nie pominąć tych istotnych. Ponadto wielkim wyzwaniem jest automatyczne generowanie metadanych, opisujących dane. Duże ilości danych napływające z nowoczesnych urządzeń, czujników, aplikacji internetowych, z powodu swojego wolumenu, przerosły możliwości dzisiejszych baz danych (Data Base Management Systems, DBMS). Również trudne stało się przetwarzanie zestawów danych w sposób tradycyjny i prezentacja wyników np. za pomocą wykresu. Wobec powyższego wydłużył się czas oczekiwania na wyniki, natomiast systemy transakcyjne wymagają krótkiego czasu reakcji, niezależnie od wielkości zbioru danych. W rzeczywistości oczekiwane jest przetwarzanie informacji na bieżąco w czasie rzeczywistym. Strumieniowy napływ danych to wyzwanie związane z koniecznością obsługi nowych danych i ich aktualizacji. Prędkość i ilość danych w obecnych strumieniach danych wymaga od nowoczesnych systemów niezwłocznej (bieżącej) ich obsługi. Szybkość napływu danych to przede wszystkim wyzwania dla platformy zarządzania stosem danych. Związane to jest zarówno z warstwą przechowywania, jak i przetwarzania zapytań. Obie muszą być bardzo szybkie i skalowalne. Technologie te są przez ostatnie lata nieustająco rozwijane, jednakże w dalszym ciągu ograniczone. Obecnie dane zwykle pochodzą z różnych źródeł. Różnorodność jest charakterystyczną cechą dużych danych ze względu na szeroki zakres źródeł. W związku z tym dane pojawiają się w różnych formatach i modelach. Zachodzi potrzeba wdrożeń nowych technologii i nowych narzędzi do integracji tych danych, tak by znaleźć powiązania i zależności między pozornie różnymi obszarami, w których znajdują się dane. Przykładem może być np. powiązanie pogody z decyzją inwestorów na giełdzie. W ramach różnorodności można mówić również o strukturze danych, a raczej o nieuporządkowaniu danych, co stanowi odrębne wyzwanie. Istnieją technologie do radzenia sobie z różnymi typami danych, jednak w dalszym ciągu ich bezproblemowa integracja pozostaje wyzwaniem.
9 146 Marta Tabakow, Jerzy Korczak, Bogdan Franczyk 2.5. Wyzwania związane z danymi Razem z ogólnymi wyzwaniami dotyczącymi Big Data identyfikowane są wyzwania związane z danymi, ich źródłami, ilością, wielowymiarowością, jakością, informacją, jaką można z nich uzyskać, oraz wartością biznesową dającą się przełożyć na konkretny cel organizacji. Dane klasy Big Data pochodzą z różnych źródeł, zawierają różnego rodzaju dane i występują w różnych formatach. W części dane te są nieistotne z punktu widzenia celu biznesowego organizacji oraz zawierają błędne lub nieprawdziwe informacje. Poważnym wyzwaniem jest zatem ocena ich jakości. Przykładem są treści z sieci społecznościowych, gdzie nie wiadomo, czy użytkownicy wpisują w nich prawdę i czy nie tworzą w nich tzw. drugiego życia, kreując na portalach nowy, inny obraz swojej osoby. Banki i inni przedsiębiorcy, opierając się na fałszywych danych, są w związku z tym narażeni na podejmowanie błędnych decyzji, co w konsekwencji naraża ich na dodatkowe koszty lub straty, związane np. ze źle przygotowaną kampanią marketingową czy udzieleniem kredytu osobie niezdolnej do jego spłaty. Szczególnym problemem zarządzania danymi Big Data jest redukcja wymiarowości danych w kontekście ich analizy i wizualizacji wizualna redukcja danych (Visual Data Reduction) [Keim i in. 2010]. Jest to jedno z bardziej wymagających wyzwań analizy danych, gdyż rekordy danych są wielowymiarowe, często wielomiliardowe. Wizualizacja tak dużych zestawów danych jest często niemożliwa i z reguły nieczytelna dla użytkownika. Ponadto systemy komputerowe oraz technologie ograniczają zdolność do szybkiego działania przy tworzeniu wizualizacji. W związku z tym koncerny i naukowcy na świecie pracują nad udoskonaleniem zarówno algorytmów redukcji wymiarowości danych, jak i innowacyjnymi podejściami do hierarchicznego zarządzania danymi i skalowalnością ich struktur w celu ich wizualizacji w 2D lub 3D, tak by ich graficzna interpretacja była możliwa. Dodatkowo, oprócz technicznych i obliczeniowych problemów, wskazać można inne aspekty badawcze, takie jak: Kiedy należy wykorzystywać techniki wizualizacji? Która metoda wizualizacji jest odpowiednia dla danego zbioru danych? W jakim zakresie i jak dokonywać oceny jakości zredukowanego zbioru danych? Aby w pełni skorzystać z potencjału Big Data, organizacja staje przed wyzwaniem, jakim jest ponowna weryfikacja celów biznesowych i ustalenie celów analizy. W zależności od rodzaju prowadzonej działalności cele mogą się różnić. Mając określone cele biznesowe, wyznacza się zakres źródeł oraz rodzaje danych, które są niezbędne w procesie analitycznym. Celami biznesowymi mogą być m.in.: obniżenie kosztów działalności, wzrost zysków, nowi konsumenci, nowe rynki zbytu, nawet wizerunek. Jak zrozumieć dużą ilość danych? Jak przełożyć dane na informacje? Które są ważne? Jak wyciągać wnioski? Poważnym problemem w dobie Big Data staje się odpowiedź na powyższe pytania. Do zrozumienia danych oraz wyciągnięcia z nich od-
10 Big Data definicje, wyzwania i technologie informatyczne 147 powiednich wniosków potrzebne są zarówno nowe narzędzia do analizy danych, jak i wysokie umiejętności analityczne osób zajmujących się przetwarzaniem informacji. Zrozumienie danych stało się przedmiotem badań i inwestycji wśród organizacji. Ponadto reakcji na napływ informacji oczekuje się w czasie rzeczywistym. Pojawiły się całe gałęzie przemysłu zajmujące się gromadzeniem danych i ich zrozumieniem [ Kadra zarządzająca w sektorze MŚP widzi konieczność do zbadania potencjału Big Data. Badania dowodzą, że narzędzia powinny zostać zmodyfikowane, a metody opracowane lub odświeżone jako przeznaczone nowemu typowi danych [Leishi i in. 2012; Keim i in. 2010; Thomas, Cook 2006], aby w pełni skorzystać z potencjalnej wartości wynikającej z Big Data. 3. Architektury informatyczne dedykowane Big Data Jak już wspomniano, charakterystyka Big Data wiąże się z wielkością zbiorów danych, szybkością napływu nowych i dużą ich różnorodnością. W związku z tym dane są trudne do analizowania i wnioskowania. Pojawiają się więc nowe wyzwania dla firm związane z infrastrukturą IT. Zazwyczaj dla organizacji wiąże się to z dodatkowymi nakładami inwestycyjnymi na zakup dodatkowego sprzętu, np. serwerów, pamięci masowej oraz oprogramowania. Proponowanymi odpowiedziami na wyzwania są m.in. możliwości zestawu oprogramowania Apache Hadoop [ projekt Stratoshpere [ oraz model Cloud Computing [Jadeja, Modi 2012] Cloud Computing Cloud Computing to pojęcie używane do określenia skalowalnej platformy zawierającej sprzęt IT wraz z oprogramowaniem, która dostępna jest u zewnętrznego operatora jako usługa dostarczana za pośrednictwem Internetu. Cloud Computing oznacza również system rozproszenia, zdolność uruchamiania programu lub aplikacji na wielu połączonych komputerach w tym samym czasie lub dynamiczną obsługę danego żądania, polegającą na przydzieleniu zadania do jednego z dostępnych serwerów. Cloud Computing jest wsparciem dla rozwoju firm oraz wygodnym rozwiązaniem. Umożliwia działanie zasobów informatycznych firmy w tzw. chmurze, gdzie użytkownik, a w tym przypadku firma, nie musi posiadać w swoich zasobach urządzeń (np. serwerów) ani oprogramowania, natomiast wszystko podnajmuje od innych firm. Ma to szczególne zastosowanie dla firm z sektora MŚP, gdzie ma duże znaczenie ograniczenie kosztów. Istnieje zbieżność Cloud Computing i Big Data, ponieważ model Cloud Computing zapewnia nieograniczone zasoby na żądanie, co odpowiada na wyzwanie wzrastającej objętości danych. Technologia Cloud Computing umożliwia rozwój firmom, które chcą wprowadzić rozwią-
11 148 Marta Tabakow, Jerzy Korczak, Bogdan Franczyk zania biznesowe w oparciu o Big Data oraz zbierać i analizować dane niestrukturalne (zob. punkt 2.1), stanowiące obecnie 80% wszystkich danych na świecie. Cloud Computing jest rozwiązaniem do przetwarzania, przechowywania, dystrybucji i przenoszenia danych Big Data z chmury do chmury, gdzie pod pojęciem chmury można rozumieć rozproszoną przestrzeń dyskową i zestaw serwerów (ciągle powiększających się) oferujących usługi informatyczne dowolnego typu. Analiza możliwości związanych z zastosowaniem Cloud Computing, w przypadku zarządzania danymi Big Data, pozwala zauważyć jego znaczącą rolę zarówno w dużych, jak i małych przedsiębiorstwach oraz w różnych branżach. Cloud Computing stwarza możliwości przechowywania i analiz dużej ilości danych, również doraźnie, na żądanie. W związku z rosnącym zapotrzebowaniem na rozwiązania Cloud Computing dostawcy dostarczający tego typu usługi szukają rozwiązań dla ulepszenia architektury działania chmury, zwiększenia pojemności pamięci, wydajności, szybkości przetwarzania informacji oraz elastyczności usług informatycznych Architektury dla zasobów W ramach umożliwienia analizy dużej ilości danych oraz agregacji uzyskanych wyników, współczesne architektury przeznaczone Big Data tworzone są jako architektury wielowątkowe, równoległego przetwarzania [Shvachko i in. 2010, Changqing i in. 2012]. Ogólna koncepcja obowiązująca w zaproponowanych modelach przetwarzania informacji związana jest z klasycznym algorytmicznym podejściem typu dziel i zwyciężaj, w których wejściowy problem (o wysokiej złożoności) dzielony jest na podproblemy o wyraźnie zredukowanej złożoności. Pod hasłem architektura rozumie się połączenie sprzętu i odpowiedniego oprogramowania, które wspierają (umożliwiają) przetwarzanie danych Big Data. Oczywiście, należy zauważyć szereg kwestii, które należy rozwiązać w ramach tego typu koncepcji: sposób partycjonowania danych wymagany jest podział informacji nie tylko pod względem objętości (redukcja ilości danych), ale również typu informacji; sposób przechowywania danych w celu ich rozbicia (partycjonowania), np. realizacja algorytmów indeksacji danych w bazach danych w celu przyspieszenia wyszukiwania informacji. W ramach problemu Big Data wprowadzono nową koncepcję indeksowania rekordów indeksowanie fraktalne (fraktal tree indexing). Przykładowym rozwiązaniem bazodanowym, wykorzystującym indeksowanie fraktalne, jest TokuDB [ optymalizacja użycia jednostek obliczeniowych w celu uniknięcia wąskich gardeł. Prowadzi się wiele prac badawczych, które dotyczą tworzenia optymalnych modeli przepływu informacji w sieci; agregacja informacji w zależności od złożoności docelowego problemu może stać się dużym wyzwaniem badawczym.
12 Big Data definicje, wyzwania i technologie informatyczne 149 Istnieje wiele różnych rozwiązań architektonicznych proponujących rozwiązania powyżej wymienionych zagadnień. Jedną z najczęściej cytowanych (wykorzystywanych) open-source-owych architektur tego typu jest projekt Apache Hadoop [hadoop.apache.org/index.html] Apache Hadoop Apache Hadoop to zestaw oprogramowania typu open-source, które umożliwia przetwarzane rozproszone dużych zestawów danych w klastrach serwerów [Venner 2009]. Jest wysoce skalowalne, umożliwia skalowanie z jednego do tysiąca komputerów, z bardzo wysokim stopniem odporności na uszkodzenia. Na architekturę Apache Hadoop składają się następujące moduły: Hadoop Common zawiera biblioteki i narzędzia niezbędne do pracy modułów Hadoop; Hadoop Distributed File System (HDFS) system zarządzania plikami w środowisku rozproszonym, który przechowuje i zarządza plikami na jednostkach rozproszonych i zapewnia wysoką, łączną przepustowość pomiędzy nimi; Hadoop YARN platforma zarządzania zasobami odpowiedzialna za zarządzanie zasobami i obliczeniami w klastrach (podzbiory jednostek obliczeniowych) i wykorzystywania ich do harmonogramowania zadań użytkowników; Hadoop MapReduce model programistyczny, przeznaczony przetwarzaniu dużej ilości danych. Moduły Hadoop MapReduce i HDFS [Changqing i in. 2012] wzorowane są na rozwiązaniach Google: Google s MapReduce i Google File System (GFS). Z punktu widzenia projektanta systemów kluczowy jest moduł MapReduce, ponieważ za pomocą odpowiedniego interfejsu programistycznego można zaprojektować procesy mapowania i redukcji. MapReduce jest systemem przeznaczonym dla tworzenia aplikacji działających jednocześnie na tysiącach komputerów. Główną jego zaletą jest umożliwienie łatwego rozproszenia operacji. Zakładając, że każda z operacji map jest niezależna od pozostałych, może być ona realizowana na osobnym serwerze. Platforma Hadoop umożliwia uruchamianie aplikacji w systemach z tysiącami węzłów z udziałem tysięcy terabajtów danych. Rozproszony system plików umożliwia szybki transfer danych pomiędzy węzłami i zapewnia ciągłość w działania w przypadku awarii. Główne cechy platformy Hadoop dla rozwiązań związanych z wyzwaniami Big Data to: skalowalność, umożliwiająca dodawanie nowych węzłów w razie potrzeby, bez konieczności zmiany formatów danych, jakie są ładowane; opłacalność, ponieważ umożliwia równoległe obliczenia na serwerach, co w efekcie obniża koszty za każdy terabajt pamięci; elastyczność, ponieważ daje możliwość pobierania wszystkich rodzajów danych, z dowolnych źródeł, bez względu na ich strukturę. Zapewniająca ponadto
13 150 Marta Tabakow, Jerzy Korczak, Bogdan Franczyk łączenie danych z wielu źródeł w dowolny sposób, umożliwiając przy tym wykonywanie dokładnych analiz; odporność na uszkodzenia. Oprogramowanie działa nawet wtedy, gdy jeden z węzłów został uszkodzony, przekierowując zadanie do innej jednostki. Z punktu widzenia analityka danych kluczowa w architekturach dedykowanych Big Data jest możliwość własnej implementacji, na bazie celowej w kontekście danego problemu analitycznego implementacji modułów typu MapReduce, gdzie ulokowana jest warstwa zaawansowanej analizy danych, lub zastosowania tzw. technik sztucznej inteligencji NoSQL Zagadnienia związane ze złożonością danych, szczególnie danych niestrukturalnych lub półstrukturalnych, powodują wyzwania w zakresie ich efektywnego przechowywania oraz przeszukiwania w bazie danych. Schemat relacyjnej bazy danych, sztywno zdefiniowanej, nie odpowiada danym typu Big Data. Zaprojektowany został więc mechanizm przechowywania danych NoSQL. Jest to magazyn danych zapewniający przechowywanie i pobieranie danych w nieograniczony sposób. Różni się on od powszechnie stosowanego modelu relacyjnego. Mimo iż to rozwiązanie jest powszechnie dostępne, napotyka się bariery w jego wykorzystywaniu w przedsiębiorstwach, szczególnie tych z sektora MŚP. Bariery te związane są ze skomplikowanym użyciem NoSQL. Mianowicie wykorzystywane są niskopoziomowe języki zapytań, co wiąże się z zatrudnieniem wykwalifikowanej obsługi. Dodatkowo brak jest intuicyjnych czy standardowych interfejsów wspomagających użytkowników. Dzięki wdrożeniu NoSQL mogą zostać osiągnięte takie korzyści, jak poprawa zrozumienia danych, możliwość gromadzenia danych niestrukturalnych, skalowalność i elastyczność bazy oraz potencjalna możliwość tworzenia unikalnych modeli biznesowych opartych na wielu danych, których wcześniej nie można było uwzględnić w analizach. Przykładem bazy danych opartej na modelu NoSQL jest Cassandra Moduł ETL i ELT Wybór odpowiedniego procesu ETL czy ELT zależy w głównej mierze od konfiguracji infrastruktury oraz od celów jakim ma służyć dalsze przetwarzanie i analiza danych. Model ETL (Extract, Transform and Load) kolejno oznacza pozyskanie danych, następnie różne transformacje danych mające na celu ich przekształcenie, by w łatwy sposób można je było przyporządkować do tabeli (np. zmianę formatu w którym są zapisane) w hurtowni danych oraz załadowanie danych. Przykładami struktur zawierających narzędzia ETL są systemy Business Intelligence. Technologia ETL była powszechnie stosowana w czasach, gdy przechowywanie danych było kosztowne, a przetwarzania czasochłonne, kiedy raporty i sprawozdania były
14 Big Data definicje, wyzwania i technologie informatyczne 151 ściśle uwarunkowane stosowaniem modelu ETL.Obecnie wzrosła zdolność sprzętowa do przechowywania danych oraz wydajniejsze są również systemy do zarządzania bazami danych. Model ELT (Extract, Load, Transform and Load) zmienia kolejność procesu, ładuje surowe dane do magazynu danych i przekształca je wewnątrz. ELT staje się problemem, jeśli hurtownia danych jest zbytnio obciążona. Model ELT wymaga zmiany podejścia wobec tradycyjnych metod projektowania. Pozwala on na prześledzenie historii danych aż do źródła, dzięki przechowywaniu danych surowych, co w dalszej mierze pozwala na zaobserwowanie unikalnych zależności i powiązań, co dotychczas nie było możliwe. Dzięki dostępności narzędzi, które mogą wspomóc implementację ELT, przedsiębiorstwa mogą osiągnąć korzyści ze stosowania tego modelu, szczególnie w zakresie poszukiwania unikalnych zależności pomiędzy danymi Big Data i wyciągania unikalnych wniosków w wyniku analizy tych danych. 4. Zakończenie Big Data stanowi jedno z najważniejszych wyzwań współczesnego świata cyfrowego. Możliwości przetwarzania dużych ilości danych o różnym typie i dużej złożoności, pochodzących z różnych źródeł informacyjnych, znajdują zastosowanie w wielu dziedzinach: typowo naukowo-badawczych i komercyjnych. Zastosowania komercyjne dotyczą praktycznie każdej branży, jako że w sposób pośredni lub bezpośredni polityka firm uzależniona jest od dostępu do informacji i analizy odpowiednich danych. W niniejszej pracy został zaprezentowany przegląd prac dotyczących problematyki i charakterystyki Big Data. Przedstawiono kilka głównych definicji Big Data oraz zaproponowano własną definicję. Obszernie omówiono wyzwania związane z Big Data. Ponadto scharakteryzowano technologie informatyczne wykorzystywane w zarządzaniu zasobami Big Data, takie jak przechowywanie danych w chmurze, systemy rozproszone w przetwarzaniu informacji. Na podstawie przeglądu literatury można wywnioskować, że technologia ta stwarza nowe możliwości dla badaczy. Duża ilość różnorodnych danych z wielu źródeł to czynnik, który ma decydujący wpływ na jakość wyników w badaniach naukowych. Lepsze, w sensie jakościowym, bazy wiedzy determinują wyciąganie unikalnych, ze względów naukowych, wniosków. Ponadto nowe technologie gromadzenia i przetwarzania danych umożliwią prowadzenie interdyscyplinarnych badań naukowych. Dla przedsiębiorców natomiast Big Data to również nowe perspektywy rozwoju firmy. Do najważniejszych możliwości w tym zakresie zaliczyć można: uzyskanie przewagi konkurencyjnej na rynku poprzez tworzenie dopasowanych modeli predykcyjnych, w wyniku których klientowi proponuje się produkty i usługi idealnie dopasowane oraz optymalizację zarządzania przedsiębiorstwem, co prowadzi do zwiększenia zysków. Przyszłość informatyzacji w przedsiębiorstwach oraz utrzymanie korzystnej pozycji rynkowej oparte będą na technikach wykorzystujących Big Data.
15 152 Marta Tabakow, Jerzy Korczak, Bogdan Franczyk W kolejnej pracy związanej z zarządzaniem zasobami typu Big Data planowany jest przegląd praktycznych możliwości wykorzystania dużych danych z punku widzenia realizacji konkretnych celów biznesowych. Literatura Aggarwal C.C., Wang H., 2010, Graph Data Management and Mining: A Survey of Algorithms and Applications, Managing and Mining Graph Data, Series: Advances in Database Systems, Vol. 40, Springer, s Bandler J., Grinder J., 1979, Frogs into Princes: Neuro Linguistic Programming, Real People Press. Buhl H., Röglinger M., Moser F., Heidemann J., 2013, Big Data Ein (ir-)relevanter Modebegriff für Wissenschaft und Praxis?, Wirtschaftsinformatik & Management, Springer, s Boja C., Pocovnicu A., Batagan L., 2012, Distributed Parallel Architecture for Big Data, Informatica Economica, Bucharest, Romania, vol. 16, issue 2, s Bostock M., Ogievetsky V., Heer J., 2011, D3: Data-driven documents, IEEE Transaction on Visualization & Computer Graphics, IEEE, vol. 17, issue 12, s Cisco, Cisco Visual Networking Index: Global Mobile Data Traffic Forecast Update, , 2012, html, Chang C., Kayed M., Girgis M.R., Shaalan K.F., 2006, A survey of web information extraction systems. IEEE Transactions on Knowledge and Data Engineering, IEEE, vol. 18, issue 10, s Changqing J., Yu L., Wenming Q., Awada U., Keqiu L., 2012, Big Data Processing in Cloud Computing Environments, 12th International Symposium on Pervasive Systems, Algorithms and Networks (ISPAN), San Marcos, IEEE, s Cox M., Ellsworth D., Managing Big Data for Scientific Visualization, 1997, ACM SIGGRAPH '97 Course #4, Exploring Gigabyte Datasets in Real-Time: Algorithms, Data Management, and Time-Critical Design, Los Angeles. Doug L., 2001, Data Management: Controlling Data Volume, Velocity, and Variety, Application Delivery Strategies, META Group (currently with Gartner). Zikopoulos P., Eaton C., deroos D., Deutsch T., Lapis G., 2012, Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, McGraw Hill, USA. Fan W., Bifet A., 2012, Mining big data: current status, and forecast to the future, ACM SIGKDD Explorations Newsletter, SIGKDD Explorations, ACM, New York, USA, vol. 14, issue 2, s He B., Patel M., Zhang Z., Chang K.C.C., 2007, Accessing the deep web, Communications of the ACM, ACM, New York, USA, vol. 50, issue 5, s Jadeja Y., Modi K., 2012, Cloud computing - concepts, architecture and challenges, 2012 International Conference on Computing, Electronics and Electrical Technologies (ICCEET), IEEE, Kumaracoil, India. Jinchuan C., Yueguo C., Xiaoyong D., Cuiping L., Jiaheng L., Suyun Z., Xuan Z., 2013, Big data challenge: a data management perspective, Frontiers of Computer Science, SP Higher Education Press, vol. 7, issue 2, s Katal A., Wazid M., Goudar R.H., 2013, Big Data: Issues, Challenges, Tools and Good Practices, 2013 Sixth International Conference on Contemporary Computing (IC3), IEEE, Noida, s Keim D., Kohlhammer J., Ellis G., Mansmann F., 2010, Mastering The Information Age Solving Problems with Visual Analytics, Eurographics Association, Germany. Korolov M., 2013, 15 most powerful Big Data companies, Network World.
16 Big Data definicje, wyzwania i technologie informatyczne 153 Labrinidis A., Jagadish H., 2012, Challenges and opportunities with big data, Proceedings of the VLDB Endowment, VLDB Endowment, vol. 5, issue 12, s Leishi Z., Stoffel A., Behrisch M., Mittelstadt S., Schreck T., Pompl R., Weber S., Last H., Keim D., 2012, Visual analytics for the big data era A comparative review of state-of-the-art commercial systems, 2012 IEEE Conference on Visual Analytics Science and Technology, IEEE, Seattle, WA, s McKinsey Global Institute, 2011, Big data: The next frontier for innovation, competition, and productivity, _for_innovation, Mozafari B., Zeng K., D antoni L., Zaniolo C., 2013, High-Performance Complex Event Processing over Hierarchical Data, ACM Transactions on Database Systems (TODS), ACM, New York, USA, vol. 38, issue 4. Rhodes R., 2013, Finding Big Data s Sweet Spot, IBM Systems Magazine, mag.com/, Sakr S., Liu A. Fayoumi A.G., 2013, The Family of MapReduce and Large-Scale Data Processing System, ACM Computing Surveys (CSUR), ACM, New York, USA, vol. 46, issue 1. Shvachko K., Kuang H., Radia S., Chansler R., 2010, The Hadoop Distributed File System, 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), IEEE, Incline Village, NV, s Thomas J.J., Cook A.K., 2006, Visual Analytics Agenda, IEEE Computer Graphics and Applications, IEEE, s Venner J., 2009, Pro Hadoop, Apress. Wei L., Xiaofeng M., Weiyi M., 2010, ViDE: A Vision-Based Approach for Deep Web Data Extraction, IEEE Transactions on Knowledge and Data Engineering, IEEE, s Wong P.C., Thomas J., 2004, Visual analytics, IEEE Computer Graphics and Applications, IEEE, s World Economic Forum, Big Data, Big Impact: New Possibilities for International Development, Geneva 2012, Zikopoulos P., deroos D., Parasuraman K., Deutsch T., Corrigan D., Giles J., 2013, Harness the Power of Big Data: The IBM Big Data Platform, McGraw-Hill, USA. BIG DATA DEFINITIONS, CHALLENGES AND INFORMATION TECHNOLOGIES Summary: Big Data as a complex IT issues, is one of the most important challenges of the modern digital world. At the present time, the continuous inflow of a large amount of information from different sources, and thus with different characteristics, requires the introduction of new data analysis techniques and technology. In particular, Big Data requires the use of parallel processing and the departure from the classical scheme of data storage. Thus, in this paper we review the basic issues related to the theme of Big Data: different definitions of Big Data research and technological problems and challenges in terms of data volume, their diversity, the reduction of the dimension of data quality and inference capabilities. We also consider the future direction of work in the field of exploration of the possibilities of Big Data in various areas of management. Keywords: Big Data, Big Data definition, challenges of Big Data, Hadoop, NoSql, Map Reduce, parallel processing.
INFORMATYKA EKONOMICZNA
INFORMATYKA EKONOMICZNA BUSINESS INFORMATICS 1(31) 2014 Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2014 Redaktorzy Wydawnictwa: Elżbieta Macauley, Tim Macauley, Jadwiga Marcinek Redaktor
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Zaliczenie: Praca na zajęciach Egzamin Projekt/esej zaliczeniowy Plan zajęć # TEMATYKA ZAJĘĆ
Wprowadzenie do Hurtowni Danych
Wprowadzenie do Hurtowni Danych BIG DATA Definicja Big Data Big Data definiowane jest jako składowanie zbiorów danych o tak dużej złożoności i ilości danych, że jest to niemożliwe przy zastosowaniu podejścia
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty
MODELE BIG DATA WE WSPOMAGANIU DECYZJI BIZNESOWYCH
MODELE BIG DATA WE WSPOMAGANIU DECYZJI BIZNESOWYCH OPIEKUN NAUKOWY: dr hab. inż. Tadeusz A. Grzeszczyk mgr Agnieszka Kucharska Wydział Zarządzania 2 STRUKTURA PREZENTACJI Definicja i zadania Big Data Trzy
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykładów Wprowadzenie - integracja
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykład adów Wprowadzenie - integracja
Szybkość instynktu i rozsądek rozumu$
Szybkość instynktu i rozsądek rozumu$ zastosowania rozwiązań BigData$ Bartosz Dudziński" Architekt IT! Już nie tylko dokumenty Ilość Szybkość Różnorodność 12 terabajtów milionów Tweet-ów tworzonych codziennie
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury
HURTOWNIE DANYCH I BUSINESS INTELLIGENCE
BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej
Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08
Spis treści Wstęp.............................................................. 7 Część I Podstawy analizy i modelowania systemów 1. Charakterystyka systemów informacyjnych....................... 13 1.1.
Hadoop i Spark. Mariusz Rafało
Hadoop i Spark Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl WPROWADZENIE DO EKOSYSTEMU APACHE HADOOP Czym jest Hadoop Platforma służąca przetwarzaniu rozproszonemu dużych zbiorów danych. Jest
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych Tomasz Demski StatSoft Polska www.statsoft.pl Analiza danych Zaawansowana analityka, data
Usługi analityczne budowa kostki analitycznej Część pierwsza.
Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.
Chmura prywatna i publiczna sposób na efektywniejsze wykorzystanie środowisk IT
Chmura prywatna i publiczna sposób na efektywniejsze wykorzystanie środowisk IT Waldemar Kessler Managed Services Sales Leader, Global Technology Services Agenda Chmura dziśi jutro -oczekiwania rynku Kryzys
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Biznesowe słowniki pojęć biznesowych odwzorowania pojęć
Co to jest Business Intelligence?
Cykl: Cykl: Czwartki z Business Intelligence Sesja: Co Co to jest Business Intelligence? Bartłomiej Graczyk 2010-05-06 1 Prelegenci cyklu... mariusz@ssas.pl lukasz@ssas.pl grzegorz@ssas.pl bartek@ssas.pl
Arkadiusz Rajs Agnieszka Goździewska-Nowicka Agnieszka Banaszak-Piechowska Mariusz Aleksiewicz. Nałęczów, 20lutego 2014
Arkadiusz Rajs Agnieszka Goździewska-Nowicka Agnieszka Banaszak-Piechowska Mariusz Aleksiewicz Nałęczów, 20lutego 2014 Wstęp Zarządzanie to, przyjmując ogólną interpretację, kompleks działań służących
Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.
PI-14 01/12 Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.! Likwidacja lub znaczne ograniczenie redundancji (powtarzania się) danych! Integracja danych!
Tematy prac magisterskich Rok akademicki 2013/2014
Dr hab. inż. Jan Werewka, prof. n. AGH Wydział EAIiIB AGH E-mail: werewka@agh.edu.pl www: http://home.agh.edu.pl/werewka Tematy prac magisterskich Rok akademicki 2013/2014 Temat 1 Architektura przedsięwzięcia
Wykład I. Wprowadzenie do baz danych
Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles
Opracowanie systemu monitorowania zmian cen na rynku nieruchomości
Opracowanie systemu monitorowania zmian cen na rynku nieruchomości Ogólne założenia planowanego projektu Firma planuje realizację projektu związanego z uruchomieniem usługi, która będzie polegała na monitorowaniu
AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7
AUREA BPM Oracle TECNA Sp. z o.o. Strona 1 z 7 ORACLE DATABASE System zarządzania bazą danych firmy Oracle jest jednym z najlepszych i najpopularniejszych rozwiązań tego typu na rynku. Oracle Database
Współczesna problematyka klasyfikacji Informatyki
Współczesna problematyka klasyfikacji Informatyki Nazwa pojawiła się na przełomie lat 50-60-tych i przyjęła się na dobre w Europie Jedna z definicji (z Wikipedii): Informatyka dziedzina nauki i techniki
Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017
Analityka danych w środowisku Hadoop Piotr Czarnas, 5 czerwca 2017 Pytania stawiane przez biznes 1 Jaka jest aktualnie sytuacja w firmie? 2 Na czym jeszcze możemy zarobić? Które procesy możemy usprawnić?
Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017
Analityka danych w środowisku Hadoop Piotr Czarnas, 27 czerwca 2017 Hadoop i Business Intelligence - wyzwania 1 Ładowane danych do Hadoop-a jest trudne 2 Niewielu specjalistów dostępnych na rynku Dostęp
Przetwarzanie danych w chmurze
Materiały dydaktyczne Katedra Inżynierii Komputerowej Przetwarzanie danych w chmurze Modele przetwarzania w chmurze dr inż. Robert Arsoba Robert.Arsoba@weii.tu.koszalin.pl Koszalin 2017 Wersja 1.0 Modele
Szkolenia SAS Cennik i kalendarz 2017
Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS
z kapitałem polskim Zatrudnienie 1 10 osób osób 2,27% osób 11,36% osób osób powyżej osób 20,45% 50,00% 13,64%
Profil uczestników badania Firma 6,8% 9,1% sektor publiczny służby mundurowe z kapitałem zagranicznym 5 z kapitałem polskim 5 13,6% banki 9,1% instytucje finansowe 4, telekomunikacja Zatrudnienie 2,2 2,2
DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:
DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: JAKIE PROBLEMY ROZWIĄZUJE BI 1 S t r o n a WSTĘP Niniejszy dokument to zbiór podstawowych problemów, z jakimi musi zmagać się przedsiębiorca, analityk,
LIDERZY DATA SCIENCE CENTRUM TECHNOLOGII ICM CENTRUM TECHNOLOGII ICM ICM UW TO NAJNOWOCZEŚNIEJSZY OŚRODEK DATA SCIENCE W EUROPIE ŚRODKOWEJ.
ROZUMIEĆ DANE 1 Pozyskiwanie wartościowych informacji ze zbiorów danych to jedna z kluczowych kompetencji warunkujących przewagę konkurencyjną we współczesnej gospodarce. Jednak do efektywnej i wydajnej
Oracle Log Analytics Cloud Service
ORACLE DANE TECHNICZNE Zastrzeżenie: Niniejszy dokument służy wyłącznie celom informacyjnym. Nie stanowi on zobowiązania do dostarczenia żadnych materiałów, kodu ani funkcjonalności i nie należy go brać
Wprowadzenie do technologii Business Intelligence i hurtowni danych
Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mariusz.rafalo@hotmail.com WPROWADZENIE DO HURTOWNI DANYCH Co to jest hurtownia danych? Hurtownia danych jest zbiorem danych zorientowanych tematycznie, zintegrowanych,
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
Architecture Best Practices for Big Data Deployments
GLOBAL SPONSORS Architecture Best Practices for Big Data Deployments Kajetan Mroczek Systems Engineer GLOBAL SPONSORS Rozwój analityki biznesowej EKSPLORACJA DANYCH UCZENIE MASZYNOWE SZTUCZNA INTELIGENCJA
OBIEG INFORMACJI I WSPOMAGANIE DECYZJI W SYTUACJACH KRYZYSOWYCH
OBIEG INFORMACJI I WSPOMAGANIE DECYZJI W SYTUACJACH KRYZYSOWYCH AGENDA Prezentacja firmy Tecna Informacja i jej przepływ Workflow i BPM Centralny portal informacyjny Wprowadzanie danych do systemu Interfejsy
ZARZĄDZANIE MARKĄ. Doradztwo i outsourcing
ZARZĄDZANIE MARKĄ Doradztwo i outsourcing Pomagamy zwiększać wartość marek i maksymalizować zysk. Prowadzimy projekty w zakresie szeroko rozumianego doskonalenia organizacji i wzmacniania wartości marki:
Transformacja wiedzy w budowie i eksploatacji maszyn
Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces
The Binder Consulting
The Binder Consulting Contents Indywidualne szkolenia specjalistyczne...3 Konsultacje dla tworzenia rozwiazan mobilnych... 3 Dedykowane rozwiazania informatyczne... 3 Konsultacje i wdrożenie mechanizmów
Cloud Computing wpływ na konkurencyjność przedsiębiorstw i gospodarkę Polski Bohdan Wyżnikiewicz
Cloud Computing wpływ na konkurencyjność przedsiębiorstw i gospodarkę Polski Bohdan Wyżnikiewicz Warszawa, 17 grudnia 2012 r. Co to jest cloud computing? Cloud computing jest modelem umożliwiającym wygodny
Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH
Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Trendy BI z perspektywy. marketingu internetowego
Trendy BI z perspektywy marketingu internetowego BI CECHUJE ORGANIZACJE DOJRZAŁE ANALITYCZNIE 2 ALE JAKA JEST TA DOJRZAŁOŚĆ ANALITYCZNA ORGANIZACJI? 3 Jaka jest dojrzałość analityczna organizacji? Zarządzanie
Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble
Samodzielny Business Intelligence in memory duże i małe. Paweł Gajda Business Solution Architect
Samodzielny Business Intelligence in memory duże i małe Paweł Gajda Business Solution Architect Agenda 1. Zapytania biznesowe 2. SAP Visual Intelligence 3. Szybkość 4. Zaangażowanie 5. Samoobsługa 6. Kreatywność
Specjalizacja magisterska Bazy danych
Specjalizacja magisterska Bazy danych Strona Katedry http://bd.pjwstk.edu.pl/katedra/ Prezentacja dostępna pod adresem: http://www.bd.pjwstk.edu.pl/bazydanych.pdf Wymagania wstępne Znajomość podstaw języka
Mateusz Kurleto NEOTERIC. Analiza projektu B2B Kielce, 18 października 2012
2012 Pierwsze przymiarki do zakresu informatyzacji (rodzaj oprogramowania: pudełkowe, SaaS, Iaas, CC, PaaS. Zalety i wady: dostępność, koszty, narzędzia, ludzie, utrzymanie, bezpieczeństwo, aspekty prawne)
Rola analityki danych w transformacji cyfrowej firmy
Rola analityki danych w transformacji cyfrowej firmy Piotr Czarnas Querona CEO Analityka biznesowa (ang. Business Intelligence) Proces przekształcania danych w informacje, a informacji w wiedzę, która
Przetwarzanie i zabezpieczenie danych w zewnętrznym DATA CENTER
Przetwarzanie i zabezpieczenie danych w zewnętrznym DATA CENTER Gdańsk, 27-28 września 2012 r. Krzysztof Pytliński Zakład Teleinformatyki Kontekst Data Center jako usługa zewnętrzna, zaspokajająca potrzeby
Pojęcie bazy danych. Funkcje i możliwości.
Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Automatyzacja Automatyzacja przetwarzania: Apache NiFi Źródło: nifi.apache.org 4 Automatyzacja
Prawne aspekty wykorzystania chmury obliczeniowej w administracji publicznej. Michał Kluska
Prawne aspekty wykorzystania chmury obliczeniowej w administracji publicznej Michał Kluska Prawne aspekty wykorzystania chmury obliczeniowej w administracji publicznej Łopuszna, 6-7 lutego 2012 r. Agenda:
Rynek przetwarzania danych w chmurze w Polsce 2015. Prognozy rozwoju na lata 2015-2020
Rynek przetwarzania danych w chmurze w Polsce 2015 2 Język: polski, angielski Data publikacji: wrzesień 2015 Format: pdf Cena od: 1800 Sprawdź w raporcie Jaka jest obecna i przyszła wartość rynku przetwarzania
OfficeObjects e-forms
OfficeObjects e-forms Rodan Development Sp. z o.o. 02-820 Warszawa, ul. Wyczółki 89, tel.: (+48-22) 643 92 08, fax: (+48-22) 643 92 10, http://www.rodan.pl Spis treści Wstęp... 3 Łatwość tworzenia i publikacji
Marcin Adamczak Jakub Gruszka MSP. Business Intelligence
Marcin Adamczak Jakub Gruszka MSP Business Intelligence Plan Prezentacji Definicja Podział Zastosowanie Wady i zalety Przykłady Historia W październiku 1958 Hans Peter Luhn pracownik działu badań w IBM
ROZWÓJ SYSTEMÓW SZTUCZNEJ INTELIGENCJI W PERSPEKTYWIE "PRZEMYSŁ 4.0"
ROZWÓJ SYSTEMÓW SZTUCZNEJ INTELIGENCJI W PERSPEKTYWIE "PRZEMYSŁ 4.0" Dr inż. Andrzej KAMIŃSKI Instytut Informatyki i Gospodarki Cyfrowej Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie
Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38
Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem zajęcia 1 dr Jakub Boratyński pok. A38 Program zajęć Bazy danych jako podstawowy element systemów informatycznych wykorzystywanych
Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family
Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów, architektów oraz
Architektura bezpieczeństwa informacji w ochronie zdrowia. Warszawa, 29 listopada 2011
Architektura informacji w ochronie zdrowia Warszawa, 29 listopada 2011 Potrzeba Pomiędzy 17 a 19 kwietnia 2011 roku zostały wykradzione dane z 77 milionów kont Sony PlayStation Network. 2 tygodnie 25 milionów
Architektura korporacyjna jako narzędzie koordynacji wdrażania przetwarzania w chmurze
Architektura korporacyjna jako narzędzie koordynacji wdrażania przetwarzania w chmurze Prof. SGH, dr hab. Andrzej Sobczak, Kierownik Zakładu Systemów Informacyjnych, Katedra Informatyki Gospodarczej SGH
System generacji raportów
Zalety systemu Czym jest ProReports? prostota instalacji, wieloplatformowość (AIX, Linux, Windows, Solaris), obsługa popularnych formatów (PDF, XLS, RTF, HTML,TXT,XML,CSV), obsługa wielu baz danych, raporty
Sage ACT! Twój CRM! Zdobywaj, zarządzaj, zarabiaj! Zdobywaj nowych Klientów! Zarządzaj relacjami z Klientem! Zarabiaj więcej!
Sage ACT! Twój CRM! Zdobywaj, zarządzaj, zarabiaj! Zdobywaj nowych Klientów! Zarządzaj relacjami z Klientem! Zarabiaj więcej! Sage ACT! Sprawdzone przez miliony Użytkowników i skuteczne rozwiązanie z rodziny
Najlepsze praktyki w podejściu do rozbudowy infrastruktury Michał Stryga
Najlepsze praktyki w podejściu do rozbudowy infrastruktury Michał Stryga Dlaczego STG Lab Services? Dlaczego STG Lab Services? Technologia w służbie biznesu Jakie zewnętrzne czynniki będą wpływały na twoją
Projektowanie informatycznych systemów zarządzania produkcją
Wydział Odlewnictwa Wirtualizacja procesów odlewniczych Katedra Informatyki Stosowanej WZ AGH Projektowanie informatycznych systemów zarządzania produkcją Jerzy Duda, Adam Stawowy www.pi.zarz.agh.edu.pl
StatSoft profesjonalny partner w zakresie analizy danych
Analiza danych Data mining Sterowanie jakością Analityka przez Internet StatSoft profesjonalny partner w zakresie analizy danych StatSoft Polska Sp. z o.o. StatSoft Polska Sp. z o.o. ul. Kraszewskiego
Analityka danych & big data
TomaszJangas.com Analityka danych & big data 15 października 2017 W tym artykule opiszę architekturę, jaka często wykorzystywana jest dzisiaj w środowiskach do analityki danych w wielu różnych organizacjach
Welcome to the waitless world. Inteligentna infrastruktura systemów Power S812LC i S822LC
Inteligentna infrastruktura systemów Power S812LC i S822LC Przedstawiamy nową linię serwerów dla Linux Clouds & Clasters IBM Power Systems LC Kluczowa wartość dla klienta Specyfikacje S822LC Technical
Wstęp... 7. 3. Technologie informacyjne wpływające na doskonalenie przedsiębiorstwa
Spis treści Wstęp.............................................................. 7 1. Przedsiębiorstwo w dobie globalizacji.............................. 11 1.1. Wyzwania globalnego rynku....................................
BIG DATA w SM WARSZAWA
BIG DATA w SM WARSZAWA Maksymilian Michalski Spotkanie Stowarzyszenia Administratorów Bezpieczeństwa Informacji w Straży Miejskiej Miasta Stołecznego Warszawy 6 maja 2014 r AGENDA BIG DATA W SM WARSZAWA
Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych
Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych www.ascen.pl 1 Agenda O firmie Zarządzanie jakością danych Aplikacje mobilne i ich rola w zarządzaniu jakością danych 2 O firmie Data
Instalacja SQL Server Express. Logowanie na stronie Microsoftu
Instalacja SQL Server Express Logowanie na stronie Microsoftu Wybór wersji do pobrania Pobieranie startuje, przechodzimy do strony z poradami. Wypakowujemy pobrany plik. Otwiera się okno instalacji. Wybieramy
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego 1 85-240 Bydgoszcz www.softmaks.pl kontakt@softmaks.pl
Paweł Gołębiewski Softmaks.pl Sp. z o.o. ul. Kraszewskiego 1 85-240 Bydgoszcz www.softmaks.pl kontakt@softmaks.pl Droga na szczyt Narzędzie Business Intelligence. Czyli kiedy podjąć decyzję o wdrożeniu?
Security Master Class
Security Master Class Platforma kompleksowej analizy zdarzeń Linux Polska SIEM Radosław Żak-Brodalko Senior Solutions Architect Linux Polska sp. z o.o. Podstawowe problemy Jak pokryć lukę między technicznym
Tomasz Grześ. Systemy zarządzania treścią
Tomasz Grześ Systemy zarządzania treścią Co to jest CMS? CMS (ang. Content Management System System Zarządzania Treścią) CMS definicje TREŚĆ Dowolny rodzaj informacji cyfrowej. Może to być np. tekst, obraz,
Spectrum Spatial. Dla systemów BI (Business Intelligence)
Spectrum Spatial Dla systemów BI (Business Intelligence) Czym jest Spectrum Spatial? Spectrum Spatial jest platformą programistyczną, która umożliwia lokalizację danych w przestrzeni w celu szybkiego i
PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
Pytania z przedmiotów kierunkowych
Pytania na egzamin dyplomowy z przedmiotów realizowanych przez pracowników IIwZ studia stacjonarne I stopnia Zarządzanie i Inżynieria Produkcji Pytania z przedmiotów kierunkowych 1. Co to jest algorytm?
Jarosław Żeliński analityk biznesowy, projektant systemów
Czy chmura może być bezpiecznym backupem? Ryzyka systemowe i prawne. Jarosław Żeliński analityk biznesowy, projektant systemów Agenda Definicja usługi backup i cloud computing Architektura systemu z backupem
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Data Camp Architektura Data Lake Repozytorium służące składowaniu i przetwarzaniu danych o
Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:
1.1. Podstawowe pojęcia Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca: informatykę (włącznie ze sprzętem komputerowym oraz oprogramowaniem używanym do tworzenia, przesyłania,
Rozwój rynku usług chmury obliczeniowej w Portugalii 2013-02-26 22:05:56
Rozwój rynku usług chmury obliczeniowej w Portugalii 2013-02-26 22:05:56 2 Chmura obliczeniowa (cloud computing) umożliwia, za pośrednictwem Internetu, z dowolnego komputera, telefonu komórkowego, czy
Zmień taktykę przejdź do ofensywy! Staw czoła cyfrowej transformacji!
Zmień taktykę- przejdź do ofensywy. Staw czoła cyfrowej transformacji. Zmień taktykę przejdź do ofensywy! Staw czoła cyfrowej transformacji! Prezentacja wyników badania IDC w Polsce na tle badań globalnych
STUDIA NIESTACJONARNE I STOPNIA Przedmioty kierunkowe
STUDIA NIESTACJONARNE I STOPNIA Przedmioty kierunkowe Technologie informacyjne prof. dr hab. Zdzisław Szyjewski 1. Rola i zadania systemu operacyjnego 2. Zarządzanie pamięcią komputera 3. Zarządzanie danymi
KIERUNKOWE EFEKTY KSZTAŁCENIA
WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA II STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA NAUK TECHNICZNYCH Dyscyplina
Monitoring procesów z wykorzystaniem systemu ADONIS
Monitoring procesów z wykorzystaniem systemu ADONIS BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management
INFORMATYKA Pytania ogólne na egzamin dyplomowy
INFORMATYKA Pytania ogólne na egzamin dyplomowy 1. Wyjaśnić pojęcia problem, algorytm. 2. Podać definicję złożoności czasowej. 3. Podać definicję złożoności pamięciowej. 4. Typy danych w języku C. 5. Instrukcja
STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna
STUDIA PODYPLOMOWE Analiza i Eksploracja Danych Rynkowych i Marketingowych Rodzaj studiów: doskonalące Liczba godzin: 250 Liczba semestrów: dwa semestry Kierownik studiów: dr Paweł Kaczmarczyk Koszt studiów
Rozpocznij swój pierwszy projekt IoT i AR z Transition Technologies PSC
Rozpocznij swój pierwszy projekt IoT i AR z Transition Technologies PSC _www.ttpsc.pl _iot@ttpsc.pl Transition Technologies PSC Sp. z o.o. Łódź, Piotrkowska 276, 90-361 tel.: +48 42 664 97 20 fax: +48
Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.
Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Grażyna Koba MIGRA 2019 Spis treści (propozycja na 2*32 = 64 godziny lekcyjne) Moduł A. Wokół komputera i sieci komputerowych
Dopasowanie IT/biznes
Dopasowanie IT/biznes Dlaczego trzeba mówić o dopasowaniu IT-biznes HARVARD BUSINESS REVIEW, 2008-11-01 Dlaczego trzeba mówić o dopasowaniu IT-biznes http://ceo.cxo.pl/artykuly/51237_2/zarzadzanie.it.a.wzrost.wartosci.html
CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO
Spis treści Przedmowa Podziękowania O książce Rozdział 1. Nowy paradygmat dla Big Data 1.1. Zawartość książki 1.2. Skalowanie tradycyjnej bazy danych 1.2.1. Skalowanie za pomocą kolejki 1.2.2. Skalowanie
PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect
PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect Wbudowana wiedza specjalistyczna Dopasowane do zadania Optymalizacja do aplikacji transakcyjnych Inteligentne Wzorce
HP Service Anywhere Uproszczenie zarządzania usługami IT
HP Service Anywhere Uproszczenie zarządzania usługami IT Robert Nowak Architekt rozwiązań HP Software Dlaczego Software as a Service? Najważniejsze powody za SaaS UZUPEŁNIENIE IT 2 Brak zasobów IT Ograniczone
Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl. 2011 AIUT Sp. z o. o.
Platforma Cognos Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl Business Intelligence - Fakty Kierownicy tracą około 2 godzin dziennie na szukanie istotnych informacji. Prawie
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Wsparcie dla działań na rzecz poprawy efektywności energetycznej ze strony systemów informatycznych
Wsparcie dla działań na rzecz poprawy efektywności energetycznej ze strony systemów informatycznych Potencjał efektywności energetycznej w przemyśle Seminarium Stowarzyszenia Klaster 3x20 Muzeum Górnictwa
Referat pracy dyplomowej
Referat pracy dyplomowej Temat pracy: Wdrożenie intranetowej platformy zapewniającej organizację danych w dużej firmie na bazie oprogramowania Microsoft SharePoint Autor: Bartosz Lipiec Promotor: dr inż.