R i ekosystem Hadoop

Wielkość: px
Rozpocząć pokaz od strony:

Download "R i ekosystem Hadoop"

Transkrypt

1 R i ekosystem Hadoop... czyli integracja środowiska R z technologiami big data Marek Wiewiórka Instytut Informatyki, Politechnika Warszawska 19 lutego 2016

2 Plan prezentacji 1 Wstęp 2 Architektura big data Hadoop ekosystem Big data 1.0 vs Sposoby integracji R i narzędzi big data Wyzwania, antywzorce i wzorce R i Hadoop streaming SparkR Inne projekty RHadoop RPresto RStudio i inne notebooki Przykładowa architektura big data i R 4 Podsumowanie Marek Wiewiórka Wstęp 2 / 38

3 Plan prezentacji 1 Wstęp 2 Architektura big data Hadoop ekosystem Big data 1.0 vs Sposoby integracji R i narzędzi big data Wyzwania, antywzorce i wzorce R i Hadoop streaming SparkR Inne projekty RHadoop RPresto RStudio i inne notebooki Przykładowa architektura big data i R 4 Podsumowanie Marek Wiewiórka Architektura big data 3 / 38

4 Big data główne komponenty 1/3 Hadoop Ecosystem często główne komponenty architektury, narzędzia określa się zbiorczo mianem ekosystemu Hadoop od nazwy głównych projektów: HDFS Hadoop Distributed File System, czy Hadoop MapRedue/YARN, które są wersjonowane i wydawane wspólnie. rozproszony system plików, np. HDFS, LustreFS zapewniający redundancję danych i równoległy dostęp, rozproszone i równoległe silniki obliczeniowe, np. Hadoop MapRedue, Apache Spark, Apache Flink czy Tez odporne na awarie, wirtualizacja na różnych poziomach i wykorzystanie chmur obliczeniowych, Marek Wiewiórka Architektura big data 4 / 38

5 Big data główne komponenty 2/3 rozproszone bazy danych optymalizowane pod szybki odczyt losowy (np. Apache HBase, Cassandra) oraz infrastruktura analityczna (np. Apache Hive, Impala) szybka serializacja danych, np. Kryo, Avro, szybka kompresja danych, np. LZO, Snappy, niekoniecznie gzip, efektywne pod względem zajętości dyskowej i czasu dostępu formaty plików z układem kolumnowo-wierszowym (np. Parquet,ORCFile) z kompresją danych, narzędzia do szybkiego przenoszenia danych z systemów źródłowych do klastrów big data, np. Sqoop, Marek Wiewiórka Architektura big data 5 / 38

6 Big data główne komponenty 3/3 resource managery zarządzanie przydziałem zasobów obliczeniowych uwzględniających różne klasy zadań od bliskich czasu rzeczywistego do typowego przetwarzania wsadowego, np. Apache Mesos, Hadoop YARN, narzędzia do monitoringu klastrów obliczeniowych, np. Nagios, Ganglia, narzędzia do automatyzacji zarządzania klastrami obliczeniowymi do łatwego dodawania/usuwania węzłów, aktualizacji oprogramowania, czy rotacyjnych restartów, np. Ambari bezpieczeństwo i kontrola dostępu do składowanych danych: efektywne szyfrowanie i filtrowanie zgodnie z politykami bezpieczeństwa (Apache Ranger, Knox czy szyfrowanie w HDFS od wersji 2.6). Marek Wiewiórka Architektura big data 6 / 38

7 Big data architektura na przykładzie HDP 2.3 Rysunek: Źródło: Marek Wiewiórka Architektura big data 7 / 38

8 Big data 1.0 vs 2.0 architektura optymalizowana głównie pod ciągłe przetwarzania wsadowe, a nie pod kątem analiz ad hoc i iteracyjnych algorytmów duże narzuty uruchomieniowe i nieefektywne wykorzystanie pamięci operacyjnej, nacisk na zapewnienie odporności na awarie i dużej skalowalności, niskopoziomowe interfejsy programistyczne, przekazywanie wyników pracy jobów za pośrednictwem dysków, a nie pamięci. Rysunek: Źródło: Marek Wiewiórka Architektura big data 8 / 38

9 Plan prezentacji 1 Wstęp 2 Architektura big data Hadoop ekosystem Big data 1.0 vs Sposoby integracji R i narzędzi big data Wyzwania, antywzorce i wzorce R i Hadoop streaming SparkR Inne projekty RHadoop RPresto RStudio i inne notebooki Przykładowa architektura big data i R 4 Podsumowanie Marek Wiewiórka Sposoby integracji R i narzędzi big data 9 / 38

10 Wyzwania, antywzorce i wzorce 1/2 Don t use Hadoop - your data isn t that big 1, Hive, SparkSQL, Phoenix, Kylin, itd. posiadają interfejs SQL (różne dialekty), ale nie oznacza to, że są RDBMS, query-driven design, lokalność obliczeń oraz wykorzystanie obliczeń rozproszonych w obrębie klastra, jdbc/odbc nie służą do transferu danych, a jedynie zapytań i ich końcowych wyników, nie ma rozwiązań ogólnego przeznaczenia tyczy się to zwłaszcza technologii przechowywania danych. 1 Marek Wiewiórka Sposoby integracji R i narzędzi big data 10 / 38

11 Wyzwania, antywzorce i wzorce 2/2 R jako interfejs użytkownika i wizualizacja przy użyciu jdbc/odbc (często nadużywane do pobierania całości danych i wtedy antywzorzec!), R jako część przetwarzań wywoływany przez inne narzędzia (Hadoop streaming/apache Spark pipe()), R jako interfejs do wykonywania operacji na HDFS (RHadoop), R jako interfejs do do rozproszonych DataFrame ow (SparkR i RPresto). Marek Wiewiórka Sposoby integracji R i narzędzi big data 11 / 38

12 R i Hadoop streaming 1/7 interfejs programistyczny i zestaw narzędzi 2, które umożliwiają uruchamianie przetwarzań MapReduce przy wykorzystaniu innych zewnętrznych programów, mogą to być dowolne programy np. skrypty shell, standardowe narzędzia linux (sed, tr, awk, itd.) lub narzędzia napisane w Python, Perl czy R, wykorzystywane narzędzia muszą czytać ze standardowego wejścia (stdin) i zwracać wynik na standardowe wyjście (stdout) analogia do przetwarzania potokowego w linii poleceń linux, programy muszą być dostępne na wszystkich węzłach klastra Hadoop streaming może je sam dystrybuować. 2 https: //hadoop.apache.org/docs/current/hadoop-streaming/hadoopstreaming.html Marek Wiewiórka Sposoby integracji R i narzędzi big data 12 / 38

13 R i Hadoop streaming 2/7 Rysunek: Źródło: Marek Wiewiórka Sposoby integracji R i narzędzi big data 13 / 38

14 R i Hadoop streaming 3/7 można uruchamiać z linii poleceń: hadoop jar hadoop-streaming jar \ -input myinputdirs \ -output myoutputdir \ -mapper /home/mw/rscripts/scriptmap.r \ -reducer /home/mw/rscripts/scriptreduce.r ale wygodniej jest np. z interfejsu Hive a i poziomu HQL : ADD FILE home/mw/rscripts/scriptmap.r; SELECT TRANSFORM(col1) USING scriptmap.r AS (col2) FROM tablex limit 10; Marek Wiewiórka Sposoby integracji R i narzędzi big data 14 / 38

15 R i Hadoop streaming 4/7 Przykład (nieco sztuczny i niespecjalnie big :-) ): załóżmy, że chcemy sprawdzić zgodność rozkładu pokrycia dla regionów na genomie z rozkładem normalnym dla zadanej populacji próbek (kilkadziesiąt tysięcy), dane wejściowe to tabela faktów rekordów w Hive, po kompresji 50GB, przesłanie danych zagregowanych wymagałoby przesłania wierszy zawierających tabel o rozmiarze , może to być oznaczać nawet kilka GB Marek Wiewiórka Sposoby integracji R i narzędzi big data 15 / 38

16 R i Hadoop streaming 5/7 #!/usr/bin/env Rscript f <- file("stdin") open(f) while(length(line <- readlines(f,n=1)) > 0) { intab<-unlist(strsplit(line,"\t")) tempvect <- as.numeric(unlist(strsplit(gsub(" ","",gsub("\\[","",gsub("\\]","",intab[3]) ) fixed=true) ) ) #write(tempvect,stderr()) pvalue = 0.0 stats = 0.0 result<-trycatch( { stest <- shapiro.test(tempvect) pvalue = stest$p.value stats = stest$statistic out<-c(pvalue,stats) }, error=function(err){ pvalue=-1.0 stats=-1.0 write("test failed",stderr()) out<- c(pvalue,stats) } ) write(paste(c(intab[1],intab[2],result[1],result[2]),collapse= \t ),stdout() ) } Marek Wiewiórka Sposoby integracji R i narzędzi big data 16 / 38

17 R i Hadoop streaming 6/7 beeline -u jdbc:hive2://zsibio001.zgm.net:10000 ADD FILE /home/hive/rscripts/rnorm_test.r; SELECT Transform(f_chr,f_ensembl_gp_id,depth_array) using rnorm_test.r AS (chr,ensembl_gp_id,p_value,test_stat) FROM ( SELECT f_chr, f_ensembl_gp_id, collect_list(f_total_depth) AS depth_array FROM dwh.fact_new_orc WHERE f_chr= chr6 GROUP BY f_chr, f_ensembl_gp_id HAVING size(collect_list(f_total_depth))> 2 AND size(collect_list(f_total_depth))<100 limit 5)sq; chr ensembl_gp_id p_value test_stat chr chr chr chr chr Marek Wiewiórka Sposoby integracji R i narzędzi big data 17 / 38

18 R i Hadoop streaming 7/7 Wnioski: można łatwo rozszerzać funkcjonalność Hive a o metody statystyczne bez konieczności pisania kodu w Javie i Scali i tworzenia własnych UDF (user-defined functions), umożliwia wykonywanie kodu R w sposób rozproszony na klastrze Hadoop, jest dodatkowy narzut na serializację i deserializację danych przy wymianie z Hive em, wymaga parse owania ciągów znakowych na wejściu i odpowiedniego formatowania wyników, przydaje się gdy kod R wykonuje się wolno i/lub dane wejściowe są naprawdę duże. Marek Wiewiórka Sposoby integracji R i narzędzi big data 18 / 38

19 Apache Spark krótka historia silnik analityczny rozwijany od 2009 r. w laboratorium AMPLab na Uniwersytecie Kalifornijskim w Berkley, początkowo przez Matei Zaharia, od 2010 r. udostępniony na licencji BSD, od 2013 r. wspierany przez Apache Software Foundation, początkowo w inkubatorze, a od lutego 2014 r. jako tzw. top-level project, firma Databricks przy użyciu Apache Spark ustanowiła rekord świata w tera-sort w 2014 r., ze względu na swoją wydajność, jak i dużą elastyczność zdobywa coraz większą popularność i powoli znajduje zastosowanie dziedzinach, w których dotychczas wykorzystanie narzędzi big data było niewielkie, jak np. bioinformatyka. Marek Wiewiórka Sposoby integracji R i narzędzi big data 19 / 38

20 Apache Spark główne cechy efektywne wykorzystanie pamięci do przechowywania wyników pośrednich przetwarzania, wydajny silnik obliczeniowy wykorzystujący DAG, rozproszone kolekcje obiektów RDD Resilient Distributed Dataset (dodatkowe interfejsy to DataFrame oraz Datasets - nowość 1.6), ponad 80 wbudowanych operatów, wsparcie dla Scali, Java i Pythona i R! spark-shell Scala REPL w rozproszonym wydaniu. Marek Wiewiórka Sposoby integracji R i narzędzi big data 20 / 38

21 RDD bliższe spojrzenie Marek Wiewiórka Sposoby integracji R i narzędzi big data 21 / 38

22 Apache Spark+ R = SparkR 1/7 zapoczątkowany jako poboczny projekt 2013/2014 w Amplab jako bardzo ograniczony interfejs do Sparkowych RDD (RRDD lub R2D2), przepisany niemalże od podstaw w 2015 ze wsparciem dla Spark DataFrame API po raz pierwszy wypuszczony w dystrybucji Sparka w czerwcu 2015, dodano w końcu wsparcie dla YARNa oraz okrojone dla Spark Mlib we wrześniu Marek Wiewiórka Sposoby integracji R i narzędzi big data 22 / 38

23 Apache Spark+ R = SparkR 2/7 Rysunek: Źródło: Marek Wiewiórka Sposoby integracji R i narzędzi big data 23 / 38

24 Apache Spark+ R = SparkR 3/7 if (nchar(sys.getenv("spark_home")) < 1) { Sys.setenv(SPARK_HOME = "/opt/spark bin-hadoop2.6") } if (nchar(sys.getenv("hadoop_conf_dir")) < 1) { Sys.setenv(HADOOP_CONF_DIR = "/etc/hadoop/conf") } if (nchar(sys.getenv("java_home")) < 1) { Sys.setenv(JAVA_HOME = "/usr/lib/jvm/java-7-oracle/") } library(sparkr, lib.loc = c(file.path(sys.getenv("spark_home"), "R", "lib"))) #launch sparkr with 20 executors (100executors with 1 core each) sc <- sparkr.init(master = "yarn-client", sparkenvir = list(spark.executor.memory="2g",spark.executor.instances="20")) hc <- sparkrhive.init(sc) df<-sql(hc,"select * from dwh.fact_new_orc") agg<-summarize(groupby(df,df$f_chr),count=n(df$f_chr) ) head(agg,5) f_chr count 1 chr chr chr chr chr sparkr.stop() Marek Wiewiórka Sposoby integracji R i narzędzi big data 24 / 38

25 Apache Spark+ R = SparkR 4/7 Podstawowe operacje na DataFrame ach: #tworzymy Hive context i czytamy z tabeli >hc <- sparkrhive.init(sc) >df<-sql(hc,"select * from marek.fact_variant") >nrow(df) [1] 1e+06 >colnames(df) [1] "f_sample_id" "f_geo_id" "f_d_id" "f_ensembl_gp_id" [5] "f_refseq_gp_id" "f_v_id" "f_variant_name" "f_chr" [9] "f_pos" "f_ref" "f_alt" "f_alter_depth" [13] "f_total_depth" "f_genotype" > first(df) f_sample_id f_geo_id f_d_id f_ensembl_gp_id f_refseq_gp_id f_v_id NA f_variant_name f_chr f_pos f_ref f_alt f_alter_depth f_total_depth 1 chr1: _c/t chr C T f_genotype 1 0/1 > printschema(df) root -- f_sample_id: long (nullable = true) -- f_geo_id: long (nullable = true) -- f_d_id: long (nullable = true) -- f_ensembl_gp_id: long (nullable = true) -- f_refseq_gp_id: long (nullable = true) -- f_v_id: long (nullable = true) (...) Marek Wiewiórka Sposoby integracji R i narzędzi big data 25 / 38

26 Apache Spark+ R = SparkR 5/7 >islocal(df) [1] FALSE > dim(df) [1] >dflocal<-collect(limit(df,100) ) #roznica w klasach > class(df) [1] "DataFrame" attr(,"package") [1] "SparkR" > class(dflocal) [1] "data.frame" #Spark DataFrame z R DataFrame dfdist<-createdataframe(hc,dflocal) >islocal(dfdist) [1] FALSE #zapisywanie DataFrame a na HDFS write.df(dfdist,"/user/mwiewior/testparquet","parquet","overwrite") write.df(dfdist,"/user/mwiewior/testorc","orc","overwrite") [hive@zsibio001 rscripts]$ hadoop fs -ls -R /user/mwiewior/test[op]* -rw-r--r-- 1 mwiewior mwiewior :56 /user/mwiewior/testorc/_success -rw-r--r-- 1 mwiewior mwiewior :56 /user/mwiewior/testorc/part-r fdda37-01e0- -rw-r--r-- 1 mwiewior mwiewior :52 /user/mwiewior/testparquet/_success -rw-r--r-- 1 mwiewior mwiewior :52 /user/mwiewior/testparquet/_common_metadata -rw-r--r-- 1 mwiewior mwiewior :52 /user/mwiewior/testparquet/_metadata -rw-r--r-- 1 mwiewior mwiewior :52 /user/mwiewior/testparquet/part-r b8aef255-f Marek Wiewiórka Sposoby integracji R i narzędzi big data 26 / 38

27 Apache Spark+ R = SparkR 6/7 #transformacje sa leniwe #projekcja >samples<-select(df,df$f_sample_id) >head(samples) #selekcja i projekcja >oddsamples<-select(filter(df,"f_sample_id%2=1"),"f_sample_id","f_geo_id") f_sample_id f_geo_id #aggregacje countsamples<-summarize(groupby(filter(df,"f_sample_id%2=1"),"f_geo_id"),count=n(df$f_geo_id)) >head(countsamples) f_geo_id count Marek Wiewiórka Sposoby integracji R i narzędzi big data 27 / 38

28 Apache Spark+ R = SparkR 7/7 bindingi do biblioteki Apache Spark MLib dodane w Sparku 1.5 (wrzesień 2015) wsparcie dla podstawowych operatorów z funkcji R glm(), póki co wsparcie dla rozkładów normalnego i dwumianowego. df <- createdataframe(hc, iris) model <- glm(sepal_length ~ Sepal_Width + Species, data = df, family = "gaussian") summary(model) $devianceresiduals Min Max $coefficients Estimate Std. Error t value Pr(> t ) (Intercept) e-09 Sepal_Width e-12 Species_versicolor Species_virginica Marek Wiewiórka Sposoby integracji R i narzędzi big data 28 / 38

29 ggplot2.sparkr 3 1/2 ggplot2 jest jednym z najpopularniejszych pakietów do wizualizacji danych w R, ale nie wspiera DataFrame ow Sparka (chyba, że pobierzemy cały zbiór danych za pomocą collect lub jego podzbiór - take, sample) jest ograniczony dostępną pamięcią i nie potrafi wykorzystywać obliczeń równoległych i rozproszonych do przygotowania danych (np. histogramy, czy boxploty) ggplot2.sparkr udostępnia ten sam interfejs zarówno dla zwykłych DataFrame ów jaki i Sparkowych przy wywołaniu sprawdza i odpowiednio wykonuje obliczenia lokalnie lub na klastrze za pomocą Apache Spark. Instalacja: install.packages("devtools") devtools::install_github("papl-skku/ggplot2.sparkr") 3 ggplot2sparkr-rebooting-ggplot2-for-scalable-big-data-visualization/ Marek Wiewiórka Sposoby integracji R i narzędzi big data 29 / 38

30 ggplot2.sparkr 2/2 library(ggplot2.sparkr) pdf("/home/mw/ggplot.pdf",width=7,height=5) hc <- sparkrhive.init(sc) df<-createdataframe(hc,iris) ggplot(df, aes(species,sepal_length)) + geom_boxplot() dev.off() wspierane typy wykresów ( wersja developerska: nie udało się uruchomić w RStudio i nie działa na każdym zbiorze, ale... :), Rysunek: Źródło: opracowanie własne Marek Wiewiórka Sposoby integracji R i narzędzi big data 30 / 38

31 rdd.pipe()... czyli Hadoop streaming w Apache Spark #!/usr/bin/env Rscript f <- file("stdin") open(f) while(length(line <- readlines(f,n=1)) > 0) { vect<-as.numeric(unlist(strsplit(line,",") ) ) write(sum(vect), stdout()) } val test = sc.parallelize((1 to 100).map(r=>Array(r,r,r) ).map(_.mkstring(",") ) ) test.pipe("/home/mwiewior/sum.r").take(3) res8: Array[String] = Array(3, 6, 9) Marek Wiewiórka Sposoby integracji R i narzędzi big data 31 / 38

32 RHadoop zestaw pakietów rozwijanych przez Revolution Analytics (obecnie Microsoft?) służacych do pracy z różnymi komponentami architektury Hadoop: rhdfs praca z HDFS - projekt nieaktualizowany - ostatni commit ponad 2 lata temu, rmr2 pakiet ułatwiający pisanie jobów MapReduce w R bazuje na mechanizmie Hadoop streaming (również mało aktywny projekt - ostatni commit ok. rok temu), rhbase pakiet służący do podłączania się do HBase a - aktywność jak powyżej. ravro pakiet służący do odczytu plików w formacie Avro Ogólnie projekt pomimo chwytliwej nazwy wydaje się dalej nierozwijany po przejęciu przez Microsoft... Marek Wiewiórka Sposoby integracji R i narzędzi big data 32 / 38

33 RPresto Presto to rozproszony silnik zapytań z interfejsem SQL rozwijany przez Facebooka 4, zoptymalizowana pod interaktywne zapytania architektura - bardzo szybki w przypadku zapytań do zdenormalizowanch tabel, możliwość łączenia danych z wielu źródeł w jednym zapytaniu (np. MySQL z Hive em), mechanizm connectorów umożliwia dodawanie nowych źródeł danych, dosyć słaby optymalizator zapytań, konieczność ręcznego strojenia (np. kolejność złączeń tabel), pakiet rpresto Marek Wiewiórka Sposoby integracji R i narzędzi big data 33 / 38

34 R a Notebooki RStudio ( HUE + Livy server ( spark-notebook-and-livy-rest-job-server-improvements/), rzeppelin - Zeppelin ze wsparciem dla SparkR i knitr ( SparkR shell można użyć kontenerów Dockera (np. projekt Rocker 6 ) żeby przetestować najwygodniejsze podejście. 6 Marek Wiewiórka Sposoby integracji R i narzędzi big data 34 / 38

35 Architektura big data i R Rysunek: Źródło: opracowanie własne Marek Wiewiórka Sposoby integracji R i narzędzi big data 35 / 38

36 Plan prezentacji 1 Wstęp 2 Architektura big data Hadoop ekosystem Big data 1.0 vs Sposoby integracji R i narzędzi big data Wyzwania, antywzorce i wzorce R i Hadoop streaming SparkR Inne projekty RHadoop RPresto RStudio i inne notebooki Przykładowa architektura big data i R 4 Podsumowanie Marek Wiewiórka Podsumowanie 36 / 38

37 Podsumowanie środowisko R powoli staje się (powoli:-)) składnikiem architektury big data, Hadoop streaming API (Spark rdd.pipe()) oraz SparkR wydają się póki co rozwiązaniami komplementarnymi, wizualizacja dużych zbiorów danych za pomocą ggplot2.sparkr, należy oczekiwać kolejnych rozwiązań wykorzystujących model rozproszonych DataFrame ów a la SparkR. Marek Wiewiórka Podsumowanie 37 / 38

38 Dziękuję za uwagę. Marek Wiewiórka Marek Wiewiórka Podsumowanie 38 / 38

39 Dziękuję za uwagę. Marek Wiewiórka Marek Wiewiórka Podsumowanie 38 / 38

Wprowadzenie do Apache Spark. Jakub Toczek

Wprowadzenie do Apache Spark. Jakub Toczek Wprowadzenie do Apache Spark Jakub Toczek Epoka informacyjna MapReduce MapReduce Apache Hadoop narodziny w 2006 roku z Apache Nutch open source składa się z systemu plików HDFS i silnika MapReduce napisany

Bardziej szczegółowo

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów, architektów oraz

Bardziej szczegółowo

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało   (hasło: BIG) Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Automatyzacja Automatyzacja przetwarzania: Apache NiFi Źródło: nifi.apache.org 4 Automatyzacja

Bardziej szczegółowo

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia Kod szkolenia: Tytuł szkolenia: BIGDATA/STR Strumieniowe przetwarzanie Big Data Dni: 2 Partner merytoryczny Opis: Adresaci szkolenia Szkolenie jest przeznaczone głównie dla programistów i analityków danych,

Bardziej szczegółowo

Wprowadzenie do Hurtowni Danych

Wprowadzenie do Hurtowni Danych Wprowadzenie do Hurtowni Danych BIG DATA Definicja Big Data Big Data definiowane jest jako składowanie zbiorów danych o tak dużej złożoności i ilości danych, że jest to niemożliwe przy zastosowaniu podejścia

Bardziej szczegółowo

Hadoop i Spark. Mariusz Rafało

Hadoop i Spark. Mariusz Rafało Hadoop i Spark Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl WPROWADZENIE DO EKOSYSTEMU APACHE HADOOP Czym jest Hadoop Platforma służąca przetwarzaniu rozproszonemu dużych zbiorów danych. Jest

Bardziej szczegółowo

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało   (hasło: BIG) Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Data Camp Architektura Data Lake Repozytorium służące składowaniu i przetwarzaniu danych o

Bardziej szczegółowo

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop. 2016 Spis treści Przedmowa 17 Wprowadzenie 19 Kwestie porządkowe 20 Co nowego znajdziesz w wydaniu czwartym? 20

Bardziej szczegółowo

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Partner merytoryczny Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów,

Bardziej szczegółowo

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop Piotr Borowik Wyzwania związane z Big Data Top Hurdles with Big data Source: Gartner (Sep 2014), Big Data Investment Grows

Bardziej szczegółowo

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało   (hasło: BIG) Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) DANE W CZASIE RZECZYWISTYM 3 Tryb analizowania danych 4 Okno analizowania 5 Real-time: Checkpointing

Bardziej szczegółowo

Hbase, Hive i BigSQL

Hbase, Hive i BigSQL Hbase, Hive i BigSQL str. 1 Agenda 1. NOSQL a HBase 2. Architektura HBase 3. Demo HBase 4. Po co Hive? 5. Apache Hive 6. Demo hive 7. BigSQL 1 HBase Jest to rozproszona trwała posortowana wielowymiarowa

Bardziej szczegółowo

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS Modelowanie Data Mining na wielką skalę z SAS Factory Miner Paweł Plewka, SAS Wstęp SAS Factory Miner Nowe narzędzie do data mining - dostępne od połowy 2015 r. Aktualna wersja - 14.1 Interfejs webowy

Bardziej szczegółowo

Letnia Akademia SUSE. Implementacja nowych rozwiązań open source wszystko, co musisz wiedzieć!

Letnia Akademia SUSE. Implementacja nowych rozwiązań open source wszystko, co musisz wiedzieć! Letnia Akademia SUSE Implementacja nowych rozwiązań open source wszystko, co musisz wiedzieć! Każdy kolejny czwartek do 7 września w godz. 10:00-12:00. Omawiane tematy: Dzisiaj: Budowa Software Defined

Bardziej szczegółowo

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7 AUREA BPM Oracle TECNA Sp. z o.o. Strona 1 z 7 ORACLE DATABASE System zarządzania bazą danych firmy Oracle jest jednym z najlepszych i najpopularniejszych rozwiązań tego typu na rynku. Oracle Database

Bardziej szczegółowo

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24 Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24 Agenda Serp24 NoSQL Integracja z CMS Drupal Przetwarzanie danych Podsumowanie Serp24 Darmowe narzędzie Ułatwia planowanie

Bardziej szczegółowo

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017 Analityka danych w środowisku Hadoop Piotr Czarnas, 27 czerwca 2017 Hadoop i Business Intelligence - wyzwania 1 Ładowane danych do Hadoop-a jest trudne 2 Niewielu specjalistów dostępnych na rynku Dostęp

Bardziej szczegółowo

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com 13 + 13 LAT DOŚWIADCZENIA PONAD 480 ZREALIZOWANYCH PROJEKTÓW PARTNERSTWO Naszą ambicją jest dostarczać klientom szeroki

Bardziej szczegółowo

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO Spis treści Przedmowa Podziękowania O książce Rozdział 1. Nowy paradygmat dla Big Data 1.1. Zawartość książki 1.2. Skalowanie tradycyjnej bazy danych 1.2.1. Skalowanie za pomocą kolejki 1.2.2. Skalowanie

Bardziej szczegółowo

Architektura rozproszonych magazynów danych

Architektura rozproszonych magazynów danych Big data Big data, large data cloud. Rozwiązania nastawione na zastosowanie w wielkoskalowych serwisach, np. webowych. Stosowane przez Google, Facebook, itd. Architektura rozproszonych magazynów danych

Bardziej szczegółowo

PLNOG#10 Hadoop w akcji: analiza logów 1

PLNOG#10 Hadoop w akcji: analiza logów 1 PLNOG#10 Hadoop w akcji: analiza logów 1 Hadoop w akcji: analiza logów rkadiusz Osiński arkadiusz.osinski@allegro.pl PLNOG#10 Hadoop w akcji: analiza logów 2 genda 1. Hadoop 2. HDFS 3. YRN 4. Map & Reduce

Bardziej szczegółowo

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Instalacja SQL Server Express. Logowanie na stronie Microsoftu Instalacja SQL Server Express Logowanie na stronie Microsoftu Wybór wersji do pobrania Pobieranie startuje, przechodzimy do strony z poradami. Wypakowujemy pobrany plik. Otwiera się okno instalacji. Wybieramy

Bardziej szczegółowo

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało   (hasło: BIG) Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Zaliczenie: Praca na zajęciach Egzamin Projekt/esej zaliczeniowy Plan zajęć # TEMATYKA ZAJĘĆ

Bardziej szczegółowo

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017 Analityka danych w środowisku Hadoop Piotr Czarnas, 5 czerwca 2017 Pytania stawiane przez biznes 1 Jaka jest aktualnie sytuacja w firmie? 2 Na czym jeszcze możemy zarobić? Które procesy możemy usprawnić?

Bardziej szczegółowo

Wykład XII. optymalizacja w relacyjnych bazach danych

Wykład XII. optymalizacja w relacyjnych bazach danych Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych

Bardziej szczegółowo

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java Informatyka I Standard JDBC Programowanie aplikacji bazodanowych w języku Java dr inż. Andrzej Czerepicki Politechnika Warszawska Wydział Transportu 2017 Standard JDBC Java DataBase Connectivity uniwersalny

Bardziej szczegółowo

Definicja. Not Only SQL

Definicja. Not Only SQL Definicja Not Only SQL Baza danych NoSQL to program zapewniający szybki dostęp do danych różniący się w jakiś sposób od stadardowych baz RDBMS. Baza NoSQL to szereg różnych rozwiązań nazwanych jednym określeniem.

Bardziej szczegółowo

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Big Data to skalowalność i prostota obsługi wielkich ilości danych! Obsługa aplikacji, które operują na ogromnych zbiorach danych, czyli na przykład portali społecznościowych, przekracza możliwości zwykłych relacyjnych baz. Praca ze złożonymi zbiorami danych wymaga architektury

Bardziej szczegółowo

Z-ID-608b Bazy danych typu Big Data Big Data Databases. Specjalnościowy Obowiązkowy Polski Semestr VI

Z-ID-608b Bazy danych typu Big Data Big Data Databases. Specjalnościowy Obowiązkowy Polski Semestr VI KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angieskim Obowiązuje od roku akademickiego 015/016 Z-ID-608b Bazy danych typu Big Data Big Data Databases A. USYTUOWANIE MODUŁU

Bardziej szczegółowo

Język R : kompletny zestaw narzędzi dla analityków danych / Hadley Wickham, Garrett Grolemund. Gliwice, cop Spis treści

Język R : kompletny zestaw narzędzi dla analityków danych / Hadley Wickham, Garrett Grolemund. Gliwice, cop Spis treści Język R : kompletny zestaw narzędzi dla analityków danych / Hadley Wickham, Garrett Grolemund. Gliwice, cop. 2018 Spis treści Wstęp 9 Część I. Przegląd 21 1. Wizualizacja danych za pomocą pakietu ggplot2

Bardziej szczegółowo

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod

Bardziej szczegółowo

Programowanie obiektowe

Programowanie obiektowe Programowanie obiektowe Wykład 13 Marcin Młotkowski 27 maja 2015 Plan wykładu Trwałość obiektów 1 Trwałość obiektów 2 Marcin Młotkowski Programowanie obiektowe 2 / 29 Trwałość (persistence) Definicja Cecha

Bardziej szczegółowo

DEKLARATYWNE ZARZĄDZANIE W MICROSOFT SQL SERVER

DEKLARATYWNE ZARZĄDZANIE W MICROSOFT SQL SERVER DEKLARATYWNE ZARZĄDZANIE W MICROSOFT SQL SERVER Na podstawie artykułu: Hongfei Guo Dan Jones Jennifer Beckmann Praveen Seshadri Declarative Management in Microsoft SQL Server Marek Wittkowski Nowe podejście

Bardziej szczegółowo

FORMULARZ OFERTY CENOWEJ. Future Processing Sp. z o.o. ul. Bojkowska 37A Gliwice NIP: NIP:

FORMULARZ OFERTY CENOWEJ. Future Processing Sp. z o.o. ul. Bojkowska 37A Gliwice NIP: NIP: Załącznik nr 1 do Zapytania ofertowego FORMULARZ OFERTY CENOWEJ Wykonawca: Zamawiający: Future Processing Sp. z o.o. ul. Bojkowska 37A 44-100 Gliwice NIP: NIP: 634-25-32-128 Nawiązując do ogłoszenia o

Bardziej szczegółowo

Programowanie MorphX Ax

Programowanie MorphX Ax Administrowanie Czym jest system ERP? do systemu Dynamics Ax Obsługa systemu Dynamics Ax Wyszukiwanie informacji, filtrowanie, sortowanie rekordów IntelliMorph : ukrywanie i pokazywanie ukrytych kolumn

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Map-Reduce system Single-node architektura 3 Przykład Googla 4 10 miliardów stron internetowych Średnia

Bardziej szczegółowo

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych Szkolenie wycofane z oferty Program szkolenia: Apache Cassandra - modelowanie, wydajność, analiza danych Informacje: Nazwa: Kod: Kategoria: Grupa docelowa: Czas trwania: Forma: Apache Cassandra - modelowanie,

Bardziej szczegółowo

Iwona Milczarek, Małgorzata Marcinkiewicz, Tomasz Staszewski. Poznań, 30.09.2015

Iwona Milczarek, Małgorzata Marcinkiewicz, Tomasz Staszewski. Poznań, 30.09.2015 Iwona Milczarek, Małgorzata Marcinkiewicz, Tomasz Staszewski Poznań, 30.09.2015 Plan Geneza Architektura Cechy Instalacja Standard SQL Transakcje i współbieżność Indeksy Administracja Splice Machince vs.

Bardziej szczegółowo

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop. 2016 Spis treści O autorach 11 Podziękowania 12 Część I Wprowadzenie do języka SQL 13 Godzina 1. Witamy w świecie języka SQL 15

Bardziej szczegółowo

Systemy GIS Tworzenie zapytań w bazach danych

Systemy GIS Tworzenie zapytań w bazach danych Systemy GIS Tworzenie zapytań w bazach danych Wykład nr 6 Analizy danych w systemach GIS Jak pytać bazę danych, żeby otrzymać sensowną odpowiedź......czyli podstawy języka SQL INSERT, SELECT, DROP, UPDATE

Bardziej szczegółowo

Informatyka I. Programowanie aplikacji bazodanowych w języku Java. Standard JDBC.

Informatyka I. Programowanie aplikacji bazodanowych w języku Java. Standard JDBC. Informatyka I Programowanie aplikacji bazodanowych w języku Java. Standard JDBC. dr hab. inż. Andrzej Czerepicki Politechnika Warszawska Wydział Transportu 2019 Standard JDBC Java DataBase Connectivity

Bardziej szczegółowo

Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska

Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska Wstęp Biblioteki Pandas Scikit-learn Plotnine Jupyter Zadanie Eksploracja danych w Pythonie 2 Popularny język programowania Prosta składnia

Bardziej szczegółowo

Zakres tematyczny dotyczący kursu PHP i MySQL - Podstawy pracy z dynamicznymi stronami internetowymi

Zakres tematyczny dotyczący kursu PHP i MySQL - Podstawy pracy z dynamicznymi stronami internetowymi Zakres tematyczny dotyczący kursu PHP i MySQL - Podstawy pracy z dynamicznymi stronami internetowymi 1 Rozdział 1 Wprowadzenie do PHP i MySQL Opis: W tym rozdziale kursanci poznają szczegółową charakterystykę

Bardziej szczegółowo

BASH - WPROWADZENIE Bioinformatyka 4

BASH - WPROWADZENIE Bioinformatyka 4 BASH - WPROWADZENIE Bioinformatyka 4 DLACZEGO BASH? Praca na klastrach obliczeniowych Brak GUI Środowisko programistyczne Szybkie przetwarzanie danych Pisanie własnych skryptów W praktyce przetwarzanie

Bardziej szczegółowo

Narzędzia i trendy Big Data

Narzędzia i trendy Big Data Narzędzia i trendy Big Data 1 Zamiast wstępu Model relacyjny 1970: podwaliny teoretyczne modelu 1980: SQL hype 1990: upowszechnienie standardu i narzędzi Model map-reduce 1995: koncepcja przetwarzania

Bardziej szczegółowo

VMware vsphere: Automation Fast Track

VMware vsphere: Automation Fast Track Kod szkolenia: Tytuł szkolenia: HK989S VMware vsphere: Automation Fast Track Dni: 5 Opis: Adresaci szkolenia Kurs jest przeznaczony dla: Cel szkolenia Administratorów systemowych Inżynierów systemowych

Bardziej szczegółowo

Niezawodne usługi outsourcingowe na przykładzie usług kampusowych i Krajowego Magazynu Danych w sieci PIONIER

Niezawodne usługi outsourcingowe na przykładzie usług kampusowych i Krajowego Magazynu Danych w sieci PIONIER Niezawodne usługi outsourcingowe na przykładzie usług kampusowych i Krajowego Magazynu Danych w sieci PIONIER Prof. Roman Wyrzykowski, Politechnika Częstochowska Rafał Mikołajczak, Marek Zawadzki Poznańskie

Bardziej szczegółowo

Hadoop - wprowadzenie. Łukasz Król

Hadoop - wprowadzenie. Łukasz Król Hadoop - wprowadzenie Łukasz Król Hadoop - wprowadzenie obszar działalności: hurtownie danych programowanie ETL Business Intelligence Big Data programowanie obliczeń rozproszonych uczenie maszynowe statystyka

Bardziej szczegółowo

Tematy projektów Edycja 2019

Tematy projektów Edycja 2019 Tematy projektów Edycja 2019 Robert Wrembel Poznan University of Technology Institute of Computing Science Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Temat 1 Implementacja modelu predykcji

Bardziej szczegółowo

Biuletyn techniczny. CDN OPT!MA 8.5 Wskazówki dotyczące instalacji programu. Copyright 2006 COMARCH SA

Biuletyn techniczny. CDN OPT!MA 8.5 Wskazówki dotyczące instalacji programu. Copyright 2006 COMARCH SA Biuletyn techniczny CDN OPT!MA 8.5 Wskazówki dotyczące instalacji programu Copyright 2006 COMARCH SA Spis treści 1 SPIS TREŚCI...2 2 DRIVER ODBC POWODUJĄCY BŁĄD PRZY WYKONYWANIU WYDRUKÓW REPORT WRITER

Bardziej szczegółowo

Map Reduce Wprowadzenie do Apache Hadoop

Map Reduce Wprowadzenie do Apache Hadoop Map Reduce Wprowadzenie do Apache Hadoop 8 maja 2014 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne

Bardziej szczegółowo

Język SQL. Rozdział 7. Zaawansowane mechanizmy w zapytaniach

Język SQL. Rozdział 7. Zaawansowane mechanizmy w zapytaniach Język SQL. Rozdział 7. Zaawansowane mechanizmy w zapytaniach Ograniczanie rozmiaru zbioru wynikowego, klauzula WITH, zapytania hierarchiczne. 1 Ograniczanie liczności zbioru wynikowego (1) Element standardu

Bardziej szczegółowo

CZY TWOJE ŚRODOWISKO PLIKOWE RÓWNIEŻ ROŚNIE SZYBCIEJ NIŻ BAZODANOWE?

CZY TWOJE ŚRODOWISKO PLIKOWE RÓWNIEŻ ROŚNIE SZYBCIEJ NIŻ BAZODANOWE? 1 CZY TWOJE ŚRODOWISKO PLIKOWE RÓWNIEŻ ROŚNIE SZYBCIEJ NIŻ BAZODANOWE? STAN OBECNY I WYZWANIA Z informacji otrzymanych od naszych Klientów wynika, że dotychczasowe rozwiązania w zakresie przechowywania

Bardziej szczegółowo

Dostęp do baz danych przy wykorzystaniu interfejsu ROracle i biblioteki Shiny

Dostęp do baz danych przy wykorzystaniu interfejsu ROracle i biblioteki Shiny Dostęp do baz danych przy wykorzystaniu interfejsu ROracle i biblioteki Shiny 1 Wprowadzenie W opisie zadań wykorzystano środowisko programistyczne rstudio (wersja 1.0.136). Celem ćwiczenia jest zapoznanie

Bardziej szczegółowo

Uniwersytet Mikołaja Kopernika. Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej

Uniwersytet Mikołaja Kopernika. Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Marcin HENRYKOWSKI Nr albumu: 158069 Praca magisterska na kierunku Informatyka Archiwizacja

Bardziej szczegółowo

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi Systemy baz danych w zarządzaniu przedsiębiorstwem W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi Proces zarządzania danymi Zarządzanie danymi obejmuje czynności: gromadzenie

Bardziej szczegółowo

Big Data & Analytics

Big Data & Analytics Big Data & Analytics Optymalizacja biznesu Autor: Wiktor Jóźwicki, Scapaflow Senior Consultant Data wydania: 05.02.2014 Wprowadzenie Niniejszy dokument przedstawia zagadnienie Big Data w ujęciu zapotrzebowania

Bardziej szczegółowo

Instytut Informatyki Politechniki Warszawskiej

Instytut Informatyki Politechniki Warszawskiej Instytut Informatyki Politechniki Warszawskiej Cele Stworzenie korzystnych warunków rekrutacyjnych dla uczestników oraz partnerów biznesowych projektu Dostarczenie w krótkim czasie umiejętności w obszarach

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

Tworzenie oprogramowania

Tworzenie oprogramowania Tworzenie oprogramowania dr inż. Krzysztof Konopko e-mail: k.konopko@pb.edu.pl 1 Tworzenie oprogramowania dla systemów wbudowanych Program wykładu: Tworzenie aplikacji na systemie wbudowanym. Konfiguracja

Bardziej szczegółowo

Oracle11g: Wprowadzenie do SQL

Oracle11g: Wprowadzenie do SQL Oracle11g: Wprowadzenie do SQL OPIS: Kurs ten oferuje uczestnikom wprowadzenie do technologii bazy Oracle11g, koncepcji bazy relacyjnej i efektywnego języka programowania o nazwie SQL. Kurs dostarczy twórcom

Bardziej szczegółowo

System. Instalacja bazy danych MySQL. Autor : Piotr Zielonka tel Piotrków Tryb., sierpień 2018r.

System. Instalacja bazy danych MySQL. Autor : Piotr Zielonka tel Piotrków Tryb., sierpień 2018r. System FOKUS Instalacja bazy danych MySQL Autor : Piotr Zielonka tel. 601 99-73-79 pomoc@zielonka.info.pl Piotrków Tryb., sierpień 2018r. W wersji 2018.7.0 systemu FoKus wprowadzono funkcje umożliwiające

Bardziej szczegółowo

Administracja bazami danych

Administracja bazami danych Administracja bazami danych dr inż. Grzegorz Michalski Na podstawie wykładów dra inż. Juliusza Mikody Klient tekstowy mysql Program mysql jest prostym programem uruchamianym w konsoli shell do obsługi

Bardziej szczegółowo

Program szkolenia: Jenkins - Continuous Integration

Program szkolenia: Jenkins - Continuous Integration Program szkolenia: Jenkins - Continuous Integration Informacje: Nazwa: Kod: Kategoria: Grupa docelowa: Czas trwania: Forma: Jenkins - Continuous Integration tools-jenkins-ci Narzędzia developerzy DevOps

Bardziej szczegółowo

Sprzętowo wspomagane metody klasyfikacji danych

Sprzętowo wspomagane metody klasyfikacji danych Sprzętowo wspomagane metody klasyfikacji danych Jakub Botwicz Politechnika Warszawska, Instytut Telekomunikacji Plan prezentacji 1. Motywacje oraz cele 2. Problemy klasyfikacji danych 3. Weryfikacja integralności

Bardziej szczegółowo

Automatyzacja procesów biznesowych Andrzej Sobecki. ESB Enterprise service bus

Automatyzacja procesów biznesowych Andrzej Sobecki. ESB Enterprise service bus Automatyzacja procesów biznesowych Andrzej Sobecki ESB Enterprise service bus Plan prezentacji Zdefiniowanie problemu Możliwe rozwiązania Cechy ESB JBI Normalizacja wiadomości w JBI Agile ESB Apache ServiceMix

Bardziej szczegółowo

SQL SERVER 2012 i nie tylko:

SQL SERVER 2012 i nie tylko: SQL SERVER 2012 i nie tylko: Wstęp do planów zapytań Cezary Ołtuszyk coltuszyk.wordpress.com Kilka słów o mnie Starszy Administrator Baz Danych w firmie BEST S.A. (Bazy danych > 1TB) Konsultant z zakresu

Bardziej szczegółowo

LIDERZY DATA SCIENCE CENTRUM TECHNOLOGII ICM CENTRUM TECHNOLOGII ICM ICM UW TO NAJNOWOCZEŚNIEJSZY OŚRODEK DATA SCIENCE W EUROPIE ŚRODKOWEJ.

LIDERZY DATA SCIENCE CENTRUM TECHNOLOGII ICM CENTRUM TECHNOLOGII ICM ICM UW TO NAJNOWOCZEŚNIEJSZY OŚRODEK DATA SCIENCE W EUROPIE ŚRODKOWEJ. ROZUMIEĆ DANE 1 Pozyskiwanie wartościowych informacji ze zbiorów danych to jedna z kluczowych kompetencji warunkujących przewagę konkurencyjną we współczesnej gospodarce. Jednak do efektywnej i wydajnej

Bardziej szczegółowo

Licencjonowanie System Center 2012 R2

Licencjonowanie System Center 2012 R2 Licencjonowanie Opis produktu Microsoft zapewnia rozwiązania służące do zarządzania zasobami centrów przetwarzania danych, prywatnymi chmurami obliczeniowymi i urządzeniami klienckimi. Zarządzanie prywatną

Bardziej szczegółowo

Metody optymalizacji soft-procesorów NIOS

Metody optymalizacji soft-procesorów NIOS POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Technik Informacyjnych Instytut Telekomunikacji Zakład Podstaw Telekomunikacji Kamil Krawczyk Metody optymalizacji soft-procesorów NIOS Warszawa, 27.01.2011

Bardziej szczegółowo

Tematy prac dyplomowych inżynierskich

Tematy prac dyplomowych inżynierskich inżynierskich Oferujemy możliwość realizowania poniższych tematów w ramach projektu realizowanego ze środków Narodowego Centrum Badań i Rozwoju. Najlepszym umożliwimy realizację pracy dyplomowej w połączeniu

Bardziej szczegółowo

Apache Hadoop framework do pisania aplikacji rozproszonych

Apache Hadoop framework do pisania aplikacji rozproszonych Apache Hadoop framework do pisania aplikacji rozproszonych Piotr Praczyk Wprowadzenie Istnieje wiele rodzajów obliczeń, których wykonywanie na pojedynczej maszynie, nawet najpotężniejszej, jest zbyt czasochłonne.

Bardziej szczegółowo

T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15

T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15 T-SQL dla każdego / Alison Balter. Gliwice, cop. 2016 Spis treści O autorce 11 Dedykacja 12 Podziękowania 12 Wstęp 15 Godzina 1. Bazy danych podstawowe informacje 17 Czym jest baza danych? 17 Czym jest

Bardziej szczegółowo

Temat : SBQL 1 obiektowy język zapytań.

Temat : SBQL 1 obiektowy język zapytań. Laboratorium Języki i środowiska przetwarzania danych rozproszonych Temat : SBQL 1 obiektowy język zapytań. Historia zmian Data Wersja Autor Opis zmian 23.4.2012 1.0 Tomasz Kowalski Utworzenie dokumentu

Bardziej szczegółowo

Podstawy programowania. Wprowadzenie

Podstawy programowania. Wprowadzenie Podstawy programowania Wprowadzenie Proces tworzenia programu Sformułowanie problemu funkcje programu zakres i postać danych postać i dokładność wyników Wybór / opracowanie metody rozwiązania znaleźć matematyczne

Bardziej szczegółowo

Wykład Ćwiczenia Laboratorium Projekt Seminarium

Wykład Ćwiczenia Laboratorium Projekt Seminarium WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim Języki programowania Nazwa w języku angielskim Programming languages Kierunek studiów (jeśli dotyczy): Informatyka - INF Specjalność (jeśli dotyczy):

Bardziej szczegółowo

dr inż. Konrad Sobolewski Politechnika Warszawska Informatyka 1

dr inż. Konrad Sobolewski Politechnika Warszawska Informatyka 1 dr inż. Konrad Sobolewski Politechnika Warszawska Informatyka 1 Cel wykładu Definicja, miejsce, rola i zadania systemu operacyjnego Klasyfikacja systemów operacyjnych Zasada działanie systemu operacyjnego

Bardziej szczegółowo

Środowisko programisty. Środowisko programisty 1/35

Środowisko programisty. Środowisko programisty 1/35 Środowisko programisty Środowisko programisty 1/35 Środowisko programisty 2/35 Literatura 1. Butcher P., Debugowanie. Jak wyszukiwać i naprawiać błędy w kodzie oraz im zapobiegać, Helion, Gliwice 2010

Bardziej szczegółowo

OMEGA-PSIR na Uniwersytecie Gdańskim

OMEGA-PSIR na Uniwersytecie Gdańskim OMEGA-PSIR na Uniwersytecie Gdańskim doświadczenia z wdrożenia V Ogólnopolskie Seminarium użytkowników Uczelnianych Baz Wiedzy Warszawa 2018 Biblioteka Uniwersytetu Gdańskiego Uniwersytet Gdański repozytorium.bg.ug.edu.pl

Bardziej szczegółowo

Program szkoleniowy Efektywni50+ Moduł V Raportowanie dla potrzeb analizy danych

Program szkoleniowy Efektywni50+ Moduł V Raportowanie dla potrzeb analizy danych Program szkoleniowy Efektywni50+ Moduł V Raportowanie dla potrzeb analizy danych 1 Wprowadzenie do technologii MS SQL Server 2012 Reporting Services. 2h Podstawowym zadaniem omawianej jednostki lekcyjnej

Bardziej szczegółowo

NoSQL & relax with CouchDB

NoSQL & relax with CouchDB NoSQL & relax with PyWaw #23 8 kwiecień 2013 Agenda 1 NoSQL - nierelacyjne systemy baz danych Wprowadzenie do NoSQL Rodzaje i porównanie baz NoSQL Polyglot persistence 2 Projekt w CERN wykorzystujacy 3

Bardziej szczegółowo

IBM SPSS Statistics Wersja 22. Linux - Instrukcja instalacji (licencja wielokrotna)

IBM SPSS Statistics Wersja 22. Linux - Instrukcja instalacji (licencja wielokrotna) IBM SPSS Statistics Wersja 22 Linux - Instrukcja instalacji (licencja wielokrotna) Spis treści Instrukcja instalacji.......... 1 Wymagania systemowe........... 1 Instalowanie produktu............ 1 Praca

Bardziej szczegółowo

Firebird Alternatywa dla popularnych darmowych systemów bazodanowych MySQL i Postgres

Firebird Alternatywa dla popularnych darmowych systemów bazodanowych MySQL i Postgres Firebird Alternatywa dla popularnych darmowych systemów bazodanowych MySQL i Postgres Artur Kozubski Software Development GigaCon Warszawa 2008 Plan Historia projektu Firebird Architektura serwera Administracja

Bardziej szczegółowo

ActiveXperts SMS Messaging Server

ActiveXperts SMS Messaging Server ActiveXperts SMS Messaging Server ActiveXperts SMS Messaging Server to oprogramowanie typu framework dedykowane wysyłaniu, odbieraniu oraz przetwarzaniu wiadomości SMS i e-mail, a także tworzeniu własnych

Bardziej szczegółowo

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0 Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga

Bardziej szczegółowo

OpenContrail jako wtyczka do OpenStacka. Bartosz Górski, Paweł Banaszewski CodiLime

OpenContrail jako wtyczka do OpenStacka. Bartosz Górski, Paweł Banaszewski CodiLime OpenContrail jako wtyczka do OpenStacka Bartosz Górski, Paweł Banaszewski CodiLime Kim jesteśmy? Bartosz Górski studiował Informatykę na Uniwersytecie Warszawskim Software Developer i Project Manager w

Bardziej szczegółowo

Wymagania edukacyjne z informatyki w klasie VIII

Wymagania edukacyjne z informatyki w klasie VIII Wymagania edukacyjne z informatyki w klasie VIII Wymagania konieczne K dotyczą zagadnień elementarnych, stanowiących swego rodzaju podstawę, powinien je zatem opanować każdy uczeń. Wymagania podstawowe

Bardziej szczegółowo

Klaster obliczeniowy

Klaster obliczeniowy Warsztaty promocyjne Usług kampusowych PLATON U3 Klaster obliczeniowy czerwiec 2012 Przemysław Trzeciak Centrum Komputerowe Politechniki Łódzkiej Agenda (czas: 20min) 1) Infrastruktura sprzętowa wykorzystana

Bardziej szczegółowo

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2007/08 Studia uzupełniajace magisterskie

Bardziej szczegółowo

SQL Server 2016 w świecie Big Data

SQL Server 2016 w świecie Big Data temat prelekcji.. SQL Server 2016 w świecie Big Data prowadzący Bartłomiej Graczyk Data Platform Solution Architect bartlomiej.graczyk@microsoft.com bartek@graczyk.info.pl Agenda Dane na świecie wczoraj,

Bardziej szczegółowo

Część I Rozpoczęcie pracy z usługami Reporting Services

Część I Rozpoczęcie pracy z usługami Reporting Services Spis treści Podziękowania... xi Wprowadzenie... xiii Część I Rozpoczęcie pracy z usługami Reporting Services 1 Wprowadzenie do usług Reporting Services... 3 Platforma raportowania... 3 Cykl życia raportu...

Bardziej szczegółowo

Systemy plików FAT, FAT32, NTFS

Systemy plików FAT, FAT32, NTFS Systemy plików FAT, FAT32, NTFS SYSTEM PLIKÓW System plików to sposób zapisu informacji na dyskach komputera. System plików jest ogólną strukturą, w której pliki są nazywane, przechowywane i organizowane.

Bardziej szczegółowo

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A. Seeon Enterprise Search Engine Rozwiązanie obsługiwane przez eo Networks S.A. Seeon Enterprise Search Engine SeeOn Search Engine to kompleksowy, w pełni gotowy do wdrożenia silnik wyszukiwania dedykowany

Bardziej szczegółowo

Język JAVA podstawy. wykład 1, część 2. Jacek Rumiński. Politechnika Gdańska, Inżynieria Biomedyczna

Język JAVA podstawy. wykład 1, część 2. Jacek Rumiński. Politechnika Gdańska, Inżynieria Biomedyczna Język JAVA podstawy wykład 1, część 2 1 Język JAVA podstawy Plan wykładu: 1. Krótka historia Javy 2. Jak przygotować sobie środowisko programistyczne 3. Opis środowiska JDK 4. Tworzenie programu krok po

Bardziej szczegółowo

Budowanie interfejsów do baz danych

Budowanie interfejsów do baz danych Budowanie interfejsów do baz danych Wprowadzenie Organizacja zajęć O sobie O Projekcie Termin rozpoczęcia Tematyka (propozycje?) Narzędzia (pendrive lub hosting) 2008 Szczepan Bednarz 2 z 20 Bazy danych

Bardziej szczegółowo

Struktury systemów operacyjnych

Struktury systemów operacyjnych Struktury systemów operacyjnych Jan Tuziemski Część slajdów to zmodyfiowane slajdy ze strony os-booi.com copyright Silberschatz, Galvin and Gagne, 2013 Cele wykładu 1. Opis usług dostarczanych przez OS

Bardziej szczegółowo

QUERY język zapytań do tworzenia raportów w AS/400

QUERY język zapytań do tworzenia raportów w AS/400 QUERY język zapytań do tworzenia raportów w AS/400 Dariusz Bober Katedra Informatyki Politechniki Lubelskiej Streszczenie: W artykule przedstawiony został język QUERY, standardowe narzędzie pracy administratora

Bardziej szczegółowo

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Hurtownie danych - przegląd technologii Problematyka zasilania hurtowni danych - Oracle Data Integrator Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel

Bardziej szczegółowo

IBM SPSS Statistics - Essentials for Python: Instrukcje instalacji dla Windows

IBM SPSS Statistics - Essentials for Python: Instrukcje instalacji dla Windows IBM SPSS Statistics - ssentials for Python: Instrukcje instalacji dla Windows Przedstawione poniżej instrukcje dotyczą instalowania IBM SPSS Statistics - ssentials for Python w systemach operacyjnych Windows.

Bardziej szczegółowo

WEBCON Business Process Suite 7.7. Lista zmian i nowych funkcjonalności

WEBCON Business Process Suite 7.7. Lista zmian i nowych funkcjonalności WEBCON Business Process Suite 7.7 Lista zmian i nowych funkcjonalności Wersja 7.7 systemu WEBCON Business Process Suite niesie ze nową funkcjonalność i znaczące usprawnienia. Całkowitą nowością jest wprowadzenie

Bardziej szczegółowo