Hurtownie danych - przegląd technologii

Podobne dokumenty
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Wielowymiarowy model danych

Część I Istota analizy biznesowej a Analysis Services

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Integracja systemów transakcyjnych

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Problematyka zasilania hurtowni danych - procesy ETL. Robert Wrembel Politechnika Poznańska, Instytut Informatyki

Architektury i technologie integracji danych

Spis tre±ci. Przedmowa... Cz ± I

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Modele danych - wykład V

Spis treści. Przedmowa

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

OLAP i hurtownie danych c.d.

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Specjalizacja magisterska Bazy danych

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Hurtownie danych wykład 3

Systemy baz danych i hurtowni danych

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Szczegółowy opis przedmiotu zamówienia

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych - przegląd technologii

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki

Bazy danych. Plan wykładu. Diagramy ER. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych

"Kilka słów" o strojeniu poleceń SQL w kontekście Hurtowni Danych wprowadzenie. Krzysztof Jankiewicz

Kostki OLAP i język MDX

Tematy projektów Edycja 2014

Alicja Marszałek Różne rodzaje baz danych

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Oracle11g: Wprowadzenie do SQL

Hurtownie danych a transakcyjne bazy danych

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Podrozdziały te powinny zawierać informacje istotne z punktu widzenia przyjętego celu pracy

Tematy projektów Edycja 2017

Hurtownie danych w praktyce

Model semistrukturalny

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Co to jest Business Intelligence?

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Teoretyczne podstawy informatyki

Hurtownie danych. 31 stycznia 2017

Pojęcie bazy danych. Funkcje i możliwości.

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Strumieniowe bazy danych

Projektowanie bazy danych. Jarosław Kuchta Projektowanie Aplikacji Internetowych

Szkolenia SAS Cennik i kalendarz 2017

GML w praktyce geodezyjnej

Zaawansowane Systemy Baz Danych

Model przestrzenny Diagramu Obiegu Dokumentów. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

Optymalizacja poleceń SQL Wprowadzenie

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Opisy efektów kształcenia dla modułu

Zaawansowane bazy danych i hurtownie danych Wydział Informatyki Politechnika Białostocka

Strumieniowe bazy danych. Piotr i Paweł

MODELOWANIE PRZEPŁYWU DANYCH

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Optymalizacja poleceń SQL

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

LITERATURA. Wprowadzenie do systemów baz danych C.J.Date; WNT Warszawa 2000

Hurtownie danych i przetwarzanie analityczne - projekt

Funkcjonalność systemów zarządzania bazami danych przestrzennych w kartografii internetowej (PosrtgreSQL/PostGIS) Krzysztof Kuśnierek

MODELOWANIE SIECI DYSTRYBUCYJNEJ DO OBLICZEŃ STRAT ENERGII WSPOMAGANE SYSTEMEM ZARZĄDZANIA MAJĄTKIEM SIECIOWYM

Bazy danych i ich aplikacje

mail: strona: konsultacje: na stronie (po wcześniejszym umówieniu drogą mailową)

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Opis spełnienia wymagań (PSBD)

Problematyka hurtowni danych

Wykład I. Wprowadzenie do baz danych

Tworzenie zapytań do Microsoft SQL Server

Relacyjne bazy danych a XML

BalticBottomBase. Instytut Morski w Gdańsku Gdańsk,

Schematy logiczne dla hurtowni danych

K1A_W11, K1A_W18. Egzamin. wykonanie ćwiczenia lab., sprawdzian po zakończeniu ćwiczeń, egzamin, K1A_W11, K1A_W18 KARTA PRZEDMIOTU

Bazy danych. Dr Henryk Telega. BD 10/11 Wykład 1 1

Transkrypt:

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Kierunki rozwoju Półautomatyczne konstruowanie schematów HD Ewolucja HD temporalne i wielowersyjne HD ETL optymalizacja ETL ETL czasu rzeczywistego ewolucja ETL konstruowanie ETL dla źródeł o złożonych strukturach Magazynowanie i przetwarzanie danych złożonych HD XML przestrzenny OLAP (Spatial OLAP) analiza danych strumieniowych (data streams) HD dla bio-informatyki Integracja HD 2

Konstruowanie schematu HD Modelowanie konceptualne model związków-encji UML i rozszerzenia stereotypów Koncentracja na wymagania użytkowników (user/demand driven) - podejście tradycyjne analiza wymagań wywiady z użytkownikami realizowane przez analityków uwzględnia cele biznesowe Koncentracja na strukturę i zawartość źródeł (source/supply/data driven) schemat HD odzwierciedla strukturę źródeł automatyczne konstruowanie nie uwzględnia celów biznesowych 3 Konstruowanie schematu HD Półautomatycznie na podstawie struktury systemów źródłowych Song I.-Y., Khare R., Dai B.: SAMSTAR: a semi-automated lexical method for generating star schemas from an entity-relationship diagram. DOLAP, 2007 Romero O., Abello A.: Automating Multidimensional Design from Ontologies. DOLAP, 2007 Phipps D., Davis K.: Automating Data Warehouse Conceptual Schema Design and Evaluation. DMDW, 2002 Jensen M, Holmgren R., Pedersen T.B.: Discovering Multidimensional Structure in Relational Data. DAWAK, 2004 4

Konstruowanie schematu HD SAMSTAR półautomatyczne generowanie schematu ER HD analiza struktury schematu źródłowego (zw-encji) + korekta projektanta Kroki znalezienie faktów i bezpośrednich poziomów (automat.) znalezienie przechodnich poziomów (automat.) wybór faktów (projektant) wybór wymiarów dla wskazanych faktów (automat.) wykorzystanie WordNet - poszukiwanie synonimów wykorzystanie Dimensional Design Pattern (DDP) - określenie struktury wymiarów DDP - zbiór ponad 100 wzorców typowych wymiarów 5 SAMSTAR Reguły wyboru faktów i poziomów encje po stronie związków kardynalności M kandydaci faktów encje po stronie związków kardynalności 1 kandydaci poziomów Bezpośredni i pośredni poziom CTV (Connection Topology Value) C suma ważona poziomów bezpośrednich i pośrednich (tranzytywnie dla pośrednich) waga poziomu bezpośredniego > waga poziomu pośredniego obliczana dla każdej encji w schemacie źródłowym A B D 6

SAMSTAR Obliczenie CTV A B E H D C F G 7 SAMSTAR Encje dla których CTV > h są encjami faktów Pozostałe encje to kandydaci do wymiarów k współczynnik systemowy, dobierany przez projektanta; wraz ze wzrostem wartości maleje liczba proponowanych encji faktów (w praktyce 1.5-1.75) Pozostałe encje to kandydaci do wymiarów Encje faktów mogą mieć tę samą semantykę ale różne nazwy zastosowanie WordNet do poszukiwania synonimów 8

SAMSTAR Kandydaci wymiarów to: encje poziomów bezpośrednich od strony związku 1 powiązane związkiem kardynalności M z encjami faktów encje poziomów pośrednich Budowanie wymiarów encje poziomów mogą mieć tę samą semantykę ale różne nazwy zastosowanie WordNet do poszukiwania synonimów zastosowanie Dimension Design Pattern do zbudowania hierarchii wymiarów dodanie wymiaru czasu na podstawie DDP Akceptacja schematu przez projektanta (manualnie) ewentualna modyfikacja otrzymanego schematu przez projektanta 9 Ewolucja HD Zmiany w strukturze/schemacie źródła danych Zmiany organizacyjne (podział terytorialny, struktura organizacyjna, reklasyfikacja) Zmiany wymagań użytkowników Symulowanie scenariuszy biznesowych 10

Ewolucja HD - przykład (1) Zmiana granic administracyjnych województw porównanie sumy sprzedaży czekolady w poszczególnych województwach, w latach 1998, 1999 znaczny wzrost sprzedaży po roku 1999 1. Białopodlaskie 2. Białostockie 3. Bielskie 1. Dolnośląskie... 2. Kujawsko-Pomorskie... 3. Lubelskie...... 47. Wrocławskie 14. Warmińsko-Mazurskie 48. Zamojskie 15. Wielkopolskie 49. Zielonogórskie 16. Zachodniopomorskie 11 Ewolucja HD - przykład (2) Przyporządkowanie produktów do kategorii 1 maja 2004 V1 V2 12

Ewolucja HD Przewidywanie przyszłości i trendów biznesowych Analiza alternatywnych rozwiązań biznesowych (ang. what-if analysis) Przykład: zapytanie o spadek/wzrost łącznej kwoty mandatów płaconych w województwie wielkopolskim, przy założeniu, że minimalna i maksymalna grzywna za jazdę bez zapiętych pasów bezpieczeństwa została zwiększona o 10% 13 Temporalne HD Znaczniki czasowe ważności danych Umożliwiają przechowywanie historycznych wersji DANYCH Wersje uporządkowane liniowo brak wsparcia dla symulacji 14

Wielowersyjna HD Mechanizm rozwiązującego problemy związane z koniecznością zarządzania zmianami schematu i struktury wymiarów MVDW składa się ze zbioru trwałych wersji każda wersja posiada znaczniki czasowe początku i końca jej ważności t 1 t 2 t 3 t 4 15 Temporalne i wielowersyjne języki zapytań Przeszukiwanie danych w wersjach w zadanym przedziale czasowym Wyznaczenie wyników zapytań z poszczególnych wersji i ich integracja w jeden spójny zbiór posiadający strukturę magazynu z zadanej wersji lub momentu czasowego 16

Optymalizacja ETL Optymalizacja przez transformację przepływu zmianę kolejności elementów w przepływie zrównoleglenie zadania scalenie kilku zadań Wyznaczenie poprawnych transformacji dla zadanego przepływu Znalezienie przepływu minimalizującego czas wykonania 17/72 Przykład NotNull(kwota) Select(kwota>9000) 1 3 7 8 Sprzedaż {..., kwota, data,...} 2 Sales {..., cost, sales_date,...} 4 5 EUR2PLN KonwDaty SUM(cost,month) 6 Źródło Sprzedaż kwota [PLN] data [yyyy-mm-dd] przechowuje dane nt sprzedaży miesięcznej Źródło Sales cost [EUR] sales_date [dd/mm/yy] przechowuje dane nt sprzedaży dziennej 18/72

Przykład Select(kwota>9000) NotNull(kwota) 1 8 3 7 Sprzedaż {..., kwota, data,...} SUM(cost,month) Select(kwota>9000) 2 Sales {..., cost, sales_date,...} 6 4 8 5 EUR2PLN KonwDaty Przepływ niebieski selekcja jak najwcześniej (przed 3) Przepływ zielony selekcja dopiero po konwersji waluty i wyliczeniu sumy sprzedaży miesięcznej wyliczenie SUM(cost, month) możliwe przed EUR2PLN konwersja daty po odfiltrowaniu rekordów 19/72 Optymalizacja ETL Problem transformacje wyrażone w algebrze relacji (selekcja, projekcja, połączenie, op. na zbiorach) optymalizacja algebraiczna trudna optymalizacja funkcji mogą być implementowane w różnych językach programowania trudność oszacowania kosztu wykonania Systemy komercyjne przepływy ETL definiowane przez projektanta (odpowiedzialny za optymalizację) optymalizacja tylko poleceń SQL w ramach zadań ETL optymalizacja w ramach pojedynczego zadania 20/72

Optymalizacja ETL Wykonywanie niektórych operacji w systemie operacyjnym (poza bazą danych) wywołanie zewnętrznych funkcji transformacji Zmiana kolejności wykonywania operacji Minimalizacja rekordów do przetwarzania filtrowanie jak najwcześniej Wykorzystanie (materializowanie) wyników pośrednich Przetwarzanie równoległe Wykorzystanie metadanych opisujących źródło select * from klienci@zr1 where miasto='poznań' czy jest indeks na atrybucie miasto? jaka jest selektywność warunku jaki optymalizator wykorzystuje źródło odczytanie całej tabeli klienci może okazać się bardziej efektywne 21/72 Arktos II Transformacje przepływów swap - selekcja jak najwcześniej factorize - Z11 i Z12 wykonują te same operacje na 2 różnych strumieniach wejściowych wykonanie operacji na scalonym strumieniu distribute merge - logiczne grupowanie zadań, które muszą nastąpić po sobie split Z11 Z1 Z2 Z12 Z2 Z1 Z2 swap factorize distribute merge split Z2 Z1 Z2 Z1 Z 22/72

Arktos II Poprawność transformacji Swap Z1 ma jedno źródło, Z2 ma jeden cel kompatybilność schematów we/wy we.z1={b,c} i wy.z1={b,c} we.z2={b,c} i wy.z2={b,c} Factorize/Distribute Z11 i Z12 mają 1 cel Z2 (operacja na zbiorach) Z11 i Z12 realizują tę samą operację ale na innych przepływach wejściowych Z11 a b c d b c b c Z1 Z12 Z2 b c Z2 b c 23/72 Arktos II Przeszukiwanie przestrzeni dozwolonych transformacji przepływu ETL pełne (nie realizowalne w skończonym czasie dla 40 i więcej zadań) heurystyki 24/72

ETL czasu rzeczywistego Zastosowanie HD czasu rzeczywistego Cechy czas pomiędzy zmianą w źródle, a uaktualnieniem HD kilka - kilkadziesiąt minut wolumen odczytywanych i przetwarzanych danych mały w porównaniu z podejściem standardowym możliwość przetwarzania potokowego w RAM Problemy inny rodzaj przetwarzania mikro-wsadowe częstotliwość uaktualniania HD i struktur fizycznych (perspektywy zmaterializowane, indeksy) 25/72 ETL czasu rzeczywistego monitor monitor transformacja integracja mikro-wsad mikro-partycja zasilanie w czasie rzeczywistym partycja główna zasilanie w cyklu dziennym Mikro-partycja (MP) przechowuje zmiany z bieżącego dnia Zawartość MP przesyłana wsadowo do partycji głównej (PG) np. raz na dobę Pełen obraz danych MP+PG (zintegrowane np. za pomocą perspektywy) Kimball R., Caserta J.: The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning. Wiley, 2004 26/72

ETL czasu rzeczywistego monitor regulatorz regulatord regulatorh HD monitor regulatorz regulatorz - zarządza przesyłaniem danych ze źródła, (bada aktualne obciążenie źródła, czy aktualny wolumen danych zmieści się w zadanym oknie czasowym) regulatord - informuje, z którego źródła dane są gotowe do odczytania (przygotowany został wolumen danych) regulatorh - zarządza przesyłaniem danych do HD (zapewnia QoS-QoD) Vassiliadis P., Simitsis A.: Near Real Time ETL. Annals of Information Systems, Springer, 2009 27/72 Ewolucja ETL Zmiana struktury źródła danych konieczność przedefiniowania (fragmentu) procesu ETL ponowna optymalizacja procesu Problematyka wykrywania zmian w strukturze źródeł automatyczna modyfikacja procesu ETL Sellis T., Simitsis A.: ETL Workflows: From Formal Specification to Optimization. ADBIS 2007 28/72

ETL dla danych złożonychz onych Źródła danych multimedialne, GIS, XML, tekstowe bd, strony WWW Złożona struktura danych dźwięk, obraz, mapa, dokument XML, dokument tekstowy Czyszczenie danych i eliminowanie duplikatów równoważne sobie obrazy, mapy równoważne dokumenty XML (struktura i/lub zawartość) Dane o większych rozmiarach Przetwarzanie danych bardziej złożone obliczeniowo problem zakończenia procesu w zadanym czasie 29/72 Magazynowanie i analiza danych złożonychonych Obiektowo-relacyjne HD Multimedialne HD Semistrukturalne HD Magazynowanie i przetwarzanie danych ze strumieni (ang. data streams) 30

Hurtownie danych dla XML Powszechność danych XML (systemy e-...) Potrzeba analizy tych danych w sposób podobny do tradycyjnego Budowanie HD w oparciu o źródła XML Analiza danych XML Byung-Kwon Park B-K., Han H., Song I-Y.: XML-OLAP: A Multidimensional Analysis Framework for XML Warehouses. DAWAK, 2005 Boussaid O., Messaoud R.B., Choquet R., Anthoard S.: X-Warehousing : An XML- Based Approach for Warehousing Complex Data. ADBIS, 2006 Ravat F., Teste O., Tournier R., Zurlfluh Z.: Designing and Implementing OLAP Systems from XML Documents. Annals of Information Systems, Springer, 2008 31 Hurtownie danych dla XML Schemat konceptualny HD dla XML jest reprezentowany tzw. modelem galaktyki rodzaj wsp. przyjęć kraj seria miasto nazwa Konferencje Artykuły kategoria tytuł rok miesiąc dzień Czas Autorzy autor zespół instytut 32

Hurtownie danych dla XML Metodyka projektowania HD XML schemat dokumentów opisany DTD wymagania dot. analizy schemat galaktyki scalanie spójny schemat galaktyki HD Scalanie schematu galaktyki ze schematem dokumentów XML może wymagać modyfikacji galaktyki i dokumentów Dokumenty XML składowane w relacyjnej bazie danych 33 Hurtownie danych dla XML X-Warehouse transformacja dokumentów XML zgodnie z schematem konceptualnym XML drzewo atrybutów implementowane jako XML Schema 34

Hurtownie danych dla XML XML-OLAP fakty i instancje wymiarów są reprezentowane za pomocą dokumentów XML przechowywane w bazie danych XML język analizy danych XML-MDX bazujący na językach MDX i XQuery miary specyfikowane za pomocą wyrażeń XQuery - analogia do perspektywy udostępniającej jeden atrybut operatory agregacji miary dla wartości numerycznych dla wartości tekstowych podsumowanie treści główny temat n słów kluczowych Dok. XML Dok. XML Dok. XML Dok. XML Dok. XML Dok. XML Dok. XML Dok. XML 35 Przestrzenny OLAP 80% danych ma charakter przestrzenny [Gonzales L.: Seeking Spatioal Intelligence. Intelligent Enterprise Magazine, 2(3), 2000] obiekty geometryczne 2 i 3 wymiarowe mapy, zdjęcia Systemy GIS (Geographical Information Systems)/przestrzenne bazy danych wsparcie dla przetwarzania obiektów przestrzennych indeksowanie składowanie brak wparcia dla OLAP 36

Przestrzenny OLAP Analiza danych przestrzennych geografia, geologia, urbanistyka, gospodarka leśna, przemysł wydobywczy, astronomia Analiza przestrzenno-czasowa np. zmiany biegu rzek, ukształtowania terenu Przetwarzanie obrazów + analiza ich zawartości 37 Przestrzenny OLAP Zbiory danych przestrzennych United Nations Environment Program zasoby wodne, populacje, obszary leśne, emisja zanieczyszczeń, zmiany klimatyczne NASA System obserwacji ziemi NASA EOSDIS głównie zdjęcia satelitarne 1 000 TB rocznie 38

Przestrzenny OLAP Wymiar tradycyjny (dane znakowe i numeryczne) przestrzenny mięszany (poziom najniższy przestrzenny, poziomy wyższe znakowe i numeryczne) Miara numeryczna przestrzenna (np. kolekcje obiektów lub wskaźników do obiektów) 39 Problematyka P-OLAP Integracja danych źródła w różnych formatach: mapy rastrowe i wektorowe, modele obiektowe, relacyjne Nowe modele HD Nowe operacje analityczne Efektywność analiz struktury fizyczne Techniki wizualizacji na mapie politycznej, topograficznej zmienny poziom szczegółowości 40

Analiza danych strumieniowych (1) Charakterystyka dane napływające ciągle ogromne ilości Źródła sensory (procesy technologiczne, eksperymenty fizyczne) sygnały telekomunikacyjne operacje myszką w aplikacjach internetowych kursy giełdowe 41 Analiza danych strumieniowych (2) Problemy składowanie danych historycznych agregaty reprezentatywne próbki ciągła analiza danych (continuous queries) w oknie czasowym zapytania ad-hoc jak w tradycyjnej bd analiza danych historycznych i bieżących efektywne wyszukiwanie danych indeksowanie 42

Analiza danych strumieniowych (3) Problemy cd. Zapewnienie jakości danych (Quality of Service) dane przybliżone (inteligentne budynki) dane dokładne (sensory ognia i dymu) Efektywność przetwarzania minimalizacja zajętości pamięci operacyjnej maksymalizacja przepustowości minimalizacja czasu przetwarzania danych 43 Analiza danych strumieniowych (4) QoS, efektywność przetwarzania zapytań, architektury, mechanizmy aktywne NIAGARA, Fjord, Aurora, STREAM (Stanford Univ.) Inteligentny dom (smart home) Intelligent Home Project (Massachussets Univ.) Georgia Tech Aware Home MIT Intelligent Room 44

MD dla bioinformatyki Dane o złożonej strukturze (grafowej) łańcuchy genetyczne struktury białek struktury wiązań chemicznych Problem efektywnego składowania Analiza struktur złożonych Eksploracja struktur złożonych 45 Integracja HD Heterogeniczność i rozproszenie 46