Wprowadzenie do zagadnienia Data Cleaning. Łukasz Ciszak Instytut Informatyki Politechniki Warszawskiej
|
|
- Wiktor Sadowski
- 6 lat temu
- Przeglądów:
Transkrypt
1 Wprowadzenie do zagadnienia Data Cleaning Łukasz Ciszak Instytut Informatyki Politechniki Warszawskiej
2 Agenda Definicje Klasyfikacja Rozwiązaniazania Wprowadzenie do Data Cleaning 2
3 Wprowadzenie do Data Cleaning 3
4 Mówimy o danych wysokiej jakości ci,, jeśli są poprawnym odwzorowaniem obiektów świata rzeczywistego, których dotyczą Wprowadzenie do Data Cleaning 4
5 Dane wysokiej jakości: (miary) Pełne (Complete) Poprawne (Valid) Spójne (Consistent) Aktualne (Timely) Dokładne (Accurate) Istotne (Relevant) Dostępne i interpretowalne (Accessibility/ Accessibility/interpretability) Wprowadzenie do Data Cleaning 5
6 25% of critical data within Fortune 1000 companies will continue to be inaccurate through Poor quality customer data costs U.S. business an estimated $611 billion dollars a year in postage, printing, and staff overhead. Raport Gartner Inc., Wprowadzenie do Data Cleaning 6
7 Data quality is the reliability and effectiveness of data, particularly in a data warehouse. Maintaining data quality requires going through the data periodically and scrubbing it Wprowadzenie do Data Cleaning 7
8 Czyszczenie danych (data cleaning, data cleansing, data scrubbing) to proces wykrywania i usuwania błędów w danych w celu zapewnienia, Ŝe dane są wysokiej jakości. Computational processing to remove noise and artifacts from digital data prior to storage. Data cleaning is the process of improving the quality of the data by modifying its form or content, for example, by removing or correcting erroneous data values. MineSet Enterprise Edition User's Guide Wprowadzenie do Data Cleaning 8
9 Gdzie się z tego korzysta: MDM DW OLTP Po co to jest potrzebne: Garbage Input Garbage Output Wprowadzenie do Data Cleaning 9
10 Przykłady z praktyki zwroty korespondencji, obsługa rezygnacji lotnicy, podwójne kredyty Wprowadzenie do Data Cleaning 10
11 Klasyfikacja błęb łędów w danych Wprowadzenie do Data Cleaning 11
12 Problemy jakości danych Problemy dla jednego źródła Problemy dla wielu źródeł Poziom modelu danych Poziom rekordu Poziom modelu danych Poziom rekordu Wprowadzenie do Data Cleaning 12
13 Błędy na poziomie modelu danych (1 źródło): Przyczyny Brak więzów w integralności Nieumiejętny projekt bazy Konsekwencje Nieunikalność Złamane więzy integralności Sprzeczne dane Wprowadzenie do Data Cleaning 13
14 Niedopuszczalne wartości Data urodzenia: ZaleŜności między atrybutami Data urodzenia: 1970; Wiek: 15 Nieunikalność R1={ID=100; Nazwisko=X} R2={ID=100; Nazwisko=Y} Więzy referencyjne Wydział: : 25 (nieistniejący) Wprowadzenie do Data Cleaning 14
15 Błędy na poziomie rekordu (1 źródło) Przyczyna: błędy wprowadzania danych Konsekwencje Niepoprawny zapis (literówki, błęb łędy ortograficzne, przestawienia, OCR) Duplikaty / nadmiarowość Wprowadzenie do Data Cleaning 15
16 Brakujące wartości Telefon: Błędna pisownia: Miasto: Baiłystok, Łudź,, Warsxawa Niejasne znaczenie: Doświadczenie: B Połą łączone wartości: Nazwisko: Stefan Batory Źle umieszczone wartości: miasto: mazowieckie Wprowadzenie do Data Cleaning 16
17 ZaleŜno ności między atrybutami Miasto: Pruszków, województwo: podlaskie Przestawienia: Imie_i_Nazwisko 1 : Anna Nowak ; ; imie_i_nazwisko 2 : Kowalski Jan Duplikaty: R 1 ={ Jan Nowak,...} R 2 ={ J. Nowak,...} Sprzeczne rekordy: R 1 ={ Jan Nowak, ,...} R 2 ={ Jan Nowak, ,...} Błędne referencje: R 1 ={ Jan Nowak,17} Wprowadzenie do Data Cleaning 17
18 Błędy na poziomie modelu danych (wiele źródeł): Przyczyny RóŜne modele danych Konsekwencje Konflikty nazewnicze homonimy synonimy Konflikty strukturalne róŝne modele danych, róŝne typy danych, róŝne więzy integralności Wprowadzenie do Data Cleaning 18
19 Błędy na poziomie rekordu Występuj pują wszystkie błęb łędy związane zane z pojedynczymi źródłami danych RóŜne reprezentacje tych samych danych (domeny, poziomy agregacji, jednostki, róŝne r daty powstania danych) Te same rekordy w dwóch róŝnych r bazach Wprowadzenie do Data Cleaning 19
20 Wprowadzenie do Data Cleaning 20
21 Rozwiązania zania Wprowadzenie do Data Cleaning 21
22 Rozwiązania zania Obszary czyszczenia danych: Wykrywanie duplikatów transformacje schematów Standaryzacja danych Poprawa danych Wprowadzenie do Data Cleaning 22
23 Rozwiązania zania Wymagania dla rozwiązań czyszczenia danych Wykrywać i usuwać wszystkie powaŝne błędy i niespójności danych pochodzących zarówno z jednego, jak i wielu źródeł Powinno być wykonywane automatycznie w celu ograniczenia ludzkiej interwencji Rozszerzalne Powiązane z metadanymi. Wiarygodne i wydajne Wprowadzenie do Data Cleaning 23
24 Rozwiązania zania Wprowadzenie do Data Cleaning 24
25 Rozwiązania zania Kroki czyszczenia danych: Analiza danych (profilowanie) Definicja transformacji Weryfikacja Transformacja danych Propagacja poprawnych danych wstecz Monitorowanie jakości danych Wprowadzenie do Data Cleaning 25
26 Rozwiązania zania Profilowanie danych (profiling) Niedopuszczalne wartości Kardynalność wartości max, min Wariancja, odchylenie standardowe Błędny zapis Wartości atrybutów - sortowanie Brakujące wartości null Wartości domyślne RóŜniące się wartości kolumn Wartości tego samego atrybutu z innej tabeli Duplikaty Kardynalność + unikalność Wprowadzenie do Data Cleaning 26
27 Rozwiązania zania Transformacje Ekstrakcja wartości Standaryzacja Walidacja/poprawa błędów Ekrany standaryzacyjne Geocoding Wykrywanie duplikatów Normalizacja/denormalizacja Agregacja Wprowadzenie do Data Cleaning 27
28 Rozwiązania zania Transformacje Narzędzia ETL Informatica, DataStage, AbInitio, OWB,... Baza danych Widoki Procedury składowane Wprowadzenie do Data Cleaning 28
29 Rozwiązania zania Pomysły Zastosowanie metod data mining do automatycznej generacji ekranów standaryzacyjnych Zastosowanie grupowania do znajdywania duplikatów Zastosowanie data mining do klasyfikacji duplikatów Wprowadzenie do Data Cleaning 29
30 Bibliografia The Data Warehouse ETL Toolkit,, Ralph Kimball, Joe Caserta The Data Warehouse Toolkit,, Ralph Kimball, Margy Ross Data Cleaning: Problems and Current Approaches,, Erhard Rahm, Hong Hai Do Data Quality and Record Linkage Techniques,, Thomas N. Herzog, Fritz J. Scheuren, William E. Winkler Wprowadzenie do Data Cleaning 30
31 Dziękuj kuję za uwagę.
Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.
Procesy ETL - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2012 Struktura 1. Wprowadzenie 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków Wprowadzenie
Bardziej szczegółowoHurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Bardziej szczegółowoIntegracja systemów transakcyjnych
Integracja systemów transakcyjnych Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Problematyka i architektury integracji danych
Bardziej szczegółowoInformatyzacja przedsiębiorstw
Informatyzacja przedsiębiorstw Izabela Szczęch Politechnika Poznańska Plan wykładu Elementy Business Intelligence Przetwarzanie OLTP vs OLAP Hurtownie danych podstawowe pojęcia Proces ETL 2 Cele informatyzacji
Bardziej szczegółowoSystemy baz danych i hurtowni danych
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2005/06 Celem wykładu jest przypomnienie
Bardziej szczegółowoRola analityki danych w transformacji cyfrowej firmy
Rola analityki danych w transformacji cyfrowej firmy Piotr Czarnas Querona CEO Analityka biznesowa (ang. Business Intelligence) Proces przekształcania danych w informacje, a informacji w wiedzę, która
Bardziej szczegółowoHurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Biznesowe słowniki pojęć biznesowych odwzorowania pojęć
Bardziej szczegółowoSAS Data Quality. Technologia i wykorzystanie
SAS Data Quality Technologia i wykorzystanie Problemy rozwiązywane przez użycie narzędzi SAS Data Quality Zduplikowani klienci - nieodpowiednie propozycje warunków handlowych, nieadekwatna oferta Błędne
Bardziej szczegółowoOLAP i hurtownie danych c.d.
OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji
Bardziej szczegółowo6. Formularze tabelaryczne, obiekty nawigacji - rozgałęzienia
6. Formularze tabelaryczne, obiekty nawigacji - rozgałęzienia 1. Kolejne zadanie będzie polegało na utworzeniu formularza tabelarycznego prezentującego utwory określonego wykonawcy. Formularz utworzymy
Bardziej szczegółowoHurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Bardziej szczegółowoSAS Lineage. zależności między obiektami w środowisku SAS, perspektywa techniczna i biznesowa
SAS Lineage zależności między obiektami w środowisku SAS, perspektywa techniczna i biznesowa Agenda Co to jest SAS Lineage Znaczenie w zarządzaniu danymi Produkty i możliwości Baza danych o relacjach Jak
Bardziej szczegółowoProcesy ETL. 10maja2009. Paweł Szołtysek
Procesy 10maja2009 Paweł Szołtysek 1/12 w praktyce w praktyce 2/12 Zagadnienie Business Inteligence w praktyce 3/12 Czym jest proces? w praktyce Dane: dowolny zbiór danych ze źródeł zewnętrznych. Szukane:
Bardziej szczegółowoArchitektury i technologie integracji danych
Architektury i technologie integracji danych Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Problematyka i architektury integracji
Bardziej szczegółowoHurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury
Bardziej szczegółowoHurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty
Bardziej szczegółowoSystemy GIS Tworzenie zapytań w bazach danych
Systemy GIS Tworzenie zapytań w bazach danych Wykład nr 6 Analizy danych w systemach GIS Jak pytać bazę danych, żeby otrzymać sensowną odpowiedź......czyli podstawy języka SQL INSERT, SELECT, DROP, UPDATE
Bardziej szczegółowoTechnologia Informacyjna
Technologia Informacyjna zajęcia nr 9 Bazy danych cz.1 Elektrotechnika oraz Elektronika i Telekomunikacja semestr I, rok akademicki 2007/2008 mgr inż.. Paweł Myszkowski Plan dzisiejszych zajęć 1. Podstawowe
Bardziej szczegółowoProces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,
Proces ETL Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris, tegra}@eti.pg.gda.pl - 1 - Proces ETL - 2 -
Bardziej szczegółowoHurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence
Hurtownie danych Rola hurtowni danych w systemach typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Bardziej szczegółowoPodstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko
Podstawowe pojęcia dotyczące relacyjnych baz danych mgr inż. Krzysztof Szałajko Czym jest baza danych? Co rozumiemy przez dane? Czym jest system zarządzania bazą danych? 2 / 25 Baza danych Baza danych
Bardziej szczegółowoBlaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Technologia Przykłady praktycznych zastosowań wyzwalaczy będą omawiane na bazie systemu MS SQL Server 2005 Wprowadzenie
Bardziej szczegółowoHurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL
Hurtownie danych Ładowanie, integracja i aktualizacja danych. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH Źródła danych ETL Centralna hurtownia danych Do hurtowni
Bardziej szczegółowoDane wejściowe. Oracle Designer Generowanie bazy danych. Wynik. Przebieg procesu
Dane wejściowe Oracle Designer Generowanie bazy danych Diagramy związków encji, a w szczególności: definicje encji wraz z atrybutami definicje związków między encjami definicje dziedzin atrybutów encji
Bardziej szczegółowoHurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykładów Wprowadzenie - integracja
Bardziej szczegółowoWprowadzenie do Hurtowni Danych
Wprowadzenie do Hurtowni Danych Organizacyjnie Prowadzący: mgr. Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło HD2) Literatura 1. Inmon, W., Linstedt, D. (2014). Data Architecture: A
Bardziej szczegółowoNasze kompetencje. Co nas wyróżnia. Skuteczne wdrożenie - dopasowanie do strategii klientów
Grupa Codec Codec jest europejskim liderem w zakresie usług doradczych i wdrażania rozwiązań wspierających efektywność organizacji. Pełniąc rolę ogniwa łączącego strategię, controlling i nowoczesne technologie
Bardziej szczegółowoHurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykład adów Wprowadzenie - integracja
Bardziej szczegółowoWprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mariusz.rafalo@hotmail.com WPROWADZENIE DO HURTOWNI DANYCH Co to jest hurtownia danych? Hurtownia danych jest zbiorem danych zorientowanych tematycznie, zintegrowanych,
Bardziej szczegółowoAutor: Joanna Karwowska
Autor: Joanna Karwowska Klucz podstawowy PRIMARY KEY Klucz kandydujący UNIQUE Klucz alternatywny - klucze kandydujące, które nie zostały wybrane na klucz podstawowy Klucz obcy - REFERENCES Tworząc tabelę,
Bardziej szczegółowoBazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?
Bardziej szczegółowoBazy danych Ćwiczenia projektowe
Bazy danych Ćwiczenia projektowe Przygotował: Piotr Hajder Katedra Informatyki Stosowanej i Modelowania Wydział Inżynierii Metali i Informatyki Przemysłowej, AGH Agenda 01. Typy danych 02. Polecenia DDL
Bardziej szczegółowo2011 Innowacje organizacyjne w usługach. Aleksander Buczacki
2011 Innowacje organizacyjne w usługach Aleksander Buczacki Wprowadzenie W jakich sektorach jest możliwe wprowadzenie innowacji organizacyjnych? Usługi IT; Administracja; Gastronomia; Turystyka; Służba
Bardziej szczegółowoBPM vs. Content Management. Jarosław Żeliński analityk biznesowy, projektant systemów
BPM vs. Content Management Jarosław Żeliński analityk biznesowy, projektant systemów Cel prezentacji Celem prezentacji jest zwrócenie uwagi na istotne różnice pomiędzy tym co nazywamy: zarzadzaniem dokumentami,
Bardziej szczegółowoHurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU
Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie
Bardziej szczegółowoIntro. I.Wojnicki, ZTB:XML ZTB: XML. Igor Wojnicki. Katedra Informatyki Stosowanej, Akademia Górniczo-Hutnicza w Krakowie.
Intro Igor Wojnicki (AGH, KIS) XML 18 grudnia 2013 1 / 37 ZTB: XML Igor Wojnicki Katedra Informatyki Stosowanej, Akademia Górniczo-Hutnicza w Krakowie 18 grudnia 2013 Intro Igor Wojnicki (AGH, KIS) XML
Bardziej szczegółowoFunkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej
Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej Prof. dr hab. inż. Henryk Rybiński, dr inż. Jakub Koperwas, dr inż. Łukasz Skonieczny, mgr inż. Wacław Struk Instytut
Bardziej szczegółowoHurtownie danych. Wprowadzenie do systemów typu Business Intelligence
Hurtownie danych Wprowadzenie do systemów typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Bardziej szczegółowoAnaliza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Bardziej szczegółowoPierwsze wdrożenie SAP BW w firmie
Pierwsze wdrożenie w firmie Mirosława Żurek, BCC Poznao, maj 2013 Zakres tematyczny wykładu Podstawowe założenia i pojęcia hurtowni danych ; Przykładowe pierwsze wdrożenie w firmie i jego etapy; Przykładowe
Bardziej szczegółowoBazy danych Access KWERENDY
Bazy danych Access KWERENDY Obiekty baz danych Access tabele kwerendy (zapytania) formularze raporty makra moduły System baz danych MS Access Tabela Kwerenda Formularz Raport Makro Moduł Wyszukiwanie danych
Bardziej szczegółowoBazy danych Wykład zerowy. P. F. Góra
Bazy danych Wykład zerowy P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2012 Patron? Św. Izydor z Sewilli (VI wiek), biskup, patron Internetu (sic!), stworzył pierwszy katalog Copyright c 2011-12 P.
Bardziej szczegółowoCzyszczenie i standaryzacja danych adresowych. Michał Słoniewicz, Biuro Informacji Kredytowej Warszawa, 19 kwietnia 2012 r.
Czyszczenie i standaryzacja danych adresowych Michał Słoniewicz, Biuro Informacji Kredytowej Warszawa, 19 kwietnia 2012 r. Współpraca z Grupą BIK Grupa BIK Banki i SKOK-i BIK S.A. Podmioty finansowe niebędące
Bardziej szczegółowoWykład 5. SQL praca z tabelami 2
Wykład 5 SQL praca z tabelami 2 Wypełnianie tabel danymi Tabele można wypełniać poprzez standardową instrukcję INSERT INTO: INSERT [INTO] nazwa_tabeli [(kolumna1, kolumna2,, kolumnan)] VALUES (wartosc1,
Bardziej szczegółowo77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego. Przy modelowaniu bazy danych możemy wyróżnić następujące typy połączeń relacyjnych: jeden do wielu, jeden do jednego, wiele
Bardziej szczegółowoZarządzanie ryzykiem w projektach informatycznych. Marcin Krysiński marcin@krysinski.eu
Zarządzanie ryzykiem w projektach informatycznych Marcin Krysiński marcin@krysinski.eu O czym będziemy mówić? Zarządzanie ryzykiem Co to jest ryzyko Planowanie zarządzania ryzykiem Identyfikacja czynników
Bardziej szczegółowoSAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik
SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop Piotr Borowik Wyzwania związane z Big Data Top Hurdles with Big data Source: Gartner (Sep 2014), Big Data Investment Grows
Bardziej szczegółowoHurtownie danych. Metadane i czynniki jakości. http://zajecia.jakubw.pl/hur BAZA METADANYCH. Centralna hurtownia danych. Metadane
Hurtownie danych Metadane i czynniki jakości. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur Magazyny danych operacyjnych, źródła ładowanie, czyszczenie, transformacja BAZA METADANYCH
Bardziej szczegółowoInstytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny Politechnika Śląska
Instytut Mechaniki i Inżynierii Obliczeniowej www.imio.polsl.pl fb.com/imiopolsl @imiopolsl Wydział Mechaniczny Technologiczny Politechnika Śląska Laboratorium 1 Wprowadzenie, podstawowe informacje o obsłudze
Bardziej szczegółowoWprowadzenie do technologii Business Intelligence i hurtowni danych
Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence
Bardziej szczegółowoNowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych
Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych www.ascen.pl 1 Agenda O firmie Zarządzanie jakością danych Aplikacje mobilne i ich rola w zarządzaniu jakością danych 2 O firmie Data
Bardziej szczegółowoTRANSFORMACJE I JAKOŚĆ DANYCH
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoBAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza
BAZY DANYCH Microsoft Access NORMALIZACJA BAZ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii
Bardziej szczegółowoPortale raportowe, a narzędzia raportowe typu self- service
Portale raportowe, a narzędzia raportowe typu self- service Bartłomiej Graczyk Kierownik Projektów / Architekt rozwiązań Business Intelligence E mail: bartek@graczyk.info.pl Site: www.graczyk.info.pl Agenda
Bardziej szczegółowoBazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Literatura i inne pomoce Silberschatz A., Korth H., S. Sudarshan: Database
Bardziej szczegółowoProces ekstrakcji, transformacji i ładowania danych (Proces ETL)
Proces ekstrakcji, transformacji i ładowania danych (Proces ETL) Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania
Bardziej szczegółowoUzupełnij pola tabeli zgodnie z przykładem poniżej,
1. Wykonaj bazę danych biblioteki szkolnej, Otwórz MS Access a następnie z menu plik wybierz przycisk nowy, w oknie nowy plik wybieramy pusta baza danych nadaj jej nazwę Biblioteka i wybierz miejsce w
Bardziej szczegółowoMetody Ilościowe w Socjologii
Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu
Bardziej szczegółowo1. Wybór systemu ERP. 2. Wzajemne relacje systemów ERP i BPMS.
Agenda 1. Wybór systemu ERP. 2. Wzajemne relacje systemów ERP i BPMS. 1 dr inż. Marek Szelągowski AFiB Vistula marek.szelagowski@dbpm.pl Naszą misją jest: Wspieranie naszych klientów w wypracowywaniu usprawnień
Bardziej szczegółowoPawel@Kasprowski.pl Bazy danych. Bazy danych. Zapytania SELECT. Dr inż. Paweł Kasprowski. pawel@kasprowski.pl
Bazy danych Zapytania SELECT Dr inż. Paweł Kasprowski pawel@kasprowski.pl Przykład HAVING Podaj liczebność zespołów dla których najstarszy pracownik urodził się po 1940 select idz, count(*) from prac p
Bardziej szczegółowoBazy danych i usługi sieciowe
Bazy danych i usługi sieciowe Wstęp do problematyki baz danych Paweł Daniluk Wydział Fizyki Jesień 2014 P. Daniluk (Wydział Fizyki) BDiUS w. I Jesień 2014 1 / 17 Plan wykładu 1 Bazy danych 1 Motywacja
Bardziej szczegółowoPojęcie bazy danych. Funkcje i możliwości.
Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór
Bardziej szczegółowoBazy danych 1. Wykład 5 Metodologia projektowania baz danych. (projektowanie logiczne)
Bazy danych 1 Wykład 5 Metodologia projektowania baz danych (projektowanie logiczne) Projektowanie logiczne przegląd krok po kroku 1. Usuń własności niekompatybilne z modelem relacyjnym 2. Wyznacz relacje
Bardziej szczegółowoSNP Business Partner Data Checker. Prezentacja produktu
SNP Business Partner Data Checker Prezentacja produktu Istota rozwiązania SNP Business Partner Data Checker Celem produktu SNP Business Partner Data Checker jest umożliwienie sprawdzania nazwy oraz danych
Bardziej szczegółowoIndeksowanie w bazach danych
w bazach Katedra Informatyki Stosowanej AGH 5grudnia2013 Outline 1 2 3 4 Czym jest indeks? Indeks to struktura, która ma przyspieszyć wyszukiwanie. Indeks definiowany jest dla atrybutów, które nazywamy
Bardziej szczegółowo- język zapytań służący do zapisywania wyrażeń relacji, modyfikacji relacji, tworzenia relacji
6. Język SQL Język SQL (Structured Query Language): - język zapytań służący do zapisywania wyrażeń relacji, modyfikacji relacji, tworzenia relacji - stworzony w IBM w latach 70-tych DML (Data Manipulation
Bardziej szczegółowoSYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ
SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ Struktura efektywnej bazy danych Zastosowanie pakietu MS Excel do tworzenia baz danych WSTĘP 1. Dane Przykłady Edycja Zarządzanie 2. Bazy danych Definicje Przykłady
Bardziej szczegółowoKonstruowanie Baz Danych SQL UNION, INTERSECT, EXCEPT
Studia podyplomowe Inżynieria oprogramowania współfinansowane przez Unię Europejska w ramach Europejskiego Funduszu Społecznego Projekt Studia podyplomowe z zakresu wytwarzania oprogramowania oraz zarządzania
Bardziej szczegółowoJęzyk SQL. Rozdział 4. Funkcje grupowe Funkcje grupowe, podział relacji na grupy, klauzule GROUP BY i HAVING.
Język SQL. Rozdział 4. Funkcje grupowe Funkcje grupowe, podział relacji na grupy, klauzule GROUP BY i HAVING. 1 Funkcje grupowe (agregujące) (1) Działają na zbiorach rekordów, nazywanych grupami. Rekordy
Bardziej szczegółowoOpis spełnienia wymagań (PSBD)
Numer sprawy: DPZ/4/15 Nr arch. DPZ/087/059-16/15 1. Zakres przedmiotu zamówienia: Opis spełnienia wymagań (PSBD) Załącznik nr 1d do formularza ofertowego Wykonanie dzieła polegającego na dostawie, kompleksowym
Bardziej szczegółowoIBM DATASTAGE COMPETENCE CENTER
IBM DATASTAGE COMPETENCE CENTER W informacji drzemie ogromny potencjał biznesowy. Odpowiednio opisane i wykorzystane dane stanowią podstawę sprawnie funkcjonującego przedsiębiorstwa. Wykorzystując najnowocześniejsze
Bardziej szczegółowoSNP SNP Business Partner Data Checker. Prezentacja produktu
SNP SNP Business Partner Data Checker Prezentacja produktu Istota rozwiązania SNP SNP Business Partner Data Checker Celem produktu SNP SNP Business Partner Data Checker jest umożliwienie sprawdzania nazwy
Bardziej szczegółowoSystemy baz danych. mgr inż. Sylwia Glińska
Systemy baz danych Wykład 1 mgr inż. Sylwia Glińska Baza danych Baza danych to uporządkowany zbiór danych z określonej dziedziny tematycznej, zorganizowany w sposób ułatwiający do nich dostęp. System zarządzania
Bardziej szczegółowoBazy danych TERMINOLOGIA
Bazy danych TERMINOLOGIA Dane Dane są wartościami przechowywanymi w bazie danych. Dane są statyczne w tym sensie, że zachowują swój stan aż do zmodyfikowania ich ręcznie lub przez jakiś automatyczny proces.
Bardziej szczegółowoBAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza
BAZY DANYCH Microsoft Access NORMALIZACJA BAZ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii
Bardziej szczegółowoPrzykładowa baza danych BIBLIOTEKA
Przykładowa baza danych BIBLIOTEKA 1. Opis problemu W ramach zajęć zostanie przedstawiony przykład prezentujący prosty system biblioteczny. System zawiera informację o czytelnikach oraz książkach dostępnych
Bardziej szczegółowoKoncepcja cyfrowej transformacji sieci organizacji publicznych
Koncepcja cyfrowej transformacji sieci organizacji publicznych Kierownik Zakładu Systemów Informacyjnych SGH Agenda prezentacji 1 2 3 4 5 Cyfrowa transformacja jako szczególny rodzaj zmiany organizacyjnej
Bardziej szczegółowoModel logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL
Podstawy baz danych: Rysunek 1. Tradycyjne systemy danych 1- Obsługa wejścia 2- Przechowywanie danych 3- Funkcje użytkowe 4- Obsługa wyjścia Ewolucja baz danych: Fragment świata rzeczywistego System przetwarzania
Bardziej szczegółowoPojęcie systemu informacyjnego i informatycznego
BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM
Bardziej szczegółowoRozwiązania ediscovery
Rozwiązania ediscovery Mateusz Hajnysz, Ernst & Young, IIS 9 stycznia 2008 Rozwiązania ediscovery Agenda Wprowadzenie Metodyka Dostawcy ediscovery Funkcjonalność wybranych systemów dtsearch EED MetaLINCS
Bardziej szczegółowoPRAKTYCZNE METODY ZARZĄDZANIA EFEKTYWNOŚCIĄ JAK ZARZĄDZAĆ ZŁOŻONĄ ORGANIZACJĄ Z WYKORZYSTANIEM NAJLEPSZYCH ROZWIĄZAŃ IT. ROLA I ZNACZENIE CFO.
PRAKTYCZNE METODY ZARZĄDZANIA EFEKTYWNOŚCIĄ JAK ZARZĄDZAĆ ZŁOŻONĄ ORGANIZACJĄ Z WYKORZYSTANIEM NAJLEPSZYCH ROZWIĄZAŃ IT. ROLA I ZNACZENIE CFO. Krzysztof Matuszewski, Dyrektor Zarządzający, Bank Ochrony
Bardziej szczegółowoINFORMATYKA GEODEZYJNO- KARTOGRAFICZNA Relacyjny model danych. Relacyjny model danych Struktury danych Operacje Oganiczenia integralnościowe
Relacyjny model danych Relacyjny model danych Struktury danych Operacje Oganiczenia integralnościowe Charakterystyka baz danych Model danych definiuje struktury danych operacje ograniczenia integralnościowe
Bardziej szczegółowoTesty poziom po poziomie
poziom po poziomie Prowadzący: Tomasz Mielnik Eliza Słonińska Agenda 1. Modele prowadzenia projektów 2. V-Model 3. Poziomy testów 4. Typy testów 5. Zadanie 1 Modele prowadzenia projektów Wodospadowy (ang.
Bardziej szczegółowoProces ekstrakcji, transformacji i ładowania danych (Proces ETL)
Proces ekstrakcji, transformacji i ładowania danych () Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Inteligentne Systemy Wspomagania
Bardziej szczegółowodr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Bardziej szczegółowoHurtownie danych w praktyce
Hurtownie danych w praktyce Fakty i mity Dr inż. Maciej Kiewra Parę słów o mnie... 8 lat pracy zawodowej z hurtowniami danych Projekty realizowane w kraju i zagranicą Certyfikaty Microsoft z Business Intelligence
Bardziej szczegółowoHurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Zasilanie danymi - procesy ETL Charakterystyka źródeł danych
Bardziej szczegółowoEksploracja logów procesów. Process mining
Eksploracja logów procesów Process mining Eksploracja logów procesów Celem eksploracji logów procesów biznesowych jest: Odkrywanie modelu procesów biznesowych Analiza procesów biznesowych Ulepszanie procesów
Bardziej szczegółowoAlgorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Bardziej szczegółowoSZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie
SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU
Bardziej szczegółowoITIL 4 Certification
4 Certification ITIL 3 Certification ITIL Master scheme ITIL Expert 5 Managing across the lifecycle 5 3 SS 3 SD 3 ST 3 SO 3 CS1 4 OSA 4 PPO 4 RCV 4 SOA Ścieżka lifecycle Ścieżka Capability 3 ITIL Practitioner
Bardziej szczegółowoModel relacyjny. Wykład II
Model relacyjny został zaproponowany do strukturyzacji danych przez brytyjskiego matematyka Edgarda Franka Codda w 1970 r. Baza danych według definicji Codda to zbiór zmieniających się w czasie relacji
Bardziej szczegółowoIndeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
Bardziej szczegółowoPRZYKŁAD. Prosta uczelnia. Autor: Jan Kowalski nr indeksu: (przykładowy projekt)
Prosta uczelnia (przykładowy projekt) Autor: Jan Kowalski nr indeksu: 123456 Opis problemu Projekt ten ma na celu stworzenie systemu do przechowywania i obróbki danych o wynikach egzaminacyjnych około
Bardziej szczegółowoHURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/
Bardziej szczegółowoSpis tre±ci. Przedmowa... Cz ± I
Przedmowa.................................................... i Cz ± I 1 Czym s hurtownie danych?............................... 3 1.1 Wst p.................................................. 3 1.2 Denicja
Bardziej szczegółowoMS Visual Studio 2005 Team Suite - Performance Tool
MS Visual Studio 2005 Team Suite - Performance Tool przygotował: Krzysztof Jurczuk Politechnika Białostocka Wydział Informatyki Katedra Oprogramowania ul. Wiejska 45A 15-351 Białystok Streszczenie: Dokument
Bardziej szczegółowoSecurity Master Class
Security Master Class Platforma kompleksowej analizy zdarzeń Linux Polska SIEM Radosław Żak-Brodalko Senior Solutions Architect Linux Polska sp. z o.o. Podstawowe problemy Jak pokryć lukę między technicznym
Bardziej szczegółowo