Wprowadzenie do zagadnienia Data Cleaning. Łukasz Ciszak Instytut Informatyki Politechniki Warszawskiej
|
|
- Wiktor Sadowski
- 7 lat temu
- Przeglądów:
Transkrypt
1 Wprowadzenie do zagadnienia Data Cleaning Łukasz Ciszak Instytut Informatyki Politechniki Warszawskiej
2 Agenda Definicje Klasyfikacja Rozwiązaniazania Wprowadzenie do Data Cleaning 2
3 Wprowadzenie do Data Cleaning 3
4 Mówimy o danych wysokiej jakości ci,, jeśli są poprawnym odwzorowaniem obiektów świata rzeczywistego, których dotyczą Wprowadzenie do Data Cleaning 4
5 Dane wysokiej jakości: (miary) Pełne (Complete) Poprawne (Valid) Spójne (Consistent) Aktualne (Timely) Dokładne (Accurate) Istotne (Relevant) Dostępne i interpretowalne (Accessibility/ Accessibility/interpretability) Wprowadzenie do Data Cleaning 5
6 25% of critical data within Fortune 1000 companies will continue to be inaccurate through Poor quality customer data costs U.S. business an estimated $611 billion dollars a year in postage, printing, and staff overhead. Raport Gartner Inc., Wprowadzenie do Data Cleaning 6
7 Data quality is the reliability and effectiveness of data, particularly in a data warehouse. Maintaining data quality requires going through the data periodically and scrubbing it Wprowadzenie do Data Cleaning 7
8 Czyszczenie danych (data cleaning, data cleansing, data scrubbing) to proces wykrywania i usuwania błędów w danych w celu zapewnienia, Ŝe dane są wysokiej jakości. Computational processing to remove noise and artifacts from digital data prior to storage. Data cleaning is the process of improving the quality of the data by modifying its form or content, for example, by removing or correcting erroneous data values. MineSet Enterprise Edition User's Guide Wprowadzenie do Data Cleaning 8
9 Gdzie się z tego korzysta: MDM DW OLTP Po co to jest potrzebne: Garbage Input Garbage Output Wprowadzenie do Data Cleaning 9
10 Przykłady z praktyki zwroty korespondencji, obsługa rezygnacji lotnicy, podwójne kredyty Wprowadzenie do Data Cleaning 10
11 Klasyfikacja błęb łędów w danych Wprowadzenie do Data Cleaning 11
12 Problemy jakości danych Problemy dla jednego źródła Problemy dla wielu źródeł Poziom modelu danych Poziom rekordu Poziom modelu danych Poziom rekordu Wprowadzenie do Data Cleaning 12
13 Błędy na poziomie modelu danych (1 źródło): Przyczyny Brak więzów w integralności Nieumiejętny projekt bazy Konsekwencje Nieunikalność Złamane więzy integralności Sprzeczne dane Wprowadzenie do Data Cleaning 13
14 Niedopuszczalne wartości Data urodzenia: ZaleŜności między atrybutami Data urodzenia: 1970; Wiek: 15 Nieunikalność R1={ID=100; Nazwisko=X} R2={ID=100; Nazwisko=Y} Więzy referencyjne Wydział: : 25 (nieistniejący) Wprowadzenie do Data Cleaning 14
15 Błędy na poziomie rekordu (1 źródło) Przyczyna: błędy wprowadzania danych Konsekwencje Niepoprawny zapis (literówki, błęb łędy ortograficzne, przestawienia, OCR) Duplikaty / nadmiarowość Wprowadzenie do Data Cleaning 15
16 Brakujące wartości Telefon: Błędna pisownia: Miasto: Baiłystok, Łudź,, Warsxawa Niejasne znaczenie: Doświadczenie: B Połą łączone wartości: Nazwisko: Stefan Batory Źle umieszczone wartości: miasto: mazowieckie Wprowadzenie do Data Cleaning 16
17 ZaleŜno ności między atrybutami Miasto: Pruszków, województwo: podlaskie Przestawienia: Imie_i_Nazwisko 1 : Anna Nowak ; ; imie_i_nazwisko 2 : Kowalski Jan Duplikaty: R 1 ={ Jan Nowak,...} R 2 ={ J. Nowak,...} Sprzeczne rekordy: R 1 ={ Jan Nowak, ,...} R 2 ={ Jan Nowak, ,...} Błędne referencje: R 1 ={ Jan Nowak,17} Wprowadzenie do Data Cleaning 17
18 Błędy na poziomie modelu danych (wiele źródeł): Przyczyny RóŜne modele danych Konsekwencje Konflikty nazewnicze homonimy synonimy Konflikty strukturalne róŝne modele danych, róŝne typy danych, róŝne więzy integralności Wprowadzenie do Data Cleaning 18
19 Błędy na poziomie rekordu Występuj pują wszystkie błęb łędy związane zane z pojedynczymi źródłami danych RóŜne reprezentacje tych samych danych (domeny, poziomy agregacji, jednostki, róŝne r daty powstania danych) Te same rekordy w dwóch róŝnych r bazach Wprowadzenie do Data Cleaning 19
20 Wprowadzenie do Data Cleaning 20
21 Rozwiązania zania Wprowadzenie do Data Cleaning 21
22 Rozwiązania zania Obszary czyszczenia danych: Wykrywanie duplikatów transformacje schematów Standaryzacja danych Poprawa danych Wprowadzenie do Data Cleaning 22
23 Rozwiązania zania Wymagania dla rozwiązań czyszczenia danych Wykrywać i usuwać wszystkie powaŝne błędy i niespójności danych pochodzących zarówno z jednego, jak i wielu źródeł Powinno być wykonywane automatycznie w celu ograniczenia ludzkiej interwencji Rozszerzalne Powiązane z metadanymi. Wiarygodne i wydajne Wprowadzenie do Data Cleaning 23
24 Rozwiązania zania Wprowadzenie do Data Cleaning 24
25 Rozwiązania zania Kroki czyszczenia danych: Analiza danych (profilowanie) Definicja transformacji Weryfikacja Transformacja danych Propagacja poprawnych danych wstecz Monitorowanie jakości danych Wprowadzenie do Data Cleaning 25
26 Rozwiązania zania Profilowanie danych (profiling) Niedopuszczalne wartości Kardynalność wartości max, min Wariancja, odchylenie standardowe Błędny zapis Wartości atrybutów - sortowanie Brakujące wartości null Wartości domyślne RóŜniące się wartości kolumn Wartości tego samego atrybutu z innej tabeli Duplikaty Kardynalność + unikalność Wprowadzenie do Data Cleaning 26
27 Rozwiązania zania Transformacje Ekstrakcja wartości Standaryzacja Walidacja/poprawa błędów Ekrany standaryzacyjne Geocoding Wykrywanie duplikatów Normalizacja/denormalizacja Agregacja Wprowadzenie do Data Cleaning 27
28 Rozwiązania zania Transformacje Narzędzia ETL Informatica, DataStage, AbInitio, OWB,... Baza danych Widoki Procedury składowane Wprowadzenie do Data Cleaning 28
29 Rozwiązania zania Pomysły Zastosowanie metod data mining do automatycznej generacji ekranów standaryzacyjnych Zastosowanie grupowania do znajdywania duplikatów Zastosowanie data mining do klasyfikacji duplikatów Wprowadzenie do Data Cleaning 29
30 Bibliografia The Data Warehouse ETL Toolkit,, Ralph Kimball, Joe Caserta The Data Warehouse Toolkit,, Ralph Kimball, Margy Ross Data Cleaning: Problems and Current Approaches,, Erhard Rahm, Hong Hai Do Data Quality and Record Linkage Techniques,, Thomas N. Herzog, Fritz J. Scheuren, William E. Winkler Wprowadzenie do Data Cleaning 30
31 Dziękuj kuję za uwagę.
Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.
Procesy ETL - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2012 Struktura 1. Wprowadzenie 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków Wprowadzenie
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Integracja systemów transakcyjnych
Integracja systemów transakcyjnych Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Problematyka i architektury integracji danych
Informatyzacja przedsiębiorstw
Informatyzacja przedsiębiorstw Izabela Szczęch Politechnika Poznańska Plan wykładu Elementy Business Intelligence Przetwarzanie OLTP vs OLAP Hurtownie danych podstawowe pojęcia Proces ETL 2 Cele informatyzacji
Systemy baz danych i hurtowni danych
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2005/06 Celem wykładu jest przypomnienie
Rola analityki danych w transformacji cyfrowej firmy
Rola analityki danych w transformacji cyfrowej firmy Piotr Czarnas Querona CEO Analityka biznesowa (ang. Business Intelligence) Proces przekształcania danych w informacje, a informacji w wiedzę, która
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Biznesowe słowniki pojęć biznesowych odwzorowania pojęć
SAS Data Quality. Technologia i wykorzystanie
SAS Data Quality Technologia i wykorzystanie Problemy rozwiązywane przez użycie narzędzi SAS Data Quality Zduplikowani klienci - nieodpowiednie propozycje warunków handlowych, nieadekwatna oferta Błędne
OLAP i hurtownie danych c.d.
OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji
6. Formularze tabelaryczne, obiekty nawigacji - rozgałęzienia
6. Formularze tabelaryczne, obiekty nawigacji - rozgałęzienia 1. Kolejne zadanie będzie polegało na utworzeniu formularza tabelarycznego prezentującego utwory określonego wykonawcy. Formularz utworzymy
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
SAS Lineage. zależności między obiektami w środowisku SAS, perspektywa techniczna i biznesowa
SAS Lineage zależności między obiektami w środowisku SAS, perspektywa techniczna i biznesowa Agenda Co to jest SAS Lineage Znaczenie w zarządzaniu danymi Produkty i możliwości Baza danych o relacjach Jak
Procesy ETL. 10maja2009. Paweł Szołtysek
Procesy 10maja2009 Paweł Szołtysek 1/12 w praktyce w praktyce 2/12 Zagadnienie Business Inteligence w praktyce 3/12 Czym jest proces? w praktyce Dane: dowolny zbiór danych ze źródeł zewnętrznych. Szukane:
Architektury i technologie integracji danych
Architektury i technologie integracji danych Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Problematyka i architektury integracji
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty
Systemy GIS Tworzenie zapytań w bazach danych
Systemy GIS Tworzenie zapytań w bazach danych Wykład nr 6 Analizy danych w systemach GIS Jak pytać bazę danych, żeby otrzymać sensowną odpowiedź......czyli podstawy języka SQL INSERT, SELECT, DROP, UPDATE
Technologia Informacyjna
Technologia Informacyjna zajęcia nr 9 Bazy danych cz.1 Elektrotechnika oraz Elektronika i Telekomunikacja semestr I, rok akademicki 2007/2008 mgr inż.. Paweł Myszkowski Plan dzisiejszych zajęć 1. Podstawowe
Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,
Proces ETL Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris, tegra}@eti.pg.gda.pl - 1 - Proces ETL - 2 -
Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence
Hurtownie danych Rola hurtowni danych w systemach typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko
Podstawowe pojęcia dotyczące relacyjnych baz danych mgr inż. Krzysztof Szałajko Czym jest baza danych? Co rozumiemy przez dane? Czym jest system zarządzania bazą danych? 2 / 25 Baza danych Baza danych
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Technologia Przykłady praktycznych zastosowań wyzwalaczy będą omawiane na bazie systemu MS SQL Server 2005 Wprowadzenie
Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL
Hurtownie danych Ładowanie, integracja i aktualizacja danych. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH Źródła danych ETL Centralna hurtownia danych Do hurtowni
Dane wejściowe. Oracle Designer Generowanie bazy danych. Wynik. Przebieg procesu
Dane wejściowe Oracle Designer Generowanie bazy danych Diagramy związków encji, a w szczególności: definicje encji wraz z atrybutami definicje związków między encjami definicje dziedzin atrybutów encji
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykładów Wprowadzenie - integracja
Wprowadzenie do Hurtowni Danych
Wprowadzenie do Hurtowni Danych Organizacyjnie Prowadzący: mgr. Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło HD2) Literatura 1. Inmon, W., Linstedt, D. (2014). Data Architecture: A
Nasze kompetencje. Co nas wyróżnia. Skuteczne wdrożenie - dopasowanie do strategii klientów
Grupa Codec Codec jest europejskim liderem w zakresie usług doradczych i wdrażania rozwiązań wspierających efektywność organizacji. Pełniąc rolę ogniwa łączącego strategię, controlling i nowoczesne technologie
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykład adów Wprowadzenie - integracja
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mariusz.rafalo@hotmail.com WPROWADZENIE DO HURTOWNI DANYCH Co to jest hurtownia danych? Hurtownia danych jest zbiorem danych zorientowanych tematycznie, zintegrowanych,
Autor: Joanna Karwowska
Autor: Joanna Karwowska Klucz podstawowy PRIMARY KEY Klucz kandydujący UNIQUE Klucz alternatywny - klucze kandydujące, które nie zostały wybrane na klucz podstawowy Klucz obcy - REFERENCES Tworząc tabelę,
Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?
Bazy danych Ćwiczenia projektowe
Bazy danych Ćwiczenia projektowe Przygotował: Piotr Hajder Katedra Informatyki Stosowanej i Modelowania Wydział Inżynierii Metali i Informatyki Przemysłowej, AGH Agenda 01. Typy danych 02. Polecenia DDL
2011 Innowacje organizacyjne w usługach. Aleksander Buczacki
2011 Innowacje organizacyjne w usługach Aleksander Buczacki Wprowadzenie W jakich sektorach jest możliwe wprowadzenie innowacji organizacyjnych? Usługi IT; Administracja; Gastronomia; Turystyka; Służba
BPM vs. Content Management. Jarosław Żeliński analityk biznesowy, projektant systemów
BPM vs. Content Management Jarosław Żeliński analityk biznesowy, projektant systemów Cel prezentacji Celem prezentacji jest zwrócenie uwagi na istotne różnice pomiędzy tym co nazywamy: zarzadzaniem dokumentami,
Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU
Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie
Intro. I.Wojnicki, ZTB:XML ZTB: XML. Igor Wojnicki. Katedra Informatyki Stosowanej, Akademia Górniczo-Hutnicza w Krakowie.
Intro Igor Wojnicki (AGH, KIS) XML 18 grudnia 2013 1 / 37 ZTB: XML Igor Wojnicki Katedra Informatyki Stosowanej, Akademia Górniczo-Hutnicza w Krakowie 18 grudnia 2013 Intro Igor Wojnicki (AGH, KIS) XML
Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej
Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej Prof. dr hab. inż. Henryk Rybiński, dr inż. Jakub Koperwas, dr inż. Łukasz Skonieczny, mgr inż. Wacław Struk Instytut
Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence
Hurtownie danych Wprowadzenie do systemów typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Analiza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Pierwsze wdrożenie SAP BW w firmie
Pierwsze wdrożenie w firmie Mirosława Żurek, BCC Poznao, maj 2013 Zakres tematyczny wykładu Podstawowe założenia i pojęcia hurtowni danych ; Przykładowe pierwsze wdrożenie w firmie i jego etapy; Przykładowe
Bazy danych Access KWERENDY
Bazy danych Access KWERENDY Obiekty baz danych Access tabele kwerendy (zapytania) formularze raporty makra moduły System baz danych MS Access Tabela Kwerenda Formularz Raport Makro Moduł Wyszukiwanie danych
Bazy danych Wykład zerowy. P. F. Góra
Bazy danych Wykład zerowy P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2012 Patron? Św. Izydor z Sewilli (VI wiek), biskup, patron Internetu (sic!), stworzył pierwszy katalog Copyright c 2011-12 P.
Czyszczenie i standaryzacja danych adresowych. Michał Słoniewicz, Biuro Informacji Kredytowej Warszawa, 19 kwietnia 2012 r.
Czyszczenie i standaryzacja danych adresowych Michał Słoniewicz, Biuro Informacji Kredytowej Warszawa, 19 kwietnia 2012 r. Współpraca z Grupą BIK Grupa BIK Banki i SKOK-i BIK S.A. Podmioty finansowe niebędące
Wykład 5. SQL praca z tabelami 2
Wykład 5 SQL praca z tabelami 2 Wypełnianie tabel danymi Tabele można wypełniać poprzez standardową instrukcję INSERT INTO: INSERT [INTO] nazwa_tabeli [(kolumna1, kolumna2,, kolumnan)] VALUES (wartosc1,
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego. Przy modelowaniu bazy danych możemy wyróżnić następujące typy połączeń relacyjnych: jeden do wielu, jeden do jednego, wiele
Zarządzanie ryzykiem w projektach informatycznych. Marcin Krysiński marcin@krysinski.eu
Zarządzanie ryzykiem w projektach informatycznych Marcin Krysiński marcin@krysinski.eu O czym będziemy mówić? Zarządzanie ryzykiem Co to jest ryzyko Planowanie zarządzania ryzykiem Identyfikacja czynników
SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik
SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop Piotr Borowik Wyzwania związane z Big Data Top Hurdles with Big data Source: Gartner (Sep 2014), Big Data Investment Grows
Hurtownie danych. Metadane i czynniki jakości. http://zajecia.jakubw.pl/hur BAZA METADANYCH. Centralna hurtownia danych. Metadane
Hurtownie danych Metadane i czynniki jakości. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur Magazyny danych operacyjnych, źródła ładowanie, czyszczenie, transformacja BAZA METADANYCH
Instytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny Politechnika Śląska
Instytut Mechaniki i Inżynierii Obliczeniowej www.imio.polsl.pl fb.com/imiopolsl @imiopolsl Wydział Mechaniczny Technologiczny Politechnika Śląska Laboratorium 1 Wprowadzenie, podstawowe informacje o obsłudze
Wprowadzenie do technologii Business Intelligence i hurtowni danych
Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence
Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych
Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych www.ascen.pl 1 Agenda O firmie Zarządzanie jakością danych Aplikacje mobilne i ich rola w zarządzaniu jakością danych 2 O firmie Data
TRANSFORMACJE I JAKOŚĆ DANYCH
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza
BAZY DANYCH Microsoft Access NORMALIZACJA BAZ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii
Portale raportowe, a narzędzia raportowe typu self- service
Portale raportowe, a narzędzia raportowe typu self- service Bartłomiej Graczyk Kierownik Projektów / Architekt rozwiązań Business Intelligence E mail: bartek@graczyk.info.pl Site: www.graczyk.info.pl Agenda
Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Literatura i inne pomoce Silberschatz A., Korth H., S. Sudarshan: Database
Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)
Proces ekstrakcji, transformacji i ładowania danych (Proces ETL) Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania
Uzupełnij pola tabeli zgodnie z przykładem poniżej,
1. Wykonaj bazę danych biblioteki szkolnej, Otwórz MS Access a następnie z menu plik wybierz przycisk nowy, w oknie nowy plik wybieramy pusta baza danych nadaj jej nazwę Biblioteka i wybierz miejsce w
Metody Ilościowe w Socjologii
Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu
1. Wybór systemu ERP. 2. Wzajemne relacje systemów ERP i BPMS.
Agenda 1. Wybór systemu ERP. 2. Wzajemne relacje systemów ERP i BPMS. 1 dr inż. Marek Szelągowski AFiB Vistula marek.szelagowski@dbpm.pl Naszą misją jest: Wspieranie naszych klientów w wypracowywaniu usprawnień
Pawel@Kasprowski.pl Bazy danych. Bazy danych. Zapytania SELECT. Dr inż. Paweł Kasprowski. pawel@kasprowski.pl
Bazy danych Zapytania SELECT Dr inż. Paweł Kasprowski pawel@kasprowski.pl Przykład HAVING Podaj liczebność zespołów dla których najstarszy pracownik urodził się po 1940 select idz, count(*) from prac p
Bazy danych i usługi sieciowe
Bazy danych i usługi sieciowe Wstęp do problematyki baz danych Paweł Daniluk Wydział Fizyki Jesień 2014 P. Daniluk (Wydział Fizyki) BDiUS w. I Jesień 2014 1 / 17 Plan wykładu 1 Bazy danych 1 Motywacja
Pojęcie bazy danych. Funkcje i możliwości.
Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór
Bazy danych 1. Wykład 5 Metodologia projektowania baz danych. (projektowanie logiczne)
Bazy danych 1 Wykład 5 Metodologia projektowania baz danych (projektowanie logiczne) Projektowanie logiczne przegląd krok po kroku 1. Usuń własności niekompatybilne z modelem relacyjnym 2. Wyznacz relacje
SNP Business Partner Data Checker. Prezentacja produktu
SNP Business Partner Data Checker Prezentacja produktu Istota rozwiązania SNP Business Partner Data Checker Celem produktu SNP Business Partner Data Checker jest umożliwienie sprawdzania nazwy oraz danych
Indeksowanie w bazach danych
w bazach Katedra Informatyki Stosowanej AGH 5grudnia2013 Outline 1 2 3 4 Czym jest indeks? Indeks to struktura, która ma przyspieszyć wyszukiwanie. Indeks definiowany jest dla atrybutów, które nazywamy
- język zapytań służący do zapisywania wyrażeń relacji, modyfikacji relacji, tworzenia relacji
6. Język SQL Język SQL (Structured Query Language): - język zapytań służący do zapisywania wyrażeń relacji, modyfikacji relacji, tworzenia relacji - stworzony w IBM w latach 70-tych DML (Data Manipulation
SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ
SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ Struktura efektywnej bazy danych Zastosowanie pakietu MS Excel do tworzenia baz danych WSTĘP 1. Dane Przykłady Edycja Zarządzanie 2. Bazy danych Definicje Przykłady
Konstruowanie Baz Danych SQL UNION, INTERSECT, EXCEPT
Studia podyplomowe Inżynieria oprogramowania współfinansowane przez Unię Europejska w ramach Europejskiego Funduszu Społecznego Projekt Studia podyplomowe z zakresu wytwarzania oprogramowania oraz zarządzania
Język SQL. Rozdział 4. Funkcje grupowe Funkcje grupowe, podział relacji na grupy, klauzule GROUP BY i HAVING.
Język SQL. Rozdział 4. Funkcje grupowe Funkcje grupowe, podział relacji na grupy, klauzule GROUP BY i HAVING. 1 Funkcje grupowe (agregujące) (1) Działają na zbiorach rekordów, nazywanych grupami. Rekordy
Opis spełnienia wymagań (PSBD)
Numer sprawy: DPZ/4/15 Nr arch. DPZ/087/059-16/15 1. Zakres przedmiotu zamówienia: Opis spełnienia wymagań (PSBD) Załącznik nr 1d do formularza ofertowego Wykonanie dzieła polegającego na dostawie, kompleksowym
IBM DATASTAGE COMPETENCE CENTER
IBM DATASTAGE COMPETENCE CENTER W informacji drzemie ogromny potencjał biznesowy. Odpowiednio opisane i wykorzystane dane stanowią podstawę sprawnie funkcjonującego przedsiębiorstwa. Wykorzystując najnowocześniejsze
SNP SNP Business Partner Data Checker. Prezentacja produktu
SNP SNP Business Partner Data Checker Prezentacja produktu Istota rozwiązania SNP SNP Business Partner Data Checker Celem produktu SNP SNP Business Partner Data Checker jest umożliwienie sprawdzania nazwy
Systemy baz danych. mgr inż. Sylwia Glińska
Systemy baz danych Wykład 1 mgr inż. Sylwia Glińska Baza danych Baza danych to uporządkowany zbiór danych z określonej dziedziny tematycznej, zorganizowany w sposób ułatwiający do nich dostęp. System zarządzania
Bazy danych TERMINOLOGIA
Bazy danych TERMINOLOGIA Dane Dane są wartościami przechowywanymi w bazie danych. Dane są statyczne w tym sensie, że zachowują swój stan aż do zmodyfikowania ich ręcznie lub przez jakiś automatyczny proces.
BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza
BAZY DANYCH Microsoft Access NORMALIZACJA BAZ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii
Przykładowa baza danych BIBLIOTEKA
Przykładowa baza danych BIBLIOTEKA 1. Opis problemu W ramach zajęć zostanie przedstawiony przykład prezentujący prosty system biblioteczny. System zawiera informację o czytelnikach oraz książkach dostępnych
Koncepcja cyfrowej transformacji sieci organizacji publicznych
Koncepcja cyfrowej transformacji sieci organizacji publicznych Kierownik Zakładu Systemów Informacyjnych SGH Agenda prezentacji 1 2 3 4 5 Cyfrowa transformacja jako szczególny rodzaj zmiany organizacyjnej
Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL
Podstawy baz danych: Rysunek 1. Tradycyjne systemy danych 1- Obsługa wejścia 2- Przechowywanie danych 3- Funkcje użytkowe 4- Obsługa wyjścia Ewolucja baz danych: Fragment świata rzeczywistego System przetwarzania
Pojęcie systemu informacyjnego i informatycznego
BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM
Rozwiązania ediscovery
Rozwiązania ediscovery Mateusz Hajnysz, Ernst & Young, IIS 9 stycznia 2008 Rozwiązania ediscovery Agenda Wprowadzenie Metodyka Dostawcy ediscovery Funkcjonalność wybranych systemów dtsearch EED MetaLINCS
PRAKTYCZNE METODY ZARZĄDZANIA EFEKTYWNOŚCIĄ JAK ZARZĄDZAĆ ZŁOŻONĄ ORGANIZACJĄ Z WYKORZYSTANIEM NAJLEPSZYCH ROZWIĄZAŃ IT. ROLA I ZNACZENIE CFO.
PRAKTYCZNE METODY ZARZĄDZANIA EFEKTYWNOŚCIĄ JAK ZARZĄDZAĆ ZŁOŻONĄ ORGANIZACJĄ Z WYKORZYSTANIEM NAJLEPSZYCH ROZWIĄZAŃ IT. ROLA I ZNACZENIE CFO. Krzysztof Matuszewski, Dyrektor Zarządzający, Bank Ochrony
INFORMATYKA GEODEZYJNO- KARTOGRAFICZNA Relacyjny model danych. Relacyjny model danych Struktury danych Operacje Oganiczenia integralnościowe
Relacyjny model danych Relacyjny model danych Struktury danych Operacje Oganiczenia integralnościowe Charakterystyka baz danych Model danych definiuje struktury danych operacje ograniczenia integralnościowe
Testy poziom po poziomie
poziom po poziomie Prowadzący: Tomasz Mielnik Eliza Słonińska Agenda 1. Modele prowadzenia projektów 2. V-Model 3. Poziomy testów 4. Typy testów 5. Zadanie 1 Modele prowadzenia projektów Wodospadowy (ang.
Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)
Proces ekstrakcji, transformacji i ładowania danych () Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Inteligentne Systemy Wspomagania
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Hurtownie danych w praktyce
Hurtownie danych w praktyce Fakty i mity Dr inż. Maciej Kiewra Parę słów o mnie... 8 lat pracy zawodowej z hurtowniami danych Projekty realizowane w kraju i zagranicą Certyfikaty Microsoft z Business Intelligence
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Zasilanie danymi - procesy ETL Charakterystyka źródeł danych
Eksploracja logów procesów. Process mining
Eksploracja logów procesów Process mining Eksploracja logów procesów Celem eksploracji logów procesów biznesowych jest: Odkrywanie modelu procesów biznesowych Analiza procesów biznesowych Ulepszanie procesów
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie
SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU
ITIL 4 Certification
4 Certification ITIL 3 Certification ITIL Master scheme ITIL Expert 5 Managing across the lifecycle 5 3 SS 3 SD 3 ST 3 SO 3 CS1 4 OSA 4 PPO 4 RCV 4 SOA Ścieżka lifecycle Ścieżka Capability 3 ITIL Practitioner
Model relacyjny. Wykład II
Model relacyjny został zaproponowany do strukturyzacji danych przez brytyjskiego matematyka Edgarda Franka Codda w 1970 r. Baza danych według definicji Codda to zbiór zmieniających się w czasie relacji
Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
PRZYKŁAD. Prosta uczelnia. Autor: Jan Kowalski nr indeksu: (przykładowy projekt)
Prosta uczelnia (przykładowy projekt) Autor: Jan Kowalski nr indeksu: 123456 Opis problemu Projekt ten ma na celu stworzenie systemu do przechowywania i obróbki danych o wynikach egzaminacyjnych około
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/
Spis tre±ci. Przedmowa... Cz ± I
Przedmowa.................................................... i Cz ± I 1 Czym s hurtownie danych?............................... 3 1.1 Wst p.................................................. 3 1.2 Denicja
MS Visual Studio 2005 Team Suite - Performance Tool
MS Visual Studio 2005 Team Suite - Performance Tool przygotował: Krzysztof Jurczuk Politechnika Białostocka Wydział Informatyki Katedra Oprogramowania ul. Wiejska 45A 15-351 Białystok Streszczenie: Dokument
Security Master Class
Security Master Class Platforma kompleksowej analizy zdarzeń Linux Polska SIEM Radosław Żak-Brodalko Senior Solutions Architect Linux Polska sp. z o.o. Podstawowe problemy Jak pokryć lukę między technicznym