Metadane. Data Maining. - wykład VII Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006
Plan 1. Metadane 2. Jakość danych 3. Eksploracja danych (Data mining) 4. Sprawy róŝne
1. Metadane Dane o danych mogą przechowywać informacje: jakie dane i w jakim miejscu się znajdują, słownik/słowniki danych, definicje przepływu danych (kierunek i częstotliwość przepływu danych), definicje dotyczące transformacji danych, informacje o modyfikacja oraz kolejne wersje metadanych (tzw. kroniki), inne (np. statystyki uŝycia danych, uprawnienia uŝytkowników)
1 Metadane Przykłady standardów: MSR (Microsoft Repository) przechowywanie danych (mechanizm relacyjny) oraz modelu danych (oparty na COM common object model; standaryzacja poprzez zastosowanie jednego języka (UML firmy Rational) MDIS (Metadata Interchange Specyfication) standard opracowany przez m.in. IBM, Sybase, Informix (przykład kolejny slajd ). Ciekawe informacje o metadanych (rozwiązaniach), np.: http://www.metadata.org
1. Metadane
1. Metadane Źródło: M.Jarke, M.Lenzerini, Y.Vasiliou, P.Vasiliadis Hurtownie danych, WSiP, Warszawa 2003
1. Metadane Źródło: M.Jarke, M.Lenzerini, Y.Vasiliou, P.Vasiliadis Hurtownie danych, WSiP, Warszawa 2003
1. Metadane Źródło: M.Jarke, M.Lenzerini, Y.Vasiliou, P.Vasiliadis Hurtownie danych, WSiP, Warszawa 2003
2. Jakość danych Podstawowe wymiary: dokładność (accurancy) zgodność wartości przechowywanych z źródłowymi (rzeczywistymi), aktualność (timelines) dane odpowiadają rzeczywistości (nie zdezaktualizowały się), kompletność (completness) Ŝadna informacja nie została zagubiona,
2. Jakość danych Podstawowe wymiary cd.: spójność (consistency) jednolita reprezentacja danych, dyspozycyjność (availability) dane są dostępne wtedy, gdy ich potrzebujemy, inne, patrz: materiały ksero.
2. Jakość danych Czynniki jakości w problemach optymalizacji projektowania hurtowni danych patrz: materiały ksero.
2. Jakość danych Normy: ISO 9000 zarządzanie jakością i zapewnienie jakości (zawiera: pojęcia, definicje, wytyczne wyboru standardów/norm itp.) ISO 9001 model zapewnienia jakości w projektowaniu, pracach rozwojowych, produkcji, instalowaniu, serwisie (m.in. zawiera wymagania związane z planowaniem jakości, wzór kontraktu, parametry) inne: ISO 9002 - ISO 9004, IEEE 730-1989
3. Ekstrakcja danych Ekstrakcja danych (ang.( data mining) - to odkrywanie, wydobywanie wiedzy ze zgromadzonych danych Business Intelligence (BI) - słuŝy do ekstrapolacji przyszłości i estymacji stanu obecnego (źródło: http://pl.wikipedia.org pl.wikipedia.org/wiki/business_intelligence Business_intelligence); narzędzia BI słuŝą do wspomagania podejmowania decyzji w oparciu o analizę zgromadzonych danych
3. Ekstrakcja danych Podstawowe zakresy techniki eksploracji danych: metody statystyczne, sieci neuronowe, algorytmy genetyczny (metody ewolucyjne) logika rozmyta, metody uczenia maszynowego
3. Ekstrakcja danych - techniki REGUŁY ASOCJACYJNE: X => Y (wsparcie, ufność) gdzie: X i Y rozłączne zbiory elementów, Przykład: wsparcie występowanie X i Y razem [%], ufność prawdopodobieństwo P(Y X) {chleb, kiełbasa} => {musztarda} (5%,75%) 5% klientów miało chleb, kiełbasę i musztardę, 75% tych co mieli chleb i kiełbasę mieli teŝ musztardę
3. Ekstrakcja danych - techniki WZORCE SEKWENCJI -uporządkowane ciągi zbiorów elementów w którym kaŝdy zbiór ma określony znacznik czasowy (np. kolejno wypoŝyczane filmy przez klienta, zakupy ksiąŝek) - w bazie danych najczęściej wyszukujemy wzorce występujące z częstością większą niŝ zadana Przykład: { Ogniem i mieczem } =>{ Potop }=>{ Pan Wołodyjowski } (1,5%) { Powrót króla ksiąŝka } => { Powrót króla film DVD } (?)
3. Ekstrakcja danych - techniki INNE - analiza materiałów Internetowych http://www.the-modeling modeling-agency.com/training/series.html http://www.mini.pw.edu.pl/~mandziuk/23-11 11-05.pdf http://www.cs.put.poznan.pl/mmorzy/papers/ploug05.pdf
4. Sprawy róŝne WDROśENIE i KONSERWACJA 1. SZKOLENIA 2. PROMOCJA HD 3. URUCHAMIANIE
4. Sprawy róŝne SZKOLENIA nikt nie lubi zmian mimo istnienia HD pracownicy mogą z niej nie korzystać, trudności z obsługą nie wszyscy są informatykami, nawet proste operacje (wyświetlanie raportów) mogą sprawiać kłopoty, nie wszystko jest przydatne modyfikacje HD implikują konieczność informowania pracowników dodatkowe szkolenia
4. Sprawy róŝne PROMOCJA HD wsparcie kierownictwa (np. zgłaszanie przez nich zapotrzebowania na dane z HD do pracowników, system motywacyjny), zamieszczanie informacji o HD na tablicy ogłoszeń, w gazetce), zachęcanie do wymiany informacji pomiędzy uŝytkownikami, i inne
4. Sprawy róŝne URUCHOMIENIE dobór właściwej strategii (najczęściej etapowe), testowanie i ocena jakości, walidacja, dokumentacja
END OF Dziękuję za uwagę