Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel



Podobne dokumenty
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Analiza danych i data mining.

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

w ekonomii, finansach i towaroznawstwie

Ewelina Dziura Krzysztof Maryański

Transformacja wiedzy w budowie i eksploatacji maszyn

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Analiza i wizualizacja danych Data analysis and visualization

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

INŻYNIERIA OPROGRAMOWANIA

rodzaj zajęć semestr 1 semestr 2 semestr 3 Razem Lp. Nazwa modułu E/Z Razem W I

Proces odkrywania wiedzy z baz danych

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Opis efektów kształcenia dla modułu zajęć

0.2. Dlaczego ta książka jest potrzebna?

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

KIERUNKOWE EFEKTY KSZTAŁCENIA

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Efekt kształcenia. Wiedza

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

rodzaj zajęć semestr 1 semestr 2 semestr 3 Razem Lp. Nazwa modułu E/Z Razem W I

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

Hurtownie danych - opis przedmiotu

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach PROGRAM KSZTAŁCENIA. Studia III stopnia (doktoranckie) kierunek Informatyka

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

Szczegółowy opis przedmiotu zamówienia

INFORMATYKA POZIOM ROZSZERZONY

INFORMATYKA POZIOM ROZSZERZONY

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Podsumowanie wyników ankiety

Matryca pokrycia efektów kształcenia

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW BIOINFORMATYKA

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Zakładane efekty kształcenia dla kierunku

Co to jest Business Intelligence?

Zakładane efekty kształcenia dla kierunku

KIERUNKOWE EFEKTY KSZTAŁCENIA

Prof. Stanisław Jankowski

Analiza internetowa czyli Internet jako hurtownia danych

Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu

PRZEWODNIK PO PRZEDMIOCIE

Efekty uczenia się na kierunku. Logistyka (studia pierwszego stopnia o profilu praktycznym)

Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data

Specjalizacja magisterska Bazy danych

Kierunek Informatyka stosowana Studia stacjonarne Studia pierwszego stopnia

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W NYSIE

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

Eksploracja danych (data mining)

Informatyka, studia I stopnia (profil ogólnoakademicki) - wersja

DLA SEKTORA INFORMATYCZNEGO W POLSCE

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Z-LOGN Ekonometria Econometrics. Przedmiot wspólny dla kierunku Obowiązkowy polski Semestr IV

Efekty kształcenia wymagane do podjęcia studiów 2 stopnia na kierunku Informatyka

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

TOK STUDIÓW Kierunek: informatyka rok studiów: I studia stacjonarne pierwszego stopnia, rok akademicki 2014/2015. Forma zaliczen ia. egz. lab.

Grafika i Systemy Multimedialne (IGM)

1. Tabela odniesień efektów kierunkowych do efektów obszarowych z komentarzami


Uniwersytet Śląski w Katowicach str. 1 Wydział Informatyki i Nauki o Materiałach

PRZEWODNIK PO PRZEDMIOCIE

EFEKTY UCZENIA SIĘ DLA KIERUNKU INŻYNIERIA DANYCH W ODNIESIENIU DO EFEKTÓW UCZENIA SIĘ PRK POZIOM 6

Prezentacja kierunku Analityka biznesowa. Instytut Ekonomii i Informatyki

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa i multimedia

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

Security Master Class

PROGRAM STUDIÓW. Egzamin, kolokwium, projekt, aktywność na zajęciach.

Efekty kształcenia na kierunku AiR drugiego stopnia - Wiedza Wydziału Elektrotechniki, Automatyki i Informatyki Politechniki Opolskiej

Kierunek: INFORMATYKA. Studia stacjonarne. Studia drugiego stopnia. Profil: ogólnoakademicki

Odniesienie do efektów kształcenia w obszarze kształcenia w zakresie nauk przyrodniczych i technicznych

Analiza danych tekstowych i języka naturalnego

Wprowadzenie do technologii informacyjnej.

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Wydział Informtyki i Nauki o Materiałach Kierunek Informatyka. kod kierunku (dodaj kod przedmiotu)

Inżynieria Oprogramowania w Praktyce

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data

Zakładane efekty kształcenia dla kierunku Wydział Telekomunikacji, Informatyki i Elektrotechniki

PROGRAM KSZTAŁCENIA NA STUDIACH III STOPNIA Informatyka (nazwa kierunku)

STUDIA STACJONARNE I STOPNIA Przedmioty kierunkowe

Systemy Wspomagania Decyzji

Efekty kształcenia dla kierunku studiów informatyka i agroinżynieria i ich odniesienie do efektów obszarowych

Transkrypt:

według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology Review wybrało eksplorację danych jako jedną z dziesięciu nowych technologii, które zmienią świat. Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel Przyrost danych Sprzyjające warunki gwałtowny rozrost zbiorów danych hurtownie danych zwiększony dostęp do danych Internet zwiększenie udziału rynku w globalnej ekonomii wzrost mocy obliczeniowej i pojemności pamięci Motywacja mamy informację, a nie mamy wiedzy posiadanie wiedzy ( z informacji ) ma przynieść zysk posiadanie wiedzy ma otworzyć nowe możliwości posiadanie wiedzy ma uchronić przed błędami wiedza usprawni procesy produkcyjne, zarządzanie, obsługę klientów wiedza pozwoli zmniejszyć nadużycia Według Gartner Group Eksploracja danych jest procesem odkrywania znaczących nowych powiązań, wzorców i trendów przez przeszukiwanie dużych ilości danych zgromadzonych w skarbnicach danych, przy wykorzystaniu metod rozpoznawania wzorców, jak również metod statystycznych i matematycznych. Inne definicje Eksploracja danych jest analizą ( często ogromnych ) zbiorów danych obserwacyjnych, w celu znalezienia nieoczekiwanych związków i podsumowanie danych w oryginalny sposób, tak aby były zarówno zrozumiałe, jak i przydatne dla ich właściciela. Eksploracja danych jest międzydyscyplinarną dziedziną, łączącą techniki uczenia maszynowego, rozpoznawania wzorców, statystyki, baz danych i wizualizacji w celu uzyskiwania informacji z dużych baz danych. 1

Alternatywne określenie technologii eksploracji danych: Odkrywanie wiedzy w bazach danych KDD ( Knowledge Discovery in Databases ) - SIGKDD ( Special Interest Group On Knowledge Discovery and Data Mining ) ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie wiedzy archeologia danych, kopanie w danych, eksploatacja złóż danych Czym eksploracja danych nie jest eksploracja danych nie reprezentuje odizolowanego, gotowego do użycia przez dział analiz zbioru narzędzi nieistotnego dla głównego projektu biznesu lub badań eksploracja nie jest w pełni zautomatyzowanym procesem nie wymagającym udziału człowieka eksploracja czasami jest błędnie utożsamiana z systemami eksperckimi czy też analizą OLAP Dalsze mity istnieją automatyczne narzędzia, które na poczekaniu i mechanicznie rozwiążą zadane problemy proces eksploracji danych nie wymaga wcale, lub nie wymaga znacznego udziału człowieka eksploracja danych szybko się zwraca oprogramowanie do eksploracji danych jest intuicyjne eksploracja danych wyczyści niechlujną bazę danych Proces odkrywania wiedzy odkrywanie wiedzy a eksploracja danych eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy etapy procesu odkrywania wiedzy zapoznanie się z wiedzą dziedzinową aplikacji aktualna wiedza i cele aplikacji integracja danych selekcja danych czyszczenie danych ( około 60 % czasu ) konsolidacja i transformacja danych wybór metody (metod ) eksploracji danych wybór algorytmów eksploracji danych eksploracja danych interpretacja, analiza i ocena wyników wizualizacja, transformacja, usuwanie redundantnych wzorców, wykorzystanie pozyskanej wiedzy 2

Eksploracja danych jest dziedziną informatyki, która integruje szereg dyscyplin badawczych, takich jak systemy baz danych i hurtownie danych, statystyka,sztuczna inteligencja, obliczenia równoległe, optymalizacja i wizualizacja obliczeń. Wykorzystuje również szeroko techniki i metody opracowane na gruncie systemów wyszukiwania informacji, analizy danych przestrzennych, rozpoznawania obrazów, przetwarzania sygnałów, technologii Web, grafiki komputerowej, bioinformatyki. Co można eksplorować? relacyjne bazy danych hurtownie danych repozytoria danych zaawansowane systemy informatyczne obiektowe i obiektowo-realcyjne bazy danych przestrzenne bazy danych przebiegi czasowe i temporalne bazy danych testowe i multimedialne bazy danych WWW Metodologia Cross-Industry Standard Process for Data ( CRIS-DM ) została stworzona w 1966 roku przez analityków z DaimlerChrysler, SPSS i NCR. CRISP dostarcza ogólnie dostępny standardowy proces dopasowania eksploracji danych do ogólnej strategii rozwiązywania problemów komórki biznesowej lub badawczej. 3

CRISP-DM: jego etapy Zrozumienie uwarunkowań biznesowych/badawczych jasne sformułowanie celów i wymagań projektu w terminologii komórki biznesowej lub badawczej wykorzystanie tych celów i ograniczeń do opracowania definicji problemu eksploracji danych stworzenie wstępnego planu działań, zmierzających do osiągnięcia celów. Zrozumienie danych zebranie danych wykorzystanie wstępnej analizy danych, mającej na celu zaznajomienie się z danymi i odkrycie pierwszych zależności. ocena jakości danych niekiedy, wybranie interesujących podzbiorów, które mogą zawierać wzorce Przygotowanie danych przygotowanie ze wstępnych, surowych danych ostatecznego zbioru danych, który będzie wykorzystywany we wszystkich następnych fazach. wybór przypadków i zmiennych, które będą analizowane i które są odpowiednie do analizy wykonanie przekształceń na pewnych zmiennych, jeśli to konieczne wyczyszczenie surowych danych, tak aby były gotowe do wykorzystania przez narzędzia modelujące 4

Modelowanie wybór i zastosowanie odpowiednich technik modelujących skalowanie parametrów modelu w celu optymalizacji wyników często kilka różnych technik można użyć do tego samego problemu jeśli trzeba, wracamy do etapu przygotowania danych, by przybrały one postać odpowiadającą specyficznym wymaganiom danej techniki eksploracji danych Ewaluacja ocena modelu lub kilku modeli, otrzymanych z etapu modelowania, pod względem jakości i efektywności przed ich wdrożeniem ustalenie, czy model rzeczywiście spełnia wszystkie założenia ustalone w pierwszym etapie ocena, czy są jakieś ważne cele biznesowe lub badawcze, które nie zostały w należyty sposób uwzględnione podjęcie decyzji co do wykorzystania wyników eksploracji danych Wdrożenie wykorzystanie stworzonych modeli: stworzenie modelu zasadniczo nie stanowi zakończenia projektu przykład prostego wdrożenia: sporządzenie raportu przykład złożonego wdrożenia: implementacja równoległego procesu eksploracji danych w innym dziale w biznesie klienci często realizują wdrożenie na podstawie modelu Zadania stawiane przed eksploracją danych opis analiza danych szacowanie ( estymacja ) przewidywanie ( predykcja ) klasyfikacja grupowanie odkrywanie wzorców i reguł wyszukiwanie według zawartości Techniki eksploracji danych klasyfikacja regresja odkrywanie asocjacji klastrowanie grupowanie odkrywanie wzorców sekwencji dyskryminacja wykrywanie zmian i odchyleń wykorzystano materiały: Wykłady Eksploracja danych 2012 roku dr inż. Olga Siedlecka-Lamch D.T. Larose, Odkrywanie wiedzy z danych PWN Warszawa 2006 http://wazniak.mimuw.edu.pl/images/3/3d/ed-4.2-m01-1.0.pdf