Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Podobne dokumenty
Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Proces odkrywania wiedzy z baz danych

Eksploracja Danych. podstawy

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Analiza danych i data mining.


PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Eksploracja danych TADEUSZ MORZY

Specjalizacja magisterska Bazy danych

Eksploracja danych (data mining)

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

INŻYNIERIA OPROGRAMOWANIA

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Relacja zakresu nauk humanistyczno-społecznych z Krajową Inteligentną Specjalizacją

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

STUDIA STACJONARNE I STOPNIA Przedmioty kierunkowe

data mining machine learning data science

Eksploracja danych. Plan prezentacji. Problemy eksploracji danych. Wielkie bazy danych SCHEMATY. zakresie baz danych, uczenia maszynowego i statystyki

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Prof. Stanisław Jankowski

Co to jest Business Intelligence?

Szczegółowy opis przedmiotu zamówienia

Analiza danych. TEMATYKA PRZEDMIOTU

Matryca pokrycia efektów kształcenia

Metody Inżynierii Wiedzy

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Hurtownie danych - przegląd technologii

Implementacja metod eksploracji danych - Oracle Data Mining

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

INŻYNIERIA OPROGRAMOWANIA

Matematyka kodem nowoczesności. Zaproszenie do składania ofert

Rola analityki danych w transformacji cyfrowej firmy

Analiza internetowa czyli Internet jako hurtownia danych

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Analiza i wizualizacja danych Data analysis and visualization

Hurtownie danych - przegląd technologii

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Hurtownia danych praktyczne zastosowania

Transformacja wiedzy w budowie i eksploatacji maszyn

Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach PROGRAM KSZTAŁCENIA. Studia III stopnia (doktoranckie) kierunek Informatyka

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Kierunek Informatyka stosowana Studia stacjonarne Studia pierwszego stopnia

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

Wprowadzenie do technologii informacyjnej.

Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz

Bazy danych na co dzień

Ewelina Dziura Krzysztof Maryański

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Alicja Marszałek Różne rodzaje baz danych

Business Intelligence

Narzędzia Informatyki w biznesie

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

STAR FINANCE Case Study

Jakub Kisielewski.

Uniwersytet Śląski w Katowicach str. 1 Wydział Informatyki i Nauki o Materiałach

StatSoft profesjonalny partner w zakresie analizy danych

Matryca pokrycia efektów kształcenia. Efekty kształcenia w zakresie wiedzy (cz. I)

2

Szybkość instynktu i rozsądek rozumu$

Hurtownie danych - opis przedmiotu

Zakładane efekty kształcenia dla kierunku Wydział Telekomunikacji, Informatyki i Elektrotechniki

CO MOZ NA WYCISNA C Z SAMOOBSŁUGI CZYLI SPRZEDAZ W KANAŁACH SELF CARE? Bartosz Szkudlarek

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Kierunek: Informatyka Poziom studiów: Studia I stopnia Forma studiów: Stacjonarne. audytoryjne. Wykład Ćwiczenia

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Od e-materiałów do e-tutorów

Data Mining Kopalnie Wiedzy

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Spojrzenie na systemy Business Intelligence

Opis efektów kształcenia dla modułu zajęć

Systemy GIS Dziedziny zastosowań systemów GIS

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

STUDIA STACJONARNE JEDNOLITE MAGISTERSKIE Przedmioty kierunkowe

enxoo properto Kompleksowy system do zarządzania sprzedażą i wynajmem nieruchomości

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Transkrypt:

Techniki i algorytmy eksploracji danych Tadeusz Morzy Instytut Informatyki Politechnika Poznańska str. 1 Geneza (1) Dostępność danych Rozwój nowoczesnych technologii przechowywania i przetwarzania danych (systemy baz danych, hurtownie danych, repozytoria danych) Upowszechnienie systemów informatycznych we wszystkich praktycznie dziedzinach życia ( bankowość, ubezpieczenia, administracja, medycyna, nauka, sport, handel, produkcja, marketing itd. Spadek cen sprzętu komputerowego Geneza (2) Jaka jest wartość nagromadzonych danych z punktu widzenia przedsiębiorstwa? służą one do obsługi i wspomagania bieżącej działalności przedsiębiorstw zawierają bardzo często istotną wiedzę o otaczającym nas świecie nagromadzone mogą zawierać istotną wiedzę o prawidłowościach i regułach procesów biznesowych, zachowaniach klientów, o zależnościach występujących pomiędzy danymi generowanymi przez różne procesy Dylemat przedsiębiorstw: w jaki sposób efektywnie i racjonalnie wykorzystać nagromadzoną w danych wiedzę dla celów wspomagania swojej działalności? str. 3

Przyrost danych (1) How much information 2003: podwojenie danychco dwa lata (prawo Moore a) Extracting Value from Chaos (Wydobywanie wartości z chaosu) (EMC Corporation) -wyniki badania IDC Digital Universe, według którego ilość informacji na świecie wzrasta przeszło dwukrotnie co dwa lata. W 2011 r. utworzono i zreplikowano 1,8 zetabajtów jest to wzrost szybszy, niżby to wynikało z prawa Moore a. Serwery światowe przetworzyły 9,57 zetabajtów (rok 2008) str. 4 Przyrost danych (2) Tylko niewielka część danych jest analizowana, a efekty tej analizy wykorzystywane w praktyce!!! Niezbędna jest analiza przechowywanych danych inaczej przechowywanie takich wolumenów danych nie ma najmniejszego sensu Technologią, która zajmuje się analizą i odkrywaniem zależności, reguł, wzorców w bazach i hurtowniach danych jest eksploracja danych(ang. data mining) str. 5 Czym jest eksploracja danych (1) Eksploracja danych: zbiór metod automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów (ang. patterns) w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) Celem eksploracji danych jest analiza danych i procesów w celu lepszego ich rozumienia DANE DATA MINING WZORCE str. 6

Czym jest eksploracja danych (2) Alternatywne określenia technologii eksploracji danych: odkrywanie wiedzy w bazach danych (KDD - SIGKDD), ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie wiedzy Ciekawe określenia: archeologia danych, kopanie w danych, eksploatacja złóż danych Czym nie jest eksploracja danych: systemy eksperckie OLAP str. 7 Eksploracja danych: proces odkrywania wiedzy(1) Odkrywanie wiedzy a eksploracja danych Eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy Etapy procesu odkrywania wiedzy (ang. KDD process): Zapoznanie się z wiedzą dziedzinową aplikacji - aktualna wiedza i cele aplikacji Integracja danych z różnych źródeł danych Selekcja danych (ekstrakcja cech) Czyszczenie danych: (około60% czasu) str. 8 Eksploracja danych: proces odkrywania wiedzy(2) Etapy procesu odkrywania wiedzy cd.: Konsolidacja i transformacja danych Wybór metody (metod) eksploracji danych Wybór algorytmu eksploracji danych Eksploracja danych Interpretacja, analiza i ocena wyników wizualizacja, transformacja, usuwanie redundantnych wzorców, etc. Wykorzystanie pozyskanej wiedzy str. 9

Typy zapytań do repozytoriów danych Eksploracja danych = złożone zapytania Zapytanie operacyjne do bazy danych: Ile butelek wina sprzedano w I kwartale 20013 roku w sklepie Auchan w Poznaniu? Jaki procent klientów zakupił wino I kwartale 20013 roku w sklepie Auchan w Poznaniu? Zapytanie analityczne do hurtowni danych: Ile sprzedano butelek wina w sieci Auchan na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 5 lat? Jak rozkłada się sprzedaż poszczególnych marek wina w sieci Auchan na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 5 lat? str. 10 Zapytania eksploracyjne (1) Przykłady zapytań eksploracyjnych: Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? W jaki sposób można scharakteryzować klientów kupujących wino? W jaki sposób pogrupować klientów kupujących wino? Czy można dokonać predykcji, że dany klient kupi wino? str. 11 Zapytania eksploracyjne (2) Przykłady zapytań eksploracyjnych (c.d.): Jakie czynniki kształtują popyt na określone produkty? Czym różnią się klienci supermarketu w Poznaniu i Warszawie? Jakie oddziały supermarketu miały anormalną sprzedaż w pierwszym kwartale 2013 r.? Czy można przewidzieć popyt klientów na określone produkty? Czy istnieje korelacja pomiędzy lokalizacja oddziału supermarketu a asortymentem produktów, których sprzedaż jest wyższa od średniej sprzedaży produktów? str. 12

Zapytania eksploracyjne (3) Dany jest zbiór danych opisujących pacjentów szpitala.czy potrafimy w oparciu o ten zbiór danych: Poprawnie zdiagnozować pacjenta (określić chorobę)? Przewidzieć poprawnie wynik terapii? Zaproponować najlepszą terapię? str. 13 Eksploracja danych: mieszanka dyscyplin Systemy baz danych, hurtownie danych, OLAP Statystyka, probabilistyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny: Sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, systemy reputacyjne, etc. str. 14 Eksploracja danych: co można eksplorować? Bazy danych Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne WWW etc. str. 15

Metody eksploracji danych odkrywanie asocjacji klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych wykrywanie zmian i odchyleń eksploracja WWW eksploracja dokumentów tekstowych itd. str. 16 Metody eksploracji: odkrywanie asocjacji odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych przykłady asocjacji: klienci, którzy kupują pieluszki, kupują również piwo klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup klienci (ubezpieczaln)i, którzy mają poniżej 25 lat często powodują wypadki drogowe zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzedaży w supermarketach str. 17 Metody eksploracji: odkrywanie wzorców sekwencji odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji zdarzeń lub elementów przykłady wzorców sekwencji: klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski klienci, którzy realizowali dostęp do strony A, w kolejnym kroku przejdą na stronę C, a następnie, na stronę D zastosowania odkrytych wzorców sekwencji: planowanie inwestycji giełdowych przewidywanie sprzedaży znajdowanie skutecznej terapii znajdowanie profili klientów serwisu web-owego str. 18

Metody eksploracji: klasyfikacja klasyfikacja: predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących wypadki drogowe: kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe kierowcy, którzy posiadają prawo jazdy ponad 7 lat lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych zastosowania klasyfikacji: diagnostyka medyczna rozpoznawanie trendów na rynkach finansowych przydział kredytów bankowych str. 19 Metody eksploracji: grupowanie grupowanie: znajdowanie naturalnego pogrupowania (podziału) obiektów w oparciu o ich wartości przykłady grupowania: automatyczne grupowanie dokumentów tekstowych (np. maili) grupowanie klientów serwisu grupowanie konsumentów energii elektrycznej zastosowania grupowania: systemy rekomendacyjne (grupowanie klientów) wyszukiwanie informacji w sieci web (np. grupowanie stron www) astronomia handel elektroniczny str. 20 Metody eksploracji: odkrywanie charakterystyk odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych przykład odkrywania charakterystyk: opis pacjentów chorujących na anginę: pacjenci chorujący na anginę cechują się temperaturą ciała większą niż 37.5 C, bólem gardła, osłabieniem organizmu automatyczne tworzenie streszczeń dokumentów automatyczne tworzenie charakterystyk produktów na podstawie informacji z blogów i forów internetowych zastosowania odkrywania charakterystyk: znajdowanie zależności funkcyjnych pomiędzy zmiennymi określanie profilu klienta - zbioru cech charakterystycznych str. 21

Metody eksploracji: odkrywanie punktów osobliwych odkrywanie punktów osobliwych: znajdowanie obiektów (zdarzeń) odbiegających znacząco od modelu pozostałych obiektów (zdarzeń) analizowanego zbioru danych przykład odkrywania punktów osobliwych: znajdowanie klientów, których konsumpcja energii odbiega znacząco od innych klientów o podobnej charakterystyce znajdowanie pacjentów, których wyniki odbiegają znacząco od wyników analiz innych pacjentów chorujących na ta samą chorobę zastosowania odkrywania punktów osobliwych: wykrywanie oszustw podatkowych, kradzieży prądu, itp.. astronomia, fizyka odkrywanie obiektów o nieznanej dotychczas charakterystyce str. 22 Metody eksploracji: eksploracja sieci www eksploracja sieci www: metody analizy korzystania z sieci web w celu : znajdowania typowych wzorców zachowań użytkowników sieci znajdowania powiazań stron w sieci web w celu określenia ważności i koncentratywności stron (w celu poprawy efektywności procesu wyszukiwania stron) grupowania i klasyfikacji stron WWW na podstawie ich zawartości i schematu zewnętrznego znajdowania ukrytych stron lustrzanych i wewnętrznych środowisk (ang. communities) oraz analiza ich ewolucji w czasie analizy reklam internetowych (ich efektywności, rozliczania i propagacji). str. 23 Metody eksploracji: eksploracja danych multimedialnych i przestrzennych metody analizy i eksploracji baz danych przechowujących obrazy, mapy, dźwięki, wideo itp. celem jest wspomaganie procesów wyszukiwania danych (wyszukiwanie na podstawie zawartości, wideo na żądanie itd.) metody służące do grupowania i klasyfikacji danych multimedialnych są najczęściej silnie powiązane z mechanizmami systemu zarządzania bazą danych (indeksowanie i buforowanie danych) str. 24

Metody eksploracji: eksploracja struktur grafowych struktury grafowe są szeroko stosowane do modelowania złożonych obiektów, takich jak: obwody elektroniczne, związki chemiczne, struktury białkowe, sieci biologiczne, sieci społecznościowe, procedury obiegu dokumentów, dokumenty XML metody analizy struktur grafowych: grupowanie i klasyfikacja struktur grafowych, odkrywanie częstych podstruktur (podgrafów) w bazie danych struktur grafowych, klasyfikacja struktur grafowych umożliwiająca znajdowanie zależności pomiędzy pewną charakterystyką struktury grafowej a jej budową (np. analiza i klasyfikacja sekwencji DNA) str. 25 Metody eksploracji: eksploracja sieci społecznościowych algorytmy analizy sieci społecznościowe wspomagające: procesy wykrywania oszustów uczestniczących w aukcjach internetowych, wykrywanie przestępstw w kryminalistyce, analizę dużych sieci elektrycznych i telekomunikacyjnych itp. powiazania pomiędzy uczestnikami gier i aukcji internetowych wykrywanie środowisk w sieciach społecznościowych rozpowszechnianie się epidemii, itp. str. 26 Problemy odkrywania wiedzy (1) Dane zawarte w bazach i hurtowniach danych nie zawsze są reprezentatywne i nie opisują wszystkich możliwych kombinacji wartości danych klasyczny konflikt empiryzm vs racjonalizm W dużych bazach danych mogą zostać odkryte tysiące reguł Różni użytkownicy systemu eksploracji danych są zainteresowani różnymi typami reguł Odkrywanie wiedzy jest procesem bardzo złożonym obliczeniowo str. 27

Problemy odkrywania wiedzy (2) Istotny problem etyczny: jak zagwarantować poufność i ochronę danych osobistych w przypadku eksploracji danych? (rozwój metod eksploracji danych zapewniających ochronę prywatności ang. privacy-preserving data mining) Rozwiązanie: odkrywanie tylko części wszystkich możliwych reguł -wskazanej przez użytkownika przy pomocy kryteriów tylko użytkownik potrafi ocenić poprawnie wartość odkrytej wiedzy anonimizacja i randomizacja analizowanych danych str. 28 Dziedziny zastosowań (1) Handel i marketing identyfikacja profilu klienta dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny, wykrywanie schematów zakupów i planowanie lokalizacji artykułów Finanse i bankowość identyfikacja schematów wykorzystywania kradzionych kart kredytowych przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych Nauka i technologia odkrywanie nowych obiektów (astronomia, fizyka) wykrywanie schematów alarmowych w sieciach telekomunikacyjnych str. 29 Dziedziny zastosowań (2) Nauka astronomia, bioinformatyka, przemysł farmaceutyczny, Biznes reklama, CRM (Customer Relationship management), inwestycje, finanse, ubezpieczenia, telekomunikacja, medycyna, Web: Przeglądarki (Google), handel elektroniczny Amazon, ebay, Allegro Administracja wykrywanie przestępstw, wykrywanie nadużyć podatkowych, etc. str. 30

Podsumowanie Systemy baz danych narzędzie do przechowywania danych Hurtownie danych narzędzie wspomagania podejmowania decyzji Eksploracja danych narzędzie do analizy zgromadzonych danych str. 31