Proces odkrywania wiedzy z baz danych

Podobne dokumenty
Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Eksploracja Danych. podstawy

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Analiza danych i data mining.

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2


Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Eksploracja danych. Plan prezentacji. Problemy eksploracji danych. Wielkie bazy danych SCHEMATY. zakresie baz danych, uczenia maszynowego i statystyki

data mining machine learning data science

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

Wprowadzenie do technologii informacyjnej.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Eksploracja danych (data mining)

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Analiza i wizualizacja danych Data analysis and visualization

Data Mining Kopalnie Wiedzy

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

w ekonomii, finansach i towaroznawstwie

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Opis efektów kształcenia dla modułu zajęć

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Widzenie komputerowe (computer vision)

Analiza danych. TEMATYKA PRZEDMIOTU

Szczegółowy opis przedmiotu zamówienia

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Implementacja metod eksploracji danych - Oracle Data Mining

StatSoft profesjonalny partner w zakresie analizy danych

SPOTKANIE 2: Wprowadzenie cz. I

Ewelina Dziura Krzysztof Maryański

JAKOŚĆ DANYCH Z PERSPEKTYWY SYSTEMÓW WSPOMAGANIA DECYZJI KLINICZNYCH. Dr hab. inż. Szymon Wilk Politechnika Poznańska Instytut Informatyki

Fabryka i3 Machine Learning w analizie ryzyka kredytowego

Kodowanie produktów - cz. 1

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Wprowadzenie do teorii systemów ekspertowych

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Metody Inżynierii Wiedzy

IX EKSPLORACJA DANYCH

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Systemy GIS Dziedziny zastosowań systemów GIS

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Pattern Classification

Sztuczna inteligencja stan wiedzy, perspektywy rozwoju i problemy etyczne. Piotr Bilski Instytut Radioelektroniki i Technik Multimedialnych

Eksploracja danych Jacek Rumiński

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Zakładane efekty kształcenia dla kierunku Wydział Telekomunikacji, Informatyki i Elektrotechniki

METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE

2

Eksploracja danych TADEUSZ MORZY

Co to jest Business Intelligence?

Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz

Analiza internetowa czyli Internet jako hurtownia danych

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

EKSPLORACJA DANYCH. Data Mining

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Kwalifikacje wspólne dla absolwentów wszystkich specjalności kierunku Bankowość i finanse cyfrowe

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Prof. Stanisław Jankowski

Data mining w systemach CRM

Podstawy sztucznej inteligencji

Odkrywanie asocjacji

Mail: Pokój 214, II piętro

Kierunek: Informatyka i Ekonometria Poziom studiów: Studia I stopnia Forma i tryb studiów: Niestacjonarne. Wykład Ćwiczenia

Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Czyszczenie i standaryzacja danych adresowych. Michał Słoniewicz, Biuro Informacji Kredytowej Warszawa, 19 kwietnia 2012 r.

Zagadnienia na egzamin magisterski na kierunku Finanse i Rachunkowość

Efekt kształcenia. Wiedza

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Scoring w oparciu o Big Data. 8 kwietnia 2014 roku

Jakub Kisielewski.

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Systemy Wspomagania Decyzji

Informatyka w medycynie Punkt widzenia kardiologa

Ontologie, czyli o inteligentnych danych

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Etapy przygotowań do przeprowadzenia badań marketingowych. dr Grzegorz Kotliński, Katedra Bankowości AE w Poznaniu

Ćwiczenia z Zaawansowanych Systemów Baz Danych

METODY ODKRYWANIA WIEDZY W SYSTEMACH BUSINESS INTELLIGENCE

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Odkryj w danych to, co najważniejsze

Transkrypt:

Proces odkrywania wiedzy z baz danych Wydział Informatyki Politechnika Białostocka Marcin Czajkowski email: m.czajkowski@pb.edu.pl

Świat pełen danych

Świat pełen danych Możliwości analizowania i zrozumienia danych << Możliwości gromadzenia i przechowywania danych Kilkanaście zetabajtów (1ZB = 10 21 bajtów) danych zostanie wygenerowanych tylko w tym roku Najwięksi producenci to banki, firmy, sieci handlowe, ubezpieczalnie ośrodki naukowe, sieć WWW Przechowywanie ogromnych ilości danych i samo ich magazynowanie nie ma większego sensu niezbędna jest analiza tych danych dzięki której można otrzymać informacje (ukrytą wiedzę) w nich zawartą Tylko niewielka część danych jest analizowana a efekty tej analizy wykorzystywane w praktyce na przykład w: diagnostyce medycznej; rozpoznawaniu obrazu, mowy i pisma; analizie operacji bankowych; reklamie skierowanej; ocenie ryzyka kredytowego itp.

Cechy wiedzy DM Trafnie przewidujące rzeczywistość (generalizacja) Zrozumiałe Użyteczne Ukazujące nowe zależności Interaktywne Interesujące

Proces pozyskiwania wiedzy z baz danych (ang. knowledge discovery in databases) Wybór danych Wstępne przetwarzanie Transformacja Eksploracja danych Interpretacja Wiedza Baza danych Zbiór danych Dane przetworzone Dane po transformacji Wzorce i modele Wybór danych do analizy wybór atrybutów i obiektów do analizy integracja i zdefiniowanie zbiorów danych zbiory powinny być wystarczająco duże aby móc odkryć wzorce do analizy a jednocześnie na tyle zwięzłe aby pozyskać wiedzę w akceptowalnym czasie

Proces pozyskiwania wiedzy z baz danych (ang. knowledge discovery in databases) Czyszczenie danych i wstępne przetwarzanie usunięcie szumów i wartości odstających eliminacja lub uzupełnianie wartości brakujących usunięcie niespójnych danych Transformacja danych transformacja danych do postaci odpowiedniej do eksploracji danych ormalizacja, standaryzacja danych Selekcja i ekstrakcja cech zredukowanie wymiaru wektora danych

Proces pozyskiwania wiedzy z baz danych (ang. knowledge discovery in databases) Eksploracja danych (ang. data mining): Nietrywialne wydobywanie ukrytej, poprzednio nieznanej i potencjalnie użytecznej informacji z danych (W.Frawley, G. Piatetsky-Shapiro, C. Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, 1992) Nauka zajmująca się wydobywaniem informacji z dużych zbiorów danych lub baz danych (D. Hand, H. Mannila, P. Smyt. Principles of Data Mining. MIT Press, Cambridge, MA, 2001) Eksploracja danych cd najistotniejsza część tego procesu związana jest z analizą przygotowanych zbiorów danych, pozyskiwaniem zależności i wzorców główne zadania eksploracji danych: opisywanie i predykcja Interpretacja - identyfikacja, interpretacja i ocena zależności oraz odkrytych struktur

Proces DM

Zapytania Zapytania bazodanowe: ile piwa sprzedano w 1 kwartale 2012 r. w sklepie Żak. ile piwa sprzedano w sieci Real na terenie Polski z podziałem na województwa, gatunki oraz kwartały w ciągu ostatnich 5 lat? Zapytania eksploracyjne Jakie inne jeszcze produkty najczęściej kupują klienci, którzy kupują piwo? (wykazano powiązanie piwo + pieluchy) Czym różnią się koszyki klientów kupujących wino i piwo? Jak można scharakteryzować klientów kupujących tanie wino? W jaki sposób pogrupować klientów kupujących piwo? Czy można dokonać predykcji, że dany klient kupi piwo? Dany jest zbiór danych pacjentów szpitala. W oparciu o ten zbiór: Określ potencjalną chorobę pacjenta (diagnoza) Określ poprawny wynik terapii Zaproponuj najlepszą terapię (uwzględnij również koszty)

Mieszanka dyscyplin Systemy baz danych, hurtownie danych, OLAP Statystyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny: Sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, systemy reputacyjne, etc.

Metody eksploracji danych klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych odkrywanie asocjacji wykrywanie zmian i odchyleń eksploracja WWW eksploracja tekstów

Metody eksploracji: klasyfikacja/regresja Metoda analizy danych, której celem jest predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych??? Wiele technik: statystyka, drzewa decyzyjne, sieci neuronowe,...

Metody eksploracji: klasyfikacja/regresja przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących wypadków drogowych: kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych klasyfikacja vs regresja? zastosowania klasyfikacji/regresji: diagnostyka medyczna rozpoznawanie trendów na rynkach finansowych automatyczne rozpoznawanie obrazów przydział kredytów bankowych

Metody eksploracji: grupowanie Znajdź naturalne pogrupowanie obiektów w oparciu o ich wartości zastosowania grupowania: - grupowanie dokumentów - grupowanie klientów - segmentacja rynku

Metody eksploracji: odkrywanie asocjacji odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych przykłady asocjacji: niscy ludzie mają długie włosy klienci, którzy kupują pieluszki, kupują również piwo klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzedaży w supermarketach

Metody eksploracji: odkrywanie wzorców sekwencji odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji elementów przykład odkrywania wzorców sekwencji: klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o 0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5% zastosowania odkrytych wzorców sekwencji: planowanie inwestycji giełdowych przewidywanie sprzedaży znajdowanie skutecznej terapii

Metody eksploracji: odkrywanie charakterystyk odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych przykład odkrywania charakterystyk: opis pacjentów chorujących na anginę pacjenci chorujący na anginę cechują się temperaturą ciała większą niż 37.5 C, bólem gardła, osłabieniem organizmu zastosowania odkrywania charakterystyk: znajdowanie zależności funkcyjnych pomiędzy zmiennymi określanie profilu klienta - zbioru cech charakterystycznych

Problemy problem z danymi (niekompletne, wielowymiarowe, etc.) w dużych bazach danych mogą zostać odkryte tysiące reguł człowiek nie potrafi rozumieć i przeanalizować bardzo dużych zbiorów informacji różni użytkownicy systemu bazy danych są zainteresowani różnymi typami reguł z różnych relacji odkrywanie reguł jest procesem bardzo złożonym obliczeniowo Rozwiązanie: odkrywanie tylko części wszystkich możliwych reguł - wskazanej przez użytkownika przy pomocy kryteriów tylko użytkownik potrafi ocenić poprawnie wartość odkrytej wiedzy Istotny problem etyczny: jak zagwarantować poufność i ochronę danych osobistych w przypadku eksploracji danych?

Dziedziny zastosowań Nauka: astronomia, bioinformatyka, przemysł farmaceutyczny, Biznes: reklama, CRM (Customer Relationship management), inwestycje, finanse, ubezpieczenia, telekomunikacja, medycyna, Web: przeglądarki (Google), handel elektroniczny Amazon, ebay, Allegro Administracja: wykrywanie przestępstw, wykrywanie nadużyć podatkowych, etc. Handel i marketing identyfikacja profilu klienta dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny, wykrywanie schematów zakupów i planowanie lokalizacji artykułów Finanse i bankowość identyfikacja schematów wykorzystywania kradzionych kart kredytowych przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych Technologia Odkrywanie nowych obiektów (astronomia) wykrywanie schematów alarmowych w sieciach telekomunikacyjnych

Predykcja w eksploracji danych Eksploracja danych z google: