Systemy ekspertowe. Od bazy danych do bazy wiedzy. Część druga. Krótkie wprowadzenie do zagadnień eksploracji danych



Podobne dokumenty
Systemy ekspertowe. Generowanie reguł minimalnych. Część czwarta. Autor Roman Simiński.

Systemy ekspertowe. Wnioskowanie w systemach regułowych. Część piąta. Autor Roman Simiński.

Ewelina Dziura Krzysztof Maryański

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Systemy ekspertowe Część siódma Realizacja dziedzinowego systemu ekspertowego Roman Simiński

Systemy ekspertowe Część siódma Realizacja dziedzinowego systemu ekspertowego Roman Simiński

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Podstawy programowania w języku C++

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Wprowadzenie do teorii systemów ekspertowych

Systemy ekspertowe. Reprezentacja wiedzy niepewnej i wnioskowanie w warunkach niepewności. Model współczynników pewności.

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Typy systemów informacyjnych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Eksploracja danych (data mining)

Analiza danych. TEMATYKA PRZEDMIOTU

Podstawy programowania w języku C++

Systemy eksperowe. Agnieszka Nowak Brzezińska Wykład I

Systemy uczące się wykład 1

Podstawy programowania w języku C i C++

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Zasady sprawnego i efektywnego sterowania przepływami materiałów i wyrobów

Podstawy programowania w języku C++

KOMPUTEROWE WSPOMAGANIE ZARZĄDZANIA

Wprowadzenie do technologii informacyjnej.

Podstawy programowania w języku C++

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

Analiza danych i data mining.

Analiza i wizualizacja danych Data analysis and visualization

Spojrzenie na systemy Business Intelligence

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

SPIS TREŚCI WSTĘP... 10

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

LISTA KURSÓW PLANOWANYCH DO URUCHOMIENIA W SEMESTRZE ZIMOWYM 2015/2016

Podstawy programowania

SZTUCZNA INTELIGENCJA

Terminologia baz danych

Marcin Adamczak Jakub Gruszka MSP. Business Intelligence

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

PODSTAWY INŻYNIERI WIEDZY

Wprowadzenie do programowanie obiektowego w języku C++

Systemy ekspertowe : program PCShell

Proces odkrywania wiedzy z baz danych

data mining machine learning data science

PLAN STUDIÓW Wydział Elektroniki, Telekomunikacji i Informatyki, Wydział Zarządzania i Ekonomii Inżynieria danych

Podstawy programowania

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

1.1 Matryca pokrycia efektów kształcenia. Efekty kształcenia w zakresie wiedzy. Efekty kształcenia w zakresie umiejętności

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

w ekonomii, finansach i towaroznawstwie

Badania operacyjne. Michał Kulej. semestr letni, Michał Kulej () Badania operacyjne semestr letni, / 13

Programowanie w języku C++

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

I rok. semestr 1 semestr 2 15 tyg. 15 tyg. Razem ECTS. laborat. semin. ECTS. konwer. wykł. I rok. w tym. Razem ECTS. laborat. semin. ECTS. konwer.

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wykład 6. Reguły inferencyjne systemu aksjomatycznego Klasycznego Rachunku Zdań

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Systemy Wspomagania Decyzji

Zasady sprawnego i efektywnego sterowania przepływami materiałów i wyrobów. dr hab. inż. Andrzej Szymonik prof. PŁ

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Baza danych. Baza danych to:

Systemy ekspertowe. Eksploracja danych z wykorzystaniem tablic decyzyjnych i zbiorów przybliżonych. Część trzecia

Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Baza danych. Modele danych

Business Intelligence

SZTUCZNA INTELIGENCJA

Programowanie w języku C++

Wykład I. Wprowadzenie do baz danych

Elementy logiki. Wojciech Buszkowski Wydział Matematyki i Informatyki UAM Zakład Teorii Obliczeń

Więzy integralności referencyjnej i klucze obce. PYTANIE NA EGZAMIN LICENCJACKI

Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Widzenie komputerowe (computer vision)

STANDARDOWE FUNKCJE PRZYNALEŻNOŚCI. METODY HEURYSTYCZNE wykład 6. (alternatywa dla s) (zdef. poprzez klasę s) GAUSSOWSKA F.

Rok I, semestr I (zimowy) Liczba godzin

Lekcja 3: Elementy logiki - Rachunek zdań

Cel projektu: Wymogi dotyczące sprawozdania:

WIEDZA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Technologia informacyjna

Ontologie, czyli o inteligentnych danych

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Szczegółowy opis przedmiotu zamówienia

Transkrypt:

Część druga Autor Roman Simiński Krótkie wprowadzenie do zagadnień eksploracji danych Kontakt siminski@us.edu.pl www.us.edu.pl/~siminski Niniejsze opracowanie zawiera skrót treści wykładu, lektura tych materiałów nie zastąpi uważnego w nim uczestnictwa. Opracowanie to jest chronione prawem autorskim. Wykorzystywanie jakiegokolwiek fragmentu w celach innych niż nauka własna jest nielegalne. Dystrybuowanie tego opracowania lub jakiejkolwiek jego części oraz wykorzystywanie zarobkowe bez zgody autora jest zabronione.

Korporacyjne bazy danych końca XX i początku XXI wieku Fakty Rozmiar baz danych współczesnych systemów informatycznych osiąga wielkości rzędu terabajtów. Średniej wielkości hipermarket rejestruje dziennie sprzedaż przynajmniej kilkunastu tysięcy produktów. Puchną bazy danych systemów e-commerce, dostępnych na bieżąco, 24 godziny na dobę wzrasta liczba ich klientów oraz liczba zawieranych transakcji. Aktualne możliwości analizowania i rozumienia dużych zbiorów danych są dużo mniejsze od możliwości ich zbierania i przechowywania. Copyright Roman Simiński Strona : 2

Korporacyjne bazy danych końca XX i początku XXI wieku Jednocześnie Konkurencja pomiędzy firmami zaostrza się. Coraz trudniej znaleźć nowe obszary ekspansji, nisze rynkowe. Coraz trudniej utrzymać dotychczasowych klientów. Bazy danych zawierają ogromne ilości użytecznych informacji, pozwalających firmom utrzymać lub wzmocnić ich pozycje rynkową. Jak wydobyć użyteczne informacje z dużych baz danych? Copyright Roman Simiński Strona : 3

Korporacyjne bazy danych końca XX i początku XXI wieku Korporacyjne bazy danych kopalnią użytecznych informacji Użyteczne informacje są wyrażone niejawnie, są ukryte w danych, należy je odkryć, wydobyć. Proces ten nazywa się potocznie eksploracją danych. Świadomość istnienia ukrytego potencjału informacyjnego baz danych jest znana od lat. Jednak dopiero w ciągu ostatnich kilkunastu lat intensywnie prowadzi się badania nad odkrywaniem metod eksploracji danych oraz wykorzystuje się te metody w praktyce. Copyright Roman Simiński Strona : 4

Korporacyjne bazy danych kopalnią użytecznych informacji Jakiego rodzaju informacje można wydobyć z danych? Wiedza Informacje Dane Uogólnione informacje opisujące związki, relacje, prawidłowości występujące w danych. Np. zależność pomiędzy średnią sprzedażą w danym asortymencie a czasem przechowywania surowców na magazynie. Dane zagregowane, wyznaczone (wyliczone) na podstawie zawartości baz danych np. średnia sprzedaż w danym asortymencie towaru w zadanym okresie czasu. Dane odczytywane bezpośrednio z baz danych np. cena zakupu, stan magazynowy, dane kontrahenta, itp. W ekonomii taki schemat nazywa się Business Intelligence Copyright Roman Simiński Strona : 5

Korporacyjne bazy danych kopalnią użytecznych informacji Z biznesowego punktu widzenia wiedza ma wspomagać podejmowanie decyzji Decyzje Wiedza Informacje Dane Copyright Roman Simiński Strona : 6

Korporacyjne bazy danych kopalnią użytecznych informacji Informacje a systemy je wykorzystujące SWD SIK OLAP Hurtownie danych Systemy ewidencyjne Operacyjne bazy danych SWD Systemy Wspomagania Decyzji, ang. DSS Decision Support Systems. SIK Systemy Informowania Kierownictwa, ang. EIS, MIS Management Information Systems. OLAP Przetwarzanie Analityczne Online, od ang. Online Analytical Processing, Hurtownie danych, magazyny Danych od ang. Data Warehouses. Copyright Roman Simiński Strona : 7

Korporacyjne bazy danych kopalnią użytecznych informacji Problemy na styku OLAP a wspomaganie decyzji Systemy OLAP działają zwykle obliczając zagregowane wielkości na podstawie danych pochodzących z magazynu danych. Systemu OLAP pozwalają na analizowanie tego co się wydarzyło na podstawie danych o przeszłości. Działanie OLAP jest sterowane hipotezą sformułowaną przez użytkownika (ang. query-driven eksploration), system OLAP jest pasywny. Używając systemów OLAP można wchodzić w głąb, dochodząc do danych bardziej szczegółowych, ale użytkownik nadal pozostaje odpowiedzialny za identyfikowanie interesujących trendów czy powiązań. Koncepcje postrzegania danych jako wielowymiarowych kostek powoduje problemy w percepcji przeprowadzanych analiz. Do skutecznego podejmowania decyzji potrzebna jest wiedza o prawidłowościach rządzących daną dziedziną. Decydenci oczekują, iż systemy informatyczne prawidłowości te odkryją, potwierdzając to, co już wiemy lub dostarczą nam nowej wiedzy. Copyright Roman Simiński Strona : 8

jako rozwijająca się dziedzina informatyki Koncepcja Data Mining Eksploracja Danych Istnieje wiele definicji koncepcji Eksploracji danych (Data Mining): Data mining is the analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner. David Hand, Heikki Mannila, and Padhraic Smyth, Principles of Data Mining, MIT Press, Cambridge, MA, 2001. The non-trivial extraction of novel, implicit, and actionable knowledge from large datasets. Graham Williams, Markus Hegland and Stephen Roberts, A Data Mining Tutorial, The Second IASTED International Conference on Parallel and Distributed Computing and Networks, PDCN 98. Copyright Roman Simiński Strona : 9

jako rozwijająca się dziedzina informatyki Koncepcja Data Mining Eksploracja Danych, cd. Inne definicje koncepcji Eksploracji danych (Data Mining): Data mining is an interdisciplinary field bringing togther techniques from machine learning, pattern recognition, statistics, databases, and visualization to address the issue of information extraction from large data bases. Peter Cabena, Pablo Hadjinian, Rolf Stadler, JaapVerhees, and Alessandro Zanasi, Discovering Data Mining: From Concept to Implementation, Prentice Hall, Upper Saddle River, NJ, 1998. Technology to enable data exploration, data analysis, and data visualisation of very large databases at a high level of abstraction, without a specific hypothesis in mind. Graham Williams, Markus Hegland and Stephen Roberts, A Data Mining Tutorial, The Second IASTED International Conference on Parallel and Distributed Computing and Networks, PDCN 98. Copyright Roman Simiński Strona : 10

jako rozwijająca się dziedzina informatyki Koncepcja Data Mining Eksploracja Danych, cd. Dla potrzeb tych zajęć przyjmijmy: Data mining eksploracja danych jest dziedziną informatyki zajmującą się odkrywaniem wiedzy zapisanej niejawnie w dużych zbiorach danych oraz przedstawieniem jej w zrozumiały dla użytkownika sposób. Pod pojęciem wiedzy rozumieć będziemy relacje, powiązania, związki i wzorce odkrywane przez algorytmy eksploracji danych w sposób autonomiczny. Dane System eksploracji danych Wiedza (DM Data Mining) określana jest również pojęciem odkrywania wiedzy w bazach danych (KDD Knowledge Discovery in Databases). Copyright Roman Simiński Strona : 11

jako rozwijająca się dziedzina informatyki Różne definicje eksploracji danych różne metody jej realizacji Odkrywanie wiedzy w bazach danych realizowane jest najróżniejszymi metodami: Drzewa decyzyjne, Sztuczne sieci neuronowe, Analiza skupień, Techniki maszynowego uczenia, Metody statystyczne,... Copyright Roman Simiński Strona : 12

jako rozwijająca się dziedzina informatyki Różne metody realizacji wspólny cel Eksploracja danych Baza danych Dane o sprzedaży Dane o klientach Dane o pacjentach itp.,itd. Relacje Związki Powiązania Wzorce Sekwencje Baza wiedzy Jak zapisać wiedzę? Copyright Roman Simiński Strona : 13

Jak zapisać wiedzę odkrywaną w bazach danych? Inżynieria wiedzy dostarcza różnych metod reprezentacji wiedzy Drzewa decyzyjne, Tablice decyzyjne, Reguły, Ramy, Sieci semantyczne, Scenariusze, Co wybrać? Sieci Bayesa,... Copyright Roman Simiński Strona : 14

Regułowa reprezentacja wiedzy Reguły są intuicyjnie najprostszą metodą reprezentacji wiedzy Istnieje wiele formatów zapisu reguł. Koncepcja jest jednak zwykle ta sama: Przesłanki Konkluzje Działanie reguły odbywa się według wywodzącego się z logiki schematu modus ponens: p q p q Jeżeli p implikuje logicznie q oraz p jest prawdziwe to q jest również prawdziwe. Copyright Roman Simiński Strona : 15

Regułowa reprezentacja wiedzy Reguły można zapisywać w różny sposób Z wykorzystaniem symbolu implikacji: przesłanki konkluzje W postaci zbliżonej do instrukcji warunkowej: if przesłanki then konkluzje W postaci odwrotnie zapisanej instrukcji warunkowej: konkluzje if przesłanki Copyright Roman Simiński Strona : 16

Regułowa reprezentacja wiedzy Jak zapisywać przesłanki i konkluzje? Z wykorzystaniem zmiennych zdaniowych: p procesor się przegrzewa q sprawdź układ chłodzenia p q Z wykorzystaniem predykatów: P(x) procesor komputera x się przegrzewa Q(x) sprawdź układ chłodzenia komputera x P(x) Q(x) Z wykorzystaniem dwójek atrybut-wartość: if stan_procesora = przegrzany then akcja_serwisowa = sprawdź_układ_chłodzenia Istnieją oczywiście inne formy zapisu literałów reguł. Copyright Roman Simiński Strona : 17

Regułowa reprezentacja wiedzy Reguły mogą przyjmować bardziej złożoną postać: W inżynierii wiedzy wykorzystuje się standaryzowane formaty reguł wywodzące się z logiki: Koniunkcyjna postać normalna p 1 p 2... p n q 1 q 2... q m Klauzula Horna p 1 p 2... p n q Najczęściej wykorzystuje się reguły posiadające postać klauzuli Horna Istnieje wiele innych, czasem bardzo dziwnych postaci reguł obowiązujących głównie w obrębie określonych systemów narzędziowych. Copyright Roman Simiński Strona : 18

Jak odkrywać w danych wiedzę zapisaną w postaci reguł? Prosty przykład Pracę pewnego urządzenia monitorują czujniki C1 i C2. W zależności od ich wskazań pracownik obsługi ręcznie ustala stan przełącznika S, regulującego pewien parametr technologiczny. Chcemy przejść na komputerowe sterowanie włącznikiem S. Przełącznik S Czujnik C1 Czujnik C2 Copyright Roman Simiński Strona : 19

Jak odkrywać w danych wiedzę zapisaną w postaci reguł? Prosty przykład, cd. Należy wyznaczyć reguły sterowania przełącznikiem S. Przy jakich wartościach czujników C1 i C2 przełącznik ma być włączony a przy jakich wyłączony? Przełącznik S Czujnik C1 Czujnik C2 Copyright Roman Simiński Strona : 20

Jak odkrywać w danych wiedzę zapisaną w postaci reguł? Prosty przykład,cd. Tabela z danymi o tym, jaki stan przyjmuje przełącznik S przy określonych wartościach czujników C1 i C2. C1 C2 S 1 1 Niski Off 2 1 Wysoki On 3 2 Niski Off 4 2 Wysoki On 5 3 Niski On 6 3 Wysoki On 7 4 Niski On 8 4 Wysoki On Czujnik Czujnik Przełącznik C1 C2 S Copyright Roman Simiński Strona : 21

Jak odkrywać w danych wiedzę zapisaną w postaci reguł? Prosty przykład, cd. Przechodzimy na sterowanie komputerowe. W jaki sposób określić reguły działania programu sterującego? Przełącznik C1 C2 S 1 1 Niski Off 2 1 Wysoki On 3 2 Niski Off 4 2 Wysoki On 5 3 Niski On 6 3 Wysoki On 7 4 Niski On 8 4 Wysoki On S? Czujnik C1 Czujnik C2 Copyright Roman Simiński Strona : 22

Jak odkrywać w danych wiedzę zapisaną w postaci reguł? Prosty przykład, cd. Pola C1 i C2 tabeli określają warunki a pole S określa decyzję odnośnie stanu przełącznika. C1 C2 S 1 1 Niski Off 2 1 Wysoki On 3 2 Niski Off 4 2 Wysoki On 5 3 Niski On 6 3 Wysoki On 7 4 Niski On 8 4 Wysoki On Informacje wejściowe, warunki Decyzja na temat stanu przełącznika Copyright Roman Simiński Strona : 23

Jak odkrywać w danych wiedzę zapisaną w postaci reguł? Prosty przykład, cd. Po wyodrębnieniu atrybutów warunkowych i decyzyjnych taka tabela staje się tablicą decyzyjną. Z tablicy decyzyjnej można próbować bezpośrednio odczytywać reguły. if C1=1 C2=Niski then S=Off C1 C2 S 1 1 Niski Off 2 1 Wysoki On 3 2 Niski Off 4 2 Wysoki On 5 3 Niski On 6 3 Wysoki On 7 4 Niski On 8 4 Wysoki On... if C1=1 C2=Wysoki if C1=2 C2=Niski if C1=2 C2=Wysoki if C1=3 C2=Niski if C1=3 C2=Wysoki then S=On then S=Off then S=On then S=On then S=On if C1=4 C2=Niski then S=On if C1=4 C2=Wysoki then S=On Copyright Roman Simiński Strona : 24

Jak odkrywać w danych wiedzę zapisaną w postaci reguł? Prosty przykład, cd. Osiem rekordów produkuje osiem reguł.... A jeżeli rekordów będzie kilkadziesiąt tysięcy? Kto potrzebuje wiedzy w postaci kilkudziesięciu tysięcy reguł! C1 C2 S 1 1 Niski Off 2 1 Wysoki On 3 2 Niski Off 4 2 Wysoki On 5 3 Niski On 6 3 Wysoki On 7 4 Niski On 8 4 Wysoki On Można zauważyć, że: if C2=Wysoki then S=On niezależnie od wartości pola C1. Można zauważyć, że: if C1>=3 then S=On niezależnie od wartości pola C2. Można zauważyć, że: if C1<=2 C2=Niski then S=Off Copyright Roman Simiński Strona : 25

Jak odkrywać w danych wiedzę zapisaną w postaci reguł? Prosty przykład, cd. Stosując zdroworozsądkową analizę zbioru danych udało się odkryć zależności pomiędzy polami warunkującymi a polem decyzyjnym. Czy to jest już Data Mining? Prawie tak, ale niech to robi komputer! C1 C2 S 1 1 Niski Off 2 1 Wysoki On 3 2 Niski Off 4 2 Wysoki On 5 3 Niski On 6 3 Wysoki On 7 4 Niski On 8 4 Wysoki On Dane Wiedza if C2=Wysoki then S=On if C1>=3 then S=On if C1<=2 C2=Niski then S=Off Copyright Roman Simiński Strona : 26

Jak odkrywać w danych wiedzę zapisaną w postaci reguł? Istnieje wiele metod eksploracji danych. My skupimy się na jednej, wykorzystującej tablice decyzyjne i zbiory przybliżone. Copyright Roman Simiński Strona : 27