Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

Podobne dokumenty
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Analiza danych i data mining.

Proces odkrywania wiedzy z baz danych

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

Opis efektów kształcenia dla modułu zajęć

Ewelina Dziura Krzysztof Maryański

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Eksploracja Danych. podstawy

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

w ekonomii, finansach i towaroznawstwie


Analiza danych. TEMATYKA PRZEDMIOTU

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Analiza i wizualizacja danych Data analysis and visualization

data mining machine learning data science

Transformacja wiedzy w budowie i eksploatacji maszyn

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Hurtownie danych - opis przedmiotu

Eksploracja danych (data mining)

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Wprowadzenie do technologii informacyjnej.

Widzenie komputerowe (computer vision)

Opis efektów kształcenia dla modułu zajęć

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

StatSoft profesjonalny partner w zakresie analizy danych

Szybkość instynktu i rozsądek rozumu$

Efekt kształcenia. Wiedza

Data Mining Kopalnie Wiedzy

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Specjalizacja magisterska Bazy danych

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Zastosowania metod odkrywania wiedzy do diagnostyki maszyn i procesów

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

PRZEWODNIK PO PRZEDMIOCIE

Prof. Stanisław Jankowski

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Szczegółowy opis przedmiotu zamówienia

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Hurtownie danych - przegląd technologii

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Monitorowanie sytuacji drogowej w oparciu o dane z sieci GSM. promotor: dr hab. inż. Andrzej Jaszkiewicz

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

Systemy uczące się wykład 1

Co to jest Business Intelligence?

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Eksploracja danych Jacek Rumiński

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

Wprowadzenie do technologii Business Intelligence i hurtowni danych

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

Efekty kształcenia na kierunku AiR drugiego stopnia - Wiedza Wydziału Elektrotechniki, Automatyki i Informatyki Politechniki Opolskiej

[1] [2] [3] [4] [5] [6] Wiedza

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Mail: Pokój 214, II piętro

Zaawansowana eksploracja danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

ALGORYTM RANDOM FOREST

Eksploracja danych - wykład II

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

*Odniesienie - kształcenia EFEKT KSZTAŁCENIA. Absolwent studiów drugiego stopnia na kierunku Informatyka: symbol Wiedza 1 AI_W01

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

WYKAZ KIERUNKOWYCH EFEKTÓW KSZTAŁCENIA KIERUNEK: MATEMATYKA, SPS WIEDZA

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Big Data MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE ORAZ NA SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE. Agenda

KIERUNKOWE EFEKTY KSZTAŁCENIA

Uniwersytet Śląski w Katowicach str. 1 Wydział Informatyki i Nauki o Materiałach

Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka.

Stanisław Cichocki. Natalia Nehrebecka

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni)

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Transkrypt:

Odkrywanie wiedzy Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska 7.10.2015 1

Plan prezentacji 1 Informacje organizacyjne 2 Zakres tematyczny przedmiotu 3 Wprowadzenie do Odkrywania Wiedzy 4 Podsumowanie 2

Informacje organizacyjne Wykład: środa, 8.10-09.40, sala 6 (CW), zaliczenie na podstawie egzaminu Laboratoria: czwartek, 09.15-10.45 oraz 11.00-12.30, lab. 43 (CW), zaliczenie na podstawie ocen ze sprawdzianów, aktywności na zajęciach i zadań domowych Prowadzący: dr inż. Marcin Szeląg, pok. L.1.6.7, e-mail: marcin.szelag@cs.put.poznan.pl, www: http://www.cs.put.poznan.pl/mszelag, konsultacje: wtorek 09.45-11.15 3

Zakres tematyczny przedmiotu Wprowadzenie do odkrywania wiedzy Wstępne przetwarzanie danych (selekcja atrybutów, redukcja rozmiaru danych, itd.) Analiza skupień (grupowanie) Maszyny wektorów nośnych (SVM) Zaawansowane zagadnienia regresji liniowej i nieliniowej Analiza danych klasyfikacyjnych z zależnościami monotonicznymi Analiza danych klasyfikacyjnych z brakującymi wartościami atrybutów Uczenie się rankingu Wnioskowanie na podstawie podobieństwa do znanych przypadków (CBR) Teoria i zastosowania zbiorów rozmytych (ang. fuzzy sets) Systemy odkrywania wiedzy 4

Wprowadzenie do Odkrywania Wiedzy 5

Motywacje Rozwój technologii automatycznego gromadzenia i przechowywania informacji eksplozja danych Wzrost rozmiarów przechowywanych danych Wzrost mocy obliczeniowej i pojemności pamięci Możliwosci analizowania i rozumienia dużych wolumenów danych sa znacznie mniejsze od możliwości ich gromadzenia i przechowywania Posiadanie danych nie jest równoznaczne z posiadaniem wiedzy zawartej w tych danych Konieczność analizy dużych wolumenów danych celem wyciągania użytecznych wniosków, prowadzących do podejmowania lepszych decyzji We are data rich, but knowledge poor. 6

Historia 1989 Workshop on Knowledge Discovery in Databases (USA) 7

Czym jest odkrywana wiedza? Wiedza jest uporządkowanym zbiorem interesujących i użytecznych regularności, G. Piatetsky-Shapiro (1991) Regularność (wzorzec, ang. pattern) zależność między elementami danych Interesujący nowy (poprzednio nieznany i nieoczekiwany), nietrywialny i zrozumiały Użyteczny nadający się do wykorzystania w przyszłych działaniach 8

Odkrywanie wiedzy w danych Odkrywanie wiedzy to (interaktywny i iteracyjny) proces poszukiwania nowych (nieoczekiwanych), potencjalnie użytecznych i zrozumiałych regularności w danych. Jego celem jest przejście od surowych danych do zbioru wzorców, które mogą być następnie wykorzystane w procesie wspomagania podejmowania decyzji. 9

Odkrywanie wiedzy jako proces Odkrywanie wiedzy (ang. knowledge discovery) postrzegane jest jako proces, na który składają się następujące etapy: 1 analiza i poznanie dziedziny zastosowania, identyfikacja dostępnej wiedzy i celów użytkownika, 2 integracja danych z różnych źródeł, 3 tworzenie/selekcja danych, 4 czyszczenie i wstępne przetwarzanie danych, 5 transformacja danych (przekształcenie i redukcja danych), 6 wybór zadania/zadań (metody/metod) eksploracji danych, 7 wybór algorytmu/algorytmów eksploracji danych, 8 eksploracja danych (ang. Data Mining DM), 9 interpretacja, analiza i ocena odkrytej wiedzy, wizualizacja odkrytych wzorców, 10 przygotowanie wiedzy do użycia. 10

Odkrywanie wiedzy jako proces c.d. ad 2.Integracja danych z różnych źródeł celem etapu jest integracja danych z różnych heterogenicznych i rozproszonych źródeł danych w jeden zintegrowany zbiór danych. ad 3.Selekcja danych celem etapu jest selekcja danych istotnych z punktu widzenia procesu analizy danych. ad 4.Czyszczenie danych celem etapu jest usunięcie niepełnych, niepoprawnych lub nieistotnych danych ze zbioru eksplorowanych danych. ad 5.Transformacja danych celem etapu jest transformacja wyselekcjonowanych danych do postaci wymaganej przez metody eksploracji danych. ad 9.Ocena odkrytych wzorców celem etapu jest identyfikacja interesujących wzorców oraz ich wizualizacja w taki sposób, aby umożliwić użytkownikowi ich interpretację i zrozumienie. 11

Interaktywność procesu odkrywania wiedzy J. Stefanowski, Algorytmy indukcji reguł decyzyjnych w odkrywaniu wiedzy, rozprawa habilitacyjna, 2001:... użytkownik systemu odkrywania wiedzy powinien posiadać dobre zrozumienie dziedziny zastosowania, tak aby wybrać właściwy podzbiór danych, określić jakie są zadania analizy, jaka powinna być reprezentacja poszukiwanej wiedzy, których algorytmów należy użyć. Dlatego system odkrywania wiedzy powinien być oprogramowaniem interaktywnym, a nie narzędziem w pełni automatycznym. Sam proces odkrywania wiedzy jest procesem intensywnego współdziałania człowieka z oprogramowaniem i składa się najczęściej z wielu iteracji obejmujących modyfikacje wstępnych specyfikacji i powtarzanie niektórych kroków. 12

Eksploracja danych Eksploracja danych etap w procesie odkrywania wiedzy automatyczne odkrywanie nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależnosci, wzorców schematów, podobieństw lub trendów w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.). Eksploracja danych wykonywana może być w perspektywie predykcji i/lub opisu danych. W trakcie eksploracji danych możliwe jest wykorzystanie wiedzy dziedzinowej, np. w postaci hierarchii kategorii. 13

Typowe reprezentacje poszukiwanej wiedzy Poszukiwana wiedza może przyjmować wiele postaci: wartości miar statystycznych, opisy charakterystyczne/dyskryminujące, reguły asocjacyjne, drzewa i reguły klasyfikacyjne, funkcje i równania, klauzule logiczne, skupienia i ich opis, taksonomia (hierarchia), trendy i zależności czasowe,... 14

Zadania eksploracji danych Opis danych (podsumowywanie / charakterystyki danych) Odkrywanie reguł asocjacyjnych Klasyfikacja (zmienna wyjściowa jest jakościowa) Regresja (zmienna wyjściowa jest liczbowa) Predykcja (wynik dotyczy przyszłości) Grupowanie danych (analiza skupień) Odkrywanie wzorców sekwencji Odkrywanie zależności funkcyjnych Analiza przebiegów czasowych Poszukiwanie obserwacji osobliwych, odchyleń, anomalii Eksploracja dokumentów tekstowych i WWW (ang. text and web mining) wyszukiwanie według zawartości Analiza danych strumieniowych, napływających z sensorów... 15

Przegląd zadań eksploracji danych Opis danych odkrywanie charakterystyk. Przykładem może być opis pacjentów chorujących na anginę: Pacjenci chorujący na anginę cechują się temperaturą ciała wiekszą niż 37.5C, bólem gardła i osłabieniem organizmu. W celu opisania danych wykorzystuje się często Eksploracyjną Analizę Danych (ang. Exploratory Data Analysis EDA), której techniki są zwykle interaktywne i wizualne. Odkrywanie reguł asocjacyjnych poszukiwanie w danych zbioru reguł asocjacyjnych opisujących zależności lub korelacje między danymi. Przykładem reguły asocjacyjnej jest reguła wygenerowana w odniesieniu do bazy danych supermarketu: Klienci, którzy kupują pieluszki, kupują również piwo. 16

Przegląd zadań eksploracji danych c.d. Klasyfikacja predykcja przynależności do klas decyzyjnych (kategorii) w oparciu o zbiór danych treningowych; techniki: statystyczne, drzewa decyzyjne, reguły decyzyjne, sieci neuronowe, k-nn,... Regresja (aproksymacja, szacowanie, estymacja) predykcja wartości funkcji rzeczywistej w oparciu o zbiór danych treningowych; techniki: sieci neuronowe, statystyczne metody regresji Grupowanie znajdowanie skończonych zbiorów klas obiektów posiadających podobne cechy. W przeciwieństwie do metod klasyfikacji i predykcji, klasyfikacja obiektów (podział na klasy) nie jest znana a-priori, lecz jest celem metod grupowania. Metody te grupują obiekty w klasy w taki sposób, aby maksymalizować podobieństwo wewnątrzklasowe obiektów i minimalizować podobieństwo pomiędzy klasami obiektów. 17

Przegląd zadań eksploracji danych c.d. Odkrywanie wzorców sekwencji poszukiwanie zależnosci pomiędzy występowaniem określonych zdarzeń w czasie. Przykładem wzorca sekwencji dla bazy danych wypożyczalni filmów wideo może być: Klient, który wypożyczył Gwiezdne Wojny, w ciagu tygodnia wypożyczy film Imperium Kontratakuje, a następnie, w ciagu kolejnego tygodnia, wypożyczy film Powrót Jedi. Zdarzenia wchodzące w skład wzorca sekwencji nie muszą występować bezpośrednio po sobie mogą być przedzielone wystąpieniem innych zdarzeń. Odkrywanie zależności funkcyjnych poszukiwanie wzorów najlepiej wyrażających zależności występujące pomiędzy atrybytami o wartościach liczbowych. Jest to w pewnym sensie uogólnienie regresji na dowolną liczbę atrybutów zależnych z dodatkowym wymogiem, aby zależność była wyrażona za pomocą formuły algebraicznej. Do znajdowania takich zależności wykorzystuje się metody odkrywania równań. 18

Przegląd zadań eksploracji danych c.d. Wyszukiwanie według zawartości poszukiwanie wzorców podobnych do podanego wzorca. Zadanie to jest wykonywane najczęściej na zbiorach danych zawierających teksty i obrazy. W przypadku tekstu wzorzec może być np. zbiorem słów kluczowych, a zbiorem danych np. strony WWW (wyszukiwanie dokumentów w Internecie). W przypadku obrazów, użytkownik może posiadać przykładowy obraz, szkic lub opis obrazu i chce znaleźć podobne obrazy w ogromnym zbiorze obrazów QBIC (Query by Image Content) IBM a, umożliwiający interaktywne przeszukiwanie bazy obrazów z wykorzystaniem deskryptorów zawartości. 19

CRISP-DM Cross-Industry Standard Process for DM http://www.crisp-dm.org 20

CRISP-DM Cross-Industry Standard Process for DM c.d. Metodologia stworzona w 1996 roku przez analityków z DaimlerChrysler, SPSS i NCR Ogólnie dostępny standardowy proces dopasowania eksploracji danych do ogólnej strategii rozwiązywania problemów CRISP-DM jest procesem iteracyjnym (zewn. strzałki) i adaptacyjnym (wewn. strzałki) 21

CRISP-DM Cross-Industry Standard Process for DM c.d. Cykl życia projektu odkrywania wiedzy składa się z 6 etapów: 1 Zrozumienie uwarunkowań biznesowych/badawczych: Sformułowanie celów projektu Wykorzystanie celów i ograniczeń do opracowania definicji problemu eksploracji danych Stworzenie wstępnego planu działań, zmierzających do osiągnięcia zamierzonych celów 2 Zrozumienie danych: Zebranie danych Wstępna analiza danych, mająca na celu zaznajomienie się z danymi Ocena jakości danych Ewentualy wybór interesującego podzbioru danych 22

CRISP-DM Cross-Industry Standard Process for DM c.d. Cykl życia projektu odkrywania wiedzy składa się z 6 etapów: 3 Przygotowanie danych: Przygotowanie ostatecznego zbioru danych z danych surowych (duża pracochłonność!) Wybór przypadków i atrybutów do analizy Ewentualna transformacja atrybutów Czyszczenie danych pod kątem narzędzi modelujących 4 Modelowanie: Wybór metody (metod) modelujących Kalibracja parametrów w celu optymalizacji wyników Wykorzystanie metody (metod) modelujących W przypadku stosowania wielu metod, często zachodzi konieczność powrotu do poprzedniego etapu w celu dostosowania danych do konkretnej metody 23

CRISP-DM Cross-Industry Standard Process for DM c.d. Cykl życia projektu odkrywania wiedzy składa się z 6 etapów: 5 Ewaluacja: Ocena modelu (modeli) z etapu modelowania pod kątem jakości i efektywności Ustalenie czy model spełnia założone cele Ustalenie czy są jakieś cele biznesowe lub badawcze, które nie zostały w należy sposób uwzględnione Podjęcie decyzji co do wykorzystania wyników modelowania 6 Wdrożenie: Umożliwienie wykorzystania stworzonego modelu. Stworzenie modelu zasadniczo nie stanowi zakończenia projektu konieczne jest zaprezentowanie wiedzy w formie przystępnej dla klienta Przykład prostego wdrożenia: sporządzenie raportu Przykład złożonego wdrożenia: implementacja powtarzalnego procesu eksploracji danych Często w biznesie to klienci, a nie analitycy, realizują wdrożenie na podstawie stworzonego modelu 24

Eksploracja danych a inne systemy informatyczne Informacje/bazy danych Zapytania SQL i raporty (zapytania operacyjne): Który klient dokonał największego zakupu? Jak wygląda lista klientów, którzy zakupili produkt A w ostatnim roku? Hurtownie danych Wielowymiarowa agregacja danych i podsumowania (zapytania analityczne oparte o model OLAP): Jakie są średnie zakupy klientów, którzy kupili produkt A w ostatnim roku, z podziałem na regiony? Zaawansowane systemy eksploracji danych Opis lub predykcja (zapytania eksploracyjne): Jakie są cechy charakterystyczne klientów, którzy mogą kupić produkt A? Do kogo skierować ofertę reklamową? 25

Źródła danych Dane generowane są przez: banki, ubezpieczalnie, firmy, sieci handlowe, szpitale, etc., eksperymenty naukowe: fizyka, astronomia, biologia, etc., web, tekst, e-handel,... 26

Przykłady Very Long Baseline Interferometry (VLBI) posiada 16 teleskopów, z których każdy produkuje 1 Gigabit/second danych astronomicznych w czasie 25-dniowej sesji obserwacyjnej. AT&T obsługuje miliardy połaczeń dziennie. Danych jest tyle, że nie można ich wszystkich zapamiętać analiza tych danych jest wykonywana w locie (ang. on the fly ) tzw. strumienie danych. Sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczace ponad 20 milionów transakcji. 27

Przykłady c.d. Koncern Mobil Oil rozwija magazyn danych pozwalający na przechowywanie ponad 100 terabajtów danych o wydobyciu ropy naftowej. System satelitarnej obserwacji EOS generuje w ciągu każdej godziny dziesiatki gigabajtów danych obrazowych. Niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy artykułów. 28

5 milionów TB wygenerowanych w 2002 UC Berkeley 2003 szacuje: 5 exabytes (5 million terabytes) nowych danych wygenerowanych w 2002 roku http://www2.sims.berkeley.edu/research/projects/how-muchinfo-2003 Najwiekszy producent danych USA produkuje ok. 40% danych światowych 29

Co można eksplorować? Relacyjne bazy danych Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych WWW... 30

Przykłady zastosowań eksploracji danych Marketing Identyfikacja profilu klientów, ocena lojalności klientów, problem koszyka zakupów asocjacje produktów w sieciach sprzedaży, segmentacja rynków, klientów,... Analizy finansowe Analiza ryzyka kredytowego, rekomendacje produktów, przewidywanie trendów i przebiegów czasowych,... Wykrywanie nieprawidłowości i anomalii Analiza defraudacji i nieprawidłowości kart kredytowych, systemy telekomunikacyjne, towarzystwa ubezpieczeniowe, systemy opieki medycznej,... Text mining oraz Web mining (zachowania użytkowników w e-serwisach, wspomaganie wyszukiwania informacji),... Wiele innych (przemysł, nauka, administracja, projektowanie hurtowni danych, optymalizacja działań związanych z systemami CRM, reklamy skierowane),... 31

Odkrywanie wiedzy a inne dziedziny 32

Odkrywanie wiedzy a inne dziedziny c.d. Statystyka: oparta na silnych podstawach teoretycznych i mocnych założeniach dotyczących danych, ukierunkowana na testowanie hipotez oraz estymację parametrów. Uczenie maszynowe: nacisk na polepszanie działania przez uczącego się agenta, metody heurystyczne i wywodzące się ze sztucznej inteligencji, ustrukturalizowane dane, problemy dobrze zdefiniowane (zadany cel wiemy czego szukamy), adaptacja do rzeczywistego i zmiennego środowiska, np. w przypadku robotów (nie rozważane w OW). 33

Odkrywanie wiedzy a inne dziedziny c.d. Odkrywanie wiedzy: większa różnorodność i złożoność analizowanych danych (nietypowych dla statystycznej analizy danych), często ostateczny cel analizy krystalizuje się dopiero podczas pracy z danymi, często brak jasnej definicji pojęć do odkrycia, nacisk na reprezentacje wiedzy, duża rola przygotowania i wstępnego przetwarzania danych. 34

Problemy odkrywania wiedzy W dużych bazach danych mogą zostać odkryte tysiące reguł. Człowiek nie potrafi przeanalizować i zrozumieć bardzo dużych zbiorów informacji. Różnorodność oczekiwań uczestników procesu odkrywania wiedzy. Złożoność obliczeniowa procesu odkrywania wiedzy. 35

Oprogramowanie Oprogramowanie wspierające proces odkrywania wiedzy w danych: SAS Enterprise Miner, SPSS Clementine, StatSoft Statistica, IBM Intelligent Miner, WEKA, YALE->RapidMiner, R, Matlab. 36

Podsumowanie 37

Podsumowanie Problemem nie jest elektroniczne gromadzenie danych ale ich właściwa analiza i wyciąganie użytecznych wniosków. Metody statystyczne i uczenia maszynowego mogą być podstawą do odkrywania wiedzy z danych. Należy zwracać uwagę na wcześniejsze etapy procesu odkrywania wiedzy, np. integracji danych z różnych źródeł, czyszczenia danych, przetwarzania wstępnego oraz redukcji rozmiarów danych. Istotność integracji z hurtowniami danych i biznesowymi systemami wspomagania decyzji. 38

Literatura do przedmiotu Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych. Daniel T. Larose, PWN, Warszawa, 2006. Systemy uczące się. P. Cichosz, WNT, Warszawa, 2000. Eksploracja danych. D. Hand, H. Mannila, P. Smyth, WNT, Warszawa, 2005. The Elements of Statistical Learning. Data Mining, Inference, and Prediction. T. Hastie, R. Tibshirani, J. Friedman, Springer, 2001. Statystyka w zarządzaniu, Amir D. Aczel, PWN, 2005. Statystyczne systemy uczące się, J. Koronacki, J. Ćwik, WNT, Warszawa, 2005. WEKA open source project = źródła + dokumentacja i podręczniki dostępne na WWW.... 39