Data Mining Kopalnie Wiedzy



Podobne dokumenty
WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Analiza danych. TEMATYKA PRZEDMIOTU

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

AUTOMATYKA INFORMATYKA

Eksploracja danych (data mining)

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Widzenie komputerowe (computer vision)

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Analiza danych i data mining.

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Elementy statystyki wielowymiarowej

Sztuczna Inteligencja Projekt

w ekonomii, finansach i towaroznawstwie

data mining machine learning data science

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Mail: Pokój 214, II piętro

Opis efektów kształcenia dla modułu zajęć

Algorytmy klasyfikacji

Inżynieria biomedyczna

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Systemy uczące się wykład 2

Eksploracja danych Jacek Rumiński

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Proces odkrywania wiedzy z baz danych

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Analiza składowych głównych. Wprowadzenie

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Podstawy sztucznej inteligencji

Podstawy sztucznej inteligencji

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Analiza internetowa czyli Internet jako hurtownia danych

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Business Intelligence narzędziem wsparcia sprzedaży

Ewelina Dziura Krzysztof Maryański

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Odkrywanie asocjacji

KLASYFIKACJA. Słownik języka polskiego

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Wprowadzenie do technologii informacyjnej.

Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka.


Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

SZTUCZNA INTELIGENCJA

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Implementacja metod eksploracji danych - Oracle Data Mining

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Drzewa decyzyjne i lasy losowe

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Zastosowania metod odkrywania wiedzy do diagnostyki maszyn i procesów

Analiza i wizualizacja danych Data analysis and visualization

CLUSTERING. Metody grupowania danych

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Archipelag Sztucznej Inteligencji

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Wprowadzenie do klasyfikacji

Metody klasyfikacji danych - część 1 p.1/24

Systemy Wspomagania Decyzji

INŻYNIERIA OPROGRAMOWANIA

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Prawdopodobieństwo i statystyka

Data mining w systemach CRM

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez statystycznych

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Statystyka i eksploracja danych

xx + x = 1, to y = Jeśli x = 0, to y = 0 Przykładowy układ Funkcja przykładowego układu Metody poszukiwania testów Porównanie tabel prawdy

Nowe przewagi konkurencyjne - technologia, informacja, społeczność

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

ALGORYTM RANDOM FOREST

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Dostawa oprogramowania. Nr sprawy: ZP /15

Data Mining z wykorzystaniem programu Rapid Miner

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Alicja Marszałek Różne rodzaje baz danych

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Transkrypt:

Data Mining Kopalnie Wiedzy Janusz z Będzina Instytut Informatyki i Nauki o Materiałach Sosnowiec, 30 listopada 2006

Kopalnie złota XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali teren w poszukiwaniach złotego kruszcu, przecedzali ziemię sitami, a czasem... znajdowali piękny samorodek (nugget). Podobnie jest z odkrywaniem wiedzy. Te same nazwy...

Kopalnie złota XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali teren w poszukiwaniach złotego kruszcu, przecedzali ziemię sitami, a czasem... znajdowali piękny samorodek (nugget). Podobnie jest z odkrywaniem wiedzy. Te same nazwy...

Kopalnie złota XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali teren w poszukiwaniach złotego kruszcu, przecedzali ziemię sitami, a czasem... znajdowali piękny samorodek (nugget). Podobnie jest z odkrywaniem wiedzy. Te same nazwy...

Pogoda do gry w golfa (za: P. Cichosz Systemy uczące się) Dane przykładowe: aura temperatura wilgotność wiatr wynik 1 słoneczna ciepła duża słaby 0 2 słoneczna ciepła duża silny 0 3 pochmurna ciepła duża słaby 1 4 deszczowa umiarkowana duża słaby 1 5 deszczowa zimna normalna słaby 1 6 deszczowa zimna normalna silny 0 7 pochmurna zimna normalna silny 1 8 słoneczna umiarkowana duża słaby 0 9 słoneczna zimna normalna słaby 1 10 deszczowa umiarkowana normalna słaby 1 11 słoneczna umiarkowana normalna silny 1 12 pochmurna umiarkowana duża silny 1 13 pochmurna ciepła normalna słaby 1 14 deszczowa umiarkowana duża silny 0

Indukcyjne drzewa decyzyjne - miara Znajdziemy drzewo decyzyjne biorąc za miarę entropię E. Potrzebne dane: liczność pozytywnych przykładów wartości deskryptora a, liczność wszystkich przykładów danej wartości deskryptora b. E = a b lg a b Gdy a lub b jest zerem, przyjmujemy E = 0. Entropia cechy to kombinacja liniowa entropii poszczególnych deskryptorów tej cechy. Przykład: informacja (5 0, 9 1 ): I = 9 14 lg 9 14 5 14 lg 5 14.

Indukcyjne drzewa decyzyjne - dane Aura E aura = 5 14 E sloneczna + 4 14 E pochmurna + 5 14 E deszczowa słoneczna Esloneczna = 2 5 lg 2 5 3 5 lg 3 5 pochmurna Epochmurna = 4 4 lg 4 4 0 0 lg 0 0 deszczowa Edeszczowa = 3 5 lg 3 5 2 5 lg 2 5 Razem przyrost informacji: I E aura = =0.283 0.209 = 0.074 Po zebraniu wszystkich przyrostów wybieramy największy do utworzenia gałęzi drzewa. Dalej rekurencyjnie, ograniczając się do danych tego węzła...

Algorytm (przystosowany) Quine a Mc Cluske a Zasady ogólne: Przykłady pozytywne zwiększają wagi schematów, w których występują; Przykłady negatywne rozbijają schematy na podzbiory liczące mniej elementów z taką samą wagą, niszczą te, które nie spełniają warunków. Wynikiem jest tablica schematów deskryptorów. Zaczynamy od schematów uniwersalnych poszczególnych atrybutów [*,...,*,atrybut,*,...,*] z wagą 1.

Porównanie powyższych algorytmów Drzewa indukcyjne Quine McCluske aura słoneczna, wilgotność normalna aura pochmurna aura deszczowa, wiatr słaby aura pochmurna deszczowa, wiatr słaby temperatura zimna, wiatr słaby wilgotność normalna, wiatr słaby

Definicja i zastosowanie Data Mining Czym jest Data Mining - kopalnia wiedzy Data Mining jest nietrywialną techniką umożliwiającą zobaczenie takich zależności w bazie danych, jakie nie były wprowadzone. Formalnie: ósemka uporządkowana (P, D, K, B, T, M, I, U), objaśnienia na następnym slajdzie. Działy korzystające z Data Mining: 1. biznes; 2. nauka; 3. internet.

Podstawy Data Mining P - specyfikacja problemu, D - zbiór danych relewantnych, K - rodzaj wydobywanej wiedzy, B - wiedza wrodzona bazy danych, czyste nowe systemy bazują tylko na niej, T - specyficzne techniki i algorytmy dla problemu, M - model lub wiedza o wzorcach, oznacza wizualizację lub prezentację wydobytej wiedzy, I - interesujące miary, których użycie powoduje odkrycie wiedzy, U - użytkownik.

Podstawy Data Mining - diagram

Główne kategorie Data Mining Obiekty: odkrycia lub opisy, przewidywania; Modelowanie przyszłości; Odkrywanie wiedzy w bazach danych (Knowledge Discowery in Databases KDD); Wykrywanie niecodziennych przypadków. Data Mining nie jest: monitorowaniem systemów, odkrywaniem już odkrytego, np. tablicy Mendelejewa, szukaniem np. optymalnego przejazdu przez dany kraj z rozkładu jazdy.

Przebieg Data Mining Użytkownicy korzystają z Data Mining na następujące sposoby: epizodycznie, analitycy szykujący kampanię reklamową; strategicznie, wybór miar, by uzyskać np. lepsze rezultaty handlowe; ciągle, co się zmieniło w danym okresie czasu. Uzyskane dane są poddane destylacji wzorców, stając się: przewidywaniem, odkryciem lub czymś jeszcze innym.

Zadania odkrywania wiedzy Reguły i drzewa decyzyjne, Charakteryzacja danych, próba ich opisu, Klasyfikacja danych, Regresja, będąca tutaj uzyskaniem wartości ciągłej zamiast dyskretnej, Związki (association), nazywane także Market Basket Analysis (MBA) lub Affinity Analysis, Klasteryzacja, czyli grupowanie danych w klastery - zbiory. Można też wyodrębnić następujące zadania: model zależności, detekcja zmian, analiza trendów, detekcja zboczeń (deviation), analiza linków, analiza wzorców, dane tymczasowe, wzorzec ścieżki (używane w Web Mining), wzorce sekwencyjne.

Związek Data Mining z danymi i bazami wiedzy Budując piramidę systemów, decyzja opiera się na następujących podstawach: Decyzja Data Mining oraz OnLine Analytical Processing (OLAP), Składnica danych (Data warehousing), Baza danych (DataBase Managementr System DBMS), Urządzenia, systemy operacyjne, sieci komputerowe.

Proces Data Mining Definicja problemu, Zebranie danych, wybór odpowiednich danych, Przygotowanie danych, ich oczyszczenie (cleansing) dla lepszej obróbki, Przetwarzanie wstępne, Wybór metody, tzn. modelu oraz algorytmu, To samo, ale dla parametrów, Testowanie, przetwarzanie danych wybranymi algorytmami, Przedstawienie wyników.

Zastosowanie Data Mining Medycyna - diagnostyka i prognozowanie, Teoria kontroli - model identyfikacyjny, Inżynieria - diagnostyka mechanizmów i procesów, Administracja publiczna, Handel i finanse, Teksty w internecie i różnorodna wiedza, Naukowe bazy danych, Detekcja oszustów.

Web Minig Zastosowanie Data Mining w internecie można nazwać Web Mining. Oprócz standardowych technik: poszukiwanie informacji w danych, badanie struktur sieci, regularności w danych generowanych np. przez agentów; szczególną rolę odgrywają: odpowiedzi na pytania, handel w sieci, personalizacja, wyszukiwanie stron relewantnych z wyuczonymi potrzebami użytkownika;

Zasada Web Mining Jeśli chcesz wędką złowić rybę, włóż na haczyk to co lubi ryba, nie zaś to co TY lubisz! Z siecią jest podobnie! Nie jest ważne czy twój WEB podoba się Tobie i ekspertom z branży! Ważne jest to, czy chętnie odwiedzają go internauci! www.webmining.pl

Techniki odkryć stosowane w Web Mining Analiza ścieżki poszukiwań, Odkrycie związków między regułami, Wzorce sekwencyjne, Klasteryzacja i klasyfikacja.

Podstawy działania Web Mining Techniki analizy danych, Praca na dużych zbiorach, Przyjazne środowisko, Odpowiednie narzędzia.

Techniki analizy Web Mining Korelacja - towary chętnie kupowane razem, Test T - prawdopodobieństwo popełnienia błędu na próbce, gdy widać różnicę wielkości sprzedaży dwu grup, ANOVA - analiza wariancji na próbce, czy średnia sprzedaż jest trendem czy tylko zbiegiem okoliczności, Regresja liniowa - przewidywanie cechy w zależności liniowej od innych, Regresja logistyczna - prawdopodobieństwo wystąpienia zdarzenia, Analiza dyskryminacyjna - atrybuty istotne w klasyfikacji, Techniki prognozowania - przypuszczalna ilość odwiedzin w czasie (bez udziału wróżki), Analiza skupień - grupowanie podobnych obserwacji lub cech,

Techniki analizy Web Mining cd. Analiza czynnikowa - redukcja opisu przez eliminowanie czynników zależnych od innych lub niemierzalnych, Drzewa decyzyjne - bardzo częste rozpisanie modeli na warunki, Wizualizacja danych - dobór modelu jest sztuką, Sieci neuronowe - narzędzia modelowania i segmentacji, Reguły asocjacyjne - eksploracja i modelowanie, Indukcja reguł - poszukiwanie najczęstszych zależności, Analiza sekwencji - poszukiwanie sekwencji przejścia do następnej strony.

Źródła www.webmining.com - strona twórców SPSS Clementine Zhengxin Chen: Data Mining and Uncertain Reasoning. An integrated Approach.