EKSPLORACJA DANYCH. Data Mining

Data Mining Definicja1: Nietrywialne wydobywanie ukrytej, poprzednio nieznanej i potencjalnie użytecznej informacji z danych (W.Frawley, G. Piatetsky-Shapiro, C. Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, Jesień 1992) Definicja2: Nauka zajmująca się wydobywaniem informacji z dużych zbiorów danych lub baz danych (D. Hand, H. Mannila, P. Smyt. Principles of Data Mining. MIT Press, Cambridge, MA, 2001)

Data Mining Firmy z silnym nastawieniem na klienta (i dużymi bazami danych): Sieci sklepów Firmy finansowe Firmy telekomunikacyjne Firmy marketingowe Pomoc w znalezieniu relacji między czynnikami: wewnętrznymi : i zewnętrznymi

Data Mining Zastosowanie inteligentnych metod do wydobycia zależności, wzorców. Popularny przykład (ale czy prawdziwy?): mężczyźni+pieluchy+piątek=piwo Zastosowania (USA): Blockbuster proponuje filmy na podstawie historii wypożyczeń American Express proponuje produkty posiadaczom kart na podstawie analizy miesięcznych wydatków Zastosowania techniczne np.analiza procesu wytwórczego

Data Mining Obszary zastosowań Wyszukiwanie asocjacji (pieluchy-piwo) Klasyfikacja(wartości dyskretne), predykcja(wartości ciągłe) Grupowanie (ang. clustering) Eksploracja złożonych typów danych

Data Mining Klasyfikacja, predykcja Drzewa decyzyjne Modele Bayes'a Sieci neuronowe Alg. Genetyczne Zbiory rozmyte i przybliżone Statystyczna regresja wielowymiarowa, inne rodzaje regresji (predykcja)

Data Mining Przykłady danych produkcyjnych; Przygotowanie danych

paleta 1- H paleta 2 - H/B paleta 3 - B Przykłady istniejącej dokumentacji w zakładzie produkcyjnym: ANALIZA BRAKÓW WSTAWEK D0-380 - wytop 03008 RODZAJE WAD Paleta 1 Paleta 2 Paleta 3 Suma ODLEWNICZYCH sztuki % sztuki % sztuki % sztuki % Brak rdzenia i wtopki 0 0,00 4 4,30 0 0,00 4 1,30 Jamy skurczowe 7 5,43 10 10,75 7 8,24 24 7,82 Niedolew 5 3,88 1 1,08 5 5,88 11 3,58 Niespaw 0 0,00 1 1,08 0 0,00 1 0,33 Odklejona wtopka 4 3,10 0 0,00 2 2,35 6 1,95 Pęcherze 26 20,16 1 1,08 1 1,18 28 9,12 Porowatość 0 0,00 0 0,00 0 0,00 0 0,00 Przestawienia 0 0,00 0 0,00 0 0,00 0 0,00 Przypalenia 0 0,00 0 0,00 0 0,00 0 0,00 Uszkodzenia mechaniczne 1 0,78 2 2,15 0 0,00 3 0,98 Wady ucha 5 3,88 47 50,54 39 45,88 91 29,64 Wciągnięcia 2 1,55 3 3,23 4 4,71 9 2,93 Wypchnięcia 0 0,00 0 0,00 0 0,00 0 0,00 Wypłynięcia 0 0,00 0 0,00 0 0,00 0 0,00 Zagazowanie 0 0,00 0 0,00 1 1,18 1 0,33 Zagłębiona wtopka 2 1,55 8 8,60 17 20,00 27 8,79 Zalane dylatacje 9 6,98 2 2,15 6 7,06 17 5,54 Zalewki 0 0,00 0 0,00 0 0,00 0 0,00 Zapiaszczenie 35 27,13 8 8,60 1 1,18 44 14,33 Zniszczona forma 2 1,55 2 2,15 2 2,35 6 1,95 Zniszczony rdzeń 0 0,00 0 0,00 0 0,00 0 0,00 Zażużlenia 31 24,03 4 4,30 0 0,00 35 11,40 Dobre 0 0,00 0 0,00 0 0,00 0 0,00 Suma 129 100,00 93 100,00 85 100,00 307 100,00

Przykłady opracowanych formularzy elektronicznych: Karta 1. BIEŻĄCE POMIARY WŁASNOŚCI MASY Z MIESZARKI Data Oznaczenia odlewów Brygada Nr wytopu Asortyment Żródło: b b b 2003-01-07 C 03-006 "Żywiec" 2003-01-07 A 03-006 DO-320 2003-01-07 E 03-006 DO-320 2003-01-07 B 03-006 DO-380 2003-01-07 H 03-006 DO-380 Nr pomiaru Godzina Nr mieszarki Wilgotność [%] Przepuszczalność [10-8 /Pa*s] Zagęszczalność [%] R c w [kpa] Żródło: a, c a a, c a, c a, c a, c 1 0:15 2 5,00 220,00 54,00 135,00 2 0:15 3 4,60 230,00 55,00 130,00 3 11:00 1 4,40 220,00 43,00 145,00 4 11:00 3 4,60 200,00 42,00 155,00 5 13:00 1 4,40 210,00 41,00 150,00 6 13:00 3 4,60 195,00 42,00 155,00 7 14:40 1 4,60 205,00 40,00 150,00 8 14:40 3 4,40 200,00 38,00 145,00 9 16:20 1 4,60 210,00 40,00 145,00 10 16:20 3 4,40 195,00 38,00 140,00 11 18:20 1 4,00 195,00 37,00 140,00 12 18:20 3 4,40 190,00 40,00 150,00 13 20:20 1 4,20 200,00 38,00 150,00 14 20:20 3 4,20 195,00 38,00 140,00 Uwagi bieżące

Przetwarzanie danych Generowanie zbioru uczącego

Data Mining Jądrem Data Mining są systemy uczące się W praktyce często występują procesy o niezidentyfikowanej lub bardzo złożonej naturze fizycznej. Modelowanie tego typu problemów sprowadza się do znalezienia zależności między sygnałami wejściowymi a sygnałami wyjściowymi (wynikowymi) w oparciu o pewną liczbę zaobserwowanych przypadków. Tego typu narzędzia matematyczne znajdują zastosowanie przy projektowaniu i realizacji procesów produkcyjnych. Jedną z korzyści, jakie może dać modelowanie procesów produkcyjnych jest wskazanie wielkości odgrywających dominującą czy przynajmniej bardzo znaczącą, albo też znikomą bądź żadną, rolę w procesie (np. w wykrywanie przyczyn awarii urządzeń, zakłóceń procesów technologicznych, określaniu parametrów procesu technologicznego decydujących o jakości wyrobu i w innych tego typu sytuacjach).

Analiza danych Systemy uczące się Modelowanie zjawisk bardzo złożonych o niezbadanej naturze fizycznej, a zwłaszcza poszukiwanie prawidłowości w warunkach dużej liczby zmiennych o różnym charakterze. Sztuczne sieci neuronowe Drzewa klasyfikacyjne i regresyjne Naiwny klasyfikator Bayesa Sprawdzenie przydatności do modelowania procesów związanych z wytwarzaniem form i odlewów oraz ich właściwości

Neuron biologiczny Sztuczne sieci neuronowe

Drzewa decyzyjne Idea Człowiek posiada tę umiejętność, że na podstawie przeszłych doświadczeń potrafi trafnie sklasyfikować nowy przypadek i podjąć wobec niego dobrą decyzję. My więc chcielibyśmy tego samego nauczyć komputer. Dając mu ''bagaż'' doświadczeń, czyli informację o przypadkach określonego typu, chcielibyśmy, aby podejmował racjonalną decyzję. Racjonalną znaczy najbliższą indukowanym regułom, które w jego mniemaniu zostały użyte do podjęcia tych dobrych decyzji i jednocześnie o niskim przewidywalnym poziomie pomyłek.

Drzewa decyzyjne Do tych właśnie celów wymyślono drzewa decyzyjne, które na stałe wpisały się w poczet elementów uczenia maszynowego. Na podstawie dostarczonego zbioru faktów i reguł maszyna uczy się jak sklasyfikować nowe przypadki. Zbiór faktów na podstawie, których będziemy wnioskować nazywamy Training Set, natomiast nowe przypadki, które będziemy chcieli zaklasyfikować to Test Set. Klasyfikacja polega na stwierdzeniu w jakiej kategorii umieścić nowy przypadek, zwykle jest to podział binarny na true lub false itp. Training Set jest zbiorem rekordów o tej samej strukturze, na którą składają się pary typu atrybut/wartość atrybutu. Ponadto każdy rekord jest przyporządkowany do odpowiedniej kategorii. Na podstawie wartości tych atrybutów i Training Set próbujemy sklasyfikować nowe przypadki, w których mamy dane jedynie atrybuty i ich wartości.

Drzewa Uczenie drzew Założenia: przykłady są reprezentowane przez pary <atrybut, wartość> Każdy przykład jest opisany przez zestaw atrybutów, każdy atrybut może przyjmować różne wartości. Wartości muszą być dyskretne, w przypadku ciągłych dokonuje się dyskretyzacji tej wartości na kilka przedziałów. Oczywiści im mniej wartości może przyjmować atrybut, tym lepiej drzewo będzie mniej rozbudowane. funkcja docelowa musi przyjmować wartości dyskretne ciąg uczący może zawierać błędy ciąg uczący może zawierać atrybuty które nie mają określonej wartości

Drzewa Drzewo : Wewnętrzne węzły test na atrybucie Gałęzie wyniki testu Liście klasy Przykładowe drzewo (wskazujące, czy klient kupi komputer, czy nie):

Drzewa Przykładowe drzewo

Drzewa Przykładowe drzewo z programu komercyjnego

Naiwny klasyfiktor Bayesa U podstaw stosowanych mechanizmów wnioskowania wykorzystywanych do uczenia się, leży twierdzenie Bayesa. Ugruntowane teoretycznie i praktyczne zastosowania tego twierdzenia stanowią trzy główne grupy probabilistycznych metod uczenia się, a mianowicie: metody klasyfikacji bayesowskiej, sieci bayesowskie i metody oparte na zasadzie minimalnej długości kodu. Do najczęściej stosowanych metod klasyfikacji bayesowskiej należy naiwny klasyfikator bayesowski, zwany również niezależnym klasyfikatorem bayesowskim, w skrócie NKB. Jest to zdecydowanie najbardziej efektywny obliczeniowo praktyczny algorytm uczenia się pojęć.

Naiwny klasyfiktor Bayesa Pojęcia są jedną z postaci naszej wiedzy o świecie, używaną do opisywania i interpretowania zmysłowych obserwacji oraz abstrakcyjnych idei. Pojęcia służą do klasyfikowania pewnych obiektów na grupy, które naiwny klasyfikator bayesowski nazywa kategoriami. Pojęcia są zatem funkcjami przekształcającymi dziedzinę w zbór kategorii, a więc przypisują obiektom etykiety ich kategorii. W podstawowym przypadku pojęcie wyznacza podział zbioru wszystkich rozważanych obiektów, czyli dziedziny, na dwie kategorie: obiektów należących do pojęcia i obiektów nie należących do niego. O pierwszych mówi się, że są przykładami określonego pojęcia, a o drugich, że nie są przykładami tego pojęcia. Dziedziną jest zbiór obiektów, których ma dotyczyć wiedza nabywana przez naiwny klasyfikator bayesowski. Każdy obiekt, element dziedziny dla naiwnego klasyfikatora bayesowskiego jest przykładem.

Naiwny klasyfiktor Bayesa Dla naiwnego klasyfikatora bayesowskiego uczenia się ma charakter pewnego rodzaju odwzorowania informacji wejściowej na pewien zbiór wartości wyjściowych. Informacją wejściową są przykłady trenujące pewnej dziedziny, mające postać par złożonych z opisu obiektu i etykiety ich kategorii. Opis obiektu naiwny klasyfikator bayesowki nazywa przykładem nieetykietowanym i utożsamia z samym obiektem, a parę powstającą przez dołączenie do niego kategorii, przykładem etykietowanym. Algorytm otrzymuje wyłącznie opisy przykładów w postaci wartości atrybutów i tylko z nich może korzystać.

Naiwny klasyfiktor Bayesa Uczenie się naiwnego klasyfikatora Bayesa polega na znalezieniu hipotezy, która jest zgodna z pojęciem docelowym dla przykładów trenujących i która klasyfikuje również inne przykłady z dziedziny z jak najmniejszym błędem. Ma więc ona możliwie dokładnie przybliżać nieznane pojęcie docelowe.

Naiwny klasyfiktor Bayesa Kilka słów o teorii prawdopodobieństwa Rozważania na temat prawdopodobieństwa prowadzi się zakładając, że dana jest pewna przestrzeń zdarzeń elementarnych Ω, będąca zbiorem wszystkich zdarzeń elementarnych, przy czym zdarzeniami elementarnymi są najprostsze możliwe wyniki doświadczenia losowego. Natomiast rodzinę podzbiorów przestrzeni zdarzeń elementarnych, którą zainteresowany jest eksperymentator, nazywa się przestrzenią zdarzeń losowych F. Uporządkowaną trójkę ( Ω, F, gdzie P) P jest prawdopodobieństwem, nazywa się przestrzenią probabilistyczną.

Naiwny klasyfiktor Bayesa Kilka (prostych) słów o teorii prawdopodobieństwa W potocznym rozumieniu prawdopodobieństwo zajścia danego zdarzenia jest miarą szansy jego wystąpienia. Prawdopodobieństwem nazywamy funkcję P przyporządkowującą każdemu zdarzeniu losowemu A liczbę P(A), zwaną prawdopodobieństwem zajścia zdarzenia A. Często jest tak, że zajście jednego zdarzenia może wpływać na prawdopodobieństwo zajścia innego zdarzenia. Wówczas mówimy o prawdopodobieństwie warunkowym.

Naiwny klasyfiktor Bayesa Kilka (prostych) słów o teorii prawdopodobieństwa Często mamy do czynienia z doświadczeniami wieloetapowymi i wówczas pojawia się pytanie, jak liczyć prawdopodobieństwa zdarzeń, których zajście zależy od innych zdarzeń, które zaszły we wcześniejszych etapach doświadczeń. Do tego posłuży wzór na prawdopodobieństwo całkowite. P( A) = n i = 1 P( A / H ) P( i H i )

Naiwny klasyfiktor Bayesa Twierdzenie Bayesa P( A) = n i = 1 P( A/ H ) P( i H i Interpretacja się w kategoriach przyczyna-skutek - jeżeli skutek A może zajść w wyniku jednej z n przyczyn H1,... Hn, to prawdopodobieństwo wystąpienia skutku A wyraża się powyższym wzorem. Jeśli natomiast znany jest wynik drugiego etapu doświadczenia i pytamy o to co stało się w jego pierwszym etapie, to stosujemy wzór Bayesa. Interpretacja się w kategoriach przyczyna-skutek - jeżeli skutek A nastąpi w wyniku zajścia jednej z n przyczyn H1,... Hn, to prawdopodobieństwo tego, że Hk była przyczyną zajścia A wyraża się wzorem Bayesa. )

Naiwny klasyfiktor Bayesa Twierdzenie Bayesa W odniesieniu do probabilistycznych metod uczenia się twierdzenie Bayesa można przedstawić w sposób następujący: dla dowolnej hipotezy h H oraz zbioru danych D zachodzi równość = = n i i i k k k k H P H A P H P H A P A P A H P A H P 1 ) ( ) / ( ) ( ) / ( ) ( ) ( ) / ( Niech zdarzenia H 1,... H n F tworzą układ zupełny zdarzeń w przestrzeni probabilistycznej i niech A F będzie dowolnym ustalonym zdarzeniem o dodatnim prawdopodobieństwie. Wówczas prawdziwy jest wzór ( ) P F,, Ω ) ( ) / ( ) ( ) / ( D P h D P h P D h P =

Naiwny klasyfiktor Bayesa Twierdzenie Bayesa Dla dowolnej hipotezy h H oraz zbioru danych D zachodzi równość P( h / D) = P( h) P( D / h) P( D) Hipotezy są funkcjami klasyfikującymi przykłady na podstawie wartości ich atrybutów. Algorytm reprezentuje hipotezy za pomocą pewnych oszacowań prawdopodobieństw, tworzonych na podstawie zbioru trenującego. Zbiór trenujący jest jedyną podstawą wyznaczanych przez naiwny klasyfikator bayesowski oszacowań prawdopodobieństw. Przykłady klasyfikowane są poprzez wybranie dla nich kategorii najbardziej prawdopodobnej z punktu widzenia oszacowań.

Naiwny klasyfiktor Bayesa Czy pogoda jest dobra do gry w golfa?

Naiwny klasyfiktor Bayesa Zastosowanie bardzo popularne Wyszukiwarki internetowe Instalator bieżącej wersji programu Śmieciarek NxG instaluje pliki z podstawową bazą słów, dzięki której już od pierwszego uruchomienia program potrafi automatycznie klasyfikować wiadomości. Baza podstawowych słów jest jednak dość uboga i program powinien być uczony rozpoznawania wiadomości w miarę jak odbierana jest poczta. Z podstawową bazą słów program może się mylić, jednak szybkie reagowanie na te pomyłki i ręczna reklasyfikacja wiadomości pozwoli na coraz lepsze rozróżnianie różnych kategorii wiadomości email. O uczeniu programu przeczytasz w pomocy do programu. Jeśli chcesz samodzielnie uczyć program rozpoznawania wiadomości od samego początku, wybierz pustą bazę słów. Jeśli natomiast chcesz, aby już od pierwszej chwili program rozpoznawał wiadomości i klasyfikował je, wybierz podstawową bazę słów.

Zagadnienie produkcyjne Dane produkcyjne Przyjęty sposób zapisu umożliwia przetwarzanie i formatowanie danych za pomocą odpowiednio stworzonego oprogramowania. W ten sposób uzyskuje się zbiory danych uczących, wykorzystywane następnie do uczenia. Fragment przykładowego formularza do zbierania informacji o parametrach mas formierskich Wygenerowany zbiór danych uczących

Identyfikacja przyczyn powstawania wad w odlewach Produkcja klocków hamulcowych Zestaw danych Konfiguracja 1 Dane wejściowe: Wilgotność Przepuszczalność Dane wyjściowe: Wada zapiaszczenie - % braków Zagęszczalność Wytrzymałość Temperatura Wilgotność masy zwrotnej

Wspomaganie decyzji odnośnie dodatków odświeżających do syntetycznych mas formierskich Produkcja klocków hamulcowych Zestaw danych Konfiguracja 2 Dane wejściowe: Dane wyjściowe: Wilgotność Dodatek wody Przepuszczalność Zagęszczalność Wytrzymałość Dodatek pyłu Dodatek bentonitu Dodatek piasku

Dyskretyzacja danych Dlaczego stosujemy proces dyskretyzacji danych ciągłych? Większość zmiennych, z którymi mamy do czynienia przy rozwiązywaniu rzeczywistych problemów, jest ciągła. Dlatego, aby ciągły atrybut mógł być użyty, musi zostać poddany procesowi dyskretyzacji. Proces ten polega na podzieleniu całego zbioru wartości (dziedziny atrybutu) na podzbiory (przedziały) o określonych własnościach. Każdy z takich przedziałów, u tworzonych w procesie dyskretyzacji, może być wtedy utożsamiany z jedną wartością dyskretną nowego" atrybutu, równoważnemu.

Dyskretyzacja danych Kiedy stosujemy? Dla algorytmów, które nie mają mechanizmów przetwarzania atrybutów ciągłych, dyskretyzacja jest nieodzownym warunkiem stosowalności do dziedzin, w których atrybuty takie występują. Zdecydowana poprawa efektywności obliczeniowej procesu uczenia się dzięki zastąpieniu wielu wartości atrybutu ciągłego niewielką liczbą wartości dyskretyzowanych (obniżenie nakładu obliczeń) Zwiększenie prostoty oraz czytelności hipotez: hipotezy, które bezpośrednio wykorzystują atrybuty ciągłe mogą być zbyt złożone i nieczytelne. Pod wpływem dyskretyzacji hipotezy mogą okazać się prostsze i łatwiejsze do interpretacji.

Dyskretyzacja danych Metody Dyskretyzacja wg równej częstości: Zakres wartości atrybutu ciągłego jest dzielony na ustaloną z góry liczbę przedziałów, jednak nie są to przedziały o równej szerokości. Ich końce dobiera się w ten sposób, aby każdemu z nich odpowiadała (możliwie) taka sama liczba przykładów trenujących.

Dyskretyzacja danych Metody Dyskretyzacja wg równej szerokości: Jest to najprostsza metoda dyskretyzacji. Zakres wartości dyskretyzowanego atrybutu ciągłego jest dzielony na ustaloną liczbę przedziałów o jednakowej szerokości. Każdemu przedziałowi odpowiada następnie jedna wartość dyskretna.

Dyskretyzacja danych Metody Dyskretyzacja zstępująca: Zgodnie z istotą podejścia zstępującego początkowo przyjmuje się cały zakres wartości jako jedyny przedział. Umieszczenie pierwszej wartości progowej dzieli go na dwa podprzedziały, z których każdy może być następnie podzielony na kolejne dwa podprzedziały itd.

Dyskretyzacja danych Metody Dyskretyzacja wstępująca: W przypadku dyskretyzacji wstępującej główną rolę pełni operacja mająca na celu łączenie przyległych przedziałów w jeden większy przedział. Zakończenie łączenia przedziałów za pomocą tej metody następuje po ustaleniu kryterium stopu, czyli w momencie gdy albo liczba przedziałów osiągnie wartość minimalną określoną na początku procesu lub gdy wszystkie sąsiadujące ze sobą przedziały będą na tyle różne, że algorytm sam zaprzestanie ich łączenia.

Dyskretyzacja danych Metody Dyskretyzacja wstępująca Przykładem metody dyskretyzacji wstępującej jest algorytm ChiMerge. Nazwa algorytmu wskazuje na wykorzystanie statystyki χ 2 (używanej do oceny czy sąsiednie przedziały można połączyć w jeden) oraz przeprowadzenie dyskretyzacji przez łączenie przedziałów. Rozpoczynając od minimalnych przedziałów pokrywających zakres dyskretyzowanego atrybutu, po jednym dla każdej jego wartości występującej w zbiorze trenującym, algorytm wielokrotnie powtarza podstawowy cykl, w którym rozważa połączenie każdej pary przyległych przedziałów (lub w ogólniejszym wariancie ich pewnej liczby k>1) i dokonuje połączenia tych, dla których da to według stosowanej heurystyki najlepsze efekty. W algorytmie ChiMerge funkcję tej heurystyki pełni właśnie statystyka χ 2.

Literatura [1] Data Mining. Przegląd metod eksploracji danych.mateusz Kobos [2] Drzewo decyzyjne C4_5, czyli jak nauczyć komputer odróżniać dobro od zła. Nikos Drakos, Ross Moore (The translation was initiated by Przemyslaw Strzelczak ) [3] Metody i techniki pozyskiwania wiedzy z danych oraz komputerowego wspomagania decyzji dla potrzeb administracji państwowej.raport końcowy z realizacji zadania. Politechnika Warszawska.