EKSPLORACJA DANYCH. Data Mining

Podobne dokumenty
ALGORYTM RANDOM FOREST

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Systemy uczące się wykład 1

Systemy uczące się wykład 2

Klasyfikacja metodą Bayesa

Wnioskowanie bayesowskie

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Proces odkrywania wiedzy z baz danych

Algorytmy klasyfikacji

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

SZTUCZNA INTELIGENCJA

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Elementy modelowania matematycznego

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Agnieszka Nowak Brzezińska Wykład III

Widzenie komputerowe (computer vision)

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Metody probabilistyczne klasyfikatory bayesowskie

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Agnieszka Nowak Brzezińska Wykład III

Statystyka i eksploracja danych

Analiza danych. TEMATYKA PRZEDMIOTU

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Wprowadzenie do uczenia maszynowego

ALGORYTMY SZTUCZNEJ INTELIGENCJI

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Indukowane Reguły Decyzyjne I. Wykład 3

6.4 Podstawowe metody statystyczne

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 1. L. Kowalski, Statystyka, 2005

Rachunek prawdopodobieństwa

Aproksymacja funkcji a regresja symboliczna

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Systemy uczące się Lab 4

Rachunek prawdopodobieństwa- wykład 2

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do teorii systemów ekspertowych

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

IX EKSPLORACJA DANYCH

Metody klasyfikacji danych - część 1 p.1/24

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

166 Wstęp do statystyki matematycznej

Prawdopodobieństwo i statystyka

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Mail: Pokój 214, II piętro

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Spacery losowe generowanie realizacji procesu losowego

Testowanie modeli predykcyjnych

Prawdopodobieństwo. Prawdopodobieństwo. Jacek Kłopotowski. Katedra Matematyki i Ekonomii Matematycznej SGH. 16 października 2018

Metody Sztucznej Inteligencji II

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Elementy inteligencji obliczeniowej

Spis treści Przedmowa

Pattern Classification

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

1.1 Rachunek prawdopodobieństwa

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

8. Neuron z ciągłą funkcją aktywacji.

Sztuczna inteligencja : Algorytm KNN

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Spis treści. Przedmowa 11

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Podstawy Sztucznej Inteligencji (PSZT)

Uczenie sieci neuronowych i bayesowskich

w ekonomii, finansach i towaroznawstwie

technologii informacyjnych kształtowanie , procesów informacyjnych kreowanie metod dostosowania odpowiednich do tego celu środków technicznych.

JAKIEGO RODZAJU NAUKĄ JEST

Wykład 11: Podstawowe pojęcia rachunku prawdopodobieństwa

Odkrywanie wiedzy w danych

Transformacja wiedzy w budowie i eksploatacji maszyn

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Projekt Sieci neuronowe

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Programowanie komputerów

prawda symbol WIEDZA DANE komunikat fałsz liczba INFORMACJA (nie tyko w informatyce) kod znak wiadomość ENTROPIA forma przekaz

Zdarzenia losowe i prawdopodobieństwo

Modelowanie motywów łańcuchami Markowa wyższego rzędu

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Statystyka w pracy badawczej nauczyciela

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10).

KIERUNKOWE EFEKTY KSZTAŁCENIA

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

2

Transkrypt:

Data Mining Definicja1: Nietrywialne wydobywanie ukrytej, poprzednio nieznanej i potencjalnie użytecznej informacji z danych (W.Frawley, G. Piatetsky-Shapiro, C. Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, Jesień 1992) Definicja2: Nauka zajmująca się wydobywaniem informacji z dużych zbiorów danych lub baz danych (D. Hand, H. Mannila, P. Smyt. Principles of Data Mining. MIT Press, Cambridge, MA, 2001)

Data Mining Firmy z silnym nastawieniem na klienta (i dużymi bazami danych): Sieci sklepów Firmy finansowe Firmy telekomunikacyjne Firmy marketingowe Pomoc w znalezieniu relacji między czynnikami: wewnętrznymi : i zewnętrznymi

Data Mining Zastosowanie inteligentnych metod do wydobycia zależności, wzorców. Popularny przykład (ale czy prawdziwy?): mężczyźni+pieluchy+piątek=piwo Zastosowania (USA): Blockbuster proponuje filmy na podstawie historii wypożyczeń American Express proponuje produkty posiadaczom kart na podstawie analizy miesięcznych wydatków Zastosowania techniczne np.analiza procesu wytwórczego

Data Mining Obszary zastosowań Wyszukiwanie asocjacji (pieluchy-piwo) Klasyfikacja(wartości dyskretne), predykcja(wartości ciągłe) Grupowanie (ang. clustering) Eksploracja złożonych typów danych

Data Mining Klasyfikacja, predykcja Drzewa decyzyjne Modele Bayes'a Sieci neuronowe Alg. Genetyczne Zbiory rozmyte i przybliżone Statystyczna regresja wielowymiarowa, inne rodzaje regresji (predykcja)

Data Mining Przykłady danych produkcyjnych; Przygotowanie danych

paleta 1- H paleta 2 - H/B paleta 3 - B Przykłady istniejącej dokumentacji w zakładzie produkcyjnym: ANALIZA BRAKÓW WSTAWEK D0-380 - wytop 03008 RODZAJE WAD Paleta 1 Paleta 2 Paleta 3 Suma ODLEWNICZYCH sztuki % sztuki % sztuki % sztuki % Brak rdzenia i wtopki 0 0,00 4 4,30 0 0,00 4 1,30 Jamy skurczowe 7 5,43 10 10,75 7 8,24 24 7,82 Niedolew 5 3,88 1 1,08 5 5,88 11 3,58 Niespaw 0 0,00 1 1,08 0 0,00 1 0,33 Odklejona wtopka 4 3,10 0 0,00 2 2,35 6 1,95 Pęcherze 26 20,16 1 1,08 1 1,18 28 9,12 Porowatość 0 0,00 0 0,00 0 0,00 0 0,00 Przestawienia 0 0,00 0 0,00 0 0,00 0 0,00 Przypalenia 0 0,00 0 0,00 0 0,00 0 0,00 Uszkodzenia mechaniczne 1 0,78 2 2,15 0 0,00 3 0,98 Wady ucha 5 3,88 47 50,54 39 45,88 91 29,64 Wciągnięcia 2 1,55 3 3,23 4 4,71 9 2,93 Wypchnięcia 0 0,00 0 0,00 0 0,00 0 0,00 Wypłynięcia 0 0,00 0 0,00 0 0,00 0 0,00 Zagazowanie 0 0,00 0 0,00 1 1,18 1 0,33 Zagłębiona wtopka 2 1,55 8 8,60 17 20,00 27 8,79 Zalane dylatacje 9 6,98 2 2,15 6 7,06 17 5,54 Zalewki 0 0,00 0 0,00 0 0,00 0 0,00 Zapiaszczenie 35 27,13 8 8,60 1 1,18 44 14,33 Zniszczona forma 2 1,55 2 2,15 2 2,35 6 1,95 Zniszczony rdzeń 0 0,00 0 0,00 0 0,00 0 0,00 Zażużlenia 31 24,03 4 4,30 0 0,00 35 11,40 Dobre 0 0,00 0 0,00 0 0,00 0 0,00 Suma 129 100,00 93 100,00 85 100,00 307 100,00

Przykłady opracowanych formularzy elektronicznych: Karta 1. BIEŻĄCE POMIARY WŁASNOŚCI MASY Z MIESZARKI Data Oznaczenia odlewów Brygada Nr wytopu Asortyment Żródło: b b b 2003-01-07 C 03-006 "Żywiec" 2003-01-07 A 03-006 DO-320 2003-01-07 E 03-006 DO-320 2003-01-07 B 03-006 DO-380 2003-01-07 H 03-006 DO-380 Nr pomiaru Godzina Nr mieszarki Wilgotność [%] Przepuszczalność [10-8 /Pa*s] Zagęszczalność [%] R c w [kpa] Żródło: a, c a a, c a, c a, c a, c 1 0:15 2 5,00 220,00 54,00 135,00 2 0:15 3 4,60 230,00 55,00 130,00 3 11:00 1 4,40 220,00 43,00 145,00 4 11:00 3 4,60 200,00 42,00 155,00 5 13:00 1 4,40 210,00 41,00 150,00 6 13:00 3 4,60 195,00 42,00 155,00 7 14:40 1 4,60 205,00 40,00 150,00 8 14:40 3 4,40 200,00 38,00 145,00 9 16:20 1 4,60 210,00 40,00 145,00 10 16:20 3 4,40 195,00 38,00 140,00 11 18:20 1 4,00 195,00 37,00 140,00 12 18:20 3 4,40 190,00 40,00 150,00 13 20:20 1 4,20 200,00 38,00 150,00 14 20:20 3 4,20 195,00 38,00 140,00 Uwagi bieżące

Przetwarzanie danych Generowanie zbioru uczącego

Data Mining Jądrem Data Mining są systemy uczące się W praktyce często występują procesy o niezidentyfikowanej lub bardzo złożonej naturze fizycznej. Modelowanie tego typu problemów sprowadza się do znalezienia zależności między sygnałami wejściowymi a sygnałami wyjściowymi (wynikowymi) w oparciu o pewną liczbę zaobserwowanych przypadków. Tego typu narzędzia matematyczne znajdują zastosowanie przy projektowaniu i realizacji procesów produkcyjnych. Jedną z korzyści, jakie może dać modelowanie procesów produkcyjnych jest wskazanie wielkości odgrywających dominującą czy przynajmniej bardzo znaczącą, albo też znikomą bądź żadną, rolę w procesie (np. w wykrywanie przyczyn awarii urządzeń, zakłóceń procesów technologicznych, określaniu parametrów procesu technologicznego decydujących o jakości wyrobu i w innych tego typu sytuacjach).

Analiza danych Systemy uczące się Modelowanie zjawisk bardzo złożonych o niezbadanej naturze fizycznej, a zwłaszcza poszukiwanie prawidłowości w warunkach dużej liczby zmiennych o różnym charakterze. Sztuczne sieci neuronowe Drzewa klasyfikacyjne i regresyjne Naiwny klasyfikator Bayesa Sprawdzenie przydatności do modelowania procesów związanych z wytwarzaniem form i odlewów oraz ich właściwości

Neuron biologiczny Sztuczne sieci neuronowe

Drzewa decyzyjne Idea Człowiek posiada tę umiejętność, że na podstawie przeszłych doświadczeń potrafi trafnie sklasyfikować nowy przypadek i podjąć wobec niego dobrą decyzję. My więc chcielibyśmy tego samego nauczyć komputer. Dając mu ''bagaż'' doświadczeń, czyli informację o przypadkach określonego typu, chcielibyśmy, aby podejmował racjonalną decyzję. Racjonalną znaczy najbliższą indukowanym regułom, które w jego mniemaniu zostały użyte do podjęcia tych dobrych decyzji i jednocześnie o niskim przewidywalnym poziomie pomyłek.

Drzewa decyzyjne Do tych właśnie celów wymyślono drzewa decyzyjne, które na stałe wpisały się w poczet elementów uczenia maszynowego. Na podstawie dostarczonego zbioru faktów i reguł maszyna uczy się jak sklasyfikować nowe przypadki. Zbiór faktów na podstawie, których będziemy wnioskować nazywamy Training Set, natomiast nowe przypadki, które będziemy chcieli zaklasyfikować to Test Set. Klasyfikacja polega na stwierdzeniu w jakiej kategorii umieścić nowy przypadek, zwykle jest to podział binarny na true lub false itp. Training Set jest zbiorem rekordów o tej samej strukturze, na którą składają się pary typu atrybut/wartość atrybutu. Ponadto każdy rekord jest przyporządkowany do odpowiedniej kategorii. Na podstawie wartości tych atrybutów i Training Set próbujemy sklasyfikować nowe przypadki, w których mamy dane jedynie atrybuty i ich wartości.

Drzewa Uczenie drzew Założenia: przykłady są reprezentowane przez pary <atrybut, wartość> Każdy przykład jest opisany przez zestaw atrybutów, każdy atrybut może przyjmować różne wartości. Wartości muszą być dyskretne, w przypadku ciągłych dokonuje się dyskretyzacji tej wartości na kilka przedziałów. Oczywiści im mniej wartości może przyjmować atrybut, tym lepiej drzewo będzie mniej rozbudowane. funkcja docelowa musi przyjmować wartości dyskretne ciąg uczący może zawierać błędy ciąg uczący może zawierać atrybuty które nie mają określonej wartości

Drzewa Drzewo : Wewnętrzne węzły test na atrybucie Gałęzie wyniki testu Liście klasy Przykładowe drzewo (wskazujące, czy klient kupi komputer, czy nie):

Drzewa Przykładowe drzewo

Drzewa Przykładowe drzewo z programu komercyjnego

Naiwny klasyfiktor Bayesa U podstaw stosowanych mechanizmów wnioskowania wykorzystywanych do uczenia się, leży twierdzenie Bayesa. Ugruntowane teoretycznie i praktyczne zastosowania tego twierdzenia stanowią trzy główne grupy probabilistycznych metod uczenia się, a mianowicie: metody klasyfikacji bayesowskiej, sieci bayesowskie i metody oparte na zasadzie minimalnej długości kodu. Do najczęściej stosowanych metod klasyfikacji bayesowskiej należy naiwny klasyfikator bayesowski, zwany również niezależnym klasyfikatorem bayesowskim, w skrócie NKB. Jest to zdecydowanie najbardziej efektywny obliczeniowo praktyczny algorytm uczenia się pojęć.

Naiwny klasyfiktor Bayesa Pojęcia są jedną z postaci naszej wiedzy o świecie, używaną do opisywania i interpretowania zmysłowych obserwacji oraz abstrakcyjnych idei. Pojęcia służą do klasyfikowania pewnych obiektów na grupy, które naiwny klasyfikator bayesowski nazywa kategoriami. Pojęcia są zatem funkcjami przekształcającymi dziedzinę w zbór kategorii, a więc przypisują obiektom etykiety ich kategorii. W podstawowym przypadku pojęcie wyznacza podział zbioru wszystkich rozważanych obiektów, czyli dziedziny, na dwie kategorie: obiektów należących do pojęcia i obiektów nie należących do niego. O pierwszych mówi się, że są przykładami określonego pojęcia, a o drugich, że nie są przykładami tego pojęcia. Dziedziną jest zbiór obiektów, których ma dotyczyć wiedza nabywana przez naiwny klasyfikator bayesowski. Każdy obiekt, element dziedziny dla naiwnego klasyfikatora bayesowskiego jest przykładem.

Naiwny klasyfiktor Bayesa Dla naiwnego klasyfikatora bayesowskiego uczenia się ma charakter pewnego rodzaju odwzorowania informacji wejściowej na pewien zbiór wartości wyjściowych. Informacją wejściową są przykłady trenujące pewnej dziedziny, mające postać par złożonych z opisu obiektu i etykiety ich kategorii. Opis obiektu naiwny klasyfikator bayesowki nazywa przykładem nieetykietowanym i utożsamia z samym obiektem, a parę powstającą przez dołączenie do niego kategorii, przykładem etykietowanym. Algorytm otrzymuje wyłącznie opisy przykładów w postaci wartości atrybutów i tylko z nich może korzystać.

Naiwny klasyfiktor Bayesa Uczenie się naiwnego klasyfikatora Bayesa polega na znalezieniu hipotezy, która jest zgodna z pojęciem docelowym dla przykładów trenujących i która klasyfikuje również inne przykłady z dziedziny z jak najmniejszym błędem. Ma więc ona możliwie dokładnie przybliżać nieznane pojęcie docelowe.

Naiwny klasyfiktor Bayesa Kilka słów o teorii prawdopodobieństwa Rozważania na temat prawdopodobieństwa prowadzi się zakładając, że dana jest pewna przestrzeń zdarzeń elementarnych Ω, będąca zbiorem wszystkich zdarzeń elementarnych, przy czym zdarzeniami elementarnymi są najprostsze możliwe wyniki doświadczenia losowego. Natomiast rodzinę podzbiorów przestrzeni zdarzeń elementarnych, którą zainteresowany jest eksperymentator, nazywa się przestrzenią zdarzeń losowych F. Uporządkowaną trójkę ( Ω, F, gdzie P) P jest prawdopodobieństwem, nazywa się przestrzenią probabilistyczną.

Naiwny klasyfiktor Bayesa Kilka (prostych) słów o teorii prawdopodobieństwa W potocznym rozumieniu prawdopodobieństwo zajścia danego zdarzenia jest miarą szansy jego wystąpienia. Prawdopodobieństwem nazywamy funkcję P przyporządkowującą każdemu zdarzeniu losowemu A liczbę P(A), zwaną prawdopodobieństwem zajścia zdarzenia A. Często jest tak, że zajście jednego zdarzenia może wpływać na prawdopodobieństwo zajścia innego zdarzenia. Wówczas mówimy o prawdopodobieństwie warunkowym.

Naiwny klasyfiktor Bayesa Kilka (prostych) słów o teorii prawdopodobieństwa Często mamy do czynienia z doświadczeniami wieloetapowymi i wówczas pojawia się pytanie, jak liczyć prawdopodobieństwa zdarzeń, których zajście zależy od innych zdarzeń, które zaszły we wcześniejszych etapach doświadczeń. Do tego posłuży wzór na prawdopodobieństwo całkowite. P( A) = n i = 1 P( A / H ) P( i H i )

Naiwny klasyfiktor Bayesa Twierdzenie Bayesa P( A) = n i = 1 P( A/ H ) P( i H i Interpretacja się w kategoriach przyczyna-skutek - jeżeli skutek A może zajść w wyniku jednej z n przyczyn H1,... Hn, to prawdopodobieństwo wystąpienia skutku A wyraża się powyższym wzorem. Jeśli natomiast znany jest wynik drugiego etapu doświadczenia i pytamy o to co stało się w jego pierwszym etapie, to stosujemy wzór Bayesa. Interpretacja się w kategoriach przyczyna-skutek - jeżeli skutek A nastąpi w wyniku zajścia jednej z n przyczyn H1,... Hn, to prawdopodobieństwo tego, że Hk była przyczyną zajścia A wyraża się wzorem Bayesa. )

Naiwny klasyfiktor Bayesa Twierdzenie Bayesa W odniesieniu do probabilistycznych metod uczenia się twierdzenie Bayesa można przedstawić w sposób następujący: dla dowolnej hipotezy h H oraz zbioru danych D zachodzi równość = = n i i i k k k k H P H A P H P H A P A P A H P A H P 1 ) ( ) / ( ) ( ) / ( ) ( ) ( ) / ( Niech zdarzenia H 1,... H n F tworzą układ zupełny zdarzeń w przestrzeni probabilistycznej i niech A F będzie dowolnym ustalonym zdarzeniem o dodatnim prawdopodobieństwie. Wówczas prawdziwy jest wzór ( ) P F,, Ω ) ( ) / ( ) ( ) / ( D P h D P h P D h P =

Naiwny klasyfiktor Bayesa Twierdzenie Bayesa Dla dowolnej hipotezy h H oraz zbioru danych D zachodzi równość P( h / D) = P( h) P( D / h) P( D) Hipotezy są funkcjami klasyfikującymi przykłady na podstawie wartości ich atrybutów. Algorytm reprezentuje hipotezy za pomocą pewnych oszacowań prawdopodobieństw, tworzonych na podstawie zbioru trenującego. Zbiór trenujący jest jedyną podstawą wyznaczanych przez naiwny klasyfikator bayesowski oszacowań prawdopodobieństw. Przykłady klasyfikowane są poprzez wybranie dla nich kategorii najbardziej prawdopodobnej z punktu widzenia oszacowań.

Naiwny klasyfiktor Bayesa Czy pogoda jest dobra do gry w golfa?

Naiwny klasyfiktor Bayesa Zastosowanie bardzo popularne Wyszukiwarki internetowe Instalator bieżącej wersji programu Śmieciarek NxG instaluje pliki z podstawową bazą słów, dzięki której już od pierwszego uruchomienia program potrafi automatycznie klasyfikować wiadomości. Baza podstawowych słów jest jednak dość uboga i program powinien być uczony rozpoznawania wiadomości w miarę jak odbierana jest poczta. Z podstawową bazą słów program może się mylić, jednak szybkie reagowanie na te pomyłki i ręczna reklasyfikacja wiadomości pozwoli na coraz lepsze rozróżnianie różnych kategorii wiadomości email. O uczeniu programu przeczytasz w pomocy do programu. Jeśli chcesz samodzielnie uczyć program rozpoznawania wiadomości od samego początku, wybierz pustą bazę słów. Jeśli natomiast chcesz, aby już od pierwszej chwili program rozpoznawał wiadomości i klasyfikował je, wybierz podstawową bazę słów.

Zagadnienie produkcyjne Dane produkcyjne Przyjęty sposób zapisu umożliwia przetwarzanie i formatowanie danych za pomocą odpowiednio stworzonego oprogramowania. W ten sposób uzyskuje się zbiory danych uczących, wykorzystywane następnie do uczenia. Fragment przykładowego formularza do zbierania informacji o parametrach mas formierskich Wygenerowany zbiór danych uczących

Identyfikacja przyczyn powstawania wad w odlewach Produkcja klocków hamulcowych Zestaw danych Konfiguracja 1 Dane wejściowe: Wilgotność Przepuszczalność Dane wyjściowe: Wada zapiaszczenie - % braków Zagęszczalność Wytrzymałość Temperatura Wilgotność masy zwrotnej

Wspomaganie decyzji odnośnie dodatków odświeżających do syntetycznych mas formierskich Produkcja klocków hamulcowych Zestaw danych Konfiguracja 2 Dane wejściowe: Dane wyjściowe: Wilgotność Dodatek wody Przepuszczalność Zagęszczalność Wytrzymałość Dodatek pyłu Dodatek bentonitu Dodatek piasku

Dyskretyzacja danych Dlaczego stosujemy proces dyskretyzacji danych ciągłych? Większość zmiennych, z którymi mamy do czynienia przy rozwiązywaniu rzeczywistych problemów, jest ciągła. Dlatego, aby ciągły atrybut mógł być użyty, musi zostać poddany procesowi dyskretyzacji. Proces ten polega na podzieleniu całego zbioru wartości (dziedziny atrybutu) na podzbiory (przedziały) o określonych własnościach. Każdy z takich przedziałów, u tworzonych w procesie dyskretyzacji, może być wtedy utożsamiany z jedną wartością dyskretną nowego" atrybutu, równoważnemu.

Dyskretyzacja danych Kiedy stosujemy? Dla algorytmów, które nie mają mechanizmów przetwarzania atrybutów ciągłych, dyskretyzacja jest nieodzownym warunkiem stosowalności do dziedzin, w których atrybuty takie występują. Zdecydowana poprawa efektywności obliczeniowej procesu uczenia się dzięki zastąpieniu wielu wartości atrybutu ciągłego niewielką liczbą wartości dyskretyzowanych (obniżenie nakładu obliczeń) Zwiększenie prostoty oraz czytelności hipotez: hipotezy, które bezpośrednio wykorzystują atrybuty ciągłe mogą być zbyt złożone i nieczytelne. Pod wpływem dyskretyzacji hipotezy mogą okazać się prostsze i łatwiejsze do interpretacji.

Dyskretyzacja danych Metody Dyskretyzacja wg równej częstości: Zakres wartości atrybutu ciągłego jest dzielony na ustaloną z góry liczbę przedziałów, jednak nie są to przedziały o równej szerokości. Ich końce dobiera się w ten sposób, aby każdemu z nich odpowiadała (możliwie) taka sama liczba przykładów trenujących.

Dyskretyzacja danych Metody Dyskretyzacja wg równej szerokości: Jest to najprostsza metoda dyskretyzacji. Zakres wartości dyskretyzowanego atrybutu ciągłego jest dzielony na ustaloną liczbę przedziałów o jednakowej szerokości. Każdemu przedziałowi odpowiada następnie jedna wartość dyskretna.

Dyskretyzacja danych Metody Dyskretyzacja zstępująca: Zgodnie z istotą podejścia zstępującego początkowo przyjmuje się cały zakres wartości jako jedyny przedział. Umieszczenie pierwszej wartości progowej dzieli go na dwa podprzedziały, z których każdy może być następnie podzielony na kolejne dwa podprzedziały itd.

Dyskretyzacja danych Metody Dyskretyzacja wstępująca: W przypadku dyskretyzacji wstępującej główną rolę pełni operacja mająca na celu łączenie przyległych przedziałów w jeden większy przedział. Zakończenie łączenia przedziałów za pomocą tej metody następuje po ustaleniu kryterium stopu, czyli w momencie gdy albo liczba przedziałów osiągnie wartość minimalną określoną na początku procesu lub gdy wszystkie sąsiadujące ze sobą przedziały będą na tyle różne, że algorytm sam zaprzestanie ich łączenia.

Dyskretyzacja danych Metody Dyskretyzacja wstępująca Przykładem metody dyskretyzacji wstępującej jest algorytm ChiMerge. Nazwa algorytmu wskazuje na wykorzystanie statystyki χ 2 (używanej do oceny czy sąsiednie przedziały można połączyć w jeden) oraz przeprowadzenie dyskretyzacji przez łączenie przedziałów. Rozpoczynając od minimalnych przedziałów pokrywających zakres dyskretyzowanego atrybutu, po jednym dla każdej jego wartości występującej w zbiorze trenującym, algorytm wielokrotnie powtarza podstawowy cykl, w którym rozważa połączenie każdej pary przyległych przedziałów (lub w ogólniejszym wariancie ich pewnej liczby k>1) i dokonuje połączenia tych, dla których da to według stosowanej heurystyki najlepsze efekty. W algorytmie ChiMerge funkcję tej heurystyki pełni właśnie statystyka χ 2.

Literatura [1] Data Mining. Przegląd metod eksploracji danych.mateusz Kobos [2] Drzewo decyzyjne C4_5, czyli jak nauczyć komputer odróżniać dobro od zła. Nikos Drakos, Ross Moore (The translation was initiated by Przemyslaw Strzelczak ) [3] Metody i techniki pozyskiwania wiedzy z danych oraz komputerowego wspomagania decyzji dla potrzeb administracji państwowej.raport końcowy z realizacji zadania. Politechnika Warszawska.