Podstawy sztucznej inteligencji

Podobne dokumenty
Podstawy sztucznej inteligencji

Inteligentne systemy przeciw atakom sieciowym

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Analiza danych. TEMATYKA PRZEDMIOTU

Analiza danych i data mining.

Wprowadzenie do technologii informacyjnej.

Widzenie komputerowe (computer vision)

Mail: Pokój 214, II piętro

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

ALGORYTM RANDOM FOREST

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74


Agnieszka Nowak Brzezińska

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Scoring kredytowy w pigułce

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Opis efektów kształcenia dla modułu zajęć

Data Mining Kopalnie Wiedzy

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Systemy uczące się wykład 2

Indukowane Reguły Decyzyjne I. Wykład 3

Agnieszka Nowak Brzezińska Wykład III

Algorytmy klasyfikacji

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Wprowadzenie do uczenia maszynowego

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Testowanie hipotez statystycznych

Aproksymacja funkcji a regresja symboliczna

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

Eksploracja danych (data mining)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Systemy uczące się wykład 1

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Transformacja wiedzy w budowie i eksploatacji maszyn

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Agnieszka Nowak Brzezińska Wykład III

Nowe narzędzia zarządzania jakością

Metody klasyfikacji danych - część 1 p.1/24

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Sterowanie wielkością zamówienia w Excelu - cz. 3

Zadania ze statystyki, cz.6

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Inteligentna analiza danych

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Luty 2001 Algorytmy (4) 2000/2001

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

data mining machine learning data science

Testowanie hipotez statystycznych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Systemy uczące się Lab 4

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

SZTUCZNA INTELIGENCJA

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Bazy danych TERMINOLOGIA

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

CLUSTERING. Metody grupowania danych

W poszukiwaniu sensu w świecie widzialnym

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Testy nieparametryczne

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Hierarchiczna analiza skupień

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Alicja Marszałek Różne rodzaje baz danych

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Elementy modelowania matematycznego

Eksploracja danych - wykład IV

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

NAZWA ZMIENNEJ LOSOWEJ PODAJ WARTOŚĆ PARAMETRÓW ROZKŁADU PRAWDOPODOBIEŃSTWA DLA TEJ ZMIENNEJ

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Spis treści 3 SPIS TREŚCI

Transkrypt:

wykład 7 Eksploracja danych 09 stycznia 2013

Plan wykładu Co to jest eksploracja danych? 1 Co to jest eksploracja danych? 2 3

Definicja Eksploracja danych ED (Data mining) Metody wydobywania ukrytych informacji z dużych baz danych. Cel Do prognozowania przyszłych trendów i zachowań, które pozwolą przedsiębiorstwom na podejmowanie opartych na wiedzy decyzji. Zalety Zautomatyzowana prospektywna analiza danych wykracza poza zwykłe narzędzia wspomagania decyzji. ED udziela odpowiedzi na pytania, które nie znajdowały odpowiedzi ze względu na złożoność obliczeniową. Poszukują w bazach danych ukrytych wzorców, informacji, które ekspert może pominąć, gdyż znajdują się poza jego oczekiwaniami.

Technologie pozwalające na rzeczywiste wykorzystanie ED Zasoby zapewniające wykorzystanie ED: olbrzymie i prawie wszechobecne zbiory danych zwiększająca się moc obliczeniowa komputerów algorytmy eksploracji danych. Technologie eksploracji danych wywodzą się z obszarów badań: statystyka sztuczna inteligencja maszynowe uczenie się.

Zakres zastosowania eksploracji danych Automatyczne przewidywanie trendów i zachowań Automatyzuje się proces wyszukiwania informacji i można szybko udzielać odpowiedzi na pytania dotyczące danych. Przykłady: Ukierunkowany marketing: wykorzystanie np. danych z przeszłych korespondencji promocyjnych do określenia klientów maksymalizujących szansę ponownych inwestycji. Prognozowanie upadłości: identyfikacja segmentów biznesu, które mogą reagować podobnie na pewną sekwencję zdarzeń.

Zakres zastosowania eksploracji danych Automatyczne wykrywanie nieznanych wcześniej wzorców Narzędzia eksplorują bazy danych i identyfikują ukryte wzorce. Przykłady odkrywania wzorców Analiza danych o sprzedaży detalicznej do identyfikacji pozornie niepowiązanych produktów, które często są nabywane razem. Wykrywanie wzorca fałszywych transakcji z użyciem kart kredytowych. Identyfikacja anomalii w danych.

Plan wykładu Co to jest eksploracja danych? 1 Co to jest eksploracja danych? 2 3

Zadania wykonywane w ramach eksploracji danych Klasyfikacja Grupowanie Asocjacje Wzory sekwencyjne

Klasyfikacja Definicja Dane układa się w ustalonych grupach (klasach). Dane składają się z atrybutów obiektów i przypisanych im etykiet klas. Jeżeli pojawi się nowy obiekt o znanych atrybutach a nieznanej klasie zostaje on dopasowany do jednej z klas. Modelowanie zależności wejście-wyjście nazywane jest uczeniem nadzorowanym. Przykłady: Filtrowanie spamu (niechcianych wiadomości). Zwiększenie konkurencyjności restauracji poprzez ustalanie specjalności dnia na podstawie zamówień klientów. Możliwe jest określenie kiedy najczęściej klienci odwiedzają lokal i co zazwyczaj zamawiają.

Grupowanie Definicja Dane są grupowane według logicznych powiązań. Dane składają się z atrybutów obiektów i nie posiadamy przypisanych im etykiet klas. Obiekty łączy się w grupy według pewnej przyjętej relacji. Nowy obiekt zostaje przypisany do pewnej grupy przez podobieństwo do grupy. Modelowanie grup nazywa się uczeniem nienadzorowanym. Przykłady: Bardzo często wykorzystywane przy pracy z danymi ankietowymi i testach. Wykorzystuje się grupowane, by całą populację klientów podzielić na mniejsze grupy tak, by zidentyfikować działy rynku i lepiej zrozumieć zależności pomiędzy różnymi grupami klientów, potrzebami rynku. Stosuje się do określenia polityki marketingowej. Grupowanie produktów w sklepach internetowych.

Asocjacje Definicja Dane służą do identyfikacji związków pomiędzy atrybutami. W dużych bazach danych poszukuje się reguł, które określają silne (według przyjętego kryterium) powiązania pomiędzy cechami obiektu. Przykłady: Reguła asocjacyjna: piwo-> pieluchy, cebula, ziemniaki -> mięso. Wykorzystywane do rozmieszczanie produktów i akcji promocyjnych. Wykrywanie włamań komputerowych. Wykrywanie reguł, które łączy się z atakiem. Wykonuje się to poprzez analizy tysięcy linii logów i poszukiwaniu anomalii.

Wzory sekwencyjne Co to jest eksploracja danych? Definicja Dane wykorzystuje się do przewidywania zachowań i trendów. Dane pojawiają się sekwencyjnie i przechowywane są w sposób wskazujący na kolejność ich pojawiania się. Poszukuje się w nich statystycznie istotnych wzorców. Przykłady: Sprzedawcy sprzętu mogą przewidzieć prawdopodobieństwo nabycia ubezpieczenia w pewnym czasie po zakupie komórki na podstawie zakupu konkretnego typu telefonu komórkowego. W pewnym sensie jest to wykrycie reguły, w której ważne jest następstwo czasowej Wykrywanie brakującego fragmentu DNA lub ciągu znaków.

Techniki eksploracji danych sztuczne sieci neuronowe drzewa decyzyjne: struktura drzewiasta, które zawiera zestawy decyzji. Decyzje te generują zasad klasyfikacji zbioru danych. Metody wykorzystujące drzewa decyzyjne to drzewa klasyfikacyjne i regresyjne. algorytmy genetyczne do wykrywania reguł w danych metoda najbliższego sąsiedztwa: technika, która grupuje rekordy w zbiorze danych łącząc ze sobą k rekordów najbliższych (podobnych do niego) dla pewnego wybranego rekordu. indukcja reguł: wydobycie reguł (jeśli-to) w oparciu o istotność statystyczną.

Modelowanie Co to jest eksploracja danych? Modelowanie jest to tworzenie modelu dopasowanego do pewnej sytuacji, w której znane jest zachowanie/odpowiedź i zastosowanie go do innej sytuacji, gdy odpowiedź nie jest znana. Przykład firmy telekomunikacyjnej Z danych historycznych o usługobiorcach zostanie zbudowany model, który określi potencjalnych klientów rozmów międzynarodowych. Modelowanie odgaduje zależności istniejące w bazie danych i tak możliwy model to: 98% klientów, którzy zarabiają więcej niż 60.000 rocznie wydaje więcej niż 80/miesiąc na rozmowy międzynarodowe.

Przykłady zastosowań Firma transportowa może określać najlepsze perspektywy dla swojej działalności na podstawie eksploracji danych. Analizując doświadczenia z klientami można wyznaczyć segmenty działalności (wyznaczyć atrybuty) o największym wpływie na przyszłą działalność. Można takie wyniki uogólnić na cały region. Firmy prowadzące sprzedaż mogą próbować zwiększać wskaźniki sprzedaży wykorzystując eksplorację danych. Dane z paneli konsumenckich, dostaw, aktywności konkurencji pozwalają zrozumieć trendy w zmianach marki i sklepów. Producent na tej podstawie może planować kampanię reklamową i najlepsze sposoby dotarcia do klienta.

Proces eksploracji danych 1 1 źródło: http://www.crisp-dm.org/process/index.htm

Plan wykładu Co to jest eksploracja danych? 1 Co to jest eksploracja danych? 2 3

Statystyka Co to jest eksploracja danych? Używając narzędzi ze statystyki można udzielać odpowiedzi na pytania: Jakie wzorce są ukryte w bazie danych? Jaka jest szansa, że nastąpi pewne zdarzenie? Jakie wzorce są istotne? Co wynika z podsumowania (np. średnia) danych? Zyskuje się pewne wyobrażenie o tym, co jest zawarte w bazie danych.

Histogramy Co to jest eksploracja danych? kolor oczu wiek 2 źródło: http://www.crisp-dm.org/process/index.htm

Użyteczne miary Co to jest eksploracja danych? Max - maksymalna wartość z danych. Min - minimalna wartość z danych. Średnia - średnia wartość w próbie. Mediana - wartość w bazie, powyżej i poniżej której znajduje się jednakowa liczba rekordów (dzieli bazę na połówki o równej liczbie rekordów). Dominanta - wartość najczęściej występująca (o największym prawdopodobieństwie wystąpienia). Wariancja - miara zmienności, tego, jak rozkładają się wartości od wartości średniej.

Rozkłady Co to jest eksploracja danych? Czasami zamiast histogramu chce się opisać rozkład danych równaniem. W klasycznej statystyce zakłada się, że istnieje pewien prawdziwy, podstawowy kształt rozkładu, który powstaje wtedy, gdy zostaną zebrane wszystkie możliwe dane. Zadaniem statystyka jest określenie prawdopodobnego rozkładu z ograniczonej liczby danych. Wiele rozkładów opisanych jest tylko przez średnią i wariancję. jednostajny normalny 3 źródło: wikipedia 3

Regresja liniowa Co to jest eksploracja danych? Podstawowa zasada regresji jest taka, że z mapy wartości jest tworzony taki model, by uzyskać najniższy błąd (zazwyczaj średniokwadratowy). Prediction = a + b Predictor 4 źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htm 4

Bardziej złożone modele niż liniowe Złożoność modelu może wynikać z: zwiększenia liczby wejść (predictors) (zwiększenie wymiarowości) Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 + b 4 X 4 + b 5 X 5 regresja nieliniowa zastosowania przekształcenie dla wejścia (podnoszenie do potęgi) wymnażania przez siebie wejść Y = a + b 1 X 1 + b 2 X 2 1 modyfikacji by odpowiedź modelu była binarna (regresja logistyczna)

Grupowanie Co to jest eksploracja danych? Klasyfikacja metodą najbliższego sąsiada Zasada polega na tym, że jeżeli chcę wiedzieć jaka jest odpowiedź (prognozowane wyjście) na sygnał wejściowy, to patrzę na najbliższe sąsiednie rekordy o podobnych wejściach z danych historycznych i używam taką samą klasę. Przykład grupowania Grupowanie odzieży do prania, czyszczenia. Grupuje się je, gdyż mają podobną charakterystykę. Grupowanie przez najbliższe sąsiedztwo Przykład: prawdopodobnie większość Twoich sąsiadów (sąsiedztwo geograficzne) ma podobny przychód. Metoda ta jest intuitywna a jednocześnie łatwa do zautomatyzowania.

Metoda najbliższego sąsiada w predykcji U podstaw koncepcji klastrów (grup) leży to, że dany obiekt (czy to samochody, żywność lub klient) może być bliżej do innego obiektu, niż jakiś inny trzeci obiekt. Większość ludzi ma wrodzone poczucie porządkowania różnych przedmiotów i zgodzi się, że jabłku bliżej do pomarańczy niż do pomidora. To poczucie pozwala nam budować klastry - zarówno w bazach danych, jak również w codziennym życiu. Definicja bliskości pozwala również dokonać prognozy. Sąsiedztwo do predykcji Obiekty leżące blisko siebie powinny mieć taką samą wartość predykcyjną. Wystarczy zatem znać wartość wyjściową dla jednego obiektu.

K-najbliższych sąsiadów do klasyfikacji 5 Zaufanie do predykcji Tym większa wiarygodność im bliższe sąsiedztwo lub jednorodność K-sąsiadów. 5 źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htm

Grupowanie nienadzorowane (bez znanej odpowiedzi) W danych nie ma predykcji. Grupowanie polega na obserwacji rozkładu danych w przestrzeni wejść i nadawanie tej samej etykiety dla blisko sąsiadujących rekordów separowalnych od innych.

Grupowanie pozwala wychwycić odstające rekordy (outliers) Dzięki grupowaniu można łatwo zidentyfikować odstające rekordy i wskazać przyczynę tego stanu rzeczy.

Różne wyniki grupowania Według przychodu 6 6 źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htm

Różne wyniki grupowania Według wieku i koloru oczu 7 7 źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htm

Problemy z grupowaniem Który rekord do którego klastra? Algorytm podziału na klastry powinien mieć określone zasady, jaka cecha ma większy priorytet i jaki atrybut jest ważniejszy. Kompromis liczności klastrów i jednorodności. Chcąc uzyskać najbardziej jednorodne klastry będziemy mieli tendencję do zwiększania liczby klastrów (aż do liczby rekordów). Natomiast chcąc uzyskać generalizację trzeba dla danego problemu próbować budować jak najmniej klastrów.

Porównanie klasyfikacji i grupowania Klasyfikacja Służy do prognozowania, jak również konsolidacji. Przestrzeń jest zdefiniowana przez problem (uczenie nadzorowane). Używa metod metrycznych do określenia bliskości rekordów. Grupowanie Używana głównie do konsolidowania danych (widok z góry na przestrzeń wejść) i zapisu do grup. Przestrzeń jest zdefiniowana jako domyślna przestrzeń n-wymiarowa lub zdefiniowana przez użytkownika, lub jest predefiniowaną przestrzenią dostarczoną przez wcześniejsze doświadczenia (uczenie bez nadzoru). Może używać inne niemetryczne miary.

Grupowanie hierarchiczne Metody hierarchiczne tworzą podziały na różne liczności klastrów. Istnieje możliwość decydowania o wygodnym doborze liczby klastrów. 8 8 źródło: http://www.thearling.com/text/dmtechniques/dmtechniques.htm

Metody grupowania hierarchiczne Poprzez łączenie (aglomerative) techniki grupowania zaczynające od liczby klastrów równej liczbie rekordów. Klastry, które znajdują się najbliżej siebie są łączone ze sobą tworząc drugi co do wielkości klaster. To połączenie jest kontynuowane aż do utworzenia jednego klastra zawierających wszystkie rekordy, znajdującego się na szczycie hierarchii. Poprzez podziały (divisive) techniki grupowania działające w odwrotnym kierunku niż powyższa technika. Zaczynają gdy wszystkie rekordy są zgrupowane w jeden klaster, a następnie dokonują podziału na mniej liczne grupy.

Grupowanie niehierarchiczne Metody są zdecydowanie szybsze od hierarchicznych, ale wymagają od użytkownika podania: pożądanej liczby klastrów lub minimalnej wymaganej bliskość dwóch rekordów w jednym klastrze. Często wykonują się iteracyjnie startując z inną początkową konfiguracją rekordów, która wpływa na ostateczny podział oraz dokonują w pętli poprawek na granicach klastrów.

Drzewo decyzyjne Co to jest eksploracja danych? Drzewo decyzyjne Jest to model predykcyjny w formie drzewa. Każda gałąź jest odpowiedzią na pytanie o klasyfikację, o której decyzja zawarta jest w liściu. 9 źródło: http://gautam.lis.illinois.edu/monkmiddleware/public/analytics/decisiontree.html 9

Cechy drzewa decyzyjnego Dzieli się dane w każdym punkcie podziału bez utraty danych (łączna liczba pozycji w węźle rodzicu jest równa sumie zapisów zawartych w jej potomkach). Łatwo jest zrozumieć jak powstaje model (w przeciwieństwie do sieci neuronowych czy klasycznej statystyki). Model zgodny z intuicją. Drzewo decyzyjne może być postrzegane jako tworzenie segmentów (klientów, produktów, regionów sprzedaży). Segmenty są tworzone poprzez podobieństwo rekordów wynikające z ich przynależności do zmiennej predykcyjnej.

Zastosowania drzew decyzyjnych Algorytmy budują pełne drzewo dla hipotezy. Odtwarzają sposób analizy problemu przez specjalistę. Dla dużych rzeczywistych problemów, mogą być bardzo złożone. Służą do eksploracji danych. Dokonuje się ona przez patrzenie na zmienną decyzyjną i zmienną podziału w drzewie. Np. Jeśli klient ma umowę <1,1 roku i kanał sprzedaży = telesprzedaż THEN możliwość rezygnacji wynosi 65%. Do wstępnej obróbki danych przed predykcją np. do wyznaczania istotnych wejść do sieci neuronwej. Do predykcji.

Algorytmy Co to jest eksploracja danych? ID3 rozdziela atrybuty na podstawie miar informacyjnych (entropii). C4.5 udoskonalenie ID3: zmniejszenie liczby obliczeń, możliwość użycia zmiennych ciągłych, praca z atrybutami z brakującymi wartościami. CART (Classification And Regression Tree) udoskonalenie C4.5. Stosuje node impurity do wskazania atrybutu podziału w drzewie. Szczegóły: http://courtdecisionsandrulings.com/ an-integrated-study-on-decision-tree-induction-algorith html