ZAGADNIENIE WYBORU NARZĘDZIA DO DATA MINING. ANALIZA PORÓWNAWCZA WYBRANYCH PRODUKTÓW I TECHNIK



Podobne dokumenty
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Analiza danych. TEMATYKA PRZEDMIOTU

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

ALGORYTM RANDOM FOREST

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

StatSoft profesjonalny partner w zakresie analizy danych

PROGNOZOWANIE CENY OGÓRKA SZKLARNIOWEGO ZA POMOCĄ SIECI NEURONOWYCH

Opis efektów kształcenia dla modułu zajęć

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Analiza danych i data mining.

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Analiza metod prognozowania kursów akcji

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Widzenie komputerowe (computer vision)

> funkcjonalność aplikacji

Drzewa decyzyjne i lasy losowe

w ekonomii, finansach i towaroznawstwie

Opisy przedmiotów do wyboru

ORACLE 9i DATA MINING NARZĘDZIEM DO EKSTRAKCJI WIEDZY Z BAZ DANYCH

PRZEWIDYWANIE LOJALNOŚCI KLIENTÓW

Scoring kredytowy w pigułce

Ewelina Dziura Krzysztof Maryański

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Technologia informacyjna

Proces odkrywania wiedzy z baz danych

Koniunktura w Small Business

Wprowadzenie do technologii informacyjnej.

1. Informacje o StatSoft Polska

Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych

Sposoby analizy i interpretacji statystyk strony WWW.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Projekt Analiza funkcjonowania bibliotek naukowych w Polsce (AFBN) jako narzędzie oceny efektywności i jakości działań biblioteczno-informacyjnych

Projekt Sieci neuronowe

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

SKORING KREDYTOWY A MODELE DATA MINING

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Opis efektów kształcenia dla modułu zajęć

PRZYKŁAD PROGNOZOWANIA Z WYKORZYSTANIEM METOD DATA MINING

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Szkolenia SAS Cennik i kalendarz 2017

METODY ODKRYWANIA WIEDZY W SYSTEMACH BUSINESS INTELLIGENCE

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ. Joanna Bryndza

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Opisy przedmiotów do wyboru

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

Aplikacja przeznaczona dla wszystkich firm produkcyjnych, handlowych oraz usługowych działających w modelu B2B

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Eksploracja danych (data mining)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Warsztaty przygotowujące osoby bezrobotne do prowadzenia własnego

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Acusera zarządzanie wynikami kontroli wewnątrzlaboratoryjnej

WYKAZ PRAC PUBLIKOWANYCH

Jak nie tylko być zgodnym z regulacją, ale wyciągnąć korzyści biznesowe z lepszego dopasowania oferty

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE

IX EKSPLORACJA DANYCH

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Cena netto (PLN) IV kwartał. Cena netto (PLN) Podstawy SAS INTRO

Piotr Wójtowicz StatSoft Polska Sp. z o.o.

strona 1 / 12 Autor: Walesiak Marek Publikacje:

data mining machine learning data science

System sprzedaŝy rezerwacji

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych

Statystyka i Analiza Danych

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 8 OPROGRAMOWANIE DO ANALIZ MARKETINGOWYCH (pom. nr 1.21)

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Dostawa oprogramowania. Nr sprawy: ZP /15

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

Mail: Pokój 214, II piętro

Laboratorium modelowania oprogramowania w języku UML. Ćwiczenie 6 Modelowanie przypadków uŝycia i czynności. Materiały dla studentów

ZASTOSOWANIE EKSPLORACJI DANYCH DO ANALIZY I OCENY SERWISÓW INTERNETOWYCH

Drzewa Decyzyjne, cz.2

Program do obsługi ubezpieczeń minifort

Platforma przetargowa, rozliczeniowa i raportowa. Prezentacja systemu

Implementacja metod eksploracji danych - Oracle Data Mining

Metody Eksploracji Danych. Klasyfikacja

Metody scoringowe w regresji logistycznej

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Scoring kredytowy a modele data mining

Drzewa decyzyjne w SAS Enterprise Miner

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Transkrypt:

ZAGADNIENIE WYBORU NARZĘDZIA DO DATA MINING. ANALIZA PORÓWNAWCZA WYBRANYCH PRODUKTÓW I TECHNIK Streszczenie Paweł Pandzierski Akademia Ekonomiczna im. Oskara Langego we Wrocławiu paweell@op.pl Artykuł ten przedstawia zwięzły szkic przykładowych rozwaŝań, które mogą wpłynąć na decyzję zastosowania i wyboru pakietu Data Mining. Pierwsza część rozwaŝań jest powierzchowną prezentacją niektórych zastosowań eksploracji. Zawarte jest tam równieŝ proste porównanie najwaŝniejszych pakietów Data Mining. Kolejny rozdział zawiera przykład odkrywania uŝytecznych zaleŝności w danych kredytowych banku. W zakończeniu przedstawiono zestawienie wybranych narzędzi i technik budowy modelu, oraz podsumowanie przeprowadzonych rozwaŝań. Słowa kluczowe: Data Mining, eksploracja danych, klasyfikacja. 1. Wstęp Znaczenie posiadania właściwej wiedzy w określonym czasie przez decydenta jest wartością nie do przecenienia. Wiedza moŝe pochodzić z róŝnych źródeł, moŝe teŝ być pozyskiwana z danych gromadzonych latami w przedsiębiorstwie. Lista moŝliwych zastosowań eksploracji danych, a tym samym zastosowań odpowiedniego oprogramowania jest bardzo długa i systematycznie poszerzana. Koszt analiz marketingowych, moŝe ulec obniŝeniu o bardzo istotny składnik - nakłady na samo zebranie danych, gdy zaczniemy eksplorować juŝ posiadane, archiwalne dane. Trudno teŝ stwierdzić, co jest bardziej zaawansowanym raportem z zapytania, a co moŝemy juŝ określić jako Data Mining, ale zawsze mówimy wtedy o pozyskiwaniu wiedzy z bazy danych, wiedzy która nie jest oczywista [WYRO02]. Przy wyborze narzędzia kierujemy się róŝnymi kryteriami, jak np. do czego narzędzie będzie zastosowane (obszar tematyczny aplikacji), dostępność narzędzi, ich jakość oraz koszt. Wybór spośród ofert róŝnych producentów jest spory. Raz zakupione narzędzie powinno być uŝyteczne przez dłuŝszy okres, a nie tylko jednorazowo. Zatem problem wyboru narzędzia jest waŝny dla przedsiębiorstwa. Właściwy zakup to dla firmy korzyść, zakup niewłaściwy to czysta strata.

348 Zarządzanie wiedzą i rozwiązania Business Intelligence 2.Metody eksploracji danych Istnieje wiele metod eksploracji danych, od klasycznej statystyki aŝ po sieci neuronowe i algorytmy genetyczne. KaŜda z reguł reprezentuje zaleŝności odkryte w posiadanych bazach danych i kaŝda moŝe być wykorzystana do predykcji przyszłych wartości i zachowań. Przykłady zastosowań eksploracji danych: Przy: analizie dostępów do stron w Web, analizie koszyka, badaniu zachowań klientów w czasie, bezpośrednim marketingu, planowaniu inwestycji giełdowych, przewidywaniu sprzedaŝy (ubezpieczenia, telekomunikacja) uŝyteczne jest odkrywanie wzorców sekwencji - czasowych wzorców zachowań, Do zastosowań takich jak: rozpoznawanie obrazów (biologia, medycyna), określanie segmentów rynku na podstawie cech klientów (telekomunikacja, ubezpieczenia), poprawa jakości produktu, wczesne ostrzeganie przed awariami stosujemy klastrowanie, celem jest tu znajdowanie skończonego zbioru klas obiektów - klastrów (o stałej ilości), czyli podzbiorów podobnych rekordów. Klastrowanie przebiega najczęściej, w dwóch cyklach: cykl zewnętrzny przebiega po liczbie moŝliwych klastrów, cykl wewnętrzny próbuje znaleźć optymalny podział obiektów pomiędzy klastry, Do zastosowań takich jak: analiza koszyka zakupów, bezpośredni marketing, planowanie kampanii promocyjnych, planowanie rozmieszczenia stoisk sprzedaŝy w supermarketach, opracowania nowych taryf firm ubezpieczeniowych, zmniejszenie skali zjawiska migracji abonentów operatorów telekomunikacyjnych stosowane jest odkrywanie asocjacji. Jest to szeroka klasa metod, które obejmują głównie odkrywanie pomiędzy obiektami zaleŝności, które posiadają pewne miary statystyczne określające ich wsparcie i ufność, W przypadku, np. : weryfikacji kredytobiorców, przydziału kart kredytowych, marketingu bezpośredniego, planowania lokalizacji sklepów, diagnostyki medycznej, klasyfikacji pacjentów, rozpoznawania trendów na rynkach finansowych, segmentacji wielkiej grupy klientów ze względu na potencjalną zyskowność dla przedsiębiorstwa - odkrywanie klasyfikacji jest doskonałą metodą., a celem jest tu znajdowanie zaleŝności pomiędzy klasyfikacją obiektów (naturalną lub wprowadzoną przez eksperta) a ich charakterystyką, Gdy szukamy klientów o podobnej konsumpcji energii elektrycznej, identyfikujemy na giełdzie firmy o podobnej dynamice wzrostu cen akcji, szukamy surowców o podobnej charakterystyce sprzedaŝy stosujemy odkrywanie podobieństw w przebiegach czasowych, opisujących pewne procesy, Do: analizy danych pochodzących z ubezpieczalni, duŝych supermarketów, danych opisujących zachowania posiadaczy kart kredytowych, klientów banków, wykrywania naduŝyć, gdzie staramy się zrozumieć trendy i zmiany zachodzące w procesach generujących te dane - wykrywanie zmian i od-

Zagadnienie wyboru narzędzia do data mining. Analiza 349 chyleń -znajdujemy róŝnice pomiędzy aktualnymi a oczekiwanymi wartościami danych. Gotowe rozwiązania tego typu są szczególnie uŝyteczne przy ogromnych wolumenach elektronicznych danych 3.Wybór narzędzi Dokonanie wyboru pakietu narzędzi Data Mining nie jest rzeczą prostą. Zasadniczą barierą jest cena i dość wysoki stopień skomplikowania obsługi oprogramowania. Popularne pakiety istniejące na rynku to np.: Clementine firmy SPSS, Data Miner STATISTICA, Affinium Model, Insightful Miner, KXEN. Kompletne pakiety narzędzi do Data Mining oferowane przez poszczególnych producentów są uŝyteczne takŝe dla osób nie będących statystykami, osób, które ograniczają swoje analizy do najprostszych modeli. To wszystko dzięki temu, Ŝe oferowane programy są w stanie np. automatycznie przetestować szeroki wachlarz architektur sieci neuronowych, dokonać wyboru spośród wielu postaci drzew, automatycznie dobrać najlepszy podzbiór zmiennych predykcyjnych uŝywając zaawansowanych ogólnych i uogólnionych modeli. UŜytkownik tym sposobem otrzymuje lepsze, dokładniejsze i bardziej powtarzalne wyniki. Ma równieŝ moŝliwość przełączania się na graficzną prezentację wszelkich danych, na kaŝdym etapie procesu Data Mining (w trakcie budowania modelu, jego wykonywania, a nawet w procesie wdraŝania gotowego modelu). Pozwala to równieŝ interakcyjnie, wizualnie eksplorować dane i poruszyć wyobraźnię. Tabela 1 Pakiety DM, opracowanie własne na podstawie: [NISB04]. PAKIET: CLEM STAT IM AM KXEN Ilość punktów [pkt.] 641 1147 474 565 562 Cena [k$] 50 15 15 50 20 Cena / Ilość punktów [$/pkt.] 78 13 32 88 36 Dostępność algorytmów [pkt.] 27 57 26 28 26 Cena / Dostępność algorytmów [$/pkt.] 1852 263 577 1786 769 4.Przykład analizy Data Minning Wykorzystując wybrany np. na podstawie powyŝszego opracowania pakiet narzędzi do Data Mining, przeprowadzono przykładową analizę. Do instytucji, gdzie właśnie eksploracja danych moŝe zostać wykorzystana dla znalezienia bliskiego optymalnemu rozwiązania, z pewnością naleŝą banki. Gromadzą wiele szczegółowych informacji dotyczących swoich kredytobiorców: dochody, histo-

350 Zarządzanie wiedzą i rozwiązania Business Intelligence ria kredytowa klienta, stanowisko pracy, wiek, stan cywilny, wydatki itp. Przykładowe dane moŝna znaleźć na witrynie internetowej Uniwersytetu w Monachium(http://www.stat.uni-muenchen.de/service/datenarchiv/ kredit/kredit.html). Kiedy klient banku ubiega się o przyznanie kredytu, wtedy informacje te są uŝyteczne dla podjęcia właściwej decyzji: czy przyznać kredyt, osiągać z tego tytułu zyski, czy ryzykować moŝliwość bankructwa klienta, czy teŝ nie przyznawać kredytu, ale pomniejszyć swoje potencjalne zyski z odsetek [MLAS02]. 4.1.Liniowy model klasyfikacyjny Analizując bazy danych kredytów przyznawanych w przeszłości, generowane są reguły asocjacyjne uzaleŝniające np. regularną spłatę kredytów od pewnych cech osobowych klienta. Budując przykładowy liniowy model klasyfikacyjny dla danych dotyczących decyzji kredytowych przewidujemy, jaką decyzję podjął bank w zaleŝności od zestawu cech osoby starającej się o kredyt. W oryginalne, zbiór danych zawiera 1000 obserwacji: 300 klientów nie miało zdolności kredytowej, a 700 miało. W zborze danych mamy 20 predyktorów skategoryzowanych. W naszym przypadku wykonamy analizę na zmodyfikowanym podzbiorze, w którym proporcje decyzji pozytywnych do negatywnych są wyrównane. Stosując procedurę sprawdzająca jakość naszego modelu, tworzymy tabelę krzy- Ŝową pokazująca trafność przewidywań dla danych testowych. Z liczności trafnych i błędnych przewidywań widzimy, jak sprawnie model przewiduje decyzje dla danych z próby testowej. Przykładowa macierz pomyłek, opracowanie własne. Decyzja Przewidywanie Nie Nie[%] Tak Tak[%] Ogół Trafne 86 57,72% 115 70,12% 201 Błędne 63 42,28% 49 29,88% 112 Razem 149 100,00% 164 100,00% 313 Tabela 2 Zastosowano tu ogólne modele analizy dyskryminacyjnej (GDA) - uogólnienie zwykłej analizy dyskryminacyjnej, pozwalające na korzystanie z predyktorów skategoryzowanych. Jeśli uznamy, ze uzyskane wyniki są zadawalające, moŝemy wdroŝyć nasz model, a znalezione reguły mogą zostać zaaplikowane do nowych kredytobiorców, pozwalając na predykcję przyszłego postępowania kredytobiorcy wobec banku. 4.2.Porównanie wybranych technik modelowania W celu porównania kilku róŝnych metod i narzędzi diagnostyki modelu, pracując na dostępnej bazie danych kredytów, wygenerowano odpowiadające im

Zagadnienie wyboru narzędzia do data mining. Analiza 351 ilość błędnych klasyfikacji. Przeprowadzając analizę na oryginalnych danych, z proporcją decyzji pozytywnych do negatywnych 7/3, z prostego powodu większej częstości występowania w danych obserwacji z pozytywną decyzją kredytową - uzyskujemy gorsze wyniki dla obserwowanej klasy Nie. UŜyty model CHAID (Chisquare Automatic Interaction Detection), jest metodą drzew klasyfikacyjnych i regresyjnych, w której kolejne węzły mogą być dzielone na wiele grup (z kaŝdego węzła mogą wychodzić więcej niŝ dwie gałęzie). Obserwujemy, Ŝe metoda CHAID ma dość duŝo błędnych klasyfikacji. Najlepszy wydaje się model uzyskany metodą BT (Boosted Tress). Są to drzewa klasyfikacyjne i regresyjne ze wzmacnianiem. Dla pewnych trudnych zadań estymacji i predykcji, przewidywania generowane przez sekwencje stosunkowo prostych drzew są bliŝsze rzeczywistym wartościom, niŝ prognozy sieci neuronowych lub jednego, złoŝonego drzewa. Wzmacnianiem (ang. boosting) nazywamy tu technikę polegająca na stosowaniu sekwencji prostych modeli, przy czym kaŝdy kolejny model przykłada większą wagę do tych obserwacji, które zostały błędnie zaklasyfikowane przez poprzednie modele [STAT03]. W prowadzonej analizie zastosowano równieŝ ogólne modele drzew klasyfikacyjnych i regresyjnych (GC&RT - General Classification and Regression Trees). Wykorzystano równieŝ sieci neuronowe RBF (Radial Basis Function - sieci o radialnych funkcjach bazowych) oraz prognozy zagregowane uzyskane poprzez głosowanie modeli (Voting). Jest to metoda, w której zamiast dopasowywać model, wyszukujemy podobne obiekty. Podstawą tej metody jest intuicyjne przeświadczenie, Ŝe podobne obiekty trafią do tej samej klasy. Występowanie błędnych klasyfikacji, opracowanie własne. Tabela 3 Błędne klasyfikacje [%] BT Voting GDA RBF GC&RT CHAID PROPORCJA Tak/Nie Faktyczna decyzja: Tak 30 22 14 29 15 18 70/30 Faktyczna decyzja: Nie 24 47 58 37 57 64 Cały zbiór 28 29 29 31 29 34 PROPORCJA Tak/Nie Faktyczna decyzja: Tak 30 35 29 34 44 48 50/50 Faktyczna decyzja: Nie 31 24 33 36 31 20 Z LOSOWANIEM Cały zbiór 31 32 31 34 40 41 Przeprowadzając modyfikację i losując automatycznie zadane liczności obydwu kategorii w próbie uczącej, wg predyktora decyzja, procent błędnych przewidywań wygląda korzystniej. W próbie testowej zachowano oryginalne proporcje odpowiedzi pozytywnych i negatywnych. Tym razem błędy dla obu decyzji występują duŝo rzadziej.

352 Zarządzanie wiedzą i rozwiązania Business Intelligence 5. Podsumowanie Jednoznacznie moŝna stwierdzić, Ŝe narzędzia Data Mining mogą znacznie usprawnić proces wnioskowania oraz przyśpieszyć cykl tworzenia modelu. Trzeba teŝ pamiętać, Ŝe nie zawsze mogą one zastępować ekspertyzy statystyczne. UŜytkownicy systemów powinni testować zawarte narzędzia i powinni być wyczuleni na upgrade produktów. Literatura [MLAS02] Mirosława Lasek: Data Mining. Zastosowania w analizach i ocenach klientów bankowych, Biblioteka MenedŜera i Bankowca, Warszawa, 2002. [EGAT01] Gatnar E.: Nieparametryczna metoda dyskryminacji i regresji, PWN Warszawa, 2001. [STAT99] Marketing i statystyka, StatSoft Polska, Kraków, 1999. [BELI97] Berry M. J. A., Linoff G.: Data Mining Techniques, for Marketing, Sales and Customer Support, John Wiley &Sons, Inc., 1997. [ZABO98] Zaborski A.: Skalowanie wielowymiarowe jako metoda badań marketingowych, Akademia Ekonomiczna we Wrocławiu, Wydział Gospodarki Regionalnej i Turystyki w Jeleniej Górze, 1998. [HAKA01] Han J., Kamber M.: Data Mining, Concepts and Techniques, Morgan Kaufmann Publishers, 2001. [STAT03] STATISTICA Data Miner Manual, StatSoft Inc., 2003. [HATI02] Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning, Springer, 2002. [WALE93] Walesiak M.: Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe AE, Wrocław, Monografie i Opracowania Nr 101, 1993. [WYRO02] Wyrozumski T.: Eksploracja danych dlaczego nie w przemyśle?, VIII Konferencja PLOUG Kościelisko, 2002. [ZAKR98] Zakrzewicz M.: On-Line Data Mining, Konferencja PLOUG Zakopane, 1998. [MORZ04] Morzy T.: Eksploracja danych: problemy i rozwiązania, Konferencja PLOUG Zakopane, 1999 [NISB04] internet: Nisbet R.A.: nisbetreview.pdf z dn. 05-04-04r. http://www.statsoftinc.com/company/success_stories/pdf/nisbetr eview.pdf

Zagadnienie wyboru narzędzia do data mining. Analiza 353 QUESTION OF CHOICE A DATA MINING SUITE. COMPARATIVE ANALYSIS OF SELECTED PRODUCTS AND TECHNIQUES This article provides a brief outline of some considerations that could affect your decision of apply and choice a Data Mining suite. First point of the consider is superficial presentation of some exploration applications. There is simply comparison of leading Data Minning suites, too. Next part include a case of discovery useful summaries of bank credit information data. The end of the article contain comparison of some selected data analysis tools, techniques to build models and think over conclusions. Key words: Data Mining, data exploration, classyfication.