ZASTOSOWANIE METOD EKSPLORACJI DANYCH DO SEGMENTACJI RYNKÓW
|
|
- Ludwika Baranowska
- 8 lat temu
- Przeglądów:
Transkrypt
1 STUDIA INFORMATICA 2013 Volume 34 Number 2A (111) Galina SETLAK, Łukasz PAŚKO Politechnika Rzeszowska, Zakład Informatyki ZASTOSOWANIE METOD EKSPLORACJI DANYCH DO SEGMENTACJI RYNKÓW Streszczenie. Celem niniejszego artykułu są przedstawienie i ocena możliwości wykorzystania metod eksploracji danych do segmentacji rynków zbytu. Przedstawiono segmentacje opisową i predykcyjną oraz przeanalizowano wyniki rozwiązywania zadań klasyfikacji i grupowania danych za pomocą sieci neuronowych Kohonena oraz drzew klasyfikacyjnych CART i CHAID. W pracy wykorzystano dane dotyczące rynków zbytu przedsiębiorstwa produkującego wyroby gospodarstwa domowego. Słowa kluczowe: eksploracja danych, grupowanie danych, klasyfikacja danych, sieci neuronowe Kohonena, drzewa klasyfikacyjne APPLICATION OF DATA MINING METHODS ON MARKETS SEGMENTATION Abstract. The purpose of this paper is to present and evaluate the possibility of using data mining methods in the market segmentation process. In the paper the descriptive and predictive segmentation were presented and the results of classification and clustering data were analyzed. To carry out the analysis were used following methods: Kohonen neural networks, CART and CHAID. The analysis concerns the manufacturing company producing household products. Key words: data mining, data clustering, data classification, Kohonen neural networks, classification trees 1. Wprowadzenie Badania rynkowe i marketingowe przygotowują dla menedżera bardzo ważną wiedzę o potencjalnych możliwościach rynków zbytu, charakterystykach zapotrzebowań na nich, o tendencjach ustalania cen i efektywności reklamy [9]. Ponadto, dają możliwość poznania charakterystyk rynku, kanałów dystrybucji i strategii stymulacji zbytu. Segmentacja rynku
2 312 G. Setlak, Ł. Paśko może być wykonana zarówno w badaniach rynkowych, jak i marketingowych i polega na podziale rynku w celu wyodrębnienia grup nabywców o podobnych cechach, dochodach, potrzebach, reakcji na reklamę, preferencjach odnośnie do sposobu zakupu itp. Po dokonaniu segmentacji firma musi wybrać segment, w którym chce sprzedawać swoje towary. Tradycyjnie do analizy danych rynkowych i marketingowych wykorzystywane były metody statystyczne, takie jak: metody regresji i korelacji, analiza dyskryminacyjna oraz analiza czynnikowa. W celu zwiększenia efektywności wyników badań, do ich analizy coraz powszechniej są wykorzystywane zaawansowane, współczesne narzędzia informatyczne oraz metody sztucznej inteligencji [11, 12] i eksploracji danych (ang. data mining) [2, 3, 8]. Eksploracja danych polega na efektywnym znajdowaniu ukrytych dla człowieka prawidłowości lub nieznanych dotychczas zależności i związków pomiędzy danymi w dużych zbiorach danych, które mogą być wykorzystane jako wiedza dla menedżera przy podejmowaniu decyzji. Celem pracy są przedstawienie i ocena możliwości wykorzystania metod eksploracji danych do wspomagania decyzji w procesie segmentacji rynków zbytu. Przedstawiono w niej wyniki segmentacji opisowej rynku za pomocą sieci neuronowych Kohonena oraz segmentacji predykcyjnej z zastosowaniem drzew klasyfikacyjnych, w tym narzędzi CART (ang. Classification and Regression Tree) i automatycznego detektora interakcji za pomocą chi-kwadrat CHAID (ang. Chi-squared Automatic Interaction Detector). Badania realizowano w celu wspomagania segmentacji rynku zbytu wyrobów dla przedsiębiorstwa produkującego sprzęt gospodarstwa domowego. 2. Podstawy teoretyczne Segmentacja rynku polega na jego podzieleniu na mniejsze części, zwane segmentami, które różnią się między sobą oczekiwaniami klientów względem produktu, sposobem zakupu lub innymi kryteriami. Głównym celem segmentacji jest analiza potrzeb klientów, które tworzą rynek. Drugim celem segmentacji jest pozycjonowanie produktu, czyli nadanie mu, w odbiorze klientów, pewnych specyficznych atutów, wyróżniających produkt względem konkurentów i innych segmentów [8, 9]. W procesie segmentacji rynku muszą być przede wszystkim określone kryteria segmentacji, w zależności od których dobierana jest odpowiednia metoda grupowania. Kolejnym ważnym krokiem jest ustalenie optymalnej liczby segmentów, o ile jest to możliwe. W literaturze znane są dwa rodzaje segmentacji: segmentacja opisowa i segmentacja predykcyjna. Segmentacja opisowa rynku jest stosowana w sytuacjach, gdy brak jest kryterium, które ukierunkowałoby poszukiwanie grup, wszystkie zmienne (cechy opisujące obiekty) są zmiennymi niezależnymi oraz brak jest informacji pozwalającej na stosowanie metody ucze-
3 Zastosowanie metod eksploracji danych do segmentacji rynków 313 nia z nauczycielem i możemy wykorzystać tylko jedną z metod tak zwanej nieukierunkowanej eksploracji danych (uczenie bez nauczyciela) [8]. Wynikiem tak przeprowadzonej segmentacji jest podział konsumentów na grupy oraz dobranie odpowiednich kryteriów tego podziału. Do realizacji opisowej segmentacji rynku można zastosować dobrze znane metody, takie jak metoda aglomeracyjna oraz sztuczne sieci neuronowe Kohonena. Segmentacja predykcyjna stosowana jest w sytuacjach, gdy istnieje możliwość określenia kryterium segmentacji, występują zmienne zależne oraz można wykorzystać metody ukierunkowanej eksploracji danych, oparte na uczeniu z nauczycielem. Segmentację predykcyjną można więc wykonać za pomocą metod i narzędzi do rozwiązywania zadań klasyfikacji i grupowania, należących do podstawowych technik eksploracji danych, w tym również sieci neuronowych (nauczanie z nauczycielem) oraz drzew decyzyjnych, takich jak: CART, CHAID, a także drzew wzmacnianych (ang. boosted trees). Klasyfikacja i grupowanie są podstawowymi, ważniejszymi metodami powszechnie stosowanymi w analizie danych. Przy czym klasyfikacja oznacza przyporządkowanie obiektu na podstawie wybranych cech charakterystycznych do jednej z klas wzorcowych. O klasyfikacji mówimy wtedy, jeżeli klasy, do których będzie rozdzielany zbiór wejściowy, zostaną zdefiniowane przed procesem podziału [1, 14, 15]. Grupowanie (ang. clustering) jest działaniem pierwotnym w stosunku do klasyfikacji, ponieważ prowadzi do zdefiniowania klas. O grupowaniu mówimy wtedy, gdy przed podziałem zbioru wejściowego nie jest określona liczba grup oraz nie są znane przedziały wartości cech charakterystycznych. Przez grupowanie rozumiemy kojarzenie obiektów podobnych i rozdzielanie różnych [1, 2, 14]. Grupowanie oznacza podział zbioru elementów na podzbiory, na podstawie cech charakterystycznych wykrytych podczas procesu podziału. W niniejszych badaniach do analizy danych rynkowych i wspomagania segmentacji rynku zostały wykorzystane podstawowe narzędzia eksploracji danych, takie jak sztuczne sieci neuronowe Kohonena i drzewa decyzyjne CART i CHAID. 3. Eksperyment W badaniach dotyczących segmentacji rynku zbytu wyrobów gospodarstwa domowego wykorzystano zbiory danych opracowane na podstawie danych ankietowych, uzyskanych w wyniku badań marketingowych i rynkowych dla przedsiębiorstwa produkcyjnego, w latach Zbiory danych zawierają opis cech charakterystycznych odkurzaczy, które są w niniejszych badaniach obiektem badań. Właściwie realizowany jest pierwszy etap segmentacji, polegający na podziale rynku zbytu na kilka segmentów, czyli rozwiązywane są zadania
4 314 G. Setlak, Ł. Paśko grupowania i klasyfikacji. W tabeli 1 są przedstawione parametry wejściowe, będące cechami charakterystycznymi wyrobów. Cechy charakterystyczne wyrobów Tabela 1 Atrybut Opis Typ danych ENGINE_W Moc silnika, W numeryczny PRICE Cena numeryczny FILTR_SYS Zaawansowany system filtrujący {tak, nie} AUTOFUNC Automatyczna kontrola mocy {tak, nie} AUTOCORD Zwijacz przewodu zasilającego {tak, nie} SPD_CTRL Elektroniczna regulacja siły ssania {tak, nie} NOISSYS System tłumienia hałasu {tak, nie} WASH Opcja czyszczenia na mokro {tak, nie} VIEW Styl i design {tak, nie} FEATURE Dodatkowe cechy {tak, nie} BRAND Marka {tak, nie} SERVICE Obsługa posprzedażowa {niski, średni, wysoki} Jako parametr wyjściowy w przygotowanym zbiorze danych występuje jeden z segmentów rynku, który zostanie wybrany w wyniku wykonania zadania klasyfikacji, oznaczony w zbiorze uczącym jako CLASS Segmentacja opisowa z wykorzystaniem sieci neuronowych Kohonena Segmentację rynku w celu grupowania danych najpierw zrealizowano za pomocą sieci neuronowych Kohonena, z wykorzystaniem pakietu programowego Statistica Neural Networks. Sieć neuronowa Kohonena nazwana jest przez jej twórcę Teuvo Kohonena [5] samoorganizującym się odwzorowaniem (Self-Organizing Maps SOM) lub samoorganizującym się odwzorowaniem cech (Self-Organizing Feature Maps SOFM). Jest to najbardziej popularna sieć neuronowa, reprezentująca rodzaj sieci samoorganizujących się, które są tak nazywane ze względu na sposób nauczania nauczanie bez nauczyciela (unsupervised learning). Sieć Kohonena zawiera M neuronów, tworzących na płaszczyźnie prostokątną siatkę. Sygnały wejściowe są podawane na wejścia wszystkich neuronów w sieci. Warstwa wyjściowa pełni rolę obliczeniową i jednocześnie prezentuje wyniki. Neurony tworzą tutaj mapę topologiczną, dzięki której można obserwować znalezione w zbiorze danych skupiska. Podstawową metodą uczenia się sieci samoorganizujących się, w tym sieci Kohonena, jest metoda uczenia konkurencyjnego [5, 6]. Celem tego rodzaju sieci jest grupowanie lub klasyfikowanie wzorców wejściowych. Odbywa się to zgodnie z zasadą, że podobne sygnały wejściowe wzbudzają te same jednostki wyjściowe sieci neuronowej. Grupy są definiowane na podstawie korelacji danych wejściowych.
5 Zastosowanie metod eksploracji danych do segmentacji rynków 315 Przyjęto, że atrybut CLASS nie będzie brany pod uwagę podczas uczenia sieci, będzie on traktowany jako atrybut, z którym porównane zostaną grupy znalezione przez sieć. Wyłączenie zmiennej CLASS z procesu uczenia jest konieczne, aby późniejsza analiza porównawcza skupień znalezionych przez sieć oraz segmentów rynku z pola CLASS była miarodajna. Poza tym atrybutem, do analizy wybrano wszystkie pozostałe zmienne. W czasie analizy utworzono kilkanaście sieci Kohonena, różniących się wielkością warstwy wyjściowej. Warstwa wejściowa w każdej z nich była taka sama i zawierała po jednym neuronie dla każdego atrybutu ilościowego i dwustanowego oraz trzy neurony dla atrybutu SERVICE (jeden neuron dla każdej wartości tego atrybutu). Ostateczny rozmiar warstwy wyjściowej został ustalony eksperymentalnie. Minimalna liczba neuronów, jaka jest potrzebna do utworzenia mapy topologicznej, odzwierciedlającej cztery segmenty rynku, wynosi cztery (każdy neuron odpowiada innemu segmentowi). Jednak po przeprowadzeniu uczenia sieci o takiej liczbie neuronów wyjściowych rozmieszczonych w układzie 2 2 oraz po przeanalizowaniu sposobu działania nauczonej sieci, stwierdzono, że popełnia ona zbyt duży błąd w porównaniu z segmentami rynku w zmiennej CLASS. Każdy neuron był zwycięzcą dla przypadków należących do różnych segmentów rynku. Nie pozwalało to na precyzyjne przypisanie etykiet poszczególnych segmentów rynku do każdego z neuronów warstwy wyjściowej. Rozszerzenie rozmiaru mapy topologicznej ułatwiało zaobserwowanie skupisk rozpoznanych przez sieć oraz ich nazwanie. Ostatecznie do dalszych analiz wybrano sieć Kohonena, zawierającą 98 neuronów w warstwie wyjściowej, rozmieszczonych w układzie Uczenie sieci Kohonena w Statistica Neural Networks przeprowadzono za pomocą algorytmu Kohonena. Uczenie składało się z dwóch etapów: uczenie wstępne i douczanie. Dla obu etapów eksperymentalnie ustalono wielkości trzech parametrów uczenia: liczbę epok, współczynnik uczenia, wielkość sąsiedztwa. Po nauczeniu sieci Kohonena, uruchomiono ją dla wszystkich przypadków ze zbioru danych. Następnie nazwano każdy neuron warstwy wyjściowej, który był zwycięzcą dla co najmniej jednego przypadku ze zbioru danych. Podczas etykietowania neuronów korzystano z nazw segmentów rynku umieszczonych w zmiennej CLASS. Na tak powstałej mapie topologicznej można było łatwo zauważyć regiony, w których poszczególne neurony wygrywały dla przypadków należących tylko do jednego segmentu rynku. Jednak w niektórych obszarach mapy neurony okazały się być zwycięzcami dla przypadków należących do dwóch różnych segmentów rynku, co utrudniało to ustalenie granic pomiędzy skupiskami. Z tego względu, w następnym kroku przeanalizowano przypadki należące do trudno rozpoznawalnych obszarów mapy. W czasie analizy porównawczej regionów mapy stwierdzono, że istnieją grupy wyrobów, które mają podobne cechy, a mimo to różne wartości atrybutu CLASS, czyli należą do różnych segmentów rynku. W związku z tym, mapę topologiczną poddano ponownemu etykie-
6 316 G. Setlak, Ł. Paśko towaniu. Nowe etykiety odzwierciedlają granice skupisk zidentyfikowanych przez sieć Kohonena i biorą pod uwagę wyniki analiz porównawczych obszarów trudnych do interpretacji. Mapę topologiczną po ponownym etykietowaniu przedstawiono na rysunku 1. Rys. 1. Mapa topologiczna sieci Kohonena po ponownym etykietowaniu neuronów Fig. 1. Topological map of the Kohonen neural network after re-labeling of the neurons Neurony po drugim etykietowaniu oznaczono etykietami cn, gdzie n jest numerem rozpoznanego segmentu rynku. Następnie każdemu przypadkowi ze zbioru danych przypisano nowy segment rynku na podstawie mapy topologicznej z rysunku 1. Informację o przynależności każdego wyrobu do jednego z nowych segmentów rynku zapisano w zbiorze danych, w postaci dodatkowego atrybutu o nazwie CLUSTER. Obok zmiennej CLASS, atrybut ten stanowi drugą zmienną zależną (zmienną celu). Wszystkie kolejne analizy, przeprowadzane za pomocą drzew decyzyjnych, zostały wykonane dla obu zmiennych zależnych. Pozwoliło to na ocenę wpływu sieci Kohonena na budowane drzewa decyzyjne Segmentacja predykcyjna za pomocą drzew klasyfikacyjnych i regresyjnych CART Segmentację predykcyjną rynku wykonano z wykorzystaniem pakietu programowego Statistica Data Miner, który zawiera duży nabór metod klasyfikacji i grupowania oraz budowy i implementacji odpowiednich modeli. Do realizacji zadań klasyfikacji w niniejszych badaniach najpierw zbudowano modele drzew klasyfikacyjnych i regresyjnych CART. Algorytmy pozwalające na wygenerowanie drzew decyzyjnych zalicza się do algorytmów uczenia z nauczycielem, tzw. uczenie nadzorowane. Wymaga to dostarczenia zbioru uczącego z jakościową zmienną celu, która dzieli przypadki ze zbioru uczącego na klasy. Algorytm uczy się, jakie wartości poszczególnych atrybutów (zmiennych wejściowych) odpowiadają każdej klasie zmiennej celu (zmiennej zależnej).
7 Zastosowanie metod eksploracji danych do segmentacji rynków 317 Drzewo decyzyjne jest grafem skierowanym, składającym się z węzłów decyzyjnych i liści, połączonych ze sobą za pomocą gałęzi. Każdy węzeł decyzyjny odpowiada atrybutowi ze zbioru danych. Z węzła wychodzą gałęzie symbolizujące możliwe wartości danego atrybutu. Węzły decyzyjne dokonują podziału zbioru danych na podzbiory, natomiast liście zawierają rozwiązania zadania klasyfikacyjnego, czyli przypisują podzbiorom przypadków konkretne klasy. CART jest algorytmem, który pozwala wygenerować drzewo ściśle binarne, gdzie każdy węzeł może dzielić zbiór danych tylko na dwa podzbiory. W eksperymencie porównano zdolność do predykcji drzew CART utworzonych dla zmiennych zależnych CLASS i CLUSTER. Dla zmiennych zależnych CLASS i CLUSTER program wygenerował po 8 drzew decyzyjnych CART, o różnym stopniu przycięcia. Przycinanie drzewa decyzyjnego chroni go przed przeuczeniem (ang. overfitting), czyli nadmiernym dopasowaniem się do danych uczących. W celu wybrania najlepiej przyciętego drzewa wykorzystano V-krotny sprawdzian krzyżowy (ang. V-fold cross validation). Jako najlepiej przycięte drzewo zostaje wybrane to, które jest najmniej złożone i jednocześnie ma zbliżony do minimum koszt sprawdzianu krzyżowego. Według powyższego kryterium program wytypował modele przedstawione na rysunku 2 (dla zmiennej CLASS) oraz na rysunku 3 (dla zmiennej CLUSTER). Histogramy na drzewie dla zmiennej zależnej CLUSTER pokazują, że przypadki klasyfikowane są z większą pewnością. Żaden z nich nie wskazuje, że do jednego liścia przydzielono zbliżoną ilość przypadków należących do różnych klas. Rys. 2. Drzewo CART dla zmiennej zależnej CLASS Fig. 2. CART tree for CLASS dependent variable Pomimo tego, że algorytm CART korzystał podczas tworzenia obu drzew z tych samych predyktorów, to zmienne, które znalazły się w węzłach decyzyjnych, są inne. Atrybut najlepiej różnicujący zmienną CLASS to PRICE, natomiast dla zmiennej CLUSTER w korzeniu
8 318 G. Setlak, Ł. Paśko drzewa znalazł się atrybut SPD_CTRL. Również to świadczy o innym podejściu do klasyfikacji wyrobów w przypadku obu drzew. Rys. 3. Drzewo CART dla zmiennej zależnej CLUSTER Fig. 3. CART tree for CLUSTER dependent variable Porównując koszt sprawdzianu krzyżowego obu drzew oraz ich wielkości, można stwierdzić, że lepszą zdolność do predykcji ma drzewo utworzone dla zmiennej CLUSTER. Koszt sprawdzianu krzyżowego tego drzewa jest dwukrotnie mniejszy (wynosi 0,113) i jest ponaddwukrotnie mniejszy od kosztu dla zmiennej CLASS (0,289). Ponadto, model dla zmiennej CLUSTER jest mniej rozbudowany. Tak więc algorytm CART łatwiej znalazł zależności występujące pomiędzy atrybutami, analizując zbiór danych dla zmiennej zależnej CLUSTER Segmentacja predykcyjna za pomocą drzew decyzyjnych CHAID Następnie zadanie segmentacji rynków zostało wykonane z wykorzystaniem drzew decyzyjnych typu CHAID (ang. Chi-squared Automatic Interaction Detector). CHAID jest jednym z najstarszych algorytmów służących do tworzenia drzew decyzyjnych. Drzewo CHAID może służyć do zadań klasyfikacyjnych, do tworzenia drzew niebinarnych, czyli takich, w których z węzła decyzyjnego mogą wychodzić więcej niż dwie gałęzie. Jest to podstawowa cecha odróżniająca drzewa CHAID od drzew CART. Aby wybrać zmienne, które są umieszczone w węzłach decyzyjnych, algorytm posługuje się testem chi-kwadrat. Istotnymi parametrami podczas budowy drzewa CHAID są: minimalna liczba przypadków w węźle, który podlega podziałowi, prawdopodobieństwa podziału i łączenia kategorii oraz maksymalna liczba węzłów drzewa. Ich modyfikacja powoduje zmianę stopnia przycięcia drzewa. Wielkości tych parametrów wyznaczono eksperymentalnie, tak aby złożoność powstałych drzew była
9 Zastosowanie metod eksploracji danych do segmentacji rynków 319 zbliżona do utworzonego wcześniej drzewa CART dla zmiennej zależnej CLASS. Wygenerowane drzewo dla zmiennej CLASS przedstawiono na rysunku 4, natomiast model dla zmiennej CLUSTER jest pokazany na rysunku 5. Analizując drzewo CHAID dla zmiennej CLASS, można zauważyć, że histogramy umieszczone w liściach drzewa ujawniają zależność, która wystąpiła już w drzewie CART dla tej zmiennej. Niektóre liście przydzielają do tej samej klasy kilka przypadków należących do różnych segmentów rynku. Taka tendencja zachowała się mimo tego, że oba drzewa różnią się od siebie rozmieszczeniem węzłów oraz doborem predyktorów w węzłach drzewa. Korzeń drzewa CHAID stanowi atrybut VIEW. Poza tym algorytm CHAID wykorzystał do budowy drzewa zmienne SPD_CTRL i BRAND, których brak jest w drzewie CART. Porównując drzewa CHAID i CART dla zmiennej CLUSTER, można zauważyć kilka różnic. Przede wszystkim są to: wielkość drzew, dobór atrybutów w węzłach i występowanie w drzewie CHAID liści łączących przypadki należące do różnych klas. Liście te powodują większą niepewność podczas predykcji, odnotowaną już w zmiennej CLASS. Analizując ilość przypadków sklasyfikowanych do niewłaściwej klasy, można stwierdzić, że drzewo CART lepiej przystosowało się do danych uczących. Cechą wspólną obu drzew jest ich binarny charakter. Rys. 4. Drzewo CHAID dla zmiennej zależnej CLASS Fig. 4. CHAID tree for CLASS dependent variable W przypadku drzew CHAID, V-krotny sprawdzian krzyżowy daje wartość liczbową określaną jako ryzyko estymacji. Miara ta zastępuję koszt sprawdzianu krzyżowego, używany do walidacji drzew CART. Program wyznaczył wartości ryzyka estymacji równe 0,244 dla modelu zmiennej CLASS oraz 0,144 w przypadku zmiennej CLUSTER. Tak więc przy
10 320 G. Setlak, Ł. Paśko podobnej złożoności drzewa, algorytm CHAID łatwiej odnajduje zależności występujące w danych, używając zmiennej zależnej CLUSTER. Potwierdza to występowanie analogicznego zjawiska w przypadku drzew CART. Rys. 5. Drzewo CHAID dla zmiennej zależnej CLUSTER Fig. 5. CHAID tree for CLUSTER dependent variable 4. Podsumowanie Do przeprowadzenia analiz drzew decyzyjnych wykorzystano dane opisujące zbiór wyrobów gospodarstwa domowego. Każdy przypadek w zbiorze danych należy do jednego z czterech segmentów rynku, opisanych zmienną zależną CLASS. Przed rozpoczęciem budowy modeli drzew decyzyjnych przeprowadzono grupowanie na zbiorze danych za pomocą sieci Kohonena. Grupowanie miało na celu zidentyfikowanie skupisk danych, odpowiadających segmentom rynku. Po znalezieniu skupisk przeanalizowano cechy produktów umieszczonych przez sieć w trudnych do zidentyfikowania obszarach mapy topologicznej. W wyniku analizy dla tych produktów, na nowo przypisano segmenty rynku. Informację o przynależności każdego wyrobu do jednego z nowych segmentów rynku zapisano w dodatkowej zmiennej zależnej CLUSTER, którą dołączono do analizowanego zbioru danych. Wszystkie kolejne analizy przeprowadzono równolegle dla wstępnie zdefiniowanych segmentów rynku w zmiennej CLASS oraz dla uporządkowanych przez sieć Kohonena segmentów rynku opisanych zmienną CLUSTER. Do analizy wykorzystano dwa algorytmy używane do budowy drzew decyzyjnych: CART oraz CHAID. Algorytmy te zastosowano do budowy modeli predykcyjnych dla dwóch
11 Zastosowanie metod eksploracji danych do segmentacji rynków 321 zmiennych zależnych. Każdy z czterech otrzymanych modeli oceniono za pomocą miar oferowanych przez Statistica Data Miner. Wyniki tych analiz i porównania opracowanych modeli przedstawiono w poprzednich podrozdziałach. Wszystkie rodzaje drzew popełniały większy błąd predykcyjny podczas klasyfikacji wyrobów dla zmiennej zależnej CLASS. Klasyfikując przypadki ze względu na zmienną CLUSTER, błędy predykcji dla zbiorów testowych (lub dla V-krotnego sprawdzianu krzyżowego) były mniejsze. Porównanie przedstawione w pracy ilustruje z jednej strony zależności pomiędzy dwoma różnymi algorytmami budującymi drzewa decyzyjne, a z drugiej, prezentuje różnicę pomiędzy zbiorem przypadków (dla odkurzaczy) sklasyfikowanych przez człowieka (zmienna CLASS) a tym samym zbiorem, który został uporządkowany za pomocą sieci Kohonena i wprowadzono do niego zmienną CLUSTER. Miało to na celu sprawdzenie, jaki będzie wpływ sieci Kohonena na wykorzystany zbiór danych uczących: jeśli modele drzew decyzyjnych dla obu zbiorów danych byłyby zbliżone, to wpływ sieci Kohonena jest znikomy, jeśli drzewa decyzyjne wygenerowane dla zbioru przypadków sklasyfikowanych przez sieć Kohonena popełniałyby większy błąd klasyfikacyjny niż drzewa decyzyjne dla zbioru oryginalnego, to wpływ sieci byłby negatywny (oznaczałoby to, że skupiska znalezione przez sieć Kohonena wyrażały mniej zależności pomiędzy przypadkami niż oryginalne klasy segmenty rynku określone przez eksperta), jeśli natomiast błąd klasyfikacyjny drzew decyzyjnych dla zbioru klas zidentyfikowanych przez sieć Kohonena byłby mniejszy od błędu drzew decyzyjnych dla zbioru oryginalnego, wówczas mamy do czynienia z pozytywnym wpływem sieci w rozpatrywanym zbiorze danych (tak było w prezentowanej pracy). Dalsze prace badawcze będą obejmować połączenie opracowanych modeli drzew decyzyjnych z innymi narzędziami sztucznej inteligencji, m.in. z systemami neuronoworozmytymi i sieciami neuronowymi. Połączenie tak odrębnych technik jest możliwe dzięki metodzie zwanej kontaminacją (ang. stacking). W przypadku badanego problemu możliwe jest przeprowadzenie odrębnej predykcji za pomocą drzew CART i CHAID oraz wzmacnianych drzew (boosted trees). Wyniki wygenerowane przez każdy z nich mogą zostać przekazane na wejście sieci neuronowej. Zadaniem sieci będzie nauczenie się, w jaki sposób połączyć wyniki poszczególnych drzew, tak aby ostateczny model predykcyjny dawał najlepsze rezultaty. Takie podejście nazywane jest metauczeniem (ang. meta-learning), ponieważ model zbiorczy uczy się na podstawie wyników nauczonych wcześniej modeli. W niniejszej pracy zostały przedstawione wyniki wstępnych badań zastosowania narzędzi eksploracji danych do wspomagania segmentacji rynków, natomiast nie została przedstawiona ocena jakości wykonanych zadań grupowania i klasyfikacji, która będzie realizowana w przyszłości.
12 322 G. Setlak, Ł. Paśko BIBLIOGRAFIA 1. Hand D., Mannila H., Smyth P.: Eksploracja danych. WNT, Warszawa Cios K., Pedrycz W., Świniarski R.: Data mining methods for knowledge Discovery. Kluwer, Norwell, MA R. Bajek: Wykorzystanie metod eksploracji danych do budowy modeli scoringowych. Studia Informatica, Vol. 32, No. 2A (96), Gliwice Kohonen T.: Self-organizing Maps. Proc. IEEE, 78, No. 9, 1990, s Kohonen T.: Self-organization and associative memory. Springer Verlag, Berlin Larose D. T.: Odkrywanie wiedzy z danych. Wyd. Nauk. PWN, Warszawa Li S.: The Development of a Hybrid Intelligent System for Developing Marketing Strategy. Decision Support Systems, Vol. 27, No. 4, Migut G.: Zastosowanie technik analizy skupień i drzew decyzyjnych do segmentacji rynku. StatSoft, Materiały Seminarium StatSoft: Zastosowanie nowoczesnej analizy danych w marketingu i badaniach rynku, Kraków Mynarski S.: Metody ilościowe i jakościowe badań rynkowych i marketingowych. StatSoft, Kraków Nowak-Brzezińska A., Xięski T.: Grupowanie danych złożonych. Studia Informatica, Vol. 32, No. 2A (96), Gliwice 2011, s Setlak G.: The Fuzzy-Neuro Classifier for Decision Support. International Journal Information Theories and Applications, Pub. of the Institute of Information Theories and Applications FOI ITHEA, Vol. 15, No. 1, Sofia 2008, s Setlak G.: Intelligent Decision Support System. LOGOS, Kiev, 2004, (in Rus.), s Stąpor K.: Metody klasyfikacji obiektów w wizji komputerowej. PWN, Warszawa Stąpor K.. Automatyczna klasyfikacja obiektów. Wyd. Exit, Warszawa Żurada J., Barski M., Jędruch W.: Sztuczne sieci neuronowe. PWN, Warszawa 1996, s Wpłynęło do Redakcji 16 stycznia 2013 r. Abstract The main goal of this paper is to present and evaluate the possibility of using the methods and tools of artificial intelligence and data mining to analyze marketing data. The results of the analysis were needed to support decision-making in the process of market segmentation.
13 Zastosowanie metod eksploracji danych do segmentacji rynków 323 First and second chapter introduce theoretical foundation on market segmentation, data clustering, and data classification. The main part presents the results of market segmentation that can be used by the company producing household products. The data sets used in the study have been developed based on marketing research. The data includes vacuum cleaners characteristics that are presented in table 1. Every product belongs to one of the four market segments that were determined during marketing research. First part of the research was devoted to descriptive segmentation using Kohonen Self- Organizing Maps in Statistica Neural Networks. The task of the network was to carry out data clustering. The network has divided the set of vacuum cleaners onto four clusters, which are depicted in picture 1. The clusters are treated as the new market segments. After that, for each case from data set, the new market segment has been assigned. Second part of the experiment covers predictive segmentation using the following types of classification trees: CART Classification and Regression Tree and CHAID Chisquared Automatic Interaction Detector. These data mining techniques were used twice: for predictive the market segments obtained from marketing research, and for predictive the new market segments developed by Kohonen neural network. The analysis were carried out in Statistica Data Miner. The developed models were depicted in pictures 2-5. The last part of the paper compared the results of solving classification problems using decision trees models. Finally further research plans have been described. Adresy Galina SETLAK: Politechnika Rzeszowska, Zakład Informatyki, al. Powstańców Warszawy 8, Rzeszów, Polska, Łukasz PAŚKO: Politechnika Rzeszowska, Zakład Informatyki, al. Powstańców Warszawy 8, Rzeszów, Polska,
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
BADANIE JAKOŚCI PREDYKCYJNEJ SEGMENTACJI RYNKU
STUDIA INFORMATICA 2016 Volume 37 Number 1 (123) Łukasz PAŚKO, Galina SETLAK Politechnika Rzeszowska, Zakład Informatyki BADANIE JAKOŚCI PREDYKCYJNEJ SEGMENTACJI RYNKU Streszczenie. Celem pracy jest ocena
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
WYZNACZANIE WARTOŚCI PODSTAWOWYCH PARAMETRÓW TECHNICZNYCH NOWOCZESNYCH KOMBAJNÓW ZBOŻOWYCH PRZY UŻYCIU SSN
Inżynieria Rolnicza 2(9)/7 WYZNACZANIE WARTOŚCI PODSTAWOWYCH PARAMETRÓW TECHNICZNYCH NOWOCZESNYCH KOMBAJNÓW ZBOŻOWYCH PRZY UŻYCIU SSN Sławomir Francik Katedra Inżynierii Mechanicznej i Agrofizyki, Akademia
A Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
ZASTOSOWANIE TECHNIK ANALIZY SKUPIEŃ I DRZEW DECYZYJNYCH DO SEGMENTACJI RYNKU
ZASTOSOWANIE TECHNIK ANALIZY SKUPIEŃ I DRZEW DECYZYJNYCH DO SEGMENTACJI RYNKU Grzegorz Migut, StatSoft Polska Sp. z o.o. Segmentacja rynku jest jednym z kluczowych zadań realizowanych podczas opracowania
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego
CECHY TECHNICZNO-UŻYTKOWE A WARTOŚĆ WYBRANYCH TECHNICZNYCH ŚRODKÓW PRODUKCJI W ROLNICTWIE
Inżynieria Rolnicza 9(107)/2008 CECHY TECHNICZNO-UŻYTKOWE A WARTOŚĆ WYBRANYCH TECHNICZNYCH ŚRODKÓW PRODUKCJI W ROLNICTWIE Zbigniew Kowalczyk Katedra Inżynierii Rolniczej i Informatyki, Uniwersytet Rolniczy
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
SIEĆ GRNN W KOMPRESJI OBRAZÓW RADAROWYCH
ZESZYTY NAUKOWE AKADEMII MARYNARKI WOJENNEJ ROK XLV NR 1 (156) 2004 Tomasz Praczyk SIEĆ GRNN W KOMPRESJI OBRAZÓW RADAROWYCH STRESZCZENIE Obraz morskiego radaru nawigacyjnego może być podstawą perspektywicznego
Zastosowanie sztucznej inteligencji w testowaniu oprogramowania
Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Problem NP Problem NP (niedeterministycznie wielomianowy, ang. nondeterministic polynomial) to problem decyzyjny, dla którego rozwiązanie
Sieci neuronowe w Statistica
http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
Wprowadzenie do technologii informacyjnej.
Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja
TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3
Wydawnictwo UR 2016 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 4/18/2016 www.eti.rzeszow.pl DOI: 10.15584/eti.2016.4.46 TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Projekt Sieci neuronowe
Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków
Sztuczne Sieci Neuronowe. Wiktor Tracz Katedra Urządzania Lasu, Geomatyki i Ekonomiki Leśnictwa, Wydział Leśny SGGW
Sztuczne Sieci Neuronowe Wiktor Tracz Katedra Urządzania Lasu, Geomatyki i Ekonomiki Leśnictwa, Wydział Leśny SGGW SN są częścią dziedziny Sztucznej Inteligencji Sztuczna Inteligencja (SI) zajmuje się
ZASTOSOWANIE SZTUCZNYCH SIECI NEURONOWYCH DO OCENY ZDOLNOŚCI KREDYTOWYCH ROLNIKÓW KLIENTÓW FIRMY LEASINGOWEJ
Inżynieria Rolnicza 1(99)/2008 ZASTOSOWANIE SZTUCZNYCH SIECI NEURONOWYCH DO OCENY ZDOLNOŚCI KREDYTOWYCH ROLNIKÓW KLIENTÓW FIRMY LEASINGOWEJ Marta Kiljańska, Marek Klimkiewicz Katedra Organizacji i Inżynierii
WYKORZYSTANIE SZTUCZNYCH SIECI NEURONOWYCH W PROGNOZOWANIU
WYKORZYSTANIE SZTUCZNYCH SIECI NEURONOWYCH W PROGNOZOWANIU THE USE OF ARTIFICIAL NEURAL NETWORKS IN FORECASTING Konrad BAJDA, Sebastian PIRÓG Resume Artykuł opisuje wykorzystanie sztucznych sieci neuronowych
Sieci Kohonena Grupowanie
Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
MATLAB Neural Network Toolbox przegląd
MATLAB Neural Network Toolbox przegląd WYKŁAD Piotr Ciskowski Neural Network Toolbox: Neural Network Toolbox - zastosowania: przykłady zastosowań sieci neuronowych: The 1988 DARPA Neural Network Study
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING NEURONOWE MAPY SAMOORGANIZUJĄCE SIĘ Self-Organizing Maps SOM Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki,
PROGNOZOWANIE CENY OGÓRKA SZKLARNIOWEGO ZA POMOCĄ SIECI NEURONOWYCH
InŜynieria Rolnicza 14/2005 Sławomir Francik Katedra InŜynierii Mechanicznej i Agrofizyki Akademia Rolnicza w Krakowie PROGNOZOWANIE CENY OGÓRKA SZKLARNIOWEGO ZA POMOCĄ SIECI NEURONOWYCH Streszczenie W
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Analiza i wizualizacja danych Data analysis and visualization
KARTA MODUŁU / KARTA PRZEDMIOTU Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013
Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej
µ(x) x µ(x) µ(x) x x µ(x) µ(x) x x µ(x) x µ(x) x Rozmyte drzewa decyzyjne Łukasz Ryniewicz Metody inteligencji obliczeniowej 21.05.2007 AGENDA 1 Drzewa decyzyjne kontra rozmyte drzewa decyzyjne, problemy
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE
Temat: Sztuczne Sieci Neuronowe Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sztuczne sieci neuronowe
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Typy systemów informacyjnych
Typy systemów informacyjnych Information Systems Systemy Informacyjne Operations Support Systems Systemy Wsparcia Operacyjnego Management Support Systems Systemy Wspomagania Zarzadzania Transaction Processing
Metoda Automatycznej Detekcji Interakcji CHAID
Metoda Automatycznej Detekcji Interakcji CHAID Metoda ta pozwala wybrać z konkretnego, dużego zbioru zmiennych te z nich, które najsilniej wpływają na wskazaną zmienną (objaśnianą) zmienne porządkowane
PRZETWARZANIE GRAFICZNYCH DANYCH EMPIRYCZNYCH DLA POTRZEB EDUKACJI SZTUCZNYCH SIECI NEURONOWYCH, MODELUJĄCYCH WYBRANE ZAGADNIENIA INŻYNIERII ROLNICZEJ
Inżynieria Rolnicza 2(90)/2007 PRZETWARZANIE GRAFICZNYCH DANYCH EMPIRYCZNYCH DLA POTRZEB EDUKACJI SZTUCZNYCH SIECI NEURONOWYCH, MODELUJĄCYCH WYBRANE ZAGADNIENIA INŻYNIERII ROLNICZEJ Krzysztof Nowakowski,
Sieci neuronowe i algorytmy uczenia Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s.
Sieci neuronowe i algorytmy uczenia Czyli co i jak 2016 andrzej.rusiecki@pwr.edu.pl andrzej.rusiecki.staff.iiar.pwr.wroc.pl s. 230/C-3 O co chodzi? Celem przedmiotu jest ogólne zapoznanie się z podstawowymi
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Nowe narzędzia zarządzania jakością
Nowe narzędzia zarządzania jakością Agnieszka Michalak 106947 Piotr Michalak 106928 Filip Najdek 106946 Co to jest? Nowe narzędzia jakości - grupa siedmiu nowych narzędzi zarządzania jakością, które mają
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)
Inżynieria Rolnicza 3(121)/2010
Inżynieria Rolnicza 3(121)/2010 METODA OCENY NOWOCZESNOŚCI TECHNICZNO- -KONSTRUKCYJNEJ CIĄGNIKÓW ROLNICZYCH WYKORZYSTUJĄCA SZTUCZNE SIECI NEURONOWE. CZ. III: PRZYKŁADY ZASTOSOWANIA METODY Sławomir Francik
Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335
Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Wykład 10 Mapa cech Kohonena i jej modyfikacje - uczenie sieci samoorganizujących się - kwantowanie wektorowe
Krytyczne czynniki sukcesu w zarządzaniu projektami
Seweryn SPAŁEK Krytyczne czynniki sukcesu w zarządzaniu projektami MONOGRAFIA Wydawnictwo Politechniki Śląskiej Gliwice 2004 SPIS TREŚCI WPROWADZENIE 5 1. ZARZĄDZANIE PROJEKTAMI W ORGANIZACJI 13 1.1. Zarządzanie
Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne
Nazwa modułu: Komputerowe wspomaganie decyzji Rok akademicki: 2030/2031 Kod: ZZP-2-403-MK-n Punkty ECTS: 3 Wydział: Zarządzania Kierunek: Zarządzanie Specjalność: Marketing Poziom studiów: Studia II stopnia
DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI
StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI I LOJALNOŚCI KLIENTÓW Mariusz Łapczyński Akademia Ekonomiczna w Krakowie,
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych
Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Data Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Statystyczna analiza awarii pojazdów samochodowych. Failure analysis of cars
Wydawnictwo UR 2016 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 1/15/2016 www.eti.rzeszow.pl DOI: 10.15584/eti.2016.1.1 ROMAN RUMIANOWSKI Statystyczna analiza awarii pojazdów
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Opis efektów kształcenia dla modułu zajęć
Nazwa modułu: Eksploracja danych Rok akademicki: 2030/2031 Kod: MIS-2-105-MT-s Punkty ECTS: 5 Wydział: Inżynierii Metali i Informatyki Przemysłowej Kierunek: Informatyka Stosowana Specjalność: Modelowanie
1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda
Sieci neuropodobne 1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN Agenda Trochę neurobiologii System nerwowy w organizmach żywych tworzą trzy
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne
Ewelina Dziura Krzysztof Maryański
Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład
Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber
Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010
Materiały/konsultacje Automatyczna predykcja http://www.ibp.pwr.wroc.pl/kotulskalab Konsultacje wtorek, piątek 9-11 (uprzedzić) D1-115 malgorzata.kotulska@pwr.wroc.pl Co to jest uczenie maszynowe? Uczenie
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)
WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO Stanisław Kowalik (Poland, Gliwice) 1. Wprowadzenie Wstrząsy podziemne i tąpania występujące w kopalniach
Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska
Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Kierunek: Mechatronika Rodzaj przedmiotu: obowiązkowy Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK PO PRZEDMIOCIE C1. Zapoznanie studentów z inteligentnymi
CHARAKTERYSTYKA I ZASTOSOWANIA ALGORYTMÓW OPTYMALIZACJI ROZMYTEJ. E. ZIÓŁKOWSKI 1 Wydział Odlewnictwa AGH, ul. Reymonta 23, Kraków
36/3 Archives of Foundry, Year 004, Volume 4, 3 Archiwum Odlewnictwa, Rok 004, Rocznik 4, Nr 3 PAN Katowice PL ISSN 64-5308 CHARAKTERYSTYKA I ZASTOSOWANIA ALGORYTMÓW OPTYMALIZACJI ROZMYTEJ E. ZIÓŁKOWSKI
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Prof. Stanisław Jankowski
Prof. Stanisław Jankowski Zakład Sztucznej Inteligencji Zespół Statystycznych Systemów Uczących się p. 228 sjank@ise.pw.edu.pl Zakres badań: Sztuczne sieci neuronowe Maszyny wektorów nośnych SVM Maszyny
SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy
Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu
Laboratorium 11. Regresja SVM.
Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Kierunek: Informatyka Rodzaj przedmiotu: obowiązkowy w ramach treści kierunkowych, moduł kierunkowy oólny Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK
Sieci neuronowe i ich ciekawe zastosowania. Autor: Wojciech Jamrozy III rok SMP / Informatyka
Sieci neuronowe i ich ciekawe zastosowania Autor: Wojciech Jamrozy III rok SMP / Informatyka Klasyczna algorytmika Sortowanie ciągu liczb Czy i ile razy dane słowo wystąpiło w tekście Najkrótsza droga
Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów
Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej
Analiza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.
Wykorzystanie sztucznych sieci neuronowych do rozpoznawania języków: polskiego, angielskiego i francuskiego Tworzenie i nauczanie sieci przy pomocy języka C++ i biblioteki FANN (Fast Artificial Neural
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Podstawy sztucznej inteligencji
wykład 5 Sztuczne sieci neuronowe (SSN) 8 grudnia 2011 Plan wykładu 1 Biologiczne wzorce sztucznej sieci neuronowej 2 3 4 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką,
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Metody Eksploracji Danych. Klasyfikacja
Metody Eksploracji Danych Klasyfikacja w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka
ZASTOSOWANIE SAMOORGANIZUJĄCYCH SIĘ MAP CECH W DIAGNOSTYCE SILNIKÓW O ZAPŁONIE SAMOCZYNNYM
Inżynieria Rolnicza 7(105)/2008 ZASTOSOWANIE SAMOORGANIZUJĄCYCH SIĘ MAP CECH W DIAGNOSTYCE SILNIKÓW O ZAPŁONIE SAMOCZYNNYM Marek Klimkiewicz Katedra Organizacji i Inżynierii Produkcji, Szkoła Główna Gospodarstwa
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology