Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych

Podobne dokumenty
Katedra Zarządzania i Informatyki Politechnika Śląska

ALGORYTM RANDOM FOREST

Algorytmy klasyfikacji

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Drzewa decyzyjne i lasy losowe

Transformacja wiedzy w budowie i eksploatacji maszyn

Systemy uczące się wykład 1

Metody klasyfikacji danych - część 1 p.1/24

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Systemy uczące się wykład 2

Wprowadzenie do klasyfikacji

KARTA MODUŁU KSZTAŁCENIA

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

SZTUCZNA INTELIGENCJA

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

PRZEWODNIK PO PRZEDMIOCIE

Archipelag Sztucznej Inteligencji

Systemy ekspertowe. Krzysztof Patan

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

CLUSTERING. Metody grupowania danych

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY.

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Automatyczne wyodrębnianie reguł

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Data Mining Wykład 4. Plan wykładu

2.2.P.07: Komputerowe narzędzia inżynierii powierzchni

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

Data Mining w doborze parametrów układu testującego urządzenia EAZ 1

Testowanie modeli predykcyjnych

Zagadnienia egzaminacyjne AUTOMATYKA I ROBOTYKA. Stacjonarne I-go stopnia TYP STUDIÓW STOPIEŃ STUDIÓW SPECJALNOŚĆ

[1] [2] [3] [4] [5] [6] Wiedza

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE

Lista zagadnień kierunkowych pomocniczych w przygotowaniu do egzaminu dyplomowego magisterskiego Kierunek: Mechatronika

RAPORT. Gryfów Śląski

Rozszerzony konspekt przedmiotu Inteligentne maszyny i systemy

ZESPÓŁ SZKÓŁ ELEKTRYCZNYCH NR

Systemy uczące się Lab 4

Prof. Stanisław Jankowski

Stabilis Smart Factory

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

W A R S Z A W S K A W Y Ż S Z A S Z K O Ł A I N F O R M A T Y K I

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Relacja: III Seminarium Naukowe "Inżynierskie zastosowania technologii informatycznych"

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

KLASYFIKACJA. Słownik języka polskiego

Widzenie komputerowe (computer vision)


Izabela Zimoch Zenon Szlęk Biuro Badań i Rozwoju Technologicznego. Katowice, dnia r.

Systemy ekspertowe : program PCShell

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Wprowadzenie do uczenia maszynowego

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Projekt Sieci neuronowe

Grzegorz Ruciński. Warszawska Wyższa Szkoła Informatyki Promotor dr inż. Paweł Figat

Metodyka projektowania komputerowych systemów sterowania

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

Dodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji.

Typy systemów informacyjnych

Metoda generowania typowych scenariuszy awaryjnych w zakładach dużego i zwiększonego ryzyka - ExSysAWZ

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Systemy eksperowe. Agnieszka Nowak Brzezińska Wykład I

IMiIP - Informatyka Stosowana - opis kierunku 1 / 5

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Drzewa klasyfikacyjne algorytm podstawowy

Katedra Systemów Decyzyjnych. Kierownik: prof. dr hab. inż. Zdzisław Kowalczuk

OPERATOR OBRABIAREK SKRAWAJĄCYCH

Systemy ekspertowe Część siódma Realizacja dziedzinowego systemu ekspertowego Roman Simiński

PRZEWODNIK PO PRZEDMIOCIE

Wprowadzenie do teorii systemów ekspertowych

Opis. Wymagania wstępne (tzw. sekwencyjny system zajęć i egzaminów) Liczba godzin zajęć dydaktycznych z podziałem na formy prowadzenia zajęć

Systemy ekspertowe i sztuczna inteligencja. dr Agnieszka Nowak Brzezioska

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

Gry społecznościowe. wykład 0. Joanna Kołodziejczyk. 24 lutego Joanna Kołodziejczyk Gry społecznościowe 24 lutego / 11

Okres realizacji projektu: r r.

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

DLA SEKTORA INFORMATYCZNEGO W POLSCE

Temat: Projektowanie sterownika rozmytego. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Odniesienie symbol II/III [1] [2] [3] [4] [5] Efekt kształcenia. Wiedza

Kierownik Katedry: Prof. dr hab. inż. Tadeusz BURCZYŃSKI

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Temat: Projektowanie sterownika rozmytego. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Adrian Horzyk

1 Spotkanie Użytkowników Systemów B&R, 9 10 października Hotel Ossa Congress & SPA, Ossa, Rawa Mazowiecka - -

Odniesienie do obszarowych efektów kształcenia Kierunkowe efekty kształcenia WIEDZA (W)

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

PRZEWODNIK PO PRZEDMIOCIE

Transkrypt:

Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych Rozdział 36 Streszczenie. Współcześnie prowadzone procesy wytapiania stali stały się na tyle skomplikowane, że koniecznym staje się stosowanie systemów informatycznych zarządzających procesem. Praca dotyczy budowy bazy wiedzy dla takiego systemu. Zebrano dane pomiarowe pochodzące z rzeczywistego procesu przemysłowego i wykorzystując algorytm C4.5 zbudowano drzewa decyzji. Na ich podstawie wygenerowano automatycznie reguły oraz wydobyto reguły w postaci zrozumiałej dla ludzkiego eksperta. Przeprowadzono weryfikację uzyskanych reguł. 1 Wstęp Wytwarzanie stali w procesie elektrycznym odbywa się zwykle w trzech etapach: topienie w elektrycznym piecu łukowym (EAF), obróbka pozapiecowa w piecokadzi (zwykle też ogrzewanej łukowo LHF) i odlewanie stali (zwykle metodą ciągłą COS). Elektryczny piec łukowy (obecnie stosowane są piece o bardzo dużych mocach, tzw. UHP) służy tylko jako urządzenie topiące, gdyż chodzi o doprowadzenie złomu do stanu ciekłego w jak najkrótszym czasie. Piecokadź zapewnia dogrzewanie stali po zlaniu jej z pieca łukowego i uzyskanie właściwego składu chemicznego stali. Po przeprowadzeniu tych zabiegów następuje przewiezienie kadzi ze stalą urządzenie do ciągłego odlewania [3]. Zarówno sam proces elektrostalowniczy, jak i urządzenia go realizujące charakteryzują się dużym stopniem komplikacji. Dlatego optymalne prowadzenie procesu wymaga dużej wiedzy, nowoczesnej aparatury pomiarowej i sterującej oraz rozbudowanych systemów komputerowych. Współcześnie prowadzone procesy wytapiania stali stały się na tyle skomplikowane, że konieczne staje się stosowanie systemów informatycznych wspomagających prowadzenie nadzoru, a w sytuacji awaryjnej przejęcia sterowania lub też podania procedur umożliwiających prawidłową reakcję operatora. Oprogramowanie takie, to bardzo rozbudowany system zawierający pełną wiedzę o prowadzonym procesie, porównywalną z wiedzą eksperta znającego i rozumiejącego przebieg procesu. Systemy takie nazywamy inteligentnymi systemami ekspertowymi (ISE). Przedstawiona praca dotyczy bazy wiedzy, jednego z elementów ISE budowanego w Zakładzie Informatyki w Procesach Technologicznych Politechniki Śląskiej. Tadeusz Wieczorek, Krystian Mączka, Paweł Świtała Politechnika Śląska, Zakład Informatyki w Procesach Technologicznych, ul. Krasińskiego 8, 40-019 Katowice, Polska email:{pawel.switala, krystian.maczka, taduesz.wieczorek}@polsl.pl

T. Wieczorek, K. Mączka, P. Świtała 2 Bazy wiedzy inteligentnych systemów ekspertowych Badany proces produkcji stali charakteryzuje się dużą złożonością i mnogością parametrów wpływających na jego przebieg. Jest on jednak w pełni opomiarowany i przygotowany do sterowania numerycznego. Zastosowane w zakładzie sterowniki mikroprocesorowe umożliwiają pełną integracje z systemem komputerowym oraz przekazywanie i odbieranie danych w czasie rzeczywistym. Spełnione są więc wszystkie warunki do wprowadzenia zarządzania procesem z zastosowaniem systemu ekspertowego. Systemy ekspertowe są programami komputerowymi przeznaczonymi do rozwiązywania specjalistycznych problemów wymagających profesjonalnej ekspertyzy. Ich zastosowanie umożliwia polepszenie jakości produkowanych wyrobów, osiągnięcie znacznych oszczędności, zwiększenie wydajności pracy. Mogą być one także wykorzystywane do sterowania, w czasie rzeczywistym. Coraz częściej już nie wystarcza wiedza i doświadczenie jednego człowieka oraz jego poziom percepcji, by prowadzić nowoczesny, skomplikowany proces przemysłowy. Ciągły postęp prac nad sztuczną inteligencją umożliwia zastosowanie w pracy tradycyjnego SE innych narzędzi tj. sztucznych sieci neuronowych, algorytmów genetycznych, czy wnioskowania rozmytego (wykorzystującego tzw. fuzzy logic). Powstają wtedy systemy zwane inteligentnymi, o prawie nieograniczonych możliwościach. W ten sposób przetwarzanie symboliczne charakterystyczne dla systemów ekspertowych staje się komplementarne do przetwarzania równoległego, charakteryzującego sztuczne sieci neuronowe, czy algorytmy genetyczne. Systemy te cechuje zwiększona sprawność intelektualna, gdyż korzystają one z pozytywnych właściwości każdego z wymienionych narzędzi. Dzięki współdziałaniu ze sztucznymi sieciami neuronowymi SE nabywa zdolności uczenia się i poszerzania swoich baz wiedzy oraz predykcji zdarzeń [4]. Proces tworzenia systemu jest bardzo skomplikowany i pracochłonny. Podstawowym problemem budowy systemów ekspertowych jest pozyskanie możliwie pełnej i pewnej wiedzy o przebiegu procesu. Systemy ekspertowe są używane głownie dlatego, że trudno jest formalizować wiedzę ekspertów metodami programowania deterministycznego. Ekspert rozumuje i podejmuje decyzje, często w oparciu o niekompletne, niepewne dane, używając algorytmów heurystycznych, opierając się na podobieństwie do znanych przez niego zdarzeń. Dlatego w trakcie realizowanego projektu wystąpiły trudności ze zbudowaniem Bazy Wiedzy ISE, opierając się tylko na wiedzy eksperckiej i teorii procesów metalurgicznych. Rozpoczęto więc badania nad automatycznym generowaniem reguł do Bazy Wiedzy ISE, wydobywanych bezpośrednio z danych pomiarowych. Wykorzystano tu metodę drzew decyzyjnych, przedstawioną po raz pierwszy w pracy [5]. Sposób zapisywania wiedzy za pomocą drzew, jest bardzo stary i nie wywodzi się ani z systemów ekspertowych, ani ze sztucznej inteligencji. Dzisiaj jednak drzewa decyzyjne stanową podstawową metodę indukcyjnego uczenia się maszyn. Spowodowane jest to dużą efektywnością, możliwością prostej programowej implementacji, jak i intuicyjną oczywistość dla człowieka. Ta metoda pozyskiwania wiedzy opiera się na analizie przykładów, przy czym każdy przykład musi być opisany przez zestaw atrybutów. Formalnie drzewem decyzyjnym jest graf, którego korzeń jest tworzony przez wybrany atrybut, natomiast poszczególne gałęzie reprezentują wartości tego atrybutu. Węzły drzewa w następnych poziomach będą przyporządkowane kolejnym atrybutom, natomiast na najniższym poziomie otrzymujemy węzły charakteryzujące poszczególne klasy. Drzewa decyzyjne mogą być tworzone na podstawie określonego zbioru danych jako wynik procesu klasyfikacji. Na tej bazie można stworzyć zbiór reguł opisujących zależności między atrybutami a klasami (predefiniowanymi lub odkrytymi z badanym zestawie danych). 386

Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych Spośród algorytmów klasyfikacyjnych szczególnie ważny jest indukcyjny algorytm drzew decyzyjnych C4.5 opracowany przez Quinlana w 1993 r. Zapewnia on najlepszą dokładność klasyfikacji i jest najszybszy. Głównym problemem w trakcie budowy drzewa decyzyjnego jest określenie kryterium, umożliwiającego wybór atrybutu stosowanego do rozbudowy tego drzewa. W przypadku C4.5 opierając się na tzw. entropii informacyjnej, w celu wyboru atrybutu, który będzie przypisany do tworzonego węzła drzewa decyzyjnego stosuje się kryterium maksymalnego przyrostu informacji spowodowanego zastosowaniem danego atrybutu. 3 Wyniki badań Celem prowadzonych badań było automatyczne wygenerowanie reguł na podstawie rzeczywistych danych pomiarowych rejestrowanych podczas procesu elektrostalowniczego w jednej z hut krajowych. Dane te zapisywane były w czasie rzeczywistym ze sterowników SIMATIC-5 bezpośrednio do bazy danych. Do analizy wybrane zostały dane opisujące parametry procesu wytwarzania tylko jednego gatunku stali St3S. Do oceniania wygenerowanych reguł użyty został klasyfikator działający na bazie drzewa decyzji C4.5 zaimplementowany w systemie analizy danych Weka 1. Proces roztapiania był badany pod kątem odkrycia dwóch typów zależności: wpływu składu wsadu i przebiegu procesu na zużycie energii (dokładnie badano entalpię), i tu jako najważniejsze czynniki determinujące zużycie energii przyjęto: masę wsadu, ilości podawanych gazów i węgla, temperaturę spustu i czas procesu, analizy, które parametry wsadu i procesu wpływają na wydajność roztapiania, i tu jako najważniejsze czynniki determinujące czas roztapiania przyjęto: ilość podawanych gazów i węgla, masę ładowanego złomu, temperaturę spustu i zużycie energii. Do obliczeń przyjęto zdyskretyzowane wartości entalpii oraz zdyskretyzowane wartości wydajności procesu. Zarówno w przypadku entalpii jak i wydajności dokonano podziału na dwie klasy (tabele 1 i 2). Tabela 1. Zakresy i liczba wektorów uczących dla klasy Entalpia Etykieta klasy Zakresy [kwh/mg] Liczba wektorów A 380 442 376 B 442 610 383 Tabela 2. Zakresy i liczba wektorów uczących dla klasy Wydajność Etykieta klasy Zakresy [Mg/h] Liczba wektorów A 55 77 408 B 77 90 351 1 http://www.cs.waikato.ac.nz/ml/weka/ 387

T. Wieczorek, K. Mączka, P. Świtała 3.1 Analizowane dane Dane do analizy pobierane były z przemysłowej bazy danych, a następnie poddawane obróbce wstępnej (odrzucenie wektorów odstających, błędnych wpisów). W następnej kolejności przeprowadzono normalizację danych wejściowych (1) niezbędną do poprawnego działania algorytmów uczących. W tabeli 3 podano analizowane atrybuty i ich oznaczenia: sumaryczna masa wsadu złomowego [Mg] (Ws), temperatura spustu [ C] (T), sumaryczna ilość wdmuchiwanego do pieca tlenu [m 3 ] (OL), sumaryczna ilość tlenu podawanego do palników [m 3 ] (OP), sumaryczna ilość gazu poddawanego do palników [m 3 ] (GP), sumaryczna waga wdmuchiwanego węgla [kg] (We), sumaryczny czas pracy elektrody [min] (C_EL), energię elektryczną zużytą podczas topienia wsadu [MWh] (EL). x' x min x i i i = (1) max xi min xi Tabela 3. Wyniki analizy statystycznej wybranych atrybutów C_EL EL Ws T OL OP GP We [min] [MWh] [Mg] [ºC] [m 3 ] [m 3 ] [m 3 ] [kg] min 46,0 26,4 68,3 4,0 457,0 294,0 227,0 51,0 max 66,9 38,7 84,0 66,9 2389,0 1457,0 1020,0 1714,0 średnia 52,9 29,9 78,6 37,1 1361,7 726,4 434,6 374,0 odchylenie 4,0 1,7 2,0 26,3 182,1 137,7 76,7 201,4 3.2 Budowa drzew decyzyjnych i weryfikacja wygenerowanych reguł Zbudowane drzewa decyzyjne pokazano na rys. 1 i 2. Uzyskane parametry drzew decyzji dla badanych klas zestawiono w tabeli 4. Tabela 4. Zestawienie uzyskanych parametrów drzew decyzji dla badanych klas Badana klasa Rozmiar drzewa Liczba liści Entalpia 29 15 Wydajność 23 12 Zastosowana metoda i zbudowane w oparciu o algorytm C4.5 drzewa decyzyjne pozwalają na odkrycie wiedzy o analizowanym procesie i zakodowanie jej w postaci reguł logicznych, które stanowią najważniejszą część bazy wiedzy systemu ekspertowego. Na podstawie drzew z rys.1 i 2 można zbudować wiele reguł, z których dwie, przekonwertowane do postaci zrozumiałej dla ludzkiego eksperta, przedstawiono poniżej (reguły generowane były przy założeniu ograniczającym do min. 5 przypadków na jeden liść): 388

Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych Reguła 1. Wydajność jest duża (klasa B) JEŻELI 55,45 min. Czas pracy elektrod 50,9 min. ORAZ Masa złomu 78,9 Mg ORAZ Ilość tlenu do palników 746 m 3 Reguła 2. Entalpia jest duża (klasa B) JEŻELI Zużycie energii elektrycznej 29,005 MWh ORAZ Ilość tlenu do palników 851 m 3 Rys. 1. Drzewo decyzyjne obrazujące zależność pomiędzy parametrami procesu a jego wydajnością 389

T. Wieczorek, K. Mączka, P. Świtała Rys. 2. Drzewo decyzyjne obrazujące zależność pomiędzy parametrami procesu a jego entalpią 390

Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych Niewątpliwą zaletą algorytmów drzew decyzji jest także możliwość automatycznego uzyskania reguł w postaci tekstowej, które mogą być bezpośrednio wprowadzane do bazy wiedzy. Przykładowa postać reguły uzyskanej dla analizy danych dotyczących entalpii określa zakres czasu pracy elektrod oraz wagę wsadu potrzebną do uzyskania wytopu o wartości entalpii z zakresu klasy A. "A" if // (105.0) C_EL <= 55.45, C_EL > 50.9, Ws > 78.9, C_EL <= 52.95; Natomiast kolejny wydruk prezentuje regułę uzyskaną dla danych dotyczących wydajności pokazującą zakres wartości zużycia energii elektrycznej oraz zużycia gazu podawanego do palników, aby wartość wydajności należała do klasy B. "B" if // (102.0) EL > 29.0046, GP <= 444, EL <= 29.9047; Poprawność wygenerowanych reguł została oceniona poprzez wykonanie testu ilości poprawnie zaklasyfikowanych rekordów (używając klasyfikatora C4.5). Klasyfikacja przeprowadzona została w procesie 10-krotnej walidacji krzyżowej. Proces ten polega na podziale zbioru danych na 10 podzbiorów, a następnie 10-krotne uczenie na zbiorze pomniejszonym o jeden podzbiór, a testowanie tym podzbiorem, który nie brał udziału w procesie uczenia. Za ostateczny wynik przyjęto średnią wyników klasyfikacji z 10 różnych podzbiorów testujących. Wyniki dla poszczególnych klas prezentują tabela 5 i tabela 6. Tabela 5. Wyniki dla klasy Entalpia Ważona Etykieta klasy Kompletność Dokładność średnia harmoniczna A 83,5 70,1 76,2 B 65,0 80,1 71,8 Liczba poprawnie zaklasyfikowanych rekordów 74,17 Tabela 6. Wyniki dla klasy Wydajność Ważona Etykieta klasy Kompletność Dokładność średnia harmoniczna A 69,9 75,0 72,3 B 72,9 67,5 70,1 Liczba poprawnie zaklasyfikowanych rekordów 71,27 Gdzie miara kompletności to liczba poprawnie sklasyfikowanych rekordów danej klasy do wszystkich rekordów tej klasy, a miara dokładności to liczba poprawnie sklasyfikowanych rekordów danej klasy do wszystkich rekordów zaklasyfikowanych jako ta klasa (również błędnie). Ważona średnia harmoniczna wyliczana jest z zależności: F α (1 α) dokladnosc kompletnosc = α dokladnosc kompletnosc (2) 391

T. Wieczorek, K. Mączka, P. Świtała 4 Podsumowanie Wypełnianie baz wiedzy jest procesem bardzo kosztownym i czasochłonnym. Tworzenie reguł wymaga zaangażowania grupy ekspertów z danej dziedziny, od których pozyskana wiedza często może być niekompletna lub błędna. Dzięki automatycznemu generowaniu reguł przy użyciu drzew decyzji możliwe jest pozyskanie wiedzy w sposób automatyczny, na podstawie rejestracji parametrów procesu. Przeprowadzone badania pokazały możliwość automatycznego generowania reguł, a przeprowadzona na podstawie tych reguł klasyfikacja pokazała ich poprawność dla rzeczywistych danych pochodzących z przemysłowego procesu metalurgicznego. Podjęte zostały próby podziału danych na większą liczbę klas, a następnie przeprowadzono testy klasyfikacji tak przygotowanego zbioru danych, jednak uzyskany niski odsetek poprawnie klasyfikowanych rekordów sugeruje zbyt małą liczbę przykładów uczących na jedną klasę. W najbliższej przyszłości autorzy planują przeprowadzenie badań pozwalających generować reguły dla zbiorów z większą ilością klas, co wymaga jednak uzupełnienia posiadanych danych pomiarowych. Praca częściowo finansowana przez Ministerstwo Nauki i Szkolnictwa Wyższego, grant Nr 6ZR9 2006 C/06742 Literatura 1. Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques. Elsevier 2005 San Francisco. 2. Craig W. Kirkwood: Decision Tree Primer. Arizona State University 2002. 3. Wieczorek T., Pyka M.: Hybrid expert system for arc-electric steelmaking process monitoring. Acta Metallurgica Slovaca, 10, 2004, 408 412. 4. Wieczorek T.: Wykorzystanie sieci neuronowych do planowania produkcji stali w piecu łukowym. w: Kwiecień A., Wódz K. (red.) Techniczne i społeczne problemy zastosowania Internetu. WKiŁ, 2005, 147 154. 5. Pyka M., Wieczorek T.: Zastosowanie algorytmu drzew decyzyjnych C4.5 do konstrukcji reguł dla systemu ekspertowego stalowniczego pieca łukowego. W: Piela A., Lisok J., Grosman F. (red.) Informatyka w technologii metali, Mat. XII Konf. KomPlasTech, Ustroń, 2005, 19 28. 392