POLITECHNIKA ŚLĄSKA WYDZIAŁ INŻYNIERII MATERIAŁOWEJ I METALURGII. Aleksandra Szuta



Podobne dokumenty
Zespół Szkół Samochodowych

Katedra Zarządzania i Informatyki Politechnika Śląska

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Wprowadzenie do analizy korelacji i regresji

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Optymalizacja ciągła

Estymacja wektora stanu w prostym układzie elektroenergetycznym

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV


mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Agnieszka Nowak Brzezińska Wykład III

Programowanie celowe #1

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

KONSTRUKCJE METALOWE - LABORATORIUM. Produkcja i budowa stali

Elementy modelowania matematycznego

Agnieszka Nowak Brzezińska Wykład III

SZTUCZNA INTELIGENCJA

7. Maszyny wektorów podpierajacych SVMs

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2017 CZĘŚĆ PRAKTYCZNA

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

8. Neuron z ciągłą funkcją aktywacji.

Analiza składowych głównych. Wprowadzenie

Algorytmy klasyfikacji

EP.3 Odpylanie wtórnych gazów odlotowych

Algorytm. a programowanie -

Systemy uczące się wykład 1

9 Stal elektryczna i odlewana. 9.1 Stosowane procesy i technologie

Systemy uczące się Lab 4

Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a

Programowanie liniowe

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

5. Rozwiązywanie układów równań liniowych

Recykling metali żelaznych i nieżelaznych pozyskanych z demontażu pojazdów wycofanych z eksploatacji

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Metody numeryczne Wykład 4

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Agnieszka Nowak Brzezińska

W ostatnim wykładzie doszliśmy do tego, że problem znalezienia klasyfikatora optymalnego pod względem marginesów można wyrazić w następujący sposób:

Testowanie modeli predykcyjnych

METODY INŻYNIERII WIEDZY

NAGRZEWANIE ELEKTRODOWE

METODY INŻYNIERII WIEDZY

OPIS PATENTOWY C22B 7/00 ( ) C22B 15/02 ( ) Sposób przetwarzania złomów i surowców miedzionośnych

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Adrian Horzyk

Metody systemowe i decyzyjne w informatyce

ALGORYTM RANDOM FOREST

Algorytm grupowania danych typu kwantyzacji wektorów

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

METODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Definicje. Algorytm to:

Aproksymacja funkcji a regresja symboliczna

Pattern Classification

Układy stochastyczne

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Analiza składowych głównych

SZTUCZNA INTELIGENCJA

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH

Wykład z Technologii Informacyjnych. Piotr Mika

Automatyczne tworzenie baz wiedzy z wykorzystaniem drzew decyzyjnych

SZTUCZNA INTELIGENCJA

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

LABORATORIUM Z FIZYKI

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Algorytmy i struktury danych. Wykład 4

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne

MODEL FIZYCZNY KONWERTORA TLENOWEGO Z DMUCHEM KOMBINOWANYM. Jacek Pieprzyca, Grzegorz Perzyński

3. Modele tendencji czasowej w prognozowaniu

Algorytm. Krótka historia algorytmów

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

METODY INŻYNIERII WIEDZY

Laboratorium z Konwersji Energii. Ogniwo Paliwowe PEM

Dopasowywanie modelu do danych

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Etapy modelowania ekonometrycznego

składa się z m + 1 uporządkowanych niemalejąco liczb nieujemnych. Pomiędzy p, n i m zachodzi następująca zależność:

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Prof. Stanisław Jankowski

KADD Minimalizacja funkcji

PODSTAWY TECHNOLOGII WYTWARZANIA I PRZETWARZANIA

Transformacja wiedzy w budowie i eksploatacji maszyn

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

MATERIAŁY SPIEKANE (SPIEKI)

wiedzy Sieci neuronowe

PDF created with FinePrint pdffactory Pro trial version

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Transkrypt:

POLITECHNIKA ŚLĄSKA WYDZIAŁ INŻYNIERII MATERIAŁOWEJ I METALURGII Kierunek: Informatyka Przemysłowa Specjalność: Bezpieczeństwo systemów informatycznych PRACA DYPLOMOWA MAGISTERSKA Aleksandra Szuta Temat: Wpływ metod wstępnego przetwarzania danych, na jakość predykcji aktywności tlenu w piecu EAF z wykorzystaniem metod inteligencji obliczeniowej. Temat w języku angielskim: Influence of preprocessing methods on the prediction accuracy of oxygen activity in the EAF furnace using computational intelligence methods Promotor: dr Marcin Blachnik Katowice, listopad 2012

Spis streści: ROZDZIAŁ 1. Wstęp... 4 1.1 Cel i zakres pracy... 5 ROZDZIAŁ 2. Opis procesu technologicznego stali... 6 2.1. Procesy produkcji stali... 6 2.1.2. Proces martenowski... 7 2.1.3. Proces konwertorowy... 8 2.1.4. Proces elektrometalurgiczny... 9 2.2. Proces elektrometalurgiczny w piecu elektrycznym łukowym... 10 2.3. Problemy związane z procesem EAF... 11 ROZDZIAŁ 3. Metody eksploracji danych... 15 3.1. Wstępne przetwarzanie danych... 15 3.1.1. Normalizacja... 16 3.1.2. Standaryzacja... 16 3.2. Selekcja wektorów... 17 3.2.1. Algorytm ENN... 18 3.2.2. Algorytm CNN... 19 3.2.3.Algorytm GCNN i GENN... 20 3.3 Modele predykcji danych... 20 3.3.1. Model regresji liniowej... 20 3.3.2. Model k- najbliższego sąsiada... 22 3.3.3. Maszyny wektorów podpierających (SVM )... 24 3.3.4. Ocena poprawności modelu... 34 ROZDZIAŁ 4. Empiryczna analiza problemu.... 37 4.1. Zbiór danych... 37 4.2. Analiza danych... 41 4.2.1. Metoda k-najbliższego sąsiada... 41 4.2.2. Metoda SVM... 42 4.1.3 Metoda regresji liniowej... 44 4.3. Wyniki przeprowadzonych badań... 45 4.3.1 Wyniki dla metody k-najbliższego siąsiada... 45 4.3.1.1. Zależność RMSE od k dla metody ENN... 45 4.3.1.2. Zależność RMSE od k dla metody CNN... 46 4.3.1.3. Porównanie wyników... 48 4.3.2. Wyniki uzyskane dla modelu wykorzystującego regresję liniową.... 49 4.3.2.1 Zależność RMSE od parametru ridge dla metody CNN... 49 2

4.3.2.2 Zależność RMSE od parametru ridge dla metody ENN.... 51 4.3.2.3 Porównanie wyników.... 53 4.3.3. Wyniki uzyskane dla modelu SVM... 54 4.3.3.1 Zależność RMSE od parametru C dla metody ENN.... 54 4.3.3.2 Zależność RMSE od C dla metody CNN.... 59 4.3.3.4 Porównanie wyników... 63 4.4 Wnioski... 66 ROZDZIAŁ 5. Podsumowanie... 67 3

ROZDZIAŁ 1. Wstęp Tematem niniejszej pracy jest zbadanie wpływu wstępnego przetwarzania danych, na jakość predykcji aktywności tlenu w piecu EAF. Badanie zostało przeprowadzone z wykorzystaniem przykładowych metod inteligencji obliczeniowej. Niezwykle ważnym elementem wytwarzania stali jest utrzymanie odpowiednich warunków fizyczno chemicznych w piecu łukowym. Z tego względu w samym piecu umieszczono wiele czujników pomiarowych. Jednak działanie ich jest utrudnione ze względu na skrajne warunki, jakie panują w obszarze pieca EAF. Dlatego szuka się metod, które pozwalałyby przewidywać część parametrów niezbędnych do prawidłowego wytwarzania stali. Dzięki rozwojowi komputerów oraz informatyki możliwe jest przetwarzania coraz większej ilości informacji. Częściej wykorzystuje się także różne algorytmy składające się na dziedzinę nazywaną inteligencja obliczeniową. Dzięki metodom inteligencji obliczeniowej możliwe jest łatwe i skuteczne przewidywanie danych, co znalazło ogromne zastosowanie w przemyśle, również w hutnictwie. Jednak wciąż problemem jest prawidłowe rejestrowanie danych. Ze względu na skrajne warunki pracy czujników w piecu EAF dane charakteryzują się niejednokrotnie błędami pomiarowymi, brakującymi wartościami w zbiorze danych, zniekształceniami podczas próbkowania. Dlatego poddaje się je wstępnemu przetwarzaniu oraz selekcji wektorów. Selekcja danych jest niezwykle ważnym elementem przygotowania zbioru danych do dalszej ich eksploracji, ze względu na eliminacje wektorów reprezentujących obszar gdzie badane teoria może nie występować. Wyszukiwanie optymalnej reprezentacji danych dzieli się między innymi na metody przyrostowe i redukcyjne, których wyniki badań zostaną przedstawione w niniejszej pracy. Do selekcji wektorów zostały wykorzystane algorytmy ENN oraz CNN. Badanie wpływu tych metod ukazuje istotę zagadnienia oraz wpływ danych odstających w procesie predykcji aktywności tlenu na jego wynik.. 4

1.1 Cel i zakres pracy Celem prezentowanej pracy jest zbadanie wpływu metod wstępnego przetwarzania danych, na jakość predykcji aktywności tlenu w piecu EAF z wykorzystaniem wybranych metod inteligencji obliczeniowej. Zakres prowadzonych badań będzie obejmował analizę wpływu algorytmów selekcji wektorów uczących typu ENN i CNN na zdolność predykcji różnych modeli predykcyjnych w tym modelu liniowego, knn oraz SVM. Przeprowadzone badania zostaną wykonane z wykorzystaniem zbioru danych empirycznych zarejestrowanych w jednej z polskich hut stali. 5

ROZDZIAŁ 2. Opis procesu technologicznego stali 2.1. Procesy produkcji stali Stal ma szczególne własności technologiczne, dzięki czemu jest jednym z najczęściej stosowanych materiałów konstrukcyjnych, produkowane są z niej również narzędzia i wiele innych sprzętów, elementów służących nam każdego dnia. Stalą nazywa się cieplnie i plastycznie obrabiany stop żelaza, w którym zawartość węgla jest mniejsza od 2%. Stal charakteryzuje się łatwością przerabiania, można zmieniać jej własności fizyko chemiczne. Dzięki temu ciągle prowadzone są badania, aby otrzymać stopy stali o nowych właściwościach oraz nowych zastosowaniach. Szczególne cechy stali wynikają z jej składu oraz procesu uzyskiwania. Materiały wsadowe, z jakich wytwarza się stal, można podzielić na dwie grupy: metaliczne i niemetaliczne. Do materiałów metalicznych zalicza się surowce zasadnicze, tj. złom żeliwny lub stalowy, surówka przeróbcza. Odtleniacze oraz dodatki stopowe (żelazostopy), które wykorzystuje się do odtleniania stali albo do wzbogacenia jej składu chemicznego dodaje się w końcowym okresie procesu lub już po jego zakończeniu. W grupie materiałów niemetalicznych wyróżnia się takie składniki jak topniki oraz utleniacze. Przykładowymi topnikami są (CaO), piasek (SiO 2 ), fluoryt (CaF 2 ), boksyt (Al2O3), kamień wapienny (CaCO3). W celu utleniania domieszek wsadu metalowego i doprowadzenia ich do żużla stosuje się utleniacze rudę żelaza, zendrę walcowniczą, wdmuchiwany tlen lub powietrze. Proces wytwarzania samej stali dzieli się na trzy etapy: wytapianie proces ten ma miejsce w konwerterze lub w elektrycznym piecu łukowym. Kąpiel metalowa przechodzi proces świeżenia oraz odfosforowania, następnie stal jest podgrzewana do temperatury, w której stal osiąga prawidłową konsystencję, aby odlać ją do kadzi, rafinacja na tym etapie wykonywany jest proces odsiarczania, odtleniania oraz usunięcia wtrąceń niemetalicznych, odlewanie płynna stal wlewana jest pod kontrolą z kadzi do przelotowej wlewnicy. Po skrzepnięciu przybiera kształt formy. Odlew stalowy ma temperaturę około 1000 C. [1] Na rysunku 1 została przedstawiona kolejność oraz schemat produkcji stali. 6

Rysunek 1 Schemat produkcji stali. [6] Produkcja stali jest niezwykle złożonym procesem, który zależy od wielu czynników. Stal może być wytapiana za pomocą różnych urządzeń, które kształtują odmienne procesy stalownicze: Proces martenowski Proces konwertowy, dzieli on się na następujące rodzaje: o z górnym dmuchem, o z dolnym dmuchem, o kombinowany (połączony z dmuchu górnego i dolnego) o z bocznym dmuchem, Proces elektrometalurgiczny o piece oporowe, o piece łukowe, wśród których wyróżnia się: o z łukiem bezpośrednim, o z łukiem pośrednim, o z zakrytym łukiem, o piece indukcyjne, które dzielą się: o bezrdzeniowe, o rdzeniowe. W dalszej części rozdziału zostaną opisane wymienione powyżej procesy. 2.1.2. Proces martenowski W procesie martenowskim stal jest wytwarzana ze złomu i surówki w piecu płomiennym. W procesie tym stal jest przetwarzana tak, aby uzyskać odpowiedni skład chemiczny (odpowiednia zawartość pierwiastków: węgla, siarki, fosforu, magnezu i krzemu). Kąpiel stalowa jest również nagrzewana do odpowiedniej temperatury, która umożliwia 7

wlanie stali do form odlewniczych bądź wlewnic. Wytop surówki żelaznej powstaje z mieszaniny rudy, koksu, kamienia wapiennego. W odpowiedniej temperaturze zachodzą reakcje chemiczne, w których tlenki żelaza ulegają redukcji. Proces ten zachodzi w temperaturze około 1750 C. [2] Surówka żelazna jest ładowana do pieca od góry, wraz z mieszaniną rudy, koksu, kamienia wapiennego. Od dołu wdmuchuje się gorące powietrze, które powoduje reakcje chemiczne, w wyniku, czego tlenki żelaza ulegają redukcji. U dołu pieca zbiera się oddzielnie surówkę żelaza oraz żużel. [3] Proces martenowski jest dużo bardziej energochłonny porównując do innych metod wytwarzania stali, chociażby do procesu konwertorowego opisanego w następnym podrozdziale. 2.1.3. Proces konwertorowy Proces konwertorowy - tlenowy jest mniej energochłonny niż martenowski. Dlatego też udział produkcji stali konwertorowej wynosi 80% w stosunku do globalnej produkcji. Proces konwertowo tlenowy jest to proces wykonywany w hutach zintegrowanych, gdzie surówkę wytwarza się za pomocą metody wielkopiecowej ze złomu stalowego. Podczas procesu konwertorowego zachodzi bardzo ważny proces tlenowy, który polega na usunięciu niewłaściwych domieszek przez ich utlenianie w wysokiej temperaturze przy udziale tlenu. W metodzie tej utleniane są takie pierwiastki jak węgiel, mangan, krzem, siarka oraz fosfor. Używa się kilku metod uzyskiwania stali techniką konwertorową tlenową. Najpopularniejszą metodą jest technika LD połączona z dmuchu górnego gazu. Do kąpieli metalowej dostarczany jest tlen, który nie może się charakteryzować mniejszą czystością niż 98,5%. [3] Sposób, w jaki doprowadzony jest strumień powietrza jest bardzo ważny, ponieważ ma to wpływ na końcową jakość stali. Rozróżnia się takie metody jak przedmuchiwanie od dołu tzw. dmuch dolny, dzięki temu dmuch przechodzi przez całą objętość stali. Natomiast w konwerterze z bocznym dmuchem wykorzystuje się przedmuchiwanie powierzchniowe lub drugi rodzaj przedmuchiwania, realizowany za pomocą dysz zanurzonych w metalu. Inną metodą dostarczania strumienia powietrza jest dmuch górny. W tym rozwiązaniu wprowadza się lanca tlenowa przez gardziel konwertera. W metodzie tej wykorzystywany jest czysty tlen podawany na powierzchnię kąpieli metalowej. Odpowiednie przedmuchiwanie metalu zapewnia jednorodność składu chemicznego oraz temperatury kąpieli metalowej. [4] Proces produkcji stali w konwertorze tlenowym dzieli się na następujące etapy: załadowanie złomu, wlewanie surówki do konwertera, 8

wytapianie stali, spust, spust żużla. Na ilustracji 2 zostały zaprezentowany schemat produkcji stali z uwzględnieniem wyżej opisanych etapów. Materiałem wsadowym w opisywanej technologii jest ciekła surówka oraz złom stalowy (20-25% wsadu metalowego), który obniża temperaturę kąpieli. W procesie konwertorowym ciekła surówka przedmuchiwana jest powietrzem za pomocą wcześniej wspominanych metod. Reakcje chemiczne utleniania są egzotermiczne, co skutkuje wzrostem temperatury ciekłego żelaza podczas produkcji stali. [5] Rysunek 2. Schemat procesu konwertorowego [6] 2.1.4. Proces elektrometalurgiczny Kolejną metodą wytwarzania stali jest proces elektrometalurgiczny. Metoda ta wykorzystuje piece elektryczne EAF (ang. electric arc furnace). Dzięki czemu zużycie energii jest mniejsze niż w piecach konwertorowych oraz martenowskich. W technologii tej stal jest uzyskiwana ze złomu stalowego, co również zmniejsza koszty produkcji stali. Rysunek 3 przedstawia ogólny schemat produkcji stali w procesie elektrometalurgicznym. 9

Rysunek 3 Schemat produkcji stali procesie elektrometalurgicznym. [6] Produkcja stali w procesie wykorzystującym piec elektryczny obejmuje wstępna obróbkę ciekłego metalu oraz roztopienie wsadu w łukowym piecu. Następnie zachodzą procesy pozapiecowe LHF. Ostatnim etapem wyrabiania stali jest odlewanie metodą ciągłą. Ze względu na produkcje różnych rodzajów stali, różne jest również wyposażenie elektrostalowni. Wraz z rozwojem technologii, powstają nowe wymagania, wobec jakości stali. Dlatego budowa elektrycznego pieca łukowego ciągle się zmienia. Szczegółowy opis pieca EAF oraz metody produkcji stali wykorzystującej te typ pieca jest opisana szczegółowo w rozdziale 2.2. 2.2. Proces elektrometalurgiczny w piecu elektrycznym łukowym Proces wyrobu stali z użyciem pieca elektrostalowniczy dzieli się na trzy główne etapy. Pierwszym etapem procesu wytwarzania stali jest roztopienie wsadu. Do produkcji stali w metodzie elektrometalurgicznej wykorzystuje się złom. Podczas obróbki pozapiecowej do złomu dodaje się różne dodatki stopowe, które pozwalają uzyskać stal o określonych 10

właściwościach chemiczno fizycznych. Wytapianie stali w piecu łukowym dzieli się na cztery etapy: roztapianie, świeżenie, rafinacja, naprawa popustowa. Wsad jest przekazywany do pieca elektryczno - łukowego EAF, gdzie jest topiony. W tej technologii stal jest wytapiana przy użyciu energii pochodzącej z łuku elektrycznego. Na etapie LHF zachodzą takie procesy jak odgazowanie stali w układach generowania próżni, rafinacja przy użyciu łuku elektrycznego. Ostatnim etapem jest odlanie stali metodą syfonową bądź ciągłą BCM (ang. blow casting machine). Wykończenie stali jest wykonywane przez urządzenia do obróbki pozapiecowej (ang. ladle arc furnance). Rysunek 4 Schemat pieca EAF [6] Piec elektryczno łukowy wykorzystywany do produkcji stali zbudowany jest z trzonu pokrytego materiałem ogniotrwałym, górnej części pancerza z panelami chłodzonymi wodą, oraz sklepienia, które również jest chłodzone wodą. Piec charakteryzuje się możliwością zmiany nachylenia, aby usunąć żużel przez okno żużlowe oraz by dokonać spustu stali przez otwór spustowy. Do stopienia stali wykorzystywana jest energia wytwarzana przez elektrody. Rozróżnia się piece zasilane prądem zmiennym z trzema grafitowymi elektrodami lub dwoma, w sklepieniu i trzonie. W górnej części pieca jest otwór, który służy do odprowadzania gazów. Sklepienie jest obracane w osi jednej ze ścian żeby był możliwy załadunek złomu. [8] Do produkcji stali używa się złomu wzbogaconego o takie elementy, jak: topniki (palone wapno i wapno dolomitowe), nawęglacze (węgiel, złom elektrod 11

węglowych, koks), dodatki stopowe głównie żelazostopy, odtleniacze (glin, żelazokrzem, żelazo krzemo - mangan), spieniacze żużla(rozdrobnione materiały węglowe). Złom stalowy z dodatkiem wapna ładuje się do koszy. Sadzenie odbywa się dwoma lub trzema koszami, jest to zależne, od jakości złomu, czyli gęstości nasypowej. Mniejsza ilość koszy skraca czas procesu roztapiania wsadu oraz zużycia energii. Rozkład czasowy procesu EAF został przedstawiony na ilustracji 5. Jak z niej wynika, sadzenia przy użyciu dwóch koszy jest o 13 minut krótsze niż przy użyciu trzech koszy. Piec jest zamykany sklepieniem, a prąd jest doprowadzany do elektrod dopiero po tym jak pierwszy kosz jest już załadowany. Poza energią pochodzącą z łuku, ciepło jest dostarczane również przez prace palników paliwowo tlenowych. Umieszczone są one w ścianach pieca oraz w oknie, dzięki temu jest możliwe roztopienie wsadu również w tzw. zimnych miejscach. Po osiągnięciu odpowiedniej temperatury następuje roztapianie wsadu. Gdy wsad z pierwszego kosza jest całkowicie roztopiony, ładuje się kolejny. Następnym etapem jest świeżenie, podczas, którego utlenia się domieszki węgla, fosforu, manganu, krzemu, żelaza. W tym celu zwykle wykorzystuje się tlen gazowy, który jest wdmuchiwany przez lancę. Tlen wdmuchuje się również, aby dopalić tlenek węgla pochodzącego z wypalania węgla. Temperatura w piecu także wzrasta w wyniku egzotermicznej reakcji utleniania. W wyniku procesów chemicznych z udziałem tlenu powstają gazy i wyziewy, składające się z cząstek tlenku żelaza, CO 2, CO oraz innych produktów. Tlenki żelaza będące produktem utleniania mieszają się z żużlem. Aby przeprowadzić reakcje redukcji tlenków żelaza wdmuchuje się węgiel. Rysunek 5 Schemat produkcji stali. [21] 12

Dwutlenek węgla oraz tlenek węgla powodują spienianie żużla, który pokrywa końce elektrod, reakcja ta stabilizuje prace łuków, zmniejsza straty energii cieplnej powstałe w wyniku promieniowania, co prowadzi do zwiększenia wydajności grzania łukiem. Dodatkową zaletą pracy łukiem pokrytym żużlem jest mniejsze zużycie materiałów ogniotrwałych. Technologia taka jest możliwa dzięki użyciu lancy tlenowej oraz lancy, przez którą wdmuchuje się spieniacz. Chłodzenie ścian pieca możliwe jest dzięki chłodnicą skrzyniowym lub panelom rurowym. W etapie roztapiania stosuje się również metody przyśpieszające reakcje chemiczne, jednym ze sposobów jest przedmuchiwanie gazem obojętnym wprowadzanym przez dysze lub kształtki gazo przepuszczalne umieszczone w trzonie pieca. Mieszanie kąpieli spowodowane przedmuchiwaniem także ujednorodnia temperaturę kąpieli. Podczas topienia wsadu powstają zapylone gazy odlotowe, które są wyprowadzane z pieca przez otwór w sklepieniu do przewodu spalinowego, następnie do odchładzacza chłodnicę i kolektor płynu. Etap roztapiania jest zakończony, gdy stal będzie spełnia wcześniej przyjęte kryteria składu chemicznego oraz temperatury. Pod koniec roztapiania wsadu oraz podczas świeżenia żużel spływa samoistnie z pieca w wyniku jego spiekania. Aby usunąć wypływający żużel podnosi się elektrody i przechyla się piec na stronę okna żużlowego dzięki temu, ma on możliwość samoistnie spłynąć. Stal odprowadza się do kadzi przez rynnę spustową lub przez otwór spustowy znajdujący się w trzonie pieca. Stosuje się tzw. metodę płynnej stopy, która charakteryzuje się pozostawieniem w piecu EAF około 20% ciekłej stali z poprzedniego wytopu. Dzięki temu możliwy jest spust bezżużlowy, skraca to również czas kolejnego wytopu i ma pozytywny wpływ na pozapiecową obróbkę stali. Czasowy rozkład roztapiania wsadu w piecu EAF został zaprezentowany na rysunku 5, całość trwa około 52 minut. Po przelaniu stali do kadzi następuje kolejny etap - rafinacja. Podczas rafinacji stal jest odsiarczana, odtleniana, usuwane są wtrącenia niemetaliczne. Gdy stosuje się próżnie, to stal jest również odgazowywana oraz względnie dodatkowo odwęglana. Ostatnim etapem produkcji stali jest odlewanie. Proces ten jest wykonywany na maszynie do ciągłego odlewania stali. [6] 2.3. Problemy związane z procesem EAF Wyprodukowana stal jak również proces produkcji stali musi spełniać szereg kryteriów. Jednym z nich jest odpowiednia temperatura. Podczas wytapiania stali na odpowiednich etapach musi zostać utrzymany ściśle określony przedział temperatury. Zmiany temperatury zależne są od wielu czynników, przykładem może być przedmuchiwanie stali, 13

podczas którego można zaobserwować wahania tego czynnika. Ważne jest również utrzymanie stałej temperatury stali w kadzi, aby można było ją było potem odlać. Stal również musi spełniać odpowiednie warunki chemiczne, dlatego jest poddawana procesom odwodorowania, odtlenowania, odazotowania, odwęglania. Do odwęglania potrzebna jest redukcja zawartości tlenu rozpuszczanego w stali. Stal jest poddawana również kryteriom zawartości wtrąceń niemetalicznych, oraz siarki. Bardzo ważna jest również aktywność tlenu w piecu, ponieważ tlen stanowi substrat dla wielu reakcji chemicznych. Przykładem może być podział siarki pomiędzy żużel a metal, który zależy od aktywności tlenu. Jeżeli aktywność tlenu jest większa, to współczynnik podziału siarki jest mniejszy, a ilość siarki migrującej z metalu do żużla będzie ograniczona. Pomiar aktywności tlenu oraz jej kontrola jest bardzo ważnym elementem w prawidłowym funkcjonowaniu pieca EAF.[8] Monitorowanie aktywności tlenu jest utrudnione przez specyficzne warunki, jakie panują w piecu. Jest to między innymi bardzo wysoka temperatura oraz promieniowanie cieplne, które wpływa na osprzęt i kable transmisyjne. Znaczenie na wyniki pomiarów ma również promieniowanie elektromagnetyczne. Ze względu na to, że tak wiele czynników ma negatywny wpływ na wynik pomiarów, dąży się do jak najmniejszej liczby wykonywanych pomiarów. Rozwiązaniem może być zastosowanie metod inteligencji obliczeniowej, które mogą przewidywać aktywność tlenu w rzeczywistym czasie trwania procesu. W rozdziale 3.3 zostaną przedstawione przykładowe rozwiązania predykcji danych dotyczących aktywności tlenu. 14

ROZDZIAŁ 3. Metody eksploracji danych Nowe technologie pozwalają na pomiary coraz nowszych wartości, które mogą być źródłem użytecznej wiedzy. Aby wydobyć istotne informacje z coraz większych baz danych, powstają algorytmy automatycznej analizy oraz eksploracji danych. Eksploracja danych, jest technologią, dzięki której możliwe jest automatyczne, efektywne znajdowanie statystycznych zależności, reguł pomiędzy dużymi zbiorami danych. Dzięki takim metodom jak sieci neuronowe, metody uczenia maszynowego, metody ewolucyjne, logika rozmyta, zbiory przybliżeniowe można uzyskać odwzorowania opisujące nieliniowe relacje, które zachodzą pomiędzy parametrami wejściowymi, a wynikiem procesu. Eksploracja danych jest dziedziną nauki, która rozwija się bardzo szybko ze względu na swoją wartość ekonomiczną; jest wykorzystywana do pomocy przy podejmowaniu złożonych decyzji produkcyjnych, finansowych, marketingowych w przedsiębiorstwach. 3.1. Wstępne przetwarzanie danych Dane, dostarczane przez przedsiębiorstwa charakteryzują się takimi cechami jak błędy pomiarowe, brakujące wartości w zbiorze danych, zniekształcenie podczas próbkowania. Mimo coraz nowszych technologii pomiarowych nie udaje się uzyskać idealnych wyników, dlatego wstępne przetwarzanie danych polega na przekształceniu ich w celu przygotowania do dalszych procesów (eksploracji). Poprawne, jednoznaczne zdefiniowanie danych wejściowych ma również ogromny wpływ na szybkość działania modelu oraz jego uogólnienie. Wstępne przetwarzanie danych jest niezbędne, ponieważ metody obliczeniowe, aby skutecznie działać wymagają poprawnie, jednoznacznie zdefiniowanych danych na wejściu, tak, aby ich błędy nie miały negatywnego wpływu na wynik. Metody, jakimi można posłużyć się do przygotowania danych do procesów ich eksploracji to standaryzacja, normalizacja, dyskretyzacja danych. Standaryzację oraz normalizację stosuje się, gdy przetwarzane dane wykorzystuje się w procesach regresji, w metodach opierających się na odległościach pomiędzy danymi, lub klasyfikacji liniowej. Metody te stosuje się w celu zmniejszenia wpływu zmiennych, których przedział wartości znacznie różnią się od pozostałych, co może mieć negatywny wpływ na wynik końcowy. Zaś przy estymacji rozkładów prawdopodobieństwa wykorzystuje się dyskretyzacje. Wybór metody wstępnego przetwarzania danych jest bardzo ważny, należy zwrócić uwagę, aby wszystkie istotne dla 15

badań informacje zostały zachowane oraz aby wektor wejściowy był jak najkrótszy. W niniejszym podrozdziale zostanie przedstawiona szczegółowo metoda normalizacji, standaryzacji oraz selekcja danych. [9] 3.1.1. Normalizacja Wybór i przygotowanie danych wejściowych jest równie ważne jak dalsze przeprowadzane procesy. W przypadku danych ilościowych najczęściej stosowana jest technika skalowania, jaką jest metoda normalizacji. [9] Normalizacji dokonuje się, aby przedstawić wszystkie wartości zmiennych w przedziale [0,1]. Metodzie tej poddawane są dane testowe oraz treningowe, gdzie używane są takie same wartości. [10] Normalizacja wyrażana jest wzorem: (1) Gdzie i kolejny indeks wektora j indeks cechy (zmiennej) max( ) maksymalna wartość zmiennej j min( ) minimalna wartość zmiennej j 3.1.2. Standaryzacja Standaryzacja, jest to operacja w wyniku, której wartość średnia danej cechy będzie równa 0, zaś odchylenie standardowe równe jest 1. Standaryzację opisuje poniższy wzór[15]: (2) gdzie: i indeks wektora j indeks cechy (zmiennej) mean(xj) średnia wartość zmiennej j std(xj) odchylenie standardowe zmiennej j 16

3.2. Selekcja wektorów Selekcja danych jest ważnym procesem ze względu na przygotowane odpowiedniego zbioru danych do dalszej analizy, wpływa ona na uogólnianie algorytmu. Wektory odstające mogą wystąpić w każdym zbiorze danych, wynikają one z błędów pomiarowych, lub błędu ludzkiego. Próbka odstająca od pozostałych może reprezentować obszar, gdzie badana teoria może nie występować. Znalezienie optymalnej reprezentacji wektorów (danych) dzieli się na selekcję i optymalizację. Zagadnienie optymalizacji oraz selekcji prototypów dla algorytmu k NN jest bardzo ważne, ponieważ nie tylko wpływa na zdolność do uogólniania algorytmu, ale również zmniejsza jego złożoność obliczeniową. Metody eliminacji przypadków odstających określa się również, jako zagadnienie poszukiwania prototypów. W literaturze można znaleźć szereg metod taksonomii takich algorytmów. Wśród nich należy wymienić podział na metody optymalizacji i selekcji. Selekcja cechuje się bezpośrednim wyborem prototypów wektorów zbioru trenującego. Natomiast optymalizacja minimalizuje wybrane kryterium w celu wyznaczenia nowego położenia wektorów prototypowych. Optymalizację od selekcji rozróżnia to, że położenia wektorów prototypowych nie muszą być dopasowane do konkretnego przypadku ze zbioru treningowego, a mogą to być nowe wektory wyznaczone na bazie oryginalnego zbioru uczącego. W grupie metod optymalizujących rozróżnia się dwie strategie rozwiązania problemu, bezpośrednią i pośrednią. Metoda bezpośrednia wyróżnia się bezpośrednią minimalizacją błędu klasyfikacji danych, zaś metodę pośrednią charakteryzuje algorytmy nienadzorowanej analizy danych. Metody znajdowania prototypów można również podzielić na przyrostowe i redukcyjne. W metodzie przyrostowej poszukiwanie wektorów wzorcowych zaczyna się od pustego zbioru P = Ø. Następnie do zbioru P dodaje się nowe wektory, poprzez minimalizację określonego kryterium. W metodach redukcyjnych działanie algorytmu rozpoczyna się od pełnego zbioru prototypów P = T, następnie usuwane są wektory niewpływające na polepszenie generalizacji algorytmu. Jednym z przypadków metod przyrostowych jest kondensacja danych. W metodzie tej eliminuje się wektory wewnętrzne, które leżą daleko od granicy decyzji i nie mają wpływu na klasyfikacje. Drugą grupą jest metoda filtrów albo edycji eliminującej wektory odstające. Metody te zalicza się do metod redukcyjnych. W praktyce wykorzystuje się często oba rodzaje algorytmów, dzięki czemu ze zbioru danych usuwane są wektory odstające i kondensujące dane. W dalszej części podrozdziału zostaną przedstawione przykłady algorytmu selekcyjnego oraz redukcyjnego, których wpływ jest badany w niniejszej pracy. [15] 17

3.2.1. Algorytm ENN W algorytmie ENN (ang. editing nearest neighbor rule) każdy wektor x i zbioru treningowego zostaje poddany ocenie. Ocena polega na znalezieniu k najbliżej leżących wektorów względem x i. Następnie stosując regułę głosowania większościowego wyznaczana jest przewidywana wartość etykiety wektora x i. Uzyskana w ten sposób wartość porównywana jest z rzeczywistą etykietą x i. Jeśli obydwie etykiety są różne, wówczas wektor x i zostaje oznaczony, jako do usunięcia. Zapisuje się to, zgodnie z równaniem 3: C i = knn (T / x i, x i ) (3) gdzie: C i to obliczona etykieta wektora x i, T zbiór treningowy, x i wektor. Następnie eliminowane są wszystkie wektory, które podczas klasyfikacji zostały oznaczone, jako do usunięcia. Wynikiem jest zbiór danych pomniejszony o usunięte (niezakwalifikowane poprawnie do klasy) wektory odstające, w tym również wektory brzegowe.[10], [11], [15] Rysunek 6 Schemat algorytmu ENN.[15] Na ilustracji 6 został pokazany schemat algorytmu ENN. Metoda ta została stworzona przez Wilsona. Dzięki zastosowaniu tego algorytmu, usuwane są wszystkie szumy w zbiorze treningowym. 18

3.2.2. Algorytm CNN Pierwszą metodą kondensacyjną jest algorytm CNN (ang. condensed nearest neighbor rule). Jest to metoda przyrostowa, w której do początkowo pustego zbioru obiektów referencyjnych przyporządkowywane są nowe wektory. W pierwszym kroku wybierany jest losowo jeden wektor x i, jako prototyp P. W kolejnym kroku sprawdza się czy kolejne wektory należą do zbioru treningowego T pomniejszonego o zbiór P. Jeśli któryś z wektor zostanie błędnie sklasyfikowany to jest on dodawany do zbioru P. Procedura ta jest powtarzana, tak długo, aż wszystkie wektory będą sklasyfikowane poprawnie. Schemat omawianego algorytmu przedstawiony jest na ilustracji 7.[10][11] Rysunek 7 Schemat algorytmu CNN[15]. Metoda CNN została pierwszy raz przedstawiona przez Harta w 1967 roku. W wyniku działania algorytmu CNN jest mniejsza liczba wektorów referencyjnych niż w rozwiązaniu ENN. W metodzie tej nie usuwa się wektorów odstających i brzegowych, co można uznać, jako wadę. Kolejną wadą algorytmu CNN jest losowa inicjalizacja algorytmu, co może skutkować, że wielokrotny start algorytmu daje różne wyniki.[11] 19

3.2.3.Algorytm GCNN i GENN Algorytmy GCNN (ang. generalized condensed nearest neighbour) oraz GENN (ang. generalized editing nearest neighbor rule) bazują na metodach selekcji danych CNN i ENN. Rożnią się one tym, iż zostały one zaadaptowane do rozwiązywania problemów regresyjnych. Adaptacja ta polega na wyznaczeniu błędu jako: Y e (x i ) - Y(x i ) = e (4) gdzie Y e (x i ) - wartość wyestymowana za pomocą dowolnego modelu regresyjnego Y(x i ) - rzeczywista wartość wyjściowa a następnie weryfikacji czy tak wyznaczona wartość błędu spełnia warunek e - max_error > 0 Jeśli warunek ten jest spełniony algorytm postępuje podobnie jak w przypadku oryginalnych algorytmów CNN i ENN. Schematy tych algorytmów przestawia rys. 5 i 6. 3.3 Modele predykcji danych Ze względu na problemy związane z pomiarem niektórych danych, jak na przykład w hutnictwie, pomiar aktywności tlenu w piecu EAF, dąży się do znalezienia alternatywnych rozwiązań, który zastąpiłyby prace czujników. Predykcja danych daje możliwości zmniejszenia zapotrzebowania na pomiary np. aktywności tlenu. W niniejszym rozdziale zostaną przedstawione różne modele przewidywania danych. 3.3.1. Model regresji liniowej Regresją liniową nazywa się problem estymacji warunkowej wartości oczekiwanej zmiennej y przy znanych wartościach innej zmiennej, lub zmiennych x. Szukaną zmienną y nazywa się zmienną objaśnianą (zależną). Natomiast zmienne x nazywane są zmiennymi objaśniającymi (niezależnymi). W regresji liniowej model zależności pomiędzy zmiennymi objaśnianymi i objaśniającymi jest liniowy i przedstawia je równanie: (5) 20

gdzie: - są to zmienne zależne, regresyjne, ε element losowy modelu. Regresja liniowa opisywana jest za pomocą wzoru: (6) Gdzie: y zmienna objaśniana, α i parametry strukturalne zbioru danych, ε element losowy modelu, x i zmienna objaśniająca. Parametry strukturalne α i ustalane są na podstawie metody najmniejszych kwadratów. Polega to na estymacji parametrów strukturalnych, dla których, których funkcja straty ma minimalną wartość, co przedstawia poniższe równanie, w którym - to kwadrat reszt. (7) Równanie to można również zapisać w postaci macierzowej: y = αx +ε (8) Stosując algorytm minimalizujący funkcję straty E można wykazać pewne własności wynikający z powyższych równań. Po przeprowadzeniu przekształceń, otrzymuje się: (9) W ostatecznej postaci równość przyjmuje postać: (10) Różniczkując funkcję straty względem wektora parametrów strukturalnych modelu, następnie przyrównując prawą stronę równania X do wektora 0, otrzyma się równanie: X T Xα = X T y (11) 21

Z czego można otrzymać zmienną α: α = (X T X) -1 X T y (12) Równanie to jest, równaniem wyjściowym do estymacji parametrów strukturalnych modelu.[14],[15] 3.3.2. Model k- najbliższego sąsiada Algorytm najbliższego sąsiada, to algorytm regresji nieparametrycznej, za pomocą, którego prognozuje się wartości pewnej zmiennej losowej. Wykorzystuje się go również do klasyfikacji. Metoda ta cechuje się prostotą i dużą skutecznością. Dla danej x klasyfikuje się jej najbliższych k sąsiadów, co tworzy jej sąsiedztwo. Poprawna klasyfikacja danych w bardzo dużym stopniu zależy od prawidłowego ustalenia wartości k. Najprostszą metodą wyboru wartości k, jest kilkukrotne uruchomienie algorytmu z różnymi wartościami, a następnie wybranie najlepszego wyniku. Rozwiązanie to polega na zapamiętaniu wszystkich przypadków zbioru uczącego, dzięki czemu czas indukcji wiedzy jest bardzo krótki, zaś koszt klasyfikacji nowych wektorów jest wysoki. Większość obliczeń związana jest z procesem samej klasyfikacji wektorów, a nie z procesu uczenia na danych treningowych. Decyzje, jakie są podejmowane przez system to znalezienie najbliższego wektora w wcześniej zapamiętanym zbiorze danych treningowych w stosunku do danych, dla których system ma dokonać decyzji klasyfikacji.[18] Idea algorytmu k NN bazuje na regule Bayesa: (12) gdzie: P(h) prawdopodobieństwo zajścia hipotezy, P(D) prawdopodobieństwo otrzymania zbioru treningowego D, P(h D) prawdopodobieństwo h, przy założeniu, że D jest podane, P(D h) prawdopodobieństwo D pod warunkiem, że hipoteza h zachodzi. [20] Metoda uczenia Bayesa poszukuje najbardziej prawdopodobnej hipotezy mając narzucony zbiór treningowy. Biorąc pod uwagę metodę uczenia Bayesa, dla algorytmu k-nn zachodzą następujące zależności: prawdopodobieństwo P wystąpienia pewnego wektora cech a w określonym regionie R przestrzeni cech wynosi: 22

(13) gdzie: V objętość regionu R Dla m próbek wektora cech, z czego k należy do regionu R, prawdopodobieństwo P może być estymowane przez k/m, skąd równanie: (14) Bardzo ważne jest, aby poprawnie określić wartość zmiennej V. Wielkość ta, nie może być zbyt duża, ponieważ może to skutkować rozmyciem klasyfikacji, ale nie może być również zbyt mała, to mogłoby spowodować wzrost wariancji estymacji. Jeśli założyć, że zbiór treningowy składa się ze wszystkich N próbek wektorów cech: (15) Gdzie N i to liczba próbek, które należą do klasy C (i). Aby sklasyfikować wektor a należy wyznaczyć objętość V m wokół tego wektora. Zbiór wybranych k m próbek dzieli się na M podzbiorów, z czego każdy zawiera próbki, które należą do klas C (i). Estymator warunkowego prawdopodobieństwa przedstawia poniższy wzór: (16) Z kolei estymator prawdopodobieństwa P(C (i) ) wyraża się wzorem: (17) Następnie, biorąc pod uwagę reguły Bayesa oraz wykorzystując powyższe równanie, reguła decyzyjna to wektor a, który jest przypisany do klasy C (i) dla każdego j: (18) Na rysunku 8 przedstawiona jest wcześniej opisana klasyfikacja k NN w przestrzeni dwuwymiarowej.[16] 23

Rysunek 8 Zasada działania klasyfikatora.[17] Ogólny schemat działania omawianego algorytmu jest następujący. W pierwszym kroku poszukuje się k najbliższych sąsiadów wektora a. W drugim kroku głosuje się wśród k najbliższych sąsiadów, aby dokonać klasyfikacji wektora a. Odległość między obiektami wyznacza się na podstawie np. odległości Euklidesa. Zaletą klasyfikacji metodą k najbliższego sąsiada jest prostota algorytmu. Ponadto dzięki temu algorytmowi w łatwy sposób można uzupełnić brakujące wartości. Natomiast do wad można zaliczyć duży wpływ nieistotnych cech, duże nakłady obliczeń, znaczne zapotrzebowanie na pamięć. Ponadto, częściej występujące klasy dominują wynik, jeżeli odległość między wektorami nie jest znaczna. 3.3.3. Maszyny wektorów podpierających (SVM ) Modelując proces technologiczny, oparty na danych pomiarowych nie można określić rozkładu prawdopodobieństwa zmiennej losowej. Z tego powodu modele takie opierają się na tzw. bezrozkładowej statystyce, bazującej na statystycznej teorii uczenia Vapnika i Chervonenkisa. Model wektorów podpierających opiera się właśnie na statystykach bezrozkładowych, używa się go przy takich zagadnieniach jak klasyfikacja oraz regresja. W przypadku klasyfikacji idea omawianego modelu polega na znalezieniu granic decyzyjnych tak, aby uzyskać hiperpłaszczyznę, rozdzielającą z jak największym marginesem punkty, które należą do dwóch różnych klas. Marginesem określa się odległość pomiędzy płaszczyzną, a najbliższym jej wektorem. Punkty są następnie mapowane do tej samej 24

przestrzeni na postawie strony, po jakiej pojawiły się. W ten sposób dokonuje się klasyfikacji punktów, która może przebiegać liniowo lub nieliniowo. [9], [17] Na rysunku 9 Rysunek 9 Rozdział hipepłaszczyzny i marginesu [16] pokazany został maksymalny rozdział hiperpłaszczyzny oraz margines. Algorytm SVM może zostać potraktowany, jako konkurencyjna dla metody uczenia sztucznych sieci neuronowych lub modeli rozmytych, przy rozwiązywaniu takich problemów jak rozpoznawanie wzorców. Gdy przestrzeń danych wejściowych nie jest liniowo podzielna, algorytm SVM szuka płaszczyzny z jak największym marginesem tak, aby płaszczyzna mogłaby być liniowo separowalna. Do rozwiązania zagadnienia, jakim jest znalezienie jak największego marginesu, wykorzystuje się klasyfikator jądrowy oraz metody jądrowe, które zostaną omówione w następnym podrozdziale. Po zastosowaniu funkcji jądrowych, SVM szuka najlepszego (optymalnego), liniowego odwzorowania w nowej przestrzeni cech. W przedstawianej metodzie zakłada się, że zbiór uczący składa się z takich elementów jak: zmienne wejściowe x i, które są losowo wybrane z prawdopodobieństwem P (x i ), ze zbioru wejściowego X, oraz zbiór stanów procesu Y, do którego należą odpowiedzi y i dla parametrów x i. Dla parametrów wejściowych charakterystyczne jest, że te same zmienne x i mogą generować różne stany wyjściowe y i, co określa się prawdopodobieństwem warunkowym P(y i x i ). W procesie uczenia metody SVM wyodrębnia się następujące etapy: generator danych z procesu (system pomiarowy, modele matematyczne procesu), system odpowiedzi procesu y i, maszyny uczącej (na podstawie danych wejściowych, wyjściowych procesu technologicznego, poszukuje zależność pomiędzy częścią wejściową oraz wyjściową). Wynikiem końcowym omawianego procesu uczenia jest funkcja aproksymująca f(x,w), czyli model. W funkcji tej zmienna w jest zbiorem parametrów modelu aproksymującego, nazywana wagami. [9] 25

Maszyna ucząca w(x,y) Dane wejściowe generowane z procesu (pomiary, modele matematyczne) x Proces technologiczny F(x,w) y Rysunek 10 Model SVM w zastosowaniu do procesów technologicznych[9] Struktura optymalnej hiperpłaszczyzny Bardzo ważnym elementem modelu SVM jest znalezienie jak największego marginesu pomiędzy rozpatrywanymi klasami. Dlatego należy wyznaczyć prostą separującą w taki sposób, aby margines był możliwie duży: (19) gdzie: równanie hiperpłaszczyzny, w wektor prostopadły do hiperpłaszczyzny, b odległość od środka układu współrzędnych. Po przekształceniach powyższej nierównści, została otrzymana funkcja celu: (20) Zakładając, że w kolejnym kroku, wykorzystując metodę mnożników Lagrange, otrzymuje się lagrangiana, opisanego następującym równaniem: (21) gdzie: a i >0 jest mnożnikiem Lagrange a 26

Następnie należy znaleźć maksymalną wartość dla lagrangiana L ze względu na a i. W takim wypadku celem staje się maksymalizacja lagrangiana L ze względu na a i oraz minimalizacja ze względu na w i b. Operacje te prowadzą do sytuacji, gdzie pochodne L zanikają. Przekształcenia te przedstawia równanie: (22) (23) Przedstawione powyżej równania są prawdziwe tylko dla zbioru danych separowanych liniowo. Wektory x i, dla których a i >0 nazywa się wektorami podpierającymi bądź wspierającymi. Na ilustracji 11 zostały zobrazowane wektory wspierające, oznaczone są one strzałkami. Rysunek 11 Wektory wspierające [17 ] Warunkami koniecznymi dla dowolnego punkty, aby był on optymalny, są warunki Karusha- Kuhna-Tuckera (KKT). Zgodnie z twierdzeniem KKT w punkcie siodłowym (optimum problemu) lagrangiana L niezerowe są tylko te współczynniki a i, dla których: (24) Powyższe równanie, opisuje, że wektory podpierające leżą na marginesie, tak jak zostało to pokazane na ilustracji 10. Następnie przekształcając lagrangian L jak w równaniu poniżej: 27

(25) oraz przeprowadzając kolejne przekształcenia i biorąc pod uwagę właściwość zanikania pochodnych L, zostają usunięte zmienne w, b. Po przeprowadzeniu tych operacji dochodzi się do dualnego problemu optymalizacyjnego: (26) Stosując kolejne przekształcenia i właściwość zanikania pochodnych L eliminujemy zmienną w oraz b i otrzymujemy dualny problem optymalizacyjny zakładając, że: (27) (28) W wyniku tych operacji, funkcja klasyfikacyjna przyjmuje postać: (29) Konstrukcja hiperpłaszczyzny dla przypadków nieseparowanych Gdy warunek nie jest spełniony: (30) to przestrzeń jest nieseparowana. Cortes i Vapnik znaleźli rozwiązanie dla przestrzeni niespełniających powyższą nierówność. Uczeni zaproponowali rozwiązanie polegające na wprowadzeniu zmiennych i rozluźniających więzi nierówności: (31) Parametr i sprawia, że wektory x i, które spełniają warunek > 0, zostały przydzielone do niewłaściwej klasy (były po niewłaściwej stronie płaszczyzny). Współczynnik i jest 28

traktowany jak kara dla klasy, dzięki czemu klasyfikator może nadzorować wielkość marginesu - szerokość w oraz wysokość i i. W wyniku tych rozważań można określić nową funkcję celu: (32) Uwzględniając rozwiązania Cortesa i Vapnika, gdzie parametr C jest definiowany przez użytkownika oraz zgodnie z twierdzeniem Karush-Kuhn-Tuckera lagrangian wyraża się wzorem: (33) gdzie: μ i - są mnożnikami Lagrange a wymuszającymi wartości większe od 0 dla i W tym wypadku pochodne L także są eliminowane, funkcja przyjmuje postać: (35) gdy spełnione są warunki: (36) (37) (38) (39) (40) (41) (42) Dualny problem optymalizacji przyjmuje postać: (43) z ograniczeniami: (44) 29

(45) Funkcja dualnego problemu optymalizacji dla przestrzeni separowanej nie różni się od powyższej, to jedynie warunki, jakie muszą zostać spełnione, aby równanie było prawdziwe są różne.[18] Funkcje jądrowe Bardzo często pojawiają się zagadnienia problemu, gdzie liniowa separowalność przestrzeni jest niemożliwa, taki przykład obrazuje ilustracja 12. Rysunek 12 Rozkład danych [opracowanie własne] Zwiększając wymiar przestrzeni można znaleźć liniowy model danych wcześniej nieseparowanych. Transformacja przestrzeni danych wejściowych jest możliwa dzięki zastosowaniu tzw. funkcji jądrowych (ang. kernel). Następnie określa się hiperpłaszczyznę na podstawie tylu punktów, ile ma wymiarów przekształcona przestrzeń. [9] Hiperpłaszczyzna jest tworzona w wysokowymiarowej przestrzeni cech Z, która jest określona jako nieliniowy iloczyn funkcji bazowych opisanych w przestrzeni wejściowej. W takiej sytuacji równanie hiperpłaszczyzny przyjmuje postać: (46) gdzie: K i (x i,x) to jądro iloczynu skalarnego funkcji bazowej przestrzeni cech Z φ j (x), 30

dla j = 1,2,3...m, a i to mnożnik Lagrange'a, który pasuje do wagi neuronu w sztucznej sieci neuronowej, y i wartość przyjmująca wartości od 1 do( -1) co odzwierciedla klasę pierwszą (1) oraz drugą (-1), b odległość hiperpłaszczyzny od środka układu Poprzez zdefiniowanie iloczynu skalarnego na podstawie funkcji bazowej, rozważany problem jest w innej przestrzeni. Iloczyn skalarny określa się wzorem: (47) ta pozwala na szukanie rozwiązania w nowej przestrzeni, która jest separowalna liniowo. Funkcje jądrowe K reprezentujące iloczyn skalarny, zgodnie z teorią przestrzeni Hilberta, muszą być dodatkowo określone za pomocą poniższej nierówności: [19] (48) Rozróżnia się różne funkcje jądrowe: Funkcja wielomianowa gdzie: q R, θ = 0.1 (49) Funkcja gaussowska (50) Funkcja tangensa hiperbolicznego (51) Funkcja wielomianu Vovka (52) Nawiązując do problemu dualnej optymalizacji struktura hiperpłaszczyzny oraz do funkcji 31

jądra, zagadnienie to przyjmuje postać: (53) Na podstawie powyższego równanie można określić funkcję decyzyjną w przestrzeni φ j (x). Funkcja przyjmuje wartości większe od zero dla jednej klasy, a dla drugiej mniejsze, od 0, co przedstawia równanie[20]: (54) Model regresyjny SVM Możliwe jest przedstawienie algorytmu SVM, jako regresji, zachowując wszystkie właściwości maszyny wektorów podpierających. Zamiast próby klasyfikowania zmiennej x do jednej z dwóch kategorii y = 1, można przewidzieć realną wartość wyjściową dla y, tak, że dane treningowe są przedstawione, jako zależności: (55) (56) Rysunek 13 SVM regresja z zakresem marginesu [20]. 32

W regresji maszyny wektorów podpierających używa się bardziej zaawansowanych funkcji kary niż w tradycyjnych algorytmach SVM. Jeśli wartość przewidywana y i jest mniejsza niż odległość od aktualnej wartości t i, tzn. t i - y i <, to kara nie jest przyznawana. Odnosząc się do powyższej ilustracji, obszar powiązany z y i i nazywa się niewrażliwym marginesem. Kolejną zmianą w funkcji kary są zmienne wyjściowe, leżące poza marginesem. Dają one jedną z dwóch luźnych zmiennych kary, zależnie czy leżą nad(ξ + ), czy pod(ξ - ) marginesem rozdzielającym klasy (gdzie: ξ + > 0, ξ - <0 i): (57) (58) Funkcja błędu dla regresji SVM może być zapisana, jako: (59) Funkcja ta powinna być zminimalizowana, spełniając warunki ξ + > 0, ξ - <0 i, oraz zgodnie z powyższymi wzorami. W tym celu wprowadza się mnożniku Lagrange: (60) (61) Zastępując y i, rozróżniającym w stosunku do w, b, ξ +, ξ - i przyrównując pochodne do 0: (62) (63) (64) (65) Następnie należy zmaksymalizować L D w stosunku do α i + i α i - (gdzie: α i + 0, α i - 0 i), 33

gdzie: (66) (67) Jeżeli założyć μ i + 0 i μ i - 0 dla powyższych wzorów, to α i + C, α i - C. W następnej kolejności należy znaleźć: (68) tak, że: (69) Po dalszych przekształceniach można znaleźć nowe y za pomocą wzoru: (70) Ustawiając S z wektorów wspomagających x s może być kreowany przez szukające indeksy i gdzie: (71) z czego wynika: (72) Dla błędu klasyfikacji modelu regresji SVM używa się pierwiastka średniego błędu kwadratowego, który jest opisany w podrozdziale 3.3. [14],[19], [21], [22] 3.3.4. Ocena poprawności modelu Oceny klasyfikacji dokonuje się przy pomocy współczynnika poprawności: (73) 34

Bądź błędu klasyfikacji: (74) gdzie: m liczba wszystkich wektorów w zbiorze danych m err liczba błędnie sklasyfikowanych wektorów. W rzeczywistych zbiorach danych ilość przedstawicieli wszystkich klas nie jest równomierna. Dlatego wyniki testowe nie byłyby wiarygodne. Jeżeli w zbiorze testowym jest zdecydowanie więcej przedstawicieli jednej klasy, to wyniki testowe mogą być nieprawdziwe. Aby uniknąć niepoprawnych wyników oblicza się wskaźnik błędu zbalansowanego: (75) gdzie: c liczba klas, m i liczba przypadków w klasie i, - liczba niepoprawnie sklasyfikowanych przypadków w klasie i. Dla problemów regresyjnych błąd określany jest również za pomocą sumarycznego błędu kwadratowego: (76) lub średniego błędu kwadratowego: (77) 35

oraz pierwiastka średniego błędu kwadratowego, którego wykorzystano do oceny modeli analizowanych w niniejszej pracy. Pierwiastek średniego błędu kwadratowego przedstawionego wzorem [23]: (78) 36

ROZDZIAŁ 4. Empiryczna analiza problemu. Projekt został zrealizowany przy użyciu programu RapidMiner. Jest to aplikacja służąca do analizy i eksploracji danych z wykorzystaniem metod uczenia maszynowego. Zastosowanie tej aplikacji jest bardzo szerokie, wykorzystuje się go do analizy danych pochodzących z różnych źródeł. 4.1. Zbiór danych Podczas procesu wytopu stali w piecu EAF praca takich elementów jak lance, czujniki palniki regulowana jest za pomocą sterowników PLC. Sterowniki te także na bieżąco rejestrują aktualne pomiary nastaw do bazy danych. Ponadto około 3 razy w trakcie trwania procesu wytopu stali dokonuje się pomiarów temperatury stali oraz poziomu natleniania. Tak zebrane dane pozwalają na stworzenie zbioru danych uczących, dla modeli predykcyjnych/uczących się. Przy każdym pomiarze tlenu tworzony jest nowy wektor danych zawierający wartości opisujące stan pieca oraz wartość zmierzonej aktywności tlenu. Dodatkowo każdy wektor został wzbogacony o dane historyczne dotyczące wartości zarejestrowanych dla poprzedniego stanu pieca (stan z chwili realizacji poprzedniego pomiaru). Dzięki temu możliwe jest dokonanie predykcji aktywności tlenu z większą dokładnością gdyż model może wyznaczyć przyrosty poszczególnych wartości i ich wpływ na wartość predykowaną. Kolumny znajdujące się w zbiorze danych odnoszą się do poszczególnych, rzeczywistych wskazań, które zostały zarejestrowane podczas procesu wytopu. Część kolumn ma dopisek Old, który wskazuję, że są to wartości określonych zmiennych zarejestrowanych podczas poprzedniego pomiaru aktywności tlenu. Kolumny w zbiorze danych: IdPomiaru WagaK3 PomiarTb3 PomiarTlen NrWytopu PomiarTlenNrPomiaru WagaK1 WagaK2 TempPopWytopu TempPopWytopuCzas ZlaniePopWytopuCzas PomiarTb1 PomiarTb2 PomiarTb4 PomiarTb5 PomiarTb6 StartEnergiaK1 StartEnergiaK2 37

38 StartEnergiaK3 EnergiaK1 EnergiaK2 EnergiaK3 EnergiaSuma WegielL1Suma WegielL1K1 WegielL1K2 WegielL1K3 WegielL2Suma WegielL2K1 WegielL2K2 WegielL2K3 TlenL1Suma TlenL1K1 TlenL1K2 TlenL1K3 TlenL2Suma TlenL2K1 TlenL2K2 TlenL2K3 TlenL3Suma TlenL3K1 TlenL3K2 TlenL3K3 TlenP1Suma TlenP1K1 TlenP1K2 TlenP1K3 TlenP2Suma TlenP2K1 TlenP2K2 TlenP2K3 TlenP3Suma TlenP3K1 TlenP3K2 TlenP3K3 GazP1Suma GazP1K1 GazP1K2 GazP1K3 GazP2Suma GazP2K1 GazP2K2 GazP2K3 GazP3Suma GazP3K1 GazP3K2 GazP3K3 EnergiaCzynnaSuma EnergiaCzynnaDog IloscWytopowPoRemonci IloscDniPoRemoncie PomiarTlenCzas PomiarTlenOld PomiarTlenCzasOld PomiarTb1Old PomiarTb2Old PomiarTb3Old PomiarTb4Old PomiarTb5Old PomiarTb6Old EnergiaSumaOld EnergiaCzynnaSumaOld WegielL1SumaOld WegielL2SumaOld TlenL1SumaOld TlenL2SumaOld TlenL3SumaOld TlenP1SumaOld TlenP2SumaOld TlenP3SumaOld GazP1SumaOld GazP2SumaOld

Opis poszczególnych zmiennych został zamieszczony w tabeli 1. Zmienne IdPomiaru, PomiarTlen, NrWytopu, PomiarTlenNrPomiaru są atrybutami specjalnymi, z których PomiarTlen stanowi wartości, dla których dokonywane są próby predykcji danych różnymi metodami. Pozostałe 3 zmienne to zbiór informacji uzupełniających. NrWytopu DataWytopu Temp TempCzas TempNrPomiaru Symbol wytopu Bezwzględna data i czas startu wytopu Zmierzona temperatura Bezwzględny czas pomiaru temperatury Nr pomiaru dla danego wytopu WagaKi GęstośćKi GęstośćSuma UzyskKi UzyskSuma TempPopWytopu Waga kosza i Gęstość kosza i Średnia ważona gęstości wszystkich koszy Wzysk kosza i Średnia ważona uzysku wszystkich koszy Ostatnia zmierzona temperatura poprzedniego wytopu TempPopWytopuCzas Odległość w sekundach od aktualnego pomiaru TempCzas ZlaniePopWytopuCzas Odległość momentu zlania poprzedniej kadzi w sekundach od aktualnego pomiaru StartTbi PomiarTbi Temperatura i trzonu w chwili rozpoczęcia topienia Temperatura i trzonu tuż przed pomiarem TempCzas PomiarTbiCzas StartEnegiaK1 Odległość w sekundach od pomiaru TempCzas Czas względny (od TempCzas) rozpoczęcia poboru energii dla kosza 1 KoniecEnegiaK1 Czas względny (od TempCzas) końca poboru energii 39