ZAAWANSOWANE METODY STATYSTYCZNE W STEROWANIU PROCESAMI PRODUKCYJNYMI

Podobne dokumenty
IDENTYFIKACJA PRZYCZYN WADY POROWATOŚCI W ODLEWACH STALIWNYCH Z WYKORZYSTANIEM SZTUCZNYCH SIECI NEURONOWYCH

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

WPŁYW WIELKOŚCI WYDZIELEŃ GRAFITU NA WYTRZYMAŁOŚĆ ŻELIWA SFEROIDALNEGO NA ROZCIĄGANIE

MODELOWANIE ROZKŁADU STOPNIA ZAGĘSZCZENIA MASY FORMIERSKIEJ Z WYKORZYSTANIEM SYSTEMÓW UCZĄCYCH SIĘ

ZASTOSOWANIE SYSTEMÓW UCZĄCYCH SIĘ DO PRZEWIDYWANIA WŁASNOŚCI MATERIAŁÓW ODLEWANYCH

Process Analytical Technology (PAT),

WPŁYW SZYBKOŚCI STYGNIĘCIA NA WŁASNOŚCI TERMOFIZYCZNE STALIWA W STANIE STAŁYM

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Wprowadzenie do analizy korelacji i regresji

PRZEWODNIK PO PRZEDMIOCIE

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

CHARAKTERYSTYKA I ZASTOSOWANIA ALGORYTMÓW OPTYMALIZACJI ROZMYTEJ. E. ZIÓŁKOWSKI 1 Wydział Odlewnictwa AGH, ul. Reymonta 23, Kraków

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Zarządzanie procesami

Streszczenie: Zasady projektowania konstrukcji budowlanych z uwzględnieniem aspektów ich niezawodności wg Eurokodu PN-EN 1990

Elementy modelowania matematycznego

Zastosowania sieci neuronowych

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

PRZEWODNIK PO PRZEDMIOCIE

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Sterowanie wielkością zamówienia w Excelu - cz. 3

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyczne sterowanie procesem

PRZESTRZENNY MODEL PRZENOŚNIKA TAŚMOWEGO MASY FORMIERSKIEJ

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

POLITECHNIKA OPOLSKA

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

1. SOLUTIONS -> ANALYSIS -> QUALITY IMPROVEMENT

Pobieranie prób i rozkład z próby

Testowanie hipotez statystycznych. Wprowadzenie

166 Wstęp do statystyki matematycznej

ZMĘCZENIE CIEPLNE STALIWA CHROMOWEGO I CHROMOWO-NIKLOWEGO

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wnioskowanie bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

PRZEWODNIK PO PRZEDMIOCIE

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

BADANIA SKURCZU LINIOWEGO W OKRESIE KRZEPNIĘCIA I STYGNIĘCIA STOPU AlSi 6.9

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

LABORATORIUM Z FIZYKI

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

laboratoria 24 zaliczenie z oceną

ALGORYTMY SZTUCZNEJ INTELIGENCJI

BADANIA SKURCZU LINIOWEGO W OKRESIE KRZEPNIĘCIA I STYGNIĘCIA STOPU AlSi 5.4

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Streszczenie. Słowa kluczowe: towary paczkowane, statystyczna analiza procesu SPC

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

WYKORZYSTANIE MODELI AUTOREGRESJI DO PROGNOZOWANIA SZEREGU CZASOWEGO ZWIĄZANEGO ZE SPRZEDAŻĄ ASORTYMENTU HUTNICZEGO

Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.

OCENA JAKOŚCI ŻELIWA SFEROIDALNEGO METODĄ ATD

WPŁYW SZYBKOŚCI STYGNIĘCIA NA PARAMETRY KRYSTALIZACJI ŻELIWA CHROMOWEGO

RAPORT z diagnozy umiejętności matematycznych

Rok akademicki: 2012/2013 Kod: JFM s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Diagnostyka procesów

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Analiza składowych głównych. Wprowadzenie

Porównywanie populacji

SPC - Statystyczne Sterowanie Procesem

Metody statystyczne w socjologii SYLABUS A. Informacje ogólne Opis

Six Sigma Black Belt. Program szkoleniowy

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Porównanie wyników symulacji wpływu kształtu i amplitudy zakłóceń na jakość sterowania piecem oporowym w układzie z regulatorem PID lub rozmytym

Testowanie modeli predykcyjnych

KARTY KONTROLNE SHEWHARTA przykłady zastosowań nieprodukcyjnych

Analiza autokorelacji

STATYSTYKA MATEMATYCZNA

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

STRUKTURA ŻELIWA EN-GJS W ZALEŻNOŚCI OD MATERIAŁÓW WSADOWYCH

Analiza możliwości szacowania parametrów mieszanin rozkładów prawdopodobieństwa za pomocą sztucznych sieci neuronowych 4

Zawartość. Zawartość

STATYSTYKA MATEMATYCZNA

Dopasowywanie modelu do danych

Analiza i monitoring środowiska

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Inteligentna analiza danych

Katedra Technik Wytwarzania i Automatyzacji STATYSTYCZNA KONTROLA PROCESU

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

SYSTEMY MONITORUJĄCE I STERUJĄCE PRODUKCJĄ W ODLEWNI WYKORZYSTUJĄCE SZTUCZNE SIECI NEU- RONOWE

Hipotezy statystyczne

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

POLITECHNIKA WARSZAWSKA

FOTOELEKTRYCZNA REJESTRACJA ENERGII PROMIENIOWANIA KRZEPNĄCEGO STOPU

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Systemy uczące się Lab 4

ALGORYTM RANDOM FOREST

BADANIA NAPRĘŻEŃ SKURCZOWYCH W OKRESIE KRZEPNIĘCIA I STYGNIĘCIA STOPU AlSi 6.9

Transkrypt:

1/12 ARCHIWUM ODLEWNICTWA Rok 2004, Rocznik 4, Nr 12 Archives of Foundry Year 2004, Volume 4, Book 12 PAN Katowice PL ISSN 1642-5308 ZAAWANSOWANE METODY STATYSTYCZNE W STEROWANIU PROCESAMI PRODUKCYJNYMI M. PERZYK 1, R. BIERNACKI 2 Instytut Technologii Materiałowych Politechniki Warszawskiej Narbutta 85, 02-524 Warszawa STRESZCZENIE Omówiono rosnące znaczenie statystycznego sterowania procesami produkcyjnymi oraz zasady budowy systemów typu Six Sigma. Przedstawiono ideę narzędzi statystycznych nowego typu, jakimi są systemy uczące się, dotychczas nie stosowane w tego typu systemach. Zaprezentowano działanie tzw. naiwnego klasyfikatora Bayesa i przedyskutowano możliwości jego zastosowań w praktyce produkcyjnej. Key words: statistical process control, learning systems, naive Bayesian classifier 1. WSTĘP Wzrastające wymagania konkurencji na rynkach światowych skłoniły producen - tów do stosowania rozwiązań organizacyjnych i technicznych mających na celu istotną poprawę jakości i ekonomiki produkcji. Pojawiły się systemy zapewniania jakości, a następnie zarządzania jakością, stanowiące organizacyjną formę takich działań. Wymagania odnośnie tego typu systemów zostały objęte normami międzynarodowymi ISO serii 9000. Merytorycznym elementem każdego takiego systemu powinna być analiza danych produkcyjnych, wykonywana z użyciem metod statystycznych. W niniejszej pracy omówiono systemy statystycznego sterowania procesem lub jakością produkcji oraz niektóre wykorzystywane w nich metody statystyczne. W dalszej części przedstawiono ideę narzędzi statystycznych nowego typu, jakimi są systemy uczące się, dotychczas nie 1 prof. dr hab. inż., e-mail: M.Perzyk@wip.pw.edu.pl 2 mgr inż., e-mail: rbiernac@wip.pw.edu.pl

stosowane w tego typu systemach. Wyjaśniono działanie tzw. naiwnego klasyfikatora Bayesa i przedyskutowano możliwości jego zastosowań w praktyce produkcyjnej. Zaprezentowano wstępne wyniki prac własnych dotyczących oceny jakości mo - delowania procesów produkcyjnych przez ten klasyfikator, w postaci analizy błędów przewidywania wyników procesu dla różnego typu danych rzeczywistych i sztucznie wygenerowanych. 2. WSPÓŁCZESNE SYSTEMY STATYSTYCZNEGO STEROWANIA PROCESAMI PRODUKCYJNYMI We współczesnym przemyśle szybko rozpowszechniają się systemy zapewnienia jakości oparte na zasadach sformułowanych przez Amerykanina W. E. Deminga. Najbardziej znany jest system o nazwie Six Sigma (Sześć Sigma), będącej znakiem handlowym powstałym 12 lat temu i którego właścicielem jest firma Motorola. Six Sigma to precyzyjnie zorganizowana, bazująca na realnych danych metodologia eliminacji d e- fektów, strat i wszelkich problemów z jakością, we wszystkich dziedzinach produkcji, usług, zarządzania i w innej działalności biznesowej [1]. Jej podstawą jest połączenie znanych technik statystycznego sterowania jakością z innymi, zarówno prostymi jak i zaawansowanymi metodami statystycznymi oraz z systematycznym szkoleniem całego personelu, z każdego szczebla organizacji, włączonego w procesy i działania objęte tą metodą. Działania wykonywane w przedsiębiorstwie w ramach tego typu syst emu określane są w skrócie DMAPS (angielskojęzyczne DMAIC), co oznacza: Definiuj. Na tym etapie określa się cele i ograniczenia, identyfikuje się zagadnienia, którymi trzeba się zająć, aby osiągnąć wyższy poziom sigma. Mierz. W tej fazie planu Six Sigma zbiera się informacje o aktualnym stanie procesu, by ustalić poziom odniesienia oraz by rozpoznać skalę problemu. Analizuj. Celem tej fazy jest wskazanie krytycznych przyczyn kłopotów z jakością i potwierdzenie, z użyciem odpowiednich analiz, ich wpływu na proces. Poprawiaj. Na tym etapie wprowadza się rozwiązania usuwające analizowane wcześniej, krytyczne problemy. Sprawdzaj. W tej fazie sprawdza się i monitoruje wyniki osiągnięte w poprzednim etapie. Przy projektowaniu nowych procesów stosuje się odmianę podstawowego cyklu Six Sigma, gdzie etap Definiuj ma taki sens jak powyżej, etap Mierz koncentruje się na ocenie potrzeb klienta czy rynku, w etapie Analiz bada się różne opcje procesu, a etapy Popraw i Sprawdzaj zastąpione są przez Projektuj (proces by spełniał oczekiwania klienta) i Testuj (zdolność procesu do spełnienia wymagań postawionych w poprzednim etapie). Na każdym z tych etapów używa się różnorodnych metod analitycznych i staty - stycznych, których pełne wykazy można znaleźć np. w [2]. Najbardziej wartościowym narzędziem są karty kontrolne procesu [3], stosowane dość powszechnie w przemyśle od dawna (niezależnie od metodologii Six Sigma), przy czym niektóre ich typy zawarte są w normach krajowych i międzynarodowych. Warto zwrócić jednak uwagę, że na 20

Parametr testu Średnia z próbki ARCHIWUM ODLEWNICTWA ogół przedsiębiorstwa ograniczają się do dwóch podstawowych kart, którymi są karta wartości średniej X oraz karta rozstępu R (rzadziej odchylenia standardowego). Warto jednak zwrócić uwagę na zalety stosowania bardziej zaawansowanych typów kart, opa r- tych na metodach sekwencyjnych. Pozwalają one na znacznie głębsze wnioskowanie o procesie, a w szczególności lepszą ocenę tendencji do rozregulowania oraz ułatwione przewidywanie jego dalszego rozwoju. Szerokie omówienie tych metod można znaleźć np. w pracy [3], natomiast tutaj pokażemy jedynie przykład dwóch kart kontrolnych sporządzonych dla tych samych danych: wspomnianej, tradycyjnie stos owanej karty średniej z próbki oraz karty CUSUM Shewarta (rys. 1). 275 GLK Karta średniej 270 ` DLK 265 20 25 30 35 40 45 50 55 60 Test CUSUM Numer Shewharta próbki 2,5 GLK 1,5 0,5-0,5-1,5 DLK -2,5 20 25 30 35 40 45 50 55 60 Numer próbki Rys. 1. Porównanie dwóch kart kontrolnych: tradycyjnie stosowanej karty średniej z próbki oraz karty CUSUM Shewarta, sporządzonych dla tych samych, przykładowych danych przemysłowych. Fig. 1. Comparison of two statistical control charts: X type chart and Shewart s CUSUM chart, calculated for the same, exemplary industrial data sets. 21

Ta ostatnia jest jednym z narzędzi służących do wykrywania dryfu wartości średniej. Widoczne na niej pojawianie się dryfu wartości kontrolowanej jest trudne do zao b- serwowania i oceny na podstawie karty standardowej. 3. PODSTAWY PROBABILISTYCZNYCH SYSTEMÓW UCZĄCYCH SIĘ WYKORZYSTUJĄCYCH NAIWNY KLASYFIKATOR BAYESA Szczególnie intensywnie rozwijającą się dziedziną badań w ramach sztucznej inteligencji są systemy uczące się, tj. zdolne do poprawy jakości wykonywania swoich zadań na podstawie doświadczeń z przeszłości [4]. Są one przedmiotem zainteresowań wielu instytucji naukowo badawczych i znajdują coraz częściej znaczące zastosowanie praktyczne. Jednym z rodzajów tego typu systemów są systemy wykorzystujące rachunek prawdopodobieństwa i statystykę matematyczną. Jak na razie, nie są one prop o- nowane w systemach statystycznego sterowania produkcją omówionych powyżej, ch o- ciaż wydaje się, że mogłyby one być bardzo pomocne w przewidywaniu rozwoju sytuacji w procesie, w tym szansy wzrostu zagrożeń, na podstawie aktualnie stos owanych parametrów i warunków produkcji. Należy bowiem podkreślić, że systemy uczące się p o- zwalają nie tylko na analizę dotychczasowego przebiegu procesu, ale także na obliczanie spodziewanych wartości wielkości wynikowych. Systemy wykorzystujące metody probabilistyczne oparte są na ogół na znanym twierdzeniu i wzorze Bayesa. Stosunkowo prostym, efektywnym i sprawdzonym w praktyce narzędziem okazał się tzw. naiwny klasyfikator Bayesa (NKB), którego dokładny opis można znaleźć np. w pracy [4]. Najogólniej biorąc, wykorzystanie tego narzędzia sprowadza się do następujących działań. Ustalenie tzw. kategorii dla wielkości (inaczej atrybutów) wejściowych oraz kategorii wielkości wyjściowej (inaczej pojęcia docelowego). Należy zauważyć, że NKB wymaga stosowania wielkości o charakterze nominalnym lub porządkowym, a nie ciągłym. Wartość atrybutu lub pojęcia docelowego jest określana przez oznaczenie jego przynależności do danej kategorii, która może być identyfikowana werbalnie, np. coś może być bardzo małe, małe, średnie, duże i bardzo duże (5 kategorii), albo dobre i złe (2 kategorie). W niniejszej pracy zmienne ciągłe zamieniano na wyrażone w kategoriach, przez zaliczenie wartości każdej z nich do jednej z kategorii oznaczonych numerami, odpowiadającymi przedziałom tej oryginalnej wartości. Utworzenie zbioru trenującego, składającego się z zapisów (rekordów) zawierających wartości kategorii wszystkich wielkości wejściowych oraz odpowiadającej im wartości kategorii wielkości wyjściowej. Na podstawie zbioru trenującego szacuje się prawdopodobieństwa poszczególnych kategorii wielkości wyjściowej oraz prawdopodobieństwa poszczególnych katego - rii wszystkich wielkości wejściowych dla poszczególnych kategorii wielkości wy j- ściowej. Etap ten jest określany jako uczenie (trenowanie) klasyfikatora. 22

23 ARCHIWUM ODLEWNICTWA Na podstawie prawdopodobieństw oszacowanych na etapie uczenia, można obliczyć prawdopodobieństwa wystąpienia każdej z kategorii wielkości wyjściowej dla dowolnego przypadku (zestawu kategorii wielkości wejściowych). Odpowiedzią NKB jest ta wartość kategorii wielkości wyjściowej, która uzyskała największą wartość prawdopodobieństwa. W przypadku, gdy kategorie wyjścia zostały utworzone przez przypisanie liczbom oznaczającym nazwy tych kategorii przedziały wartości wyjścia ciągłego, możliwa jest zamiana nazwy obliczonej kategorii np. na średnią wartość oryginalną z takiego przedziału. 4. WSTĘPNE BADANIA WŁASNE NAD MOŻLIWOŚCIAMI ZASTOSOWAŃ NKB DO MODELOWANIA PROCESÓW PRODUKCYJNYCH Wykonano wstępne badania testujące przydatność NKB do modelowania proc e- sów produkcyjnych o nieznanej naturze fizycznej. Wykorzystano w tym celu następujące zbiory trenujące, wykorzystywane wcześniej przez jednego z autorów do modelowania przy pomocy sztucznych sieci neuronowych: Zbiór 1. Uzyskane w przemyśle wyniki badań wytrzymałości żeliwa sferoidalnego w zależności od jego składu chemicznego, określonego przez 9 pierwiastków [4]. Oprócz zbioru uczącego, liczącego 700 rekordów, utworzono zbiór weryfikujący 90 rekordów, nie wykorzystywanych do uczenia, który posłużył do oceny błędów przewid y- wania wartości wyjściowej dla nowych przypadków. Zbiór 2. Utworzony sztucznie na podstawie wzoru: Y = X 1 + 2 X 2 + 3 X 3 + 4 X 4 + 5 X 5, z zakłóceniami losowymi wg rozkładu normalnego (szczegóły podano w pracy [5]). Liczebność zbioru uczącego wynosiła 1000 rekordów, zaś weryfikującego 200. Zbiór 3. Dane przemysłowe, w których wielkościami wejściowymi są parametry procesu produkcyjnego związane z formą piaskową, zaś wielkością wyjściową wystąpienie wady typu porowatość gazowa w odlewie staliwnym (szczegóły podano w pracy [6]). W tym przypadku oryginalne wyjście było typu nieciągłego (kategoria 1 brak wady, kategoria 2 wystąpienie wady). Zbiór uczący zawierał 172 rekordy, zbioru weryfikującego nie było. Wszystkie obliczenia zaprogramowano i wykonano w arkuszu kalkulacyjnym Excel. Dla każdego z powyższych zbiorów wykonano próby z dobieraniem liczby przedziałów (kategorii) wielkości wejściowych oraz wielkości wyjściowej (dla zbioru 1 i 2), przy czym w danym uczeniu stosowano dla wszystkich zmiennych jednakową liczbę przedziałów. Na rys. 2 pokazano wyniki tych prób, w postaci wykresów względnych błędów średnich dla zbiorów 1 i 2, natomiast w przypadku zbioru 3 (o wyjściu nieciągłym, z dwiema kategoriami) błąd zdefiniowano jako procent nietrafnych kategorii. Na rys. 3 pokazano rozkłady błędów przewidywania wielkości wyjściowych przez NKB dla obu zbiorów o wyjściu ciągłym, uzyskane dla tych podziałów na kategorie, które dały najmniejszy błąd średni dla zbiorów weryfikujących (niezależnych). Błędy przedstawione na rys. 3a obliczano w odniesieniu do wartości rzeczywistej. Widoczne jest, że NKB lepiej przewiduje wartości dla danych przemysłowych (Zbiór 1), niż utwo-

rzonych sztucznie wg prostego schematu (Zbiór 2). Spowodowane to może być zaró w- no większym rozrzutem wyników w tym drugim przypadku, jak i faktem, że zakresy zmienności zmiennych wyjściowych były w obu przypadkach zupełnie różne. Jeżeli błędy przewidywania odniesie się do wartości zakresu zmienności, jak to pokazano na rys. 3b, wówczas błędy dla obu zbiorów są sobie bliskie. Warto także zwrócić uwagę, że wartości błędów dla danych, w których oryginalne wyjście było nieciągłe, wyrażone za pomocą dwóch kategorii typu: 1 - brak wady lub 2 - wada występuje (Zbiór 3), udział nietrafnych kategorii wyniósł ok. 12 %, co należy uznać za wynik dość zadowalający. 30 25 20 11 Zbiór 1, błąd średni dla danych uczących Zbiór 1, błąd średni dla danych weryfikujących 15 Zbiór 2, błąd średni dla danych uczących 10 6 Zbiór 2, błąd średni dla danych weryfikujących 5 10 Zbiór 3, % mylnych kategorii dla danych uczących 0 0 10 20 30 40 Liczba kategorii Rys. 2. Błędy przewidywania wielkości wyjściowej przez NKB dla trzech analizowanych zbiorów danych, w funkcji ilości kategorii (przedziałów), na jakie podzielono wielkości wejściowe i wyjściowe; zaznaczono liczby kategorii, które uznano za optymalne. Fig. 2. Prediction errors of naive Bayesian classifier for three analyzed training data sets versus number of categories assumed; optimum numbers of categories are marked. Jedną z korzyści, jakie może dać modelowanie procesów produkcyjnych jest wskazanie wielkości odgrywających dominującą czy przynajmniej bardzo znaczącą, albo też znikomą bądź żadną, rolę w procesie. W pierwszym przypadku jest to pomocne np. w wykrywaniu przyczyn awarii urządzeń, zakłóceń procesów technologicznych, określaniu parametrów procesu technologicznego decydujących o jakości wyrobu i w innych tego typu sytuacjach. W drugim może służyć do redukcji liczby wielkości 24

0 do 5 5 do 10 10 do 15 15 do 20 > 20 Udział wyników z danym błędem. 0 do 5 5 do 10 10 do 15 15 do 20 > 20 Udział wyników z danym błędem ARCHIWUM ODLEWNICTWA wejściowych, co m. in. oznacza uproszczenie procedur rejestrowania i kontrolowania parametrów procesu. a) 0,5 0,4 0,3 0,2 0,1 0 Zbiór 1, dane uczące Zbiór 1, dane weryfikujące Zbiór 2, dane uczące Zbiór 2, dane weryfikujące b) 0,5 0,4 0,3 0,2 Wartości bezwględne błędów względnych, % Zbiór 1, dane uczące Zbiór 1, dane weryfikujące Zbiór 2, dane uczące 0,1 Zbiór 2, dane weryfikujące 0 Wartości bezwględne błędów względnych, % Rys. 3. Rozkłady błędów przewidywania wielkości wyjściowej przez NKB dla dwóch zbiorów danych o wyjściu oryginalnym ciągłym; a obliczane w odniesieniu do wartości rzeczywistej, b w odniesieniu do wartości przedziału zmienności wielkości wyjściowej. Fig. 3. Distributions of prediction errors of naïve Bayesian classifier for two data sets with original continuos outputs; a calculated in reference to the actual value, b in reference to the output maximum variability range. 25

Wypróbowano kilka sposobów określania istotności względnej wielkości we j- ściowych, przy czym okazało się, że metody oparte na odpytywaniu modelu (podobne do zastosowanych z powodzeniem dla sztucznych sieci neuronowych [5]) nie przyniosły oczekiwanych rezultatów. Opracowano w zamian inną metodykę, wykorzystującą tylko zbiór trenujący, w którym wartości zmiennych są wyrażone w kategoriach. Jako miarę istotności danego wejścia przyjęto średni przyrost wyjścia obliczany w następujący sposób. Ze zbioru trenującego wybierane są te zapisy, w których dane wejście przyjmuje jedną, stałą wartość np. kategorię o nazwie 1, a następnie wyliczane są różnice wyjść pomiędzy tymi rekordami, a pozostałymi (tj. takimi, w których dane wejście ma inną wartość), na zasadzie wszystkich możliwych kombinacji par rekordów. Następnie wybierana jest kolejna ustalona wartość (kategoria) danego wejścia i obliczana jest kolejna seria takich różnic, a w końcu wyznacza się z nich średnią różnicę dla danego wejścia. Takie postępowanie powtarza się dla wszystkich wejść, zaś ostateczne wartości współczynników istotności względnych wyznaczane są przez znormalizowanie tych średnich wg zasady: wartość minimalna wynosi 0, zaś maksymalna równa jest 1 Na rys. 4 pokazano wykresy oszacowanych w powyższy sposób istotności sygnałów wejściowych. a) b) 1 1 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 C Mn Si P S Cr Ni Cu Mg 0 X1 X2 X3 X4 X5 Rys. 4. Istotności względne wielkości wejściowych obliczone na podstawie danych uczących wyrażonych w kategoriach, przygotowanych dla NKB; a dla zbioru 1, b dla zbioru 2. Fig. 4. Relative importance factors calculated from training data expressed in categories, prepared for naive Bayesian classifier; a for real industrial data (Set 1), b for simulated data (Set 2). W obu przypadkach pokazanych na rys. 4 widoczne jest, że wyliczone istotności względne zgodne są z oczekiwaniami. W przypadku danych przemysłowych dotyczących żeliwa sferoidalnego (zbiór 1) najistotniejszym pierwiastkiem okazała się miedź, co potwierdza znany fakt dodawania miedzi w celu uzyskania struktury 26

ARCHIWUM ODLEWNICTWA perlitycznej i podniesienia w ten sposób wytrzymałości żeliwa. Również rozkład isto t- ności względnych dla zbioru utworzonego sztucznie (zbiór 2) odzwierciedla narastające znaczenie kolejnych wielkości wejściowych od 1 do 5 tej. 5. PODSUMOWANIE I WNIOSKI Wstępne badania wykazały, że naiwny klasyfikator Bayesa jest narzędziem stat y- stycznym, które można zastosować jako stosunkowo prosty system uczący się, służący do przewidywania wyników procesu produkcyjnego oraz jego zakłóceń. Celowe wydaje się podjęcie dalszych badań, zmierzających do weryfikacji jego działania w różnych s y- tuacjach, a także porównanie z innymi modelami. LITERATURA [1] Strona internetowa firmy StatSoft Polska: www.statsoft.pl/sixsigma.html) [2] Strona internetowa: www.isixsigma.com/library/content/c020617a.asp [3] J.R. Thompson, J. Koronacki: Statystyczne sterowanie procesem. Metoda Deminga etapowej optymalizacji jakości. Akademicka Oficyna Wydawnicza PLJ, Warszawa 1994.s [4] M. Perzyk, A. Kochański: Prediction of ductile cast iron quality by artificial neural networks. Journal of Materials Processing Technology, Elsevier, 2001 Volume/issue:109/3, str. 305-307. [5] M. Perzyk, A. Kochański, J. Kozłowski: Istotność względna sygnałów wejściowych sieci neuronowej. Informatyka w Technologii Materiałów, Wydawnictwo Naukowe AKAPIT, Kraków, tom 3, rok 2003, str. 125-132. [6] M. Perzyk, A. Kochański: Detection of causes of casting defects assisted by artificial neural networks. Journal of Engineering Manufacture, Proceedings of the Institution of Mechanical Engineers, Part B. Vol. 217, (2003), str. 1279-1284. 27

SUMMARY ADVANCED STATISTICAL METHODS IN PRODUCTION PROCESS CONTROL Growing significance of statistical process control and principles of the Six Sigma type systems are discussed. An idea of new type of statistical tools, i.e. learning systems is presented. Functioning of naive Bayesian classifier is shown and its practical capabilities are discussed. Recenzował: prof. dr hab. inż. Roman Wrona 28