DATA MINING W STEROWANIU PROCESEM (QC DATA MINING)

Podobne dokumenty
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

Wprowadzenie do analizy korelacji i regresji

Analiza składowych głównych. Wprowadzenie

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

PRZYKŁAD PROGNOZOWANIA Z WYKORZYSTANIEM METOD DATA MINING

TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE

MODELOWANIE PROCESÓW PRODUKCYJNYCH

Process Analytical Technology (PAT),

TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ

PRZYKŁAD ROZWIĄZANIA ZAGADNIENIA PREDYKCYJNEGO ZA POMOCĄ TECHNIK DATA MINING

PRZYKŁAD TWORZENIA KART KONTROLNYCH W STATISTICA

PRZYKŁAD WDROŻENIA KART KONTROLNYCH KROK PO KROKU

Usługi Informatyczne "SZANSA" - Gabriela Ciszyńska-Matuszek ul. Świerkowa 25, Bielsko-Biała

Sterowanie wielkością zamówienia w Excelu - cz. 3

Statystyka i Analiza Danych

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Tomasz Demski, StatSoft Polska Sp. z o.o.

SZYBKA ŚCIEŻKA OD BAZ DANYCH I LIMS DO RAPORTÓW, CZYLI STATISTICA ENTERPRISE W DZIAŁANIU

PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN

RAPORTOWANIE I ANALIZA DANYCH W ŚLEDZENIU PRODUKTU (PRODUCT TRACEABILITY)

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Katedra Technik Wytwarzania i Automatyzacji STATYSTYCZNA KONTROLA PROCESU

POLITECHNIKA OPOLSKA

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Szkolenie Regresja liniowa

ANALIZA SYSTEMU POMIAROWEGO (MSA)

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

PROGNOZOWANIE Z WYKORZYSTANIEM UCZENIA MASZYN

Regresja linearyzowalna

Dopasowywanie modelu do danych

STATISTICA ENTERPRISE JAKO PLATFORMA ANALITYCZNA DLA CAŁEJ ORGANIZACJI

1. Szybko o MSA dla narzędzi pomiarowych.

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

EFEKTYWNE STATYSTYCZNE STEROWANIE PROCESAMI (SPC) Z WYKORZYSTANIEM PAKIETU STATISTICA. Wprowadzenie

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości EUR

DATA MINING W PROGNOZOWANIU ZAPOTRZEBOWANIA

JAK SZYBKO WYKONYWAĆ ANALIZY I RAPORTY (NP. DLA APR) I UDOSTĘPNIAĆ JE WŁAŚCIWYM OSOBOM? Wymogi odnośnie analiz i raportów w przemyśle farmaceutycznym

Statystyczne sterowanie procesem

DATA MINING W PRZEMYŚLE:

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

JAK EFEKTYWNIE I POPRAWNIE WYKONAĆ ANALIZĘ I RAPORT Z BADAŃ BIEGŁOŚCI I WALIDACJI PRAKTYCZNE WSKAZÓWKI

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wykład 4: Statystyki opisowe (część 1)

Rys.1. Technika zestawiania części za pomocą polecenia WSTAWIAJĄCE (insert)

WSPOMAGANIE ANALIZY DANYCH ZA POMOCĄ NARZĘDZI STATISTICA

Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.

Edytor tekstu OpenOffice Writer Podstawy

SYSTEMY OPERACYJNE I SIECI KOMPUTEROWE

CO STATYSTYKA I WYKRESY MOGĄ POWIEDZIEĆ O PROCESIE?

PDF created with FinePrint pdffactory Pro trial version

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

STEROWANIE JAKOŚCIĄ PROCESU O WIELU WŁAŚCIWOŚCIACH: WIELOWYMIAROWE KARTY KONTROLNE I INNE NARZĘDZIA

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Analiza danych i data mining.

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

Otwórz R. Zmień katalog roboczy za pomocą File/Change Dir. Wczytaj plik przypisując go obiektowi o nazwie students:

Optymalizacja Automatycznych Testów Regresywnych

STATYSTYCZNA KONTROLA PROCESU PRODUKCJI PŁYT GIPSOWO-KARTONOWYCH W RIGIPS POLSKA - STAWIANY

POLITECHNIKA OPOLSKA

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

POLITECHNIKA OPOLSKA

METODY STATYSTYCZNE W BIOLOGII

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

Zmienne zależne i niezależne

STATISTICA 8 WERSJA JEDNOSTANOWISKOWA INSTRUKCJA INSTALACJI

Metody systemowe i decyzyjne w informatyce

ANALIZA REGRESJI SPSS

Rozpoznawanie obrazów

Wykład 5: Analiza dynamiki szeregów czasowych

Współpraca FDS z arkuszem kalkulacyjnym

DWUKROTNA SYMULACJA MONTE CARLO JAKO METODA ANALIZY RYZYKA NA PRZYKŁADZIE WYCENY OPCJI PRZEŁĄCZANIA FUNKCJI UŻYTKOWEJ NIERUCHOMOŚCI

Systemy zapewnienia jakości w laboratorium badawczym i pomiarowym

Analiza zależności liniowych

Wprowadzenie. Typowe i nietypowe sytuacje

METODY STATYSTYCZNE W BIOLOGII

1. SOLUTIONS -> ANALYSIS -> QUALITY IMPROVEMENT

Wstawianie grafiki. Po wstawieniu grafiki, za pomocą znaczników możemy zmienić wielkość i położenie grafiki na slajdzie.

Sieci neuronowe w Statistica

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

WIZUALIZACJA DANYCH JAKO UZUPEŁNIENIE METOD ANALITYCZNYCH

STATISTICA DATA MINER I STATISTICA ENTERPRISE SPOSÓB NA SZYBKĄ BUDOWĘ I WDRAŻANIE MODELI

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

Automatyka i sterowania

Zagadnienie 1: Prognozowanie za pomocą modeli liniowych i kwadratowych przy wykorzystaniu Analizy regresji wielorakiej w programie STATISTICA

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

DLA WINDOWS 1. USTAWIANIE SKOKU W CZASIE 2.WYBÓR CHRONIONYCH PLIKÓW 3.POWRÓT DO PRZESZŁOŚCI

Prognozowanie krótkoterminowe w procesie planowania zasobów

CZYM SIĘ RÓŻNI SZEŚĆ SIGMA OD TRZY SIGMA?

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Badanie normalności rozkładu

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli?

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Indeksy dynamiki (o stałej i zmiennej podstawie)

PROGNOZOWANIE SPRZEDAŻY STUDIUM PRZYPADKU

Transkrypt:

DATA MINING W STEROWANIU PROCESEM (QC DATA MINING) Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Sterowanie i optymalizacja jakości to dziedziny, w których zastosowanie zgłębiania danych (data mining) może przynieść szczególnie duże korzyści, zwłaszcza jeśli połączymy je z metodami monitorowania parametrów procesów za pomocą kart kontrolnych oraz z technikami planowania doświadczeń (DOE). Korzyści te wypływają m.in. z tego, że koszty jakości mogą być ogromne (przykładowe analizy kosztów można znaleźć np. w [1] i [2]). Warto zauważyć, że obecnie najskuteczniejsza strategia zapewnienia jakości, tj. metodyka Sześć Sigma, kładzie bardzo duży nacisk na zbieranie danych i ich analizę credo Sześć sigma brzmi: Zmienić możemy tylko to, co mierzymy (zob. [2]). Zgłębianie danych w sterowaniu jakością (QC data mining) od zwykłego zgłębiania danych (data mining) odróżnia między innymi konieczność reagowania na zmiany w danych na bieżąco. Jako ilustrację rozważmy system, który przed zakończeniem wieloetapowego procesu technologicznego ma przewidywać, które produkty prawdopodobnie będą wadliwe, aby zaoszczędzić na końcowych etapach procesu. Oczywiste jest, że wyniki działania systemu muszą być dostępne natychmiast, tak abyśmy mieli czas i możliwość skorzystać z wyników analizy. Zauważmy, że system STATISTICA Data Miner może automatycznie przeliczać projekty przy każdej zmianie danych (szczególnie łatwo można to osiągnąć, stosując zestaw STATISTICA Data Miner i SEWSS), a źródło danych może stanowić baza danych (tzn. nie ma konieczności importowania danych). Innym wyróżnikiem QC data mining jest konieczność stosowania metod typowych dla sterowania jakością, takich jak karty kontrolne, analiza zdolności procesu, planowanie doświadczeń itp. Dla osiągnięcia optymalnego wyniku analizy te muszą być zintegrowane z narzędziami typowymi dla data mining. Specyfika danych dotyczących procesów technologicznych polega na tym, że zazwyczaj tworzone są one przez urządzenia automatyki przemysłowej. Zapisują one zazwyczaj mnóstwo parametrów, które często nie mają żadnego wpływu na wytwarzany w danej chwili produkt, ale mogą być decydujące dla innego produktu. Ponadto w wielu dziedzinach produkcji zmiany zachodzą bardzo szybko czas życia produktów i okres Copyright StatSoft Polska 2002 www.statsoft.pl/czytelnia.html 113

stosowania konkretnej technologii ciągle się zmniejsza. W związku z tym bardzo często będziemy potrzebować narzędzia tworzącego modele typu czarna skrzynka na ich zrozumienie nie będziemy mieli po prostu czasu. Modele muszą radzić sobie z duża liczbą danych nie wpływających w żaden sposób na zmienną wyjściową i łatwo adaptować się do zmienionych technologii i nowych produktów. Takim właśnie problemem się zajmiemy. Przykład projektu QC data mining Rozważmy proces technologiczny podzielony na cztery etapy. Naszym celem będzie wykrycie, już po trzech etapach, tych partii, dla których liczba wadliwych elementów na koniec procesu będzie zbyt duża. Mamy 760 obserwacji następujących danych: identyfikator partii i typu produktów, liczba defektów dla każdej partii, dla etapu 1: 2 zmienne jakościowe i 87 zmiennych ciągłych, dla etapu 2: 121 zmiennych ciągłych, dla etapu 3: 341 zmiennych ciągłych. Łącznie mamy 553 predyktory, które mogą wpływać na liczbę defektów. Przy takiej liczbie potencjalnych zmiennych opisujących proces tradycyjne podejście do czyszczenia danych i ich analizy praktycznie nie jest możliwe do zrealizowania: nakład pracy potrzebny na samo przejrzenie zmiennych jest ogromny, a przecież jest to dopiero początek. Początkowy fragment danych widzimy na rys. 1. rys. 1. Jakość naszych danych możemy zilustrować za pomocą wykresu przedstawiającego stosunek średniej do odchylenia standardowego (odwrotność współczynnika zmienności) dla pierwszych 30 predyktorów (rys. 2). Jak widać, mamy mnóstwo zmiennych, dla których w ogóle nie występuje żadna zmienność w danych; takie zmienne to np. e1vf/. Zwróćmy uwagę, że oś Y na tym wykresie ma skalę logarytmiczną. Wartości stosunku 114 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2002

średniej do odchylenia standardowego tylko dla tych 30 predyktorów zmienia się od około 2 do ponad 1200. 500 Odwrotność wsp. zmienności 50 5 E 1T0 e1p0 e1vf e1pin2 e1pin4 e1pin6 e1pin8 e1pin10 e1pin12 e1pin14 e1pin16 e1pin18 e1pin20 e1pin22 e1pin24 e1pin26 E 1TF e1pf e1pin1 e1pin3 e1pin5 e1pin7 e1pin9 e1pin11 e1pin13 e1pin15 e1pin17 e1pin19 e1pin21 e1pin23 e1pin25 rys. 2. Zobaczmy najpierw, czy liczba defektów w partii jest stabilna statystycznie. Użyjemy w tym celu standardowej karty kontrolnej, konkretnie karty c. Po umieszczeniu w przestrzeni roboczej STATISTICA Data Miner naszego źródła danych jako badaną zmienną wybieramy liczbę defektów, następnie z przeglądarki obiektów wybieramy węzeł Attribute Charts (C, U, Np, p). Uzyskamy następująca kartę: 30 Rozkład liczby defektów Karta C 25 20 15 10 11.175 5 4.6831 0 0.0000-5 0 100 200 300 50 150 250 350 100 200 300 400 500 600 700 rys. 3. Jak widać, nasz proces jest nieuregulowany mamy sporo sygnałów o rozregulowaniu. Spróbujemy teraz przygotować model, który będzie przewidywał liczbę defektów dla każdej partii. Copyright StatSoft Polska 2002 www.statsoft.pl/czytelnia.html 115

Nasze zagadnienie jest problemem regresyjnym i skorzystamy z metod z grupy General Modeler and Multivariate Explorer (zob. rys. 4), dlatego nowy projekt tworzymy poleceniem Build Your Own Project z menu Data Mining - General Modeler and Multivariate Explorer. rys. 4. Po utworzeniu nowego obszaru roboczego wstawiamy do niego źródło danych i wskazujemy zmienne. Podstawą całej naszej analizy będzie węzeł Feature Selection and Variable Screening, który wybierze tylko zmienne wpływające na liczbę defektów. Zauważmy, że zastosowana procedura wyboru zmiennych nie zakłada typu zależności między predyktorami a opisywaną zmienną (w szczególności zależność ta nie musi być liniowa). Ponadto metoda ta jest bardzo szybka. Więcej informacji na ten temat można znaleźć w [3]. Procedura wyboru zmiennych pozwala m.in. na określenie liczby zmiennych wybieranych jako najbardziej prawdopodobne predyktory i liczby cięć (number of cuts). Im większa liczba odcięć, tym bardziej nieliniowe zależności jest w stanie wykryć stosowana przez nas procedura. Ponieważ przyjmujemy, że nasz model może być silnie nieliniowy, ustalimy liczbę cięć na 20. Do modelowania użyjemy między innymi sieci neuronowych. Sieci neuronowe są wrażliwe na dużą liczbę zmiennych nic niewnoszących do modelu, dlatego zmniejszymy liczbę wybieranych predyktorów z 50 do 30. Ustawienia parametrów dla węzła Feature Selection and Variable Screening widzimy na rys. 5. 116 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2002

rys. 5. Po wykonaniu procedury wyboru zmiennych w obszarze roboczym pojawi się nowe źródło danych. Zauważmy, że jest ono tylko wirtualnym zbiorem danych (jest to coś w rodzaju odsyłacza lub wskaźnika do oryginalnych danych) program nie kopiuje oryginalnych danych, co mogło by się wiązać z przesyłaniem dużych ilości danych. Do oceny jakości naszego modelu zastosujemy standardowy w data mining sposób postępowania, tzn. podzielimy nasze dane na zbiór uczący (dla którego zbudujemy model) i testowy (na którym sprawdzimy zgodność modelu z danymi). Zwróćmy uwagę, że dane o procesie maja charakter sekwencji czasowej. W takim przypadku jako próbę testową wybiera się najpóźniejsze dane. W naszym przypadku jako zbiór testowy wykorzystamy 230 ostatnich przypadków ze zbioru danych, a wcześniejsze będą stanowiły zbiór uczący. Po utworzeniu zbioru testowego i uczącego uruchamiamy przeglądarkę węzłów i wybieramy wszystkie metody analityczne z grupy General Modeler and Multivariate Explorer (zob. rys. 4), za wyjątkiem regresji liniowej (ponieważ stosujemy metodę GRM, która jest jej uogólnieniem). Jako prognozę liczby defektów użyjemy średniej prognoz wszystkich tych modeli. Taką prognozę uzyskamy, stosując węzeł Compute Best Prediction from all Models dla próby testowej (na etapie oceny modelu) lub dla nowych danych (na etapie stosowania modelu). Po uruchomieniu projektu do arkusza z prognozowanymi liczbami defektów podłączamy węzeł Goodness of Fit, aby ocenić jakość naszego modelu (kompletny projekt przedstawiono na rys. 6). Syntetycznym wskaźnikiem jakości dopasowania jest średni błąd bezwzględny dla naszego modelu złożonego wynosi on około 2,75. Jeśli popatrzymy na kartę kontrolną dla liczby defektów (rys. 3), to zauważymy, że rozregulowania odpowiadają liczbie defektów przekraczającej 11, a więc nasz model, przynajmniej na pierwszym etapie doskonalenia procesu, powinien okazać się użyteczny. Copyright StatSoft Polska 2002 www.statsoft.pl/czytelnia.html 117

rys. 6. Możemy teraz zastosować przygotowany przez nas projekt dla innych danych, dotyczących innego produktu wytwarzanego na tej samej linii technologicznej. Do porównania danych użyjemy wykresu przedstawiającego stosunek średniej do odchylenia standardowego dla pierwszych 30 predyktorów (rys. 7). Jeżeli porównamy ten wykres z wykresem dla pierwszego pliku danych (rys. 2), to zauważymy, że nasze dane są zupełnie inne (aczkolwiek mają taka samą strukturę). W przypadku procesów przemysłowych dosyć często zdarza się, że zmiana produktu wiąże się z dramatyczną zmianą tego, jakie czynniki wpływają na cechy produkowanego obiektu, a nawet zmierzeniem zupełnie innych cech. 50 45 Odwrotność wsp. zmienności 40 35 30 25 20 15 10 5 0 E1T0 e1p0 e1vf e1pin2 e1pin4 e1pin6 e1pin8 e1pin10 e1pin12 e1pin14 e1pin16 e1pin18 e1pin20 e1pin22 e1pin24 e1pin26 rys. 7. Aby zastosować nasz projekt do nowych danych, wystarczy wstawić źródło danych do naszego projektu i połączyć je z pierwszym węzłem używanego projektu. Po wykonaniu projektu uzyskamy model dla nowych danych. Średni błąd bezwzględny dla nowych danych wynosi około 2,45. 118 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2002

Literatura 1. Bank J., 1997, Zarządzania przez jakość, Gebtehner & Ska. 2. Harry M., Schroeder R., 2001, Six sigma. Wykorzystanie programu jakości do poprawy wyników finansowych, John Willey & Sons. 3. STATISTICA Data Miner dokumentacja, StatSoft Inc. 2002. Copyright StatSoft Polska 2002 www.statsoft.pl/czytelnia.html 119