Michał Kusy, StatSoft Polska Sp. z o.o.



Podobne dokumenty
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

JAK EFEKTYWNIE I POPRAWNIE WYKONAĆ ANALIZĘ I RAPORT Z BADAŃ BIEGŁOŚCI I WALIDACJI PRAKTYCZNE WSKAZÓWKI

Wprowadzenie do analizy korelacji i regresji

KORELACJE I REGRESJA LINIOWA

Analiza autokorelacji

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Metodologia badań psychologicznych. Wykład 12. Korelacje

Testy nieparametryczne

Sterowanie jakością badań i analiza statystyczna w laboratorium

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Rozdział 8. Regresja. Definiowanie modelu

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Dopasowanie prostej do wyników pomiarów.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

USPRAWNIENIE WYKONYWANIA ANALIZ I TWORZENIA RAPORTÓW STATISTICA ZESTAW FARMACEUTYCZNY

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

MODELE LINIOWE. Dr Wioleta Drobik

WSPIERANIE ZADAŃ ANALITYCZNYCH Z ZASTOSOWANIEM STATISTICA NA PRZYKŁADZIE BIOTON S.A.

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

PDF created with FinePrint pdffactory Pro trial version

Statystyka matematyczna dla leśników

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Zmierzyłem i co dalej? O opracowaniu pomiarów i analizie niepewności słów kilka

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

PRZYKŁAD AUTOMATYZACJI STATYSTYCZNEJ OBRÓBKI WYNIKÓW

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

STATYSTYKA MATEMATYCZNA

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

R-PEARSONA Zależność liniowa

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

MONITOROWANIE DZIAŁAŃ NIEPOŻĄDANYCH

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

JAK SZYBKO WYKONYWAĆ ANALIZY I RAPORTY (NP. DLA APR) I UDOSTĘPNIAĆ JE WŁAŚCIWYM OSOBOM? Wymogi odnośnie analiz i raportów w przemyśle farmaceutycznym

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza regresji - weryfikacja założeń

POLITECHNIKA OPOLSKA

Praktyczna analiza danych w przemyśle farmaceutycznym przegląd rozwiązań i oferty StatSoft

LABORATORIUM Z FIZYKI

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

System monitoringu jakości energii elektrycznej

Wykład 4: Statystyki opisowe (część 1)

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

WALIDACJA METOD POMIAROWYCH

Ekonometria. Zajęcia

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Dopasowywanie modelu do danych

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Rok akademicki: 2012/2013 Kod: JFM s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka i Analiza Danych

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

STATYSTYKA MATEMATYCZNA

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Weryfikacja hipotez statystycznych

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

PROGNOZOWANIE SPRZEDAŻY STUDIUM PRZYPADKU

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

166 Wstęp do statystyki matematycznej

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Statystyka Matematyczna Anna Janicka

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Co to jest analiza regresji?

Prognozowanie na podstawie modelu ekonometrycznego

PRZEGLĄD JAKOŚCI PRODUKTU W ZESTAWIE FARMACEUTYCZNYM

Hipotezy statystyczne

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Transkrypt:

CZY MÓJ PROCES JEST TRENDY, CZYLI ANALIZA TRENDÓW Michał Kusy, StatSoft Polska Sp. z o.o. Wprowadzenie Analiza danych w kontroli środowiska produkcji i magazynowania opiera się między innymi na szeregu metod wykrywania trendów. Pojawienie się trendu w wartościach kontrolowanego parametru może sugerować wpływ czynników zewnętrznych, które zakłócają proces produkcji (np. nieprawidłowe funkcjonowanie urządzeń wentylacyjnych, wzrost temperatury zewnętrznej itp.). Szczególnie rygorystyczne normy, jakim podlega przemysł farmaceutyczny, sprawiają, że utrata kontroli nad zachowaniem parametrów kluczowych dla procesu jest zjawiskiem wyjątkowo niekorzystnym. Zgodność z regulacjami FDA dotyczącymi dobrej praktyki wytwarzania (GMP) w farmacji wiąże się zatem z potrzebą kontroli kluczowych parametrów i przeprowadzania analizy trendów, która pozwoli ograniczyć ich wpływ na przebieg produkcji. Metody wykrywania trendu Prawidłowości występujące w zebranych pomiarach pozwala wstępnie określić analiza wykresów danych. Już na podstawie liniowego wykresu danych można zwykle zorientować się, czy pomiary sugerują występowanie jakiejś tendencji (punkty na wykresie wskazują na ogólny spadek lub wzrost wartości parametru) oraz ocenić postać funkcji trendu (tendencja ma charakter liniowy, potęgowy, wykładniczy itp.). Pomocne okazują się również skategoryzowane wykresy ramka-wąsy, na podstawie których możemy porównywać wartości parametru w wybranych przedziałach czasowych (np. dane dotyczące wilgotności w pomieszczeniu w kolejnych tygodniach lub miesiącach). Właściwe wnioski dotyczące występowania trendu należy jednak oprzeć na odpowiednich metodach statystycznych. Występowanie trendu można badać, analizując korelacje między badanym parametrem a zmienną określającą czas. W tym celu korzystamy z testów współczynnika korelacji parametrycznego testu współczynnika korelacji Pearsona lub nieparametrycznego testu korelacji rang Spearmana. Współczynnik korelacji przyjmuje wartości z przedziału <-1;1>. Ujemne lub dodatnie wartości współczynnika korelacji wskazują na występowanie trendu odpowiednio: malejącego lub rosnącego. Współczynnik pozwala również określić siłę występującego trendu im wartości są bliższe -1 lub 1, tym związek badanego parametru ze zmienną określającą czas jest silniejszy. Copyright StatSoft Polska 2009 www.statsoft.pl/pharma www.statsoft.pl/czytelnia.html 53

Inne, stosunkowo łatwe rozwiązanie wykorzystuje analizę regresji prostej, gdzie zmienną zależną jest badany parametr, a zmienną niezależną czas. Wykrycie trendu sprowadza się w tym przypadku do sprawdzenia, czy współczynnik nachylenia prostej regresji jest istotnie różny od zera. Na podstawie wyliczonych współczynników regresji wyznaczane jest prawdopodobieństwo testowe, które porównujemy z przyjętym poziomem istotności α (np. α = 0,05). W przedstawionym poniżej przykładzie wartość prawdopodobieństwa testowego p < 0,05 pozwala odrzucić hipotezę o braku trendu w wartościach pomiarów wilgotności. Więcej informacji dotyczących wnioskowania statystycznego znaleźć można między innymi w pozycji Liczby nie wiedzą skąd pochodzą [2]. 54 www.statsoft.pl/czytelnia.html www.statsoft.pl/pharma Copyright StatSoft Polska 2009

Test Neumanna wykorzystywany w analizie trendu oparty jest z kolei na porównaniu różnic między sąsiednimi obserwacjami i odległości obserwacji od średniej. W przypadku trendu liniowego odległości od średniej dla początkowych i końcowych pomiarów są przeważnie większe od odległości między sąsiednimi obserwacjami. Wartość statystyki testowej w rozważanym przykładzie jest mniejsza od wartości krytycznej co pozwala na odrzucenie hipotezy o braku trendu na poziomie istotności równym 0,05. Zaletą testu Neumanna, w stosunku do testu opartego na regresji prostej są mniejsze wymagania dotyczące liczności próby. Statystyka Neumanna pozwala wykryć trendy już na podstawie kilku punktów pomiarowych. W takiej sytuacji wnioskowanie o trendzie w oparciu o dopasowanie prostej regresji jest praktycznie niemożliwe. Dodatkowo wartości parametrów regresji, podobnie jak współczynnik korelacji, wykazują się małą odpornością na działanie obserwacji odstających. Obserwacje odstające Przed rozpoczęciem analizy trendu należy stwierdzić, czy zgromadzone dane nie zawierają obserwacji, które zasadniczo różnią się od innych wartości i w istotny sposób zaburzają informację o rodzaju i sile występującego trendu. Obserwacje odstające mogą być wynikiem np. błędnego pomiaru lub pomyłki przy wprowadzaniu pomiaru do bazy danych. Uwzględnienie obserwacji odstających w analizie wpłynie w szczególności na nachylenie prostej regresji i będzie prowadziło do błędnych wniosków o całym procesie. Wartości, które znacznie odbiegają od pozostałych pomiarów, pozwala wykryć analiza liniowego wykresu danych. Pojawia się jednak problem, od jakiej wartości obserwacje można uznać za odstające, aby decyzja o wykluczeniu ich z analizy nie została uznana za bezpodstawną. Copyright StatSoft Polska 2009 www.statsoft.pl/pharma www.statsoft.pl/czytelnia.html 55

W przypadku analizy trendu należałoby zmierzyć, w jakim stopniu kolejne pomiary wpływają na nachylenie linii trendu. Tego typu miarą pozwalającą wykrywać obserwacje odstające jest tzw. odległość Cooka. Jest to miara wpływu danego przypadku na równanie regresji. Wskazuje ona różnice pomiędzy obliczonymi wartościami współczynników regresji a takimi samymi wartościami obliczonymi przy założeniu, że dany pomiar zostałby wyłączony z równania regresji. Jeśli odległości nie są tego samego rzędu, to można przypuszczać, że dany przypadek miał istotny wpływ na obciążenie równania regresji. Po ewentualnym wyłączeniu z badania obserwacji odstających przystępujemy do analizy występującego trendu. Przebieg analizy trendów Aby zwiększyć efektywność prac związanych z raportowaniem analizy trendu, StatSoft przygotował narzędzie STATISTICA Zestaw Farmaceutyczny - Analiza Trendów, które umożliwia automatyczne wykonywanie analizy trendów i tworzenie gotowych raportów. Program wykorzystuje odległości Cooka do wyznaczenia obserwacji odstających, dzięki czemu redukuje problemy z interpretacją tego typu pomiarów. Sama analiza trendów opiera się natomiast na powszechnie stosowanym teście Neumanna. Analiza wykonywana przez program STATISTICA Analiza Trendów rozpoczyna się od sprawdzenia zakresu specyfikacji i wyznaczenia liczby pomiarów, które przekroczyły granice. Program oblicza również podstawowe statystyki próby (średnią, wartość minimalną, maksymalną itp.). Następnie, na podstawie odległości Cooka wykrywane są 56 www.statsoft.pl/czytelnia.html www.statsoft.pl/pharma Copyright StatSoft Polska 2009

obserwacje odstające. Obserwacje te zostają wykluczone z dalszych analiz, przy czym maksymalną liczbę pomijanych wartości definiuje wcześniej użytkownik. W końcowym raporcie jest uwzględniana pełna informacja o wszystkich odstających pomiarach wyłączonych z analizy. Po wykluczeniu obserwacji odstających, w oparciu o statystykę Neumanna, sprawdzana jest hipoteza o braku trendu. W przypadku wykrycia trendu program przeprowadza analizę regresji. Następnie na wykres danych nanoszona jest linia trendu. Program dostarcza również informacji o charakterze występującego trendu i sprawdza, czy linia trendu przecina granice specyfikacji. Jeśli wartości pomiarów sugerują, że w najbliższym czasie linia trendu przekroczy zakres specyfikacji, szacowany jest dodatkowo czas, po jakim granica zostanie przekroczona. Z kolei w przypadku, gdy wartość statystyki Neumanna nie wskazuje na występowanie trendu, do raportu wstawiany jest wykres danych wejściowych oraz informacja o braku trendu. Copyright StatSoft Polska 2009 www.statsoft.pl/pharma www.statsoft.pl/czytelnia.html 57

Proces tworzenia raportów Do tej pory tego typu raporty przygotowywane były ręcznie, z wykorzystaniem analiz wykonywanych w arkuszu kalkulacyjnym. Wiązało się to z koniecznością wielokrotnego wykonywania takich samych obliczeń dla różnych parametrów i żmudnego kopiowania wyników i wykresów do dokumentu MS Word. Cały proces był bardzo czasochłonny i stwarzał wiele możliwości popełnienia błędu oraz problemów z interpretacją danych (np. które obserwacje można uznać za odstające). Rozwiązanie STATISTICA Analiza Trendów umożliwiło pełną automatyzację procesu tworzenia raportów. Użytkownik projektuje szablon raportu, w którym podaje informacje, jakie miejsca i parametry powinny zostać uwzględnione w analizie (np. temperatura i wilgotność w hali produkcyjnej). Program łączy się z bazą danych, skąd, na podstawie informacji zawartych w szablonie, pobiera odpowiednie pomiary, specyfikacje i opisy. Silnik analityczny STATISTICA generuje wyniki analiz i wykresy, które po odpowiednim sformatowaniu są wstawiane razem z pełnymi opisami do szablonu raportu. W ten sposób, za pomocą jednego kliknięcia, użytkownik może otrzymać raport, który tworzony był do tej pory przez kilka dni. Nasze rozwiązanie pozwala również wprowadzać do bazy danych wyniki pomiarów zarówno pojedyncze dane, pochodzące z monito- 58 www.statsoft.pl/czytelnia.html www.statsoft.pl/pharma Copyright StatSoft Polska 2009

rowania na bieżąco parametrów procesu, jak i dane zebrane w postaci jednego pliku wsadowego. STATISTICA Analiza Trendów umożliwia też edycję istniejących w bazie specyfikacji i pomiarów, przy czym wszystkie zmiany są odnotowywane (razem z datą i identyfikatorem użytkownika), a istniejące dane są archiwizowane. Program STATISTICA Analiza Trendów pozwala dodatkowo na szybki podgląd wyników analiz, bez potrzeby generowania całego raportu. Na podstawie wskazanych przez Copyright StatSoft Polska 2009 www.statsoft.pl/pharma www.statsoft.pl/czytelnia.html 59

użytkownika zmiennych wykonywane są wszystkie opisane wcześniej analizy, a wyniki w postaci wykresów i opisów wstawiane są do skoroszytu STATISTICA. Dzięki zestawowi różnorodnych narzędzi statystycznych zawartemu w programie STATISTICA użytkownik może dodatkowo wykonać szereg innych analiz na zebranych danych. Program STATISTICA Zestaw Farmaceutyczny - Analiza Trendów został wdrożony między innymi w firmie EMO-FARM Sp. z o.o., w znacznym stopniu usprawniając proces raportowania analizy trendów. Najlepszym podsumowaniem funkcjonowania naszego rozwiązania będzie opinia dyrektora ds. jakości w EMO-FARM Sp. z o.o. Wdrożenie nowego narzędzia umożliwiło wykonywanie odpowiednich analiz i tworzenie wymaganych raportów przy znacznym ograniczeniu zaangażowanych do tego celu zasobów. STATISTICA Zestaw Farmaceutyczny stanowi istotne wsparcie w zakresie dbałości o wysoką jakość leków, pozwala na znaczne oszczędności czasu, generuje czytelne i profesjonalne raporty, które umożliwiają szybką ocenę procesu, jak również są przedmiotem kontroli w trakcie inspekcji zakładu. Podsumowanie Właściwe funkcjonowanie środowiska produkcji i magazynowania wiąże się z potrzebą ciągłej kontroli pewnych parametrów, w tym analizy pojawiających się trendów. Sam proces tworzenia raportów jest jednak wyjątkowo żmudny i czasochłonny. Dodatkowo stwarza wiele możliwości popełnienia błędu oraz problemy z interpretacją danych, przez co wymaga dużej uwagi w trakcie wykonywania analiz i przenoszenia wyników do raportu. Z drugiej strony powtarzalność procesu daje możliwość jego łatwej automatyzacji. Narzędzie STATISTICA Analiza Trendów sprawiło, że proces tworzenia raportu sprowadza się do jednorazowego zdefiniowania specyfikacji i szablonu raportu, a następnie wybrania okresu czasu, którego raport ma dotyczyć. Oprócz oszczędności czasu i zasobów, automatyczne generowanie raportów ogranicza również możliwości pomyłek. Ponadto program ułatwia dokumentowanie zmian i archiwizowanie istniejących danych i specyfikacji. Literatura 1. P. Dittmann, Prognozowanie w przedsiębiorstwie Metody i ich zastosowanie, Oficyna Ekonomiczna, Kraków 2004. 2. G. Coenders, M. Saez, Collinearity, Heteroscedasticity and Outlier Diagnostics in Regression. Do they Always Offer what they Claim? A. Ferligoj, A. Mrvar, New Approaches in Applied Statistics, Metodološki Zvezki. 16. FDV, Ljubljana, 2000. 3. P. Francuz, R. Mackiewicz, Liczby nie wiedzą, skąd pochodzą, Wydawnictwo KUL, Lublin 2004. 4. K.W. Hipel, A.I. McLeod, Time Series Modelling of Water Resources and Environmental Systems, Elsevier, 1994. 60 www.statsoft.pl/czytelnia.html www.statsoft.pl/pharma Copyright StatSoft Polska 2009