Publikacja techniczna FOSS KĄCIK CHEMOMETRII Kwalifikacja: Badania przesiewowe w technice NIR na obecność zafałszowań przypadek odtłuszczonego mleka w proszku W publikacji zostały przedstawione metody jakościowe kontroli przesiewowej na obecność zafałszowań oraz przykład: wykrywanie melaminy w odtłuszczonym mleku w proszku za pomocą spektroskopii NIR i chemometrii. Autorzy: Lars Nørgaard*, Mark Westerhaus, Karin Kjeldahl, Ib Haunstrup, FOSS *lno@foss.dk PL, December 2014 Dedicated Analytical Solutions
Wprowadzenie Wysoka jakość w produkcji żywności i pasz opiera się na wiarygodnym ustalaniu składu surowców, półproduktów i wyrobów gotowych. Równie ważna jest jednak zdolność do wykrywania w widmie próbek nieprawidłowości, które mogą być powodowane przez zafałszowania, problemy w procesie oraz odchyłki jakości. Wykrywanie próbek odbiegających od dobrego produktu nazywane jest kwalifikacją Czytelnika odsyłamy do publikacji technicznej InFocus poświęconej terminologii, w której opisane zostały identyfikacja i kwalifikacja [1]. Zapotrzebowanie na skuteczne metody wykrywania zafałszowań i innych odchyłek jest oczywiste w niniejszym dokumencie opisujemy podstawy metody oraz przykład, jak można zastosować metody wykrywania zafałszowań w analizie mleka w proszku za pomocą systemu FOSS NIRS DS5200 w połączeniu z najnowszą wersją oprogramowania chemometrycznego WinISI. Page 2
Podstawy matematyczne Jako podstawę do opracowania modelu jakościowego stosujemy zbiór danych uczących, zawierający widma szeregu próbek dobrych produktów i obejmujący swoim zakresem spodziewane zróżnicowanie odpowiedniego produktu. Zastosowane metody opierają się na analizie głównych składowych (ang. Principal Component Analysis, PCA) oraz odległościach pochodnych w modelu PCA danych. Jak widać z rysunku 1., analizę PCA można opisać jako rozkład wstępnie przetworzonych danych widmowych, X, na macierze T, P oraz E dla A składowych. Macierz P zawiera ładunki, czyli ukryte widma/ wspólne struktury, macierz T zawiera koncentrację każdego z ładunków w każdej próbce, a macierz E zawiera wartości resztkowe część nie opisaną przez model (bardziej szczegółowy opis PCA w zastosowaniu do widm NIR zawiera [2]). Rysunek 1. Model PCA. Odległość danej próbki od innej można analizować na dwa sposoby: zmierzyć jako odległość od środka zbioru próbek modelu to oblicza się z wyników, albo jako odległości do modelu obliczone z wartości resztkowych: Przykładowe widmo nowej próbki, odchylone wyłącznie w przestrzeni wyników, można nazwać stężeniem odstającym wzór widma jest porównywalny z widmem dobrego produktu, lecz próbka zawiera bardzo wysokie albo bardzo niskie stężenia w porównaniu z próbkami dobrych produktów. Widmo nowej próbki, wykazujące odchylenie tylko pod względem wartości resztkowych, można nazwać odstającym wzorcem widmowym wzór widma różni się od widma produktu dobrego, lecz poziomy stężeń w próbce są porównywalne z próbkami dobrego produktu. Widmo odchylone w obu metrykach wyników i wartości resztkowych jest odstające zarówno pod względem stężenia, jak i wzorca widmowego. Metody kwalifikacyjne w WinISI zostały zaprojektowane do cechowania zbioru widm reprezentujących próbki produktów, które spełniają wymogi jakości, oraz do wykrywania odchyleń od zbioru danych. Dostępne są następujące odległości: Odległość Mahalanobisa (kwadratowa): mierzy dystans od widma do średniego widma ze zbioru danych dobrego produktu z użyciem wyników PCA (T). Wartości są skalowane tak, aby średnia odległość dla wszystkich próbek w PCA wynosiła 1,0. Miara ta przydaje się do wykrywania, czy widmo nowej próbki jest zbliżone do widma średniego w sposób przypominający próbki dobrych produktów. Page 3
Odległość Mahalanobisa od sąsiadów (kwadratowa): mierzy dystans pomiędzy widmem i najbliższym widmem ze zbioru danych dobrych produktów. Wartości są skalowane z użyciem tego samego współczynnika, jak w mierze odległości Mahalanobisa. Miara ta jest przydatna do wykrywania odległości od najbliższego sąsiadującego widma i porównania jej ze średnią odległością sąsiadów dla całego zbioru danych. Wartości resztkowe RMS X: to część widma, której nie wyjaśnia model PCA. W celu uzyskania wartości resztkowych RMS X obliczany jest pierwiastek kwadratowy z reszty średnio kwadratowej (RMS). To oszacowanie jest przydatne, gdy chcemy wykrywać odchylenia widmowe niepodobne do rozrzutu widm występującego w zbiorze danych dobrych produktów. Maximum X Residual: w tej metodzie, zamiast obliczania RMS, znajdowana jest największa bezwzględna wartość resztkowa X w reszcie widma nowej próbki. Jest ona bardziej niż metoda wartości resztkowych RMS X wrażliwa na niezamodelowane odchyłki w zaledwie kilku długościach fali. Jeśli, na przykład, dodatek zafałszowujący ma charakterystyczne piki przy długościach fali 2100 nm i 2300 nm, detekcja może zostać ułatwiona przez skupienie się na konkretnej części widma, w której odchylenia są największe. Maximum X Residual T: jest modyfikacją metody Maximum X Residual. Każda resztkowa długość fali X zostaje przekształcona w statystykę t poprzez podzielenie jej przez odchylenie standardowe wszystkich odpowiadających wartości resztkowych przy tejże długości fali ze zbioru dobrych produktów. Metoda zwraca największą bezwzględną wartość t. Metoda ta jest bardziej wrażliwa na niewielkie odchyłki wartości resztkowych w stosunku do wartości resztkowych ze zbioru danych dobrych produktów. Maximum Peak T: ta metoda, podobnie jak trzy poprzednie metody, również opiera się na wartościach resztkowych X w modelu PCA. Metoda ta poszukuje kształtu piku w wartościach resztkowych X. Obliczana w niej jest statystyka t poprzez podzielenie natężenia każdego piku przez odchylenie standardowe wszystkich odpowiadających natężeń pików. Metoda ta wylicza największą dodatnią wartość t dla wszystkich długości fali. Jest ona wrażliwa na dodawanie nowych składników nieobecnych w zbiorze danych dobrych produktów i reaguje na odchylenia widma. Metoda ASM: ta metoda stanowi połączenie odległości Mahalanobisa i wartości resztkowych RMS X. Jest to pierwiastek kwadratowy sumy odległości Mahalanobisa do kwadratu i odpowiednio przeskalowanych wartości resztkowych RMS X podniesionych do kwadratu. Oszacowanie to wskaże, że próbka jest dobra tylko wtedy, jeśli jej widmo będzie podobne do średniego widma dobrego produktu, oraz wartości resztkowe X będą małe. W ten sposób metody ASM łączą informacje pochodzące z modelu z informacjami spoza modelu. Metody oparte na odległości Mahalanobisa nadają się do wykrywania stężeń nietypowych, natomiast metody oparte na resztkach są odpowiednie do wykrywania różnych wzorców widmowych; ASM łączy w sobie wykrywanie odstających stężeń i wzorców widmowych. Studium przypadku dane Za pomocą przyrządu NIRS DS5200 zarejestrowano widma w bliskiej podczerwieni 214 próbek odtłuszczonego mleka w proszku, uzyskując widma w zakresie od 400 do 2500 nm z rozdzielczością 0,5 nm w sumie 4200 zmiennych na widmo (patrz rysunek 2). Page 4
Rysunek 2. Widma NIR w zakresie 1100-2500 nm 214 próbek odtłuszczonego mleka w proszku Rysunek 3. Widmo NIR melaminy w zakresie 1100-2500 nm. Zostały one podzielone na zbiór uczący złożony z 81 próbek, zbiór strojący (testowy) z 40 próbek oraz zbiór walidacyjny zawierający 93 próbki. Podział 214 próbek odbył się według czasu wykonania analizy: do zbioru uczącego zostały włączone dane z najstarszych skanów, do testowego pośrednie, a do zbioru walidacyjnego wyniki skanów najnowszych. Widma testowe i walidacyjne zostały też zanieczyszczone 0,5% melaminy (rysunek 3). Ponieważ ani odtłuszczone mleko w proszku, ani melamina nie mają wyraźnych pików w zakresie długości fal 400-1100 nm, w badaniach użyto jedynie zakresu bliskiej podczerwieni. Obowiązują tu te same warunki, jak przy wyborze próbek do analizy ilościowej ważne jest, aby objąć nimi rozrzut spodziewany w przyszłych dobrych próbkach. Mogą być one wybrane z wąskim rozrzutem, np. w kontekście procesu produkcji z ostatniego miesiąca, albo z szerszymi odchyleniami, dla rozwiązań laboratoryjnych. Model kwalifikacyjny Interesuje nas wykrywanie melaminy, mającej wyraźne piki w okolicach długości fal 1467 nm oraz kilka w zakresie od 1955 do 2227 nm. Do uwydatnienia tych maksimów użyto wstępnej obróbki drugą pochodną (2,20,1,1). Page 5
Rysunek 4. Wyniki zastosowania modelu kwalifikacyjnego. Model kwalifikacyjny (Good Product Definition definicja dobrego produktu ; GPD w WinISI) został opracowany z użyciem 81 próbek uczących. Wynik został przedstawiony na rysunku 4. Najtrudniejszym zadaniem jest ustalenie liczby komponentów, których należy użyć w modelu. Do tego celu używamy zbioru danych wzorcowych z 40 próbek i kilku próbek zanieczyszczonych. Porównanie siedmiu metod dostępnych do kwalifikacji wyraźnie wykazuje, że metoda Maximum Peak T bardzo skutecznie wykrywała melaminę, więc na niej właśnie opieramy analizę. Jeśli liczba czynników w modelu kwalifikacyjnym jest zbyt niska, modelowanie produktu będzie niekompletne (underfitting) i naturalne składniki próbki mogą przyczynić się do wysokiej wartości Maximum Peak T. Jeśli numer czynników będzie zbyt wysoki (overfitting), do wysokiej wartości Maximum Peak T może przyczynić się zdarzenia losowe. Tabela 1. przedstawia najniższe i najwyższe wartości Maximum Peak T dla zbioru strojącego i zbioru wzorcowego z zanieczyszczeniami. Zakłada się, że minimalna stężenie domieszki w próbce zanieczyszczonej jest większe niż naturalnie występujące w próbce dobrej. Przy użyciu stosunku minimalnej wartości domieszki podzielonej przez maksymalną wartość bez domieszek, siedem czynników bardzo skutecznie identyfikuje melaminę. Wartość progową należy wybrać nieco wyższą od zaobserwowanego maksimum bez domieszek. W tym przypadku odpowiednim progiem może być wartość 8,0 dla tej wartości należy też zarejestrować liczbę fałszywych identyfikacji dodatnich dla wystarczająco dużej liczby próbek czystych. Po zastosowaniu do zbioru walidacyjnego modelu kwalifikacyjnego z siedmioma czynnikami, otrzymujemy zakres bez domieszek od 2,27 do 7,79 oraz zakres z domieszkami od 50,74 do 59,44, co w oczywisty sposób identyfikuje obecność melaminy w widmie. Page 6
Czynniki Zbiór walidacyjny Zbiór walidacyjny z domieszkami Min. Maks. Min. Maks. 3 1,97 7,44 12,57 17,43 4 2,09 7,87 12,40 17,92 5 2,36 7,87 12,28 20,76 6 3,08 7,69 51,13 58,27 7 3,09 7,43 51,69 58,75 8 3,45 7,88 48,56 56,91 9 3,59 7,90 48,91 56,93 10 3,27 7,58 47,26 55,54 Tabela 1. Zakres wartości Maximum Peak T dla zbioru wzorcowego i zbioru walidacyjnego. Gdy należy wykonać ogólne badania przesiewowe na obecność zafałszowań za pomocą NIR, można w oprogramowaniu Mosaic-Nova połączyć użycie np. odległości Mahalanobisa do wykrywania stężeń nieprawidłowych, wartości resztkowych RMS X do wychwycenia dużych róznic widmowych, oraz Maximum Peak T do wykrywania nieprawidłowości w obrębie konkretnych pików. Wnioski Dzięki nowym funkcjom WinISI można łatwo opracować modele kwalifikacyjne dla platformy NIRS DS5200; modele te są bezproblemowo integrowane z procedurą IQ 2, obejmującym identyfikację (wybór właściwej grupy produktów, na przykład odtłuszczonego mleka w proszku), kwalifikację (czy produkt jest dobry a nie zafałszowany) oraz kwantyfikację (prognozę wilgotności i zawartości białka), co daje solidne narzędzie do zapewnienia dobrej jakości produktu. Bibliografia [1] Terminologia chemometryczna dla analizy jakościowej i ilościowej IQ 2, InFocus Vol. 38, nr 1, 2014. [2] Principal Component Analysis and Near Infrared Spectroscopy, In Focus Vol. 36, nr 1, 2012 (http://viewer.zmags.com/publication/b452b1b8#/b452b1b8/33) FOSS Ul. Osmańska14 02-823 Warszawa Polska Tel.: +48 22 441 55 00 Faks: +48 22 441 55 02 foss@foss.pl www.foss.pl Page 7