Porównanie skuteczności sieci MLP z regresją liniową na przykładzie danych epidemiologicznych
Wstęp Sieci neuronowe znajdują szerokie zastosowanie także w medycynie. Na przykład rozpoznawanie chorób i diagnozowanie. Oczywiście izomorficzne problemy związane z rozpoznawaniem i klasyfikacją pojawiają się w innych dziedzinach, np. kryminalistyce, akustyce, optyce, data minig,... Analiza problemu często sprowadza się do szukania statystycznych własności rozważanych danych, chociażby takich jak występowanie normalności wzorców, występowanie pomiędzy nimi korelacji, w końcu dobór odpowiedniego modelu. Często, pomimo skromnej wiedzy o zależnościach pomiędzy wartościami a zmiennymi, przyjmujemy (badamy) model liniowy. Alternatywą dla tego podejścia jest wykorzystanie sieci neuronowych. W szczególności, jeśli chodzi o problem aproksymacji, możemy wyróżnić sieci MLP. Hornik udowadnia, że sieci MLP z trzema warstwami można uznać teoretycznie za uniwersalne aproksymatory. Wiele prac wskazuje, że sieci neuronowe dorównują bądź nawet przewyższają klasyczne metody związane z estymacją modeli statystycznych i predykcją.
Sieci neuronowe a statystyka Wymieńmy kilka znanych nam metod sieci neuronowych mających statystyczne odpowiedniki: Sieci liniowe warstwowe odpowiadają ogólnym modelom liniowym Sieci warstwowe nieliniowe są podklasą nieliniowych modeli regresyjnych i dyskryminacyjnych Sieci Kohonena są odpowiednikiem analizy skupień metodą k- średnich Sieci z uczeniem hebowskim są związane z analizą głównych składowych (PCA)
Plan prezentacji Jak zaznaczono w tytule, głównym celem jest porównywanie metod sieci neuronowych z ich odpowiednikami statystycznymi, u nas to jest regresja liniowa. Dla zupełności skupimy się najpierw na teoretycznych podwalinach regresji liniowej i sieci neuronowych, tu szczególnie skupimy się na metodzie wyznaczania wektorów wagowych i architekturze sieci. W dalszej kolejności przeprowadzimy porównanie obu metod na przykładzie wysymulowanych modeli, takich jakie często pojawiają się w praktyce medycznej. Zostaną wprowadzone kryteria dobroci dopasowania. Zostanie zwrócona uwaga na odporność dwóch metod na zakłócenia, zdolność do predykcji. W końcu przyjdzie czas na wnioski.
Metoda Najmniejszych Kwadratów(MNK) Idea MNK: Niech X 1, X 2,..., X n są ustalonymi nielosowymi wielkościami oraz niech Y 1,Y 2,...,Y n będą odpowiadającymi im sygnałami wyjściowymi obarczonymi losowymi błędami ε i o zerowej wartości oczekiwane, tzn. E(e i ) =0 dla i=1,2,...,n. Załóżmy, że wektor Y jest postaci: gdzie f jest nieznaną funkcją. Problem MNK polega na znalezieniu f na podstawie X i Y. Jako kryterium dopasowania f do danych eksperymentalnych przyjmujemy wielkość Funkcję, która w danej klasie minimalizuje I(f) nazywamy estymatorem najmniejszych kwadratów funkcji regresji f.
Model liniowy Określenia klasyczna metoda najmniejsza kwadratów najczęściej używamy w odniesieniu do metody szacowania parametrów strukturalnych modelu liniowego: y i i-ta obserwacja zmiennej objaśnianej x ji i-ta obserwacja j-tej zmiennej objaśniającej W postaci macierzowej : Y=Xβ +ε, gdzie jest macierzą zmiennych objaśniających, tzw. macierz planu, zaś β szukanym wektorem parametrów strukturalnych liniowego modelu.
Założenia MNK Aby estymatory parametrów strukturalnych modelu liniowego miały pożądane własności (zgodność, nieobciążoność) muszą być spełnione pewne warunki: 1. Model jest liniowy względem parametrów 2. Zmienne objaśniające są nielosowe, ich wartości są traktowane jako wielkości stałe w powtarzających się próbach 3. Wartości oczekiwane składników losowych ε i są równe zeru, tzn. E(ε i ) =0 dla i=1,2,...,n 4. Wariancje składników losowych ε i (reszt) są stałe, tzn. D 2 (ε i )=σ 2 dla i=1,2,...,n (własność homoscedastyczności) 5. Składniki losowe ε i i ε j są nieskorelowane dla i j, i,j=1,2...,n
6. Każdy ze składników losowych ε i ma rozkład normalny 7. Liczba obserwacji musi być większa niż liczba szacowanych parametrów 8. Pomiędzy wektorami obserwacji zmiennych objaśniających nie zachodzi liniowa zależność, jest to założenie o braku współliniowości Uwaga: Dwa ostanie założenia dotyczą problemów numerycznych związanych z wyznaczaniem estymatorów. Jeśli te założenia są spełnione estymatory NMK są wyznaczone jednoznacznie. Jeśli n=k+1 i zachodzi 8 to pomiędzy y i zachodzi funkcyjna zależność liniowa. a x 1i,...x ki
Estymacja parametrów modelu liniowego metodą najmniejszych kwadratów Zadanie oszacowania wektora β metodą MNK polega na wyznaczeniu β minimalizującego: W konsekwencji sprowadza się to do rozwiązania układu równań Pokazuje się, że rozwiązanie powyższego równania zawsze istnieje. Jeśli macierz X T X jest nieosobliwa, to estymatorem wektora β jest oczywiście
Własności estymatorów uzyskanych metodą najmniejszych kwadratów Twierdzenie Gaussa-Markowa Jeżeli ε 1,ε 2,...,ε n mają wartość oczekiwaną zero, taką samą wariancję i są nieskorelowane, to dla każdej estymowalnej funkcji parametrycznej a β, jej estymator MNK a' β ˆ ma jednostajnie minimalną wariancję w klasie wszystkich liniowych nieobciążonych estymatorów funkcji a β. Reasumując, estymatory MNK mają własności: liniowości zgodności efektywności nieobciążoności
Dalsze konsekwencje przyjęcia założeń klasycznej metody najmniejszych kwadratów Ponieważ estymatory parametrów strukturalnych modelu liniowego są liniowymi kombinacjami niezależnych zmiennych objaśnianych, mają więc także rozkłady normalne, znamy ich wartości oczekiwane, bo są zgodne. Dowodzi się natomiast, że macierz kowariancji estymatora β jest równa σ 2 (X T X) -1. Na ogół nie znamy wariancji składnika losowego. Za estymator σ przyjmujemy odchylenie standardowe reszt, S c. (Wiemy, że wówczas jest to estymator nieobciążony). Zatem nieobciążonym estymatorem macierzy kowariancji wektora β jest: Elementy diagonalne macierzy V 2 są ocenami wariancji estymatorów poszczególnych parametrów, zaś ich pierwiastki standartowymi błędami szacunku parametrów modelu. Do wyznaczenia przedziałów ufności dla estymatorów β j wykorzystuje się statystykę
Zagadnienia regresyjne w sieciach neuronowych Jak wiemy, za pomocą perceptronu możemy rozwiązywać problemy separowalne liniowo, czyli takie co można przedstawić jako podział dychotomiczny za pomocą pewnej hiperpłaszczyzny. Jednak nie rozwiążemy np. separowalności funkcji XOR. Wprowadzenie dodatkowej warstwy elementów perceptronowych powiększa zakres stosowalności sieci. M neuronów ukrytych dzieli przestrzeń R N na K obszarów wypukłych (simpleksów) utworzonych przez M hiperpłaszczyzn. Neuron wyjściowy odpowiednio skleja te obszary. Sieci MLP są uogólnieniem sieci jednowarstwowych. Mogą służyć do rozwiązywania nieliniowych zagadnień regresyjnych oraz zagadnień dyskryminacyjnych.
Zagadnienia regresyjne, c.d. Przyjęto następujący model sieci MLP (patrz rysunek 1) : Warstwa wejściowa składająca się z pięciu neuronów, każdy odpowiada jednej z pięciu zmiennych Warstwa ukryta składająca się z pięciu neuronów z logistyczną funkcją aktywacji Warstwa wyjściowa z jednym neuronem i liniową funkcją aktywacji Dodatkowo wyróżniamy jeden neuron zwany biasem, połączony z każdym neuronem warstwy ukrytej, może być ustawiany na zero bądź jeden. Ostatecznie, każde wyjście y jest obliczane w następujący sposób:
Architektura sieci MLP
Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów wagowych, tak aby zminimalizować błąd funkcji E(D,Y), gdzie D jest wektorem wzorców, zaś Y otrzymanych wyjść. Błąd definiujemy następująco: - Stosujemy klasyczne algorytmy służące do wyznaczenia minimum funkcji E. Korzystano z algorytmu wstecznej propagacji błędów, który polega na przesyłaniu obliczonego błędu wstecz z warstwy wyjściowej i modyfikacji odpowiednich wag neuronów poprzednich warstw - Używamy algorytmów iteracyjnych W kolejnej iteracji modyfikujemy wagi w następujący sposób:
Uczenie sieci, c.d. Jeśli przyjmiemy h(x)=w T X i g(x)=(1+exp(-w T X)) -1 mamy proste rozwiązanie: M w ij =ηδ Xj y Xi Dla danego wektora X δ Xj współczynnik związany z wyjściem wyraża się wzorem: δ Xj =(d Xj -y Xj )g j (h Xj ) oraz dla każdego neurona z warstwy ukrytej: δ Xi = S k=1(δ Xj w ij )g j (h Xj ). Aby przeciwdziałać chaotycznym zmainom, wprowadza się współczynnik µ zwany momentum
Algorytm przycinania (pruning algorithm)
Własności funkcji logistycznej Funkcja aktywacji użyta dla warstwy ukrytej posiada szereg ważnych własności: Ciągłe przejście pomiędzy wartością min i max Funkcja niemalejąca Funkcja ograniczona Łatwa do obliczenia pochodna: Możliwość ustalania kształtu krzywej poprzez parametr β
Symulacje Porównania sieci MLP z regresją liniową dokonano na podstawie wysymulowanych pięciu modeli uwzględniając między innymi takie założenia metody najmniejszych kwadratów jak: normalność składników losowych, homoscedastyczność, oraz niezależność składników losowych. Oto one: Model 1,2 i 5: Dla modelu pierwszego błędy wygenerowano względem rozkładu N(0,1), dla piątego U(0,1), zaś dla modelu drugiego względem rozkładu normalnego o niestałej wariancji (heterostatyczność) Model 3, uwzględniono interakcje pomiędzy dwiema zmiennymi Model 4, składnik losowy zastąpiono procesem ARMA(3,3) (autoregresji z ruchomą średnią)
Charakterystyki Table 1 Parameter values Parameters α β 1 β 2 β 3 β 4 β 5 γ ν Values 1.17-0.66 2.98 2.14 0 0.03 0.2 0.9 Table 2 Characteristics of covariates X Mean Variance Mininum Maximum X 1 8.882 7.046 0.638 17.454 X 2 5.554 0.162 4.268 6.946 X 3 6.922 5.376-0.662 13.166 X 4 10.409 0.00009 10.329 10.489 X 5 8.361 10.945-0.693 18.051
Charakterystyki, c.d. Table 3 Characteristics of the variables Y Design g(x) Mean Variance Minimum Maximun 1 Y=α+Xβ+ε 26.932 32.019 10.349 4366 ε ~N(0,1) 2 Y=α+Xβ+ε ε ~ N(0,ν 2 (f(x))) 26.98 35.105 10.093 47.086 3 Y=α+Xβ+γ X 3 X 5 +ε 38.518 11.358 8.923 77.447 ε ~N(0,1) 4 Y=α+Xβ+ΑΡΜΑ(3,3) 40.17 116.64 12.78 71.77 5 Y=α+Xβ+ε 27.427 29.945 10.998 45.665 ε ~U(0,1)
Przebieg symulacji Dla każdego modelu wygenerowano 3 zbiory danych, każdy po 1000 elementów. Dla sieci neuronowej procedura składała się z trzech kroków: Etap uczenia, testowanie sieci i predykcja. Dla każdego z kroków symulowano zbiór liczący 1000 elementów. Do wyznaczenia rozkładów wag użyto metody Bootstrap. Do wyznaczenia modelu liniowego użyto zbiór 2000 danych. Trzeci zbiór 1000 elementów wykorzystano do predykcji.
Kryteria dopasowania Aby zbadać jak wyestymowany model dopasowuje się do danych, rozważamy następujące współczynniki (Goodness-of-fit-criteria) gdzie f (X ) i jest wartością predykcji, zaś f ) wartością predykowaną Ŵ W (X i Logarytm wiarygodności: Kryterium Akaïke : gdzie p jest liczbą współczynników w modelu liniowym bądź liczbą współczynników wagowych w sieci MLP Uproszczone kryterium Kullbacka-Leiblera: Kryterium Schwarza: Jak interpretujemy te kryteria: dla pierwszego i drugiego oczywiste, Zaś im mniejsze kryterium Akaïke i większe kryterium Schwarza tym lepsze dopasowanie. Podane kryteria mogą służyć do porównania obu model.
Wyniki
Wyniki, c.d.
Interpretacja W tabeli 4 podano wartości estymatorów parametrów strukturalnych modelu liniowego obliczone metodą najmniejszych kwadratów oraz odpowiadające im wartości statystyki Walda. Jak interpretować tę wartość? Jak podano wcześniej, statystyka t=(b j -β j )/S bj ma rozkład t Studenta z n-k-1 stopniami swobody. Najczęściej interesuje nas weryfikacja hipotezy dotyczącej istotności współczynnika, tzn. H 0 :β j =0, wobec alternatywy H 1 :β j 0. Odrzucenie hipotezy zerowej oznacza, że współczynnik przy zmiennej X j ma wartość istotnie różną od zera, czyli ta zmienna wywiera istotny wpływ na kształtowanie się wartości zmiennej zależnej Y. Zatem jeśli obliczona statystyka t spełnia nierówność t >t α to odrzucamy hipotezę zerową. Wartość t α zostaje tak dobrana, aby zachodziło P( t >t α )=α=0.05. Jeśli n dąży do nieskończoności, rozkład Studenta jest zbieżny do rozkłady normalnego. Dla dużych n (jeśli liczba stopni swobody powyżej 30), t α będzie niewiele większe od 1.96
Interpretacja, c.d. Wartości statystyki t słusznie wskazują na brak istotności estymatora dla β 4 dla wszystkich modeli. Jedynie dla modelu drugiego otrzymujemy brak istotności współczynnika związanego ze zmienną X 5. Niestety, dla sieci neuronowych nie posiadamy tak klarownych, jak wyżej, metod statystycznych.
Wykresy predykcji, model 1
Wykresy predykcji, model 2
Wykresy predykcji, model 3
Wykresy predykcji, model 4
Wykresy predykcji, model 5
Wnioski Model 5 wymagał największej liczby neuronów w warstwie ukrytej oraz iteracji w procesie uczenia. Przedziały ufności dla modeli wyznaczonych przez MLP wydają się być bardzo podobne jak dla regresji liniowej. Dla modelu 1 i 5 błędy predykcji były małe dla obu metod i tego samego rzędu. Dla modelu 2, gdzie nie był spełniony warunek homoscedastyczności, predykcja nie była dokładna w obu metodach. Dla modelu 3, pomimo zależności pomiędzy zmiennymi X 3 X 5, obie metody dały bardzo podobne rezultaty. oraz Dla modelu 4, gdzie wprowadziliśmy proces ARMA(3,3) dla obu metod, predykcje były dalekie od rzeczywistych wartości. Jednak wydaje się, że przedział ufności dla modelu liniowego jest węższy.
Wnioski, c.d. W tabeli 6 zestawiono wartości wprowadzonych wcześniej współczynników. Dane były lepiej dopasowane przez model liniowy dla modeli 1,2,5. Sieć MLP okazała się bardziej skuteczna dla modelu 4 niż użycie regresji liniowej. Dla modelu 3 tylko współczynnik BIC wypadł gorzej dla MLP co może być najprawdopodobniej spowodowane wysoką liczbą wag (połączeń między neuronami) oraz interakcją pomiędzy zmiennymi. Jednak mniejsza wartość błędu względnego wskazuje na lepsze dopasowanie przez sieć neuronową.
Rozkłady wag, kolejno dla modeli 1,2,3,4,5
Rozkłady wag, c.d. Wnioski: Rozkłady wag są w mniejszym bądź większym stopniu normalne. Istnieje wyraźne podobieństwo rozkładów wag dla modeli 1,2,5. One też były najbliżej modelu liniowego. Można zauważyć, że rozkłady wag odpowiadające zmiennej X 3 miały największą wariancję. Dla modelu 3 widać interakcję zmiennych X 3 i X 5. Podobne wnioski płyną z obserwacji statystyki Walda (model liniowy), której wartości były w tych przypadkach największe.
Dalsze uwagi Używanie regresji wymaga spełnienia założeń metody najmniejszych kwadratów. Sieci neuronowe nie potrzebują tych założeń. Zignorowanie współzależności pomiędzy zmiennymi nie wpływa na jakość sieci MLP. Kryterium to musi być koniecznie uwzględnione przy stosowaniu modelu liniowego. Inne: Według Karpińskiego i Mac Intyre a (1995) proponowana liczba neuronów w warstwie ukrytej powinna wynosić C, gdzie gdzie n to liczba wejść i C spełnia nierówność
Literatura 1. Jean Gaudart, Bernard Giusiano, Laetitia Huiart, 2004. Comparsion of the performance of multi-layer perceptron and linear regression for epidemiological data. Computional Statistics & Data Analysis 44, 547-570.