Porównanie skuteczności sieci MLP z regresją liniową na przykładzie danych epidemiologicznych

Podobne dokumenty
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Analiza regresji - weryfikacja założeń

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Natalia Neherbecka. 11 czerwca 2010

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Metoda najmniejszych kwadratów

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Własności statystyczne regresji liniowej. Wykład 4

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wprowadzenie do analizy korelacji i regresji

Weryfikacja hipotez statystycznych

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Testowanie hipotez statystycznych

Statystyka matematyczna dla leśników

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Zmienne zależne i niezależne

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Testowanie hipotez statystycznych

Metody Ekonometryczne

WYKŁAD 8 ANALIZA REGRESJI

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Rozdział 8. Regresja. Definiowanie modelu

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Pobieranie prób i rozkład z próby

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Estymacja punktowa i przedziałowa

Prawdopodobieństwo i statystyka

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

PDF created with FinePrint pdffactory Pro trial version

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Kolokwium ze statystyki matematycznej

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Uogólniona Metoda Momentów

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Stanisław Cichocki. Natalia Nehrebecka

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Testowanie hipotez statystycznych.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Testowanie hipotez statystycznych.

166 Wstęp do statystyki matematycznej

Statystyka i eksploracja danych

Monte Carlo, bootstrap, jacknife

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Metoda największej wiarogodności

Statystyka i Analiza Danych

Elementy statystyki wielowymiarowej

Testowanie hipotez statystycznych. Wprowadzenie

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Wnioskowanie statystyczne. Statystyka w 5

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

3. Modele tendencji czasowej w prognozowaniu

Uczenie sieci typu MLP

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Transkrypt:

Porównanie skuteczności sieci MLP z regresją liniową na przykładzie danych epidemiologicznych

Wstęp Sieci neuronowe znajdują szerokie zastosowanie także w medycynie. Na przykład rozpoznawanie chorób i diagnozowanie. Oczywiście izomorficzne problemy związane z rozpoznawaniem i klasyfikacją pojawiają się w innych dziedzinach, np. kryminalistyce, akustyce, optyce, data minig,... Analiza problemu często sprowadza się do szukania statystycznych własności rozważanych danych, chociażby takich jak występowanie normalności wzorców, występowanie pomiędzy nimi korelacji, w końcu dobór odpowiedniego modelu. Często, pomimo skromnej wiedzy o zależnościach pomiędzy wartościami a zmiennymi, przyjmujemy (badamy) model liniowy. Alternatywą dla tego podejścia jest wykorzystanie sieci neuronowych. W szczególności, jeśli chodzi o problem aproksymacji, możemy wyróżnić sieci MLP. Hornik udowadnia, że sieci MLP z trzema warstwami można uznać teoretycznie za uniwersalne aproksymatory. Wiele prac wskazuje, że sieci neuronowe dorównują bądź nawet przewyższają klasyczne metody związane z estymacją modeli statystycznych i predykcją.

Sieci neuronowe a statystyka Wymieńmy kilka znanych nam metod sieci neuronowych mających statystyczne odpowiedniki: Sieci liniowe warstwowe odpowiadają ogólnym modelom liniowym Sieci warstwowe nieliniowe są podklasą nieliniowych modeli regresyjnych i dyskryminacyjnych Sieci Kohonena są odpowiednikiem analizy skupień metodą k- średnich Sieci z uczeniem hebowskim są związane z analizą głównych składowych (PCA)

Plan prezentacji Jak zaznaczono w tytule, głównym celem jest porównywanie metod sieci neuronowych z ich odpowiednikami statystycznymi, u nas to jest regresja liniowa. Dla zupełności skupimy się najpierw na teoretycznych podwalinach regresji liniowej i sieci neuronowych, tu szczególnie skupimy się na metodzie wyznaczania wektorów wagowych i architekturze sieci. W dalszej kolejności przeprowadzimy porównanie obu metod na przykładzie wysymulowanych modeli, takich jakie często pojawiają się w praktyce medycznej. Zostaną wprowadzone kryteria dobroci dopasowania. Zostanie zwrócona uwaga na odporność dwóch metod na zakłócenia, zdolność do predykcji. W końcu przyjdzie czas na wnioski.

Metoda Najmniejszych Kwadratów(MNK) Idea MNK: Niech X 1, X 2,..., X n są ustalonymi nielosowymi wielkościami oraz niech Y 1,Y 2,...,Y n będą odpowiadającymi im sygnałami wyjściowymi obarczonymi losowymi błędami ε i o zerowej wartości oczekiwane, tzn. E(e i ) =0 dla i=1,2,...,n. Załóżmy, że wektor Y jest postaci: gdzie f jest nieznaną funkcją. Problem MNK polega na znalezieniu f na podstawie X i Y. Jako kryterium dopasowania f do danych eksperymentalnych przyjmujemy wielkość Funkcję, która w danej klasie minimalizuje I(f) nazywamy estymatorem najmniejszych kwadratów funkcji regresji f.

Model liniowy Określenia klasyczna metoda najmniejsza kwadratów najczęściej używamy w odniesieniu do metody szacowania parametrów strukturalnych modelu liniowego: y i i-ta obserwacja zmiennej objaśnianej x ji i-ta obserwacja j-tej zmiennej objaśniającej W postaci macierzowej : Y=Xβ +ε, gdzie jest macierzą zmiennych objaśniających, tzw. macierz planu, zaś β szukanym wektorem parametrów strukturalnych liniowego modelu.

Założenia MNK Aby estymatory parametrów strukturalnych modelu liniowego miały pożądane własności (zgodność, nieobciążoność) muszą być spełnione pewne warunki: 1. Model jest liniowy względem parametrów 2. Zmienne objaśniające są nielosowe, ich wartości są traktowane jako wielkości stałe w powtarzających się próbach 3. Wartości oczekiwane składników losowych ε i są równe zeru, tzn. E(ε i ) =0 dla i=1,2,...,n 4. Wariancje składników losowych ε i (reszt) są stałe, tzn. D 2 (ε i )=σ 2 dla i=1,2,...,n (własność homoscedastyczności) 5. Składniki losowe ε i i ε j są nieskorelowane dla i j, i,j=1,2...,n

6. Każdy ze składników losowych ε i ma rozkład normalny 7. Liczba obserwacji musi być większa niż liczba szacowanych parametrów 8. Pomiędzy wektorami obserwacji zmiennych objaśniających nie zachodzi liniowa zależność, jest to założenie o braku współliniowości Uwaga: Dwa ostanie założenia dotyczą problemów numerycznych związanych z wyznaczaniem estymatorów. Jeśli te założenia są spełnione estymatory NMK są wyznaczone jednoznacznie. Jeśli n=k+1 i zachodzi 8 to pomiędzy y i zachodzi funkcyjna zależność liniowa. a x 1i,...x ki

Estymacja parametrów modelu liniowego metodą najmniejszych kwadratów Zadanie oszacowania wektora β metodą MNK polega na wyznaczeniu β minimalizującego: W konsekwencji sprowadza się to do rozwiązania układu równań Pokazuje się, że rozwiązanie powyższego równania zawsze istnieje. Jeśli macierz X T X jest nieosobliwa, to estymatorem wektora β jest oczywiście

Własności estymatorów uzyskanych metodą najmniejszych kwadratów Twierdzenie Gaussa-Markowa Jeżeli ε 1,ε 2,...,ε n mają wartość oczekiwaną zero, taką samą wariancję i są nieskorelowane, to dla każdej estymowalnej funkcji parametrycznej a β, jej estymator MNK a' β ˆ ma jednostajnie minimalną wariancję w klasie wszystkich liniowych nieobciążonych estymatorów funkcji a β. Reasumując, estymatory MNK mają własności: liniowości zgodności efektywności nieobciążoności

Dalsze konsekwencje przyjęcia założeń klasycznej metody najmniejszych kwadratów Ponieważ estymatory parametrów strukturalnych modelu liniowego są liniowymi kombinacjami niezależnych zmiennych objaśnianych, mają więc także rozkłady normalne, znamy ich wartości oczekiwane, bo są zgodne. Dowodzi się natomiast, że macierz kowariancji estymatora β jest równa σ 2 (X T X) -1. Na ogół nie znamy wariancji składnika losowego. Za estymator σ przyjmujemy odchylenie standardowe reszt, S c. (Wiemy, że wówczas jest to estymator nieobciążony). Zatem nieobciążonym estymatorem macierzy kowariancji wektora β jest: Elementy diagonalne macierzy V 2 są ocenami wariancji estymatorów poszczególnych parametrów, zaś ich pierwiastki standartowymi błędami szacunku parametrów modelu. Do wyznaczenia przedziałów ufności dla estymatorów β j wykorzystuje się statystykę

Zagadnienia regresyjne w sieciach neuronowych Jak wiemy, za pomocą perceptronu możemy rozwiązywać problemy separowalne liniowo, czyli takie co można przedstawić jako podział dychotomiczny za pomocą pewnej hiperpłaszczyzny. Jednak nie rozwiążemy np. separowalności funkcji XOR. Wprowadzenie dodatkowej warstwy elementów perceptronowych powiększa zakres stosowalności sieci. M neuronów ukrytych dzieli przestrzeń R N na K obszarów wypukłych (simpleksów) utworzonych przez M hiperpłaszczyzn. Neuron wyjściowy odpowiednio skleja te obszary. Sieci MLP są uogólnieniem sieci jednowarstwowych. Mogą służyć do rozwiązywania nieliniowych zagadnień regresyjnych oraz zagadnień dyskryminacyjnych.

Zagadnienia regresyjne, c.d. Przyjęto następujący model sieci MLP (patrz rysunek 1) : Warstwa wejściowa składająca się z pięciu neuronów, każdy odpowiada jednej z pięciu zmiennych Warstwa ukryta składająca się z pięciu neuronów z logistyczną funkcją aktywacji Warstwa wyjściowa z jednym neuronem i liniową funkcją aktywacji Dodatkowo wyróżniamy jeden neuron zwany biasem, połączony z każdym neuronem warstwy ukrytej, może być ustawiany na zero bądź jeden. Ostatecznie, każde wyjście y jest obliczane w następujący sposób:

Architektura sieci MLP

Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów wagowych, tak aby zminimalizować błąd funkcji E(D,Y), gdzie D jest wektorem wzorców, zaś Y otrzymanych wyjść. Błąd definiujemy następująco: - Stosujemy klasyczne algorytmy służące do wyznaczenia minimum funkcji E. Korzystano z algorytmu wstecznej propagacji błędów, który polega na przesyłaniu obliczonego błędu wstecz z warstwy wyjściowej i modyfikacji odpowiednich wag neuronów poprzednich warstw - Używamy algorytmów iteracyjnych W kolejnej iteracji modyfikujemy wagi w następujący sposób:

Uczenie sieci, c.d. Jeśli przyjmiemy h(x)=w T X i g(x)=(1+exp(-w T X)) -1 mamy proste rozwiązanie: M w ij =ηδ Xj y Xi Dla danego wektora X δ Xj współczynnik związany z wyjściem wyraża się wzorem: δ Xj =(d Xj -y Xj )g j (h Xj ) oraz dla każdego neurona z warstwy ukrytej: δ Xi = S k=1(δ Xj w ij )g j (h Xj ). Aby przeciwdziałać chaotycznym zmainom, wprowadza się współczynnik µ zwany momentum

Algorytm przycinania (pruning algorithm)

Własności funkcji logistycznej Funkcja aktywacji użyta dla warstwy ukrytej posiada szereg ważnych własności: Ciągłe przejście pomiędzy wartością min i max Funkcja niemalejąca Funkcja ograniczona Łatwa do obliczenia pochodna: Możliwość ustalania kształtu krzywej poprzez parametr β

Symulacje Porównania sieci MLP z regresją liniową dokonano na podstawie wysymulowanych pięciu modeli uwzględniając między innymi takie założenia metody najmniejszych kwadratów jak: normalność składników losowych, homoscedastyczność, oraz niezależność składników losowych. Oto one: Model 1,2 i 5: Dla modelu pierwszego błędy wygenerowano względem rozkładu N(0,1), dla piątego U(0,1), zaś dla modelu drugiego względem rozkładu normalnego o niestałej wariancji (heterostatyczność) Model 3, uwzględniono interakcje pomiędzy dwiema zmiennymi Model 4, składnik losowy zastąpiono procesem ARMA(3,3) (autoregresji z ruchomą średnią)

Charakterystyki Table 1 Parameter values Parameters α β 1 β 2 β 3 β 4 β 5 γ ν Values 1.17-0.66 2.98 2.14 0 0.03 0.2 0.9 Table 2 Characteristics of covariates X Mean Variance Mininum Maximum X 1 8.882 7.046 0.638 17.454 X 2 5.554 0.162 4.268 6.946 X 3 6.922 5.376-0.662 13.166 X 4 10.409 0.00009 10.329 10.489 X 5 8.361 10.945-0.693 18.051

Charakterystyki, c.d. Table 3 Characteristics of the variables Y Design g(x) Mean Variance Minimum Maximun 1 Y=α+Xβ+ε 26.932 32.019 10.349 4366 ε ~N(0,1) 2 Y=α+Xβ+ε ε ~ N(0,ν 2 (f(x))) 26.98 35.105 10.093 47.086 3 Y=α+Xβ+γ X 3 X 5 +ε 38.518 11.358 8.923 77.447 ε ~N(0,1) 4 Y=α+Xβ+ΑΡΜΑ(3,3) 40.17 116.64 12.78 71.77 5 Y=α+Xβ+ε 27.427 29.945 10.998 45.665 ε ~U(0,1)

Przebieg symulacji Dla każdego modelu wygenerowano 3 zbiory danych, każdy po 1000 elementów. Dla sieci neuronowej procedura składała się z trzech kroków: Etap uczenia, testowanie sieci i predykcja. Dla każdego z kroków symulowano zbiór liczący 1000 elementów. Do wyznaczenia rozkładów wag użyto metody Bootstrap. Do wyznaczenia modelu liniowego użyto zbiór 2000 danych. Trzeci zbiór 1000 elementów wykorzystano do predykcji.

Kryteria dopasowania Aby zbadać jak wyestymowany model dopasowuje się do danych, rozważamy następujące współczynniki (Goodness-of-fit-criteria) gdzie f (X ) i jest wartością predykcji, zaś f ) wartością predykowaną Ŵ W (X i Logarytm wiarygodności: Kryterium Akaïke : gdzie p jest liczbą współczynników w modelu liniowym bądź liczbą współczynników wagowych w sieci MLP Uproszczone kryterium Kullbacka-Leiblera: Kryterium Schwarza: Jak interpretujemy te kryteria: dla pierwszego i drugiego oczywiste, Zaś im mniejsze kryterium Akaïke i większe kryterium Schwarza tym lepsze dopasowanie. Podane kryteria mogą służyć do porównania obu model.

Wyniki

Wyniki, c.d.

Interpretacja W tabeli 4 podano wartości estymatorów parametrów strukturalnych modelu liniowego obliczone metodą najmniejszych kwadratów oraz odpowiadające im wartości statystyki Walda. Jak interpretować tę wartość? Jak podano wcześniej, statystyka t=(b j -β j )/S bj ma rozkład t Studenta z n-k-1 stopniami swobody. Najczęściej interesuje nas weryfikacja hipotezy dotyczącej istotności współczynnika, tzn. H 0 :β j =0, wobec alternatywy H 1 :β j 0. Odrzucenie hipotezy zerowej oznacza, że współczynnik przy zmiennej X j ma wartość istotnie różną od zera, czyli ta zmienna wywiera istotny wpływ na kształtowanie się wartości zmiennej zależnej Y. Zatem jeśli obliczona statystyka t spełnia nierówność t >t α to odrzucamy hipotezę zerową. Wartość t α zostaje tak dobrana, aby zachodziło P( t >t α )=α=0.05. Jeśli n dąży do nieskończoności, rozkład Studenta jest zbieżny do rozkłady normalnego. Dla dużych n (jeśli liczba stopni swobody powyżej 30), t α będzie niewiele większe od 1.96

Interpretacja, c.d. Wartości statystyki t słusznie wskazują na brak istotności estymatora dla β 4 dla wszystkich modeli. Jedynie dla modelu drugiego otrzymujemy brak istotności współczynnika związanego ze zmienną X 5. Niestety, dla sieci neuronowych nie posiadamy tak klarownych, jak wyżej, metod statystycznych.

Wykresy predykcji, model 1

Wykresy predykcji, model 2

Wykresy predykcji, model 3

Wykresy predykcji, model 4

Wykresy predykcji, model 5

Wnioski Model 5 wymagał największej liczby neuronów w warstwie ukrytej oraz iteracji w procesie uczenia. Przedziały ufności dla modeli wyznaczonych przez MLP wydają się być bardzo podobne jak dla regresji liniowej. Dla modelu 1 i 5 błędy predykcji były małe dla obu metod i tego samego rzędu. Dla modelu 2, gdzie nie był spełniony warunek homoscedastyczności, predykcja nie była dokładna w obu metodach. Dla modelu 3, pomimo zależności pomiędzy zmiennymi X 3 X 5, obie metody dały bardzo podobne rezultaty. oraz Dla modelu 4, gdzie wprowadziliśmy proces ARMA(3,3) dla obu metod, predykcje były dalekie od rzeczywistych wartości. Jednak wydaje się, że przedział ufności dla modelu liniowego jest węższy.

Wnioski, c.d. W tabeli 6 zestawiono wartości wprowadzonych wcześniej współczynników. Dane były lepiej dopasowane przez model liniowy dla modeli 1,2,5. Sieć MLP okazała się bardziej skuteczna dla modelu 4 niż użycie regresji liniowej. Dla modelu 3 tylko współczynnik BIC wypadł gorzej dla MLP co może być najprawdopodobniej spowodowane wysoką liczbą wag (połączeń między neuronami) oraz interakcją pomiędzy zmiennymi. Jednak mniejsza wartość błędu względnego wskazuje na lepsze dopasowanie przez sieć neuronową.

Rozkłady wag, kolejno dla modeli 1,2,3,4,5

Rozkłady wag, c.d. Wnioski: Rozkłady wag są w mniejszym bądź większym stopniu normalne. Istnieje wyraźne podobieństwo rozkładów wag dla modeli 1,2,5. One też były najbliżej modelu liniowego. Można zauważyć, że rozkłady wag odpowiadające zmiennej X 3 miały największą wariancję. Dla modelu 3 widać interakcję zmiennych X 3 i X 5. Podobne wnioski płyną z obserwacji statystyki Walda (model liniowy), której wartości były w tych przypadkach największe.

Dalsze uwagi Używanie regresji wymaga spełnienia założeń metody najmniejszych kwadratów. Sieci neuronowe nie potrzebują tych założeń. Zignorowanie współzależności pomiędzy zmiennymi nie wpływa na jakość sieci MLP. Kryterium to musi być koniecznie uwzględnione przy stosowaniu modelu liniowego. Inne: Według Karpińskiego i Mac Intyre a (1995) proponowana liczba neuronów w warstwie ukrytej powinna wynosić C, gdzie gdzie n to liczba wejść i C spełnia nierówność

Literatura 1. Jean Gaudart, Bernard Giusiano, Laetitia Huiart, 2004. Comparsion of the performance of multi-layer perceptron and linear regression for epidemiological data. Computional Statistics & Data Analysis 44, 547-570.