Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę
|
|
- Magda Kaczmarek
- 9 lat temu
- Przeglądów:
Transkrypt
1 Norbert Jankowski Ontogeniczne sieci neuronowe O sieciach zmieniających swoją strukturę Warszawa 23
2 Opracowanie książki było wspierane stypendium Uniwersytetu Mikołaja Kopernika
3 Spis treści Wprowadzenie 5 Funkcje transferu 2. Funkcjerealizowaneprzezneuron Funkcjeaktywacji Miary odległości i podobieństwa jako funkcje aktywacji Jednorodnemiaryodległości Niejednorodnemiaryodległości Funkcje aktywacji powstające jako złożenie iloczynu skalarnegoimiarpodobieństwa Funkcjewyjścia Funkcjesigmoidalne Funkcje zlokalizowane wokół jednego centrum Funkcjesemi-centralne Funkcjetransferu Nielokalnefunkcjetransferu Lokalneisemi-lokalnefunkcjetransferu Gaussowska i sigmoidalna funkcja wstęgowa Funkcjeogęstościachelipsoidalnych Uniwersalnefunkcjetransferu Funkcjebicentralne Rozszerzeniafunkcjibicentralnych Funkcje bicentralne z niezależnymi skosami Funkcjebicentralnezrotacją Funkcje bicentralne z rotacją i niezależnymi skosami Hierarchia funkcji transferu pod względem ich elastyczności Końcowe porównanie różnych funkcji transferu Sieci z radialnymi funkcjami bazowymi (RBF) 8 2. Sieci z radialnymi funkcjami bazowymi i regularyzacją Uogólniona sieć z radialnymi funkcjami bazowymi (GRBF) Metody inicjalizacji i uczenia bez nadzoru sieci typu RBF
4 4 SPIS TREŚCI 2.3. Inicjalizacja położeń zbiorem wektorów uczących Inicjalizacja położeń poprzez podzbiór zbioru uczącego Inicjalizacja położeń metodą klasteryzacji k-średnich Inicjalizacja za pomocą metody k najbliższych sąsiadów Konstruowanie klastrów za pomocą dendrogramów Inicjalizacja za pomocą histogramów i drzew decyzyjnych UczenieznadzoremsieciRBF RozszerzeniasieciRBF RozszerzeniagłównegorównaniasieciRBF Regularyzacja InnemetodyuczeniasieciRBF PorównaniesieciRBFzsieciamiMLP Probabilistyczne sieci neuronowe Support Vector Machines (SVM) 7 3. Funkcjejądrowe Konstrukcjaoptymalnejhiperpłaszczyzny Konstrukcja hiperpłaszczyzny dla przypadków nieseparowalnych (C-SVC) ν-svc Problem regresji (ɛ-svr) Problem regresji dla ν-svm (ν-svr) Optymalizacja problemów programowania kwadratowego (QP) Dekompozycja WybórzbioruroboczegodlaC-SVM Kryteriumstopu Wybór zbioru roboczego dla ν-svm Kryterium stopu dla ν-svm Analityczne rozwiązanie problemu dekompozycji Wyznaczenie wartości b i ρ Dalsze sposoby przyspieszenia rozwiązywania problemów QPdlaSVM ZbieżnośćalgorytmówdekompozycjiQP SVMaRBF Meta-SVM Walidacjaskośnastosowanadouczenia WynikialgorytmuMeta-SVM Podsumowanie Ontogeniczne modele sieci neuronowych Modelezmniejszającestrukturę Modelezmniejszającestrukturęaregularyzacja Rozpadwag Eliminacjawag MLP2LN...39
5 SPIS TREŚCI Lokalnaregresjagrzbietowa Metodywspółdzieleniawag Usuwanie wag metodami Optimal Brain Damage (OBD) ioptimalbrainsurgeon(obs) Statystyczne i inne metody zmniejszania struktury sieci neuronowych Modeleostrukturachrozrastającychsię Algorytmkafelkowania Algorytmkieszonkowy Sieć kafelkowa dla problemów wieloklasowych Algorytmwieżaipiramida Upstart Algorytm budowania sieci kaskadowych przez analizę dychotomii Algorytmkorelacjikaskadowej Kaskadowasiećperceptronowa FeatureSpaceMapping(FSM) SiećRANzprzydziałemzasobów Uczeniesekwencyjne GeometryczneKryteriumRozrostu AdaptacjasieciRAN Sieć IncNet ze statystyczną kontrolą złożoności sieci Strukturasieciifunkcjetransferu RozszerzonyfiltrKalmana SzybkawersjarozszerzonegofiltruKalmana Kryteriumwystarczalnościmodelu Usuwanieneuronów Łączenieneuronów WykorzystaniesieciIncNetwklasyfikacji Charakterystyka parametrów kontroli procesu adaptacji sieciincnet Siećneuronowaoptymalnychfunkcjitransferu Siećoptymalnychfunkcjitransferu(OTFN) Usuwanieneuronów Statystyczne kryterium usuwania neuronów Kryteriumwystarczalnościsieci SiećoptymalnychfunkcjitransferutypuII Przykłady działania sieci optymalnych funkcji transferu Problemparzystości Problempółsferyipółprzestrzeni Problemtrójkąta....84
6 6 SPIS TREŚCI 5 Komitety modeli K-klasyfikatorów K 2 -klasyfikatorów Maszynaliniowa Sposobypodejmowaniadecyzjiprzezkomitet Bootstrap Aggregating (Bagging) BoostingiAdaBoost Inne komitety: Arcing, RegionBoost, Stacking, Grading, Mixture ofexperts Arcing RegionBoost Stacking Grading Mixtureoflocalexperts Komitetyheterogeniczne Komitetyzlokalnąkompetencją Wstępne i końcowe przetwarzanie danych 2 6. Transformacjedanych Wartościnietypoweibrakujące Wartościnietypowe Wartościbrakujące Metodyselekcjiiważeniacech Ważenie i selekcja cech dyskretną metodą quasi-gradientową Algorytmważeniacech Uczenie z wykorzystaniem walidacji skośnej Estymacjawagkońcowych Procedura FindWeights Eliminacjacech Przykłady rezultatów dla ważenia cech Bazadanychtarczycy Dane wyrostka robaczkowego (Appendicitis) Dane Australian credit Dane opisujące flagi narodowe (Flags) Danerakapiersi Zbiór danych Glass Danechoróbserca Daneopisującegatunkiwin Podsumowanie Regularyzacjadanych Odcienieszarości Eliminacja złych wektorów i przeetykietowanie klas Przykładyużyciaregularyzacjidanych...223
7 SPIS TREŚCI Podsumowanie Przedziały ufności, jako narzędzie analizy danych i wizualizacji wyników Przedziały ufności i probabilistyczne przedziały ufności, a regułylogiczne Zastosowanie sieci neuronowych Technikiporównywaniaróżnychmodeli MedycznezastosowaniasieciIncNet Klasyfikacja i analiza danych psychometrycznych Opisproblemu Dane Procesuczenia Porównanieianalizawyników Typowemedycznedaneporównawcze Zapaleniewyrostkarobaczkowego Danedotyczącerakapiersi Danedotyczącezapaleniawątroby Danedotyczącecukrzycy Chorobytarczycy Aproksymacja FunkcjaHermita FunkcjaGaboraiGirosiego FunkcjaSugeno Zakończenie 277 Bibliografia 279 Skorowidz 298 Ilustracje kolorowe 35
8
9 Spis rysunków Przykładsiecineuronowejzjednąwarstwąukrytą Modelneuronu Funkcjelogistycznewdwóchwymiarach Taksonomia funkcji aktywacji. C( ) jest liczbą parametrów wolnych normy Funkcja Gaussa (.65) z miarą Minkowskiego o różnych współczynnikachrównania Taksonomiafunkcjiwyjścia Porównaniesigmoidalnychfunkcjitransferu Funkcjasferyczna(.6) Funkcja potęgowa h i h 2 (.62) Funkcja sklejana h 3 (.64) Funkcjagaussowska(.65) Kołowafunkcjasklejanatrzeciegostopnia(.7) Kołowafunkcjasklejanaczwartegostopnia(.7) Porównanie lokalnych funkcji wyjścia (patrz równania (.65,.,.66.7)) Funkcjaokienkująca(.73) Problem parzystości rozwiązany przy użyciu funkcji okienkującej (.73) Podział na regiony decyzji uformowane przy użyciu funkcji sigmoidalnychzaktywacjązdefiniowanąprzez(.) FunkcjaLorentzowska(.76) Funkcja bazowa z potęgowego iloczynu tensorowego ZnormalizowanafunkcjaGaussa softmax WstęgowafunkcjaGaussa(.82) Sigmoidalnafunkcjawstęgowa(.83) FunkcjaGaussawieluzmiennych(.84) Funkcjasigmoidalnawieluzmiennych(.85) Funkcja Ḡ 2 (.88) Funkcja Ḡ 3 (.89) FunkcjakołowaRiddelli(.9) Funkcjakołowazobrotem(.93)... 63
10 SPIS RYSUNKÓW.28Funkcjestożkowe(.95) Uogólnionefunkcjestożkowe(.96) Kombinacja aproksymacji funkcji gaussowskiej z funkcją Lorentza (.97i.98) Uniwersalna funkcja Gaussa G( I 2 + D 2 ) (.99) Kilka przykładów funkcji bicentralnych (.) Przykłady funkcji bicentralnych z niezależnymi skosami (.3) Funkcjebicentralnezrotacją(.4) Funkcje bicentralne z rotacją i niezależnymi skosami (.9) Siećzradialnymifunkcjamibazowymi Dendrogramy Histogramy Gęstość, dla której analiza histogramów nie daje żadnych korzyści Zastosowanieregularyzacjidoaproksymacjifunkcji Podziały przestrzeni danych przy użyciu sieci RBF i MLP Przykładowa transformacja danych wejściowych z czterema klastraminahipersferę Optymalnahiperpłaszczyzna Konstrukcja optymalnej hiperpłaszczyzny separującej kółka od kwadratów Ilustracjafunkcjibłędu Meksykańskikapelusz Architektura sieci kafelkowej. Kwadraty symbolizują pierwsze, główne neurony warstwy, kółka neurony dopełniające (warstwy ukrytej), które stopniowo pomagają spełnić warunek wierności warstwy Architektura sieci kafelkowej dla problemów wieloklasowych. Kółka w warstwie ukrytej symbolizują neurony dopełniające, które stopniowo pomagają spełnić warunek wierności warstwy Siećbudowanazapomocąalgorytmuwieża Siećbudowanazapomocąalgorytmupiramida Siećpiramidadlaproblemówwieloklasowych Kaskadowastrukturasiecidychotomicznej Architektura sieci kaskadowej korelacji. Kwadraty symbolizują zamrożone wartości wag z neuronami ukrytymi. Pozostałe wagi ulegająciągłejadaptacji Sieć RAN z nową funkcją bazową G M Zależności pomiędzy modelami a posteriori F (n) i F (n) (odpowiednio z przestrzeni H M i H M+ ) względem a priori modelu F (n ) StrukturasieciIncNet Komitet sieci IncNet w zastosowaniu do problemów klasyfikacyjnych....74
11 SPIS RYSUNKÓW 4.3 Różnorodne rozwiązania problemu parzystości (XOR) Różnorodne rozwiązania problemu parzystości (XOR) cd Problem półsfera + półprzestrzeń i przykłady rozwiązań Rozwiązania problemu trójkąta Ogólnyschematkomitetu Schemat komitetu K-klasyfikatora Kilka zestawów wag uzyskanych dla zbioru tarczycy RegularyzacjadanychI RegularyzacjadanychII Przedziały ufności. Przypadek psychozy reaktywnej Przedziały ufności. Przypadek zmian organicznych i schizofrenii Probabilistyczne przedziały ufności. Przypadek psychozy reaktywnej Probabilistyczne przedziały ufności. Przypadek zmian organicznychischizofrenii Poprawnośćklasyfikacjialiczbaneuronów Poprawnośćklasyfikacjialiczbaneuronów Poprawnośćklasyfikacjialiczbaneuronów Macierze rozrzutu powstałe przy uczeniu na całym zbiorze Macierze rozrzutu powstałe przy uczeniu na 9%-owej części zbioru27-klasowego Macierze rozrzutu powstałe przy uczeniu na 95%-owej części zbioru27-klasowego Macierze rozrzutu powstałe przy uczeniu na 9%-owej części zbioru28-klasowego Macierze rozrzutu powstałe przy uczeniu na 95%-owej części zbioru28-klasowego Porównaniewartościuzyskanychioczekiwanych Porównanie wartości prawdopodobieństw uzyskanych i oczekiwanych Porównanie wartości prawdopodobieństw uzyskanych i oczekiwanych Porównanie wartości prawdopodobieństw uzyskanych i oczekiwanych Przedziały ufności. Przypadek psychozy reaktywnej Probabilistyczne przedziały ufności. Przypadek psychozy reaktywnej Przedziałyufności.Zespółurojeniowy Probabilistyczne przedziały ufności. Zespół urojeniowy Przedziałyufności.Przypadekschizofrenii Probabilistyczne przedziały ufności. Przypadek schizofrenii Bazadanychwyrostkarobaczkowego...264
12 2 SPIS RYSUNKÓW 7.2Bazadanychrakapiersi Bazadanychzapaleniawątroby Bazadanychcukrzycy Macierze rozrzutu dla bazy danych chorób tarczycy. Po lewej dla zbiorutreningowego,poprawejdlazbiorutestowego Adaptacja sieci IncNet dla problemu aproksymacji funkcji Sugeno Gęstości: kryterium Meta-SVM, poprawności, liczby wektorów podpierających (SV) i liczby ograniczonych wektorów podpierających dla testu wisconsin breast cancer Gęstości: kryterium Meta-SVM, poprawności, liczby wektorów podpierających (SV) i liczby ograniczonych wektorów podpierających dla testu glass Pierwsza baza danych psychometrycznych 27 klas. Część A Pierwsza baza danych psychometrycznych 27 klas. Część B Druga baza danych psychometrycznych 28 klas. Część A Druga baza danych psychometrycznych 28 klas. Część B Baza danych nadczynności i niedoczynności tarczycy po selekcji istotnychcechitransformacji Bazadanychnadczynnościiniedoczynnościtarczycy....3
13 Spis tabel. Hierarchieelastycznościfunkcjitransferu Porównanie funkcji transferu. Symbole użyte w tabeli zostały wyjaśnionewtekście(patrzstr.77) Porównaniefunkcjitransferucd Zależności pomiędzy ν, współczynnikiem błędu, ilością wektorów podpierających (support vectors) i szerokością marginesu. Wartościtabelizaczerpniętez[229] Porównanie rezultatów uczenia algorytmu Meta-SVM. Dokładny opisznajdujesięwtekście Porównanie rezultatów uczenia algorytmu Meta-SVM cd Porównanie rezultatów dla kilku baz danych z UCI repository [82] przy użyciu algorytmu C4.5 i AdaBoost z C4.5 i Bagging z C4.5[89] Porównanie efektywności stackingu do innych modeli komitetowych Dokładności dla NN, knn, ważonego knn, najlepszego znanego modelu i różnice pomiędzy NN, knn, WkNN a najlepszym modelem Dokładnośćdlazbiorudanychtarczycy Dokładnościdlazbioruwyrostkarobaczkowego Dokładności dla zbioru australian credit Dokładnościdlazbioruflagi Dokładnościdlazbioruchoróbserca Dokładności dla zbioru glass Dokładnościdlazbiorurakapiersi Dokładności dla zbioru wine Rozkład złożoności sieci IncNet dla zbioru 27 klasowego Rozkład złożoności sieci IncNet dla zbioru 28 klasowego Poprawność klasyfikacji w procentach dla różnych modeli adaptacyjnych. Modele były uczone na całym zbiorze 27- i 28-klasowym.243
14 4 SPIS TABEL 7.4 Porównanie poprawności klasyfikacji w procentach danych psychometrycznych Zapalenie wyrostka robaczkowego porównanie rezultatów dla CV Zapalenie wyrostka robaczkowego porównanie rezultatów dla testuloo Danedotyczącerakapiersi porównanierezultatów Zapaleniewątroby porównanierezultatów Chorobycukrzycy porównanierezultatów Chorobytarczycy porównanierezultatów AproksymacjafunkcjiHermita(7.3) Definicje modeli użytych do aproksymacjifunkcjigaboraigiro- siego AproksymacjafunkcjiGabora(7.4)iGirosiego(7.5) Porównanie rezultatów aproksymacji funkcji Sugeno (7.6)
15 Wprowadzenie Dziś chyba już z pewnością możemy powiedzieć, że właśnie w stronę uśmiechniętych maszyn kierują się liczne badania przełomu wieku XX i XXI. Do tego stanu rzeczy niewątpliwie przyczynił się dynamiczny rozwój technologiczny komputerów, który niewątpliwie mobilizował rozwój informatyki. Początek istnienia komputerów to czas, w którym można było je znaleźć jedynie na uniwersytetach lub w instytucjach naukowo-badawczych. W ostatnich latach ogromnemu zwiększeniu uległa moc obliczeniowa komputerów, jak i możliwości ich integracji ze środowiskiem (możliwości sieci komputerowych, możliwości jakie daje łączenie komputerów z wieloma typami urządzeniami zewnętrznymi). Dodatkowo niezwykła chłonność rynku na sprzęt komputerowy jaką mogliśmy obserwować w ostatnich latach sprawiła, że ceny komputerów, o których jeszcze nie dawno nie można było marzyć, stały się przystępne dla kieszeni obywateli krajów wmiaręrozwiniętych, otwierając w ten sposób możliwości ich szerokiego zastosowania. Obecna moc obliczeniowa komputerów pozwoliła znacznie zwiększyć rozmiar problemów jakie można rozwiązywać. Z drugiej strony dziś można efektywnie rozwiązywać nie tylko problemy, których złożoność jest wielomianowa, ale również dość skutecznie rozwiązywać sporą część problemów NP-zupełnych, których do niedawna w ogóle nie można było rozwiązywać. Oczywiście racjonalne rozwiązywanie problemów NP-zupełnych sprowadza się do coraz lepszych rozwiązań przybliżonych, ale na tyle dobrych, by były wręcz nieodróżnialne od rozwiązań idealnych, bądź stanowiły rozwiązania satysfakcjonujące, które umożliwią ich użycie w praktyce. W realnych zastosowaniach na brak trudnych (NP-zupełnych) problemów nie można narzekać. Jest ich wręcz za dużo. Już choćby takie sztandarowe problemy jak gra w szachy, czy problem komiwojażera, są na to dowodem. O więcej przykładów naprawdę nietrudno, wystarczy spojrzeć na typowe problemy w przemyśle, na przykład problemy optymalizacyjne, czy niezwykle szeroki wachlarz problemów współczesnej medycyny, których rozwiązanie najczęściej polega na inteligentnym przetwarzaniu informacji. Trzeba pamiętać jednak, iż moc obliczeniowa komputerów to jedynie czynnik niezbędny do rozwiązywania takich problemów. Rozwiązywanie trudnych Tytuł książki prof. R. Tadeusiewicza [242].
16 6 Wprowadzenie problemów staje się możliwe przede wszystkim dzięki rozwojowi nowych algorytmów obliczeniowych, które najczęściej stanowią połączenie pewnej wiedzy o problemie z metodami przetwarzania i wykorzystywania tej wiedzy. Taka metodologia postępowania jest dziś spotykana w rozmaitych aplikacjach. Niewątpliwie w obecnych czasach coraz częściej będą poszukiwane systemy, które będą w stanie możliwie inteligentnie wynajdywać i przetwarzać informacje. Będzie (czasami już jest) to spowodowane coraz bogatszymi źródłami informacji, lecz informacji, która nieprzetworzona nie będzie miała żadnej wartości. Na myśli mam wszelakie źródła informacji, których jest wciąż coraz więcej, poczynając od Internetu, rozlicznych baz wiedzy/informacji do przeróżnych systemów pomiarowych w technice (zaawansowany przemysł, biotechnologia, nowoczesna aparatura medyczna, technika wojskowa, etc.). Ogromną część problemów stanowią różnego typu analizy uprzednio zebranych danych, analizy obrazów, klasyfikacja i rozpoznawanie wzorców, prognozowanie itp. Gałęzie nauki, które zajmują się rozwiązywaniem tego typu problemów, można objąć wspólną nazwą metod inteligencji obliczeniowej. Dometod inteligencji obliczeniowej z pewnością zaliczyć można sztuczne sieci neuronowe, uczenie maszynowe, metody regresji i estymacji, statystykę, teorie filtrów adaptacyjnych, modelowanie Bayesowskie, logikę rozmytą, teorię zbiorów przybliżonych, algorytmy ewolucyjne, metody drążenia danych, modelowanie koneksjonistyczne, neuroinformatykę. Większość modeli wyrosłych z powyższych dziedzin mają bardzo ważną wspólną cechę, mianowicie są to metody uczenia się zdanych 2. Na polskim rynku wydawniczym do tej pory ukazały się już książeki, które także dotykają tych problematyk [8, 239, 22, 59, 44, 22, 246, 98, 99, 28, 29, 24, 73, 46, 262] 3. Mam jednak nadzieję, że książka, którą mają państwo w rękach będzie miłym dopełnieniem stanu wiedzy z zagadnień dotyczących uczenia się modeli adaptacyjnych ze szczególnym uwzględnieniem sztucznych sieci neuronowych. Materiał poniższej monografii trudno sklasyfikować tylko do jednej z powyżej wspomnianych gałęzi metod inteligencji obliczeniowej. Choć niewątpliwie większość materiału jest bezpośrednio związana ze sztucznymi sieciami neuronowymi, to nietrudno dopatrzyć się metod uczenia maszynowego, statystyki, teorii filtrów adaptacyjnych, czy metod wizualizacji. Pierwszy rozdział stanowi obszerne omówienie funkcji transferu sztucznych sieci neuronowych, czyli funkcji realizowanych przez poszczególne sztuczne neurony. Funkcje transferu mają ogromny wpływ na własności sieci i tym samym na możliwości sztucznych sieci neuronowych. Dlatego też w tym rozdziale zebrano informacje o wielu funkcjach transferu. Zaprezentowano również ich nowe, bardziej efektywne wersje, które można zastosować do wielu znanych modeli. Dokonano systematycznego omówienia funkcji aktywacji, podzielonych na funkcje bazujące na iloczynie skalarnym, mierze odległości (lub podobieństwa) 2 Uczenie się z danych (ang. Learning from data) tytuł książki V. Cherkasskiego i F. Muliera 3 Cytowania w kolejności chronologicznej.
17 Wprowadzenie 7 i ich kombinacji. Po funkcjach aktywacji przedstawiono funkcje wyjścia: sigmoidalne, zlokalizowane i semi-centralne. Zaproponowane taksonomie są pierwszą tego typu próbą systematyzacji wiedzy o funkcjach, które mogą być realizowane przez sztuczne neurony. Następnie zostały przedstawione funkcje transferu, jako złożenia funkcji aktywacji z funkcjami wyjścia. Najpierw przedstawiono funkcje nielokalne, następnie lokalne, semi-lokalne i uniwersalne. Kolejna część rozdziału obejmuje nowe funkcje transferu, wśród których dużą grupę stanowią funkcje bicentralne. Zostały opisane formy podstawowe funkcji bicentralnych, jak i ich ciekawe rozszerzenia, które umożliwiają osiągnięcie jeszcze większej elastyczności na przykład poprzez wykorzystanie obrotu w wielowymiarowej przestrzeni, czy delokalizację. W końcowej części rozdziału dokonano tabelarycznego porównania ważnych własności funkcji transferu omówionych w tym rozdziale. Zaproponowano także hierarchiczne uporządkowanie funkcji transferu pod względem ich elastyczności. Drugi rozdział omawia różne aspekty sieci neuronowych z radialnymi funkcjami bazowymi (RBF). Początek rozdziału to omówienie podstaw sieci RBF. Następnie przedstawione zostały metody inicjalizacji sieci typu RBF. Potem omówiono standardowe, jak i mniej znane metody uczenia sieci RBF. Zaprezentowane zostały człony regularyzacyjne stosowane w sieciach RBF. Dokonano także porównania wielowarstwowych sieci perceptronowych (MLP) z sieciami RBF. Końcowa część rozdziału poświęcona jest sieciom probabilistycznym, które mają także spore więzi z modelami RBF. Kolejny rozdział (trzeci) poświęcono bardzo związanemu z siecią RBF modelowi Support Vector machines (SVM). Przedstawiono kilka typów modeli SVM związanych z klasyfikacją i regresją. Omówiono także algorytm uczenia modelu SVM i własności zbieżności. Przedstawiona została także rozbudowana wersja modelu SVM nazwana Meta-SVM. Rozdział czwarty obejmuje omówienie sieci ontogenicznych ze szczególnym uwzględnieniem ontogenicznej sieci IncNet jak i sieci optymalnych funkcji transferu. Pierwsza część omawia modele, które umożliwiają usuwanie wag lub neuronów ze struktury sieci neuronowej. Druga część rozdziału omawia modele, których struktura rozrasta się podczas procesu adaptacji. Wskazano liczne wady, zalety i ograniczenia przedstawionych modeli ontogenicznych. Omówiona została również sieć z przydziałem zasobów (RAN). Pozostała część rozdziału to wstęp i omówienie sieci Incremental Network (IncNet). Opisano, jak można zastosować rozszerzony filtr Kalmana (EKF) do uczenia sieci typu RBF. Zaproponowano także nową odmianę rozszerzonego filtra EKF o mniejszej złożoności obliczeniowej, dzięki której można prowadzić adaptację bardziej złożonych problemów. Zaproponowano nowe, statystyczne metody kontroli złożoności sieci neuronowych. Do zastosowań klasyfikacyjnych została zaprezentowana sieć, która składa się z klastra podsieci IncNet i modułu decyzyjnego. Następnie opisano możliwości diagnostyczne współczynników, które są wyznaczane przez wspomniany klaster sieci IncNet i moduł decyzyjny, w tym
18 8 Wprowadzenie także prawdopodobieństwa przynależności klasyfikowanych wektorów do poszczególnych cech. Opisano także własności różnych innych możliwości kontroli sieci IncNet. W dalszej części rozdziału zaproponowano używanie przedziałów ufności,które stanowią bardzo silną alternatywę dla reguł logicznych. Zaproponowano także bardzo ciekawe metody wizualizacji w oparciu o przedziały ufności, jak i ich rozwinięcia, których celem jest wspomaganie procesu diagnozy, szczególnie w medycynie. Następnie zaprezentowano sieć optymalnych funkcji transferu, która jest wyposażona w mechanizm kontroli złożoności i używa heterogenicznych funkcji transferu. Rozdział piąty omawia techniki budowania i uczenia komitetów modeli, czyli modeli złożonych z innych modeli. Omówiono różne modele komitetów i ich zastosowań, jak również ich wpływ na złożoność modelu ostatecznego jak i wpływ na generalizację i wariancję błędu. Przedstawiono komitety wykorzystywane w problemach wieloklasowych, dwuklasowych jak i takie które mogą być używane w klasyfikacji i aproksymacji. Omówiono komitety z głosowaniem, ważeniem i ich pochodne. Opisane są także bardziej zaawansowane komitety jak AdaBoosting czy Stacking, jak i komitety złożone z modeli heterogenicznych. Następny, szósty rozdział zawiera opis metod przetwarzania wstępnego danych. Transformacje te mogą odegrać kluczowe znaczenie i ich wpływ może okazać się (czy też po prostu jest zawsze) ogromny. Omówione zostały metody transformacji danych, postępowania z wartościami brakującymi, opisano metody selekcji i ważenia cech. Opisano także zupełnie nową metodę, której zadaniem jest regularyzacja danych, która może być wykorzystana w analizach danych lub modelach adaptacyjnych. Rozdział siódmy prezentuje zastosowania sieci IncNet dla realnych i sztucznych danych. W rozdziale omówione zostały metody porównania modeli, transformacje danych (standardowe jak i nowe), problemy wartości nietypowych i wartości brakujących, oraz ważniejsze aspekty metod selekcji cech. Pierwszy przykład zastosowania sieci IncNet, to analiza danych psychometrycznych. Celem jest klasyfikacja pacjentów do odpowiednich typów nozologicznych w oparciu o wykonywane testy psychometryczne i w rezultacie poprawienie jakości klasyfikacji dokonywanej obecnie przez psychologów. Dokonano szczegółowej analizy otrzymanych rezultatów dla różnych końcowych sieci IncNet. Kolejne zastosowania sieci IncNet, to problemy klasyfikacji raka piersi, zapalenia wątroby, cukrzycy, zapalenia wyrostka i chorób tarczycy. Wszystkie zastosowania zostały omówione i porównane z innymi, najlepszymi obecnie klasyfikatorami dla danych baz. Jako uzupełnienie powyżej wspomnianych zastosowań zostały dołączone zastosowania sieci IncNet w problemach aproksymacyjnych. Zastosowano sieć IncNet do aproksymacji czterech przykładowych funkcji i porównano rezultaty z kilkoma modelami.
19 Wprowadzenie 9 Niniejsza książka stanowi rozwinięcie mojej pracy doktorskiej. Prace nad rozwojem monografii, jak i samo wydanie wspierane było przez Uniwersytet Mikołaja Kopernika za co chciałbym serdecznie podziękować. Ze względów na koszt druku nie można było umieścić większości ilustracji w kolorze. Jednakże na stronie znajduje się dokument w formie elektronicznej ze wszystkimi kolorowymi ilustracjami znajdującymi się w książce. Bardzo krótkie wprowadzenie do sieci neuronowych Zanim przejdziemy do omawiania szczegółów dotyczących funkcji transferu, przyjrzymy się budowie sztucznych sieci neuronowych i ich działaniu. Poniższy fragment rozdziału jest tylko pobieżnym wprowadzeniem do tematyki sztucznych sieci neuronowych. Dlatego też osoby, które napotkają trudności w rozumieniu dalszych części materiału zachęcam do zapoznanie się choćby z jedną z następujących pozycji książkowych [239, 59, 22, 246, 98, 29, 24]. Sztuczne sieci neuronowe z informatycznego punktu widzenia to nic innego jak grafy z odpowiednio określoną rolą węzłów i krawędzi. Sieć neuronowa to graf skierowany. Oznacza to, że krawędzie łączące węzły grafu (czyli neurony sieci), są jednokierunkowe. Choć bywa wśród sieci neuronowych z rekurencją, że pary neuronów są połączone w obu kierunkach, tworząc cykl. warstwa wejściowa warstwa ukryta warstwa wyjściowa Rysunek : Przykład sieci neuronowej z jedną warstwą ukrytą. Przykład prostej sieci neuronowej można zobaczyć na rysunku. Jest to sieć, która składa się z trzech warstw neuronów, co jest dość typowe (np. dla sieci typu RBF, por. rozdział 2). Neurony należące do tej samej warstwy najczęściej mają takie same własności i rolę w sieci neuronowej. Na przykład na wspomnianym już rysunku pierwsza od lewej to warstwa neuronów wejściowych. Takie
20 2 Wprowadzenie neurony warstwy wejściowej tworzą źródło informacji dla całej sieci neuronowej. Właśnie od tych neuronów informacja jest propagowana dalej zgodnie z kierunkiem połączeń (krawędzi grafu skierowanego) pomiędzy neuronami warstwy wejściowej, a pozostałymi neuronami. Sposób przepływu informacji pomiędzy neuronami regulowany jest przez odpowiednie funkcje, które są przypisane do właściwych typów neuronów temu właśnie będzie poświęcony ten rozdziału. Warstwa po prawej części rysunku to warstwa neuronów wyjściowych. Właśnie wartości neuronów wyjściowych stanowią wynik, który jest związany pewną relacją, jaka zachodzi pomiędzy wejściem i wyjściem. Spowodowanie, aby sieć realizowała określoną relację pomiędzy wejściem i wyjściem jest głównym celem procesu uczenia sieci, jak i doboru jej struktury. Bywa, że te dwa etapy przebiegają równocześnie. Wtedy mamy do czynienia z sieciami ontogenicznymi, czyli takimi, które same korygują swoją strukturę. Korekcje struktury mogą polegać na zmianie liczby neuronów lub połączeń. Relacja pomiędzy wejściem i wyjściem sieci neuronowej może odpowiadać rozpoznawaniu pisma ręcznego czy syntezie głosu ludzkiego. W przypadku rozpoznawania pisma wejściem sieci jest odpowiednio przekształcony obraz pisma, a wyjściem może być znak. Jeśli proces ten przebiega dobrze (z powodzeniem) mówimy, że sieć neuronowa dobrze nauczyła się rozpoznawać pismo ręczne, bądź dokonywać syntezy dźwięku. Oczywiście sieci neuronowe mogą i są wykorzystywane na wielu polach nauki, technologii, medycyny i nie tylko. Uczenie sieci neuronowej polega na adaptacji wolnych parametrów sieci, czyli na zmianie wartości wag związanych z krawędziami grafu (czasem także innych wolnych parametrów, które jeśli nie będą związane z pewnymi krawędziami grafu, to będą związane z pewnymi neuronami). Za adaptację parametrów sieci odpowiada algorytm uczenia sieci. Bardzo często sieć neuronowa oprócz warstwy wejściowej i wyjściowej ma jedną bądź więcej warstw ukrytych. Ich zadaniem jest z jednej strony zwiększenie pojemności sieci (możliwości adaptacyjnych), a z drugiej umożliwienie odzwierciedlania przez sieć znacznie bardziej skomplikowanych relacji, najczęściej umożliwiając tworzenie odwzorowań nieliniowych. Czasem kolejne warstwy ukryte mogą odpowiadać różnym typom funkcjonalności (różnym filtrom, transformacjom). Liczba warstw, jak i liczby neuronów w poszczególnych warstwach ukrytych powinny zależeć od złożoności problemu jaki ma być rozwiązywany przez daną sieć neuronową. Rozmiar struktury zależy także od algorytmu uczenia, który sam w sobie może narzucać pewne ograniczenia na strukturę sieci neuronowej (zazwyczaj na liczbę warstw, rzadziej na liczbę neuronów).
21 Rozdział Funkcje transferu Wybór funkcji transferu ma niezwykle duży wpływ na możliwości działania sieci neuronowych. Chociaż funkcje sigmoidalne jako funkcje transferu są powszechnie stosowane nie ma powodu, aby to one były optymalne we wszystkich przypadkach. Przedstawione zostaną tu zalety i wady wielu różnych funkcji transferu jak i szeregu nowych funkcji transferu posiadających większe możliwości. Przedstawiona zostanie również propozycja taksonomii funkcji aktywacji i funkcji wyjścia. Będą opisane również uniwersalne funkcje, które poprzez zmianę parametrów stają się lokalne lub nielokalne, albo nielokalne w pewnych podprzestrzeniach, a w innych podprzestrzeniach lokalne. Również i inne funkcje zostaną zaprezentowane, włączając w to funkcje bazujące na nieeuklidesowej mierze odległości. Następnie wprowadzone zostaną funkcje bicentralne, które powstają jako liniowy produkt par funkcji sigmoidalnych. Taki produkt składający się z N funkcji bicentralnych w N wymiarowej przestrzeni jest w stanie reprezentować o wiele większą klasę gęstości prawdopodobieństw wejściowej przestrzeni wektorów, niż np. typowa wielowymiarowa funkcja gaussowska. Przedstawione są też różne możliwości rozszerzeń funkcji bicentralnych, które mogłyby stanowić pewien złoty środek pomiędzy złożonością samej sieci, a jej możliwością do uczenia się. Funkcje bicentralne i ich rozszerzenia mogą być z powodzeniem stosowane do różnych sieci neuronowych w szczególności do jakich jak RBFN, RAN, IncNet i FSM. Z kolei, używając takich funkcji i wymuszając ostre granice (duże skosy), podążamy do logicznej interpretacji sieci neuronowej. Powstanie sztucznych sieci neuronowych jako systemów adaptacyjnych było początkowo motywowane możliwościami przetwarzania informacji mózgu ludzkiego [8, 3, 26]. Pojedyncze sztuczne neurony, jak i architektury sztucznych sieci neuronowych mają niewiele wspólnego z prawdziwą biologiczno logiczną budową mózgu. Sztuczne sieci neuronowe są sieciami złożonymi z prostych elementów, nazywanych neuronami, które posiadają parametry adap-
22 22. Funkcje transferu tacyjne w. Modyfikacje tych parametrów prowadzą do uczenia się przez sieć odwzorowania wektora x z przestrzeni wejściowej do przestrzeni wyjściowej y = A w (x) (w ogólności y może być także wektorem). Ze statystycznego punktu widzenia systemy adaptacyjne powinny charakteryzować się zbieżnością funkcji decyzyjnej (czyli funkcji określającej granice decyzji) do optymalnej funkcji decyzyjnej dla rozkładu prawdopodobieństwa łącznego p(x, y) lub chociaż prawdopodobieństwa warunkowego p(y x). Do estymacji granic decyzji rozkładu prawdopodobieństwa konieczna jest adaptowalność kształtu powierzchni funkcji transferu i właśnie to stanowi o sile adaptacyjnej sieci neuronowej. Sztuczne sieci neuronowe są systemami, które posiadają moc obliczeniową komputera uniwersalnego, tj. mogą realizować dowolne odwzorowanie z jednej przestrzeni (wejściowej) do drugiej (wyjściowej). Różnią się pod wieloma względami, lecz wspólną cechą jest obliczanie wartości funkcji transferu przez każdy neuron. Pierwszymi modelami sztucznych sieci były sieci logiczne [8] lub urządzenia progowe, obliczające funkcje schodkową. Funkcje schodkowe zostały następnie uogólniane do funkcji o kształcie sigmoidalnym. Pokazano też, że sieć neuronowa z jedną warstwą ukrytą z funkcjami sigmoidalnymi jest uniwersalnym aproksymatorem [52, 22], tj. może aproksymować dowolną ciągłą funkcję z dowolną dokładnością przy wystarczającej liczbie neuronów. Taką samą własność mają sieci z funkcjami gaussowskimi, użytymi w miejsce funkcji sigmoidalnych [4, 23]. Nowy typ funkcji transferu zwanych wstęgowymi (gaussian bars) został zaproponowany przez Hartmana i Keelera[3]. Pao zaprezentował nowy typ sieci (functional link networks) [2], w którym wykorzystano kombinacje różnych funkcji, takich jak wielomiany, funkcje periodyczne, funkcje sigmoidalne i gaussowskie. Haykin i Leung proponują użycie rational transfer functions i prezentują bardzo dobre wyniki przy użyciu tych funkcji transferu [65]. W pracy Dorffnera [56] prezentowane są funkcje stożkowe, które gładko zmieniają się od funkcji o kształcie sigmoidalnym do funkcji zbliżonej do funkcji gaussowskiej. Można też użyć funkcji Lorentzowskiej, jako uproszczenia funkcji gaussowskiej zaproponowanej przez Girauda i in. [4]. Te prace, jak i sporo innych, pokazują, iż wybór funkcji transferu jest istotny i tak samo ważny jak i dobór architektury sieci czy algorytmu uczenia. Sieci neuronowe są używane do aproksymacji rozkładu prawdopodobieństwa dla klasyfikacji lub do aproksymacji gęstości prawdopodobieństwa zbioru danych treningowych [3, 26]. Żadne z powyżej wspomnianych funkcji nie są wystarczające do reprezentacji rozkładu prawdopodobieństwa wielowymiarowej przestrzeni wejściowej przy użyciu małej liczby parametrów. Problem uczenia, z geometrycznego punktu widzenia, można przestawić jako cel, którym jest wybór takiej przestrzeni funkcji i ich parametrów, które dają jak największą adaptowalność kształtu aproksymowanej funkcji przy użyciu jak najmniejszej liczby parametrów adaptacyjnych. Żadne z powyżej wspomnianych funkcji transferu nie są wystarczająco elastyczne do opisu powierzchni decyzji złożonych danych z wielowymiarowej przestrzeni wejściowej, przy użyciu małej liczby parametrów adaptacyjnych. Do
23 23 testowania metod adaptacyjnych statystycy preferują sztuczne dane [7, 92]. Jest oczywiste, iż pewne rozkłady danych są łatwo aproksymowane przy użyciu funkcji zlokalizowanych (np. funkcji gaussowskich), a inne rozkłady są prostsze w aproksymacji wykorzystując funkcje nielokalne (np. funkcje sigmoidalna z aktywacją w postaci liniowej kombinacji wejść). W [7] rozważany był problem o N wymiarowej przestrzeni wejściowej, w którym wektory znajdujące się wewnątrz pewnej sfery należą do jednej klasy, a na zewnątrz do drugiej. Łatwo zauważyć, iż do rozwiązania takiego problemu wystarczy jedna wielowymiarowa funkcja gaussowska z 2N parametrami adaptacyjnymi (na centrum i rozmycia). Jednakże rozwiązanie tego samego problemu wymaga wielu hiperpłaszczyzn tworzonych przez funkcje sigmoidalne. Najprostsza możliwa sieci MLP, która rozwiązała by powyższy problem musi skonstruować sympleks przy użyciu N funkcji sigmoidalnych i jednego dodatkowego neuronu na wygładzenie powierzchni, co stanowi N 2 + N parametrów adaptacyjnych i znacznie komplikuje proces uczenia. Z kolei, w innym problemie, gdy do pierwszej klasy zakwalifikować punkty z rogu układu współrzędnych, ograniczając obszar płaszczyzną (,,..., ), to wystarczy jedna płaszczyzna (N + parametrów), aby rozdzielić dwie klasy. Natomiast znacznie trudniej jest rozwiązać problem przy użyciu funkcji gaussowskich. Umieszczając jedną funkcję w centrum obszaru i N + po rogach wymaga 2N(N + 2) parametrów nie rozwiązuje się idealnie problemu, a i znacznie utrudnia się proces adaptacji. Usprawnianie algorytmów uczenia lub struktur sieci nie będą wystarczające, gdy obszary decyzyjne będą złożeniem funkcji sferycznych lub hiperpłaszczyzn. Poniżej rozważane są różne funkcje transferu dla sztucznych sieci neuronowych. Jednak nie jest celem tego rozdziału przedstawienie wszelkich prac, jakie były prowadzone na ten temat. Anderson [6] uzasadnia użycie funkcji sigmoidalnych dla motoneuronów, lecz przejście od neuronów impulsowych (ang. spiking neurons) kory mózgowej (jej asocjacyjnej funkcji) do modelu, w którym używa się ciągłych funkcji transferu, nie jest trywialne (teoretyczne wprowadzenie w modele oparte o neurony impulsowe można znaleźć w [76]). Bardzo ciekawym aspektem jest też budowanie neuronów analogowych lub modeli sprzętowych [86, 266, 26], lecz ten temat również wykracza już po za główny temat pracy. Nie będą też rozważane funkcje używane w modelach asocjacyjnych, takie jak funkcje monotoniczne [56, 89, 27, 267, 268], funkcje periodyczne [269, 269, 52, 92] i neurony chaotyczne [99, 27]. Te ostatnie mogą być bardziej przydatne w neurobiologi i mogą unikać złudnych lokalnych minimów funkcji błędu. Także w rozmytych sieciach neuronowych używa się specjalnych funkcji transferu, te również zostaną pominięte. Pominięty zostanie też model neuronu złożonego (por. [238]). Ciekawą rzeczą okazało się sporządzenie systematycznego przeglądu przeróżnych funkcji transferu dla sieci neuronowych, jak i taksonomii funkcji aktywacji i wyjścia, ponieważ, jak dotąd, informacje te w literaturze były zupełnie rozproszone poza nielicznymi wyjątkami, które prezentują funkcje alternatywne do funkcji sigmoidalnej. Część z funkcji, które zostały zaprezentowane poniżej,
24 24. Funkcje transferu nigdy nie były jeszcze użyte. W poniższym podrozdziale przedstawiono ogólne pojęcia związane z opisywaniem funkcji transferu. W następnym podrozdziale przedstawiono szeroki opis funkcji aktywacji neuronu. Opis obejmuje szeroki wachlarz różnych miar odległości. Kolejny podrozdział przedstawia przeróżne funkcje wyjścia, po czym następuje podrozdział, w którym przedstawiono różne funkcje transferu, podzielone na kilka grup. Porównywanie rezultatów uzyskanych za pomocą różnych funkcji transferu jest przedsięwzięciem bardzo trudnym. Różne funkcje mogą być użyte w bardzo różnych sieciach. Również i sposób inicjalizacji sieci może prowadzić do bardzo zróżnicowanych wyników. Tym samym, nie jest możliwe w pełni obiektywne i jednoznaczne porównanie takich wyników... Funkcje realizowane przez neuron Za przetwarzanie sygnału przez każdy neuron odpowiedzialne są dwie funkcje funkcja aktywacji i funkcja wyjścia. Funkcja aktywacji oblicza wartość całkowitego sygnału wejściowego neuronu. W tym podrozdziale będzie to liniowa kombinacja sygnałów wejściowych, choć w podrozdziale.2. zostaną przedstawione bardzo różne funkcje odległości, które będą mogły zastąpić ową liniową kombinację. Jeśli neuron i jest połączony z neuronem j (gdzie j =,...,N) iwysyła sygnał o wartości x j z siłą połączenia równą W ij, to całkowita aktywacja I i będzie równa: I i (x; W) = N j= W ij x j. (.) Powyższa liniowa kombinacja wejść jest najczęściej stosowaną funkcją aktywacji używaną w sieciach MLP. Drugą funkcją przetwarzaną przez neuron jest funkcja wyjścia o(i). Tedwie funkcje razem decydują o wartości sygnału na wyjściu neuronu. Całość przetwarzania informacji przez neuron odbywa się w N wymiarowej przestrzeni wejściowej, która jest także nazywana przestrzenią parametrów. Złożenie funkcji aktywacji z funkcją wyjścia nazywa się funkcją transferu o(i(x)). Porównaj rysunek.. Funkcje aktywacji i wyjścia dla warstwy wejściowej i wyjściowej mogą być inne niż dla warstw ukrytych. Zazwyczaj stosowane są funkcje liniowe w warstwie wejściowej i wyjściowej, a dla warstw ukrytych wybiera się nieliniowe funkcje transferu. Pewne funkcje transferu nie mogą być w naturalny sposób podzielone na funkcję aktywacji i funkcje wyjścia. Za lokalną funkcję transferu będzie się przyjmować funkcję, której wartości będą istotnie różne od zera (tj. o(i(x)) > ɛ dla pewnego ɛ) dlawartościx leżących na skończonym obszarze przestrzeni wejściowej. To oznacza, że lokalny charakter funkcji transferu będzie zależał nie tylko od funkcji wyjścia, ale również od funkcji aktywacji.
25 .. Funkcje realizowane przez neuron 25 Sygnały wejściowe: x F. aktywacji: I(x) F. wyjścia: o(y) Sygnał wyjściowy: o(i(x)) Rysunek.: Model neuronu. Sygnał wejściowy i wyjściowy. Funkcja aktywacji i wyjścia. Funkcja transferu jako złożenie funkcji aktywacji i wyjścia. Pierwsze modele sieci neuronowych zaproponowane w pracy McCulloch a i Pitts a [8] wykorzystywały w przetwarzaniu funkcje logiczne. Funkcja wyjścia w takim modelu była funkcją schodkową (progową) Θ(I; θ), która przyjmowała wartość poniżej progu θ i powyżej progu: { I > θ, Θ(I; θ) = (.2) I θ. Używanie funkcji progowych było motywowane analizą logicznego działania podukładów komputerów, jak i wyobrażaniem sposobu pracy mózgu, jako podobnego do sposobu przetwarzania informacji w strukturach składających się z elementów przełącznikowych (logicznych). W zasadzie można dokonywać dowolnych obliczeń przy użyciu neuronów logicznych (tj. używających funkcji logicznych). Trzeba wtedy rzeczywiste wartości dyskretyzować i użyć neuronów logicznych do uczenia ich reprezentacji bitowej. Ogromną zaletą korzystania z logicznych elementów jest możliwość szybkiego przetwarzania takiej informacji, jak również możliwość efektywnej realizacji takich funkcji sprzętowo. Granice decyzji, otrzymane w wyniku użycia neuronów logicznych są hiperpłaszczyznami zdefiniowanymi przez parametry W ij. Wtedy sieć oparta o takie elementy dzieli przestrzeń wejściową na hiperwielościany lub pewne nieskończone fragmenty przestrzeni. Funkcje wieloschodkowe stanowią etap pośredni pomiędzy funkcjami schodkowymi, a funkcjami semi-liniowymi. Liczba progów funkcji wieloschodkowej jest określona, a samą funkcję można zdefiniować poprzez: ς m (I) =y i dla θ i I < θ i+. (.3) Aby uniknąć konstrukcji warunkowych dla stałych różnic θ = θ i θ i+ wieloschodkowe funkcje można implementować efektywnie przy użyciu wektorów schodków v i arytmetyki stałopozycyjnej do konwersji przeskalowanych wartości wejściowych do danej przestrzeni wyjściowej: v [Θ ( + Int[(I θ )/θ])],
26 26. Funkcje transferu gdzie θ jest pierwszym progiem. Zamiast funkcji wieloschodkowej stosuje się funkcje semi-liniowa: I θ, s l (I; θ, θ 2 )= (I θ )/(θ 2 θ ) θ < I θ 2, (.4) I > θ 2. Te funkcje zostały później uogólnione do funkcji logistycznej, powszechnie spotykanej w literaturze (patrz rys..2): σ(i) =. (.5) + e si Stała s określa skos funkcji logistycznej wokół jej liniowej części. Skos funkcji logistycznej wokół jej liniowej części zależny jest także od normy wektora wag w. Istnieje cała grupa różnych funkcji o kształcie podobnym do funkcji logistycznej nazwana funkcjami sigmoidalnymi. W granicy, gdy w dąży do nieskończoności wszystkie funkcje sigmoidalne przechodzą w funkcję schodkową. Złożenie liniowej aktywacji (.) z funkcją logistyczną, daje najbardziej popularną spośród funkcji transferu sieci neuronowych. Złożenia funkcji sigmoidalnych z liniową aktywacją dają w rezultacie funkcję nielokalną, choć nic nie stoi na przeszkodzie aby sigmoidalnych funkcji wyjściowych użyć w złożeniu z innymi lokalnymi funkcjami aktywacji (por. równania (.66.69)), tworząc w ten sposób lokalną funkcję transferu. Ciągle panuje powszechne przekonanie, że aktywność neuronów biologicznych ma wiele wspólnego z funkcjami sigmoidalnymi, choć nie jest to powód, dla którego funkcje sigmoidalne są tak popularne. Z wyjątkiem paru neurobiologicznych inspiracji, funkcje sigmoidalne mogą mieć uzasadnienie statystyczne [3, 43]. Rozważmy problem klasyfikacji w N wymiarowej przestrzeni z dwiema klasami o normalnym rozkładzie z równymi macierzami kowariancji { p(x C k )= (2π) N/2 exp } Σ /2 2 (x x k) T Σ (x x k ). (.6) Korzystając z twierdzenia Bayesa prawdopodobieństwo a posteriori dlapierwszej klasy jest określone przez: p(x C p(c x) = )p(c ) p(x C )p(c )+p(x C 2 )p(c 2 ) = + exp( y(x)), (.7) gdzie p(c k ) jest prawdopodobieństwem klas apriori,afunkcjay(x) jest zdefiniowana przez: y(x) =ln p(x C )p(c ) p(x C 2 )p(c 2 ). (.8) Mamy równość: p(c 2 x) = p(c x). Prowadzi to do logistycznej funkcji wyjścia z dość skomplikowaną funkcją aktywacji. Takie funkcje są używane w
27 .. Funkcje realizowane przez neuron 27 Funkcje logistyczne Rysunek.2: Funkcje logistyczne w dwóch wymiarach.
28 28. Funkcje transferu logistycznej analizie dyskryminacyjnej [5]. Dla problemów więcej niż dwuklasowych można użyć znormalizowanej funkcji eksponencjalnej (czasem zwanej softmax): p(c k x) = exp(y k(x)) i exp(y i (x)). (.9) Po takiej normalizacji wartości p(c k x) mogą być interpretowane jako prawdopodobieństwa. Innym uzasadnieniem racjonalności funkcji sigmoidanych [6] może być fakt, iż wartości wejściowe pochodzą zazwyczaj z obserwacji, które nie są całkiem dokładne, dlatego można zamiast wartości ȳ użyć wartość rozkładu Gaussa G y = G(y; ȳ, s y ) wokół ȳ z odchyleniem standardowym s y. Rozkład ten można też traktować jako funkcje przynależności rozmytej liczby G y [6]. Dystrybuanta wygląda natomiast tak: p(x ȳ) = [ ( )] G(y; ȳ, s y )dy = ( ) x ȳ x ȳ + erf σ, (.) 2 s y 2 T x gdzie er f jest funkcją błędu, a T = 2s y /2.4. Dokładność tej aproksymacji jest nie gorsza niż.2 w każdym punkcie x. Skumulowany rozkład p(x ȳ) może być interpretowany jako prawdopodobieństwo zajścia reguły R x (z) wtedy i tylko wtedy gdy z x jest prawdą, tj. p(r x G y )=p(x ȳ). W następnym podrozdziale przedstawione zostaną różne typy funkcji aktywacji..2. Funkcje aktywacji Liniowa kombinacja wejść, w literaturze angielskiej zwana fan-in activation (.), jako aktywacja jest stosowana nie z powodów inspiracji biologicznych, lecz dlatego, że kontury o stałej wartości I(x) =const formują hiperpłaszczyznę. Metody statystyczne klasyfikacji mogą być podzielone na dwie grupy. Pierwszą grupę stanowią metody bazujące na analizie dyskryminacyjnej, które używają hiperpłaszczyzn lub innych powierzchni do podziału przestrzeni wejściowej. Druga grupa obejmuje metody klasteryzacji i metody oparte na podobieństwie, które korzystają z pewnych miar odległości lub funkcji podobieństwa. Stąd też mamy do czynienia z dwoma różnymi typami funkcji aktywacji i ich kombinacją: Kombinacja liniowa (iloczyn skalarny) I(x; w) w T x (używana na przykład w sieciach perceptronowych). Miary odległości jako aktywacje, lub ogólniej miary podobieństwa, D(x; t) x t, wyznaczają podobieństwo wektora x do wektora t. Kombinacje dwóch powyższych aktywacji, A(x; w, t) α w T x + β x t,
29 Iloczyn skalarny (IS) I w T x Skalar I w T x I = w T x used in: f. (wielo-)schodkowa(-e), semi-liniowe, sigmoidalne, f. Lorentza (.76) f. okienkująca (.73) Wektor I i w i x i Skalar A w T x + x t A R = w + w T x + w n+ w T w, A GR = w + w T x + w n+ [w + rw r ] T [w + rw r ], A C = w T (x t)+ω(x t) T (x t), A GC = w T (x t)+ω(x t) T (x t)/b 2, (.9.96) A GL = w T x + α x t, A GL2 = α(w T x) 2 + β x t 2 (.43.44) A UG =(w T x) 2 + x t 2 /b 2 (.99) used in: Kołowa (.9), G-Kołowa (.9), Stożkowa (.95), G-Stożkowa (.96), C GL (.97), C GL2 (.98), UnivGauss (.99) Kombinacje IS & MO A w T x + x t Typ aktywacji Wektor A i w i x i + x i t i Bi-activ A i = {A + i, A i }: Bi A ± i = s i (x i t i ± b i ), Bi2s A2 ± i = s ± i (x i t i ± b i ), BiR A3 ± i = s i (x i + r i x i+ t i ± b i ), BiR2s A4 ± i = s ± i (x i + r i x i+ t i ± b i ) (.45.48) used in: (..9) BiCRBF, IncNet, FSM C( ) =O() m. euklidesowa, Manhattan, Minkovskiego (.3), Mahalanobisa (.6) (with Σ = const) used in: RBF, RAN, IncNet, FSM, etc. Skalar Aktywacje radialne D x t C( ) =O(n) miara (.2), miara (.4) used in: HRBF, FSM, etc. Miary odległości (MO) D x t C( ) =O(n 2 ) Mahalanobisa (.6) Quadratic (.7) Rysunek.3: Taksonomia funkcji aktywacji. C( ) jest liczbą parametrów wolnych normy. used in: HRBF Wektor D i x i t i D i =(x i t i ) 2 /b 2 i used in: Funkcje wstęgowe (.82) i (.83).2. Funkcje aktywacji 29
Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę
Norbert Jankowski Ontogeniczne sieci neuronowe O sieciach zmieniających swoją strukturę Warszawa 2003 Opracowanie książki było wspierane stypendium Uniwersytetu Mikołaja Kopernika Spis treści Wprowadzenie
Ontogeniczne sieci neuronowe w zastosowaniu do klasyfikacji danych medycznych
Norbert Jankowski Ontogeniczne sieci neuronowe w zastosowaniu do klasyfikacji danych medycznych PRACA DOKTORSKA POD KIERUNKIEM PROF. WŁODZISŁAWA DUCHA Katedra Metod Komputerowych Uniwersytetu Mikołaja
Uczenie sieci radialnych (RBF)
Uczenie sieci radialnych (RBF) Budowa sieci radialnej Lokalne odwzorowanie przestrzeni wokół neuronu MLP RBF Budowa sieci radialnych Zawsze jedna warstwa ukryta Budowa neuronu Neuron radialny powinien
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Podstawy Sztucznej Inteligencji (PSZT)
Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład
Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów
Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów Funkcja Wzór funkcji Wzór pochodnej Sigmoida f(s)=1/(1+e -(β*s) ) f (s)=β*(1- f(s))* f(s) Funkcje przejścia neuronu powinno się rozpatrywać
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI
Sieć przesyłająca żetony CP (counter propagation)
Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są
5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Sztuczne sieci neuronowe (SNN)
Sztuczne sieci neuronowe (SNN) Pozyskanie informacji (danych) Wstępne przetwarzanie danych przygotowanie ich do dalszej analizy Selekcja informacji Ostateczny model decyzyjny SSN - podstawy Sieci neuronowe
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.
Wstęp do teorii sztucznej inteligencji Wykład III Modele sieci neuronowych. 1 Perceptron model najprostzszy przypomnienie Schemat neuronu opracowany przez McCullocha i Pittsa w 1943 roku. Przykład funkcji
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Prof. Stanisław Jankowski
Prof. Stanisław Jankowski Zakład Sztucznej Inteligencji Zespół Statystycznych Systemów Uczących się p. 228 sjank@ise.pw.edu.pl Zakres badań: Sztuczne sieci neuronowe Maszyny wektorów nośnych SVM Maszyny
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści
Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, 2013 Spis treści Przedmowa 7 1. Wstęp 9 1.1. Podstawy biologiczne działania neuronu 9 1.2. Pierwsze modele sieci neuronowej
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Uczenie sieci typu MLP
Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik
Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści
Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, 2012 Spis treści Przedmowa do wydania drugiego Przedmowa IX X 1. Wstęp 1 2. Wybrane zagadnienia sztucznej inteligencji
Elementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Uczenie sieci neuronowych i bayesowskich
Wstęp do metod sztucznej inteligencji www.mat.uni.torun.pl/~piersaj 2009-01-22 Co to jest neuron? Komputer, a mózg komputer mózg Jednostki obliczeniowe 1-4 CPU 10 11 neuronów Pojemność 10 9 b RAM, 10 10
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335
Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Wykład 10 Mapa cech Kohonena i jej modyfikacje - uczenie sieci samoorganizujących się - kwantowanie wektorowe
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
SIECI RBF (RADIAL BASIS FUNCTIONS)
SIECI RBF (RADIAL BASIS FUNCTIONS) Wybrane slajdy z prezentacji prof. Tadeusiewicza Wykład Andrzeja Burdy S. Osowski, Sieci Neuronowe w ujęciu algorytmicznym, Rozdz. 5, PWNT, Warszawa 1996. opr. P.Lula,
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun
Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów Politechnika Warszawska Strona 1 Podstawowe definicje Politechnika Warszawska Strona 2 Podstawowe definicje Zbiór treningowy
Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.
GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -
Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.
Wstęp do teorii sztucznej inteligencji Wykład II Uczenie sztucznych neuronów. 1 - powtórzyć o klasyfikacji: Sieci liniowe I nieliniowe Sieci rekurencyjne Uczenie z nauczycielem lub bez Jednowarstwowe I
synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.
Sieci neuronowe model konekcjonistyczny Plan wykładu Mózg ludzki a komputer Modele konekcjonistycze Perceptron Sieć neuronowa Uczenie sieci Sieci Hopfielda Mózg ludzki a komputer Twój mózg to 00 000 000
1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda
Sieci neuropodobne 1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN Agenda Trochę neurobiologii System nerwowy w organizmach żywych tworzą trzy
Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a
TEMATYKA: Krzywe Bézier a Ćwiczenia nr 7 DEFINICJE: Interpolacja: przybliżanie funkcji za pomocą innej funkcji, zwykle wielomianu, tak aby były sobie równe w zadanych punktach. Poniżej przykład interpolacji
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Regresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Definicje. Algorytm to:
Algorytmy Definicje Algorytm to: skończony ciąg operacji na obiektach, ze ściśle ustalonym porządkiem wykonania, dający możliwość realizacji zadania określonej klasy pewien ciąg czynności, który prowadzi
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Systemy Inteligentnego Przetwarzania wykład 7: Sieci RBF
Systemy Inteligentnego Przetwarzania wykład 7: Sieci RBF Dr inż. Jacek Mazurkiewicz Katedra Informatyki Technicznej e-mail: Jacek.Mazurkiewicz@pwr.edu.pl Bazowe funkcje radialne (1) Sieci neuronowe wielowarstwowe
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe
Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010
Materiały/konsultacje Automatyczna predykcja http://www.ibp.pwr.wroc.pl/kotulskalab Konsultacje wtorek, piątek 9-11 (uprzedzić) D1-115 malgorzata.kotulska@pwr.wroc.pl Co to jest uczenie maszynowe? Uczenie
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Trening jednokierunkowych sieci neuronowych wykład 2. dr inż. PawełŻwan Katedra Systemów Multimedialnych Politechnika Gdańska
Fuzja sygnałów i filtry bayesowskie
Fuzja sygnałów i filtry bayesowskie Roboty Manipulacyjne i Mobilne dr inż. Janusz Jakubiak Katedra Cybernetyki i Robotyki Wydział Elektroniki, Politechnika Wrocławska Wrocław, 10.03.2015 Dlaczego potrzebna
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych
Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. dla sieci skierowanych Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-25 1 Motywacja
8. Neuron z ciągłą funkcją aktywacji.
8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i
Sztuczne sieci neuronowe
Wydział Zarządzania AGH Katedra Informatyki Stosowanej Sztuczne sieci neuronowe Sztuczne sieci neuronowe Wprowadzenie Trochę historii Podstawy działania Funkcja aktywacji Typy sieci 2 Wprowadzenie Zainteresowanie
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Prawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
Transformacja wiedzy w budowie i eksploatacji maszyn
Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces
Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.
Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć
Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie rozszerzonym. Klasa 4 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Zastosowanie Excela w matematyce
Zastosowanie Excela w matematyce Komputer w dzisiejszych czasach zajmuje bardzo znamienne miejsce. Trudno sobie wyobrazić jakąkolwiek firmę czy instytucję działającą bez tego urządzenia. W szkołach pierwsze
Techniki uczenia maszynowego nazwa przedmiotu SYLABUS
Techniki uczenia maszynowego nazwa SYLABUS Obowiązuje od cyklu kształcenia: 2014/20 Część A. Informacje ogólne Elementy składowe sylabusu Nazwa jednostki prowadzącej studiów Poziom kształcenia Profil studiów
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne
Sieci neuronowe w Statistica
http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej
1 Klasyfikator bayesowski
Klasyfikator bayesowski Załóżmy, że dane są prawdopodobieństwa przynależności do klasp( ),P( 2 ),...,P( L ) przykładów z pewnego zadania klasyfikacji, jak również gęstości rozkładów prawdopodobieństw wystąpienia
Oprogramowanie Systemów Obrazowania SIECI NEURONOWE
SIECI NEURONOWE Przedmiotem laboratorium jest stworzenie algorytmu rozpoznawania zwierząt z zastosowaniem sieci neuronowych w oparciu o 5 kryteriów: ile zwierzę ma nóg, czy żyje w wodzie, czy umie latać,
Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska
Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites
Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013 http://www.wilno.uwb.edu.
SYLLABUS na rok akademicki 01/013 Tryb studiów Studia stacjonarne Kierunek studiów Informatyka Poziom studiów Pierwszego stopnia Rok studiów/ semestr /3 Specjalność Bez specjalności Kod katedry/zakładu
Obliczenia Naukowe. Wykład 12: Zagadnienia na egzamin. Bartek Wilczyński
Obliczenia Naukowe Wykład 12: Zagadnienia na egzamin Bartek Wilczyński 6.6.2016 Tematy do powtórki Arytmetyka komputerów Jak wygląda reprezentacja liczb w arytmetyce komputerowej w zapisie cecha+mantysa
Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć
Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
1. Logika, funkcje logiczne, preceptron.
Sieci neuronowe 1. Logika, funkcje logiczne, preceptron. 1. (Logika) Udowodnij prawa de Morgana, prawo pochłaniania p (p q), prawo wyłączonego środka p p oraz prawo sprzeczności (p p). 2. Wyraź funkcję
Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów
Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;
Sieci Hopfielda Najprostsze modele sieci z rekurencją sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga; Modele bardziej złoŝone: RTRN (Real Time Recurrent Network), przetwarzająca sygnały w czasie
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe wykład 1. Właściwości sieci neuronowych Model matematyczny sztucznego neuronu Rodzaje sieci neuronowych Przegląd d głównych g
Lekcja 5: Sieć Kohonena i sieć ART
Lekcja 5: Sieć Kohonena i sieć ART S. Hoa Nguyen 1 Materiał Sieci Kohonena (Sieć samo-organizująca) Rysunek 1: Sieć Kohonena Charakterystyka sieci: Jednowarstwowa jednokierunkowa sieć. Na ogół neurony
Sztuczne sieci neuronowe
www.math.uni.lodz.pl/ radmat Cel wykładu Celem wykładu jest prezentacja różnych rodzajów sztucznych sieci neuronowych. Biologiczny model neuronu Mózg człowieka składa się z około 10 11 komórek nerwowych,
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
O ISTOTNYCH OGRANICZENIACH METODY
O ISTOTNYCH OGRANICZENIACH METODY ALGORYTMICZNEJ Dwa pojęcia algorytmu (w informatyce) W sensie wąskim Algorytmem nazywa się każdy ogólny schemat procedury możliwej do wykonania przez uniwersalną maszynę
Ważne rozkłady i twierdzenia
Ważne rozkłady i twierdzenia Rozkład dwumianowy i wielomianowy Częstość. Prawo wielkich liczb Rozkład hipergeometryczny Rozkład Poissona Rozkład normalny i rozkład Gaussa Centralne twierdzenie graniczne
Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3
Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3 Andrzej Rutkowski, Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-11-05 Projekt