Algorytmy immunologiczne Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl
Metody uczenia maszynowego Uczenie z nauczycielem Uczenie bez nadzoru Uczenie z krytykiem (ze wzmocnieniem, ang. reinforcement learning)
Metody uczenia maszynowego Uczenie z nauczycielem Nauczyciel: prezentuje przykłady, z którymi związana jest prawidłowa odpowiedź etykieta klasy (w przypadku klasyfikacji) wartośd rzeczywista (w przypadku zadania regresji) zna poprawną odpowiedź jest w stanie ukierunkowad naukę np. uczenie sieci neuronowych (algorytm backpropagation)
Metody uczenia maszynowego Uczenie bez nadzoru Do dyspozycji systemu uczącego się jest jedynie zbiór danych bez wskazania do jakich klas te dane należą Częstym zadaniem jest automatyczne wykrycie tych klas, jeśli one istnieją
Metody uczenia maszynowego Uczenie z krytykiem (ze wzmocnieniem, ang. reinforcement learning) Istnieje nauczyciel, ale udziela on odpowiedzi jedynie dobrze lub źle w odpowiedzi na zachowanie systemu Przykład: uczenie się strategi gry Wygrana = dobrze Przegrana = źle
Metody uczenia maszynowego Uczenie z krytykiem (ze wzmocnieniem, ang. reinforcement learning) Przykład: uczenie strategii gry w Backgammon (tryktrak) http://www.research.ibm.com/massive/tdl.html
Analiza danych Analiza danych ma za zadanie wykrycie istniejących w danych grup podobnych przykładów, sytuacji, itp. Każda grupa zawiera przykłady, które są podobne bardziej do siebie nawzajem niż do przykładów z innych grup. Częstym zadaniem jest również streszczenie danego zbioru danych.
Analiza danych Problemy: Ile grup szukamy? Jak mierzyd podobieostwo? Jak sobie radzied z danymi o dużej wymiarowości (duża liczba parametrów opisujących każdy przykład)? Jak sobie radzid w dużymi zbiorami danych?
Analiza danych Problemy: Dane niekompletne Dane zaszumione (z błędami) Problemy dynamiczne (zmieniające się w czasie) Dane rozproszone w wielu bazach danych Przykłady znajdują się w różnych miejscach Atrybuty znajdują się w różnych miejscach Rozproszone są zarówno przykłady jak i atrybuty
Analiza danych Problemy: Czego tak napradę szukamy? Innych danych podobnych do znanego nam przypadku? Najbardziej podobny przykład do naszego może byd mimo wszystko bardzo odmienny Wyróżniających się grup (np. klientów)? Zmian, nowości, informacji o łączenia się grup wcześniej wyraźnie oddzielonych?
Analiza danych Problemy z wizualizacją i weryfikacją wyników w problemach wielowymiarowych
Analiza danych Trzy wyraźnie grupy (rozkład sferyczny)
Analiza danych
Czy to są oddzielne grupy? Analiza danych
Grupy czy "szumy"? Analiza danych
Analiza danych Algorytm k-średnich (K-means) Określ liczbę szukanych grup Zainicjuj centra grup losowo lub za pomocą wybranych przykładów Powtarzaj dopóki centra ulegają zmianie: Dla każdego centrum określ zbiór przykładów, dla których jest to najbliższe centrum (przy danej mierze odległości) Wylicz nowe centrum jako średnia z przykładów z poprzedniego punktu
Analiza danych Problemy z algorytmem k-średnich Jak dobrad liczbę grup? Zastosowad współczynniki jakości grupowania Który współczynnik jakości wybrad? Algorytm może utknąd (centrum ustala się w miejscu gdzie nie ma żadnych danych) Dobrze działa dla danych, w których istnieją wyraźnie grupy sferyczne
Analiza danych Algorytm rozmytych k-średnich (fuzzy k- means) Każdy przykład może należed jednocześnie do więcej niż jednej grupy, ale z różnych stopniem przynależności Brak ostrego przydziału do wybranej grupy Może byd zaletą wykrycie wątpliwych przypadków na granicy Ostry podział łatwy do otrzymania z podziału rozmytego
Analiza danych Duża liczba innych algorytmów Possibility clustering Algorytmy grupowania hierachicznego Sieci Kohonena Algorytm gazu neuronowego Sztuczne systemy immunologiczne Sieci diotypowe
Sieci Kohonena
Sieci Kohonena
Sieci idiotypowe Modele immunologiczne Klonalna selekcja Negatywna selekcja Dojrzewanie specyficzności odpowiedzi immunologicznej Teoria sieci immunologicznej (ang. immune network theory)
Sieci idiotypowe Oznaczenia Ab (ang. Antibody, przeciwciało) Ag (ang. Antigen, antygen) B (limfocyt B)
Sieci idiotypowe Ab rozpoznaje częśd Ag zwaną epitopem Idiotyp jest zdefiniowany jako zbiór epitopów obecnych w zbiorze Ab Każdy B jest mono-specyficzny (jeden rodzaj Ab) Ag ma przeważnie kilka rodzajów epitopów Może byd rozpoznany przez kilka rodzajów Ab) Paratop, V-region (ang. Variable region) częśd Ab odpowiedzialna za wiązanie/dopasowanie do Ag ang. Affinity stopieo dopasowania Ab-Ag
Sieci idiotypowe
Sieci idiotypowe Teoria sieci immunologicznej Jerne, N. K. (1974), Towards a Network Theory of the Immune System, Ann. Immunol. (Inst. Pasteur) 125C, pp.373-389. Nagroda Nobla w 1984r. częściowo za prace nad teorią klonalnej selekcji i teorią sieci immunologicznych
Sieci idiotypowe Teoria sieci immunologicznej System immunologiczny jest zdefiniowany jako złożona sied połączeo paratope-idiotope Istotne są nie tylko molekuły ale również dynamika ich interakcji W efekcie na rozpoznanie komórki systemu immunologicznego odpowiadają pozytywnie lub negatywnie Pozytywnie: proliferacja, aktywacja, produkcja i uwalnienie przeciwciał Negatywnie: śmierd komorki, supresja, tolerancja
Sieci idiotypowe Sied immunologiczna Struktura Typy interakcji (połączenia między komórkami) Dynamika Zmiana w czasie koncentracji i jakości dopasowanie do antygenów Meta-dynamika Ciągła produkcja nowych komórek Śmierd nieaktywnych komórek Supresja autoagresywnych komórek
Sieci idiotypowe RPV rate of population variation Ostatni element zawiera interakcje zarówno Ab-Ag jak i Ab-Ab
Sieci idiotypowe W strukturze sieci zapisany jest wewnętrzny obraz (ang. internal image) Ag
Sieci idiotypowe Klonalna selekcja jest nadal używana do symulowanie dojrzewania odpowiedzi immunologicznej
Sieci idiotypowe Algorytm ten ma na celu zbudowanie zbioru połączonych komórek (reprezentacja grafowa) reprezentujących analizowany zbiór danych. Streszczenie danych liczba sztucznych Ab < liczba przykładów w analizowanym zbiorze danych
Sieci idiotypowe
Sieci idiotypowe
Sieci idiotypowe Odległośd Euklidesa użyta jako miara dopasowania Dwa kroki supresji Clonal suppression Network suppression
Sieci idiotypowe Analiza otrzymanej sieci idiotypowej Minimalne drzewo spinające Następny krok: odcięcie zbyt długich krawędzi w celu wyodrębnienia grup histogram dendrogram
Sieci idiotypowe Analiza otrzymanej sieci idiotypowej Minimalne drzewo spinające Następny krok: odcięcie zbyt długich krawędzi w celu wyodrębnienia grup
Sieci idiotypowe Analiza otrzymanej sieci idiotypowej histogram
Sieci idiotypowe Analiza otrzymanej sieci idiotypowej dendrogram
ainet Duża liczba parametrów Oddziałują na siebie w skomplikowany sposób Jaki jest ich optymalny dobór? Niewydajny jeśli zbiór do analizy jest duży - każdy przykład jest prezentowany sieci osobno, nadmiar Ab usuwany na koocu kiedy populacja jest już duża zostaje jeden klon jesli supresja klonalna zbyt mocna
ainet Krok supresji sieciowej: jak rozumied najgorsze? Suma do wszystkich przykładów? Minimum? Minimum z zadanej liczby najbardziej związanych (najbliższych)? Przy supresji - czy usuwad oba Ab? Jak generowad nowe - losowo czy losowo wybierac ze zbioru przykładów?
ainet System reaguje dynamicznie - np. nowe pośrednie grupy łączą grupy do tej pory oddzielone Co z nowymi małymi skupiskami? Male skupiska mogą rozregulowad sied - jeśli n (liczba Ab wybieranych do klonowania) jest duże a skupisko małe to będą co chwilę pojawiad się ogniwa pośrednie jeśli próg supresji sieciowej jest odpowiednio duży
ainet Siec niestabilna jeśli próg supresji sieciowej jest zbyt duży i n (liczba Ab wybieranych do klonowania) zbyt duze wybierane są Ab z innych grup
ainet Jeśli próg supresji sieciowej jest mały a trzeba usuwad najgorsze to usuwa dobre Rozwiązania: Nie usuwad jeśli dany Ab jest dośd dobry W kolejnych iteracjach usuwad coraz mniejszą liczbę Ab Usuwad małą liczbę Ab wolniejsza zbieżnośd algorytmu
Immune K-Means
Immune K-Means Połączenie algorytmu k-średnich i klonalnej selekcji Dwie wersje algorytmu różniące się krokiem supresji Dla analizy danych (uczenie bez nauczyciela) Do zadao klasyfikacji (uczenie z nauczycielem) Dwie zaproponowane supresje mogą byd wykorzystane jednocześnie
Immune K-Means
Immune K-Means
Immune K-Means
Immune K-Means
Analiza danych