Algorytmy uczenia maszynowego

Instytut Informatyki Uniwersytetu Śląskiego Wykład 1

wykład 10 godzin (stary tryb - 20 godzin); laborki 20 godzin; Tematyka - laborki Szczegółowe przygotowanie studentów do rozwiązywania zadań ze wskazaniem na metodologię postępowania, wskazaniem kolejności wykonywanych czynności. Projektowanie algorytmów i ich implementacja komputerowa. Analizowanie treści zgodne z zakresem przedstawionym na wykładach.

Laborki sprawozdanie grupowe - Poprawne wykonanie zadanego projektu zgodnie z wiedzą teoretyczną i sztuką programowania; konieczne jest dostarczenie kompletnego projektu wraz z analizą procesu uczenia. prace kontrolne - Sprawdzian przeprowadzany jest w formie pisemnej lub przy komputerze. Czas trwania sprawdzianu: 15-45 minut w zależności od liczby i poziomu trudności zadań. Sprawdzian przeprowadzany jest przez prowadzącego w trakcie jednostek kontaktowych.

Wykład Oceniane są poszczególne zadania do wykonania w ramach egzaminu, ocena końcowa za pracę jest średnią arytmetyczną ocen za poszczególne zadania. Alternatywnym rozwiązaniem jest rozwiązanie przez studentów testu zawierającego pytania z zakresu obowiązującego materiału. Test zawiera około 25 pytań (po ok. 4-5 pytań z każdego działu). Za każde pytanie student otrzymuje 1 punkt.

1 Uczenie maszynowe 2 Uczenie się w sztucznej inteligencji 3 Problem dyskretyzacji danych 4 Metody reprezentacji wiedzy 5 Sieci Bayesa 6 Drzewa decyzyjne 7 Sieci neuronowe 8 Algorytmy ewolucyjne 9 Uczenie nadzorowane i nienadzorowane

Podstawowe definicje Uczenie się - definicja Uczeniem się systemu jest każda autonomiczna zmiana w systemie zachodząca na podstawie doświadczeń, która prowadzi do poprawy jego działania. Wynik uczenia się W wyniku procesu uczenia się możliwe jest uzyskanie wiedzy oraz umiejętności. Różnica pomiędzy widzą a umiejętnościami jest dość płynna, przy czym w sytuacji, kiedy konieczne jest wykonanie pewnego określonego szeregu czynności najczęściej używa się słowa umiejętność.

Rysunek: Uczenie na przykładzie algorytmu

Przykłady uczenia się gra w grę - uczenie na podstawie wcześniej rozegranych partii - modyfikacja pewnej funkcji oceniającej; diagnostyka medyczna - uczenie na podstawie poszerzenia zestawu dostępnych danych; klasyfikacja - problem klasyfikacji obiektów pojawiających się w systemie; kierowanie pojazdem. Motywacja uczenia się złożone problemy, dla których konieczne może okazać się podejście niedeterministyczne; dążenie do maksymalnej autonomiczności ze strony systemów; analiza, klasyfikacja i odkrywanie zależności w złożonych zbiorach danych.

Rodzaje systemów uczących się metoda reprezentacji wiedzy - wybór wewnętrznej reprezentacji danego problemu z uwzględnieniem dziedziny zastosowania systemu, możliwości wykorzystania wiedzy środowiskowej, prostoty przekształcenia; sposób używania wiedzy/umiejętności - powiązany z reprezentacją wiedzy oraz celem, jakiemu ma służyć - np. klasyfikacja lub aproksymacja; źródło i postać informacji trenującej - uczenie nadzorowane oraz nienadzorowane (gdzie w pierwszym przypadku dostępna jest informacja wyjściowa odpowiadająca zestawowi zmiennych wejściowych, natomiast w drugim przypadku uczenie możliwe jest tylko na podstawie pewnego zestawu wektorów wejściowych); mechanizm nabywania wiedzy/umiejętności- wyznaczany najczęściej przez zastosowaną metodę reprezentacji wiedzy - np. indukcja, czyli uogólnianie zdobywanej wiedzy.

Dziedziny pokrewne teoria prawdopodobieństwa; teoria informacji; logika formalna; statystyka; teoria sterowania; psychologia; neurofizjologia.

Sztuczna inteligencja - SI system, który myśli jak człowiek; system, który myśli racjonalnie; Test Turinga Udział bierze dwóch graczy: sędzia (C) i poddawany testowi (A); Gracze nie kontaktują się w ze sobą inaczej niż przy pomocy klawiatury; Pytania zadaje sędzia, a gracz A odpowiada na nie; Gracz C nie powinien byc ekspertem w dziedzinie komputerów; Test ma charakter statyczny i powinien byc powtarzany kilkukrotnie. Sędzia powinien oceniać kilka razy, a w rolę gracza A czasami powinien wcielić się człowiek.

Główne działy sztucznej inteligencji automatyczne wnioskowanie (systemy ekspertowe oraz automatyczne dowodzenie twierdzeń); przeszukiwanie - zadanie przeszukiwania dużej przestrzeni rozwiązań; planowanie - znalezienie planu rozwiązania w sposób bardziej efektywny, niż poprzez przeszukiwanie; uczenie się - zachowanie racjonalne systemu oraz dążenie do poszerzania zakresu wiedzy/umiejętności (uczenie się, jako wnioskowanie).

Wnioskowanie Wnioskowanie w przód : wnioskowanie od faktów do celu (wnioskowanie sterowane danymi). Wnioskowanie w tył : wnioskowanie od celu do faktów (wnioskowanie sterowane celem). Wnioskowanie mieszane : cechy wnioskowania w tył i w przód. Np. podział bazy wiedzy na dwie części dla wnioskowania w przód oraz w tył.

Przykład wnioskowania Dana jest baza wiedzy : R1: jeżeli a i b i c to d R2: jezeli a i b to g R3: jeżeli b i c to e R4: jeżeli a i c to f R5: jeżeli e i b i c to f Dane są fakty : a, b, c. Celem wnioskowania jest f.

Przekształcenia wiedzy generalizacja/specjalizacja; abstrakcja/konkretyzacja; podobieństwo/kontrastowanie; wyjaśnianie/predykcja.

Preprocessing danych Przetwarzanie wstępne (ang. preprocessing) polega na przekształceniu danych doprowadzonych do wejścia systemu do formatu akceptowanego przez moduł wnioskowania. Przetwarzanie końcowe (ang. postprocessing) służy do konwersji danych wyjściowych z tego modułu do postaci zgodnej z wymogami układów zewnętrznych. Procedura fuzyfikacji (z ang. fuzzification), polega na transformacji wartości z dziedziny liczb rzeczywistych na wartości z dziedziny zbiorów rozmytych. W tym celu dokonuje się wyznaczenia wartości funkcji przynależności dla kolejnych zmiennych lingwistycznych i dla danej rzeczywistej wartości wejściowej. Defuzyfikacja (ang. defuzzification), zwana również wyostrzaniem, jest przekształceniem odwrotnym do rozmywania, czyli transformacją informacji zawartej w zbiorze rozmytym do postaci pojedynczej wartości (crisp value)

Usuwanie danych odstających. Gdzie pewna wartość ze zbioru danych wejściowych znacznie odstaje od pozostałych. Może się tak zdarzyć na przykład na skutek błędnie odczytanych wejściowych, przekłamania w zapisie itp. Rysunek: Dane odstające na wykresie

Rysunek: Wartości obserwacji w tabeli

Skalowanie danych Dane wejściowe należą do przedziału < x min : x max > Dane wyjściowe należą do przedziału < y min : y max > y = y min + (x x min) (y max y min ) x max x min Sieci neuronowe < 1, 1 > Rozmyte sieci kognitywne < 0, 1 > Normalizacja danych Normalizacja danych do przedziału < 0 : 1 > y = x/x max W przypadku danych ujemnych : przedział < x min, x max > na < 0, y max > Dyskretyzacja danych wejściowych podział zbioru początkowego na n równych części. podział zbioru w zależności od częstości występowania obiektów.

Pozyskiwanie wiedzy Pozyskiwanie wiedzy Ekspert sam przedstawia wiedzę w postaci reguł (łańcuch przyczynowo-skutkowy): Jeśli coś to wtedy... Zaletą jest czytelność. Liczne wady : czas potrzebny do przekazania wiedzy, konieczność usystematyzowania wiedzy przez eksperta. Ekspert określa prawdopodobieństwo wpływu poszczególnych cech na daną sytuację. Np. Lekarz określający prawdopodobieństwo wystąpienia danego objawu. Zdecydowaną wadą takiego podejścia jest błędne szacowanie prawdopodobieństwa + różni eksperci mogą różnie interpretować pewne fakty. Budowa bazy wiedzy opartej na przykładach. Nie zawsze jednak dla danego problemu istnieje wystarczająca liczba opisanych przypadków.

Problem pozyskiwania wiedzy Duża liczba ekspertów. Metody wykorzystujące n ekspertów. Mini metoda delficka uczestnik niezależnie od innych opracowuje swoją ocenę, przedstawienie wszystkich ocen na forum (anonimowo), dyskusja nad rozbieżnościami, każdy ekspert weryfikuje swoją ocenę, mediana ostatnich wyników przyjmowana jako wynik końcowy.

Reprezentacje wiedzy Reprezentacje wiedzy Regułowe bazy wiedzy - wiedza zapisana w postaci reguł : if obiekt = wartość then reguła Tablice decyzyjne - odpowiadają regułom. Zapis w tablicy, gdzie jeden wiersz odpowiada jednej regule. Zawiera atrybuty warunkowe oraz atrybut/atrybuty decyzyjne. Język perceptów - (SKRZYDA : SAMOLOT : X, MA) Język predykatów - Wyższy(Paweł, Piotr) wiedza niepewna (zbiory przybliżone, sieci Bayesa).

Tablice decyzyjne Definicje Tablicowe przedstawienie wiedzy KRS - Knowledge Representation System. Tablica decyzyjna jest modyfikacją KRS. Definicja bazy wiedzy: K = (U, R), U - skończony zbiór obiektów zwany uniwersum, R = {R 1, R 2,..., R n } - zbiór relacji równoważnościowych nad U KRS to skończona tablica, w której rzędy są etykietowane przez obiekty a kolumny przez atrybuty na przecięciu wiersza i kolumny znajduje się wartość atrybutu danego obiektu.

Predykaty Skrócona metoda zero-jedynkowa Tabela: Skrócona zero-jedynkowa (p q) (q p) 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Metoda założeniowa Reguła Odrywania (RO) : (a b) a b Reguła dołączania koniunkcji (DK) : (a) (b) (a b) Reguła opuszczania koniunkcji (OK) : (a b) a Reguła opuszczania koniunkcji II(OK) : (a b) b Reguła dołączania alternatywy (DA) : p (p q) Reguła dołączania alternatywy II (DA) : q (p q) Reguła opuszczania alternatywy (OA) : ((p q) p) q Reguła opuszczania alternatywy (OA) : ((p q) q) p Reguła dołączania równoważności (DE) : ((p q) (q p)) (p q) Reguła opuszczania równoważności (OE) : (p q) (p q) Reguła opuszczania równoważności II (OE) : (p q) (q p)

Kwantyfikatory Kwantyfikatorem ogólnym nazywamy wyrażenia dla każdego. Wyrażenie z kwantyfikatorem: kwantyfikatora; zmiennej; wyrażenie zdaniowego. Zmienna, do której odnosi sią kwantyfikator, nazywamy zmienną wiązaną.

Przekształcanie tekstu - prawo rozdzielności kwantyfikatorów x (α(x) β(x)) ( x α(x) x β(x)) Przyjmujjąc: x - budynek. α(x) - budynek zbudowany z cegły. β(x) - budynek jest trwalszy niż budynek zbudowany z drewna. Jeżli każdy dom zbudowany z cegły jest trwalszy od budynku zbudowanego z drewna (założenie) To każdy dom zbudowany z cegły jest trwalszy od każdego domu zbudowanego z drewna (teza).

Sieci Bayesa Przykład Miażdżyca powoduje często zwężenie tętnic wieńcowych. Prowadzi to zazwyczaj do zmniejszenia przepływu krwi w tych naczyniach, co może wywołać niedotlenienie mięśnia sercowego, zwłaszcza przy wysiłku fizycznym. Które fragmenty wskazują na niepewność wnioskowania? Jak przekształcić powyższy tekst w taki sposób, aby można było do niego zastosować jedną z poznanych dotychczas reprezentacji wiedzy. Czy do tak przekształconego tekstu można zadać pytania: jaki ma wpływ wysiłek fizyczny na niedotlenienie mięśnia sercowego u ludzi z jednakowo posuniętą miażdżycą, wykonujących wysiłek fizyczny o różnym natężeniu? w jakim stopniu człowiek, u którego nie występuje niedotlenienie z powodu wysiłku, narażony jest na zwężenie tętnic z powodu miażdżycy?

Definicje Podejście probabilistyczne: Mająć dany zbiór hipotez: H = {h 1,..., h n } dla których: P(h i ) > 0 dla każdego i Mając zbiór pewnych obserwacji: E = {e 1,..., e m } każdy fragment obserwacji e j jest niezależny warunkowo względem każdej hipotezy.

Rysunek: Przesłanka a hipoteza Obserwacja e oraz hipoteza h są reprezentowane przez wierzchołki grafu, natomiast natomiast wnioskowanie przez krawędź. Rozpatrywana reguła może być rozpatrywana w modelu Bayesa następująco: P(h e) = P(e h) P(h) P(e)

Rysunek: Sieć wnioskowania

Sieć Bayesa B = {N, E, CP} gdzie dwójka {N, E} jest skierowanym grafem acyklicznym zbudowanym na podstawie zadanych prawdopodobieństw warunkowych zawartych w zbiorze CP. Przykład: Dany jest zbiór pewnych zmiennych identyfikujących obserwacje i hipotezy. P Niech zbiór tych zmiennych ma następującą postać: Z = A, B, C, D, E, F, G, H Dane są również informacje opisujące związki przyczynowo-skutkowe pomiędzy tymi zmiennymi w postaci zbiory prawdopodobieństw warunkowych CP: CP = {P(A), P(B A), P(C B), P(C F ), P(D C), P(E CH), P(F G), P(G), P(H G)}

Rysunek: Wynikowa sieć Bayesa

Współczynniki pewności CF Współczynniki pewności CF: Jeżeli e(&e2&...&e n ) To h ze stopniem pewności CF gdzie: e(, e2,..., e n ) to przesłanki reguły a h to konkluzja, & to operator logiczny And.

Współczynnik CF CF nie jest interpretowany jako klasyczne prawdopodobieństwo Współczynnik pewności CF jest połączeniem stopnia wiedzy, oraz niewiedzy. Stopień wiedzy - inaczej miara wiarygodności - MB. Stopień niewiedzy - miara niewiarygodności - MD. Załóżmy istnienie prostej reguły: Jeżeli e to h

Współczynniki CF Współczynniki dla powyższej reguły określone są następująco: MB(h,e) MD(h,e) CF(h,e) Sam współczynnik CF definiowany jest jako: CF (h, e) = MB(h, e) MD(h, e)

Miary CF Interpretacja powyższych miar może być następująca: jeżeli P(h e) = 1 to h jest prawdziwe na pewno, wtedy MB(h, e) = 1, MD(h, e) = 0, oraz CF (h, e) = 1, jeżeli P( h e) = 1 to h jest fałszywe na pewno, wtedy MB(h, e) = 0, MD(h, e) = 1, oraz CF (h, e) = 1, jeżeli P(h e) = P(h) to h co znaczy, że h i e są niezależne, wtedy MB(h, e) = 0, oraz MD(h, e) = 0, CF (h, e) = 0.

Rysunek: Wartości CF

Propagacja współczynników niepewności Mając daną regułę R: Jeżeli e to h ze stopniem pewności CF przesłanka reguły e ma pewien współczynnik CF konkluzja reguły h również ma współczynnik CF Końcowy współczynnik pewności wyznaczany jest w następujący sposób: CF (h, e) = CF (e) CF (h)

Współczynniki pewności W przypadku gdy przesłanka reguły zawiera wyrażenie zawierające operator AND (&) : Jeżeli e1&e2 to h ze stopniem pewności CF to współczynnik pewności konkluzji h wyznaczany jest w następujący sposób: CF (h, e1&e2) = Minimum {CF (e1), CF (e2)} CF (h) W przypadku gdy przesłanka reguły zawiera wyrażenie zawierajace funktor OR ( ) : Jeżeli e1 e2 to h ze stopniem pewności CF to współczynnik pewności konkluzji h wyznaczany jest w następujący sposób: CF (h, e1 e2) = Maksimum {CF (e1), CF (e2)} CF (h)

W przypadku, gdy jedna hipoteza h jest konkluzją więcej niż jednej reguły: Jeżeli e1 to h Jeżeli e2 to h Rysunek: Obliczanie CF Rysunek: Obliczanie CF

Połączenie szeregowe reguł: Jeżeli e1 to e2 Jeżeli e2 to h Rysunek: Szeregowe połączenie reguł CF (h, e1) = CF (e2, e1) CF (h, e2)

Rysunek: Propagacja CF CF (e4, e1) = CF (e2, e1) CF (e4, e2)

CF (e4, e1, e3) = Rysunek: Propagacja CF CF (e4,e1)+cf (e4,e3) 1 min( CF (e4,e1), CF (e4,e3) ) CF (e4, e1, e3) = 0.25 1 0.2 = 0.25 0.8 = 0.3125

Rysunek: Propagacja CF CF (h, e4) = CF (e4, e1e3) CF (h, e1e3)

Rysunek: Propagacja CF CF (h, e1e3, e5) = CF (h, e1e3) + CF (h, e5) CF (h, e1e3) CF (h, e5)

Rysunek: Propagacja CF CF (h, e1e3e5) = 0.5937

Definicja Sieć składająca się z następujących elementów: zbiór obiektów {o j } = O zbiór cech {c j } = C zbiór wartości {v j } = V Elementami zbioru obiektów moga byc symbole oznaczajace konkrety lub abstrakcje, np:samochód - to symbol abstrakcji, zas Fiat 126 p KAE 0321 - to symbol konkretu.

Relacje OxO relacja miedzy obiektami, relacja okreslona na zbiorze obiektów. ISA - relacja typu cześć- całość (nadrzędność) ISPART - relacja podrzędności, czyli (coś) jest cześcią (czegoś) Relacje te są przechodnie. OxC - relacja przysługiwania obiektom pewnych cech - posiada cechę. VxC - relacja postaci jest wartością cechy. VxV - relacja uporządkowania elementów zbioru wartości cech, np.: relacja typu: (coś) poprzedza (coś), lub (coś) następuje po (czymś). OxV - relacja typu posiada wartość cechy, czyli przypisania obiektom wartości cechy. Czasem relacja ta jest tworzona przez złączenie relacji OxC oraz VxC.

Rysunek: Sieć semantyczna - przykład

Rysunek: Budowanie sieci semantycznej - przykład Rysunek: Budowanie sieci semantycznej - przykład Możliwe jest następujące wnioskowanie: Jaś jest kosem, kos jest ptakiem, Jaś jest ptakiem.

Rysunek: Sieć semantyczna - błąd wnioskowania Ale: uczeni badaja Jasia, co może ale nie musi być prawdą.

Rysunek: Sieć semantyczna - system informacyjny

Rysunek: Sieć semantyczna - zapytanie

Zastosowanie sieci semantycznych projektowanie systemów informacyjnych (baz danych); rozumienie języka naturalnego; rozpoznawanie mowy; budowania systemów odpowiadajacych na pytania

Przykład 1 Komputer jest opisywany przez nastepujace parametry: procesor; pamięć RAM; karta grafiki; dysk twardy. Przedstaw sieć semantyczną opisującą powyższe zależności. Jako przykład przyjmij komputer: procesor Pentium I, pamieć RAM 32 MB, karta grafiki S3 Trio, dysk HDD 4GB.

Rysunek: Rozwiązanie

Percepty Percept jest parą (pa, val), której pierwszy element pa jest parametrem perceptu charakteryzującym pewne istnienie e z wartością val będącą drugim elementem perceptu: (e, (pa, val)) per

Elementy perceptu: Rysunek: Percepty Parametr bez wartości, to parametr bezkontekstowy: Rysunek: Percepty

Przykłady: (CIŚNIENIE : PARA : KOCIOŁ, K1): ciśnienie pary w kotle K1 (KOLOR : KOCIOL : K1, CZERWONY) (KSZTALT : KOCIOL : K1,WALEC) (SKRZYDLA : SAMOLOT : X,MA) (Informatyk : Osoba : Jan, TAK) (SKRZYDLA : OBIEKT : X,MA) (LATA : OBIEKT : X, TAK)

System perceptowy: Systemem perceptowym w uniwersum U nazywamy trójkę: S = (U, FS, GS) składającą się z uniwersum U, skończonego zbioru FS U-zdań wyrażających fakty o konkretach parametrów PAR skończonego zbioru GS U-zdań wyrażających cele (pytania) dotyczące konkretów parametrów PAR. U-zdania wyrażające fakty nazywamy U-faktami, a Uformuły opisujące cele U-celami.

Przykład: (D1) Pies AS szczeka. (D2) Zwierzę Mruczek miauczy. (R1) Jeśli pies merda ogonem, to jest przyjazny. (R2) Jeśli pies szczeka na kota, to kot obawia się psa. (R3) Pies jest zwierzęciem. ( Jeżeli pies to zwierzę. ) (R4) Jeśli zwierzę miauczy, to jest kotem.

Wnioskowanie, dowodzenie: Dwie główne reguły dowodzenia: reguła odrywania : (DR1) A,A B B x A(x) reguła uogólnienia: (DR2) A(x)

Wnioskowanie w tył: Dane są reguły: Drogie uniwersalne komputery, zamknięte w dużej obudowie posiadają procesor PII. (cena:komputer:x1,drogi) (cecha:komputer:x1,uniwersalny) (obudowa:komputer:x1,duża) (procesor:komputer:x1,pii) Szybkie komputery przeznaczone do gier są drogie. (prędkość:komputer:x1,szybki) (przeznaczenie:komputer:x1,gry) (cena:komputer:x1,drogi) Komputery wyposażone w dużą pamięć operacyjną są uniwersalne. (pamięć:komputer:x1,dużo) (cecha:komputer:x1,uniwersalny)

Jeżeli komputer nie ma nagrywarki CD, to jest dostosowany do gier. (nagrywarka:komputer:x1,nie) (przeznaczenie:komputer:x1,gry) Komputery wyposażone w nagrywarki są drogie. (nagrywarka:komputer:x1,tak) (cena:komputer:x1,drogi) Fakty: Mój komputer ma dużą obudowę, jest szybki i wyposażony w nagrywarki, a przy tym ma dużą pamięć opracyjną. (obudowa:komputer:mój,duża) (prędkość:komputer:mój,szybki) (nagrywarka:komputer:mój,tak) (pamięć:komputer:mój,dużo)

Sieci kognitywne Dane temporalne - definicja Niech T = t 0, t 1,..., t n - ciąg etykiet czasu; i T, t i t i 1 = t i = 1; Dane temporalne - przykład t 1 : a 1 = 0.3; a 2 = 0.6; a 3 = 0.1; t 2 : a 1 = 0.6; a 2 = 0.2; a 3 = 0.5; t n : a 1 = 0.3; a 2 = 0.3; a 3 = 0.6;

Czym jest sieć kognitywna? Jedna z metod reprezentacji wiedzy wykorzystywanych w systemach wspomagania decyzji. Zainspirowane biologią i psychologią. Korzystają z takich elementów jak : pojęcie, relacja przyczynowa. Mają formę grafu. Przy pomocy sieci kognitywnej zaprojektować można pewien proces decyzyjny, lub środowisko.

Sieć kognitywna FCM = C, A, W (1) gdzie: C jest skończonym zbiorem pojęć, A to zbiór aktywacji pojęć (a i [0, 1]), W zbiór wartości wag w ij [ 1, 1].

Rysunek: Sieć kognitywna

Rysunek: a - reprezentacja grafowa; b - reprezentacja macierzowa

Rozmycie sieci Podstawowa wersja sieci kognitywnej zakłada dwa stany : dodatni wpływ, oraz ujemny wpływ pojęć na siebie. FCM pozwala na określenie częściowego ujemnego, lub dodatniego wpływu. Rozmycie określane jest na podstawie pewnych ustalonych poziomów. Rozmycie bardzo słaby 0 0.2 słaby 0.2 0.4 średni 0.4 0.6 silny 0.6 0.8 bardzo silny 0.8 1.0

Więcej o macierzach Macierz nie jest częścią sieci kognitywnej, tylko jej strukturą pomocniczą. Macierz wskazuje zależności pomiędzy pojęciami. Macierz jest strukturą kwadratową, gdzie liczba wierszy i kolumn równa jest liczbie pojęć. Każda komórka macierzy to jedno połączenie pomiędzy pojęciami. W przypadku braku zależności pomiędzy pojęciami, w danej komórce znajduje się 0. Wartość w komórce macierzy określa siłę wpływu (wagę) jednego pojęcia na inne. Wagi znajdują się w przedziale [ 1, 1], gdzie -1 określa wpływ ujemny, natomiast 1 dodatni.

Uczenie sieci - problem Dane historyczne dla pojęć, Brak informacji na temat zależności pomiędzy pojęciami, Brak informacji na temat wag sieci,

Uczenie sieci - problem Zadanie Dane historyczne dla pojęć, Brak informacji na temat zależności pomiędzy pojęciami, Brak informacji na temat wag sieci, Wykrycie zależności pomiędzy pojęciami, Wykrycie wartości wag pomiędzy pojęciami.

Uczenie sieci - problem II Potrzebny jest algorytm, który w sposób automatyczny potrafi: Określić zbiór pojęć danej sieci, Znaleźć zależności pomiędzy nimi, Obliczyć wpływ poszczególnych pojęć na siebie.

Uczenie sieci Znane są dwie główne metody uczenia rozmytych sieci kognitywnych: Uczenie z wykorzystaniem wiedzy eksperta z danej dziedziny. Automatyczne generowanie sieci z danych historycznych. Metoda klasyczna Pierwsza opisywana metoda opiera się na wykorzystaniu pomocy ekspertów dziedzinowych. Zadaniem ekspertów jest: Określenie kluczowych pojęć. Wskazanie relacji pomiędzy pojęciami. Ustalenie siły wpływu poszczególnych pojęć na siebie.

Wnioskowanie w FCM γ C i (t + 1) = γ(σ n i=1 w ij C i (t)) C 1 (t + 1) = 0.9 0.9 + 0.8 0.8 C 1 = 1.45, a wartość C musi należeć do przedziału [0, 1]. γ pełni rolę funkcji normalizującej wartość pojęcia do przedziału [0, 1]. Coś o normalizacji Wartość każdego pojęcia zmieniana jest tak, aby pasowała do przedziału [0, 1]. Dokonać można tego za pomocą specjalnej funkcji zwanej funkcją sigmoidalną: f (x) = 1 1+e Cx

Rysunek: Rozmyta sieć kognitywna

where: 1 f = (t e 1) n t e t=t s i=1 n a i (t) a i(t) p, (2) t l dolna granica okna czasowego oraz indeks początkowy serii danych; t u górna granica okna czasowego oraz indeks końcowy serii danych; n = card(c) liczba pojęć; p parametr sterujący procesu uczenia p = 1, a n (t) obserwowana wartość i-tego pojęcia w chwili czasu t a n(t) obserwowana wartość wygenerowana przez FCM.

Rysunek: Atraktor chaotyczny

Naiwny klasyfikator Bayesa Rysunek: Klasyfikator Bayesa

Jakie jest prawdopodobieństwo, że nowy obiekt będzie zielony/czerwony? Jaki będzie kolor nowego obiektu? Obliczenie prawdopodobieństwa a priori: prawdopodobieństwo, które możemy ustalić na podstawie obserwacji zbioru. prawd. a priori zielonego = l.zielonych l.wszystkich prawd. a priori czerwonego = l.czerwonych l.wszystkich wszystkich obiektów = 60 obiektów zielonych = 40 obiektów czerwonych = 20

Stąd : prawd. a priori zielonego = 40 60 prawd. a priori czerwonego = 20 60 Rysunek: Klasyfikator Bayesa

Następnym krokiem jest wybranie obiektów sąsiadujących z nowym obiektem - umiejscowienie nowego obiektu. Obliczenie ile kulek czerwonych jest w sąsiedzywie nowego obiektu Obliczenie ile kulek zielonych jest w sąsiedztwie nowego obiektu Szansa, że X będzie zielone = l.zielonychwssiedztwiex cak.l.zielonych Szansa, że X będzie czerwone = l.czerwonychwssiedztwiex cak.l.czerwonych więc mamy: Szansa, że X będzie zielone = 1 40 Szansa, że X będzie czerwone = 3 20

Teraz możemy wyliczyć prawdopodobieństwa: X zielone = 4 6 1 40 = 1 60 X czerwone 6 2 3 20 = 1 40 X będzie czerwone, ponieważ ma większe prawdopodobieństwo.

Przykład: mamy zbiór danych treningowych złożony z 30 koni, 50 kotów i 20 kur. Otrzymalismy zwierzę (obiekt testowy) czworonożne. Jak określić jego gatunek? Musimy wyliczyć prawdopodobieństwo warunkowe tego, że zwierzę jest koniem, o ile ma 4 nogi, i podobnie dla kota i kury. W tym zadaniu prawdopodobieństwa te możemy wyliczyć wprost, jako odpowiednio 3 8, 5/8 i 0 (gdyż 3 8 czworonogów jest końmi, 5 8 kotami i 0 kurami). Wnioskujemy, że nieznane zwierzę jest raczej kotem.

Do jakiej klasy wyznaczone zostanie czarne kółko? (Rozpatrując różne sąsiedztwo). Rysunek: Klasyfikator Bayesa

Algorytm k-nn Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr wejściowy, to zbiór obiektów, na podstawie których będzie przebiegała klasyfikacja. obiekt do zaklasyfikowania Parametr wyjściowy to klasa decyzyjna, do której zaklasyfikowany zostanie obiekt. Schemat algorytmu: 1 Poszukaj obiektu najbliższego w stosunku do obiektu klasyfikowanego. 2 Określenie klasy decyzyjnej na podstawie obiektu najbliższego.

Algorytm k-nn - k najbliższych sąsiadów. Podobny do powyższego algorytmu Bardziej odporny na szumy - w poprzednim algorytmie obiekt najbliższy klasyfikowanemu może być zniekształcony - tak samo zostanie zaklasyfikowany nowy obiekt. Konieczność ustalenia liczby najbliższych sąsiadów. Wyznaczenie miary podobieństwa wsród obiektów (wiele miar podobieństwa).

Dobór parametru k - liczby sąsiadów: Jeśli k jest małe, algorytm nie jest odporny na szumy - jakość klasyfikacji jest niska. Jeśli k jest duże, czas działania algorytmu rośnie - większa złożoność obliczeniowa. Należy wybrać k, które daje najwyższą wartość klasyfikacji.

Wyznaczanie odległości obiektów: odległość euklidesowa odległość miejska odległość taksówkowa Manhattan Pierwsza z nich wyraża się wzorem: d ij = Σ p k=1 (x ik x jk ) 2 Z kolei odległość miejska: d ij = Σ p k=1 x ik x jk

Przykład: Tabela: Tabela danych Tabela: Tabela danych X1 X2 Y 5 5 + 7 7 + 5 3 + 7 3 + 3 3 + 5 4 + 5 2 + 3 1 + 7 5 + 5 1 + X1 X2 Y 8 4-4 6-4 6-10 8-10 6-8 5-7 4-4 9-5 5-4 8-9 10-10 7-6 4-4 10-3 6?

Obiekt klasyfikowany podany jako ostatni : X 1 = 3, X 2 = 6 Teraz obliczmy odległości poszczególnych obiektów od wskazanego. Dla uproszczenia obliczeń posłużymy się wzorem: d ij = (X 1 i ˆX 1) 2 + (X 2 i ˆX 2) 2

Przykład: Tabela: Tabela danych Tabela: Tabela danych X1 X2 Y d 5 5 + 26 7 7 + 40 5 3 + 17 7 3 + 2 3 3 + 13 5 4 + 45 5 2 + 8 3 1 + 58 7 5 + 17 5 1 + 18 X1 X2 Y d 8 4-20 4 6-13 4 6-8 10 8-29 10 6-10 8 5-5 7 4-17 4 9-2 5 5-26 4 8-10 9 10-0 10 7-5 6 4-40 4 10-36 3 6?

Wybranie K= 9 najbliższych sąsiadów i określenie ich decyzji: Tabela: Tabela danych Tabela: Tabela danych X1 X2 Y d znak 5 5 + 26 7 7 + 40 5 3 + 17 7 3 + 2 + 3 3 + 13 5 4 + 45 5 2 + 8 + 3 1 + 58 7 5 + 17 5 1 + 18 X1 X2 Y d znak 8 4-20 4 6-13 4 6-8 - 10 8-29 10 6-10 - 8 5-5 - 7 4-17 4 9-2 - 5 5-26 4 8-10 - 9 10-0 - 10 7-5 - 6 4-40 4 10-36 3 6?

Ostatnim krokiem jest obliczenie liczby sąsiadujących obiektów w danych klasach decyzyjnych: Obiekty w klasie dodatniej 2 Obiekty w klasie ujemnej 7 Klasyfikowany obiekt będzie najprawdopodobniej w klasie ujemnej.

Sieci neuronowe Ogólne informacje ogólna nazwa struktur matematycznych i ich programowych lub sprzętowych modeli, realizujących obliczenia lub przetwarzanie sygnałów poprzez rzędy elementów, zwanych sztucznymi neuronami; sztuczna sieć naśladująca biologiczne sieci neuronowe żywych organizmów; graf skierowany z odpowiednio określoną rolą węzłów i krawędzi; Układ elementów przetwarzających, nazwanych neuronami, w których wyjścia każdego neuronu są połączone poprzez wagi z wejściami wszystkich neuronów, w tym także z jego własnym wejściem.

Cechy sieci neuronowych uogólnienie posiadanej informacji na nowe przypadki; odporność na błędne, lub niepełne informacje; może być połączona z systemem ekspertowym w celu wskazania możliwego rozwiązania danego problem; ma możiwość aproksymacji funkcji; Zastosowanie sieci neuronowych prognozowanie zjawisk (dane pogodowe, dane giełdowe); rozpoznawanie języka, w jakim napisany jest tekst; przetwarzanie zeskanowanego obrazu na tekst; ma możiwość aproksymacji funkcji;

Rysunek: Schemat neuronu

Zasada działania neuronu sygnały wejściowe zostają pomnożone przez odpowiadające im wagi; otrzymane wartości są sumowane; w wyniku powstaje sygnał s odzwierciedlający działanie części liniowej neuronu (poddawany działaniu funkcji aktywacji - najczęściej nieliniowej);

Rysunek: Model neuronu signoidalnego

Rysunek: Funkcja aktywacji neuronu

Rysunek: Sieć neuronowa jednowarstwowa

Rysunek: Sieć neuronowa dwuwarstwowa

Rysunek: Rodzaje sieci neuronowych

Rysunek: Przykład działania prostej sieci

Inne rodzaje sieci Połączenia między neuronami stanowią graf z cyklami (obieg zamknięty) tzn. sygnały z warstwy wyjściowej sieci podawane są z powrotem do warstwy wejściowej. Sieć Hopfielda Układ gęsto połączonych ze sobą neuronów (każdy z każdym, ale bez połączeń zwrotnych) Maszyna Boltzmanna Opracowana przez Geoffa Hintona i Terry ego Sejnowskiego stochastyczna modyfikacja sieci Hopfielda. Koncepcja takiej maszyny oparta jest na założeniu, że stan każdego neuronu może się zmieniać w sposób losowy z określonym prawdopodobieństwem (prawdopodobieństwo to zależy od energii i temperatury sieci).

Sieć Adaline Układ został zaproponowany w 1960 roku przez Widrowai Hoffa. Nazywany jest również adaptacyjnym liniowym sumatorem ważonym. Algorytm modyfikacji wag ma charakter uczenia pod nadzorem. Sygnał wyjściowy y sumatora porównywany jest z sygnałem wzorcowym d.

Radialne sieci neuronowe Zaproponowane w 1988 roku przez Broomhead a i Lowe a. W sieci takiej znajdują się neurony, których pobudzenie zależy od odległości sygnału wyjściowego od pewnego centrum. Dany neuron reaguje jedynie na bodźce podobne do pewnego z góry ustalonego bodźca zapisanego w neuronie. Uczenie sieci radialnej Neurony warstwy ukrytej wzbudzane są za pomocą funkcji zależnej od odległości pomiędzy danym punktem x a pewnym centrum c, które jest jednym z parametrów neuronu ustalanym w procesie nauki.

Klasyfikacja sieci - sposób uczenia uczenie bez nadzoru podczas treningu sieci nie jest podawane prawidłowe rozwiązanie. uczenie z nadzorem właściwy rezultat jest znany i podany sieci, która zmieniając poszczególne wagi połączeń stara się otrzymać wynik jak najbardziej podobny do podanego.

Procedura uczenia się Zbiór T przykładów uczących czyli par (x i, d i ), i = 1,..., n reprezentujących przybliżaną funkcję. Początkowe ustalenie wag neuronów. Podanie k par do sieci oraz obliczenie wartości błędu. Modyfikacja wag sieci tak, aby wartość błędu została zminimalizowana. W powyższym przykładzie pojedyncza modyfikacja wag określana jest jako epoka, a liczba początkowych par to długość epoki.

Uczenie nadzorowane i nienadzorowane Uczenie nadzorowane Sieci podaje się przykłady poprawnego działania, które powinna ona potem naśladować. Mamy doczynienia z parą wartości- przykładowym sygnałem wejściowym i pożądanym (oczekiwanym) wyjściem. Zbiór przykładów zgromadzonych w celu ich wykorzystania w procesie uczenia sieci nazywa się zwykle ciągiem uczącym.

Uczenie nienadzorowane Nie jest wymagane zgromadzenie żadnej dodatkowej wiedzy. Na wejściu sieci pojawiają się przykłady sygnałów wejściowych, ale wartość wyjściowa nie jest podawana. Sieć na podstawie danych musi wywnioskować sposób działania. Pomiędzy pojawiającymi się obiektami nie jest podawana żadna zależność.

Dziękuję za uwagę