nienadzorowane nadzorowane Algorytmy aproksymacji funkcji Algorytmy uczenia symbolicznego nadzorowane (np. algorytm propagacji wstecz) polega na podaniu systemowi par wejście-wyjście w postaci zbioru treningowego. nienadzorowane oznacza typ uczenia maszynowego, w którym system nie otrzymuje informacji o poprawnej odpowiedzi. Zamiast par wejściewyjście systemowi przedstawia się zbiór wzorców wejściowych oczekując, że znajdzie wśród nich interesujące wzorce, regularności lub podgrupy (klastry). Algorytmy aproksymacji funkcji Algorytmy uczenia symbolicznego Algorytm aproksymacji funkcji polega na wyznaczeniu funkcji, której argumentami są dane wejściowe z przykładów, a wartościami dane wyjściowe; funkcja ta ma aproksymować zbiór uczący, tak aby obliczać sensowne wartości dla innych danych wejściowych. uczenia symbolicznego Obejmują techniki statystyczne i konekcjonistyczne uczenia maszynowego. oznacza uczenie się z przykładów, instancji lub wzorców uczących, w celu wyznaczenia funkcji, której argumentami są dane wejściowe z przykładów, a wartościami dane wyjściowe. Algorytmy uczenia symbolicznego uczą się pojęć ć za pomocą konstrukcji k wyrażenia symbolicznego (np. drzewo decyzyjne) opisującego klasę (lub klasy) obiektów. Wiele takich algorytmów działa w reprezentacjach równoważnych rachunkowi predykatów. uczą się pojęć za pomocą konstrukcji wyrażenia symbolicznego (np. drzewo decyzyjne) opisującego klasę (lub klasy) obiektów; często działa w reprezentacjach równoważnych rachunkowi predykatów. Zakłada się, że funkcja ta będzie aproksymowała (generalizowała) zbiór uczący, tak aby obliczać sensowne wartości dla innych danych wejściowych. Ich zaletą jest względna intuicyjność zarówno w odniesieniu do reprezentacji, jak i otrzymanego rezultatu. 1
Techniki uczenia maszynowego Ogólny model uczącego się agenta indukcyjne Algorytmy genetyczne sieci neuronowych Ogólny model uczącego się agenta indukcyjne Teoria informacji się ogólnego opisu logicznego Teoria uczenia maszynowego wzorzec działania Krytyk sprzężenie zwrotne Element uczący cele uczenia się Generator problemów Agent zmiany wiedza sensory Element wykonawczy efektory środowisko o Składniki elementu wykonawczego 1. Bezpośrednie odwzorowanie stanu bieżącego na akcje 2. Metody wyprowadzenia odpowiednich własności środowiska d i k z zaobserwowanej sekwencji 3. Informacja o tym jak zmienia się środowisko 4. Informacja o skutkach akcji podejmowanych przez agenta 5. Informacja o użyteczności wskazująca, jakie stany środowiska są pożądane 6. Informacja w postaci akcja-ocena wskazująca opłacalność poszczególnych akcji w określonych sytuacjach 7. Cele, które opisują klasy stanów, których osiągnięcie maksymalizuje użyteczność agenta. Sprzężenie zwrotne nadzorowane nienadzorowane Podsumowanie Każdy składnik elementu wykonawczego może być opisany za pomocą funkcji matematycznej. Zatem w ogólności, proces uczenia się można przedstawić jako uczenie się reprezentacji tej funkcji. 2
indukcyjne Dany jest zbiór uczący zawierający pary (, f()) Indukcja: na podstawie zbioru przykładów funkcji f, znajdź funkcję h aproksymującą f. h() h() h() Drzewo decyzyjne na podstawie zbioru własności obiektu lub sytuacji wejściowej generuje odpowiedź tak lub nie. Każdy węzeł drzewa reprezentuje test jednej z wartości podanych własności obiektu. Najczęściej reprezentują one funkcje boolowskie. y dzielimy na pozytywne (tak) i negatywne (nie). Atrybuty Cel: czekać Alter Bar Pt/Sb Głód Klienci Ceny Deszcz Rezerw Typ Czas X1 Kilku $$$ franc. 0-10 X2 Pełno $ tajska 30-60 X3 Kilku $ fast 0-10 X4 Pełno $ tajska 10-30 X5 Pełno $$$ franc. >60 X6 Kilku $$ włoska 0-10 X7 Pusto $ fast 0-10 X8 Kilku $$ tajska 0-10 X9 Pełno $ fast >60 X10 Pełno $$$ włoska 10-30 X11 Pusto $ tajska 0-10 X12 Pełno $ fast 30-60 Funkcję h nazywa się hipotezą. Atrybuty t Cl Cel: czekać Alter Bar Pt/Sb Głód Klienci Ceny Deszcz Rezerw Typ Czas X1 Kilku $$$ franc. 0-10 X2 Pełno $ tajska 30-60 X3 Kilku $ fast 0-10 X4 Pełno $ tajska 10-30 X5 Pełno $$$ franc. >60 X6 Kilku $$ włoska 0-10 X7 Pusto $ fast 0-10 X8 Kilku $$ tajska 0-10 X9 Pełno $ fast >60 X10 Pełno $$$ włoska 10-30 X11 Pusto $ tajska 0-10 X12 Pełno $ fast 30-60 Bar? Klienci? Pusto Kilku Pełno Czas? >60 30-60 Reser? Altern? Pt/Sb? Typ restauracji i cena nie mają znaczenia 10-30 Głód? Altern? 0-10 Deszcz? Brzytwa Ockhama (William of Ockham 1285-1349) Najbardziej prawdopodobna jest najprostsza hipoteza zgodna ze zbiorem wszystkich obserwacji. Znalezienie najmniejszego drzewa decyzyjnego jest obliczeniowo trudne. 3
Ocena poprawności działania drzew decyzyjnych 1. Jeżeli w zbiorze niesklasyfikowanych y przykładów występują zarówno przykłady pozytywne, jak i negatywne, to znajdź atrybut taki, aby sklasyfikować jak najwięcej przykładów. 2. Jeżeli w zbiorze niesklasyfikowanych przykładów występują tylko przykłady pozytywne lub tylko negatywne, to drzewo jest gotowe - stop. 3. Jeżeli nie ma już niesklasyfikowanych przykładów, to znaczy, że nie zaobserwowano sytuacji wynikających z tej ścieżki, wtedy przydziel wartość zgodną zwiększością ocen w wierzchołku-rodzicu. rodzicu 4. Jeżeli są przykłady pozytywne i negatywne dla tych samych wartości atrybutów, to dane zawierają błąd. Można postąpić jak w kroku 3. Czekaj na tajskie jedzenie tylko w weekendy. Klienci? Pusto Kilku Pełnoł Głód? Typ? franc włoska tajska fast Pt/Sb? testującego ch odpowiedzi dla zbioru t % poprawnyc 100 80 60 40 0 20 40 60 80 100 rozmiar zbioru uczącego happy graphs Różne sformułowania problemu Podstawowe modele polega na wykorzystaniu przez agenta wzmocnienia (nagrody lub kary) do nauczenia się funkcji gwarantującej skuteczne działanie. Środowisko może być dostępne (dla receptorów) lub niedostępne. Agent może posiadać początkowa informację o środowisku i skutkach swoich akcji lub nie. Wzmocnienie może się pojawiać po osiągnięciu stanu końcowego lub po dowolnym stanie. Wzmocnienie może być składnikiem funkcji użyteczności, którą agent stara się zmaksymalizować lub tylko wskazówką. Agent może być bierny (pasywny) lub czynny (aktywny). Agent uczy się funkcji użyteczności na podstawie osiąganych stanów (lub stanów historycznych) i wykorzystuje je do wyboru akcji, które maksymalizują oczekiwaną użyteczność ich skutków. Agent uczy się funkcji akcja-ocena podając oczekiwaną użyteczność danej akcji w danym stanie (Q-learning). 4
y Eksploracja funkcji akcja-ocena bierne w znanym środowisku metoda najmniejszych kwadratów adaptacyjne programowanie dynamiczne metoda różnic czasowych (temporal difference) bierne w nieznanym środowisku czynne w znanym środowisku Kompromis między wyborem akcji przynoszących znane wzmocnienie a akcjami o nieznanej (ale może lepszej) wartości wzmocnienia. U(i) = ma{a: Q(a, i)} Czy lepiej uczyć się modelu i funkcji użyteczności, czy funkcji akcja-ocena bez żadnego modelu? Generalizacja w uczeniu ze wzmocnieniem Postać tablicowa funkcji jest nieskuteczna dla dużych problemów Postać niejawna pozwala podejmować decyzję również w sytuacjach nieznanych poprzez uogólnienie zdobytej wiedzy Algorytmy genetyczne i ewolucyjne Funkcja użyteczności Reprezentacja osobnika Mechanizm selekcji Mechanizm reprodukcji szuka zależności między akcjami i wzmocnieniem, tylko dąży do znalezienia najlepszej akcji. Podsumowanie jest jedną z dziedzin sztucznej inteligencji Modele uczenia obejmują: Modele uczenia maszynowego Algorytmy uczenia symbolicznego nadzorowane Algorytm uczenia drzew decyzyjnych nienadzorowane Odkrywanie regularności w danych Algorytm Hebba Algorytmy Algorytm Algorytm Hebba aproksymacji funkcji backpropagation polega na adaptacji do nowych warunków oraz na odkrywaniu i ekstrapolacji wzorców 5