Zastosowania algorytmu uczenia się ze wzmocnieniem. Temporal Difference Learning. na przykładzie konkretnego systemu TD-GAMMON
|
|
- Nina Lis
- 9 lat temu
- Przeglądów:
Transkrypt
1 Wrocław, 25. sycznia 2007 Zaawansowane Meody Szucznej Ineligencji Poliechnika Wrocławska Wydział Inforayki i Zarządzania V rok sudiów Zasosowania algoryu uczenia się ze wzocnienie Teporal Difference Learning na przykładzie konkrenego syseu TD-GAMMON Auor dokuenu: STAWARZ Paweł Prowadzący: dr Maciej Piasecki Indeks: Daa wygłoszenia: Daa dosarczenia:
2 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Spis reści ABSTRAKT...3 WPROWADZENIE...4 TEMPORAL DIFFERENCE LEARNING...5 WSTĘP...5 DEFINICJA ALGORYTMU...7 TD-GAMMON...0 WSTĘP...0 WYKORZYSTANIE TD-LEARNING...2 WYNIKI EKSPERYMENTÓW...4 LITERATURA...5 Paweł Sawarz, / 5
3 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Absrak W niniejszej pracy zaprezenowany zosanie algory uczenia się ze wzocnienie Teporal Difference Learning. Po króki wprowadzeniu doyczący nadzorowanego i nienadzorowanego uczenia zajiey się opise działania ego algoryu jak również jego foralnyi podsawai. Zwróciy akże uwagę na jego korzyści. Nasępnie zapoznay się ze spekakularnyi wynikai zasosowania ego algoryu w prakyce na przykładzie gry backgaon. Paweł Sawarz, / 5
4 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Wprowadzenie Algoryy uczące się są jednyi z najbardziej popularnych podejść wykorzysania echnik szucznej ineligencji we współczesny świecie. Rozwijane niealże od kilkudziesięciu la doczekały się już różnych swoich odian. Idea powsawania ego ypu algoryów wzięła się z obserwacji procesu uczenia się człowieka. Poprzez analogię do rzeczywisych procesów poznawczych próbowano wypracować eody skuecznie uczące się określonych zadań. Wydzielono przy y dwie zasadnicze klasy algoryów bazujących na nadzorowany albo nienadzorowany uczeniu. Pierwsza klasa algoryów zakłada, że proces uczenia się jes w pewien sposób nadzorowany (np. przez nauczyciela). Chodzi uaj o syuacje, w kórych uczeń (algory) kszałuje swoje przyszłe zachowanie (sposób w jaki wykonuje powierzone zadania) na podsawie przedsawionych u przykładów. Najczęściej algoryy e wykorzysują w procesie uczenia zdefiniowany przez nauczyciela zbiór przykładów uczących. Każdy aki przykład składa się zazwyczaj z zesawu ierzalnych cech go opisujących oraz właściwego sposobu posępowania. Na przykład w procesie klasyfikacji obieków, każdy obiek ze zbioru uczącego jes już odgórnie sklasyfikowany, a zadanie ucznia jes nauczenie się poprawnej (najlepiej suprocenowej) klasyfikacji ych obieków, aby na ej podsawie óc klasyfikować inne, niewidziane wcześniej, obieky. Wykorzysuje się przy y częso zw. zbiór przykładów esowych, aby zweryfikować sopień ineligencji wyuczonego algoryu. Zbiór en zawierałby, w przypadku klasyfikacji obieków, nieznane uczniowi poprawnie sklasyfikowane obieky. Druga klasa algoryów, bazujących na nienadzorowany uczeniu, zakłada z kolei, że proces uczenia się nie jes w żaden sposób nadzorowany. Jes o pewnego rodzaju uczenie się na zasadzie prób i błędów. Uczeń nie dysponuje żadnyi poprawnyi przykładai zachowań. Jego zadanie jes saodzielne ukszałowanie własnego prawidłowego posępowania. Jedyny założenie jes fak, że w rakcie nauki, w wyniku wykonywania określonych działań, środowisko zewnęrzne ucznia odpowiada pewnyi bodźcai pozyywnyi i negaywnyi. Dzięki eu uczeń oże czuć się nagradzany w syuacji gdy zacznie osiągać cel, jak również przeciwnie karcony w syuacji gdy od ego celu zacznie znacznie zbaczać. Dlaego eż ówi się również o zw. algoryach uczenia się ze wzocnienie. Wzocnienie jes w y przypadku każdy bodziec zewnęrzny środowiska, w kóry uczeń się uczy. Bardzo ławo znaleźć analogię poiędzy wyienionyi wyżej klasai algoryów uczących się a prawdziwy życie. Już od wczesnych la, każde dziecko podlega zarówno nienadozorowaneu jak i nadzorowaneu uczeniu. W procesie nadzorowanego uczenia bardzo częso uczesniczą rodzice będący w roli nauczycieli. To oni sanowią.in. wzorce uczące dla swojego dziecka, kóre podglądając je sara się jak najlepiej odwzorować. Naoias nienadzorowane uczenie przejawia się najczęściej podczas saodzielnej zabawy, w kórej dziecko doznaje nowych osobliwych wrażeń. Na przykład wciskając przyciski swoich elekronicznych zabawek doświadcza efeków audio-wizualnych, kóre wzbudzają w ni upodobanie, a inny raze doykając gorącego pieca doświadcza poparzenia, kóre wzbudza w ni srach przed ponowny aki doświadczenie. Paweł Sawarz, / 5
5 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Teporal Difference Learning Wsęp W dalszej części pracy zajiey się wybrany algorye uczenia się ze wzocnienie Teporal Difference Learning. Algory en znany również pod nazwai TD-Learning bądź TD(λ) zaliczany jes do klasy przyrosowych procedur uczących ukierunkowanych na predykcję w nie do końca poznanych syseach, zn. akich, w kórych nie znany jes rzeczywisy sposób działania dla określonego sanu, w kóry oże się znajdować. Procedury e wykorzysują swoje przeszłe doświadczenie do przewidywania przyszłego zachowania obserwowanego syseu. Pojęcie ich przyrosowości zosanie lepiej przybliżone w dalszej części pracy. Po ewenualne szczegóły doyczące zasad działania algoryu TD-Learning waro zajrzeć do pracy R. S. Suon`a [], w kórej ożna znaleźć dość foralny jego opis. W pracy ej Suon udowadnia iędzy innyi, iż algory en wykazuje lepsze wykorzysanie zdobywanego doświadczenia od innych znanych doychczas eod uczenia oraz jes bardziej opyalny (pod względe szybkości obliczeń i zajęości paięci) i szybciej zbieżny do docelowego rozwiązania będącego osaeczny odele obserwowanego syseu. W celu rozjaśnienia ogących pojawić się we wsępie wąpliwości wyobraźy sobie nasępujące nie do końca poznane przez nas sysey, w kórych oawiana dalej eoda uczenia ogłaby jak najbardziej znaleźć zasosowanie. Pierwszy przykłade oże być ocena pozycji szachowej (Rysunek.) pod kąe wygranej jednej ze sron. Niealże nieskończoność królewskiej gry nie pozwala na z pewnością ocenić ilionów podobnych syuacji, ponieważ porzebowalibyśy w y celu rozwinąć z każdej akiej pozycji całe drzewo gry i dopiero na jego podsawie oglibyśy swierdzić czy przy najlepszej grze obu sron ożliwa jes czyjaś wygrana. W większości przypadków jednak rozwinięcie całego drzewa gry graniczy z cude ze względu na bardzo duży współczynnik rozgałęzienia. W przyoczony przykładzie ay do czynienia z pozycją, w kórej białe ają przewagę aerialną (posiadają jednego pionka więcej). Okazuje się jednak, że suprocenowa ocena ej pozycji nie jes do końca ożliwa. Jeżeli założyy, że białe znajdują się na ruchu, o w prosu sposób ogą one doprowadzić do syuacji, kóra uważana jes przez szachisów za wygraną (grając heane z pola f7 na pole e7 z szache zuszają czarne do wyiany heanów doprowadzając do syuacji, w kórej białe bez przeszkód ogą wykorzysać przewagę pionka wędrując ni do pola przeiany znajdującego się na ósej linii). Jeżeli jednak założyy, że czarne znajdują się na ruchu, o sprawa nie jes już ak oczywisa, ponieważ czarne ogą wykorzysać swojego heana w celu wiecznego szachowania białego króla i urzyania np. reisu. Kolejny prosy przykłade oże być prognoza pogody, a właściwie jej szczególny przypadek, w kóry oceniany jes bieżący układ chur (Rysunek 2.) pod kąe ożliwości pojawienia się deszczu. Oczywiście w pewnych skrajnych syuacjach jeseśy w sanie swierdzić czy będzie padać czy nie, ale io wszysko nie wszyskie przypadki będą dla nas ak klarowne. Właściwie prognozowanie deszczu dla pewnych układów Paweł Sawarz, / 5
6 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon chur oże się sprowadzać jedynie do wróżenia z fusów. Jedno jes naoias pewne wszelkie zjawiska pogodowe wynikające z bieżących warunków aosferycznych nie są przez nas do końca poznane. Rysunek. Czy dana pozycja szachowa oże prowadzić do wygranej kórejś ze sron? Rysunek 2. Czy dany układ chur oże prowadzić do deszczu? Inny przykłade oże być akże prognozowanie zachowań cen akcji na giełdzie wynikających z bieżących warunków ekonoicznych. Nigdy nie ożey być w su procenach pewni czy nasze przypuszczenia są rzeczywiście słuszne. Rysunek 3. Czy dane warunki ekonoiczne ogą prowadzić do poprawy warunków na giełdzie? Modelowanie wszyskich powyższych syseów sprowadza się osaecznie do nienadzorowanego uczenia, w kóry wykorzysujey wszelkie zdobye doświadczenia w rakcie ich obserwacji do przyszłego przewidywania ich działania. Waro jeszcze wsponieć, iż algory Teporal Difference Learning w odróżnieniu od doychczasowych klasycznych eod uczenia nie porównuje bieżącej predykcji z właściwą odpowiedzią dla danego przykładu, ylko porównuje kolejne predykcje aż do oenu uzyskania właściwej odpowiedzi sąd eż jego nazwa Paweł Sawarz, / 5
7 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon eporal-difference-learning co ożna dosłownie przełuaczyć jako uczenie opare na różnicach czasowych. Zasadniczy założenie w ej eodzie jes fak, że właściwa odpowiedź syseu jes obserwowalna dopiero po określonej sekwencji danych wejściowych. Dlaego eż poiędzy kolejnyi wejściai w procesie uczenia wykorzysywane są ylko i wyłącznie predykcje uczącego się algoryu. Dla przykładu ożna przyoczyć ponownie proble prognozy pogody. Załóży, że naszy zadanie jes przewidywanie w każdy dniu ygodnia czy w najbliższą soboę będzie padał deszcz. W klasyczny podejściu predykcję z każdego dnia ygodnia porównalibyśy z osaeczny wyjście (wzocnienie), kóre jes obserwowalne dopiero w soboę i na ej podsawie wyniknęłyby ewenualne ziany w uczony syseie. W podejściu TD-Learning naoias predykcję każdego dnia ygodnia porównywalibyśy z predykcją z dnia nasępnego. W en sposób w syuacji gdy na przykład w poniedziałek przewidywalibyśy, że w soboę będzie padać z prawdopodobieńswe 50%, a we worek z prawdopodobieńswe 80%, o drugie podejście spowodowałoby wzros predykcji dla podobnych poniedziałków w przyszłości, naoias o pierwsze spowodowałoby wzros lub spadek w zależności od właściwego sanu na soboę. W przykładzie y uwidacznia się przy okazji jedna z korzyści płynąca ze sosowania algoryu uczenia TD-Learning w porównaniu do doychczas znanych w procesie uczenia nie usiy czekać do osaecznego wyjścia obserwowanego syseu, a co za y idzie nie usiy składować w paięci wszyskich obserwacji. Dzięki eu w syseach, w kórych właściwe wzocnienie przychodzi po dość długi czasie, ożey zaoszczędzić sporo paięci. Drugą zaleą jes sa fak obliczeń obliczenia wpływające na ewenualne ziany syseu uczącego ogą być dokonywane w rakcie obserwacji kolejnych wejść (sanów obserwowanego syseu), a nie, ak jak w przypadku doychczasowych eod, dopiero po orzyaniu osaecznej odpowiedzi. Wszyskie zaley podejścia TD(λ) uwidaczniają się ak naprawdę w zw. probleach wielokrokowych (ulisep predicion probles), w kórych inforacja o prawidłowości poszczególnych predykcji uzyskiwana jes po więcej niż jedny kroku (każdy krok, o kolejna obserwacja syseu). W każdy aki kroku uzyskiwana jes ylko częściowa inforacja odpowiadająca prawidłowości predykcji, na kórą składa się nowa obserwacja wejściowa wraz z nową dla niej predykcją. W ego ypu probleach TD(λ) wprowadza szereg niespoykanych doychczas ożliwości uczenia wyrażanych różnyi warościai paraeru λ. Naoias w probleach jednokrokowych (single-sep predicion probles) działanie oawianego algoryu sprowadza się właściwie do działania doychczas już znanych. Meoda TD(λ) zosała bardzo poyślnie wykorzysana w 992 roku w prograie TD-GAMMON grający na bardzo wysoki pozioie w grę backgaon. Sukces ego prograu doprowadził do zwiększenia zaineresowania ą eodą w zasosowaniu w różnych grach sraegicznych. Realizacja ego prograu zosanie jeszcze w iarę szczegółowo oówiona w osaniej części pracy. Definicja algoryu Załóży, że rozważay wielokrokowy proble predykcyjny, w kóry każde doświadczenie składa się z sekwencji obserwacji x, x, 2 K, x (gdzie każdy x jes wekore rzeczywiso-liczbowych danych Paweł Sawarz, / 5
8 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon wejściowych doyczących obserwacji syseu w chwili ) zakończonych osaeczny rzeczywisoliczbowy wyjście z (wzocnienie). Dla każdej sekwencji obserwacji uczeń generuje odpowiadającą i sekwencję predykcji P, P2,..., P szacujących osaeczne wyjście z syseu. W ogólności każda predykcja P oże być funkcją wszyskich poprzedzających ją obserwacji oraz wekora odyfikowalnych paraerów (wag) w P( x, x,, x, 2 w) założyć, że x oraz paraerów w ( x w) P jes funkcją obserwacji K. Jednakże dla uproszczenia dalszych rozważań ławiej będzie P,. Suon swierdza, że wszyskie inne przypadki ogą być zawsze sprowadzone do ego uproszczonego. Każdy algory uczenia się definiowany jes poprzez regułę akualizacji paraerów w : gdzie w w + = w, () w jes wekore zian wekora wag w wynikających z obserwacji w chwili. W y oencie zakładay jednak, że każda akualizacja paraerów w nasępuje dopiero po pełnej sekwencji obserwacji zakończonych osaeczny wzocnienie. Jak się później okaże ożna rozważać również dwa inne przypadki: bardziej przyrosowy, w kóry akualizacja paraerów wysępuje po każdej obserwacji i niej przyrosowy, w kóry akualizacja wysępuje po cały zbiorze uczący, j. wielu sekwencjach obserwacji. Zani wyprowadziy ogólny wzór na przyros w w podejściu TD-Learning, wyjdziey najpierw od podejścia nadzorowanego uczenia i pokażey, iż jes o szczególny przypadek całej rodziny procedur uczących TD ( λ). Zauważy, że w nadzorowany uczeniu nasze doświadczenie wyrażone byłoby sekwencją par ( x, z), ( x, z),, ( x, 2 K z), a przyros w zależałby od błędu iędzy predykcją P a osaeczny wyjście z : ( z P ) wp w = α, (2) gdzie α jes współczynnikie uczenia (dodania liczba rzeczywisa) i gradien pochodnych cząskowych przyros wag jes wekore P względe kolejnych składowych wekora w. Zauważy, że w każdej chwili zależy od wzocnienia z, co jednocześnie oznacza, że poszczególne przyrosy nie w ogą być wyznaczane dopóki warość ego wzocnienia nie zosanie poznana. Dlaego eż wszyskie obserwacje i predykcje pojawiające się w rakcie doświadczenia uszą być skrzęnie groadzone w paięci do saego końca, w kóry dopiero pojawia się cały proces obliczeniowy związany z akualizacją wekora paraerów w innyi słowy akualizacja a nie oże odbywać się przyrosowo. Okazuje się jednak, iż procedura TD-Learning oże doprowadzić do ego saego sposobu akualizacji wag (2) w sposób bardziej przyrosowy. Zauważy, że ( P ) = ( P P ) P w z k+ k, (3) k= Paweł Sawarz, / 5
9 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon gdzie przyjujey z definicji, iż wyprowadzić wzór na akualizację wag w : def P + = z. Wykorzysując równania ()-(3) ożey w en sposób w w+ = w+ = α k= = w k = w+ ( z P) P = w+ α ( P P ) ( P P ) P = w+ α( P P) k+ k = α w w = k= + = k= w k+ P k k w P = (4) orzyując osaecznie nasępujący wzór na przyros wag: w + w k= ( P P ) = α Pk. (5) Jak widać obliczanie kolejnych w rzeczywiście oże odbywać się w sposób przyrosowy, ponieważ zależy on od różnicy dwóch kolejnych predykcji oraz suy wszyskich gradienów predykcji, kóra oże być obliczana w sposób jak najbardziej przyrosowy (z każda kolejną predykcją). Okazuje się, że w równaniu (5) przedsawiliśy ylko szczególny przypadek procedury uczącej TD ( λ) dla λ =. Cała rodzina procedur uczących TD ( λ) wyraża się nasępująco: w k + λ w k= ( P P ) = α Pk, (6) gdzie λ [ 0; ]. Jak widać w rodzinie ej uwzględnione jes wykładnicze ważenie osanich predykcji. Predykcje bliższe wzocnienia są ważone z większą wagą niż e, kóre odbywały się na say począku doświadczenia. Predykcje e ogą być ważone w sposób inny niż wykładniczy, aczkolwiek główną jego zaleą jes fak, że powyższe wyliczenia ogą odbywać się w sposób jak najbardziej przyrosowy. Korzysając z równania (6), załóży, że e = P k = k λ w k, (7) a wedy w = + ( P P ) e α. (8) Idąc dalej y rope orzyujey, że e λ, (8) + + k k + = wpk = λ λ wpk + wp + = λe + wp + k= k= Paweł Sawarz, / 5
10 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon co oznacza, że kolejne warości paraeru e ogą być wyliczane w sposób przyrosowy na podsawie poprzedniej jej warości oraz bieżącego gradienu predykcji P w. Powyższy fak w isocie w znaczny sposób uławia ipleenację oawianego u algoryu jak również sprawia, że wszyskie, wydawałoby się zagawane obliczenia odbywają się w bardzo króki czasie. Suon w swojej pracy [] bardzo szczegółowo oawia wszyskie ajniki algoryu TD-Learning. Wykazuje on iędzy innyi w swoich eksperyenach (związanych ze spacere losowy) zależności średniego błędu predykcji najlepiej wyuczonego syseu od fakycznych warości obserwowanego syseu dla różnych warości paraeru α (współczynnika uczenia) oraz paraeru λ (paraeru TD-Learning) Rysunek 4. TD-Gaon Wsęp Rysunek 4. Średni błąd predykcji w zależności od warości paraerów α oraz λ. Waro zauważyć, że eksperyeny Suona wykazały, iż syse uczący najlepiej odwzorowuje obserwowany syse dla warości paraerów α = 0. 3, λ = 0. 3 (zn. z najniejszy błęde), naoias najbardziej uogólnia en syse dla warości λ = wraz z duży współczynnikie uczenia α. W niniejszej części pracy skupiy się już na prakyczny zasosowaniu algoryu uczenia się ze wzocnienie TD-Learning. Jak o już wcześniej zosało wsponiane, TD-Gaon jes najbardziej spekakularny wynikie ego zasosowania. Wyniki eksperyenów przeprowadzonych przez wórcę, Gerarda Tesauro, przeszły jego nawe najśielsze oczekiwania. TD-Gaon jes prograe grający w grę backgaon. Progra nauczył się w nią grać dzięki eodzie uczenia TD-Learning. Zani jednak przejdziey do oówienia niekórych szczegółów projekowych ego prograu, przyoczyy sobie najważniejsze zasady gry backgaon. Gra backgaon jes jedną z najpopularniejszych (obok szachów) gier planszowych, w kórą grają ysiące, a oże nawe iliony osób na cały świecie. W grę backgaon rozgrywane są przeróżne iędzynarodowe urnieje i regularne isrzoswa świaa. Podobno profesjonalnych graczy w backgaon Paweł Sawarz, / 5
11 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon jes o wiele więcej niż profesjonalnych graczy w szachy. Jes o gra sraegiczna nie pozbawiona jednak pewnego eleenu losowości. W pozycji począkowej na planszy znajduje się 5 pionków jasnego koloru oraz 5 pionków koloru cienego (Rysunek 5.) każdy z dwóch graczy dysponuje jedny kolore pionków. Rysunek 5. Pozycja począkowa gry backgaon. Na planszy znajdują się 24 pola (w kszałcie szpiczasych rójkąów), na kórych oże znajdować się dowolna liczba pionków ylko jednego koloru. Gracze wykonują ruchy na przeian. Pierwszeńswo gry jes losowane przez rzu sześcienną koską przez każdego z graczy gracz z większa liczbą oczek zaczyna. Ruch gracza składa się na rzu dwoa sześciennyi koskai oraz odpowiednie przeieszczenie pionków. Jasne pionki przesuwają się przeciwnie do kierunku ruchu wskazówek zegara, naoias ciene pionki przesuwają się zgodnie z y kierunkie. Liczba wyrzuconych oczek decyduje o y, o ile pól do przodu (z perspekywy danego koloru) ogą zosać przeieszczone pionki. Jeżeli przykładowo wyrzucone zosaną liczby 6 i 3, oznacza o, że gracz oże przeieścić jednego pionka o łączną liczbę 9 pól do przodu, albo dwa pionki odpowiednio o 6 oraz 3 pola. Jeżeli na obu koskach wyrzucona zosała a saa liczba oczek, wówczas gracz przeieszcza swoje pionki, ak jakby wyrzucił czery razy ę liczbę. Pionek oże zosać przeieszczony na inne pole ylko i wyłącznie wedy, gdy soi na ni dowolna liczba pionków ego saego koloru albo co najwyżej jeden pionek przeciwnika. Jeżeli na dany polu znajdował się jeden pionek przeciwnika, o w wyniku ego ruchu, pionek en jes zbijany i rafia na zw. belkę pozycję, z kórej rozpoczyna podróż dookoła planszy. Jeżeli na belce znajdują się jakiekolwiek pionki gracza, o jes on zobowiązany do ruchu nii w pierwszej kolejności. Cele gry każdego z graczy jes przeransporowanie wszyskich pionków do osaniej kwary planszy (sześć osanich pól podróży), z kórego nasępnie wykonywana jes ewakuacja pionów poza planszę (Rysunek 6.). Gracz, kóry jako pierwszy pozbędzie się wszyskich swoich pionków wygrywa grę. Rysunek 6. Końcówka gry backgaon. Paweł Sawarz, / 5
12 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Po przejrzeniu powyższych podsawowych zasad gry backgaon ożey sobie odpowiedzieć na pyanie: jak bardzo złożona jes a gra? Oczywise jes, iż liczba ożliwych rozieszczeń 30 pionków na 26 polach (24 + belka + iejsce poza planszą) jes bardzo duża. Ogrony jes również współczynnik rozgałęzienia analizowanego drzewa gry. Zakładając, że gracz będący na ruchu wyrzucił już odpowiednią liczbę oczek, o średnio rzecz biorąc oże on wykonać swój ruch na około 20 różnych sposobów. Wchodząc jednak głębiej w drzewo gry ożna zauważyć, że z każdy pozioe pojawia się około 36*20=720 ożliwych rozgałęzień (36 o liczba różnych kobinacji wyrzuconych oczek na obu koskach). Chociaż pod koniec gry współczynnik rozgałęzienia zaczyna się znacznie zniejszać, o jednak jego średnia warość urzyuje się w granicach 400. Ławo zae wyobrazić sobie, iż coraz głębsza analiza akiego drzewa gry saje się bardzo uciążliwa a przede wszyski czasochłonna. Dlaego eż porzebna na jes odpowiednia heurysyka skuecznie oceniająca określony san gry backgaon, aby wykorzysać ją na odpowiedni pozioie drzewa gry. Doskonały sposobe odnalezienia ej heurysyki okazało się wykorzysanie w y celu procedur uczących TD(λ) w połączeniu z rójwarswową siecią neuronową uczoną z wykorzysanie wsecznej propagacji błędów dla poprzedzających warsw. Wykorzysanie TD-Learning Gra backgaon w oczywisy sposób oże być rozuiana jako wielokrokowy proble predykcyjny, w kóry wzocnienie (osaeczny wynik gry) nasępuje po sekwencji określonych ruchów zieniających san rozieszczenia pionków na planszy. Jak o zosało pokazane w poprzedni rozdziale algory uczenia TD-Learning doskonale nadaje się do ego ypu probleów. Algory en zosał zaaplikowany w wersji TD- GAMMON 0.0 do uczenia rójwarswowej sieci neuronowej (Rysunek 7.), w kórej warswa wyjściowa składała się z -3 neuronów, warswa ukrya z oraz warswa wejściowa ze 98. W uproszczeniu wyjście ej sieci iało oszacowywać osaeczny wynik gry dla określonych sanów gry (rozieszczeń pionków na planszy). Liczba neuronów w warswie ukryej była najprawdopodobniej dobierana eksperyenalnie, naoias w warswie wejściowej zależała ściśle od sposobu kodowania akualnego sanu gry. Rysunek 7. Srukura rójwarswowej sieci neuronowej z pełnyi połączeniai poiędzy warswai. Paweł Sawarz, / 5
13 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon W pierwszej wersji (0.0) Gerard Tesauro wykorzysał najprosszy i najbardziej surowy sposób reprezenacji sanu planszy nie wykorzysujący żadnej dodakowej wiedzy na ea dodakowych cech gry backgaon. Z każdy z 24 pól planszy sowarzyszonych było 8 neuronów po 4 neurony dla każdego koloru pionków. Zesaw 4 neuronów określał liczbę pionków danego koloru znajdujących się na y polu w nasępujący sposób: jeśli na polu nie znajdują się żadne pionki, o każdy z neuronów przyjuje warość 0, jeśli na polu znajduje się dokładnie jeden pionek, o pierwszy neuron przyjuje warość, a pozosałe warość 0, jeśli na polu znajdują się dokładnie dwa pionki, o pierwsze dwa neurony przyjują warość, a pozosałe dwa warość 0, jeśli na polu znajdują się co najniej rzy pionki, o pierwsze rzy neurony przyjują warość, n 3 naoias osani warość, gdzie n oznacza liczbę pionków znajdujących się na y polu. 2 Powyższy sposób kodowania rozieszczenia pionków na planszy zapewnia na już w ej chwili 8*24=92 neuronów wejściowych. Dwa kolejne neurony wyznaczały odpowiednio liczbę jasnych oraz cienych n pionków znajdujących się na belce przyjując warość, gdzie n jes liczbą pionków na ej belce. 2 Dwa kolejne neurony wyznaczały z kolei odpowiednio liczbę jasnych oraz cienych pionków, kóre zosały n już szczęśliwie usunięe z planszy przyjując warość, gdzie n jes liczbą usunięych pionków. 5 Dwa osanie neurony wyznaczały naoias w sposób binarny kolor, kóry jes na ruchu. Dla powyższego sposobu reprezenacji planszy, sieć neuronowa przyjując odpowiednie warości wejściowe obliczała swoje wyjście w klasyczny sposób. Z każdy połączenie poiędzy neuronai warswy wejściowej a neuronai warswy ukryej, a akże poiędzy neuronai warswy ukryej a neuronai warswy wyjściowej, uożsaiony jes pewien odyfikowalny paraer (waga) przyjujący warości rzeczywisoliczbowe. Wyjście każdego neuronu warswy ukryej bądź wyjściowej wyznaczane jes jako warość sigoidalnej funkcji dla warości arguenu będącego suą iloczynów wyjść neuronów poprzedzającej warswy z odpowiadającyi i wagai (na połączeniach). Po ewenualne szczegóły działania sieci neuronowych waro zajrzeć do [3]. Mając już zaprojekowaną sieć neuronową usiy się jeszcze zasanowić w jaki sposób będziey ją uczyć. Tesauro zaproponował nasępujący sposób uczenia: sieć neuronowa gra jak najwięcej parii z saą sobą. W wersji 0.0 wybór ruchu ograniczał się do analizy ylko i wyłącznie pierwszego poziou drzewa. Oczywiście wybierany był zawsze en ruch, dla kórego san planszy po jego wykonaniu był najlepiej oceniany przez sieć. Każda gra rakowana była jako oddzielne doświadczenie składające się z sekwencji obserwacji (poszczególnych pozycji) oraz osaecznego wzocnienia (wyniku gry). Tesauro skorzysał akże z najbardziej przyrosowego scheau uczenia TD(λ), zn. wszyskie akualizacje wag nasępowały po każdy ruchu. San począkowy sieci, zn. wszyskie odyfikowalne wagi zosały wybrane w sposób losowy Paweł Sawarz, / 5
14 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon jako ałe warości rzeczywiso-liczbowe. Wynikie ego była całkowicie losowa gra ego prograu na począku. Jednakże już po kilkuse rozegranych pariach zaczął być zauważalny ciągły wzros jego uiejęności. Wyniki eksperyenów Ku wielkieu zaskoczeniu, po rozegraniu gier z say sobą, TD-Gaon 0.0 nauczył się grać równie ocno jak najlepszy znany do ej pory inny progra grający w backgaon (wykorzysujący bardziej wyrafinowane cechy gry) Neurogaon, progra Tesaura opary również na sieci neuronowej, ale nie uczony eodą TD(λ). Najbardziej zadziwiający był fak, że TD-Gaon bez żadnej wyszukanej wiedzy ógł rzeczywiście dorównać najlepszy swoi konkureno. Oczywisy nasępswe ego sukcesu była konynuacja ych eksperyenów z wykorzysanie wyspecjalizowanych cech gry backgaon w wersji TD-Gaon.0, kóre jak się ożna spodziewać zakończyły się jeszcze większy sukcese. Siła gry TD-Gaon.0 była już nieporównywalnie większa od innych znanych prograów grających w backgaon i zaczęła poważnie zagrażać prawdziwy arcyisrzo ej gry. Kolejne wersje ego prograu były ulepszane pod kąe drzewa przeszukiwań (głębokość, wybór kolejności analizowanych węzłów) oraz odpowiedni dobore liczby neuronów w warswie ukryej. Wyniki eksperyenów poszczególnych wersji zosały zesawione w abeli (Rysunek 8.). Wersja Liczba neuronów w w. ukryej Liczba gier reningowych Przeciwnik TD-Gaon Inne progray TD-Gaon TD-Gaon Roberie, Magriel Różni arcyisrzowie Wynik dorównał najlepszeu -3 pk / 5 gier -7 pk / 38 gier TD-Gaon Roberie - pk / 40 gier TD-Gaon Kazaros +6 pk / 20 gier Rysunek 8. Wyniki eksperyenów przeprowadzane z kolejnyi wersjai prograu TD-Gaon. Kolejne wersje prograu TD-Gaon wykazywały znaczny wzros uiejęności gry. W dwóch osanich pozycjach abeli z Rysunku 8. przedsawiono wyniki gier z dwoa najlepszyi graczai backgaon. Kazaros ówczesny isrz świaa po równej grze, osaecznie przegrał sześcioa punkai. Waro jeszcze na zakończenie dodać jako ciekawoskę fak, iż progra TD-Gaon przyczynił się do ziany sposobu doychczasowego yślenia o grze począkowej. TD-Gaon nauczył się grać pewne owarcia całkowicie inaczej od ówczesnych isrzów. Okazało się, iż podejście ego prograu zosało później dokładnie przeanalizowane, a wielcy isrzowie zaczęli czerpać z niego wiedzę. Paweł Sawarz, / 5
15 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Lieraura [] Richard S. Suon. Learning o Predic by he Mehods of Teporal Differences. Machine Learning 3: 9-44, 988 Kluwer Acadeic Publishers, Boson. [2] Richard S. Suon, Andrew G. Baro. Reinforceen Learning: An Inroducion... TD-Gaon. MIT Press, Cabridge, MA, 998, A Bradford Book. [3] Ryszard Tadeusiewicz. Sieci neuronowe. Warszawa, Akadeicka Oficyna Wydawnicza RM, 993. Paweł Sawarz, / 5
gra Chińczyk dla 6 osób
CHIŃCZYK Chińczyk to popularna gra planszowa dla dwóch, trzech lub czterech osób, w której celem graczy jest przejście dookoła planszy czterema pionkami z pozycji początkowych na końcowe. Pierwszy gracz,
DYNAMIKA KONSTRUKCJI
10. DYNAMIKA KONSTRUKCJI 1 10. 10. DYNAMIKA KONSTRUKCJI 10.1. Wprowadzenie Ogólne równanie dynamiki zapisujemy w posaci: M d C d Kd =P (10.1) Zapis powyższy oznacza, że równanie musi być spełnione w każdej
Politechnika Częstochowska Wydział Inżynierii Mechanicznej i Informatyki. Sprawozdanie #2 z przedmiotu: Prognozowanie w systemach multimedialnych
Poliechnika Częsochowska Wydział Inżynierii Mechanicznej i Informayki Sprawozdanie #2 z przedmiou: Prognozowanie w sysemach mulimedialnych Andrzej Siwczyński Andrzej Rezler Informayka Rok V, Grupa IO II
WYKORZYSTANIE STATISTICA DATA MINER DO PROGNOZOWANIA W KRAJOWYM DEPOZYCIE PAPIERÓW WARTOŚCIOWYCH
SaSof Polska, el. 12 428 43 00, 601 41 41 51, info@sasof.pl, www.sasof.pl WYKORZYSTANIE STATISTICA DATA MINER DO PROGNOZOWANIA W KRAJOWYM DEPOZYCIE PAPIERÓW WARTOŚCIOWYCH Joanna Maych, Krajowy Depozy Papierów
Całka nieoznaczona Andrzej Musielak Str 1. Całka nieoznaczona
Całka nieoznaczona Andrzej Musielak Sr Całka nieoznaczona Całkowanie o operacja odwrona do liczenia pochodnych, zn.: f()d = F () F () = f() Z definicji oraz z abeli pochodnych funkcji elemenarnych od razu
Gra planszowa stwarza jeszcze więcej możliwości!
Gra planszowa stwarza jeszcze więcej możliwości! Steffen Benndorf Reinhard Staupe Gracze: 2-4 osób Wiek: powyżej 8 lat Czas trwania: ok.20 minut Uwaga: W przypadku, gdy Państwo znają już wielokrotnie nagradzaną
C d u. Po podstawieniu prądu z pierwszego równania do równania drugiego i uporządkowaniu składników lewej strony uzyskuje się:
Zadanie. Obliczyć przebieg napięcia na pojemności C w sanie przejściowym przebiegającym przy nasępującej sekwencji działania łączników: ) łączniki Si S są oware dla < 0, ) łącznik S zamyka się w chwili
WNIOSKOWANIE STATYSTYCZNE
Wnioskowanie saysyczne w ekonomerycznej analizie procesu produkcyjnego / WNIOSKOWANIE STATYSTYCZNE W EKONOMETRYCZNEJ ANAIZIE PROCESU PRODUKCYJNEGO Maeriał pomocniczy: proszę przejrzeć srony www.cyf-kr.edu.pl/~eomazur/zadl4.hml
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
KURS EKONOMETRIA. Lekcja 1 Wprowadzenie do modelowania ekonometrycznego ZADANIE DOMOWE. Strona 1
KURS EKONOMETRIA Lekcja 1 Wprowadzenie do modelowania ekonomerycznego ZADANIE DOMOWE www.erapez.pl Srona 1 Część 1: TEST Zaznacz poprawną odpowiedź (ylko jedna jes prawdziwa). Pyanie 1 Kóre z poniższych
Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 1. Wojciech Waloszek. Teresa Zawadzka.
Eksploracja danych KLASYFIKACJA I REGRESJA cz. 1 Wojciech Waloszek wowal@ei.pg.gda.pl Teresa Zawadzka egra@ei.pg.gda.pl Kaedra Inżyrii Oprogramowania Wydział Elekroniki, Telekomunikacji i Informayki Poliechnika
Badanie funktorów logicznych TTL - ćwiczenie 1
adanie funkorów logicznych TTL - ćwiczenie 1 1. Cel ćwiczenia Zapoznanie się z podsawowymi srukurami funkorów logicznych realizowanych w echnice TTL (Transisor Transisor Logic), ich podsawowymi paramerami
Analiza rynku projekt
Analiza rynku projek A. Układ projeku 1. Srona yułowa Tema Auor 2. Spis reści 3. Treść projeku 1 B. Treść projeku 1. Wsęp Po co? Na co? Dlaczego? Dlaczego robię badania? Jakimi meodami? Dla Kogo o jes
Układy sekwencyjne asynchroniczne Zadania projektowe
Układy sekwencyjne asynchroniczne Zadania projekowe Zadanie Zaprojekować układ dwusopniowej sygnalizacji opycznej informującej operaora procesu o przekroczeniu przez konrolowany paramer warości granicznej.
3. MINIMAX. Rysunek 1: Drzewo obrazujące przebieg gry.
3. MINIMAX. Bardzo wygodną strukturą danych pozwalającą reprezentować stan i przebieg gry (szczególnie gier dwuosobowych) jest drzewo. Węzły drzewa reprezentują stan gry po wykonaniu ruchu przez jednego
Matematyka ubezpieczeń majątkowych r. ma złożony rozkład Poissona. W tabeli poniżej podano rozkład prawdopodobieństwa ( )
Zadanie. Zmienna losowa: X = Y +... + Y N ma złożony rozkład Poissona. W abeli poniżej podano rozkład prawdopodobieńswa składnika sumy Y. W ejże abeli podano akże obliczone dla k = 0... 4 prawdopodobieńswa
Parametryczny koder mowy - wokoder. Synteza mowy w odbiorniku: d=1 - mowa dźwięczna (T 0 = okres tonu krtaniowego) d=0 - mowa bezdźwięczna
Paraeryczny koder owy - wokoder Syneza owy w odbiorniku: d=1 - owa dźwięczna T 0 = okres onu kraniowego d=0 - owa bezdźwięczna Wokoder nadajnik Eksrakcja onu kraniowego 1. Przebieg czasowy sygnału i błędu
Kombinowanie prognoz. - dlaczego należy kombinować prognozy? - obejmowanie prognoz. - podstawowe metody kombinowania prognoz
Noaki do wykładu 005 Kombinowanie prognoz - dlaczego należy kombinować prognozy? - obejmowanie prognoz - podsawowe meody kombinowania prognoz - przykłady kombinowania prognoz gospodarki polskiej - zalecenia
Rozdział 4 Instrukcje sekwencyjne
Rozdział 4 Insrukcje sekwencyjne Lisa insrukcji sekwencyjnych FBs-PLC przedsawionych w niniejszym rozdziale znajduje się w rozdziale 3.. Zasady kodowania przy zasosowaniu ych insrukcji opisane są w rozdziale
PROGNOZOWANIE I SYMULACJE EXCEL 2 PROGNOZOWANIE I SYMULACJE EXCEL AUTOR: ŻANETA PRUSKA
1 PROGNOZOWANIE I SYMULACJE EXCEL 2 AUTOR: mgr inż. ŻANETA PRUSKA DODATEK SOLVER 2 Sprawdzić czy w zakładce Dane znajduję się Solver 1. Kliknij przycisk Microsof Office, a nasępnie kliknij przycisk Opcje
Dendrochronologia Tworzenie chronologii
Dendrochronologia Dendrochronologia jes nauką wykorzysującą słoje przyrosu rocznego drzew do określania wieku (daowania) obieków drewnianych (budynki, przedmioy). Analizy różnych paramerów słojów przyrosu
DYNAMICZNE MODELE EKONOMETRYCZNE
DYNAMICZNE MODEE EKONOMETRYCZNE X Ogólnopolskie Seminarium Naukowe, 4 6 września 007 w Toruniu Kaedra Ekonomerii i Saysyki, Uniwersye Mikołaja Kopernika w Toruniu Joanna Małgorzaa andmesser Szkoła Główna
Silniki cieplne i rekurencje
6 FOTO 33, Lao 6 Silniki cieplne i rekurencje Jakub Mielczarek Insyu Fizyki UJ Chciałbym Pańswu zaprezenować zagadnienie, kóre pozwala, rozważając emaykę sprawności układu silników cieplnych, zapoznać
Analiza i Zarządzanie Portfelem cz. 6 R = Ocena wyników zarządzania portfelem. Pomiar wyników zarządzania portfelem. Dr Katarzyna Kuziak
Ocena wyników zarządzania porelem Analiza i Zarządzanie Porelem cz. 6 Dr Kaarzyna Kuziak Eapy oceny wyników zarządzania porelem: - (porolio perormance measuremen) - Przypisanie wyników zarządzania porelem
8. Neuron z ciągłą funkcją aktywacji.
8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i
Wykład 6. Badanie dynamiki zjawisk
Wykład 6 Badanie dynamiki zjawisk Krzywa wieża w Pizie 1 2 3 4 5 6 7 8 9 10 11 12 13 y 4,9642 4,9644 4,9656 4,9667 4,9673 4,9688 4,9696 4,9698 4,9713 4,9717 4,9725 4,9742 4,9757 Szeregiem czasowym nazywamy
ANALIZA, PROGNOZOWANIE I SYMULACJA / Ćwiczenia 1
ANALIZA, PROGNOZOWANIE I SYMULACJA / Ćwiczenia 1 mgr inż. Żanea Pruska Maeriał opracowany na podsawie lieraury przedmiou. Zadanie 1 Firma Alfa jes jednym z głównych dosawców firmy Bea. Ilość produku X,
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
2.1 Zagadnienie Cauchy ego dla równania jednorodnego. = f(x, t) dla x R, t > 0, (2.1)
Wykład 2 Sruna nieograniczona 2.1 Zagadnienie Cauchy ego dla równania jednorodnego Równanie gań sruny jednowymiarowej zapisać można w posaci 1 2 u c 2 2 u = f(x, ) dla x R, >, (2.1) 2 x2 gdzie u(x, ) oznacza
PROGNOZOWANIE I SYMULACJE. mgr Żaneta Pruska. Ćwiczenia 2 Zadanie 1
PROGNOZOWANIE I SYMULACJE mgr Żanea Pruska Ćwiczenia 2 Zadanie 1 Firma Alfa jes jednym z głównych dosawców firmy Bea. Ilość produku X, wyrażona w ysiącach wyprodukowanych i dosarczonych szuk firmie Bea,
Wykład 6. Badanie dynamiki zjawisk
Wykład 6 Badanie dynamiki zjawisk TREND WYODRĘBNIANIE SKŁADNIKÓW SZEREGU CZASOWEGO 1. FUNKCJA TRENDU METODA ANALITYCZNA 2. ŚREDNIE RUCHOME METODA WYRÓWNYWANIA MECHANICZNEGO średnie ruchome zwykłe średnie
2 gry planszowe. rekomendowany wiek: od lat 4 dla 2 4 osób
2 gry planszowe rekomendowany wiek: od lat 4 dla 2 4 osób Ucieczka z ZOO Na ryby zawartość pudełka: 1) plansza - 2 strony 2) pionki - 16 szt. 3) żetony - 23 szt. 4) kostka do gry 5) instrukcja Po rozpakowaniu
E k o n o m e t r i a S t r o n a 1. Nieliniowy model ekonometryczny
E k o n o m e r i a S r o n a Nieliniowy model ekonomeryczny Jednorównaniowy model ekonomeryczny ma posać = f( X, X,, X k, ε ) gdzie: zmienna objaśniana, X, X,, X k zmienne objaśniające, ε - składnik losowy,
Działania uczniów klasy 3a wg Scenariusza zajęć edukacyjnych z matematyki Wykorzystanie w edukacji matematycznej własnej gry planszowej
Działania uczniów klasy 3a wg Scenariusza zajęć edukacyjnych z matematyki Wykorzystanie w edukacji matematycznej własnej gry planszowej rok szkolny 2016/2017 OPRACOWANO W RAMACH PROJEKTU "PODNOSZENIA KOMPETENCJI
Fizyka Procesów Klimatycznych Wykład 9 proste modele klimatu
Fizyka Procesów Kliaycznych Wykład 9 prose odele kliau prof. dr hab. Szyon Malinowski Insyu Geofizyki, Wydział Fizyki Uniwersye Warszawski alina@igf.fuw.edu.pl dr hab. Krzyszof Markowicz Insyu Geofizyki,
Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0
Uczenie się pojedynczego neuronu W0 X0=1 W1 x1 W2 s f y x2 Wp xp p x i w i=x w+wo i=0 Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z=0 Wówczas: W 1 x 1 + w 2 x 2 + = 0 Algorytm
Oprogramowanie Systemów Obrazowania SIECI NEURONOWE
SIECI NEURONOWE Przedmiotem laboratorium jest stworzenie algorytmu rozpoznawania zwierząt z zastosowaniem sieci neuronowych w oparciu o 5 kryteriów: ile zwierzę ma nóg, czy żyje w wodzie, czy umie latać,
gry na planszy do WARCABÓW WARCABY TRADYCYJNE WARCABY NAROŻNIKOWE gra dla 2 osób rekwizyty: - plansza - 12 pionków białych i 12 pionków czarnych
gry na planszy do WARCABÓW WARCABY TRADYCYJNE Celem gry jest zbicie lub zablokowanie pionków przeciwnika. Grę prowadzi się na ciemnych polach szachownicy. Plansza jest tak ułożona, aby obaj gracze mieli
METODY SZTUCZNEJ INTELIGENCJI 2 Opis projektu
Kamil Figura Krzysztof Kaliński Bartek Kutera METODY SZTUCZNEJ INTELIGENCJI 2 Opis projektu Porównanie metod uczenia z rodziny TD z algorytmem Layered Learning na przykładzie gry w warcaby i gry w anty-warcaby
Analiza metod oceny efektywności inwestycji rzeczowych**
Ekonomia Menedżerska 2009, nr 6, s. 119 128 Marek Łukasz Michalski* Analiza meod oceny efekywności inwesycji rzeczowych** 1. Wsęp Podsawowymi celami przedsiębiorswa w długim okresie jes rozwój i osiąganie
Wygładzanie metodą średnich ruchomych w procesach stałych
Wgładzanie meodą średnich ruchomch w procesach sałch Cel ćwiczenia. Przgoowanie procedur Średniej Ruchomej (dla ruchomego okna danch); 2. apisanie procedur do obliczenia sandardowego błędu esmacji;. Wizualizacja
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Prognozowanie średniego miesięcznego kursu kupna USD
Prognozowanie średniego miesięcznego kursu kupna USD Kaarzyna Halicka Poliechnika Białosocka, Wydział Zarządzania, Kaedra Informayki Gospodarczej i Logisyki, e-mail: k.halicka@pb.edu.pl Jusyna Godlewska
MAKROEKONOMIA 2. Wykład 3. Dynamiczny model DAD/DAS, część 2. Dagmara Mycielska Joanna Siwińska - Gorzelak
MAKROEKONOMIA 2 Wykład 3. Dynamiczny model DAD/DAS, część 2 Dagmara Mycielska Joanna Siwińska - Gorzelak ( ) ( ) ( ) i E E E i r r = = = = = θ θ ρ ν φ ε ρ α * 1 1 1 ) ( R. popyu R. Fishera Krzywa Phillipsa
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
ĆWICZENIE NR 43 U R I (1)
ĆWCZENE N 43 POMY OPO METODĄ TECHNCZNĄ Cel ćwiczenia: wyznaczenie warości oporu oporników poprzez pomiary naężania prądu płynącego przez opornik oraz napięcia na oporniku Wsęp W celu wyznaczenia warości
Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania. Podstawy Automatyki
Poliechnika Gdańska Wydział Elekroechniki i Auomayki Kaedra Inżynierii Sysemów Serowania Podsawy Auomayki Repeyorium z Podsaw auomayki Zadania do ćwiczeń ermin T15 Opracowanie: Kazimierz Duzinkiewicz,
CIĘŻKIE HIPOPOTAMY. uczenie się rozróżniania ciężarów. komunikacja (klasyfikacja ciężarów) umiejętności motoryczne (podnoszenie i ustawianie pionków)
22708 CIĘŻKIE HIPOPOTAMY uczenie się rozróżniania ciężarów komunikacja (klasyfikacja ciężarów) umiejętności motoryczne (podnoszenie i ustawianie pionków) współpraca Zawartość opakowania: - 1 plansza tekturowa
ZASTOSOWANIE METODY OBLICZEŃ UPROSZCZONYCH DO WYZNACZANIA CZASU JAZDY POCIĄGU NA SZLAKU
PRACE NAUKOWE POLITECHNIKI WARSZAWSKIEJ z. 87 Transpor 01 Jarosław Poznański Danua Żebrak Poliechnika Warszawska, Wydział Transporu ZASTOSOWANIE METODY OBLICZEŃ UPROSZCZONYCH DO WYZNACZANIA CZASU JAZDY
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI
Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. http://zajecia.jakubw.pl/ test 1 dopełnienie testu 1
Analiza danych Drzewa decyzyjne. Enropia. Jakub Wróblewski jakubw@pjwsk.edu.pl hp://zajecia.jakubw.pl/ DRZEWA DECYZYJNE Meoda reprezenacji wiedzy (modelowania ablic decyzyjnych). Pozwala na przejrzysy
Ocena płynności wybranymi metodami szacowania osadu 1
Bogdan Ludwiczak Wprowadzenie Ocena płynności wybranymi meodami szacowania osadu W ubiegłym roku zaszły znaczące zmiany doyczące pomiaru i zarządzania ryzykiem bankowym. Są one konsekwencją nowowprowadzonych
SYMULACYJNA ANALIZA PRODUKCJI ENERGII ELEKTRYCZNEJ I CIEPŁA Z ODNAWIALNYCH NOŚNIKÓW W POLSCE
SYMULACYJNA ANALIZA PRODUKCJI ENERGII ELEKTRYCZNEJ I CIEPŁA Z ODNAWIALNYCH NOŚNIKÓW W POLSCE Janusz Sowiński, Rober Tomaszewski, Arur Wacharczyk Insyu Elekroenergeyki Poliechnika Częsochowska Aky prawne
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
LABORATORIUM PODSTAWY ELEKTRONIKI Badanie Bramki X-OR
LORTORIUM PODSTWY ELEKTRONIKI adanie ramki X-OR 1.1 Wsęp eoreyczny. ramka XOR ramka a realizuje funkcję logiczną zwaną po angielsku EXLUSIVE-OR (WYŁĄZNIE LU). Polska nazwa brzmi LO. Funkcję EX-OR zapisuje
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
GRA EDUKACYJNA INNA NIŻ WSZYSTKIE
GRA EDUKACYJNA INNA NIŻ WSZYSTKIE Przewodnik 5 9 Daje LAT dorosłym możliwość wspólnej zabawy z dziećmi Mnóstwo zabawy, mnóstwo nauki! Od 1967 Zawartość 4 5... Wstęp 6 7... Zasady gry 8... Grając w iknow
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)
WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO Stanisław Kowalik (Poland, Gliwice) 1. Wprowadzenie Wstrząsy podziemne i tąpania występujące w kopalniach
PREDYKCJA KURSU EURO/DOLAR Z WYKORZYSTANIEM PROGNOZ INDEKSU GIEŁDOWEGO: WYBRANE MODELE EKONOMETRYCZNE I PERCEPTRON WIELOWARSTWOWY
B A D A N I A O P E R A C J N E I D E C Z J E Nr 2004 Aleksandra MAUSZEWSKA Doroa WIKOWSKA PREDKCJA KURSU EURO/DOLAR Z WKORZSANIEM PROGNOZ INDEKSU GIEŁDOWEGO: WBRANE MODELE EKONOMERCZNE I PERCEPRON WIELOWARSWOW
PROGNOZOWANIE. Ćwiczenia 2. mgr Dawid Doliński
Ćwiczenia 2 mgr Dawid Doliński Modele szeregów czasowych sały poziom rend sezonowość Y Y Y Czas Czas Czas Modele naiwny Modele średniej arymeycznej Model Browna Modele ARMA Model Hola Modele analiyczne
Dobór przekroju żyły powrotnej w kablach elektroenergetycznych
Dobór przekroju żyły powronej w kablach elekroenergeycznych Franciszek pyra, ZPBE Energopomiar Elekryka, Gliwice Marian Urbańczyk, Insyu Fizyki Poliechnika Śląska, Gliwice. Wsęp Zagadnienie poprawnego
4.2. Obliczanie przewodów grzejnych metodą dopuszczalnego obciążenia powierzchniowego
4.. Obliczanie przewodów grzejnych meodą dopuszczalnego obciążenia powierzchniowego Meodą częściej sosowaną w prakyce projekowej niż poprzednia, jes meoda dopuszczalnego obciążenia powierzchniowego. W
ESTYMACJA KRZYWEJ DOCHODOWOŚCI STÓP PROCENTOWYCH DLA POLSKI
METODY ILOŚCIOWE W BADANIACH EKONOMICZNYCH Tom XIII/3, 202, sr. 253 26 ESTYMACJA KRZYWEJ DOCHODOWOŚCI STÓP PROCENTOWYCH DLA POLSKI Adam Waszkowski Kaedra Ekonomiki Rolnicwa i Międzynarodowych Sosunków
PROGNOZOWANIE I SYMULACJE EXCEL 2 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 2 AUTOR: MARTYNA MALAK
1 PROGNOZOWANIE I SYMULACJE 2 hp://www.oucome-seo.pl/excel2.xls DODATEK SOLVER WERSJE EXCELA 5.0, 95, 97, 2000, 2002/XP i 2003. 3 Dodaek Solver jes dosępny w menu Narzędzia. Jeżeli Solver nie jes dosępny
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Instrukcja gry w Chińczyka
Instrukcja gry w Chińczyka Gra Chińczyk wywodzi się ze starożytnej gry hinduskiej Pachisi. Chińczyk powstał w Niemczech w latach 1907/1908 jego twórcą był Joseph Friedrich Schmidt. Niemiecka nazwa gry
Matematyka finansowa 20.03.2006 r. Komisja Egzaminacyjna dla Aktuariuszy. XXXVIII Egzamin dla Aktuariuszy z 20 marca 2006 r.
Komisja Egzaminacyjna dla Akuariuszy XXXVIII Egzamin dla Akuariuszy z 20 marca 2006 r. Część I Maemayka finansowa WERSJA TESTU A Imię i nazwisko osoby egzaminowanej:... Czas egzaminu: 100 minu 1 1. Ile
Ewa Dziawgo Uniwersytet Mikołaja Kopernika w Toruniu. Analiza wrażliwości modelu wyceny opcji złożonych
DYNAMICZNE MODELE EKONOMETRYCZNE X Ogólnopolskie Seminarium Naukowe, 4 6 września 7 w Toruniu Kaedra Ekonomerii i Saysyki, Uniwersye Mikołaja Kopernika w Toruniu Uniwersye Mikołaja Kopernika w Toruniu
Elementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
Elementy kognitywistyki III: Modele i architektury poznawcze
Elementy kognitywistyki III: Modele i architektury poznawcze Wykład VII: Modelowanie uczenia się w sieciach neuronowych Uczenie się sieci i trening nienaruszona struktura sieci (z pewnym ale ) nienaruszone
MÓWIĘ POPRAWNIE INSTRUKCJA. Zawartość pudełka: 1) tabliczki z obrazkami - 96 szt. 2) plansza 3) pionki - 8 szt. 4) kostka do gry 5) instrukcja
INSTRUKCJA MÓWIĘ POPRAWNIE gra dla 2 4 graczy rekomendowany wiek: 5 lat Zawartość pudełka: 1) tabliczki z obrazkami - 96 szt. 2) plansza 3) pionki - 8 szt. 4) kostka do gry 5) instrukcja Po rozpakowaniu
WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB X - ELECTRE TRI
WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB X - ELECTRE TRI 1. Meoda ELECTRE TRI ELECTRE TRI (skró od ang. riage) meoda wspomagająca rozwiązywanie problemów wielokryerialnego sorowania - bardzo podobna
( ) ( ) ( τ) ( t) = 0
Obliczanie wraŝliwości w dziedzinie czasu... 1 OBLICZANIE WRAśLIWOŚCI W DZIEDZINIE CZASU Meoda układu dołączonego do obliczenia wraŝliwości układu dynamicznego w dziedzinie czasu. Wyznaczane będą zmiany
PROGNOZOWANIE ZUŻYCIA CIEPŁEJ I ZIMNEJ WODY W SPÓŁDZIELCZYCH ZASOBACH MIESZKANIOWYCH
STUDIA I PRACE WYDZIAŁU NAUK EKONOMICZNYCH I ZARZĄDZANIA NR 15 Barbara Baóg Iwona Foryś PROGNOZOWANIE ZUŻYCIA CIEPŁEJ I ZIMNEJ WODY W SPÓŁDZIELCZYCH ZASOBACH MIESZKANIOWYCH Wsęp Koszy dosarczenia wody
Postęp techniczny. Model lidera-naśladowcy. Dr hab. Joanna Siwińska-Gorzelak
Posęp echniczny. Model lidera-naśladowcy Dr hab. Joanna Siwińska-Gorzelak Założenia Rozparujemy dwa kraje; kraj 1 jes bardziej zaawansowany echnologicznie (lider); kraj 2 jes mniej zaawansowany i nie worzy
ATOLL. Wykonali: Aleksandra Kuchta, Łukasz Wójcik, Sztuczna Inteligencja, Semestr trzeci, Kierunek Informatyka, Wydział Informatyki i Zarządzania,
Sztuczna Inteligencja, Semestr trzeci, Kierunek Informatyka, Wydział Informatyki i Zarządzania, Politechnika Poznańska ATOLL Wykonali: Aleksandra Kuchta, WFT, PP, nr 76690, rok IV Łukasz Wójcik, WIiZ,
, gdzie b 4c 0 oraz n, m ( 2). 2 2 b b b b b c b x bx c x x c x x
Meody aeaycze w echologii aeriałów Uwaga: Proszę paięać, że a zajęciach obowiązuje akże zajoość oówioych w aeriałach przykładów!!! CAŁKOWANIE FUNKCJI WYMIERNYCH Fukcją wyierą azyway fukcję posaci P ( )
QUIZ BIG WSZECHSWIAT. gra edukacyjna dla 2 4 osób. rekomendowany wiek: od lat 10
QUIZ BIG gra edukacyjna dla 2 4 osób rekomendowany wiek: od lat 10 zawartość pudełka: 1) karty pytań i odpowiedzi - 47 szt. 2) karty ilustracji - 25 szt. 3) karty liter a b - 4 x 2 szt. 4) plansza 5) pionki
Szachowisko Żywe Szachy (zapraszamy do znajomych) www.szachowisko.wordpress.com Szachowisko co to takiego? Szachowisko żywe szachy w Lublinie to projekt realizowany przez młodzież przy wsparciu Fundacji
Instrukcja do ćwiczenia laboratoryjnego. Badanie liczników
Insrukcja do ćwiczenia laboraoryjnego Badanie liczników Opracował: mgr inż. Andrzej Biedka Wymagania, znajomość zagadnień: 3. 4. Budowa licznika cyfrowego. zielnik częsoliwości, różnice między licznikiem
ψ przedstawia zależność
Ruch falowy 4-4 Ruch falowy Ruch falowy polega na rozchodzeniu się zaburzenia (odkszałcenia) w ośrodku sprężysym Wielkość zaburzenia jes, podobnie jak w przypadku drgań, funkcją czasu () Zaburzenie rozchodzi
PROPOZYCJA NOWEJ METODY OKREŚLANIA ZUŻYCIA TECHNICZNEGO BUDYNKÓW
Udosępnione na prawach rękopisu, 8.04.014r. Publikacja: Knyziak P., "Propozycja nowej meody określania zuzycia echnicznego budynków" (Proposal Of New Mehod For Calculaing he echnical Deerioraion Of Buildings),
Temat: Weryfikacja nienaruszalności bezpieczeństwa SIL struktury sprzętowej realizującej funkcje bezpieczeństwa
1 Lab3: Bezpieczeńswo funkcjonalne i ochrona informacji Tema: Weryfikacja nienaruszalności bezpieczeńswa SIL srukury sprzęowej realizującej funkcje bezpieczeńswa Kryeria probabilisyczne bezpieczeńswa funkcjonalnego
Szachy INSTRUKCJA. rekwizyty: 1) Bierki - 32 szt. 2) plansza - 1 szt.
INSTRUKCJA Szachy rekwizyty: 1) Bierki - 32 szt. 2) plansza - 1 szt. Partia szachowa jest rozgrywana między dwoma przeciwnikami, którzy wykonują posunięcia bierkami na kwadratowej tablicy, zwanej szachownicą.
LABORATORIUM URZĄDZEŃ I UKŁADÓW AUTOMATYKI
INSTYTUT INFORMATYKI, AUTOMATYKI I ROBOTYKI POLITECHNIKI WROCŁAWSKIEJ I-6 LABORATORIUM URZĄDZEŃ I UKŁADÓW AUTOMATYKI Ćwiczenie nr 7 REGULACJA DWUSTAWNA I TRÓJSTAWNA sr.2 1.Cel ćwiczenia Cele ćwiczenia
WYTRZYMAŁOŚĆ KOMPOZYTÓW WARSTWOWYCH
WYTRZYMAŁOŚĆ KOMPOZYTÓW WARTWOWYCH Zagadnienia wyrzymałościowe w przypadku maeriałów kompozyowych, a mówiąc ściślej włóknisych kompozyów warswowych (np. laminay zbrojone włóknami) należy rozparywać na
SZACHY mini INSTRUKCJA. rekwizyty: 1) Bierki - 32 szt. 2) plansza - 1 szt.
INSTRUKCJA SZACHY mini rekwizyty: 1) Bierki - 32 szt. 2) plansza - 1 szt. Partia szachowa jest rozgrywana między dwoma przeciwnikami, którzy wykonują posunięcia bierkami na kwadratowej tablicy, zwanej
1.1. Bezpośrednie transformowanie napięć przemiennych
Rozdział Wprowadzenie.. Bezpośrednie ransformowanie napięć przemiennych Bezpośrednie ransformowanie napięć przemiennych jes formą zmiany paramerów wielkości fizycznych charakeryzujących energię elekryczną
CHIŃCZYK. CHIŃCZYK z blokadą ruchomą INSTRUKCJA. gry na planszy do Chińczyka. gra dla 2-4 osób
INSTRUKCJA gry na planszy do Chińczyka CHIŃCZYK gra dla 2-4 osób - 4 jednokolorowe pionki x ilość graczy - kostka Gracze ustalają kolory swoich pionków, po czym ustawiają je na swoich polach wyjściowych
MAKROEKONOMIA 2. Wykład 3. Dynamiczny model DAD/DAS, część 2. Dagmara Mycielska Joanna Siwińska - Gorzelak
MAKROEKONOMIA 2 Wykład 3. Dynamiczny model DAD/DAS, część 2 Dagmara Mycielska Joanna Siwińska - Gorzelak 2 Plan wykładu Zakłócenia w modelu DAD/DAS: Wzros produkcji poencjalnej; Zakłócenie podażowe o sile
Copyright by Politechnika Białostocka, Białystok 2017
Recenzenci: dr hab. Sanisław Łobejko, prof. SGH prof. dr hab. Doroa Wikowska Redakor naukowy: Joanicjusz Nazarko Auorzy: Ewa Chodakowska Kaarzyna Halicka Arkadiusz Jurczuk Joanicjusz Nazarko Redakor wydawnicwa:
Krzywe na płaszczyźnie.
Krzwe na płaszczźnie. Współrzędne paramerczne i biegunowe. Współrzędne biegunowe. Dan jes punk O, zwan biegunem, kór sanowi począek półprosej, zwanej półosią. Dowoln punk P na płaszczźnie można opisać
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Projekt Sieci neuronowe
Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków
Parytet stóp procentowych a premia za ryzyko na przykładzie kursu EURUSD
Parye sóp procenowych a premia za ryzyko na przykładzie kursu EURUD Marcin Gajewski Uniwersye Łódzki 4.12.2008 Parye sóp procenowych a premia za ryzyko na przykładzie kursu EURUD Niezabazpieczony UIP)
Pobieranie próby. Rozkład χ 2
Graficzne przedsawianie próby Hisogram Esymaory przykład Próby z rozkładów cząskowych Próby ze skończonej populacji Próby z rozkładu normalnego Rozkład χ Pobieranie próby. Rozkład χ Posać i własności Znaczenie