Znaczene nstrukcj w uczenu sę na podstawe wzmocneń w schzofren Dorota Frydecka Katedra Psychatr Unwersytetu Medycznego m. Pastów Śląskch we Wrocławu Jarosław Drapała Katedra Informatyk Poltechnk Wrocławskej
Kj czy marchewka? Decyzja
Racjonaln czy racjonalzujący? Umysł racjonalny (wedza jawna) Kora mózgowa Decyzja Intucja (wedza nejawna) Struktury podkorowe
Kj czy marchewka? Decyzja
Uczene z nagród kar Q A? Q B A 80% wyborów nagradzanych B 20% wyborów nagradzanych
Uczene z nagród kar Q A? Q B A B
Uczene z nagród kar Q A? Q B A B
Uczene z nagród kar Instructonal learnng task 80% 20% 70% 30% 60% 40%
Uczene z nagród kar Q A? Q B A 80% wyborów nagradzanych B 20% wyborów nagradzanych
Uczene z nagród kar Q A? Q B A B
Uczene z nagród kar
Modelowane Model uczena decyzja gracza QA QB T p( A) temperatura 1 Q 1 exp A Q T temperatura rozumana jako przewaga zachowana eksploracyjnego nad eksploatacyjnym B A jest gorszy od B A jest lepszy od B
Modelowane uczene ze wzmocnenem Model uczena Q-learnng najprostszy model Q Q r Q r 1,1 wartość nagrody Q r 1 = 0 Q Q Q Q
Modelowane uczene ze wzmocnenem Model Rescola-Wagner Q Q gdze r Gan Loose Q dla r 1 dla r 1 r 1,1 wartość nagrody
Estymacja parametrów modelu Sera pomarowa X = { para symbol(n); decyzja(n); r(n) ); n=1,2,,n } Funkcja warygodnośc Rozkład a pror Rozkład a posteror pθ T θ Gan Loose Metoda maksymalnej warygodnośc p p p X θ θ X px θ pθ N X θ px ( n) θ( n 1) θ arg max ln px θ n1 D θ
Estymacja parametrów modelu Estymacja punktowa Warygodność modelu T
Estymacja parametrów modelu
Bayesan Q-learnng F fałszywy symbol 1 0 1 1 1 1 1 1, ; du u u f 1 2 1 Uczene: Decyzja: T F p F E exp 1 1 ) ( Jeżel r = 1 1 Jeżel r = 1
Porównane model selekcja modelu (model selecton and comparson) Lkelhood rato test for nested models d D M, a log PD M 2 log P a 2 2 1, LLE log P D M, a 1 d 2 LLE LLE 2 1 d ma rozkład ch kwadrat z lczbą stopn swobody równą lczbe dodatkowych parametrów modelu M 2
Porównane model selekcja modelu Pseudo R 2 2 pseudor Bayesan model comparson LLE LLE LLE randomchoces randomchoces Akake Informaton Crteron (AIC) Bayesan Informaton Crteron (BIC) AIC 2LLE 2k BIC 2LLE k log N k lczba parametrów modelu N lczba pomarów (obserwacj)
Porównane model selekcja modelu Model Parametry AIC_Trn AIC_Tst pr 2 _Trn pr 2 _Tst LLE_Trn LLE_Tst QL 2 186 151 0.16 0.02-90 -77 RW 3 172 146 0.22 0.04-83 -70 IL 5 182 152 0.18 0.02-88 -73 C_L 5 170 144 0.24 0.09-81 -69 B 5 191 153 0.14 0.01-92 -73 B_SP 2 183 152 0.17 0.02-88 -73 B_IL_LG 4 182 152 0.18 0.02-88 -73 B_OR 5 188 151 0.21 0.07-85 -68
Sposób użyca model oblczenowych Hpoteza np. leczene poprawa zdolnośc uczena sę, poneważ Selekcja modelu Modele dopamna aktywuje kora przedczołowa nadpsuje.. Obserwacje kontra symulacje np. grupa kontrolna vs schzofrency Statystyk opsowe parametry modelu grupa kontrolna vs schzofrency średna C średna S proporcja C proporcja S rozkład C rozkład S korelacja C z D korelacja S z T. Wnoskowane statystyczne np. ANOVA, U-test, χ2, regresja
Modelowane procesu uczena z nagród kar Wykorzystane sec neuronowych Model Izhkevcha 2 v 0.04v 5v 140 u a b v u Jeżel 30 to v potencjał membrany v u I v c u u d u zmenna regeneracyjna (recovery varable) zwązana z aktywacją przepływu jonów K+ naktywacją przepływu jonów Na+
Modele w postac bologczne realstycznych sec neuronowych
Plan badawczy
Współpraca Doll, B. B., Jacobs, W. J., Sanfey, A. G., & Frank, M. J. (2009). Instructonal control of renforcement learnng: a behavoral and neurocomputatonal nvestgaton. Bran research, 1299, 74-94. Doll, B. B., Hutchson, K. E., & Frank, M. J. (2011). Dopamnergc genes predct ndvdual dfferences n susceptblty to confrmaton bas. Journal of Neuroscence, 31(16), 6188-6198. Frank, M. J., Samanta, J., Moustafa, A. A., & Sherman, S. J. (2007). Hold your horses: mpulsvty, deep bran stmulaton, and medcaton n parknsonsm. Scence, 318(5854), 1309-1312. Schlagenhauf, F., Rapp, M. A., Huys, Q. J., Beck, A., Wüstenberg, T., Deserno, L.,... & Kenast, T. (2013). Ventral stratal predcton error sgnalng s assocated wth dopamne synthess capacty and flud ntellgence. Human bran mappng, 34(6), 1490-1499. Daw, N. D. (2011). Tral-by-tral data analyss usng computatonal models. Decson makng, affect, and learnng: Attenton and performance XXIII, 23, 3-38.
Współpraca Collns, A. G., Cullo, B., Frank, M. J., & Badre, D. (2017). Workng Memory Load Strengthens Reward Predcton Errors. Journal of Neuroscence, 37(16), 4332-4342. Collns, A. G., Brown, J. K., Gold, J. M., Waltz, J. A., & Frank, M. J. (2014). Workng memory contrbutons to renforcement learnng mparments n schzophrena. Journal of Neuroscence, 34(41), 13747-13756. Doll, B. B., Waltz, J. A., Cockburn, J., Brown, J. K., Frank, M. J., & Gold, J. M. (2014). Reduced susceptblty to confrmaton bas n schzophrena. Cogntve, Affectve, & Behavoral Neuroscence, 14(2), 715-728. Collns, A. G., & Frank, M. J. (2012). How much of renforcement learnng s workng memory, not renforcement learnng? A behavoral, computatonal, and neurogenetc analyss. European Journal of Neuroscence, 35(7), 1024-1035.