Dopamina fasica, apprendimento per rinforzo e motivazioni intrinseche.
Applicazioni alla robotica e spunti per un approccio sottocorticale allo studio dell'addiction
Vieri Giuliano Santucci – Istituto di Scienze e Tecnologie della Cognizione (ISTC), Consiglio Nazionale delle Ricerche (CNR) – Roma. 1. Reward e predizione I rinforzi (positivi e nagativi) giocano un ruolo fondamentale nel determinare il comportamento degli agenti biologici. I rinforzi positivi (reward) sono in grado di incentivare la risposta agli stimoli ad essi associati: stimoli appetitivi, per esempio, inducono gli agenti all'approccio e alla consumazione. Vista l'importanza dei reward (generalmente collegati a necessità primarie) è importante per gli agenti biologici poter anticipare, o meglio “prevedere”, gli stimoli ad essi collegati così da poter preparare risposte e comportamenti atti ad ottenerli (da notare come lo stesso principio valga anche per gli stimoli avversivi collegati a rinforzi negativi). La ben nota teoria pavloviana del condizionamento classico riassume bene questi due aspetti.
Gli stimoli direttamente collegati ai reward sono denominati unconditioned stimuli (US) e sono quelli in grado di attivare risposte (come la famosa salivazione dei cani degli esperimenti di Pavlov). Quando degli stimoli neutri vengono costantemente associati agli US, acquisiscono il ruolo di conditioned stimuli (CS) e diventano a loro volta in grado di generare negli agenti le stesse risposte attivate dagli US. Questo perchè i CS diventano anticipatori (predittori) degli US e possono preparare gli agenti a rispondere più prontamente all'ambiente circostante. Stesso meccanismo avviene anche nelle dinamiche di condizionamento operante evidenziate da Skinner. 2. Dopamina, reward, predizione ed errori di predizione La dopamina (DA) è un neuromodulatore che gioca un ruolo cruciale nelle dinamiche motivazionali e di apprendimento (Wise, 2004; Schultz, 2006; Berridge, 2007). I neuroni dopaminergici sono concentrati nel mesencefalo, nella Substantia Nigra pars compacta (SNc) e nella Ventral Tegmental Area (VTA) e proiettano ad aree coinvolte nel processamento delle motivazioni e nel goal-directed behaviour (e.g. striato, nucleo accumbens, corteccia frontale). Molti studi hanno confermato come il segnale dopaminergico attui un processamento delle informazioni relative al reward. La DA presenta attivazioni fasiche di fronte a stimoli direttamente collegati al reward (Schultz, 1998). Come le risposte comportamentali dei cani di Pavlov, anche la DA “sposta” la propria attività dall'effettivo rilascio del reward all'onset di stimoli condizionati (CS) che siano stati associati ripetutamente con gli US. Anche le dinamiche di attivazione della DA, che come detto in precedenza ha un ruolo fondamentale nell'apprendimento, sembrano quindi sottolineare l'importanza della anticipazione nel guidare gli agenti nella loro interazione con il mondo. Quello che risulta essere ancora più particolare è il fatto che gli studi sulla DA fasica hanno mostrato come le attivazioni dei neuroni dopaminergici non rispecchino semplicemente la presenza del reward (o una anticipazione di esso) ma la “deviazione” (l'errore) tra il reward previsto e quello realmente esperito. Se la DA gioca un ruolo fondamentale nelle dinamiche dell'apprendimento, tali dati confermano quello che già era ipotizzato da altre teorie sul reward-dependent learning: l'apprendimento è guidato dall'impredicibilità del reward. 3. TD-Learning e Dopamina Anche in ambito computazionale gli agenti incontrano problemi simili a quelli riscontrabili nel mondo reale. Per questo riuscire a predire stati futuri positivi (e nagativi) può migliorarne la performance, specialmente se si trovano in ambienti sconosciuti o in continuo cambiamento. Per risolvere questa problematica (ed in particolare quella della massimizzazione della quantità di reward ottenuto) è stato identificato un algoritmo, il Temporal Difference (TD)- Learning (Sutton & Barto, 1998), basato proprio sugli errori di predizione: sulla base degli stati percepititi, l'agente impara a fare valutazioni di quella che sarà la quantità dei reward ottenuti in futuro. La discrepanza tra i reward realmente ottenuti e le valutazioni fatte dal sistema vengono utilizzate per modificare la mappa delle valutazioni dell'agente, che migliorerà così la sua conoscenza del mondo. Questo stesso segnale di reward prediction-error può essere utilizzato per guidare l'apprendimento di azioni e per la risoluzione di quello che viene definito il problema del Temporal Credit Assignment. Come è possibile rinforzare azioni che seppur importanti per l'ottenimento del reward sono lontane nel tempo dall'ottenimento del rinforzo positivo? La soluzione è quella di creare una policy che modifichi nel tempo l'associazione tra singoli stati ed azioni che portino poi al successo finale (il reward, il goal, etc). Per ottimizzare tale policy, ad ogni stato viene attribuito un valore così da poter imparare quali azioni (per ogni stato) portino verso stati con valutazione più alta. Il segnale generato dal TD-error, così come il segnale dopaminergico negli agenti biologici, può essere utilizzato proprio per questo tipo di apprendimento. Molti studi (e.g. Houk et al., 1995; Schultz et al, 1997) hanno mostrato come gli errori di predizione generati dall'algoritmo di apprendimento per rinforzo del TD-Learning possano essere considerati un buon modello di quelle che sono le attivazioni fasiche della DA, scaturite dalla presentazione di reward (o stimoli anticipatori dei reward) inattesi. Contemporaneamente tale algoritmo, rispecchiando le dinamiche di uno dei neuromodulatori che gioca un ruolo principale nell'apprendimento, può garantire l'implementazione di agenti artificiali che meglio rispecchino quelli biologici e che magari, similmente a questi ultimi, siano più versatili ed adattivi. 4. Dopamina e stimoli fasici neutri Studi recenti (Horvitz, 2000; Dommett et al., 2005) hanno mostrato come la DA fasica non risponda esclusivamente a stimoli non predetti collegati al reward (o anticipatori di esso): anche stimoli neutri non predetti sono in grado di attivare fasicamente i neuroni dopaminergici. Questi dati vanno a sommarsi a quelli di altre ricerche che già avevano sottolineato la capacità degli stimoli fasici neutri di condizionare risposte strumentali (Kish, 1955; Reed et al., 1996). Lo studio di come stimoli non associati a reward o a bisogni collegati alla sopravvivenza possano modificare il comportamento degli agenti biologici risale alla metà dello scorso secolo e si sviluppa inizialmente nella psicologia animale (White, 1959; Berlyne, 1960). Per sottolineare come questi stimoli fossero differenti da quelli che venivano considerati i driver primari, venne coniato il termine di Intrinsic Motivations (IMs) per indicare quelle motivazioni che erano in grado di modificare il comportamento degli agenti pur non essendo, come le Extrinsic Motivations (EMs, quali, per esempio, cibo, partner sessuali, predatori), direttamente collegate alla fitness degli agenti. Se quindi gli esperimenti mostrano come la DA risponda in modo analogo ad errori di predizione collegati sia ad EMs che ad IMs , l'ipotesi (Mirolli et al. 2013) è che la DA fasica sia un segnale di prediction-error simile al TD-error computazionale per un sistema che riceve due tipologie di rinforzi: 1) estrinseci (permanenti), quali reward e CS ad essi collegati; 2) intrinseci (temporanei), come stimoli fasici neutri non predetti o nuovi. L'idea è che in questo modo la DA possa svolgere una doppia funzione: da un lato ampliare il repertorio di azioni di un agente, grazie alle IMs, anche in assenza di dirette pressioni collegate all'ambiente o agli stati omeostatici interni; dall'altro sfruttare le azioni acquisite (ed eventualmente impararne di nuove) per la massimizzazione dei reward estrinseci. 6. Intrinsic Motivations e robotica Il ruolo della DA nell'apprendimento degli agenti biologici e nello specifico il ruolo che le IMs hanno nel guidare gli esseri viventi (specialmente esseri umani ed altri mammiferi come scimmie o topi) ad ampliare la propria conoscenza del mondo ed il proprio repertorio di azioni, sono stati di grande ispirazione per l'implementazione di architetture ed algoritmi che permettano agli agenti artificiali di avvicinarsi maggiormente a quelle che sono le caratteristiche degli agenti reali. Riuscire a costruire dei robot capaci di scegliere autonomamente i propri goal, di imparare nuove skill non sulla base di task o reward prestabili durante la programmazione ma sulla base dell'interazione degli agenti con il mondo, è un importante passo in avanti per la robotica non ancora realizzato in modo stabile e diffuso. A partire dagli anni '90 molti sono i lavori computazionali (e.g. Schmidhuber, 1991; Barto, 2004) che cercano di utilizzare il principio delle IMs per migliorare la versatilità e l'autonomia degli agenti artificiali. Per modellizzare i segnali di rinforzo collegati alle IMs un ruolo cruciale hanno nuovamente, come nel caso della DA e del TD-Learning, meccanismi capaci di “prevedere il futuro”: ma se le EMs sono collegate alla previsione dei reward futuri, nel caso delle IMs il segnale di errore di predizione è collegato agli stati futuri che il sistema incontrerà (senza specificare qui tra le diverse tipologie di IMs. Per una analisi più approfondità si vedano, per esempio, Oudeyer & Kaplan, 2007; Santucci et al., 2013). Già dai primi lavori sulle IMs in machine learning è apparso chiaramente un problema collegato ai segnali di errore di predizione utilizzati come motivazione per modificare i comportamenti (e l'apprendimento) degli agenti: cosa succede se il sistema prova a predire qualcosa di impredicibile? Tale previsione sarà sempre scorretta e genererà per questo un continuo segnale di errore che farà focalizzare l'agente su qualcosa che, invece, non ha nulla da “insegnare” al sistema. 6. Errori di predizione, IMs e addiction In ambito computazionale tale problema è stato risolto: anziché utilizzare l'errore di predizione, per rinforzare gli agenti viene utilizzato il miglioramento nell'errore di predizione. Di fatto, dal punto di vista matematico, una derivata che nel tempo indica se il sistema stia migliorando le proprie capacità predittive. Se c'è qualcosa da imparare tale segnale segnalerà un incremento della capacità del sistema di prevedere l'evento in questione che durerà finchè l'agente avrà imparato ad anticiparlo sistematicamente: a questo punto il rinforzo sparirà e il robot potrà focalizzarsi su altri task. Differentemente, se l'evento (lo stato) in questione è impredicibile non ci sarà, in media, nessun incremento delle capacità predittive: la derivata sarà quindi uguale (o molto vicina a) 0 e l'agente non sarà più motivato a concentrarsi su tale stato. Ma se, come detto precedentemente, gli studi hanno mostrato che la DA fasica rappresenta un segnale di errore di predizione, non vi è nessun dato che mostri che, da qualche parte nel cervello, vengano fatte delle derivate. Quantomeno non nel modo diretto in cui è stato risolto il problema descritto. Non vi sono dubbi che il cervello, nella sua complessità, abbia molte risorse per distinguere eventi e stati nel mondo che possono essere interessanti perchè capaci di arricchire la conoscenza dell'agente da altri che invece non hanno nulla da “insegnare” perchè, per esempio, sono indipendenti dall'agente stesso (pensate alla differenza tra un lampadina accesa da un interruttore controllabile dall'agente ed una lampadina che invece si accende e si spegne in modo randomico). Questo non toglie che forse, a livello sottocorticale, e proprio in quei meccanismi che normalmente sono atti a focalizzare gli esseri viventi nell'acquisizione di nuove informazioni sul mondo, possa avvenire un piccolo corto circuito quando ci si trova di fronte a queste tipologie di impasse. Uno strumento come una slot machine sembra porre l'utilizzatore proprio di fronte ad un simile problema: non solo per l'impossibilità di prevedere quando il reward economico sarà rilasciato dalla macchinetta, ma più subdolamente per tutti quegli eventi imprevedibili come suoni e luci che provengono dalla slot. Una piccola ipotesi potrebbe essere questa: l'utilizzatore si trova a compiere azioni sulla slot (introdurre monete, premere bottoni, etc); a queste azioni, in modo quasi o totalmente non correlato, seguono attivazioni di suoni e luci che il sistema cerebrale predisposto all'individuazione di eventi segnala come possibili stati interessanti; poichè non sarà possibile prevedere tali attivazioni, la DA continuerà a sparare di fronte a tali presentazioni generando un (seppur piccolo) segnale di rinforzo. Ovviamente sarebbe ridicolo pensare di ridurre le dinamiche dell'addiction al gioco d'azzardo (e alle slot machine in particolare) al ruolo delle IMs e delle risposte dopaminergiche agli errori di predizione: se non ci fosse di mezzo la componente economica della vincita non si innescherebbe il meccanismo di addiction (ovviamente, una volta innescata, l'addiction può prescindere dall'aspetto economico, ma sicuramente il denaro è determinante nell'avvicinamento alla slot). Questa considerazione non esclude però la possibilità che le dinamiche descritte possano avere un ruolo, specialmente nella fase iniziale in cui il soggetto non è ancora “attratto” dalla macchinetta: luci, suoni ed altri eventi possono costituire un motivo di curiosità. E se questo è banale da un punto di vista “esteriore” (possiamo pensare a tali luci e suoni come insegne luminose, come una sorta di “pubblicità” della slot), meno banale (e possibile oggetto di studio) può essere il considerare che tale curiosità generata dalle macchinetta vada ad agire direttamente su quei meccanismi che nel cervello sono predisposti a modulare l'attenzione e l'apprendimento e per questo contribuire a costruire le premesse necessarie per generare poi il fenomeno dell'addiction. References - Barto, A., Singh, S., Chantanez, N. (2004). Intrinsically motivated learning of hierarchical collections of skills. Proceedings of the Third International Conference on Developmental Learning (ICDL), 112–119. - Berlyne, D. (1960). Conflict,Arousal and Curiosity. McGraw Hill, NewYork. - Berridge, K. (2007). The debate over dopamine’s role in reward: the case for incentive salience. Psychopharmacology 191(3) 391–431. - Dommett, E., Coizet,V., Blaha, C.D., Martindale, J., Lefebvre,V.,Walton, N., May- hew, J.E.W., Overton, P.G., Redgrave, P. (2005). How visual stimuli activate dopaminergic neurons at short latency. Science 307(5714), 1476–1479. - Horvitz, J.C. (2000). Mesolimbocortical and nigrostriatal dopamine responses to salient non-reward events. Neuroscience 96(4), 651–656. - Houk, J., Adams, J., Barto, A. (1995). A model of how the basal ganglia generate and use neural signals that predict reinforcement. In: Models of Information Processing in the Basal Ganglia. MIT Press, Cambridge, MA, 249–270. - Kish, G.B. (1955). Learning when the onset of illumination is used as reinforcing stimulus. Journal of Comparative and Physiological Psychology 48(4), 261–264. - Mirolli, M., Santucci, V. G., Baldassarre, G. (2013). Phasic dopamine as a prediction error of intrinsic and extrinsic reinforcements driving both action acquisition and reward maximization: A simulated robotic study. Neural Networks, vol. 39, no. 0, 40 – 51. - Oudeyer, P.-Y., Kaplan, F. (2007). What is intrinsic motivation? a typology of computational approaches. Frontiers in Neurorobotics vol. 1. - Reed, P., Mitchell, C., Nokes,T. (1996). Intrinsic reinforcing properties of putatively neutral stimuli in an instrumental two-lever discrimination task. Animal Learning and Behavior 24, 38–45. - Santucci, V. G., Baldassarre, G., M. Mirolli, M. (2013). Which is the best intrinsic motivation signal for learning multiple skills? Frontiers in Neurorobotics, vol. 7, no. 22. - Schultz, W., Dayan, P. , Montague, P.R. (1997). A neural substrate of prediction and reward. Science 275, 1593–99. - Schultz,W. (1998): Predictive reward signal of dopamine neurons. Journal of Neurophysiology 80(1), 1–27. - Schultz,W. (2006). Behavioral theories and the neurophysiology of reward.Annual Reviews of Psychology 57, 87–115. - Schmidhuber, J. (1991). Curious model-building control system. Proceedings of International Joint Conference on Neural Networks, vol. 2. IEEE, Singapore, 1458–1463. - Sutton, R., Barto, A. (1998). Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA. - White, R. (1959). Motivation reconsidered: the concept of competence. Psychological Review 66, 297–333. - Wise, R. (2004). Dopamine, learning and motivation. Nature Reviews Neuroscience 5(6), 483–494.