Alea Bulletin

Bollettino di informazione specialistica in materia di azzardo. La redazione di Alea Bulletin, con periodicità variabile, raccoglie riflessioni, approfondimenti, recensioni, al fine di alimentare il dibattito scientifico e di offrire alla comunità degli operatori che lavorano nel settore informazioni corrette ed aggiornate.

Dopamina fasica, apprendimento per rinforzo e motivazioni intrinseche.

Applicazioni alla robotica e spunti per un approccio sottocorticale allo studio dell'addiction

Vieri Giuliano Santucci – Istituto di Scienze e Tecnologie della Cognizione (ISTC), Consiglio Nazionale delle Ricerche (CNR) – Roma. 1. Reward e predizione I rinforzi (positivi e nagativi) giocano un ruolo fondamentale nel determinare il comportamento degli agenti biologici. I rinforzi positivi (reward) sono in grado di incentivare la risposta agli stimoli ad essi associati: stimoli appetitivi, per esempio, inducono gli agenti all'approccio e alla consumazione. Vista l'importanza dei reward (generalmente collegati a necessità primarie) è importante per gli agenti biologici poter anticipare, o meglio “prevedere”, gli stimoli ad essi collegati così da poter preparare risposte e comportamenti atti ad ottenerli (da notare come lo stesso principio valga anche per gli stimoli avversivi collegati a rinforzi negativi). La ben nota teoria pavloviana del condizionamento classico riassume bene questi due aspetti.

Gli stimoli direttamente collegati ai reward sono denominati unconditioned stimuli (US) e sono quelli in grado di attivare risposte (come la famosa salivazione dei cani degli esperimenti di Pavlov). Quando degli stimoli neutri vengono costantemente associati agli US, acquisiscono il ruolo di conditioned stimuli (CS) e diventano a loro volta in grado di generare negli agenti le stesse risposte attivate dagli US. Questo perchè i CS diventano anticipatori (predittori) degli US e possono preparare gli agenti a rispondere più prontamente all'ambiente circostante. Stesso meccanismo avviene anche nelle dinamiche di condizionamento operante evidenziate da Skinner. 2. Dopamina, reward, predizione ed errori di predizione La dopamina (DA) è un neuromodulatore che gioca un ruolo cruciale nelle dinamiche motivazionali e di apprendimento (Wise, 2004; Schultz, 2006; Berridge, 2007). I neuroni dopaminergici sono concentrati nel mesencefalo, nella Substantia Nigra pars compacta (SNc) e nella Ventral Tegmental Area (VTA) e proiettano ad aree coinvolte nel processamento delle motivazioni e nel goal-directed behaviour (e.g. striato, nucleo accumbens, corteccia frontale). Molti studi hanno confermato come il segnale dopaminergico attui un processamento delle informazioni relative al reward. La DA presenta attivazioni fasiche di fronte a stimoli direttamente collegati al reward (Schultz, 1998). Come le risposte comportamentali dei cani di Pavlov, anche la DA “sposta” la propria attività dall'effettivo rilascio del reward all'onset di stimoli condizionati (CS) che siano stati associati ripetutamente con gli US. Anche le dinamiche di attivazione della DA, che come detto in precedenza ha un ruolo fondamentale nell'apprendimento, sembrano quindi sottolineare l'importanza della anticipazione nel guidare gli agenti nella loro interazione con il mondo. Quello che risulta essere ancora più particolare è il fatto che gli studi sulla DA fasica hanno mostrato come le attivazioni dei neuroni dopaminergici non rispecchino semplicemente la presenza del reward (o una anticipazione di esso) ma la “deviazione” (l'errore) tra il reward previsto e quello realmente esperito. Se la DA gioca un ruolo fondamentale nelle dinamiche dell'apprendimento, tali dati confermano quello che già era ipotizzato da altre teorie sul reward-dependent learning: l'apprendimento è guidato dall'impredicibilità del reward. 3. TD-Learning e Dopamina Anche in ambito computazionale gli agenti incontrano problemi simili a quelli riscontrabili nel mondo reale. Per questo riuscire a predire stati futuri positivi (e nagativi) può migliorarne la performance, specialmente se si trovano in ambienti sconosciuti o in continuo cambiamento. Per risolvere questa problematica (ed in particolare quella della massimizzazione della quantità di reward ottenuto) è stato identificato un algoritmo, il Temporal Difference (TD)- Learning (Sutton & Barto, 1998), basato proprio sugli errori di predizione: sulla base degli stati percepititi, l'agente impara a fare valutazioni di quella che sarà la quantità dei reward ottenuti in futuro. La discrepanza tra i reward realmente ottenuti e le valutazioni fatte dal sistema vengono utilizzate per modificare la mappa delle valutazioni dell'agente, che migliorerà così la sua conoscenza del mondo. Questo stesso segnale di reward prediction-error può essere utilizzato per guidare l'apprendimento di azioni e per la risoluzione di quello che viene definito il problema del Temporal Credit Assignment. Come è possibile rinforzare azioni che seppur importanti per l'ottenimento del reward sono lontane nel tempo dall'ottenimento del rinforzo positivo? La soluzione è quella di creare una policy che modifichi nel tempo l'associazione tra singoli stati ed azioni che portino poi al successo finale (il reward, il goal, etc). Per ottimizzare tale policy, ad ogni stato viene attribuito un valore così da poter imparare quali azioni (per ogni stato) portino verso stati con valutazione più alta. Il segnale generato dal TD-error, così come il segnale dopaminergico negli agenti biologici, può essere utilizzato proprio per questo tipo di apprendimento. Molti studi (e.g. Houk et al., 1995; Schultz et al, 1997) hanno mostrato come gli errori di predizione generati dall'algoritmo di apprendimento per rinforzo del TD-Learning possano essere considerati un buon modello di quelle che sono le attivazioni fasiche della DA, scaturite dalla presentazione di reward (o stimoli anticipatori dei reward) inattesi. Contemporaneamente tale algoritmo, rispecchiando le dinamiche di uno dei neuromodulatori che gioca un ruolo principale nell'apprendimento, può garantire l'implementazione di agenti artificiali che meglio rispecchino quelli biologici e che magari, similmente a questi ultimi, siano più versatili ed adattivi. 4. Dopamina e stimoli fasici neutri Studi recenti (Horvitz, 2000; Dommett et al., 2005) hanno mostrato come la DA fasica non risponda esclusivamente a stimoli non predetti collegati al reward (o anticipatori di esso): anche stimoli neutri non predetti sono in grado di attivare fasicamente i neuroni dopaminergici. Questi dati vanno a sommarsi a quelli di altre ricerche che già avevano sottolineato la capacità degli stimoli fasici neutri di condizionare risposte strumentali (Kish, 1955; Reed et al., 1996). Lo studio di come stimoli non associati a reward o a bisogni collegati alla sopravvivenza possano modificare il comportamento degli agenti biologici risale alla metà dello scorso secolo e si sviluppa inizialmente nella psicologia animale (White, 1959; Berlyne, 1960). Per sottolineare come questi stimoli fossero differenti da quelli che venivano considerati i driver primari, venne coniato il termine di Intrinsic Motivations (IMs) per indicare quelle motivazioni che erano in grado di modificare il comportamento degli agenti pur non essendo, come le Extrinsic Motivations (EMs, quali, per esempio, cibo, partner sessuali, predatori), direttamente collegate alla fitness degli agenti. Se quindi gli esperimenti mostrano come la DA risponda in modo analogo ad errori di predizione collegati sia ad EMs che ad IMs , l'ipotesi (Mirolli et al. 2013) è che la DA fasica sia un segnale di prediction-error simile al TD-error computazionale per un sistema che riceve due tipologie di rinforzi: 1) estrinseci (permanenti), quali reward e CS ad essi collegati; 2) intrinseci (temporanei), come stimoli fasici neutri non predetti o nuovi. L'idea è che in questo modo la DA possa svolgere una doppia funzione: da un lato ampliare il repertorio di azioni di un agente, grazie alle IMs, anche in assenza di dirette pressioni collegate all'ambiente o agli stati omeostatici interni; dall'altro sfruttare le azioni acquisite (ed eventualmente impararne di nuove) per la massimizzazione dei reward estrinseci. 6. Intrinsic Motivations e robotica Il ruolo della DA nell'apprendimento degli agenti biologici e nello specifico il ruolo che le IMs hanno nel guidare gli esseri viventi (specialmente esseri umani ed altri mammiferi come scimmie o topi) ad ampliare la propria conoscenza del mondo ed il proprio repertorio di azioni, sono stati di grande ispirazione per l'implementazione di architetture ed algoritmi che permettano agli agenti artificiali di avvicinarsi maggiormente a quelle che sono le caratteristiche degli agenti reali. Riuscire a costruire dei robot capaci di scegliere autonomamente i propri goal, di imparare nuove skill non sulla base di task o reward prestabili durante la programmazione ma sulla base dell'interazione degli agenti con il mondo, è un importante passo in avanti per la robotica non ancora realizzato in modo stabile e diffuso. A partire dagli anni '90 molti sono i lavori computazionali (e.g. Schmidhuber, 1991; Barto, 2004) che cercano di utilizzare il principio delle IMs per migliorare la versatilità e l'autonomia degli agenti artificiali. Per modellizzare i segnali di rinforzo collegati alle IMs un ruolo cruciale hanno nuovamente, come nel caso della DA e del TD-Learning, meccanismi capaci di “prevedere il futuro”: ma se le EMs sono collegate alla previsione dei reward futuri, nel caso delle IMs il segnale di errore di predizione è collegato agli stati futuri che il sistema incontrerà (senza specificare qui tra le diverse tipologie di IMs. Per una analisi più approfondità si vedano, per esempio, Oudeyer & Kaplan, 2007; Santucci et al., 2013). Già dai primi lavori sulle IMs in machine learning è apparso chiaramente un problema collegato ai segnali di errore di predizione utilizzati come motivazione per modificare i comportamenti (e l'apprendimento) degli agenti: cosa succede se il sistema prova a predire qualcosa di impredicibile? Tale previsione sarà sempre scorretta e genererà per questo un continuo segnale di errore che farà focalizzare l'agente su qualcosa che, invece, non ha nulla da “insegnare” al sistema. 6. Errori di predizione, IMs e addiction In ambito computazionale tale problema è stato risolto: anziché utilizzare l'errore di predizione, per rinforzare gli agenti viene utilizzato il miglioramento nell'errore di predizione. Di fatto, dal punto di vista matematico, una derivata che nel tempo indica se il sistema stia migliorando le proprie capacità predittive. Se c'è qualcosa da imparare tale segnale segnalerà un incremento della capacità del sistema di prevedere l'evento in questione che durerà finchè l'agente avrà imparato ad anticiparlo sistematicamente: a questo punto il rinforzo sparirà e il robot potrà focalizzarsi su altri task. Differentemente, se l'evento (lo stato) in questione è impredicibile non ci sarà, in media, nessun incremento delle capacità predittive: la derivata sarà quindi uguale (o molto vicina a) 0 e l'agente non sarà più motivato a concentrarsi su tale stato. Ma se, come detto precedentemente, gli studi hanno mostrato che la DA fasica rappresenta un segnale di errore di predizione, non vi è nessun dato che mostri che, da qualche parte nel cervello, vengano fatte delle derivate. Quantomeno non nel modo diretto in cui è stato risolto il problema descritto. Non vi sono dubbi che il cervello, nella sua complessità, abbia molte risorse per distinguere eventi e stati nel mondo che possono essere interessanti perchè capaci di arricchire la conoscenza dell'agente da altri che invece non hanno nulla da “insegnare” perchè, per esempio, sono indipendenti dall'agente stesso (pensate alla differenza tra un lampadina accesa da un interruttore controllabile dall'agente ed una lampadina che invece si accende e si spegne in modo randomico). Questo non toglie che forse, a livello sottocorticale, e proprio in quei meccanismi che normalmente sono atti a focalizzare gli esseri viventi nell'acquisizione di nuove informazioni sul mondo, possa avvenire un piccolo corto circuito quando ci si trova di fronte a queste tipologie di impasse. Uno strumento come una slot machine sembra porre l'utilizzatore proprio di fronte ad un simile problema: non solo per l'impossibilità di prevedere quando il reward economico sarà rilasciato dalla macchinetta, ma più subdolamente per tutti quegli eventi imprevedibili come suoni e luci che provengono dalla slot. Una piccola ipotesi potrebbe essere questa: l'utilizzatore si trova a compiere azioni sulla slot (introdurre monete, premere bottoni, etc); a queste azioni, in modo quasi o totalmente non correlato, seguono attivazioni di suoni e luci che il sistema cerebrale predisposto all'individuazione di eventi segnala come possibili stati interessanti; poichè non sarà possibile prevedere tali attivazioni, la DA continuerà a sparare di fronte a tali presentazioni generando un (seppur piccolo) segnale di rinforzo. Ovviamente sarebbe ridicolo pensare di ridurre le dinamiche dell'addiction al gioco d'azzardo (e alle slot machine in particolare) al ruolo delle IMs e delle risposte dopaminergiche agli errori di predizione: se non ci fosse di mezzo la componente economica della vincita non si innescherebbe il meccanismo di addiction (ovviamente, una volta innescata, l'addiction può prescindere dall'aspetto economico, ma sicuramente il denaro è determinante nell'avvicinamento alla slot). Questa considerazione non esclude però la possibilità che le dinamiche descritte possano avere un ruolo, specialmente nella fase iniziale in cui il soggetto non è ancora “attratto” dalla macchinetta: luci, suoni ed altri eventi possono costituire un motivo di curiosità. E se questo è banale da un punto di vista “esteriore” (possiamo pensare a tali luci e suoni come insegne luminose, come una sorta di “pubblicità” della slot), meno banale (e possibile oggetto di studio) può essere il considerare che tale curiosità generata dalle macchinetta vada ad agire direttamente su quei meccanismi che nel cervello sono predisposti a modulare l'attenzione e l'apprendimento e per questo contribuire a costruire le premesse necessarie per generare poi il fenomeno dell'addiction. References - Barto, A., Singh, S., Chantanez, N. (2004). Intrinsically motivated learning of hierarchical collections of skills. Proceedings of the Third International Conference on Developmental Learning (ICDL), 112–119. - Berlyne, D. (1960). Conflict,Arousal and Curiosity. McGraw Hill, NewYork. - Berridge, K. (2007). The debate over dopamine’s role in reward: the case for incentive salience. Psychopharmacology 191(3) 391–431. - Dommett, E., Coizet,V., Blaha, C.D., Martindale, J., Lefebvre,V.,Walton, N., May- hew, J.E.W., Overton, P.G., Redgrave, P. (2005). How visual stimuli activate dopaminergic neurons at short latency. Science 307(5714), 1476–1479. - Horvitz, J.C. (2000). Mesolimbocortical and nigrostriatal dopamine responses to salient non-reward events. Neuroscience 96(4), 651–656. - Houk, J., Adams, J., Barto, A. (1995). A model of how the basal ganglia generate and use neural signals that predict reinforcement. In: Models of Information Processing in the Basal Ganglia. MIT Press, Cambridge, MA, 249–270. - Kish, G.B. (1955). Learning when the onset of illumination is used as reinforcing stimulus. Journal of Comparative and Physiological Psychology 48(4), 261–264. - Mirolli, M., Santucci, V. G., Baldassarre, G. (2013). Phasic dopamine as a prediction error of intrinsic and extrinsic reinforcements driving both action acquisition and reward maximization: A simulated robotic study. Neural Networks, vol. 39, no. 0, 40 – 51. - Oudeyer, P.-Y., Kaplan, F. (2007). What is intrinsic motivation? a typology of computational approaches. Frontiers in Neurorobotics vol. 1. - Reed, P., Mitchell, C., Nokes,T. (1996). Intrinsic reinforcing properties of putatively neutral stimuli in an instrumental two-lever discrimination task. Animal Learning and Behavior 24, 38–45. - Santucci, V. G., Baldassarre, G., M. Mirolli, M. (2013). Which is the best intrinsic motivation signal for learning multiple skills? Frontiers in Neurorobotics, vol. 7, no. 22. - Schultz, W., Dayan, P. , Montague, P.R. (1997). A neural substrate of prediction and reward. Science 275, 1593–99. - Schultz,W. (1998): Predictive reward signal of dopamine neurons. Journal of Neurophysiology 80(1), 1–27. - Schultz,W. (2006). Behavioral theories and the neurophysiology of reward.Annual Reviews of Psychology 57, 87–115. - Schmidhuber, J. (1991). Curious model-building control system. Proceedings of International Joint Conference on Neural Networks, vol. 2. IEEE, Singapore, 1458–1463. - Sutton, R., Barto, A. (1998). Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA. - White, R. (1959). Motivation reconsidered: the concept of competence. Psychological Review 66, 297–333. - Wise, R. (2004). Dopamine, learning and motivation. Nature Reviews Neuroscience 5(6), 483–494.

  • Edizioni

    2013

    2014

    2015

    • 2015-1 > PDF > Blog
    • 2015-2 > PDF > Blog

    2016

    • 2016-1 > PDF > Blog
    • 2016-2 > PDF > Blog
    • 2016-3 > PDF > Blog

    2017

    • 2017-1 > PDF > Blog
    • 2017-2 > PDF > Blog

    2018

    • 2018-1 > PDF > Blog

  • Redazione Alea Bulletin

    Daniela Capitanucci

    Daniela Capitanucci

    Gianni Savron

    Gianni Savron

    Gianmaria Zita

    Gianmaria Zita

    Claudio Dalpiaz

    Claudio Dalpiaz

    Fulvia Prever

    Fulvia Prever

    Maurizio Avanzi

    Maurizio Avanzi

    Graziano Bellio

    Graziano Bellio

  • F.A.Q.

    CHE COS'È QUESTA ROBA ?

    Caro lettore, ha davanti a te Alea Bulletin, una pubblicazione elettronica curata da ALEA in tema di gioco d’azzardo e gioco d’azzardo patologico.

    E CHI È ALEA ?

    Alea è l’associazione per lo studio del gioco d’azzardo e dei comportamenti a rischio, la prima società scientifica italiana che si è impegnata nel campo dell’azzardo. Alea riunisce i maggiori studiosi italiani della materia e ha la missione di studiare il fenomeno del gioco d’azzardo e le sue ricadute personali, familiari, sociali, prima fra tutte lo sviluppo della patologia di dipendenza correlata (disturbo da gioco d’azzardo)

    NON SENTIVO IL BISOGNO DI UN’ALTRA MAIL INUTILE NELLA MIA CASELLA DI POSTA ELETTRONICA.

    Hai tutta la nostra solidarietà: la mail inutili (spam) producono un danno significativo a chi lavora. Alea Bulletin verrà proposto a cadenza dilazionata, 3-4 volte l’anno ed è pronto a cancellarti dalla lista di invio se non ne vuoi più sapere. Le istruzioni per cancellarti sono in coda al Bulletin. Inoltre la mail non contiene la pubblicazione in allegato, ma solamente il link per poter scaricare i contenuti dal sito: ciò rende leggero il messaggio di posta e non appesantisce la tua casella. Abbiamo creato una mailing list iniziale con indirizzi di persone che supponevamo interessate. Se ci siamo sbagliati, ci scusiamo.

    VA BENE, PERÒ PRIMA VOGLIO CAPIRE: COSA C’È DENTRO ‘STO ALEA BULLETIN?

    Alea Bulletin è un prodotto unico nel campo italiano: propone brevi articoli sul tema dell’azzardo, organizzati in rubriche a cadenza variabile: ciò significa che non è previsto che ogni numero ospiti tutte le rubriche. Abbiamo pensato di organizzare gli articoli del Bulletin in: editoriali sintesi e commenti di un articolo significativo dal panorama internazionale sintesi e commento di un articolo significativo dal panorama italiano lavori o report originali su una propria esperienza o ricerca sunti di articolo, relazione o presentazione a convegno da parte dell’autore commenti, opinioni, valutazioni di normative, fatti, dichiarazioni, ed altro, in tema di azzardo recensioni di un manuale, un testo scientifico, un libro di narrativa, un film o altra opera artistica in tema di azzardo ‘fuori sacco’: contributi non organizzabili all’interno delle rubriche precedenti. Altre rubriche potranno essere inserite in futuro. Considera che al momento la pubblicazione, a causa della sua periodicità, non è adatta a commentare l’attualità o a fungere da notiziario con tempestività.

    MMHM... POTREBBE INTERESSARMI DARCI UNA OCCHIATA: TROVERÒ QUINDI GLI ABSTRACT DI ARTICOLI SCIENTIFICI?

    Troverai di più: alcuni articoli significativi verranno riassunti e commentati. Se gli articoli sono reperibili gratuitamente su Internet, ti daremo le coordinate per trovarli. Gli abstract invece li puoi trovare facilmente su Internet. Il ‘copia e incolla’ ci annoia: ci piace di più condividere un nostro pensiero, una nostra valutazione, qualcosa che ha stuzzicato il nostro interesse.

    CHI SCRIVE GLI ARTICOLI?

    Alea Bulletin è primariamente la voce di Alea e dei suoi soci. Potrebbero comparire anche articoli di altre persone non associate che ci sono vicine e che invitiamo a collaborare. Ma se tu hai qualcosa da dire, avanza la tua proposta: i riferimenti sono nelle note in coda al Bulletin.

    VEDO CHE C’È UN COMITATO DI REDAZIONE. FARETE UNA SELEZIONE DEGLI ARTICOLI?

    La qualità è il nostro obiettivo fondamentale perché Alea Bulletin è il nostro biglietto da visita. È importante che gli articoli rispettino i nostri parametri editoriali, ma non abbiamo interesse a selezionare e a escludere a priori. Il comitato è lì per consigliare gli opportuni aggiustamenti ai testi. Comunque ci aspettiamo di ricevere articoli interessanti e contributi originali.

    OK, MI AVETE CONVINTO. COME FACCIO PER OTTENERLO?

    Se non sei nella nostra iniziale mailing list, iscriviti inserendo i tuoi dati nella prima sezione di questa stessa pagina. E ricorda: i tuoi dati servono unicamente per ricevere Alea Bulletin. Se vuoi altre informazioni visita ogni tanto il nostro sito web.

    TUTTO BENE, ADESSO PERÒ VENIAMO AL DUNQUE: QUANTO MI COSTERÀ?

    Nulla: Alea Bulletin è del tutto gratuito.

    UN’ULTIMA COSA: HO LETTO IL BULLETIN, MA NON HO TROVATO NULLA SULLA LUDOPATIA.

    Né mai troverai nulla: questo termine è un neologismo creato da chi guadagna sull’azzardo e quindi fatto rimbalzare ad arte sui mass media e, ahimè, nei documenti governativi. Ludopatia è un termine che non esiste né nei testi scientifici, né nei dizionari di italiano (anche se c’è da scommetterci che presto verrà inserito). Se proprio ci tieni a leggere cose sulla ludopatia, esistono altre pubblicazioni.


Seguici su Twitter
  • Nessun cane può correre così veloce come i soldi che scommetti su di lui.

    Bud Flanagan

  • "Non avendo pensieri da scambiarsi, si scambiano le carte, e cercano di portarsi via l'un l'atro i fiorini"
    A. Schopenauer

  • Il giocatore d'azzardo quanto più è bravo nel suo mestiere, tanto più è disonesto.
    Publilio Siro, Sentenze

  • Il senso del cavallo è un buon giudizio che trattiene i cavalli dallo scommettere sulle persone.

    W.C. Fields

  • Il poker consente di dimenticare tutto, compreso il fatto che non possiamo permetterci di giocare.

    Philippe Bouvard

  • Il gioco è un suicidio senza morte.
    André Malraux La condizione umana, 1933

Resta in contatto !

ALEA – associazione per lo studio del gioco d’azzardo e dei comportamenti a rischio - Licenza Creative Commons - CF e PI  01010650529 – Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo. - HTML5 and CSS3 compliant - I contenuti del sito ALEA sono distribuiti con licenza Creative Commons Attribuzione - Non commerciale - Condividi allo stesso modo 3.0 Unported