Les neuroscientifiques du Sainsbury Wellcome Center (SWC) de l’UCL ont découvert que le cerveau utilise un double système pour apprendre par essais et erreurs. C’est la première fois qu’un deuxième système d’apprentissage est identifié, ce qui pourrait aider à expliquer comment les habitudes sont formées et à fournir une base scientifique pour de nouvelles stratégies pour résoudre les conditions liées à l’apprentissage habituel, telles que les dépendances et les compulsions.
Publié dans NatureL’étude de la souris pourrait également avoir des implications pour développer des thérapies pour les Parkinson. L’étude est intitulée «Les erreurs de prédiction d’action dopaminergiques servent de signal d’enseignement sans valeur».
« Essentiellement, nous avons trouvé un mécanisme qui, selon nous, est responsable des habitudes. Une fois que vous avez développé une préférence pour une certaine action, vous pouvez alors contourner votre système basé sur la valeur et simplement compter sur votre politique par défaut de ce que vous avez fait dans le passé.
Les chercheurs ont découvert un signal de dopamine dans le cerveau qui agit comme un type de signal d’enseignement différent à celui précédemment connu.
Les signaux de dopamine dans le cerveau étaient déjà compris qu’ils forment des erreurs de prédiction de récompense (RPE), où ils signalent à l’animal si un résultat réel est meilleur ou pire que prévu. Dans cette nouvelle étude, les scientifiques ont découvert que, en parallèle à l’EPR, il y a un signal de dopamine supplémentaire, appelé Error de prédiction d’action (APE), qui met à jour la fréquence à laquelle une action est effectuée.
Ces deux signaux d’enseignement donnent aux animaux deux façons différentes d’apprendre à faire un choix, à apprendre à choisir l’option la plus précieuse ou l’option la plus fréquente.
« Imaginez d’aller dans votre sandwich local. La première fois que vous allez, vous pouvez prendre votre temps à choisir un sandwich et, selon lequel vous choisissez, vous pouvez ou non le aimer. Mais si vous retournez à la boutique à plusieurs reprises, vous ne passez plus de temps à vous demander quel sandwich pour sélectionner et à la place à choisir un que vous aimez par la politique par défaut.
Le système d’apprentissage nouvellement découvert fournit un moyen beaucoup plus simple de stocker des informations que de comparer directement la valeur des différentes options.
Cela pourrait libérer le cerveau à plusieurs tâches. Par exemple, une fois que vous avez appris à conduire, vous pouvez également organiser une conversation avec quelqu’un pendant votre voyage. Alors que votre système par défaut fait toutes les tâches répétitives pour conduire la voiture, votre système basé sur la valeur peut décider de quoi parler.
Des recherches antérieures ont découvert que les neurones dopaminés nécessaires à l’apprentissage résident dans trois domaines du cerveau moyen: la zone tegmentale ventrale, la substantia nigra pars compacta et la substantia nigra pars latéralis. Alors que certaines études ont montré que ces neurones étaient impliqués dans le codage de la récompense, des recherches antérieures ont révélé que la moitié de ces neurones codirent le mouvement, mais la raison est restée un mystère.
Les neurones RPE se projettent dans toutes les zones du striatum en dehors de l’un, appelé la queue du striatum. Tandis que les neurones spécifiques au mouvement se projettent dans toutes les zones à l’exception du noyau accumbens. Cela signifie que le noyau accumbasse exclusivement la récompense et la queue du striatum signale exclusivement le mouvement.
En étudiant la queue du striatum, l’équipe a pu isoler les neurones de mouvement et découvrir sa fonction. Pour tester cela, les chercheurs ont utilisé une tâche de discrimination auditive chez la souris, qui a été initialement développée par des scientifiques du Cold Spring Harbor Laboratory.

Les co-auteurs, le Dr Francesca Greenstreet, le Dr Hernando Martinez Vergara et le Dr Yvonne Johansson, ont utilisé un capteur de dopamine génétiquement codé, qui a montré que la libération de la dopamine dans ce domaine n’était pas liée à la récompense, mais elle était liée au mouvement.
« Lorsque nous avons lésé la queue du striatum, nous avons trouvé un modèle très caractéristique », a expliqué le Dr Stephenson-Jones.
« Nous avons observé que les souris lésinées et les souris témoins apprennent initialement de la même manière, mais une fois qu’ils ont atteint environ 60 à 70% de performances, c’est-à-dire lorsqu’ils développent une préférence (par exemple, pour un ton élevé à gauche, pour un ton bas, aller à droite), puis les souris témoins apprennent rapidement et développent des performances expertes, tandis que les souris lésionnées ne continuent pas d’apprendre à une manière linéaire.
« En effet, les souris lésées ne peuvent utiliser que RPE, tandis que les souris de contrôle ont deux systèmes d’apprentissage, RPE et APE, qui contribuent au choix. »
Pour mieux comprendre, l’équipe a fait taire la queue de striatum chez des souris expertes et a constaté que cela avait un effet catastrophique sur leurs performances dans la tâche. Cela a montré que, alors que dans l’apprentissage précoce, les animaux forment une préférence en utilisant le système basé sur la valeur basé sur RPE, en retard d’apprentissage, ils changent exclusivement APE dans la queue du striatum pour stocker ces associations stables et conduire leur choix.
L’équipe a également utilisé une modélisation informatique approfondie, dirigée par le Dr Clodia Clopath, pour comprendre comment les deux systèmes, RPE et APE, apprennent ensemble.
Ces résultats suggèrent pourquoi il est si difficile de briser les mauvaises habitudes et pourquoi remplacer une action par quelque chose d’autre peut être la meilleure stratégie. Si vous remplacez une action suffisamment régulière, comme la mâcher de la gomme de nicotine au lieu de fumer, le système de singes peut être en mesure de prendre le relais et de former une nouvelle habitude en plus de l’autre.
« Maintenant que nous savons que ce deuxième système d’apprentissage existe dans le cerveau, nous avons une base scientifique pour développer de nouvelles stratégies pour briser les mauvaises habitudes. Jusqu’à présent, la plupart des recherches sur les dépendances et les compulsions se sont concentrées sur le noyau accumbens. Nos recherches ont ouvert un nouvel endroit à regarder dans le cerveau pour des cibles thérapeutiques potentielles », a commenté le Dr Stephenson-Jones.
Cette recherche a également des implications potentielles pour les Parkinson, qui est connue pour être causée par la mort des neurones dopaminergiques du cerveau moyen, en particulier dans la substantia nigra pars compacta. Le type de cellules qui se sont démontré sont des neurones dopaminés liés au mouvement, qui peuvent être responsables du codage de l’APE.
Cela peut expliquer pourquoi les personnes ayant des déficits d’expérience de Parkinson pour faire des comportements habituels tels que la marche, cependant, ils ne subissent pas de déficits dans des comportements plus flexibles tels que le patinage sur glace.
« Soudain, nous avons maintenant une théorie pour le mouvement paradoxal dans la Parkinson. Les neurones liés au mouvement qui meurent sont ceux qui conduisent un comportement habituel. Et donc, le mouvement qui utilise le système habituel est compromis, mais le mouvement qui utilise votre système flexible basé sur la valeur est bien. » Conclut le Dr Stephenson-Jones.
L’équipe de recherche teste maintenant si l’APE est vraiment nécessaire pour les habitudes. Ils explorent également ce qui est appris exactement dans chaque système et comment les deux fonctionnent ensemble.