摘要本论文受生物学中有关基底神经节的研究启发,对机器人的强化学习方法展开了研究,具体讨论了Izhikevich尖峰神经元模型,同时还探讨了生物学中的多巴胺调节机制在机器人学习中的应用,主要内容包括:(1)在生物学层面,讨论了脊椎动物学习的神经机理,明确了基底神经节在脊椎动物学习中的作用;(2)利用尖峰神经元模型研究了多巴胺在条件反射过程中的活动特性及其对突触的调节作用;(3)在Simbad仿真平台上,设计基于尖峰神经元模型的多神经元作用下的机器人走迷宫实验,编写仿真程序,通过多次模拟训练,实现机器人强化学习,并以此验证基于基底神经节的机器人强化学习机制的可行性。6500
关键词  机器人  强化学习  基底神经节   Simbad
毕业设计说明书(论文)外文摘要
Title   Study of Robot Reinforcement Learning Mechanism Based on Basal Ganglia             
Abstract
This dissertation studies robot reinforcement learning mechanism inspired by recent discovers of basal ganglia,which plays an important role in the control of animal’s behavior. Except for the efforts of dopamine on reinforcement learning, the spike neuron model of Izhikevich is specifically discussed as well. The main parts are concluded as follows:(1)The learning mechanism of animals is discussed at the biological level, and the effects of basal ganglia on animal’s learning are confirmed.(2)Dopamine activities during condition response, as well as its modulation effect on synapse plasticity is studied under the spike neuron model of Izhikevich.(3)On the platform of Simbad, simulated maze robot experiment is designed under spike neuron model. The robot successfully realizes reinforcement learning after training, which proves the feasibility of the robot reinforcement learning mechanism based on basal ganglia.
Keyword  Robot,  Reinforcement Learning,  Basal Ganglia,  Simbad
目  次
1    绪论    1
1.1 研究的背景及意义    1
1.2 设计任务    2
1.3 论文结构安排    2
2    强化学习介绍以及基底神经节模型    4
2.1 强化学习概述    4
2.2 几种强化学习算法    4
2.3 研究趋势    6
2.4 基底神经节的生物学基础知识    6
2.4.1基底神经节    6
2.4.2 基底神经节核团之间的相互关系    7
2.5 典型强化学习算法与基底神经节的结合    8
2.5.1 Actor-Critic模型与基底神经节的相关性    9
2.5.2 与多巴胺神经元相关的TD差分算法    9
2.6 神经元模型    10
2.6.1 神经元基础知识    10
2.6.2 神经元模型    12
2.6.3 尖峰神经元模型    13
2.6.4 Izhikevich模型    13
2.7 本章小结    14
3    基于Izhikevich模型的强化学习算法    16
3.1 脑皮层尖峰神经元的动力学描述以及MATLAB仿真    16
3.2 基底神经节相关的强化学习机制    21
3.2.1 条件反射与多巴胺神经元活动    21
3.2.2 多巴胺调节的突触可塑性    22
3.2.2.1 多巴胺调节的LTP    23
3.2.2.2 多巴胺调节的LTD    25
3.2.3 多巴胺延时释放时间 对突触强度的影响    26
3.2.3.1 仿真设置    26
3.2.3.2 突触强度以及突触后神经元膜电位比较    27
		
- 上一篇:网络环境下一类中立型神经网络的自适应同步控制算法研究 
- 下一篇:MATLAB空炸射击高炮武器系统毁伤概率的计算 
- 
- 
- 
- 
- 
- 
- 
- 河岸冲刷和泥沙淤积的监测国内外研究现状
- 大众媒体对公共政策制定的影响
- 十二层带中心支撑钢结构...
- java+mysql车辆管理系统的设计+源代码
- 电站锅炉暖风器设计任务书
- 杂拟谷盗体内共生菌沃尔...
- 乳业同业并购式全产业链...
- 中考体育项目与体育教学合理结合的研究
- 酸性水汽提装置总汽提塔设计+CAD图纸
- 当代大学生慈善意识研究+文献综述