OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

北京工业大学学报 2012

基于Boltzamnn机的机器人自主学习算法

Keywords: Boltzamnn机,Skinner操作条件反射,贪婪策略,自主学习,两轮机器人

Full-Text Cite this paper Add to My Lib

Abstract:

针对两轮机器人自平衡运动控制问题,提出了一种基于Boltzamnn机的Skinner操作条件反射学习机制作为机器人仿生自主学习的算法.该算法利用Boltzamnn机中Metropolis判据平衡Skinner操作条件反射学习中探索和利用的比例,并依据概率取向机制以一定的概率选择最优行为,从而使机器人在未知环境下可获得像人或动物一样的仿生自主学习技能,实现机器人的自平衡运动控制.最后,分别用基于Boltzamnn机的Skinner操作条件反射的学习算法和基于贪婪策略的Skinner操作条件反射的学习算法做了仿真实验并进行了比较.结果表明,基于Boltzamnn机的Skinner操作条件反射的学习算法能使机器人获得较强的运动平衡控制技能和较好的动态性能,体现了机器人的自主学习特性.

References

[1]	WOLF R,HEISENBERG M.Basic organization of operantbehavior as revealed in drosophila flight orientation[J].Comp Physiol,1991,169:699-705.
[2]	阮晓钢.神经计算科学[M].北京:国防工业出版社,2006:553-596.
[3]	王瑞霞,孙亮,阮晓钢.基于内部回归神经网络的强化学习[J].控制工程,2005,12(2):138-140.WANG Rui-xia,SUN Liang,RUAN Xiao-gang.Reinforcement learning based on internally recurrent net[J].Control Engineering of China,2005,12(2):138-140.(in Chinese)
[4]	RAPHAEL B.The robot‘Shakey’and‘his’successors[J].Computers and People,1976,25:7-21.
[5]	BROOKS R A.From earwigs to humans[J].Robotics andAutonomous Systems,1997,20:291-304.
[6]	TOURETZKY D S,SASKIDA L M.Operant conditioningin Skinnerbots[J].Adaptive Behavior,1997,5(3/4):219-47.
[7]	ZALAMA E,GOMEZ J,PAUL M,et al.Adaptivebehavior navigation of a mobile robot[J].IEEETransactions on Systems,Man,and Cybernetics-part A:Systems and Humans,2002,32(1):160-169.
[8]	DOMINGUEZ S,ZALAMA E.Robot learning in a socialrobot[J].Lecture Notes in Comuter Science,2006,4095:691-702.
[9]	HINTON G E,SEJNOWSKI T J,ACKLEY D H.Boltzmann machines:constraint satisfaction networks thatlearn[R]∥Mellon University Technical Report.Pitsburgh:CMU,1984:1-37.
[10]	HINTON G E,SEJNOWSKI T J.Learning and relearningin Boltzmann machines parallel distributed pressing[M].Cambridge:MIT Press,1986:282-317.
[11]	GUO Mao-zu,LIU Yang,JACEK M.A new Q-learningalgorithm based on the metropolis criterion[J].IEEETransactions on Systems,Man,and Cybernetics-part B:Cybernetics,2004,34(5):2140-2143.
[12]	DAHMANI Y,BENYETTOU A.Seek of an optimal wayby Q-learning[J].Journal of Computer Science,2005,1(1):28-30.
[13]	NAOYUKI K,HIROYUKI K.An utterance system of apartner robot based on interaction and perception[J].Word Automation Congress(WAC),2006,6:236-241.
[14]	阮晓钢,任红格.两轮自平衡机器人动力学建模及其平衡控制[J].计算机应用研究,2009,26(1):99-101.RUAN Xiao-gang,REN Hong-ge.Two-wheeled self-balancing mobile robot dynamic model and balancingcontrol[J].Application Research of Computer,2009,26(1):99-101.(in Chinese)
[15]	张晓华.系统建模与仿真[M].北京:清华大学出版社,2006:224-232.
[16]	高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-98.GAO Yang,CHEN Shi-fu,LU Xin.Research onreinforcement learning technology:a review[J].ActaAutomatica Sinica,2004,30(1):86-98.(in Chinese)

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133