OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

自动化学报 2004

CTMDP基于随机平稳策略的仿真优化算法

, PP. 229-234

唐昊, 奚宏生, 殷保群

Keywords: 性能势,神经元动态规划,仿真优化

Full-Text Cite this paper Add to My Lib

Abstract:

？基于Markov性能势理论和神经元动态规划(NDP)方法,研究一类连续时间Markov决策过程(MDP)在随机平稳策略下的仿真优化问题,给出的算法是把一个连续时间过程转换成其一致化Markov链,然后通过其单个样本轨道来估计平均代价性能指标关于策略参数的梯度,以寻找次优策略,该方法适合于解决大状态空间系统的性能优化问题.并给出了一个受控Markov过程的数值实例.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133