%0 Journal Article %T 随机平稳策略下半Markov决策过程的仿真优化算法 %A 代桂平 %A 唐昊 %A 奚宏生 %J 控制理论与应用 %D 2006 %X 基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略.文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题.最后给出了一个仿真实例来说明算法的应用. %K 随机平稳策略 %K 等价Markov过程 %K 一致化Markov链 %K 神经元动态规划 %K 仿真优化 %U http://jcta.alljournals.ac.cn/cta_cn/ch/reader/view_abstract.aspx?file_no=200604010&flag=1