【文件属性】:
文件名称:UCT和RAVE结合-云原生安全技术预研报告
文件大小:2.45MB
文件格式:PDF
更新时间:2021-06-08 12:48:43
不围棋 UCT
1.2 RAVE介绍
RAVE (rapid action value estimation)[11]是基于值 (value-
based)函数的强化学习思想在UCT方法中的应用。RAVE收
集并评价UCT搜索中产生的状态动作对,并在下一次UCT搜
索时加以引导,使UCT能够更多的搜索更好的分支。
强化学习是一种无监督的机器学习方法,它被称之为
“和批评者一起学习”。批评者 (critic)并不反馈应该做什
么,而仅仅反馈之前所做的怎么样[12]。最典型的强化学习
算法是 Q 学习算法,可以看作是马尔可夫决策 过 程
(Markov decision processes)的一种变化形式。
马尔可夫决策过程是强化学习的数学模型,它是由四
元组组成:<S,A,R,T>,其中S是离散的状态集,A
是离散的动作集,R:S×A→R是奖励函数,T:S×A→
PD (S)是状态转移函数,PD (S)是状态集S上的概率
分布函数。
典型的基于折扣报酬的强化学习问题通常可以描述为给
定<S,A,R,T>,寻找策略π使得期望折扣报酬总和最大
π(s)=argmax
π
Vπ(s)
式中:Vπ (s)———折算累积回报,上式可以改写为
π(s)=argmax
π
[r(s,a)+γVπ(δ(s,a))]
式中:r (s,a)———s状态下执行a所得的报酬值,γ是折
扣因子。
定义Q (s,a)为从状态s开始并使用a作为第一个动
作时的最大折算累积回报,换言之,Q的值为从状态s执
行动作a的立即回报加上以后遵循最优策略的值
Q(s,a)=r(s,a)+γVπ(δ(s,a))
则
π(s)=argmax
π
Q(s,a)
动态规划理论保证至少存在一个策略π* 使得对任意
s∈S有
π*(s)=argmax
π
Q(s,a)
值函数 Q (s,a)的估计有很多种算法,比如 TD
(λ)[13]。如果环境模型是已知的或是可学习的,那么基于值
函数的强化学习算法可用于基于样本的搜索。可从模型中
抽样来获得模拟场景,通过模拟经验来更新值函数。
RAVE是基于值函数Q (s,a)的强化学习方法,通过
基于样本的搜索树来动态更新值函数。为了与 UCT相结
合,RAVE的收益公式定义为
QRAVE(s,a)=QRAVE(s,a)+c
logm(s)
m(s,a槡 )
式中:m (s,a)———s状态下a 动作被选择的次数,m
(s)———s状态被访问的次数。
1.3 UCT和RAVE结合
UCT需要对每个s∈S状态下可供选择的动作进行抽
样,以便比较各分支的收益情况并做出路径选择。如果动
作空间巨大,可供选择的分支数就很多,要用足够多的模
拟次数来区分分支的好坏[14-15],而巨大的模拟次数将影响
算法的性能。为减少模拟次数,UCT中加入在线学习知识
RAVE,将RAVE值作为分支选择的另一参考,以提高分
支选择的准确性。引入线性因子β (s,a)把QUCT和QRAVE
线性组合到一起
β(s,a)=
k
3n(s)+槡 k
·7311·