秋分 | 安全,平分秋色

559次阅读
没有评论

秋分 | 安全,平分秋色

不知不觉间,2023年秋分时节将至。

“中秋之月,阳在正西,阴在正东”的自然带来“阴阳相半,故昼夜均而寒暑平”的特征,这里描述的秋分恰似中立调和的分水岭,有所偏移则沾染或冰凉或酷热的气息。

理想中的安全就像是这样一种不偏不倚的状态。在这里,笔者回顾强化学习中对安全问题体现关切的部分。

首先,对丰富复杂的风险和挑战的应对带来了“安全”的概念。现实主体追求收益的过程中同样存在着各种持久存在的风险、偶然触发的危机,应对时同样需要把握平衡。开放和安全就是其中一对需要得到平衡的对象。多种多样的自然生物需要积累经验来提高生存水平;而现代社会的智能生物取而代之地面临社会关系和自身、集体利益的挑战,要求成体系的应对。落实到现实世界来看,日益复杂的国际关系中也有着相关的问题。对于传统的目标导向的任务来说,避免收益的破坏性下降亦可以看作是一种保障,等等。

那么,在发展中的人工智能角度考虑这个问题,我们该如何教诲它去实现这样的目标?这是传统“安全”研究很多时候关心的地方。作为游走在多个领域中的研究实践,它不仅仅是一个具体的研究目标,更多时候显示为一种态度,一种思路。

秋分 | 安全,平分秋色

强化学习(reinforcement learning)主要用于解决复杂决策问题,能在不确定环境中学习并实现设定的目标,而这里的环境很自然地有着安全约束。对强化学习的探索来说,在问题的定义上,和传统收益至上的观点相比,往往会增添多个方面可能的代价函数,这个代价和奖励有着同源共生的关系。相比于其依托的具体优化目标来说而言,安全要求带有复杂性。由于多个威胁项/损失可能同时发生变化,因此整体表现为多目标,从任何一个单独的优化目标的角度来看都是非稳态的。

强化学习中应对安全问题最简单的想法就是从传统的 reward shaping 思路(对奖励函数进行直接修改和添加,将领域知识引入模型算法中,优化奖励的同时兼顾到不同方面可能的提升)出发,采用添加拉格朗日项(配比参数)的方法,把损失乘上一定的比例参数作为负收益加入收益函数中,并通过妥协(tradeoff)来处理,转化成为一个综合收益的优化问题,在一般性的任务中达到了不错的收敛结果。

这个简单的方法内生性地具有两个不足。首先是难以避免探索过程中可能发生的不可逆行为和避免进入有破坏性的状态区域,以保证探索过程的相对安全。在真实的场景中,一丝疏忽和逾矩都可能带来致命的后果。比方说,不能满足自动驾驶和医疗护理机器人等精确度要求高、人身安全密切相关的项目部署之后进一步适配和探索的需要;其次,多维度的损失函数存在时多个拉格朗日乘子的优化很难使用对偶方法来解决。这时候有两个思路,一者是把其中一部分视为整体而单独处理另一部分,这将面临耦合和反向优化的风险;二者则是使用梯度直接作为整体对综合收益同步优化,这时候较为粗放的过程更难适配代价约束尺度的不同,实验上为对拉格朗日乘子的选择和学习率的选取带来了巨大挑战,很容易出现一个因素占比过大而剩余部分被忽略的现象。常见的现象是,过大的约束比重导致 agent 一动不动来保持代价不升高,过低则直接忽略约束的作用;动态更新拉格朗日乘子在实现上也并不容易,面临陷入局部最优等问题。

因此安全强化学习中,一部分新的方法考虑将收益和代价进行拆分,具体地提出收益和代价的分量,把它们作为分立的优化对象来考虑。这并不是说在这个框架下两者不能放到一个函数中(实际上在后续的处理过程中许多方法依然是用带参数权重的求和来实现权衡),而是在整个过程中显式地考虑两者具体的分布,而不仅仅对整体的求和进行考察。确定了这个框架之后就可以采用不同方法来解决。其中一个具有代表性的工作是 CPO1,它建立在包括通过近似在一个约束下求解优化问题的经典算法 TRPO2基础之上。CPO 参考 TRPO 的信赖域方法把需要满足的代价放入原来的 KL 散度约束项中进行综合意义上的权衡(从单纯的策略差距步长转变为策略本身差距加上安全约束满足的步长),根据约束满足情况和收益情况分四种类型讨论对应的更新动作,最终实现与过去专注于快速得到收敛结果的目标不同,能够持续关照具体探索经历的效果。

后续还有更多的算法针对 CPO 方法理论上局限性的存在进行改进。CPO 使用一些替代函数去替代目标和约束,而这些方法包含了对非凸目标和非凸安全约束的凸近似,这产生两个方面的问题:在没有从理论上阐明原始函数和凸近似之间产生的误差的前提下使用一阶或二阶泰勒展开去近似非凸目标和约束;同时优化过程中所包含 FIM 求逆的操作在处理高维任务时导致较大计算开销。针对这两个问题,基于一个新替代函数的 CUP3应运而生。它提供了一种在计算中不依赖于凸近似以应用于高维 safe RL 任务的方法。从实际效果上看,使用 GAE 进行推导得出更好的界的同时,也利用了本身的理论保证。更新过程在接受惩罚下最大化目标之后再用 prime-dual 方法求解对偶函数满足约束,同时依然最小化最终策略与中间最大化表现的策略之间的差距。

除了上面这一系列连续演进的算法之外,到目前为止还涌现出 focops,CPPO-pid,RCPO4,pcpo,bcp-lag 和基于可微梯度方法等一系列安全强化学习算法,同时也有一些算法库对它们进行了实现,收纳和总结。包括比较早的 safety-gym,safety-control-gym,以及北大团队实现的 OmniSafe5等。后者对现有的 on-policy 和 off-policy,model-based 和 model-free 等不同分类算法都系统性地进行了总结,可能提供一种调用和参考。

除了上面讨论的这些,到目前而言,安全问题、约束指标具体方面大多是人为设定的,或者是裁判者根据已有经验做出的要求。而在智能体在更为独立的场景下将面临要求自主辨别的场景,这提出了深入理解安全本质和事件传导逻辑的要求,也有许多算法在这个方面进行着探索。

秋分 | 安全,平分秋色

居安思危是文化传统,安全考量也算是沟通学界和广大社会的一个真诚纽带。安全这个话题有着各样的表现形式和实际要求,但总体追求脱离不了不偏不倚,兼容并包的出发点。不一味地追求某个指标的最大化,在优化的趋势中还关照综合的需求,一个深度理解和接受安全观念的理想机制或许就是“从心所欲,不逾矩”,用更自然,而非生硬的方式,自动地,考虑到所有损害的可能。开放而又制约,平分秋色。

Reference:

[1] Achiam J, Held D, Tamar A, et al. Constrained policy optimization. ICML 2017.

[2] Schulman J, Levine S, Moritz P,et al. Trust Region Policy Optimization. Computer Science, 2015:1889-1897.

[3] Yang L, Ji J, Dai J, et al. Cup: A conservative update policy algorithm for safe reinforcement learning. arXiv preprint arXiv:2202.07565, 2022.

[4] Tessler C, Mankowitz D J, Mannor S. Reward Constrained Policy Optimization. ICLR (Poster) 2019. 

[5] Ji J, Zhou J, Zhang B, et al. OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research. arXiv preprint arXiv:2305.09304, 2023.

秋分 | 安全,平分秋色

文 | 吴宇森

图 | 除标注外,源自网络

秋分 | 安全,平分秋色

—   版权声明  —

本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

秋分 | 安全,平分秋色

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy