Google DeepMind｜强化学习中的概率推断

1,439次阅读

Probabilistic Inference in Reinforcement Learning Done Right

J Tarbouriech, T Lattimore, B O’Donoghue
[Google DeepMind]

强化学习中的概率推断

本文对”强化学习作为推断”进行了原理性的贝叶斯处理，定义了状态-动作最优事件。
状态-动作最优概率PΓ*兼顾了RL中的推断和控制。基于PΓ*的策略可以高效地探索。
计算PΓ*的确切值是不可行的，所以提出一个变分优化问题来逼近它，称为VAPOR。
VAPOR通过平衡乐观性和熵正则化来找到一个接近PΓ*的占据措施，并有后悔保证。
通过扰动奖励增加高斯噪声，VAPOR可以推广到未知转移的情况。
汤普森采样和K学习被联系起来隐式地逼近PΓ*，VAPOR提供了更直接的控制。
提出一个策略梯度方法VAPOR-lite将VAPOR扩展到深度强化学习，针对每个状态-动作单独调节熵正则化。
实验表明，VAPOR可以高效地求解难以探索的任务，如DeepSea。VAPOR-lite改善了Atari游戏的样本效率。

动机：传统的强化学习方法在处理复杂问题时可能无法准确地进行概率推理，导致性能下降。因此，需要进行严格的贝叶斯处理以提高强化学习的性能。
方法：提出一种新的贝叶斯近似方法，称为VAPOR，用于计算状态-动作对在最优策略下被访问的后验概率。通过解决该近似问题，可以生成一种有效的探索策略。
优势：VAPOR方法具有与Thompson采样、K-learning和最大熵探索等算法的强连接，并且在深度强化学习任务中表现出较好的性能优势。

提出一种基于贝叶斯处理的强化学习方法VAPOR，通过计算状态-动作对在最优策略下的后验概率来生成有效的探索策略，具有与其他算法的强连接。

https://arxiv.org/abs/2311.13294

Google DeepMind｜强化学习中的概率推断

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

AI AR F1 Google HTML RSS 游戏

发表至：智源

2023年11月24日

通过跨模态蒸馏和超体素聚类进行无监督的三维点云语义分割

PVP：预训练的视觉参数高效调整

博士论文 | 在结构约束下的机器学习优化方法 257页

一款ADC超10亿美元，拿下BioNTech的宜联生物什么来头？

文生图10倍速，视频实时渲染！清华发布LCM：兼容全部SD大模型、LoRA、插件等

OPPO 广告召回算法实践与探索

评论（没有评论）

2023 年 11 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

2023 年 11 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30