感知与行动的统一：自由能原理概览介绍｜自由能原理与强化学习读书会第一期

1,029次阅读

导语

自由能原理试图从心智、生物以及物理的角度提供感知行动系统的统一性原理。此次「自由能原理与强化学习读书会」第一期将由北京师范大学系统科学学院博士生牟牧云，和公众号 CreateAMind 主编、骥智智能科技算法工程师张德祥两位发起人分享，希望对自由能原理做一个整体概览，重点围绕与自由能原理密切相关的主动推断和预测加工理论展开讨论。同时，读书会将从自由能原理角度出发，结合强化学习中的世界模型与探索机制，探究感知与行动系统背后的底层规律。欢迎感兴趣的朋友和我们一起探索！

分享内容简介

作为世界模拟器（world simulator）的视频生成模型Sora是否是世界模型（world model）？大语言模型（LLMs）这条道路能否通向AGI？这些问题最近引发了火热的讨论。Yann LeCun认为通过自回归的方式预测下一个token的大语言模型可以看作是世界模型的一种简化特例，缺少动作变量以及状态的隐变量表征等重要元素。而对于更一般的具有感知和行动能力的智能体是否存在一种普适性的规律？本次读书会将从自由能原理的角度出发并结合强化学习世界模型与探索，探究感知行动系统的统一性原理。
自由能原理作为一个底层原理，已经发展出很多庞杂的应用，整体可能造成一幅支离破碎的图景，我们希望为大家介绍一个整体的概览，对自由能原理庞大的智能理论框架有一个直观感受。
自由能原理以及基于自由能原理的主动推理理论的一个核心主张，是生命体通过感知和行动来最小化惊奇（surprise）——惊奇的数学定义是负对数似然（概率论的描述为自信息），可以理解成观测和预测的不一致程度。感知通过改变智能体的信念使信念与世界相符，而行动则通过改变世界使之与信念相符。
除了人工智能领域以Transformer为底层架构的大语言模型将预测视为智能涌现的重要机制，心理学家和神经科学家也越来越多地将大脑视为“预测机器”，它学习生活世界的内部（即生成）模型及其行为的后果，以理解感觉，预测当前的情况将如何展开（即学习和感知），并以有目的的方式采取行动（即行动选择、探索-利用、规划等）。这个想法以多种形式出现，包括贝叶斯大脑、预测大脑、预测加工、预测编码、主动推理和自由能原理等。

“I should profess, I’m not an expert in ‘artifial’ intelligence. He’s the expert in ‘artificial’ intelligence(motioning to LeCun). I’m an expert in ‘natural’ intelligence.”

—— 自由能原理提出者 Karl Friston

参考链接：https://medium.com/aimonks/deep-learning-is-rubbish-karl-friston-yann-lecun-face-off-at-davos-2024-world-economic-forum-494e82089d22
主动推理
主动推理起源于认知科学的各种早期理论（以及其他不一定使用“认知”标签的领域）。其中一个根源是这样一种想法，即大脑携带一个小规模的环境模型，并用它在心理上模拟假设行动，比如认知地图的概念。
另一个“根源”是控制论主义者的想法，即目标导向的行动首先建立一个期望的状态或观察（例如，感觉温暖），然后监控首选状态和感知状态（例如，感觉过于温暖）之间的差异（称为“预测误差”），并选择减少这种差异的行动方案。
最后，另一个根源是认知过程，例如学习、感知和决策，需要有机体与环境的积极参与。
有趣的是，这些想法中的每一个都意味着大脑从反应性到预测性、主动性观点的转变。

相关各种理论统一为自由能原理有六大好处：
首先，主动推理假设，从感知到行动选择和学习等一切，最终都是为了最小化自由能。这样做的结果是，人们可以将心理学中使用的（有时是模糊的）概念术语与自由能最小化的清晰正式术语结合起来。
其次，主动推理表明，认知功能（通常是孤立地解决）可能通过诉诸独特的过程理论来更好地理解，著名的计算神经科学理论中，感知和行动是两个独立的功能，具有不同的目标和神经基础。而主动推理认为，感知和行动分别通过最小化分歧和最大化证据来合作，以最小化自由能。
第三，主动推理有可能统一认知过程的不同“理解水平”。Marr 提出了计算、算法和神经实现级别之间的区别，并认为通过连接不同级别可以在每个级别内取得进展（Marr, 1982）。在不同层面上运作的理论之间建立联系通常具有挑战性。主动推理有助于在描述层面之间建立牢固的关系。在主动推理中，更常见的是诉诸规范理论和过程理论之间的区别，而不是 Marr 的三方区分（Friston et al., 2017）。自由能最小化是生物体的规范目标，而预测编码和变分消息传递是过程级理论，描述大脑如何支持自由能最小化。重要的是，如（Friston, 2005）所示，在某些假设下，可以通过变分自由能的最小化直接导出预测编码，从而连接两个解释层面。为支持神经电路中的离散主动推理而提出的变分消息传递方案也可以采用类似的情况。
第四，通过跨领域主动推理的应用，统一赋予现有结构有效性，一个例子是内感受推理和自主控制理论的发展，自主控制的工作原理与动作控制完全相同——即，它的目标是最小化预测信号和感知信号之间的差异——只不过“信号”指的是内感受流而不是本体感受流。另一个例子可以在计算精神病学中找到，其中许多精神病理学的描述都诉诸于单一机制：即异常的精确控制。
第五，主动推理有可能调和（或至少将其背景化）心理学、神经科学和哲学领域长期以来被认为不一致的理论观点。
最后，也是重要的是，主动推理的综合视角对于表征有感知的行为可能很有价值——这里被认为是推断世界状态并有目的地采取行动的能力。

内容大纲

牟牧云：自由能原理与强化学习概览介绍

自然智能与人工智能：感知和行动的统一性原理？
导向主动推理的两条路径
大脑、生物系统、物理的自由能原理
预测加工理论
强化学习与自由能原理的联系：世界模型与探索

张德祥：自由能原理——从第一原理推导的庞大智能理论框架

自由能原理定义
类生物AGI实现进展简介
基础

自由能原理与相关的各个理论比较
自组织方向目的 high road
⻉叶斯方向机制 low road

自由能原理的世界模型层次观

核心概念

自由能原理 Free Energy Principle
主动推理 Active inference
强化学习 Reinforcement learning
世界模型 World model
预测加工理论 Predictive processing theory

主讲人简介

牟牧云，北京师范大学系统科学学院博士生，张江老师因果涌现研究小组成员。研究方向：复杂系统建模与调控、强化学习世界模型。
张德祥，骥智智能科技算法工程师，公众号 CreateAMind 主编。研究方向：自由能原理，主动推理，AGI。

直播信息

时间：2024年3月10日（本周日）上午10:00-12:00
参与方式：斑图地址：https://pattern.swarma.org/study_group_issue/621
扫码参与自由能原理与强化学习读书会，加入群聊，获取系列读书会回看权限，加入集智社区，与社区的一线科研工作者沟通交流，共同推动因果涌现这一前沿领域的发展。
报名成为主讲人：读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员，均遵循内容共创共享机制，可以获得报名费退款，并共享本读书会产生的所有内容资源。具体见系列读书会详情：自由能原理与强化学习读书会启动：探索感知和行动的统一原理

参考文献

Parr, Thomas, Giovanni Pezzulo, and Karl J. Friston. Active inference: the free energy principle in mind, brain, and behavior. MIT Press, 2022.

Friston, K. The free-energy principle: a unified brain theory**?. Nat Rev Neurosci 11, 127–138 (2010). https://doi.org/10.1038/nrn2787

Friston, Karl, James Kilner, and Lee Harrison. A free energy principle for the brain. Journal of physiology-Paris 100.1-3 (2006): 70-87.

Karl, Friston. A free energy principle for biological systems. Entropy 14.11 (2012): 2100-2121.

Friston, Karl. A free energy principle for a particular physics. arXiv preprint arXiv:1906.10184 (2019).

Parr, Thomas, and Karl J. Friston. Attention or salience?. Current opinion in psychology 29 (2019): 1-5.

Feldman, Harriet, and Karl J. Friston. Attention, uncertainty, and free-energy. Frontiers in human neuroscience 4 (2010): 215.**

Clark, Andy, Surfing Uncertainty: Prediction, Action, and the Embodied Mind (New York, 2016; online edn, Oxford Academic, 22 Oct. 2015), https://doi.org/10.1093/acprof:oso/9780190217013.001.0001, accessed 19 Dec. 2023. （中译本《预测算法：具身智能如何应对不确定性》，机械工业出版社（2020））

**Blakemore, Sarah-J., Chris D. Frith, and Daniel M. Wolpert. Spatio-temporal prediction modulates the perception of self-produced stimuli. Journal of cognitive neuroscience 11.5 (1999): 551-559.

Mazzaglia, Pietro, et al. The free energy principle for perception and action: A deep learning perspective. Entropy 24.2 (2022): 301.

Hafner D, Lillicrap T, Fischer I, et al. Learning latent dynamics for planning from pixels. ICML 2019

【Dreamer V1】Hafner D, Lillicrap T, Ba J, et al. Dream to control: Learning behaviors by latent imagination[J]. arXiv preprint arXiv:1912.01603, 2019.

【Dreamer V2】Hafner D, Lillicrap T, Norouzi M, et al. Mastering atari with discrete world models[J]. arXiv preprint arXiv:2010.02193, 2020.

【Dreamer V3】Hafner D, Pasukonis J, Ba J, et al. Mastering diverse domains through world models[J]. arXiv preprint arXiv:2301.04104, 2023.

Hao J, Yang T, Tang H, et al. Exploration in deep reinforcement learning: From single-agent to multiagent domain. IEEE Transactions on Neural Networks and Learning Systems, 2023.

Sekar R, Rybkin O, Daniilidis K, et al. Planning to explore via self-supervised world models. ICML 2020

Saxena V, Ba J, Hafner D. Clockwork variational autoencoders. NIPS 2021, 34: 29246-29257.

读书会阅读材料较多，为了更好地阅读体验，可扫描下方二维码进入集智斑图页面，阅读并收藏感兴趣的论文。https://pattern.swarma.org/article/289**

推荐阅读

自由能原理与强化学习读书会招募中

由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”，它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律，从第一性原理出发解释智能体更新认知、探索和改变世界的机制，从而对人工智能，特别是强化学习世界模型、通用人工智能研究具有重要启发意义。
集智俱乐部联合北京师范大学系统科学学院博士生牟牧云，南京航空航天大学副教授何真，以及骥智智能科技算法工程师、公众号 CreateAMind 主编张德祥，共同发起「自由能原理与强化学习读书会」，希望从自由能原理这个更底层的视角重新审视强化学习世界模型，探讨自由能原理、强化学习世界模型，以及脑与意识问题中的预测加工理论等前沿交叉问题，探索这些不同领域背后蕴含的感知和行动的统一原理。读书会从3月10日开始，每周日上午10:00-12:00，持续时间预计8-10周。欢迎感兴趣的朋友报名参与！

详情请见：自由能原理与强化学习读书会启动：探索感知和行动的统一原理