如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现

640次阅读
没有评论

如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现

导语

基于 AI 技术的推荐系统为我们高效地呈现了丰富的个性化内容,成功避免了信息的过度泛滥。然而,这种技术却无声息地将我们束缚在信息茧内,让我们不知不觉陷入单调内容的漩涡,无形中加深了我们的固有偏见。清华大学的研究团队近期在 Nature Machine Intelligence 期刊上发表研究,利用两大数据集并构建了一个描述人类与推荐系统自适应的动力学模型,深入探讨了信息茧房的涌现机制,并为我们提供了突破这一茧房的实用策略。
研究领域:信息茧房,自适应动力学,信息熵,反馈机制,推荐算法如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现刘志航 | 作者
 如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现论文题目:Human–AI adaptive dynamics drives the emergence of information cocoons论文链接:https://www.nature.com/articles/s42256-023-00731-4 

1. 推荐算法背后的信息茧房

无论是新闻媒体,短视频娱乐还是线上交友和购物,基于人工智能的推荐算法已经渗透到现代生活的方方面面,帮助我们筛选和消化海量的在线信息。然而,这些系统是否总是为我们提供了真正有价值、多样化的信息呢?还是在无形中将我们限制在一个狭窄的信息茧房中,使我们陷入单一内容的陷阱? “信息茧房”(Information Cocoon)这一术语形象地描述了一个人仅仅被展示与其过去的喜好、行为和观点相符的信息,而与外部多样化的信息隔离的状态。这种现象可能导致社会的两极分化,加剧人们的偏见和刻板印象,抑制创新和创造力,甚至影响决策的质量。 现代搜索引擎和社交媒体通过算法为用户提供个性化内容,结合人们的选择性曝露和社交媒体的回声室效应,导致了信息茧房的形成。尽管以往研究探讨了这些现象之间的相关性,但深度学习的“黑箱”特性和缺乏对人与AI之间共同演化机制的深入了解,使得信息茧房的根本机制仍是一个谜团。 在最新发表于 Nature Machine Intelligence 的一项研究中,清华大学的研究团队使用了两大数据集来探索我们如何与AI互动。其中一个数据集来自中国的热门短视频平台,记录了超过11万新用户的行为,另一个数据集则来自 Microsoft News,涵盖了14个新闻主题和9万用户的互动。令人惊讶的是,研究发现大部分的用户在与AI互动后,接触到的信息种类实际上减少了(图1a-c),这意味着他们可能被困在了所谓的“信息茧房”中。这项发现引发了一个紧迫的问题:是什么使得我们在与AI的日常互动中逐渐失去了信息的多样性? 如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现图1. 对信息茧房的实证研究和自适应信息动力学模型。(a)Δs 展示了超过57%的活跃用户接受到的推荐结果越来越同质化。根据 Δs,这些用户被均匀地分为五组。(b)随时间变化的信息熵 s,线条代表不同 Δs 的用户组。随着互动的增加,总体用户中的11%(第1组)的熵从2.32下降到1.75(下降了24.8%)。(c)第1组中随机选择的一个用户示例,该用户被AI驱动的推荐算法强烈地限制在同质化的信息中。(d-f) 归一化信息熵如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现与基于相似性的匹配强度(d)、正反馈样本比例(e)和负反馈样本比例(f)之间的关系。(g)自适应信息动力学模型的概览,其中人类和AI驱动的推荐算法相互互动,形成一个反馈循环。AI基于估计的相似性(β)匹配用户和项目,用户提供反馈,AI从用户的正反馈(γ+)和负反馈(γ−)中学习,以及随机的自我探索(σ),然后进行进一步的推荐。  

2. 自适应信息动力学模型

为了实证地量化用户可访问的信息多样性,研究者使用了信息熵(information entropy)的概念。与随机热力学理论类似,人和推荐算法的整体系统最初是远离平衡的。在基于相似性匹配生成(推荐与用户过去喜欢主题信息)的有效力场作用下,信息主题逐渐从多样化状态演变为信息茧房状态,这一相变的特点是信息熵下降。 通过对一年内的熵变化进行测量,研究发现超过57%的活跃用户的信息熵有所下降(图1a),这意味着他们接触到的信息变得越来越单一。特别是,有11%的用户在使用平台的初期就经历了信息多样性的急剧下降,一年后他们的信息熵下降了24.8%(图1b)。更进一步,研究者随机选择了一个信息多样性下降最多的用户进行观察。令人震惊的是,这名用户在开始时可以接触到各种各样的话题,但在与平台互动一年后,他几乎只被推荐了一个话题的内容(图1c) 进一步的实证观察发现,信息熵与相似性匹配强度呈负相关,即推荐系统越推荐用户过去喜欢的主题,信息茧房越可能出现(图1d,负相关),并且如果表示出积极的反馈,会加剧这种信息茧房(图1e,负相关),而负面的反馈则会缓解信息熵下降的趋势(图1f, 正相关) 基于这些,作者提出了一个用于复杂的人工智能交互系统的自适应动力学建模框架,以解释信息茧房的出现。与包含数十亿参数的基于深度学习的模型不同,这个提议的模型只依赖于四个参数。这些参数既来源于实证观察,也来源于当前推荐算法的工作原理。该模型在建模框架中整合了基于相似性的匹配、用户反馈和人类探索行为(如图1g所示) 模型的基于相似性的匹配 (β) 参数描述了用户的喜好与推荐内容之间的相似度。当β值较大时,与用户相似的内容更有可能被推荐。用户对推荐内容的反馈分为正反馈和负反馈,分别由参数γ+和γ−表示。正反馈意味着用户喜欢某个推荐,而负反馈则表示不喜欢。主动探索 (σ) : 用户不仅仅依赖于推荐系统,他们还会主动地通过其他途径(如搜索引擎)探索内容。σ 参数捕获了这种随机自我探索的程度。  

3. 人类与算法自适应导致茧房的涌现

模型显示,当推荐系统过度依赖于用户与内容之间的相似度(即β值增加)时,用户更容易陷入所谓的“信息茧房”(图2a)。简而言之,这意味着系统会过度推荐与用户过去喜好相似的内容,导致信息的多样性减少。 如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现图2. β 和 ∣γ+∣ 参数对信息茧房的影响。(a)随着β值的变化,相对信息熵 P 的分布也发生了变化。这意味着,当推荐系统更强烈地依赖用户与内容之间的相似度时,用户接触到的信息多样性会减少。(b)正反馈强度 ∣γ+∣ 的变化也影响了相对信息熵如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现的分布。这进一步证实了,当系统过度依赖用户的正反馈时,信息茧房的现象更为明显。(c)描述了在不同状态下的过度推荐和欠推荐的程度。 此外,正反馈的过度使用也被发现是导致信息茧房的另一个关键因素(图2b)。当用户频繁地给出正反馈,推荐算法可能会过度依赖这些反馈,从而过度推荐某些话题,而忽视了其他可能对用户有价值的话题。 但是,有希望的是,研究还发现,负反馈的有效利用和用户的随机自我探索行为,都可以帮助他们摆脱信息茧房的束缚(图3a-b)。具体来说,当用户给出负反馈,或者主动探索新的内容,推荐算法可以更全面、准确地捕捉到用户的真实喜好,从而提供更多样化的推荐。 如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现图3. ∣γ−∣ 和 σ 参数对信息茧房的影响。(a)这部分展示了随着∣γ−∣(负反馈的使用强度)的变化,相对信息熵如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现的分布。这意味着,当算法更多地依赖用户的负反馈时,用户接触到的信息多样性如何受到影响。(b)这部分展示了随着σ(用户的自主探索行为)的增加,相对信息熵如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现的分布。这意味着,当用户更多地进行自主探索时,他们接触到的信息多样性如何受到影响。(c-d)这两部分对比了在不同的γ−和σ值下,随机选取的用户的初始和可访问的话题分布。 

4. 跳出AI的“茧”:如何避免信息茧房困境

最后,文章的图4为我们揭示了一个清晰的信息茧房状态相变图这些三维状态图展示了在不同的参数组合下,如相似性匹配、正反馈和负反馈,以及自我探索,系统可能会经历不同的信息茧房状态,能够据此预测三种状态之间的临界转变:多样化、部分信息茧房和深度信息茧房


值得注意的是,这些图表揭示了一个关键发现:即使相似性匹配的强度很高,只要适当地增加负反馈和鼓励用户的自我探索,系统就可以从信息茧房状态转移到多样化状态。这意味着,通过调整这些关键参数,我们可以有效地避免或至少减轻信息茧房的效应。具体来说,我们可以通过更多地关注用户的负反馈和鼓励他们进行自我探索,来打破这个“茧”。

如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现

图4. 不同状态之间的相变。(a-b)由视频数据集(a)和新闻数据集(b)初始化的模拟中的三维状态图。(c-h)由视频数据集(c-e)和新闻数据集(f-h)初始化的三维模拟图的横截面。

与AI之间的交互构建了一个复杂的系统,涉及多个实体和反馈机制。这项研究的核心发现为我们跳出信息茧房提供了策略,我们可以采取两种实际方法来减轻现实世界的信息困境:(1) 有效地利用负反馈,通过识别用户的不喜欢来提供关于用户偏好的新视角;(2) 促进自我探索,通过赋予用户对算法更大的自主权来多样化可用的信息。 总的来说,这项研究不仅为基于AI的推荐算法提供了实际的方向,还为我们提供了一种理解由于复杂的人工智能交互系统中的自适应动力学而产生的主要社会问题的理论方法。 

计算社会科学读书会第二季

计算社会科学作为一个新兴交叉领域,越来越多地在应对新冠疫情、舆论传播、社会治理、城市发展、组织管理等社会问题和社科议题中发挥作用,大大丰富了我们对社会经济复杂系统的理解。相比于传统社会科学研究,计算社会科学广泛采用了计算范式和复杂系统视角,因而与计算机仿真、大数据、人工智能、统计物理等领域的前沿方法密切结合。为了进一步梳理计算社会科学中的各类模型方法,推动研究创新,集智俱乐部发起了计算社会科学系列读书会。


计算社会科学读书会】第二季由清华大学罗家德教授领衔,卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起,进行了12周的分享和讨论,一次闭门茶话会,两次圆桌讨论。本季读书聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、人类移动、新冠疫情、科学学研究等课题。欢迎从事相关研究或对计算社会科学感兴趣的朋友参与学习。

如何跳出推荐算法的“信息茧房”?Nature子刊阐释人与AI自适应动力学推动信息茧房涌现

详情请见:

数据与计算前沿方法整合:计算社会科学读书会第二季启动

推荐阅读

1. 社交媒体信息传播的普适规律:临界性与复杂性  2. 从推理走向感觉:PNAS研究揭示社交媒体时代的集体语言理性衰落3. 跨越网络的门槛:社交媒体上的信息扩散4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5. 成为集智VIP,解锁全站课程/读书会6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy