因果推断的8个落地与前沿方向

1,089次阅读

因果推断的8个落地与前沿方向

因果推断已经在消费互联网领域取得了重大进展，涌现了 Uplift 模型等经典应用，支撑着市场营销、推荐系统、内容生产等领域的业务需求，也正在向产业互联网延伸落地。因果推断的技术创新和理论发展不断深入，潜在结果模型、因果图模型、工具变量法等经典方法与深度学习、大模型、图机器学习等相结合，为因果推断的提升提供了强大的技术支撑。

因果推断的核心挑战是，仍然存在不完善和不确定的问题，例如如何有效地识别和处理混杂因素、选择偏差、缺失数据等导致偏差和误差的问题，如何建立合理和可靠的因果模型和假设条件，如何评估和验证因果推断的结果的可信度和稳定性。

为推动因果推断算法应用与技术进步，DataFun 将于2023年10月21日9:00-17:00举办 DataFunSummit2023 因果推断峰会，从因果推断算法类型、与机器学习的结合、核心场景应用等角度，设立 AB 实验论坛、因果推断与机器学习论坛、反事实推理论坛、风控与因果推断论坛、因果分析论坛、观测因果论坛、图与因果推断论坛、推荐与因果推断论坛，邀请业内顶尖专家分享最新实践与研究成果，探讨业务增长与问题分析的数智驱动之道。

扫码免费报名观看直播

因果推断的8个落地与前沿方向

学术主席：

张坤卡内基大学& MBZ 人工智能大学副教授

个人介绍：张坤现为卡内基大学副教授（学术休假）以及 MBZ 人工智能大学的副教授、机器学习系执行主任，以及集成人工智能中心主任。他的研究领域是因果关系、机器学习以及通用人工智能。他在自动因果发现领域提出了一系列模型和算法，与合作者一起开创了从因果思维的角度来理解和解决复杂的机器学习问题的研究方向，并用因果的思维方式看待机器学习以求可靠性、可解释性以及对社会好的影响。他长期担任一系列机器学习和人工智能会议的领域主席、资深领域主席或程序委员会主席，包括 UAI、NeurIPS、ICML、CLeaR、IJCAI 和 AISTATS 等会议，同时是 ACM Computing Surveys 和 Pattern Recognition 等杂志的副主编。

专家团：

董振华华为诺亚方舟实验室技术专家

个人介绍：南开大学、明尼苏达大学联合培养博士，诺亚方舟实验室推荐搜索项目经理，其领导的研究团队聚焦推荐系统、信息检索、因果推断技术的前沿探索，并将预研成果在公司超过30个产品/场景落地（2013年以来），包括：信息流、应用市场、广告、音乐、视频、金融等，在显著提升业务指标的同时发表国际top会议、期刊论文超过50篇，申请专利超过40项，并在 ACM SIGIR、SIGKDD、RecSys、WSDM、CIKM、TOIS、TKDE 等学术组织担任高级程序委员/程序委员/审稿人等职务，译著《奇点临近》中文版。

黄碧薇加利福尼亚大学圣迭戈分校助理教授

个人介绍：Biwei Huang is an assistant professor at the University of California San Diego. She received her PhD degree from Carnegie Mellon University, under the supervision of Prof. Kun Zhang and Prof. Clark Glymour. Her research primarily focuses on causality, with three main areas of interest: (1) automated causal discovery in complex environments with theoretical guarantees, (2) advancing machine learning/AI from the causal perspective, and (3) using or adapting causal discovery approaches for scientific discovery. On the causality side, Huang’s research has delivered more reliable and practical causal discovery algorithms by formulating and addressing the property of distribution shifts and allowing nonlinear relationships, general data distributions, latent confounders, etc. On the machine learning side, her work has shown that the causal view provides a clear picture for understanding advanced learning problems and allows going beyond the data in a principled, interpretable manner.

赵振宇腾讯海外游戏数据科学总监

个人介绍：腾讯海外游戏数据科学总监，开源项目 CausalML 创始作者之一。美国西北大学统计学博士，先后在 Yahoo、Uber、腾讯任职，负责实验、因果推断、机器学习、分析预测等方法的应用、研究和工具建设，发表多篇相关论文和专利。扫码免费报名观看

因果推断的8个落地与前沿方向

AB 实验论坛

出品人：杜朦旭腾讯实验中心数据科学负责人

个人介绍：硕士毕业于浙江大学，在腾讯工作七年，负责 AB 实验平台数据产品、科学实验文化运营和内容数据分析相关工作，建设的实验平台 TAB 支持腾讯内上百款产品的实验需求和决策需求。

王东星腾讯 PCG 数据产品经理

个人介绍：10+年数据产品领域从业经验，负责过数据上报、数据治理、赋能型数据平台建设等工作。从0到1搭建搜狗搜索实验平台，通过常规 AB 实验、词表实验、diffab 实验及 interleaving 实验能力，支撑搜索各产品和技术团队日常实验需求。

🔥演讲题目：不同类型实验在搜索场景中的使用

演讲提纲：

1. AB 实验简介

2. 各类型搜索实验实战分享

常规 AB 实验
词表实验
diffab 实验
interleaving 实验

3. 搜索实验常见问题

🎁听众收益：

1. 了解搜索实验的实战经验

2. 学习高阶的实验类型原理和应用

3. 掌握实验中的「坑」和如何「避坑」

黄琨虎牙数据科学家

个人介绍：毕业于清华大学，曾在腾讯、招行、阿里任职。现在虎牙从事数据科学相关工作，主要支撑用户增长、内容推荐、实验科学等业务场景。

🔥演讲题目：虎牙数据驱动业务实践

演讲提纲：结合虎牙业务，围绕实验平台能力建设与数据驱动业务主题，针对实验场景和非实验场景结合业务开展案例介绍。

🎁听众收益：

1. 虎牙实验平台能力建设发展历程

2. 围绕实验评估如何给业务赋能

3. 非实验场景科学评估实践

因果推断与机器学习论坛

出品人：张可力华为诺亚方舟实验室主任研究员

个人介绍：张可力，华为诺亚方舟实验室主任研究员。2014年毕业于华中科技大学数据库所，长期从事时间序列分析，因果推理，分布外泛化等研究及应用探索工作，申请专利20余件，多项工作发表在 KDD，IJCAI，AAAI，TNNLS 等国际会议/期刊，作为核心贡献者参与了 gCastle，streamDM 等多个 AI 开源项目。

何刚九章云极 DataCanvas AI 资深架构师

个人介绍：何刚，AI资深架构师，多年来主要从事AI前沿技术的研究、研发与开源，研究方向包括因果推断、LLM、自动机器学习、ABM等前沿领域方向，研究成果在金融、通讯等领域有众多的实践案例。

🔥演讲题目：大模型视角下的因果推断

演讲提纲：

1. 大模型助力因果分析任务

2. 基于大模型代理的因果推断

3. LLM-powered agents 助力因果推断研究

🎁听众收益：

1. 了解如何利用大模型对于因果分析任务的助力

2. 了解大模型代理如何完成因果推断任务

3. 了解通过大模型的多代理仿真，助力因果推断算法研究

蔡瑞初广东工业大学教授

个人介绍：蔡瑞初，教授、博士生导师、数据挖掘与信息检索实验室主任、国家优秀青年基金获得者。2010年于华南理工大学获得工学博士学位，并进入广东工业大学工作；2015年并被评为教授、博士生导师；曾先后到新加坡国立大学、UIUC 高等数字科学研究中心访问学习。蔡教授专注于因果关系发现与因果性学习、深度学习等领域的理论与应用研究。在上述领域先后主持国家优秀青年基金、科技部”科技创新2030“重大项目、省杰出青年基金、省特支计划等项目；在因果关系发现、因果性学习方面开展了系列有益探索，在 ICML、NIPS、AAAI、IJCAI 等领域重要会议和 TNNLS、TKDE 等国际著名期刊发表论文100余篇；协助华为、网易、腾讯、滴滴、唯品会、南方电网、南方通讯建设等企业解决了因果故障定位、因果决策优化、因果个性推荐等应用难题，取得了良好的经济和社会价值；获得省科学技术一等奖（第三完成人）、国家发明专利奖优秀奖（第三完成人）等奖项；指导学生获得 NeurIPS 2019解耦学习算法大赛第一名、亚太因果推理大会推理大赛第一名、“互联网+”全国决赛金奖等奖项；先后担任 NeurIPS、ICML等会议的Area Chair，IJCAI、AAAI 等会议的 SPC 等。

🔥演讲题目：因果性学习初探

演讲提纲：探索和发现事物间的因果关系是数据科学的一个核心问题。在过去的近十年中，因果关系在基础理论、算法设计及实际应用方面获得了很大的发展，引起了相关领域学者的关注。本报告拟从因果性学习角度探讨了因果关系发现与机器学习方法相结合的一些思路，包括基于先验因果结构的因果性学习方法、基于因果发现的因果性学习方法等，并介绍其在领域自适应的等场景中的初步探索。

🎁听众收益：

1. 因果可以提升机器学习的泛化性吗？

2. 因果和机器学习结合的可能路径有哪些？

3. 因果和机器学习结合还有哪些潜在问题？

扫码免费报名观看

因果推断的8个落地与前沿方向

反事实推理论坛

出品人：况琨浙江大学副教授，博导，人工智能系副主任

个人介绍：况琨，浙江大学计算机学院副教授，博士生导师，人工智能系副主任。主要研究方向包括因果推理、数据挖掘、因果可信机器学习。在数据挖掘和机器学习领域已发表近70余篇顶级会议和期刊文章，包括 TKDE, TPAMI, ICML, NeurIPS, KDD, ICDE, WWW, MM, DMKD, Engineering 等。曾获2022年 ACM SIGAI China 新星奖（Rising Star Award），2021年度中国科协青年人才托举工程项目支持，2022年度高等学校科学研究优秀成果奖（科学技术）科技进步一等奖，2021年度中国电子学会科技进步一等奖，2020年度中国人工智能学会优秀博士学位论文提名奖。

风控与因果推断论坛

出品人：李龙飞蚂蚁集团资深算法专家

个人介绍：硕士毕业于西北工业大学，在蚂蚁工作9年，当前主要负责蚂蚁自动学习，因果推断，逻辑学习等技术方向，开发的技术服务于蚂蚁核心的搜广推，风控等场景。带领团队在 nips，icml，kdd，aaai 等国际会议发表论文20+，并获得 ccf-2020技术进步卓越奖。

方俊峰中国科学技术大学博士研究生

个人介绍：方俊峰，中国科学技术大学三年级博士生，主要研究方向为可信图神经网络。

🔥演讲题目：探索图可解释性中的分布外泛化问题

演讲介绍：图事后可解释性常因无法解决分布外泛化问题（OOD）而被诟病。针对此，本报告提出了：①一种基于对抗鲁棒性的抗 OOD 评估指标；②一种提高算法抗 OOD 能力的网络-数据联合解释范式。上述指标和范式可以极大地缓解 OOD 问题所带来的性能下降和应用限制。

演讲提纲：

1. 事后可解释性的经典算法和 OOD 问题。

2. 基于对抗鲁棒性的抗 OOD 评估指标。

3. 基于 EM 算法的网络-数据联合解释范式。

🎁听众收益：

1. 可解释算法为何会引入 OOD 问题？

2. 当前的可解释评估指标真的“公平”吗？

3. 如何实现网络-数据的联合解释？

扫码免费报名观看

因果推断的8个落地与前沿方向

因果分析论坛

出品人：程大曦快手数据科学家

个人介绍：北京大学光华管理学院经济学学士，德克萨斯大学奥斯汀分校商业分析硕士。前蚂蚁集团数据科学家，负责 A/B 实验平台功能构建。在快手中台曾负责实验与因果方向的流量生态分析，现负责快手消费算法推荐策略数据分析。

观测因果论坛

出品人：吴鹏北京工商大学统计科学中心副主任

个人介绍：吴鹏，北京工商大学数学与统计学院人才引进副教授，北京师范大学统计学博士，北京大学国际数学研究中心博士后，研究方向包括因果推断，因果推荐系统，机器学习，医疗决策等。担任中国现场统计研究会因果推断分会理事，北京生物医学统计与数据管理研究会理事，北京工商大学统计科学中心副主任。在国际著名期刊 Natural Human Behavior、Statistica Sinica、ACM Transactions on Recommender Systems 和计算机顶级会议 ICML，ICLR，KDD，AAAI，IJCAI，WWW 等发表论文20余篇。

🔥演讲题目：Trustworthy Policy Learning under the Counterfactual No-Harm Criterion

演讲提纲：Trustworthy policy learning has significant importance in making reliable and harmless treatment decisions for individuals. Previous policy learning approaches aim at the well-being of subgroups by maximizing the utility function (e.g., conditional average causal effects, post-view click-through&conversion rate in recommendations), however, individual-level counterfactual no-harm criterion has rarely been discussed. In this paper, we first formalize the counterfactual no-harm criterion for policy learning from a principal stratification perspective. Next, we propose a novel upper bound for the fraction negatively affected by the policy and show the consistency and asymptotic normality of the estimator. Based on the estimators for the policy utility and harm upper bounds, we further propose a policy learning approach that satisfies the counterfactual no-harm criterion, and prove its consistency to the optimal policy reward for parametric and non-parametric policy classes, respectively. Extensive experiments are conducted to show the effectiveness of the proposed policy learning approach for satisfying the counterfactual no-harm criterion.

图与因果推断论坛

出品人：范少华清华大学计算机系博士后助理研究员

个人介绍：范少华，现任清华大学计算机系博士后，博士毕业于北京邮电大学，主要研究方向为图神经网络与因果分析的交叉方向，稳定学习，以及相关的 AI for Science 应用。相关研究成果发表于 KDD、NeurIPS、TNNLS 等顶级会议与期刊。

杨念祖上海交通大学博士研究生

个人介绍：上海交通大学计算机系博士生，导师是严骏驰教授，目前是直博三年级。2021年毕业于上海交通大学IEEE试点班计算机专业，取得学士学位。研究兴趣包括图神经网络，生成模型，OOD 泛化，以及 AI 制药等方向。

🔥演讲题目：Learning Substructure Invariance for Out-of-Distribution Molecular Representations

演讲提纲：分子表示学习(Molecular Representation Learning)已得到广泛关注，目前已有方法已在各种任务中表现出色，例如在分子特性预测和靶点识别任务中。然而，现有方法的模型设计或实验评估过程中都是基于训练和测试数据是独立同分布的这样的假设。而在实际应用中，这样的假设很可能会不成立，因为测试分子极有可能来自模型训练阶段未见过的环境，从而导致严重的性能下降。在这篇工作中，受来自不同环境(例如分子骨架、分子尺寸等)的分子们的生物化学性质通常与某些分子子结构稳定相关这样一个现象的启发，我们提出了一个名为 MoleOOD 的新分子表示学习框架，以增强分子表示学习模型对这种分布变化的鲁棒性。具体来说，我们引入了一个环境推理模型，以完全数据驱动的方式识别影响数据生成过程的潜在因素，即环境变量。我们还提出了一个新的学习目标来指导分子编码器利用这些与跨环境的分子性质标签更稳定相关的子结构。在十个真实数据集上的实验结果表明，即使缺少事先人为标注好的环境标签，在各种分布外(OOD)场景下，利用模型自行推理得到的环境标签，我们的模型比现有方法具有更强的泛化能力。

🎁听众收益：

1. 如何学习得到泛化能力强的分子表征？

2. 如何解决现有分子数据集的环境标签不适合现有 OOD 方法的问题？

3. 还有哪些有意思的药物相关的问题可以去尝试 OOD 的场景？

推荐与因果推断论坛

出品人：戴全宇华为诺亚方舟实验室主任工程师

个人介绍：戴全宇目前是华为诺亚方舟实验室的高级研究员。他本科毕业于上海交通大学，博士毕业于香港理工大学。他主要的研究兴趣是推荐系统、因果推断和图表征学习。他在 KDD、WWW、SIGIR、AAAI、TKDE、TNNLS 等顶级学术会议和期刊发表了多篇论文，并常年担任这些会议和期刊的审稿人。

🔥演讲题目：因果推断在解决推荐系统偏置问题的研究和产品应用

演讲提纲：推荐系统是一个闭环反馈的系统，存在各种各样的偏置问题，比如用户选择偏置、系统曝光偏置、视频时长偏置等。理解这些偏置问题产生的本质原因有助于提出有效的解决方案。本演讲首先基于潜在结果框架深入分析推荐系统偏置问题产生的原因，并针对性提出相关纠偏算法解决特定偏置问题。此外，本演讲还会介绍这些因果纠偏算法在工业界产品的实际应用经验。演讲覆盖的研究成果发表在 KDD、AAAI、IJCAI 等学术会议上。

🎁听众收益：

1. 从因果推断的理论框架理解推荐系统偏置问题产生的本质原因；

2. 利用逆倾向性得分加权、双稳健学习和多稳健学习等技术解决推荐系统的偏置问题；

3. 基于因果推断的纠偏算法在工业界产品的实际应用。

林肖快手高级算法专家

个人介绍：林肖本科就读于清华大学自动化系，后于清华大学交叉信息研究院取得博士学位。毕业后林肖加入阿里巴巴搜索推荐事业部从事首页信息流推荐相关工作，在多目标排序、排序模型设计优化、召回模型优化、推荐机制等多个方向取得了显著的业务效果。在加入快手后，林肖主要从事快手主站精选页推荐重排模型以及ltr迭代优化等工作，也取得了多项显著的业务收益。

🔥演讲题目：因果推断在快手短视频推荐中的应用

演讲提纲：工业级推荐系统由于其链路较长、业务场景复杂存在着各类 bias 问题，如曝光偏差、流行度偏差等。在以往的学术研究和工业实践中，debiased ranking 与因果推断技术作为常用的工具被广泛应用于推荐系统的纠偏任务。在本次演讲中，我们将以快手推荐系统为例，从短视频推荐的各类 bias 问题入手，介绍因果推断在观看时长预估等推荐任务中的应用。具体来说，我们通过 backdoor adjustment、causal embedding 等手段，在多项短视频推荐任务中尽量缓解了各类 bias 影响，极大提升了推荐效果。本次演讲中介绍的工作也陆续发表于 KDD2022、WWW2022、KDD2023。

🎁听众收益：

1. 工业级短视频推荐系统中的实际问题

2. 因果推断等相关技术如何缓解系统 bias

3. 短视频观看时长预估的优化方法

高宸清华大学信息国研中心助理研究员

个人介绍：高宸，清华大学信息国家研究中心助理研究员，于2016年和2021年在清华大学电子系获学士学位和博士学位，博士后出站后留校任教。主要从事数据挖掘、信息检索等方面的科研工作，近五年在 KDD、SIGIR、WWW、NeurIPS 等国际会议期刊上发表 CCF-A 类论文40余篇。获信息检索领域旗舰会议 SIGIR 2020 最佳短论文提名奖、清华大学优秀博士学位论文奖、CCF 优博提名奖、百度学术人工智能华人新星奖，负责国家自然科学基金面上项目、国家重点研发计划子课题等研究项目。

🔥演讲题目：基于因果推断的推荐系统

🎁听众收益：了解因果推断推荐系统的已有工作发展脉络。

扫码免费报名观看