20多位学者共话因果科学新进展——2023泛太平洋因果推断大会回顾总结

657次阅读
没有评论

20多位学者共话因果科学新进展——2023泛太平洋因果推断大会回顾总结

导语

因果推断的目标是将外部知识与学习设计结合起来,得到变量之间的因果关系。尤其是在人工智能技术遭遇瓶颈的现在,因果推理的方法也越来越受到不同领域的重视,它在人工智能、统计学、生物统计学、生物医学计算机科学经济学、流行病学和各种社会科学等领域获得了广泛的应用。
为了更多地推动因果科学学科的发展,聚集国内外因果科学的一线科研工作者,共同讨论因果科学的最新进展,北京大学讲席教授、北京大学公共卫生学院生物统计系系主任、北京大学北京国际数学研究中心生物统计和信息研究室主任周晓华等发起了泛太平洋因果推断大会。2023泛太平洋因果推断大会于今年9月举行,集智俱乐部因果科学社区成员整理了此次大会中20多位学者关于因果科学不同方向的报告,分享给大家。
研究领域:因果科学,因果发现,因果表征学习20多位学者共话因果科学新进展——2023泛太平洋因果推断大会回顾总结




随机试验中意图治疗比较的因果关系




主题:Causality of Intention-to-Treat Comparisons in Randomized Trials主讲人:Ross L. Prentice美国 Fred Hutchinson 癌症中心和华盛顿大学,前高级副总裁兼Hutch公共卫生科学部主任。Ross Prenticeís博士是一位生物统计学家,他开发了用于临床和人群研究设计和分析的方法。他对预防慢性病的研究特别感兴趣,重点是饮食和激素的变化,这可能会降低癌症和心血管疾病的风险。个人主页:fredhutch.org/en/faculty/lab-directory/prentice-ross.html


引用文献

Presentation based on Prentice RL and Aragaki AK. Intention-to-treat comparisons in randomized trials. Statistical Science 2022;37:380-393.


内容

摘要

意向治疗(ITT)比较在随机对照试验的报告中具有核心地位,尽管通常还有其他利益分析,例如对不遵守做出调整的分析。在我们对妇女健康倡议(WHI)结果的ITT报告中随机试验,我们主要依靠高度灵活的风险比

(Cox)回归方法。然而,这些方法,特别是比例危险特例,被批评为难以解释,经常过于简单化,并且与现代方法不一致使用潜在结果的因果关系理论。在这里,我们讨论这些主题和扩大了我们在WHI试验中ITT比较的危险率方法的使用范围。

创新

文章首次探索了在随机试验报告中使用危险比方法的实践。具体来说,它关注了妇女健康倡议中进行的随机对照激素疗法试验。作者指出,先前的研究中常常存在估计的危险比(HR)在特定时间点 t>0 存在内在的“选择偏差”。此外,一些学者认为危险比(HR)本身并不适合进行因果解释,尤其是在存在未建模的异质性的情况下。因此,他们提出了使用更符合因果推理的建模框架来进行估计的观点。文章的创新点在于,作者主张整个危险比函数与随机试验中的治疗因果相关,强调了对平均危险比估计的重要性,并将这一方法应用于妇女健康倡议的激素疗法试验中。这些创新点为因果推断提供了新的视角和方法,尤其关注了危险比函数在随机试验中的因果关系。
整理者:苏婉婷



因果推断与反事实预测治疗效果:

随机对照试验和观察性研究的建模




主题: Causal inference and counterfactual prediction of treatment benefit: modeling in randomized controlled trials and observational studies主讲人:Ewout SteyerbergEwout Steyerberg 是荷兰莱顿大学医学中心和Erasmus MC(荷兰鹿特丹)的临床生物统计学和医学决策制定教授。自2017年以来,他一直担任生物医学数据科学系的主席。他是荷兰皇家艺术与科学学会(KNAW)的会员。他曾在杜克大学(北卡罗来纳州达勒姆:1996年)和哈佛大学(马萨诸塞州波士顿:2003年和2005年)度过了学术生涯。


引用文献

  1. GUSTO-I

  1. RCT in NEJM 1993

  2. Risk-based analyses Califf AHJ 1997

  3. Covariate adjustment Steyerberg 2000

  4. https://www.fharrel.com/post/path/

  • PATH Statement

    1. Ann Int Med 2020

  • Risks of traditional subgroup analyses

    1. Assmann Lancet 2000; Rothwell 2005; Hernandez 2006; Wallach BMJ 2016 & JAMA Int Med 2017


    内容

    1. 因果推断的基本概念:演讲者解释了因果推断的概念,并强调了它在研究中的重要性。他指出,因果推断是确定独立实际效应的过程,即确定一个特定现象的因果关系。他提到了相关性和因果性之间的区别,并警告人们不要错误地认为相关性就意味着因果性。演讲者还提到了因果推断在医学和其他领域中的广泛应用,以及它在决策制定和政策制定中的重要性。

    2. 观察性数据和随机对照试验:演讲者详细讨论了观察性数据和随机对照试验在因果推断中的不同作用。他解释了观察性数据分析需要考虑各种假设和近似,而随机对照试验则提供了更强的证据支持因果关系。他提到了意向治疗分析作为一种在随机对照试验中常用的方法,同时也指出了在实际应用中可能遇到的挑战和限制。

    3. 预测因素和预后因素:演讲者详细介绍了预测因素和预后因素在因果推断中的作用和差异。他解释了预测因素是基于特征和治疗效果的主要效应,用于预测患者的结果。而预后因素则涉及治疗效果和预后因素之间的交互作用,它们能够提供更为精确的个体化治疗信息。演讲者强调了预后因素在因果推断中的重要性,并指出利用预后因素进行分析可以更好地应对因果推断的需求,而过度关注预测因素可能导致虚假结果和误导。

    4. 个体化护理和精准医学:演讲者探讨了个体化护理和精准医学在因果推断中的应用。他提到了精准医学中关于个体特征和治疗效果的研究,这些研究旨在根据患者的个体特征和预后因素来制定个性化的治疗方案。然而,演讲者也指出了将因果推断应用于个体化护理的挑战,即如何将随机对照试验中的结果转化为适用于个别患者的治疗策略。他强调了在因果推断中更重要的是利用预后因素而非过度追求预测因素,以实现更高效的个体化护理和决策制定。


    整理者:贡畅





    酒精与心血管疾病:

    适度饮酒真的对心血管疾病有益吗?




    主题:Alcohol and cardiovascular disease: is moderate drinking really beneficial for cardiovascular disease?主讲人:Derrick Bennett ,牛津大学 Nuffield Department of Population Health 副教授个人主页:https://www.ndph.ox.ac.uk/team/derrick-bennett


    引用文献

    Ferrières J. The French paradox: lessons for other countries[J]. Heart, 2004, 90(1): 107-111.

    Emberson J R, Bennett D A. Effect of alcohol on risk of coronary heart disease and stroke: causality, bias, or a bit of both?[J]. Vascular health and risk management, 2006, 2(3): 239-249.

    Wood A M, Kaptoge S, Butterworth A S, et al. Risk thresholds for alcohol consumption: combined analysis of individual-participant data for 599 912 current drinkers in 83 prospective studies[J]. The Lancet, 2018, 391(10129): 1513-1523.

    Millwood I Y, Walters R G, Mei X W, et al. Conventional and genetic evidence on alcohol and vascular disease aetiology: a prospective study of 500 000 men and women in China[J]. The Lancet, 2019, 393(10183): 1831-1842.


    内容

    报告讨论了酒精与公共卫生问题之间的关系,主要集中在酒精摄入与健康效应之间的联系。其中,提到了一些早期研究,其中发现了一种称为“法国悖论”的现象,即尽管法国人的胆固醇水平很高,但他们的心血管疾病死亡率较低,这可能与他们在饮食中的高葡萄酒消费有关。此外,还讨论了吸烟与肺癌的类似关联,并提到了饮酒模式在不同国家之间的差异。然后,介绍了基因研究,其中涉及两种影响酒精代谢的基因变异,以及如何使用这些基因来研究酒精摄入与健康之间的关系。
    整理者:王文礼




    使用TMLE对重症监护中的四个

    大型随机对照实验再分析;是否满足理论承诺




    主题:Reanalyzing a four large RCTs within intensive care using TMLE; does it deliver on the theoretical promises主讲人:Theis LangeTheis Lange 是哥本哈根大学生物统计学教授,获得哥本哈根大学数理统计博士学位。研究兴趣包括因果推断、临床试验统计分析、非线性动态模型;目前研究包括分析癌症中造成社会不平等的因果途径,比较生存分析背景和基因-疾病关联研究中的不同调节措施等。个人主页:https://dsin.ku.dk/key_researchers/lange/


    内容

    摘要

    这段报告中介绍了使用TMLE(Targeted Maximum Likelihood)方法在重症监护室研究中的应用。报告提到了相关的数据重用问题,讨论了因果推断和观察数据在药物开发和临床指南中的应用,以及如何使用TMLE和超级学习者来提高效果。

    创新

    1. 使用TMLE方法进行因果推断,强调TMLE方法在因果推断中的应用,以提高数据分析的精确性和稳健性。

    2. 超级学习者的使用,介绍了超级学习者的概念,即使用多个学习者和交叉验证来提高预测效果,特别是在处理复杂数据时。

    3. 对多项研究的分析,作者对多项重症监护室研究的结果进行了分析和比较,强调了TML在不同研究中的应用和效果。


    整理者:王文礼




    不是随机缺失的

    带有中介变量和结果的中介分析




    主题:Mediation analysis with the mediator and outcome missing not at random主讲人:Fan Yang2022年至今清华大学教授,丘成桐数学科学中心。2021-2022科罗拉多大学安舒茨医学院生物统计学系副教授。2017-2021科罗拉多大学安舒茨医学院统计学系助理教授。2014-2017公共卫生科学系助理教授,芝加哥大学。研究领域:因果分析、数据缺失。个人主页:https://ymsc.tsinghua.edu.cn/info/1031/2927.htm


    引用文献

    Zuo, S., Ghosh, D., Ding, P., & Yang, F. (2022). Mediation analysis with the mediator and outcome missing not at random. arXiv preprint arXiv:2212.05577.


    内容

    摘要

    调解分析被广泛用于研究导致某种效应产生的直接和间接因果路径。然而,许多调解分析研究面临中介变量和结果变量缺失的挑战。通常情况下,当中介变量和结果变量的缺失不是随机发生时,要想识别直接和间接效应就需要进一步的假设。在这项工作中,我们研究了在一些可解释的机制下,允许中介变量和结果变量的缺失不是随机的情况下,直接和间接效应的可识别性。我们通过模拟研究评估了这些机制下的统计推断性能,并通过国家工作场所研究来说明所提出的方法。

    创新

    这篇文章的创新点在于研究了中介变量和结果变量缺失非随机(MNAR)情况下的因果中介效应的可识别性,并提供了在各种可解释的MNAR假设下的识别条件。这一研究填补了因果推断领域中的一个重要空白,因为MNAR情况通常比MAR情况更为复杂,需要更多的假设和方法来进行分析。虽然之前的研究已经关注了在不同情境下的一些可识别性问题,但是对于中介和结果同时为MNAR的情况,以及中介变量的缺失问题,之前的研究较少,这篇文章通过提出新的方法和理论结果来填补了这一研究空白。文章还通过模拟研究和应用到实际数据中的案例验证了提出方法的性能,为因果中介效应的研究提供了有力的工具和方法。
    整理者:苏婉婷




    二元结果多效稳健对数线性模型

    孟德尔随机化分析




    主题:Mendelian randomization analysis with pleiotropy-robust log-linear models for binary outcomes主讲人:Jinzhu Jia北京大学公共卫生学院研究员,博士生导师。2009年1月北京大学博士毕业。2009年1月至2010年12月,UC Berkeley 博士后。2011年1月至2018年1月任职于北京大学数学科学学院概率统计系和北京大学统计中心,期间访问哈佛大学一年。2018 年2月加入北京大学公共卫生学院。主要研究方向是高维统计推断、大数据分析、统计机器学习、因果推断、生物统计等。在变量选择方法的理论研究、高维数据和大数据统计学习的应用以及因果推断等领域发表论文多篇。担任中国概率统计统计学会副秘书长、青年统计学家协会常务理事、现场统计研究会计算统计分会理事、现场统计研究会高维数据统计会理事。个人主页:https://sph.pku.edu.cn/info/1566/4001.htm


    引用文献:

    Li M, Huang T, Jia J. Mendelian randomization analysis with pleiotropy-robust log-linear model for binary outcomes[J]. bioRxiv, 2023: 2023.06. 03.543587.


    内容

    摘要

    孟德尔随机化(Mendelian randomization, MR)是一种利用遗传变异作为工具变量来推断性状之间因果关系的统计技术。在处理二元结果时,有效的MR分析有两个具有挑战性的障碍,即传统比率估计器的不一致性和水平多效性的存在。最近的MR方法主要集中在通过汇总统计来处理多效性。我们提出了两种新颖的基于个体数据的方法,分别命名为随机效应(random-effects)和固定效应(fixed-effects) mr – prolim,以克服这两个障碍。这两种方法采用风险比(RR)来定义连续或二元暴露的因果效应。随机效应MR-PROLLIM模型与多效性相关,解释了变量选择,并允许使用较弱的工具。固定效应MR-PROLLIM只能使用少数几个选定的变体。本文证明,随机效应MR-PROLLIM表现出很高的统计能力,同时比其竞争对手产生更少的假阳性检测。固定效应MR-PROLLIM的表现通常介于经典的中位数和众数估计器之间。在我们的英国生物银行数据分析中,我们还发现(i) MR比率方法往往在很大程度上低估了二元暴露效应;(2)约26.5%的性状对存在显著的多效相关;(iii)多效敏感法对非零效应的估计相对偏差为-103.7% ~ 178.0%。MR- prollim显示了促进对二元结果进行更严格、更稳健的MR分析的潜力。


    创新

    1. 处理二元结果的新方法:该报告介绍了一种新的方法,用于处理二元结果的因果关系估计。传统的方法通常使用逻辑回归模型,而报告中提出了使用对数线性模型的方法,以获得更一致的估计结果。

    2. 高维基因数据的处理:研究中涉及了多个基因位点(SNPs),并介绍了如何将它们合并成高维仪器变量以估计因果效应。这种方法可以提高统计功效并更好地捕捉基因变异与感兴趣结果之间的复杂关系。

    3. 处理仪器变量的不一致性:传统的两阶段估计器在处理二元结果时可能不一致,该报告提供了一种方法来处理这种不一致性,从而更准确地估计因果效应。

    4. 处理工具变量的水平混杂性:报告介绍了如何区分有效的工具变量和存在水平混杂性的工具变量,以提高因果估计的可靠性。

    5. 在真实数据分析中的验证:研究中进行了大量的真实数据分析,以验证新方法的性能,结果表明新方法能够有效地检测出因果关系,相对于传统方法具有更高的统计功效。


    整理者:王文礼





    分割区设计中的随机化与协变量调整




    主题:Randomization and Covariate Adjustment in Split plot Designs主讲人:Hanzhong Liu清华大学统计科学中心副教授(2018/12至今);此前,他在同一中心担任助理教授(2016/08 – 2018/12),并曾在加利福尼亚大学伯克利分校作为博士后学者(2014/07 – 2016/06)。他在北京大学(2009/09 – 2014/06)和中国科学技术大学(2005/09 – 2009/06)获得学位。在2012/09至2014/04期间,他曾前往加利福尼亚大学伯克利分校作为访问学者。研究兴趣包括因果推断、高维统计、大数据和机器学习。个人主页:https://tsing.v-dk.com/teambuilder/faculty/hanzhong-liu/


    引用文献

    Shi, Wenqi, Anqi Zhao, and Hanzhong Liu. “Rerandomization and covariate adjustment in split-plot designs.” arXiv preprint arXiv:2209.12385 (2022).


    内容

    摘要

    本文探讨了源于农业科学的split-plot设计,其中实验单位(亦称为子图)嵌套在称为整体图的组内。该设计在整体图层面通过集群随机化分配整体图干预,并在子图层面通过分层随机化分配子图干预。随机化机制保证了在整体图和子图层面的平均协变量平衡,并通过Horvitz-Thompson和Hajek估计器确保了平均治疗效应的一致推断。然而,在有限的样本中经常出现协变量失衡,可能导致推断的大变异性和条件偏差。重新随机化在随机实验的设计阶段被广泛使用以改善协变量平衡。现有的重新随机化文献主要集中在治疗只在单元或组层面分配的设计上,而不是两者都有,这使得split-plot设计中的重新随机化理论仍是一个未解决的问题。

    创新

    本文首次提出了基于Mahalanobis距离进行split-plot设计中重新随机化的两种策略,并建立了相应的基于设计的理论。研究表明,重新随机化可以提高Horvitz-Thompson和Hajek估计器的渐近效率。此外,还提出了两种分析阶段的协变量调整方法,与重新随机化结合时,这些方法可以进一步提高渐近效率。通过数值研究,证明了所提方法的有效性和改进效率。
    整理者:冯帆





    自动工具变量选择和水平多效应建模下

    基于似然的孟德尔随机化分析




    主题:Likelihood based Mendelian randomization analysis with automated instrument selection and horizontal pleiotropic modeling主讲人:Zhongshan Yuan,山东大学生物统计学院教授,博导。个人主页:http://www.en.sph.sdu.edu.cn/info/1484/1155.htm


    引用文献

    Yuan, Z., Liu, L., Guo, P., Yan, R., Xue, F., & Zhou, X. (2021). Likelihood based Mendelian randomization analysis with automated instrument selection and horizontal pleiotropic modeling. https://doi.org/10.1101/2021.11.03.21265848


    内容

    摘要

    孟德尔随机化(MR)是识别潜在疾病的因果危险因素的常用工具。在这里,我们提出了一种有效的MR分析方法,MRAID。MRAID借鉴精细映射分析的思想,对彼此之间潜在的高度连锁不平衡的候选snp初始集进行建模,并自动从中选择合适的工具进行因果推理。MRAID还明确地模拟了在复杂性状分析中广泛存在的不相关和相关水平多效效应。MRAID通过联合似然框架实现这两项任务,并依赖于可扩展的基于采样的算法来计算校准的p值。全面和现实的仿真表明,MRAID可以提供校准的I型误差控制,减少误报,同时比现有方法更强大。我们说明了MRAID在英国生物银行645对特征对的MR筛选分析中的好处,确定了心血管疾病相关特征的多种生活方式因果风险因素。

    创新

    提出了一种基于似然的双样本 MR 方法进行因果推理。具体来说,作者的方法模拟了一组初始的候选SNP仪器,这些仪器彼此高LD,并在它们中自动选择3个作为MR分析的合适仪器。此外,在似然框架中考虑了两种类型的水平趋向性,并且依赖于基于可扩展的基于采样的算法进行校准的 p 值计算。作者将此方法称为具有自动仪器确定 (MRAID) 的双样本孟德尔随机化。作者通过全面和现实的模拟证明了 MRAID8 的有效性。作者还将 MRAID 应用于英国生物银行中 645 个特征对的 MR9 筛查分析,识别可能影响心血管疾病相关特征的生活方式 10 危险因素。
    整理者:杨明哲





    回归间断设计下因果推断的亚群体选择




    主题:Selecting Subpopulations for Causal Inference in Regression Discontinuity Designs主讲人:Fabrizia Mealli,意大利佛罗伦萨大学统计与计算机科学学院教授个人主页:http://local.disia.unifi.it/mealli/


    引用文献

    Forastiere, L., Mealli, F., Pescarini, JuliaM., Fiaccone, RosemeireL., Barreto, MauricioL., & Mattei, A. (2022). Selecting Subpopulations for Causal Inference in Regression Discontinuity Designs.


    内容

    摘要

    巴西家庭补助计划(BF)是一项有条件的现金转移计划,旨在通过直接现金转移减少短期贫困,并通过增加巴西穷人的人力资本来对抗长期贫困。获得Bolsa Familia福利的资格取决于一个截止规则,该规则将BF研究分类为回归间断(RD)设计。从RD研究中提取因果信息具有挑战性。继Li等人(2015)和Branson和Mealli(2019)之后,我们正式将BF RD设计描述为潜在结果方法中的局部随机实验。在此框架下,可以在局部重叠假设、局部SUTVA和局部可忽略性假设成立的亚人群上确定和估计因果影响。与基于连续性假设的局部回归方法相比,该框架的潜在优势在于因果估计、分析和结果解释。这种局部随机化方法的一个关键问题是如何选择我们可以得出有效因果推断的亚群体。我们提出了一种基于贝叶斯模型的有限混合方法来聚类,将观测数据分类为d假设成立和不成立的亚种群。这种方法有重要的优点:a)它可以考虑通常被忽略的亚种群成员的不确定性;B)它对亚种群的形状没有任何限制;C)可扩展到高维设置;E)它允许针对替代因果估计而不是平均效应;f)它对运行变量的一定程度的操作/选择具有鲁棒性。我们应用我们提出的方法来评估BF项目对2009年麻风病发病率的因果影响,对象是2007-2008年首次在巴西国家社会项目登记处登记的巴西家庭

    创新

    作者将此局部随机化框架与我们新提出的基于贝叶斯模型的混合方法相结合,以评估 Borsa Fam ́ılia 程序对 leprosy 发病率的因果影响。Borsa Fam ́ılia 研究是一项高维研究,包括大量家庭的信息,这意味着证伪测试不能用于选择合适的亚群进行有效的因果推理。此外,在样本中,只有 424 个案例超过 152 602 个家庭,感兴趣的结果 leprosy 发病率很少见。结果此功能在 RD 设计中特别具有挑战性。使用作者的基于贝叶斯模型的混合方法进行研究的设计和分析阶段使我们能够面对这两个问题。特别是,作者专注于根据结果、强制变量和协变量的后验分布来识别这种因果效应的单位子集的局部有限样本因果相对风险进行推断。
    整理者:杨明哲





    非对称效用函数的政策学习




    主题:Policy learning with asymmetric utilities主讲人:Zhichao Jiang中山大学数学学院教授,曾是UMass Amherst生物统计助理教授。个人主页:https://zhichaoj-git.github.io/


    引用文献

    Ben-Michael, E., Imai, K., & Jiang, Z. (2022). Policy learning with asymmetric utilities.


    内容

    摘要

    即使在医学和公共政策等高风险环境中,数据驱动的决策也发挥着重要作用。从观察到的数据中学习最优策略需要仔细地制定效用函数,其期望值在总体中最大化。虽然研究人员通常只使用依赖于观察结果的效用,但在许多情况下,决策者的效用函数更恰当地表征为所有行动下潜在结果的联合集。例如,希波克拉底的“不伤害”原则意味着,对一个本来可以不接受治疗而存活下来的病人造成死亡的代价要大于放弃挽救生命的治疗的代价。我们考虑这种形式的非对称效用函数的最优策略学习。我们表明,不对称的效用导致了一个无法识别的社会福利函数,因此我们首先部分地识别了它。利用统计决策理论,我们通过最小化相对于备选策略的最大后悔来推导出最小决策规则。我们证明了可以从观察到的数据库中学习极大极小决策规则来解决中间分类问题。我们还建立了该过程的有限样本遗憾是由这些中间分类器的误分类率限制的。我们应用这一概念框架和方法来决定是否对可能存在肺动脉高压的患者使用右心导管。

    创新

    作者使用这个框架重新评估右心导管 (RHC) 的使用,这是一种侵入性诊断工具 (Connors et al., 1996)。作者根据临床变量学习决策规则,因为作者在未能防止患者死亡和通过 RHC 导致其效用函数的不对称性各不相同。这些决策规则因我们是否最小化相对于恒定策略(总是或从未使用 RHC)的最坏情况遗憾或最佳使用 RHC 的预言机策略而有所不同。作者检查了效用函数和比较器的选择如何影响学习到的决策规则,基于这些选择发现了实质性的可变性。最后,作者将这些发现转化为约束对称效用最大化框架,作者寻求找到一种算法策略,该策略根据策略危害或未能节省的患者的最坏情况比例的限制来最小化预期死亡率。作者在这些目标之间展示了权衡,表明预期死亡率将随着更字符串的约束而产生。


    整理者:杨明哲




    重加权下RCT泛化:有限样本误差和变量选择




    主题:Reweighting the RCT for Generalization: Finite Sample Error and Variable Selection主讲人:Benedicte Colnet法国 Inria 三年级在读博士。已加入法国医疗社会保障部门,关注药物和医疗设备定价。个人主页:https://benedictecolnet.github.io/


    引用文献

    Colnet, B., Josse, J., Varoquaux, G., & Scornet, E. (2022). Reweighting the RCT for generalization: finite sample analysis and variable selection.


    内容

    摘要

    随机对照试验(RCT)的有限范围越来越受到审查,特别是当样本不具有代表性时。事实上,与目标人群相比,一些rct超过或低于样本的个体具有某些特征,因此人们想要得出治疗有效性的结论。重新加权试验个体以匹配目标人群有助于改善治疗效果的估计。这样的程序需要估计两个密度的比率(试验分布和目标分布)。在这项工作中,我们建立了这种重加权过程的偏差和方差的精确表达式——也称为抽样加权逆倾向(IPSW)——在任何样本量存在分类协变量的情况下。这样的结果使我们能够比较IPSW估计的不同版本的理论性能。此外,我们的结果显示IPSW估计的性能(偏差,方差和二次风险)如何取决于两种样本量(RCT和目标人群)。我们工作的一个副产品是IPSW估计一致性的证明。精细化的分析还表明,当估计待处理的试验概率时(而不是使用对应的oracle), ipsw性能会得到改善。此外,我们还研究了包括对正确估计权值不必要的协变量如何影响渐近方差。我们用两个例子来说明所有的结论:一个是玩具和说教的例子,另一个是受重症监护医学启发的半合成模拟。

    创新

    作者首先说明重新加权的原则,特别是,展示了 IPSW 估计器的几个版本:试验或目标人群的协变量概率是否从数据中估计或假设为预言机。这将作者的结果与因果推理和流行病学的经典工作联系起来。作者还详细说明了为什么另一个版本的IPSW,其中还估计了试验中治疗分配的概率,方差较低。最后讨论了附加和非必要协变量如何改进或损害方差,具体取决于它们的状态:它们是否仅在两个种群之间移动或仅处理效应修饰符。


    整理者:杨明哲



    基于平行结果信息的因果推断




    主题:The Promises of Parallel Outcomes主讲人:linbo Wang多伦多大学统计科学系和计算机与数学科学系助理教授。同时也是矢量研究所的教师。此外,他还担任CANSSI安大略STAGE项目的导师,并担任华盛顿大学统计系和多伦多大学计算机科学系的附属助理教授。个人主页: https://sites.google.com/site/linbowangpku/home


    引用文献

    Zhou, Y., Tang, D., Kong, D., & Wang, L. (2020). The Promises of Parallel Outcomes. arXiv: Methodology.


    内容

    摘要

    在进行观察性研究时,识别和估计因果效应面临着一个重要挑战,即如何处理存在未测量混杂因素的情况。研究人员介绍了一种新的框架,该框架利用多个平行结果中的信息来识别和估计因果效应。在多个平行结果之间的条件独立结构下,实现了至少三个平行结果的非参数识别。进一步表明,在一组线性结构方程模型下,因果推理是可能的,有两个平行的结果。同时开发了伴随的估计程序,并通过模拟研究和研究tau蛋白水平对各种行为缺陷的因果影响的数据应用来评估其有限的样品性能。

    创新

    在这篇论文中,介绍了一种新的因果推断方法,该方法利用多个结果中的信息来处理未测到的混杂因素。该方法基于并行结果的假设,即多个结果受到相同的未测到因素的影响。论文中提出了一种基于结构方程模型的方法来估计因果效应,并在一定程度上进行了测试和放松。该方法的关键思想是将未测到的混杂因素表示为曝光变量的线性转换加上高斯误差。该方法的优势在于可以处理多个并行结果的情况,并且可以应用于广泛的实际环境中。该方法的提出为因果推断提供了一种有希望的替代方法,并且与基于多因素框架的方法有着概念上的区别。并且有望分析高维响应数据,可以使用额外的结果来放宽条件独立假设。
    整理者:毛迎荣





    利用额外的随机性:

    可复制性,灵活性和因果关系




    主题:Harnessing Extra Randomness: Replicability, Flexibility and Causality主讲人:Richard Guo剑桥大学统计实验室的研究助理,由Rajen Shah教授指导。此前,他是西蒙斯计算理论研究所 2022 年因果关系计划的理查德·卡普研究员。他于 2021 年在托马斯·理查森的指导下获得华盛顿大学统计学博士学位。他的研究兴趣包括图模型、因果推理、半参数方法和数据分析的可复制性。郭博士将于2024年1月开始担任华盛顿大学生物统计学助理教授。个人主页: https://unbiased.co.in/


    引用文献

    Guo, F. & Shah, Rajen. (2023). Rank-transformed subsampling: inference for multiple data splitting and exchangeable p-values. 10.48550/arXiv.2301.02739.


    内容

    摘要

    许多现代统计程序是随机的,因为输出是数据的随机函数。例如,许多过程采用数据拆分,将数据集随机划分为不相交的部分以用于不同的目的。尽管它们具有灵活性和受欢迎程度,但数据拆分和其他随机程序的结构具有明显的缺点。首先,由于引入了额外的随机性,对同一数据集的两次分析可能会导致不同的结果。其次,随机程序通常会失去统计功效,因为整个样本没有充分利用。

    为了解决这些缺点,在本次演讲中,我将研究如何正确组合随机过程的多次实现(例如通过多个数据拆分)的结果。我将介绍秩变换子抽样作为在最小假设下提供组合结果的大样本推断的通用方法。我将用三个应用来说明该方法:(1)使用高维基因表达数据检测癌症亚型的程序,(2)校准使用交叉拟合“双重机器学习”估计的因果效应的置信区间,以及(3)在顺序随机试验中测试没有直接影响的假设。对于这些问题,我们的方法能够去随机化并提高功率或覆盖范围。此外,与现有的组合p值的方法相比,我们的方法享有渐近接近标称水平的I型误差控制。这一新发展开辟了设计显式随机化和去随机化程序的可能性:引入额外的随机性以使问题在被删除之前更容易。我还将讨论该方法在因果推理和因果发现中的更广泛应用。

    创新

    这篇文章的主要贡献是提出了一种基于聚合的假设检验方法,名为“dip hunting”。提出了一种新的高维单峰检验方法;并介绍了一种简单、灵活的参数回归模型(如参数分位数回归)优度检验方法。该方法通过将多个假设检验的p值进行聚合,以提高检验的效果。与其他常用的假设检验方法相比,“dip hunting”方法在保持正确的显著性水平的同时,能够提供更高的统计功效。该方法在多个应用领域进行了实证研究,并展现了良好的性能。这种聚合的假设检验方法在假设检验领域具有创新性,可以为研究人员提供一种更有效的统计推断工具。
    整理者:毛迎荣





    通过迭代图展开进行混杂选择




    主题:Confounder Selection Via Graph Expansion主讲人:Qingyuan Zhao剑桥大学纯数学与数理统计系统计实验室的助理教授,艾伦图灵研究所研究员个人主页: http://www.statslab.cam.ac.uk/~qz280/


    引用文献

    Guo, F.R., & Zhao, Q. (2023). Confounder selection via iterative graph expansion. https://arxiv.org/abs/2309.06053

    内容

    摘要

    混淆选择是观察设计中最关键的步骤之一,即选择一组协变量来控制所有治疗和结果组之间的混淆。此前的方法,例如Pearl著名的后门标准,通常需要先指定因果区间,这在实践中往往很困难。我们提出了一种用于联合选择的交互式程序,无需预先指定图或观察变量集。该过程通过迭代地扩展因果图并寻找新的“主要调整集”来解决底层因果图可能存在缺陷的问题。结构信息以主要调整集形式存在,并持续进行直到找到能够控制初始值或确定不存在这变量集为止。我们证明了如果用户在每个步骤中正确指定主调整集,则我们的过程既健全又完整。

    创新

    本文的创新之处在于开发了一种系统方法,使用无环有向混合图(ADMG)进行因果推理中的混淆选择。该方法涉及枚举主要调整集并使用每个主要调整集扩展图形。这种方法允许征求有关内生性的领域知识,并且不需要完全了解因果结构或一组给定的观察到的协变量。本文还讨论了该方法的合理性和完整性,并强调了使用图表来改进观察性研究设计的潜力。通过使用ADMG图来描述变量之间的因果结构,研究人员可以通过迭代查询特定结构来选择混淆变量。这种方法不需要完全了解因果结构或给定的观察协变量集合,提供了一种系统的方式来获取关于内生性的领域知识。文章还讨论了图扩展的优点,以及如何利用图模型改进观察性研究设计的可能性。
    整理者:毛迎荣





    关于平均治疗效果的回归调整插补估计量




    主题:On Regression-adjusted Imputation Estimators of the Average Treatment Effect主讲人:Zhexiao LinZhexiao Lin 博士目前就读于美国加州大学伯克利分校统计学系,师从丁鹏、Peter Bickel 教授。他于2022年在华盛顿大学获得硕士学位,并于2020年在浙江大学完成学士学位。个人主页: https://zhexiaolin.github.io/


    引用文献

    Lin, Zhexiao & Han, Fang. (2022). On regression-adjusted imputation estimators of the average treatment effect. 10.48550/arXiv.2212.05424.


    内容

    摘要

    使用估计的回归函数来算缺失的潜在结果是估计因果效应的自然想法。在文献中,结合归算和回归调整的估计器被认可与增广逆概率加权相媲美。因此,人们长期以来一直推测,这种估计器在避免直接构权重的同时,也具有双重鲁棒性。本文推广了作者的早期结果,将这一猜想形式化,并表明大量经过回归调整的归算计平均处理效果确实具备双重可靠外,在正确指定密度模型和回归模型条件下,们可以证明是半参数有效的。我们所涵盖插值方法中值注意的例子包括核匹配、(加权)最近邻匹配、局部线性匹配和(实)随机森林。

    创新

    回归和匹配方法联系了因果推理和统计上填补缺失值文献中常用的估算方法。这些方法本质上利用核匹配、局部线性匹配、随机森林或最近邻匹配来估算缺失的潜在结果。单独使用这些估算方法可能效率低下或缺乏准确性。回归调整后的估算方法的理论结果非常有限。部分原因在于这些方法完全由结果模型驱动,因此不清楚哪一部分起着倾向得分加权的作用。本文旨在提供一个通用理论,以揭示回归调整后的估算方法的效率和鲁棒性。作者关注一类称为线性平滑的非参数回归方法,其中包括上述所有示例(核匹配、局部线性匹配、最近邻匹配和随机森林)。新理论表明:(1)线性平滑可以隐式地产生密度比估计量;(2)Rubin(1973b)和Abadie and Imbens(2011)形式的回归调整的输入方法构成AIPW估计量;(3)只要正确指定密度模型或结果模型,这些输入方法是一致的;(4)如果密度和结果模型都被正确指定,它们进一步构成ATE的渐近正态估计,其渐近方差达到半参数效率下界(Hahn, 1998),因此是半参数有效的;(5)回归调整后的双机器学习版本——那些通过样本分裂和交叉拟合来估计输入函数和修正偏差的方法可以在削弱某些条件的同时获得(3)和(4)中的性质。本文研究结果为使用回归调整的估算方法提供了必要的理论支持,并将其建立为基于权重的估算方法的有用替代方案。
    整理者:毛迎荣





    阴性试验设计下的疫苗有效性估计:

    条件可交换下因果推断的可识别性和效率理论




    主题:Vaccine Effectiveness Estimation Under the Test-negative Design: Identifiability and Efficiency Theory for Causal Inference Under Conditional Exchangeability主讲人:Cong Jiang加拿大蒙特利尔大学博士后,加拿大滑铁卢大学博士。他的主要研究兴趣集中在推动因果推理方法论领域。具体而言,他致力于动态治疗机制(DTRs)的方法论开发及其在现实世界中的实际应用。目前,他的研究集中在因果推理领域。个人主页:https://cjiang.netlify.app/en/


    引用文献:

    Jiang C, Talbot D, Carazo S, et al. TNDDR: Efficient and doubly robust estimation of COVID-19 vaccine effectiveness under the test-negative design[J]. arXiv preprint arXiv:2310.04578, 2023.


    内容

    摘要

    检测阴性设计(TND)通常用于监测季节性流感疫苗的有效性,最近已成为COVID-19疫苗监测的一部分。与病例对照研究不同,它招募具有共同症状表现的参与者,并对他们进行目标感染测试。阳性测试被认为是“案例”,阴性测试被认为是“控制”。传统上,Logistic回归校正了干扰因子以估计TND疫苗的有效性。然而,如果存在干扰因子对效果的影响,则可能会产生偏差。本文首先回顾了边际风险比的治疗加权估计器的反概率,该估计器在效应修正下有效,但需要对接种概率进行参数建模。为解决这一限制,本文提出一种新的双重鲁棒和有效的边际风险比率估计器。从理论上和经验上证明了通过对干扰函数的机器学习实现的参数收敛率。

    创新:

    1. 检测阴性设计(Test Negative Design):报告聚焦于使用检测阴性设计(TND)来估算疫苗效果。TND是一种创新的方法,用于在真实世界情境中研究疫苗的有效性。

    2. 双重稳健性:报告强调了双重稳健性的概念,即所提出的方法在倾向得分模型或结果模型中的任一一个未正确规定的情况下仍然保持一致和有效。这是方法论的一个关键方面。

    3. 高效影响函数:报告介绍了高效影响函数的概念,用于估计疫苗效果。这是一种处理混淆和偏差的创新统计方法。

    4. 机器学习方法:报告讨论了在估算干扰函数时使用机器学习方法,这是一种现代和先进的数据分析方法。

    5. 实际数据分析:报告提供了在Omicron B.1.5主导时期对医护人员进行的真实数据分析。将这一方法应用于真实世界数据是报告的一个有价值和实际的方面。

    6. 干预和最佳治疗分配:报告提到了在估算疫苗有效性中考虑干扰和开发最佳治疗分配策略。反映了处理复杂真实世界情境的先进方法。


    整理者:王文礼





    多源数据下的子群体处理效应迁移




    主题:Transporting Subgroup Treatment Effects under Multi-source Data主讲人:Guanbo Wang哈佛大学的博士后研究员,他在麦吉尔大学获得了生物统计学博士学位(2022),他曾在2021-2022期间担任Biogen & Roche的Consultant实习生。他的研究领域包括因果推断的可迁移性,包括探索异质性treatment effect等。个人主页:https://www.guanbowang.info/


    内容

    摘要

    本工作关注于因果效应的迁移性和泛划性,旨在估算不同试验和群体中的treatment效果,不同meta analysis的研究,本专注于确保统计严谨性并带有因果假设。它详细阐述了一种全面的方法,符合因果假设包括子群体分析、使用一致性、可交换性和正值等、定义各种模型的干扰参数,并使用非参数影响函数进行估算。更进一步,详细的统计分析为估算器的偏差和方差提供了见解,证实在某些条件下,它可以是半参数有效的。通过仿真数据和关于精神分裂症药物的empirical试验,进一步证实了该方法的实用性和稳健性。

    该方法的一个显著创新点是将统计建模、因果推断和机器学习无缝整合,以应对估算各种数据源和子群体中治疗效果时遇到的多方面复杂性。该方法设计稳健的统计过程,确保它们与数据内部复杂的因果推断关系很好地配合。估值方法的理论属性通过模拟和实际应用得到了实质性验证,在仿真和真实数据上验证了方法有效性。
    整理者:冯帆





    因果图中学习异质性和非伪因性




    主题:Towards Causal Revolution: On Learning Heterogeneity and Non-Spuriousness in Causal Graphs主讲人:Hengrui CaiUniversity of California Irvine 统计学系的助理教授。她在北卡罗来纳州立大学(NCSU)获得了统计学博士学位,由Dr. Wenbin Lu和Dr. Rui Song共同指导。在此之前,她于2017年7月从浙江大学获得统计学学士学位。她对因果推断、强化学习、图形模型及其交叉领域的方法和理论都有广泛的研究兴趣,目的是为各种真实世界问题建立可靠、强大且可解释的解决方案。目前,她的主要研究工作包括使用复杂数据进行个体化的最优决策制定、强化/深度学习中的政策评估,以及高维个体调解分析的因果关系发现,这些直接受到精准医学、定制经济学、个性化营销、现代流行病学等领域的激励。个人主页:https://hengruicai.github.io/


    引用文献

    Zhang, Wenbo, et al. “Towards Trustworthy Explanation: On Causal Rationalization.” ICML 2023


    内容

    摘要

    深度学习时代,随着NLP的进步,理性化(rationalization)成为了一个关键的技术,该技术通过选择输入文本的子集来解释预测中的主要变化。然而,现有基于关联的理性化方法在两个或更多片段高度相关并对预测准确性提供类似贡献时,不能识别非结构化数据背后真正的理由,这被称为“伪关联性”或spuriousness。为了解决这一限制,作者从因果推断的角度,将两个因果要素,即非伪关联性和效率,引入到理性化中。我们基于新提出的理性化结构因果模型,正式定义了一系列的因果概率,并将其理论识别确定为学习必要和充分理由的主要组成部分。与最先进的方法相比,我们提出的因果理性化在真实的评论和医疗数据集上进行了广泛的实验,并证明了其有效性。

    创新

    文章首次从因果推断的角度考虑了理性化问题,将非伪关联性和效率引入为其主要的因果要素。此外,作者提出了一个新的理性化结构因果模型,并基于该模型定义了一系列的因果概率。该方法的理论识别被确定为学习必要和充分理由的主要组成部分,这是与现有方法不同的重要创新。通过实验,证明了该方法在实际应用中相对于当前现有方案具有更好的性能。
    整理者:冯帆





    可能误设的边缘结构Cox模型下的

    双重稳健推断




    主题:Doubly Robust Inference Under Possibly Misspecified Marginal Structural Cox Model主讲人:Ronghui XuDr. Xu 在加州大学圣地亚哥分校(UCSD)分别获得了应用数学硕士(1995年)和数学博士(1996年)学位。她在UCSD癌症中心和数学系担任了一年的博士后研究员,然后在1997年开始在哈佛大学公共卫生学院的生物统计学系以及波士顿马萨诸塞州Dana-Farber癌症研究所的生物统计科学系担任助理教授。她于2004年回到UCSD,成为公共卫生系以及数学系的副教授。她是David P. Byar Young Investigator Award的获得者,并且是美国统计协会(American Statistical Association)的会员。个人主页:https://mathweb.ucsd.edu/~rxu/


    引用文献

    Hou, Jue, Jelena Bradic, and Ronghui Xu. “Treatment effect estimation under additive hazards models with high-dimensional confounding.” Journal of the American Statistical Association 118.541 (2023): 327-342.

    Rava, Denise, and Ronghui Xu. “Doubly robust estimation of the hazard difference for competing risks data.” Statistics in Medicine 42.6 (2023): 799-814.

    Wang, Yuyao, Andrew Ying, and Ronghui Xu. “Doubly Robust Estimation under Covariate-induced Dependent Left Truncation.” arXiv preprint arXiv:2208.06836 (2022).

    Luo, Jiyu, and Ronghui Xu. “Doubly robust inference for hazard ratio under informative censoring with machine learning.” arXiv preprint arXiv:2206.02296 (2022).

    Zhang, Yiran, and Ronghui Xu. “Marginal Structural Illness-Death Models for Semi-Competing Risks Data.” arXiv preprint arXiv:2204.10426 (2022).

    Ying, Andrew, and Ronghui Xu. “On defense of the hazard ratio.” arXiv preprint arXiv:2307.11971 (2023).

    内容

    摘要

    该工作深入探讨了生存分析在可能错误指定的边缘结构Cox模型下的双重稳健推断方法。工作涵盖了一系列复杂的统计方法论,包括详细的生存分析、潜在结果框架的应用、危险函数及其在Cox模型中的运用、treatment effect的深度分析等。通过实际的模拟结果和真实世界的应用案例,如火奴鲁鲁的一个中年饮酒老化研究,展示了各种统计方法在理论和实践应用中的综合运用和验证,特别突出了逆概率加权(IPW)和增强逆概率加权(AIPW)估计函数在提供可能的双重稳健估计器方面的创新实践,并在各种模拟场景下验证了这些方法的稳健性。提供了关于如何在可能的数据生成过程的不同真实性下,利用这些复杂的统计方法进行稳健的因果推断的方法。

    创新

    该系列工作在潜在结果框架和危险函数的讨论中,融合了传统的Cox模型与潜在结果框架,尤其在处理“beta t”(对数危险比率)这一可随时间变化的变量时表现出独到见解。其次,在处理缺失数据的问题上,深入探讨了包括一致性、无未测混杂和重叠假设在内的多种假设。另外一个显著的创新点在于利用逆概率加权(IPW)和增强逆概率加权(AIPW)估计函数,尤其是通过将IPW与AIPW估计函数相结合,提供了一个潜在的双重稳健估计器,增强了在可能错误指定的模型下进行推断的稳健性。在模拟结果和真实世界应用的实验部分,有效地利用机器学习算法来估计干扰参数,并在各种模拟场景下展示了多种估计器的性能,这同样体现了理论与实际应用的紧密结合,表明了这一方法论在实际研究中的应用潜力。这些创新点一方面体现了对传统方法的深入理解和应用,另一方面展示了在复杂模型和多变应用场景中稳健估计和推断方法的探索和发展。


    整理者:冯帆





    如何在评估最优动态治疗方案时

    利用潜在的患者偏好?




    主题: How to Use Latent Patient Preference when Evaluating the Optimal Dynamic Treatment Regimes?主讲人:Lu Wang,密歇根大学教授Lu Wang 博士于2008年在哈佛大学获得生物统计学博士学位,并于同年加入密歇根大学的教职。她的研究重点包括评估动态治疗方案、个性化医疗、非参数和半参数回归、缺失数据分析、函数数据分析以及纵向(相关/集群)数据分析的统计方法。王博士与安德森癌症中心、密歇根大学医学院、密歇根大学公共卫生学院、密歇根大学运动学院、密歇根大学社会研究学院和哈佛公共卫生学院的研究人员合作。王博士是《美国统计学会杂志》和《生物统计学》的副编辑。她还担任密歇根大学生命周期环境暴露与疾病综合健康科学核心(IHSC)的核心合作组长。


    引用文献

    Zhong, Yingchao, Chang Wang, and Lu Wang. “Survival Augmented Patient Preference Incorporated Reinforcement Learning to Evaluate Tailoring Variables for Personalized Healthcare.” Stats 4.4 (2021): 776-792.

    内容

    摘要

    本文考虑个性化治疗决策策略在慢性疾病管理中的应用,例如慢性肾脏病,其通常包括顺序和自适应的治疗决策。我们研究了一个具有可能被右截尾的生存结果的两阶段治疗设置。这可以通过动态治疗规则(DTR)框架来进行建模,其目标是根据每个个体的医疗历史来个性化治疗,以最大化理想的健康结果。我们开发了一种新的方法,称为Survival Augmented Patient Preference incorporated reinforcement Q-Learning(SAPP-Q-Learning),用于在最大随访期限内在生活质量和生存之间进行决策。我们的方法将患者偏好纳入加权效用函数中,平衡生活质量和生存时间,在Q-learning模型框架中进行建模。我们进一步提出了相应的m-out-of-n Bootstrap过程,以准确进行统计推断,并构建关于个性化治疗策略指导变量效果的置信区间。

    创新

    1. 提出了一种新的方法,称为Survival Augmented Patient Preference incorporated reinforcement Q-Learning (SAPP-Q-Learning),用于在个性化医疗中评估治疗变量。该方法结合了患者的潜在偏好与生存时间之间的权衡,通过加权效用函数在Q-Learning模型框架中进行决策,以在最大随访期限下平衡生活质量和生存时间。

    2. 提出了一种相应的m-out-of-n Bootstrap程序,用于准确进行统计推断,并构建关于个性化治疗策略指导的治疗变量效应的置信区间。这种Bootstrap程序可以考虑到数据中的右侧截尾生存情况,从而更准确地进行统计推断。

    3. 针对动态治疗方案的评估提出了一个框架,该框架可以根据患者的临床反应和健康结果轨迹,针对慢性疾病等慢性疾病的个性化治疗决策制定一系列治疗决策规则。这种动态治疗方案可以根据个体的医疗历史为每个人量身定制治疗,以最大化期望的健康结果。

    4. 解决了在个性化治疗决策中的一个挑战,即如何平衡多个竞争性的健康结果。文章提出的方法可以在考虑多个健康结果的情况下进行决策,并将不同的健康结果之间的权衡纳入到决策模型中,例如在治疗决策中平衡疗效和毒副作用。这种方法能够更好地应对多目标决策的需求,提高个性化治疗决策的效果。


    整理者:贡畅



    数据随机缺失下的三重鲁棒倾向性分数估计




    主题: Triply Robust Propensity Score Estimation Under Missing at Random主讲人:Jae-Kwang Kim爱荷华州立大学统计系教授,是美国统计协会(ASA)和国际数理统计学会(IMS)会士,并被爱荷华州立大学文理学院评为文理学院院长教授。目前,Kim博士担任韩国国际统计学会(KISS)2023-2024 年度主席。Kim博士的主要研究领域是调查抽样和缺失数据分析,最近也在研究一些半参数估计和因果推断的相关课题。个人主页:https://sites.google.com/view/jaekwangkim/home


    引用文献

    Wang, H., Kim, J. K., Han, J., & Lee, Y. (2023). Triply robust estimation under missing at random. arXiv preprint arXiv:2306.15173.

    内容

    摘要

    统计学的许多领域经常会遇到缺失数据的情况。倾向性分数加权法是处理缺失数据的常用方法。倾向性分数采用的是响应倾向模型,但当缺失数据时,模型设定的正确性可能面临挑战。当结果回归模型或倾向性分数模型都设定正确时,双重稳健估计能保证估计结果的一致性。在本文中,我们首先利用信息投影来开发间接模型校准约束下的高效双重稳健估计器。通过在估计回归参数时施加内部偏差校准条件,得到的倾向性分数估计器可以等价地表示为双重稳健回归估计器。此外,我们还对信息投影进行了泛化,以实现对离群点的稳健估计,并展示了一些渐进分析的结果。虚拟实验研究证实,我们提出的方法不仅可以针对违反各种模型假设的情况进行稳健推断,还可以针对离群点进行稳健推断。真实数据应用案例选取了水土保持效果评估项目的数据。

    贡献

    在本文中,我们为数据随机缺失(missing at random)情况下的双重稳健倾向性得分估计建立了一个统一框架。具体地,我们将信息投影应用于协变量平衡约束下的倾向性分数加权问题。

    施加协变量平衡约束可以理解为间接模型校准,这是倾向性分数加权估计器实现双重稳健性的关键条件。由此得到的倾向性分数加权估计器可以被表示为回归估计器,使用平衡函数作为结果回归模型中的协变量。这种代数等价关系被称为 “自效率”(self-efficiency)。

    由于结果变量中的离群点往往会大大降低估计结果的效率,我们开发了一种基于γ幂散度的离群点稳健回归估算方法,然后通过自效率条件将其等价表示为倾向性分数加权估计器。
    整理者:夏业伟





    存在未观察中介-结果混杂下的稀疏中介分析




    主题:Sparse Mediation Analysis with Unmeasured Mediator-outcome Confounding主讲人:Wei Li中国人民大学统计学院副教授。目前担任中国现场统计研究会因果推断分会副秘书长,以及北京生物医学统计与数据管理研究会理事。研究方向为因果推断、缺失数据、测量误差、高维数据、生物统计。联系邮箱:weilistat@ruc.edu.cn个人主页:http://stat.ruc.edu.cn/Home/People/Faculty/f09678c441cd4803a8432f1521904807.htm


    内容

    因果中介分析旨在研究被称为中介因子的中间因素如何调节治疗对结果的因果效应。随着各学科对大量潜在中介因素的测量越来越多,人们提出了对许多甚至高维的中介因素进行中介分析的方法。然而,这些方法通常假定中介因子与结果之间不存在未测量的混杂因子。本文允许存在这种混杂因子,并提供了一种在结构等式模型框架下同时解决识别和中介选择问题的方法。识别策略包括根据多中介因子的潜在因子模型,为未测量的混杂因素构建一个伪代理变量。利用该代理变量,提出了一种部分惩罚过程,以选择对结果具有非零因果效应的中介因子。由此得出的估计结果是一致的,并且非零参数的估计结果是渐近正态的。虚拟实验研究表明,与其他现有方法相比,所提出的方法性能更为优越。最后,这种方法被应用于基因组数据,可能作为小鼠肥胖症遗传变异效应的中介基因表达是可识别的。
    整理者:夏业伟





    基于近端因果学习异质治疗效应




    主题:Proximal Causal Learning of Heterogeneous Treatment Effects主讲人:Yifan Cui浙江大学数据科学系助理教授。在他加入浙江大学之前,曾任新加坡国立大学统计与数据科学系助理教授。曾在宾夕法尼亚大学沃顿商学院担任博士后研究员,以及在北卡罗来纳大学教堂山分校获得博士学位。当选了IS(国际统计学会) Elected Member,入选福布斯亚洲U30杰出青年,现担任Biometrical Journal的Associate Editor以及Journal of Machine LearningBesearch的editorial board reviewer.个人主页:https://sites.google.com/view/yifancui/menu/home


    引用文献

    Sverdrup, E., & Cui, Y. (2023). Proximal Causal Learning of Heterogeneous Treatment Effects. arXiv preprint arXiv:2301.10913.


    内容

    摘要

    高效灵活地估计异质治疗效应是一项重要任务,涉及从医学到市场营销等多种领域。目前已经有许多条件平均治疗效应估计器被提出,然而这些方法通常依赖于观测协变量足以证实条件可交换性的前提假设。我们受 R-learner 和 DR-learner 的启发提出了 P-learner,这是一种定制的两阶段损失函数,用于在以观测协变量为条件时可交换性不可信的设定下学习异质治疗效应。我们希望依靠一些替代变量进行因果推断。我们提出的估计器可以通过现成的最小化损失的机器学习方法实现。在核回归的情况下,只要扰动成分得到合理的估计,估计误差就能取到最优的界。

    贡献

    我们提出了一种条件平均治疗效应估计器,它允许我们在条件可交换性失效,但已经测量了一组充分替代变量的情况下估计因果效应。我们的方法受通用 Neyman-正交损失函数的启发,该函数将扰动估计和条件平均治疗效应估计解耦为两个阶段,可通过灵活的基于损失最小化的机器学习工具进行估计,其中后一阶段对第一阶段产生的估计误差的敏感度较低。我们的贡献在于将这种灵活的条件平均治疗效应估计策略扩展到近端因果推断框架,所提出的损失函数依赖于双重稳健分数。这些方法也可用于对条件平均治疗效应的低维表示进行半参数高效估计和推断,如最优线性预测或加权平均治疗效应。
    整理者:夏业伟





    基于高阶累积量的带有潜变量的因果发现




    主讲人:Fan Yang广东工业大学讲师。分别于2015年和2020年获得广东工业大学计算机科学学士学位和计算机应用工程博士学位。2018-2019年,美国宾夕法尼亚州匹兹堡卡内基梅隆大学的访问学生。研究兴趣包括因果发现及其应用。个人主页:htpss//yzw.gdut.edu,cilinfo/1120/6724.htm


    引用文献

    Cai, R., Huang, Z., Chen, W., Hao, Z., & Zhang, K. (2023). Causal Discovery with Latent Confounders Based on Higher-Order Cumulants. arXiv preprint arXiv:2305.19582.


    内容

    摘要

    具有潜在混淆因素的因果发现是许多科学领域中重要但具有挑战性的任务。尽管在某些领域中基于过度完备独立成分分析(OICA)的方法取得了成功,但它们在计算上很昂贵,并且容易陷入局部最优解。我们注意到有趣的是,通过利用高阶累积量,存在一种特定情况下(例如,当混合过程遵循一种潜在成分结构时),OICA的封闭形式解决方案。鉴于封闭形式解决方案对应于One-Latent-Component结构,我们制定了一种方法来使用高阶累积量估计混合矩阵,并进一步提出了可测试的One-Latent-Component条件来识别潜在变量并确定因果顺序。通过迭代地移除共同识别的潜在成分,我们成功地将结果扩展到Multi-Latent-Component结构,并最终提供了一种学习具有潜在变量的因果结构的实用且渐近正确的算法。实验结果说明了所提方法的渐近正确性和有效性。

    创新

    1. 解决了具有潜在混淆因素的因果发现问题,这在学习因果结构中通常会引发严重的可识别性问题。传统方法(如FCI、RFCI等)在解决这一问题时通常受到马尔科夫等价类的限制,但本文引入了线性和非高斯模型,使得即使存在潜在混淆因素,也能够识别因果结构。

    2. 引入了一种称为One-Latent-Component结构的特定情况,其中两个观测变量受到一个共享的潜在成分的直接影响。通过使用高阶累积量,文章提供了一种OICA的封闭形式解决方案,可以用于估计潜在混淆因素的因果系数比。

    3. 提出了一种方法,可以在已知因果结构的情况下估计混合矩阵,并进一步恢复因果关系。这一方法通过探索混合矩阵中外生和内生变量之间的关系,并利用One-Latent-Component条件来检验假设的因果结构是否正确。

    4. 文章还提出了一种将上述方法推广到Multi-LatentComponent结构的思路,通过去除共享的独立成分,进一步恢复完整的因果结构。

    总的来说,这篇文章的创新点在于提出了一种新的方法,可以在存在潜在混淆因素的情况下进行因果发现,特别是在线性和非高斯模型的背景下。这一方法为解决因果结构学习中的可识别性问题提供了新的思路,并在特定情况下提供了封闭形式的解决方案。同时,文章还探讨了如何在已知因果结构的情况下估计混合矩阵,并提出了一种可行的方法。
    整理者:苏婉婷





    在使用外部观察数据的临床试验中

    对长期结果的治疗效果进行识别和估计




    主题:Identification and Estimation of Treatment Effects on Long-term Outcomes in Clinical Trials with External Observational Data主讲人:Wenjie Hu ,北京大学博士生Google学术:https://scholar.google.com.hk/citations?user=2FC7k-QAAAAJ&hl=en&oi=sra


    引用文献

    Hu, Wenjie, Xiaohua Zhou, and Peng Wu. “Identification and estimation of treatment effects on long-term outcomes in clinical trials with external observational data.” arXiv preprint arXiv:2208.10163 (2022).


    内容

    摘要

    在生物医学研究中,估计药物对慢性疾病的效果需要长时间的随访期,而这在随机临床试验(RCTs)中往往难以实现。用短期代用指标替代长期结果来评估药物效果依赖于严格的假设,而实证研究往往无法满足这些假设。在一个肾脏疾病研究的动机下,本文结合了一个没有观察到长期结果的 RCT 和一个观察到但可能存在未测混杂因素的观察研究,研究了药物对长期结果的效应。在一个弱于先前文献的平均交换性假设下,本文确定了 RCT 中的平均治疗效应,并推导了相应的有效影响函数和半参数效率界限。此外,本文提出了一种局部高效的双重稳健估计器和倒数概率加权(IPW)估计器。如果所有的工作模型都被正确指定,前者可以达到半参数效率界限,但由于交织的工作模型,这可能很难实现。后者具有更简单的形式,并且需要更少的模型规范。使用估计的倾向分数的IPW估计器比使用真实倾向分数更高效,并在离散协变量和有限支持的代用指标情况下达到半参数效率界限。这两种估计器均表现出一致性和渐近正态分布。本文进行了大量的模拟实验来评估所提估计器的有限样本性能。本文应用所提方法来估计真实世界数据分析中口服羟氯喹对肾功能衰竭的疗效。

    创新

    1. 弱化假设条件:相比现有方法,本文在平均可交换性假设的前提下,研究了在RCT(随机对照试验)中无法观察到长期结果的情况下,通过结合观察研究中可以观察到长期结果但可能存在未测混杂变量的数据,来识别治疗对长期结果的影响。这一假设条件较现有方法更弱。

    2. 半参数效率边界:文章推导出了目标参数的半参数效率影响函数和半参数效率边界。这为在估计RCT中的平均治疗效应时提供了理论上的效率界限。

    3. 提出了两种估计方法:文章提出了一种局部高效的双重稳健估计器和一种倒数概率加权(IPW)估计器。局部高效的双重稳健估计器在所有工作模型都正确指定的情况下,达到了半参数效率边界。倒数概率加权估计器具有更简单的形式,并且需要更少的模型规范。使用估计的倾向得分的IPW估计器比使用真实倾向得分更高效,并在离散协变量和具有有限支持的代理变量情况下实现了半参数效率边界。这两种估计方法均表现出一致性和渐近正态分布的性质。


    整理者: 贡畅



    加入因果科学社区


    由智源社区、集智俱乐部联合举办的因果科学与Causal AI读书会第三季,主要面向两类人群:如果你从事计算机相关方向研究,希望为不同领域引入新的计算方法,通过大数据、新算法得到新成果,可以通过读书会各个领域的核心因果问题介绍和论文推荐快速入手;如果你从事其他理工科或人文社科领域研究,也可以通过所属领域的因果研究综述介绍和研讨已有工作的示例代码,在自己的研究中快速开始尝试部署结合因果的算法。读书会直播已结束,欢迎加入因果科学社区,回看第三季直播,加入讨论。


    20多位学者共话因果科学新进展——2023泛太平洋因果推断大会回顾总结


    详情请见:

    因果+X:解决多学科领域的因果问题 | 因果科学读书会第三季启动



    推荐阅读

    1.  面向因果规律的表示学习新方法——因果表征学习最新攻略2. 周晓华:如何用数学语言来描述进行因果分析?3. 丁鹏:多角度回顾因果推断的模型方法4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5. 成为集智VIP,解锁全站课程/读书会6. 加入集智,一起复杂!



    点击“阅读原文”,报名读书会

     

    Read More 

    正文完
    可以使用微信扫码关注公众号(ID:xzluomor)
    post-qrcode
     
    评论(没有评论)
    Generated by Feedzy