研究领域:计算社会科学,自然语言处理,词语嵌入,生活事件序列
论文题目:Using sequences of life-events to predict human lives
期刊来源:Nature Computational Science
论文链接:https://www.nature.com/articles/s43588-023-00573-5
近日发表于 Nature Computational Science 的最新论文表明,如果使用大量有关人们生活事件的数据训练类transformer模型life2vec,可以系统地组织数据,预测一个人一生中将发生的事情,甚至估计死亡时间。
1
通过对 600 万丹麦人的大量健康和劳动力市场数据进行分析,模型将人的一生视为一长串事件,就像语言中的句子由一系列单词组成一样。该数据集包括与健康、教育、职业、收入、住址和工作时间相关的生活事件信息,并以每日的分辨率进行记录。而训练后的模型可决定将有关出生时间、就学、教育、工资、住房和健康的数据置于何处。
图1:Llife2Vec模型对个体数据的表征方式及数据处理流程
模型利用了生活事件序列与自然语言序列存在的结构相似性,根据详细的事件序列来研究人类生活的演变和可预测性,并在一个单一向量空间构建对生活事件的嵌入。结果表明这个嵌入空间是稳健且高度结构化的。
2
life2vec 模型展示了预测人格特质和死亡率等结果的非凡能力,模型表现优于其他先进的神经网络。
图2:预测4年后死亡率时,life2vec模型和其它模型的对比
图3:预测个性特征时,life2vec模型的表现优于RNN等传统模型
利用可解释深度学习模型的方法,可对算法进行深入探究,以了解促成预测的因素。影响life2vec预测的因素与现有的社会科学研究成果相一致。例如,在所有条件相同的情况下,担任领导职务或收入高的人更有可能存活(图4J),而男性、技术工人或患有精神疾病的人死亡风险更高(图4H)。
图4:影响生存率和寿命降低的因素雷达图
3
这项研究提出了一些重要的伦理问题,涉及数据隐私、偏见以及使用人工智能预测个人生活轨迹的更广泛影响。研究结果开启了社会科学、健康科学以及人工智能在人类未来所扮演角色的新对话。在使用该模型评估个人感染疾病或其他可预防生活事件的风险之前,必须更深入地了解这些挑战。
下一步将是纳入其他类型的信息,如文本和图像或有关我们社会关系的信息。数据的使用为社会科学和健康科学开辟了全新的互动途径。而利用自然语言描述的人生经历(例如小说,戏剧)对结局进行预测,或可提升AIGC的性能,根据不同模式的叙事套路生成新故事。
郭瑞东 | 编译
计算社会科学读书会第二季
详情请见:
推荐阅读
1. 数学探索的未来:从AI引导人类直觉到数学大语言模型2. 圣塔菲学者:AI 大语言模型真的理解人类语言吗?3. Nature:AI 引导人类直觉,帮助发现数学定理4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5. 加入集智学园VIP,一次性获取集智平台所有内容资源6. 加入集智,一起复杂!
点击“阅读原文”,报名读书会