博士论文 | 从结构化文档到结构化知识 150页

1,607次阅读

结构化文档，例如科学文献和病历，是丰富的知识资源。然而，大多数自然语言处理技术将这些文档视为纯文本，忽略了布局结构和视觉信号的重要性。对此类结构进行建模对于全面理解这些文档至关重要。本文提出了从结构化文档中提取结构化知识的新颖算法。

首先，我们提出 GraphIE，这是一种信息提取框架，旨在对结构化文档中的非局部和非顺序依赖关系进行建模。GraphIE 通过图神经网络利用结构信息来增强单词级标记预测。在对三个提取任务的评估中，GraphIE 始终优于仅对纯文本进行操作的顺序模型。

接下来，我们深入研究化学领域的信息提取。科学文献经常以信息图的形式描述分子和反应。为了提取这些分子，我们开发了 MolScribe，这是一种将分子图像转换为其图结构的工具。MolScribe 将符号化学约束集成到图像到图生成模型中，展示了在处理不同绘图风格和约定方面的强大性能。为了提取反应方案，我们提出了 RxnScribe，它通过序列生成公式解析反应图。尽管在适度的数据集上进行了训练，RxnScribe 在不同类型的图上都实现了强大的性能。

最后，我们介绍 TextReact，这是一种通过文本检索直接增强预测化学的新方法，绕过了中间信息提取步骤。我们关于反应条件推荐和逆合成预测的实验证明了 TextReact 在从文献中检索相关信息并将其推广到新输入方面的功效。

博士论文 | 从结构化文档到结构化知识 150页

论文题目：From Structured Document To Structured Knowledge

作者：Yujie Qian

类型：2023年博士论文

学校：Washington State University（美国华盛顿州立大学）

下载链接：

链接: https://pan.baidu.com/s/1NGaRMsjaIXmtoEcT_yPEtA?pwd=5f7u

硕博论文汇总：

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5

博士论文 | 从结构化文档到结构化知识 150页

微信群 公众号

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

AI AR F1 HTML RSS Web 技术科学

发表至：智源

2023年9月24日

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

即插即用注意力机制 | ResNet50+DSA注意力还可以再挣扎挣扎！！！

李飞飞、吴恩达对谈：这一次，AI 冬天不会到来

微软｜SpectFormer：频谱层和多头自注意力层相结合，更好地捕捉图像特征

安进、拜耳、诺华等巨头纷纷押注AI，临床试验3.0时代来了？

再看多语种大模型预训数据如何清洗：兼论文档结构信息对大模型问答的重要性及实现思路

评论（没有评论）

2023 年 9 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

2023 年 9 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30