十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

815次阅读
没有评论

今天是2023年10月30日,星期一,北京,雾霾。

我们今天来看看知识图谱与大模型研发过程中的虚与实。

知识图谱讲多一点,10条,大模型少一点,5条。

供大家参考。

一、知识图谱研发落地中的虚与实

1、知识图谱构建流程:工业流程,长且误差传播,本体构建主观性大

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实2、现实:数据多源异构,不单单是算法问题

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

3、现实:半结构化数据复杂多样

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实4、现实:待处理文档复杂多变,多条技术策略轮番集成

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

5、现实:实体识别问题复杂,DIY强,标注需求量大

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

6、现实:远程监督构造数据算法在工业界很难落地

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

7、现实:实体关系抽取中的存在的诸多问题

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

8、现实:实体嵌入表示学习,准确率低,在高精度场景不适用

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

9、现实:实体对齐标准化依靠大量规则策略

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

二、大模型研发与落地的虚与实

1、现实:训练领域大模型的常规范式已知、选型量化不可知

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

2、现实:大模型研发中的数据处理流程已知、定量未知

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实3、现实:预训练数据规模已知,但具体数据配比未知

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

4、现实:SFT微调数据自动生成的蒸馏方式已知、后期处理繁杂

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

5、现实:大模型能力评测有偏、与真实业务隔阂大

十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

参考文献

1、刘焕勇.《LLM+KG知识图谱研发和落地中的虚与实》,2023-10-26,北邮研究生课堂。

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy