南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军

715次阅读
没有评论

SMP2023 ChatGLM金融大模型挑战赛由中国中文信息学会社会媒体处理专委会主办,智谱 AI、安硕信息、阿里云和魔搭社区联合承办,天池平台为指定赛事平台。比赛的目标是共同推动大模型在金融领域的发展,并邀请广大开发者和相关技术团队为大模型时代加速创新。

我组硕士生于子涵、郭俊杰、毛云麟组队参加SMP2023ChatGLM金融大模型挑战赛,并在初赛、复赛、决赛三轮比赛中从2294个来自全国各个高校、企业的队伍中脱颖而出,取得复赛第六、决赛第一、总排名第二的成绩,最后获得亚军。

决赛视频https://www.bilibili.com/video/BV1Gm4y1V7LD

南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军

南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军

南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军

方  案  简  介

赛题背景

本次比赛要求参赛选手以ChatGLM2-6B模型为中心制作一个财务问答系统,回答用户的金融相关的问题,不允许使用其他的大语言模型。参赛选手可以使用其他公开访问的外部数据来微调模型,也可以使用向量数据库等技术。 本次比赛评估模型能力的赛题按照涉及模型的能力和复杂程度大体分为初级、中级、高级三种类型,赛题涉及到基础查询、复杂计算查询、开放问答等类型。(详见官网链接:https://tianchi.aliyun.com/specials/promotion/SMP2023ChatGLMChallenge?spm=a2c22.12281976.0.0.3a6824205gkuAf)

解决方案

团队方案仅利用所给年报信息,实现了一个能回答基础信息查询、SQL查询统计、金融开放问答的金融领域大模型,利用“问题分类器-答案生成器”两步走的策略,实现了对多种问题的精准回答。

南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军

整体方案框架分为问题处理数据处理答案生成三个模块

1、问题处理模块利用输入问题构建了一个人工数据集,并通过p-tuning训练得到了问题分类器,实现了问题分类、关键词抽取、回答模板生成、SQL语句生成、年报信息抽取的多任务统一框架,简化了后续任务流程。

南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军

2、数据处理模块将pdf年报转化为txt、pdf两种格式年报,并集成两种格式年报生成了结构化的json文档和dataframe表格,抽取准确率高,去除了大量数据噪声和歧义信息。

3、答案生成模块根据问题处理模块的输出,针对不同种类问题设计了不同的解决策略:

(1)对于财务查询类问题,直接在结构化表格内进行SQL查询和计算得到答案。

南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军

(2)对于公司/人员类问题,由于这类问题对应表格不太规整,因此设计了模型抽取的策略,让模型从非规整化数据中抽取结果。

南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军

(3)对于金融分析问题,基于结构化的json文档进行词向量检索,保证了检索出高质量的背景文档。

南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军

(4)对于金融概念问题基于年报信息构造了一个财务信息知识库,基于知识库进行BM25检索获得背景文档,让大模型对基于文档内容进行回答。

南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军南大NLP组学生荣获SMP2023 ChatGLM金融大模型挑战赛亚军


 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy