Google DeepMind 学者研发Focused Transformer ,扩展大模型输出长度限制

617次阅读
没有评论

品玩7月11日讯,据 Arxiv 页面显示,Google DeepMind 研究团队近日联手华沙大学和波兰科学院等机构,研发一项名为 Focused Transformer 的技术

Focused Transformer 技术旨在通过对比训练来扩展上下文长度的方法,可以用于大型语言模型。Focused Transformer 技术通过对比训练来增强 (key, value) 空间的结构,从而扩展了上下文长度。这项技术使得已经预训练的大型语言模型可以被重新训练来延长它们的有效上下文。

论文显示,研究团队使用一款名为 LongLLaMA 的大模型进行测试。经过实验,研究团队已经成功使用 LongLLaMA 模型在密码检索任务中实现了256K的上下文长度。

Google DeepMind 学者研发Focused Transformer ,扩展大模型输出长度限制

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy