智源LIVE第119期|AppAgent:多模态大模型作为智能体的研究与探索

475次阅读
没有评论

如果将语言大模型比喻成一个能思考能交流的大脑,多模态语言大模型则是给大脑赋予了眼睛,让它能够像人一样看到世界。本次报告我将介绍团队在多模态大模型方向的努力与尝试。包括如何更高效的构建图文大模型训练数据集以及图文大模型的应用。


在此次报告中,我将介绍我们团队近期在多模态语言模型方面的研究成果(StableLLava, ChartLlama)与Agent应用(AppAgent)。我将重点介绍我们最近在多模态智能体(Agent)方向的研究成果AppAgent:让图文大模型像人一样操作手机App。

智源LIVE第119期|AppAgent:多模态大模型作为智能体的研究与探索

张驰博士,现就职于腾讯公司担任研究科学家。2021年博士毕业于新加坡南洋理工大学计算机学院。他的博士研究课题专注于高效低成本的机器学习和计算机视觉算法,目前的研究方向是大模型时代下的多模态模型与AIGC模型。曾在CVPR、ICCV、NeurIPS、TPAMI等顶级国际会议期刊上发表多篇学术论文。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy