论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

539次阅读
没有评论

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster(学术海报)

别急,容在下为你推荐一款新时代科研党神器——PosterAgent,帮你一键从paper.pdf跳转poster.pptx

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

相比GPT-4o,PosterAgent生成指标更优,同时token使用量减少87%,还只需要0.0045美元,就可将22页的论文转化为可编辑的 “.pptx” 终稿海报。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

来自滑铁卢大学的联合研究团队,还精心构建了首个学术海报评估标准Paper2Poster,解决了长上下文、多模态压缩的评估空白。

话不多说,先给大家展示一波效果,以下面这篇CV论文为例。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

先喂给GPT-4o-image,得到的是这样的:

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

显然学术海报三要素(吸睛标题、重点突出、色彩排版),GPT-4o-image通通都没有。

不妨交给PosterAgent试试:

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

视觉更连贯、信息还高效,难怪连已经毕业了的师兄师姐们都在X上哭诉,凭什么我们当年没有它

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

这下妈妈再也不用担心我做不好Poster,被老板在群里夺命call了(狗头)

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

下面来讲讲它为啥这么好用。

多模态海报自动生成

Poster在学术会议里的重要性不言而喻,需要让与会者在几分钟内就迅速从中掌握核心内容,这就很考验制作者的论文浓缩能力,以及文本和图形的排版功底。

为了帮大家解放双手,以及更一目了然地评估海报效果,研究团队提出了评估基准Paper2Poster以及基于此构建的多智能体框架PosterAgent

Paper2Poster:首个学术海报评估基准

Paper2Poster的数据包含100对AI领域论文和作者设计的海报,涵盖计算机视觉(19%)、自然语言处理(17%)和强化学习(10%)等子领域的280个不同主题,论文平均22页,生成海报的文本压缩比约为14.4倍,图形减少比约为2.6倍。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

评估指标覆盖四个基本维度:

  1. 视觉质量:使用CLIP图像嵌入测量生成海报与作者设计海报之间的视觉相似度,再计算图像和文本的相关性,以确保图像属于有效整合。
  2. 文本连贯性:计算文本在Llama-2-7b-hf下的标准困惑度(PPL),衡量文字流畅度。
  3. 整体评估:选择一个VLM(如GPT-4o),从美学 (元素质量、布局平衡、参与度)信息 (清晰度、完整性、逻辑流)两个方面进行1到5分打分。
  4. PaperQuiz:这是团队专门设计的评估指标,以模拟作者和读者的交流。让代表不同专业水平(例如学生和教授)的VLMs阅读每张海报并回答测验,获得最高平均分的海报被认为在传达论文内容方面最有效。
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

PosterAgent:多阶段自动生成框架

根据Paper2Poster的要求,团队设计了一个采用自上而下设计理念的多智能体流程PosterAgent。

首先全局地将整个文档重组为简洁、连贯的章节,然后进行局部精炼,以实现颗粒度对齐。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

具体包含三个关键组件:

  1. 解析器 (Parser):将工具和基于LLM的摘要相结合,提取关键文本和视觉内容,生成结构化摘要库(如各章要点、重要图表)
  2. 规划器 (Planner):匹配文本与图表,并用二叉树布局策略将其连贯排列,通过放大(zoom-in)机制迭代生成面板。
  3. 绘制器-评论器 (Painter-Commenter):绘制器将内容转为简洁的要点列表和用于渲染的可执行代码,而VLM作为评论器提供布局反馈,确保整体连贯性和避免溢出。

超越GPT-4o?

眼见为实,为验证PosterAgent生成效果,研究人员用Paper2Poster评估了四类基线方法:

  • 理想化方法 (Oracle methods):包含原始PDF和作者设计的海报GT Poster,作为最佳呈现基准。
  • 端到端方法 (End-to-end methods):使用GPT-4o
  • 多智能体工作流 (Multi-agent work flows):使用OWLPPTAgent
  • PosterAgent:框架变体分两种,PosterAgent-4o在内部LLM 和VLM评论器均使用GPT-4o,PosterAgent-Qwen的文本生成使用Qwen-2.5-7B,评论器则使用Qwen-2.5-VL-7B。
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

实验结果表明,在视觉质量和文本连贯性上,虽然4o-Image达到了最高的视觉相似度,但它也记录了最差的困惑度,说明生成的海报可能乍一看吸引人,但实际细看全是嘈杂或不连贯的文本。

PosterAgent则实现了最高的图形相关性,在视觉相似度上也紧随人类设计的海报。

当VLM评判时,PosterAgent-4o的平均得分为3.72,达到了与人类设计海报相当的水平,而PPTAgent因为经常生成无意义的文本或大片空白区域,因此得分都较低。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

在PaperQuiz上,也能发现PosterAgent变体始终取得最佳分数。

值得注意的是,PosterAgent-4o虽然依据GPT-4o实现了冗长输出,但基于开源的Qwen-2.5系统变体在原始准确率上更胜一筹,说明PaperQuiz在评估时,内容量很重要,但呈现质量更重要

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

团队还计算了不同方法下的平均token成本,PosterAgent仅使用101.1K和47.6Ktoken,相较于OWL-4o成本降低了60%-87%,相当于每张海报只需要0.55美元 (基于4o)0.0045美元 (基于Qwen)

最后为了方便大家更直观地了解几种方法的海报生成效果,咱再举个例子。

这是论文作者自己做的,主题明确,重点突出,色彩搭配也和谐。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

这张来自GPT-4o-image,看起来好像还行?但是仔细看文字,里面还是有不少乱码。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

这张由GPT-4o-html生成,图片嵌入失败,文本也缺少排版。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

这张出自PPTAgent,生成了大量空白区域。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

下面这张来自OWL,同样缺少图像,甚至没有多余色彩填充。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

最后是咱们的PostAgent,对比下来,海报结构清晰明了,图表与文字匹配度也相当高,在视觉效果上更接近作者设计的海报。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

扩展一下思路,也许PosterAgent还可以用于制作课程学习资料。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

公司里的PPT也未尝不能一试。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

所以感兴趣的小伙伴们速速收藏起来这个海报神器~接下来的CVPR、ACL刚好都可以用上。

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

论文链接:https://arxiv.org/abs/2505.21497
代码链接:https://github.com/Paper2Poster/Paper2Poster
项目链接:https://paper2poster.github.io/

参考链接:
[1]https://x.com/real_weipang/status/1927797168171254006
[2]https://x.com/_akhaliq/status/1927721150584390129

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...