智源 谷歌提出并开源Video-GroundingDINO | 通过跨模态时空编码提升4.26% 点击下方卡片,关注「AI视界引擎」公众号 视频定位的目标是找到与输入文本 Query 相关的视频中的一个空…