港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

841次阅读
没有评论

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

简化DINO系列模型训练流程

SimDINO团队 投稿

量子位 | 公众号 QbitAI

最新开源的视觉预训练方法,马毅团队、微软研究院、UC伯克利等联合出品!

SimDINOSimDINOv2,通过编码率正则化简化DINO和DINOv2模型训练流程得到的两个最新模型。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

在目前视觉预训练领域,DINO和DINOv2是最强视觉模型梯队选手,也是目前最常用的方法。在多模态大模型火热的当下,DINOv2也经常被用作VLM中的视觉编码器提供视觉特征。

此外,图灵奖得主、Meta首席AI科学家杨立昆团队近期关于世界模型的工作,也基于DINOv2而来。

(当然了,DINO模型本身就是四年前Meta AI团队提出的)

但DINO系列目前仍然需要基于非常复杂的工程方法来实现。

SimDINO通过去除DINO中复杂的后处理步骤等,解决了DINO系列的训练难题

更令人惊喜的是,简化后的模型不仅训练更容易,性能反而更强。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

或许这就是“简单即是美”的设计理念在深度学习中的重要价值?(手动狗头)

马毅表示:

我们不是在修补DINO,而是在重新发现视觉表示学习的本质规律。

核心方法:化繁为简

自监督学习(Self-Supervised Learning,SSL)在处理大规模未标记图像数据方面取得了显著进展。

在CV领域,DINO系列模型堪称自监督学习的标杆选手。

这个无需人工标注就能从海量图像中自主学习特征的模型,不仅在下游任务中屡创佳绩,更成为多模态大模型视觉编码器的标配。

但是,DINO系列模型的强能力,伴随着「需要被精心呵护」:

  • 需要精心设计的温度调度策略(温度参数τ要精确到小数点后三位)
  • 依赖复杂的中心化-锐化操作(堪比精密仪器的校准流程)
  • 必须搭配高维原型投影层(特征维度动辄破万)

这些“保命装置”虽然能防止模型陷入特征崩溃,却让训练过程变成了超参数调优的噩梦。并且当研究人员尝试改进模型架构或适配新领域时,往往牵一发而动全身,稍有不慎就会让整个系统停摆。

为了解决这些问题,SimDINO和SimDINOv2模型闪亮登场~

通过引入编码率正则化,简化训练流程,提高模型的鲁棒性和性能

这俩模型的核心思想,是通过编码率正则化防止表示崩溃,从而去除原始DINO和DINOv2训练流程中许多经验性设计组件。

具体方法包括:

  • 移除经验性组件:删除权重归一化的线性层、平衡操作(如中心化、锐化)以及各种超参数(如温度调度、中心化动量)等。
  • 引入编码率正则化:在损失函数中添加一个简单的编码率正则化项,以防止表示崩溃。

SimDINO和SimDINOv2模型的主要创新点除了上述2种方法外,还有一点,即简化的训练流程

通过上述2种具体方法的改进,SimDINO和SimDINOv2的训练流程更加简洁,减少了对超参数的依赖,提高了训练的稳定性和效率。

引入编码率正则化,训练更稳定、性能更强

回顾自监督对比学习“同类相聚,异类相斥”的原始出发点,研究团队发现,DINO中许多复杂设计(如输出层高维投影、教师网络输出中心化-锐化操作、温度调节等)都是在间接地利用负样本信息来防止模型习得的表示“崩溃”。

而SimDINO系列研究团队提出这一需求,可以转而使用马毅提出的数据编码率失真估计方法(可参考MCR2等系列工作),采用显示度量模型表征的质量作为正则化项。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

基于这一发现,研究人员提出了一个解决方案:

引入编码率(coding rate)正则化,通过在损失函数中添加一个显式的编码率正则项来避免表示崩溃。

这个简单的改动就能替代原本复杂的设计,将训练流程向简约靠近。

而简化的模型训练流程可以带来几个关键优势,即「更清晰的优化目标、更少的组件依赖、更容易的理论分析、更好的可扩展性」。

具体而言,SimDINO保留了DINO模型的EMA自蒸馏方案和多视图数据增强方法,但在对比学习方案上进行了修改。

抛弃输出层高维原型投影+交叉熵多分类,直接使用欧几里得距离/余弦相似度比较学生网络(student network)和教师网络(teacher network)生成的特征。

加入编码率正则化项促使模型学习到更具区分性的表示,移除教师网络输出中心化-锐化操作、温度调节等避免表示崩溃的技巧。

通过引入编码率正则化,SimDINO能够有效防止特征崩溃,确保学习到的信息具有较大的信息熵,从而提高模型的泛化能力。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

SimDINOv2 则进一步将DINOv2 引入的 iBOT机制进行替换。

它直接使用余弦相似度监督掩码区域token与教师网络表示间的对齐,而Sinkhorn-Knopp centering、KoLeo正则化等复杂设计也被简化移除。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

相比于原版DINO, SimDINO的训练流程更为简洁,去除了许多繁琐的组件和超参数,降低了模型训练的复杂度,使得研究人员和工程师更容易理解和实现这些模型。

从实验角度看,这一系列操作可以让模型训练更稳定,性能也更强。

各种评估均优于DINO系列

为了验证SimDINO和SimDINOv2的有效性,研究团队在多个数据集和任务上进行了广泛的实验评估,包括图像分类、目标检测、语义分割以及视频对象分割。

实验结果表明,SimDINO系列在计算效率、训练稳定性和下游任务性能上均优于DINO系列。

ImageNet-1K图像分类

SimDINO和SimDINOv2在ImageNet-1K上进行了评估,包括k-NN 分类和线性评估(linear probing)。

还与DINO、DINOv2进行了对比。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

COCO val2017无监督目标检测与实例分割

在目标检测任务中,研究团队采用MaskCut作为基础检测框架,并在COCO val2017数据集上进行了评估。

具体来说,主要对比了AP50、AP75和AP三个指标:

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

ADE20K语义分割和DAVIS-2017视频对象分割

在语义分割任务上,研究团队采用linear head并在ADE20K数据集上进行了评估。

这个任务上主要对比了 mIoU(平均交并比)和 mAcc(平均像素精度)。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

特别要提到的是,SimDINO还在DAVIS-2017上进行了评估,包括 (J&F)m、Jm和Fm三个标准指标。

结果显示,它在定性的特征可视化分析上也展现出了DINO系列工作中表现突出的语义表达能力涌现现象。

与此同时,SimDINO和SimDINOv2对超参数和数据的变化更稳健了。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

其它

此外,项目论文中通过理论分析,提出了一个关于SimDINO超参数选择的理论:

如何平衡编码率正则化项和距离项的梯度范数

通过理论推导,作者给出了一个关于超参数γ的选择方法,使得两个项的梯度范数在优化过程中保持平衡。

下图显示的是在SimDINO和DINO下训练 ViT-B/16的训练动态。

X轴表示训练周期(epochs),Y轴表示在ImageNet-1K上的k-NN评估性能。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

其中,左图显示的是两个模型均在ImageNet-1K数据集上训练

为更好地展示优化过程,研究团队省略了早期训练阶段的数据。

右图显示的是两个模型均在 COCO train2017 数据集(大约是 ImageNet-1K的1/10)上训练

作为一个验证实验,该结果表明SimDINO需要更少的超参数调优,并且优化过程更加简单。

研究团队

SimDINO系列由多所学校与机构的研究者共同完成,包括UC伯克利、忆生科技、微软研究院、香港大学等。

一作是UC伯克利三年级博士生吴梓阳,导师是马毅。

他主要研究方向为表征学习与多模态学习,致力于通过数学与统计理论构建高效、可解释的深度学习模型。

此前,吴梓阳本硕均就读于康奈尔大学。

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”

在论文最后,SimDINO研究团队进一步提出和建议了SimDINO的几个潜在改进方向:

  • 在SimDINO框架基础上进一步探索不需要自蒸馏优化的自监督目标。
  • 简化后的框架为自监督学习的理论分析提供了更好的切入点。
  • 将”显式化隐式设计选择”的范式推广到其他框架,启发并探索其他模型的简化改进方法。

论文地址:

https://arxiv.org/abs/2502.10385
项目主页:

https://robinwu218.github.io/SimDINO
GitHub:

https://github.com/RobinWu218/SimDINO

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify 鹭羽 2025-12-23 1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
易烊千玺的华为绿手机,真的AI了

易烊千玺的华为绿手机,真的AI了

Failed to fetch content Read More 
AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背 鹭羽 2025-12-23 14...
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」 贾浩楠 2025-12-23 13:57:25 来源:量子...