Meta AI|关于transformer初始化的有效理论

764次阅读
没有评论

【推荐理由】本文对Transformer进行了前向-后向信号传播的有效性分析。该分析建议这些模型的初始化和训练超参数具有特定的宽度缩放。

Effective Theory of Transformers at Initialization
Emily Dinan, Sho Yaida, Susan Zhang

[Meta AI]

【论文链接】https://arxiv.org/pdf/2304.02034.pdf

【摘要】本文对宽且深的Transformer进行了前向-后向信号传播的有效性分析,即使用多头自注意力块和多层感知器块的残差神经网络。该分析建议这些模型的初始化和训练超参数具有特定的宽度缩放。然后文章采用了这些建议,在实际设置中训练视觉和语言Transformer。

Meta AI|关于transformer初始化的有效理论

Meta AI|关于transformer初始化的有效理论

Meta AI|关于transformer初始化的有效理论

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy