【推荐理由】本文对Transformer进行了前向-后向信号传播的有效性分析。该分析建议这些模型的初始化和训练超参数具有特定的宽度缩放。
Effective Theory of Transformers at Initialization
Emily Dinan, Sho Yaida, Susan Zhang
[Meta AI]
【论文链接】https://arxiv.org/pdf/2304.02034.pdf
【摘要】本文对宽且深的Transformer进行了前向-后向信号传播的有效性分析,即使用多头自注意力块和多层感知器块的残差神经网络。该分析建议这些模型的初始化和训练超参数具有特定的宽度缩放。然后文章采用了这些建议,在实际设置中训练视觉和语言Transformer。
正文完
可以使用微信扫码关注公众号(ID:xzluomor)