智源 纽约大学&Anthropic等提出ILF(从语言反馈中模仿学习):利用语言反馈大规模训练语言模型 在这项工作中,提出了从语言反馈中模仿学习(ILF),这是一种迭代算法,通过从语言反馈中学习,训练LM的行为…