白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

点击下方卡片，关注「集智书童」公众号

最近，大规模基础模型的激增推动了将这些模型高效地适应各种下游任务的方法的发展。低秩适应方法，如LoRA，因其出色的参数效率和无额外推理延迟而受到了广泛关注。

本文研究了一种基于适应器模块的更一般形式，这是基于这样的分析：并行和顺序适应分支在微调期间分别学习了新颖和通用的特征。所提出的方法被命名为Hydra，因为它具有多头计算分支，结合了并行和顺序分支以整合能力，这比现有的单分支方法更具表达力，并允许在微调过程中探索更广泛的最佳点。此外，所提出的适应方法明确地利用了预训练权重，通过执行预训练特征的线性组合，使学到的特征在各种不同的下游任务中具有更好的泛化性能。

此外，作者通过经验证据对每个适应分支的特性进行了全面分析。通过广泛的实验范围，包括比较和消融研究，证实了Hydra的效率并展示了其卓越的性能。这一全面的评估突显了Hydra在各种应用中的潜在影响和有效性。

代码：https://github.com/extremebird/Hydra

1、简介

大规模基础模型在广泛领域和任务中取得了显著成功。从头开始训练这些大规模模型是一项艰巨的任务，主要限于少数几个组织。阻碍更广泛可访问性的主要障碍包括庞大的模型规模、极高的计算需求以及缺乏大规模数据集。特别是，大型模型规模即使在用于下游任务的微调过程中也会带来重大的计算负担。有效地将这些大规模模型适应到下游任务已经成为众多应用中的主要实践。

参数高效微调（PEFT）方法可以高效微调预训练网络。尽管这些方法优化的参数数量远远小于总参数数量，但它们在各种下游任务中表现优于完全微调。在PEFT方法中，基于Adapter的方法表现出优越性能，并被广泛使用。它们将轻量级模块，称为Adapter，附加到预训练模型上，并且在微调过程中只优化Adapter模块。

最近，受到模型适应中低内在维度的实证证据的启发，LoRA 利用线性Adapter模块消除了先前基于Adapter的方法中存在的额外推理延迟。此外，各种矩阵分解技术已被应用于Adapter模块以提高效率。

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

虽然基于Adapter的方法已变得更加高效和先进，但它们一直局限于并行或顺序方法。并行（图1-(b)）和顺序（图1-(c)）方法分别表示为和，其中是预训练模块，是Adapter模块。尽管这两种方法以类似的方式表达，但每种方法的Adapter模块优化了不同的特征，即输入为和。换句话说，可以基于Adapter模块在微调过程中的附加方式来获取任务特定的特征。然而，现有的基于Adapter的方法尚未广泛探讨这一方面。

本文研究了每种附加方式的特点。并行分支在与预训练层相同的输入上进行优化，从而学习了未经预训练的任务特定特征。这与以前的研究发现低秩适应经常放大与特定下游任务相关的重要特征的经验观察相一致。另一方面，顺序分支通过其明确的公式学习了从预训练的大规模模型中组合一般特征。

基于这些特点，作者提出了一种更一般的Adapter模块形式，称为Hydra，结合了并行和顺序Adapter模块。所提出的形式是，其中和分别是并行和顺序Adapter。这种公式本质上比单一分支方法更具表达力，因为当或时，它可以归纳为其中一个。作者的假设是引入更一般和具有表达力的形式可以使探索更广泛的局部最优点。因此，这种增加的灵活性可能会导致新任务的卓越泛化性能。

此外，作者使用了LoRA的线性Adapter模块来构建所提出的方法，同时保留其有利的特性。因此，作者方法的两个附加的计算分支可以在训练后合并，因此在推理过程中没有额外的延迟。此外，由于线性Adapter结构简单而通用，所提出的模块不仅易于实现，还可插入任何线性层用于参数高效微调。

在本文中，作者深入探讨了并行和顺序分支的作用。作者观察到每个分支在微调过程中学到了不同的特征。具体而言，并行分支倾向于通过探索在预训练阶段缺失的特征来学习新特征，并且顺序分支通过利用预训练特征相对一般的特征。所提出的方法Hydra在流行的Transformer架构上经过了广泛的测试，作者在涵盖视觉和自然语言任务的多样数据集上进行了微调实验。结果表明，利用并行和顺序分支进一步增强了模型的微调能力，超越了其他流行的微调方法。

2、相关工作

2.1. Transformer

Transformer是一种神经网络架构，使用多头自注意力层，最初提出用于机器翻译。许多大规模预训练的Transformers在许多自然语言处理（NLP）任务中表现出优秀的性能，表明它们具有可扩展性。这些Transformers在NLP领域的成功激发了引入Vision Transformer（ViT）的灵感，这是一种纯粹基于Transformer的Backbone架构，用于计算机视觉（CV）任务，并展示了有前途的结果。

随后，许多基于Transformer的视觉模型被提出并在视觉任务中取得了显著的改进，包括图像分类、密集预测和图像生成。此外，多模态训练和自监督学习也加速了ViT的广泛应用。在本文中，作者将作者的方法应用于在语言和视觉任务中广泛使用的Transformer架构。

2.2. 基于Adapter的方法

基于Adapter的方法是一种参数高效的适应方法，它只涉及训练轻量级的Adapter模块，而不更新预训练模型的原始参数。[Learning multiple visual domains with residual adapters]是应用Adapter模块进行多个视觉领域适应的先驱工作。Adapter引入了一个低秩残差Adapter模块，由具有中间非线性函数的下投影和上投影组成。

随后的研究在各种NLP任务中展示了有前途且高效的微调性能。此外，Compacter利用Kronecker积分解和参数共享来更高效地适应Adapter模块的投影矩阵。VLadapter成功地将各种Adapter应用于多模态（视觉和语言）任务，展示了它们的多功能性和有效性。Adaptformer引入了一个并行Adapter，用于ViT的前馈网络，用于视觉识别任务。尽管这些Adapter调整方法展示了有前途的结果，但具有中间非线性函数的额外Adapter分支会降低推理速度。

LoRA提出了一个由线性层组成的低秩适应模块。这种设计允许在推理阶段以与预训练参数相加的方式合并引入的分支的参数，确保没有延迟。与现有的Adapter调整相比，它在NLP领域显示出了有竞争力甚至更好的适应能力。AdaLoRA进一步改进了LoRA，采用奇异值分解（SVD）来进行自适应预算分配。KAdaptation利用类似于LoRA的低秩权重更新方式，其中更新权重通过共享矩阵和低秩矩阵的Kronecker积获得，用于微调视觉模型。

此外，FacT提出了张量化分解框架，将整个ViT张量化为一个3D张量，然后应用各种张量分解方法，如Tensor-Train(TT)或Tucker(TK)进行因子调整。SSF建议引入缩放和偏移因子，以在ViT的预训练模块之后对特征进行线性变换，以匹配目标分布。

最近，RepAdapter 提出了一种用于低秩适应模块的顺序结构重参数化方案。这些研究表现出了有竞争力的性能和效率，不会降低推理速度。通过构建这些单分支方法，作者将并行和顺序分支合并在一起，以展示更出色的性能。

2.3. 其他PEFT方法

除了Adapter方法的成功之外，还探索了不涉及Adapter的方法。BitFit仅在微调过程中训练偏差项。Diff-pruning引入了一种任务特定的差异向量，在训练过程中自适应剪枝。基于Token的调整方法也是广泛使用的PEFT方法。它们涉及将补充Token，也称为提示，附加到输入或中间序列，并对其进行微调，以引导模型的注意力关注新任务的相关信息。VPT通过应用成功的提示调整方法，在视觉领域展示了有前途的性能。尽管基于Token的调整已经展示了有前途的调整能力，但添加新Token会带来一些缺点。它减少了可用的输入序列长度，可能限制模型能够有效处理的上下文数量。此外，它增加了计算复杂性。此外，将这些方法应用于使用局部自注意的模型可能会带来额外的挑战。

3、本文方法

3.1. 初步

LoRA将线性Adapter模块应用于预训练模型的线性（稠密）层，以实现高效的模型适应。它假定适应矩阵的内在秩较低，允许在A上进行低秩分解（）。也就是说，适应矩阵A被分解为，其中和分别是上投影和下投影的适应矩阵。

因此，线性Adapter模块被表述为。为简便起见，从现在开始，作者使用来表示。

对于给定的输入特征，LoRA的前向传递实现如下：

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

其中是输出向量，是预训练权重矩阵，是偏置。为了在微调期间高效优化线性层，只训练适应矩阵和，而预训练矩阵和偏置则保持不变。尽管使用额外的并行分支对微调是高效的，但会导致推理时的延迟。由于线性性质，可以重新实现等式（2）中的前向传递：

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

换句话说，在推理过程中，Adapter模块可以合并到预训练线性层中，确保没有额外的计算成本。

在等式（1）中，LoRA显然是并行方法之一。LoRA的线性Adapter模块可以在不直接依赖于预训练矩阵的情况下进行优化。因此，它有助于轻松学习与预训练特征不同的新特征。然而，存在失去预训练权重矩阵的泛化能力的可能性。

3.2. SeqLoRA

为了比较并行和顺序方法，作者引入了SeqLoRA，它是LoRA的顺序形式，利用了对预训练线性层的输出向量进行低秩适应的想法。这导致了以下的前向传递：

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

其中是适应矩阵，是上投影适应矩阵，是下投影适应矩阵。与LoRA类似，只有Adapter模块被优化，推理的前向传递可以表示为单一线性层：

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

作者认为LoRA和SeqLoRA互为补充。SeqLoRA可以通过线性组合来自预训练层的特征来学习下游任务的新特征。虽然SeqLoRA有能力基于大规模预训练模型的能力学习非常有用的特征，但在学习在预训练阶段不存在的新概念或特征时可能会遇到限制。

SeqLoRA与最近提出的RepAdapter在其顺序线性Adapter模块方面具有相似之处。但作者引入它是为了与其并行对应物进行比较，并利用了以下作者提出的方法Hydra的组件。

3.3. Hydra

为了充分利用LoRA和SeqLoRA的优势，作者引入了Hydra，这是一种更一般的线性适应模块形式，整合了这两种方法的功能。Hydra允许组合和利用LoRA和SeqLoRA的有利方面，为高效和有效的模型适应提供了全面而灵活的框架。更确切地说，它不仅可以轻松捕捉新特征，还可以基于通用的预训练特征获得更广泛的视野。

对于Hydra，作者结合了并行和顺序适应分支，允许以下的前向传递：

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

其中，，是并行分支的适应矩阵及其秩为的低秩分解，，，是顺序分支的适应矩阵及其秩为的低秩分解。

为简便起见，作者在整篇论文中设置。与LoRA一样，作者对下投影矩阵和使用随机高斯初始化，并对上投影矩阵和使用零初始化。因此，在训练开始时，A和B都初始化为零。对于模型适应，、、和是基于梯度下降进行训练的，而和则不会更新。

如图1-(d)所示，训练的实现包括3个分支：预训练、并行和顺序。在训练后，可以将并行和顺序分支合并到预训练分支中，如下所示：

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

因此，在推理期间，作者的方法不会增加计算复杂性。

此外，LoRA和SeqLoRA可以被认为是Hydra的特定实例，当和时。这一观察结果表明，作者的方法涵盖了一个更广泛的任务特定适应框架。因此，作者的方法提供了增强的建模能力，全面捕捉微调过程中各种适应情景。

3.4. 架构设计

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

虽然作者的方法设计成与任何线性层兼容，但在本工作中，作者专注于将其应用于Transformer架构中的MLP块，这在最近的大规模模型中得到了广泛使用。如图2所示，典型的Transformer块由多头自注意力（MSA）块和MLP块组成，交替使用非线性激活和层归一化。作者将提出的Adapter模块替换为MLP块的最后一层。由于在MLP的最后一个线性层中不使用非线性激活，因此作者可以避免可能在推理期间引起的潜在“额外延迟”。作者将应用作者的方法的MLP块称为Hydra-MLP。

此外，这个设计选择还受到最近研究的启发，该研究揭示了Transformer中的自注意力块倾向于减弱高频信息，而MLP块则增强了它。由于Hydra-MLP包含SeqLoRA，它被设计用于通过线性组合利用预训练特征，因此作者的方法有效地鼓励模型为特定的下游任务提供有用的高频特征。除非另有说明，在本文中，Hydra表示Hydra-MLP。

4、实验

4.1. 少样本实验

首先，由于各种微调应用程序通常限制了数据的可用性，作者使用ELEVATER基准测试中的20个图像分类数据集，在少样本学习场景下验证了作者提出的Hydra。每个数据集包含不同数量的标签以及它们对应的图像。与之前的工作一样，作者使用了CLIP预训练的ViTBase-224/32作为Backbone模型。并且，作者将Hydra的瓶颈秩设置为。

如表1所示，Hydra在20个数据集中有11个获得了最高的准确率，并在平均准确率方面超越了其他PEFT方法。此外，作者报告了PE分数以比较准确性和效率之间的权衡。

PE分数的定义如下：

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

其中是可训练参数的数量，M0是预训练模型参数的数量。作者设置。作者观察到在表1中，作者的方法也获得了最高的PE分数。因此，所提出的方法不仅在少样本学习中有效，而且高效。

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

4.2. VTAB-1k实验

接下来，作者在VTAB-1k基准测试上进行了实验，以比较Hydra与最先进的PEFT方法。VTAB-1k基准测试包括19个视觉数据集，每个数据集被分类为具有不同概念的三个组，即自然、专业化和结构化。作者在监督方式下使用了在ImageNet-21k上预训练的ViT-Base-224/16模型。

根据以前的工作，作者在此实验中将作者的Hydra模块应用于注意力块的两个投影层和MLP块的最后一个线性层的每一层，低秩维度为。

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

作者注意到Hydra在表2中表现出色的PEFT方法。与现有的非线性Adapter方法相比，作者的方法表现出了更高的性能，通过结合线性操作避免了额外的推理延迟。因此，这表明线性Adapter模块也可以在多分支方法中很好地发挥作用。

此外，值得注意的是，将并行和顺序适应分支结合在一起的所提出的方法在表3中表现出色，超越了以前的单分支方法（并行或顺序）。为了在微调过程中有效地学习任务特定特征，换句话说，需要同时使用学习新概念的并行分支和将预训练特征转换的顺序分支。因此，引入一个更全面和富有表现力的结构对于高效的任务适应非常有帮助。

4.3. 自然语言理解实验

在自然语言处理领域，Transformer模型取得了巨大的成功，推动了大量的大规模预训练Transformer模型的发展。因此，许多PEFT方法最初是针对NLP任务提出的。因此，在本节中，作者验证了作者的方法也可以有效地微调预训练的NLP模型。作者在GLUE基准测试上进行了自然语言理解实验。作者使用了HuggingFace Transformers库中的125M可训练参数的预训练RoBERTa（base）。

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

如表3所示，Hydra在需要更少的可训练参数的情况下表现出色，与全面调整相比具有更强的适应能力。与视觉任务实验的结果类似，所提出的方法在超越现有PEFT方法方面表现出色。值得注意的是，尽管LoRA和Hydra都采用相同的线性Adapter模块，但Hydra在LoRA上取得了显著的领先优势（平均+0.7）。这也强调了所提出的方法在NLP任务中的潜力。

总的来说，作者的多分支Adapter模块在不同领域都表现出色，使其成为适用于各种微调场景的多功能方法。

4.4. 分析

Adapter方法可以根据附加方式分为并行和顺序方法。虽然公式（1）和（5）的形式相似，但由于不同的输入特征，它们以不同的方式进行训练。并行分支通过探索在预训练阶段不存在的特征来学习新特征。另一方面，顺序分支通过利用预训练特征来学习相对通用的特征。在本节中，作者将通过实验证据深入探讨并行和顺序分支的属性。此后，作者还从效率的角度分析了Hydra，这是PEFT方法的一个重要元素。

权重矩阵的子空间相似性

作者从权重矩阵的角度分析每个分支。为此，作者测量了预训练权重矩阵与每个分支的权重矩阵之间的相似性。在公式（11）中，表示并行分支和顺序分支的权重矩阵分别为和，对于输入。作者利用如下定义的子空间相似性：

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

其中矩阵和是从矩阵M和N的左奇异矩阵的第一列到第列和第列提取而成的。作者评估了预训练矩阵中前10%奇异方向与适应权重矩阵或中前2个奇异方向之间的相似性。

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

在图3中，作者观察到与A和相比，和之间的整体相似性值较高，这是因为明确利用了。这表明顺序分支倾向于学习与预训练特征相对相似的通用特征。

此外，大多数相似性值都不超过0.25，无论是对于还是。这意味着Hydra模块增强了任务特定特征，而不是之前被放大的特征。因此，作者的多分支模块有效地履行了Adapter模块的角色，需要学习任务特定特征。

特征空间的可视化

作者对微调后的最后一个Transformer块中[CLS] Token的嵌入特征进行了tSNE可视化。在这个可视化中，作者将嵌入特征区分为预训练分支输出，并行分支输出和顺序分支输出。基于此，作者解释了每个分支被训练来表示哪些特征。

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

如图4所示，作者可以观察到并行分支和顺序分支的输出特征分布之间存在明显差异。这清楚地表明每个分支具有不同的特性。特别是，顺序分支的输出特征主要位于预训练分支的特征空间内。这表明顺序分支学习了与预训练特征相似的特征。另一方面，并行分支学习了在预训练阶段未获得的独特特征。

计算效率

在这里，作者讨论了作者的Hydra的参数效率和计算复杂性。为了简化问题，作者假设线性Adapter模块的输入和输出具有相同的维度d。然后，线性Adapter模块的计算复杂性为。这是因为它被定义为，其中，。因此，单一分支方法LoRA和SeqLoRA的计算复杂性也是。

对于，Hydra从根本上讲有两个分支，导致计算复杂性增加。然而，在作者的所有实验中，作者设置，从而导致时间和内存复杂性都是。这意味着LoRA、SeqLoRA和Hydra的计算复杂性在理论上是相同的。

然而，在应用于实际应用程序时，Hydra的多分支设计可能会导致GPU的瓶颈。为了找出这些瓶颈，作者比较了每种方法在CIFAR10数据集上的训练时间。为了公平比较，作者将包括Hydra在内的所有方法都应用于MLP块。作者使用了批量大小为128的ViT-Base-224/32模型。

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

结果如表4所示。它表明，当参数数量（即内存消耗）相似时，通常单一分支方法比Hydra更快。然而，差异不是很显著，并且正如在之前的实验中观察到的那样，与其他方法相比，Hydra表现出了出色的适应性能。此外，Hydra具有无额外推理延迟的优势。因此，用于微调的适应分支不会影响推理计算复杂性。

4.5. 消融研究

在本节中，作者进行了消融研究，以验证作者架构设计背后的合理性。首先，作者进行了一项针对性的比较，以公平评估作者方法的有效性。接下来，作者验证了Hydra在Transformer架构中的有效位置。这里，作者仅呈现了总结的表格，即表5到表7。完整的表格报告在附录A中。

Head对Head比较

Hydra是一种将并行和顺序分支（即LoRA和SeqLoRA）结合在一起的方法。作者进行了实验，消除了其中一个分支，以证明组合分支方法的优势。

为此，作者使用了第4.2节中的视觉实验和第4.3节中的自然语言实验，采用了相同的实验设置。为了公平比较，作者将每种方法应用于每个实验中Adapter模块附加的块。作者配置了低秩以确保可训练参数的数量相似。

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

如表5和表6所示，Hydra在两个实验中均表现出最高的平均性能。此外，虽然LoRA和SeqLoRA之间的性能差异不大，但Hydra表现出明显的差异。这一观察结果表明，将LoRA和SeqLoRA结合起来的方法Hydra比单独使用每个方法更有效。

考虑到作者的分析，即并行分支和顺序分支在性质上是互补的，所提出的方法可以被看作是有效地整合了每个分支的优势。因此，作者的方法的通用和表现力更好，能够在不同的任务领域中实现出色的微调，而不受特定领域的限制。

Hydra模块的位置

从本质上讲，Hydra模块可以应用于Transformer的任何线性层，例如MSA块的投影层或MLP块中的线性层。作者主要将Hydra模块应用于MLP块，受到每个块的独特属性的启发。为了更具体地了解，作者在第4.1节的ELEVATER基准实验中进行了经验性的研究，以确定Hydra模块的最佳块。

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

结果如表7所示。作者观察到，当将Hydra模块应用于MLP块时，它表现出更好的性能。因此，作者在图2中描述的Hydra-MLP的架构设计是合理的。此外，这表明作者的方法能够有效地将由MLP块放大的预训练特征转化为任务特定特征。

5、参考

[1]. Hydra: Multi-head Low-rank Adaptation for Parameter Efficient Fine-tuning.

6、推荐阅读

ViT神技 | 谷歌还是出手了！使用ReLU代替Softmax，精度不减，性能起飞（落地有望了）

中山大学提出MFL-YOLO | 多特征交互损失让YOLOv5再次焕发性能SOTA的光彩！

腾讯实验室提出LATR | 远超PersFormer，成就3D车道线新标杆！

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「集智书童-知识星球」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。
点击下方“阅读原文”，了解更多AI学习路上的「武功秘籍」

2023 年 9 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

白嫖最高境界 | 有预训练+推理代码，不知道怎么训练自己数据集？Hydra Adapter帮你消除尴尬！

1、简介

2、相关工作

2.1. Transformer

2.2. 基于Adapter的方法

2.3. 其他PEFT方法

3、本文方法

3.1. 初步

3.2. SeqLoRA

3.3. Hydra

3.4. 架构设计

4、实验

4.1. 少样本实验

4.2. VTAB-1k实验

4.3. 自然语言理解实验

4.4. 分析

权重矩阵的子空间相似性

特征空间的可视化

计算效率

4.5. 消融研究

Head对Head比较

Hydra模块的位置

5、参考

6、推荐阅读

test

test

文心AIGC

test

test