如何通过ACK 纳管Nvidia A100 GPU实例，实现资源池化

介绍

在GTC 2020（5月14日）大会上英伟达新一代架构“Ampere”(安培)正式亮相。继数据中心Volta GPU推出三年后终于亮剑。Ampere以数据中心GPU A100的形式首次亮相，专为科学计算，云图形和数据分析而构建。

TensorCore

A100 GPU 包括19.5 teraflops的FP32计算力，6912个FP32 CUDA Core，评价每个SM上64个，40GB内存。在性能上相比V100有较大的提升，装载了第三代TensorCore，在HPC和深度学习场景的稀疏矩阵，吞吐是V100的2倍。

第三代TensorCore 加速支持 FP16, BF16, TF32, FP64, INT8, INT4, 和 Binary 等数据类型
支持更多精度的选择，TF32 计算可以加速深度学习和HPC 应用中的FP32的输入和输出，速度是V100的FP32 FMA 10倍，稀疏矩阵下20倍。
FP16 / FP32 混合精度的深度学习任务，速度是V100的2.5倍，稀疏矩阵下5倍
INT8 比 V100 INT8 快20倍
HPC FP64处理比V100 快2.5倍

MIG

第二个重要特性就是Mig（Multi-Instance GPU）虚拟化技术和GPU分区能力。无需额外费用即可提供多达7倍的GPU实例。
MIG 特性可以将每个 A100 划分为多达 7 个 GPU 实例以实现最佳利用率，有效地扩展了对每个用户和应用程序的访问。
新 MIG 功能可以将单个 GPU 划分为多个GPU分区，每个GPU实例分区的SMs在整个内存系统中都有独立的独立路径—— 片上交叉条端口、二级缓存库、内存控制器和 DRAM 地址总线都是唯一分配给单个实例的。这确保了单个用户的工作负载，即时实例的二级缓存和DRAM负载非常高，也不会对其他分区造成影响，为每个GPU分区实例提供了QOS（服务保证），提供故障隔离。

加速的 GPU 实例只能在完全物理 GPU 粒度下用于不同组织的用户，即使用户应用程序不需要完整的 GPU 。

具有 MIG 图的 CSP 多用户。来自同一个或不同组织的多个独立用户可以在一个物理 GPU 内分配他们自己的专用、受保护和隔离的 GPU 实例。

Kubernetes 上使用MIG

容器服务ACK提供纳管MIG GPU实例的功能，在控制台上可以一键购买或者添加带有A100 的GPU实例，并纳管到Kubernetes中。

创建实例

在控制台上创建一个ACK集群，选择创建节点池，在节点池配置中选择 ecs.ebmgn7.26xlarge 规格，设置节点数量，并确认。

创建完成后，可以在节点池列表查看到节点池中的实例。

配置MIG

查看GPU 信息

登陆上ECS 实例，查看GPU 信息。可以查看到实例上有8个A100 GPU实例，每个GPU是独立完整运行，未开启MIG。

查看支持Mig的规格

执行命令可以指定一个A100 实例查看可分区的规格

nvidia-smi mig -i 0 -lgip

可以看到，节点上id 为0 的这个A100 GPU实例，支持5个分区规格，分别是 1g.5gb / 2g.10gb / 3g.20gb / 4g.20gb / 7g.40gb ，分别代表不同的显存大小，由于大小不同，一个GPU能支持的分区数量也不同。
根据第二列的id 可以知道每个规格的标识，在执行分区时会用到。

执行MIG 分区

我们指定上图中的执行命令

# nvidia-smi mig -i 0 -cgi 9,14,19,19
Successfully created GPU instance ID  2 on GPU  0 using profile MIG 3g.20gb (ID  9)
Successfully created GPU instance ID  3 on GPU  0 using profile MIG 2g.10gb (ID 14)
Successfully created GPU instance ID  9 on GPU  0 using profile MIG 1g.5gb (ID 19)
Successfully created GPU instance ID 10 on GPU  0 using profile MIG 1g.5gb (ID 19)

nvidia-smi mig -i 0 -cci
Successfully created compute instance ID  0 on GPU  0 GPU instance ID  9 using profile MIG 1g.5gb (ID  0)
Successfully created compute instance ID  0 on GPU  0 GPU instance ID 10 using profile MIG 1g.5gb (ID  0)
Successfully created compute instance ID  0 on GPU  0 GPU instance ID  3 using profile MIG 2g.10gb (ID  1)
Successfully created compute instance ID  0 on GPU  0 GPU instance ID  2 using profile MIG 3g.20gb (ID  2)

上述命令会将 0号GPU 做MIG 分区，虚为4块GPU，分别是一个编号9 （3g.20gb），一个14 (2g.10gb)，2个19 (1g.5gb) 。

查看分区

完成MIG分区后，执行 nvidia-smi 即可看到MIG 实例。

nvidia-smi

在MIG device 这一栏中可以看到MIG实例信息：

+-----------------------------------------------------------------------------+
| MIG devices:                                                                |
+------------------+----------------------+-----------+-----------------------+
| GPU  GI  CI  MIG |         Memory-Usage |        Vol|         Shared        |
|      ID  ID  Dev |           BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
|                  |                      |        ECC|                       |
|==================+======================+===========+=======================|
|  0    2   0   0  |     11MiB / 20096MiB | 42      0 |  3   0    2    0    0 |
|                  |      0MiB / 32767MiB |           |                       |
+------------------+----------------------+-----------+-----------------------+
|  0    3   0   1  |      7MiB /  9984MiB | 28      0 |  2   0    1    0    0 |
|                  |      0MiB / 16383MiB |           |                       |
+------------------+----------------------+-----------+-----------------------+
|  0    9   0   2  |      3MiB /  4864MiB | 14      0 |  1   0    0    0    0 |
|                  |      0MiB /  8191MiB |           |                       |
+------------------+----------------------+-----------+-----------------------+
|  0   10   0   3  |      3MiB /  4864MiB | 14      0 |  1   0    0    0    0 |
|                  |      0MiB /  8191MiB |           |                       |
+------------------+----------------------+-----------+-----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

根据这个方法，可以将机器上所有GPU 的MIG 做好划分。

重启Device Plugin

当给节点上所有GPU做完MIG配置后，更新节点上的GPUDevicePlugin，将mig策略打开

sed -i 's/"--pass-device-specs"/"--pass-device-specs", "--mig-strategy=mixed"/g' /etc/kubernetes/manifests/nvidia-device-plugin.yml

DevicePlugin 正常运行后可以看到节点上注册了MIG 实例对应的资源：

kubectl describe node <your node>

Capacity:
 cpu:                     104
 ephemeral-storage:       123722704Ki
 hugepages-1Gi:           0
 hugepages-2Mi:           0
 memory:                  791733364Ki
 nvidia.com/gpu:          0
 nvidia.com/mig-1g.5gb:   16
 nvidia.com/mig-2g.10gb:  8
 nvidia.com/mig-3g.20gb:  8

部署应用

部署应用，声明使用 mig-2g.10gb 型号的GPU

kubectl apply -f - <<EOF
apiVersion: v1
kind: Pod
metadata:
  name: smi
spec:
  restartPolicy: OnFailure
  containers:
  - name: nvidia-smi
    command:
    - nvidia-smi 
    - -L
    image: nvidia/cuda:9.0-base
    resources:
      limits:
        nvidia.com/mig-2g.10gb: 1
      requests:
        nvidia.com/mig-2g.10gb: 1
EOF

查看日志

# kubectl logs smi
GPU 0: A100-SXM4-40GB (UUID: GPU-7780f282-99a1-7024-f7a4-65a55230ed76)
  MIG 2g.10gb Device 0: (UUID: MIG-GPU-7780f282-99a1-7024-f7a4-65a55230ed76/3/0)

总结

相比上代Volta架构的V100，A100 的INT8推理、FP32训练性能提升20倍，FP64计算性能提升2.5倍，是历史上进步最大的一次，是NVIDIA GPU 计算一个巨大的飞跃。 A100 中创新提出MIG 多GPU分区技术，能在保障QoS 和隔离的情况下将一块GPU切分成不同大小的GPU实例，利用MIG功能能够将我们的GPU变成一个灵活的资源池，根据使用情况动态分配GPU分区。
目前Kubernetes 使用MIG 的方式需要用户在机器上手动执行MIG 分区，后续ACK团队也会持续关注探索，紧跟用户需求，提供用户更友好地GPU池化能力。

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

如何通过ACK 纳管Nvidia A100 GPU实例，实现资源池化

介绍

TensorCore

MIG

Kubernetes 上使用MIG

创建实例

配置MIG

查看GPU 信息

查看支持Mig的规格

执行MIG 分区

查看分区

重启Device Plugin

部署应用

总结

模型“看视频写网页”，GPT-5仅36.35分！首个video2code基准发布

真够卷的！DeepSeek更完智谱更：GLM-4.6，代码国内最强

九章云极率先完成DeepSeek-V3.2-Exp适配，提供安全高效部署方案

OpenAI突然发布Sora 2：好一个“AI版抖音”！

DeepSeek-V3.2-Exp第一时间上线华为云

DeepSeek-V3.2-Exp第一时间上线华为云

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

ChatGPT可以下单买买买了

宇树机器人被曝漏洞，机器人之间可相互感染，官方火速回应

九章云极率先完成DeepSeek-V3.2-Exp适配，提供安全高效部署方案