近年大型语言模型 (LLM) 带来企业及大规模应用的全新契机。在私领域扩充并部署LLM推理服务,可能面临服务及算力扩充问题。有鉴于LLM推理服务普遍需要较大的GPU资源、又需满足各方非同步、长短不一的文本生成,更需要进行软件设计、代码实现和数据库等多方面的综合考虑和优化,进一步提升算力使用效率。
本次演讲将围绕以下内容展开:
🎯 NVIDIA LLM 容器化部署工具简介
🎯 结合Triton Inference Server及TensorRT-LLM优化您的 LLM 推理服务
🎯 结合PEFT模型搭配TensorRT-LLM扩展您的LLM推理服务
欢迎感兴趣的各位小伙伴扫码免费报名观看直播,【报名】即可免费领取专题PPT《大模型微调与部署实践》👇
(报名后进群,领取PPT)
活动详情
大模型没那么“难”
扫码免费报名👇
(报名后进群,会后领取PPT)
正文完
可以使用微信扫码关注公众号(ID:xzluomor)