算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

1,560次阅读

没有评论

量子位智库发自凹非寺
量子位 | 公众号 QbitAI

“百模大战”已开启。

而在大模型热潮中，“人才”成为各大科技公司、创业团队和研究机构激烈争夺的关键。

无论是海外还是国内，当下涉足大模型的企业都在疯狂延揽人才。

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

围绕“如何选择和培养大模型人才”话题，量子位智库特别邀请澜舟科技合伙人&首席产品官李京梅，向读者分享对人才话题的看法，探讨大模型人才的发展现状、机遇挑战以及未来发展前景。

澜舟科技作为生成式大模型代表企业，致力于用场景优势驱动大模型应用超车，在大模型人才团队架构方面更具有贴合应用场景的特点。量子位智库希望通过此次分享，为AI企业搭建、培养大模型人才团队提供有益参考。

本文为量子位智库“大模型人才”系列深度访谈栏目，更多内容请关注即将发布的《2023 AIGC大模型人才发展全景报告》。

访谈人物介绍

李京梅，澜舟科技合伙人&首席产品官，北京大学学士、美国纽约州立大学硕士、美国宾州州立大学 MBA。

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

△ 澜舟科技合伙人兼首席产品官李京梅

曾就职于微软美国和微软亚太研发集团，阿里云等头部软件、云计算公司，在云计算、大数据、人工智能、城市大脑等领域具有丰富的产品和解决方案经验。

精彩观点

今年企业对大模型训练效率、推理效率的提升需求更加明显，如何利用好有限算力成为关键。
模型的效果好坏依赖算法人才，模型的效率高低取决于AI工程人才。
对于算法人才，我们关注候选人在专业领域的认知、所在的学术团队、论文等学术成果。
大模型是新兴技术，悟性好的年轻人可以快速学习并上手，不需要太多历史包袱。
应用和基础研究强结合的培养方式，更适合国内对大模型人才的需求。

访谈实录

大模型人才如何划分

量子位智库：澜舟科技如何划分大模型人才？

李京梅：澜舟科技的人才体系是与面向企业客户的服务体系直接挂钩的。澜舟科技拥有自有大模型，我们的定位是大模型+To B应用，面向金融机构、互联网公司等企业做行业应用落地。

澜舟科技面向企业的服务体系目前分为四层，L1、L2、L3、L4。L1是基础通用大模型，L2是行业大模型，目前主打的是金融、营销、文娱等领域，还包括机器翻译等垂直大模型。L3是聚焦具体的场景任务，比如金融行业里根据财经新闻写摘要或写研报。L4是自主智能体，或者称为数字助手，这四层体系与我们的人才是直接相关的。

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

量子位智库：有人按照模型部署中重要程度将大模型人才划分成三类：大模型核心研发人才、工程/产品人才、大模型应用人才，您怎么看这种分类方式？

李京梅：您所说的算法人员、工程支撑人员、产品人才和我们服务体系各个层级都相关。

就算法人才而言，L1、L2、L3各自分别有负责通用大模型、行业大模型和偏场景应用的算法负责人。在这当中，最核心的是通用大模型的算法人员，因为其他的模型都是继承自L1的通用大模型。

就工程人才而言，与传统互联网岗位划分没有区别，包括前端、后端和测试人员。

就产品经理而言，L1通用大模型的产品经理的作用是横向支撑，L2和L3的产品经理要继承通用大模型的能力，并基于金融行业或其他行业训练出大模型以及上层应用。

量子位智库：L1到L4这几类人才，哪种是相对比较稀缺的？

李京梅：通用大模型核心研发人才是最为稀缺的。像我们创始人周明老师在微软时就接触过大模型、预训练这些技术，但这样的人才很少，Transformer技术是2017年才发布的，2017年后才陆续产生大模型研发人才。

L2层跟L1层的人在能力画像上差别不大，纯从技术层面，跟L1层的技术要求一样。但L2层因为行业和领域数据不同，需要业务场景，对L2层的人才的要求是训练出面向金融行业更好的模型。

L2人才基于内部协同和分工会有更多行业认知，比如对金融行业大模型做评测时，应该如何定义十项任务，除了L2技术人员，还有面向行业解决方案的产品经理，给出行业输入，L2的人才综合能力更强一些。

大模型训练环节中注重配置的人才

量子位智库：在基础通用大模型训练过程中，会更关注哪些环节技术？

李京梅：通用大模型训练过程中会更关注预训练、监督微调（SFT）、指令微调、基于人类反馈的强化学习（RLHF）、价值观对齐等环节。

预训练环节是基于无监督学习，利用海量数据去训练，我们会使用AI框架技术，比如PyTorch，目前也出现了针对大模型训练优化的框架，比如DeepSpeed、Colossal-AI、阿里云内置的框架等，我们也都会使用。

对于多模态技术，澜舟科技更多是偏重文本，但是现在文生图、文生视频、文生语音技术也变得更可行，我们会在开源的图片模型基础上进行二次训练，针对客户想要的图片风格进行可控图片生成，提高生成效率。

我们的多模态技术是在开源模型基础上，通过文字与其他模态结合，从而实现应用场景落地。

量子位智库：在训练过程中，如何应用规模化技术呢？

李京梅：ChatGPT出来前，我们走的是轻量化，轻量化是指模型参数量比较小。截至2021年7月，我们大模型参数量达到10亿，效果就已经很好。我们目前在扩大参数量，推出7B和40B的模型，如果有客户需要我们训练更大参数量的模型，比如700亿、上千亿也是可以做到的。

更大规模参数的模型依赖的是资源，使用分布式技术，像一台机器一样高效训练几百、上千张英伟达显卡，这涉及整个算力、卡、机器之间的通讯效率等，都泛指规模化技术。从最开始的10亿参数量到现在的400亿参数量，我们的规模化技术已经相对成熟了。

量子位智库：对于中间件和工具链技术是如何应用的呢？

李京梅：有些客户除了有模型的购买需求还有掌握训练技术的需求，在数据基础上做Continue-Train，想自己做微调，我们会把工具链的技术对外输出。如果要实现模型流程闭环，必须是有这些工具的。

量子位智库：推理与部署环节技术是如何应用的呢？

李京梅：企业客户有高并发或多并发的需求，需要更高效缩短推理时间，如果大模型推理效率低，就需要多堆显卡，成本被推高；如果大模型推理效率高，就可以使用更少的显卡，缩短响应时间，提升并发效率，现在市面上也出现了推理加速的开源框架。

量子位智库：孟子大模型经历了多次升级，不同的升级过程当中会更注重哪些环节？

李京梅：在预训练技术、规模化技术、工具链技术、推理部署技术上，核心环节我们投入的时间更多，AI框架技术和多模态技术我们更多的是适配和使用。

量子位智库：在这些环节当中会注重去配置哪些能力、哪些专业素养的人才？

李京梅：我们原来做轻量化，现在做更大参数量的大模型，所以就引进了更多在大厂实操过、跑过工程闭环的人才，这类人才更多来自成熟的互联网产业。

今年企业对训练效率、推理效率的提升需求更加明显，如何利用好有限算力就成为关键问题。这体现在商业化定价上，比如调用API接口的定价，如果训练推理的成本高，在定价上就不具备优势。如何用更少的算力，带来同样的用户体验，这就是技术降本的关键。技术不过硬，就需要更多的显卡，成本就高。我觉得这是需要AI工程人才来解决的问题。

预训练技术的好坏在于模型效果如何，但效果好并不代表效率高。效率高就依赖于AI工程人才，这些人不一定特别懂算法，但懂AI工程，很多云平台厂商的工程人才自身不做算法，但是懂算法，他们之前为千万用户到平台上训练、合作、推理提供支撑服务，为了服务好用户，平台需要帮助用户降本提效。像阿里电商，腾讯游戏等自身业务非常庞大，用户并发量都很高，都用自有模型，自己训练好自己用，也会遇到无数挑战，实验室里人才在实践方面还有待提升，很难接触到实际挑战，所以当下AI工程人才是市场所需的。

量子位智库：相比实验室的人才，AI工程人才更稀缺吗？

李京梅：不能说AI工程人才更稀缺，还是要分阶段来看。各家企业在专注训练模型时，更倾向于选择算法人才来训练模型。等现在模型纷纷都已经训练出来，大模型企业期望对外提供服务时，团队就更需要AI工程人才。

也有不少大模型厂商选择绑定平台厂商，根据其提供的工具来进行训练，也就不需要引进实验室人才或工程人才，我觉得这是看各家的选择。

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

大模型人才的选择

量子位智库：澜舟科技会更关注大模型研发人才的哪些方面？

李京梅：人才的学术成果、实践经验、学历背景对于澜舟科技的大模型团队而言都很重要。

我们创始人周明博士就是行业的领军人物，在学术界、研究界的视野就足够。周老师在高校兼职博导，他的博士生、硕士生在学术研究领域有些成果。学术背景我们比较关注，所以硕士生和博士生会比较多。尤其是算法人才，我们关注人才在专业领域内的认知、所在的学术团队、论文等学术成果。

而且基于我们公司注重实践的定位，也看重实践经验丰富的人才，不管是合伙人还是VP都具备实操能力。同样，我们也十分重视专利。除了实践与研发，每年团队都产出几十个核心发明专利。

我们比较综合，不刻意补充纯学术研究的人才，研究也是依赖于实践，避免只做研究、只给客户服务的这些情况。

量子位智库：刚才提到的能力要素，哪些更重要？

李京梅：我觉得要分阶段，因为大模型技术迭代非常快，现在和6个月以前相比会有很大不同。6个月前，大模型基础研究成果更加重要。如今有很多开源大模型，只做底层核心大模型对于面向企业服务的技术厂商并没有那么重要，我们公司定位就是开源技术基础之上再做大模型预训练。我们立足企业服务，所以目前实践型人才占比较高。

大模型训练的效果的好坏通过两种方式来判断，一种是榜单评测，另一种就是客户的评测反馈。客户真正使用上行业模型至少要到明年，我们还是要以实践效果为导向。

量子位智库：您觉得市面上大模型人才的薪酬水平存在过高的情况吗？之后会有所回落吗？

李京梅：我认为目前的薪酬水平是有一点偏离实际情况的，人才市场的变化与整个技术趋势是相关，但不是完全合拍的。如果去年没有ChatGPT的问世，今年的人才市场并不会这么火热。

从目前来看，市场上已有130多个大模型，出现了百模大战的盛况。我们认为这些公司中，到今年年底或明年年初，不太坚定投入大模型的创业公司就会回归原本的核心业务，不会投入大量的时间、精力、财力押注大模型，所以随着时间的推移，对于大模型人才的需求会有所减缓，人才的薪酬也会有所回落。

大模型人才的培养方式

量子位智库：澜舟科技会选择吸纳刚毕业的人才吗？

李京梅：其实这类人才我们大多会选择自己培养。这和我们基因背景有关系，周明老师2020年底从微软出来，到李开复老师创新工场孵化，会热衷于选拔实习生，一般是硕士、博士背景，很多实习一年多转为留用的人才。

量子位智库：我理解是让这些实习生成长为大模型研发人才，培养周期需要一年到两年左右。

李京梅：其实实习生工作半年左右，我们就能看出来是不是具备大模型研发人才的潜力。比如有一位博士在2021年毕业就加入了澜舟科技，他现在成长为能够带领几位师弟的研发leader人才。

现在新技术瞬息万变，具体需要多长的培养周期我觉得要看潜力，半年到一年就能达到大模型研发要求的人才其实很多，他们可以独立完成很多事情，比如说指令微调，强化学习，还有监督微调（SFT）等，悟性强的实习生很快能掌握，但训练中间还是需要有经验的员工check，导师会带一点。

目前阶段，大模型面向企业落地其实是不容易的，但和能力素质较高的年轻人对齐模型研发训练的认知还是很快的。

量子位智库：您怎么看待“大牛带小牛”这种培养形式？

李京梅：我觉得还挺有效的，现在的年轻人相对还是“白纸”，而且大模型这样的新技术不像传统的软件工程需要时间积累和学习，没有太多历史包袱。年轻人的基础好而且跟随自己导师也积累过相关项目经验，可以快速成长到一定的水准，后续接着磨炼，就能够成长成优秀的大模型人才。

量子位智库：澜舟科技吸纳的大模型人才大部分是在自然语言方向，有没有再细分一点的研究方向？

李京梅：也有，比如机器翻译，文本生成搜索这些研究领域的人才比较多。

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

国内大模型核心研发人才规模

量子位智库：您觉得目前的大模型能够做核心研发的人才大概是在什么规模？

李京梅：乐观点的话，国内做核心研发有几千人左右，OpenAI做核心能有几十人，投入已经是非常多的。中国大厂不超过10家，做核心大模型的也没有很多，创业公司就更少了。像王小川说100天招100人，也不是全部都研发大模型，所以几千人就已经很多了。

量子位智库：您觉得未来这些核心研发人才会越来越多吗？

李京梅：肯定会多，现在高中毕业生上大学选专业，他们会参考人才市场薪酬，从而决定选择什么专业，高校也会根据市场情况增加设置相关专业。
除了学生群体，还有很多潜在人才加入大模型行列。之前有很多候选人来找我，把自学大模型的学习笔记发给我，来询问应该补充学习哪些论文和文章。在这些方面有过积累的人才，我觉得都是可以发展成大模型人才的。

量子位智库：您说的这些潜在人才我们看作是大模型的储备人才，那您认为大模型核心研发人才未来会成指数级增长吗？

李京梅：我觉得不至于成指数量级增长，从我的角度来看，能做这件事的团队少而且需求在变少。以Meta的LLama2开源以后，大模型作为基座来讲已经遍地开花了，未来会出现几个巨头。国内外的很多企业也都是站在OpenAI开源的成果上，所以其实做最底层的技术人员，全球范围内的人数都不多。所以我觉得大模型核心研发人员，可能没有之前想象的需要那么顶尖的人才，如今“百模”出现，就表明大模型的基础能力已开始趋同，现在投入大模型的人才不是大家想象说的那么顶尖，必须要OpenAI、Google、Meta出的大模型，可能就会更多围绕上层行业应用去落地。

今年上半年大模型落地很少，都在训练大模型本身，现在发现大家差不太多。大家都在做0-1的事，想要比别人走得更远，更多的人就会关注怎么把大模型应用到场景中。

大模型人才发展现状与未来

量子位智库：您认为目前大模型人才的发展阶段是处于刚刚起步、高速发展，还是相对成熟的阶段呢？

李京梅：如果是指和大模型核心研发相关的人才，那我觉得已经迈过了刚刚起步的探索阶段，现在处于高速发展阶段，分水岭是“百模”情况的出现，意味着已经有很多大模型团队已经实现技术闭环。

量子位智库：您觉得迈向下一个阶段的标志性事件是什么呢？

李京梅：还是商业化事件，比如面向C端有第二个抖音这种现象级产品出现，面向B端稍微滞后一些，企业客户从内部使用到大范围推广还需要一些时间，目前很难说使用大模型给客户带来了多少效用。

量子位智库：关于大模型人才的分布，您觉得哪些地方是比较密集的？

李京梅：我觉得是北京、上海、深圳。北京肯定是最多的，这跟高校人才是密切相关的。然后就是华东、上海，再延展到杭州，因为有阿里在。再有是深圳，因为像华为、腾讯都在深圳。

量子位智库：您觉得国内目前的这种培养模式可以从哪些方面进行提升？

李京梅：加强校企合作是很好的培养人才的方式，这种方式培养出来的人才在毕业时就有工程实践的积累。因为高校人才擅长做学术研究、写论文，但他们没有场景也缺乏数据。所以校企联合可以发挥自身优势，高校人才将自己的研究和实际场景结合会更有益，研究出成果也能继续发论文，对企业来说也能形成前瞻技术的沉淀。

当前一直在讨论产、学、研联动，其实现在很多企业和高校也在做这种合作，澜舟科技也和金融机构成立金融NLP联合实验室。目前适合国内的培养模式，更可能是应用和基础研究紧密结合这种方式。

量子位智库：除了实践型人才，您认为未来什么类型的大模型人才更受企业的青睐？

李京梅：我觉得是跨界人才。比如面向金融领域的大模型，就需要懂金融和大模型的人才。比如AI for science，需要既懂制药又懂AI的人才。未来大模型往产业落地，跨界人才是非常吃香的，至于是从科学家里培养AI人才，还是从AI人才里培养懂业务的人才主要是看大家的选择。

— 完 —

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

MEET 2024大会已启动！点此了解详情。

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

量子位智库发自凹非寺
量子位 | 公众号 QbitAI

访谈人物介绍

△ 澜舟科技合伙人兼首席产品官李京梅

精彩观点

访谈实录

大模型人才如何划分

大模型训练环节中注重配置的人才

大模型人才的选择

大模型人才的培养方式

国内大模型核心研发人才规模

大模型人才发展现状与未来

test

test

文心AIGC

test

test

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

量子位智库 发自 凹非寺量子位 | 公众号 QbitAI

访谈人物介绍

△ 澜舟科技合伙人兼首席产品官 李京梅

精彩观点

访谈实录

大模型人才如何划分

大模型训练环节中注重配置的人才

大模型人才的选择

大模型人才的培养方式

国内大模型核心研发人才规模

大模型人才发展现状与未来

test

test

文心AIGC

test

test

量子位智库发自凹非寺
量子位 | 公众号 QbitAI

△ 澜舟科技合伙人兼首席产品官李京梅