大模型的数据飞轮有多重要？

对于大数据与人工智能行业的数据架构、数据效能、算法创新、智能应用四个层面，大模型将带来哪些影响？

只有两条主线，变与不变。

变

湖仓一体、OLAP，更彻底的向量化改造与大规模集群建设

数据治理，更严格的数据质量要求

图机器学习，关注可扩展性与大模型的启发

对话、办公与数据分析，基于语言的开发与交互模式变革

推荐系统，每个模块推倒重来

游戏与AIGA，从语言交互走向行为交互

预训练、微调、提示、数据飞轮，大模型重构AI模型开发

不变

数据存储与计算，不变的确定性逻辑

指标体系与AB实验，不变的增长主题

图机器学习，不变的复杂性

知识图谱，不变的知识沉淀

推荐系统，不变的召回、排序

金融，不变的可信与安全核心

大模型，不变的数据壁垒、深度学习底层缺陷与成本计算

变

数据架构方面，为了适配大模型训练的离线计算特点，大数据基础设施在追赶流式、实时性上暂缓脚步，而在集群规模、稳定性、吞吐量等方面做着重优化，计算、存储上也在往向量化的方向改造，数据、代码、语言都在向量化，很快推高了向量数据库的热度。

数据效能方面，人们开始探索大模型在AB实验、数据治理方向上的应用，包括写代码、拟定方案框架、输出标准等任务。

算法创新方面，震撼于大模型的成功，图机器学习领域正借鉴着Transformer的建模思想，在可扩展性上积极探索。

知识图谱与大模型相辅相成，后者拥有生成知识的能力，前者也能增强大模型的准确率，缓解幻觉问题，不少人甚至预估大模型将取代知识图谱。

大模型的工程落地正如火如荼，基于大模型可以快速通过输出反馈输入迭代优化即形成数据飞轮的特点，数据这个AI界的里子终于取代算法，成为AI界的“高级词汇”。早已趋近成熟的AI基础工程，因为大模型的到来，即将被推倒重塑，MLOps被LLMOps取代，未来是否所有算子都属于Transformer的进化树？开源大模型的蓬勃发展，几乎不逊于ChatGPT的表现，令人猝不及防的内卷速度，迅速成为了大模型竞争的另一极力量。闭源还是开源，是一个问题。

智能应用方面，ToC领域的任何一个角落，都要直接面对大模型重塑的趋势，以互联网大厂为主体的企业都在穷追猛赶，希望在每个细分场景抢落第一个案例，并迅速占有规模优势。

大模型的自然语言理解和代码理解能力，让企业看到了在晶体管发明以来之后的新一轮生产力革命，自然语言可以和代码连接，而代码可以和所有技术逻辑连接，办公、管理、开发从未离得如此近，一人一公司的超级生产者即将出现？而在海量的、大跨度的文本资料面前，大模型又是否有本事吞下金融这头巨兽？

推荐系统，作为国内移动互联网时期的王牌应用，其基于大模型的改造正作为超高优先级项目全面展开，召回、粗排、精排、重排，都可以变成大模型召回、大模型粗排、大模型精排、大模型重排。

自然语言交互模式降低了不同主体交流的门槛，除了人机交互，AI与AI的交互，AI与环境的交互，乃至AI与人、环境的交互，都建立了新的高速连接，以游戏和机器人等领域为代表。

不变

但尽管如此，大模型也不可能改变一切，有太多的“仍然”。

大数据架构中，存储与计算没有被概率逻辑取代，仍然在为复杂的分布式与事务性逻辑苦恼。

AB实验、数据治理的高阶逻辑和决策阶段，仍然必须由人类执行。

超级生产者背后的人类，自然也是不可或缺的。

为了企业的业务增长，人类仍然要兢兢业业地写OLAP、建指标、设计产品。

图机器学习的架构不会被完全Transformer化，从物理学的对称性继承而来的几何深度学习仍然表现出对空间概念学习的优势，对基于序列性表达的大语言模型，自然没有那么擅长空间逻辑。

知识图谱不可能被一朝取代，其存量价值仍然不可限量。

推荐系统，并没有被全栈取代，目前只看到了部分取代升级的可能性。

风控中的恶意团伙识别，因数据跨度大、维度高，如何用大模型建模都是个难题。

NPC内容生成在游戏中只是个非常基础的应用，3D生成才是有变革性的技术，但基于大模型的3D生成质量仍然很粗糙，可控性很差。

结合机器人的具身智能大模型虽然被认为是通向AGI的路径，但仍然停留在研究阶段。

ToB领域的企业则发现了大模型在面对高复杂场景时的性能波动，正在计算投入产出比以及精打细算。

大模型自身，仍然要面对缺乏因果关系、幻觉、恶意行为诱导、数据泄露等根本难题，这一直是老生常谈，这也将限制其在ToC应用的扩展速度。

大数据与人工智能行业，整体的主题仍然是降本增效。各类引擎趋于统一，数据架构变得精简，持续进行云原生改造，数据治理越发精细化，深入到内核中。大模型的作用，从产业角度看，也是降本增效优先。