关于多模态AI的三点产品视角反思

多模态AI 技术被认为是AI发展的下一个重要里程碑，具有无限潜力。本文将探讨多模态AI在需求定位、技术路径和产品设计方面的关键问题，并提出相关思考和建议。

关于多模态AI的三点产品视角反思

最近《后GPT时代，多模态是最大的机会》一文中，行业前辈王老师提到，多模态AI的上下游任务与技术路线之间，会有排列组合游戏，处于爆发的早期……是大模型科研与工程领域最好的弯道超车机会。

关于多模态，我个人应该是业内最早关注到的从业者之一（至少6年前）。本文，将从需求定位、技术路径、产品设计三方面、来分享一些AI产品经理视角的反思。

引子：六年前的“多模态”还相对模糊（PPT+专利+demo）

在2017年4月的200页PPT《人工智能产品经理的新起点》中，我提及过“多模态”，如下面2张图：

关于多模态AI的三点产品视角反思

在2017年10月的120页PPT《产品视角下，现阶段的AI如何落地》中，也分享过Andrei Cheremskoy提出的“组合矩阵”方法，能系统性研究深度学习的应用机会。

关于多模态AI的三点产品视角反思

同样在2017年，我写了专利“多模态虚拟机器人的内容生成的方法和系统”。

关于多模态AI的三点产品视角反思

甚至在2016年4月，我还在儿童机器人上，做过“中英文混合对话”+“多模态交互”的最初级demo。（可能是当年技术条件下的最佳demo效果了，最近在星球里分享了当时的演示视频，对于多模态，我个人是认可这个大方向的；下面，仅是想从产品视角，分享些不同的认知，供大家综合参考。

一、需求定位：如何规避“拿着锤子找钉子”的风险？

正面看，很容易觉得排列组合的机会点太多了，容易有过于“理所应当”的风险。此时，可能更需要从产品/需求视角出发，看看咱们到底有哪些非共识的行业know-how。

最近，我分享的《大模型时代，产品经理的什么能力会成为稀缺（1）》一文中提到：

这一波AI 2.0，一定不是简单的ChatGPT化、CUI化。而是需要先把业务吃透，再看可以如何借用AI、对话式交互的能力来解决问题。

就像移动互联网时代，不是把web内容简单搬到手机app上。

现在，也不是智能汽车那种简单的“所见即可说”，全部用语音操控的方式实现一遍。

作为产品经理，一开口，一定不要仅仅是what层面的“可以做什么”。

作为产品经理，一开口，就要说场景、用户、需求、细节、你有什么特别的洞察等等这些。

没有why和how支撑的what，没有意义。

这背后，更实战的干货认知，是我在《AI创业公司的妄念：招个AI产品经理来想idea》中分享的这几段话：

老板/部门负责人们，以为自己需要能提供好点子（idea）的产品经理，但其实真正需要补齐的，是“垂直领域内的需求认知”。

为什么呢？因为假设“碰巧”想到了好的点子（方向和需求定位），但如果没有深度的行业认知，老板（和其他人）也根本不知道如何认知评估这个idea是否靠谱、以及为什么。

即使公司愿意投入一定资源去做MVP，仍然95%的概率会因为搞不清楚事情的关键点、最核心的指标是啥，而错过机会——浅尝辄止的把项目砍掉，直到1、2年后再后悔没有持续投入。

大家可以回顾下自己所在公司/项目，是否经历过这种事？

所以，产品经理是需要有行业know-how（垂直领域内的需求认知），在“某个需求点是真实存在还是伪需求”这种问题上，直接给团队答案的，让大家少走弯路，以及在关键决策场合，还能够扛住老板的压力、坚持自己的判断。

前面《后GPT时代，多模态是最大的机会》原文中提到，“普通用户的想象力是无穷无尽的。只要有更好的表达方式和更简单的工具，用户就一定能再次创造数字内容的新风潮。……根本矛盾在于，目前的技术工具无法满足用户旺盛的创造需求……普通用户很难效法。”

从产品认知看，我个人对此是存疑的。因为对于大多数普通用户，可能并没有那么大的“创意/想象力”能力，也没有那么强的需求迫切度去“发挥创意”。

结果视角，也许会存在“涌现出想象力效果”的情况，但是，原因不一定是“工具”，还可能是因为“用户+AI工具+社区”，类似Midjourney那样。

真正有更大、更明确需求的，是“有私域知识库的个人IP”。

在《我看到的AIGC落地机会（3）_IP知识库+ChatGPT》中，我有提到：

从产品角度看，似乎大家都容易想到这个点；从技术角度看，有技术同行说，技术不是门槛，数据才是。

我想说的是，数据是核心壁垒之一，但这事成败因素，更在于“对IP内容生意的know-how”。

我做AI产品经理社群马上6年了，直到最近大半年，我才开始明白，IP能力和专业（内容）能力，其实是2个不同维度的东西。这个世界里，专业牛人非常多，但能基于内容赚到钱的专业牛人并不多；很多粉丝量很大的IP/自媒体，其实并没有那么赚钱。

原文中，结合自身6年IP社群运营经验教训，我最终想到了3个貌似讲得通的产品/商业定位。

想做这个方向的技术或产品同行估计不少，但如果没有这方面的亲身体验，可能会走一些弯路。

二、技术路径：需要继续把模型（和数据）变大？

原文提到：“将这种智能范式扩展到三维、四维的时空范围，复杂度的增长是指数级别的。因此，在视频、3D、动画序列等较文、图更复杂的多模态领域，技术迭代并收敛到一个大一统方法的时间周期可能会相当长，三至五年只是我的保守估计。”

对这点，好像也有点存疑。不仅因为

1. 现在已经是大炼钢铁的状况了，资源耗损巨大，再加码的话，不对劲。

2. 本来很多从业者就认为，“小样本”学习，才是真正智能的属性之一。

3. 本来很多人认为“多模态”是必须的，但OpenAI的工作和认知告诉我们，在文本层面“预测下一个字符”，“压缩效率”就约等于/等效于“泛化效率”。甚至可以说，在“心”的层面，文本/图像/视频本身就是“全息/等效”的。

而且，公开报道中有过相关的细节：

1、OpenAI首席科学家Ilya Sutskever：训练模型一定会在某个时刻，用完所有 tokens，到那时，就需要其他方法来训练模型，而不是更多数据……我（Ilya）对多模态性的必要性的看法：它并非必须，但绝对有用。这是一个值得追求的好方向，我只是不认为应该将它们分得如此明确。

2、OpenA联合创始人Greg Brockman：一般以为问题在于训练数据太少，但我们有时突然意识到，原来问题出在基本假设上（从第一性原理出发）。

当然，原文中作者也提到，“也许必须采用新算法设计来解决复杂度爆炸的问题。或者，因为模态间知识迁移的可能性，让AI更加深入理解训练数据丰富的低维度文、图信息，一定可以帮助AI更快地从高维度信息中学习知识。”

三、产品设计：有没有新的认知或方法论？

AI 2.0时代，一定会有新的产品设计思路或想法，比如《AI产品方法论之“由用户来完成AI产品设计的最后一公里”》。

对于多模态，目前业内还没有沉淀可供参考。

我也只是曾经有个相关的灵感点：在特殊场景下，任何单一模态disable了，整体还可以继续交互——类比4个引擎的飞机，坏了一个，还可以继续飞！

关于多模态AI的三点产品视角反思

专栏作家

hanniman，微信公众号：hanniman，人人都是产品经理专栏作家，前图灵机器人-人才战略官/AI产品经理，前腾讯产品经理，10年AI经验，13年互联网背景；作品有《AI产品经理的实操手册》（AI产品经理大本营的4年1000篇干货合辑）、200页PPT《人工智能产品经理的新起点》。

本文原创发布于人人都是产品经理，未经许可，不得转载。

题图来自Unsplash，基于CC0协议。

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

关于多模态AI的三点产品视角反思

引子：六年前的“多模态”还相对模糊（PPT+专利+demo）

一、需求定位：如何规避“拿着锤子找钉子”的风险？

二、技术路径：需要继续把模型（和数据）变大？

三、产品设计：有没有新的认知或方法论？

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

一张小卡片敢卖999？原来是智能体AI硬件

佛山也要AI：从“制造之都”迈向“AI 新‘质’造之都”

OceanBase AI新进展：OB Cloud服务数十家头部企业AI应用落地

灵快科技获数百万元天使轮融资，发布能自主进化的AI数据分析师TabTab

老年人12周才有效，年轻人一次就够：科学家揭示丢失的运动激素

预测大模型工业生存法则,华为博士告诉你什么是B端最需要的大模型