科普|从生物心理学角度看多模态大模型发展史!

1,321次阅读
没有评论

《追AI的人》之AI科普系列短视频,将持续用简单清晰的语言向公众解释对于人工智能的普遍疑问,推动社会就人工智能的发展和治理达成共识。

科普|从生物心理学角度看多模态大模型发展史!
通过长安三万里这部电影,特别是其中的一段片段,我们可以深刻地理解多模态的应用。这一段片段复现了李白创作《将进酒》的经典场面,而通过动画的场景营造、人物背景介绍和声效配音演员的功力,相比纯粹的读一首诗的文本,观众们对这首诗的理解大大深化了。整个场景被多模态化后,这段片段成为了这部电影中最受欢迎的片段之一,并在各个直播平台和短视频平台上被剪辑传播。

要理解这段片段,我们需要识别李白的形象,识别语音中的情感和节奏感,还需要通过OCR技术在图片中识别出文字。这些元素的多模态结合,使得这段片段给人的印象非常深刻。所以,我们需要以某种方式对各种多模态信息进行建模,并将其融合到我们的认知中,然后根据这些信息做出判断,从而理解电影或片段。
科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!

行为时代

科普|从生物心理学角度看多模态大模型发展史!
多模态的认知过程经历了长时间的发展。在大约1970年左右,人们开始在生物学和心理学领域研究多模态。例如,英国的心理学家进行了一项有趣的实验,证明听觉在很大程度上受到视觉的影响。例如,当你看着我说话时,你可能会根据我的唇形来大致猜测我在说什么,而唇形可能会干扰你对语音的判断。

举个例子,假设有一部电影名字叫做《Elephant Juice》。如果你只根据唇形来判断的话,如果你旁边有异性,你可能会向他们低声说”Elephant Juice”,而如果你说得比较轻,他们可能会误解,以为你在说”I love you”之类的话。因为通过唇形感受,”Elephant Juice”和”I love you”非常相似。

科普|从生物心理学角度看多模态大模型发展史!

所以,这部电影也在提醒我们这个问题,即像”Elephant Juice”这样的词语时,当无声地对着旁边的异性念出”Elephant Juice”时,大多数人都会误认为是”I love you”的发音。这是因为”I love you”这个文本比较常见,而”Elephant Juice”这个搭配比较奇怪。在这个过程中,唇形作为一种视觉信息对语音和文字的理解也会产生影响。

换句话说,多模态的融合并不一定只有优势,它也可能会产生各种模态之间的干扰。


科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!

计算时代

科普|从生物心理学角度看多模态大模型发展史!
进入计算时代后,我们需要将这些多模态信息数字化。例如,声音可以转化为信号,而在声音信号的识别准确度方面,逐步引入视觉信号可以大幅提高识别准确率。在交互时代,像CMU等著名大学开始尝试数字视频库等多模态计算项目。这个时代是一个交互时代,人机交互越来越常见,例如与Siri的交互,记录会议录音并同步音视频进行转录或注释,以及使用多传感器和多模态信号进行面对面交互。
科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!

交互时代

科普|从生物心理学角度看多模态大模型发展史!
在交互时代,我们主要是进行信号处理,将多模态信号融合在一起,以完成单模态无法完成的任务。然而,真正实现多模态智能化的是深度学习时代,即从2010年后或2012年后开始的时代。在这个时代,大规模的高质量标准数据集如ImageNet、强大的GPU计算能力以及视觉侧和文本侧的特征提取器的发展,是推动多模态深度学习的核心。
科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!

深度学习时代

科普|从生物心理学角度看多模态大模型发展史!
在深度学习时代,多模态的发展非常迅速,催生出各种文档识别、图像搜索、AI生成等与多模态有关的应用,如在淘宝上使用的图搜功能,搜同款等。多模态作为一门融合性学科,需要对文本、图片、声音等各种模态进行特征提取。这些模态本身是一些杂乱的信息,需要有序地建模到计算机便于接受的类型。例如,图片是由像素组成的,每个像素的数字对应不同的颜色。
因此,在计算机中,图片可以转化为一串数字。对于文本也是一样,需要将文字转化为计算机能够理解的数字编码。音频和文本,它们也有些相似之处,都是由一段段音节或词汇组成的,需要将它们进行数字化编码。数字化编码之后,我们需要进行特征提取。例如,当人类看一张图片时,不会从像素级别逐个看过去,而是扫一眼,能够大概看出这是一个杯子里装着红色的饮料,然后再去看细节部分。因此,在这个过程中,我们需要控制自己的注意力,也就是控制我们的感受野,以及将一串数字变成计算机或人工智能能够理解的矩阵向量,称为特征向量,或者表征。
更多关于多模态的知识,点击阅读👇科普|从生物心理学角度看多模态大模型发展史!
📌往期推荐
🌟《人工智能治理与可持续发展实践白皮书》 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平…👉点击查收白皮书全书连载
🔥《追AI的人》系列直播教你掌握互联网的“流量密码”  | 如何避免ChatGPT被滥用👉点击查收过往29期直播的全部文字回放
🎈算法治理制度》系列丛书内容和电商领域推荐算法的应用与治理差异“大数据杀熟” 的背后👉点击阅读更多算法治理干货
📚《AI治理必修》月刊为什么现在的LLM都是Decoder-only的架构? | 大脑视觉信号被Stable Diffusion复现成图像!”AI读脑术”来了👉点击阅读往期38刊月刊全文
📺 AI治理科普短视频流量为王的时代,教你如何“破圈”创作 | 信息茧房和马太效应是什么👉点击观看往期21期精彩视频

👇AAIG课代表,获取最新动态就找她科普|从生物心理学角度看多模态大模型发展史!

 关注公众号发现更多干货❤️

科普|从生物心理学角度看多模态大模型发展史!
科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!有启发点在看喔👇科普|从生物心理学角度看多模态大模型发展史!

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...