全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

973次阅读
没有评论

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

明星模型BLIP之父

白交 发自 凹非寺

量子位 | 公众号 QbitAI

AI的新进展频频,人才动态也愈加重磅。

新年第一则大牛人事动向,引发业内关注。

许主洪,IEEE Fellow,新加坡管理大学终身教授,被曝加盟阿里。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

许主洪是谁?1998级清华计算机系本科,硕博毕业于港中文,谷歌学术五万引大佬。

多篇关于多模态预训练论文,深刻影响了业内大模型研发,阿里Qwen、谷歌RT-2都曾引用过其研究成果。

产业界,他曾担任全球最大企业软件厂商Salesforce集团副总裁、亚洲研究院创始院长,从0到1搭建了Salesforce亚洲人工智能研究体系。

现在,阿里方面已经证实。他将出任阿里集团副总裁,向阿里AI To C业务负责人吴嘉汇报,专注于AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。

谁是许主洪?

在加盟阿里之前,他曾在工业界和学术界均拥有超20年经验,曾在新加坡南洋理工大学、新加坡管理大学担任教授。

研究方向包括机器学习的基础研究和人工智能多个领域的应用研究,包括多媒体信息检索、计算机视觉、大数据分析、社交媒体、智能网络安全、计算金融和智慧城市等。

谷歌学术显示,其发表300余篇人工智能顶级学术论文,被引五万余次,2020年至今被引近四万次。

2019年当选为IEEE Fellow,同一年当选的还有知名大佬、CMU教授邢波。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

时间回到1998年,他来到清华大学计算机系读书,本科毕业前往港中文攻读硕博。

2007年他来到了新加坡南洋理工大学。期间他负责开源了一个机器学习库LIBOL,里面有一大批经典和先进的在线学习算法,用于解决大规模机器学习任务,满足各种新兴大数据挖掘应用的需求。

能够看到的是,从那时候开始,他就已经在深入思考连接技术到应用之间这一桥梁。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

随后他去到新加坡管理大学,2020年获终身教职。

转折点在2019年,他正式选择踏入工业界,将自身技术积累真正融入进产业应用当中去。

他的实战场是全球最大企业软件厂商Salesforce,帮助他们补齐AI基础研究与应用这一板块。

他主导开创了多个行业先河的人工智能项目和产品,包括不限于多模态系列模型BLIP、代码生成神器CodeGen、通用CRM助手Einstein GPT

(CRM是客户关系管理软件系统。Einstein GPT支持包括 Slack、销售、服务、营销、商务和应用程序构建器)

另一个实战场是2023年,乘着大模型的技术热潮,他创办了AI初创公司HyperGAI。

期间发布了多款多模态基础模型,特点是在不增加计算成本的情况下,实现当前世界顶尖模型的水平。

在GPT-4V和Gemini Pro等大语言模型都在专注于文本的当下,他们在多模态理解和生成上面取得了不少突破,并且有很强的应用属性在里面。

比如像HPT 1.5 端侧多模态模型,只有4B大小,性能却优于当时微软新推出的Phi-3-Vision(4B)多模态模型,并在多项基准测试中达到了GPT-4V的性能。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

除了一些评测之外,模型还展示了移动端上的使用效果,能够识别图中的关键信息。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

同时它也具备强大的推理能力,可以理解并解答几何题。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

学术领域,他凭借深厚的专业素养和杰出的研究能力,发表了众多顶级学术论文,研究成果备受行业瞩目。

而在产业界,他将前沿技术与实际应用紧密结合,成功推动了AI多个领域的突破与落地,成为连接学术与产业之间的桥梁。

深刻影响多模态大模型研发

问题是有了这位顶尖AI科学家的加盟,对于阿里来说意味着什么?

在许主洪的专业擅长中,不难找到线索和答案。

在他诸多论文中,有两篇BLIP系列论文最为瞩目,累计引用过万,其中BLIP-2始终高居引用榜首。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

更早之前还有技术博主专门研读了他的成果,表示GPT-4V现在还像个黑匣子,而BLIP系列研究不仅在各种视觉任务中表现出SOTA的性能,也可能是打破黑匣子的有效解决方案

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

2023年,各种大语言模型刚刚兴起的时候,业内就已经在思考LLM涌现的通用性和泛化能力,是否也能在视觉领域中实现。

一个统一的视觉与语言的框架,以及一个能将它们与LLM结合起来的框架,成为自然而然的技术需求。

在众多创新方法中,BLIP脱颖而出,它统一了视觉语言任务的理解与生成能力,并通过引入Captioner-Filter机制减少了监督文本的噪声,从而提高模型的训练质量。

模型核心在于独特的编码器-解码器混合架构(MED),该架构由视觉编码器、文本编码器和多模态编码器三部分组成。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

每个模块都有相关的预训练目标,所有三个模块都根据这些预训练目标进行联合训练。

这系列论文所在的语言视觉智能一站式库LAVIS,GitHub超过万颗星,足以见其在业内的影响力。在这个库里还有各种BLIP的衍生,比如X-InstructBLIP、BLIP-Diffusion等等

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

而将时间拉回现在,随着大模型发展的深入,多模态能力作为核心属性,正在重塑着AI的应用范式。

总结来说,多模态让大模型从“单一功能工具”转变为“全知全能的Agent”,其应用场景将不断地深入与拓宽。

核心体现在两个方面:

其一,突破单模态局限,实现更全面的认知与交互。多模态大模型通过融合文本、图像、音频、视频等异构数据,能够构建更接近人类认知、近乎人类水平的模型。

这种跨模态的语义对齐能力,使AI能理解复杂场景中的隐含关联,比如识别图像中的隐喻或情感表达。像夸克、通义APP这种软件,在其智能工具、ChatBot属性之上,集成更多多模态功能之后,就能实现更多精细化功能,成为日常的AI全能助手。

更多样化更复杂的任务需求也将得到满足,多维之间的感知交互,能够实现AI在更多终端和硬件的落地,比如AI眼镜——据称是已经明确的阿里AI to C业务未来探索方向。当然这些还只是单点功能或产品形态,多模态能力还在于更多应用场景的赋能。

所以第二个方面就是:拓展更多应用场景,释放行业生产力

比如医疗场景,多模态模型融合医学影像、基因数据和临床文本,支持个性化诊疗方案生成。教育场景,结合图文、视频和语音的多模态教学助手,可动态适配学生学习风格,提供沉浸式学习体验。

但上述场景对阿里来说不是计划,而是已经部署落地的实践,并且还展现出“干中学”的技术迭代潜力。

在夸克落地的业务中,其“灵知”学习大模型在考研数学题上的正确率和得分率已经比肩OpenAI最新发布的o1模型,且远超国内其他模型。

所以了解了多模态能力与阿里AI to C业务布局的关系,或许也就看懂了许主洪的加盟。

这一次他要连接的是AI多模态能力在C端产品、应用上的端对端闭环能力。

做面向用户的AI技术创新

大模型的发展路线,目前可以总结为两条,一个是面向大模型更高级智能水平的技术演进,一个是面向应用和用户价值/体验的AI技术创新。阿里AI To C业务尤其是夸克呈现出后者的特点。

于阿里而言,许主洪是人工智能学术界的领路人,在产业界同样拥有丰富的应用研发和产品创新经验——尤其他不仅搭建了Salesforce亚洲人工智能研究体系,还将研究成果转化为实际应用——主导的多个AI创新项目,将学术成果转化为商业应用,推动了AI技术产业化进程。

这种学术与产业的双重背景,使得许主洪不仅具备深厚的学术研究功底,还拥有将技术转化为实际产品的丰富经验。这种能力就是阿里AI To C业务所需要的。

而以夸克为代表的阿里AI To C业务,在大模型能力上也一直注重实用性,强调以应用产品驱动大模型的研发、升级方向。

产品追求的不是“颠覆”,而是拳拳到肉,解决用户的核心需求。夸克大模型的典型特点就是不卷参数和打榜,而是依据使用场景提供专业技术能力,衍生出通识、医疗、教育等垂类模型。

这种对用户价值的核心追求,也是AI驱动之下,夸克迅猛崛起,成为国内增长最快、势头最猛、用户使用最多的AI全能助手——没有之一。

量子位智库统计,在APP端,前10个月国内AI APP三日留存数据显示,夸克是唯一突破40%的产品,也是唯一突破两亿累计下载量的。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

△图源:量子位智库

如果说一年前还相对低调,高速增长下的夸克现在也摊牌了,夸克已经完成了品牌升级——2亿人的AI全能助手。

当然,这也是技术、产品、场景等全方位要素驱动之下的结果,天时地利皆具备,现在阿里整个AI To C业务要发力,就是时候在“人和”——人才上点燃东风。

许主洪的加盟可能还只是开始的开始。有消息称,阿里AI To C业务正在组建顶级AI算法研究和工程团队,吸引大量业内顶级人才加盟。

而顶级科学家+顶尖团队,再加上高速前进的AI业务和场景,夸克也好,阿里AI To C业务布局也好,有机会把AI创新带入中国最熟悉的范式之下——技术驱动产品,产品反哺技术,并且在规模最大的用户市场迭代之下,实现综合实力的超车。

AI不是移动互联网,但用户需求和产品体验的价值线,大道至简,一以贯之,未曾改变。

参考链接:

[1]https://raghul-719.medium.com/neural-networks-intuitions-17-blip-series-blip-blip-2-and-instruct-blip-papers-explanation-2378bc860d53

[2]https://github.com/salesforce/LAVIS

[3]https://www.hypergai.com/blog/hpt-1-5-edge-towards-multimodal-llms-for-edge-devices

[4]https://www.linkedin.com/in/steven-hoi-8712b41/?originalSubdomain=sg

[5]https://x.com/_akhaliq/status/1620246724672380930

[6]https://github.com/salesforce/BLIP

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...