大模型晚报|OPPO 研究院推出 RAM ,帮助标记图片内容

683次阅读
没有评论

大模型资讯:

OPPO 研究院推出 RAM ,帮助标记图片内容

OPPO 研究院近日发表论文,介绍了一款专注图片标记的基础模型Recognize Anything Model ,简称为RAM。

据论文表示,RAM 中引入了一种全新的图像标记范例,对大规模图像文本进行训练,以此来代替传统的手动注释。

论文表示,通过评估测试,团队认为 RAM 在图片标记方面有着令人印象深刻的性能,其能力优于 CLIP和 BLIP。

Altman:OpenAI 并没有上市计划

据财联社报道,OpenAI 联合创始人 Sam Altman 近日在接受采访时表示,OpenAI 并没有上市计划。

Altman表示,鉴于公司结构非常奇怪,没有上市计划。OpenAI将自身定义为有限盈利(capped-profit)企业,这允许它筹集外部资金。

今年1月,微软又向Open AI提供了第二笔多年投资,投资据称高达100亿美元,从而帮助Open AI目前的估值接近300亿美元。

AI数字人服务商FOCO获数千万元天使轮融资,创新工场独家领投

据36氪报道,近日AI数字人解决方案提供商FOCO完成数千万元天使轮融资,由创新工场独家领投,远识资本担任长期独家财务顾问。

此次融资将主要用于技术团队的搭建以及底层技术的研发。

FOCO成立于2022年11月,团队背景主要来自清华、北大等高校。基于自研AI算法,FOCO能通过AI技术实现生成并驱动拥有多模态交互能力的数字人。

库克表示正在密切关注 ChatGPT

据 businessinsider 报道,苹果首席执行官蒂姆·库克近日在接受采访时透露,他正在使用ChatGPT,并对该工具的独特感到兴奋。

库克表示,苹果已经将人工智能技术集成到其产品之中,但大众并不认为这些功能是人工智能。此外,苹果正在密切关注 ChatGPT发展。

库克表示,由大语言模型驱动端聊天机器人有着巨大的前景,但也可能会出现偏见和错误信息等问题,因为此对于人工智能的监管是有必要的。

浙江大学联手字节跳动,推出语音合成系统 Mega-TTS

 arxiv 显示,浙江大学研究团队近日联手字节跳动,推出了全新 Zero-shot语音合成系统Mega-TTS。

据悉,当前的语音合成系统通常是通过自回归语言模型或扩散模型来生成语音,这会忽略语音的本质,导致输出结果可能出现劣质或不可控的情况。而该研究团队认为,可以将语音分解为内容、音色、韵律等不同的属性,并针对每个属性进行建模,为此他们设计出了全新的Zero-shot语音合成系统Mega-TTS。

Mega-TTS 使用大规模的野生数据进行训练,并以不同的方式来对不同的属性进行建模。实验结果表明,Mega-TTS 在语音编辑、语音生成和跨语音语音生成方面均有不错的表现,同时生成的语音在自然和稳定方面有着较为出色的表现。

LTX 宣布推出大模型产品 BondGPT,由 GPT-4提供支持

broadridge 今天宣布,旗下子公司 LTX 今天宣布推出一款对话产品 BondGPT,它将由 GPT-4提供支持。

据悉, BondGPT 可以回答与债券有关的问题,解决他们的麻烦。通过整合在 LTX 上的信息,该模型可以简化工作流程,并帮助用户在债券和投资组合的选择时提高效率。

商汤与上海AI实验室等发布“书生·浦语”大模型

据商汤科技官方消息,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。

“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。

2023世界人工智能大会主题和主视觉发布,微软、谷歌、英伟达、OpenAI等将参会

据上海发布公号消息,2023世界人工智能大会将于7月6-8日在上海举办,以“智联世界 生成未来”为主题,聚焦通用人工智能发展,营造良好创新生态,拥抱智能新时代,共话产业新未来。今年大会重磅回归线下,嘉宾总数再创新高。预计将有超1400位国内外大咖出席,包括图灵奖得主、诺贝尔奖得主、国际组织代表、国外院士、海内外企业家/CEO等。会上将重点围绕大模型、AI for Science、通用智能体、算力、元宇宙、人才等十大话题展开讨论。

中文在线等26家单位联合发布业内首份AIGC数据版权倡议书

由中国版权协会主办的远集坊第五十四期文化讲座《人工智能生成内容版权问题研讨》,本次活动中,中文在线、同方知网、中国工人出版社等26家单位共同发布了国内首份有关AIGC训练数据版权的倡议书。作为业内首份AIGC数据版权倡议书,其最大的价值在于两点:一是唤醒了国内AI企业关于大模型训练数据的版权意识;二是为AIGC研发者规避版权争议提供了方向性指引。

九号公司:公司与英伟达有业务合作情况属实

据中证报消息,网传九号公司-WD与英伟达有业务合作,九号公司-WD证券部工作人员回应称,消息属实,公司是和英伟达确实有一些业务合作。中信证券研报显示,近日,英伟达发布全新的自主移动机器人平台Isaac AMR,Isaac AMR的移动底盘来自九号公司,英伟达则主要负责软件系统的集成。

重点论文:

Mega-TTS:具有固有感应偏置的大规模零镜头文本到语音转换

在语音技术领域,将文本转换为语音的研究一直是一个重要的话题。而随着技术的不断发展,人们也开始关注如何实现语音风格的泛化。此前,相关研究通常采用音频编解码器将语音转换为隐变量,并使用自回归语言模型或扩散模型进行生成。但这种方法忽略了语音固有的属性,可能导致一些缺陷和控制问题。

因此,我们认为语音应该被分解为多个属性,例如内容、音色、韵律和相位,并针对每个属性进行适当的建模。在这个基础上,我们设计了一个新的大型零时刻 TTS 系统,名为 Mega-TTS,并使用大规模的野生数据进行训练。具体来说,我们采用了以下策略:

首先,我们选择频谱图作为中间特征,而不使用音频编解码器编码的隐变量,因为频谱图能够很好地分离相位和其他属性。同时,我们使用基于 GAN 的 vocoder 构建了适当的相位模型,避免了语言模型建模相位的问题。

其次,我们使用全局向量来建模音色,因为音色是一个全局属性,对时间变化不敏感。这种方法可以有效地控制音色的生成。

最后,我们采用基于 VQGAN 的声学模型来生成频谱图,同时使用隐变量编码语言模型来调节语调分布,以捕捉句子中短时间内的语调变化和长期依赖关系。

为了验证 Mega-TTS 的效果,我们将其应用于包含 20000 小时语音的多领域数据集,并对未知说话者进行了评估。实验结果表明,Mega-TTS 在零时刻 TTS、语音编辑和跨语言 TTS 任务中都超过了当前最先进的 TTS 系统。由于每个模块都有适当的感应偏见,Mega-TTS 的生成语音具有很高的自然性、鲁棒性和说话者相似性,这是其他系统所不具备的。

论文链接:https://arxiv.org/pdf/2306.03509.pdf

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy