每周编辑精选｜微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff

Orca-Math 是微软研究院发布的数学推理模型，该模型展示了较小的专业模型在特定领域的价值，它们可以匹配甚至超越更大模型的性能。微软近期开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集，现已在 hyper.ai 官网提供下载，快来体验吧！

3 月 11 日-3 月 15 日，hyper.ai 官网更新速览：

* 优质公共数据集：10 个

* 优质公共教程：2 个

* 社区文章精选：3 篇

* 热门百科词条：10 条

访问官网：hyper.ai

公开数据集精选

1. Orca-Math-200K 微软数学单词问题数据集

Orca-Math-200K 是微软创建的一个高质量的合成数据集，包含约 20 万小学数学题目，此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。

直接使用：

https://my5353.com/30060

2. MULTI-Benchmark：带有文本和图像的多模态理解排行榜

该数据集为上海交通大学发布的多模态基准测试 MULTI ，旨在评测多模态大模型在理解复杂的表格和图像、以及进行长文本推理的能力。该测试提供多模态输入，并要求回答是精确的或开放式的，反映了现实生活中的考试风格。MULTI 包含逾 18,000 个问题，涵盖从公式推导到图像分析及跨模态推理的多样化任务。

直接使用：

https://my5353.com/30062

3. IEPile 大规模信息抽取语料库

IEPile 是由浙江大学研发的大规模高质量的双语（中英）信息抽取 (IE) 指令微调数据集，涵盖了命名实体识别 (NER) 、关系抽取 (RE) 和事件抽取 (EE) 三大核心子任务。该数据集包含约 200 万条指令样本，总计约 3.2 亿 Token，涵盖了通用、医学、金融等多个领域。

直接使用：

https://my5353.com/30064

4. FFHQ-UV-Intrinsic 用于 3D 人脸重建的面部属性数据集

FFHQ-UV-Intrinsic 是 Ubisoft LaForge 基于 FFHQ-UV 数据集构建的内在面部属性数据集，该数据集包含了 10,000 个主体的面部内在属性，包括漫反射、镜面反射、环境光遮挡和半透明贴图。它是首个公开的、大规模提供高分辨率的内在属性的面部数据集。

直接使用：

https://my5353.com/30113

5. GITQA 多模态图推理问答数据集

GITQA 是香港科技大学和南方科技大学构建的首个包含视觉图的推理问答数据集。该数据集包含超过 423K 个问答实例，每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

直接使用：

https://my5353.com/30116

6. SMolInstruct 化学指令微调数据集

SMolInstruct 是俄亥俄州立大学提出的一个大规模、全面且高质量的化学指令微调数据集，该数据集包含 14 个不同的化学任务，共超过 300 万个样本，涵盖 160 万个独特的分子。

直接使用：

https://my5353.com/30133

7. MusicPile 大型音乐数据集

MusicPile 是由 Multimodal Art Projection Research Community 、 Skywork AI 和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含 517 万个样本，约 41.6 亿 Token，来源包括音乐书籍、 YouTube 音乐字幕、 ABC 记谱法作品等。MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容，对提升大模型的音乐理解与创作能力具有关键作用。

直接使用：

https://my5353.com/30136

8. seq-monkey 序列猴子开源数据集 1.0

序列猴子是出门问问提供的超大规模语言模型，序列猴子数据集是用于训练序列猴子模型的数据集合，现抽取了部分数据集向公众开放：涉及领域包括：中文通用文本语料、古诗今译语料、文本生成语料。

直接使用：

https://my5353.com/30139

9. 豆瓣电影短评论数据集 V2

该数据集包含豆瓣电影网站中 28 部电影的超过 200 万条短评论。它可以用于文本分类、文本聚类、情感分析、语义网络构建以及其他一些与网络挖掘或 NLP 相关的领域。

直接使用：

https://my5353.com/30011

10. AdaDR—论文「基于自适应 GCN 方法进行药物重新定位」的数据集

该数据集为论文「基于自适应 GCN 方法进行药物重新定位」使用的数据集。为了全面评估所提出的模型性能，研究团队使用了四个基准数据集：Gdataset (Gottlieb et al. 2011)、 Cdataset (Luo et al. 2016)、 Ldataset (Yu et al. 2021) 和 LRSSL (Liang et al. 2017)，可应用于药物重新定位任务。

直接使用：

https://my5353.com/30057

更多本周更新数据集，请访问：

https://hyper.ai/datasets

公共教程精选

1. 使用迁移学习进行花卉分类

该教程演示了如何使用迁移学习在一组花卉图像数据集上执行图像分类。教程中将利用一个预训练的卷积神经网络 (CNN) 作为特征提取器，并在其上构建一个自定义分类器来预测花卉的种类。

在线运行教程：

https://my5353.com/n30069

2. 量化 Vision Transformers（Vit）以实现高效部署：策略和最佳实践

随着各行业对先进计算机视觉系统的需求持续激增，Vision Transformers 的部署已成为研究人员和从业者的焦点。然而，要充分发挥这些模型的潜力，需要对其架构有深入的了解。此外，制定有效部署这些模型的优化策略也同样重要。

本教程全面探讨了 Vision Transformer 架构、关键组件以及使它们与众不同的基本原理。在教程的最后，通过代码演示讨论了一些优化策略，使模型更加紧凑，以便于部署。

在线运行教程：

https://my5353.com/n30119

社区文章精选

1. 仅需 5% 训练样本达到最优性能，清华大学研究团队发布条件去噪扩散模型 SPDiff，实现长程人流移动模拟

清华大学研究团队提出了一种新颖的条件去噪扩散模型 SPDiff，该模型能够有效地利用交互动力学，通过社会力引导的扩散过程来模拟人群行为。相关论文已发表于 AAAI 2024。

查看完整报道：

https://my5353.com/n30069

2. 北师大研究团队建立 ECA-Net 模型，预测中国未来 70 年的风能利用潜力

近期，来自北京师范大学环境学院的研究团队发表论文，在全球变暖的大背景下，评估了我国风能潜势将如何发生变化。该研究采用了 22 个 CMIP6 全球气候模型作为输出，从而对模型间的不确定性进行可靠评估。结果显示，本世纪我国整体的风能密度将呈现轻微下降趋势。相关论文已发表于「ACS Publications」。

查看完整报道：

https://my5353.com/n30119

3. 英伟达 2024 GTC 倒计时，黄仁勋会带来面向中国市场的新举措吗？

2024 年 GTC AI 大会定档 3 月 18 日—21 日，黄仁勋将在北京时间 3 月19 日凌晨 4:00—6:00 带来一年一度的分享，主题为「见证 AI 的变革时刻」。HyperAI超神经基于老黄最近的演讲访谈与行业趋势，大胆预测了一下其演讲话题。

查看完整报道：

https://my5353.com/n30151

百科词条精选

1. 平均精度 (mAP)

2. 实例分割 Instance Segmentation

3. 交并比 Intersection over Union (IoU)

4. 多项式插值 Polynomial Interopolation

5. 倒数排名融合 Reciprocal Rank Fusion (RRF)

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://hyper.ai/wiki

B 站直播预告

日期

时间

内容

3 月 11 日
星期一

10:00

17:00

MIT深度学习课程

2020

MIT深度学习课程

2021

3 月 12 日

星期二

10:00

Python API 开发

——初学者综合课程

3 月 13 日

星期三

10:00