在德国北部城市汉堡郊区的一栋房子前,邮箱上涂了一个单词 LAION。表明这所房子属于一个大规模数据收集工作的幕后人物,LAION是 “大规模人工智能开放网络 “的简称,是他的创业项目,该工作是人工智能热潮的核心,吸引了全世界的关注。
LAION 代表 Large-scale AI Open Network,是高中教师 Christoph Schuhmann 的一个业余爱好项目。他在业余时间和一群志愿者建立了世界上最大的开源 AI 数据集。该数据集被 Google Imagen 和 Stable Diffusion 等用于训练文本图像模型。
Schuhmann 常去 Discord 上的一个 AI 狂热者聚集的群组,当时 OpenAI 的第一代 DALL-E 模型刚刚发布,他既受鼓舞也感到担忧,担心这可能会鼓励科技巨头不开放数据。他和该群组的成员因此创建了一个开源数据集帮助训练文本图像模型 diffusion。仅仅三个月时间,他们发布了一个包含 4 亿对图像及其文字描述的数据集。今天这个数字超过了 50 亿,是世界最大的免费图像和文字描述数据集。当 Emad Mostaque 在 2022 年创建 Stability AI 时,他使用 LAION 训练了模型 Stable Diffusion,还雇佣了两位该组织的研究人员。一年之后,该公司的估值接近 40 亿美元,很大程度上要感谢 LAION 提供的数据。 Schuhmann 没有从中获得任何收入,他也没有兴趣这么做,他想要保持独立。
LAION作为一个非营利组织,提供数据集、工具和模型来解放机器学习研究。通过这样做,我们鼓励开放的公共教育和通过重复使用现有数据集和模型来更环保地使用资源。