图像美学评分

2,338次阅读

图像美学质量评价。在计算视觉美学的研究中，使得计算机或机器人能够“发现图像美”并且“理解图像美”，是当前最活跃的研究主题，也是计算视觉美学研究的第一步。如图3所示，拍摄同样一个场景，通常人们会认为左边图的美感高于右边的图。计算机或机器人是否也能像人一样分辨“美”与“丑”？计算机只有在理解美的基础上，才能智能地美化图像，进而能够创造出美的视觉艺术作品。

图像美学评价数据集

AVA 数据集 (2012)

西班牙巴塞罗那自治大学计算机视觉中心的Murray等构建了一个面向图像视觉美学质量分析与度量的大规模图像数据库（a large-scale database for aesthetic visual analysis，AVA）。

数据集包含255530幅有效图像，每一幅图像都由多个网站注册的人类艺术家会员评分（1~10分），每幅图被评分的人数范围为78~539，平均210人参与评分。该数据集是图像美学评价领域公认的基准测试集，目前有200余篇论文引用了该数据集。其标注数据质量较高，能够支持美感分类、美感评分、美感分布的学习，并且超过60种内容的摄影样式语义标记。然而该数据库并没有考虑图像的拍摄场景、相机参数以及后期处理带来的影响。

AADB数据集 (2016)

除了美感分布之外，在美学因素方面，2016年美国加州大学欧文分校Kong等设计了一个新的图像美学数据集美学因素数据集（aesthetics and attributes database，AADB）。

AADB数据集中包含了8种美学因素（平衡、颜色和谐型、趣味、景深、光照、主体、三分、颜色丰富性）的二值分类评价（在单个美学因素上的“好”与“不好”），然而其美学因素的评价过于简单，不适合用于分析美学评价的主观性与多样性。

PCCD数据集（2017）

中国台湾信息科学研究所的Chang等发布了一个新的图像美学数据集照片语言评论数据集（photo critique captioning dataset，PCCD），首次在图像美学数据集中加入了多美学因素的语言评论信息，并结合卷积神经网络（convolutional neural networks，CNN）与长短记忆单元（long-short term memory，LSTM）进行了图像美学语言评论的预测。

该数据集的标注较为全面，包含了1个总体和6个美学因素的评价分数、分布以及多人语言评论，然而其数据量太少（4307幅），难以满足大型深度神经网络对于训练样本的规模需求，并且其数据来源Gurushots.com已经停止发布更多的评价数据。

AROD数据集(2018)

德国蒂宾根大学的Schwarz等通过在线图像分享网站Flickr，构建了一个大型图像美学数据集多用户共识大型图像数据集（multi-user agreements and assemble a large dataset，AROD），包含了38万幅图像，标注了图像美学评分的标注数据，其美学评分标注数据是由图像查看次数与点赞次数计算得出，可以用于图像美学评分估计。

AVA-Reviews数据集(2018)

复旦大学的Wang等利用AVA数据集构建了AVA-Reviews数据集，包含了AVA数据集中的4万幅图像，每幅图像跟随了6条语言评论，该文献利用CNN与循环神经网络（recurrent neural network，RNN）相结合的神经网络结构同时预测图像的美学分类与语言评论，然而该AVA-Reviews数据集的规模仍然不大，并且语言评论的标注没有考虑多美学因素。

Waterloo IAA database

滑铁卢大学Wang Zhou等建立一个美学图像数据库（可用于quality assessment），包含1000+幅图像。

2. 图像美学评分的应用

阿里巴巴的“鲁班”人工智能设计师能够自动设计商品海报，该系统于2016年“双十一购物狂欢节”当日上线，当年自动设计了1.7亿幅商品海报，商品的点击率提升了100%。如果全靠设计师人工完成，假设每张图耗时20 min，需要100个设计师连续做300年。2017年该系统已经能够每秒设计8000幅海报，共设计了4亿幅海报。“鲁班”系统具有如此强大性能的奥秘就在于其图像美学质量评价引擎，能够从众多自动设计的海报中自动挑选出美学质量较高的一批。

在线视频网站爱奇艺利用图像美学质量评价自动挑选每一段视频的封面，以提高视频的点击率；美团点评公司利用图像美学质量评价自动选择商家首图，以提高商家的用户点击率；时光相册公司利用图像美学质量评价自动推荐最佳照片，为用户提供更好的照片管理体验；美图公司利用图像美学质量评价自动对用户的人像照片进行美化等；研究人员利用图像美学质量评价对输入图像进行自动裁减，输出美学质量高的图像，以及利用图像美学质量评价对图像搜索引擎返回的图像进行排序，以给用户提供高美学质量的检索结果等。

3. 图像美学质量评价的主要难点

与物体识别的语义特征相比，人类审美的奥秘还未出现可量化的科学解释，图像美学特征点选取难度较大。
图像美学质量评价除了具备一定的“客观性”（共识性）之外，还具有很强的“主观性”。
人类对于图像美感的评价存在多种形式，例如分“美”与“丑”，给出数值评分、语言评价等。

4. 图像美学质量评价的研究现状

将从基于人工设计美学特征的方法、基于美学特征深度学习的方法、图像美学质量评价的新任务、图像美学质量评价数据集构建4方面介绍该领域关键技术的发展情况。

基于人工设计美学特征的图像美感分类与评分

2004年，微软亚洲研究院与清华大学自动化系联合提出了一种方法，能够自动区分专业摄影师拍摄的照片与普通用户拍的照片，该项工作被认为是图像美学质量评价最早的一篇论文，研究者收集了16643幅专业摄影师拍摄的照片，以及12897幅普通用户拍摄的照片，使用了21类共846维图像低层特征学习分类模型，从而对测试图像进行美感分类。此外，研究者还收集了379幅图像，每一幅图像请16名测试者（8名男性与8名女性）根据图像美感进行评分（1~5档：差、不好、中等、好、卓越），将每幅图像的平均得分作为其真实的人类评分数据，由此学习回归模型，能够对测试图像进行美感评分，如图4所示。

随后的大部分图像美学质量评价研究工作，通过设计多种视觉特征，拟合人类对图像美学质量的评价结果，依据视觉美学质量对图像进行分类与数值评价，能够给出大众认可的自动评价结果，通常分为以下3个基本步骤。

依据美学标准，收集图像数据集，根据专家知识将该数据集分为美学质量“高”和“低”2个子集（专业/非专业、艺术/非艺术等，或者给出每幅图像的美学质量评分）。
设计多种图像低层与高层特征，并在图像数据集上提取这些特征。
利用机器学习（K算法近邻分类、支撑向量机、随机森林、回归分析、Boosting、朴素贝叶斯等）根据提取的特征与人工分类结果训练分类器，依据视觉美学质量对输入图像进行分类，或者对提取的特征与人类美学质量评分进行回归分析，以实现对输入图像视觉美学质量的数值评价。

基于人工设计美学特征的图像美感分类与评分技术的发展共经历了2个主要的发展阶段：内容无关的图像美感分类与评分、基于内容的图像美感分类与评分。

内容无关的图像美感分类与评分

研究人员设计多种可计算视觉特征，并且利用这些视觉特征，依据视觉美学质量对照片和绘画进行自动分类与数值评价，在早期的研究工作中，研究人员仅仅提取图像的全局特征，接着，Datta等引入了局部区域特征，随后的一些工作又加入了局部区域之间的对比特征。

随后研究人员又提出了基于单一美学因素（颜色和谐性）的特征、高层描述属性特征（构图属性、场景属性、天气属性）、低层通用图像描述符（generic image descriptors）等特征。然而上述研究均没有考虑不同内容的图像具有不同的特征（例如为人像与风景照片设计不同的特征），这样对分类或评分的效果有很大影响，因为不同类型的图像内容具有不同的美学特征。

基于内容的图像美感分类与评分

2010 年欧洲计算机视觉会议（European Conference on Computer Vision，ECCV 2010）上，金鑫等提出了“基于内容的图像美学质量评价”的新研究路线。会议论文匿名评委认为该论文是“利用计算模型学习与表示艺术光影的有意义的一步”。2015年，北京航空航天大学将这项工作进行了扩展和总结，发表于图像处理领域顶级期刊《Transactions on Image Processing》。

2011年国际计算机视觉会议（International Conference on Computer Vision，ICCV 2011）上，香港中文大学汤晓鸥等发表的论文引用了文献，对比2篇论文的内容发现：文献是该研究路线的延续和进一步扩展，将17613幅图像按内容分为7类，并且根据图像内容设计了一系列图像显著区域及其特征的提取方法。

2013年12月，文献研究进一步深入后，成果发表于多媒体领域著名期刊《IEEE Transactions on Multimedia》。文献根据7种内容的图像（风景、植物、动物、夜景、人像、静物、建筑），分析并提取了一系列基于内容的图像特征，利用基于内容的图像特征与支撑向量机，进行图像视觉美学质量的分类，能够显著提高图像视觉质量评价的准确度（图5）。近期基于内容的图像美学质量评价受到了越来越多的研究者的关注，大多集中于人脸图像和人像图像方面。

基于美学特征深度学习的图像美感分类与评分

2014年以来，图像美感分类与评分的研究工作全面进入了深度学习时代：自动提取图像的美学特征，研究人员改造了多种用于图像识别的卷积神经网络，并且将图像风格、图像内容等额外信息显示或隐式地建模于改造后的卷积神经网络中，用于美感分类与评分，其分类准确率比手工设计的特征相比有较大提高。北京电子科技学院提出的ILGNet-Inc.V4 目前在公开的AVA数据集（aLarge-scale database for aesthetic visual analysis）上的分类准确率排名国际第一。文献给出了图像美感分类与评分方面的综述。

图像美学质量评价的新任务：美感分布、美学因素、美学描述等

图像美感分类与评分，本质上是利用1个标量来表示图像的美感，这在很大程度上忽略了人类审美在一定共识上的多样性、主观性、个性化，这也是美学评价与一般图像识别最大的差别，一般的图像识别几乎都有标准答案，共识率很高，产生争议的图像较少。图像美学评分的概率分布能在一定程度上描述审美的主观性，例如方差能够在一定程度上描述人类对一幅图像的共识度，峰度能够在一定程度上描述一幅图像的受欢迎程度等，如图6所示。

早在2011年，中国科学院自动化研究所的Wu等发表的文献就在图像美感分布的预测上进行了初步探索，随后文献给出了统计意义的图像美感主观性分析，然而文献的研究工作淹没在大量（200余篇论文）图像美感单标量值客观评价的研究工作中。北京电子科技学院金鑫等在2017年9月提出了图像美感分布预测方法，设计了一种新的卷积神经网络：RS- CJS（cumulative Jensen- Shannon divergence based deep convolutional neural networks，基于JS 散度的深度卷积神经网络），在深度学习时代重新启动了这个方向，在AVA数据集上取得了目前排名国际第一的美感分布预测性能。

除了美感分布之外，在美学因素方面，2016年美国加州大学欧文分校Kong等设计了一个新的图像美学数据集美学因素数据集（aesthetics and attributes database，AADB），包含了8种美学因素（平衡、颜色和谐型、趣味、景深、光照、主体、三分、颜色丰富性）的二值分类评价（在单个美学因素上的“好”与“不好”），然而其美学因素的评价过于简单，不适合用于分析美学评价的主观性与多样性（图7）。

2017年，英国萨里大学的Collomosse将图像美学质量评价用于图形检索系统。北京理工大学的Wang等将图像美学质量评价用于图像自动裁减系统；山东财经大学的Cui等将图像美学质量评价用于基于美学的图像检索系统，能够自动裁减输入图像，输出美学质量较高的裁减图像，美国Ren等提出了个性化的图像美学评价方法与系统。

图像美学质量评价基准数据集构建方法

图像美学质量评价是一个近十几年才开始引起研究人员关注的一个方向，从一开始就没有走基于规则的路线，而是直接遵循了据驱动的路线，因此图像美学质量评价基准数据集构建就成为了该方向研究的关键前提条件。在图像美学质量人工主观评价得分获取方面，目前主要分为实验室内的人工打分实验（例如香港中文大学的CUHKPO数据集）、在线图像分享打分网站下载收集（例如美国宾夕法尼亚州立大学的photo.net数据集）、众包（crowd sourcing）评价方法。

5. 结论与总结

目前在图像、图形、视频3种主要的可视媒体中，图像美学评价的研究较多，可以将上述研究现状总结为5层任务：

美感分类：是指给定一幅图像，输出“好”和“不好”或者美学质量“高”或“低”2个类别；

美感评分：是给出图像的美学质量评分，表现为一个连续数值；

美感分布：是给出图像的美学质量分数分布直方图。

美学因素：是给出图像的光影、配色、构图、模糊、运动、趣味等多个方面的评价。

美学描述：给出图像美学方面的语言评论。

如图9所示。

对图像美学质量评价技术的分析总结与发展建议如下：

美学评价5层模型与其对应的数据量和研究论文数量总体成倒三角形分布：层级越高，目前的数据量和论文数量越少，标注质量越低。
目前该方向的研究主要集中于客观评价，即第1 层美感分类（200+篇学术论文）与第2 层美感评分（30+篇美学论文）。第3层美感分布的研究，目前还不到10篇论文，第4层美学因素的研究有2篇论文，第5层美学描述的研究只有2篇论文涉及。
美学质量评价5层任务中，可用有标注数据的数量逐层递减。数据主要集中于前3层：美感分类、评分、分布（30万+），第4层美学因素可用数据小于1万（AADB），第5层美学描述数据小于0.5万（PCCD），建议加强图像美学质量评价高层任务的研究力度，增加高层任务所需要的标注数据量，以及增加更丰富的图像美学质量自动评价新任务，并进一步拓展到视频美学质量与图形美学质量评价的研究。
与图像识别（代表性数据集ImageNet：1400万+的有标注数据）等多项计算机视觉任务相比，图像美学的数据获取难度较大，整体数据规模较小（代表性数据集AVA：25万+有标注数据），主流图像美学数据集来自于西方国家，代表了西方的审美观，这对于研究东方人、中国人美学智能极为不利。建议继续扩大图像美学数据集的规模，尤其是需要建立中国人自己的图像美学数据集。
美学质量评价5层任务中，数据的标注质量逐层递减。前3层的数据标注，典型代表AVA数据集中每一幅图像至少有78名艺术家标注，平均每幅图像的标注人数为210。而第4层和第5层每一幅图像的标注人数不到10人，难以支撑美学评价多样性的分析，建议增强图像美学数据集的标注质量与标注多样性。
目前图像美学评价所运用的主流技术为深度神经网络，其性能大大超越了之前的手工设计美学特征，然而深度神经网络学习的特征可解释性较差，难以支撑对人类美学智能的深入研究，需要打开图像美学深度学习特征的黑匣子，建议研究美学特征与人类美学智能的对应关系，进一步探索人类美学智能的奥秘。

正文完

可以使用微信扫码关注公众号（ID：xzluomor）