Neural Style Transfer Review III

Neural Style Transfer Review III

实验及评价

从 qualitative evaluation 和 quantitative evaluation 两个方面进行分析。

数据集

  • 10 style images: try to cover a range of image characteristics;
  • 20 content images: select from NPRgeneral;
  • MS-COCO is used for training (offline model) and all content images are not used in training.

为了公平性,本文作者尽量使用原作者提供的模型及参数,尽量使得每组模型都达到最好的效果。

Qualitative Evaluation

主要考虑风格转换后的图像的质量,因为没有比较客观的评价方法,所以只能主观判别转换的质量。

Saliency map 能够表达一幅图像的重点所在,所以作者也对生成之后和之前的 content saliency map 进行考察,看一看是否经过转换之后丢失了很多原有的特征,或者破坏了原来的形状。

IOB-NST & PSPM-MOB-NST

  • Gatys 的原方法转换的效果还是比较不错,也因此经常被同类方法拿来对比;
  • Johnson 和 Ulyanov 的方法得到的结果大体上类似,但不如 Gatys 的结果精致;
  • 以上方法都较好地保存了原图中物体形状;
  • Li 的 GAN 方法观感稍差,因为 GAN 可能不太稳定;
  • GAN 的形状保存不好。

MSPM-MOB-NST

  • Dumoulin 和 Chen 得到的结果类似,保存形状的能力较好;
  • Zhang 和 Li 的方法相似,质量不如上面,但模型较小。

ASPM-MOB-NST

  • Chen and Schmidt 的基于 patch 交换的方法效果不太好;
  • Li 的方法细节不够;
  • Ghiasi 和 Huang 的方法受训练集中出现的风格影响较大,泛化能力稍差,复杂风格的迁移表现不好,但内容保存方面的质量比上面两种方法高。

Quantitative Evaluation

  • 迁移时间:IOB < PSPM < MSPM < ASPM
  • Loss 比较:IOB > PSPM > MSPM > ASPM

从中也体现出速度和质量之间的 trade-off.

一些应用

  • 作为社交产品上线,用户评论作为反馈改进;
  • 用户创作工具;
  • 商业动画制作工具。

一些未解决的问题

评价指标与 benchmark 数据集

对于一个任务,有一个客观合理的评价指标是必要的,这有利于研究者明确自己提出的方法是否真正有效,并与前人方法进行对比。之前有人提出过投票的方法,但显然这种方法的主观性太强,每个人的审美有比较大的差异,无法比较客观地反应质量。

另外 benchmark 的缺乏也使得比较之前缺乏一致的数据,大家都是用自己选择的图片说明效果,无法反应是否对某种风格存在局限性,所以需要一个覆盖广泛风格的数据集,能充分反应各种方法的优点和局限性。

可解释性

  • 对于风格和内容是否可以完全解耦,各种细节在有监督学习中如何体现,很难有合适的数据(比如有没有相同内容但笔锋走向不同的训练数据);
  • 对于归一化,没有可信的数学原理推导;
  • 很容易受到噪声影响,鲁棒性交叉。

Trade-off

  • 速度、灵活性和质量三者的 trade-off,这三者往往不能同时实现,相互制约;
  • 不同的风格转换需要不同的超参数才能达到各自最好的效果,而这些超参数往往需要手动调整,不能自动调节。
打赏
  • 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!
  • © 2020 Bowen
  • Powered by Hexo Theme Ayer

请我喝杯咖啡吧~

支付宝
微信