技术丨深度解析好莱坞女星“暮光女”发表的人工智能论文


美国时间2017年1月19日,“暮光女”克里斯汀发表了一篇人工智能论文的消息,在整个娱乐圈和科技圈炸开了锅。接下来太阁就带大家看看暮光女这篇人工智能论文的真面目。迷妹们,为了拉近你们和你K的思想水平,我们只能帮到这儿了。




论文摘要

论文题为:运用神经风格转移实现印象派风格之在电影“Come Swim”中的应用(Bringing Impressionism to Life with Neural Style Transfer in Come Swim)




摘要原文翻译:“神经风格转移(Neural Style Transfer)是近年来得以快速发展的技术。它使用神经网络技术来人为的重塑画面,以达到某种特定风格效果。这篇论文探索了该技术在电影制作中的应用,他们使用神经风格转移来重新刻画了电影《Come Swim》中的一些重要场景,使得的电影能够与最初激发灵感的印象派风格相契合。我们记录了在一定的互动性制作过程框架下,如何通过使用该技术来达到想要的画面风格。我们希望这篇论文中记载的我们的实验和经历,能用以帮助未来的研究和制作。“

这篇论文记载了这些电影制作人在画面风格转化上的实验,而这其实是机器学习在转化艺术技巧和色彩构造方面的一个广泛应用。


关于合作者

克里斯汀在这篇论文中的合作者,是本片制片方Starlight Studios的一位制片人和一位Adobe的员工。然而关于这名Adobe员工是否参与到了电影的制作,我们尚未得到印证。


关于电影《Come Swim》

电影Come Swim是克里斯汀的执导处女座,灵感来自她自己的一幅画作。在这部电影中,克里斯汀和她的团队通过使用深度学习的技术,将电影的画面转化成了她画作中的风格,他们希望通过算法对画面的渲染,来移植那副绘画所表达的情感。

《Come Swim》将在2017年1月末在圣丹斯电影节上放映,该片刻画了一个男人分裂的一天:一半写实,一半融合超现实幻想。

“这幅绘画本身让人想起一个人醒来的瞬间(在梦境与现实之间转换)。”该论文写道,“这直接促成了这幅画的视觉效果,我们希望将自己想要调动的情绪融入算法的参数之中。”


关于发表平台

这篇论文在美国时间2017年1月19日发表在了ArXiv上。

Arxiv是一个收集物理学、数学、计算机科学与生物学论文预印本(尚未经过同行评估)的网站。开始于1991年8月14日,2014年底, 达到1百万篇的藏量。

ArXiv的存在是造就科学出版业中所谓开放获取运动的因素之一。现今的数学家及科学家习惯将其论文先上传至 arXiv.org ,再提交予专业的学术期刊。

由于 arXiv 上的文章多半都会投稿到学术期刊,作者对文章多半保持严谨态度。少部分文章则一直保持预印本的形式,其中包括一些极具影响力的作品,例如格里戈里·佩雷尔曼对庞加莱猜想的证明。:arXiv)





Entertainment Tonight报道:克里斯汀·斯图尔特发表研究论文,讨论运用人工智能在艺术创作上的应用,轰动圣诞斯电影节。

人工智能在艺术创作中的应用倒不是新闻,但克里斯汀发表研究论文的新闻,还是让娱乐圈和科技圈炸了锅。




关于人工智能及深度学习

克里斯汀的论文中所提及的神经风格转移(Neural Style Transfer)是深度学习中人工神经网络(Artificial Neural Networks)的一部分。

人工智能、机器学习和深度学习的关系,正如下图的同心圆关系展示,机器学习是实现人工智能的一种方法,而深度学习是实现机器学习的一种技术。




就目前神经风格转移(Neural Style Transfer)的应用而言,其中和克里斯汀的论文议题相近、且和我们生活较为贴近的应用之一,就是汉字的神经风格转移(Neural Style Transfer)实现(网址:http://www.ctolib.com/Rewrite.html)。




创造字体一直是个大工程,对于多达26,000个字符的汉字来说更是如此。《汉字内码扩展规范》的制作便花费了设计者多年的时间和心血才得以完成。

然而使用神经风格转移(Neural Style Transfer)的方法,设计者仅需要完成部分字体的设计,然后让计算机通过深度学习的方法,搞清核心偏旁部首的构造,便能自行完成其他字符的字体设计。该项目是深度学习应用方面的一个拓展。设计者通过使用深度学习, 训练出一个能够实现两种字体转化的神经网络,便能完成其余字符的字体设计。



汉字的神经风格转移(Neural Style Transfer)实现


同样的道理,克里斯汀的电影则是通过使用一部分精心挑选的样本场景,使用深度学习训练出一个人工神经网络,再将训练出的神经网络应用于影片的其他情形,将整部电影的场景转化成印象派风格。让我们再来看一下文章开头的这三幅对比照片:



论文篇首图片对比举例


中间的图片是整部电影灵感的源泉,也正是奠定和校准电影画面基调的主要画面之一。左图是胶片拍到的场景,右图则是经过处理之后得到的画面。论文显示,他们借鉴了Gatys et al使用卷积神经网络(convolutional neural networks)来重塑画面的方法[Image Style Transfer Using Convolutional Neural Networks, Gatys et al [Gatys et al. 2015]]。这种方法在实践中已被广泛应用,其中最广为人知的架构当属Caffe和TensorFlow以及他们的封装软件(wrapper)PyCaffe和Torch。

看到这里有些迷妹可能已经头疼了。恩,其实就是用深度学习,让电脑在小的样本上学到这个作品所需要的风格,然后再让电脑把风格应用在作品当中。


AI对不同行业的创新和冲击

斯图尔特并非唯一一个希望借助人工智能展开艺术创作的人:谷歌也组建了一个团队开发Magenta艺术项目,而创业公司CreativeAI也希望利用代码在音乐、图像和其他艺术领域展开创作。斯汀已经用自己的行动告诉了世人,人工智能早已不只是学者们的设想或一个遥远的议题,而是一个真实的、改变着行业发展和日常生活的必备知识技能。

据波士顿咨询公司的云栖报告《人工智能:未来制胜之道》(2016年10月)显示,人工智能未来将从基础层、技术层和应用层三个层面,深入影响各行各业。



BCG《人工智能:未来制胜之道》(2016年10月)


课程推荐

太阁BitTiger重磅课程:

全球华语首发的深度学习TensorFlow

特邀人工智能专家阮巨城博士,为大家深入浅出深度学习TensorFlow,让世界上最聪明的大脑,带你在8小时内理解并掌握深度学习技术,熟练使用TensorFlow,成为各大公司炙手可热的深度学习高手。

Dr. 阮巨城

Software Engineer @ Google Research

卡内基梅隆大学 (Carnegie Mellon University) 电机电脑工程博士;机器学习硕士;台湾国立清华大学获得计算机学士,曾于 Intel Research 工作,曾服务于台湾中央研究院。

欢迎扫码入群了解课程信息。