这个杭电本科生在国际顶级学术会议上发表论文,来为他打call吧!

近日,第25届ACM国际多媒体会议(ACM International Conference on Multimedia,简称ACM MM)在美国硅谷举行。我校自动化学院大四学生涂云斌撰写的论文“Video Description with Spatial-Temporal Attention”被大会录用,并应邀参会作报告。

ACM MM于1993年首次召开,每年举行一次,已经成为多媒体领域顶级学术会议,也是中国计算机学会推荐的A类国际学术会议。本届大会共收到来自世界各地的有效投稿论文684篇,最终确定录用189篇,录用率为27.63%,其中学生作为第一作者的,绝大部分为各高校在读博士和硕士研究生。


会议期间,涂云斌在Fast Forward Session中向大会作了有关论文内容的报告,并和与会人员进行了交流,分享团队研究成果,其研究工作受到参会人员的广泛关注。

涂云斌的论文主要研究当前计算机视觉领域新兴方向——视频内容自动语言描述,让计算机像人类一样,能够看懂一个视频并能对视频内容用符合人类语言习惯的句子进行描述。该论文尝试提出首先在每一帧图像的空间结构上选择关键区域,再在整个视频的帧流上选择关键帧的空间+时间注意力模型,以解决对细节物体的识别缺失或识别错误的问题,从而大大提高了描述结果的准确性。

据悉,涂云斌同学是自动化学院SRT实验室成员,该实验室由颜成钢教授领衔,与美国佐治亚理工大学、美国北卡罗来纳大学教堂山分校、美国中佛罗里达大学、中国科学院、清华大学、微软亚洲研究院等国内外多家科研院所有长期密切的合作,近年来培养出多名优秀学生,学院2016、2017年度的8位本科生国家奖学金获得者中有4位出自该实验室。

当然了,小i第一时间采访了涂云斌同学,一起来看下吧。


小i:如何想到在ACM国际多媒体会议上发表论文

涂云斌:在大二下学期,我进入SRT实验室,确定研究方向后,颜成钢教授帮我配备了中国科学院大学计算技术研究所的博士研究生张羲珊师姐做我的指导老师,平时遇到问题都会电话或线上请教师姐。她的做事态度和学习方法给我留下了深刻印象。去年1月份,师姐根据我在计算机视觉方面知识的储备情况,建议我写论文,投到ACM国际多媒体会议上。于是,我才有了这个念头和想法


小i:在准备论文的过程中,都还顺利吗

涂云斌:不太顺利,今年1月份有这个想法后,但一直没确定具体的方向,2月份回家过年待了10来天,就回学校,整天泡在实验室里调试代码,做实验。期间一度还方向错了,当时很痛苦差点想放弃,幸亏坚持下来了。这个坎过了,后续进展就顺利很多。所以,贵在坚持。


小i:参加这次会议,有哪些收获?

涂云斌:看到了很多新技术,听到了很多新观点,可以用“大开眼界”形容。绝大部分与会者是在读博士或硕士研究生,跟他们交流,对自己启发很大,对自己在计算机视觉方面的的研究也大有帮助,更加认识到自己的短板和要努力的方向。所以说,收获满满,也鞭策自己要更加努力


小i:大四了,现在有什么打算

涂云斌:正在备考研究生入学考试,已经到了冲刺阶段,所以更加不能掉以轻心,希望自己的努力最后都有个好结果


小i:对学弟学妹们有什么建议?

涂云斌:要接触新潮的事物,多关注最新科技。不要整天待在寝室,走出去与志同道合的朋友多多交流,会有意想不到的效应


文/自动化学院、杨伟婷

排版/新媒体工作室韩建成