深度学习是昨天,强化学习是今天

如何赋予机器自主学习的能力,一直是人工智能领域的研究热点。在越来越多的复杂现实场景任务中,需要利用深度学习、宽度学习来自动学习大规模输入数据的抽象表征,并以此表征为依据进行自我激励的强化学习,优化解决问题的策略。深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用,使其被认为是迈向通用人工智能的重要途径。


中国自动化学会将于 2018年5月31日 - 6月1日 在北京中国科学院自动化研究所举办第五期智能自动化学科前沿讲习班,本期讲习班主题为『深度与宽度强化学习』。此次讲习班由中国自动化学会副理事长、澳门大学讲座教授陈俊龙与清华大学教授宋士吉共同担任学术主任,邀请多位业界知名专家作主题报告,分享交流深度与宽度强化学习的学术前沿、应用实现及产业发展等。


内容安排


学术报告一:

从深度强化学习到宽度强化学习:结构,算法,机遇及挑战


陈俊龙

澳门大学讲座教授,中国自动化学会副理事长

国家千人学者,IEEE Fellow、AAAS Fellow、IAPR Fellow


内容简介:本座谈讨论强化学习的结构及理论,包括马尔科夫决策过程、强化学习的数学表达式、策略的构建、估计及预测未来的回报。也会讨论如何用深度神经网络学习来稳定学习过程及特征提取、如何利用宽度学习结构跟强化学习结合。最后会讨论深度、宽度强化学习带来的机遇与挑战。


学术报告二:

基于强化学习的深海机器人智能搜索与运动控制方法


宋士吉

清华大学教授、博导

国家CIMS工程技术研究中心研究员


内容简介: 阐述强化学习在深海机器人智能搜索与运动控制领域的算法研究及其应用,从热液羽状流智能搜索与深海机器人运动控制两个方面开展工作。 在热液羽状流智能搜索方面,研究基于强化学习和递归网络的羽状流追踪算法。利用传感器采集到的流场与热液信号信息,将机器人搜索热液喷口的过程建模为状态行为域连续的马尔科夫决策过程,通过强化学习算法得到机器人艏向的最优控制策略。 在深海机器人运动控制方面,研究基于强化学习的轨迹跟踪与最优深度控制算法。在机器人系统模型未知的情况下,将控制问题建模成连续状态动作空间的马尔可夫决策过程,并构建评价网络与策略网络,通过确定性策略和神经网络学习得到最优控制策略。


学术报告三:

数据驱动的自适应学习控制


侯忠生

北京交通大学教授、博导

北京交通大学自动控制系主任


内容简介:本报告分为以下4部分:第1部分主要介绍迭代轴上的学习控制;第2部分主要介绍时间轴上的学习控制,既无模型自适应控制;第3部分主要介绍学习控制的统一框架;第4部分是结论。


学术报告四:

核自适应滤波与宽度学习

 

陈霸东

西安交通大学教授、博导

陕西省“百人计划”特聘教授


内容摘要:核自适应滤波器(Kernel Adaptive Filters)是近年来兴起的在可再生核希尔伯特空间(RKHS)中实现的一类非线性自适应滤波器,其拓扑结构为线性增长的单隐层神经元网络。其基本思想是:首先,将输入信号映射到高维核空间;然后,在核空间中推导线性滤波算法;最后,利用核技巧(Kernel Trick)得到原信号空间中非线性滤波算法。与传统非线性滤波器比较,核自适应滤波器具有以下优点:(a)如果选取严格正定的Mercer核函数,具有万能逼近能力;(b)性能曲面在高维核空间中具有凸性,因此理论上不具局部极值;(c)隐节点由数据驱动生成,减少了人工参与;(d)具有自正则性(Self-regularization),可有效防止过拟合。因此,核自适应滤波概念提出以后引起了国内外研究者广泛兴趣,越来越多的相关算法被提出,并被应用到诸多领域。核自适应滤波与最近兴起的宽度学习(Broad Learning)关系密切,可以认为是一类基于核方法的宽度学习算法。本报告将深入系统地阐述核自适应滤波的基本思想、主要算法、性能分析、典型应用,以及如何将其与宽度学习纳入统一框架。


学术报告五:

深度强化学习算法及应用

 

赵冬斌

、博导

中国科学院大学岗位教授


内容摘要:将具有“决策”能力的强化学习(RL: Reinforcement Learning)和具有“感知”能力的深度学习(DL: Deep Learning)相结合,形成深度强化学习(DRL: Deep RL)方法,成为人工智能(AI: Artificial Intelligence)的主要方法之一。2013年,谷歌DeepMind团队提出了一类DRL方法,在视频游戏上的效果接近或超过人类游戏玩家,成果发表在2015年的《Nature》上。2016年,相继发表了所开发的基于DRL的围棋算法AlphaGo,以5:0战胜了欧洲围棋冠军和超一流围棋选手李世石,使围棋AI水平达到了一个前所未有的高度。2017年初,AlphaGo的升级程序Master,与60名人类顶级围棋选手比赛获得不败的战绩。2017年10月,DeepMind团队提出了AlphaGo Zero,完全不用人类围棋棋谱而完胜最高水平的AlphaGo,再次刷新了人们的认识。并进一步形成通用的Alpha Zero算法,超过最顶级的国际象棋和日本将棋AI。DRL在视频游戏、棋类博弈、自动驾驶、医疗等领域的应用日益增多。本报告将介绍强化学习、深度学习和深度强化学习算法,以及在各个领域的典型应用。


学术报告六:

正则化深度学习及其在机器人环境感知中的应用

 

刘  勇

浙江大学教授、博导

浙江大学求是青年学者


内容简介:近年来,随着人工智能技术的飞速发展,深度神经网络技术在图像分析、语音识别、自然语言理解等难点问题中都取得了十分显著的应用成果。然而该技术在机器人感知领域的应用相对而言仍然不够成熟,主要源于深度学习往往需要大量的训练样本来避免过拟合、提升泛化能力,从而降低其在测试样本上的泛化误差,而机器人环境感知中涉及的任务与环境具有多样化特性,且严重依赖于机器人硬件平台,因而难以针对机器人各感知任务提供大量标注样本;其次,对于解不唯一的病态问题,即使提供大量的训练数据,深度学习方法也难以在测试数据上提供理想的估计,而机器人感知任务中所涉及的距离估计、模型重构等问题就是典型的病态问题,其输入中没有包含对应到唯一输出的足够信息。针对上述问题,本报告以提升深度学习泛化能力为目标、以嵌入先验知识的正则化方法为手段、以机器人环境感知为应用背景展开介绍。


学术报告七:

自评价学习控制中的特征表示与滚动优化

 

徐 昕

国防科技大学教授、博导

国防科技卓越青年人才


报告人简介:徐昕,国防科技大学智能科学学院教授,博士生导师,国防科技卓越青年人才基金获得者。主要研究领域是机器人和智能无人系统的机器学习、自主感知与优化控制。任中国人工智能学会理事, IEEE高级会员。获国家自然科学二等奖、湖南省自然科学一等奖、国防科技进步二等奖、湖南省自然科学优秀论文一等奖各1项,入选新世纪优秀人才支持计划,获霍英东青年教师基金资助。主持国家自然科学基金重点项目2项、面上项目3项、973课题等国家和省部级项目10余项。出版专著2部,发表论文150余篇,SCI收录60余篇,EI收录100余篇,他引4000余次,SCI他引1000余次。任Information Sciences (IF=4.03, Elsevier), IEEE Transactions on System, Man, and Cybernetics: Systems, International Journal of Social Robotics等6个国际SCI期刊的Associate Editor或者Guest Editor,以及《自动化学报》编委。


学术报告八:

轨道交通车辆预测与健康管理(PHM)技术应用

 


杨  颖

中国中车首席专家,教授级高级工程师

中车株机电力机车有限公司副总工程师


报告人简介:杨颖,中国中车首席专家,中车株洲电力机车有限公司副总工程师,教授级高级工程师。1988年毕业于中国科技大学获理学学士,2002年毕业于湖南大学获硕士学位,主要从事城市轨道交通车辆研发工作,,中国城市轨道交通协会技术装备委员会委员,中国轨道交通CRCC认证委员会委员,曾担任国家863计划项目,湖南省重大专项课题牵头人,目前担任十三五国家重点研发计划200km/h中速磁浮交通系统关键技术研究课题牵头人。获省部级科技进步奖一等奖二项,二等奖二项,获授权发明专利六项(独自或第一人)。


学术报告九:

强化学习及智能控制与决策


季向阳

清华大学教授、博导

国家杰出青年基金获得者


报告人简介:季向阳,清华大学自动化系教授,信息科学与技术国家研究中心智能科学部主任,研究方向为机器学习与图像处理。国家杰出青年科学基金与“万人计划”领军人才。担任中国人工智能学会深度学习专委会主任、中国电子学会人工智能与无人系统青年专委会主任。近年来发表SCI/EI论文100余篇;申请国家发明专利49项(授权33项),申请国际发明专利16项(授权8项);获国家科技进步二等奖与国家技术发明一等奖各1项(排名2)。


学术报告十:

分布式优化算法与学习



游科友

清华大学副教授、博导

国家优青,国家青年千人


报告人简介:游科友,清华大学自动化系副教授、博士生导师。2007年获中山大学统计科学学士学位,2007年8月至2012年6月在新加坡南洋理工大学电气与电子工程学院攻读博士学位和从事博士后研究。自2012年7月起任教于清华大学自动化系。曾受邀访问意大利都灵理工大学、澳大利亚墨尔本大学、香港科技大学等院校。从事网络化系统系统、分布式优化、强化学习及其应用等方面的研究。在控制系统领域两大权威期刊《Automatica》和《IEEE Trans. Automatic Control》发表论文19篇,其中长文9篇。2010年获中国控制会议关肇直奖,2014年入选第十批“千人计划”青年千人项目和获 IBM 中国优秀教师奖教金, 2017年获国家自然科学基金优秀青年基金项目资助。


咨询报名


周老师 / 辛老师

010-62522472

18811748370

caa_assia@163.com



点击“阅读原文”,查看详情