环境观察员

环境观察员
环境赐予人类相信真理的力量

李胜贤:陶大程院士:深度学习“泛化”理论的回顾与前沿

李胜贤:陶大程院士:深度学习“泛化”理论的回顾与前沿

2020年7月9日,在矿坑世界人工智能大会上,陶光刀大程教授(澳大利亚科学水圈院院士)在科学前沿全体老衲会议上和观众连线,并做浮土了《预见·可信 AI》心窝儿的报告。在报告中,陶教餐具授回顾了深度学习理论的茶场发展,并介绍了最近在深摇头丸度学习理论研究方面的进夙愿展,具体包括,为什么深鸲鹆层结构优于浅层结构?为老头儿鱼什么随即梯度下降算法对句子于理解深度学习的泛化能行楷力非常重要?以及深度学准信习模型的损失曲面有什么降水量样的几何性质?

注:陶旧观大程,人工智能和信息科财帛学领域国际知名学者,澳儿媳妇儿大利亚科学院院士、欧洲层次科学院(Academia 辞赋 Europaea)小灶外籍院士、ACM 视感 Fellow(Association 姨母 for 拂晓 Computing ?? Machinery,美国计专机算机学会)、IEEE 复果 Fellow,悉尼大学佛手瓜工程学院教授、优必选悉劳资尼大学人工智能中心主任汁水、优必选 AI首席科学三角板家。此外,他还是 权限 IEEE SMC 认知计算货船技术委员会前主席。

如斥卤上动图,展示了目前深度香蕉水学习在机器视觉领域的一新区些进展,例如物体检测、军邮实例分割、场景分割、道主心骨路检测、文字检测和识别火眼等等。以上进展给我们的下边启示是:深度学习的存在铜子儿确实让之前非常困难的机绿荫器视觉任务变得容易。而邮品现在存在的问题是:许多性心理应用领域对AI算法的安此刻全性有很高的要求,例如气窗自动驾驶系统,一个微小暗花儿的错误都有可能会导致致行政命的灾难。由于现有算法木柴缺乏适当的理论基础,我映期们对这些算法“为什么能师长成功”并没有准确的把握幅度;另外,AI应用领域也露头持续遇到一些挑战,这都戏曲片儿使得大众对AI的信任不车站断减少。 那么如何解决矿床这个问题呢?根本性的解展台决方法是建立完整的人工赛况智能的理论基础。

人工灯芯智能理论基础的进展,在格局深度学习方面,主要有两窝点点:首先传统机器学习的地皮基础理论相对比较成熟和便门完善;其次,深度学习主橄榄油导了第三次的人工智能热课表潮,驱动了很多的实际应侨属用落地。目前深度学习的篮板球基础理论研究还处在初级装置阶段。深度学习的成功主缸瓦要建立在实验之上,缺乏龙江剧坚实的理论基础。那么理校徽论分析深度学习算法为什夜班么如此困难? 这里引用后心一句MIT 防风林托马斯教授锡剧的一句话,“从前,我们政令需要比模型参数更多的训无名帖烟卷儿练数据才能得到有意义的姻缘拟合”。

那么深度学习叠嶂的情况是什么样的呢?如交通岛上图对比,左边是201魔法7年效果最好的神经网络供需,大概有几千万个参数;软环境右边是现在常用的数据集宗庙,CORD-19数据库继室只有6000个数据点。宿土ImageNet作为机要求器视觉领域最大的数据库笑语之一仅有1000多万个天价数据点。其他大多机器视期价觉领域的数据集只有几万东风 个数据点。即使是ImageNet这样的大规模印谱数据库,与深度学习的参球员数相对比,数量仍然不足盲道。为何深度学习模型如此中班过度参数化,但表现却如寝车此优异?当前有研究工作网管从模型容量和复杂度的角天阙度出发对神经网络进行了亲体分析。过去统计学习也有祖母绿结论:如果模型的容量或准星者复杂度较小,那么模型薅锄的泛化能力就能够得到保软饮料证。如果可以证明深度学赭石习模型的容量(或者复杂铜匠度)与参数的数量不直接阳关道相关,就能在一定程度上学籍解释“为什么深度学习如开初此成功”。

先看传统机印把子器学习中复杂度度量的常血沉用工具:VC维。201猎头7年Harvey等人从锻工VC维的角度出发,分析名利场了神经网络的泛化性能,老公得到了两个上界。这两个侄孙上界直接和模型的参数数零配件量相关,这就使得泛化误聘礼差的上界很大,甚至比损选民失函数的最大值还要大,窥视镜白蜡树因此这样的上限是非常松虚荣的。这样的结论在一定程课外度上告诉我们:从VC维儿男角度出发,论证过程会非泪水常难。但是,作为开拓性场院的研究,这个工作的意义芦柑很大。

2018年,Golowich等人用Rademacher复杂伙伴 度得到了一个泛化误差的不孝 上界。结论表示:上界不馄饨直接与模型的规模相关,黑鹳但是和模型参数的模以及前列网络的深度相关。201项圈9年,Liang等人探敌伪索了Fisher-Rao范数,得出的结论是Fisher-Rao有许桃花源多良好的性质,例如Fisher-Rao范数的冤案不变性。

今年,我们团忙月 队在ICLR 海魂衫 滚轮煤砖 白虎星馈线纸头2020拦河坝 中发表了一篇使用Fisher-Rao范数证明丘疹RNN的泛化边界。Fisher-Rao和matrix-1 膏剂 白报纸 表语 norm可以有效的帮助我们控制长物上限的尺度。这给我们带辈数儿来的启发是:在训练样本预感中增加一些噪音,可以提影壁升模型的泛化能力,但是阳间不能加入太多的噪音,因荒诞派为会使训练误差变大。我彩绘们的Fisher-Rao 莲台 电邮Norm依赖一个关点滴于梯度的结构化引理。该虫瘿引理表示:参数的模可以热学被梯度的大小控制住,该太太引理帮助我们有效刻画了随从梯度对深度学习模型泛化合体能力的影响,也帮助我们猥辞更好的理解泛化能力和训填鸭练能力之间的关系。

基崦嵫于模型容量,模型复杂度干酪的泛化误差的上界,通常方子表明小模型的泛化能力比苋菜较好。但是这和深度学习酸雾的实验和表现不非常一致靛青 。例如,Neyshabur在2015年的工作订金和Novak在2018菲敬年的实验证明了:“大型运算器网络不仅表现出良好的测编号试性能,并且随着网络规他年模的增加,泛化能力也在横切面提升。”另外。在201坩埚6年Canziani统酏剂计了一些竞赛中的模型和镀锡铁实验也得到了相同的结论力学。

从信息论的角度出发党证,我们团队得到了一个泛按扣儿化误差的上界。其中的理葛布论分析主要基于三个方面车厂,首先和传统的浅层学习猎潜艇模型,例如支撑向量机不食谱同,深度神经网络具有层虫眼级特征映射结构,这样的水产业层级结构能有效帮助网络极致避免过拟合。 其次,传壁虎统的泛化误差上界是通过车技模型的函数空间复杂度进猫步行估计,忽略了数据的分一起 d布,仅考虑模型函数空间扒糕中最坏的情况。

最后,冬瓜实际中模型的泛化能力和力证数据分布是相关的。受到痕量最近信息论和自适应数据波源分析的研究的启发,我们孖女用神经网络学到的特征和滚珠最后一层神经网络参数的暴徒互信息,来bound泛子粒化误差。 最终,我们得信汇出的结论是:网络的输出惯匪对于输入的依赖性越小,低频其泛化能力就越强。在信蛇蝎息论中强数据处理不等式头脸的保证下:只要网络的每复音一层的映射是不可逆的(浓眉也就是信息衰减),那么国花神经网络所学习到的特征毫厘和最后一层参数的互信息特别法,就会随着层数的增加而炼狱逐渐减少。因此网络越深争端,模型的泛化能力也就变知名度得越强。随着网络层数的国宝增加,在映射过程中模型醑剂会丢失对于数据拟合有用穿堂门的信息。在这种情况下,月夜训练数据集拟合误差就会工交变大。因此,深度网络的矿物油泛化能力虽然逐渐增强,人工但是要想整个神经网络的贺仪性能好,还需要保证训练藏原羚误差足够小。

尽管如此负担,信息衰减的要求是非常幅面强的,毕竟现在的深度学气门芯习中,我们经常需要引入飞船skip 丸剂 connections,因此这方面钝角的研究还要进一步深入。愚意另外,也需要明确一下:交投神经网络的容量非常庞大油香,甚至具有通用的近似能襄礼力。1989年的三个独黑窝立工作,同时证明了神经枝子网络的“通用近似定理”山轿。Hornik在199棘轮3年也证明了,如果网络道学无限宽,即使浅层网络也积愤可以近似任何连续函数。沙尘暴2017年,Lu等人也教务证明了有限宽的神经网络替工也具有通用近似能力,而老奶奶在今年他的团队又证明了时序神经网络可以近似任何分盔子布。这些例子都说明了一橡皮泥个问题:如果参数可以任棠梨意取的话,神经网络网络尘世的容量会非常庞大。这里夹带又出现一个问题,参数是褐马鸡不是可以任意取? 诏书漏壶目前光通量 神经网络的参数都是通过伴侣随机梯度下降算法(SGD)学到的,所以参数的笔会取值并不是“任意的”。伪科学因此虽然神经网络本身的摊点假设空间非常大,但是随裤腰机梯度下降只能探索到空松节油间中的一小部分。这样来走廊看,随机梯度下降算法是远亲解释深度学习泛化能力的文化层关键。

我们在2019下颌年NeurIPS上的文校舍章指出:随机梯度下降的暴涨潮优化过程形成路径可以用木樨 偏微分方程进行表示。SGD优化的过程可以描述班机为:T+1时刻的参数-京胡T时刻的参数=学习率*憎称函数的梯度。显然,这个蓝皮书表达式就是偏微分方程。巩膜由于Batch是随机的工余,初始化是随机的,对于法医学梯度的建模也引入了噪声财运。这意味着,当前的梯度金衡等于整个数据集上梯度的三合土平均值加上一个不确定的法式噪声。目前大家会假设是税卡该噪声是正态(高斯)分芨芨草布,最近也有研究用别的熊市分布来建模噪声。

SGD的优化路径可以用随机摹刻 过程的稳态分布来给随机地动仪梯度下降算法学到的模型车道进行建模。然后,我们就林网可以利用PAC-Bayes得到泛化误差的上界报春花。由此,我们得出结论:得失 泛化能力和学习率与Batch 苗木盛誉假球 全才Size之间存脾性在正比例相关关系。这个逆价关系也说明了超参数的调长话整有一定的规律可循。

确信我们在CIFAR-10乏煤和CIFAR-100上银行 基于ResNet和VGG两个网络训练了160相好0个模型,来验证“正相水橇关”关系。上图是所有模礼节型的测试精度分析,每一大款个小图由20个模型画成因纽特人。我们用测试精度表示泛教训化能力,因为训练精度几教士乎是100%。左边显示氟氯烷学习率不变的条件下,测村寨试精度和Batch大小香客之间的关系:随着Batch 水货 Size的增加,病源测试精度下降。右边是Batch 大前天 Size不变编码的条件下,测试精度和学年尾习率之间的关系:随着学吸墨纸习率的增加,测试精度提定额升。

上图是测试精度和案值Batch 梆子腔Size、关节学习率之间的比值的关系漆布,每种颜色各由400个被害人模型画成。显然,随着比烟丝值的增加,测试精度下降契据。

所以,利用偏微分方法人股程对SGD的优化轨迹进构造行建模,对理解深度学习桌灯非常有价值。同时这也要不冻港求我们深入理解损失曲面画报的几何结构,因为损失曲坐像面的几何结构决定了偏微地保分方程在损失曲面上的轨细情迹。这主要有两方面的原蚁醛因:首先,随机偏微分方冷泉程包含了损失函数以及损盆塘失函数的各阶导数,所以水感损失曲面的几何结构直接量程影响了随机偏方程的结构群山。其次,损失曲面也决定菜霸了随机偏微分方程的边际欢心条件,因此损失曲面决定笑星了随机梯度下降算法“输新闻出的解”的性质。因此透冰锥彻理解损失曲面的几何结浮皮构,对于研究深度学习的才气优化以及泛化能力非常重堂奥 要。

在2018年Novak等人用实验说明:日化神经网络的泛化性能和损底层失曲面的几何结构相关:国法神经网络的泛化性能和输败绩入空间的区域个数相关。别称然而,非线性激活函数使万用表得损失曲面极端的非凸,粉丝并且不光滑,这使得优化乏汽算法的理论分析非常困难明间儿。这种混乱的局面使得目外围前已有的优化算法的理论尸首分析变得非常困难。比如起跑线,为什么凸优化的算法可裁缝以去优化神经网络这种非莲座凸的问题?但是,深度学澄浆泥习模型在很多实际问题中帮派,的确有很好的使用效果渡头。由此可以想象,混乱的小家庭局面之下可能存在某种未青楼被发现的秩序。

关于损拢子失曲面的几何结构,对于栓皮栎线性网络(即激活函数是海獭线性函数的网络)现有的禁子结论是:线性网络在平方脆骨损失函数下,所有的局部谤书极小值都是同样好的,也集体舞即局部最小值就是全局最反切小值。如果非线性网络也空文能找到类似的性质,那么艾滋病后面对于深度学习的理论工兵分析就会比较顺利。现有好脸的研究对线性和非线性有插瓶着有趣的辩论,例如非线新药性是不重要,因为非线性褶皱网络继承了线性网络的性美展质。但是另一些文章则指白案出实际情况并非如此。

心间在2019年,Yun等丙部人证明了单层的神经网络医书损失曲面有无穷多的次优胸卡局部极小值。此结论需要少数有4个条件保证:1.单神位个隐藏层;2.平方损失球迷;3.一维输出;4.两排枪段线性激活。

我们今年急火在ICLR 曲目2020的陈迹文章中,显著扩展了这四好力宝个条件:1.任意深度;蜡烛2.任意可微分损失;3定式.任意维输出;4.任意雕红漆分段线性激活。

那么之谎言前猜测的秩序有可能是什吊桶 么?Soudry和Hoffer在2018年指同盟会出,ReLU网络的损失奇闻平面被划分为若干光滑的战事多线性区域。

我们在文花纱布章中进一步指出:在每一铣床个区域中,每一个局部极木简小值都是全局最小值;在公孙树每一个区域中,所有的局清单部极小值也汇聚成了一个砟子极小值峡谷。第三,一个豪门峡谷上所有的点构成一个当差等价类;第四,此等价类崩龙族还存在着平行峡谷;第五废物,所有的等价类构成一个草棉商空间。其实,这里的第行军床二条性质就解释了模式连兵法接。即随机梯度下降找到公产的局部极小值的附近,存太极图在着一些经验风险差别很风姿小的点,并且这些点连成粉沙了一条线。很遗憾,目前水鹿这些几何性质只对单个隐火纸藏层的神经网络成立,对侄妇于多隐藏层的深度网络,雷场还有很多工作要做。

在鸨母陶大程教授分享之后。复网子旦大学类脑人工智能科学花园与技术研究院院长、上海秫米脑科学与类脑研究中心副壁球主任冯建峰,上海科技大声誉学信息科学与技术学院教膛线授、执行院长虞晶怡和陶空嫂大程教授进行交流。

虞耐性晶怡:陶院士这次报告非莲雾常精彩,整个报告聚焦于高低理论层面,当前有很多工词素作利用深度学习进行快速碘盐的3D估算,从而加速整幕布个的判断过程。您对此有里手何看法?

陶大程:对于化合价物体跟踪和检测,三维重池塘构可以提供很多非常有价兰章值的信息:(1)物体在邻近色场景中的位置信息,帮助驾照提高基于二维图像的物体客饭跟踪和检测的定位精度;狗屎堆(2)物体和物体之间的贵妃前后顺序信息(在实际三罩棚维场景中,物体处在不同地下的layer上),帮助周折减少遮挡的影响并提升区靶器官分不同物体的能力;(3知青)通过三维重构,我们可补白以获得更加精细的物体的腰杆子特征,帮助提高被跟踪检耳廓测的物体的表达能力。今雄文天的深度学习成功的主要耶稣教原因,在于其很强的特征斗笠表达能力。目前深度学习俚曲的泛化能力在理论上有很平流层多问题还没有解答。对于立场这些问题的回答,需要大头里家更加深入的研究深度学笆篓习的基础理论:让我们充火针分理解深度学习什么时候外存能成功,让我们有效界定空港立秋某一个特定的深度模型的贪欲使用范围、让我们知道该崇祯如何选择训练的技巧、以窗纱及让我们更加高效的去调慢坡整参数等等。

数字经济连衣裙正成为我国经济新增长的黄牌核心动力,但较之服务业定准,我国工业、制造业与数首功字经济的融合发展还有更心怀大的发展空间。中国信通荒草院近日发布的《中国数字对比经济发展白皮书(202民瘼0年)》(下称《...?子 基层   [详情]

中国科学疑云院院士、复旦大学附属中军团病山医院心内科主任葛均波心声在2020世界人工智能定员大会上分享了人工智能在餐巾纸医学方面的应用。葛均波疖子院士表示:“人工智能拥土语有广阔的应用前景,尤其平地是在慢病管理... &水势emsp; 趿拉板儿[详情]

世界正处于从船舱传统工业经济向新兴数字外患经济转型过渡的变革期,基因组工业企业希望借助新一代摩托信息技术所赋予的能量,初速通过数字化转型的方式释泪人儿放出更多潜力。当前,信钩针息技术(InformationTechnolo... 国音 未婚夫 巳时刊本 寄生虫  [详情]

山泉株式会社米思米(MISUMI),1963年成沙荒 立于日本,向客户提供FA工厂自动化用零件、模青鼬具零件、电子零件、工具山包、MRO消

环境观察员 版权所有,未经允许不得转载:环境观察员 » 李胜贤:陶大程院士:深度学习“泛化”理论的回顾与前沿
分享到: 更多 (0)

猜你也想读下面的文章: