当前位置:首页 > 机械智慧 > 正文

学界 | CMU论文盘点深度学习的起源:从亚里士多德到生成对抗网络

选自机器之心编译参与:吴攀、蒋思源近些年来大有颠覆之势的深度学习起源于何方?或许在亚里士多德时代这一思想就已经存在了吧。近日,来自卡内基梅隆大学的计算机科学学院语言技术研究所的HaohanWang和BhikshaRaj与计算机科学学院机器学习系的邢波()这三位研究者在arXiv上发布了一篇论文《On...

选自机器之心编译参与:吴攀、蒋思源近些年来大有颠覆之势的深度学习起源于何方?或许在亚里士多德时代这一思想就已经存在了吧。近日,来自卡内基梅隆大学的计算机科学学院语言技术研究所的HaohanWang和B......

选自

机器之心编译

参与:吴攀、蒋思源

近些年来大有颠覆之势的深度学习起源于何方?或许在亚里士多德时代这一思想就已经存在了吧。近日,来自卡内基梅隆大学的计算机科学学院语言技术研究所的HaohanWang和BhikshaRaj与计算机科学学院机器学习系的邢波()这三位研究者在arXiv上发布了一篇论文《OntheOriginofDeepLearning》,详细地梳理了深度学习思想自亚里士多德时代以来的发展,尤其是现代随着计算机科学的兴起而出现的一些新的算法思想。鉴于该论文的篇幅较长,机器之心在此对其摘要和引言进行了编译介绍,对后面的详细内容则仅梳理了目录。有兴趣阅读原文的读者可在。

论文标题:深度学习起源(OntheOriginofDeepLearning)

摘要

引言

在目标检测、语音识别、机器翻译等许多不同的人工智能任务中,深度学习已经极大地提升了这些任务上的最佳表现水平(LeCunetal.,2015)。其深度架构的本质赋予了深度学习解决许多更加复杂的人工智能任务的可能性(Bengio,2009)。由此,研究者在将深度学习应用到目标检测、面部识别或语言模型等传统任务的同时,也在将其扩展到许多不同的现代领域和任务中,比如Osakoetal.(2015)使用循环神经网络来给语音信号降噪,Guptaetal.(2015)使用堆栈自编码器(stackedautoencoders)来发现基因表达的聚类模式,Gatysetal.(2015)使用一种神经模型来生成不同风格的图像,Wangetal.(2016)使用深度学习来实现同时对多个模式的情感分析等等。这段时间是见证深度学习研究蓬勃发展的时代。

但是,为了从根本上推动深度学习研究的前沿进展,研究者需要透彻地理解历史上出现过哪些尝试以及当前的模型具有当前的形式的原因。这篇论文总结了多种不同的深度学习模型的演化历史,并解释了这些模型背后的主要思想以及它们与之前的思想的关系。要理解过去的工作并不容易,因为深度学习已经演化了很长一段时间,如表1所示。因此,这篇论文的目标是为读者提供一个深度学习研究领域重大里程碑的概览。我们将会覆盖表1中的里程碑,同时还会提及许多其它工作。为了表达清晰,我们将这个演化故事分成了不同的章节。

该论文所覆盖的主要里程碑:

Aristotle(300BC):提出联结主义,开启了人类试图理解大脑的进程。

AlexanderBain(1874):提出了神经群组(NeuralGroupings)作为神经网络最早的模型,启发了Hebbian学习规则(HebbianLearningRule)的构建。

McCullochPitts(1943):提出了MCP模型,该模型被认为是人工神经模型的原型。

DonaldHebb(1949):他被奉为神经网络之父,因为其提出了Hebbian学习规则(HebbianLearningRule),奠定了现代神经网络的基础。

FrankRosenblatt(1958):率先提出了感知器(perceptron),其非常类似于现代感知器。

PaulWerbos(1974):提出反向传播算法。

TeuvoKohonen(1980):提出自组织映射(SelfOrganizingMap)。

KunihikoFukushima(1980):提出Neocogitron,启发了卷积神经网络的构建。

JohnHopfield(1982):提出了Hopfield网络。

HiltonSejnowski(1985):提出玻尔兹曼机(BoltzmannMachine)。

PaulSmolensky(1986):提出Harmonium,后来被称为受限玻尔兹曼机(RestrictedBoltzmannMachine)。

(1986):提出并定义了循环神经网络(RecurrentNeuralNetwork)。

YannLeCun(1990):提出LeNet,展示了深层神经网络实践的可能性。

SchusterPaliwal(1997):提出双向循环神经网络(BidirectionalRecurrentNeuralNetwork)。

HochreiterSchmidhuber(1997):提出LSTM,解决了在循环神经网络梯度消失(vanishinggradient)的问题。

Geo?reyHinton(2006):提出深度信念网络(DeepBeliefNetworks),也引入了逐层预训练技术,开启现在的深度学习时代。

SalakhutdinovHinton(2009):提出深度玻尔兹曼机。

Geo?reyHinton(2012):提出Dropout,一种有效的神经网络训练方法。

KingmaWelling(2014):提出变自编码器(VariationalAutoencoder/VAE),其是深度学习和贝叶斯概率图形模型的桥梁。

(2014):提出生成对抗网络(GenerativeAdversarialNetwork)。

Io?eSzegedy(2015):提出批归一化(BatchNormalization)。

本论文的讨论始于在人脑建模上的研究。尽管深度学习今天的成功并不一定是源于其与人脑的相似性(更多是因为其深度的架构),但构建一个模拟大脑的系统的理想确实激励了神经网络的早期发展。因此,接下来一节将从连接主义(connectionism)开始,然后会自然过渡到浅度神经网络成熟的时代。

随着神经网络的成熟,这篇论文继续简要讨论了将浅度神经网络扩展到更深度的网络的必要性,以及深度神经网络所带来的希望和深度架构所带来的挑战。

在对传统的深度学习家族进行过广泛的讨论之后,本论文将继续介绍最近的研究主题,比如变自编码器(VAE)和生成对抗网络(GAN)。这些现代模型通常并没有在神经网络领域的较长的演化历史,而是继承自其它机器学习主题的思想,比如因子分析、概率图模型等等。本论文还解释了这些现代模型和它们的先前思想之前联系,并传递了这样一个思想:尽管我们承认这些模型为深度学习界所带来的巨大贡献,但类似的思想过去已经出现过。

尽管这篇论文主要是讨论深度学习模型,但深度架构的优化也是这个领域不可避免的主题。第8节专门给出了一个优化技术的简要总结,包括先进的梯度方法、Dropout、批规范化(BatchNormalization)等。

本论文可以作为(Schmidhuber,2015)的补充材料阅读。Schmidhuber的论文的目标是指出为现有技术做出了贡献的人,所以他的论文的重点是这一路径上每一个单独的增量成果,因此不能很好地阐述它们每一项。另一方面,我们的论文的目标是为读者提供理解这些模型发展的方式。因此,我们强调的是其中的里程碑并阐述了这些思想,以帮助构建这些思想之间的关联。除了(Schmidhuber,2015)中经典深度学习模型的路径之外,我们还讨论了那些构建于经典线性模型之上的最近的深度学习研究成果。另一篇可做为读者的补充材料的文章是(AndersonandRosenfeld,2000),其中作者们就神经网络的历史这一主题对90年代著名的科学领袖进行了广泛的采访调查。

以下为本论文中历史梳理内容的目录:

2.从亚里士多德到现代人工神经网络(FromAristotletoModernArtificialNeuralNetworks)

2.1联结主义(Associationism)

2.2Bain和神经组(BainandNeuralGroupings)

2.3Hebbian学习规则(HebbianLearningRule)

2.4Oja规则和主成分分析器(Oja』sRuleandPrincipalComponentAnalyzer)

2.5MCP神经模型(MCPNeuralModel)

2.6感知器(Perceptron)

2.7感知器的线性表征能力(Perceptron』sLinearRepresentationPower)

3.从现代神经网络到深度学习时代(FromModernNeuralNetworktotheEraofDeepLearning)

3.1通用近似属性(UniversalApproximationProperty)

3.1.1任何布尔函数的表示(RepresentationofanyBooleanFunctions)

3.1.2连续有界函数逼近解(ApproximationofanyBoundedContinuousFunctions)

3.1.3任意函数的逼近解(ApproximationofArbitraryFunctions)

3.2深度网络的必要性(TheNecessityofDepth)

3.3反向传播和其特性(BackpropagationandItsProperties)

3.3.1反向传播寻找线性可分数据的全局最优解(BackpropagationFindsGlobalOptimalforLinearSeparableData)

3.3.2线性可分数据的反向传播衰退(BackpropagationFailsforLinearSeparableData)

4.记忆网络和深度信念网络(TheNetworkasMemoryandDeepBeliefNets)

4.1自组织映射(SelfOrganizingMap)

4.1.1学习算法(LearningAlgorithm)

4.2.2Hopfield网络(HopfieldNetwork)

4.2.3学习与推断(LearningandInference)

4.2.4能力(Capacity)

4.3波尔兹曼机(BoltzmannMachine)

4.3.1玻尔兹曼分布(BoltzmannDistribution)

4.3.2玻尔兹曼机(BoltzmannMachine)

4.3.3能量玻尔兹曼机(EnergyofBoltzmannMachine)

4.3.4参数学习(ParameterLearning)

4.4受限玻尔兹曼机(RestrictedBoltzmannMachine)

4.4.1对照散度(ContrastiveDivergence)

4.5深度信念网络(DeepBeliefNets)

4.5.1参数学习(ParameterLearning)

4.6深度波尔兹曼机(DeepBoltzmannMachine)

4.6.1深度玻尔兹曼机(DeepBoltzmannMachine/DBM)和深度信念网络(DeepBeliefNetworks/DBN)

4.7深度生成模型:现在和未来(DeepGenerativeModels:NowandtheFuture)

5.卷积神经网络和计算机视觉(ConvolutionalNeuralNetworksandVisionProblems)

5.1视觉皮层(VisualCortex)

5.2Neocogitron和视觉皮层(NeocogitronandVisualCortex)

5.3卷积神经网络和视觉皮层(ConvolutionalNeuralNetworkandVisualCortex)

5.3.1卷积运算(ConvolutionOperation)

5.3.2卷积神经网络和视觉皮层的联系(ConnectionbetweenCNNandVisualCortex)

5.4卷积神经网络的先驱:LeNet(ThePioneerofConvolutionalNeuralNetworks:LeNet)

5.4.1卷积层(ConvolutionalLayer)

5.4.2二次抽样层(SubsamplingLayer)

5.4.3LeNet

5.5ImageNet竞赛的里程碑(MilestonesinImageNetChallenge)

5.5.1AlexNet

5.5.2VGG

5.5.3残差网络(ResidualNet)

5.6基本视觉问题的挑战与机遇(ChallengesandChancesforFundamentalVisionProblems)

5.6.1网络的性质与视觉盲点(NetworkPropertyandVisionBlindnessSpot)

5.6.2人类标记偏好(HumanLabelingPreference)

6.时间序列数据和循环网络(TimeSeriesDataandRecurrentNetworks)

6.1循环神经网络:Jordan网络和Elman网络(RecurrentNeuralNetwork:JordanNetworkandElmanNetwork)

6.1.1通过时间的反向传播(BackpropagationthroughTime)

6.2双向循环神经网络(BidirectionalRecurrentNeuralNetwork)

6.3长短期记忆(LongShort-TermMemory)

6.4注意模型(AttentionModels)

6.5深度RNN和RNN的未来(DeepRNNsandthefutureofRNNs)

6.5.1深度循环神经网络(DeepRecurrentNeuralNetwork)

6.5.2RNN的未来(TheFutureofRNNs)

7.生成对抗网络和现代架构(GenerativeAdversarialNetworksandModernArchitectures)

7.1生成对抗网络(GenerativeAdversarialNetworks)

7.1.1参数学习(ParameterLearning)

7.1.2GAN的变体(VariantsofGAN)

7.1.3博弈论和Minimax(GameTheoryandMiniMax)

7.2变自编码器(VariationalAutoencoder)

7.2.1自编码器(Autoencoder)

7.2.2VAE

7.3Select-AdditiveNetworks

7.3.1线性混合模型(LinearMixedModel)

7.3.2Select-AdditiveNetworks

7.4其它新架构

8.神经网络的优化(OptimizationofNeuralNetworks)

8.1梯度方法(GradientMethods)

8.1.1Rprop

8.1.2AdaGrad

8.1.3AdaDelta

8.1.4Adam

8.2Dropout

8.3批归一化和层归一化(BatchNormalizationandLayerNormalization)

8.4「优化」模型架构的优化(Optimizationfor「Optimal」ModelArchitecture)

8.4.1Cascade-CorrelationLearning

8.4.2TilingAlgorithm

8.4.3UpstartAlgorithm

8.4.4EvolutionaryAlgorithm

9.总结

致谢

参考文献

©本文为机器之心编译,转载请联系本公众号获得授权。

?------------------------------------------------

加入机器之心(全职记者/实习生):hr@

投稿或寻求报道:editor@

广告商务合作:bd@

最新文章