GeoffreyHinton专访如何解释
大数据文摘出品
来源:wired
编译:蔡婕、顾晨波、张秋玥
GeoffreyHinton是深度学习的创始人之一,年图灵奖得主,谷歌工程研究员。
在津南谷歌的I/O开发者大会上,美国科技媒体Wired的NicholasThompson和Hinton讨论了他早期对大脑的痴迷,以及计算机可以模仿其神经结构的可能性。他们还讨论了意识这个概念以及Hinton未来的计划。
以下是对话过程,请欣赏!
NicholasThompson:让我们从你早期的一些极具影响力的论文开始谈起。每个人都说,“这是一个聪明的想法,但实际上我们不可能以这种方式来设计计算机。那么,请解释一下你为什么如此坚持、如此自信地认为自己找到了重要的东西。
在我看来,大脑必须通过学习“联系”的力量来发挥作用,除此以外没有别的方式。如果你想让一个设备完成一些智能工作,那么有两个选择:一是你可以编程,二是它可以学习。人当然不是被编程的,所以我们必须学习。因此这肯定是正确的道路。
NT:那么,能解释一下神经网络是什么吗?
GH:你有相对简单的处理元素,它们是非常松散的神经元模型。这些模型之间有连接,每个连接都有权值,并且可以通过学习改变权值。神经元所做的是,将连接上的活动乘以权值,再把它们全部加起来,然后决定是否发送输出。如果它得到一个足够大的和,就会发送一个输出;如果总和为负数,则不会发送任何内容。仅此而已。你所要做的就是把成千上万的神经元和成千上万的权值的平方连接起来,然后算出如何改变权值,它就能做任何事情。这只是一个你如何改变权值的问题。
NT:你是什么时候意识到这种模式与大脑运作方式相近的?
GH:神经网络总是这样设计出来的,被设计成像大脑那样去工作。
NT:意思就是,在你职业生涯的某个阶段,你开始去了解大脑的工作方式。或许是在你12岁的时候,也或许是在你25岁的时候。所以,你究竟是什么时候决定要模仿大脑来制作电脑模型的?
GH:基本是在了解大脑原理后。具体想法是:通过改变连接的字符串(就像人们认为的大脑学习方式那样),来制造一个像大脑那样学习的学习设备。这个主意也不是我的首创,图灵也有同样的想法。图灵,尽管他奠定了很多标准计算机科学的基础,他也相信大脑是一个有着随机权值的无组织的“装置”,它会使用强化学习来改变连接,最终学习一切。他还认为这是获得情报的最佳途径。
NT:所以你遵循图灵的想法——制造机器最好的方法就是模仿人类的大脑。脑子里想着:这就是人脑的工作原理,因此让我们造一个这样的机器吧。
GH:是的,这不仅仅是图灵的想法,很多人都这么认为。
NT:最黑暗的时刻是什么时候?还有,什么时候那些同样赞成图灵想法、一直在工作的人退缩时,但你却仍然继续前进?
GH:总有一群人始终相信它,尤其是在心理学领域。但是对于计算机科学家,90年代时得到的数据集非常小,计算机运行也没有那么快。在小数据集方面,其他的方法比如支持向量机,工作得更好。
在80年代我们就发展了反向传播,原本以为它能解决所有问题,结果却不行,我们疑惑为什么行不通。现在知道其实是数据规模导致其不能解决所有问题,当时我们都没有意识到。
NT:那你当时认为为什么行不通呢?
GH:我们认为这行不通,是因为我们没有完全正确的算法和完全正确的目标函数。很长一段时间以来,我一直认为这是因为我们一直在做监督学习,你必须给数据贴上标签。其实我们应该做的是无监督学习,就是从没有标签的数据中学习。
NT:有意思。所以问题是你没有足够的数据,而你当时却以为自己拥有适量的数据,但未被正确标记。因此你只是误解了这个问题?
GH:我认为仅仅使用标签是一个错误。大部分学习过程都没有使用任何标签,只是尝试在数据中对结构建模。我相信这一点。我也认为随着计算机变得越来越快,对于任何给定大小的数据集,只要计算机足够快,都最好做无监督学习。一旦你完成了无监督学习,你就能从更少的标签中进行学习。
NT:所以在20世纪90年代,你仍然继续身处学术界进行这个研究,也依旧发表论文,但没有解决什么大的问题。你有没有说过,我觉得研究够了,要去试试别的方向?还是你只是坚持要继续研究深度学习?
GH:是的,我一直在坚持这样的研究一定有用。我的意思是,大脑中的连接正在以某种方式完成学习过程,我们必须弄清它。可能有很多不同的方法来学习连接的强度,大脑正在使用其中一个。当然,你也必须拥有可以学习这些连接强度的东西。我从来没有怀疑过这一点。
NT:因此你永远不会怀疑。那么,什么时候研究开始可行的?
GH:80年代最令人沮丧的一件事是,如果你建立的网络有很多隐藏层,你就无法训练它们。这也不完全正确,因为你可以训练一些相当简单的任务,比如识别笔迹。但是大多数深层神经网络,我们是不知道如何训练它们的。大约在年,我想出了一种无人监督的深网训练方法。你获取到输入,比如说像素,然后你会得到一堆特征,它们很好地解释为什么像素是这样的。接着你把这些特征当做数据,又学习到另一组特征,所以我们可以解释为什么这些特征有相关性。你不断地进行一层又一层学习,但有趣的是,你可以通过一些数学运算,来证明每次你学习另外一层,你不一定有一个更好的数据模型,但你有一个关于你的模型有多好的波段。这样每次添加另一层时,你都可以获得更好的波段。
NT:这是什么意思,你有一个关于你的模型有多好的波段?
GH:一旦有了一个模型,你说,“模型找到这些数据有多令人奇怪?”你向它展示了一些数据然后说:“这是你相信的那种东西吗,还是说这令人惊讶?”而你想要做的是拥有一个模型,一个好的模型是看着数据说,“是的,是的,我知道。这是不足为奇。”
通常很难准确计算出这个模型发现数据的惊人程度。但是你可以在上面计算一个波段,然后得出结论说这个模型发现的数据没有那个模型那么令人惊讶。你还可以展示,当添加了额外的特征探测器层时,得到一个模型能使得你每次添加一个层,波段就会发现数据变得更好。
NT:大约在年,你取得了这个数学上的突破。那么你又是什么时候开始得到正确答案的?当时你在处理什么数据?你在处理什么数据?语音数据是你的第一个突破,对吧?
GH:这只是手写的数字,非常简单。而之后大约在同一时间,他们开始开发GPU(图形处理单元)。大约在年,做神经网络的人们开始使用GPU。我有一个非常优秀的学生,也开始使用GPU来寻找航拍图像中的道路。他写了一些代码,然后被其他学生用来使用GPU去识别语音中的音素,当时他们正在使用预训练的想法。在他们完成所有这些预训练之后,只要把标签贴在上面然后使用反向传播,你就可以有一个经过预训练的非常深的网。然后你可以继续使用反向传播,它确实有效。它在某种程度上超过了语音识别的基准。
NT:它击败了最好的商业语音识别?也击败了语音识别方面最好的学术工作?
GH:在一个名为TIMIT的相对较小的数据集上,它的表现略好于最好的学术作品。还在IBM完成了工作,并且相当迅速。很快,人们就意识到这个东西——因为它打败了花了30年时间开发的标准模型——如果再多开发一点就会做得很好。所以我的研究生们去了微软,IBM和谷歌,谷歌是最快把它变成生产语音识别器的。到年,这项年首次完成的工作,在Android上出现了。而后Android在语音识别方面突然变得更加擅长。
NT:自从40年前开始产生这个想法的那一刻,你已经研究了20年,现在你终于比你的同事出色了。这种感觉怎么样?
GH:我只有30年的想法!
NT:是的,是的!所以只是一个新想法。新的!
GH:我感觉很好,它终于找到了真正的问题所在。
NT:你还记得第一次得到启示性的数据时,你在哪里吗?
GH:不记得了。
NT:好的。所以你意识到它适用于语音识别。那又是从什么时候开始将它应用于其他问题?
GH:就在那之后我们开始把它应用到其他各种问题上。GeorgeDahl是最早从事语音识别研究的人之一,他将其应用于预测一种分子是否会与某种物质结合,并成为一种良好的药物。还有这么有一场比赛,他只把我们设计的语音识别标准技术应用到预测药物的活性上,就赢得了比赛。表明了这些东西的运用范围是相当普遍的。然后我的一个学生说,“Geoff,你知道么,这个东西将用于图像识别,李菲菲已经为它创建了正确的数据集。还有一个公开的竞争,我们也必须这么做。”
当时是年,我们得到的结果比标准的计算机视觉要好得多。
NT:那么,是什么区分了哪些区域工作最快,哪些区域需要更多间?似乎视觉处理、语音识别,这样类似于用感官知觉来处理的人类核心活动被认为是首先需要清除的障碍,对吗?
GH:是也不是,因为还有一些比如运动控制这样的其他领域。我们人类非常擅长运动控制,我们的大脑显然就是为此而设计的。而直到现在,神经网络才开始与其他最好的技术竞争。神经网络技术最终会赢,但现在才刚刚开始赢。
另外,我认为推理——抽象推理,这是我们要学习做的最后一件事,我也认为这将是神经网络学习做的最后一件事。
NT:所以你一直说神经网络最终会赢得一切。
GH:嗯,我们都是神经网络。他们可以做任何我们能够做的事情。
NT:是的,但是人脑并不一定是有史以来最有效的计算机器。
GH:当然不是了。
NT:当然不是我这人类的脑袋!难道不存在一种比人脑更有效的机器建模方法吗?
GH:从哲学的角度来说,我并不反对这样的想法,即可能有一些完全不同的方式来做出(人类能够做到的)这一切。比如它可以是这样的。如果从逻辑开始,你试图将逻辑自动化,然后再做一些看起来很酷炫的定理证明,再做些推理,然后你决定通过推理来做视觉感知——可能最后成功方法就是这个。事实证明它没有。但我对这一事实没有哲学上的反对意见。只是我们知道大脑可以做到这一点。
NT:但也有一些事情我们的大脑做不好。对于这些事情而言,神经网络会不会也没有什么办法将其做好呢?
GH:很可能(做不好),是的。
NT:我这还有个相对独立的问题:我们并不完全知道它们到底是如何运作的,对吧?
GH:不,我们确实不知道它们如何运作。
NT:我们不了解自上而下的神经网络是如何工作的。这是我们不理解神经网络运作方式的一个核心要素。麻烦您解释一下这个问题,然后让我再问一下这个显而易见的跟进问题:如果我们不知道这些东西是如何工作的,那它们怎么能起作用呢?
GH:如果你看一下目前的计算机视觉系统,其中大部分基本上是前馈;他们不使用反馈连接。当前的计算机视觉系统还有一个问题——它们很容易出现对抗性错误。你可以稍微改变一张熊猫照片上的几个像素——现在照片看起来仍然像只熊猫,但系统会突然改口说这其实是一只鸵鸟。显然,你改变像素的方式是经过精心设计的,从而欺骗它认为照片是一只鸵鸟。但重点是,照片对你来说仍然像一只熊猫。
最初我们认为这些算法非常有效。但是,当我们不得不面对这样一个事实,即他们明明面对着一只熊猫但确信这其实是一只鸵鸟时,你会有点担心。我认为这个问题一部分是由于,这些算法不是试图从概括性表征中重建图像,而是试图进行歧视性学习。在那里你只学习特征探测器的层次,而目标函数只是关于改变权重以便你更好地得到正确的答案。
最近在多伦多,我们一直在发现,或者NickFrost一直在发现,如果你引入重建,那么它可以帮助你更好地解决对抗性攻击这一问题。所以我认为在人类的视觉中,我们使用重建来进行学习。并且,因为我们通过重建来进行大量学习,我们更不易于被对抗性攻击蒙蔽双眼。
NT:你相信神经网络中的自上而下的信息传导旨在帮助你测试如何进行重建。你如何测试并确定它是熊猫而不是鸵鸟?
GH:我认为这至关重要,是的。
NT:但是脑科学家并不是很赞同这一观点是吗?
GH:脑科学家们都同意这一表述——如果你在感知途径中有两个皮质区域,那么一定会有向后的连接。这些科学家们在其用途上怀有不同的观点。有人认为这可能是为了
转载请注明:http://www.abuoumao.com/hykz/1914.html