前沿 | 图灵奖得主Hinton:不出五年,我们就会破解大脑的运作机制

发布时间:2022-06-10| 浏览量:1647






 


整理|李梅、黄楠 


编辑|陈彩娴

过去十年,AI 在计算机视觉、语音识别、机器翻译、机器人、医学、计算生物学、蛋白质折叠预测等等领域取得了一个又一个突破,而这些突破的背后,均离不开深度学习。那么,深度学习起源于何时何地,又在何时成为最突出的AI方法? 


最近,UC伯克利教授、深度学习专家Pieter Abbeel在其播客节目《机器人大脑》(Robot Brains)中,对Geoffrey Hinton进行了一次访谈。 


曾获得2018年图灵奖的Hinton,被称为「深度学习三巨头」之一,是人工智能史上最重要的学者之一。他的论文被引用了50多万次,这意味着,有50万篇以上的研究论文是建立在他的研究之上。 


他在深度学习领域已经研究了大约半个世纪,大部分时间相对默默无闻,但在2012年,事情发生了转折:那一年,凭借AlexNet在ImageNet比赛的胜出,他证明了深度学习在图像识别方面比其他计算机视觉的方法具备更大的优势。这被称为「ImageNet时刻」,改变了整个AI领域,掀起了深度学习的浪潮。 


在这次对话中,Hinton讲述了他从学术界到谷歌大脑的工作经历、学习心理学和当木匠的经历,以及可视化技术t-SNE算法背后的历史,并就一些问题发表了他的观点,包括: 





  • 现有的神经网络和反向传播算法与大脑的运作方式有何不同? 







  • 为什么我们需要无监督的局部目标函数? 







  • 睡眠和玻尔兹曼机的功能是什么? 







  • 为什么培育计算机比制造计算机更好? 







  • 为什么需要负面数据? 







  • 如今的大规模语言模型真正理解了语言吗? 







  • …… 




AI科技评论在不改变原意的基础上对他们的访谈作了编辑与整理: 


 











1

反向传播不同于人脑运作方式

Abbeel:什么是神经网络我们为什么要关注它 


Hinton:我们的大脑是这样工作的: 


它有很多被称为神经元的小处理元件,每隔一段时间,一个神经元就会发出 “ping”声,而使它发出“ping”声的原因是它听到了其他神经元的“ping”声。每次它听到其他神经元的“ping”声时,就会在它得到的一些输入存储中增加权重,当权重达到一定输入后,它也会发出“ping”声。 


因此,如果你想知道大脑是如何工作的,你只需要知道神经元如何决定调整这些权重。有一些用于调整权重的程序,如果我们能够把它们弄清楚,那我们就会知道大脑是如何工作的。我认为我们会在未来五年内破解这些程序。 


我认为,所有现有的人工智能都是建立在与大脑高层次上所做的事情完全不同的基础上。它必须趋于相同,当你有很多参数,假设你有数十亿的参数,这些神经元间的权重在你大量训练实例的基础上去调整参数,就会发生奇妙的事情。大脑是这样,深度学习也是这样。问题在于,你如何获得调整参数的梯度,因此你要思考衡量标准及想调整的参数,使它们来完善你想达成的措施。 


但我目前的信念是,反向传播,也即目前深度学习的工作方式,与大脑所做的完全不同,大脑是以不同的方式来获得梯度的。 


Abbeel:你写一篇关于训练神经网络的反向传播的论文,它成为今天大家所做一切的动力而现在你说是时候弄清楚我们是否应该做些改变了?是否应该将其向与大脑相似做努力你是否认为反向传播可以比大脑正在做的事更好? 


Hinton:Rumelhart、Williams和我确实写了关于反向传播的论文(如下)、且被引用次数最多。 



论文地址:http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf 


反向传播已广为人知。我们真正做的是表明了它可以学习有趣的表征,并非我们发明了反向传播,而是重新定义了反向传播。我们提出它可以学习有趣的表征,例如单词嵌入,因此认为反向传播可能比我们在大脑中的效率要高得多。将大量信息挤压到少数几个连接中,而少数几个连接只有几十亿个,因此大脑的问题是连接非常便宜,有数以万亿计的连接, 而经验是非常昂贵的,所以我们倾向于在少量经验上投入大量参数。 


而我们正在使用的神经网络基本上是相反的。它们有很多的经验,并试图把输入和输出的信息联系到参数中。我认为反向传播比大脑使用的方法更有效,但并不擅长从不多的数据中抽象出很多结构。 


Abbeel:对于这方面,你有什么可能获得更好性能的方法的假设吗? 


Hinton:很长时间里我都认为,我们需要无监督目标函数。这里主要是指感知学习,如果你能通过观察世界来学习模型,那你就可以基于这个模型、而非原始数据采取行动,这正确率更高。 


我相信大脑使用了很多局部小的目标函数,它不是一种端到端的系统链,通过训练来优化目标函数。 


举个例子,如果你看张图像的一小块,试图提取些表征,可以将你从那小块图像中得到的表征、与通过附近其他斑块的表征而得到的上下文语境进行比较,由此去预测该图像中有什么。 


一旦你对这个领域很熟悉,这些来自上下文的预测和本地提取的特征通常会一致。如果不一致,你也能从中学到很多。 


我认为大脑可以从这种局部分歧中学到很多东西。可能在你看来,一个大图像和图像的许多小局部斑块意味着很多反馈,即图像中的局部提取和上下文预测的一致。我们可以从这些与上下文预测的一致中得到更丰富的反馈。要做到这一点很难,但我认为现在正沿着这条线发展。 


Abbeel:你对SimCLR这项工作以及它与更普遍的学习的差异有什么看法?你怎么看待最近的MAEMasked Autoencoders)?它与你刚才的描述有什么关系 


Hinton:我所得到的相关有证据表明,这种目标函数是好的。 


我个人没有写过这篇论文,但在很久以前,曾与Sue Becker写过一篇关于从图像的两个不同斑块得到一致表征思考的论文。我认为,那是关于通过在同一图像的两个块表征之间达成一致、来进行自监督学习的想法的起源。 


Abbeel:我们一谈你提到的使用端到端学习反向传播来支持端到端学习的方法。你的意思是,以接近大脑的学习方式,即从更少的数据中学习、提取更多数据,将是在了解大脑运作方式上取得进展的关键。今天,很多人正在努力解决从无标签数据中有效学习的问题,因为它需要的人力更少,但他们仍然使用跟反向传播相同的机制。 


Hinton:我不喜欢MAE的地方在于,你有一些输入补丁,经过多层表征,在网络的输出中试图重建缺失的输入补丁。 


我认为大脑有这些层次上的表征,但每个层都在试图重构下面那个层次的内容。并不是说经历了这么多层再返回,而是有这么多层,每一层都试图重建下一层的东西。在我看来,这更像大脑,但问题在于:如果不使用反向传播,你能做到这一点吗?