谷歌开发人脑模拟器:自学模式识别猫咪

添加时间:12-06-27   添加人:68cwdadmin  点击:

北京时间6月26日消息,在谷歌以发明自动驾驶汽车和增强现实(augmented reality)眼镜而闻名的秘密X实验室中,一些研究人员从几年以前就已经开始研究人脑模拟器。

三名谷歌科学家创造了最大的机器“神经网络”之一,将1.6万台计算器处理机连接到一起,然后听凭互联网来自己进行学习。

通过在YouTube视频中找到的10000万张数字图片,谷歌的人脑模拟器做了些什么?成百上千万人利用YouTube在做的一件事情是:寻找猫咪。

这个神经网络教会了自己识别猫咪,这在实际上并非无聊的活动。本周晚些时候,这些研究人员将在苏格兰爱丁堡召开的一次会议上发布其工作成绩。谷歌科学家和程序员将指出,虽然互联网中充斥着有关猫的视频几乎不算是什么新闻,但谷歌的人脑模拟器却能给他们带来惊喜。与以往的任何尝试相比,这个人脑模拟器的表现都要好得多:在列出的2万种不同物品中,这个模拟器识别目标的准确率提高了大约一倍。

这项研究代表着新一代的计算机科学,这一代计算机科学正在利用下滑中的计算成本和庞大的数据中心里大量计算机的可用性,使机器视觉和知觉、语音识别和语言翻译等多种多样的领域都取得了重大的改进。

虽然谷歌研究人员正在使用的某些计算机科学概念并非新鲜的想法,但这种软件模拟的绝对规模则正在带来以前不可能实现的学习系统。而且,并非只有谷歌的研究人员正在开发这种被称为“深度学习”(deep learning)模式的技术。去年,微软的科学家也发布了自己的研究结果,表明这些技术能被用来建立计算机系统以理解人类语言,而且有着同样好的表现。

纽约大学库兰特数学科学研究所(Courant Institute of Mathematical Sciences)专业致力于机器学习研究的计算机科学家亚恩·乐昆(Yann LeCun)称:“这是这些日子以来语音识别领域中最热门的事情。”

当然,这不光是与语音识别有关,还有识别猫咪。为了找到猫咪,以斯坦福大学计算机科学家安德鲁·恩吉(Andrew Y. Ng)和谷歌研究员杰夫·迪恩(Jeff Dean)为首的谷歌研究团队利用1.6万台计算器处理机来创造了一个神经网络,建立了10亿多个连接。随后,研究人员向这个网络提供了随机的缩略图,每张图片都是从1000万个YouTube视频中抽取出来的。

这些视频也是随机选择的,从本质上来说是互联网时代中对人们感兴趣的事情所作出的令人感兴趣的评论。但是,这项研究的结果也是很显著的,其原因是研究人员所创造的基于软件的神经网络密切反映了生物学家所发展的理论,即人脑内的单个神经元能在接受训练以后探测重要的目标。

就目前而言,许多商业机器视觉技术都是在人类“监督”其学习程序的前提下运作的,人类会为其标出某些特定的特性。但在谷歌的研究中,机器在识别特性时不会获得任何人为的帮助。

“我们的想法是,不需要由研究人员来找出如何‘查找边缘’的方法,而是在算法中投入海量数据,然后让数据说话,让软件利用数据来自动学习。” 恩吉说道。

“我们在训练过程中从未告诉这个神经网络说:‘这是一只猫。’”迪恩说道,他是最初帮助谷歌设计这个软件的科学家,使其能够轻松地将程序分解为许多能被同时计算的任务。“从根本上来说,是这个神经网络本身发明了‘猫’的概念。我们很可能还可获得其他一些概念,它们是(这个网络用来识别)猫的‘侧面图’。”

在接触过成百上千万张图片以后,谷歌的人脑模拟器利用一个分级存储器体系中的存储单元成功遴选出了猫的整体特点,从而组合出一张理想中的猫的数字图片。但科学家表示,看起来他们是为在人脑视觉皮质中发生的事情创造了一个神经机械学的“姊妹”。

神经系统科学家已经讨论过被其称为“祖母神经元”(grandmother neuron)的可能性,也就是人脑中的一种专门细胞,这种细胞会在反复接触或被“训练”来识别特定脸孔时被激活。

加利福尼亚州Industrial Perception公司的神经系统科学家加里·布拉德斯基(Gary Bradski)称:“你会通过多次的重复来学习识别一个朋友。”

虽然科学家因猫咪图片以及人脸和身体部位在特定记忆区中的平行出现而感到振奋,但恩吉说道,他对这个软件系统与生物生命之间的对比仍旧持有谨慎态度。

“一种不精确的、坦率说来甚至有些糟糕的类比是,我们的数字参数是可以与(神经元轴突的)突触相媲美的。”他指出,两者之间的一个不同之处是,虽然科学家能使用庞大的计算能力,但与人脑中所发现的连接数量相比,这个软件系统仍旧相形见绌。

谷歌研究人员指出:“值得指出的是,与人脑视觉皮质相比,我们的网络仍旧是很小的;从神经元和突触的数量来看,前者仍旧比我们的网络要大一百万倍。”

虽然与生物大脑的庞大规模相比相形失色,但谷歌研究人员通过这项研究提供了新的证据,即如果机器能接触海量的数据,那么现有的机器学习算法是可以大幅提高的。

“与以往的尝试相比,斯坦福大学和谷歌的研究结果从数量级上来看挑战了神经网络的规模极限。”乔治亚理工学院(Georgia Tech College of Computing)的高性能计算执行理事大卫·巴德尔(David Bader)说道。他指出,计算机技术的迅速发展将可在相对较短的时间里填补上述差距。“模拟完整人脑视觉皮质的规模可能会在2020年以前触手可及。”

谷歌的科学家表示,这个研究项目现在已经走出谷歌X实验室,在容纳该公司搜索业务及相关服务的部门中继续进行,潜在的应用包括用来改进图片搜索、语音识别以及机器语言翻译等。

虽然已经取得了这些成功,但谷歌的研究人员仍旧对他们是否已经发现了机器自我学习的“圣杯”持谨慎态度。

“如果结果证明我们需要做的就是使用当前的算法,然后在更大规模上运作这种算法,那么当然是非常好的。但我的直觉告诉我,我们仍旧尚未找到最正确的算法。”恩吉说道。