专访百度硅谷AI实验室高级研究员Greg Diamos:基于GPU的深度学习的可扩展性
编者按:百度首席科学官吴恩达在ISC大会上谈到了超级计算能力如何在人工智能领域里应用,他的同事,百度硅谷人工智能实验室高级研究员GregDiamos在参加纽约第33届机器学习国际大会上发表了关于基于GPU的深度学习论文。
GregDiamos是百度硅谷人工智能实验室高级研究员,也是机器学习领域里的前沿人物。在加入百度公司之前,他在NVIDIA公司担任研究科学家和架构师(主要负责GPU流媒体多处理器和CUDA软件)。基于这些从业背景,Diamos很自然地进入到基于GPU的深度学习领域。在介绍论文之前,Diamos回答一些问题,关于他的研究和他对机器学习的未来愿景。
你觉得目前这个机器学习时代有哪些特点?在机器学习领域有两股强大力量,一个是大数据,或者说是随着互联网发展所带来的大数据集;
另一个是深度学习,或者说是探索如何高效训练非常深度的人工智能网络。这两股力量结合在一起,驱动了很多硬件快速发展。
深度学习有很多兴奋点——它可靠吗?对于那些质疑深度学习技术的人,你会对他们说些什么呢?深度学习当然可靠,它已经是一项相当领先的技术,能够解决真实世界里的计算机视觉和语言识别问题。很多领域里的问题之前都被认为是无法解决的,但得益于深度学习技术,目前都获得了很大突破。
机器学习和高性能计算之间的关系是什么,它是如何进化的?高效训练深度人工神经网络的能力,加上海量训练数据,让机器学习陷入到了一个计算限制体系之中,即便是世界上运转速度最快的计算机也会遇到瓶颈。我们已经发现,一个运算速度更快的电脑能让应用程序有更好的表现,举个例子,速度越快的计算机会有更高的语音识别准确度。
所以,在纽约举办的第33届机器学习国际大会上你发布的论文,题目是持续递归神经网络:芯片上的存储周期性权重。首先,你能不能解释一下什么是递归神经网络,他们能够解决什么问题呢?递归神经网络是能够转化数据序列的功能——举个例子,他们可以把音频信息转化成文本,或是把一个英语句子转化成一个中文句子。递归神经网络和其他深度人工神经网络很相似,但最主要的不同就是递归神经网络是按顺序操作的(比如,一个任意长度的音频信号),而不是固定大小的数据(比如一个固定大小的图片)。
你能说说论文大概涉及的内容吗?你准备解决什么问题,还有目前已经取得了什么成绩?事实证明,通常深度学习算法会受到计算机计算能力的束缚,我们还没有想出如何在大型处理集群的理论极限上训练深度神经网络,所以对我们来说这里蕴藏了一个很大的机遇。我们在百度所知道的最快的递归神经网络训练系统得持续性能,和世界上处理速度最快的计算机的理论峰值相差大约2500倍。
我们工作的目的之一,就是试图弥补这一差距,训练深度递归神经网络的可扩展性。通过开发GPU,让每个处理器的工作效率提高30倍,可扩展性也变得更强。我们的技术提升了16倍的可扩展性,比如想实现某个高性能处理级别,利用我们的技术需要8个GPU,而不使用我们的技术则需要128个GPU。在整个训练过程中,我们使用了128个GPU,相比于在单个GPU上的31%峰值浮点计算吞吐能力,我们实现了支持28%峰值浮点计算吞吐能力。
GPU和机器学习密切相关,特别是深层神经网络,GPU对你在百度研究和开发工作的重要程度如何?GPU对于机器学习来说非常重要,因为它有很高的计算吞吐量,特别是对于大多数机器休息和深度学习来说,都存在计算局限。
有一个相关问题——对于深度学习和其他机器学习负载而言,从过去的密集服务器,到现在的大规模计算集群提供了哪些可扩展性?相比于其他技术,在大规模计算集群上进行可扩展训练,可以在更大的数据集合上训练更大的神经网络。
你是如何看待其他处理架构的(XeonPhiKnightsLanding,FPGAs,ASICs,DSPs,ARM等等)?最近五年的时间,我关注了两件事情:峰值浮点吞吐量和支持深度学习的软件。到目前为止,这两类都是由GPU引领的,但其中肯定会有竞争空间。如果其他处理器也想在这一领域里竞争,那么他们需要认真对待软件,特别地,利用简单C语言接口开发深度学习原始库会更容易实现峰值性能。对于技术可扩展性的局限问题,如果展望未来的话,我希望未来二十年所开发的处理器可以在300瓦特下以10PFLOP/s和25MW下以150EFLOP/s的速度训练深度学习模型。(注:一个PFLOPS(petaFLOPS)等于每秒一千万亿(=10的15次方)次的浮点运算。)
百度在图像识别、语音识别、自动驾驶汽车开发等领域应用机器学习,你所做的研究对这些工作有哪些帮助呢?我的研究能够更快速地训练机器学习模型,到目前为止,不少研究成果已经转化成了更好的应用效果,比如百度在语音识别的准确度上有了很大提升。我认为,对于那些开发高性能计算系统的人来说,这传达了一个非常重要的信息——他们开发更快速的系统,我们应用机器学习解决实际问题,这之间存在着极密切的关联。
VIA hpcwire
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
百度杀入硅谷
美国当地时间5月16日,百度硅谷人工智能实验室成立,同时正式启用百度美国研发中心新址。落成仪式上,百度宣布一项重要人事任命,世界顶级人工智能专家、斯坦福大学计算机科学系教授吴恩达(AndrewNg)将出任百度首席科学家,全面领导百度研究院,开展人工智能、大数据等前瞻性技术研究。
作为国内技术最领先的互联网公司,百度此次在硅谷布局人工智能研究,招揽该领域最顶尖的科学家,已经与美国科技巨头直接展开了技术与人才竞争。有评论认为,这也将是中国公司在世界尖端创新领域抢占主导地位的标志性事件。
抢占人工智能有利位置
科幻大片中经常出现人工智能的影子——与人类智慧相似的智能机器,它是计算机科学的制高点。中国科学院院士、清华大学教授张钹认为:“互联网已经使传统信息处理理论与方法面临巨大挑战,人工智能技术的引入与应用必将为创新带来全新活力。智能信息处理已经成为互联网技术核心,它将为互联网发展提供强有力的支撑。”
纵观业界,因为人工智能研究门槛高,投入大。只有少数拥有技术实力的互联网巨头才有可能成为入局者。也正因为人工智能给互联网带来改变的前景已被越发清晰认知,各大公司都希望能成为互联网未来技术的掌控者。
百度现在显然已经在人工智能领域占据了非常有利的位置。据此前百度公布的信息显示,百度已经建成全球规模最大的深度神经网络,这一称为“百度大脑”的智能系统,目前可以理解分析200亿个参数,达到了两、三岁儿童的智力水平。百度董事长兼首席执行官李彦宏预测,随着成本降低和计算机软硬件技术的进步,再过20年,当量变带来质变,用一台服务器模拟一个10-20岁人类的智力“几乎一定可以做到”。
与谷歌、Facebook抢精英
做最好的研究,要靠最好的人才。李彦宏的人才理念中第一条就是“找最优秀的人”,在百度前瞻性技术性研究日益深入之时,能主持统领研究的“首席科学家”将至关重要。
近年来,世界顶尖级科技公司如Google(谷歌)、微软(39.83,0.23,0.58%)等都在人工智能及深度学习领域进行着大规模投资,在有限的研究精英人才中进行大规模挖角。对此,《华尔街日报》指出,来自中国的百度并没有直接与谷歌、Facebook竞争美国用户,但这3家公司在精英人才方面已经展开了激烈竞争。比如,谷歌以未公开价格收购了多伦多大学教授GeoffreyHinton创立的公司DNNResearch,Facebook于去年12月聘请了纽约大学人工智能领域的重要专家YuanLeCun教授。而百度此次则如愿以偿,邀请到全球人工智能和机器学习领域最权威的学者之一吴恩达。
年仅38岁的吴恩达在人工智能业界堪称泰斗级人物。他一手打造了“GoogleBrain”,被外界誉为“GoogleBrain之父”。作为一名科学家,吴恩达2013年入选《时代》杂志“影响世界的100个人”,是科技界的16位代表之一。同年他还入选《财富》杂志评选的“全球40位40岁以下精英人士”。
张钹院士十分看好吴恩达加盟百度,“吴恩达有深厚的研究造诣与成功经验,百度则拥有全球领先的研究平台,这种结合将会为人工智能的发展和应用带来新契机。”吴恩达在接受采访时表示,百度建立的研究机构将会给他带来比之前在斯坦福大学时更多的资源,以及带领更大的团队去推动具体项目研究的能力。吴恩达领导的百度研究院目前下设三大实验室,分别是刚刚在硅谷成立的人工智能实验室、北京大数据实验室,以及深度学习实验室。
在国内竞争中占有优势
从百度自身的形势看,不仅要面对中美科技公司在人工领域的高手较量,在国内也在应对腾讯和阿里的竞争。价值中国会联席会长张晓峰认为,BAT今后10年的竞争分为三个阶段,当前阶段的地位是基于“入口”和“社交”因素进行区隔的;第二个阶段的关键驱动要素会是基于专业人士和工具的“大数据”;而第三个阶段的关键驱动要素将是基于机器学习、人机交互的“人工智能”。
“现在百度研究院在人工智能、大数据两个方面同时发力,具有很强的前瞻性。”张晓峰说,“IDL此前引进世界级技术人才,此次聘请吴恩达出任首席科学家,都是这个战略的一部分。如果说在大数据阶段BAT还各有千秋的话,人工智能阶段百度将占有优势,届时的竞争将是直面谷歌或Facebook。”
查看原文
文章纠错
百度在硅谷设第二个研发中心,专注人工智能和自动驾驶
【AE视界】百度硅谷第二个研发中心正式揭幕运营,百度认为这是在硅谷正式进入2.0时代的标志。
10月9日,百度官方微博表示,美时10月2日上午,百度硅谷第二个研发中心正式揭幕运营,百度认为这是在硅谷正式进入2.0时代的标志。
▲百度在硅谷的第二个研发中心
三年前,百度在硅谷建立了第一个研发中心,关注人工智能和数据中心的研究,而今第二个研发中心正加倍努力在全球范围内招募人工智能和自动驾驶领域的人才。
从去9月的百度大会开始,就可以看出,百度正很明确地把自己的未来放到了人工智能应用上,寻求其优势地位。
百度该中心占地3.6万平方英尺,目前由两个部门使用:其一是百度智能驾驶事业组(IDG)旗下的一个部门,主要负责阿波罗自动驾驶开放平台;另一个是网络安全部门的一个分部。
▲自动驾驶测试车停在位于硅谷的百度新研发中心的汽车实验室中
百度表示,新研发中心可以容纳150人且拥有最先进的汽车实验室。未来将主要用于自动驾驶和互联网安全领域相关的工作。百度目前的研究中心将继续专注于人工智能和数据中心的前瞻性研究。
百度公司总裁、同时负责公司在美业务的张亚勤表示:“随着我们团队的不断发展,以及我们在美国招聘工作的扩大,开设第二个研发中心是很顺其自然的事,在百度的全球战略中,硅谷正变得越来越重要。”
以上内容由AE视界转载提供,文中内容不代表AE视界。