博舍

从智障到智能 光语音识别就花了100年 人工智障 识别软件

从智障到智能 光语音识别就花了100年

前不久,中文版Bixby开始公测,虽然这并不是Bixby的首次发布,但却意味着新的语音巨头开始打入中国市场。在我们的测试中发现,Bixby拥有优良的识别率,可以实现语音开锁、语音文本转换,并且用户可以通过语音对手机进行电话短信、软件控制、第三方内容接入等各种各样的操作。从某种意义上来说,手机已经实现听懂人的语音。

从智障到智能 光语音识别就花了100年

当我们看到科幻电影中能与人类对话的人工智能时还会感到十分高科技,其实语音助手早已悄无声息的进入了我们的生活,以至于当你看到现在优秀的语音产品时并不会感到陌生。在我们大多数人的印象中,语音助手仍是比较“弱智”的存在,其实这点也并不能否认。因为机器没有智慧,它不能像人一样思考,或者说它还没有一个足以令它思考的庞大体系。但同样不可否认的是,语音识别方面的人工智能已经拥有相当大的规模。

语音识别已经带来了极大便利

举个非常常见的例子,现在的网络电视大多都支持语音搜索功能,这给电视的使用带来了极大的便利。因为电池的输入设备仍旧是遥控,其输入效率无法与键盘匹敌,但支持语音的话,只要对电视输入语音命令,就可以完成交互,十分便利。另外,语音识别交互也为盲人的设备使用带来了福音。其作用不可小觑。

手机语音助手(图片来自网络)

相信有不少没关注过语音识别功能的读者都有这样的疑问:兄弟,你开玩笑呢吧?无聊时唤出Siri扯两句,还有家里的智能音箱,就普普通通的语音助手嘛,真有你说得怎么玄乎?而且智能音箱的售价都不贵嘛,高科技的话怎么会这么便宜?还别说,开发语音助手还真不是个小工程。而且通常来说,语音助手难以靠本身变现,至少在你用语音听写时,输入法厂商并没向你收费。所以没有雄厚的资金支持是很难坚持到营收的那一天的。

语音识别还有些鸡肋(图片来自网络)

现在我们去看语音助手的厂商宣传,都在说我们的准确率达到了百分之多少。目前来说,准确率达到90%以上已经相当不错。虽然现在已经有了这么高的准确率,但我们还是感觉语音助手有些鸡肋,这与语言的复杂性、第三方接口的完善性有很大关系。本期发烧学堂,我们就来聊一聊语音识别的实现原理,以及语音识别的现状和未来发展,设想一下人工智能什么时候会统治世界。

语音识别实现原理:数据库

概括的说,语音识别的原理其实并不难理解,大面上和指纹识别的原理相同:设备收集目标语音,然后对收集到的语音进行一系列处理,得到目标语音的特征信息,然后让特征信息与数据库中已存数据进行相似度搜索比对,评分高者即为识别结果。然后通过其他系统的接入来完成设备的语音识别功能。

简要识别过程

如果你对语音识别的兴趣不高,那么知道这样的大致原理已经足够。事实上,语音识别的过程是相当复杂的。最直接的原因就在于语音的复杂性。指纹识别只要录入的指纹信息与数据库中的已存信息匹配就可以完成识别,这个数据库包含的数据只有几个指纹信息而已。但语音就完全不同了。

《康熙字典》(引自中华古玩网)

《康熙字典》容纳了汉字47035个,由当时的三十多位著名学者历时六年编撰而成。而汉语可不仅仅是孤立的汉字,语言中有升降调,有断句情感,有不同语义的不同理解。同时,全国各地可都不是说普通话的,方言也有很多种,想要建造一个完善的语言数据库难度可想而知。汉语的复杂性正是Bixby中文版要晚于英文版发布的原因。

高准确率的语音识别离不开庞大云端数据库(图片引自网络)

庞大的语言数据库难以放置于移动端,这也是几乎所有手机语音助手使用时需要联网的原因。语音识别发展到现在也不是没有离线版,但我们不难发现,离线版的准确率是要远远低于在线版的。另外,刚才我们提到不少语音厂商都宣称准确率达到90%以上,这可以说是十分了不起的,不夸张的说,这时候每提升1个百分比的准确率,都是质的飞跃。这不仅要相当完善的数据库,满足这样的准确率还得效率较高的识别提取算法和自学习系统。

当然这样的数据我们要以辨证的眼光来看,俗话说,一句话百样说,汉语言可谓博大精深;而且厂商给出的准确率数据的测试很难具备广泛性,所以有些用户在使用语音识别功能时发现它还很“弱智”,实属正常。

语音识别实现原理:算法和自学习

刚才我们提到了识别提取算法和自学习系统,在这里我们不妨简单了解一下它们的工作过程:首先语音识别系统对收集到的目标语音进行预处理,这个过程就已经十分复杂,包含语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等等。之后对处理的语音进行特征提取。

数字语音波形(图片来自网络)

我们知道,声音的本质是震动,它可以由波形表示,识别则需要对波进行分帧,多个帧构成一个状态,三个状态构成一个音素。英语常用音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。之后通过音素系统合成单词或者汉字。当然,之后的匹配和后期内容处理也需要相应算法来完成。

输出文本形式的识别过程

自学习系统则更多的是针对数据库来说。将语音转换成文本的语音识别系统要有两个数据库,一是可与提取出的信息进行匹配的声学模型数据库,二是可与之匹配的文本语言数据库。这两个数据库需要提前对大量数据机型训练分析,也就是所说的自学习系统,从而提取出有用的数据模型构成数据库;另外,在识别过程中,自学习系统会归纳用户的使用习惯和识别方式,然后将数据归纳到数据库,从而让识别系统对该用户来说更智能。

更进一步总结一下整个识别过程:对采集的目标语音进行处理,获取包含关键信息的语音部分——提取关键信息——识别最小单元字词,分析规定语法排列——分析整句语义,将关键内容断句排列,调整文字构成——根据整体信息修改出现轻微偏差的内容。

语音识别现状和未来

Radio Rex玩具狗(图片引自网络)

人工智能能在这两年爆发并不是一朝一夕的事,语音识别也不例外。从最初的语音识别雏形,到现在高达90%以上准确率,已经有大约100年的历史。Radio Rex玩具狗生产于上个世纪20年代,这款玩具狗在被呼叫时可以弹出来,被视为语音识别的鼻祖。真正意义上的语音识别研究始于上个世纪50年代,AT&T Bell实验室打造的Audry系统实现了十个英文数字的语音识别。

而最近大热的NPU神经网络,早在60年代就已经用于语音识别了。将大词汇量、连续语音、非特定人三大特性基于一身的Sphinx系统诞生于80年代末。90年代以来则是语音识别发展的绝佳时期,政府机构对语音识别技术开始重视,许多著名公司都开始在这方面投入巨资,一大批高水平研究机构都加入了语音识别的研究领域,一时间成绩显著。

科大讯飞的语音听写

时至今日,语音识别已经有了突破性进展。2017年8月20日,微软语音识别系统错误率由5.9%降低到5.1%,可达到专业速记员的水平;国内语音识别行业的佼佼者科大讯飞的语音听写准确率则达到了95%,表现强悍。国内诸如阿里、百度、腾讯等大公司,也纷纷发力语音识别,前景一片看好。

科大讯飞汽车语音助手飞鱼系统(图片来自网络)

并且,语音识别系统也不会只仅仅用于之前提到的手机交互、智能音箱命令,在玩具、家具家居、汽车、司法、医疗、教育、工业等诸多领域,语音识别系统将发挥不可忽视的作用。毕竟在当下人工智能刚刚起步的时代,在设备无法便捷的探知人类想法之前,语音交互都是最高效的人机交互方式。

写在最后

看到这里,相信大家已经对语音识别有了一个大致的了解。我们在手机、智能音箱上看到的语音识别,只是语音识别领域表现出的冰山一角,而我们在未来也将会看到有更多形式的语音识别用于日常生活的各个方面,比如语音识别系统配合无人驾驶汽车,只要你跟汽车说去哪,汽车就可以自动载你达到目的地。

人工智能什么时候会统治世界,这个问题确实不好说。人工智能已经掌握了自然语言的本领,即便相对于人类的语言能力还很初级,但已经可以依据程序给出相应内容,这就具备了拥有智慧的条件,从某种意义上说,人类智慧就是由一项项基础功能集成而来的。但显然这不是我们要担心的问题,期待并享受人工智能带来的便利就好了。

风靡互联网的Deep Dream人工智能图像识别软件

Google的DeepDream技术现在对所有想创作怪图的人开放了

FábioTamai

(它会)把你的照片变成计算机化(数字化)的梦魇

DeepDream版达利(西班牙超现实主义绘画大师)画作

亲和版的修格斯(美国小说家霍华德·菲利普·洛夫克拉夫特所创造的克苏鲁神话中的一种怪物)。回复aliceffekt:这是来自哈勃太空望远镜拍摄到的罕见狗状星云

(译补画外音:看看把我变成了什么样子)

恩斯特·海克尔

译者注:ErnstHaeckel,1834-1919,德国生物学家、医生。他也是优生学的先驱,但其一些理论和主张常体现出德国民族沙文主义,后被纳粹理论家利用,成为种族主义和社会达尔文主义的理由。此蜂鸟图片的原图可能出自(我不确定,因为我还没拜读过)其科学著作《自然的艺术形式》(即KunstformenderNatur或ArtFormsinNature),此书编排精巧、绘画精美绝伦,完美展现了自然界中诸多奇妙的生物和各种形式的对称美。

BhuddhabrotInceptionism

译者注:

Bhuddhabrot:佛像分形,这个词的来源是Buddha(佛)与Mandelbrot(曼德布罗特),属于数学分形理论的范畴;

Inceptionism:这是DeepDream项目开源发布之前的名称,现已弃用。恕我不予翻译(难以选择用词,翻译会变味),下面的第三篇技术文章将对此着重介绍。

samim5:47AM-3Jul2015

大自然。我不晓得咋了

##1.2第二节《独立报》文章

###1.2.1第二节正文:

Google释出了它那可怕、猜想图像的机器人

http://www.independent.co.uk/life-style/gadgets-and-tech/news/google-has-set-its-terrifying-dreaming-image-robots-on-the-public-10361298.html

前言:Google说这项技术或能使我们理解人类创造力的来源,现在他们正将其推出(面向公众)进行测试。

Google已经向世人开放了其图像识别机器人,它能让人们基于自己的图片创作出奇怪、恐怖的(新)图像。

Google发布了一些其上周就已创作出来的既恐怖又神奇的图片,其中包含一幅由狗狗组成的骑士像。该公司已经将这个名为“DeepDream”的软件项目放到了代码分享网站GitHub上开源,现在任何人都可以下载它运行并藉此处理自己的图像。

这款软件是以计算机自身来识别图像的。让系统过分解读图像,然后就可以筛选出其他无含义的东西并夸大,比如把云朵转化为羊驼(美洲驼)。

与Google发布的图片一样,(软件的)出图效果趋向于把很多东西转换成动物,其中特别爱抢镜的是狗狗......还有眼睛,也往往以一种旋涡状的彩虹色把东西给覆盖住。

(以下仍为编辑所选的Twitter热门图,译者有删减)

快乐的小猫,(身体)分叉了

(日语,大意是)DeepDream好厉害,一般在安装了Caffe的Python环境下,使用PyData软件一下子就能搞出来了!(不知有无曲解原意,如有误请指正)

DeepDream:Google已经释出了可以做出那些迷幻般人工智能图像的源码。

用户可以从Google的博客站下载这款软件。当一切都准备就绪了,用户就能喂入一幅图像,选择网格线中的某部分进行增强(夸张)、程度要多深,接着就能在另一侧看到效果图。

“看看人们能做出何种图像会很有意思”,Google工程师在介绍此工具的博文中写道,“如果你要在Google+、非死不可或推特上发布图片,记得加上#deepdream标签。如此,其他人就也能切克闹(来看)一下。”

###1.2.2第二节评论(Comments):

这正好表明人脑有一个(隐藏在)后台的软件。事实上,甚至连人类的躯体、很可能还有现实(世界)本身都是被一个超自然软件设计和维护的。那就读读这本书《现实的代码!是以何种语言写就的?》(晕,难道是来卖书的?)

AA-1

这些图像依赖于以预先编译好的某一方式来处理信息的算法。根本就没有什么机械式的东西,因为代码都是由人写的。这可能就是某些图形(频繁)出现的原因。

对。它是由人——程序猿创造的一个程序或算法......这些图片能看人,机器和计算机程序多半还无法理解。

这些图像能被人理解(译注:此人在纠正上一句的语法错误),而人工智能办不到......

----#2第二部分争论----

##2.1Hopes&Fears网站评论文章

Google的DeepDream是艺术吗?

http://www.hopesandfears.com/hopes/culture/is-this-art/215039-deep-dream-google-art

就在不久前,Google把一个人工神经网络项目放到了互联网上“做梦”,它可以挖掘可视的数据,“增强”图像中某些部分,而且其特性是依靠自己的数据集来“识别”里面(的内容)。(出图)效果是朦胧的、旋涡状有噪点的彩釉色,(里面的)物体无情地反复变化。实在太迷幻了!它“看出”了很多狗(网上有许多狗-_-||)。

不过,这是艺术吗?

神经网络不仅仅是在“梦想”,它可能(也)在进行艺术创作。或许是这样的?好吧,至少现在“inceptionism”算法可以在线随意获取,人们肯定已经在创造性地使用它了。(、、甜甜圈、宇宙、羊咩咩......)但作为一个项目,Google的DeepDream机器人本身是不是件艺术品?它确实能生成可以取悦人们的图像就使得这种算法(或者,至少它的作者)有点像一个艺术家?你能把艺术机构编程进一个机器人或“人工智能”(的东西)吗?或者那种想法就是一个逻辑谬误?(好吧,)我们跑题了。

(为省去读者自己到外网寻找的麻烦,下面附上三幅图)

回复kcimc:这个小怪物其实是吃剩的半块甜甜圈。-_-||(译者附原作者图及注)

宇宙星空图(译者附图)

在没遇到DeepDream前,“它”只是一只羊咩咩。(译者附原作者图及注)

“Inceptionism”算法作为艺术,很像那些(用)DeepDream(创作的)(不适合上班时间浏览,即少儿不宜),是一种扭曲、令人困惑的概念。言归正传,这算不算艺术?(为了)一探究竟,我们邀请了艺术评议者、艺术家和艺术界技术专家来说出他们的看法。

一幅来自的DeepDream图像(全部图集访问)

PaddyJohnson

艺术评议者,ArtFCity网站的创办者兼编辑

不是。它只是一个工具,而非产品,因此称其为艺术有点像艺术家抬起手然后宣称他们的笔刷是艺术就因为他们非常满意在画布上涂抹的使用方式。即使是此软件的开发者也在Google博客(网志)上指出了这一区别:

两周前我们发表了一篇博文,其中阐述了一个可视化(视觉)工具被设计用来帮助我们理解神经网络的工作原理以及每层学到了什么东西。除为了获悉这些(神经)网络是如何进行分类任务(作业)的,我们还发现这个过程也可以生成一些漂亮的艺术作品。

但值得注意的是,似乎,在(众多的)美国公司中德高望重,因此谷歌本可以将他们的软件定义为艺术。如果我们考虑到一个人搞艺术的意图,那么对Google来说,创造一个艺术作品(不管其价值如何)肯定是其一个可能的未来。尽管这听起来有点像科幻小说,那么我猜我们将看不到该公司即刻去做(这事儿)。

对DeepDream的应用

RichOglesby

Tumblr(轻博客)(里面都是些原创的奇异视频和动图)专栏的创建者和编辑

我想说有一个很好的例子可以用来谈谈此事,这取决于(照着通常与艺术相关的例子)你如何“构建”那个想法或解释其过程和结果的符号学。

人们很容易认为这是一种现代形式的迷幻剂而拒绝(即先入为主),但是这对大众开放了一个人工智能(软件)的人工心理学,并展示了它是怎样与我们连接(关联)的:人类和计算机(同)是处理即时信息的模式(图形)识别的实体。像幻想性视错觉、习惯化和“俄罗斯方块效应”这样的想法到了脑海里,(而)我们的重复性心理活动又是怎样给我们留下了他们的印象。如果艺术有为了说明人类的处境的目的,(那么)DeepDream已成为这个领域的翘楚(直译为:一个引人注目的入口点)。

开放源代码给富有创意的程序员带来了一些有趣的实验(自微软发布Kinect以来还未曾见到过,它本身已经成为一种科技艺术的现代主体)。它可以被视为谷歌本身的一个公关行为,是以最初Inceptionism博文的成功(即引起社会的极大关注)为起点的。我们很快就会厌倦基于数据集(恒定的“群狗荟萃”特色图像流最终将使大家感到厌烦)的公式化设置,但是神经网络艺术的话题还在发酵中,以及有趣的是它接下来将何去何从。包括(德国柏林艺术家)做的“长短时记忆”(LongShortTermMemory)实验在内的例子,(都只)是一个从(似乎是一个推销垃圾科学进行谋利的欺世盗名之徒)的作品中生成新文本的应用。才华横溢的程序员运用神经网络已经做出了几个有生产力的项目,来创作机器生成版的和,或者。MatthewPlummerFernandez(也)创造了一个利用深度学习来解读艺术作品的,并把效果发表在Tumblr轻博客上。

AnthonyAntonellis

Artist(艺术家)

Google的DeepDream项目(只)是个媒介。其本身并不是艺术,不过它出的图可以很艺术——那种丑爆了(fuckingugly)的艺术。

它让我想起了八十年代里充斥在我的小学课本侧栏中的(批量)生成的不规则碎形计算机艺术。一些结果看起来像在皮克斯版的《幻想曲》中可能都运用过的迷幻场景。从概念上讲是很有趣的,以美学观点来看它像视觉莫吉隆斯症。(译注:莫吉隆斯症是尚未被确认的“不治之症”,有些人坚信他们得了这种绝症,并抱团建立病患组织,但美国政府和主流医学界仍坚称这是精神疾病带来的妄想,由此亦引发了阴谋论。)我肯定会有一些引人注目的结果,似乎有类似于Photoshop中“内容感知填充工具”的趋势。我总是乐见一个能让如此多的公众乐于尝试并玩耍的媒介,我只是希望那些结果可以被打印出来,然后贴在他们(家)的冰箱上,而不是像今年年中版本的鸭子脸那样吐到我的(新闻)订阅源里。

DeepDream是Google对我们不喜欢GoogleGlass(而做出)的惩罚。

来自Google神经网络研究项目的一幅图像(要查看全部图集,点击前往)

BenDavis

艺术评论家、《9.5ThesesonArtandClass》一书的作者、artnet新闻网站的民族艺术评论家

简短回答:当然是艺术啦!界定何为“艺术”并没有限制。问题只在于它是不是个好艺术。而且看起来人们都乐坏了。

啰嗦点的回答(吐槽:还真够哆嗦的,简直就是BS):这不是艺术。它在运用的方法本质上类似一个迷幻的Instagram(应用)滤镜,而且结果实际上有点重复,你不觉得吗?(以前)就已经有了以算法手段做出的非常非常惹人注目的图像,所以我不确定这又是什么鬼。

即使如此,我也不怀疑你能发明出(这样的)AI,它可以弄清如何制作具有许多即便不是全部我们都能称之为“艺术”特征的东西,甚至(包括)真正聪明的东西。还会进行一次图灵测试(译注:科学界对此有争议),(届时)你将不能说出(分清)什么是由人类制造的、什么是由计算机智能制造的,毋庸置疑。

但实际上于我们来说作为一个分类手段的“艺术”是欧洲浪漫主义时期的一项发明。它往往非常明确所指的是“人类创造性天赋的证据”,这另外呈现的狂热状态是对工业化的回应,就像人们设法在迅猛科技化的世界保持本性。因此,人类已经发明的图像制作和构图摄影的新工具成为经典的范例时(译注:意为“过时”)——往往要发生的是(那些)我们称之为“艺术”的东西会突变为找寻(下)一种新的方式来表达“人类创造性天赋”。

因此,它就像,“好了,摄影师是给人照相的,(而)现在的绘画是有关探究色彩、形式和表现的”,这在这十九世纪末摄影成为主流的时候就发生了。之后,又发生的是,另一些艺术家掌握了怎样使用此工具来表达何为“艺术”的新标准,接着你就知道了某种(名为)“艺术摄影”的东西。而且往往就是怎样。

也许我们的计算机越聪明越具创造性,对于艺术家来说就越难想出新的策略来表征“人类的创造力”。也许赞美特别的”人类创造力”的想法,事实上,就是过时的。但我敢肯定这就是(对)“艺术”的狂热崇拜和(对)“艺术家”手法的迷信,即使在今天,从这个角度说,DeepDream仅仅是一个温和的新改变,或者对坚持传统的艺术家来说不得不直面的挑战,仅此而已(也可以翻译为“终于说完了”,我翻译得快爆炸了)。

译者附文章中链接的一段视频如下:

----#3第三部分探究----

##3.1第一节

GoogleResearchBlog

《Google研究网志》其一

Inceptionism:更加深入地探究神经网络

http://googleresearch.blogspot.com/2015/06/inceptionism-going-deeper-into-neural.html

作者:

AlexanderMordvintsev,软件工程师;

ChristopherOlah,软件工程师实习生;

MikeTyka,软件工程师

ImagesinthisblogpostarelicensedbyGoogleInc.undera.However,imagesbasedonplacesbyrequireadditionalpermissionsfromMITforuse.

本博文中的图像为Google公司所有,采用。不过,基于(做出的)的图像还需要另外向MIT申请使用许可。

人工神经网络在和方面已经取得了显著的最新进展。但即使这些都是非常有用的基于知名数学方法的工具,我们实际上还是对为何某些模型能起作用而其他不能知之甚少。所以,让我们以简单的技术来窥探下这些网络里面(的东西)。

我们是这样训练一个人工神经网络的:向其展示数以百万计的训练样本并,直到它能给出我们想要的分类结果。该网络通常由10~30层堆叠的人工神经元组成。每幅图像都由输入层喂入(送入),然后递入下一层,直到最后抵达“输出”层。网络的“答案”就来自于这个最终的输出层。

神经网络的一个挑战是要理解在每一层到底都发生了什么事。我们知道在(经过)训练之后,每一层会逐步提取越来越高级的图像特征,直到由最后一层做出显示为何的决定(本质上)。例如,第一层也许在寻找边缘或拐角。中间层分析基本的特征来寻找整体形状(即大体轮廓)或其组成部分,比如一扇门或一片叶子。最后几层将那些(要素)组合成完整的解释——(如此,)这些神经元对非常复杂的东西诸如整个建筑物或树木就有了反应。

视觉化此过程的一种方法是将网络上下颠倒,并且要求它采用这种方法以引出一个特定的解释来增强输入的图像。假设(比如说)你想知道什么样的图像会导致“香蕉”这样的结果出现。从一幅充满随机噪点的图像着手,然后逐渐调整图像朝着神经网络认定其为香蕉的方向变化(见相关工作:,,,)。本来效果并不怎么好,但如果我们施加先验约束就不一样了,即图像应该有类似的对自然图像统计的信息,比如邻近像素需要相互关联。

因而这里有一个惊喜:被训练用以区分不同类型图像的神经网络也有相当多的信息需要去生成图像。查看一下(下面)更多不同类别的例子:

为什么这个很重要?呃,我们通过简单向它们展示很多我们想让其学习的范例来训练网络,希望他们提取所关注事物的要素(例如,一个分叉需要一个柄和2~4个尖齿),并学会忽略不相关的东西(分叉可以是任意形状、大小、颜色或方向)。但是如何检查网络(是不是)已经学到了对的特征呢?它可以帮助视觉化网络一个分叉的表达。

的确,在某些情况下,这揭示了神经网络并不是在寻找我们以为它在(寻找的)东西。例如,下面这个我们设计去思考哑铃的神经网络看起来像:

在那儿是有哑铃,但似乎没有一个图像中的哑铃是完整的,那儿并没有一个肌肉发达的举重运动员要来举起它们。在这种情况下,网络未能完全提取到哑铃的要素。也许它还从来没被展示过一个无手臂握着的哑铃(图片)。视觉化能帮助我们纠正这些训练事故。

替代确切地规定我们想要网络去放大的特征,我们也可以让网络(自己)做决定。在这种情况下,我们简单地给网络喂入任意的一幅图像或照片,并让网络分析。然后我们挑选出一层,要求网络增强任何它能检测到的东西。网络的各层(神经元)会处理图片中不同抽象程度的特征,所以我们生成的特征其复杂性取决于我们选择去增强哪一层。例如,较低的层会倾向于产生笔触或者简单的装饰性图案,因为那些层对基本的特征比如边缘和它们的方向很敏感。

左图:原始图像,由摄制;右图:处理后的图像,由软件工程师GüntherNoack制作

左图:的原始画作;右图:由软件工程师MatthewMcNaughton处理后的图像

如果我们选择更高级别、可以识别图像中更复杂特征的层,(那么)复杂的特征抑或整个对象往往就能显现出来。还有,我们只是以现有的图像开始,将其递入我们的神经网络中。我们要求网络:“不管你看到的是什么,我都想要更多!”这样就创建了一个反馈循环:如果云朵看着有点像一只鸟,(那么)神经网络将会把它变得更像鸟。这反过来将使网络在下一步以及更多步识认鸟时更加强烈,直到出现一个高度精细(具体)的鸟,(而它)似乎不知是从哪儿冒出来的。

(研究)结果很是有趣——即使一个相对简单的神经网络也可以被用于过分解读图像,就像孩童时代我们喜欢看云朵、解读(出现的)随机形状一样。这个网络(之前)主要是以动物的图像被训练的(另译:由于之前主要是以动物的图像来训练这个神经网络的),因此自然它就倾向于把(一些)形状解释成动物。但由于数据被存储的如此高度抽象,结果就出现了这些习得特征的一个有趣的杂糅。

当然,我们可以做的远不止运用了这种技术的云朵。我们还可以把它应用(推广)到任何种类的图像。(而)一种图像的(处理)结果大异,是因为输入的(众多)特征造成了(神经)网络的偏差,使其朝着某些(方向)解析。例如,地平线往往会充斥着塔楼和宝塔(佛塔),岩石和树木变成了建筑物,鸟类和昆虫出现在叶子的图像中(即AI对叶子和虫鸟有点傻傻分不清)。

原始图像会影响处理后的图像中的形成的那些对象。

这种技术给我们提供了一种对抽象层次的定性感受,即特定的某层已经取得了对图像(怎样)的理解。根据运用的,我们称这种技术为“Inceptionism”。想要更多对图像及其处理结果的图片,参见我们的,里面还有一些很酷的视频动画。

Wemustgodeeper:Iterations

我们须得更深入些:迭代

如果我们把此算法反复应用在其自身的输出上,并在每次迭代后应用一些缩放,我们就能得到了无尽的新效果(数据)流,探索网络了解(知晓)的一众事物。我们甚至可以从一幅随机噪点(噪声)图像开始这个过程,以便(经处理后的)结果完全变成神经网络的结果,如下面的图像所示:

神经网络“梦想”——纯粹地由随机的噪声生成,使用的是经训练的网络。想要上面以及更多图像的高分辨率版本,可以移步到我们的(以“Places205-GoogLeNet”标记的图像是利用这个网络制作的)。

这里介绍的技术(可以)帮助我们理解以及视觉化神经网络是如何执行困难的分类任务的,改进网络体系结构,并检查在训练期间网络都学到了什么。它还让我们好奇神经网络是否可以成为艺术家的工具——一种再混合视觉概念的新方法——或许即使通常(只有)一点点光透到创意过程的根基上。

标签:、、

##3.2第二节

GoogleResearchBlog

《Google研究网志》其二

DeepDream,可视化神经网络的代码范例

http://googleresearch.blogspot.com/2015/07/deepdream-code-example-for-visualizing.html

作者:

AlexanderMordvintsev,软件工程师;

ChristopherOlah,软件工程师实习生;

MikeTyka,软件工程师

两周前我们发表了一篇博文,其中阐述了一个可视化(视觉)工具被设计用来帮助我们理解神经网络的工作原理以及每层学到了什么东西。除为了获悉这些(神经)网络是如何进行分类任务(作业)的,我们还发现这个过程也可以生成一些漂亮的艺术作品。

上图:导入的图像;下图:使用训练的神经网络做出的输出图像

我们看到了(大众对此的)极大兴趣,也收到了一些好的问询,来自程序员和艺术家们的(反馈)差不多,都问到了这些视觉化怎样实现的细节。我们已经决定开放在中用于生成这些图像的源代码,因此现在你可以自己做些神经网络灵感的图像了!

此代码基于并使用了可获取的开源(软件)包,也设计尽可能地少用依赖。要开始使用它,你还需要下列的东西(手册里含有所有的细节):

·,,,,orascientificpythondistributionsuchasor.

·deeplearningframework

#-------------------我---是---分---割---线-------------------

·、、、、像或这样的用于科学研究的python分发包;

·深度学习框架

一旦配置好了,你就可以输入一幅图像,选择要增强网络中的哪些层、迭代多少次、把画面拉到多近(即放大)。而且,你还可以选择(经历)不同预先训练的网络。

看看人们能做出何种图像会很有意思,如果你要在Google+、非死不可或推特上发布图片,记得加上#deepdream标签。如此,其他人就也能切克闹一下。

标签:、、

----#4第四部分网民评论篇----

##4.1英国电讯报图片新闻

###4.1.1正文:

GoogleDeepDream:从这个梦幻般的图像软件中精选出的19幅最佳图片

http://www.telegraph.co.uk/technology/google/11730050/deep-dream-best-images.html

Picture:Twitter

上月Google揭示了其名为“DeepDream”的软件项目,这一研究实验可以把日常的图片转换成奇异、迷幻般的图像。自此,这项技术就风靡于互联网了。

图片来自:Google

Picture:Google

软件代码基于Google的“机器学习”人工智能项目,它可以找寻那些已被训练过的图形,去识别喂入的图像。然后轻微地反复改变图像以使它看起来像那个图形,(因为)常常识别过了头,就产生了艳丽、清晰的图像。

图片来自:Google

Picture:Google

DeepDream看到的许多图形都是动物的脸,因为这个软件已经在很多张动物图片上被“训练”过了。这意味着狗脸,尤其是狗脸,会较多地出现。

图片来自:Google

Picture:Picnio/Google+

有时这个软件并未认出狗狗,它看到了许多眼睛。上面是经过DeepDream(识别)后的列奥纳多·达·芬奇画作《蒙娜丽莎》。

图片来自:Picnio/Google+

Picture:Picnio/Google+

这幅是爱德华·蒙克的《呐喊》。背景中充斥着大量的眼睛,但是DeepDream仍然找着了对象的脸庞,给了其一个似犬状的扭曲。

图片来自:Picnio/Google+

Picture:TrustedInstaller/Imgur

一个没有活物的普通画面或者说远景,它图像的某些部分被加盖了穹顶或宝塔。这是一幅纽约市的风景图。

图片来自:TrustedInstaller/Imgur

Picture:Picnio/Google+

这幅是去年克里斯托弗·诺兰执导的大片《星际穿越》中的场景。Google上周开源这个软件,使得推特、Reddit和非死不可上涌现了大量(此类型)的图片。

图片来自:TrustedInstaller/Imgur

Picture:drkaugumon/Imgur

《疯狂的麦克斯:狂暴之路》,今夏的后启示录(末日后)动作影片,在没有DeepDream的情况下已经斩获颇多。不过在经这个视觉工具处理后还是很壮观的。

图片来自:drkaugumon/Imgur

Picture:Google

Google的神经网络已经察觉到了图片中的大量拱门,也正是那样与之匹配的。研究人员说,这个实验可以被用于创作艺术品(画作)。

图片来自:Google

Picture:Google

上面是另一个有着奇异景色的例子,它是由逐渐改变原始图像的过程重复足够多次而产生的。

图片来自:Google

Picture:Underlost/Flickr

在某些情况下,图像被转换到了几乎不可能告诉你原始照片(到底)是什么的程度。这似乎是一幕焰火表演。

图片来自:Underlost/Flickr

Picture:@brdskggs/Twitter

这幅就更容易辨认了。当DeepDream(又来)染指时,CassiusMarcellusCoolidge的名作《玩扑克的狗》最终以更多的狗脸告终。

图片来自:@brdskggs/Twitter

Picture:KyleMcDonald/Flickr

还有这张,(它对)曼哈顿百老汇的解释(理解)相当怪异。这可能是你在片刻清醒时最迷幻的体验。

图片来自:KyleMcDonald/Flickr

Picture:Google

这幅壮丽的图像出自一座日本的宝塔。它仍然在那里,但(周围却)环绕着超过一打儿的其他小塔。

图片来自:Google

Picture:Google

这是西雅图的天际线(以天空作背景的外景轮廓),包括可全视(俯看城市全景)的太空针塔。前景(色)已经被转化为汽车的形状,这是DeepDream中另一常见的(输出)结果。

图片来自:Google

Picture:Google

另一个有着许多明亮拱门好像还有些艺术气息的的结果。“这种图像的(处理)结果大异,是因为输入的特性造成了(神经)网络的偏差,使其朝着某些(方向)解析”,研究人员说到。

图片来自:Google

Picture:Underlost/Flickr

然而不是每个人都想把这东西挂在他们家的墙面上,在天空中充斥着各种奇怪的混合生物是DeepDream的主要表现。

图片来自:Underlost/Flickr

Picture:@JezWilkinson/Twitter

这张或许会把安迪·穆雷(英国著名职业网球运动员)在温布尔登(网球赛)上最后几天的对手们吓尿。

图片来自:@JezWilkinson/Twitter

Picture:NasenSpray/Imgur

当然,无Doge,网络不欢。这个基于著名柴犬的(恶搞)风潮起于2013年。

在社交媒体上或Reddit社区里通过搜索#deepdream标签你可以找到更多的DeepDream式图像,你也可以借助DeepDream机器人来制作自己的图像。

图片来自:NasenSpray/Imgur

###4.1.2评论(Comments):

真垃圾,毫无意义。

新词(产生了):迷幻类的!

去看看非死不可群组(团)——GoogleDeepDream图像,那里有很多好图。

Google里某些人一定是看了洛夫克拉夫特太多的小说。

希望有人能给它喂入汉斯·鲁道夫·吉格尔(瑞士知名超现实主义艺术家,曾设计电影《异形》中的外星生物,因而赢得奥斯卡金像奖的最佳视觉效果奖,已经离世。)的作品,然后告诉大家你的电脑有没有得精神病。-_-||

想做点自己的图,请访问这个网址——,不过有点慢,谁有更快的?

第19幅图像太迷幻了

完全是垃圾。这是由垃圾软件随机地加一些眼睛到每幅图里。

你也是个垃圾,是个垃圾,个垃圾,垃圾,圾......(译注:模拟回音,此人在攻击层主的ID)

有些人确实害怕那些眼睛

心虚的表现。

图上的东西尽是支离破碎(乱糟糟)的?

世界本来就是支离破碎的。

安迪·穆雷的那幅没怎么变化呀,他就长那样儿。

我拿自己的一些前卫摇滚唱片封面试了试,啥都没发生!

若然这些就是最好的,我会厌恶看到那些最差的。

在这里,你可以很容易地自己做些图-->example.com

60后的(老年人给Google)打了电话,要求他们召回软件。

DeepDream很喜欢弄些狗狗?尽是些狗头大餐......劝大家还是使用免费的GIMP(跨平台的开源版Photoshop)软件,它上手更容易、效果也更好。

elhongo•amonthago

IhavetheGoogleDeepDreamupandrunning.Icanprocessanyimageyouneed.

我配置好了GoogleDeepDream并架设了服务器,我可以为你处理任何图像。请访问:

curious•amonthago

ImadeasitethatwillletyoucreateyourownCheckitout-thisoneprocessesitmuchfaster:-)

我做了个网站,它可以让你创作自己的图片,来瞧瞧-->,它(比其他人)处理的更快些。

然而,你的网站(压根就)上不去。

啊哈,修好了。(译注:目前还是上不去)

神经网络:物体(对象)识别

这个程序的要点(原理)是什么?

最初是为了训练软件去识别图形,然后他们用取得的成果乱搞,让软件识别本不在那儿的图形。

这非常类似于摇头丸的体验,它可能(间接)告诉了我们关于迷幻药反应的很多东西,可能还些许涉及精神疾病的方面。

其目的是开发出一款软件,而其意料之外的结果都由软件被给定的等量摇头丸所致。

这对那些正在学习觉察(译注:机器学习的范畴)理论的人来说很有意思。

----#5第五部分要点整理及Reddit社区问答----

##5.1第一节要点整理

###5.1.1DeepDream项目地址:

###5.1.2谷歌DeepDream看到的照片为什么有那么多狗头?

解释:因为ImageNet1000的数据集里面几百类的狗、几十类的鸟,统共超过一半都是动物,所以DeepDream的世界就是个动物世界,或者说是个狗窝......

正经版回答:这个是因为数据集采样偏差的缘故,ImageNet中类别的频率并不代表实际生活中我们见到的这些类别的频率,所以ImageNet的模型不能被直接用在实际产品当中。

译者注:这个问题的答案采自Caffe的开发者(创造者)——贾扬清的知乎回答,鄙人可不敢乱说。贾扬清毕业于加州大学伯克利分校,现就职于Google公司。

###5.1.3ImageNet简介:

ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。由美国哈佛的计算机科学家模拟人类的识别系统建立,能够从图片识别物体。(摘自百度百科)

###5.1.4Caffe简介:

Caffe(卷积神经网络框架),全称为ConvolutionalArchitectureforFastFeatureEmbedding,是一个计算CNN相关算法的框架。

Caffe是一个清晰、可读性高、快速的深度学习框架,官网。(摘自百度百科)

###5.1.5IPythonnotebook:

IPython是一个加强版的交互式PythonShell;在2011年,由BrianGranger领导的IPython团队开始开发一种基于Web技术的交互式计算文档格式,即IPythonNotebook。

IPythonNotebook使用浏览器作为界面,向后台的IPython服务器发送请求,并显示结果。Notebook在交互上使用了C/S结构,它通过Tornado建立一个shell服务器,并使用浏览器作为客户端。另外notebook页面都被保存为.ipynb的类JSON文件格式,这种文件格式也是Notebook最吸引人的地方。

IPythonnotebook目前已经成为用Python做教学、计算、科研的一个重要工具。(摘自多篇网文)

##5.2第二节Reddit社区问答(仅摘取翻译,不过原主题非常活跃,评论也很多)

https://www.reddit.com/r/deepdream/comments/3cawxb/what_are_deepdream_images_how_do_i_make_my_own/

如何才能自己动手做图?

无编程经验的情况下(有编程经验的已略去,想自己配置软件的可以移步上面给出的主题帖链接):

(下面是可用的免费网站网址,提交图片后请等待服务端处理,需时各异)

1.

2.

3.

4.

5.

6.

7.

8.

9.Checkoutthesubredditwherepeoplefulfillyourrequestsforyou!justgivethemtheimage./r/deepdreamrequests.(即请人代劳,类似于贴吧或论坛的“求P图”)

###5.2.2Canthisbedoneonaudio?video?

音频和视频是否也能做?

可以。要想做视频,你可以在视频的每一单帧上运行这段代码(软件),然后再合并到一起(时间轴)。不过,的讨论中有些更具效率的方法。了解此事的最佳来源是这里:

如果你希望做些与类似的gif动态图片,那么你应该照着这里的指导做(备忘:教程链接):

(其实现在还没有放出链接,所以才加的“TODO”字样,也可能忘了修改了。所以,我从别的段落中采集并补上这个链接,如下:)

要想在音频上玩耍,你得真正地了解自己在做什么。音频在多层反馈(递归)神经网络(RecurrentNeuralNetwork)上的表现比在卷积神经网络(ConvolutionalNeuralNetworks)更好些,你还要创建大量的样本(示例)音乐用来训练你的反馈神经网络。

----#6第六部分附上几幅图片----

变成狗头大餐的意大利面

肯德基外卖全家桶

二次元图片对比

对同一图片设置不同参数做出的不同风格图片

拳王

梵高的名作《星空》

壮丽的景色

人工智能学家Aitists

人工智能学家是权威的前沿科技媒体和研究机构,2016年2月成立人工智能与互联网进化实验室(AIELab),重点研究互联网,人工智能,脑科学,虚拟现实,机器人,移动互联网等领域的未来发展趋势和重大科学问题。

长按上方二维码关注微信号Aitists

投稿邮箱:post@aitists.com返回搜狐,查看更多

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇