人工智能导论—看图说话&微表情识别人工智能自己说话的软件叫什么名字

发表时间：2023-07-08 08:42:03

人工智能导论—看图说话&微表情识别

资源下载地址：https://download.csdn.net/download/sheziqiong/86178106资源下载地址：https://download.csdn.net/download/sheziqiong/86178106

一、设计思想

对于人类来说，描述一张图片的内容是非常重要的。但因这个过程并没有标准答案，因此对于计算机来说这并不是一个简单地过程。我们希望通过本次实验能够设计一个模型完成让计算机给图片设定caption的目标。更进一步，如果在图片中检测到人脸，我们希望能识别出人的情绪表情。最终呈现出如图3.1的效果：

图3.1实现目标

二、实验环境和工具

JupyterNotebook：

Tensorflow

Keras

三、实验过程3.1看图说话3.1.1数据集介绍

Flickr8kDataset：该数据集已经成为研究基于句子的图片描述的基准，该数据集包括了8052张图片，每张图片包括了5句相关的描述性句子，示例如下：

图1数据集的示例

3.1.2实验环境和工具

JupyterNotebook：

Tensorflow

Keras

3.1.3数据预处理基本的数据清理

大写转换为小写，删除标点符号，去除单复数等，实现效果如图4.1所示：

图4.1原数据表示

图4.2处理后的数据表示

Uniquewords的统计

将所有在描述语言中出现过的单词组成一个vocabulary，统计在vocabulary中出现过的单词。起初计算出约40000个语句中总共出现8763个单词，但由于许多单词只出现两三次，对于预测性的模型来说，无实质性的帮助，因此接下来我们只考虑在所有语句中出现次数大于十的单词，计算出此时的vocabulary中就变为1651个单词。更进一步，我们还要多增加一个0padding，因此总单词数为1652。可参考图4.3的流程：

图4.3Uniquewords统计

特征向量的提取

运用InceptionV3模型将图片转换为一个固定长度（length=2018）的向量，使其可以作为输入到神经网路。

InceptionV3原来是给图片分类的模型，由于我们的目标只是提取图片的特征向量，我们就移去了最后的softmax层，从倒数第二层中提取特征向量，如图4.4所示:

图4.4特征向量的提取

词编码

将每个vocabulary中的词编码为一个固定大小的向量，并创建两个Pyhon的Dictionary，分别为wordtoix[‘abc’]：返回’abc’的索引；ixtoword[k]：返回索引为“k“的单词，每个单词的索引为1-1652的其中一个整数。

计算长度

计算caption的最大长度：34

datamatrix的构建过程

（在此举一个例子以更好地阐释）

eg.以两张训练图片一张测试图片组成，如图4.5所示：

图4.5实例

将image1、image2转换为长度为2048地特征向量

给清理过的caption加上头尾标志（startseq、endseq）

Caption_1->“startseqtheblackcatsatongrassendseq”Caption_2->“startseqthewhitecatiswalkingonroadendseq”vocab={black,cat,endseq,grass,is,on,road,sat,startseq,the,walking,white}给vocabulary中的单词分配整数索引black-1,cat-2,endseq-3,grass-4,is-5,on-6,road-7,sat-8,startseq-9,the-10,walking-11,white-12为了预测caption中的第t+1个单词，我们可以通过前t个单词组成的部分的caption和图片的特征向量来进行。预测caption从startseq开始直到endseq结束，如图4.6所示：

图4.6单词依次预测以组成caption

将每个单词以索引来表示，效果如4.7所示：

图4.7将partialcaption用索引表示

将caption补全为同一长度，统一的长度即为之前计算出的caption最大数34，补全的元素为0，即所谓的0padding，效果如4.8所示：

图4.8zeropadding

3.1.4模型搭建

图5.1，模型的流程思路

如图5.1所示，我们希望以partialcaption和图片的特征向量为输入，因此起初会有两个tensor。首先partialcaption经过预处理得到长度为34的向量后经过一个embedding层，把每个单词都映射到一个长度为200的向量，经过一层Dropout防止过拟合，之后经过一层LSTM（选择LSTM的原因：LSTM在自然语言的处理中能发挥不错的作用，并且相比普通的RNN，LSTM在更长的序列中有更好的表现）得到一个（batch_size，256）的输出。

同时，图片的特征向量经过一层Dropout防止过拟合，之后再经过一层全连接层同样得到一个（batch_size，256）的输出。

我们把两个格式相同的tensor合为一个，以便更好的训练得出最终结果，之后再经过一个全连接层后，经最后一层softmax层，产生涵盖1652个在vocabulary出现的单词的概率分布，基于greedysearch，概率分布最大的单词即我们要选择的输出单词。具体实例如图5.2所示

图5.2迭代的具体实现实例

迭代循环的终止条件有两个：

以“endseq“结尾，模型认为caption已经完成

句长大于34，为了避免一直迭代下去，强制终止

3.1.5模型的训练

我们训练这个模型设定了epoch为30，前20个epoch的学习率设为0.001，batchsize设为3。当完成了20次迭代后，将学习率降为0.0001并且将batchsize设为6。用这些超参数的原因是因为当训练到达后半程时，模型逐渐趋向平缓，我们必须减小学习率才能在最低点边缩小步长，以趋近最低点。并且，适当的增加batchsize使梯度的更新更加有效。

3.1.6模型评估

本模型的预测结果使用BLEU进行预测。

BLEU能作为机器翻译的一个评估指。它采用了N-gram的匹配规则，能够算出比较译文和参考译文之间n组词的相似的一个占比。随着n-gram的增大，总体的精度得分是呈指数下降的，所以一般N-gram最多取到4-gram。

一般情况1-gram可以代表原文有多少词被单独翻译出来，可以反映译文的充分性，2-gram以上可以反映译文的流畅性，它的值越高说明可读性越好。这两个指标是能够跟人工评价对标的。

图5.3.11-gram准确度（该例为5/6）

图5.3.22-gram准确度（该例为3/5）

图5.3.33-gram准确度（该例为1/4）

N-gram的一个弊端是其译文准确度的匹配关系不能很好地体现译文长度不准确的问题。因此，针对翻译译文长度比参考译文要短的情况，就需要一个惩罚的机制去控制。在此便引入了惩罚因子的概念。惩罚因子的计算公式如下：

图5.4惩罚因子BP的计算

C是测试译文的词数，r是参考译文的词数

BLEU算法就是在这两个概念的基础上整合得到，其计算公式如图5.5所示，BLEU值越大表示测试译文与参考译文越接近，反之则差别越大。

图5.5BLEU算法的计算公式

经过分析，我们发现BLEU尽管在一定程度上可以作为测试出的caption和原caption的评估指标，也比较方便和快捷，但它无法考虑语法上的准确性，测评的精度也会收到常用词的干扰。同时BLEU无法考虑同义词或相似表达的情况，因此作为该实验的评估指标还是存在一定的缺陷。

3.3模型整合

我们把每个训练出的模型进行接口的匹配连接。最终呈现出：先将图片输入看图说话的模型分析出图片的captio，将caption存储下来。然后将图片再输入微表情识别的模型，若在模型中检测到人脸，就对人脸的表情进行分析得到情绪，最终将情绪和caption进行匹配。最终输出图片和对应的caption和emotion（若检测不到人脸则不输出emotion）示例如下：

资源下载地址：https://download.csdn.net/download/sheziqiong/86178106资源下载地址：https://download.csdn.net/download/sheziqiong/86178106

惊吓!人工智能听说话能诊断抑郁症

对于抑郁症来说，由于平常没有一个明确的参照系来确诊，因此抑郁症经常会出现误诊的状况，所以，像SimSensei这样的工具才存在巨大的发展空间。SimSensei追踪语音中和抑郁症有关的变化，并详尽地记录下来。先前的研究揭示抑郁症患者经常表现出平淡或消极的感情反应、语调没有什么变化、音强和音高是单调的、语言活动减少、语速减慢、停顿时间增长以及停顿时长经常变化，南加州大学的一篇相关论文写到，此外，研究发现在抑郁状态下的发音表现出声道和声带的拉伸程度增强了。

调查发现，抑郁症患者的情感更平淡消极，因此会出现吐字不清，停顿变长的状况。另外，抑郁症患者的声道和声带更紧张。SimSensei这套人工智能工具，所做的分析表面上看来是十分简单的。它简化病人的语音，只保留元音，然后分析元音a，i和u的第一和第二共振峰(谱峰)的频率。这个分析过程的前两个部分涉及的仪器是真实语音检测器和伴生的共振峰跟踪器。第三个部分是算法，其实它是一种历史相当久远的机器学习方法(产生于1967年)，被称为k-均值算法。其基本工作方式是抓取数据集，将它们划分到以某均值为中心的不同簇集中去。聚类的结果是一个三角形空间/图形，在每一个拐点处是元音a,i和u的谱峰。三角形内部的区域代表元音空间，而这就是这种算法要计算并呈现出来的。其呈现出来的空间然后与作为参考的「标准」元音空间比较，用比例方式表示测出来的抑郁(和创伤后应激障碍)指标。

南加州大学的研究员们在拥有253个被试样本的实验中衡量自动化评估元音空间的结果，发现对于报告有抑郁症和创伤后应激障碍症状的被试对象，这种新颖的方法能探察出他们元音空间的明显减少南加州大学的团队总结到，我们的研究证明，在分析全部对话的一部分或有限数量的语音数据时，这种测试是可靠的，这意味着这种算法是实用的。最后，我们成功揭示了在不同人口统计学数据和发音速度上，这种测试都具有较好的统计鲁棒性。

分析得到的结果显示，抑郁症患者和非抑郁症者，他们的元音空间率并没有太大的区别，但是其间存在的区别足以说明问题。该研究最显著的问题可能是根据被试对象的自我报告评估而对抑郁与非抑郁进行初步分级。另外，元音空间的减少可能不能完全归于抑郁和创伤后应激障碍，未来还将研究精神分裂症、帕金森症等疾病条件下的语音数据。

SimSensei所使用的并不是一个全新的算法，而是使用k-means算法进行处理。由此可见发现一些新的科学成果的时候，旧技术也能发挥出新的力量。SimSensei的效果也得到了证明，而且结果表明，在语音数据有限的情况下效果也不错，这表明它具备了一定的实用性。随着人工智能的发展，有了SimSensei这样的工具，就能极大的减少抑郁症误诊的概率。

本文由广州隽智智能科技有限公司http://www.jonzy.cn发表，转载请注明来源。谢谢！返回搜狐，查看更多

有个图标是f的红色的软件，叫什么

1楼：轻舞飞扬

adobeflashplayer

2楼：三共识相

那个叫做网上交流平台。

有一个软件，它的图标底面是红色的，上面有一个黑色的“f”，叫什么名字？

3楼：伟大的黑武士

flash

flash8

adobeflash

macromediaflash

adobeflashcs3

flashcs4

animo

这些都有可能。

一个软件，图标是红色的，还有一个f和这个有点区别是用来制作动画的，有谁知道这个叫什么名字？在**下

4楼：睢桜

用来做动画的那个软件就叫flash有好多版本cs4cs5cs6等等前面的adobe是公司名字

5楼：死神等你三千年

在sky**.***查找flash

电脑有个软件红色图标中间有个f是什么软件

6楼：灿烂的闪烁

flash动画

希望对你有所帮助，有不会的可以再问，祝学习进步！您的及时采纳是对答题者的尊重！

7楼：匿名用户

adobeflash

一个小乌龟为图标做图的软件叫什么

8楼：

一个小乌龟为图标做图的软件叫python，python是一种计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。

由于python语言的简洁性、易读性以及可扩展性，在国外用python做科学计算的研究机构日益增多，一些知名大学已经采用python来教授程序设计课程。

例如卡耐基梅隆大学的编程基础、麻省理工学院的计算机科学及编程导论就使用python语言讲授。众多开源的科学计算软件包都提供了python的调用接口，例如著名的计算机视觉库opencv、三维可视化库vtk、医学图像处理库itk。

9楼：糖糖寳寳

以小乌龟为图标做图的软件名字叫：mswlogo

该软件可分为图像编辑、图像合成、校色调色及功能色效制作部分等，图像编辑是图像处理的基础，可以对图像做各种变换如放大、缩小、旋转、倾斜、镜像、透视等，也可进行复制、去除斑点、修补、修饰图像的残损等。

图像合成则是将几幅图像通过图层操作、工具应用合成完整的、传达明确意义的图像，这是美术设计的必经之路；该软件提供的绘图工具让外来图像与创意很好地融合。

校色调色可方便快捷地对图像的颜色进行明暗、色偏的调整和校正，也可在不同颜色进行切换以满足图像在不同领域如网页设计、印刷、多**等方面应用。

特效制作在该软件中主要由滤镜、通道及工具综合应用完成.

包括图像的特效创意和特效字的制作，如油画、浮雕、石膏画、素描等常用的传统美术技巧都可藉由该软件特效完成。

10楼：晓熊

http://wenku.baidu.***/view/c9d890c6bb4cf7ec4afed0e8.html

手机上有一个软件图标是个红色的f可以在如何页面上看**，求问是什么软件，叫什么

11楼：不识张郎是张郎

adobeflashplayer

12楼：铅笔

adobeflashplayer

瑞星杀毒软件那个雨伞的图标为什么会变成红色的

1楼匿名用户有两种情况1是你把瑞星的监控全部禁用了，这种情况直接在瑞星的设置里面可以把它们全部启用就可以了！2是你的电脑中病毒了，病毒将你的瑞星监控关闭了或者病毒感染了你的瑞星软件，这种情况可以重启按f8进入带网络连接的安全模式，将你的瑞星升级到最新版本，然后再杀毒应该就可以了或者...

汽车的那个油壶图标是什么意思,汽车仪表盘有个油壶一样的红色图标是什么意思

1楼冷雨冷宵云是机bai油故障灯。机油du故障灯被点亮的原因是zhi1机油油量不足，使dao机油泵回的泵油量减答少或因进空气而泵不上油，致使机油压力下降2发动机温度过高，容易使机油变稀，从配合间隙中大量流失而导致油压下降3当机油泵零部件损坏或因磨损装配等问题出现间隙过大时，将会...

高通软件中有个五角星的图标代表什么功能

1楼匿名用户1其实星星图标是google为android50添加的全新功能优先打扰模式设置提示音和通知打扰开启后显示的图标。2这个功能和情景模式有点类似，都是设置在某些情景下手机是否发出通知提示音。启用优先打扰模式后，可以选择能够发出通知提示音的应用联系人星期几...

人工智能导论—看图说话&微表情识别 人工智能自己说话的软件叫什么名字