人工智能识别技术你了解多少人工智能技术是基于提供的存储数据

发表时间：2023-07-05 07:05:52

人工智能识别技术你了解多少

人工智能识别技术是指通过计算机、照相机、扫描仪等设备，自动获取并识别出目标指令、数据等信息的技术手段。最早起源于声控技术（语音识别技术），声控技术曾被广泛应用于智能手机的控制和互动中，其核心是将人的语音识别出来，与手机指令集进行对比，从而控制手机。

根据识别对象是否具有生命特征，人工智能识别技术主要可分为两类：有生命识别和无生命识别。

有生命人工智能识别技术实质是指与人体生命特征存在一定关联的技术，包括语音识别、指纹识别、人脸识别、虹膜识别等。语音识别技术工作原理是基于对识别者自身发出语音的科学有效识别，正确识别出语音的内容，或者通过语音判断出说话人的身份（说活人识别）；人工智能指纹识别技术在实践应用中，其工作原理是通过对人体指纹展开智能识别，最终正确判断识别出指纹所属的对应的人，从而满足实际需求；人工智能人脸识别技术是基于对人的脸部展开智能识别，对人的脸部不同结构特征进行科学合理检验，最终明确判断识别出检验者的实际身份；虹膜识别是通过虹膜的特征判断其实际身份。

无生命识别技术实质是指与人体生命特征不存在任何关联的技术，该项技术主要包括射频识别技术、智能卡技术、条形码识别技术。射频识别技术的工作核心是无线电磁波，其具体的工作原理是:无线电信号在电磁场下进行传送，完成数据和标签的识别；条形码识别技术包括一维码技术和二维码技术，二维码技术是在一维码技术基础之上发展出来的，给数据储存留下的空间更大，同时还可以纠错，在信息标示和信息采集中具有十分有效的运用；智能卡识别技术的识别对象主要是智能卡，智能卡主要是由集成电路板组成的，其工作主要是针对数据展开的运算和储存，通过将计算技术良好的融入到智能卡当中，针对数据进行的各种工作都做到了高效完成。

人工智能识别技术的应用非常广泛，而且不同种类的人工智能识别技术已经应用到了社会各领域，例如在语言翻译、面部识别等多个社会活动中都能够看到计算机人工智能的参与。除此之外，二维码识别和使用是人工智能识别技术运用的最典型的方式，它的利用主要是以二维码的形式生成程序和指令，在用户的移动终端屏幕上生成黑白格子拼接的平面图形，这些平面图形的分布通常来说具有一定的规律性，通过各种图形的排列组合，二维码图案具有唯一性，因此用户可以对二维码图案进行保存和记录。

我们相信，随着研究人员不断地对人工智能的有关技术进行优化和创新，人工智能识别技术将会更大程度地满足人们工作和生活需求。

本文由北京信息科技大学通信学院副教授李红莲进行科学性把关。

科普中国中央厨房

新华网科普事业部

科普中国-科学原理一点通

联合出品

更多精彩内容，请下载科普中国客户端。

作者：尹茹 [责任编辑:魏承瑶]

人工智能（AI）是如何处理数据的

AI处理数据主要是通过数据挖掘和数据分析。

一、数据挖掘（Datamining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-DiscoveryinDatabases，简称KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

利用数据挖掘进行数据处理常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等，它们分别从不同的角度对数据进行挖掘。

①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别。如一个汽车零售商将客户按照对汽车的喜好划分成不同的类，这样营销人员就可以将新型汽车的广告手册直接邮寄到特定的客户手中，从而大大增加了商业机会。

②回归分析。回归分析方法反映的是数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系。

③聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。

④关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则。即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。

⑤特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取，可以得到导致客户流失的一系列原因和主要特征，利用这些特征可以有效地预防客户的流失。

⑥变化和偏差分析。偏差包括很大一类潜在有趣的知识，如分类中的反常实例，模式的例外，观察结果对期望的偏差等，其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中，管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

⑦Web页挖掘。随着Internet的迅速发展及Web的全球普及，使得Web上的信息量无比丰富，通过对Web的挖掘，可以利用Web的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。

二、数据分析是数学与计算机科学相结合的产物，是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实际生活应用中，数据分析可帮助人们作出判断，以便采取适当行动。

在统计学领域，有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析；其中，探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。

①探索性数据分析：是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充。

②定性数据分析：又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”，是指对诸如词语、照片、观察结果之类的非数值型数据的分析。

大量的数据分析需求都与特定的应用相关，需要相关领域知识的支持。通用的数据挖掘工具在处理特定应用问题时有其局限性，常常需要开发针对特定应用的数据分析系统。因此数据分析系统设计的第一步是对特定应用的业务进行深入地分析与研究，总结归纳分析思路并细分出所需的分析功能。

数据分析主要包含下面几个功能：

数据分析是组织有目的地收集数据、分析数据，使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期，包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程，以提升有效性。

在实用中，数据可为AI提供基础要素，可帮助AI作出判断，以便AI进行学习。例如，来自马萨诸塞州总医院和哈佛医学院放射科的研究人员使用卷积神经网络来识别CT图像，基于训练数据大小来评估神经网络的准确性。随着训练规模的增大，精度将被提高。

今天的大多数深度学习是监督的或半监督的，意味着用于训练模型的所有或一些数据必须由人标记。无监督的机器学习是AI中当前的“圣杯”，因为可以利用原始未标记的数据来训练模型。广泛采用深度学习可能与大数据集的增长以及无人监督的机器学习的发展有关。然而，我们认为大型差异化数据集（电子健康记录，组学数据，地质数据，天气数据等）可能是未来十年企业利润创造的核心驱动力。

参考IDC报告，全世界创造的信息量预计到2020年将以36％的复合年增长率增长，达到44泽字节（440亿GB）。连接的设备（消费者和工业领域），机器到机器通信和远程传感器的增加和组合可以创建大型数据集，然后可以挖掘洞察和训练自适应算法。

AI之所以拥有人的思维，人的智慧，其核心在于AI可以通过海量的数据进行机器学习和深度学习。拥有的数据越多，神经网络就变得越有效率，意味着随着数据量的增长，机器语言可以解决的问题的数量也在增长。移动手机、物联网、低耗数据存储的成熟和处理技术（通常在云端）已经在数量、大小、可靠数据结构方面创造了大量的成长。例如：

5G的首次展示将最适当地加速数据可被获取和转移的机率。根据IDC的数字领域报告，到2020年，每年数据量将达到44ZB（万亿G），5年内年复合增长率达到141%，暗示我们刚开始看到这些科技可以达到的应用场景。

数据（Data）是指对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据处理（dataprocessing）是对数据的采集、存储、检索、加工、变换和传输，贯穿于社会生产和社会生活的各个领域。数据经过解释并赋予一定的意义之后，便成为信息。

人工智能出现之前，传统数据的处理主要包括了8个方面：

通过这个8方面，从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。传统意义上的数据处理离不开软件的支持，每次处理数据大概都需要使用至少三次软件，这对人力物力都是一种极大的浪费。

而在AI时代，数据的处理就变得简单多了，就拿最近比较热门的车联网来说。

车联网一个系统通过在车辆仪表台安装车载终端设备，就对车辆所有工作情况和静、动态信息的采集、存储并发送。车联网系统分为三大部分：车载终端、云计算处理平台、数据分析平台，根据不同行业对车辆的不同的功能需求实现对车辆有效监控管理。车辆的运行往往涉及多项开关量、传感器模拟量、CAN信号数据等等，驾驶员在操作车辆运行过程中，产生的车辆数据不断回发到后台数据库，形成海量数据，由云计算平台实现对海量数据的“过滤清洗”，数据分析平台对数据进行报表式处理，供管理人员查看。

作者：造数科技链接：https://www.zhihu.com/question/264417928/answer/282811201来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

人工智能如何提升大数据存储与管理效率

随着大数据的大量来源以及企业可用数据量的增加，存储容量规划已成为存储管理员的问题。据估计，每天产生2.5万亿字节的数据。现在，如果以神经元计算的话，那就是相当于2.5亿个人类大脑的海量数据。而且，相同的估计表明，全球总数据的90％是从2016年到2018年生成的。

[[356380]]

可以简单地说，每天生成越来越多的数据，这正增加了存储工作负载的规模和复杂性。但是，人工智能可以拯救存储管理员，帮助他们高效地存储和管理数据。通过使用AI数据存储，供应商和企业可以将存储管理提升到一个新的水平。而且，存储管理员可以找到他们目前正在努力管理的指标的解决方案。

存储管理员需要努力的主要指标

存储管理员在管理存储问题时面临一些挑战。而且，如果他们克服了这些挑战，将帮助他们在数据存储的各个方面之间找到适当的平衡，例如在哪里分配工作负载，如何分配工作负载以及如何优化堆栈等等。

一般而言，吞吐量是指处理某事物的速率。在网络级别，吞吐量的度量单位是Mbps（兆位/秒），而在存储级别，吞吐量的度量单位是MB/秒（兆字节/秒）。由于一个字节等于八兆位，因此生产率在存储级别上提高了。并且，变得难以管理提高的生产率。

延时

延迟是服务器完成请求所花费的时间。关于存储，这是指满足单个存储块的请求所花费的时间。存储块或块存储是将数据存储在卷中的块。纯延迟不受吞吐量影响，但是如果单个块请求很大，则应用延迟可能会随着吞吐量的增加而偏离。

IOPS（每秒输入/输出操作）

IOPS是指存储堆栈每秒可以处理的离散读写任务的数量。存储堆栈是一种允许过程调用的数据结构。这意味着将多个过程彼此存储在堆栈中，然后在调用和返回的基础上一个接一个地执行所有过程。例如，如果一个过程被调用，它将被执行，然后返回，以便在堆栈中调用下一个过程。而且，在谈论IOPS时，基础输入/输出任务可以达到存储系统的堆栈限制。例如，读取一个大文件和多个小文件可能会对IOPS产生影响。由于读取单个大文件仅需要执行一个读取任务，因此可以以较高的速度执行它，而另一方面，读取多个文件的速度非常慢，因为需要执行许多读取任务。

AI数据存储如何解决存储问题

企业管理员和存储供应商处理各种各样的存储类型。而且，它们还满足不同输入/输出服务的指标。大型文件共享应用可能需要适当的吞吐量，但也必须允许延迟损失，因为大型而复杂的应用可能会对延迟产生不利影响。另一方面，电子邮件服务器可能需要大量存储，低延迟和良好的吞吐量，但它可能不需要非常苛刻的IOPS配置文件。并且，存储管理员应该决定应该为哪些存储分配什么资源。因此，在组织中运行着成千上万的服务时，对基础存储的管理超过了人们进行明智更改的能力。而且，这就是AI算法派上用场的地方。

人工智能支持的存储管理和计划

AI可以监控存储以检测多种工作负载的模式和性能。这里的工作负载是由各种输入/输出特征或应用任务生成的数据流。通过检测这些工作负载模式，AI可以帮助存储管理员洞悉哪些工作负载可能使他们面临最大化存储阵列的风险。此外，存储监视还可以帮助了解是否有任何额外的工作负载可以放入阵列中。而且，如果添加到阵列中，那么工作负载将造成多少中断。

例如，假设一家企业正在向流程中添加电子邮件服务器。在这种情况下，人工智能系统可以帮助预测存储阵列将能够满足该服务器的存储需求还是将其最大化。借助此类技术，存储管理员可以主动获取有关如何将不同的工作负载分配给不同的存储堆栈并最大程度地减少延迟的信息。因此，将AI集成到存储阵列，存储供应商和组织中可以优化存储堆栈。

除了监视存储活动外，存储管理员还需要检查和分析存储系统要使用的应用的编码和错误。这有助于他们更好地了解如何围绕应用的需求设计存储体系结构。他们通过了解应用的输入/输出模式来做到这一点。用于执行此操作的最常见技术是捕获应用的跟踪。

Strace是Linux的用户空间实用程序，可用于诊断、调试和获取有关输入和输出功能的指令。但是，由于复杂的应用可以具有多个输入/输出功能，因此这对人类来说可能是一个挑战。另一方面，ML算法可以轻松地提取和分析大量数据，并解决许多存储问题，最好是通过查看存储系统本身来解决。此外，通过使用大量数据训练算法，以了解特定堆栈或整个应用如何收集和存储数据，它们可以帮助实现对该特定应用存储活动的实时观察，以防止堆栈最大化并改善存储容量。

AI数据存储可满足客户需求

遥测数据是自动记录和无线传输来自远程或不可访问来源的数据。遥测以下列方式起作用：传感器在源处测量数据，它们将其转换为电压，然后将其与定时数据合并为单个数据流，该数据流将传输到远程接收器。接收后，可以根据用户要求对数据进行处理。

AI的计算机视觉技术可以扫描遥测数据，以保护存储阵列免受漏洞侵害。当使用有关漏洞的历史数据进行训练时，机器学习算法可以将来自各种应用程序的传入数据与历史数据进行匹配，以发现漏洞的可能性。因此，借助AI的预测分析，存储供应商可以着眼于在遇到客户之前防止存储问题。

AI数据存储仍处于起步阶段，但已经显示出了惊人的结果。而且，因此云供应商和其他存储管理员正在对AI进行越来越多的投资，以使用超融合存储系统进行存储维护。采用主流AI数据存储肯定会帮助企业控制上述所有指标，并为其客户提供更好的服务。

人工智能识别技术你了解多少 人工智能技术是基于提供的存储数据