关于数据挖掘的文献综述
作者:杨永钰
摘要:数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。
关键词:数据挖掘;聚类;分类;关联
1.前言
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。
数据挖掘是数据库中知识发现的核心步骤(如下图所示),发现了隐藏的模式,所以从模式处理的角度,许多人认为两者是等同的。
2.数据挖掘的模式
2.1分类模式(Classification)
分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上.该过程由2步构成:模型创建和模型使用。模型创建是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。
其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出的。
2.1.1分类步骤
第一步,是建立分类模型,描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。通常,这样的分类模型用分类规则集、决策树或者数学公式的形式给出。
第二步,是使用分类对新的数据集进行划分,主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规财集合应该是对新的数据集而言具有很高的准确性、尽可能少的矛盾划分以及较小的规则集。
2.1.2算法
决策树、关联规则、贝叶斯、神经网络、规则学习、k一临近法、遗传算法、粗糙集以及模糊逻辑技术等。其中决策树算法及基于关联规则的分类算法是本节论述的重点,对其他一些算法只作简单介绍。
决策树算法:决策树算法的类型主要有基于决策树归纳、强调在数据挖掘中可伸缩性的决策树算法、决策树归纳属性选择度量比较。
ID3算法是较早也是最著名的决策树归纳算法。
该算法优点是描述简单、分类速度快,特别适合大规模的数据处理。
存在的主要问题有:(1)互信息的计算依赖于属性取值的较多特征,而这一属性不一定最优;(2)ID3是非递增学习算法;(3)抗噪性差,训练例子中正例和反例较难控制。
改进算法:QUEST和PUBLIC等
QUEST弱化了选择能提供更多的分裂变量的偏见。
PUBLIC是一种基于MDL剪枝的算法,对于可能被剪枝的节点在建树时不予以扩充,减少了工作量(如I/O)。
2.1.3小结
分类是数据挖掘的重要方法之一。到目前为止,基于各种思想和理论基础的分类算法已提出很多,算法的实际应用也已趋于成熟。但实践证明,没有一种分类算法对所有的数据类型和定义域都优于其他分类算法,每种相对较优的算法都有它具体的应用环境。
2.3聚类(clustering)
聚类就是将数据项分组成多个类或簇,“最小化类间的相似性,最大化类内的相似性”原则!与分类模式不同的是,聚类中要划分的类别是未知的,它是一种不依赖于预先定义的类和带类标号的训练数据集的非监督学习(unsupervisedlearning),无需背景知识,其中类的数量由系统按照某种性能指标自动确定。
2.4其他模式
2.4.1回归模式(regression)
回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式采用连续的预测值。分类和回归都是预测问题。
2.4.2序列模式(sequential)
序列模式是描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。
2.4.3偏差模式(deviation)
偏差模式是对差异和极端特例的描述,如聚类外的离群值!大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能比正常的数据更有用。比如信用卡的欺骗检测,通过检测一个给定帐号与其历史上正常的付费相比,可以付款数额特别大这一异常数据为依据来发现信用卡被欺骗性使用。
2.4.4关联模式(association)
关联模式是数据项之间存在的关联规则,是在同一事件中出现的不同项之间相关性。所谓关联规则挖掘是从大量的、有噪声的、模糊的、随机的实际数据中,抽取隐含在其中的、人们事先不知道的、但又是潜在有用的关联信息和知识的过程。
最著名的关联规则挖掘算法是由Apriori等于1994年提出的Apriori算法。
关联规则挖掘算法的设计分解为两个子问题:(1)找到所有支持度大于最小支持度的项集(Itemset),这些项集称为频集(FrequentItemset)。(2)使用第1步找到的频集产生期望的规则。
但Apriori方法一些固有的缺陷仍然无法克服。(1)可能产生大量的候选集:当长度为1的频集有10000个的时候,长度为2的候选集个数将会超过10M。还有就是如果要生成一个很长的规则的时候,要产生的中间元素也是巨大量的。(2)无法对稀有信息进行分析:由于频集使用了参数min.sup,所以就无法对小于minsup的事件进行分析;而如果将min.sup设成一个很低的值,那么,算法的效率就成了一个很难处理的问题。
3.数据挖掘常用方法
模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。
模糊理论:美国控制论专家、数学家查德1965年发表的论文《模糊集合》,标志着模糊数学这门学科的诞生!模糊集合和模糊推理是模糊方法的数学基础,模糊集理论以不确定性的事物为研究对象,是经典集合理论的扩展。
隶属度函数是模糊集合的特征函数,是模糊概念的核心,它的取值范围从普通集合{0,1}的两个值扩充到[0,1]闭区间内连续值。
在模糊方法中,关系就是模糊集合,找关系便是找隶属度函数如何选择蕴涵关系和合成算法是模糊推理的关键,这里有许多经验的成分,模糊推理注重的是把握结论的趋势,是近似的而不是精确的结果。当然,模糊推理的结果也可能是错的,所以还要实践检验。
粗糙集理论:研究不完整、不确定知识和数据的表达、学习和归纳的理论方法。粗糙集理论的核心特点是无需提供问题所需处理的数据集合以外的任何先验信息,这也可能是因为其无法获得客观事实的足够支持。
粗糙集理论可以用于分类,发现不准确数据或噪声数据内在的联系。
云理论:云理论是李德毅教授于1995年提出的用于处理不确定性的一种新理论。把定性概念的模糊性和随机性完全集成到一起,构成定性和定量相互间的映射,作为知识表示的基础。
证据理论:是经典概率论的扩充,处理不确定信息的证据理论!。该理论的一个重要贡献就是划清了不确定和不知的界限。
人工神经网络:人工神经网络由多个神经元按照某种方式相互连接形成,靠网络状态对外部输入信息的动态响应来处理信息,网络的信息分布式存储于连接权系数中,使网络具有很强的容错性和鲁棒性。
在数据挖掘中,神经网络主要用于获取分类模式。
但是由于神经网络分类方法获取的模式隐含在网络结构中,而不是显示地表达为规则,不容易被人们理解和解释;另外要多次扫描训练数据,网络的训练时间较长。因此与其他数据挖掘方法不同,神经网络用于数据挖掘,要解决好两个关键问题:一是降低训练时间,二是挖掘结果的可理解性。
遗传算法:模拟生物的进化和遗传,借助选择、交叉和变异操作,使要解决的问题从初始解逐步逼近最优解,解决了许多全局优化问题。遗传算法易于并行,已广泛用于分类和优化问题。
归纳学习:归纳学习是从大量的经验数据中归纳抽取出一般的规则和模式,是一种重要的数据挖掘方法。归纳学习的算法大部分来自于机器学习领域。
面向属性的归纳:考察与任务相关的数据中每个属性的不同值的个数,通过概念树提升对数据进行概化,归纳出高层次的模式。
4. 小结
数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。而信息的安全和滥用是个需要妥善解决和解决的大问题,这是数据挖掘中需要注意的。
参考文献
【1】王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004,32(2):246-252.(被引量:461)
【2】姜园,张朝阳,仇佩亮,等.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662.
【3】谈恒贵,王文杰,李游华.数据挖掘分类算法综述[J].微型机与应用,2005,24(2):4-6.
【4】何小东,刘卫国.数据挖掘中关联规则挖掘算法比较研究[J].计算机工程与设计,2005,26(5):1265-1268.
[5]Kaur P,Attwal KS.Data Mining:Review[J].International Journal of Computer Science &Information Technolo,2014.
计算智能在媒体内容挖掘领域的前沿应用与新趋势
吴小坤
摘 要 计算智能是人工智能发展的前沿领域,从底层技术上揭示其未来发展方向。其对媒体内容的挖掘应用主要体现在两个方面:其一是对网络上文本和图像内容,通过聚类、分类和深度学习等方法,捕捉自然语言和图像语言中的符号意义;其二是对不同内容源的数据处理,较为典型的如社交网络上的数据利用问题。本文通过对计算智能的方法特征和技术趋势进行归纳和分析,探讨计算智能在媒体内容挖掘中的前沿应用,从而为技术导向下的媒体未来走向提供参照。
关键词 计算智能;内容挖掘;数据利用;算法
中图分类号 G201 文献标识码 A 文章编号 1001-8263(2018)07-0106-07
DOI:10.15937/j.cnki.issn1001-8263.2018.07.015
作者简介 吴小坤,华南理工大学新闻与传播学院教授 广州510641
在计算智能的应用领域中,基于算法的文本挖掘、图像处理等技术与媒体内容挖掘研究与实践紧密相关。对计算智能技术导向的深入了解,有利于我们对媒体未来发展形成更为深入和前瞻性的判断。随着人工智能应用领域的不断扩展,传统的基于符号处理机制的人工智能方法碰到的问题越来越突出,特别是在知识表示、处理模式信息及解决组合爆炸等方面。①因此,寻求一种适合大规模并行且具有智能特征如自适应、自学习、自组织等的算法已经成为有关学科的一个研究目标。计算智能在这种背景下应运而生。②可以说,计算智能是人工智能发展的前沿领域和未来方向③,对计算智能的了解将有助于我们从底层的技术原理着眼,了解上述领域的未来发展趋势。这些趋势也将在不久的将来影响到人类社会的整体图景。
一、计算智能的研究发展与方法特征
计算智能(computationalintelligence,CI)是受到大自然智慧和人类智慧的启发而设计出的一类解决复杂问题方法的统称,是人工智能发展的新阶段。④1992年,美国学者JamesC.Bezdek在论文《计算智能》中将智能分为生物智能(BI)、人工智能(AI)和计算智能(CI)三个层次,并讨论了人工智能与计算智能的区别。⑤该学者认为,计算智能的主要处理对象包括数字、信号等数据材料,它并不依赖于知识;而人工智能则必须用知识进行处理各种数据信息。在智能技术高速发展的今天,三者之间的边界渐趋模糊,不仅在社会公共话语中常被模糊使用,在很多实际问题的处理方面也并行适用。但从技术优势看,计算智能因其智能性、并行性和稳健性,具有很好的自适应能力和很强的全局搜索能力,在优化计算、模式识别、图像处理、自动控制、经济管理、通讯网络等多个领域得到广泛应用。
(一)计算智能研究的发展阶段与思想来源
计算智能起步于1950年代,以著名的“图灵测试”为标志,经过半个多世纪的发展,在世界范围内引起了巨大的关注。有研究根据其重要算法的提出与完善历程,将计算智能的研究大致归为三个发展阶段:1950-1969年为起步阶段,在这个阶段,计算智能的基本算法如遗传算法、进化策略、进化规划、神经网络感知器、模糊逻辑理论被率先提出。1970-1989年为发展阶段,这个阶段中,遗传算法、进化策略等理论基础不断完善,算法之间的区别越来越不明显;模拟退化算法和禁忌搜索算法的提出提供了新的优化手段;前馈型神经网络结构和后向传播学习算法的提出,将神经网络研究推向一个新的高度。1990年之后为继续发展阶段,在这个阶段,各种算法不断更新;蚁群算法的提出为解决离散组合优化问题提供了重要工具;粒子群优化算法在连续优化问题上得到广泛应用。计算智能自身性能和应用范围不断拓展和提升。
基于理解差异,计算智能领域的研究受到逻辑主义、行为主义和联结主义三大学派的影响。逻辑主义又称符号主义或心理学派,认为人工智能源于数理逻辑,研究方法应为模拟的方法,分析人类认知系统所具备的功能和机能,继而借助计算机模拟这些功能。行为主义源于控制论,认为智能取决于感知和行动,提出“感知—行动”模式。联结主义又称仿生学派,其原理主要为对人类大脑信息处理以及对生物进化过程的模拟,包括模糊逻辑、神经网络和进化计算等多种智能算法。
(二)计算智能的方法特点决定了其在媒体内容挖掘中应用潜力巨大
计算智能所涵盖的算法,在处理互联网上持续产生和不断变化的数据、高维且冗余数据、多元异构数据方面,具有独特的优势;这些问题广泛存在于协同演化、多目标优化、深度学习、在线学习等基于大数据特征的媒体内容处理中。在面向这些复杂问题时,计算智能在媒体内容挖掘中的方法优势包括:
首先,在现实中,搜索引擎、社交网络、传感器等所产生的数据是持续且不断变化的,传统的批量学习算法需要从历史数据中建构无偏训练集,而互联网数据的产生规模和速度都使得数据无法一次性载入。与传统的人工智能相比,计算智能的最大特性是不需要建立精确的数学或逻辑模型,不依赖于知识表示,而是可以在观测数据上直接处理信息输入。这一特点非常适合于解决网络空间中庞大数据和持续变化内容的挖掘需要建立有效的逻辑模型才可能解决的问题。
其次,互联网所产生的数据的另一特点是数据纬度高且包含冗余属性,人工神经网络、遗传算法等进化计算是解决这类复杂问题的常用方法。其优势在于可以快速近似求解一些难解的问题,并可用于约简问题的规模,从而解决那些由于数据量太大而不易解决的问题。目前在文本识别和图像识别中广泛使用的人工神经网络是一种模拟神经元结构的分布式并行处理算法,其优势在于能够应对持续产生和不断变化的在线数据。该方法被广泛应用于信号处理、模式识别和数据压缩等方面的内容处理领域。
再次,在实际的生活中,有很多模糊问题需要解决,如多元异构数据的预处理、随机采样的增量处理等。模糊逻辑的优势在于善于利用学科领域的知识,具有很强的推理能力。其基本原理是通过模糊聚类,发现数据中隐含的未知模式。目前,模糊逻辑已在图像识别、自然语言理解等诸多领域取得了令人振奋的成果。⑥
计算智能的方法正得到越来越多的研究和完善,对算法和应用的融合研究,是当前计算智能领域中越来越普遍的做法。典型的融合方案包括:人工神经网络与模糊逻辑、人工神经网络与免疫算法、人工神经网络与遗传算法、模糊逻辑与免疫算法、模糊逻辑与遗传算法和遗传算法与免疫算法等。融合后的算法增强了计算智能的适应性,也提出了计算智能新的框架。这些研究为互联网内容挖掘和社会应用指示了方向。
二、计算智能在媒体内容领域的实践探索
当前计算智能在媒体内容挖掘领域的实践探索主要体现在三个方面:一是对文本信息的挖掘,包括对既有文本信息的聚类学习,完成机器新闻写作;二是通过对文本信息的挖掘,捕捉自然语言中的符号意义,实现分类预判,并进而为算法分发提供条件;三是对媒体内容中的图形和视频进行智能甄别,借助神经网络等深度学习算法,对图像数据进行检测和识别探索。这其中既包括不同来源的内容数据处理,也涉及社交网络上的数据利用问题。
(一)基于机器学习与新闻内容生产的智能分发
计算智能颠覆了新闻生产与内容分发的流程,塑造了媒体内容领域的新格局。这主要体现在以机器写作为标志的新闻生产和以算法推荐为标志的新闻分发系统中。
将算法应用于机器写作初见于2009年,当时一款名为StatsMonkey的软件被应用于美国职业棒球赛联盟后赛中,完成了第一篇机器写作的新闻稿件。在一定意义上,机器写作是集体智慧的产物。集体智慧是人们之间通过互动和交往产生的一种智慧形式。在过去的几十年里,Web2.0技术通过帮助松散的个人广泛沟通和协作,实现了一些集体智慧的产品。而机器写作则是通过自动计算的方法,对网络上的信息进行集体智慧聚合的结果。
最初机器写作的兴起要归功于媒体对写作机器人的应用。从2014年《美国洛杉矶时报》开启机器写作的先河,到腾讯财经推出“DreamWriter”、新华社推出“快笔小新”,依托数据技术的机器人新闻写作改变了传统新闻的生产流程,也让记者职业受到强烈的冲击。美联社借助语言大师写作机器人读取财报,并按照预设框架,生成财经新闻。不仅节约了数据分析的人力和时间成本,而且大大降低了错误率。谷歌也成立了数字新闻基金,投资80多万美元用于支持PressAssociation媒体公司的机器写作项目。这个项目已经达到了月产3万条以上地方新闻的效率。在计算智能的推动下,这项主要结合了自然语言处理、深度学习和视觉图像处理等技术,通过语法合成与信息聚类生成新闻,已越来越多地应用于新闻媒体的内容生产。
除内容生产外,计算智能对新闻内容的挖掘还显著地表现为新闻信息的智能分发。以“今日头条”为代表的智能新闻产品服务平台,借助基于计算智能算法的推荐引擎,向用户推送个性化的信息内容。在这个过程中,信息平台获取了用户的社交关系和在线行为,并根据用户的特征数据、位置数据、行为数据等进行推荐识别。其中涉及对海量信息进行降维、聚类、分类、模糊匹配等技术,借助SVM聚类、神经网络等智能算法,对信息进行机器分类,并根据用户特征、环境特征、新闻内容特征等进行多重匹配和推荐。随着计算智能算法性能的不断改进,新闻内容算法分发的时间效能和准确度也迅速提高,现已实现0.1秒内计算推荐结果实时推荐性能。
尽管近年来计算智能在媒体内容的生产与分发应用方面取得了显著的成果,这个领域仍有诸多问题有待解决。比如,机器写作能够帮助媒体提高新闻生产的效率和数量,但对于复杂数据的处理,仍不完善。在信息的检索和数据分类方面,互联网上存在很多使用相同信息的不同视图表达相同语义概念的情况。这就要求从跨视图数据中建立语义一致模型(SCP),从不同的视图中嵌入互补信息,从而让机器能够自动应对异构数据。面对这类问题,有研究以联合特征学习的相关模型为基础,提取了高层语义特征子空间数据,以同构相关冗余变换(IRRT)的方式提供分类和检索方面的应用框架。⑦这种做法的优势在于,通过建构语义一致性的中层空间,可以从不同的视图获取更多互补信息。
此外,当下的一些研究已经突破聚类的方法,为基于计算智能的媒体内容生产与分发提供更广阔的前景。在网络空间中,由于很多用户喜欢发布一系列图片,许多在线视觉信息以图像流的形式存在,因此最好考虑整个图像流来生成自然语言描述。将图像流生成自然语言描述将是一种能够检索图像流的快捷方法。有研究拓展了图像与自然语言之间的关系,联合使用卷积神经网络、双向长短期内存(LSTM)网络和基于实体的局部一致性模型等方法,检索照片流的连贯复句流,从而提出检索图像流自然语句序列的方法。⑧研究实验中使用直接从博客文章的大量用户生成的资源中学习,作为文本图像并行训练数据。借助算法,将不仅能够处理文字信息,而且能够辨识文字与图像之间的关系。
(二)多重算法下社交媒体文本内容的意义挖掘
符号的意义挖掘对媒体内容自动化生产将变得日渐突出,通过计算的方式对文本内容的挖掘和再生产,将成为互联网空间内容生产的重要方式。这不仅打破了原有的新闻内容生产模式与机制,而且将社交媒体、公共意见等深度融合,对数据利用提出更高的要求。比如,突发事件和灾难报道是新闻的重要内容,在大规模的危机中,很多人使用社交媒体来分享信息。然而,由于数据的数量和质量问题,在新闻报道的整体性数据呈现和紧急服务中很难使用这些信息。
面对社交媒体数据利用问题,研究者们进行了多个角度的探索性研究。如,面向推特等社交工具所出现的新的文本领域,引入人工神经网络算法,对传输学习的数据敏感粒度提出正则化转移学习模型(STLM)。⑨STLM可以实现保护目标域子结构并同时利用目标域和源域的观察值的竞争目标。其估值非常有效,可将解析解导出为必要和充分的条件。受到马尔可夫模型和正则化理论支撑,通过对语料库的标注实验,被用于测量社交媒体子结构中的不相似性。这类研究为推特、微博等社交媒体上的内容检索与探测分析提供了有效的方法。
社交媒体数据的复杂性和不规则性向基于机器学习的内容挖掘提出了挑战,智能算法被用于分析其中的隐含信息,并发展出新的算法框架。如针对社交媒体数据,多模态社会事件跟踪与演化框架被用于捕捉社会事件的话题及其随时间推移的事件发展趋势。⑩这种模型通过捕捉信息文本和视觉主题,被应用于社会事件跟踪。又如,有研究通过分析从微博提取的帖子的文档流,并将类似的帖子聚集在一起,使用基于概率主题模型的概率潜在语义分析(PLSA)来查找文档流中的潜在事件,从而提出对新型事件的检测模型。最后,采用EM(期望最大化)算法对参数进行训练,获得描述热事件的估计。[11]对社会事件的跟踪,不仅有助于政府管理社会活动,而且将极大地推动媒体机构对这类事件的跟踪报道,尤其在深度报道和系列报道中,记者将有可能借助这些数据针对用户需求行为及时反馈。
社交网络的数据与语义分析的结合还常被用来解析社交网络中成员的隐含行为。在语义社区的分析中,传统的基于图论的技术在复杂网络中显现出明显的局限性。在这种情况下,基于OSN统一学习模式的联合语义模型,有学者提出了社会本体一致性扩展[12],对行为特质的分析还被用于预测用户特征,从而达到在社交媒体中自动发现目标用户,提升特定广告效果的目的。比如,有研究者基于针对人群数据训练的机器学习模型,挖掘推特上的个人资料和推文,来推断用户特征包括:技术水平、电脑游戏知识、首选平台、原创度、幽默和对他人影响等。从而对推特上的游戏玩家进行特质预测。[13]借助计算智能的方法进行用户特质分析,对媒体内容干预和控制研究颇具意义。
此外,社交媒体已成为人们日常生活的一部分,被用于改善公众形象,以及在线声誉、公众意见的挖掘。对媒体内容的文本意义挖掘,常需要对文本所蕴含的情绪进行分类。这种做法需要了解特定受众对某些内容的感受,从而优化媒体内容和传递形式,为用户提供更好的使用体验。其中较为常见的分类方法包括文本特征提取、选择和机器学习算法等。比如,使用基于卡方的特征选择和再分发、神经网络分类器、支持向量机(SVM)分类器等。在情感分析和意见挖掘的计算领域,对原始文本进行提取、针对不同的情绪阶段进行分类,并根据情绪分类标示语义特征是一种常见的分析方法。这些提取出来的特征结构被用于建构机器学习的基本模型。在情感数据库的建构方面,遗传算法还可被用于从训练数据集中创建主体性词汇,并进而建构情感词典。[14]
(三)计算智能推动下图像内容的识别与挖掘
图像的识别和自动判断对媒体信息构成在效率和效果上都具有重要的意义。在媒体内容研究领域常见的情绪分析中,大多数方法都依赖于文本处理,而忽略了网络上大量存在的图像数据。近年来,计算智能对意义的挖掘已经不再局限于文本内容,而是逐步拓展到图像和视频流。目前,计算机视觉领域特征学习的主流范式是利用神经网络训练,对数百万手标记图像进行目标识别。在神经网络的相关算法中,值得一提的是卷积神经网络的新进展。其优势在于通过对深度信息的有效编码,可在不需要大的深度数据集的情况下进行学习。比如,通过规避对图像的复杂前期预处理,直接输入原始图像,能够完成大型图像处理。有研究显示,使用卷积神经网络后,对图像的自动分类性能大大提升。[15]以往对摄影图像的研究主要集中在纹理相似度的测量,这项研究借助卷积神经网络算法,对来自19位艺术保管人员和纸张专家进行的人类排序实验的群集,随后通过众包进行扩展,提升了艺术图像自动分类的性能。
卷积神经网络算法在形状识别、人脸检测、文字识别方面的应用正在逐步深入。有研究者借助聚合的算法,对Instagram平台上的图像数据进行标注和提取,从而确认视觉内容使用的相关性。[16]此外,随着视频网站、直播网站等的迅速发展,视频成为网络上的一个重要内容。然而,由于视频文件体积大,且很多视频以信息流的方式存在,实时视频分析是非常困难的。有学者使用分布式机器学习框架的研究拓展来解决这个问题。[17]针对深度学习中流媒体的特性,研究者在多模式、多视图和多感官的数据流综合信息中,加入和来自社交网络、人类专家和大众社区的辅助性数据,并提出侧重于结合异构多模态实时大数据流的协同融合算法,促进计算智能具有更好的可操作性。[18]
有大量的文献说明显著性建模在人脸识别单图像或视频领域中的应用前景。然而,随着多摄像机的广泛应用,如何从多个视觉来源将信息进行融合并检测目标,是图像识别中的一个重要问题。在这个方面的研究中,多视点的视觉信息与全局场景地图可被结合使用,具有高层次特征的显著性算法被用于通过视觉信息融合来确定最重要的区域。[19]相关的研究在实证数据集的检验方面验证了框架的有效性。这类研究的不断推进对媒体内容挖掘从文本到图像、再到流媒体领域的探索,具有重要意义。
三、媒体应用需求与计算智能技术下的新趋势
在科学研究的发展经历了理论科学、实验科学、计算科学后,互联网及其衍生技术将科学推进到数据密集型的发展阶段。计算智能的产生和更广泛地应用,已经对社会现实生活形成了巨大的冲击。计算智能方法的推进,一方面面临着若干理论问题和技术难题,另一方面又因巨大的应用需求吸引着学界和业界的密切关注。随着计算机硬件性能的提高和智能算法的高速发展,一些特定的技术应用趋势将未来的媒体内容挖掘推向新的阶段。
(一)移动媒体的泛用需求智能化的内容挖掘
移动设备的数量增加使得无线网络的复杂性和用户的需求也随之增加。随着全球范围内泛在的、大规模的传感器布局提供的巨大数据量。这种趋势使得多媒体服务部门需要采取必要的行动来适应即将到来的技术,比如HTTP自适应视频流应用技术。因此,计算智能的一些算法,如加强学习(RL)算法被用来寻找合适的流速率的解决方案。[20]由于传感器的多样化、移动互联网的广泛应用以及社交媒体平台的普及,近乎实时生成的大量数据需要将半结构化流数据有效传输到媒体内容中。多样的数据类型和流媒体数据,大大增加了数据处理的复杂性,这种数据的大量产生,也需求能够与之相适应的算法效能。计算智能为不断创新的媒体应用提供了底层技术的解决方案,如借助分布式遗传算法检测网络中社区的框架,对数据聚类建模,从而优化网络社区的模块化[21],等等。移动设备的数量增加使得无线网络的复杂性和用户的需求也随之增加。
移动媒体泛用还体现在移动设备不断推陈出新。如人体感知技术和可穿戴设备越来越多地应用也对持续可用的交互感测技术提出了新的要求,需要识别身体手势的操作和体内相互作用的信号系统。借助计算智能中模糊识别等算法,研究者正在探索使用人体作为有损信号传播介质的新型身体装置。[22]目前在该领域,粒子群算法、模糊计算等智能算法在交互与感知测量领域的发展趋势使得媒体内容服务的需求不断向前推进,也为内容挖掘和数据利用方面指示了新的方向。
(二)社会服务与管理需求更加深层有效的语义挖掘
除作为载体的媒体与数据表层结构处理的智能化需求之外,伴随现实社会网络与虚拟空间社会网络的交织,对媒体内容的挖掘需求更加准确,以便形成对社会网络中所隐含深层意义与关联的理解。智能算法的研究者在语义挖掘领域的持续努力,已初步实现了文字与音频的语言识别,并在人机对话中显示出一定的能力。如2018年5月谷歌发布的DuplexAI,在演示特定任务的过程中,完美演绎了机器与人类难以分辨的对话过程。这项实验的推进,将进一步论证源于图灵测试的关于机器能否更像人类的测试。据谷歌方面介绍,这项服务将来会被用于银行、宽带公司等自动化客服中心。以Duplex为代表的AI系统将让电话另一头的对话者身份变得难以辨识。
谷歌的智能人机对话算法,体现了语义理解、人机交互、时间控制和语音生产方面的新进展。这项技术的发展突破了以往智能机器人在对话中难以理解人类语义、交互不顺畅的问题。其技术核心是建构在RFX基础上的RNN网络,谷歌使用电话对话数据和自动语音识别工具ASR对音频特征、对话参数等进行了大量的训练,同时利用TFX超参数优化改进了模型。Duplex系统在算法中加入了情境的因素,让特定任务下的人机对话变得更加自然。
谷歌AI的发展预示了计算智能领域语义识别技术的新进展。未来的社会网络服务与管理中,将更多引入计算智能及其优化算法,并将不仅局限于特定的服务领域与简单的对话任务执行。对社交网络、服务应用、新闻信息等领域的内容挖掘,对算法的需求越来越大,对深层语义的挖掘是其中的一大难点。
(三)媒体深度融合需求载体与性能的智能化解决方案
自20世纪90年代中期我国传统媒体开始建设网络版以来,媒体融合就成为全社会关注的热词。在该领域的探索无论从实践还是研究来看,都非常之多,长期以来主要集中在渠道和内容的融合方面。互联网和大数据,尤其是近期计算智能的迅速发展,将媒体融合推向了一个新的发展阶段。计算智能正在数据存储与传输、算法与载体的应用结合方面,推动媒体深度融合。
计算智能在多媒体和超媒体的元数据存储和模式架构方面,推动媒体的进一步融合。这其中既存在标准化基础和互操作性匹配的问题,也存在映射元数据架构模式以及存储适用性问题。通过智能算法对数据的聚类建模和模块优化,大量的半结构化或非结构化数据被输出到应用中,以用户为中心的过滤架构和公共云环境部署为以用户为中心的信息过滤提供了条件。在通过分布式遗传算法检测网络中的社区布局等方面,提供了技术方案。
不仅如此,计算智能还推动算法与载体的深度融合,从而提升媒体软硬件性能的多样化发展。比如,计算智能与无人机的结合,可以用来跟踪选定对象,并对其所传递的信息及时处理。利用称为跟踪学习检测(TLD)的计算机视觉方法来跟踪由无人机的前置摄像机中的视频流中的用户选择的任意对象。媒介载体性能的提升,也将为智能算法的更新提出新的要求。
从近五年来计算智能与传媒相关研究可以清晰看到,在传媒内容挖掘领域,计算智能正在并将更深入和广泛地应用于信息的存储、分发和传播过程。其中,将重点涉及新闻生产与信息的智能分发、信息的智能分类与匹配、图像流的识别与检索、社交媒体内容的意义挖掘、移动媒体视觉信息检验等。随着计算机硬件与软件系统的升级,计算智能算法还将深入媒体融合领域,推动媒体融合深化发展。但从更为长远的趋势来看,媒体内容挖掘已不仅仅是传媒领域的特有问题,其与信息环境和社会多方面需求之间的关系也将成为愈加需要重视的问题。
注:
①尹朝天:《人工智能方法与应用》,华中科技大学出版社2007年版,第169—175页。
②③张军、詹志辉等编:《计算智能》,清华大学出版社2014年版,前言。
④JinY,HammerB.Computationalintelligenceinbigdata.IEEEComputationalIntelligenceMagazine,2014,9(3):12-13.
⑤周春光、梁艳春:《计算智能》,吉林大学出版社2009年版,第3—9页。
⑥KrizhevskyA,SutskeverI,HintonGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks.In:Proc.oftheAdvancesInNeuralInformationProcessingSystems.LakeTahoe:CurranAssociates,Inc.,2012:1097-1105.
⑦L.Zhang;Y.Zhao;Z.Zhu;S.Wei;X.Wu.MiningSemanticallyConsistentPatternsforCross-ViewData.IEEETransactionsonKnowledgeandDataEngineering.2014(11):2745-2758.
⑧C.Park;Y.Kim;G.Kim.RetrievalofSentenceSequencesforanImageStreamviaCoherenceRecurrentConvolutionalNetworks.IEEETransactionsonPatternAnalysisandMachineIntelligence.2017(99).
⑨S.Sun;H.Liu;J.Meng;C.L.P.Chen;Y.Yang.Sub-structuralRegularizationwithData-SensitiveGranularityforSequenceTransferLearning.IEEETransactionsonNeuralNetworksandLearningSystems.2017(99):1-13.
⑩S.Qian;T.Zhang;C.Xu;J.Shao.Multi-ModalEventTopicModelforSocialEventAnalysis.IEEETransactionsonMultimedia,2016(2):233-246.
[11]X.Sun;Y.Wu;L.Liu;J.Panneerselvam.EfficientEventDetectioninSocialMediaDataStreams.2015IEEEInternationalConferenceonComputerandInformationTechnology;UbiquitousComputingandCommunications;Dependable,AutonomicandSecureComputing;PervasiveIntelligenceandComputing.2015:1711-1717.
[12]A.ElKassiri;F.Z.Belouadha.Towardsaunifiedsemanticmodelforonlinesocialnetworksanalysisandinteroperability.201510thInternationalConferenceonIntelligentSystems:TheoriesandApplications(SITA).2015:1-6.
[13]A.Kalaitzis;M.I.Gorinova;Y.Lewenberg;Y.Bachrach;M.Fagan;D.Carignan;N.Gautam.PredictingGamingRelatedPropertiesfromTwitterProfiles.2016IEEESecondInternationalConferenceonBigDataComputingServiceandApplications(BigDataService).2016:28-35.
[14]H.Keshavarz;M.S.Abadeh.SubLex:Generatingsubjectivitylexiconsusinggeneticalgorithmforsubjectivityclassificationofbigsocialdata.20161stConferenceonSwarmIntelligenceandEvolutionaryComputation(CSIEC).2016:136-141.
[15]A.G.Klein;P.Messier;A.L.Frost;D.Palzer;S.L.Wood.Deeplearningclassificationofphotographicpaperbasedonclusteringbydomainexperts.201650thAsilomarConferenceonSignals,SystemsandComputers.2016:139-143.
[16]B.J.Lee;J.W.Ha;K.M.Kim;B.T.Zhang.Evolutionaryconceptlearningfromcartoonvideosbymultimodalhypernetworks.2013IEEECongressonEvolutionaryComputation.2013:1186-1192.
[17]Y.Tsuji;H.H.Huang;K.Kawagoe.ExtendingaDistributedOnlineMachineLearningFrameworkforStreamingVideoAnalysis.2013SecondIIAIInternationalConferenceonAdvancedAppliedInformatics,2013:279-283.
[18]G.Chetty;M.Yamin.Asmartfusionframeworkformultimodalobject,activityandeventdetection.20163rdInternationalConferenceonComputingforSustainableGlobalDevelopment(INDIACom).2016:1417-1422.
[19]Y.Luo;M.Jiang;Y.Wong;Q.Zhao.Multi-CameraSaliency.IEEETransactionsonPatternAnalysisandMachineIntelligence.2015(10):2057-2070.
[20]M.Agarwal;S.Biswas;S.Nandi.DetectionofDe-AuthenticationDoSAttacksinWi-FiNetworks:AMachineLearningApproach.2015IEEEInternationalConferenceonSystems,Man,andCybernetics.2015:246-251.
[21]M.Hajeer;D.Dasgupta;A.Semenov;J.Veijalainen.Distributedevolutionaryapproachtodataclusteringandmodeling.2014IEEESymposiumonComputationalIntelligenceandDataMining(CIDM),2014:142-148.
[22]Y.Wang;C.Yu;L.Du;J.Huang;Y.Shi.BodyRC:ExploringInteractionModalitiesUsingHumanBodyasLossySignalTransmissionMedium.2014IEEE11thIntlConfonUbiquitousIntelligenceandComputingand2014IEEE11thIntlConfonAutonomicandTrustedComputingand2014IEEE14thIntlConfonScalableComputingandCommunicationsandItsAssociatedWorkshops,2014:260-267.
〔责任编辑:御 风〕
ApplicationandNewTrendofComputational
IntelligenceinMediaContentMining
WuXiaokun
Abstract:Computationalintelligenceisthefrontierofartificialintelligence,revealingthefuturedevelopmentfromtheunderlyingtechnology.Itsapplicationtothemediacontentminingmainlyliesintwoaspects:oneistargetingontheonlinetextandimagesanalysisbyclustering,classificationanddeeplearning;theotheristoprocessdatafromdifferentresources,typicallyasthedatausageofthesocialnetwork.Throughtheinductionandanalysisofthemethodfeaturesandtechnicaltrendsofcomputationalintelligence,thispaperdiscussesthefrontierapplicationsofComputationalIntelligenceinmediacontentmining,thusprovidingareferenceforthefutureoftechnology-orientedmediadevelopment.
Keywords:computationalintelligence;contentmining;datausage;algorithm