博舍

AI百科:什么是智能推荐|解读你我身边的人工智能 智能推荐属于人工智能吗

AI百科:什么是智能推荐|解读你我身边的人工智能

艾蒂娜AI百科

白小极人工智能

一、智能推荐的魔力

 

任何问题技术咨询请联系19952409917

 

2020年的愚人节晚间,罗永浩在抖音带货,相信你也被刷屏了吧。3小时的直播过程中,22款产品轮番出场,最终首播支付交易总额突破1.1亿、整场直播观看总人数超过4800万、总销售件数逾91万,粉丝打赏音浪收入3600万,由此看来,罗老师看起来离“带货一哥”的目标又进了一步。不得不说,这场魔幻版的流量狂潮,是他和成就他的直播首秀的除了他自己,更重要的是日活跃用户超过四亿的抖音平台的双赢抖音平台。

 

我们的时间都去哪了?所谓“抖音五分钟,人间两小时”,抖音软件的火爆便是依托于它强大的智能推荐系统。它会根据你的浏览记录、停留时长、点赞评论等一系列数据分析你的喜好后,小心翼翼的捕获你,最后平台馈赠的你所看到的每段个视频恰恰都正是你最最有可能

 

二、什么是智能推荐系统

 

通俗一点来讲,智能推荐系统是通过你过去曾经发生的行为痕足迹去推测你的当下未来所需。你的搜索、点赞、评论、转发等行为都为它创造了解你的机会。举个例子例子:当你在某购物平台搜索一双经典球鞋时,平台会立刻很快就会发现它还为你推荐了相似同款式类型、相似同等价位的其他球鞋,或者甚至还会引申到同等品牌的运动服饰衣等。最令人惊奇的是,你或许会在推荐商品中挑选到真正喜爱的商品,而没有购买你最初搜索的那件。原因自然不言而喻,智能推荐系统比你更了解你的购买浏览习惯和行为偏好,当你还不了解它的算法奥妙时,你早已离不开它了。

 

智能推荐系统是人工智能的分支,它的运作主要包括数据采集、数据处理、推荐计算、模型训练等步骤搜寻。

 

(一)数据采集

 

推荐系统需要的数据可以用一句话来概括:“哪个用户在什么时间点对什么内容发生了什么行为,这个内容是什么”。用一张图来表示:

 

我们拆分来看,大致可以分为以下三类数据:

 

1.物料类数据:也就是内容的文本类数据,如内容的标题、正文、不同的业务场景下可能会涉及到不同维度的数据,但目前能用做推荐的仅是文本数据。在服务家居和素材类网站客户的过程中,曾经有尝试过用图像识别的方法做相似度推荐但效果并不理而智能推荐则是通过用户行为数据的计算,将用户最需要的信息主动推送给用户。其与分类目录和搜索引擎的区别体现于此。推荐系统基于用户的静态属性与用户行为数据进行信息匹配,因每个用户存在个体性差异,所以每个用户获取的信息都是不同的,都是个性化的,并且推荐系统传递信息的过程是主动而非被动的。

 

我们每个人都已经离不开的网络购物恰恰向我们展现了智能推荐的优势及其必要性。商品千千万,搜索词条也是五花八门,如果不是依靠智能推荐系统为我们提供便利,我们可能很难找到自己真正

 

这种将人们喜爱和需求的商品及信息主动地推荐给我们的方式,恰恰迎合了人类与生俱来的惰性。相比主动地搜索,人们更喜欢被动的接受,特别是当这些信息正是我们所感兴趣的时候。如今,智能推荐无处不在。购物平台的商品推荐,短视频平台的视频推荐,娱乐平台的音乐电影推荐,新闻资讯平台的信息推荐,甚至是社交平台的交友名片推荐,无一不依赖它。简单来讲,每款app在不同的用户手中,既可以是相同的,又可以是完全不同的。一切都会根据于你的个性和喜好而定义,这就是智能推荐的本质所在。

艾蒂娜科技拥有大数据、人工智能、云计算等领域的核心技术,具有企业数据人工智能高并发安全加密系统等40多项软件专利。作为中小企业云端智慧商业及营销解决方案提供商,紧紧把握经济社会发展趋势不断创新,围绕商业云、营销云、知产云打造智慧云端生态体系,赋能中小企业实现数字化转型。拥有新零售智慧商城、在线教育直播系统、区块链资产数字化系统、O2O营销系统、社交电商系统、微信营销应用系统,提供网站、公众号、小程序、APP、区块链的定制开发服务与互联网解决方案。同时旗下还拥有白小极、帮扶网、华青版权中心等众多平台。隶属于华青创新(江苏)人工智能研究院的华青创新版权中心,是江苏省版权局授权的、与政府部门合作的版权服务平台,提供的服务包括版权咨询、申请、保护、交易与授权。

艾蒂娜的初心是:做有社会责任感的科技企业。使命是:不断创新持续为客户创造价值。口号是:科技服务让企业线上无忧。愿景是:做更具优势的智慧商业解决方案与服务提供商。价值观是:快乐工作,共享智惠。企业文化是伙伴文化。

 

公众号:【艾蒂娜科技】【白小极】官方网站:www.ayalm.com【下面关注】

来自公众号:艾蒂娜科技(ID:AdinaTech);作者:艾蒂娜

让我们用天马行空的想象力,描绘美好创新世界!

什么是人工智能 (AI)

虽然在过去数十年中,人工智能(AI)的一些定义不断出现,但JohnMcCarthy在2004年的文章 (PDF,127KB)(链接位于IBM外部)中给出了以下定义:"它是制造智能机器,特别是智能计算机程序的科学和工程。AI与使用计算机了解人类智能的类似任务有关,但不必局限于生物可观察的方法"。

然而,在这个定义出现之前数十年,人工智能对话的诞生要追溯到艾伦·图灵(AlanTuring)于1950年出版的开创性作品"计算机器与智能"(PDF,89.8KB)(链接位于IBM外部)。在这篇论文中,通常被称为“计算机科学之父”的图灵提出了以下问题:“机器能思考吗?” 他在这篇文章中提供了一个测试,即著名的“图灵测试”,在这个测试中,人类询问者试图区哪些文本响应是计算机做出的、哪些是人类做出的。虽然该测试自发表之后经过了大量的审查,但它仍然是AI历史的重要组成部分,也是一种在哲学中不断发展的概念,因为它利用了有关语言学的想法。

StuartRussell和PeterNorvig随后继续发表了“人工智能:一种现代方法 ”(链接位于IBM外部),成为AI研究方面的重要教材之一。在这本书中,他们深入探讨了AI的四个潜在目标或定义,基于理性、思考和行动来区分计算机系统:

人类方法:

像人类一样思考的系统像人类一样行动的系统

理想方法:

理性思考的系统理性行动的系统

艾伦·图灵的定义可归入"像人类一样行动的系统"类别。

以最简单的形式而言,人工智能是结合了计算机科学和强大数据集的领域,能够实现问题解决。它还包括机器学习和深度学习等子领域,这些子领域经常与人工智能一起提及。这些学科由AI算法组成,这些算法旨在创建基于输入数据进行预测或分类的专家系统。

目前,仍有许多围绕AI发展的炒作,市场上任何新技术的出现都会引发热议。正如Gartner在其hypecycle技术成熟度曲线(链接位于IBM外部)中指出的那样,自动驾驶汽车和个人助理等产品创新遵循“一个典型的创新周期,从欲望膨胀到期望幻灭、到最终了解创新在市场或领域中的相关性和作用。”正如LexFridman在2019年麻省理工学院演讲中指出的那样(01:08:15)(链接位于IBM外部),我们正处于欲望膨胀高峰期,接近幻灭的谷底期。 

随着对话围绕AI的伦理道德展开,我们可以开始看到幻灭谷底初见端倪。如想了解更多关于IBM在AI伦理对话中的立场,请阅读这里了解更多信息。

智能推荐算法演变及学习笔记(一):智能推荐算法综述

【说在前面】本人博客新手一枚,象牙塔的老白,职业场的小白。以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手]

一、基于内容的智能推荐:最古老的智能推荐方案!1.定义

根据用户历史喜欢的item,为用户推荐与其内容相似的item。

2.主要步骤(1)从用户每个历史item的内容中抽取出一些特征结构化数据:直接用即可非结构化数据:转化为结构化数据后再使用(例如:针对文本数据的向量空间模型、TF-IDF等)(2)利用用户历史喜欢或不喜欢的item特征集合,学习出用户的兴趣特征表示可以直接选择item的相似度衡量方法:欧几里得距离(适用于结构化数据)、余弦相似性(适用于非结构化数据转化后的向量表示)等可以采用机器学习算法进行有监督训练:线性回归、最近邻、朴素贝叶斯、决策树、神经网络等(3)比较用户的兴趣特征与候选item的特征,选择相关性前Top-n的item进行推荐如果2中直接采用相似度衡量方法:只要把与用户兴趣特征最相关的n个item作为推荐返回给用户即可如果2中采用机器学习算法:只要把模型预测的用户最可能感兴趣的n个item作为推荐返回给用户即可3.优缺点(1)优点不需要其它用户的数据,没有物品冷启动问题和数据稀疏问题能推荐新的或不是很流行的项目,没有新项目问题能为具有特殊兴趣爱好的用户进行推荐可以通过推荐项目的内容特征,解释其推荐理由(2)缺点存在用户冷启动问题对item内容的特征抽取并不容易实现将各用户独立,只能推荐用户历史感兴趣的item,用户的潜在喜好无法挖掘二、基于协同过滤的智能推荐:最流行的智能推荐方案!1.基于内存的协同过滤方法(1)基于用户的推荐:主要考虑用户之间的相似度,将相似用户评分Top-n的物品推荐给用户

(2)基于物品的推荐:主要考虑物品之间的相似度,将与用户喜好物品相似度Top-n的物品推荐给用户

(3)优缺点

和基于内容的推荐方法相比,该协同过滤具有如下的优点:

能够过滤难以进行机器自动内容分析的信息,如艺术品、音乐等能够共享其他用户的经验,避免了内容分析的不完全和不精确能够有效使用其他相似用户的反馈信息,加快个性化学习的速度具有推荐新信息的能力,可以发现用户潜在的但自己尚未发现的兴趣偏好

但该协同过滤仍有许多的问题需要解决:

存在冷启动问题和数据稀疏问题商品、用户越多,协同过滤越复杂,可扩展问题不能为具有特殊兴趣爱好的用户进行推荐(找不到相似用户)2.基于模型的协同过滤方法:最主流的智能推荐方案!(1)基于关联规则的推荐:主要方法是从Apriori和FP-Growth两个算法发展演变而来(计算复杂度过大)

(2)基于矩阵分解的推荐:主要方法包括SVD分解及其变种、分解机、张量分解等(都未解决数据稀疏问题和冷启动问题)(3)基于隐语义模型的推荐:主要方法包括隐性语义分析LSA和隐含狄利克雷分布LDA等。(主要是基于用户的nlp语义分析进行相关推荐)

(4)基于机器学习的推荐(参考数据挖掘项目全流程介绍)基于聚类算法的推荐:k-means、层次聚类等基于分类算法的推荐:最近邻、朴素贝叶斯、决策树等基于回归算法的推荐:线性回归、逻辑回归等基于集成学习的推荐:gbdt、xgboost、lightgbm等(5)CTR预估模型演变之路(手动划重点)LR/GBDT/xgboost:机器学习算法的直接使用FM/FFM:FM在LR的基础上,考虑了特征间的二次交叉;而FFM则是在FM的基础上,考虑了特征交叉的field特点

GBDT+LR/FM/FFM:GBDT模型能够学习高阶非线性特征组合、LR/FM/FFM易于处理大规模稀疏数据

MLR:等价于聚类+lr,先聚成m类,然后每个聚类单独训练一个LR,分而治之

 

DNN/wide&deep/deepFM/NFM/DCN等(引入深度学习):都是在高阶特征的提取上下了不少功夫wide&deep:可以看作是DNN和特征工程的融合deepFM/NFM:可以看作是FM、FFM和DNN的融合DCN:cross网络是FM在高阶特征组合的推广,不需要特征工程后续还有引入注意力机制、强化学习等的智能推荐方法

双塔模型DSSM:两侧分别对{用户,上下文}和{物品}进行建模

(6)基于图模型的推荐SimRank系列算法和马尔科夫模型算法:基于用户-物品二分图的拓扑结构信息来衡量任意两个对象间的相似程度基于知识图谱的推荐:基于特征的推荐方法:主要是从知识图谱中抽取用户和物品的属性作为特征,放入到传统的模型中(只引入了实体特征,没有引入关系特征)基于路径的推荐方法:将知识图谱视为一个异构信息网络(用户-物品),然后构造物品之间的基于meta-path的特征(meta-path是连接两个实体的一条特定的路径)知识图谱特征学习:基于距离的翻译模型追求h+r=t(TransE、TransH、TransR等)、基于语义的匹配模型将h/r/t输入网络中学习(SME、NTN、MLP、NAM等)结合知识图谱特征学习的推荐系统:依次训练学习(DKN)、联合训练学习(CKE/RippleNetwork)、交替训练学习(MKR)

 

【更新】为了具体介绍,博主更新了两篇新随笔:

CTR预估模型演变及学习笔记 基于图模型的智能推荐算法学习笔记(含知识图谱/图神经网络,不止于智能推荐)【更新】介绍比较新的一些深度学习推荐模型改进方向:

引入用户行为序列建模(例如TDM/TransRec等)将用户历史行为看做一个无序集合,对所有embedding取sum、max和各种attention等将用户历史行为看做一个时间序列,采用RNN/LSTN/GRU等建模抽取/聚类出用户的多峰兴趣,方法有Capsule等(阿里MIND提出)根据业务场景的特殊需求,采用其他方法引入NLP领域知识建模(例如Transformer/BERT等)多目标优化/多任务学习(例如阿里ESMM/GoogleMMoE等)多模态信息融合长期/短期兴趣分离(例如SDM等)结合深度强化学习(例如YouTube推荐/今日头条广告推荐DEAR等)图神经网络的预训练(即引入迁移学习的思路)...... 三、混合推荐1.从推荐结果的角度加权型混合推荐:指将多种推荐技术的计算结果加权混合产生推荐分支型混合推荐:指根据问题背景和实际情况采用不同的推荐方法混杂型混合推荐:指采用多种推荐技术给出的推荐结果,即取并集2.从特征的角度特征组合:指组合来自不同推荐数据源的特征被另一种推荐算法所采用特征扩充:指一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中3.从算法的角度增强型混合推荐:指前一个推荐方法的输出作为后一个推荐方法的输入层叠型混合推荐:指第一推荐方法输出粗略的推荐列表,该推荐列表又由下一推荐方法改进4.从系统的角度离线学习和在线学习:hadoop/storm/spark等大数据环境下的智能推荐满足业务上的一些需求:加入人工规则等 四、智能推荐系统可能存在的问题1.冷启动问题主要包含新用户启动问题、新物品启动问题和新系统启动问题可以采用热门物品推荐、根据地域推荐、让用户选择兴趣标签、根据好友推荐、利用交叉领域信息等方法2.数据稀疏性问题可以采用简单填值、用户/物品聚类、矩阵分解、降维、混合推荐等方法3.马太/长尾效应指的是存在热门物品越来越受关注、其他物品越来越得不到关注的问题可以采用混合推荐等方法4.模糊问题指的是用户的兴趣爱好不太明显、比较散乱(例如一家人用同一个智能电视)可以采用混合推荐等方法5.同义问题指的是存在推荐相关性过大、甚至推荐重复的物品给用户(例如一个物品的不同版本)可以采用混合推荐等方法6.稳定性/可塑性问题指的是用户兴趣会慢慢改变、而推荐系统仍然保留用户的历史兴趣可以对用户的兴趣物品进行时间衰减操作7.多样性/精确性问题可以采用混合推荐等方法 五、智能推荐的企业级应用

1.采用召回候选集+业务规则过滤+模型打分排序的智能推荐系统思路

(1)召回(matching):一般包括召回和粗排两个部分。粗排部分负责将各路召回的内容进行统一的排序,取出top的内容送入到排序模块中。粗排一般使用一些不那么复杂的模型,例如gbdt、lr、fm等。

(2)排序(ranking):一般包括精排和重排等部分。精排部分主要涉及到的技术为点击率预估(CTR预估),使用point-wise的方法对三元组打出一个分,然后进行排序。

两者的主要差别为:Deepmatch中没有目标物料的概念,而排序中可以使用目标物料,同时也可以基于目标物料做一些交叉特征。

*建议可以好好学习一下Google16年发表的 《DeepNeuralNetworksforYouTubeRecommendations》框架,辅助理解。

2.采用分支型混合推荐应对不同的业务场景3.评估指标

个人理解企业级的上线问题以及评估指标,应该与数据挖掘类似,这里不再赘述。

一是离线算法本身的评估指标:分类问题评估指标和回归问题评估指标等二是业务上线的评估指标:例如点击率、转化率等

 

老规矩,最后直接上完整的思维导图!

如果您对数据挖掘感兴趣,欢迎浏览我的另一篇博客:数据挖掘比赛/项目全流程介绍

如果您对人工智能算法感兴趣,欢迎浏览我的另一篇博客:人工智能新手入门学习路线和学习资源合集(含AI综述/python/机器学习/深度学习/tensorflow)

如果你是计算机专业的应届毕业生,欢迎浏览我的另外一篇博客:如果你是一个计算机领域的应届生,你如何准备求职面试?

如果你是计算机专业的本科生,欢迎浏览我的另外一篇博客:如果你是一个计算机领域的本科生,你可以选择学习什么?

如果你是计算机专业的研究生,欢迎浏览我的另外一篇博客:如果你是一个计算机领域的研究生,你可以选择学习什么?

如果你对金融科技感兴趣,欢迎浏览我的另一篇博客:如果你想了解金融科技,不妨先了解金融科技有哪些可能?

之后博主将持续分享各大算法的学习思路和学习笔记:helloworld:我的博客写作思路

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇