博舍

AI时代,关于人工智能你需要知道的一切 人工智能产品的好处

AI时代,关于人工智能你需要知道的一切

AI似乎正渗透至现代生活中的每个角落,从音乐到媒体,再到商业/生产力乃至私人约会。要想在这个快速发展的时代跟上节奏,每个人都有必要留点时间认真了解关于人工智能的一切。

人工智能,也称机器学习,是一种开创于几十年前、基于神经网络的软件系统。随着近来新型算力的迅猛发展,AI终于获得了高效可靠的语音和图像识别能力,甚至掌握了生成图像和语音的诀窍。研究人员如今正努力借AI之手,帮助用户轻松总结网页内容、订购商品、调整食谱。

那机器会不会就此爆发,迅速脱离人类的掌控?!先别急,后文会认真讨论这个问题。相比之下,我们更希望读过本文,大家都能把握当前AI的发展动向。

AI基础知识

关于AI最有趣的事实在于:尽管其核心概念早在50多年前就已经诞生,但直到现在也没有多少技术专家真正熟悉个中原理。因此如果大家感到迷茫,请不必担心——其他人也差不多。

这里我们要先强调一点:虽然名叫“人工智能”,但这个词本身其实并不准确。智能还没有统一定义,而且AI系统的行为更接近计算机、而非人类大脑。只是这个计算机的输入和输出更加灵活,能在一定程度上模仿智能的表现。

下面来看看AI讨论中经常用到的基本术语。

神经网络(Neuralnetwork)

人类大脑主要由名为“神经元”的相互连接的细胞组成,它们相互啮合,形成可执行任务并存储信息的复杂网络。自1960年代以来,人们一直希望在软件当中重建这套惊人的认知系统,但直到最近的15到20年,GPU的发展成熟才让数字定义的神经网络迎来蓬勃发展,可谓是算力出奇迹的典型案例。

从本质上讲,神经网络就是大量点和线的组合:点代表数据,线则是各数值间的统计关系。

如同人脑一样,这一基本原理能够建立起多功能系统:快速接收输入,再通过网络传递并生成输出。这样一套系统,被称为“模型”。

模型(Model)

模型是指能接收输入并返回输出的具体代码的集合。之所以选择“模型”这个词,是想体现与统计模型、或者能模拟复杂自然过程的建模系统之间的相似性。在AI领域,模型可以指代ChatGPT这类完整系统,也可以是几乎一切AI或机器学习结构,目的和功能不限。模型的体量各有不同,其规模代表着占用的存储空间和运行起来需要消耗何等程度的算力。而实际体量,则由模型的训练方式所决定。

训练(Training)

要创建AI模型,先要向构成系统基础的神经网络“投喂”数据集或语料库所承载的大量信息。在此过程中,庞大的网络会创建起该数据的统计表征。训练过程也是计算密度最高的环节,往往需要在大规模高性能计算机上运行几周甚至几个月时间。这不仅是因为网络本身非常复杂,也是因为数据集规模往往极为庞大:须分析数十亿个单词或图像,并在巨大的统计模型中得到表征。但在模型完成训练之后,研究人员可以想办法对其“瘦身”,运行时的资源要求也更低——这就是所谓推理过程。

推理(Inference)

推理,就是模型实际发挥作用的过程:领先对现有证据进行推理以得出结论。当然,这跟我们人类的“推理”不同,AI模型是在统计学意义上将摄取到的各个数据点联系起来,据此预测出下一个点的位置。例如,假定要求其“补全以下序列:红色、橙色、黄色……”它就会意识到这些词跟所摄取的某一列表相匹配,也就是彩虹的颜色分布,再由此推理并补全列表中的其余部分。推理消耗的计算成本通常比训练低得多:毕竟查询目录也要比整理目录简单得多。虽然某些大模型还是得靠超级计算机加GPU才能执行推理,但也有不少小模已经能运行在智能手机甚至配置更低的设备之上。

生成式AI(GenerativeAI)

今时今日,人人都在讨论生成式AI。这是个广义术语,指那些能够生成原始输出(如图像和文本)的AI模型。某些模型能做总结,有些能做整理,有些能做识别——但至少目前最炙手可热的选手,还是那些能“凭空”生成新内容的AI模型(究竟是不是真的凭空,目前还存在争议)。但请千万记住,AI生成的结果可并不一定就是正确的,甚至根本是在胡说八道!一切完全可能是神经网络的胡思乱想,包括那些绘声绘色的故事或者栩栩如生的画作。

AI热门词汇

讲罢基础知识,咱们再来看看2023年比较热门的AI词汇。

大语言模型(Largelanguagemodel,LLM)

大语言模型已经成为当前最具影响力、用途最广泛的AI形式,几乎所有构成网络的文本和英语文学素材都被纳入训练范畴。由此训练出的,就是一套体量巨大的基础模型。大语言模型能够以自然语言交谈并回答问题,模仿各种风格的类型的书面文件,ChatGPT、Claude和LLaMa等成果都已经证明了其强大能力。尽管这些模型的表现令人印象深刻,但请注意其本质上仍属于模式识别引擎——在回答问题时,它实际是在补全识别出的模式,却无法判断该模式是否与事实相符。LLM在回答问题时经常产生“幻觉”,后文将进一步扩展延伸。

基础模型(Foundationmodel)

在巨大的数据集之上从零开始训练巨型模型,无疑是个昂贵且复杂的过程,当然应该能免则免。基础模型属于从零开始训练出的大模型,需要超级计算机才能承载得起;但我们通常可以减少其中的参数量,以精简方式使其适应更小的承载。所谓参数,也就是我们前文提到的模型中待处理的“点”的数量,目前常见的大语言模型往往拥有百万、十亿甚至是万亿级参数。

微调(Finetuning)

GPT-4这类基础模型非常聪明,但在设计上只能算是“通才”。从文学名著到奇幻故事,它都有所涉猎。可如果想让它帮助整理一封求职信用的简历,其表现甚至还不如普通中学生。好在我们可以使用专门的数据集对模型做点额外训练,这个过程就是模型微调。比如我们可以从网上搜集几千份求职申请,在“投喂”之后模型终于理解了简历的套路所在,同时又不影响它在原始训练数据中掌握的其他知识。

另外还有人类反馈强化学习(RLHF),这是一种特殊的微调方法,通过人类与LLM的交互数据来提高模型的沟通技巧。

扩散(Diffusion)

图像生成可以通过多种方式实现,但迄今为止最成功的办法还是“扩散”技术。StableDiffusion、Midjourney等流行的生成式AI核心成果都是据此发展而来。在通过展示图像来训练扩散模型时,这些图像会在添加数字噪声的过程中逐渐退化,直至原始图像荡然无存。通过观察整个过程,扩散模型能学会如何反向执行整个过程,逐渐向纯噪声中添加细节以构成预定义的任意图像。其实在图像生成领域我们已经探索出了更新、更好的实现方法,但扩散技术仍然比较可靠且相对容易理解,所以相信还会有不小的应用空间。

幻觉(Hallucination)

最初的“幻觉”概念,是指模型在输出中夹杂着与输入完全无关内容的情况。例如因为训练素材中包含大量狗的元素,所以模型偶尔会用狗作为纹理贴到建筑物上。根据猜测,如今AI所产生的幻觉主要源自训练集中缺乏足够数据、或者数据内容间相互冲突,于是它只能编造出一些似是而非的结论。

“幻觉”的存在有好处也有弊端:利用幻觉可以引导AI生成原创或更加多样的衍生艺术成果。但如果需要就事实获取明确的答案,幻觉肯定是个大麻烦——模型会一本正经地胡说八道,让不熟悉实情的用户误信为真。目前除了手动检查之外,还没有什么简单方法来判断AI输出是真是假,毕竟模型本身根本就没有“真假”的概念,只是在努力补全自己识别出的“疑似”模式。

通用人工智能(ArtificialGeneralIntelligence,AGI)

通用人工智能,又称强人工智能(StrongAI),其实并没有明确的概念定义。用最简单的话语来解释,这是一种足够强大的智能,不仅能够替人类完成很多工作,甚至能像人类一样自我学习和改进。有人担心这种学习、整合思维,然后加快学习和成长速度的循环将恒久持续,最终造就一套无法约束或控制的超级智能系统。甚至有人认为应该叫停相关研究,暂缓或阻止这种可怕的未来。

看过《黑客帝国》或者《终结者》电影的朋友肯定能理解其中的担忧,毕竟AI失控并试图消灭或奴役人类的可能性确实令人不寒而栗。但这些故事纯属编剧想象,跟现实并没什么关系。ChatGPT等成果虽然能给人留下深刻印象,但在抽象推理和动态多领域活动方面与“真正的智能”几乎没有半毛钱关系。我们尚无法断言AI未来会如何发展,但暂时不妨将AGI理解成星际旅行——人人都能把握其概念并朝着这个方向努力,可目标本身仍然遥不可及。其间需要巨大的资源投入和基础科学的飞跃式进步,绝非一夜之间便可成真。

评论人士也在反复强调,“杞人忧天”式的探讨缺乏现实意义。毕竟AI如今表现出的真正威胁,反而源自其局限性和“智障”表现。虽然没人想让天网成真,但如果不能在AI初期解决好自动化消灭工作岗位的现实问题,我们哪还有机会被T-1000满街追杀?

AI主要玩家

OpenAI

要说如今的AI领域最赫赫有名的“门派”,无疑是以OpenAI为首。顾名思义,OpenAI强调把自己的研究成果对外分享。但在有所斩获之后,OpenAI决意重组为一家更传统的营利性公司,通过API和应用软件向用户开放ChatGPT等高级语言模型的访问服务。这家公司的掌门人是SamAltman,尽管靠技术突破赚得盆满钵满,但他本人还是对AI可能引发的风险发出了警告。OpenAI是大语言模型领域的领导者,在其他方向上也有探索。

微软

微软其实也在AI研究方面做出过不少贡献,但因为种种原因没能真正将实验成果转化成现实产品。但其最明智的举动就是早期投资了OpenAI,并与后者建立起长期合作伙伴关系。微软目前已经在Bing搜索引擎上引入ChatGPT功能。尽管微软的AI贡献相对有限且难以直接使用,但其研发实力仍旧不容小觑。

谷歌

想靠“登月计划”引领AI技术革命的谷歌,不知何故没能摘取最后的胜利果实。但必须承认,谷歌研究人员的发明为如今AI的全面爆发奠定了基础,这就是tarnsformer。如今,谷歌正努力开发自己的大语言模型和其他智能体。在过去十年浪费大量时间和金钱推动AI助手无果之后,谷歌正在迎头赶上。公司CEOSundarPichai多次表示,公司将在搜索和生产力方面牢牢守住以AI为中心的发展理念。

Anthropic

在OpenAI“背叛”开源社区之后,Dario和DanielaAmodei兄妹毅然出走并创立了Anthropic,希望打造一个开放且更具道德责任感的AI研究组织。凭借充裕的资金,他们发展成为OpenAI的有力竞争对手,只是其Claude模型暂时还无法在人气和知名度上与GPT匹敌。

Stability

虽有巨大争议,但Stability仍在AI浪潮中拥有自己的一席之地。他们正收集互联网上的各种内容,并以开放硬件的方式免费提供其生成式AI模型。这既符合“信息应免费”的理念,也让项目本身蒙上了一层道德阴影。很多人认为Stability的成果被用于生成色情图像,及未经同意使用知识产权。

埃隆·马斯克

长期以来,马斯克经常直言不讳地表达自己对于AI失控的担忧。他曾在早期支持过OpenAI,但不满于该公司朝着自己不支持的方向发展。虽然马斯克并不算是AI技术专家,但他夸张的表达和评论确实引发了广泛反响(他本人还在“暂停AI研究”倡议书上签了字),而且正着手建立自己的AI研究机构。

生成式人工智能将给保险行业带来什么

2022年11月,美国初创公司OpenAI推出了ChatGPT,再度掀起了全球对生成式人工智能(AIGC)的关注热潮。这款运用人工智能(AI)驱动的高级自然语言处理工具仅上线5天用户数就突破100万,仅2个月后,月活跃用户数就突破了1个亿,成为人类历史上用户数增长最快的消费级应用。

目前,各行各业都在探索,AIGC到底能带来哪些颠覆。

5月25日,贝壳财经记者注意到,近期,由众安保险联合众安科技发布了保险业首份《AIGC/ChatGPT保险行业应用白皮书》(以下简称《白皮书》)。

其中提到,该项技术有望成为险企决胜未来的重要战略性资产,其与行业的深度融合将大幅提高企业整体运营效率,而非单一的人力替代。

由于AIGC赋能险企仍处于初期阶段,保险企业应用该项技术仍面临重重挑战,《白皮书》倡议更稳健的技术实践,更科学的试点实验,及更多的跨界沟通,与众协同为生成式人工智能在保险领域的可持续发展贡献力量。

AIGC能为保险业做些什么?

AIGC指一种可以学习复杂数据结构和规律,并用这些规律来生成新数据或解决问题的算法,与传统机器学习算法相比,AIGC有更强大的创造能力。

若充分利用AIGC的优势特点,可以为保险公司在保险产品、营销、运营和客服等多个领域提供深度技术赋能,同时还可以应用于日常办公、研发提效等多个方面。

AIGC到底能为保险业做些什么?以保险产品设计为例,《白皮书》称,AIGC模型在以健康险、寿险为代表的人身险和以车险为代表的财产险中,有巨大的应用潜力。比如在风险因素识别上,AIGC可以分析大量的健康险相关数据,包括历史赔付数据、人口统计和医疗资料等,从中识别出潜在的风险因素,有助于产品精算人员更好地理解不同客户的风险特征,并制定相应的保险策略;在个性化建议上,AIGC可以根据个人医疗历史和风险因素,为产品精算人员提供个性化的保险建议和方案,这有助于产品精算人员更好地理解客户需求,并提供更符合实际需要的保险产品。

《白皮书》还指出,AIGC可赋能保险市场营销服务的应用场景,比如在保险产品推荐上,利用AIGC技术,保险公司可以构建智能化保险产品推荐机器人,通过自然语言交互,为客户提供个性化的保险产品推荐和购买建议。机器人可以通过分析客户的需求、偏好、风险承受能力等信息,快速准确地推荐适合客户的保险产品,提高保险销售效率和客户满意度。

在国际上已有类似的应用,比如2015年创立的以人工智能为特色的互联网保险公司Lemonade,该平台打造基于GPT-3技术面向用户的销售机器人玛雅(AI.MAYA),当客户有购买保险的意图时,只需与玛雅约两分钟的简单聊天便能识别与处理客户信息,推荐适配的保险产品及报价,促成交易的达成。玛雅还通过向客户提出有限且高质量的问题,并根据回答进行算法调整,后续可大幅度减少客户管理时间。

在理赔环节中,AIGC也可以用于提升理赔工作效率和客户满意度,《白皮书》称,AIGC可以自动评估理赔金额,通过机器学习和数据分析技术,根据保险条款、索赔信息和历史数据等因素,自动计算理赔金额,从而提高理赔效率和准确性。

据了解,目前,众安保险已经将AIGC技术用于碎屏险审核协助,通过对碎屏核保照片筛选,根据多维风险特征将其分为不同风险等级,采取不同的审核策略。

相关应用风险需要关注

不过,《白皮书》也提醒称,尽管AIGC在诸多场景下展现出强大能力,但其限制和风险不容忽视。

比如,在安全风险与数据保护方面,《白皮书》提到,企业问答助手涉及企业敏感数据传输和存储,需注意数据安全保护。AIGC大模型也存在被恶意攻击的风险,如注入有害数据或使用攻击性文本。在使用生成式AI时,需要对数据进行加密和安全措施,保护企业和客户敏感数据。

此外,在代码自动补全限制上,《白皮书》提醒称,AIGC在复杂编程语言和框架方面准确性可能不高,无法完全替代人工编写。此外,AIGC可能产生不必要的代码、泄露机密信息、引入安全漏洞等,开发者需适度依赖AIGC以发挥人与AI的互补作用。

因此,《白皮书》建议,在实际应用中,企业应全面考虑数据质量、语义理解、安全风险、误解风险、用户需求等问题,确保模型的准确性和可用性。同时,开发者和使用者需掌握相应技巧和经验,结合人工智能和人类判断,实现最佳的协同效果。

新京报贝壳财经记者潘亦纯编辑王进雨校对柳宝庆

海量资讯、精准解读,尽在新浪财经APP

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇