什么是人工智能(AI)数据平台?
您在寻找AI数据平台吗?本文将解释什么是AI数据平台,以及它如何帮助您简化数据存储并创建更高效的AI流程。
什么是人工智能数据平台?人工智能是计算机通过学习做出类似人类决策的过程,需要大量数据。人工智能数据平台是用于摄取、处理和分析人工智能生成的数据的完整解决方案。
人工智能数据平台如何工作?对于任何系统来说,人工智能都是一项高要求的工作。支持机器学习、环境解释、数据管理和信息存储所需的处理和存储能力通常远远超出单个机器的能力。具有统一机器学习和人工智能能力的基于云的平台通过高性能计算、快速访问存储和可扩展云系统的结合,为下一代智能系统赋能。
这些人工智能平台依赖于其底层硬件和连接软件的性能。这些平台最具挑战性的一个方面是存储。一个机器学习系统摄取和建模TB级的数据,将无法使用传统的硬件来处理这么大的信息量。
因此,人工智能数据平台是一种用于支持机器学习或AI的组合云系统,无论是商业目的还是研究目的,都需要具有高性能的存储和检索能力。这些平台通常由第三方供应商支持,管理整个基础架构或提供组织可以使用其现有功能的组件。
什么是机器学习的生命周期?为了更好地了解数据平台如何支持机器学习和人工智能,有助于了解该过程的范围。机器学习很复杂,需要广泛的高性能计算和扩展能力来有效运作。这些生命周期步骤是抽象的,因为它们是适用于特定系统和基础设施的特定操作的广泛方法。人工智能数据平台负责支持此生命周期中的一些关键操作。
机器学习的生命周期包括以下几个阶段:
数据准备:数据来自多个源,而且并不总是干净的。机器学习生命周期的第一步是让数据为任何模型或目的做好准备。这可能包括精简来自几个输入源的数据,将其组织成结构化的数据,对其进行标记,并将其存储。
模型训练:机器学习系统有时会与广泛的学习模型一起工作。然而,在大多数情况下,机器学习系统还必须根据部分或全部提供的数据创建自己的模型。在这个阶段,系统试图学习数据是什么,它的本质是什么,以及作为其整体任务的一部分要提取什么模式。
参数选择:参数微调机器学习系统如何处理数据,并代表工程师和数据科学家可以用来缩小范围或推动从训练数据中进行更优化学习的控制。
迁移学习:机器学习模型通常不能跨学习领域重复使用,但机器学习系统获得的一些基本见解可以为其他系统的较小组件提供信息。因此,使用系统的一部分来启动另一个系统的训练可以显着降低时间和资源成本。
模型验证:在这个阶段,用户和科学家决定最终的机器学习模型是否真正提供了为其开发的任何应用程序所需的预期输出。
部署:将模型应用于为其设计的应用程序,并观察任何更改或集成,以确保模型处于正确的工作状态。
监控:监控系统以确保最佳的工作操作、安全性、合规性、管理和治理。
人工智能数据平台和机器学习的生命周期机器学习系统必须能够在训练和操作级别(特别是实验和智能层)快速摄取大量数据。在训练期间,机器学习系统正在学习如何组织和响应大量结构化和非结构化信息——这意味着,要使该任务在合理的时间内可行,它需要高性能计算。
这些平台通常包括几个层,信息将通过这些层移动:
数据和集成层:人工智能数据平台的核心,该层提供对学习算法和学习网络使用的信息的关键访问。机器学习算法从数据中“学习”模式和规则必须能够随时访问存储的信息。需要注意的是,数据体系结构或用于存储和访问数据的模式可能与平台体系结构不同。实验层:在这一层,数据科学家实施、设计和选择模型以使用机器学习训练。在这个级别,机器学习网络通过选定的模型进行训练,从数据和集成层信息中提取。运营和部署层:该层控制风险评估、模型管理和针对业务和研究目标的治理,通常具有系统中不同组件、容器和模型的高级视图。智能层:在这一层,机器学习通常通过来自用户、平台或设备的输入来解决实际问题。与实验层不同,这一层的人工智能和机器学习通常直接响应存储在高性能存储中的实时数据或复杂数据,以进行分析。体验层:用户界面层支持增强现实、虚拟现实或分析仪表板等界面,以提供来自AI的见解。人工智能数据平台带来了什么?这些AI数据平台为投资于开发和实施机器学习到其运营中的企业提供了显着的好处。这些平台不仅将使人工智能成为许多用户的现实,而且它们还将支持对人工智能的高级研究,远远超出集中式计算机所能完成的工作。
这些平台的一些主要优势包括:
编排和开发:基于云的人工智能需要大量的计算能力、存储和后者的即时访问来为前者提供算法。只有AI数据平台提供适当的硬件和优化的系统来支持它们,对数据进行组织和分类、结构化、提供给算法以及控制数据流以支持不同的模型才是可持续的过程。可扩展性:在现实世界中运行的AI可能需要根据其输入的大小快速扩展。人工智能数据平台通过使用可随需求增长或爆发的混合云环境中易于扩展的云基础设施来解决这个问题。安全性:人工智能经常处理敏感数据,无论是支付信息、个人身份信息还是特定管辖范围内的受保护信息(HIPAA、CMMC等)。一个综合平台可以帮助集中安全控制和分析,以便管理员可以更好地管理数据流和安全需求。合规性:除了安全措施之外,大多数合规性框架都需要数据和系统安全合规性,甚至包括审计、日志记录、访问管理和其他一些要求。具有处理文件传输、存储安全、日志记录功能和其他要求的合规控制的集中式平台可以避免不合规问题。利用WEKA的高性能AI数据平台技术人工智能平台的基础始终在其基础设施中。强大的硬件和优化的软件结合资源,为机器学习生命周期和AI应用程序提供动力。
WEKA支持具有以下功能的AI平台:
精简和快速的云文件系统,将多个源整合到一个高性能计算系统中。行业最佳的GPUDirect性能(单个DGX-2为113Gbps,单个DGXA100为162Gbps)。针对治理、风险和合规性要求的动态和静态加密。边缘、核心和云开发的敏捷访问和管理。可扩展至数十亿文件的EB级存储。人工智能时代,技术和人文应相互照亮
2023年高考刚刚结束,以往学者、作家参与解析和试写的语文作文题,今年有了文心一言、讯飞星火、ChatGPT等AI平台的加入。据媒体测试,多家AI平台均能正确理解作文题目,并写出结构、逻辑和语言“在线”的文章。
作家刘慈欣在一次节目中坦言,他有时参加活动来不及写发言稿,曾请ChatGPT代写;为了给作家余华颁奖,作家莫言也请学生用ChatGPT写授奖辞,在输入几个关键词后就得到了一篇一千多字的“莎士比亚风格的授奖辞”……当人工智能越来越深度参与到生活中时,我们所熟悉的文学观念、创作理念也正在生成新的面貌。由上海市作协、上海视觉艺术学院共同举办的“文学孵化与ChatGPT研讨会”日前举行,多位专家学者与作家共同探讨了AI技术发展对文学创作和人文学科带来的机遇与挑战。
“于今后的发展而言,ChatGPT的诞生不仅是技术现象、文化现象,同时也是文学现象,很多人已经开始了ChatGPT的游戏式的文学尝试,它带来的将是一次里程碑式的科技革命。”上海市作协党组书记、专职副主席王伟说。他表示,这场科技革命中,文学的位置在哪里、文学孵化何以进行是值得思考和探讨的问题。对这一尖端科技在文学领域影响的深入研讨,既意味着一种多义性,也代表着一种敞开性。王伟认为,无论是接受还是排斥、拒绝还是面对,ChatGPT都已经在影响我们,“在新技术革命背景下,我们的文学孵化工作需要有‘融汇古今,联通中外’的新思路、新探索、新做法。”
不久前,上海视觉艺术学院新媒体艺术学院执行院长汪建强遇到一位编剧写作公司的从业人员,在与他的交流中汪建强得知,他们公司已经有相当一部分业务采用人工智能写作,尤其在GPT4问世后,已大量使用ChatGPT用于编剧创作。据汪建强介绍,上海视觉艺术学院新媒体学院也增加了人工智能视觉设计的方向,以帮助学生学习和思考人工智能绘图、人工智能短视频制作等领域的发展,“这带来一个大家共同关心的话题:人工智能时代,我们在文学创作上到底应该如何应对?如何培养未来的人才?”
会议中,作家小白和复旦大学新闻学院教授邓建国分别带来一场主旨发言。小白对人工智能在文学创作方面上施加的影响早有关注,他梳理了自动化写作的历史发展和未来走向。他表示,上世纪30年代的杂志上就有关于“情节机器人”的设想,后来诞生的早期自动写作系统能生成一定的连贯文本,但处理能力相对有限,不能应对复杂的语言现象和生成创新的内容。“人类写作不仅仅是遵循规则和结构,也涉及大量的创新和个人表达。而且这些系统的知识基础是静态的,它们不能从大量的语言数据中自动学习和推理。”但在持续发展的技术环境下,如今的GPT系统不断在神经网络架构上更新升级,通过学习人类语言中的大量语料数据,其模型内部可能已建立起了一种内在世界模型。“比如GPT4可以推理出上下文中没有提到的事情,并学会对它无法直接感知的物理空间变化做出推测。同时,它似乎具备了对人类写作而言极其重要的心智理论能力,能推测特定情境中不同人的想法、观点、情感变化,甚至能推测多层意向性、可能性,它甚至懂得反讽,能够通过语言表达来模拟人类情感。也就是说,一个写作者所需要的认知和心智能力,GPT4看起来都具备了。”在小白看来,GPT4的问世,使关于人工智能的一些问题有了本质性的转变:如果它已经拥有了一个世界模型,问题就变成人类如何驯化这个模型。“因为这个‘野生’模型也同样会映射互联网上那些糟糕的事物,学习那些被改造的文本和语言。所以归根结底,问题可能会转变成我们自己如何与模型共同进步。”
邓建国给出的,也是关于人类作家与GPT合作共创的可能。他表示,将获取的信息重新整合本来就是人类写作能力的一部分,在ChatGPT或类似人工智能普及后,大量AIGC(人工智能生成内容)会出现在我们的生活中,“原创作者”的观念会受到修改。他提出,正如内容的传播方式会塑造内容,内容的生产方式也会塑造内容,比如哲学家尼采在视力下降后以打字机辅助重新开始写作,写作风格就发生了巨大改变。2021年,美国评论家K.阿拉多-麦克道尔在两周时间里就各类哲学议题向GPT3发问,并对后者的回答作了编辑和润色,出版了一本结构合理、表述清晰的书,名为《灵药-AI》。他将人机交流中曲折意外的体验比作学习一种新乐器,“我每次拨动琴弦都会听到它以不同的声音回应。”邓建国以此为例认为,在这样的创作过程中,“我”和“它”的界限已经模糊,“它”不再是一个外在的写作工具,而是“我”的一部分。邓建国表示,ChatGPT或许能激发人类新的浪漫主义运动,“今天ChatGPT可以高效地生成各种模式化的文字,从而让人类能腾出脑力来从事更多的创造性工作。在人类未来的发展中,我们将能以ChatGPT为自己的训练伴侣,在涉及‘学、识、才’的内容生产中充分发挥‘人的用处’。”
具体而言,ChatGPT为文艺创作提供了什么?在上海开放大学文学院教授杨敏看来,每一位使用者都可以在人工智能提供的场景体验、洞察角度、文化视野和创作边界上找到突破口,激发创作灵感。她提出,人类情感的趋同,是人工智能与文艺创作深度融合的前提和基础,人类的经验和情感本身就具有共通性,在此基础上,以海量模型参数的训练建立的人工智能不仅是海量的信息库,也能找到和建立情感共同体。“从情感唤醒、情感共鸣到情感共建,在人工智能与文艺创作的深度融合中,人工智能能够凸显创作情感,提升情感能力,促进情感适调,塑造人类情感共同体。”
华东师范大学教授、上海市语文学会会长胡范铸则认为,人类的情感不仅是内在的反应,更是一种规训的过程,他曾让ChatGPT造一些新的关于情感的词汇,得到了“悄喜”“忧锁”等在现实场景中也具有意义的词语。“随着人工智能和机器学习技术的发展,我们可能会看到一些新的情感状态的出现,而ChatGPT可能成为新的规训者。我们会发现机器替代我们在感知世界,机器创造感知,并规训我们新的情感。”
人能够创造出超越自己能力的一个“他者”吗?这个问题曾经很大程度上归属于哲学领域,如今却越来越多地被人们在生活和具体应用场景中谈及。但在复旦大学中文系教授郜元宝看来,在文学领域,这个问题不能被归为纯技术问题,比如中国文学从古至今语言的博大精深,是作家需要依靠自身成长、花很大工夫才能真正驾驭的,“这绝对不是人工智能能够帮助他的。”
站在文学的角度看技术,复旦大学中文系教授严锋将AI比作镜子、眼镜和眼睛,“它可以看很多东西,看技术、看人、看文学,这会让我们有一些新的发现,让技术和人文相互照亮。”不同于郜元宝的观点,他认为AI有朝一日一定会“觉醒”。“在文学史上,我们看到过读者的觉醒,原来作者是一切创造的源泉,后来读者的主体性越来越活跃,越来越不满足于被作者喂养、控制、单线程的线性的文学。”严锋认为,AI时代为语言提供了更大空间,其中挑战和希望并存,“越有人文精神的人,越要投入到新的技术中,一定要积极加入它。它也会倒逼我们重新去看什么是独创、什么是拼贴、什么是模仿,会诞生新的看法。”
“ChatGPT是非常优秀的游戏性作者,它在文学形式的把握上是青出于蓝而胜于蓝的,通过海量阅读,它对文学形式的把握,对中国小说、诗歌的阅读一定超过中国每一个现存的作家。”同济大学人文学院教授张生说。他认为,作家对形式的依赖其实远远超过我们的想象,这个形式不是简单理解的叙事,也包括人物设置等一整套的范式,每位作家掌握的形式是有限的,ChatGPT可以大大提高作家把握形式的能力,并为我们提供框架性的建议。
“在将来的发展中,ChatGPT到底是工具,还是最后会变成主体?人和ChatGPT之间的主体、客体关系是怎样的?对这些问题,我们不用太乐观,也不用太悲观,它有自己发展的步骤。”上海市作协专职副主席、秘书长马文运说,“现阶段我们的任务就是利用好它,兴利除弊,把它掌握在自己的手里,而不是被它所掌握。一个工具在不同的人手里,会取得不同的效果,怎么让它发挥出更大的效果,是我们这一阶段最重要的工作。”
如与会者所言,与其回避和抗拒,不如在认识和学习中进行更主动的思考。张生借用哲学家斯宾诺莎的一句话,形容ChatGPT在当下的定位:“我们打开窗户,点燃一盏灯。”