人工智能行业专题报告:AI大模型需要什么样的数据
(报告出品方:华泰证券)
AI大模型需要什么样的数据集
数据将是未来AI大模型竞争的关键要素
人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。ChatGPT与GPT-3的模型架构类似,并使用RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。
基于此,人工智能领域的权威学者吴承恩发起了“以数据为中心的AI”运动,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。因此,我们认为未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本。
我们认为AI大模型需要高质量、大规模、多样性的数据集。1)高质量:高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,即减少训练时长。2)大规模:OpenAI在《ScalingLawsforNeuralLanguageModels》中提出LLM模型所遵循的“伸缩法则”(scalinglaw),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。3)丰富性:数据丰富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据。
数据集如何产生
建立数据集的流程主要分为1)数据采集;2)数据清洗:由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题;3)数据标注:最重要的一个环节;4)模型训练:模型训练人员会利用标注好的数据训练出需要的算法模型;5)模型测试:审核员进行模型测试并将测试结果反馈给模型训练人员,而模型训练人员通过不断地调整参数,以便获得性能更好的算法模型;6)产品评估:产品评估人员使用并进行上线前的最后评估。
流程#1:数据采集。采集的对象包括视频、图片、音频和文本等多种类型和多种格式的数据。数据采集目前常用的有三种方式,分别为:1)系统日志采集方法;2)网络数据采集方法;3)ETL。
流程#2:数据清洗是提高数据质量的有效方法。由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,故需要执行数据清洗任务,数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了AI算法的有效性。
流程#3:数据标注是流程中最重要的一个环节。管理员会根据不同的标注需求,将待标注的数据划分为不同的标注任务。每一个标注任务都有不同的规范和标注点要求,一个标注任务将会分配给多个标注员完成。
流程#4:最终通过产品评估环节的数据才算是真正过关。产品评估人员需要反复验证模型的标注效果,并对模型是否满足上线目标进行评估。
他山之石#1:海外主要大语言模型数据集
参数量和数据量是判断大模型的重要参数。2018年以来,大语言模型训练使用的数据集规模持续增长。2018年的GPT-1数据集约4.6GB,2020年的GPT-3数据集达到了753GB,而到了2021年的Gopher,数据集规模已经达到了10,550GB。总结来说,从GPT-1到LLaMA的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit链接、CommonCrawl和其他数据集。
数据集#1:维基百科
维基百科是一个免费的多语言协作在线百科全书。维基百科致力于打造包含全世界所有语言的自由的百科全书,由超三十万名志愿者组成的社区编写和维护。截至2023年3月,维基百科拥有332种语言版本,总计60,814,920条目。其中,英文版维基百科中有超过664万篇文章,拥有超4,533万个用户。维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的纯英文过滤版作为数据集。
数据集#2:书籍
书籍主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包括ProjectGutenberg和Smashwords(TorontoBookCorpus/BookCorpus)等。ProjectGutenberg是一个拥有7万多本免费电子书的图书馆,包括世界上最伟大的文学作品,尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础,这些书籍来自于世界上最大的独立电子书分销商之一的Smashwords。
数据集#3:期刊
期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。ArXiv是一个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。美国国家卫生研究院是美国政府负责生物医学和公共卫生研究的主要机构,支持各种生物医学和行为研究领域的研究,从其官网的“研究&培训”板块能够获取最新的医学研究论文。
数据集#4:WebText(来自Reddit链接)
Reddit链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站,注册用户可以将文字或链接在网站上发布,使它成为了一个电子布告栏系统。WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。Reddit宣布收取数据使用费。2023年4月,Reddit宣布将向使用其API训练AI聊天机器人的公司收取数据使用费,其中便包含微软、谷歌、OpenAI等,目前具体收费标准暂未公布,但可能会根据不同使用者划分不同等级收费标准。许多公司已经意识到数据的价值,如图片托管服务商Shutterstock已把图像数据出售给OpenAI,推特计划针对API使用收取几万到几十万美元不等的费用。
数据集#5:Commoncrawl/C4
Commoncrawl是2008年至今的一个网站抓取的大型数据集。CommonCrawl是一家非盈利组织,致力于为互联网研究人员、公司和个人免费提供互联网副本,用于研究和分析,它的数据包含原始网页、元数据和文本提取,文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。
其他数据集
ThePile数据集:一个825.18GB的英语文本数据集,用于训练大规模语言模型。ThePile由上文提到的ArXiv、WebText、Wikipedia等在内的22个不同的高质量数据集组成,包括已经建立的自然语言处理数据集和几个新引入的数据集。除了训练大型语言模型外,ThePile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。
其他数据集包含了GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集等。
他山之石#2:海外主要多模态数据集
模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,包括文本、图像、视频、音频等。多模态大模型需要更深层次的网络和更大的数据集进行预训练。过去数年中,多模态大模性参数量及数据量持续提升。例如,2022年StabilityAI发布的StableDiffusion数据集包含58.4亿图文对/图像,是2021年OpenAI发布的DALL-E数据集的23倍。
类别#1:语音+文本
SEMAINE数据集:创建了一个大型视听数据库,作为构建敏感人工侦听器(SAL)代理的迭代方法的一部分,该代理可以使人参与持续的、情绪化的对话。高质量的录音由五台高分辨率、高帧率摄像机和四个同步录制的麦克风提供。录音共有150个参与者,总共有959个与单个SAL角色的对话,每个对话大约持续5分钟。固体SAL录音被转录和广泛注释:每个剪辑6-8个评分者追踪5个情感维度和27个相关类别。
类别#2:图像+文本
COCO数据集:MSCOCO的全称是MicrosoftCommonObjectsinContext,起源于微软于2014年出资标注的MicrosoftCOCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。图像包括91类目标,328,000张图像和2,500,000个label。ConceptualCaptions数据集:图像标题注释数据集,其中包含的图像比MS-COCO数据集多一个数量级,并代表了更广泛的图像和图像标题风格。通过从数十亿个网页中提取和过滤图像标题注释来实现这一点。
ImageNet数据集:建立在WordNet结构主干之上的大规模图像本体。ImageNet的目标是用平均5,001,000张干净的全分辨率图像填充WordNet的80,000个同义词集中的大多数。这将产生数千万个由WordNet语义层次结构组织的注释图像。ImageNet的当前状态有12个子树,5247个同义词集,总共320万张图像。LAION-400M数据集:LAION-400M通过CommonCrawl提取出随机抓取2014-2021年的网页中的图片、文本内容。通过OpenAI的Clip计算,去除了原始数据集中文本和图片嵌入之间预先相似度低于0.3的内容和文本,提供了4亿个初筛后的图像文本对样本。LAION-5B数据集:其包含58.5亿个CLIP过滤的图像-文本对的数据集,比LAION-400M大14倍,是世界第一大规模、多模态的文本图像数据集,共80T数据,并提供了色情图片过滤、水印图片过滤、高分辨率图片、美学图片等子集和模型,供不同方向研究。
LanguageTable数据集:Language-Table是一套人类收集的数据集,是开放词汇视觉运动学习的多任务连续控制基准。IAPRTC-12数据集:IAPRTC-12基准的图像集合包括从世界各地拍摄的2万张静态自然图像,包括各种静态自然图像的横截面。这包括不同运动和动作的照片,人物、动物、城市、风景和当代生活的许多其他方面的照片。示例图像可以在第2节中找到。每张图片都配有最多三种不同语言(英语、德语和西班牙语)的文本标题。AVA数据集:AVA是美学质量评估的数据库,包括25万张照片。每一张照片都有一系列的评分、语义级别的60类标签和14类照片风格。OpenViDial数据集:当人们交谈时,说话者接下来要说什么在很大程度上取决于他看到了什么。OpenViDal一个用于此目的的大型多模块对话数据集。这些对话回合和视觉环境都是从电影和电视剧中提取出来的,其中每个对话回合都与发生的相应视觉环境相匹配。版本1包含110万个对话回合以及存储在图像中的110万个视觉上下文。版本2要大得多,包含560万个对话回合以及存储在图像中的560万个视觉上下文。
类别#3:视频+图像+文本
YFCC100数据集:YFCC100M是一个包含1亿媒体对象的数据集,其中大约9920万是照片,80万是视频,所有这些都带有创作共用许可。数据集中的每个媒体对象都由几块元数据表示,例如Flickr标识符、所有者名称、相机、标题、标签、地理位置、媒体源。从2004年Flickr成立到2014年初,这些照片和视频是如何被拍摄、描述和分享的,这个集合提供了一个全面的快照。
类别#4:图像+语音+文本
CH-SIMS数据集:CH-SIMS是中文单模态和多模态情感分析数据集,包含2,281个精细化的野外视频片段,既有多模态注释,也有独立单模态注释。它允许研究人员研究模态之间的相互作用,或使用独立的单模态注释进行单模态情感分析。
类别#5:视频+语音+文本
IEMOCAP数据集:南加州大学语音分析与解释实验室(SAIL)收集的一种新语料库,名为“交互式情感二元动作捕捉数据库”(IEMOCAP)。该数据库记录了10位演员在面部、头部和手上的二元会话,这些标记提供了他们在脚本和自发口语交流场景中面部表情和手部动作的详细信息。语料库包含大约12小时的数据。详细的动作捕捉信息、激发真实情绪的交互设置以及数据库的大小使这个语料库成为社区中现有数据库的有价值的补充,用于研究和建模多模态和富有表现力的人类交流。MELD数据集:MELD收录了《老友记》电视剧1,433个对话中的13,708个话语。MELD优于其他对话式情绪识别数据集SEMAINE和IEMOCAP,因为它由多方对话组成,并且MELD中的话语数量几乎是这两个数据集的两倍。MELD中的话语是多模态的,包括音频和视觉形式以及文本。
他山之石#3:海外主要大模型数据集由何方发布
海外主要开源大模型数据集发布方主要分为:1)非营利组织/开源组织:古腾堡文学档案基金会发布的ProjectGutenberg截至2018年已收录57,000部书籍,平均每周新增50部。CommonCrawl抓取网络并免费向公众提供其档案和数据集,一般每个月完成一次抓取。艾伦人工智能研究所分别于2017年、2018年和2019年发布了基于维基百科的TriviaQA、QuAC、Quoref。EleutherAI发布了825GB多样化文本数据集ThePile。LAION2021年发布包含4亿图文对的LAION-400M数据集,2022年发布包含58.5亿图文对的LAION-5B数据集;2)学术界:例如多伦多大学和麻省理工学院联合发布了BookCorpus;3)互联网巨头研究部门:例如GoogleResearch发布了C4文本数据集、AVA和ConceptualCaptions等等图像数据集等;4)政府机构:政府机构是一些常见的数据集发布方,通常包含关于经济和医学等方面的数据,美国国家卫生研究院发布的MedQuAD包括从12个NIH网站创建的47,457个医学问答对;5)多种类型机构合作:尤其是学术界与互联网巨头研究部门、开源组织之间的合作。例如Facebook、伦敦大学学院和DeepMind联合发布了ArxivPaper数据集。卡内基梅隆大学、雅虎研究院和InternationalComputerScienceInstitute联合发布了YFCC100M。
我们认为海外积累丰富的开源高质量数据集得益于:1)相对较好的开源互联网生态;2)免费线上书籍、期刊的资源积累;3)学术界、互联网巨头研究部门、非盈利研究组织及其背后的基金形成了开放数据集、发表论文-被引用的开源氛围。
高质量语言数据和图像数据或将耗尽,合成数据有望生成大模型数据
高质量语言数据或将于2026年耗尽。数据存量的增长速度远远低于数据集规模的增长速度,如果当前的趋势继续下去,数据集最终将由于数据耗尽而停止增长。在语言模型方面,语言数据的质量有好坏,互联网用户生成的语言数据质量往往低于书籍、科学论文等更专业的语言数据,高质量数据训练出的模型性能更好。根据《Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning》预测,语言数据将于2030~2040年耗尽,其中能训练出更好性能的高质量语言数据将于2026年耗尽。此外,视觉数据将于2030~2060年耗尽。
合成数据或将弥补未来数据的不足。合成数据是计算机模拟或算法生成的带有注释的信息,可以替代真实数据。它可以用于模拟实际情况,补充真实数据的不足,提高数据质量和数量,以及降低数据采集和处理的成本。OpenAI在GPT-4的技术文档中重点提到了合成数据的应用,可见其对该领域的重视。根据Gartner的预测,2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据将由人工智能合成。
合成数据有望首先在金融、医疗和汽车等诸多领域落地。在金融行业,金融机构可以在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验;在生物医药行业,可以通过合成数据集,在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;在自动驾驶领域,可以通过合成数据集模拟各种驾驶场景,在保障人员和设备安全的条件下提升自动驾驶能力。
数字中国战略助力中国AI大模型数据基础发展
数据将是AI大模型的关键竞争要素之一,数字中国战略有望助力我国AI大模型训练数据集的发展。近日,中共中央、国务院印发了《数字中国建设整体布局规划》,数据要素为数字中国建设战略中的关键一环。我们认为当前国内虽然数据资源丰富,但优质的中文大模型训练语料仍然稀缺。数字中国战略将极大促进我国数据要素市场的完善,从数量和质量两个维度助力中文大模型数据集的发展:1)数量方面,各地数据交易所设立并运营后,数据资源将能够在各行业、各企业之间自由流通,缓解大模型训练数据数量不足的问题;2)质量方面,国内数据服务产业有望蓬勃发展,未来数据服务商将提供数据标注、清洗、维护等服务,大数据产业专业化分工将助力大模型训练数据集质量提升。
中国AI大模型数据集从哪里来
国内各行业数据资源丰富,2021-2026年数据量规模CAGR高于全球,数据主要来源于政府/传媒/服务/零售等行业。据IDC,2021-2026年中国数据量规模将由18.51ZB增长至56.16ZB,CAGR达到24.9%,高于全球平均CAGR。从数据来源看,国内各行业数据差异化发展,2021年政府、传媒、专业服务、零售等行业数据量占比较高,分别为30.4%、13.4%、13.0%、9.6%,其中接近90%的数据为非结构化数据,这也要求了海量数据采集设备和软件的互联互通以及互动互控。另外随着智能化转型的深入,制造、交通运输、批发、教育等行业数据规模在未来也拥有较大的增长潜力,2021-2026年数据量增长CAGR将分别达到37.6%、36.1%、37.1%、34.0%。
尽管国内数据资源丰富,但由于数据挖掘不足,数据无法自由在市场上流通等现状,优质中文优质数据集仍然稀缺。目前中文优质数据仍然稀缺,如ChatGPT训练数据中中文资料比重不足千分之一,为0.0991%,而英文资料占比超过92.6%。据加利福尼亚大学和Google研究机构发现,机器学习和自然语言处理模型使用的数据集50%由12家Top机构提供,其中10家为美国机构,1家为德国机构,仅1家机构来自中国,为香港中文大学。值得一提的是,数据集与数据机构的基尼系数有升高的趋势,即数据集被少数Top机构或特定数据库掌控的集中有所增加。
我们认为国内缺乏高质量数据集主要有以下几方面的原因:1)高质量数据集需要巨大资金投入,当前国内数据挖掘和数据治理的力度不足;2)国内相关公司不具有开源意识,数据无法在市场上自由流通;3)国内相关公司成立较晚,数据积累相对国外公司更少;4)学术领域中文数据集受重视程度低;5)国产数据集市场影响力及普及度较低等。
目前国内科技互联网头部企业主要基于公开数据及自身特有数据差异化训练大模型。具体而言,百度“文心”大模型训练特有数据主要包括万亿级的网页数据,数十亿的搜索数据和图片数据等。阿里“通义”大模型的训练数据主要来自阿里达摩院。腾讯“混元”大模型特有的训练数据主要来自微信公众号,微信搜索等优质数据。华为“盘古”大模型的训练数据出公开数据外,还有B端行业数据加持,包括气象,矿山,铁路等行业数据。商汤“日日新”模型的训练数据中包括了自行生成的OmniObjects3D多模态数据集。
未来专业及垂直内容平台有望成为国内优质中文数据集的重要来源:1)专业内容平台:知乎作为问答知识平台,拥有超过4300万创作者产生的超过3.5亿条优质中文问答内容,涉及政治,经济,文化,历史,科技等几乎全部门类。其问答的数据形式天然适合作为大语言类模型训练使用。微信公众号作为内容分享平台,背靠国民级应用微信生态链,2022年公众号产出超3.9亿篇文章,其中既有专业领域内容分析,也有时事热点分析,这些内容对语言模型的训练迭代有重要作用。2)垂类内容平台:参考彭博基于金融垂类数据发布BloombergGPT案例,国内在金融,医疗,生物等行业公司的数据可以作为细分领域大模型精确训练的基础。
中国大模型如何构建数据集#1:LLM
我们选取了在其论文中详细阐述如何构建预训练数据集的三个大语言模型,研究中国大模型预训练数据集的来源。我们发现:1)类似海外大语言模型,中国大语言模型的预训练数据集也主要来自互联网抓取数据(如CommonCrawl、中文公共社交媒体抓取等)、网络百科全书(如百度百科、搜狗百科)、书籍等等;2)充分借助已有的高质量开源数据集,例如对CommonCrawl等进行二次处理。
百度Plato-XL大模型:百度于2021年发布PLATO-XL,包括中英文2个对话模型,预训练语料规模达千亿级token,模型规模高达110亿参数。预训练语料库分为:1)英语:会话样本从Reddit评论中提取,这些评论由第三方收集,并在pushshift.io上公开发布,遵循了PLATO-2的精心清洗过程;2)中文:预训练数据来自公共领域的社交媒体,过滤后训练集中有1.2亿个样本。华为盘古大模型:华为于2021年发布盘古,是业界首个2000亿参数以中文为核心的预训练生成语言模型,目前开源了盘古α和盘古α增强版两个版本,并支持NPU和GPU两个版本,支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具备较强的少样本学习的能力。
腾讯WeLM大模型:腾讯于2022年发布WeLM,数据来源主要分为三部分:1)CommonCrawl:CommonCrawl于2020.08至2022.01期间的文本内容,使用langdetect工具过滤掉非中文的文本;2)特定领域语料库:混合了来自各种来源的数据,包括新闻、书籍、流行在线论坛以及学术著作,仅中文数据。3)英文数据:添加了从上述来源收集到的约750GB的英语数据。数据中有大量的噪音如胡言乱语或模板文本、冒犯性语言、占位符文本和源代码等,首先应用一组基于规则的过滤器,再在剩余的数据上手动构建好坏数据分类器提升数据清理泛化能力。
中国大模型如何构建数据集#2:多模态大模型
我们选取了在其论文中详细阐述如何构建预训练数据集的三个多模态模型,研究中国大模型预训练数据集的来源。我们发现网页抓取、自有数据和开源数据集是多模态大模型数据集的重要来源:1)网页抓取图文对:例如阿里M6大模型、百度ERNIE-ViLG大模型都从网页中抓取文本-图片对,然后经过一定过滤,形成最终数据集的一部分;2)自有数据:例如阿里M6大模型有来自电商的图文数据,百度ERNIE-ViLG大模型从内部图像搜索引擎中收集查询文本和对应的用户点击图像;3)开源数据集:例如百度ERNIE-ViLG大模型的部分图文对数据来自开源的CC和CC12M,并通过百度翻译API翻译。
阿里M6大模型:于2021年发布,参数规模达到1000亿。阿里构建了最大的中文多模态预训练数据集M6-Corpus,包含超过1.9TB图像和292GB文本,涵盖了百科全书、问答、论坛讨论、产品说明等类型的数据集。研究人员设计了完善的清洁程序:1)文本数据:删除HTML标记和重复的标点符号,只保留中文和英文的字符和标点符号。删除短于5个字符的标题和短于15个字符的文本内容。使用“内部垃圾邮件检测器”筛选包含某些政治问题、色情或脏话等不合适的句子。建立一个语言模型进行评估文本的困惑程度,去掉困惑程度高的句子;2)图片数据:只有超过5000像素的图像才有资格被保留用于预训练。
百度ERNIE-ViLG大模型:于2021年发布,参数规模达到100亿。百度构建了一个由超过1.45亿对高质量中文图像-文本对组成的大规模图像-文本数据集,数据来源如下:1)中文网页。从各种中文网页中抓取了8亿对原始的中文替代文字描述和图片,进行了几个步骤的过滤,总共收获了7000万对文本-图片,过滤规则主要包括文本长度、文本内容和图像-文本相似度;2)图片搜索引擎:从内部图像搜索引擎中收集了大约6000万个查询文本和相应的用户点击图像;3)开源图像-文本数据集:从CC和CC12M中共收集了1500万文本图像对,这些数据集中的字幕通过百度翻译API翻译成中文。InternVideo大模型:由上海人工智能实验室等、南大、港大、复旦、中科院深圳先进技术研究院等于2022年发布,使用了6个来自各个领域的开源数据集和自采视频片段。
中国开源数据集#1:大语言模型数据集
DuReader数据集:于2018年由百度发布。DuReader是一个大规模的开放域中文机器阅读理解数据集。该数据集由200K问题、420K答案和1M文档组成,是迄今为止最大的中文MRC数据集。问题和文档基于百度搜索和百度知道,答案是手动生成的。该数据集还提供了问题类型注释——每个问题都被手动注释为实体、描述或是否以及事实或意见之一。
WuDaoCorpora数据集:于2021年由北京人工智能研究院、清华大学和循环智能联合发布。WuDaoCorpora是北京智源研究院最新构建的高质量数据集,悟道文本数据集采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,从源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。
CLUECorpus2020数据集:于2020年由CLUE发布。CLUECorpus2020是一个可以直接用于语言模型预训练或语言生成等自监督学习的大型语料库,它有100G的原始语料库,包含350亿个汉字,这些语料库来自Commoncrawl。CAIL2018数据集:于2018年由清华大学、北京大学、中国科学院软件研究所和中国司法大数据研究院联合发布。CAIL2018是第一个用于判决预测的大规模中国法律数据集,收录了中国最高人民法院公布260万件刑事案件,是现有判决预测工作中其他数据集的数倍。对判断结果的注释也更加详细和丰富。它由适用的法律条款、指控和刑期组成,根据案件的事实描述而定。
Math23K数据集:于2017年由腾讯人工智能实验室发布。Math23K是为解决数学问题而创建的数据集,数据包含从在线教育网站上抓取的6万多个中文数学单词问题,都是小学生真正的数学应用题,有23,161个标有结构化方程和答案的问题。
Ape210K数据集:于2020年由猿辅导AILab和西北大学联合发布。Ape210K是一个新的大规模和模板丰富的数学单词问题数据集,包含210K个中国小学水平的数学问题,是Math23K的9倍。每个问题都包含黄金答案和得出答案所需的方程式,有56K个模板,是Math23K的25倍。
DRCD数据集:于2018年由台达研究中心和台达电子联合发布。一个开放领域的传统中文机器阅读理解数据集,包含来自2108篇维基百科文章的10014个段落和由注释者生成的33,941个问答对。
FCGEC数据集:于2022年由浙江大学和华为联合发布。FCGEC用于检测、识别和纠正语法错误,是一个人工标注的多参考语料库,由41,340个句子组成,主要来自公立学校语文考试中的选择题。
E-KAR数据集:于2022年由复旦大学、字节跳动人工智能实验室和BrainTechnologies,Inc.联合发布。数据集包含来自公务员考试的1,655个(中文)和1,251个(英文)问题,这些问题需要深入的背景知识才能解决。
DoubanConversationCorpus数据集:于2017年由北京航空航天大学、南开大学和微软研究院联合发布。豆瓣会话语料库包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集,测试数据包含1000个对话上下文。
ODSQA数据集:于2018年由台湾大学发布。ODSQA数据集是用于中文问答的口语数据集。它包含来自20位不同演讲者的三千多个问题。
MATINF数据集:于2020年由武汉大学和密歇根大学联合发布。MATINF是一个联合标注的大规模数据集,用于中文母婴护理领域的分类、问答和总结。数据集中的一个条目包括四个字段:问题、描述、类别和答案。从中国大型母婴护理QA网站收集了近200万对问答对,其中包含细粒度的人工标记类,数据清洗后,用剩余的107万个条目构建。
中国开源数据集#2:多模态模型数据集
WuDaoMM数据集:于2022年由清华大学和北京智源人工智能研究院联合发布。WuDaoMM是北京智源人工智能研究院WuDaoCorpora开源数据集的一部分。WuDaoMM是图像和文本的多模态预训练数据,完整的数据集包含6.5亿对图像和文本,包含几千万对的强相关数据和6亿对弱相关数据,包含19大类,分别是:能源、表情、产业、医疗、景观、动物、新闻、花卉、教育、艺术、人物、科学、海洋、树木、汽车、社会、科技、体育等。MUGE数据集:于2021年由清华大学和阿里巴巴联合发布,包括图像描述、图像文本检索和基于文本的图像生成3种多模态理解和生成任务。
Noah-Wukong数据集:于2022年由华为诺亚方舟实验室和中山大学联合发布。诺亚悟空数据集是一个大规模的多模态中文数据集,包含100万对图文对,数据集中的图像根据大小和宽高比进行过滤,数据集中的文本根据其语言,长度和频率进行过滤。隐私和敏感词也被考虑在内。Zero数据集:于2022年由北京航空航天大学、清华大学、奇虎360人工智能研究所联合发布。Zero是一种大规模的中文跨模态基准测试,其中包含目前最大的公共预训练数据集ZERO-Corpus和五个用于下游任务的人工注释微调数据集。ZERO-Corpus包含2.5亿张图片和7.5亿篇文字描述,另外五个微调数据集中的两个也是目前中国跨模式下游任务中最大的数据集。
COCO-CN数据集:于2018年由中国人民大学发布。COCO-CN是一个双语图像描述数据集,通过手动编写的中文句子和标签丰富了MS-COCO。新数据集可用于多种任务,包括图像标记、字幕和检索,所有这些都在跨语言环境中完成。COCO-CN拥有20,342张图片,27,218个中文句子和70,993个标签,为跨语言图像标注、字幕和检索提供了一个统一平台。Flickr8k-CN&Flickr30k-CN数据集:于2017年由浙江大学和中国人民大学联合发布。Flickr8k-cn是公共数据集,每个测试图像与5个中文句子相关联,这些句子是通过手动翻译Flickr8k中对应的5个英文句子获得的。Flickr30k-cn是Flickr30k的双语版本,通过其训练/有效集的英译汉机器翻译和测试集的人工翻译获得。
Product1M数据集:于2021年由北京交通大学、阿里巴巴和中山大学联合发布。Product1M是用于实际实例级检索的最大的多模式化妆品数据集之一,包含超过100万个图像对并且由两种样品类型组成,即单产品和多产品样品,其中包括各种化妆品品牌。AIChallenger图像中文描述数据集:数据来自2017AIChallenger,数据集对给定的每一张图片有五句话的中文描述。数据集包含30万张图片,150万句中文描述。数据集包含人类关键点检测(HKD)、大规模属性数据集(LAD)和图像中文字幕(ICC)三个子数据集。
国内数据要素市场建设逐步完善,助力优质数据集生产流通
数字中国建设规划明晰,数据要素为发展框架中关键环节之一。2023年2月27日,中共中央、国务院印发《数字中国建设整体布局规划》,文件中明确数字中国建设按照“2522”的整体框架进行布局,即夯实数字基础设施和数据资源体系“两大基础”,推进数字技术与经济、政治、文化、社会、生态文明建设“五位一体”深度融合,强化数字技术创新体系和数字安全屏障“两大能力”,优化数字化发展国内国际“两个环境”。《规划》提出要释放商业数据价值潜能,加快建立数据产权制度,开展数据资产计价研究,建立数据要素按价值贡献参与分配机制。构建国家数据管理体制机制,健全各级数据统筹管理机构,推动公共数据汇聚利用。
我国重视数据要素发展,组建国家数据局,数据要素政策频出。2023年3月10日,党的二十届二中全会通过了《党和国家机构改革方案》,方案提出组建国家数据局。国家数据局负责协调推进数据基础制度建设,推进数字基础设施布局建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由国家发展和改革委员会管理。这对于充分激活数据要素潜能、发挥数字经济对经济社会的基础性作用而言是场及时雨。
随着数据要素快速融入生产、分配、流通、消费和社会服务管理等各个环节,我们预计未来几年我国的数据要素市场将会蓬勃发展,并实现快速增长。根据国家工信安全发展研究中心数据,2021年我国数据要素行业市场规模为815亿元,预计到2025年将达到1749亿元左右,2020-2025年CAGR为26.26%。
数据要素产业包括数据的内部产生,流通交易,数据加工,行业应用等流程。从企业内原始数据到企业外可以应用的数据产品,需要经历内部数据产品化,数据交易流通,外部数据加工等过程。企业通过在内部将数据清洗,预处理,加工等将数据变为数据产品,并将数据产品放在数据交易平台上交易。在应用端,采购数据企业可以采购交易平台中数据,后自行加工使用于垂直行业应用领域。
数据交易环节:数据交易所发展进入新阶段,缓解中文数据集数量不足问题
我国数据交易所发展进入新阶段,构筑数据集发展坚实基座。我国自2014年开始探索建立类似证券交易所形式的数据交易机构,截至2022年11月,各地先后成立48家,仍有8家正在筹备建设中。第一阶段:2015年,党的十八届五中全会提出“实施国家大数据战略,推进数据资源开放共享”,以贵阳大数据交易所为代表的数据交易机构涌现。早期建设的数据交易机构大都没有找到成功的商业模式,多数机构已停止运营或转变经营方向。第二阶段:2021年以来北京、上海等大数据交易所成立。近两年来,随着党中央国务院多项重要政策出台,各地新建一批数据交易机构,试图消除供需双方的信息差,推动形成合理的市场化价格机制和可复制的交易制度和规则。我们预计新一阶段,国家将大力发展数据交易所,并将带动上下游产业发展,这将为国内大模型数据集发展注入新动力。
由于开源较少,数据无法在市场上自由流通,目前中文优质数据集相对稀缺。对于大模型训练,能否未来得到优质的大模型,与投入的数据质量非常关键,包括通用参数、文本语言、图像、视频音频等等,投入数据的质量高低,会直接影响模型最终生成的内容。以GPT-3为例,其训练集中中文数据仅占0.1%,这一方面因为GPT为美国开发,以英文语料为主;另一方面也反映了目前可获得数据集中,中文内容仍然相对稀缺。国内大模型训练基于中文原生内容仍是第一选择,翻译数据训练效果劣于中文原生内容。
未来随着各地积极推动数据交易所建设,数据有望在各行业、各企业之间实现自由流通,缓解国内优质数据集不足问题。据上海数据交易所总经理汤奇峰,上海数据交易所2023年场内交易额有望突破10亿元。据深圳数据交易所预计,未来2-3年,其数据交易规模超过100亿元,设立合规工作站100家以上,培育、引入数据服务企业50家以上。我们认为数据交易所发展将使得国内数据流通更顺畅,未来中小型模型训练企业可以直接从交易所购买各行业的数据产品,这将极大地提升大模型训练数据的可获得性,缓解国内优质数据集不足的问题。
数据加工环节:数据服务产业加速发展,助力中文数据集质量提升
数据服务商链接数据要素产业链上下游,助力形成优质数据集。上海数据交易所在全国率先提出“数商”概念,以数据交易为中心激活数据要素上下游产业链。并提出了15个的“数商”类别。传统大数据服务商:数据咨询服务商、数据治理服务商、数据资源集成商、数据加工服务商、数据分析技术服务商等。数据交易相关服务商:数据合规评估服务商、数据质量评估商、数据资产评估服务商、数据经纪服务商、数据交付服务商、数据交易仲裁服务商。我们预计数据服务商的参与将会进一步激活数据交易流通市场,提供更多样化的数据产品,将促进我国大模型数据集的发展。
数据服务商参与有望提升国内大模型训练数据质量。据DimensionalResearch全球调研报告,72%的受访者认为至少使用超过10万条训练数据进行模型训练,才能保证模型有效性和可靠性,96%的受访者在训练模型的过程中遇到训练数据质量不佳、数量不足、数据标注人员不足等难题。我们认为随着国内数据服务产业蓬勃发展,数据服务商未来将在数据加工处理,数据基础设施建设,数据资源集成,提供数据分析服务等方面协助企业构建高质量数据集,这将进一步提升我国大模型训练的数据质量,从而促进各行业大模型的发展效率提升。
AI时代数据的监管与隐私保护问题
人工智能引发数据隐私关注,需平衡技术发展与隐私保护。随着人工智能技术的不断发展和应用,大量的个人数据被采集、存储和处理,由此引发了人们对于AI时代数据的隐私保护的关注和讨论。数据隐私问题的严重性不言而喻,如何平衡人工智能技术的应用与数据隐私保护之间的关系、如何实现人机共存的良好发展是现在亟需解决的问题。
方法#1:法律法规技术手段——数据隐私需法律约束,全球出台相关法规加强个人数据保护。数据隐私问题需要法律约束,以确保个人数据得到妥善保护,避免数据滥用和泄露。全球各地区纷纷出台相关法律法规,例如中国的《中华人民共和国个人信息保护法》、欧盟的《通用数据保护条例》、美国的《美国隐私法》等,以加强对个人数据的保护。
方法#2:技术手段——隐私保护计算具体涵盖了安全多方计算、联邦学习、同态加密、差分隐私和机密计算等技术。隐私保护计算是一套包含人工智能、密码学、数据科学等众多领域交叉融合的跨学科技术体系。它能够在不泄露原始数据的前提下,对数据进行加工、分析处理、分析验证,其重点提供了数据计算过程和数据计算结果的隐私安全保护能力。
数据产业链投资机会
我们认为数据产业链分为数据生产、数据处理、数据使用三大环节。数据使用环节的参与者包括训练、微调大模型的企业,本文不作展开。以下我们对数据生产、数据处理环节进行讨论。
数据生产环节
数据生产环节是数据产业链的上游环节,是数据的源头。环节内的企业或从业务运营中直接产生数据,或作为平台方聚合数据。按照数据的通用程度,我们认为这一环节的公司可以分为通用类型数据及垂直行业数据2类。
1)通用类型数据:如前文所言,我们认为AI大模型需要高质量、大规模、具有多样性的数据。对标海外主要数据集,通用类型数据来自维基百科、书籍期刊、高质量论坛,因此国内的数据或来自文本数据领域的百度百科、中文在线、中国科传、知乎,以及图像视觉领域的视觉中国等公司。a)截至2022年6月,视觉中国拥有超过2/3的高水准独家或自有内容,目前提供4亿张图片、3,000万条视频和35万首音乐等可销售的各类素材,是全球最大的同类数字版权内容平台之一。b)中国科传从事图书出版业务、期刊业务、出版物进出口业务。截至2022年底,公司年出版新书超过3000种,已累计出版图书超过5万种,是国内学科分布最全、出版规模最大的综合性科技出版机构。截至2022年底,中国科传出版期刊554种,其中中文期刊254种,英文期刊276种,中英文期刊5种,法文期刊19种。共有101种期刊被SCI收录,其中36种期刊处于Q1区,4种期刊在国际同学科期刊中排名第一,16种期刊居国际同学科期刊排名前10%。c)截至2022年6月,中文在线累积数字内容资源超510万种,网络原创驻站作者440余万名。
2)行业数据:我们认为垂直行业的高价值量数据对于AI大模型,尤其是行业大模型的训练和落地至关重要。处于数字化程度领先的行业中的龙头公司在行业数据积累上具有优势,例如:1)计算机视觉领域的海康威视、大华股份;2)城市治理、ToB行业应用领域的中国电信、中国移动、中国联通等;3)金融领域的同花顺、东方财富等;4)自动驾驶领域的特斯拉、蔚小理、经纬恒润、德赛西威等。
大模型时代数据价值凸显,国内外数据收费为大势所趋,收费方式尚在摸索中。2023年4月18日,美国知名论坛Reddit宣布计划向通过其API使用数据的公司收费。Reddit尚未公布具体的收费标准,但表示会分为不同的等级,根据使用者的规模和需求来区分。Reddit是大模型训练的优质语料库,OpenAI的GPT-3训练使用了来自Reddit的数据,Meta旗下的FacebookAIResearch与华盛顿大学也联合开源了来自Reddit数据的OpenWebText数据集。对于通用类型数据和行业数据,我们认为其潜在的变现方式可能存在差异:1)通用类型数据:我们认为通用类型数据所有者可能采用开发自有模型/应用、售卖数据2种变现方式。例如,知乎联合清华系AI公司面壁智能发布中文大模型“知海图AI”。中文在线则基于自有数据开发了AI辅助文字创作工具,并计划售卖数据:根据中文在线4月19日回复深交所关注函内容,其收费方式为按照采集数据包的大小及数据类别进行基础包加增量包的收费,目前尚未签署具体合作协议。2)行业数据:我们认为数据是垂直行业企业的护城河之一,结合具体场景和用户充分挖掘数据能更好地赋能业务。因此垂直行业企业或更偏好基于基础模型,使用自有数据来训练自有模型,并且可能会尽量规避售卖数据。
数据处理环节
根据IDC在2020年的数据,百度智能云和海天瑞声是我国AI基础数据服务市场中份额最大的两家公司。Appen、Telusinternational则是海外数据服务的主要上市公司。其中,百度智能云数据众包是平台型AI数据服务提供者,服务涵盖方案设计、数据采集与数据标注全流程,并与政府共建数据标注基地;海天瑞声数据服务涵盖从方案设计到采集、标注直至交付的全流程;慧听科技包括语言语音、多媒体两大类几十余种数据服务;标贝科技提供语音合成整体解决方案及数据服务;Appen拥有MatrixGo数据标注平台;ScaleAI通过帮助机器学习团队生成高质量的地面数据来加速AI应用程序的开发;V7的图像标记平台可应用于医疗保健、生命科学、制造业、自动驾驶、农业科技等领域;Telusinternational服务包括数字化战略、创新、咨询和设计、数字化转型和IT生命周期服务、数据注释和智能自动化;Lionbridge是AI语言服务提供商。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。