加快发展新一代人工智能
作者:喻思南
理解提问,快速给出回答;训练声音,翻唱经典歌曲;根据描述,绘出趣味画作……近期,基于大模型研发的生成式人工智能,展示了在语言理解和内容生成等方面的出色能力,引发社会关注。
大模型赋能,生成式人工智能正在引发新一轮智能化浪潮。得益于拥有庞大的数据、参数以及较好的学习能力,大模型增强了人工智能的通用性。从与人顺畅聊天到写合同、剧本,从检测程序安全漏洞到辅助创作游戏甚至电影……生成式人工智能本领加速进化。随着技术迭代,更高效、更“聪明”的大模型将渗透到越来越多的领域,有望成为人工智能技术及应用的新基座,变成人们生产生活的基础性工具,进而带来经济社会发展和产业的深刻变革。人工智能大模型强大的创新潜能,使其成为全球竞争的焦点之一。
经过多方努力,我国人工智能大模型已具有一定基础。在2023中关村论坛上发布的《中国人工智能大模型地图研究报告》显示,中国人工智能大模型正呈现蓬勃发展态势。据不完全统计,截至目前,10亿级参数规模以上的大模型全国已发布了79个。我国在大模型方面已建立起涵盖理论方法和软硬件技术的体系化研发能力。也应看到,人工智能大模型离不开多项技术的融合创新。在前沿基础理论和算法上,我国与国际先进水平还存在差距。筑牢智能时代的根基,需要瞄准短板,着力推动大模型领域生成式算法、框架等原创性技术突破。同时,还应发挥我国应用场景优势,进一步深耕垂直领域,以行业专有训练数据集为基础,打造金融、医疗、电力等领域的专业大模型。要以高质量应用和数据反馈技术优化,帮助大模型迭代升级。
数据质量影响大模型“智商”。国际上一些大模型之所以领先,与大量公开高质量数据的训练息息相关。我国有海量数据和丰富应用场景,应逐步开放共享优质数据,通过制定共享目录和共享规则等方式,推动数据分级分类有序开放,让流动数据激发创新活力。例如,前不久印发的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》提出,“建立多模态公共数据集,打造高质量中文语料数据”。期待各地各行业从实际出发,加强高质量数据供给,为大模型成长提供充足“养料”。
人工智能大模型研发周期长、投入大、风险高。经过数年持续研发,国际领先的大模型聚集了较好的资源和人才。当前,我国不少高校院所、企业正在做研发工作,在大模型、大数据、大算力等方面各有侧重,研发力量较为分散。作为追赶者,有必要进一步强化企业科技创新主体地位,整合优势创新资源,推动形成大模型产学研攻坚合力。
人工智能大模型带来的治理挑战也不容忽视。营造良好创新生态,需做好前瞻研究,建立健全保障人工智能健康发展的法律法规、制度体系、伦理道德。为促进生成式人工智能技术健康发展和规范应用,今年4月,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》。新技术应用往往先于规范。着眼未来,在重视防范风险的同时,也应同步建立容错、纠错机制,努力实现规范与发展的动态平衡。
人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。从战略高度着手,凝聚合力、攻坚克难、勇于创新,努力拓展理论和技术应用空间,必能更好培育壮大新动能,构筑发展新优势。(喻思南)
[责编:郝悦]基于模糊测试的漏洞挖掘及攻防技术
5.1提高测试用例的通过率以网络协议的模糊测试为例,即使我们通过模糊测试技术生成了大量的畸形测试数据,但这些测试数据中的绝大部分会被网络协议的校验机制所拒绝,这样的测试效率是极低的.所以我们并不能用大量的纯随机数据来测试网络协议,而是应该构建出通过率更高的测试用例,例如,可以将模糊测试配置成使用已知有效数据、故意错误数据和随机数据的组合,这样既可以提高测试用例的通过率也不会使测试用例过多的受测试人员的主观影响.再如,也可以在随机测试数据后面增添校验位,或者在了解待测网络协议的数据包格式后构造出符合规定的测试用例,这些方法可能大幅度提高测试用例的通过率.
5.2协议格式自动化分析正如5.1小节所述,对文件、协议格式的深刻理解可以帮助测试人员构建出通过率很高的测试用例,但这繁琐复杂的测前准备工作也给测试工具开发人员带来很大的负担,可以设想,即使针对一个简单的非公开协议也需要花费编程人员大量的时间研究目标协议的工作规范,更何况,待测试的网络协议规范很可能是未经公开的.这就指明了模糊测试技术未来的另一个发展方向,即实现文件、协议格式的自动化分析.
5.3引进并行和分布式技术模糊测试技术最大的一个特点是可以生成数量巨大的测试用例,从而使对软件进行全方位测试成为可能.但巨大的测试用例数量也带来了执行效率低的缺点.因此,引进并行和分布式技术,有效的减少测试时间.这或许会为未来构造出更大量的测试用例提供良好基础.
5.4基于知识库构造测试用例如何提高测试数据的针对性也是模糊测试技术未来发展必须解决的一个问题可以通过为模糊测试工具连接一个数据库提高测试用例的针对性.假设这个数据库中存储着大量已知的攻击模式,在构造测试用例时,通过从该数据库调用能引起已知攻击的测试数据并在后面加上随机数据的方法来构造针对性强的测试用例.也可以在该数据库中存储一些有用的资源,例如一些常见系统、数据库和Web应用的用户名和密码字典,常用的脚本后门程序,服务器响应信息等,这些资源能有助于测试人员构造出能顺利通过系统检测的测试数据包,也方便测试人员研究和发现应用程序的安全漏洞.
5.5提高代码覆盖率在构造测试用例过程中无法估算代码覆盖率是模糊测试技术的重大缺陷之一.代码覆盖率是软件测试中的一种度量,描述程式中源代码被测试的比例和程度.代码覆盖率常常被拿来作为衡量测试用例好坏的指标,所以提高代码覆盖率是提高模糊测试效率的一种有效方式.同时,如果在构建测试用例时不知道这些测试用例的代码覆盖率,则很难判断测试的完成情况,更不清楚是否发现了软件中的所有漏洞.可以通过引入遗传算法达到提高代码覆盖率的目的,也可以在模糊测试工具中集成代码覆盖率计算工具,实现实时监测当前代码覆盖率的功能.
5.6更多平台的支持目前,几乎所有的模糊测试工具都只能运行在桌面操作系统上,而对于支持智能手机等嵌入式操作系统的模糊测试工具还需要进一步的研究.另外,大多的模糊测试工具还不具有跨平台的能力,大多只能测试单一操作系统的软件漏洞.因此,研究具有跨平台,支持多种软硬件平台的模糊测试工具非常有价值.
5.7模糊测试的智能化不能发现鉴权绕过和后门等逻辑上的错误一直是模糊测试技术无法规避的一个重大缺点.可以研究在生成测试用例的过程中引入知识或一些人工智能算法,使得模糊测试工具具有学习的能力,从而在一定程度上具备发现逻辑漏洞的能力.模糊测试技术的另一个缺点是不能对漏洞进行准确定位,即通过模糊测试技术只能判断出待测软件中存在何种漏洞并不能准确的定位到程序源代码中是哪一行引发了这个漏洞,可以研究通过结合动态二进制插装或提高监视器的监测精度来克服这个问题.
此外,目前市场上的大多数模糊测试工具都需要借助其他工具来进行监控或测试评估,所以研究功能更为完善的测试工具也是模糊测试领域的一个重要方向.这类测试工具应能自动完成文件或协议格式的解析并生成大量符合要求的测试用例,对用例执行情况进行实时监控,方便地获取用例执行信息,并能在发现漏洞时进行故障定位,完成测试结果的输出.同时还要有高效的算法来协调各个功能模块的执行,提升工具的运行效率.