李鹏宇|人工智能时代背景下的大数据法律监督
原创李鹏宇上海市法学会东方法学
李鹏宇
渤海大学法学院法律硕士生
要目
引言
一、大数据存在的隐患
二、大数据法律监督的概念:以类案法律监督为语境
三、大数据法律监督的理念:以数智赋能法治为枢纽
四、大数据法律监督的趋势
五、大数据法律监督的问题
六、大数据法律监督的策略
结语
近年来,我国法律监督以数字化改革赋能新时期的司法监管,并利用检察机关大数据思维,促进了司法监管模式的重塑性转变,由“总量推动、个案主导、案卷审核”的个案受理式监管向“质效主导、类案主导、数据赋能”的类案治理型监管过渡,探索出一条大数据法律监督新路径。畅通数据来源是大数据法律监督的根本。经过实践探索,大数据法律监督的核心内容是通过对办理个案的系统总结,归纳类型化要素,对政法、政务、社会等所涉数据进行采集梳理,经过数据碰撞和分析,得出具有高度盖然性的监督线索,经查实后开展法律监督,并由此发现执法司法及社会经济领域中的突出问题,进而推动社会治理。这一“个案办理—类案监督—系统治理”路径面临的首要难点即为“数据从何而来”,而这正是大数据法律监督有别于传统法律监督之处,也是实现法律监督模式重塑性变革的关键之举。
引言
随着计算机技术的飞速发展以及我国信息战略的深入落实,大数据分析技术在经济高质量增长中的重要意义将日益重大、日趋突出。中央政府一直高度重视大信息应用在中国法治建设中的关键意义。最高人民检察院坚持以习近平法治思想为指引,认真落实党中央决策部署,明确提出并大力推动实施“检察大数据战略”,以大数据运用赋能新时代法律监督。浙江省检察机关在大数据运用方面走在前列,近年来探索出了一条“个案办理—类案监督—系统治理”的数字检察之路,为全国检察机关提供了很好的示范。各级检察院都必须切实增强大数据分析战略思维,以更高度的理论自觉、法制自觉、检察自觉扎实推行“检察大数据战略”,全面推进新时期的司法监察工作整体提质增效,更好担负起党和人民赋予的职责使命。
一、大数据存在的隐患
当前,互联网早已开始深入很多产业里,并越来越作为一个重要产品要素承担着巨大功能。但是,在互联网所引发的生产力提升与信息使用模式变革的同时,随之而来的则是信息安全问题。
个人隐私安全问题
在当前隐私权保障法律不完善、隐私权保障技术不健全的条件下,网络上的信息隐私泄漏问题频发。同时,通过大数据分析对人的心理状态和行为的预测也带来很多问题。比如,购物平台可能通过获取使用者的行为信号,推断其所感兴趣的东西,从而发布相应的广告。这些行为会对使用者形成一系列不合理的困扰,或者危及生命安全。同样伴随着大数据分析交易,尽管供方已经完成了相应的脱敏处理,但是仍然有机会通过对多源数据的关联分析,从而挖掘出某些个人隐私。
近年来,部分连锁宾馆开房记录泄露、携程银行卡信息泄漏等大数据安全事件表明,大数据分析问题未能被妥善处理将会对用户信息安全带来巨大的影响。所以,在大数据分析条件下,如何保管好信息,在保证数据使用效率的时候维护好自身信息安全,将是在大数据分析时代所面对的重要挑战之一。
数据存储和处理安全问题
伴随着大数据分析技术与应用的迅速发展,在大数据分析生活期的各阶段,更多的问题被披露了起来,尤其是在数据储存与管理环节中有了一些明显不同以往的新问题。比如,在大数据分析环境下数据分析的管理者往往并非数据分析的真正主人,造成了数据分析在储存与处理中更易于被滥用,进而损害了数据分析主人的利益;信息的分布式储存将致使对信息的访问与控制更难进行,由此致使在信息条件下数据泄漏更易发生,对信息损毁也更不易确定;将多源数据汇总后再经大数据处理关联分析,可能挖掘出原本没有的敏感信号;互联网的数据源新闻真实性问题也更加突出,涉及伪造信息和假冒信息、传播失真信息和陈旧信息等。
另外,由于大数据系统发展通常离不开云计算环境,云计算技术也为大数据发展创造了存放地点、存取路径、虚拟化等的大数据存储空间,所以在云基础上数据信息的安全性问题也将成为限制大数据增长的主要原因。安全性问题是目前公有云计算技术中存在的主要问题,潜在危险因素包括:一是云计算环境复杂,带来了相当高的受攻击面;二是多个租户共用计算资源,加大了互联网和计算基础设施的危险,一些客户的信息和应用可以在无意中暴露到其他客户上;三是由于公有云计算技术普遍采用了网络支付,客户的应用和信息受到了来自互联网的暴露接口的巨大风险;四是用户已经失去了系统和用户在物理和逻辑上的控制权。
基础设施安全问题
近年来,影响网络的恶意应用程序、木马查杀程序等日益增多,并处于团队化作业状态,对关键的大数据基础设施展开了不断地入侵、渗透、窃取。大数据基础设施作为实现大数据运营的重要基石,攻击者常常通过采用非许可访问、在网络数据传输过程中损害数据完整度、导致资料的泄漏与损失、散播网络病毒等手段对大数据基础设施构成安全危害,从而损害了大数据基础设施的正常运营能力。在大数据时期,这种使用超高量网络数据流的构造方式进行的DDoS攻击,是对关键数据基础设施中存在的大数据安全隐患最明显的危害。
二、大数据法律监督的概念:以类案法律监督为语境
概念是问题讨论的基础与前提。当前,数字赋能检察监督已由以往的展示为主进入真正的场景应用,亟待进一步明确数字检察这一特定概念的内涵与外延。大数据检察将成为对新时期检察院执法能动承担责任的一项重要检查方式、服务模式、运行方法,也应该在“检察大数据运用”或“技术赋能法律监督”的框架下与时俱进,禀赋更具实质性、指导性、前瞻性的内涵。具体来说,所谓数字检察,是指由检察院利用数字赋能技术开展的司法检查,利用数据共享、线索收集、类案处理,能动促进社会管理体系、治理水平信息化的数字执法方式、理念、程序、效应的集成、跨越、引领、再造、重塑性变革。其基本特征包括三方面:第一,从理念思维看,表现为从传统的相对被动、消极的监督观,转向更积极、能动的法律监督观,与现代信息技术飞跃发展相结合,借助检察大数据、区块链、人工智能,形成以现代性、开放性为标志的融合思维、双向思维。第二,从规模样态看,以多元协作为实践追求,对打通数据壁垒、信息孤岛提出深化需要,从个案监督转化为类案监督。数字检察中的案件形态,应具有量化的规格标准,并非单一案件而是类案。其三,从实际成效上来看,具有“监督促进治理”的整治效果。在新时期检察工作高质量发展背景下的新司法办案,有别于一般的法律监督案件之基本特征,除了必须借助现代网络信息技术外,另一个实质要件在于运用大数据办案启动法律监督程序介入社会治理。以数字赋能法律监督为抓手,深化构建法律职业共同体多方协调互动、优势互补、双赢多赢共赢的法治监督体系。
三、大数据法律监督的理念:以数智赋能法治为枢纽
发展与安全相平衡理念
高质量发展的前提是守住安全底线,数字检察的着眼点是数字赋能,底线是数字安全,尤需防范化解数据被篡改、盗用、滥用的风险。为此,应动态平衡发展与安全,建立健全数据流动安全管理机制,夯实执法司法制度化信任基础。浙江省义乌市检察院依托检校合作机制,在中国人民公安大学专家团队指导下,创设“区块链技术检察应用研究中心”,探索运用集现代密码学、去中心化、点对点传输等优势于一体的区块链技术,为提档升级后的“行刑衔接案件闭环管理”应用构筑防火墙。
办案与监督相结合理念
“在办案中监督、在监督中办案”,既是一种工作方法,也是一种价值取向。数字检察领域的关联思维及其能动运用,不仅把“四大检察”一体贯通、“四级检察”有序连接,也为深化办案与监督融合发展开辟了广阔空间。某种意义上看,办案与监督相结合,既是数字检察的重要方法论,也是其强大生命力之所系。
公正与效率相统一理念
人工智能时代,法治如何经由算法实现正义,是执法司法无可回避的技术难题和法律命题。而数字检察机关的核心要义,就是统筹整合利用现代数字化技术手段、现代数字化思想、现代数字化意识,培育数字能力和方法,构建检察数字治理机制体系,通过检察大数据能动运用打开价值创造新空间,努力实现由“事倍功半”“人海战术”转向“事半功倍”“蓝海赋能”,由粗放型“人力驱动”向集约型“数据驱动”跃变,确保正义“看得见”而且“不迟到”。
规范与治理相促进理念
数字检察带来的深刻变革,不仅体现在法律监督体系、监督能力的重塑性变革上,更为检察机关深度参与社会治理、深化监督功能价值、规范经济社会秩序创造了有利条件,有助于形成提高国家治理水平的智慧成果。
制度与文化相融通理念
制度建立过程具有根本性、全局性、稳定性和长期性。运用大数据分析提升社会治理的现代化水平,关键在于构建完善大数据分析辅佐科学发展决策工作和社会的激励机制,推动政法管理工作和社会治理模式革新。建设以尊重事实、崇尚理性、注重精确、讲究细节为基本内容的数据信息文明,有助于破解重定性轻定量、重观点轻数据等传统观念瓶颈,把人文关怀、社会主义核心价值观融入看似冰冷的技术理性、专业认知,为数字检察制度机制创新注入思想文化血液。
四、大数据法律监督的趋势
从诉讼监督扩展到社会治理
从历史发展的脉络来看,各国检察机关的任务在于代表国家打击犯罪,其职权配置也基本围绕追诉犯罪之需要赋予,以此完成追诉犯罪之使命。近年来,我国检察制度的内涵得到了不断发展和丰富,法律监督的含义与范围也更为广泛。随着在食品药品安全、生态环境与水资源环境保护等领域的公益诉讼发展,要求检察机关突破传统监督手段不足、监督范围过窄、监督过于被动的局限,寻求参与社会治理的新路径。促进智能科技与法律监督工作的深度融合,成为检察机关在大数据时代的不二选择。
从被动监督向主动监督拓展
在过去一段时间,因监督线索有限,检察机关往往处于被动监督的地位。如在侦查活动监督中,检察机关通常根据公安机关提交的案卷材料进行审查,而案卷信息可能经过公安机关筛选、修改,检察机关难以发现不当立案或撤案等违法行为。法律监督由于信息来源、线索发掘等方面的限制,多处于被动回应型的实践状态。目前,检察机关运用大数据技术,通过收集、筛选、分析指数级的、人工不可完成的数据体量,主动发现违法犯罪线索,在此基础上通过调查取证、积极引导侦查等方法实现主动监督和多元协同。由此一来,通过大数据分析的技术应用,可以立足于检警分立的侦检关系,更加强调了分工协作和监督工作的有机整合。
从个案监督转向类案监督
大数据分析技术所产生的主要变化之一,便是其能够处理与特定事件关联的各种信息,即不再依赖于随机采样,也不再采用随机分析之类的方法。因此,运用大数据可以帮助我们更清楚地发现自身所无法发现的信息数据。大数据的主要意义就是通过在大量相互不关联的各种类型的信息中,挖掘出对社会未来发展趋势的模式预测分析等有意义的信息,并同时运用机器学习、人工智能技术等数据挖掘手段实现深层的分析,发现其中所蕴含的规律。但随着数据规模越来越大,数据的价值密度也势必下降,从大量低价值的数据中找到规律和线索,对数据分析能力和数据可视化提出了极高的要求。以围绕已经公开的裁判文书进行法律监督工作为例,检察机关在采集数据、对数据清洗等后,需要针对海量的、大部分是无线索发掘意义的裁判文书进行数据统计分析和挖掘,借此实现结果可视化。此种法律监督方法仅依靠人力是不可能完成的。在这一流程中,法律监督方法发生了转变,即由传统的、基于少量裁判文书而展开的个案监督转向大数据全样本的、基于海量乃至全部公开裁判文书而展开的类案监督。
从依赖案卷转向动态式监督
传统的法律监督工作依赖案卷文书,多体现为节点控制、事后审查式监督。尤其是,司法工作人员对已经发生的事实进行认知“考古”,必然受到时间间隔、气候、证人记忆能力和判断能力等主客观因素影响。监督线索有限、亲历性缺失、书面监督的制约功能不足成为亟须解决的问题。大数据法律监督成为检察机关提升监督质效的契机。检察机关通过对大量数据的采集、处理和集成,可以拓宽违法犯罪线索的发现渠道,将监督工作从事后的、节点式的监督,转变为动态的、全流程式的监督。
五、大数据法律监督的问题
近年来,我国检察院以数字化改革赋能新时期的司法监管,并利用检察机关大数据思维,促进了司法监管模式的重塑性转变,由“总量推动、个案主导、案卷审核”的个案受理式监管向“质效主导、类案主导、数据赋能”的类案治理型监管过渡,探索出一条大数据法律监督新路径。畅通数据来源是大数据法律监督的根本。经过实践探索,大数据法律监督的核心内容是通过对办理个案的系统总结,归纳类型化要素,对政法、政务、社会等所涉数据进行采集梳理,经过数据碰撞和分析,得出具有高度盖然性的监督线索,经查实后开展法律监督,并由此发现执法、司法及社会经济领域中的突出问题,进而推动社会治理。这一“个案办理—类案监督—系统治理”路径面临的首要难点即为“数据从何而来”,而这正是大数据法律监督有别于传统法律监督之处,也是实现法律监督模式重塑性变革的关键之举。
加强数据管理、提升数据质量是大数据法律监督的关键。大数据法律监督中的“数据难题”主要体现在三个方面:
数据获取渠道有限
一方面,数据来源匮乏,共享渠道不畅通。对此,检察机关目前通过建立侦查信息查询机制、与执法和司法领域建立数据共享目录等途径减少信息壁垒,但是大量政务数据、社会数据共享仍较为有限。另一方面,自有资源未被充分利用。大量检察数据散落在不同的“信息孤岛”上,呈现分散化、碎片化等特点,缺乏统一管理与应用,形成大量“沉睡的数据”。
数据安全亟待重视
一方面,部分在法律监督中确实需要的数据字段,由于涉及客户隐私、公民信息等,数据提供方以保护信息安全、数据边界难以厘清等理由拒绝共享,导致监督陷入瓶颈。另一方面,无论是执法司法数据还是社会数据,均会涉及个人或者单位的敏感信息。随着大数据法律监督的不断深入,如何对已有数据加强安全管理、规范数据使用将成为重要课题。
数据质量尚待提高
一方面,数据本身存在局限性。由于共享权限有限、数据涉密等原因,部分已获取的数据信息存在信息不全、格式混乱等问题,导致部分数据虽然量大但是不精、不全,且清洗工作耗时耗力。另一方面,数据与监督需求的关联度欠缺。部分监督模型需要大量信息,但是海量信息中只有部分信息是有用信息,如何缩小数据范围、提高匹配精度是提高监督质效的关键,共享信息的质量直接影响数字监督效果。
六、大数据法律监督的策略
充分运用大数据提升法律监督质效更好维护公平正义
目前,检察院司法监督职能作用得还不够完善。其中一个原因是传统的受理、审查案件方式,往往只能通过一些孤立的信息点发现单个的法律监督线索,一些深层次的问题不易被发现。通过大数据分析的筛选、比对、碰撞,彼此独立的信息点之间就形成了交叉、连接,而违法犯罪的线索也会清晰呈现,有利于检察机关高效发现深层次的监督线索。浙江省检察院还将建立全国数字检察机关办案指导中心,迭代完善数字检察系统,推进35个重大类案监督场景应用,实现一域突破、全省共享。例如,在强化虚假案件监管方面,深入清理了公民借款、劳务、汽车保险索赔、人民调解协议司法证明等方面的“假官司”;向全省检察院报告已移交大量执法线索,完成了从过去的“人找案(线索)”到现在的“案(线索)找人”之间的过渡。浙江实践充分说明,大数据赋能更有利于能动发挥检察机关法律监督的“利器”作用,真正为新时代法律监督插上科技的翅膀。各级检察院要切实增强地掌握并运用大数据分析的能力和主动性,积极寻找利用大数据分析赋能“四大检察”的切入点、结合点,更好实现大数据与“四大检察”的深度融合,推动各项司法监督工作提质经济增效,让人民群众在每一个案件中都感受到公平正义。
充分运用大数据促进诉源治理助推提升国家治理效能
数字化、信息化的时期,经济社会各领域都被互联网、人工智能、区块链等新信息技术所浸润或影响,各类违法犯罪的智能化程度显著提高。因此,推动全面依法治国的工作需求都离不开大数据分析。检察院是实施我国社会管理体制和治理能力发展现代化的主要参加者和推动保障力量,长期以来一直立足监督办案,深刻分析个案中反映的倾向性、普遍性问题,并适时提出堵漏建制的社会管理检察意见,促进做好标本兼治的工作。但由于大多是针对个案反映的问题,检察建议的深度、说服力往往有限。以优化检察工作质效促进提升国家治理效能,必须与时俱进,以能动履职更好地契合、适应信息化时代和经济社会发展的现实需要。浙江省检察机关运用大数据检察监督,通过深挖批量案件背后的制度漏洞,助力发现类案问题、系统性问题,检察建议更精准、更全面,更有利于助推解决深层问题、提升治理效能。比如,嵊州市人民检察院受理的非标油偷逃税、危及公共安全、严重污染环境类案件监督检查,督促有关主管部门依法移交违纪线索,联合开展专项整治、建立监管长效机制,斩断了非标油交易黑灰链。又如,台州市检察机关通过个案办理发现部分服刑人员在服刑期间仍然享受养老金待遇,经大数据比对,发现批量线索和监管漏洞,推动在省级层面建立健全防范查处机制。浙江实践充分说明,大数据给检察机关更深参与国家治理提供了重要路径,大数据法律监督为提升国家治理效能提供了检察智慧。各级检察院必须站在法律管理的层面,跳出因案办案的桎梏,认真把大管理功能与司法作用密切结合,从常规的案例处置型监管向类案处置式监管转型,善于在处理案例中找到规律性问题,发现系统性问题,提供针对性的检察意见,推动完善和发展社会管理,努力促进我国管理结构和管理水平现代化。
充分运用大数据加强精准精细管理推动提高检察管理科学化水平
科学管理也是检验工作高质量发展的指挥棒。随着经济社会的发展,特别是科学技术的发展,不仅检察监督办案需要跟进、适应信息化、数字化发展的要求,检察管理同样需要与时俱进充分运用好大数据。检察院在监督办案等各类活动中形成的海量数据,首先就是反映在助力检察机关的管理上,这既是在信息化、数字化时期加强精细化管理、提升管理质效的必然需要,也是更好保障司法公正、增强司法机关影响力的实际需求。司法机关问责改革后,检察机关职权较为集中、自由裁量权增多,加之捕诉一体改革、认罪认罚从宽制度推进,检察官被围猎的风险更大。如何针对性加强对“案”和“人”的管理,是检察机关面临的一个重大课题。浙江省检察机关通过数字化改革,将检察管理有效融入执法司法制约监督体系,推进内部监督体系变革,促使监督管理更加精准、高效。比如,浙江省检察院研发建设“数智案管”检察办案监督系统,对检察业务应用系统进行扩展,实现流程监控、质量评查、数据核查、分析研判等案件全周期精准管理。尤其是在省委政法委的统筹指导下,率先建立“政法一体化办案系统”,将浙江省作为第一个在省域范围内进行大数据化协同办案的省份并全面推广大数字卷宗的办案方式,不再移交纸质卷宗。案情在线流转、全程网上处理,倒逼了执行审判活动进一步标准化,执行与裁判机构的相互协调、相互约束,落得更实。浙江的实践充分表明,大数据是推动检察管理迭代升级的关键变量,是推进检察工作高质量发展的重要支撑和保障。各级检察院都要切实加强利用大数据分析强化监督管理的意识,全面提高对检察机关监督管理的精细化管理水平。在“案”的管理方面,要积极推动政法各单位之间案件数字化移送,实现从立案到执行的全方位自动监控和预警;充分利用检察业务应用系统的办案流程数据,加强对案件办理全流程监控、案件质量评查监督,加强案件管理的智慧研判,提升数字化案件监督管理质效。在“人”的管理方面,要积极将监督办案等数据进行整合,探索符合检察工作特点的考核数据分析方法,进一步提升考核的全面性、科学性;建立队伍管理数据分析研判模型,助力提升队伍管理的科学化水平。将干预过问司法办案等重大事项填报数据与案件办理数据进行关联分析,加强检察人员办理案件、律师代理情况动态分析监测,提升廉政风险预警防控的精准性,助力建设一支过硬检察队伍。
在提升法律监督质效的目标指引下,数字检察实践正深刻影响着传统的检察认知、检察行为以及检察工作运行机制。各级检察院都要努力把检察机关大数据战略思维贯彻检察机关办案的全过程和各领域,以更好地促进检察工作的高质量增长,更好地为促进社会经济高水平增长。
以数字思维拓展大数据法律监督的深度和广度
检察机关工作人员需要充分运用数字思维提高获取数据、驾驭数据、运用数据的能力。在数字经济时代,数字化是一种思维方式、一种行为能力,将数字思维和相应技术引入检察监督,破解“数据难题”,将大大拓展大数据法律监督的深度和广度。
其一,激活自有资源,以数据唤醒数据。
一方面,一体化管理检查数据。经过几年积累,不论是刑事案件检察机关,或是民事责任检察机关、行政检察机关、社会公益案件检察机关,都通过各种途径积累了大量的数据,但数据分散导致数据利用率低。因此,应实现检查数据的贯通共享,将已获取的数据进行一体化、系统化管理,实现融合监督。另一方面,统一数据形式和标准。除检察业务应用平台、侦查监督系统中所填录的案证、报表信息等结构化数据之外,检察机关数据中尚有大量卷宗数据、影像、视频等非结构化信息和零点五结构化数据。结构化数据容易通过传统方法加以分析整理,但对于非结构化及半结构化数据需要通过特定的技术转化后利用,统一数据标准,整合多源数据。
其二、创新共享方式,以非共享实现共享。
在检察大数据战略下,检察机关目前已开展了多类专项数字监督,但在更广阔领域因数据权限、数据安全等原因仍存在不同程度外部阻力。对此,应运用数字思维,改变传统的导出共享方式为联邦学习(一种重要的面向隐私保护的机器学习框架,可以在不收集数据的情况下协同进行模型的训练,实现数据的“可用不可见”,从而保护隐私信息)下的共享模式:一方面,通过联邦学习,可实现在不暴露真实数据的情况下完成合作建模,能够让AI算法借助位于不同站点的数据获得经验,摒弃将数据进行归集的方法,使得各方均能凭借本地数据获取全局数据。对于大数据法律监督而言,这将大大拓展监督数据的来源。另外,联邦学习的“信息可用不可见”“信息不动模型动”的模式将能极大提高用户的信息安全保障,减少数据泄露风险。
其三、类型化治理,以数据驱动数据。
大数据法律监督的核心是类型化的思维方式,这除了体现在“类案治理监督”上,同样可以用于数据治理以提升数据质量。一方面,可以将部分数据治理的模式推广到整个类型化数据上,形成主题数据库。在数据标准统一的基础上形成易于检索、碰撞便利的标准库和主题库,如毒品犯罪数据库、电信诈骗犯罪数据库、涉税犯罪数据库、集资类犯罪数据库等,充分联结监督需求与现有数据,把已有数据挖深。另一方面,建立专项监督数据库,以数据驱动数据。可将已开展的专项监督类型化,如检察机关已开展的“空壳公司”清理专项监督活动,通过梳理无税款、无社保缴纳等特点,调取一批具有监督针对性的企业信息、税务信息,这部分信息相较于海量的“纯数据”而言更具监督价值。类似的如对强制戒毒、司法网拍等的专项检察监督中积累的“初步排查数据”,均能为各地检察机关提供更有针对性的数据支持。
结语
检察机关大数据管理策略的提出,是中国检察机关为进一步落实创新发展理念、顺应信息化时代新形势的重大行动,充分体现了检察机关对适应现代经济社会发展管理要求的强烈责任心和使命感,并能够促进完善法治监管手段,进一步增强法治监管效果,加速推动检察工作质量革新、管理效能转变和服务动力革新,进一步推动我国管理体制和能力的现代化发展。检察机关运用大数据思维是为了进一步健全检察院与地方政府执法部门、公安机关、人民审判机关、司法行政部门之间的执法司法信息资源共享机制,进一步破除“信息孤岛”和“数据壁垒”,并利用大数据分析、区块链等信息技术推动跨部门大数据分析合作办案,拓宽监督管理渠道的一种思维方式。
往期精彩回顾
原标题:《李鹏宇|人工智能时代背景下的大数据法律监督》
阅读原文
人工智能专业人才培养方案
一、培养目标
本专业旨在培养德、智、体、美、劳全面发展,掌握人工智能相关知识和技能,包括计算机编程、机器学习、深度学习、计算机视觉和自然语言处理的基本理论、基本技能和基本方法,能够在企事业和行政管理部门从事人工智能领域的设计、开发、管理和维护等方面的工作,具有较强的创新意识、创业精神、创新创业能力和社会责任感的高素质应用型专门人才。
本专业学生毕业后5年左右能达成下列目标:
目标1.掌握数学、自然科学、工程基础和人工智能专业知识;
目标2.能够综合应用人工智能及相关领域所必备的基础理论和专业技能,解决人工智能领域系统分析、设计、集成应用中的复杂工程问题。
目标3.具有良好的团队合作、沟通交流和项目管理能力,能够作为团队成员或领导团队完成项目的实施,具备创新精神和创业能力;
目标4. 能跟踪学习人工智能领域的新技术,具有较强的终身学习和可持续发展能力;
目标5. 能适应环境变化和社会发展的需要,具有国际视野,把握时代特征与社会需求,具备良好的个人素质、职业道德、人文素养、专业素养和社会责任感。
二、培养规格
1.工程知识:具备较扎实的数学、自然科学、工程基础和人工智能领域专业知识,并能应用这些知识解决人工智能领域的复杂工程技术问题。
2.问题分析:能够应用数学、自然科学和工程科学的基本原理进行分析、识别和表达,并通过文献研究分析人工智能领域复杂工程问题,以获得有效解决方案。
3.设计/开发解决方案:能够针对人工智能领域复杂工程问题,考虑社会、健康、安全、法律、文化以及环境等因素,设计/开发满足客户需求的产品,并能够在设计环节中体现创新意识。
4.研究:能够基于科学原理并采用科学方法对人工智能领域的复杂问题进行研究;具有设计实验和创造实验条件的能力;能够整理、归纳和分析实验数据并得到合理有效的结论。
5.使用现代工具:能够开发、选择与使用恰当的技术、资源、现代工程研发工具和信息技术检索工具,进行人工智能领域复杂工程问题的预测与模拟,并能够理解其局限性。
6.工程与社会:能够基于工程背景知识进行合理分析,评价人工智能领域工程实践和复杂工程问题解决方案对社会、健康、安全、法律以及文化的影响,并理解应承担的责任。
7.环境和可持续发展:能够理解和评价针对复杂人工智能领域工程问题的工程实践对环境、社会可持续发展的影响。
8.职业规范:具有良好的人文社会科学素养、社会责任感,能够理解并遵守工程职业道德和规范,履行责任。
9.个人和团队:能够在多学科背景下的项目团队中,理解团队合作的意义,及在系统的构思、设计、实现、运行的工程实践中,承担个体、团队成员以及负责人的角色,并开展有效的工作。
10.沟通:能够就人工智能领域复杂工程问题与业界同行及社会公众进行有效沟通和交流,并具备一定的国际视野,能够在跨文化背景下进行沟通和交流。
11.项目管理:理解并掌握工程管理原理与经济决策方法,熟悉人工智能工程项目管理的基本方法和技术,并能在多学科环境中应用。
12.终身学习:具有自主学习和终身学习的意识,拥有不断学习和适应人工智能快速发展的能力。
毕业要求
指标点
1.工程知识
1-1.能将数学、自然科学、工程科学和人工智能专业知识用于复杂工程问题。
1-2.能针对具体的对象建立数学模型并求解。
1-3.能够运用相关知识和数学模型方法推演、分析和判断专业问题。
1-4.能运用相关知识,通过数学模型的比较与综合考虑,优选技术方案,完成方案设计。
2.问题分析
2-1.能运用人工智能科学原理,识别和判断复杂工程问题的关键环节和参数。
2-2.能基于人工智能科学原理和数学模型方法正确表述复杂工程问题。
2-3.能认识到解决问题有多种方案可选择,能够通过文献研究寻求可替代的解决方案。
2-4.能运用基本原理,借助文献研究,分析过程的影响因素,获得有效结论。
3.设计/开发解决方案
3-1.掌握人工智能的相关知识和设计工具,能够根据客户需求确定设计目标和技术方案。
3-2.能够针对客户需求,通过建模进行方案设计。
3-3.能够集成方案设计,能对系统设计方案进行优选,体现创新意识。
3-4.能够在健康、安全、法律、文化以及环境等约束条件下,权衡和评价设计方案的可行性,确定合理的设计方案。
4.研究
4-1.能够基于科学原理,通过广泛的文献研究,对复杂工程问题的解决方案进行调研和分析。
4-2.能够根据对象特征,选择合理的研究路线,设计可行的实验方案。
4-3.能够根据实验方案构建实验系统,安全地开展实验,科学采集实验数据,并能对实验结果进行关联、建模、分析和解释,并通过信息综合提出合理有效的结论。
5.使用现代工具
5-1.掌握专业涉及的现代仪器、信息检索工具、工程工具和专业模拟软件的设计原理和使用方法,并理解其局限性。
5-2.能够选择与使用恰当的现代仪器、信息资源、工程工具软件和专业模拟软件,对复杂工程问题进行分析、计算与设计。
5-3.能够针对具体的研究对象,开发或选用满足特定需求的技术工具或模拟软件,对其解决方案进行模拟和预测,并能分析其局限性。
6.工程与社会
6-1.熟悉专业领域相关的技术标准、知识产权、产业政策和法律法规,理解和关注社会文化。
6-2.能基于工程相关的背景知识分析和推测专业工程实践中可能产生的社会、健康、安全、法律以及文化问题。
6-3.能基于工程相关的背景知识评价和判断专业工程实践和复杂工程问题解决方案对社会、健康、安全、法律以及文化的影响,并理解应承担的责任。
7.环境和可持续发展
7-1.了解环境保护的相关法律法规,理解环境保护和社会可持续发展的内涵和意义。
7-2.能够在社会和环境的大背景下,思考人工智能实践的可持续性,评价产品周期中可能对人类和环境造成的损害和隐患。
8.职业规范
8-1.具有人文知识、思辨能力、处事能力和科学精神。
8-2.理解客观公正、诚信守则的工程职业道德和准则,并能在工程实践中自觉遵守。
8-3.理解工程师对公众的安全、健康和福祉,以及环境保护的社会责任,能够在工程实践中自觉履行责任
8-4.根据人工智能专业的发展,进行个人职业规划。
9.个人和团队
9-1.理解在多学科背景下团队合作的意义。
9-2.具有在多学科背景下主动与其他成员沟通、合作的能力。
9-3.能够在团队中承担个体、团队成员以及负责人的角色,并开展有效的工作。
10.沟通与交流能力
10-1.针对复杂工程问题,能够就专业领域涉及的工程问题与业界同行及社会公众进行有效沟通和交流,包括撰写报告和设计文稿、陈述发言、清晰表达或回应指令。
10-2.具备跨文化交流的语言能力和书面表达能力,能就专业问题,在跨文化背景下进行沟通和交流。
11.项目管理能力
11-1.掌握工程及产品全周期、全流程的成本构成,理解其中涉及的工程管理和经济决策问题,以及工程项目中涉及的管理与经济决策方法。
11-2.能在多学科环境中,运用工程管理与经济决策方法管理、运作和评估项目。
12.自主学习和终身学习能力
12-1.能够认识到自我探索和终身学习的必要性,了解和跟踪人工智能技术的最新发展趋势。
12-2.具备终生学习的能力、养成主动学习的习惯、并应用科学的学习方法做到学以致用。
三、学制与学分
1.学制:基本学制为4年,修业年限为4-6年。
2.学分:毕业最低要求总学分为181学分,其中通识教育选修课不少于8学分,专业任选课不少于6学分,创新创业实践不少于4学分,社会责任教育实践不少于5学分,劳动教育理论与实践不少于2学分。
四、毕业与授予学位
学生在规定的修业年限内,完成专业培养方案规定的课程和学分要求,考核合格,准予毕业,颁发普通高等学校全日制本科毕业证书。符合蚌埠学院学士学位授予条件规定的,授予工学学士学位。
五、主干学科、核心课程、特色课程与主要实践性教学环节
1.主干学科:人工智能、计算机科学与技术
2.核心课程及简介:
数据结构、数据库系统原理、操作系统、C语言程序设计、Python程序设计、最优化方法、数字逻辑与数字系统、机器学习模式识别、深度学习、自然语言处理。
(1)数据结构
授课总学时:48 ;学分:3;课程性质:专业基础课
课程内容概要:“数据结构”是计算机程序设计的重要理论技术基础,以抽象数据类型的观点组织和讲解线性表、树、二叉树、图等各种主要的数学模型并定义为相应的抽象数据型,给出各种物理表示法和有关算法,主要研究分析计算机存储、组织数据的方式。数据结构:本课程额外设置课外线上自主学习学时10学时,实施线上线下混合式教学;线下教学采用启发式教学、讨论式教学、案例分析教学等多种教学方法。
推荐教材或参考书目:
[1]王红梅.《数据结构-从概念到C实现》.出版地:清华大学出版社,2017
[2]严蔚敏.《数据结构C语言版第2版》.出版地:人民邮电出版社,2018
[3]秦锋,汤亚玲,程泽凯,储岳中,袁志祥.《数据结构C语言版(第2版·微课版)》.出版地:清华大学出版社,2022
[4][美]MarkAllenWeiss.《数据结构与算法分析:C语言描述(第2版)》.出版地:机械工业出版社,2019
[5]王丽杰等,《数据结构》,https://www.icourse163.org/course/UESTC-1002268006?from=
searchPage
(2)数据库系统原理
授课总学时:40;学分:2.5;课程性质:专业基础课
课程内容概要:介绍数据库系统的基本概念,数据库管理的规则和方法及数据库系统分析的常用工具和方法,包括数据模型、范式及范式分解、数据恢复及并发控制、关系数据库查询语言、E-R图的使用及数据库设计的一般方法。本课程额外设置课外线上自主学习学时8学时,实施线上线下混合式教学;线下教学采用启发式教学、讨论式教学、案例教学等多种教学方法。
推荐教材或参考书目:
[1]万常选.《数据库系统原理与设计(第2版)》.出版地:清华大学出版社,2012
[2]刘亚军.《数据库原理与应用》.出版地:清华大学出版社,2015
[3]萨师煊,王珊.《数据库系统概论》.出版地:高等教育出版社,2014
[4]陆鑫.《数据库系统——原理、设计与编程(MOOC版)》.出版地:人民邮电出版社,2019
[5]陈岭,《数据库系统原理》,https://mooc.study.163.com/course/1000031000#/info
(3)操作系统
授课总学时:40;学分:2.5;课程性质:专业基础课
课程内容概要:本课程主要介绍操作系统的设计方法和实现技术,讲授众多操作系统的设计精髓及操作系统最新技术。包括操作系统各组成部分的概述,互斥性和同步性,处理器实现,调度算法,存储管理,设备管理和文件系统。本课程额外设置课外线上自主学习学时8学时,实施线上线下混合式教学;线下教学采用启发式教学、讨论式教学、案例教学等多种教学方法。
推荐教材或参考书目:
[1]汤小丹.《计算机操作系统第四版》.出版地:西安电子科技大学出版社,2014
[2][荷]AndrewS.Tanenbaum,HerbertBos.《现代操作系统》.出版地:机械工业出版社,2017
[3][美]William,Stallings.《操作系统――精髓与设计原理(第八版)》.出版地:电子工业出版社,2017
[4]斯托林斯,布朗,庞丽萍.《操作系统——精髓与设计原理(第8版)》.出版地:人民邮电出版社,2019
[5]骆斌,《计算机操作系统》,https://www.icourse163.org/course/nju-1001571004
(4)C语言程序设计
授课总学时:64;学分:4;课程性质:专业基础课
课程内容概要:本课程使学生对计算机程序设计有一个初步的正确的认识,学会阅读与编写简单的应用程序,掌握结构化程序设计的基本方法和用计算机解决实际问题的基本步骤,训练学生的逻辑思维能力,培养其严谨的思维方式和良好的程序设计风格,为进一步学习其它专业基础课程和专业课程打下良好的基础。本课程额外设置课外线上自主学习学时12学时,实施线上线下混合式教学;线下教学采用启发式教学、讨论式教学、案例教学等多种教学方法。
推荐教材或参考书目:
[1]郭有强.《C语言程序设计》.出版地:人民邮电出版社,2016
[2]何钦铭.《C语言程序设计(第二版)》.出版地:高等教育出版社,2012
[3][美]StephenPrata.《CPrimerPlus第6版》.出版地:人民邮电出版社,2016
[4]BrianW.Kernighan,DennisM.Ritchie.《C程序设计语言(第2版·新版)》.出版地:机械工业出版社,2014
[5]翁恺.《程序设计入门——C语言》,http://www.icourse163.org/course/zju-199001
(5)Python程序设计
授课总学时:56;学分:3.5;课程性质:专业必修课
课程内容概要:通过本课程的学习,使得学生能够理解Python的编程模式,熟练运用Python基本数据类型和相关列表推导式、切片等特性来解决实际问题,熟练掌握Python分支结构、循环结构、函数设计以及类的设计与使用,熟练使用字符串方法,适当了解正则表达式,熟练使用Python读写文本文件,适当了解二进制文件操作,了解Python程序的调试方法,了解Python面向对象程序设计模式,掌握使用Python操作SQLite数据库的方法,掌握Python+pandas进行数据处理的基本用法,掌握使用Python+matplotlib进行数据可视化的用法,同时还应培养学生的代码优化与安全编程意识。本课程额外设置课外线上自主学习学时12学时,实施线上线下混合式教学;线下教学采用启发式教学、讨论式教学、案例教学等多种教学方法。
推荐教材或参考书目:
[1]王学军《Python程序设计》.出版地:人民邮电出版社,2017
[2]黄红梅,张良均《Python数据分析与应用》.出版地:人民邮电出版社,2017
[3][美]WesMcKinney等《利用Python进行数据分析》.出版地:机械工业出版社,2014
[4][美]埃里克·马瑟斯《Python编程从入门到实践》.出版社:人民邮电出版社,2016
[5]嵩天等,《Python语言程序设计》,https://www.icourse163.org/course/BIT-268001
(6)最优化方法
授课总学时:32;学分:2;课程性质:专业必修课
课程内容概要:通过本课程的学习,可以使学生掌握最优化计算方法的基本概念、基本方法和基本技能,主要包括梯度下降法、牛顿法、拟牛顿法、坐标下降法、序列最小优化算法等算法,初步学会利用最优化方法分析和解决凸规划问题、带约束条件的优化问题,多目标优化问题等常见的问题,以此培养学生提出问题、分析问题和解决问题的能力。本课程额外设置课外线上自主学习学时6学时,实施线上线下混合式教学;线下教学采用启发式教学、演示教学等多种教学方法。
推荐教材或参考书目:
[1]李学文等《最优化方法》.出版地:北京理工大学出版社,2018
[2]解可新《最优化方法》.出版地:天津大学出版社,1997
[3]宋巨龙《最优化方法》.出版地:西安电子科技大学出版社,2018
[4]袁亚湘等《最优化理论与方法》.出版社:科学出版社,1997
[5]王燕军等,《最优化基础理论与方法》.出版社:复旦大学出版社,2018
(7)机器学习与模式识别
授课总学时:40;学分:2.5;课程性质:专业必修课
课程内容概要:通过本课程的学习,使得学生能够较为全面地了解机器学习这门学科的各类问题和方法论,主要包括感知机算法、Logistic回归算法、K近邻算法、决策树算法、朴素贝叶斯分类算法、支持向量机算法等分类算法,K均值聚类、密度聚类、层次聚类、谱聚类等聚类算法,主成分分析、等度量映射、局部线性嵌入等降维算法。此外,本课程强调学生的动手能力,要求学生通过编程练习和典型应用实例加深理解,同时对机器学习的一般理论和优化算法,如计算学习理论、梯度下降算法等有所了解。本课程额外设置课外线上自主学习学时8学时,实施线上线下混合式教学;线下教学采用讨论式教学、启发式教学等多种教学方法。
推荐教材或参考书目:
[1]周志华《机器学习》.出版地:清华大学出版社,2016
[2]雷明《机器学习:原理、算法与应用》.出版地:清华大学出版社,2019
[3]ChristopherMBishop《模式识别与机器学习》.出版地:Springer,2011
[4]牟少敏等,《模式识别与机器学习技术》,出版地:冶金工业出版社,2019
[5]机器学习与模式识别教材可加 李航《统计学习方法》.出版地:清华大学出版社,2019
(8)深度学习
授课总学时:48;学分:3;课程性质:专业必修课
课程内容概要:通过本课程的学习,使得学生能够较系统地了解深度学习的知识体系,并由浅入深地理解深度学习的原理、模型以及方法,主要包括全连接神经网络、自编码器和多层感知机、卷积神经网络、循环神经网络、生成式对抗网络、自注意力机制等的设计与实现,以及网络训练过程中的数据处理、网络调优与超参数设置,并介绍深度强化学习和网络模型可视化、多GPU并行与分布式处理技术,使得读者能全面地掌握深度学习的相关知识,并提高以深度学习技术来解决实际问题的能力。本课程额外设置课外线上自主学习学时10学时,实施线上线下混合式教学;线下教学采用启发式教学、案例分析教学等多种教学方法。
推荐教材或参考书目:
[1]邱锡鹏《神经网络与深度学习》.出版地:机械工业出版社,2020
[2][美]Ian Goodfellow等《深度学习》.出版地:人民邮电出版社,2017
[3]潘攀《深度学习图像搜索与识别》.出版地:电子工业出版社,2021
[4]迈克尔·尼尔森(MichaelNielsen)著,朱小虎译《深入浅出神经网络与深度学习》.出版社:人民邮电出版社,2020
[5]诸葛越等,《百面深度学习算法工程师带你去面试》,出版社:人民邮电出版社,2020
(9)自然语言处理
授课总学时:56;学分:3;课程性质:专业必修课
课程内容概要:通过本课程的学习,使得学生能够较为全面地了解自然语言处理这门学科的各类问题和方法论,主要包括标注、分类和信息提取,句子解析、句法结构识别和句意表达方法等基础知识,学会使用机器学习算法比如支持向量机、朴素贝叶斯分类等算法,深度学习包括循环神经网络、自注意力机制、基于Bert的模型等,完成机器翻译、文本转换、文本分类等自然语言处理领域常见的任务,培养学生提出问题、分析问题和解决问题的能力。本课程额外设置课外线上自主学习学时12学时,实施线上线下混合式教学;线下教学采用问题导向教学、启发式教学等多种教学方法。
推荐教材或参考书目:
[1]StevenBird,陈涛等译《Python自然语言处理》.出版地:人民邮电出版社,2014
[2][美]DanielJurafsky等《自然语言处理综述(SpeechandLanguageProcessing)》.出版地:电子工业出版社,2015
[3]何晗《自然语言处理入门》.出版地:人民邮电出版社,2019
[4]宗成庆《统计自然语言处理》.出版社:清华大学出版社,2013
[5]胡盼盼等,《自然语言处理从入门到实践》,出版社:中国铁道出版社,2020
3.特色课程及简介:
C++面向对象程序设计、数据结构、算法设计与分析、人工智能开发综合设、网络安全、多媒体创作基础。
(1)C++面向对象程序设计(C013110)
授课总学时:56;学分:3.5;课程性质:专业必修课
特色类型:省级精品课程、大规模在线开放课程
课程特色:课程方案符合教育部计算机科学与技术教学指导委员会“高等学校计算机基础核心课程教学实施方案”精神,课程人才培养目标明确,教学理念先进,教学内容体系完整,教学方法及教学过程体现了先进性,具有创新性。教学视频知识点选择恰当,通俗易懂,制作精细;自编教材质量高,被40多所高校使用或馆藏;教师队伍结构合理;教学管理严格,教学特色鲜明。课程以“重实践、强能力、求创新”为目标,教学活动设计强调学生中心,突出学生学习兴趣和实际编程应用能力的培养。课程教学资源建设到位,网络教学资源丰富,能够促进学生和教师互动,满足学生个性化、自主性和研究性学习,有利于创新能力的培养。
课程网址:https://www.xueyinonline.com/detail/2430417(学银在线)
(2)数据结构(C012510)
授课总学时:48;学分:3;课程性质:专业基础课
特色类型:省级一流课程
课程特色:通过本课程的学习,可以从数据结构的逻辑结构、存储结构和数据的运算三个方面去掌握线性表、栈、队列、字符串、数组、广义表、树、二叉树、图和文件等常用的数据结构。掌握在各种常用的数据结构上实现的查找和排序运算。并对算法的时间复杂度和空间复杂性有一定的分析能力。最后能够针对简单的应用问题,选择合适的数据结构及设计有效的算法。
(3)算法设计与分析(C013563)
授课总学时:32;学分:2;课程性质:专业必修课
特色类型:赛学融合课程(程序设计类竞赛、大数据与人工智能类竞赛)
课程特色:本课程主要介绍不同算法的设计思想及其应用,通过对各种算法的介绍让学生掌握对不同的问题要思考不同的解决方法,并同时考虑算法的时间和空间效率问题。该课程对学生继续深入学习计算机前沿课程奠定良好的基础,也适合对参加程序设计类竞赛和大数据与人工智能类的同学加强算法设计能力,对学生的创新能力培养具有很好的促进作用。
(4)人工智能开发综合设计(C017506)
授课总学时:2周;学分:2;课程性质:集中安排的实践教学活动
特色类型:校企合作共建课程
课程特色:本课程将通过一个具体的案例让学生掌握人工智能系统开发的完整过程,是对本专业前期学习成果的综合验证性课程。课程以校企合作方式开展,引入企业真实案例开展教学,使学生在一个特定的场景下完成某一功能的开发,完成该课程将使学生具备初步的人工智能系统开发能力。
(5)网络安全(C015118)
授课总学时:32;学分:2;课程性质:专业任选课
特色类型:省级思政示范课程
课程特色:本课程以网络安全相关法规及网络道德为主线,对学生进行思政教育,主要介绍网络统安全概述,防御策略,信息系统安全要素,保护等级划分准则;信息系统安全体系,主要包括:网络安全技术,包括:对称密码技术、非对称密码体系、访问控制技术、机密性保护技术、完整性保护技术、鉴别技术、数字签名技术、抗抵赖技术、安全审计和报警机制、公证技术等;网络安全实用技术,包括:防火墙技术、入侵检测及预警技术、漏洞检测技术、网络隔离技术、计算机病毒防范;公开密钥基础设施PKI,CA。
(6)多媒体创作基础及应用(C086301)
授课总学时:32;学分:2;课程性质:专业任选课
特色类型:国家级一流本科课程、专业教育与创新创业教育融合课程
课程特色:本课程是国家级一流线上线下混合教学课程。通过本课程的学习,学生能够掌握多媒体创作的基本过程、多媒体工具的使用并完成初步的多媒体作品开发。学习本课程后,学生可以使用相关知识技能参加计算机设计大赛、多媒体竞赛等相关赛事,有利于提高学生的创新创业能力。
4.主要实践性教学环节:包括军事训练、入学教育与安全教育、社会责任教育实践、毕业实习、毕业设计(论文)、创新创业实践、劳动教育理论与实践、数据结构课程设计、Python程序设计课程设计、机器学习与模式识别课程设计、数字图像处理综合实训、计算机视觉综合实训和人工智能综合设计等。
六、课程结构及学时(学分)比例
本专业课程(集中安排的实践教学活动除外)分为通识教育必修课、学科专业基础课、专业必修课、专业限选课、专业任选课和通识教育选修课六大类。课堂教学总学时数(不含集中安排的实践教学活动学时数)为2386学时,其中通识教育必修课为682学时,占28.58%;学科专业基础课为840学时,占35.20%;专业必修课为416学时,占17.44%;专业限选课224学时,占9.39%;专业任选课96学时,占4.02%;通识教育选修课128学时,占5.36%。
本专业规定最低毕业总学分为181学分(含集中安排的实践教学活动学分)。其中通识教育必修课为39学分,占21.55%;学科专业基础课为49.5学分,占27.34%;专业必修课为24.5学分,占13.54%;专业限选课14学分,占7.73%;专业任选课6学分,占3.31%;通识教育选修课8学分,占4.42%;集中安排的实践教学活动(不含课内实验教学)40学分,占22.10%。
AI框架:支撑人工智能产业创新
原标题:AI框架:支撑人工智能产业创新今年以来,大模型带火通用人工智能(AI)赛道。作为人工智能领域的根技术,AI框架相当于AI领域的操作系统。6月16日,以“一起昇思,无尽创新”为主题的人工智能框架生态峰会在上海举行,业界围绕大模型与科学智能领域AI框架技术展开深度交流,共同探讨AI技术创新与行业融合大背景下的AI框架生态模式与场景应用,力图推动人工智能产业创新。
大模型展现产业应用前景
“我是昇思开源社区的一名开发者,‘紫东太初’能否以中国国画的形式现场生成一幅竹林图片?”当一位现场观众提出要求,几秒钟后大屏幕上就出现了一幅竹林水墨画……峰会上,中科院自动化研究所发布的全模态大模型“紫东太初”2.0现场展示的图像生成能力令人惊叹。
除了支持图像生成,“紫东太初”2.0还支持多轮问答、文本创作、3D理解、信号分析等跨模态任务,例如在三维场景里实现精准定位、通过图像与声音的结合完成场景分析等。
中科院自动化研究所所长徐波介绍,“紫东太初”全模态大模型是在多模态大模型“紫东太初”1.0基础上升级打造的2.0版本,在语音、图像和文本三模态的基础上,加入视频、信号、3D点云等模态数据,突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力。
“紫东太初”2.0可以理解三维场景、信号等数字物联时代的重要信息,完成了音乐、图片和视频等数据之间的跨模态对齐,能够处理音乐视频分析、三维导航等多模态关联应用需求,并可实现音乐、视频等多模态内容理解和生成。本届峰会首次对外实时展示了该模型在音乐理解与生成、三维场景导航、信号理解、多模态对话等方面的全新功能。
“从1.0到2.0,‘紫东太初’大模型打通了感知、认知乃至决策的交互屏障,使人工智能进一步感知世界、认知世界,从而延伸出更加强大的通用能力。”徐波说。
目前,“紫东太初”大模型在神经外科手术导航、短视频内容审核、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域展现出一定的产业应用前景。例如在医疗场景,“紫东太初”大模型部署于神经外科机器人MicroNeuro,可实现在术中实时融合视觉、触觉等多模态信息,协助医生对手术场景进行实时推理判断。
据徐波介绍,基于“紫东太初”2.0的全栈国产化、低代码一站式开发的“紫东太初”开放服务平台已上线,支持公有云、私有云一键部署,使能行业大模型高效率开发。“未来3至5年,包括‘紫东太初’在内的我国大模型技术,将在促进数字经济发展方面发挥重要作用,进一步提升各行业的劳动生产率。”
AI框架支撑大模型“快跑”
“从算法到硬件、算力,‘紫东太初’都是‘中国造’。”中科院自动化研究所紫东太初大模型研究中心常务副主任王金桥介绍,大模型算法为中科院自动化研究所自研,以国产化人工智能硬件和框架作为基础,算力则由武汉人工智能计算中心提供支持,“在国产软硬件的支撑下,我们的大模型一样能跑得很好、很快。”
支撑“紫东太初”的人工智能框架正是华为公司的昇思。据昇思开源社区理事长丁诚介绍:“人工智能框架是人工智能技术体系的核心中坚,向下赋能多样化算力,通过高效调度发挥系统最佳性能;向上孵化各类创新算法模型,给用户提供便捷的操作接口。”
本届峰会上,上海昇思人工智能框架和大模型创新中心正式启动。该创新中心的定位是以华为公司的人工智能框架昇思为基础,支持全国范围的人工智能技术企业、高校与科研院所孵化大模型、研究科学智能技术,进而在互联网、金融、教育等关键产业方向上打造富有竞争力的人工智能应用场景,推动产业集聚。上海人工智能实验室、上海交通大学、中国商飞上海飞机设计研究院、中国科学院上海药物研究所、云从科技等首批22家单位正式入驻创新中心。入驻单位将联合昇思开源社区进行大模型创新与人工智能产学研转化,助力创新中心成为人工智能技术与应用创新的“发源地”。
展开全文数据显示,华为昇思自2020年3月28日开源以来,社区已累计1.3万贡献者、474万下载量,服务企业数量5500家、开源模型400多个,与240家科研院所展开合作,发表顶级会议论文超过900篇。具体来看,昇思一方面依托大模型和科学智能创新成果,成立了遥感、流体、多模态三大产业联合体,加速技术成果转化;另一方面向端、边、云全场景开放,适配国内主流的人工智能芯片和硬件设备超过20款。
峰会上,丁诚介绍了昇思开源社区面向未来的四大创新方向,包括基于“构建大模型全流程使能、科学计算新范式”的技术创新,以加速AI新应用的孵化;基于“大模型平台、StudyGroup、极客周、全球开源生态”的运营创新,让社区成果更高效地推广到用户;基于“面向学习、成长、研究的不同阶段开发者提供不同培养模式”的人才创新,培育AI产业土壤;以及基于“建立产业联合体、行业专区等新手段,持续完善多样化算力和硬件支持”的生态创新。
“科学智能”成下一个“爆点”
“作为后发框架,要想技术超越或者领先,核心就是找到AI技术变革的下一条新赛道,只有当新赛道出现的时候才有超车的机会。”丁诚表示。
相对于国际上较早开源的AI框架,昇思的确是后来者。早在三年之前,昇思就开始布局大模型技术,也获得了一系列大模型原生生态创新成果。那么在下一个时代,新赛道是什么?答案很可能是“科学智能”。
“在每一个科学问题里可能都包含着一个基本的数学方程。例如在流体力学计算中会大量消耗算力,但其实数学原理很简单,就是一个纳维-斯托克斯方程的求解。如果用传统方法计算可能需要几十年、上百年算不完的问题,用AI的方式就有可能10倍或者100倍地加速求解。”丁诚解释。
据业内人士介绍,从最新的国际顶级期刊不难发现,从人工智能驱动的蛋白质功能机理探索和理性设计,到基于人工智能的药物发现和药物优化,从酶改造与生物基化学品的生成,再到科学育种与气象预测——不论是微观世界的多尺度探索,还是宏观、微观科学成果的应用,人工智能求解高维函数、解决复杂问题的优势正在持续释放。从生命体的基本组成到世界工业的基本要素,人工智能不仅是解决具体问题的有力工具,更成为重新定义科学问题的系统性思路。
本届峰会上,中国科学院张东辉院士的主题演讲《关于昇思MindSpore在计算化学中应用的设想》介绍了与昇思团队合作研发高性能水团簇分子势能模型,借助AI之力揭示水的种种特性。
“在昇思发布的2.0版本当中提出了科学计算融合架构,目的就是在这个新赛道里获得更多的技术领先机会,打造自己的原生生态。”丁诚表示。
经济参考报
编辑/范辉返回搜狐,查看更多
责任编辑: