开源推动大数据新兴技术不断涌现
大数据新兴技术不断涌现,让我们更容易更精准的从海量繁杂的数据中提取有用价值。开源作为一种推动大数据技术创新的新模式,正广受技术开发人员的热爱。
一、大数据市场前景无限近年来,我国大数据政策频频发布,2014年“大数据”的概念首次正式写入《政府工作报告》,其后的2015年是大数据政策顶层设计年、2016年政策细化落地,国家发改委、环保部、工信部、国家林业局、农业部等均推出了关于大数据的发展意见和方案,2017年,大数据产业的发展正从理论研究加速进入应用时代,大数据与前沿科技的结合也越来越紧密。2017年,***明确要求实施国家大数据战略,加快建设数字中国。随着一系列利好政策的发布,大数据创业公司不断涌现,风险投资等机构也在追逐这个行业。大数据领域的创新创业变为常态,形成了大数据领域创新的力量。
大数据作为一种不会枯竭并且不断增值的重要的资源,是经济社会发展的重要推力,市场前途不可限量。从2014到2020年我国大数据市场规模不断扩大,其中2017-2018年正是市场高速成长期,大数据龙头企业较多,小微企业也分得庞大市场中的一杯羹。大数据产业整体蓬勃,未来向好。
二、开源推动大数据技术创新开源,就是开放源码,意味着免费和自由的进行二次开发,如当下最为广泛使用的hadoop生态系统。开源大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。通过开放式的平台,吸引全球开发者集智共谋技术发展,开源将成为大数据技术创新的主要模式。目前,大数据分析处理流程中所使用的关键技术几乎都源自开源模式。
开放源代码对人工智能、区块链等前沿科技都具有重要影响力。源代码与这些高技术的结合点颇多,创新创业机会较多,研发项目在不断涌现。
国际上较受欢迎的开源大数据项目:
1.OpenCog和OpenCogPrime
2018年尖端技术潮流的一个典型例子——OpenCog项目被设计为面向虚拟和机器人功能的体系结构。用Python、C++和Linux上Scheme编写,与匹配一般智能和超越人类级别的目的相联系。还致力于实现其更加实际的研究和开发目标,同时精简其开源产品以实际应用。
2.Hyperledger
Hyperledger是在2015年由Linux基金会建立的,该项目最终目标是提供一系列开源的区块链和其他有用元素的工具箱。作为一个顶尖的科技趋势,区块链在2018年的最热门领域中备受瞩目,Gartner将其列入今年企业的最高战略趋势。
3.Kubernetes
Kubernetes是一个开源系统,专为部署自动化和容器化应用程序的管理而设计。随着谷歌的播种,该系统现在处于云原生计算基金会的管理之下。Kubernetes最引人注目的,是它与Docker合作密切。Kubernetes也得到了广泛和高调的推动,被Pivotal、RedHat、OpenShift和IBM等公司支持。
4.TensorFlow
TensorFlow也许是最知名的开源项目,谷歌是该项目的主要倡导者,现已衍化为一个软件库,可以用于编程和数据流的目的,为广泛的用例提供服务。该项目还涉及当前的热门技术趋势,即机器学习,虽然这项技术并非是一个新事物,但随着在追求一系列不同结果时变得越来越受欢迎,这种技术一直在获得牵引力。
5.Vault
Vault是开源项目另一热点领域,提供了一种在传输过程中加密数据的工具,并且除了对其它信息进行一般安全管理之外,还越来越关注GDPR的相关修订。Vault的制造商还强调撤销功能是最大的亮点,有效保护有价值的数据。随着信息安全问题的不断加剧,Vault已成为十分重要的开源项目。
我国较突出的开源大数据项目:
1.百度——希望获得开发者青睐的“PaddlePaddle”
2016年9月1日,国内第一个机器学习开源平台PaddlePaddle诞生。
PaddlePaddle能在多GPU,多台机器上进行并行计算。相比现有深度学习框架,PaddlePaddle对开发者来说有易用性、快速等优势。许多资深开发者认为PaddlePaddle的设计理念与Caffe十分相似,怀疑是百度对标Caffe开发出的替代品。业内对PaddlePaddle的总体评价是“设计干净、简洁,稳定,速度较快。
2.腾讯——面向企业的“Angel”
Angel将成为PaddlePaddle之后、BAT发布的第二个重磅开源平台。Angel是面向机器学习的分布式计算框架,它为企业级大规模机器学习任务提供解决方案,可与Caffe、TensorFlow和Torch等业界主流深度学习框架很好地兼容。“Angel采用多种业界最新技术和腾讯自主研发技术使得Angel性能大幅提高,达到Spark的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。”
3.阿里巴巴——犹抱琵牌半遮面的DTPAI
阿里在2015年就宣布了数据挖据平台DTPAI,DTPAI将集成阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等等。其次,与百度、腾讯一样,阿里也很重视旗下产品的易用性。阿里ODPS和iDST产品经理韦啸表示,DTPAI支持鼠标拖拽的编程可视化,也支持模型可视化;并且广泛与MapReduce、Spark、DMLC、R等开源技术对接。
4.山世光——大陆学界硕果仅存的SeetaFace
SeetaFace基于C++,不依赖于任何第三方的库函数。作为一套全自动人脸识别系统,它集成了三个核心模块,即:人脸检测模块、面部特征点定位模块以及人脸特征提取与比对模块。SeetaFace将供学界和工业界免费使用。它的开源,有望帮助大量有人脸识别任务需求的公司与实验室,在它们的产品服务中接入SeetaFace,大幅减少开发成本。
三、开源大数据的发展趋势开源让越来越多的项目可以直接采用大数据技术,不断的推动着大数据的创业创新,赛智时代分析师认为未来开源大数据将向以下三个方向发展:
1.容器技术愈受欢迎
容器技术能够使代码在任意环境中快速地“接入并运行”,降低企业时间和资金成本。其速度和灵活性能够决定促使业务成功开展。
2.Hadoop与Spark应用增加
据福瑞斯特研究显示,Hadoop正以32.9%的速度增长。由于其可以降低企业成本且可以快速改进,很多企业表示会继续扩大相应的技术应用,所以未来Hadoop将会更加普及。而另一位后起之秀Spak在迭代计算上具有比Hadoop更高的效率并且数据集操作类型的开发更广泛,未来的广泛应用也是指日可待的。
3.智能开源技术的应用更深入
人工智能正慢慢普及,全新的智能开源解决方案将改变人们和系统交互的方式,转变由来已久的工作观念,加深行业大数据的应用。
目前,我国开源产品较国外来讲水平不是很高,更多的时候国内的企业还只是开源的使用者和借鉴者,还没有到发明创造的阶段。虽说技术的发展是全球化的,技术开发的交互性促进了技术的不断突破,然而我们却不能过分依赖于“拿来主义”,赛智时代分析师认为,抵制以低成本换来高性能的产品或系统的诱惑,加大我国创业团队的研发投入,保持持续的自主创新才能稳定国家产业的发展。
人工智能+3D打印,做出一口好“牙”
20年前,我国在口腔数字化修复领域的相关产品基本依赖进口。现在,国产关键技术产品不仅填补了国内空白,部分达国际领先水平,而且还实现了中国自主高端口腔医疗技术装备在全球牙科市场“零”的突破。
孙玉春 北京大学口腔医学院口腔医学数字化研究中心副主任、主任医师
近日,在2021年中关村论坛上揭晓的2020年度北京市科学技术奖中,北京大学口腔医院联合南京航空航天大学等机构,凭借“复杂口腔修复体的人工智能设计与精准仿生制造”共同摘得北京市技术发明一等奖。
“近30年,数字化技术在全球口腔修复领域的应用越来越深入和广泛,但我国在该领域的基础研究与产品开发一度严重缺乏国际竞争力,义齿三维设计软件、专用打印机、氧化锆材料等产品基本依赖进口,设计算法、打印工艺、材料制备工艺等核心技术不足。”北京大学口腔医学院口腔医学数字化研究中心副主任、主任医师孙玉春教授告诉科技日报记者,为改变这一现状,自2001年开始,他联合国内院校和企业,从最具挑战的全口义齿入手,到可摘局部义齿、固定义齿,不断进行研发、试错。
如今,团队原创研发的复杂口腔修复体人工智能设计软件、专用3D打印工艺设备和仿生氧化锆材料,已经可以让“数字化义齿”的修复,变得高效、舒适且美观。
数字化技术用于义齿修复成研究热点
根据《第四次全国口腔健康流行病学调查报告》(2018),我国35岁以上成人平均失牙4.7颗,各年龄组缺损、缺失牙齿达数十亿颗。口腔修复体、义齿即假牙,是目前人类重拾咀嚼功能的有效帮手。
“上世纪七八十年代,一位法国教授首先将数字化技术应用于牙科。”孙玉春介绍,近30年来,数字化技术在全球口腔修复领域的应用越来越深入和广泛,以计算机辅助设计、计算机辅助制造技术为代表的口腔数字化修复技术,在固定修复、种植修复和可摘局部义齿修复方面的慢慢发展成熟,修复诊疗的效率和精度也在不断提高。
近年来,将数字化技术用于全口义齿修复成为研究热点,国际上先后涌现出十余种数字化全口义齿修复系统。不过,孙玉春透露,由于制模、记录颌位与全口义齿设计技术难度仍然较高,导致义齿设计效率和智能化程度不高。
“判断义齿疗效的关键,是义齿的设计制造精度与仿生匹配度。”孙玉春表示,进入21世纪,人们看到了人工智能在口腔医学领域的价值。人工智能最初用于口腔诊断,但现在已经广泛应用于三维扫描、计算机辅助设计、计算机辅助制造、仿生材料设计,它可以提高义齿的设计效率和仿生度,让义齿与患者更匹配,同时减少传统手工设计、制造、精调人力成本。
1000多副手工模型建成数据库
但义齿的三维设计,长期依赖于欧美国家基于解析几何算法的CAD软件,这种软件聚焦于每一颗牙齿单独设计,应用难度大且效率低。
将近10年的时间,孙玉春常常利用国外软件排列每一颗义齿的位置,但他发现,始终没有国内义齿技工大师排得好。
差异来自不同的技术路线,“用欧美软件设计时,要用鼠标对每颗牙齿的空间位置、姿态和三维形状进行逐个交互式调整,每颗牙齿需要考虑上下左右前后6个自由度,全口28颗牙齿需反复调整168个自由度。而传统技师是靠多年积累的手工排牙经验和操作技巧排牙,想用鼠标和键盘模仿,难度极大。”孙玉春说。
快要放弃时,孙玉春灵光一现,“何不把中国技师做好的义齿看成一个整体,再根据每个患者的个体情况,整体调整义齿的三维外形参数?这就像盖房子,把以前一块一块垒砖,变成整栋房子迁移,而这个房子又可以根据环境自适应变形。这样也许就可以突破国外软件设计效果和效率的瓶颈”。
孙玉春团队将北大口腔医学院最初积累的1000多副义齿模型扫描进电脑,进行数据建模。利用这1000多副模型,团队最终提出基于面部中线、口角线、唇高低线、牙颌弓曲线(宽度、深度、曲度)等10余个关键变量的权重指标体系,根据这些指标采集患者的信息,几秒钟就能在数据库中找到最适合当前患者的标准义齿模板。
现在,他们的数据库里已经有全国近20万副义齿模型。“目前在国内有约570家义齿加工厂在用,每天可以设计1700多副义齿模型。”孙玉春说。
探索最适合的齿形结构3D打印参数集
虽然设计义齿的效率提升了,但要把设计图变成真切的义齿,还面临很多困难。
早期欧美进口的金属3D打印装备为单激光扫描,排版设计过程过于繁琐、智能分析判断能力不足,需要大量的手工调整和打磨后处理操作,导致制造精度效率低、材料浪费大。
“打印工艺是3D打印的灵魂,有那么5年时间,我在办公室一字排开5台打印机,每天不停地打印各种临床需要的制品,光打印材料就用了约300公斤,最终摸索出最适合齿形结构的专用3D打印工艺参数集,例如打印的角度、打印速度,层间重叠率、材料填充率、打印温度等。”孙玉春说,团队原创了3D打印自动化排版切片工艺软件,率先研制出3套口腔专用的单/双激光金属3D打印装备和物联网运维平台3D云,通过分类和模式识别算法优化姿态调整和支撑添加,对精度要求更高的关键局部结构做自动的特殊工艺设定,突破了金属3D打印悬垂面精度限制,实现了设备总体打印精度与国际同类设备持平,但关键局部打印精度优于国际同类设备水平的突破。
“当时用国外典型的打印机打印出的义齿关键局部的精度只有100—150微米,但用我们的打印机可以达到30—50微米。”孙玉春说。
叠层处理材料让义齿更逼真
从牙尖到牙根,颜色、透明度、硬度是渐变的,如何制备出仿生的材料用于人工智能设计和精细的制造工艺?
氧化锆是制造义齿的主要材料。“欧美日长期掌握着口腔氧化锆材料制备的尖端技术,但他们早期生产的氧化锆材料只有单一的颜色、透明度、硬度,力学、美学均与天然牙齿硬组织‘失配’,这也是全球牙科陶瓷材料领域的研究热点和难点。”孙玉春指出,为了让义齿从上到下呈现不同的颜色、透明度、力学性能,科研团队对氧化锆材料叠层处理,每一层都暗藏玄机。
“我们将含有不同比例氧化钇的6种氧化锆,按照一定结构压在一起,在每层建立一种双向梯度渗透的仿生界面,这个界面模仿天然牙齿的绞釉层,使义齿在制造和烧结时,不会发生层间断裂和制造精度下降。”孙玉春说,这套技术在一定程度上解决了义齿咬合面的硬度、弹性模量远高于天然牙釉质的难题,提升了口腔氧化锆修复体与余留天然牙齿在功能、美学上的仿生匹配度。
如今,经由这套解决方案研发出的8种产品,均可完全替代进口并已出口海外,仿生氧化锆材料产品已经推广到全球120多个国家,每年可生产近千万颗义齿。
“20年前,我国在口腔数字化修复领域的相关产品基本依赖进口。现在,国产关键技术产品不仅填补了国内空白,部分达国际领先水平,而且还实现了中国自主高端口腔医疗技术装备在全球牙科市场‘零’的突破。”孙玉春说。