行业动态:人工智能大数据与机器学习在预测人群营养素水平中的应用
1.基于机器学习的人体营养素水平预测分析流程
机器学习指研究如何从数据中学习建立有效模型,进而对未来作出预测的方法[5]。换句话说,机器学习就是使用正确恰当的特征,构建或筛选出正确恰当的模型,以完成既定的预测任务。因此,明确目标、特征及模型,是开展机器学习的三大基础。在营养素水平预测中也是同理。
1.1目标
明确任务目标,是机器学习的关键,指导我们选择合适的算法。在营养素水平预测领域,任务目标就是对人体营养素水平做出预测。对于已明确目标的数据,通常使用的是“有监督”的机器学习,也就是因为训练数据中含有目标变量(即人体真实的营养素水平),我们模型输出的是对目标变量的直接估计,或者是提供关于目标变量最可能的估计。在监督式学习中,对于定性问题(如预测维生素D的状态)可用分类算法,对于定量分析(如预测人体血液硒的水平)可用回归方法。
1.2特征
在建立预测模型之前,通常已经收集到了大量的数据集,这些数据集可能存在大量的特征,特征之间可能存在相关性,还有可能存在冗余的特征。为了提升建模效率,获取区分度更好的特征,需要对数据集进行降维处理,以得到最优子集,这个过程也被叫作特征选择。
特征选择的常用方法通常可分为三类:直接选择法、单变量特征选择、多变量特征选择。直接法就是我们通过流行病学调查以及以往的文献,确定影响人体营养素水平的一些关键变量。一般来说直接法是指我们对变量所做的简单预处理。单变量特征选择,是对每个特征依次进行评价,然后排除不满足要求的特征,以达到筛选特征的目的。常用的算法还包括:Pearson相关系数法、距离相关系数法、单因素方差分析法、信息增益法、卡方检验法、Gini系数法。
如著名的集成算法XGBoost[6]就是基于信息增益进行特征的选择。多变量特征选择是一次性针对多个变量,通过评价各个组合的拟合得分,最终选择最优的特征组合,作为多变量特征的筛选结果。例如传统的逐步回归,机器学习中的遗传算法等都是通过多变量特征选择变量。
1.3建模
监督学习和无监督学习是机器学习的两种基本方法[7]。在机器学习中,我们通常处理的是目标变量和预测变量。目标变量就是我们的人体的营养素水平,预测变量就是我们筛选的影响营养素的一些因素(即上述的特征的选择)。监督学习包括目标变量及若干预测变量的使用,将这些预测变量放入模型中后可以通过系统预测目标,称之为预测模型化。无监督学习没有目标变量。在营养素水平预测方面使用较多的是监督学习,常用的如弹性网络、随机森林、支持向量机(SupportVectorMachine,SVM)等。训练模型前,一般把数据集分为训练集和测试集,然后利用训练集不断的对模型超参调优,确定合理的模型参数。模型建好后,需利用测试数据对模型进行测试和评估,测试模型的泛化能力。
图1.营养素机器预测流程
2.基于机器学习的人群营养素诊断及预测
机体维生素和矿物质含量对于维持机体健康、预防多种疾病具有至关重要的作用。目前,维生素D的缺乏和不足是一个全球性的健康问题,其缺乏不仅影响肌肉骨骼健康,还广泛影响多种急性和慢性疾病,如某些癌症、自身免疫性疾病、2型糖尿病、心血管疾病、神经认知障碍等[8-10]。硒也是一种具有重要生理功能的营养素,具有抗氧化的特性,可以保护机体免受自由基和致癌因子的作用,但其在缺乏和有毒剂量间的安全范围相对狭窄[11-13]。实现对机体营养素水平的预测评估对于改善公众健康具有重要意义。
随着大数据和人工智能的发展日益成熟,机器学习逐渐延伸到医疗卫生领域。基于机器学习算法,利用个体问卷信息和实验室数据构建评估模型,可实现对个体营养素水平的智能预测及诊断。目前结合流行病学数据、营养干预数据和膳食营养调查,建立机器学习评估模型,可有效评估人群中单一营养素的水平,通过模型预测实现单一营养素补充的个性化推荐。
2.1维生素D水平的诊断以及预测
维生素D是一种脂溶性维生素,它能够促进钙的吸收和骨骼矿化[14],在肌肉、免疫系统和心血管系统等方面亦有调节作用[15,16]。维生素D缺乏是全球范围内需要共同面对的公共卫生问题[17]。全球约有10亿人维生素D缺乏和不足[18-20],发展中国家的形势更为严峻[21]。先前合作团队在中国卒中一级预防研究基础上,开展进一步巢式病例对照研究(CSPPT-NCC),探索了维生素D与癌症风险的关系;结果表明维生素D与人群癌症风险密切相关,中国的高血压人群中,较低的维生素D患者有更高的总癌症发生风险[22]。目前维生素D评价指标为血清25-羟基维生素D[23],难以大范围覆盖全人群,因此利用机器学习算法构建预测体内水平,实现简单、科学地评估个体的维生素D营养水平,具有重要意义。
我们利用合作团队先前探索的中国卒中一级预防研究:巢式病例对照研究(CSPPT-NCC)人群数据,利用机器学习算法中的弹性网络算法建模,预测对人群维生素D的缺乏情况,其中女性人群的分类正常率最高达70.23%,AUC最高为0.740;女性人群的分类正常率最高达75.04%,AUC最高为0.762。
2.2血浆硒水平的诊断和预测
既往合作团队在脑卒中一级预防研究(CSPPT)中探索了血浆硒水平与新发糖尿病之间的关系,结果表明血浆硒含量高(≥94.8ng/mL)与高血压患者新发糖尿病的风险增加有关[24]。本研究团队以CSPPT数据为基础,利用了XGboost算法建模以预测人群中血浆硒水平。在男性中,所构建的预测模型在训练集中的均方误差(MeanSquaredError,MSE)为328ng2/mL2,在验证集中的MSE为350ng2/mL2;在女性中,所构建的预测模型在训练集中的MSE为287ng2/mL2,在验证集中的MSE为298ng2/mL2。在男性和女性模型中,舒张压、年龄、季节和BMI为影响最重要的四个因素。
图1.基于XGboost算法预测血浆硒水平真实值与预测值散点图
图2.基于XGboost算法预测血浆硒水平模型变量评分
2.3血浆多种维生素水平的诊断和预测
维生素是可以维持人体健康,一般在体内不能够合成或者合成量比较少,不能够满足人体基本需要,所以往往存在多种维生素缺乏的状况。目前,我国多数人群服用复合维生素,而复合维生素的成分及含量往往较为固定,不能够根据个体的缺乏情况进行精准的维生素补充。机器学习算法,通过对已知人群特征等预测变量并调优参数进而预测多种营养素水平。
我们利用合作团队先前探索的中国卒中一级预防研究:将人群中超过三种及以上营养素缺乏或过量定义为营养素不均衡,采用随机森林法构建模型并用K折交叉法验证模型。经过算法调优后,结果显示:其中男性人群的AUC为0.657;女性人群的AUC为0.591。弹性网络模型给出了不同性别前10位变量重要性排序(见图4c,4d)。
性别变量重要性排名
3.总结与展望
全球普遍存在人体微量营养素不均衡现象,而营养素不均衡是导致生长不良,智力障碍,围产期并发症以及发病率和死亡率增加的常见原因,因此进行营养干预至关重要[27]。机器学习是人工智能领域中一种新方法,为精准预测提供了新的研究思路和方法,可以对大量输入数据的特征标识进行有效学习。机器学习算法有传统的逻辑回归、决策树,以及在此基础上延伸出的XGBoost、弹性网络、SVM等。已有学者利用这些模型开展疾病预测研究,并且取得了较好效果。
弹性网络为整合了的套索回归和岭回归的正则回归模型。本研究中利用这一方法建立的男性模型和女性模型中,季节均为影响人群维生素D水平的最大的因素,这与既往研究结果一致[21,23,28];然而男女模型中其他变量的排名和评分各有差异,提示不同性别人群的维生素D缺乏或过剩风险各异,进而有必要采取精准营养评价和个性化补充干预的策略。一项欧洲的病例-队列研究表明,在心脑血管高风险人群中,弹性网络法可以准确地预测二型糖尿病的发生风险预测,AUC达到0.875[29]。本研究通过参数优化、增加预测变量及提高样本量完善了这组模型,进一步提升了弹性网络法建立的整合模型对人群维生素水平的预测价值及其推广价值。
XGBoost模型的实际应用已经有很多方面的实例,基于XGBoost算法可以精准地预测疾病发生风险及其对应的营养素水平[30,31]。Dong等人[31]采用XGBoost模型预测孕妇25-羟基维生素D浓度,训练集的AUC为0.828,测试集的AUC为0.807,预测效果较好。本研究针对预测模型普遍存在预测值低于真实值的情况,通过进一步优化参数和增加数据量,使模型更加完善,以更好地对人群中血浆硒水平进行预测评估。
本研究首次应用机器学习算法预测了多种维生素水平,男性人群及女性人群的AUC分别为0.657和0.591,因此机器学习算法预测性能仍有待于进一步优化。本研究中将三种及以上的营养素缺乏或过剩定义为营养素不均衡,有关多维营养素不均衡的标准仍需要进一步研究探讨。最后,本研究采用弹性网络预测模型,在预测模型的选择及调优参数上,还需要根据数据集特征开展进一步探索,用以训练出预测多维营养素水平性能最优的模型。
基于XGBoost和弹性网络的机器学习模型预测营养素水平,可以为营养素的个性化推荐提供更深层次的理论基础和特征变量评价。但是本研究目前仅限于中国人群,由于营养素吸收代谢可能具有种族的差异性,从而使本研究的结果外推到其他种族的能力受限。因此,需要在更大样本量的多种族人群中继续做进一步研究;其次,本研究样本量较小,结果的应用价值有待于在更大样本的、多中心的外部人群中加以验证,以保证模型的准确性与可靠性;最后,本研究预测变量的维度和数量有限,在一定程度上限制了机器学习算法的优势;因此,仍需要纳入更多变量,进一步优化模型。
美国“精准营养计划”指出要基于机器学习和人工智能算法开发新工具,来实现精准化和个性化的营养状态评估和营养干预。通过健康大数据的不断积累,能够让机器学习精度不断提升和优化,实现“积累-迭代-引领-回馈”的良性循环,不断为人民提供更先进更科学的营养评估模型。随着中国大数据相关的基础设施和评价技术的普及,采用机器学习算法构建的预测模型,不仅可以提升对患者的精准风险分层与管理、优化医疗资源配置,而且还可以进行自我营养管理。因此人工智能算法在指导国人个性化营养补充方面具有广阔的应用前景。(参考文献略,来源中国营养保健食品协会)
返回搜狐,查看更多