当前位置:首页 > 高端制造 > 正文

数据融合技术在中药研究领域的应用

1数据融合技术概述1.1定义1.2分类1.2.1以融合方式分类1.2.2以应用方式分类从应用方式来分类,数据融合可分为物理模型、特征技术推理模型及感知模型3类,分类及相应的算法[16-17]如图2所示。物理模型将目标对象的实际采样数据与各物理模型或预先存储的目标信息进行匹配,以此实现研究对象的识别和...

1数据融合技术概述1.1定义1.2分类1.2.1以融合方式分类1.2.2以应用方式分类从应用方式来分类,数据融合可分为物理模型、特征技术推理模型及感知模型3类,分类及相应的算法[16-17]如图2所示......


1数据融合技术概述1.1定义1.2分类1.2.1以融合方式分类


1.2.2以应用方式分类

从应用方式来分类,数据融合可分为物理模型、特征技术推理模型及感知模型3类,分类及相应的算法[16-17]如图2所示。物理模型将目标对象的实际采样数据与各物理模型或预先存储的目标信息进行匹配,以此实现研究对象的识别和分类,多采用仿真、估计及句法等技术。特征技术推理模型是最常用的数据融合技术,该技术把目标对象的特征数据或统计信息映射到识别空间,然后对识别空间中的数据进行分析处理,据此可分为基于参数和基于信息论的2种方法。感知模型通过模拟人类处理问题的过程来实现自动制定策略,常见方法包括逻辑模板、基于知识的专家系统以及模糊集理论。


1.3算法

卡尔曼滤波[20]是一种最优化自回归算法,对于解决大部分问题都可以得到最优解,应用方式包括简单卡尔曼滤波器、扩展卡尔曼滤波器、高斯混合滤波器及交互式多模型滤波器等。极大似然估计[21]是利用已知的样本结果信息,反推最大概率导致这些样本结果出现的模型参数值,即先假定其具有某种确定的概率分布,但是其参数未知,然后基于训练样本对概率分布的参数进行估计。最小二乘法[22]是一种通过最小化误差的平方和来寻找数据的最佳函数匹配,简便地求得未知的数据,并使求得的数据与实际数据之间误差的平方和为最小的数学优化方法。

聚类分析[23]是一组将研究对象分为相对同质的群组的统计分析技术,包括系统聚类、动态聚类、有序样品聚类、模糊聚类等,常采用K-均值、K-中心点等算法来实现。人工神经网络[24]是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法模型,该模型依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到信息处理的目的。

数据融合方式及算法的选择通常高度依赖于采集的数据结构、数据属性和已开发的应用程序,因此没有一种方法可以通用,并不是高级数据融合一定会优于中级和初级融合,因此在数据融合之前,应针对不同的数据源筛选不同的数据预处理方法及融合算法[7]。

1.4多变量模型

完成数据融合后,开发适宜的多变量模型用于最终的决策非常重要,常用的多变量模型包括主成分分析(PCA)、层次聚类分析(HCA)、偏最小二乘-判别分析(PLS-DA)、正交偏最小二乘-判别分析(OPLS-DA)、支持向量机(SVM)、人工神经网络(ANN)、卷积神经网络(CNN)、随机森林(RF)、K最近邻算法(KNN)、决策树、机器学习(ML)、深度学习(DL)、线性判别分析(LDA)、二次判别分析(QDA)、逻辑回归(LR)等,模型性能多通过SEN、SPE和ACC来评价[25]。其中,SEN表示模型正确识别属于目标类别样本的能力;SPE表示模型拒绝属于其他类别的样本的能力;ACC也称为效率,是结合SEN和SPE的度量,表示模型正确识别能力的大小。

SEN=真阳性/(真阳性+假阴性)

SPE=真阴性/(真阴性+假阳性)

ACC=(SEN×SPE)1/2

2数据融合技术在中药研究领域的应用2.1中药基原鉴别

厚朴为木兰科植物厚朴或凹叶厚朴的干燥干皮、根皮及枝皮,无法根据外观特征来区分,采用扩增片段长度多态性(amplifiedfragmentlengthpolymorphism,AFLP)分子标记技术鉴别2种基原也未成功[27]。为了解决这一难题,Jing等[28]基于电子鼻(e-nose)、电子舌(e-tongue)和8种指标成分(木兰花碱、木兰苷A、木兰苷B、和厚朴酚、厚朴酚、辣薄荷基厚朴酚、厚朴碱、β-桉油醇)数据进行数据融合,建立LDA和QDA模型来鉴别2种厚朴基原,结果表明低级融合与LDA结合的鉴别能力优于融合前3种方法;中级融合与LDA结合的鉴别能力(ACC达到100%)显著优于与QDA结合(ACC在96.67%~98.33%),说明电子鼻、电子舌和多指标成分数据的中级融合结合LDA是鉴别2种厚朴基原的有力工具。

2.2中药产地溯源与鉴别

不同产地的中药品质具有显著差异,建立特异、灵敏、准确的中药产地溯源与鉴别方法是目前中药研究领域的热点与难点之一。中药的产地溯源与鉴别方法主要包括基于传统经验、显微特征、指标成分或有效成分差异及色谱、光谱、生物(如DNA)指纹图谱差异等的鉴别方法,但这些方法的SEN、SPE及ACC均难以令人满意,目前学术界仍在寻找更佳的中药产地溯源与鉴别方法。数据融合能够同时融合多维中药特征数据,整合各种地理及质量特征来提高产地溯源的准确性。


总结可知,数据融合结合多变量模型用于中药产地溯源与鉴别具有明显优势,SEN、SPE和ACC均得以大幅提高,相关分析策略是有效和值得推广的。还可以看出,数据融合依赖于源数据的属性,并没有一种融合方法可以通用,并不是高级数据融合一定优于中、初级融合;所建立的多变量模型也会影响决策结果,也没有一种模型可以通用;不同源数据对于融合结果的贡献是有区别的,在融合之前应针对不同数据源采用不同的数据预处理方法。

2.3中药质量控制与评价

中药质量控制的核心难点在于确定能够科学、合理、全面反映其内在质量的质量标志物(qualitymarker,Q-Marker),目前常用的Q-Marker包括单一或有限的有效成分、指标性成分、有效部位、浸出物等。为了筛选科学、合理、全面的Q-Marker,目前采用的常用方法有药效成分筛选法、指纹图谱法、谱效关系法、网络药理学法等[51-52]。Liao等[53]为了确定中成药脑得生(片/胶囊/颗粒)的Q-Marker,采用数据融合技术将5个不同波长(210、238、250、275、322nm)下的特征多波长超高效液相色谱(UPLC)指纹图谱生成单一的融合UPLC指纹图谱,并结合抗氧化活性筛选Q-Marker,所建模型包括HCA和PCA,最终确定了11种成分作为脑得生的Q-Marker。

该研究证明了多波长融合UPLC指纹图谱结合生物活性筛选Q-Marker的可行性,其优势在于多波长融合UPLC指纹图谱所反映的化学成分类型更为全面,不容易造成活性成分的遗漏,且结合生物活性较单纯基于化学成分的筛选方法更为科学及可靠。多年生中药普遍存在,不同生长年限中药的鉴别和质量控制是中药质量评价的重要内容。当前,由于生长激素、肥料等的过量使用,许多多年生中药被人为缩短生长年限,虽然产量提高,但质量与安全性备受全社会质疑。

数据融合技术在快速测定方面也具有显著优势,如Wu等[55]分别采用ATR-FTIR、RS及ATR-IR与RS融合光谱建立了联合区间偏最小二乘法(synergyintervalpartialleastsquares,siPLS)、SVM和PCA模型用于快速测定黄酒总抗氧化能力和总酚含量,结果表明基于RS的模型性能优于ATR-IR,融合光谱的SVM模型优于基于相同信息的siPLS模型和基于ATR-IR或RS光谱的siPLS模型,说明融合光谱可以明显提高测量精度。数据融合技术用于中药质量控制与评价的其他典型研究见表1。

2.4中药加工炮制研究

加工炮制对中药的有效性、安全性均有重要影响,尤其对于含有毒性、烈性成分或通过炮制改变作用的中药。中药加工炮制的核心在于严格的过程质量控制(IPQC),科学、合理的IPQC是产品质量的重要保证。中药是多部位、多成分、多机制的复杂体系,加工炮制中IPQC的难点在于同时要兼顾色泽、气味、味道、质地、含量等多维度的质量要求,因此确定科学、合理同时又操作简便的质量控制指标尤为重要。但是现有的分析检测技术往往只能反映IPQC的单一维度指标,导致决策的科学性与可靠性欠佳,而数据融合技术可通过将多维度数据融合为一维数据而解决这一问题。

Sun等[58]将色度计数据与NIR进行中级融合,建立PLS-DA模型用于炒栀子的IPQC,SEN、SPE及ACC均达到100%,所开发的方法能够准确判别出合格与不合格的的炒栀子,显著优于单独使用色度参数或NIR的鉴别模型。Dai等[59]采用电子鼻和电子舌的中级融合建立SVM模型,以同时反映金耳在深层发酵中的气体(电子鼻)和液体(电子舌)特性,以麦角甾醇、还原糖和多糖作为深层发酵的质量控制指标,该策略能够实现对3个指标进行同时快速测定,为金耳深层发酵的工艺控制提供了技术支持。

2.5中药制剂工艺研究

与中药加工炮制的IPQC相似,数据融合技术在中药制剂工艺研究中也具有很大优势。吴思俊等[60]引入数据融合技术,提出了一种中药制备工艺变更(酸水渗漉-氯仿萃取替代苯提取)前后质量一致性评价的新策略,将反映工艺整体质量的NIR与RS光谱分别进行低、中、高级数据融合,利用相似度匹配值和PCA中的HotellingT2和DModX统计量对工艺进行表征,结果表明中级融合效果最佳,酸水渗漉-氯仿萃取后所得盐酸青藤碱样品质量和苯提取无显著差异,而新工艺对降低生产成本和环境保护更有优势。

湿法制粒是制备中药口服固体制剂的关键工序之一,常用的制粒方式有摇摆式制粒、高剪切湿法制粒(HSWG)和流化床制粒。HSWG具有黏合剂用量少、全密闭、产出颗粒圆整、流动性好等优点,但其颗粒增长机制及影响因素多而复杂,至今尚未完全阐明,控制其过程是该研究领域的热点之一[61]。Wang等[62]采用数据融合技术建立了HSWG过程的“配方-过程-质量(formulation-process-quality)”模型,将HSWG实验数据通过数据融合技术融合成单一数据,生成了1个HSWG多样性数据配方库,基于融合后数据建立的PLS模型能够显著降低HSWG过程的预测误差,该研究策略为HSWG的科学阐释提供了新思路,并能节省实验时间和成本。

中药制剂过程是一个受多因素、多变量影响的IPQC系统,具有多个鲜明的关键质量属性(CQAs),实时动态监测多CQAs对于IPQC具有重要意义。光谱技术是目前最常用的过程分析工具,也是中药加工炮制[63]及制剂[64]IPQC中的常用技术与研究热点,而在这方面光谱融合技术的分析能力明显优于单一光谱技术。Zhang等[65]通过NIR和FTIR的光谱融合,实现了实时、准确、快速监测小儿消积止咳口服液提取过程的7个CQAs(辛弗林、槟榔碱、绿原酸、连翘酯苷、柚皮苷、橙皮苷和新橙皮苷),中级融合PLS模型优于单光谱PLS模型及低级融合PLS模型,该方法对同类剂型生产过程的快速监测具有较好参考价值。

2.6中药资源形成研究

中药活性成分(次生代谢产物)的生物合成及中药资源特性受产地地理环境因子的影响,由此造成不同产地的中药品质及资源特性具有显著差异,即中药具有“道地性”特征。中药资源形成与道地性研究是中药研究领域的持续热点,当前主要从地理环境因子对中药有效成分、指标性成分、化学或生物指纹图谱等的影响展开研究,但所能纳入的化学物质信息有限,而数据融合技术可以解决这一问题。

Zhang等[66]采用HPLC、GC和UPLC-QTOF/MS中级数据融合建立PCA、PLS-DA、OPLS-DA模型研究宿主和环境因素对槲寄生代谢物的影响,发现HPLC、GC和UPLC-QTOF/MS3种代谢物谱同时受宿主和环境因素的双重影响,而环境因素起关键作用,环境因素引起的主要差异代谢物为高圣草素、高圣草素-7-O-β-D-芹菜糖基(1→2)-O-β-D-葡萄糖苷、高圣草素-7-O-β-D-葡萄糖苷3种成分,研究证实中级融合结合多变量模型是确定宿主和环境因素对代谢物影响的有力策略,为同类研究提供了技术示范。未来,还可将HPLC、GC、MS等化学数据与电子鼻、电子眼、电子舌等性状的传感器数据相融合,纳入更多维度以科学、全面地揭示中药品质及资源特性的形成机制。

2.7小结

近年来,中药研究领域越来越细化,研究的技术手段也得到了长足发展,数据融合技术使得对不同研究领域、不同技术手段、不同分析仪器等所产生的中药研究数据进行集成分析、稳健分析成为了可能,其应用目的是为了提高鉴别、计算或决策的SEN、SPE及ACC。数据融合技术在中药研究领域的分析流程如图3所示。

目前的应用领域包括中药的基原鉴别、产地溯源与鉴别、质量控制与评价、加工炮制研究、制剂工艺研究、资源形成研究等;融合所纳入的源数据主要是中药的化学物质信息,包括UV、UV-Vis、MIR、FTIR、NIR、FT-NIR、RS、HPLC、UPLC、MS、PTR-TOF-MS、ICP-AES等色谱、光谱、波谱信息,无机元素及有机成分的含量信息,电子鼻、电子眼、电子舌等色泽、气味的传感器信息以及代谢组学信息等。

但是,数据融合仅改善了数据性能和建模简便性,融合数据仍需要适宜的多变量模型才能完成后续研究,即数据融合与多变量模型是提高SEN、SPE及ACC缺一不可的2个有机组成部分。在其他研究领域广泛使用的多变量模型仍然适用于中药研究领域,如PCA、HCA、PLS、OPLS、SVM、RF、、ANN、KNN、CNN、ML、DL、LDA、QDA等。


3前景展望3.1数据融合与人工智能(AI)相结合用于中药研究

在中药分析中,除了提高SEN、SPE及ACC,智能程度也是所极力追求的。未来,中药相关研究应与ML、DL等AI相结合,在大幅提高SEN、SPE、ACC的同时大幅提高分析的深度、智能程度及应用范围,并实现研究结果的实用化、产品化与产业化,真正满足中药栽培种植及产品研发、生产、质控、市场流通管理等实际需求。极限学习机(extremelearningmachine,ELM)是一类基于前馈神经网络(feedforwardneuralnetwork,FNN)的ML方法,目前在计算机视觉、生物信息学、环境科学等方面得到了广泛应用[67]。有报道将UV-Vis、NIR数据融合与ELM相结合用于农药杀虫剂的快速质量控制,取得了较好的效果[68]。也有报道可通过多特征数据融合结合DL技术,能够从微生物组数据中预测人类疾病[69]。

3.2数据融合纳入中药生物医学数据

目前中药数据融合研究主要纳入的是中药化学物质信息及少量的电子舌、电子眼、电子鼻等外观性状方面的传感器信息,尚未有纳入中药生物医学信息的相关报道。目前,可纳入的中药生物医学信息包括细胞显微图像信息、性状图像信息、生物效应信息、药理药效信息、毒性反应信息等。当然,在数据融合中纳入生物医学信息,融合的难度将随之提升,因此可能需要引入或开发更先进的融合算法。

3.3数据融合与组学技术相结合用于中药研究

组学技术属于系统生物学范畴,主要包括代谢组学、蛋白组学、基因组学、转录组学等,目前在中药研究领域以代谢组学研究最多,但将数据融合与代谢组学等组学技术相结合的报道较少。中药组学研究具有显著的整体性、系统性特征,这与中药的整体性、系统性不谋而合。以代谢组学为例,中药的代谢轮廓(谱)、代谢指纹体现为数千条可分辨的代谢谱线,代表了数以千计的代谢物,融合这些数据无疑会使中药的内在信息得到更为全面、准确、可靠的展现,从而增强决策的SEN、SPE、ACC及智能程度。

3.4数据融合用于中药活性物质筛选

谱效关系法是重要的中药活性物质筛选方法之一,数据融合技术在中药谱效关系研究中的应用目前暂无相关报道。采用谱效关系筛选活性物质的可靠性与筛选效率在很大程度依赖于所建“谱”(化学物质谱)的质量,如“谱”所包含的成分数量、成分可识别性、成分代表性等。

3.5加强数据融合在中药研究领域的产品开发及产业化应用

目前在中药研究领域,数据融合需借助于MatLab等进口商业软件,普遍存在版权、编程等问题,限制了研究的便捷性与普及性。目前尚无中药研究专用的数据融合软件系统及相关的仪器设备,已有研究也极少涉及软件系统、仪器设备等的开发,研究成果也未见产业化应用。此外,目前所用的算法也较为传统,距离AI等新兴技术尚有较大距离。未来应大量采用多学科交叉技术,加快开发集数据融合与多变量建模功能于一体的中药研究相关软件系统和仪器设备,使得数据融合在中药研究领域实现工具化与智能化。

3.6数据融合在中药其他研究中的应用

预测患者对中药的反应(patient’sresponsetodrug,PRD)是个性化医疗中的关键问题,其中基于多组学数据融合的PRD预测是相关研究的一个热点方向。Yu等[71]采用多组学与多层网络模型上的低维特征向量融合数据来建立ML模型用于预测药物反应,并将这种新方法命名为“基于多组学数据融合的药物反应预测”(drugresponseprEdictionbasedonmultiOmicsdatafusion,DREMO)。DREMO融合了细胞系之间的相似性和药物之间的相似性,首先基于基因表达谱、细胞突变、拷贝数变异(copynumbervariation,CNV)、药物化学结构和药物靶点等数据构建了与细胞系和药物相关的多层相似性网络,再使用低维特征向量融合多层网络的生物信息,然后应用ML模型来预测新的药物-细胞系关联,结果表明DREMO显著提高了预测能力。

药物/中药联合治疗中的药物-药物相互作用(drug-druginteraction,DDI)问题也是中药研究中一个具有挑战性的问题。近年来,使用DL技术来预测DDI的报道较多,但这些方法只考虑药物的单一信息,在稳健性和可扩展性方面存在不足。He等[72]提出了一种基于图神经网络模型(graphneuralnetworkmodel,GNN)的多类型特征数据融合方法用于DDI预测,可有效融合分子图中的拓扑信息、药物之间的相互作用信息以及SMILES(simplifiedmolecularinputlineentrysystem,即简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范)序列中药物与局部化学环境之间的相互作用信息,结果表明GNN结合数据融合可以准确预测DDI,稳健性和可扩展性优于其他方法。

数据融合技术结合ML、DL等还可用于预测药物/中药-靶点相互作用(drug-targetinteraction,DTI),对于发现新的中药活性成分及新用法具有借鉴价值。如Song等[73]提出了一种基于DL的多尺度特征融合方法——深度融合,用于预测DTI,该方法基于相似性理论与CNN生成全局结构相似性特征,并使用变压器网络(transformernetwork)分别生成药物和蛋白质的局部化学的子结构特征,取得了令人满意的预测效果。

目前,中药的PRD、DDI、DTI研究尚处于探索阶段,网络药理学方法作为目前的研究热点,在中药“药效-成分-靶点”预测方面具有一定优势,但对中药PRD、DDI、DTI研究则涉及较少且无能为力,这与其基础数据库内容涉及的多组学信息、中药之间的相互作用信息、中药的人用信息等较少,以及软件算法不涉及数据融合等原因有关,因此积极开发一种集相关基础数据库与数据融合功能于一体的软件系统是极为必要的。

3.7数据融合在中药新药开发方面的应用

数据融合在中药新药开发中的应用涉及2个方面,即工艺开发和质量控制,数据融合在这2个方面均具有较好的应用前景,尤其在开发中药新剂型方面,如固体分散体、缓控释制剂、靶向制剂等。中药制剂是多组分复杂化学体系,制剂工艺及成分的物理、化学表征是一大难题,目前多借助各类色谱、光谱技术尽可能做到完整、科学的表征,而数据融合可将多种表征方法所得的数据进行融合,通过融合后的单一数据即可完成表征。目前,数据融合在质量控制中的报道较多,而在工艺研究中的报道较少。

Fan等[49]基于数据融合提出的多有效部位中药制剂质量控制与评价的新思路与新方法,可推广应用于其他制剂。Casian等[74]开发了一个由4种互补仪器组成的过程分析技术(processanalyticaltechnology,PAT)工具,用于表征电纺制备的美洛昔康无定形固体分散体,4种仪器分别提供了NIR、RS、比色法和图像分析数据,通过中级融合,PAT工具的互补性显著提高了模型性能,该研究是数据融合在PAT领域的首次应用,可有效处理高通量仪器提供的大数据分析,这对中药制剂研究是一个非常好的启示。目前,已有研究者将PAT理念引入中药制药研究中,但在实际应用中仍存在许多技术和仪器设备方面的难题。

3.8数据融合在中药栽培种植研究方面的应用

中药栽培种植中的产量预测对于药农作出肥料、水、储存、现金流等方面的合理决策具有重要的现实意义。传统的产量预测多采用抽样调查法,需进行破坏性抽样,时间、人力成本较大。受相关研究的启发,可采用基于卫星、无人机遥感数据的数据融合并结合多变量建模、ML、DL等进行中药种植面积与产量的预测。如Xu等[3]建立了基于时间序列无人机遥感数据的棉花产量估算模型,结合多光谱图像和棉铃像素覆盖,使用贝叶斯正则化反向传播神经网络来预测棉花产量,结果令人满意。此类研究能够为中药种植面积与产量的预测提供有价值的借鉴。

最新文章