团结用药疗法关于多种庞大疾病尤其是恶性肿瘤的医治至关紧张。面临海量的药物组合搜刮空间,仅经过高通量实行挑选技能本钱过高且难以掩盖一切组合。在药物多维度大数据的推进下,基于人工智能的新一代团结用药展望技能正在减速开展,但在种别不平衡、特性高维等方面仍旧存在宏大应战。
克日,影戏学院刘昆宏传授课题组与军事医学研讨院伯晓晨/何松课题组互助,在Cell Reports Methods杂志宣布了研讨论文“A hybrid deep forest-based method for predicting synergistic drug combinations”,针春联适用药数据会合存在的种别不平衡、特性高维、数据范围小的题目,提出了基于深度丛林框架的展望算法ForSyn,以展望差别肿瘤细胞系的团结用药结果。一系列盘算与生物实行无效验证了ForSyn的展望精度,可表明性相干剖析展现了团结用药协同作用的潜伏机制。
现有的团结用药展望研讨大多使用基于深度神经网络的办法,可以取得较高的全体展望功能。但是,团结用药数据集存在固有的种别不平衡题目,负样本(非协同药物组合)的数目通常是正样本(协同组合)数目的十倍以上。现有大多算法的全体展望功能由少数类的分类后果主导,倾向于将更多的少数类(负样本)展望准确,而疏忽了对多数类(正样本)样本的学习。别的,已有研讨仅使用布局与理化性子表征药物,疏忽了药物与肿瘤细胞系之间的生物联系。一旦使用包括更多信息的生物属性数据,样本的特性维度将增长,样本数目将增加。基于深度神经网络的算法通常依赖大范围的训练数据集,在中小型范围数据集上难以坚持展望精度。
为理解决上述题目,本研讨提出了一个包括药物物理、化学、生物信息的跨范畴特性数据集。尔后,设计基于深度丛林的ForSyn算法完成二分类义务,在深度丛林框架中引入基于AP聚类的分层下采样随机丛林、基于数据庞大度降维的极限树丛林单位,很好地缓解了种别不平衡、特性维度高、样本数目少给分类历程带来的倒霉影响(图1)。经过与12种范畴SOTA办法比拟,ForSyn在八个数据集、四种目标上排名第一,展示出了优秀的分类功能,明显进步了关于多数类样本(协同药物组合)的展望精度。细胞增殖实行后果验证了ForSyn展望出的四种新型抗肿瘤团结用药疗法的潜力。
图1 研讨流程
别的,ForSyn具有可表明性,可以盘算输出的每一维特性数据关于展望历程的奉献。经过特性紧张性评价,提取出了在协同作用展望中具有要害作用的特性,从三个方面举行了体系剖析,包罗与展望历程的联系关系、特性范例的奉献、要害特性的生物剖析(图2)。剖析发明药物的转录组数据关于展望具有突出奉献,药物可以经过调治要害基因的转录表达推进团结用药的协同或拮抗结果。
图2 ForSyn的可表明性剖析后果
综上,本研讨提出了基于深度丛林框架的展望算法,缓解了生物医学数据会合种别不平衡、特性维度高、样本数目少的固有题目,不但展望出了有潜力的团结用药疗法,并且为药物发明范畴的其他研讨提供了潜伏的技能途径。别的,经过可表明性剖析发明了在展望历程中具有要害作用的基因,为团结用药作用机制的实行研讨提供了实际线索。
本研讨事情取得国度天然迷信基金(编号62103436与61772023)及国度重点研发方案 (编号2019QY1803) 等项目标赞助。
论文链接:http://doi.org/10.1016/j.crmeth.2023.100411.
(影戏学院)