欢迎来到安徽科芯微流化工科技有限公司官方网站!

中科大技术团队,自主研发生产

以“微”止危,让化工生产更安全、更高效

咨询热线:

400-172-8090 19314072625

安徽科芯微流化工科技有限公司

科学前沿

主动学习赋能:如何用400个实验预测2.2万个化学反应?

  • 作者:杨海军
  • 发布时间:2026-04-10
  • 点击:7

在药物研发中,C(sp²)–C(sp³) 偶联反应是构建三维复杂分子的关键工具,但其底物空间巨大,传统高通量实验(HTE)难以全面覆盖。近日,UCLA的Doyle课题组与诺华团队在《J. Am. Chem. Soc.》上发表研究,提出了一种主动学习(Active Learning)策略,仅用不到400个数据点就构建了可推广的Ni/光氧化还原催化偶联产率预测模型。本文将带您解读这一“数据高效”的建模新范式。

研究背景:为什么需要主动学习?

机器学习在有机合成中的应用日益广泛,但产率预测仍面临两大挑战:底物空间巨大,芳基溴与烷基溴的组合可产生数万种产物;数据质量不一,文献数据存在混杂变量,而企业电子实验记录本(ELN)数据也难以统一。传统方法通常依赖大规模随机采样,但耗时耗力。本研究提出:用主动学习动态探索底物空间,以最少实验构建最具信息量的模型。

图片1.png

研究方法:如何用主动学习构建模型?

研究团队首先定义了初始虚拟空间,由8种芳基溴与2776种烷基溴组合成22,208种产物,并另外设计了包含4种新芳基溴的扩展空间用于验证模型的扩展能力。所有底物均选自Sigma-Aldrich以确保可获得性。在特征工程方面,他们利用AutoQchem和Turbomole软件计算了烷基溴及其自由基中间体的DFT性质,包括HOMO/LUMO能量、电荷分布、NMR屏蔽等,同时结合差分反应指纹(Difference Morgan Fingerprints)来捕捉反应前后结构的全局变化。主动学习流程采用基于随机森林模型的不确定性查询,每轮选择12个烷基溴与8种芳基溴反应(共96个实验),并通过Kriging Believer策略避免批次内选择过于相似的分子,从而最大化每轮实验的信息增益。

图片2.png

实验结果:主动学习 vs 随机采样

在模型性能对比中,前两轮主动学习与随机采样差异不大,但从第3、4轮起,主动学习模型的均方根误差显著降低,决定系数R²明显提高;在未参与训练的扩展核心集(新芳基溴)上,主动学习模型的表现持续提升,而随机采样模型几乎无效。令人惊讶的是,仅用约250–350个产物(覆盖1–2%虚拟空间)就构建了可用的预测模型,而向新核心扩展时,只需额外测试约20个烷基溴(80个反应)即可显著提升预测能力。此外,主动学习选择的烷基溴实际产率普遍更高(>10%产率的比例显著高于随机采样),原因是模型倾向于选择预测产率较高但不确定性也高的分子,而非低产率低不确定性的分子,这在实际药物筛选场景中更具实用价值。

图片3.png

图片4.png

应用验证:筛选高潜力反应

为了模拟药物筛选中的实际应用,研究团队进一步测试了模型在新核心(E1–E4)上筛选高产率烷基溴的能力。他们让主动学习模型和随机采样模型分别预测,并选取两者预测差异最大的烷基溴进行实验验证。结果显示,主动学习模型所选的8个烷基溴中,80%的反应产率超过10%,而随机模型所选的反应仅有36%达到该阈值。这表明主动学习模型可显著减少无效实验,大幅提升高通量筛选的效率。

图片5.png

特征重要性:DFT特征为何关键?

模型特征重要性分析显示,烷基自由基的LUMO能量、Br原子电荷等DFT特征占据主导地位,这些特征将烷基溴分为三类:烯丙基/苄基型、羰基α位型和脂肪族型,对应于不同的自由基稳定性与反应活性。有趣的是,单独使用DFT特征即可取得不错的效果,而仅用分子指纹则表现较差,说明电子效应对该类偶联反应的产率预测至关重要。

图片6.png

结论与展望

本研究证明,主动学习结合DFT特征可用极少量实验构建可推广的产率预测模型,并能有效扩展至新底物空间,适用于高通量实验的预筛选。未来该策略有望推广至更多反应类型,并用于探索“反应暗空间”中的新方法开发。研究团队认为,反应空间的系统映射需要分析化学、高通量实验、数据采样策略和机器学习的持续创新,而学术界与工业界的紧密合作将是实现这一目标的关键。

在线客服
联系方式

热线电话

19314072625

上班时间

周一到周五

公司电话

400-172-8090

线