主动学习赋能：如何用400个实验预测2.2万个化学反应？

作者：杨海军
发布时间：2026-04-10
点击：419

在药物研发中，C(sp²)–C(sp³) 偶联反应是构建三维复杂分子的关键工具，但其底物空间巨大，传统高通量实验(HTE)难以全面覆盖。近日，UCLA的Doyle课题组与诺华团队在《J. Am. Chem. Soc.》上发表研究，提出了一种主动学习(Active Learning)策略，仅用不到400个数据点就构建了可推广的Ni/光氧化还原催化偶联产率预测模型。本文将带您解读这一“数据高效”的建模新范式。

研究背景：为什么需要主动学习?

机器学习在有机合成中的应用日益广泛，但产率预测仍面临两大挑战：底物空间巨大，芳基溴与烷基溴的组合可产生数万种产物;数据质量不一，文献数据存在混杂变量，而企业电子实验记录本(ELN)数据也难以统一。传统方法通常依赖大规模随机采样，但耗时耗力。本研究提出：用主动学习动态探索底物空间，以最少实验构建最具信息量的模型。

图片1.png

研究方法：如何用主动学习构建模型?

研究团队首先定义了初始虚拟空间，由8种芳基溴与2776种烷基溴组合成22,208种产物，并另外设计了包含4种新芳基溴的扩展空间用于验证模型的扩展能力。所有底物均选自Sigma-Aldrich以确保可获得性。在特征工程方面，他们利用AutoQchem和Turbomole软件计算了烷基溴及其自由基中间体的DFT性质，包括HOMO/LUMO能量、电荷分布、NMR屏蔽等，同时结合差分反应指纹(Difference Morgan Fingerprints)来捕捉反应前后结构的全局变化。主动学习流程采用基于随机森林模型的不确定性查询，每轮选择12个烷基溴与8种芳基溴反应(共96个实验)，并通过Kriging Believer策略避免批次内选择过于相似的分子，从而最大化每轮实验的信息增益。

图片2.png

实验结果：主动学习 vs 随机采样

在模型性能对比中，前两轮主动学习与随机采样差异不大，但从第3、4轮起，主动学习模型的均方根误差显著降低，决定系数R²明显提高;在未参与训练的扩展核心集(新芳基溴)上，主动学习模型的表现持续提升，而随机采样模型几乎无效。令人惊讶的是，仅用约250–350个产物(覆盖1–2%虚拟空间)就构建了可用的预测模型，而向新核心扩展时，只需额外测试约20个烷基溴(80个反应)即可显著提升预测能力。此外，主动学习选择的烷基溴实际产率普遍更高(>10%产率的比例显著高于随机采样)，原因是模型倾向于选择预测产率较高但不确定性也高的分子，而非低产率低不确定性的分子，这在实际药物筛选场景中更具实用价值。

图片3.png

图片4.png

应用验证：筛选高潜力反应

为了模拟药物筛选中的实际应用，研究团队进一步测试了模型在新核心(E1–E4)上筛选高产率烷基溴的能力。他们让主动学习模型和随机采样模型分别预测，并选取两者预测差异最大的烷基溴进行实验验证。结果显示，主动学习模型所选的8个烷基溴中，80%的反应产率超过10%，而随机模型所选的反应仅有36%达到该阈值。这表明主动学习模型可显著减少无效实验，大幅提升高通量筛选的效率。

图片5.png

特征重要性：DFT特征为何关键?

模型特征重要性分析显示，烷基自由基的LUMO能量、Br原子电荷等DFT特征占据主导地位，这些特征将烷基溴分为三类：烯丙基/苄基型、羰基α位型和脂肪族型，对应于不同的自由基稳定性与反应活性。有趣的是，单独使用DFT特征即可取得不错的效果，而仅用分子指纹则表现较差，说明电子效应对该类偶联反应的产率预测至关重要。

图片6.png

结论与展望

本研究证明，主动学习结合DFT特征可用极少量实验构建可推广的产率预测模型，并能有效扩展至新底物空间，适用于高通量实验的预筛选。未来该策略有望推广至更多反应类型，并用于探索“反应暗空间”中的新方法开发。研究团队认为，反应空间的系统映射需要分析化学、高通量实验、数据采样策略和机器学习的持续创新，而学术界与工业界的紧密合作将是实现这一目标的关键。