利用高通量实验构建药物相关的Pd催化C-N偶联反应性模型

作者：杨海军
发布时间：2026-04-17
点击：459

钯催化C-N偶联反应是药物化学中应用最广泛的转化之一，但构建能够准确预测复杂药物分子偶联产率的机器学习模型仍是一大挑战。近日，MIT的Jensen课题组、Buchwald课题组与默克公司合作，在《J. Am. Chem. Soc.》上发表研究，通过高通量实验(HTE)生成包含4204个独特产物的结构多样性数据集，并系统评估了模型在不同数据拆分策略下的插值与外推性能。本文将带您解读这一面向药物化学实际需求的建模新范式。

研究背景：为什么需要新的C-N偶联反应性模型？

将高通量实验与数据科学相结合，为加速合成化学创新提供了巨大机遇，但目前报道的HTE数据集大多结构多样性有限。对于药物化学中常用的钯催化C-N偶联反应，现有建模工作主要依赖两类数据：历史文献/专利数据(Strategy I)或HTE生成的小规模数据集(Strategy II)。历史数据虽大但质量参差不齐，且偏向成功反应，导致模型预测性能较差(R² ~ 0.2);而以往HTE数据集要么产物结构单一(如仅5种产物)，要么与药物相关化学空间重叠有限。因此，亟需一个结构多样、质量均一、包含足够多失败案例的大规模HTE数据集，以构建能真正应用于药物筛选的预测模型。

图片1.png

研究方法：如何构建大规模、结构多样的HTE数据集?

为实现这一目标，研究团队首先需要开发适用于纳摩尔级自动化筛选的C-N偶联反应条件。他们基于Merck内部化合物库(MBBCC，含>5000种芳基溴和>3000种仲胺)，理论上可组合出约1500万种产物。通过对22种Pd预催化剂、47种碱的系统筛选，他们意外发现LiOTMS作为碱时，与CPhos Pd G4或(Bu)PhCPhos Pd G4组合，能显著提升对18种复杂“Informer”芳基卤化物的偶联效率，成功率和平均产率较传统方法提高2-3倍。最终选定CPhos Pd G4 + LiOTMS作为单一标准条件进行后续大规模实验。

在底物选择上，他们从MBBCC中随机挑选了347种胺和342种芳基溴，这些分子均匀覆盖了化学空间，并与已上市药物的结构特征高度重叠。数据集构建分两部分进行：Part I将4种芳基溴(含3种Informer溴化物)与348种胺进行偶联，得到1392个反应;Part II将357种芳基溴(含15种Informer卤化物)与8种代表性胺进行偶联，得到2844个反应。合并去重后共获得4204个独特产物的反应结果，其中约35%产率≥20%(LCAP)，其余为低产率或失败反应，保证了数据分布的均衡性。

为确保数据质量，团队对底物纯度和实验重复性进行了系统评估。通过从外部供应商购买部分胺进行重复实验，确认90%的反应结果一致;通过Suzuki-Miyaura偶联反应验证了80%以上芳基溴的结构正确性。更重要的是，他们对重复实验的回归分析显示R²仅为0.35，但以20%产率为阈值的分类一致性却很高(假阳性1例，假阴性4例)，表明分类模型更能容忍实验噪声，因此后续建模以分类任务为主。

图片2.png

模型构建与评估：多种拆分策略全面检验预测能力

基于上述数据集，团队构建了随机森林(RF)、消息传递神经网络(MPNN)等多种分类模型，以20% LCAP为阈值将反应划分为“成功”与“失败”。为系统评估模型的插值和外推能力，他们设计了五种数据拆分策略：随机拆分(评估插值)、胺类完全未见(Amine OOS)、芳基卤完全未见(ArX OOS)、两者均未见(Both OOS)以及降维拆分(DRS，即反应物已见但组合未见，用于评估插值到全因子空间的能力)。模型性能以准确率、top 10%预测精度(precision@10%)、top 10%正负类平均精度(accuracy@10%)和PR-AUC为指标。

结果显示，所有拆分策略下模型的accuracy@10%均超过80%，表明模型置信度可有效识别高产率或低产率反应。其中，随机拆分和DRS的表现优于OOS拆分，符合预期(插值易于外推);而Both OOS拆分仍能达到68%以上的准确率和80%以上的accuracy@10%，证明模型确实学到了通用的反应性规律，即使面对全新底物也能给出可靠预测。值得注意的是，模型对高产率反应的预测精度略低于对低产率反应的预测，这可能与数据集中高产率反应占比较低(35%)有关，但precision@10%仍超过70%，是随机筛选(35%命中率)的两倍。

图片3.png

实验验证：96孔板验证库证实模型实用性

为验证模型在实际药物筛选场景中的表现，团队针对每个OOS拆分和DRS拆分分别设计了96反应的验证库。从MBBCC中随机选取符合拆分条件的胺和芳基溴，确保与训练集分子的Tanimoto相似度<0.7，并保证其中50%反应被模型预测为高产率(置信度>0.8-0.9)，50%预测为低产率。实验结果显示，所有验证库的整体准确率均超过80%，且假阴性(FN)极少，意味着模型几乎不会漏掉真正高产率的反应，这对于避免浪费珍贵底物至关重要。假阳性(FP)相对较多，主要源于模型对高产率反应的预测不够自信，但整体仍显著优于随机筛选。

图片4.png

结论与展望

本研究通过HTE生成了迄今为止结构最多样、与药物化学最相关的Pd催化C-N偶联反应数据集(4204个独特产物)，并基于此构建了高性能分类模型。模型在胺/芳基卤完全未见的外推场景下仍保持高预测精度，证明其学习了普适的反应性规律;在降维拆分中的优异表现则意味着仅需全因子空间的一小部分数据即可实现对整个空间的可靠预测。该工作为药物发现中高效筛选C-N偶联反应提供了有力工具，可显著提升命中率、节约资源。未来，该工作流程可扩展至其他反应类型，并探索更优的主动学习数据集设计策略。