样本外信息泄漏普遍虚增药效预测精度

今日概览

样本外信息泄漏普遍虚增药效预测精度 全样本预筛选特征导致交叉验证信息泄漏，使均方误差被低估 16.6%。

重点关注

01样本外信息泄漏普遍虚增药效预测精度

药效预测模型被广泛用于发现生物标志物，但评估流程若混入样本外信息，会直接低估预测误差。作者系统演示了“先全样本特征筛选、再交叉验证”这一常见做法如何在 265 种药物、1 462 株癌细胞上引入泄漏：去除泄漏后，均方误差平均升高 16.6%，且泄漏与纠正流程选出的特征几乎不重叠（平均 Jaccard 仅 0.18，36.2% 药物无共同特征）。尽管泄漏模型多选了五倍特征，其锁定已知靶点的比例却与严格流程相当，提示膨胀的特征集更多是统计假象而非生物学信号。

研究进一步代码审计 2017-2024 年 32 篇发表方法，发现 23 篇（72%）存在同类泄漏，被引逾 3 000 次；由这一单一泄漏带来的精度提升幅度，与文献中相对弹性网络基线的常见增益相当，暗示部分“新方法”可能仅是评估偏差。作者给出泄漏分类、审计指南及无泄漏参考实现，但未在独立外部数据集或 in vivo 模型中验证纠正后的预测性能是否仍保持优势，亦未讨论其他潜在泄漏模式对结果的复合影响。

全样本预筛选特征导致交叉验证信息泄漏，使均方误差被低估 16.6%。泄漏模型特征集扩大 5 倍却未提高靶点召回，表明多数新增特征为统计噪声。72% 的近年方法存在同类泄漏，其虚增精度可与相对基线的改进幅度相当。

原文：Widespread data leakage inflates accuracy and corrupts biomarker discovery in cancer drug response prediction

也值得关注

9 万条 pKa 实验值公开基准测试通用 AIDD

用自建含 9 万实验值的 pKahub 数据，系统比较 7 种 pKa 预测工具（3 商业+4 开源 ML），发现开源机器学习模型整体误差略高但成本优势明显。链接（Chem）

今日观察

今日观察
跨研究汇总显示，72% 近年药效预测模型因“全样本预筛选特征”产生信息泄漏，仅交叉验证阶段平均低估均方误差 16.6%，虚增幅度与相对基线声称的改进几乎等同；泄漏模型把特征集扩大 5 倍却未提升靶点召回，提示多数新增维度为统计噪声。该现象在 in silico 评估层面最为突出，尚无系统的 in vitro 或 in vivo 重验证报告，亦未讨论不同训练-测试拆分比例对结论稳健性的影响。

给 AI 药物发现团队的提醒：上线模型前，务必采用时间切分或分子骨架拆分代替随机交叉验证，并在独立外部批次（含新靶点、新化学型）中复现；若预筛选不可避免，应把特征选择嵌入每一折内部，同时记录特征稳定性。否则，即使交叉验证指标亮眼，后续实验仍可能因噪声特征失效，浪费合成与测试资源。

以上内容为个人解读，仅供参考。权威内容请以原论文为准。