强化学习模板优化,42% 可合成性提升

今日概览

  • 基于强化学习+反应模板的可合成先导物优化 将先导物优化建模为模板约束的 MDP,保证每步结构修改均可合成。

今日观察

今日观察:两篇工作都把“能否被合成”提前写进算法目标,而非事后过滤。Paper 1 把先导优化封装成模板约束的 MDP,用 GRPO 策略在 14 项任务里平均得分 0.563,比最佳可合成基线再抬 10.4%,证明强化学习在“化学可行”空间内仍可保持优化能力;不过目前只有 in silico 闭环,模板覆盖率与奖励模型的实验偏差尚未验证。

对 AI 药物发现团队的提示:先把合成路线判断做成策略的一部分,而非生成后过滤,可显著减少无效结构;下一步应同步建立实验反馈通道,用少量湿法数据校准模板-奖励联合误差,再迭代策略,才能把 in silico 增益真正落到候选化合物。

以上内容为个人解读,仅供参考。权威内容请以原论文为准。