强化学习模板优化，42% 可合成性提升

今日概览

基于强化学习+反应模板的可合成先导物优化 将先导物优化建模为模板约束的 MDP，保证每步结构修改均可合成。

重点关注

01基于强化学习+反应模板的可合成先导物优化

先导物优化需同步提升活性/成药性并保证合成可及性，传统方法要么只追性质分数而忽视路线可行性，要么在巨大反应网络里枚举代价过高；纯序列生成模型又常输出化学无效结构。作者把优化问题形式化为马尔可夫决策过程，动作空间由 640 条经验证反应模板限定，每一步只能在模板允许的位点进行转化，从而天然保证合成合理性。

框架 MolReAct 用工具增强的 LLM 代理即时调用反应位点识别与匹配工具，生成候选转化；策略网络以 Group Relative Policy Optimization 训练，在 13 个 TDC 物性任务和 1 个对接任务上平均 Top-10 得分 0.563，比最强可合成基线相对提升 10.4%，并在 10/14 任务中样本效率第一。SMILES 缓存把端到端时间再压减约 43%。所有生成分子均附带明确多步合成路径。

目前验证仍停留在 in silico 层面：奖励函数依赖 TDC 的预测模型和对接分数，未报告任何体外或体内实验；反应模板仅覆盖 640 种常见转化，对复杂天然产物或手性控制步骤可能不足；LLM 代理的调用延迟与模板匹配错误尚未定量评估。

将先导物优化建模为模板约束的 MDP，保证每步结构修改均可合成。GRPO 策略在 14 项任务中平均得分 0.563，比最佳可合成基线提高 10.4%。目前仅做 in silico 验证，模板覆盖与预测奖励误差尚未经实验检验。

原文：Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization

今日观察

今日观察：两篇工作都把“能否被合成”提前写进算法目标，而非事后过滤。Paper 1 把先导优化封装成模板约束的 MDP，用 GRPO 策略在 14 项任务里平均得分 0.563，比最佳可合成基线再抬 10.4%，证明强化学习在“化学可行”空间内仍可保持优化能力；不过目前只有 in silico 闭环，模板覆盖率与奖励模型的实验偏差尚未验证。

对 AI 药物发现团队的提示：先把合成路线判断做成策略的一部分，而非生成后过滤，可显著减少无效结构；下一步应同步建立实验反馈通道，用少量湿法数据校准模板-奖励联合误差，再迭代策略，才能把 in silico 增益真正落到候选化合物。

以上内容为个人解读，仅供参考。权威内容请以原论文为准。