今日概览
- 基于强化学习+反应模板的可合成先导物优化 将先导物优化建模为模板约束的 MDP,保证每步结构修改均可合成。
重点关注
01基于强化学习+反应模板的可合成先导物优化
先导物优化需同步提升活性/成药性并保证合成可及性,传统方法要么只追性质分数而忽视路线可行性,要么在巨大反应网络里枚举代价过高;纯序列生成模型又常输出化学无效结构。作者把优化问题形式化为马尔可夫决策过程,动作空间由 640 条经验证反应模板限定,每一步只能在模板允许的位点进行转化,从而天然保证合成合理性。
框架 MolReAct 用工具增强的 LLM 代理即时调用反应位点识别与匹配工具,生成候选转化;策略网络以 Group Relative Policy Optimization 训练,在 13 个 TDC 物性任务和 1 个对接任务上平均 Top-10 得分 0.563,比最强可合成基线相对提升 10.4%,并在 10/14 任务中样本效率第一。SMILES 缓存把端到端时间再压减约 43%。所有生成分子均附带明确多步合成路径。
目前验证仍停留在 in silico 层面:奖励函数依赖 TDC 的预测模型和对接分数,未报告任何体外或体内实验;反应模板仅覆盖 640 种常见转化,对复杂天然产物或手性控制步骤可能不足;LLM 代理的调用延迟与模板匹配错误尚未定量评估。
原文:Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization
今日观察
今日观察:两篇工作都把“能否被合成”提前写进算法目标,而非事后过滤。Paper 1 把先导优化封装成模板约束的 MDP,用 GRPO 策略在 14 项任务里平均得分 0.563,比最佳可合成基线再抬 10.4%,证明强化学习在“化学可行”空间内仍可保持优化能力;不过目前只有 in silico 闭环,模板覆盖率与奖励模型的实验偏差尚未验证。
对 AI 药物发现团队的提示:先把合成路线判断做成策略的一部分,而非生成后过滤,可显著减少无效结构;下一步应同步建立实验反馈通道,用少量湿法数据校准模板-奖励联合误差,再迭代策略,才能把 in silico 增益真正落到候选化合物。
以上内容为个人解读,仅供参考。权威内容请以原论文为准。