方法论

MindDance 如何获取、筛选、分层并解读 AIDD 相关论文

MindDance 是一个面向 AIDD 从业者的每日研究简报站点。 它不做泛论文聚合,而是尽量把"真正落在药物发现链路上的 AI 论文"从更大的候选池里筛出来,再生成简明、克制、可追溯的解读。

MindDance 方法论流程概览

站点定位

网站当前的内容优先级按 Drug > Chem ≈ Bio > Med 排列。只要论文与 AIDD 强相关,不论它来自方法、机制、生物、化学还是期刊综述,都有机会进入候选池;但纯 AI、纯生物、纯物理、纯化学且不服务于药物研发的问题,会在后续层级被清掉。

这套口径参考了通用 AI 简报站点的透明分层做法,同时针对 AIDD 做了更强的领域约束。站点的目标不是"每天塞满论文",而是让候选池足够大、筛选逻辑足够清楚、最后成稿足够相关。

每天如何运行

默认按北京时间早上 8 点运行。发布日期是当天,论文日期语义采用 T+1:重点覆盖北京时间昨天,以及到当天运行前各源站已经能检索到的相关论文。实际效果取决于不同源站的索引速度,因此它更接近"运行时可被搜到的昨日相关论文集合",而不是一个完全理想的小时级切面。

论文从哪里来

当前主来源是 arXiv、bioRxiv、PubMed。它们不是交集关系,而是候选并集:只要来源本身能提供与 AIDD 相关的论文,就应该有机会进入原始池。

  • arXiv:覆盖 q-bio.* 核心分类和 cs.LG / cs.AI / chem-ph / bio-ph 等扩展分类,用于补充方法类和预印本论文。
  • bioRxiv:补充蛋白设计、计算生物学、生物物理和药理方向的预印本。
  • PubMed:承担期刊型内容的主要召回,尤其是药化、计算化学、结构生物学、计算生物学相关期刊。
  • 辅助信号:社区热度、引用、代码仓库等信息目前主要作为增强信号,而不是站点主召回来源。

先尽量召回,再逐层过滤

第一层:规则过滤

规则层要求论文同时具备 AI 方法信号AIDD 领域信号。这一步的目标不是最终决定 featured,而是尽量把明显不相关的论文挡在外面,同时保留足够大的候选池供后续打分和 LLM judge 使用。

过滤关键词围绕 AIDD 的真实工作流展开,包括但不限于:靶点发现、结合位点与亲和力、虚拟筛选、分子生成与优化、蛋白和抗体设计、ADMET、逆合成、反应预测、生物标志物、多组学和临床转化。

第二层:多信号评分

规则通过后,每篇论文会进入评分层。当前评分体系更偏向从业者使用价值,而不是单纯学术热度,重点观察:

  • 来源与发表形态:期刊通常优先于预印本,顶级期刊和顶级会议会获得更高权重。
  • 机构背景:来自顶尖学术机构、药企 AI 团队、AIDD 公司或知名实验室的论文会被加权。
  • 代码与可复现性:公开代码、仓库信息、可复现实验会提升排序。
  • 领域强度:论文是否真正落在药物发现主链路,而不只是沾到生物或 AI 关键词。
  • 社区与引用信号:作为补充,不作为唯一决策依据。

第三层:分级而不是二元淘汰

当前网站保留三层结构:

Featured:最值得做长篇解读的论文。
Notable:值得被点到,但不一定需要展开长文的论文。
Candidate:进入候选池但未入选主文的论文,仍然公开展示在 sources 页。

这样做的目的,是让站点既能保留编辑判断,又不把前面已经抓到的论文直接"吞掉"。对于内容还在扩充阶段的网站,这一点尤其重要。

第四层:LLM judge 做语义清洗

LLM judge 不是第一道门,而是第二道门。它会复核 featured、notable,并额外查看一批高分 candidate。如果论文虽然带有关键词,但整体语义并不属于 AIDD,就会被打回 candidate;相反,如果规则层略保守,但论文整体上明显符合站点定位,也可以被提升。

网站怎么呈现

首页:快速说明站点定位、工作流和专题入口。
简报页:只展示 Featured 的长篇解读和 Notable 的简要提要。
Sources 页:展示 Featured、Notable、Candidate 三层,并公开得分理由与来源。
专题页:按 AIDD 工作链路聚合历史内容,方便按方向浏览。

当前覆盖的 AIDD 主题

结合近期行业综述和 AIDD 研究脉络,站点更适合按以下几类理解,而不是只看粗粒度学科名:

Target & Mechanism:靶点发现、靶点验证、通路和机制建模
Structure & Binding:蛋白结构、口袋建模、分子对接、结合模式、亲和力
Molecule Design:分子生成、性质预测、lead optimization、scaffold hopping
Developability:ADMET、毒性、可合成性、配方和成药性
Protein / Antibody / Peptide:蛋白设计、抗体工程、肽类设计
Reaction & Synthesis:反应预测、逆合成、合成路线规划
Biology & Omics for Drug Discovery:多组学、生物标志物、患者分层、药物反应

当前已知局限

  • 来源还不够宽:目前主召回仍集中在 arXiv、bioRxiv、PubMed,尚未完全覆盖更多期刊站点和元数据源。
  • 日期语义受源站限制:不同 API 的索引速度不一致,运行时能查到什么并不完全可控。
  • 规则与主题体系仍在迭代:AIDD 的边界本身就比通用 AI 简报更难定义,评分与 topic 仍在持续调整。
  • 解读基于标题与摘要:用于快速理解研究,不替代对原文全文的精读。

FAQ

MindDance 和通用论文索引站有什么区别?
通用索引站解决的是"怎么找到论文",MindDance 解决的是"今天哪些 AIDD 论文值得看,以及为什么"。它不追求全量收录,而追求更接近从业者决策场景的筛选与解读。
为什么 sources 页要公开 candidate?
因为透明度本身就是产品的一部分。公开 candidate 可以让读者看到当天候选池的边界,判断筛选是"抓少了""抓偏了"还是"最终排序不合理",而不是只看最后几篇成稿。
LLM judge 在这里扮演什么角色?
LLM judge 是第二层语义过滤,不负责主观写稿。它的主要任务是把前面规则层放进来的边缘论文再清掉,避免纯 AI、纯物理、纯化学、纯生物但并不属于 AIDD 的论文进入 featured 或 notable。
解读为什么不强调第一人称?
因为站点目标是研究简报,而不是作者随笔。当前解读采用中性、克制的分析口吻,重点讲研究问题、方法、验证层级和潜在意义,不刻意突出"我认为""我觉得"。