MindDance 和通用论文索引站有什么区别？

通用索引站解决的是"怎么找到论文"，MindDance 解决的是"今天哪些 AIDD 论文值得看，以及为什么"。它不追求全量收录，而追求更接近从业者决策场景的筛选与解读。

为什么 sources 页要公开 candidate？

因为透明度本身就是产品的一部分。公开 candidate 可以让读者看到当天候选池的边界，判断筛选是"抓少了""抓偏了"还是"最终排序不合理"，而不是只看最后几篇成稿。

LLM judge 在这里扮演什么角色？

LLM judge 是第二层语义过滤，不负责主观写稿。它的主要任务是把前面规则层放进来的边缘论文再清掉，避免纯 AI、纯物理、纯化学、纯生物但并不属于 AIDD 的论文进入 featured 或 notable。

解读为什么不强调第一人称？

因为站点目标是研究简报，而不是作者随笔。当前解读采用中性、克制的分析口吻，重点讲研究问题、方法、验证层级和潜在意义，不刻意突出"我认为""我觉得"。

方法论

MindDance 如何获取、筛选、分层并解读 AIDD 相关论文

MindDance 是一个面向 AIDD 从业者的每日研究简报站点。 它不做泛论文聚合，而是尽量把"真正落在药物发现链路上的 AI 论文"从更大的候选池里筛出来，再生成简明、克制、可追溯的解读。

站点定位

网站当前的内容优先级按 Drug > Chem ≈ Bio > Med 排列。只要论文与 AIDD 强相关，不论它来自方法、机制、生物、化学还是期刊综述，都有机会进入候选池；但纯 AI、纯生物、纯物理、纯化学且不服务于药物研发的问题，会在后续层级被清掉。

这套口径参考了通用 AI 简报站点的透明分层做法，同时针对 AIDD 做了更强的领域约束。站点的目标不是"每天塞满论文"，而是让候选池足够大、筛选逻辑足够清楚、最后成稿足够相关。

每天如何运行

默认按北京时间早上 8 点运行。发布日期是当天，论文日期语义采用 T+1：重点覆盖北京时间昨天，以及到当天运行前各源站已经能检索到的相关论文。实际效果取决于不同源站的索引速度，因此它更接近"运行时可被搜到的昨日相关论文集合"，而不是一个完全理想的小时级切面。

论文从哪里来

当前主来源是 arXiv、bioRxiv、PubMed。它们不是交集关系，而是候选并集：只要来源本身能提供与 AIDD 相关的论文，就应该有机会进入原始池。

arXiv：覆盖 q-bio.* 核心分类和 cs.LG / cs.AI / chem-ph / bio-ph 等扩展分类，用于补充方法类和预印本论文。
bioRxiv：补充蛋白设计、计算生物学、生物物理和药理方向的预印本。
PubMed：承担期刊型内容的主要召回，尤其是药化、计算化学、结构生物学、计算生物学相关期刊。
辅助信号：社区热度、引用、代码仓库等信息目前主要作为增强信号，而不是站点主召回来源。

先尽量召回，再逐层过滤

第一层：规则过滤

规则层要求论文同时具备 AI 方法信号 和 AIDD 领域信号。这一步的目标不是最终决定 featured，而是尽量把明显不相关的论文挡在外面，同时保留足够大的候选池供后续打分和 LLM judge 使用。

过滤关键词围绕 AIDD 的真实工作流展开，包括但不限于：靶点发现、结合位点与亲和力、虚拟筛选、分子生成与优化、蛋白和抗体设计、ADMET、逆合成、反应预测、生物标志物、多组学和临床转化。

第二层：多信号评分

规则通过后，每篇论文会进入评分层。当前评分体系更偏向从业者使用价值，而不是单纯学术热度，重点观察：

来源与发表形态：期刊通常优先于预印本，顶级期刊和顶级会议会获得更高权重。
机构背景：来自顶尖学术机构、药企 AI 团队、AIDD 公司或知名实验室的论文会被加权。
代码与可复现性：公开代码、仓库信息、可复现实验会提升排序。
领域强度：论文是否真正落在药物发现主链路，而不只是沾到生物或 AI 关键词。
社区与引用信号：作为补充，不作为唯一决策依据。

第三层：分级而不是二元淘汰

当前网站保留三层结构：

Featured：最值得做长篇解读的论文。

Notable：值得被点到，但不一定需要展开长文的论文。

Candidate：进入候选池但未入选主文的论文，仍然公开展示在 sources 页。

这样做的目的，是让站点既能保留编辑判断，又不把前面已经抓到的论文直接"吞掉"。对于内容还在扩充阶段的网站，这一点尤其重要。

第四层：LLM judge 做语义清洗

LLM judge 不是第一道门，而是第二道门。它会复核 featured、notable，并额外查看一批高分 candidate。如果论文虽然带有关键词，但整体语义并不属于 AIDD，就会被打回 candidate；相反，如果规则层略保守，但论文整体上明显符合站点定位，也可以被提升。

网站怎么呈现

首页：快速说明站点定位、工作流和专题入口。

简报页：只展示 Featured 的长篇解读和 Notable 的简要提要。

Sources 页：展示 Featured、Notable、Candidate 三层，并公开得分理由与来源。

专题页：按 AIDD 工作链路聚合历史内容，方便按方向浏览。

当前覆盖的 AIDD 主题

结合近期行业综述和 AIDD 研究脉络，站点更适合按以下几类理解，而不是只看粗粒度学科名：

Target & Mechanism：靶点发现、靶点验证、通路和机制建模

Structure & Binding：蛋白结构、口袋建模、分子对接、结合模式、亲和力

Molecule Design：分子生成、性质预测、lead optimization、scaffold hopping

Developability：ADMET、毒性、可合成性、配方和成药性

Protein / Antibody / Peptide：蛋白设计、抗体工程、肽类设计

Reaction & Synthesis：反应预测、逆合成、合成路线规划

Biology & Omics for Drug Discovery：多组学、生物标志物、患者分层、药物反应

当前已知局限

来源还不够宽：目前主召回仍集中在 arXiv、bioRxiv、PubMed，尚未完全覆盖更多期刊站点和元数据源。
日期语义受源站限制：不同 API 的索引速度不一致，运行时能查到什么并不完全可控。
规则与主题体系仍在迭代：AIDD 的边界本身就比通用 AI 简报更难定义，评分与 topic 仍在持续调整。
解读基于标题与摘要：用于快速理解研究，不替代对原文全文的精读。

FAQ

MindDance 和通用论文索引站有什么区别？: 通用索引站解决的是"怎么找到论文"，MindDance 解决的是"今天哪些 AIDD 论文值得看，以及为什么"。它不追求全量收录，而追求更接近从业者决策场景的筛选与解读。
为什么 sources 页要公开 candidate？: 因为透明度本身就是产品的一部分。公开 candidate 可以让读者看到当天候选池的边界，判断筛选是"抓少了""抓偏了"还是"最终排序不合理"，而不是只看最后几篇成稿。
LLM judge 在这里扮演什么角色？: LLM judge 是第二层语义过滤，不负责主观写稿。它的主要任务是把前面规则层放进来的边缘论文再清掉，避免纯 AI、纯物理、纯化学、纯生物但并不属于 AIDD 的论文进入 featured 或 notable。
解读为什么不强调第一人称？: 因为站点目标是研究简报，而不是作者随笔。当前解读采用中性、克制的分析口吻，重点讲研究问题、方法、验证层级和潜在意义，不刻意突出"我认为""我觉得"。