表观测序偏差可校正,低同源性数据也能迁移预测

今日概览

  • PATTY 算法:校正 Tn5 酶偏好性,提升表观基因组测序精度 CUT&Tag 测序中 Tn5 转座酶对开放染色质的偏好会系统性扭曲组蛋白修饰信号,现有高盐优化方案仍无法消除该偏差
  • 跨同源蛋白迁移适应性数据:低至35%序列同源性也能提升突变效应预测 提出fitness translocation方法,通过蛋白质语言模型嵌入空间将同源蛋白的突变适应性数据迁移到目标蛋白,解决训练数据稀缺问题
  • 基因组基础模型的预训练困境:随机初始化基线竟然够强? 在 52 个基因组任务的 in silico 评估中,随机初始化模型提供了强劲基线,预训练收益高度依赖 tokenizer 选择(字符级 tokenization 常优于预训练的 k-mer/BPE 模型)
  • Cenote-Taker 3:高通量测序中的病毒基因组发现与注释新工具 Cenote-Taker 3 针对病毒基因组的高遗传多样性和多聚蛋白编码特性,整合了病毒发现、前噬菌体提取和基因注释功能

重点关注

01 PATTY 算法:校正 Tn5 酶偏好性,提升表观基因组测序精度

表观基因组测序技术 CUT&Tag 因低细胞量需求和单细胞兼容性而被广泛采用,但其核心工具——超活性转座酶 Tn5 存在固有缺陷:它对开放染色质区域(open chromatin)的偏好性会系统性扭曲测序读数分布,这种 **open chromatin bias** 在稀疏的单细胞数据中尤为严重,可能导致将 Tn5 的酶切偏好误判为真实的组蛋白修饰信号。研究者通过分析已发表数据集发现,即使是优化后的高盐实验方案也无法消除这一偏差。

为解决这一问题,本研究开发了 PATTY(Propensity Analyzer for Tn5 Transposase Yielded bias)算法框架。该方法的核心策略是利用配套的 ATAC-seq 数据(专门检测染色质开放性的技术)来量化和校正 Tn5 的酶切偏好。通过整合转录组数据并结合机器学习模型,PATTY 能够区分真实的表观修饰信号与技术偏差。**实验验证(in vitro 层级)** 表明,校正后的数据在检测活性标记 H3K27ac 和抑制性标记 H3K27me3、H3K9me3 的结合位点时准确性显著提升。在单细胞层面,基于 PATTY 校正的数据进行细胞聚类分析,能更准确地区分细胞亚群。该方法不仅适用于 CUT&Tag,也为所有基于 Tn5 的高通量测序技术(如 ATAC-seq、ChIP-nexus)的偏差校正奠定了基础,对表观基因组学研究具有普遍意义。

CUT&Tag 测序中 Tn5 转座酶对开放染色质的偏好会系统性扭曲组蛋白修饰信号,现有高盐优化方案仍无法消除该偏差PATTY 算法通过整合 ATAC-seq 数据和机器学习模型校正 Tn5 偏好性,实验验证显示对 H3K27ac/H3K27me3/H3K9me3 等修饰的检测准确性显著提升(in vitro 验证)基于 PATTY 校正的单细胞 CUT&Tag 数据进行细胞聚类分析,能更准确识别细胞亚群,该框架可推广至所有 Tn5 依赖的表观基因组测序技术

02 跨同源蛋白迁移适应性数据:低至35%序列同源性也能提升突变效应预测

蛋白质工程中的核心难题是预测氨基酸突变对蛋白功能的影响(variant effect prediction),但高质量的适应性(fitness)数据稀缺严重限制了预测模型的训练。现有深度突变扫描实验虽能系统评估突变效应,但成本高昂且难以覆盖所有目标蛋白。本研究提出了一种名为**fitness translocation**的数据增强策略,核心思路是将同源蛋白家族中已有的突变适应性数据迁移到目标蛋白上进行模型训练。

方法上,研究者利用蛋白质语言模型(protein language model)提取野生型和突变体的嵌入表示,计算同源蛋白突变前后的嵌入差异向量,再将这些差异向量应用到目标蛋白的野生型嵌入上,从而在嵌入空间中生成目标蛋白的合成突变体及其预测适应性标签。这种方法在三个蛋白家族(IGPS代谢酶、GFP荧光蛋白、SARS-CoV-2刺突蛋白)上进行了**in silico验证**,测试了不同预测模型和训练数据规模的组合。结果显示,即使同源蛋白序列同一性仅为35%的远缘同源关系,fitness translocation仍能显著提升预测准确性,在训练数据极度受限时改善尤为明显。这表明蛋白质家族内积累的历史适应性数据具有可复用价值,为数据高效的蛋白质工程提供了新思路。

提出fitness translocation方法,通过蛋白质语言模型嵌入空间将同源蛋白的突变适应性数据迁移到目标蛋白,解决训练数据稀缺问题在IGPS、GFP和SARS-CoV-2 spike三个蛋白家族的in silico测试中,该方法在小样本场景下显著提升突变效应预测准确性即使同源蛋白序列同一性低至35%,数据迁移仍然有效,证明远缘同源蛋白的适应性数据具有跨蛋白复用潜力

03 基因组基础模型的预训练困境:随机初始化基线竟然够强?

大语言模型(LLM)在自然语言处理领域的成功催生了基因组基础模型(Genomic Foundation Models, GFMs)的研发热潮,研究者们试图通过类似的预训练策略在基因组序列上复制这一成功。然而,一个根本性问题始终未得到充分验证:这些耗费巨大算力的预训练过程,是否真的学到了对下游任务有价值的基因组表征?

本研究对七个不同的 GFMs 进行了系统性评估,在 52 个不同的基因组任务上将它们与**随机初始化权重**的对照模型进行对比(**in silico 验证**)。结果令人意外:随机初始化的模型提供了异常强劲的基线性能,而预训练带来的提升高度依赖于 **tokenization 策略**和模型架构选择。具体而言,使用字符级 tokenization 的模型往往能匹敌甚至超越更大规模的预训练 k-mer 或 BPE 模型,而 subword 模型似乎才能从预训练中获益。

更关键的发现是,现有 GFMs 在捕获**临床相关的遗传突变**(clinically relevant genetic mutations)方面表现不佳,其生成的 embeddings 和 log-likelihood ratios 对已标注的变异位点(annotated variants)显示出有限的敏感性。这表明直接照搬 NLP 的预训练范式可能并不适合基因组数据的特性。研究结果提示,当前的预训练策略仅能在特定 tokenizer 配置下提供适度改进,亟需发展更符合生物学机制的 tokenization 方法和变异感知型(variant-aware)预训练目标。

在 52 个基因组任务的 in silico 评估中,随机初始化模型提供了强劲基线,预训练收益高度依赖 tokenizer 选择(字符级 tokenization 常优于预训练的 k-mer/BPE 模型)现有基因组基础模型的 embeddings 和 log-likelihood 对临床相关遗传变异的敏感性有限,未能有效捕获功能性突变信息研究质疑了直接套用 NLP 预训练范式的有效性,呼吁开发生物学导向的 tokenization 策略和变异感知型预训练目标

04 Cenote-Taker 3:高通量测序中的病毒基因组发现与注释新工具

病毒是地球上数量最多、遗传多样性最高的生物实体,感染几乎所有类型的细胞生命,但其基因组学研究面临独特挑战。病毒的遗传多样性超过所有其他生命形式的总和,它们的基因组在测序数据中常被忽略,且编码大量 **polyproteins**(多聚蛋白),其中绝大多数蛋白质功能无法通过序列同源性推断。这些特性要求开发能够从高通量测序数据中敏感且特异地发现病毒基因组——包括与已知参考高度分化的序列——并准确注释其基因的生物信息学工具。

本研究开发了 **Cenote-Taker 3**,这是一个命令行工具,用于处理基因组组装和宏基因组组装数据,集成了病毒发现、**prophage extraction**(前噬菌体提取)以及基因和其他遗传特征注释等模块。在 **in silico** 基准测试中,Cenote-Taker 3 在病毒基因注释任务上的速度(wall time)和准确性均优于大多数现有工具。在病毒发现任务中,该工具与 geNomad 表现相当,且两者结果具有互补性,提示联合使用可能提升发现效率。工具已通过 Bioconda 免费发布,源代码在 GitHub 开源维护。该工具为宏基因组学研究中的 **virome**(病毒组)分析提供了高效解决方案,特别适用于环境样本和微生物组测序数据中病毒序列的系统性鉴定。

Cenote-Taker 3 针对病毒基因组的高遗传多样性和多聚蛋白编码特性,整合了病毒发现、前噬菌体提取和基因注释功能in silico 基准测试显示该工具在病毒基因注释的速度和准确性上优于多数现有工具,与 geNomad 在病毒发现上表现相当且互补工具已开源并可通过 Bioconda 部署,适用于宏基因组测序数据中病毒组的系统性分析

也值得关注

05
强化学习动态课程优化深度伪造检测 通过导师-学生强化学习框架动态调整训练样本权重,优先学习高价值样本,提升检测器对未见操纵技术的泛化能力链接(CVPR)
06
自由市场算法:基于供需动力学的开放式优化框架 化学合成与逆合成提出无需预设适应度函数的元启发式算法,通过分布式供需机制在前生命化学和宏观经济预测中实现自组织优化。链接
07
两阶段微调实现低成本 Text-to-SQL 通过让模型内化数据库 schema,将输入 token 减少 99% 以上,达到 98.4% 执行成功率链接(AAAI)
08
光控肌动蛋白聚合驱动人工原始细胞定向运动 在脂质囊泡中实现光控actin聚合,重现细胞运动的最小系统,速度达0.43微米/分钟链接
09
RLHF 对齐导致大模型响应同质化,削弱采样不确定性估计 临床与医学AI发现 RLHF 对齐使 LLM 输出趋同(单簇率达 79%),导致采样法失效但自由 token 熵仍有效,通过级联策略可节省 57% 成本链接
10
这不是 AI 生物医药论文 本文是关于地图匹配的时空图神经网络模型,与生物医药领域无关链接
11
OneSearch-V2:推理增强的电商生成式搜索系统 通过思维链查询理解、自蒸馏训练和行为对齐优化,提升电商搜索的复杂查询理解和用户意图挖掘能力链接
12
基于物理原理评估揭示结构预测模型系统性缺陷 蛋白质结构预测发现AlphaFold等模型虽掌握基本能量原理,但在侧链相互作用构象偏好上存在系统性偏差,30-60%非共价相互作用预测错误链接
13
这不是 AI 生物医药论文 分子动力学本文研究 WebAssembly 内存安全检测,与生物医药、药物发现、蛋白质设计等领域无关链接
14
i-IF-Learn:高维数据的迭代特征选择与无监督聚类 基因组与转录组通过自适应伪标签统计量同时实现特征选择和聚类,在基因表达和单细胞测序数据上显著提升聚类性能并增强下游深度模型效果链接
15
整合建模揭示 HDAC2 复合物中无序区域的组装机制 蛋白质结构预测结合交联数据与计算建模解析了 HDAC2-MIER1-MHAP1 复合物中内在无序区域驱动的蛋白互作,弥补 AlphaFold 在 IDR 结构预测上的不足链接
16
CFTR 氯离子通道的静电网络与功能调控机制 分子动力学通过全原子 MD 模拟揭示 CFTR 蛋白中 557 个静电相互作用如何稳定结构、调控离子传导及响应小分子调节剂 VX-770链接

今日观察

今天的四篇论文呈现出一个共同的主题:**当我们在生物数据上应用机器学习时,数据本身的质量和偏差往往比模型架构更关键**。PATTY 算法针对 CUT&Tag 等表观基因组测序技术中 Tn5 转座酶的序列偏好性问题,提出了系统性的校正方法。这个问题长期被忽视,但实际上 Tn5 对特定 DNA motif 的偏好会在染色质可及性图谱中引入系统性偏差,影响下游的转录因子结合位点识别和调控网络推断。对于做表观遗传药物靶点发现或染色质状态预测模型的团队,这提示了一个实际问题:**训练数据中的技术偏差可能比模型优化更值得关注**,尤其是当你的模型需要区分真实生物学信号和测序工件时。

第二篇关于蛋白质工程中跨同源蛋白迁移学习的研究,则从另一个角度验证了数据质量的重要性。研究发现即使序列同源性低至 35%,来自同源蛋白家族的突变效应数据(fitness landscape)仍能显著提升目标蛋白的变体效应预测准确性。这对实际的蛋白质设计项目有直接启示:**在为新靶点构建预测模型时,不必局限于该蛋白自身的少量实验数据,可以系统性地挖掘同家族蛋白的深度突变扫描(DMS)数据作为迁移学习的来源**。这种策略在抗体人源化、酶工程改造等场景中尤其实用,因为很多工程靶点缺乏充分的实验标注,但其同源蛋白可能在 ProteinGym 等公开数据集中已有丰富的 fitness 数据。

第三篇论文则提出了一个更根本的质疑:基因组基础模型(genomic foundation models)的预训练是否真正学到了生物学规律,还是仅仅记住了统计模式?研究发现在某些下游任务上,**精心设计的随机初始化基线竟然能接近甚至超越大规模预训练模型的性能**。这对正在构建或采用基因组大模型的团队是个警示:不要盲目相信"预训练即有效"的假设,需要针对具体任务(如启动子预测、剪接位点识别、变体效应预测)设计严格的对照实验,包括随机初始化、打乱序列等消融实验,以验证模型是否真正捕获了生物学约束而非数据集的统计捷径。这与第一篇论文的观察呼应:**技术偏差和数据质量问题可能被复杂模型掩盖,但会在实际应用中暴露**。第四篇关于病毒基因组发现的工具虽然侧重宏基因组学应用场景,但其强调的快速准确注释能力,对于需要从高通量测序数据中识别病毒载体、噬菌体展示文库或基因治疗相关序列的团队也有参考价值。