Abstract:
尽管单细胞染色质开放性测序使得绘制单个细胞内的表观基因组景观成为可能,但测序数据的复杂性和下游任务的多样性仍对开发精密且多功能的计算方法提出了迫切需求。针对这一问题,我们最近研发了首个单细胞表观基因组基础模型——EpiAgent。该模型通过创新设计的细胞语言模型将130万调控元件无损压缩编码为最长8192个词元的“细胞语句” ,利用双向注意力机制捕捉调控网络蕴含的细胞异质性,进而基于最大规模单细胞染色质开放性数据库Human-scATAC-Corpus在5百万细胞上完成预训练。大量综合测试表明,EpiAgent在细胞表征、细胞类型注释、数据填补等典型下游任务中表现卓越,大幅超越现有方法。更为重要的是,语言模型赋予了EpiAgent灵活的扩展能力。通过引入代表样本批次的词元,EpiAgent能够实现参考数据整合与查询数据映射,从而支撑细胞图谱构建与利用。通过引入代表细胞扰动的词元,EpiAgent能够有效预测外部刺激和遗传扰动下的细胞响应,从而支撑个性化精准用药。通过对细胞语句的修改,EpiAgent能够进行调控元件的虚拟敲除实验,从而支撑药物靶点发现。
About the Speaker:
江瑞,清华大学自动化系长聘教授,研究领域包括人工智能、生物信息学、智能医疗健康。致力于运用人工智能理论方法解读单细胞及空间表观基因组数据,多年来深耕单细胞数据降维表征、细胞聚类分析、细胞类型辨识等关键问题,取得了多项国际领先的研究成果,发表于Nature Methods, Nature Machine Intelligence, Nature Computational Science等顶级期刊。

Your participation is warmly welcomed!

欢迎扫码关注北大统计科学中心公众号,了解更多讲座信息!