Electronic Health Record Data Analysis witha Large Language Model
Holder: Sheng Yu(Tsinghua University)
Time:2025-02-28 14:00-15:00
Location:Conference Room 220, New Public Health Building, Peking University Health Science Center
Abstract:
Electronic health records (EHRs) are a valuable source of phenotypic data for biomedical research. With the digitization of EHRs, it has become theoretically possible to automate data extraction, enabling large-scale research while reducing associated costs. However, in practice, extracting data from EHRs is a challenging and specialized natural language processing (NLP) task due to the substantial medical knowledge required and the variability of medical terminology. In this talk, we briefly introduce fundamental concepts and techniques for analyzing EHRs, including: 1) the relationships between medical concepts, terms, coding systems, and ontologies; 2) key attributes of terms in note parsing, such asassertion status and modifiers, and 3)common approaches and software used for EHR note parsing. We then introduce aspecialized large language model that we recently developed for converting EHR notes into structured JSON format.
About the Speaker:
俞声,清华大学统计与数据科学系长聘副教授。研究方向为医学文本类智能,包括自然语言处理、大型语言模型、知识图谱、搜索引擎、电子病历分析等。俞声与哈佛大学蔡天西教授合作发明的高通量表型提取技术使疾病表型识别算法开发速度从每年1-2个疾病提高到每年超过1000个疾病,并应用于“Milion Veteran Program”等美国国家级精准医学研究项目以及MasseneralBngham专庆院的生物样不库科研患者汗册库建设,该系列论又获评医学信息学顶刊JAMIA的编辑选择奖、国际医学信息学学会2019年年鉴最佳论文奖,并按标准化生物医学实验方法发表于Nature Protocols。2021年起,俞声课题组与粤港澳大湾区数字经济研究院(IDEA研究院)合作,主持开发了拥有2210万概念、4602万中英文术语、9985万关系三元组的生物医学信息学本体系统BIOS。该系统2022年成为世界最大的原生单体生物医学知识图谱,体量达到美国国立卫生院国家医学图书馆自1986年起开始建造的一体化医学语言系统(UMLS)的数倍,为我国医疗行业大数据处理与人工智能开发建立了公共基础。俞声与蔡天西教授于2014年发布了电子病历自然语言处理系统NILE,被10个国家和地区的医学研究机构和学者使用;2024年,俞声与蔡天西课题组联合发布中英文电子病历结构化大模型GENIE,在人工智能时代为医疗机构提供更强病历大数据处理能力。

Your participation is warmly welcomed!

欢迎扫码关注北大统计科学中心公众号,了解更多讲座信息!