郁彬教授入选2018北京大学“大学堂”顶尖学者讲学计划

2018-04-16

时间:2018年4月25日晚19:00-20:30 2018年5月9日晚 19:00-20:30

应北京大学“大学堂”顶尖学者讲学计划的邀请,国际著名统计学家、美国国家科学院院士、加州大学伯克利分校统计系教授郁彬教授,将于2018年4月来我校讲学。讲学期间,郁彬教授将发表数据科学相关的系列演讲。

讲学安排:

1、专题演讲:

Three principles of datascience: predictability, computability and stability(数据科学三原则:可预测性、可计算性和稳定性)

时间:2018年4月25日晚19:00-20:30

地点:北京大学理教103

摘要:In this talk, I will discussintertwining importance and connections of three principles of data science.The three principles will be demonstrated in the context of two neuroscienceprojects and through analytical connections. In particular, the first projectadds stability to predictive models used for reconstruction of movies from fMRIbrain signals to gain interpretability of the predictive models. The secondproject employs predictive transfer learning and stable (manifold) deep dreamimages to characterize the difficult V4 neurons in primate vision cortex. Ourresults lend support, to a certain extent, to the resemblance to a primatebrain of Convolutional Neural Networks (CNNs).

在这次讲座中,我将讨论数据科学三原则之间的错综复杂的联系和它们的重要性。本讲座将通过两个神经科学的交叉学科项目来展示数据科学的三原则。第一个项目是使用核磁共震的脑信号来重构电影。我们使用加入稳定性的预测模型。第二个项目是使用可预测的迁移学习和稳定的深度图像来刻画脑区域的V4区域。这两个项目的成功离不开数据科学的三原则。

2、专题演讲:

iterative RandomForests to discover predictive and stable high-order interactions

时间:2018年5月9日晚 19:00-20:30

地点:北京大学理教103

摘要:Genomics has revolutionized biology,enabling the interrogation of whole transcriptomes, genome-wide binding sitesfor proteins, and many other molecular processes. However, individual genomicassays measure elements that interact in vivo as components of larger molecularmachines. Understanding how these high-order interactions drive gene expressionpresents a substantial statistical challenge. Building on random forests (RFs)and random intersection trees (RITs) and through extensive, biologicallyinspired simulations, we developed the iterative random forest algorithm (iRF).iRF trains a feature-weighted ensemble of decision trees to detect stable,high-order interactions with the same order of computational cost as the RF. Wedemonstrate the utility of iRF for high-order interaction discovery in twoprediction problems: enhancer activity in the early Drosophila embryo andalternative splicing of primary transcripts in human-derived cell lines. InDrosophila, among the 20 pairwise transcription factor interactions iRF identifiesas stable (returned in more than half of bootstrap replicates), 80% have beenpreviously reported as physical interactions. Moreover, third-orderinteractions, e.g., between Zelda (Zld), Giant (Gt), and Twist (Twi), suggesthigh-order relationships that are candidates for follow-up experiments. Inhuman-derived cells, iRF rediscovered a central role of H3K36me3 inchromatin-mediated splicing regulation and identified interesting fifth- andsixth-order interactions, indicative of multivalent nucleosomes with specificroles in splicing regulation. By decoupling the order of interactions from thecomputational cost of identification, iRF opens additional avenues of inquiryinto the molecular mechanisms underlying genome biology.

基因组学已经彻底改革了生物学,它研究整个转录组,全基因组结合位点的蛋白质和其他分子的过程。然而,个体基因组检测那些在体内相互作用的较大分子机器。了解这些高级相互作用是如何驱动基因表达的,这是一个重大的统计挑战。基于随机森林和随机交互树,以及通过大量的生物启发的仿生仿真,我们开发了迭代的随机森林算法(iRF)。iRF训练特征加权集成的决策树来检测稳定的、高阶交互作用,该算法的计算复杂度和随机森林相似。我们通过两个预测项目来展示iRF算法的有效性:早期的果蝇胚胎的增强子活性项目和人源细胞系原代转录单选择性剪接项目。在果蝇中,iRF稳定地发现了20对转录因子的相互作用,其中80%此前已被报道证实是有着物理的相互作用。此外,三级交互作用,例如,在Zelda(ZLD),Giant(GT)和Twist(TWI)之间显示有高阶的交互作用,我们将对这三者之间的交互作用做更多的后续实验。在人源细胞系项目中,iRF重新发现了H3K36me3在染色质介导剪接调控中的核心作用,并且发现了有趣的五阶和六阶交互作用,表明多价核小体在剪接调控中的特定角色。通过从计算中识别交互作用,iRF打开了探寻分子机制之下的基因组生物学。

主讲人介绍:

郁彬,国际著名统计学家,美国艺术与科学学院院士,美国国家科学院院士。

郁彬教授1984年毕业于北京大学数学系。在2009年到2012年间担任加州大学伯克利分校统计系系主任。郁彬2006年当选Guggenheim Fellow,2012年作了伯努利协会的图基纪念演讲(Tukey Memorial Lecturer)。她还是泛华统计协会2012年首届许宝騄奖的三位获得者之一。她也是AAAS(American Association for the Advancement of Science)、IEEE(Instituteof Electrical and Electronics Engineers)、IMS(Instituteof Mathematical Statistics)和ASA(American Statistical Association)的会士。也曾是2013-2014年度数理统计协会(IMS)主席,并于2013年度当选美国艺术与科学学院(American Academy of Arts and Science)院士,2014年当选美国国家科学院院士。当选院士被认为是美国学术界最高荣誉之一。

郁彬教授在统计理论、高维数据分析、机器学习等方面成绩斐然,享有很高的国际声誉。她对交叉学科研究即广泛又深入。郁彬教授一直关心北大统计学科的发展,先后担任我校的长江讲席教授和千人计划专家(短期项目),指导多名我院青年教师和研究生;是我校统计科学中心科学委员会主任,也是北大微软统计和信息技术实验室的创办者和主任之一,为我校统计学科发展、建设、人才培养做出了巨大贡献。

主办单位:北京大学

承办单位:北京大学统计科学中心 北京大学国际合作部

赞助单位:光华教育基金会

“大学堂”顶尖学者讲学计划网站:www.pugf.pku.edu.cn

x