统计科学中心成员近年来在统计研究和统计应用方面取得了一系列重要的、国际领先的成果和奖项,不断拓展新的研究领域。目前中心在以下7个领域成就显著:
(一)超高维数据方面
陈松蹊教授研究小组建立了一套高维统计检验的理论和方法,解决了一系列重要的数理统计问题,取得了具有国际影响力的创新成果,并在实际中得到了重要应用。
[Li and Chen (2012)]首次在一般超高维非参数数据下,提出了两样本高维协方差矩阵Σ1 和Σ2是否相等的检验,即检验Σ1 = Σ2。该检验普遍适用于超高维数据。这一检验提出后, 在生物信息等领域得到了广泛应用。它同陈-秦均值检验一起是目前对两个高维样本分布差异性的主要检验方法。该论文是 WoS 高引论文。
[Zhong, Chen and Xu(2013)] 考虑在更一般的高维数据分布,并允许不同数据维度具有弱相关性(所谓的α-mixing7(α混合)数据)。证明在这更一般的条件下,经过阈值处理的陈-秦检验的检验边界也达到最优检验边界。这一研究极大地提高了人们在挑战性最强的稀疏和弱信号检验问题上的认知,并给出了具有更高的检验效用的高维均值检验。
(二)函数型数据分析方面
姚方教授主要研究包括无限维和高维空间的函数型数据分析,例如函数主因子分析和各类函数回归,分类和聚类模型;复杂结构数据的模型选择和降维方法;对非独立相关型的纵向数据和生存分析的综合模型的研究。函数型数据分析的兴起主要是因为传统数理统计以向量型变量为研究和观测的对象,而实际应用中很多数据记录都是随时间和空间发生连续性变化的,例如环境研究中对空气污染的监测记录,医学研究中的脑扫描图像的变化等。现阶段的主要研究方向是把连续的函数型数据和具有高维,网络或者流形结构的模型及方法进行有机的结合,以及最新的机器学习和深度学习技术,提出创新的统计模型和解决相关的理论问题,从而可以有效的应用到大规模的数据处理中去。
由于在函数型数据分析领域所做出的奠基性和开创性的贡献,2014 年获得由加拿大统计学会和数学研究中心联合颁发的授予博士毕业 15 年内在加拿大做出突出贡献的统计学家的 CRM-SSC 奖,2017 年入选国际数理统计学会(Institute of Mathematical Statistics)的Fellow 。现任 Journal of the American Statistical Association, Statistica Sinica, Journal of Computational and Graphical Statistics, Journal of Multivariate Statistics, Canadian Journal of Statistics 副主编;曾任Annals of Statistics, Bernoulli, Electrical Journal of Statistics, Journal of Statistical Planning and Inference 副主编。
(三)因果推断方面
耿直教授和苗旺博士等人2018年发表在Biometrika的论文研究了使用混杂的代理识别因果作用的方法。 当存在未观测的混杂因素时,或者混杂因素的测量有误差时, 因果作用一般不可识别。苗旺和耿直等人的论文研究存在混杂的代理时识别因果作用的方法,证明当存在混杂的两个独立的测量时, 因果作用可识别;给出了保证识别性的一般条件。这一方法应用到经济学和流行病学等观察性研究中具有重要意义 , 通过这种方法, 可以使用阴性对照变量(negative control)提高因果作用的识别性, 改变了过去只能用阴性对照变量检验混杂的做法。他们发表在Annual Review of Statistics and Its Application和《中国科学》的论文综述了因果作用推断和因果图模型学习的问题、方法和前沿的研究。与因果推断密切相关的是缺失数据问题.随机缺失数据问题的研究有很多,但是非随机缺失数据的研究比较困难。苗旺博士和合作者2018年发表在Statistica Sinica的两篇论文研究了非随机缺失数据问题中的识别性方法和半参数化估计方法。
(四)网络图模型及其应用
王汉生教授过去这五年(2013-2017)最主要的工作是对网络数据(Network Data)的理论研究,以及相关的产业实践。在理论研究方面,我们研究了网络拓扑结构的产生机制,以及概率建模的可能性。在网络数据方面,主要是研究了复杂相依关系同拓扑结构的参数化表达。共发表相关英文学术论文 29 篇,获得国家基金委资助 300 余万。
贾金柱副研究员针对高位稀疏图模型,创新性地设计了 MCMC 算法,该方法可以有效地对高维稀疏图模型进行抽样(Yangbo He, Jinzhu Jia and Bin Yu 2013, Annals of Statistics). 使用该 MCMC 算法,我们研究了如何计算因果图中等价类的数量(Yangbo He, Jinzhu Jia and Bin Yu 2015, Journal of Machine Learning Research). 我们研究了非齐次模型对于变量选择方法的影响,理论上保证了变量选择方法的广泛适用性(Jinzhu Jia, Karl Rohe and Bin Yu 2013, Staitstica Sinica)。我们创新性地提出了预处理方法,该方法可以更好地解决变量选择问题(Jinzhu Jia and Karl Rohe 2015,Electronic Journal of Statistics )。我们应用稀疏学习方法很好地分析了文本新闻数据,得到有意义的结果,为社会学家分析新闻数据提供了很大方便(Jinzhu Jia, Luke Miratrix, Bin Yu, Brian Gawalt, Laurent El Ghaoui, Luke Barnesmoore and Sophie Clavier 2014, The Annals of Applied Statistics)。
(五)深度学习与机器学习
张志华与合作者在大规模机器学习领域进行了系统研究,提出了一类用于求解大规模对称半正定矩阵分解问题的列选择随机算法,并给出一种高效的近似对称半正定矩阵分解和CUR分解的原型算法;给出了一类不精确牛顿二阶算法的一般性收敛性结果;提出了鲁棒频繁方向方法,其通过额外的正则项对频繁方向方法和增量奇异值分解进行了改进。在深度学习理论和应用方面,张志华与合作者开展了广泛研究,探索了生成对抗网络(GAN)训练不稳定的内在数学机理,由此提出了Lipchitz GAN;在自然语言机器翻译中,开发了基于字符的神经翻译模型;开发并开源了强化学习算法软件包,并用于《深度学习》和《强化学习》课程的教学实践中。张志华在机器学习重要刊物和会议 Journal of Machine Learning Research和ICML等发表论文10余篇,多次受邀担任AAAI、IJCAI、ICML、NeurIPS等顶级会议的高级程序委员或程序委员。张志华、林伟等分别和腾讯、百度、华为、旷视科技、北京市智源人工智能研究院等公司开展了合作研究,针对公司的业务场景和需求,帮助他们具体落地机器学习方法。
(六)生物信息方面
席瑞斌教授在过去几年中发展了一系列统计、生物信息方法,很多都发表到了统计、生物信息的顶级杂志。例如在 Xia et al. (2017) 中,席瑞斌和他的合作者发展了一个整合多个算法探测结构变异的方法,显著提高了结构变异探测的敏感度、特异性及断点准确性;在Xi et a. (2017) 中,他们发展了一个新的基于全基因组测序数据探测拷贝数变异的算法,并将此算法应用到了约 1000 个癌症病人的正常基因组上,发现了一些包括 GOLPH3 在内的关键的癌症易感变异位点;Yuan et al. (2017)则发展了一个用来探测网络差异的方法,此方法主要基于一个新的 D-trace 凸损失函数,证明了在超高维数下此方法的相合性。另外,席瑞斌还和他的合作者一起做了很多基因组、癌基因组的大数据分析研究,这些文章很多也都发表到了顶级杂志上。在 Chang et al. (2017)中,他们分析了~100 对食管癌基因组,发现与饮酒相关的点突变指纹,并找到了一些包括 EGFR 等基因在内的关键可靶向用药变异;在 Gao et al. (2017)中,席瑞斌和他的合作者分析了肝癌基因组的异质性,发现肝癌细胞有极高的异质性,构建了相应的癌细胞进化树,并发现癌细胞的异质性显著的影响了癌细胞对药物的响应;Kim et al. (2013)则对 8000 对个癌基因组进行了拷贝数变异大数据分析,发现了一些泛癌基因组中的关键拷贝数变异位点,并研究了染色体碎裂现象的多种癌症中的基本特征;最后,De Los Angeles et al. (2015)系统研究了干细胞研究中的关键检验准则,提出并展示了基因组分析在干细胞研究中的关键作用。
(七)计量经济方面
陈松蹊、涂云东、宋晓军等在经济统计预测方面运用统计、计量模型对主要宏观变量指标的统计学的动态结构做系统分析,研究它们的相互关系和动态机理,如价格、利率、GDP、货币、进出口等,形成对经济走势的科学预测和判断,对宏观经济政策的制定有重要参考意义。
涂云东博士针对诺奖获得者 Engle and Granger 1987 年在 Econometrica 上提出的误差修正模型,提出了模型选择和平均的策略,改善了其在预测中的表现。该成果形成一篇文章, Tu and Yi (2017), 发表在国际一流杂志 Journal of Econometrics。宋晓军博士与bderrahim Taamouti 教授提出利用非参数方法来度量和检验时间序列中可能存在的非线性和线性格兰杰因果关系。另外,该方法由于不假设任何参数模型,所以并不会受到模型错误设定的影响。该文章于 2016 年发表在 Journal of Business & Economic Statistics。