近日,第八届全国统计学博士研究生学术论坛在广州举办。该论坛由中国现场统计研究会主办,广东省现场统计学会协办,广州大学经济与统计学院、广州大学岭南统计科学研究院承办。北京大学统计科学中心博士生英乃文投稿的论文《Generalized tetrad constraint for testing conditional independence on a latent variable》荣获优秀论文一等奖。该论文由英乃文、罗姗姗(北京工商大学数学与统计学院讲师)和苗旺(北京大学数学科学学院副教授)合作完成。
获奖证书
英乃文
英乃文,北京大学数学科学学院、统计科学中心二年级博士生,导师为苗旺副教授,研究方向包括因果推断、缺失数据和半参数统计。
获奖论文题目:Generalized tetrad constraint for testing conditional independence on a latent variable
论文介绍:
该工作的出发点是因果发现这一领域中的四分体约束问题(tetrad constraint)。四分体约束指出,若四个观测变量X,Y,Z,W在给定隐变量U(latent variable,confounder)时条件独立,且给定U的条件期望满足线性模型,那么四个变量中任意两对的协方差乘积都相等,即
cov(X,Y)cov(Z,W)=cov(X,Z)cov(Y,W)=cov(X,W)cov(Y,Z).
图1 条件独立性的图示, 有向边表示有因果关联
这一等式称为四分体约束。根据这一等式可以检验观测变量的相关性是否由潜在的共同原因所导致。这一思想可以追溯到Spearman (1904)关于人类智力的二因素理论的研究,该理论认为智力由两种因素构成,其一为影响所有智力活动的潜在共同因素,另一个为反映不同能力的互相独立的特定因素,Spearman通过检验观测到的智力测试得分是否满足四分体约束来检验这一理论。Wishart (1928)在观测变量满足多元正态分布下提出了四分体约束的统计检验方法。Bollen (1990)将四分体约束的检验拓展到更一般的线性模型。四分体约束作为从观测数据中发现隐藏因果结构的一个重要工具,在现代科学研究中有广泛应用,但目前基于四分体约束的因果发现方法依赖线性或部分线性的假定,在实际应用中存在局限性。
英乃文、罗姗姗和苗旺将四分体约束拓展至非线性、非参数模型。该论文利用混杂桥函数(confounding bridge function, Miao et al., 2018)刻画隐变量对不同观测变量的非线性混杂作用之间的关系,在非参数模型下建立了四个观测变量关于隐变量条件独立的新的必要条件。关于Z的混杂桥函数定义为Z的一个未知的变换g(Z),满足在W的每一层上,U对Y和对g(Z)的混杂作用相等,即
E(Y∣U,W=w)=E{g(Z)∣U,W=w}.
类似可定义关于W的混杂桥函数h(W),满足
E(Y∣U,Z=z)=E{h(W)∣U,Z=z}.
混杂桥函数g(Z),h(W)可由如下的观测数据方程求解,
E(Y∣W)=E{g(Z)∣W},E(Y∣Z)=E{h(W)∣Z}.
并且,在条件独立性成立时,这两个变换满足如下等式,
E(Y∣X)=E{g(Z)∣X}=E{h(W)∣X}.
这一等式称为广义四分体约束,它能够刻画条件独立性满足时四个观测变量之间的关系,而无须分布上的任何参数化约束,线性模型下经典的四分体约束可看做这一等式的特例。该论文进一步提出了广义四分体约束的检验方法。为了克服直接估计条件期望的困难,该论文利用鞅差散度(martingale difference divergence, MDD, Shao and Zhang, 2014)的思想,用一个等价的一维度量
刻画条件期望E(Y∣X)和E{g(Z)∣X}之间的差异,该度量允许基于混杂桥函数的参数或非参数的估计构造具有简洁形式的检验统计量。该检验在数值模拟和实际应用中均有良好表现,作者使用提出的方法分析了世界价值观调查(World Values Survey)中关于诚信的四个指标的数据,分析结果表明这些指标可以作为诚信的独立度量。
[1]Spearman, C. (1904). “General intelligence,” objectively determined and measured. American Journal of Psychology, 15(2), 201-293.
[2]Wishart, J. (1928). Sampling errors in the theory of two factors. British Journal of Psychology, 19(2), 180.
[3]Bollen, K. A. (1990). Outlier screening and a distribution-free test for vanishing tetrads. Sociological Methods & Research, 19(1), 80-92.
[4]Miao, W., Geng, Z., & Tchetgen Tchetgen, E. J. (2018). Identifying causal effects with proxy variables of an unmeasured confounder. Biometrika, 105(4), 987-993.
[5]Shao, X., & Zhang, J. (2014). Martingale difference correlation and its use in high-dimensional variable screening. Journal of the American Statistical Association, 109(507), 1302-1318.