来源:燕东数据派 2026年6月15日
近日,丘竞昆与陈松蹊教授和邱宇谋副教授合作的研究论文《基于极小极大效率亏损量的高维最优自适应检验》(Optimally
Adaptive Test for High Dimensional Hypotheses via Minimax
Deficiency)被《美国统计学会会刊》(Journal of the American Statistical
Association)接受发表。论文提出一种新的统计检验方法,能够有效地检测大规模数据集的隐藏信号,并且无需事先知道信号强度或信号密度。
从基因组学到气候科学,再到人工智能,现代数据集常常同时关注数以千计乃至数百万计的变量,使得需要分析的数据维度远远超过人们所能收集到的样本量,同时也带来了大量的噪声。研究者往往关心在这些噪声之中是否存在真实的信号,然而答案却又取决于一个大家通常无法事先看清的问题:这些信号的数目究竟有多少,各自的强度又有多大?
过去二十年间,统计学家针对这类高维乃至超高维问题发展出了三大检验方法,每一种都适用于不同类型的信号。平方和(L2)检验面对分散于数据各处的大量微小信号时表现出色;最大值(L∞)检验在仅有少数强信号时最为有效;而高位批判(higher
criticism)检验则专为稀疏且微弱的信号设计。文献中已发现每种检验都只在某一种情形下功效强大,在其他情形则未必理想,然而在实际应用中,研究者往往无法事先知道自己处于哪种情形。
长期以来用于评判此类检验功效的经典工具一直是“检测边界”(detection
boundary),其刻画了随着信号强度和信号密度的变化,一个高维检验在“能检测出信号”和“不能检测出信号”两个状态之间发生的相变现象。论文研究指出,即使有些检验在实际表现上存在差异,这种差异也可能无法直接在检测边界上得到体现。为此,文章提出了两个更精细的度量,即极小极大效率相对亏损量(minimax
relative deficiency, MRD)和极小极大效率绝对亏损量(minimax absolute deficiency,
MAD)。这些度量能够捕捉检验中蕴含的更高阶功效信息,揭示检测边界未能体现的差异。
借助这两个新度量,研究团队构建了一个最优自适应检验,并通过功效增强(power
enhancement)方法,将上述三大检验融为一体。该检验对未知的信号强度和信号密度表现稳健,在整个信号密度范围内都能够关于MRD达到严格最优,且关于MAD达到近似最优。该方法还可被推广至变量间具有一定相关结构的非正态数据,从而具备更广阔的适用范围。
论文提出的三合一思想可用于需要高维信号检测的大量实际应用场景,包括识别差异表达基因和发现时空数据中的趋势变化等。论文以气候变化领域的一个实证研究为例,运用该方法检测了人类活动(人为强迫)对北太平洋海表温度和降水量等气候变量的影响。该方法还与人工智能领域里一个快速兴起的挑战密切相关,即通过隐藏的文字水印来检测所给文本是由大语言模型生成的还是由人类撰写的。
图:温室气体(greenhouse
gases, GHG)对北太平洋降水通量(precipitation flux,
PREC_F)是否有影响的信号检测实证结果;(f)是论文提出的三合一检验,(a)-(e)是现有文献的其他检验;每个格点单独进行检验,蓝色表示结果更加不显著的格点,红色表示结果更加显著的格点。
文章的第一作者是北京大学光华管理学院2021级博士研究生丘竞昆。论文的其他作者包括丘竞昆的博士生导师陈松蹊教授,以及邱宇谋副教授。本研究部分受到教育部基础学科和交叉学科突破计划,以及国家自然科学基金项目资助。