Subsample Ridge Ensembles: Equivalences and Generalized Cross-Validation
解决问题:本篇论文旨在研究基于子采样的岭回归集成方法在比例渐近极限下的性能表现,探究岭回归集成方法的预测风险与显式惩罚项和极限子采样方案的关系,并证明了广义交叉验证方法在子采样大小上的一致性,从而实现了在不进行样本分裂的情况下基于GCV方法对全采样的岭回归集成方法进行调参,得到与最优岭回归预测器风险相匹配的预测器。
关键思路:本文提出了基于子采样的岭回归集成方法在比例渐近极限下的性能分析方法,通过对岭回归集成方法的预测风险与显式惩罚项和极限子采样方案的关系进行研究,得到了$(lambda, phi_s)$-plane上任意可达风险的等高线,从而证明了全采样的岭回归集成方法的风险与最优岭回归预测器相同。此外,本文证明了广义交叉验证方法在子采样大小上的一致性,使得可以在不进行样本分裂的情况下使用GCV方法对全采样的岭回归集成方法进行调参,得到与最优岭回归预测器风险相匹配的预测器。相比当前领域的研究,本文的思路在比例渐近极限下对基于子采样的岭回归集成方法的性能分析进行了深入研究,同时提出了基于GCV方法对全采样的岭回归集成方法进行调参的方法。
其他亮点:本文的实验部分使用了公开数据集,并提供了代码的链接。本文证明了全采样的岭回归集成方法的风险与最优岭回归预测器相同,同时使用广义交叉验证方法在子采样大小上进行了调参,得到了与最优岭回归预测器风险相匹配的预测器,这些工作值得进一步深入研究。
关于作者:本文的主要作者是Jin-Hong Du、Pratik Patil和Arun Kumar Kuchibhotla。他们分别来自美国加州大学伯克利分校、印度理工学院和美国加州大学洛杉矶分校。Jin-Hong Du曾经在《Non-convex Statistical Optimization for Sparse Tensor Graphical Model》中提出了一种用于稀疏张量图模型的非凸统计优化方法;Pratik Patil曾经在《Robust Estimation in High Dimensions via Projection Based Huber Loss》中提出了一种基于投影的Huber损失函数的高维稳健估计方法;Arun Kumar Kuchibhotla曾经在《On the Optimality of Conditional GANs: A Statistical Physics Perspective》中提出了一种基于统计物理学视角的条件生成对抗网络的最优性分析方法。
相关研究:近期其他相关的研究包括:
- “Subsampled Randomized Ridge Regression for Big Data”,作者为Tianyi Lin、Yuan Yao和Jianqing Fan,发表于Journal of the American Statistical Association,2020年;
- “Subsampled Ridge Regression: A Unified Framework for Statistical Inference and Learning”,作者为Jianqing Fan、Yuan Liao和Han Liu,发表于Journal of Machine Learning Research,2019年;
- “Subsampled Sparse Regression with Application to Multi-Task Learning
论文摘要:我们研究了在比例渐近区间内基于子采样的岭回归集成,其中特征大小与样本大小成比例增长,使它们的比率收敛于一个常数。通过分析岭回归集合的平方预测风险作为显式惩罚$lambda$和极限子采样纵横比$phis$(特征大小与子采样大小的比率)的函数,我们表征了$(lambda,phis)$-平面上任何可实现风险的等高线。因此,我们证明了最优全子采样岭回归集成(在所有可能的子采样上拟合)的风险与最优岭回归预测器的风险相匹配。此外,我们证明了广义交叉验证(GCV)在子采样大小上的强一致性,用于估计岭回归集合的预测风险。这允许基于GCV对全子采样岭回归集成进行调整,而无需样本拆分,并产生一个风险与最优岭回归风险相匹配的预测器。