摘要: 随着海量高维数据在众多研究和应用领域的不断涌现,如何利用数据的稀疏性特征,从中挖掘到有价值的信息显得至关重要.变量选择作为可解释性建模、提高统计推断和预测精度的有效工具,在高维数据的分析中发挥着愈来愈重要的作用.由于集成学习能显著提高选择精度、缓解变量选择过程的不稳定性、降低噪声变量被误选的机率,变量选择集成方法近年来得到了广泛研究.为了给相关方向的研究者提供一个系统的参考资料,论文对现有的变量选择集成方法进行了详细阐述,按照构建集成所用的不同策略将其分为两大类,分析了各类方法的特征,并采用数值试验研究了各类方法在变量选择、预测等方面的性能.最后,论文对变量选择集成方法在未来值得研究的方向进行了探讨.
中图分类号: