简介:将Lasso算法和logistic回归模型相结合并且引入P2P个人网络信贷评估体系,通过模拟实验的结果发现,在全变量logistic模型、Lasso-logistic模型、Ridge-logistic模型中,Lasso-logistic模型对于变量的压缩效果要更好,有助于简化模型;虽然三个模型在进行预测的结果上并没有显著的差异,但是Lasso-logistic模型在计算效率上更胜一筹,在处理大量数据的情况下更有效率。
简介:梯度Boosting思想在解释Boosting算法的运行机制时基于基学习器张成的空间为连续泛函空间,但是实际上在有限样本条件下形成的基学习器空间不一定是连续的。针对这一问题,从可加模型的角度出发,基于平方损失,提出一种重抽样提升回归树的新方法。该方法是一种加权的加法模型的逐步更新算法。实验结果表明,这种方法可以显著地提升一棵回归树的效果,减小预测误差,并且能得到比L2Boost算法更低的预测误差。
简介:多因变量综合线性回归中变量筛选问题,一直受到学术界的高度关注。针对当前不少学者对多因变量综合线性回归中变量筛选问题的错误认识,尤其是"偏最小二乘回归模型"涉及数学过于深奥,很多学者不能理解其原理,不能适合采用该模型的条件而盲目使用。在利用线性代数中正定与半正定矩阵的性质和矩阵的特征理论的基础上,剖析三种常规线性回归建模方法的原理,揭示"偏最小二乘回归模型"的本性,并在肯定其优越性的同时也指出其应用上的局限性;提出实际应用中合理选择回归模型的若干标准,建立一种容易掌握操作简便且可替代OLS法的"超平面回归模型";利用一个实例对几种回归建模方法的应用效果进行比较和说明。
简介:如何在对参数进行估计的同时自动选择重要解释变量,一直是面板数据分位回归模型中讨论的热点问题之一。通过构造一种含多重随机效应的贝叶斯分层分位回归模型,在假定固定效应系数先验服从一种新的条件Laplace分布的基础上,给出了模型参数估计的Gibbs抽样算法。考虑到不同重要程度的解释变量权重系数压缩程度应该不同,所构造的先验信息具有自适应性的特点,能够准确地对模型中重要解释变量进行自动选取,且设计的切片Gibbs抽样算法能够快速有效地解决模型中各个参数的后验均值估计问题。模拟结果显示,新方法在参数估计精确度和变量选择准确度上均优于现有文献的常用方法。通过对中国各地区多个宏观经济指标的面板数据进行建模分析,演示了新方法估计参数与挑选变量的能力。