题目:在多元线性回归中,选择自变量的方法有哪些?
喵查答案:向前选择法、向后剔除法、逐步回归法。向前选择法是从模型中没有自变量开始,分别拟合因变量y对k个自变量(x1,x2,...,xk)的一元线性回归模型,共有k个,然后找出F统计量的值最大的(或P值最小的)模型及其自变量xi,并将该自变量首先引入模型(如果所有模型均无统计上的显著性,则运算过程终止,没有模型被拟合)。
其次,在模型已经引入xi的基础上,在分别拟合引入模型外的k-1个自变量(x1,...xi-1,xi+1...,xk)的回归模型,即自变量组合为xi+x1,...xi+xi-1,xixi+1...,x1+xk的k-1个回归模型,分别考察这k-1个模型,大的(或者P值最小的)自变量xj引入模型,如果除xi之外的k-1个自变量中没有一个是统计上显著的,则运算终止。如此反复,直至模型外的自变量均无统计显著性为止。
向后剔除法,拟合因变量对所有k歌自变量的线性回归模型。考察p(p)个去掉一个自变量的模型(这些模型中的每一个都有k-1个自变量),使模型的SSE值减少最少的自变量(F统计量的值最小或其p值最大)被挑选出来并从模型中剔除。
其次考察p-1个去掉一个自变量的模型(这些模型中的每一个都有k-2个自变量),使模型的SSE值减少最少的自变量被挑选出来并从模型中剔除)。如此反复,直至剔除一个自变量不会使SSE显著减小为止。这时,这个变量就不会再进入模型中。
逐步回归法将上述两种方法结合起来筛选自变量,前两步与向前选择法相同。不过在新增加一个自变量后,它会对模型中所有变量重新进行考察,看有没有可能剔除某个自变量。如果新增加的自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除按此方法不停的增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少(这个过程可通过F检验来完成)