加法模型感想

因为太简单太常见,加法模型往往容易被忽略,但它却蕴含着非常根本的建模思想。针对于某个案例,如果世间存在一个真实模型f(x),加法模型可以看做是它的一阶泰勒近似。

  1. 在时间序列分析里,时间序列通过加法分解为季节分量,趋势和误差项:$Y_t=S_t+T_t+\varepsilon$。其中$Y_t$为季节分量,$T_t$为趋势项,$\varepsilon$为误差项。
  2. 在线性回归里,使用预测子($x \in R^p$)的线性组合对响应变量(y)建模:$y=x^T\beta+\varepsilon$,其中$\beta \in R^p$
  3. 在逻辑回归里,使用预测子($X \in R^p$)的线性组合对类后验概率的log-odd建模:$\log(\frac{Pr(y=1|x)}{1-Pr(y=1|x)})=x^T\beta+\varepsilon$

它随处可见,且极具拓展性。

  1. 基展开:引入基函数h(x)代替x,拓展输入空间,引入非线性,增强输入的表达能力,$y=\phi^T(x)\beta+\varepsilon$。统计学习中广泛使用的基函数有多项式基,log,sqrt,范数,指示函数,样条基,小波基等。

    此外,使用正定核$K(x,z)=\phi^T(x)\phi(z)$也是隐式地引入基展开。
  2. 核方法:最小化经验损失时引入加权核$K_\lambda(x_0,x)$, 根据x到$x_0$的距离赋予x一个权值,可以突出x附近样本的在模型中的地位,为模型引入了局部性。$\min \sum_{i=1}^N K_\lambda(x,x_i)[y_i-\alpha-x_i^T\beta ]$。常用的加权核有高斯核,三次方核,Epanechnikov核,k近邻核。
  3. 多层嵌套:引入激活函数后,多层嵌套加法模型可以得到神经网络的雏形。$f(x)=\sigma(\sum_{i=1}^M\sigma(x^Tw_i))$中的x也可用$\sigma(x^T\beta)$代替。