线性回归中的残差计算公式是衡量模型拟合效果的重要指标。以下是具体说明:
一、基本公式
对于一元线性回归模型:
$$y = \beta_0 + \beta_1 x + \epsilon$$
其中:
$y$ 是实际观测值
$\hat{y}$ 是模型预测值
$\epsilon$ 是误差项
残差 $e_i$ 的计算公式为:
$$e_i = y_i - \hat{y}_i$$
即实际观测值与预测值之间的差异。
二、多元线性回归扩展
对于多元线性回归模型:
$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k + \epsilon$$
残差计算公式同样适用:
$$e_i = y_i - \hat{y}_i$$
其中 $\hat{y}_i$ 是通过回归系数和自变量计算得到的预测值。
三、补充说明
残差平方和 (RSS)
用于衡量模型拟合优度,计算公式为:
$$SSR = \sum_{i=1}^n (y_i - \hat{y}_i)^2$$
其中 $n$ 是样本量。
最小二乘法
残差平方和最小化是线性回归的核心思想,通过求解偏导数找到最优回归系数 $\beta_0, \beta_1, \ldots, \beta_k$。
残差分析
通过分析残差分布(如正态性、独立性)可以评估模型假设的合理性,例如:
- 残差应为随机分布且均值为0
- 残差之间应无系统性偏差
四、示例
假设有数据点 $(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$,通过回归模型得到预测值 $\hat{y}_i$,则第 $i$ 个残差为:
$$e_i = y_i - \hat{y}_i$$
例如,实际值 $y_1 = 5$,预测值 $\hat{y}_1 = 4.8$,则残差 $e_1 = 5 - 4.8 = 0.2$。
通过以上公式和步骤,可以系统地计算和分析线性回归中的残差,从而评估模型性能并改进模型假设。