├── README.md
└── 科大财经量化统计学基础.md
/README.md:
--------------------------------------------------------------------------------
1 |
2 |
--------------------------------------------------------------------------------
/科大财经量化统计学基础.md:
--------------------------------------------------------------------------------
1 | # 量化统计学基础
2 |
3 | 科大财经 2022年4月8日
4 |
5 |
6 |
7 | ## 前言
8 |
9 | **为什么要学习统计学习**?了解各种技术背后的想法非常重要,只有这样我们才能掌握这些技术的使用方法,把握合适的时机。我们要明确的是我们只有先掌握较为简单的方法,才能为之后掌握复杂方法奠定良好基础。准确评估一种方法的性能也是十分重要的,这样可以了解到工作效果的好坏。此外,统计学也是一个令人振奋的研究领域,在科学、工业和金融领域都有着重要的应用。
10 |
11 |
12 |
13 | ## 线性回归
14 |
15 | 在统计学中,线性回归是一种通过拟合因变量和自变量之间最佳线性关系来预测目标变量的方法。通过确保线性表达式输出图形与实际观察点之间的所有距离之和尽可能小来完成最佳拟合。形状的“最佳”是指在给定形状的情况下,没有其他位置会产生更少的误差。线性回归的两种主要类型是简单线性回归和多元线性回归。**简单线性回归**使用单个独立变量来通过拟合最佳线性关系来预测因变量。**多重线性回归**使用多个独立变量通过拟合最佳线性关系来预测因变量。
16 |
17 |
18 |
19 |
20 |
21 | 选择任意两件你在日常生活中相关的事情。比如,我有我过去三年的每月支出,每月收入和每月的旅行次数的数据。那么我就可以通过线性回归预测以下几个问题:
22 |
23 | - 我明年的每月花费是多少?
24 | - 在决定我的每月支出时,哪个因素(月收入或每月旅行次数)更重要?
25 | - 月收入和每月旅行如何与每月支出相关联?
26 |
27 |
28 |
29 | ## 分类
30 |
31 | 分类是一种数据挖掘技术,将数据集分配至多了类别,以帮助进行更准确的预测和分析。有时也称为决策树,分类是分析大型数据集的几种高效方法之一。其中有两大分类技术最为常用:逻辑回归和判别分析。
32 |
33 | **逻辑回归**分析适合用于因变量为二元类别时的回归分析。像所有的回归分析一样,逻辑回归是预测分析。逻辑回归用于描述数据并解释一个相关二元变量与一个或多个名义,序数,区间或比率级别等独立变量之间的关系。逻辑回归可以检查的问题类型有:
34 |
35 | - 每超重一磅和每天吸一包香烟对改变肺癌的概率是否有影响(是vs否)?
36 |
37 | - 卡路里摄入量,脂肪摄入量和参与者年龄是否对心脏病发作有影响(有vs无)?
38 |
39 |
40 |
41 | 在**判别分析**中,两个或多个已知的集合、簇或群体都可以作为分类的先验知识,使用时根据被测特征就可把新的观测值划分到相应类别。 判别分析在每个响应类别中分别对预测变量X的分布进行建模,然后使用贝叶斯定理将它们转换成给定X值可获对应类别的概率的估计值。这些模型可以是线性的或二次的。
42 |
43 | - **线性判别分析**为每个观测值计算“判别分数”,以对它所处的响应变量类别进行分类。这些分数是通过寻找自变量的线性组合得到的。它假设每个类别内的观察值均来自多变量高斯分布,并且预测变量的方差都是相同的。
44 | - **二次判别分析**提供了一种替代方法。 与LDA一样,QDA假设来自每个Y类的观察结果都来自高斯分布。 但是,与LDA不同的是,QDA假定每个类都有其自己的协方差矩阵。 换句话说,每个类别的方差不一样
45 |
46 |
47 |
48 | ## 重采样方法
49 |
50 | 重采样是从原始数据样本中绘制重复样本的方法。这是一种统计推断的非参数方法。换句话说,重采样方法不涉及使用通用分布表来计算近似概率p的值。
51 |
52 | 重采样根据实际数据生成独特的采样分布。它使用实验方法而不是分析方法来生成独特的抽样分布。它可基于研究人员研究数据的所有可能结果的无偏样本获取无偏估计。为了理解重采样的概念,你应该先理解术语Bootstrapping和交叉验证:
53 |
54 | 
55 |
56 | - **Bootstrapping**是一种技术,有助于在许多情况下验证预测模型的性能和集成方法,估计模型的偏差和方差。它通过对原始数据进行有放回的采样,并将“未选择”数据点作为测试用例。我们可以做这几次这样的操作,并计算平均分作为我们的模型性能的估计。
57 | - **交叉验证**是验证模型性能的一种技术,它通过将训练数据分成k个部分来完成。我们将k-1部分作为训练集,并将余下部分作为我们的测试集。 我们以不同的方式重复k次。 最后,我们将k个分数的平均值作为我们的性能评估。
58 |
59 | 通常对于线性模型而言,普通最小二乘法是拟合数据时的主要标准。 接下来的3种方法是可以为线性模型拟合提供更好的预测精度和模型可解释性的替代方法。
60 |
61 | ## 子集选择
62 |
63 | 这种方法首先确定了我们认为与问题最相关的p个预测因子的一个子集。 然后我们使用子集特征和最小二乘法来拟合模型。
64 |
65 |
66 |
67 | - **最佳子集选择**:这里我们为p个预测因子的每种可能组合拟合一个单独的最小二乘回归,然后查看最终的模型拟合结果。该算法分为2个阶段:(1)拟合所有包含k个预测变量的模型,其中k是模型的最大长度,(2)使用交叉验证的预测损失选择单个模型。使用测试或验证误差非常重要,而不是单纯的以训练误差来评估模型拟合情况,因为RSS和R²会随着变量的增加而单调递增。最好的方法是选择测试误差估计值最高的R²和最低RSS的模型交叉验证,进而选择模型。
68 | - **向前逐步选择**,考虑p个预测因子的更小的子集。算法先从一个不包含预测变量的模型开始,然后将预测因子添加到模型中,一次一个,直到所有预测因子都在模型中。添加预测因子的顺序是根据不同变量对模型拟合性能提升的程度来确定的,不断添加新的预测因子,直到交叉验证误差没有大的改变。
69 | - **向后逐步选择**,首先模型包含所有p个预测因子,然后迭代地逐个去除最无用的预测变量。
70 | - **混合法**遵循前向逐步方法,但是,在添加每个新变量之后,该方法还可以去除对模型拟合无贡献的变量。
71 |
72 |
73 |
74 | ## 特征缩减技术
75 |
76 | 这种方法适用于包含所有p个预测因子建立的模型,然而,表示预测因子重要性的系数将随最小二乘误差向零收缩。这种收缩称之为正则化,具有减少方差以防止模型过拟合的作用。常用的缩减系数方法有lasso(L1正则化),岭回归(L2正则化)。
77 |
78 |
79 |
80 | - **岭回归**与最小二乘法类似,都是寻求减少RSS的系数估计,当系数接近于零时,它们也会有收缩惩罚。这个惩罚的作用是将系数估计收缩到零。我们不需要数学分析就知道岭回归很擅长于将特征收缩到最小的子空间中。与主成分分析一样,岭回归将数据投影到低维空间,并在系数空间内收缩较低方差的成分而保留有较高方差的成分。
81 | - 岭回归有一个缺点,最终模型需包含所有p个预测因子。惩罚项将使其中的许多预测因子的系数接近于零,但从未等于零。这对预测准确性虽然通常没有什么影响,但它可能会使模型结果更难以解释。Lasso方法克服了这个缺点,只要s足够小,就能够迫使某些系数归零。当s=1时,像正常的最小二乘法回归,当s接近0时,系数收缩为零。因此,Lasso回归也是执行变量选择的好方法。
82 |
83 |
84 |
85 | ## 降维
86 |
87 | 降维是将p + 1个系数估计问题简化为M + 1个系数估计的简单问题,其中M