考试范围

简答题6道

计算题3道

证明题1道（二选一）

重点

简答：

解释

过拟合、欠拟合
线性可分
局部极值和全局极值
神经网络是否可以收敛到全局极值
如何克服 C 均值算法对于聚类中心的敏感性
PCA 和 LDA 异同点
马氏距离与欧式距离的异同点

C均值、PCA、LDA、KNN、岭回归算法流程

计算：

贝叶斯定理

欧式距离与马氏距离

Fisher准则求决策面方程

证明：

见作业一

欧氏(Euclidean)距离：

$d(x,y)=||x-y||=[\sum^{n}\limits_{i=1}{(x_i-y_i)^2}]^{1/2}$

绝对值距离(街坊距离或Manhattan距离)：

$d(x,y)==\sum^{n}\limits_{i=1}{|x_i-y_i|}$

马氏(Mahalanobis)距离

$d^2(\vec{x},\vec{y})==(\vec{x}-\vec{y})'\sum^{-1}(\vec{x}-\vec{y})$

作业一

试证明，多元正态随机矢量的线性变换仍为多元正态随机矢量。

试证明，多元正态随机矢量 X 的分量的线性组合是一正态随机变量。

试证明，对于正态分布，不相关与独立是等价的。（选作）

作业二

数据集包含 1000 个样本，其中 500 个正例，500 个反例，将其划分为包含 70% 样本的训练集和 30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

答：构建的数据集中正负样本比例应该保持在 1：1，与训练和测试集的划分比例无关。故分别在正负样本中抽样即可，设共有 N 种划分方式，则:
$N=(C_{500}^{350})^2\approx 1.73\times10^{131}$
简述主成分分析 PCA 算法流程。

简化：

n维样本集X

1.对所有样本进行中心化

2.计算样本的协方差矩阵

3.求出协方差矩阵的特征值及对应的特征向量

4.将特征向量按对应特征值大小从小到大按行排列成矩阵，取前k行组成矩阵P

5.Y=PX即为降维到k维后的数据
简述线性判别分析 LDA 算法流程。

简化：

输入：数据集D

1.计算类内散度矩阵$S_w$

2.计算类间散度矩阵$S_b$

3.计算矩阵$S^{-1}wS_b$

4.计算矩阵的最大的d个特征值和对应的d个特征向量，得到投影矩阵

5.对样本集中的每一个样本特征xi，转化为新的样本$z_i=W^Tx_i$

6.得到样本集
比较 PCA 与 LDA 的异同点。

PCA 和 LDA 的相同点

1） PCA 和 LDA 都是经典的降维算法；

2） PCA 和 LDA 都假设数据是符合高斯分布的；

3） PCA 和 LDA 都利用了矩阵特征分解的思想。

PCA 和 LDA 的不同点

1） PCA 是无监督（训练样本无标签）的，LDA 是有监督（训练样本有标签）的；

2） PCA 是去掉原始数据冗余的维度，LDA 是选择一个最佳的投影方向，使得投影后相同类别的数据分布紧凑，不同类别的数据尽量相互远离。

3） LDA 最多可以降到 k-1 维（k 是训练样本的类别数量，k-1 是因为最后一维的均值可以由前面的 k-1 维的均值表示）；

4） LDA 可能会过拟合数据。

简述 ridge regression 算法的流程。

简化：

岭回归的损失系数表达式+最优解

在最小二乘法的基础上加上一个扰动项。

作业三

详述聚类算法 C 均值的步骤。

算法基本步骤

1）在样本集合中选择 C 个点作为初始类中心；

2）在剩下的样本点中选择一个，计算其到各个中心点的距离，选取距离最短者将其归为那个类别；

3）选择下一个样本，重复 2 直到计算完所有样本，若集合不发生变化或达到迭代上限则转 5 否则转 4；

4）根据当前的类划分情况重新计算中心点，重复步骤 2；

5）结束算法。

讨论：通过查阅相关文献，简述如何克服 C 均值算法对于聚类中心的敏感性。

FCM 算法（模糊C均值）比硬聚类算法的效果好，但是它仍然存在聚类中心和聚类数需要被提前确定的缺陷。一个好的初始化能够使得最终的聚类效果较为理想，而一个不合适的初始化可能会导致较差的聚类效果。鉴于 FCM 对聚类数初始化的严重依赖，讨论如何能够更好地初始化 FCM，确定一个较为合适的聚类数及其重要。

百度的一个论文：

在数据采集过程中结合网格聚类算法提高计算效率，为了保存采样数据的分布特点引入权值。根据类别中心密度高、权值大的特征采用寻找连通分量的方法初步确定聚类中心，在此基础上结合自适应免疫算法，动态地确定聚类中心及其类别数。进而使FCM算法跳出局部最优，最大可能地得到全局最优解。

作业四

简述过拟合、欠拟合。

过拟合：训练的模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。

欠拟合：训练样本被提取的特征比较少，导致训练出来的模型不能很好地匹配，表现得很差，甚至样本身都无法高效的识别。
解释：线性可分。

所谓可分指可以没有误差地分开，线性可分就是说可以用一个线性函数把两类样本分开，比如二维空间中的直线、三维空间中的平面以及高维空间中的线性函数。
解释：局部极值和全局极值。

局部极值：函数的局部极值(local extremum of a function)局部极大值与局部极小值的统称.函数在它的定义域的某个开子集上的最大值与最小值。

全局极值：极值包括是给定范围内的函数的最大值和最小值，当给定函数的整个定义域的极值称为全局极值。
神经网络是否可以收敛到全局极值？

从优化的角度来看，一阶方法可以在训练数据上找到全局最优解这事情十分困难。在深度学习中，常用到随机梯度下降法来进行求解局部最优解，在深度学习中由于收敛过程中可能会使收敛点陷入鞍点中，很难进行全局的优化，虽然有学者提出可以进行全局最优的收敛，但这只是在特定训练任务中才可以做到，现如今在深度学习中求解全局最优解，还是需要添加相关条件才可以得到特点训练任务的全局最优解。
简述 K 近邻 KNN 分类方法。

算法的描述：

1）计算测试数据与各个训练数据之间的距离；

2）按照距离的递增关系进行排序；

3）选取距离最小的 K 个点；

4）确定前 K 个点所在类别的出现频率；

5）返回前 K 个点中出现频率最高的类别作为测试数据的预测分类