考试范围

简答题6道

计算题3道

证明题1道(二选一)

重点

简答:

解释

  • 过拟合、欠拟合
  • 线性可分
  • 局部极值和全局极值
  • 神经网络是否可以收敛到全局极值
  • 如何克服 C 均值算法对于聚类中心的敏感性
  • PCA 和 LDA 异同点
  • 马氏距离与欧式距离的异同点

C均值、PCA、LDA、KNN、岭回归算法流程

计算:

贝叶斯定理

欧式距离与马氏距离

Fisher准则求决策面方程

证明:

见作业一

欧氏(Euclidean)距离:

绝对值距离(街坊距离或Manhattan距离):

马氏(Mahalanobis)距离

作业一

试证明,多元正态随机矢量的线性变换仍为多元正态随机矢量。

image-20210113182911492

试证明,多元正态随机矢量 X 的分量的线性组合是一正态随机变量。

image-20210113182932041

试证明,对于正态分布,不相关与独立是等价的。(选作)

image-20210113182955282

作业二

  1. 数据集包含 1000 个样本,其中 500 个正例,500 个反例,将其划分为包含 70% 样本的训练集和 30%样本的测试集用于留出法评估,试估算共有多少种划分方式。

    答:构建的数据集中正负样本比例应该保持在 1:1,与训练和测试集的划分比例无关。故分别在正负样本中抽样即可,设共有 N 种划分方式,则:

  2. 简述主成分分析 PCA 算法流程。

    简化:

    n维样本集X

    1.对所有样本进行中心化

    2.计算样本的协方差矩阵

    3.求出协方差矩阵的特征值及对应的特征向量

    4.将特征向量按对应特征值大小从小到大按行排列成矩阵,取前k行组成矩阵P

    5.Y=PX即为降维到k维后的数据

    image-20210113183837078

  3. 简述线性判别分析 LDA 算法流程。

    简化:

    输入:数据集D

    1.计算类内散度矩阵$S_w$

    2.计算类间散度矩阵$S_b$

    3.计算矩阵$S^{-1}wS_b$

    4.计算矩阵的最大的d个特征值和对应的d个特征向量,得到投影矩阵

    5.对样本集中的每一个样本特征xi,转化为新的样本$z_i=W^Tx_i$

    6.得到样本集

    image-20210113183902545

  4. 比较 PCA 与 LDA 的异同点。

    PCA 和 LDA 的相同点

    1) PCA 和 LDA 都是经典的降维算法;

    2) PCA 和 LDA 都假设数据是符合高斯分布的;

    3) PCA 和 LDA 都利用了矩阵特征分解的思想。

PCA 和 LDA 的不同点

1) PCA 是无监督(训练样本无标签)的,LDA 是有监督(训练样本有标签)的;

2) PCA 是去掉原始数据冗余的维度,LDA 是选择一个最佳的投影方向,使得投影后相同类别的数据分布紧凑,不同类别的数据尽量相互远离。

3) LDA 最多可以降到 k-1 维(k 是训练样本的类别数量,k-1 是因为最后一维的均值可以由前面的 k-1 维的均值表示);

4) LDA 可能会过拟合数据。

  1. 简述 ridge regression 算法的流程。

    简化:

    岭回归的损失系数表达式+最优解

    在最小二乘法的基础上加上一个扰动项。

image-20210113185353878

image-20210113185408334

作业三

  1. 详述聚类算法 C 均值的步骤。

    算法基本步骤

    1) 在样本集合中选择 C 个点作为初始类中心;

    2) 在剩下的样本点中选择一个,计算其到各个中心点的距离,选取距离最短者将其归为那个类别;

    3) 选择下一个样本,重复 2 直到计算完所有样本,若集合不发生变化或达到迭代上限则转 5 否则转 4;

    4) 根据当前的类划分情况重新计算中心点,重复步骤 2;

    5) 结束算法。

  1. image-20210114001629772

    image-20210114001917944image-20210114100615249

  2. image-20210114100615249

  3. 讨论:通过查阅相关文献,简述如何克服 C 均值算法对于聚类中心的敏感性。

    FCM 算法(模糊C均值)比硬聚类算法的效果好,但是它仍然存在聚类中心和聚类数需要被提前确定的缺陷。一个好的初始化能够使得最终的聚类效果较为理想,而一个不合适的初始化可能会导致较差的聚类效果。鉴于 FCM 对聚类数初始化的严重依赖,讨论如何能够更好地初始化 FCM, 确定一个较为合适的聚类数及其重要。

百度的一个论文:

在数据采集过程中结合网格聚类算法提高计算效率,为了保存采样数据的分布特点引入权值。根据类别中心密度高、权值大的特征采用寻找连通分量的方法初步确定聚类中心,在此基础上结合自适应免疫算法,动态地确定聚类中心及其类别数。进而使FCM算法跳出局部最优,最大可能地得到全局最优解。

作业四

  1. 简述过拟合、欠拟合。

    过拟合:训练的模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。

    欠拟合:训练样本被提取的特征比较少,导致训练出来的模型不能很好地匹配,表现得很差,甚至样本身都无法高效的识别。

  2. 解释:线性可分。

    所谓可分指可以没有误差地分开,线性可分就是说可以用一个线性函数把两类样本分开,比如二维空间中的直线、三维空间中的平面以及高维空间中的线性函数。

  3. 解释:局部极值和全局极值。

    局部极值:函数的局部极值(local extremum of a function)局部极大值与局部极小值的统称.函数在它的定义域的某个开子集上的最大值与最小值。

    全局极值:极值包括是给定范围内的函数的最大值和最小值,当给定函数的整个定义域的极值称为全局极值。

  4. 神经网络是否可以收敛到全局极值?

    从优化的角度来看,一阶方法可以在训练数据上找到全局最优解这事情十分困难。在深度学习中,常用到随机梯度下降法来进行求解局部最优解,在深度学习中由于收敛过程中可能会使收敛点陷入鞍点中, 很难进行全局的优化,虽然有学者提出可以进行全局最优的收敛,但这只是在特定训练任务中才可以做到, 现如今在深度学习中求解全局最优解,还是需要添加相关条件才可以得到特点训练任务的全局最优解。

  5. image-20210113190635713

  6. 简述 K 近邻 KNN 分类方法。

    算法的描述:

    1)计算测试数据与各个训练数据之间的距离;

    2)按照距离的递增关系进行排序;

    3)选取距离最小的 K 个点;

    4)确定前 K 个点所在类别的出现频率;

    5)返回前 K 个点中出现频率最高的类别作为测试数据的预测分类

  7. image-20210113190717696

要点

Fisher

求解逆矩阵(待定系数法)

img

计算方程组,得到a,b,c,d的值

image-20210113211050406

image-20210113211117385

贝叶斯公式