搜索
您的当前位置:首页厦门大学机器学习考试题

厦门大学机器学习考试题

来源:智榕旅游
______________________________________________________________________________________________________________

第一题 判断题(10分,每小题1 分)

[1] 逻辑斯蒂回归模型可以用来做分类,但是SVM不能用来做回归。( ) [2] 训练数据较少时更容易发生过拟合。( )

[3] 如果回归函数A比B简单,则A一定会比B在测试集上表现更好。( )

[4] 在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。( ) [5] 在AdaBoost算法中,所有被错分的样本的权重更新比例相同。( ) [6] Boosting的一个优点是不会过拟合。( )

[7] 梯度下降有时会陷于局部极小值,但EM 算法不会。( ) [8] SVM对噪声(如来自其他分布的噪声样本)鲁棒。( ) [9] 经验风险最小化在一定条件下与极大似然估计是等价的。( )

[10] 在回归分析中,最佳子集选择可以做特征选择;Lasso模型也可以实现特征选择。( )

第二题 统计学习方法的三要素(10分)

1. (5分)H是一个函数空间,p(x,y)是XY上一个概率测度,D{xi,yi}in1是XY的一个子集(采样),(f)fHXYL(x,y,f(x,y)dp,(f)1nL(xi,yi,f(xi,yi)), ni1fHargmin(f),fzargmin(f),请问:

fH[1] (2分)(fz)(fH)随着N增大而增大吗?为什么? [2] (3分)(fz)(fH)随着H增大而增大吗?为什么?

2. (5分) 比较感知机、逻辑斯蒂回归模型、AdaBoost和SVM的损失函数。

第三题 产生式模型和判别式模型 (10分)

[1] (5分)解释产生式模型和判别式模型,并分析二者的不同点; [2] 列出三种判别式模型(3分)和两种产生式模型(2分)

第四题 EM and Naive Bayes (15分)

[1] (5分)概述EM算法的用途及其主要思想;

精品资料

______________________________________________________________________________________________________________

[2] (10分)EM算法可以用到朴素贝叶斯法的非监督学习,写出其算法。

第五题 HMM (10分)

考虑盒子和球模型 ,状态集合 ,观测集合 红 白 ,

0.50.20.30.50.5A0.30.50.2,B0.40.6, 0.20.30.50.70.3设T=3,O=(红、白、红),试用前向算法计算 .

第六题 SVM(15分)

考虑利用线性支持向量机对如下两类可分数据进行分类:

+1:(1,1), (2,2), (2,0) -1:(0,0), (1,0), (0,1)

[1] (4分)在图中做出这6个训练点,构造具有最优超平面和最优间隔的权重向量; [2] (3分)哪些是支撑向量?

[3] (8分)通过寻找拉格朗日乘子i来构造在对偶空间的解,并将它与[1]中的结果比较。 第七题 Logistic 回归模型(15分)

如图1(a)所示,数据采用简化的线性logistic回归模型进行两类分类,即,

PY1x,w1,w2gw1x1w2x21

1exp(w1x1w2x2)为了简化,不采用偏差w0,训练数据可以被完全分开(训练误差为0,如图1(b)所示的L1)。

oooooooo o4oooooooL3LL2++++++图1(a) 二维训练数据++++++L1图1(b) 可能的决策面:L1,L2,L3,L4

Ni1[1] (8分)考虑一个正则化的方法,即最大化logPyixi,w1,w2C2w2,注意只有 被惩罚。2则当C 很大时,如图1(b)所示的4 个决策边界中,哪条线可能是由该正则方法得到的?

L2、L3 和L4 可以通过正则 得到吗?简要说明理由。

[2] (7分)如果我们将正则项给出L1 范式,即最大化logPyixi,w1,w2i1NCw1w2,2则随着 C 增大,下面哪种情形可能出现(单选) ?注:简要说明理由

精品资料

______________________________________________________________________________________________________________

(A) 将变成0,然后 也将变成0。 (B) 将变成0,然后 也将变成0。

(C) 和 将同时变成0。 (D)两个权重都不会变成0,只是随着C的增大而减小为0。

第八题 AdaBoost (15分)

考虑如下图2所示的训练样本,其中’X’和’O’分别表示正样本和负样本。采用AdaBoost算法对上述样本进行分类。在Boosting的每次迭代中,选择加权错误率最小的弱分类器。假设采用的弱分类器为平行两个坐标轴的线性分类器。

65.554.543.532.521.510.500123456-1+1图2 训练数据 [1] (4分)在图2中标出第一次迭代选择的弱分类器(L1),并给出决策面的‘+’和‘-’面。 [2] (4分)在图2中用圆圈标出在第一次迭代后权重最大的样本,其权重是多少? [3] (4分)第一次迭代后权重最大的样本在经过第二次迭代后权重变为多少? [4] (3分)强分类器为弱分类器的加权组合。则在这些点中,存在被经过第二次迭代后的

强分类器错分的样本吗?给出简短理由。

精品资料

______________________________________________________________________________________________________________

Welcome To Download !!!

欢迎您的下载,资料仅供参考!

精品资料

因篇幅问题不能全部显示,请点此查看更多更全内容

Top