信息论——the Convexity
这篇博客来介绍熵,互信息,鉴别信息的凸性,与优化有着重要的关系。
这篇博客来介绍熵,互信息,鉴别信息的凸性,与优化有着重要的关系。
之前我们介绍的分类算法,包括,logistic regression,PLA甚至加上linear regression,他们都是试图找到一条线然后来将两种类别分开。这种算法叫做Discriminative Learning Algorithm,他们的由来,都是直接去估计$P(Y|X)$,这样的话根据新样本的X,从而预测Y。
开一个栏目来记录信息论的学习。希望今年这门课不要挂掉。
完成第一个作业(实际上是第二个)。这个作业还是比较费劲的,一个原因是对OpenGL十分不熟悉。
上次博客最后一个主题矩阵,只说了句矩阵可以完成很多转换。而这次就主要来说明各种转换。
加入了智能成像实验室,但是我对计算机图形学了解还太浅,因此需要学习一些图形学的基础知识。本篇博客先介绍一些很简单的数学基础。
这次数据学习课上,讲的是Generalized Linear Model。我心里想着是要概况线性模型,我应该都清楚吧。上课了之后才发现,这实际上是广义线性模型,有很多新东西。然而我还是睡着了。
Learning From Data是研究生修的一门课,其实也就是机器学习的另一种叫法。第一门课中介绍了Linear Regression,Logistic Regression,Softmax Regression.虽然前两个都学过,但是还是有一些收获,比如另外的解释方法等等。
梯度下降时候,有时候我们可以使用Newton Direction.牛顿迭代法其实大家听起来很熟悉的。
之前提到的之前的SVM会overfitting除了模型过于复杂,另一个问题就是它要将样本分类在训练集上做到完全正确。这时候一些噪声就会很大程度上影响结果。为了适应这些噪声,不得不做出很复杂的模型。
上次遇到的问题是,Q矩阵的计算,仍然可能需要耗费很大计算量,也就是对于很高维度的特征转换,我们不一定能高效解决,更不用说无限维度。
之前说明了linear SVM的,但是实际上依然还有一些问题。虽然在一定程度上,linear SVM会减小特征转换带来的复杂度,但是另一方面,它依然依赖着d.
这个名字真是很奇怪。想要了解为何叫这么奇怪的名字,就要深入了解这个东西。
拉格朗日乘数法,是我们大学或者考研过来的耳熟能详的名词了。我们接触他的时候,应该是在求条件极值的时候。
机器学习基石的最后一次作业,总共20道题目。
到了现在机器学习基石的课程就结束了。最后有一些实际利用学习的原则和小tips,用来作为总结。
上次regularization最后留下了一个问题:$\lambda$的选择。其实仔细想想,从学习机器学习到现在,我们面临的选择,可不止一个$\lambda$.
上篇博客说了overfitting的情况,有一些比较高级的处理overfitting的办法,其中有一个就是regularization,中文中叫做正则化。
Overfitting(过拟合)是机器学习中可能最让人头疼的问题了。对应Overfitting的是Underfitting(欠拟合),相比之下戏份就少了很多。
总共20道题目。