机器学结

相关推荐

机器学结

机器学习，讨论的是如何让计算机程序进行学习。因为现实世界中有很多问题，不能通过直接编程解决，如手写数字识别，自动驾驶等。人们希望计算机程序也能像人一样，从已有的经验中进行学习，来提高它的性能。

那什么是机器学习了？首先来看什么是学习。学习的一般说法是，在经验的作用下，行为的改变。学习有一个要素，那就是经验，学习的结果是行为的改变。如果人经过学习后，并没有改变其行为，则不能称其学习了。

机器学习的概念略有不同，因为学习的主体从人变成了计算机程序。机器学习的最早的一个非正式描述是1959年，由arthur samuel给出：field of study that gives computers the ability to learn without being explicitly programmed（机器学习是一种学习的领域，它给计算机学习的能力，而没有经过显式编码）。这个显式编码应该是针对学习的结果来说的，即计算机学到的东西并不是人写到程序里的，比如arthur samuel写了一个下棋的程序，经过与程序本身对奕很多盘后，能轻易把arthur samuel击败，这就证明学习的结果不是显示编码的。机器学习的更现代的定义是1998年由卡内基梅隆大学的tom mitchell提出：a computer program is said to learn from experience e, with respect to some task t, and some performance measure p, if its performance on t, as measured by p, improves with experience e（计算机程序从经验中学习了，是说它对于某个任务的性能提高了，这个性能是通过p来度量的）。

使用机器学习方法来解决某个任务，首先需要对这个任务选取合适的原型，如线性回归，logistic 回归，朴素贝叶斯，svm（支持向量机）等，然后通过经验来优化性能度量p。这里先来说说性能度量p，原型选择好以后，我们需要根据一定的方法来调整原型的参数，从而达到优化性能度量p的目的。机器学习的理论很大程度上都是在讲优化，如最小训练误差，最小均方差，最大似然率，凸集优化等。机器学习的过程，就是利用经验，来对性能度量p最优化的过程。在实际中，我们并不知道最优是个什么样子，机器学习的结果是对最优值的一个估计，这个估计以大概率收敛于最优值。

根据经验的不同，机器学习可以分做以下三类：监督学习（supervised learning），无监督学习(unsupervised learning)以及增强学习(reinforcement learning)。监督学习是指在训练经验中明确告诉了正确结果，这就和教小孩认水果一样，期望他在学习后能正确认出水果的种类。先给他一个苹果，告诉他，这是苹果。再给他一个苹果，告诉他，这是苹果。如此几次之后，再给他一个苹果，问他，这是什么？如果小孩悟性还好的话，就会说，”这是苹果“。给他一个梨，再问他，如果说”这不是苹果“。这就表示学会了，用机器学习的术语，就叫收敛。如果答的不对，那么说明还需要继续训练。监督学习算法的输出如果是连续的，称为回归（regression），如果是离散的，称为分类(classification)。大部分的机器学习任务都是监督学习。无监督学习的只有训练样本并没有正确结果，继续上面那个例子，这次给小孩一堆苹果，梨和桔子，我们不告诉他这都是些什么，只让他把这些水果按它们的品种分开。待他分开这些水果后，再给他一个桔子，我们期望他能把这个放到桔子那一堆。非监督学习的常用方法是聚类。最后一类是增强学习，这在机器人领域应用广泛。比如小孩如果乖乖的坐在那吃饭，我们就说乖宝宝，如果他到处乱动，把饭吃得桌子上比碗里还多，多半就要被说好好吃饭，坏宝宝之类的。多次以后，宝宝就会发现，如果他表现听话些，大家都会夸他，喜欢和他玩，拍拍他头之类的，如果不听话，就会得不到这些。宝宝就会尽量往听话的方面表现，以得到大家的赞扬和好感，特别是做了坏事以后......这就是增强学习，我们只对程序的行为做出评价，程序就会做出更有可能得到正面评价的行为。

机器学习需要用到线性代数，概率与统计，以及一些最优化方法，如梯度（一阶偏导数），拉格朗日条件极值，凸优化(convex optimizition)等。

机器学结 [篇2]

智能：

智能这个词可以用很多方法去定义。这里我们把它定义为能够根据某些情况做出正确的决定。做出好的决策需要知识，并且这种知识必须是一种可操作的，例如解释传感器数据并且使用它去做决策。

人工智能：

感谢那些人类曾经写过的程序，允许这些程序去做一些我们认为有用的事情。在这种情况下，计算机已经获得了某种程度的智能。在21世纪的开始的时候了，仍然有很多任务，人和动物可以很简单做到，而计算机却无法企及。许多这些任务落到人工智能的标签下，包括许多感知器和控制任务。为什么我们不可能写程序去干这些事情？我相信这是因为我们自己本身并不是真正的知道如何去做这些任务的，即使我们的大脑能够做到。做这些事情涉及的目前隐式的知识，但是我们通过数据和样本获得这些信息，例如观察在某种输入下，人类是如何做的。我们如何让机器去获得那种只能？使用数据和样本去建立可操作的知识就是机器学习。

机器学习：

机器学习有很长的历史了，并且有很多教科书讲了很多有用的道理。这里我们专注到几个最相关的课题。

学习的形式化：

首先，让我们把最一般的机器学习框架形式化一下。我们给定如下样本：

d={z1,z2,...,zn}

zi是从一个未知的过程 p(z)的样本。我们给定一个损失函数l，它有两个参数，一个是决策函数f,一个是样本z,它返回一个实数。我们想去找到l(f,z)的最小值。

有监督学习：

在有监督学习，每个样本z=(x,y) 函数f的入参是x,这里最常用的例子包括：

-回归: y 是一个实数或者是向量，f的输出和y是一个集合，我们经常把损失函数作为均方差：

l(f,(x,y))=||f(x)-y||^2

-分类：y 是一个和分类序号对应的有限正整数，我们经常把这个损失函数作为一个对数函数，并且fi(x)=p(y=i|x),也就是说给定x, y=i的概率。

l(f,(x,y))=-log(fy(x)) 这里的约束是 fy(x)>=0, sum(fi(x))=1

无监督学习：

在无监督学习

无监督学习中，我们学习到一个函数f，它帮助去描述一个未知概率分布p(z).某些函数直接估计p(z)自身(这个叫做密度估计)。在其他例子中，f是一个尝试描述密度主要集中在哪里。聚类算法将输入空间分割成区域（经常是一个样本为中心）。其他聚类算法创建了一个硬分区(比如k-means)，而另一个则构建了软分区（例如gaussian mixture模型），这个软分区给出z属于每一个分类的概率。其他非监督学习算法是那些构建了新的z的表达。许多深度学习算法属于此类，pca也算是这个。

直接泛化：

大多数泛化学习算法推荐了一个单一原则，直接泛化。它假设如果样本a如果和样本b接近，则对应的输出f(a)和输出f(b)应该接近。这是直接泛化插值的基本原则。这个原则是非常厉害，但是它有局限性，如果我们有多个函数怎么办？如果目标函数比训练的样本有多个输出？这样的话，直接泛化将不成立了，因为我们需要至少和目标函数一样多的样本，才能够覆盖多个函数，才能够通过这样的原则来泛化。换句话说，给定知识 d,人类大脑不一定只学习了一个函数就不做了，而是学会了很多函数，你这时候直接泛化就不成立了。

由于下面的原因这个问题和所谓维数诅咒深深的联系在了一起。

当输入空间是高纬度的，且指数级增长的时候，是很可能有多个函数需要学习的。举个例子，我们想去区别给定输入的10个不同的输出，并且，我们关心所有n个变量的10的n次方个配置。单单使用直接泛化，我们需要至少一个样本去泛化10的n次方个样本才能达到所有的泛化。

分布式表达 vs 本地表达和间接泛化

整数n的一个简单的二进制直接表达是一个b位的序列，且 n<b，所有的位是0，除了第n位，整数n的简单的二进制分布式表达是一个log2b位的序列，伴随着一个通常的n的二进制编码。在这个例子，我们看到，分布式表达可以是比本地的表达成指数级的高效。在相同的自由参数个数下，相比直接表达，分布式表达能够达到指数级别的能力。它们因此提供了更好泛化能力的潜力，因为学习理论表明样本的数目o(b)调优。

另一个区别是，聚类和主成分分析，或者限制伯瓷慢机。前面的是本地的，后面的是分布式的。

用k-means聚类，我们为每一个原型维护一个参数向量。例如，每个区域一个。在pca，我们通过记录它的目标可能性的主方向来表达它的分布。现在想象一个简单的主成分解释器，在每一个的方向上，不管在那个方向上的投影是高于或者低于一个阀值，在d个方向上，我们能够区分2的第d次方个区域。rbms是类似的，它定义了d个超平面，并且关联了一个位来标识在那个面的那一边。一个rbm然后关联了一个输入区间到每一个i表达位的配置。（这些位就是隐藏单元，在神经网络里的术语。）

rbm的参数的个数大约等于隐藏单元的个数和输入维数。我们可以看到rbm的区域数目或者pca的区域数目可以随着输入参数的个数指数级的增长，但是k-means的传统聚类区间表达的区域数量仅仅线性的和随着参数的数目增长。换句话说，意识到一个rbm可以泛化到一个和隐藏单元对应的配置的新的区域，这个样本却是没有被看到的，也就是说聚类算法不可能做到的。

【机器学结】相关文章：

学结自我评价08-06

轮岗实习学结08-04

好老师的学结07-07