走进机器学习

机器学习(Machine Learning, ML),顾名思义就是要让机器能像人一样去学习。这是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的一个分支,也是人工智能的核心,是使计算机具有智能的根本途径。所以和人工智能一样,机器学习也是一门综合了统计学、概率论、逼近论、凸分析、计算复杂性理论等的交叉学科。

图1 机器学习的研究领域

从图中我们可以看到机器学习和模式识别、数据挖掘、统计学习、计算机视觉、语音识别、自然语言处理等多个领域都密切相关。

机器学习按实现方法可以如下分类:

(一)监督学习(Supervised learning):是指在有标记样本上建立机器学习的模型。

我们已经知道一些数据和正确的输出结果(训练集),然后通过这些数据训练出一个模型,再利用这个模型去预测新数据的输出结果。监督学习可分为回归问题和分类问题两大类。回归问题中,我们预测的结果是连续值;而分类问题中,我们预测的结果是离散值。常见的监督学习算法有:线性回归、逻辑回归、K-近邻、朴素贝叶斯、决策树、随机森林、支持向量机、梯度下降算法等。

下面说一下监督学习的一般框架:

f(x)可以是如下几种形态:

  1. 一种回归方法
  2. 一个最近邻模型
  3. 一系列规则的集合
  4. 一个神经网络
  5. 一个贝叶斯网络

……

(二)无监督学习(Unsupervised learning):无监督学习中没有给定类标的训练样本,这就需要我们对给定的数据直接进行建模。和监督学习最大的不同在于无监督学习我们事先并不知道数据的类标。常见的无监督学习算法有:聚类、EM算法等。有监督学习与无监督学习的区别就在有无标记样本(或类标)。

(三)强化学习(Reinforcement learning):强化学习是研究如何基于环境而行动,以取得最大的预期利益。比如:下棋和游戏问题。在全局结果没出来之前,不知道每步走的是对还是错。就是我们在进行每一步时候不知道其对结果的影响有多大,只有等最终的结果出来后才明确。强调如何基于周围环境而作出的行动。

目前机器学习广泛应用于语音识别、自然语言处理、医学诊断、无人驾驶、人机博弈等多个领域,诸如:科大讯飞语音助手、谷歌翻译、电子商城的推荐系统、美图软件的图片处理功能、今日头条的个性化新闻定制等这些具体的应用场景和我们的生活息息相关。而在未来,机器学习将实现金融、医疗、教育、交通、生物、化学、农业等的全领域覆盖,这不仅是一场科技的革命,更是时代的大势所趋。机器学习的浪潮必然会让我们的生活发生翻天覆地的变化,也将全方位推动人类社会更加文明。

Related posts