什么是机器学习?
“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”;
“机器学习是对能通过经验自动改进的计算机算法的研究”;
“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准”。
机器学习是数据通过算法构建出模型并对模型性能进行评估,如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就调整算法重新建立模型,再次进行评估,如此循环迭代,直到最终获得满意的经验来处理其他的数据。
机器学习分类
监督学习:从给定的训练数据集中学习一个模型,当新的数据到来时,可以根据这个模型预测结果。每组训练数据都有明确的标注,在建立模型时,将预测结果与实际结果进行比较,不断调整模型,直到模型的预测结果达到预期的准确率。
无监督学习:学习模型是为了推断出数据的一些内在结构,训练数据没有被特别标注,常见的应用场景包括关联规则的学习、聚类等;
半监督学习:介于监督学习与无监督学习之间的一种机器学习方式,主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题,首先试图对未标注数据进行建模,在此基础上再对标注的数据进行预测;
强化学习:通过观察来学习动作的完成,每个动作都会对环境有所影响,根据观察到的周围环境的反馈来做出判断。以一种“试错”的方式进行学习,找到最优策略,常见的应用场景包括动态系统以及机器人控制等。
机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、统计学习、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音识别、模式识别 、战略游戏 和 机器人等领域。
在企业数据应用的场景下,最常用的是监督式学习和无监督式学习的模型;
在图像识别等领域,由于存在大量的非标注的数据和少量的标注数据,目前半监督式学习是一个研究的热点;
强化学习更多地应用在机器人控制及其他需要进行系统控制的领域。