揭开AI、机器学习和深度学习的神秘面纱
发布时间:2020-11-06 12:19
深度学习、机器学习、人工智能——是代表分析未来的热门词汇。在本文中,我们将通过一些真实世界的案例来解释什么是机器学习和深度学习。在未来的文章中,我们将探索垂直用例。这样做的目的不是让你成为一个数据科学家,而是让你更好地理解你能用机器学习做什么。开发人员可以越来越容易地使用机器学习,数据科学家经常与领域专家、架构师、开发人员和数据工程师一起工作。所以大家详细了解机器学习的可能性是很重要的。您的企业产生的每一条信息都有增加价值的潜力。这篇文章和未来的文章旨在激励你回顾自己的数据,发现新的机会。
  什么是人工智能?
  纵观人工智能的历史,其定义不断被改写。人工智能是一个总称(这个概念始于20世纪50年代);机器学习是AI的子集,深度学习是机器学习的子集。
  1985年,我在国安局实习的时候,人工智能也是一个很热门的话题。在国家安全局,我甚至在麻省理工学院上过一个关于人工智能专家系统的视频课程。专家系统在规则引擎中获取专家知识。规则引擎广泛应用于金融、医疗等行业。最近用于事件处理。然而,当数据改变时,更新和维护规则变得极其困难。机器学习的优势在于从数据中学习,可以提供数据驱动的概率预测。
  在过去的十年里,分析科学发生了怎样的变化?
  根据《哈佛商业评论》的托马斯达文波特(Thomas  Davenport)的说法,分析技术在过去十年中经历了翻天覆地的变化。跨商用服务器的功能更强大、成本更低的分布式计算、流媒体分析和改进的机器学习技术使企业能够存储和分析更多不同类型的数据。
  Apache  Spark等技术使用迭代算法,通过在内存中跨迭代缓存数据和使用更轻的线程,进一步加速分布式数据的并行处理。
  图形处理单元(GPU)加快了多核服务器的并行处理速度。GPU是由数千个更小、更高效的内核组成的大规模并行架构,专门设计用于同时处理多任务,而CPU是由数个针对顺序串行处理进行优化的内核组成。就潜在性能而言,从Cray  -1到现在拥有大量GPU的集群的演进,性能提升约为全球最快计算机的100万倍,但成本只是其中的极小一部分。什么是机器学习?
  机器学习使用算法来寻找数据中的模式,然后使用能够识别这些模式的模型来预测新数据。
  一般来说,机器学习可以分为三种类型:有监督的、无监督的以及介于两者之间的。监督学习算法使用标记数据代替监督学习算法在未标记数据中寻找模式。半监督学习使用标记数据和未标记数据的混合。强化学习训练算法基于反馈最大化奖励。
  监督学习
  监督算法使用标签数据,这些数据的输入和目标的结果或标签将被提供给算法。
  监督学习也被称为预测建模或预测分析,因为你建立了一个可以进行预测的模型。预测建模的一些例子是分类和回归。分类基于已知项目的标记示例(例如,交易是否欺诈),识别项目属于哪个类别(例如,交易是否欺诈)。逻辑回归预测一个概率——,比如诈骗的概率。线性回归预测值为——,例如欺诈数量。
  一些分类的例子包括:
  信用卡欺诈检测(欺诈,不是诈骗)。
  信用卡申请(信用好,信用差)。
  垃圾邮件检测(垃圾邮件,不是垃圾邮件)。
  文字情感分析(开心,不开心)。
  预测患者风险(高危患者和低危患者)。
  恶性或非恶性肿瘤的分类。
  逻辑回归(或其他算法)的一些例子包括:
  根据汽车保险的历史欺诈理赔情况以及这些理赔的特点,如理赔人年龄、理赔金额、事故严重程度等。欺诈的概率是预测出来的。
  给定患者特征,预测充血性心力衰竭的概率。
  So线性回归的一些例子包括:
  根据汽车保险的历史欺诈理赔和这些理赔的特点,如理赔人年龄、理赔金额、事故严重程度等,预测欺诈金额。
  根据历史房地产销售价格和房屋特征(如平方英尺、卧室数量、位置),预测房价。
  根据历史社区犯罪统计,预测犯罪率。
  还有其他有监督和无监督的学习算法。我们就不一一介绍了,每节课详细介绍一个。
  分类示例:借记卡欺诈
  用已知的标签和预定的特征对一组数据进行分类,并根据这些信息学习如何标记新数据。特征就是你问的“是”的问题。标签就是这些问题的答案。
  我们来看一个借记卡诈骗的例子。
  我们想要预测什么?
  借记卡交易是否具有欺诈性。
  欺诈是一个标签(真或假)。
  有哪些可以用来做预测的「是否」问题或属性?今天花费的金额是否大于历史平均水平?
  今天的交易是在多个国家吗?
  今天的交易数量是否大于历史平均水平?
  今天新商户的类型比过去三个月高吗?
  您今天是从多个具有风险类别代码的商家购买吗?
  今天的签名和以前使用PIN相比有什么不寻常的地方吗?
  与过去三个月相比,是否有新的购买行为?
  与过去三个月相比,现在还有海外购买吗?
  为了建立一个分类器模型,你需要提取对分类贡献最大的有用特征。
  决策图表
  决策树创建一个基于输入要素预测类别或标签的模型。它的工作原理是用每个节点上的一个特征来评价问题,然后根据答案选择到下一个节点的分支。预测借记卡欺诈的可能决策树如下所示。特征问题是节点,答案“是”或“否”是树中子节点的分支。(注意,真正的树会有更多的节点。(
  问题1:24小时内的花费是否大于平均水平?
  是
  问题2:现在高风险业务的交易多吗?
  是的,欺诈概率=90%
  非欺诈概率=50%
  决策树很受欢迎,因为它们易于可视化和解释。将算法与积分方法相结合,可以提高模型的精度。一个集成的例子是随机森林算法,它结合了决策树的几个随机子集。
  无监督学习
  无监督学习,有时称为描述性分析,没有预先提供的标记数据。这些算法在输入数据中找到相似之处或规则。无监督学习的一个例子是根据购买数据对相似的客户进行分组。
  聚类
  在聚类中,算法通过分析输入实例的相似性来对其进行分类。一些集群用例包括:
  将搜索结果分组。
  将相似的客户分组。
  分组相似患者。
  文本分类。
  网络安全异常检测(在集群中发现相异点和异常值)。
  K-means算法将数据分成K个簇,每个数据属于离其簇中心均值最近的簇。
  集群的一个例子是,一家公司希望细分其客户,以便更好地定制产品和服务。可以根据人口统计和购买历史等特征对客户进行分组。为了获得更有价值的结果,无监督学习聚类往往与有监督学习相结合。例如,在这个银行客户360用例中,客户首先根据问卷答案进行细分。然后,对客户群进行分析,并用用户画像进行标记。然后,这些标签通过客户ID与账户类型、购买内容等特征链接。最后,我们将监督式机器学习应用于标记客户,允许将用户画像的调查与他们的银行行为联系起来,以提供深入的见解。深度学习
  深度学习被称为多层神经网络,是由输入和输出之间的节点“隐藏层”组成的网络。神经网络有很多种,你可以在这张神经网络小抄上了解更多。改进的算法、GPU和大规模并行处理(MPP)使得拥有数千层的神经网络成为可能。每个节点接受输入数据和一个权重,然后向下一个节点输出一个置信度值,直到到达输出层,并计算置信度值的误差。通过梯度下降过程中的反向传播,误差将再次通过网络发回,并调整权重以改进模型。这个过程重复上千次,根据产生的误差调整模型的权重,直到误差无法再减小。
  在这个过程中,每一层都学习模型的最优特征,其优点是不需要预先确定特征。但是,这也意味着一个缺点,就是模型的决策无法解释。因为解释决策可能很重要,研究人员正在开发新的方法来理解深度学习的黑箱。
  人工智能研究协会是人工智能学术青年和人工智能开发者之间进行技术交流的在线社区。我们与高校、学术机构、行业合作,通过提供学习、实际工作、求职服务,打造AI学术青年与开发者交流、互助、职业发展的一站式平台,努力成为中国最大的科技创新人才聚集地。
  如果你也是一个爱分享的AI爱好者。欢迎学习新知识,与翻译站分享成长。