终极机器学习指南| smartsheet

什么是机器学习?

机器学习是人工智能的一个子领域，它使计算机系统能够获得知识，从经验中改进，并在最少的人为干预下做出预测。机器学习程序使用训练模型或学习数据集来发现模式并解释数据。

这些训练模型使用算法(一种程序或公式)来促进基于经验的学习改进，这反过来又会随着时间的推移而提高准确性。

有很多数据可以从中学习。例如，仅美国人就产生了3,138,420 gb的互联网流量根据Statista媒体使用研究，2018年6月的每一分钟。需要明确的是，大数据不仅仅是一个大型数据库:最理想的数据具有复杂性和深度，并且包含足够的细节来解决超出一般计算机编程能力的问题。大数据的爆炸式增长激发了人们对机器学习和相关领域的兴趣，比如神经网络和深度学习，这些领域每天都在带来新的应用。

为什么机器学习很重要?

机器学习至关重要，因为它建立了精确的模型，帮助研究人员和公司在发现新药、制造更好的汽车和确保更大的个人安全的解决方案时获得洞察力、识别机会和规避风险。事实上，机器学习已经成为一种关键的业务问题解决机制，被商业领袖认为是一种重要的能力HFS Research于2018年7月进行的研究发现“企业预计机器学习将渗透并影响大多数业务运营，超过一半(52%)的企业预计在未来两年内会产生这种影响。”

根据2014年的研究，理解机器学习数据导致了一个完全独立的领域，称为表征学习，并“在学术界和工业界取得了一系列显著的经验成功”，包括自然语言处理、对象识别和语音识别。表征学习:回顾与新视角。”

Richard Yonck，创始人和首席未来学家智能未来咨询他也是《机器之心:我们在人工情感智能世界中的未来他指出，无处不在已经让我们对机器学习技术的现状感到麻木。“从搜索引擎到我们的音乐账户，再到像Siri这样的数字助理，我们被人工智能包围着。长期以来，人们一直观察到，一旦某个特定的人工智能挑战被克服并实现，我们就不再认为它是人工智能，它就会消失在我们生活的背景中。”扬克补充道:“机器学习和人工智能的未来似乎是无限的。机器学习正在改变每个行业，并将继续对我们的日常生活产生巨大影响。”

机器学习的历史

通过某种机器学习让生活变得更轻松是人类几千年来的目标。机器学习的第一个实际应用始于布莱兹·帕斯卡(Blaise Pascal)在17世纪初发明的机械加法机等设备。1843年，随着Ada Lovelace的数学算法排序操作的增加，这项发明得到了进一步的发展，这反过来又导致了1946年第一台数字计算机的出现。另一个重要的里程碑是麻省理工学院计算机科学实验室的成立，该实验室已成为机器学习和人工智能领域重大进展的发源地。20世纪50年代末神经网络的产生也是机器学习发展的一个重要突破。神经网络是模仿人类大脑和神经系统的计算机系统。随着世界各地的研究人员致力于通过使用数据来使思维机械化的方法，机器学习领域自20世纪90年代以来得到了加速发展。

在商业中使用机器学习的最佳方法

机器学习始于学术界，在那里已经开发了关键的理论和算法，并正在进行研究。根据人工智能杂志虽然学术研究仍然有助于机器学习的进步，但人工智能研究人员发现，“与真正的问题、真实的数据、真正的专家和真正的用户接触，可以产生创造性的摩擦，从而引领机器学习的新方向。”

下面是一些新方向和现实世界的应用，并由开发它们的人进行了解释。

机器学习即服务

机器学习即服务(MLaaS)是提供机器学习工具的一系列服务，作为云计算服务的一部分。服务提供商提供深度学习、预测分析、应用程序编程接口(api)、自然语言处理、数据可视化等工具。

“每项业务的核心都是效率。随着时间的推移，机器学习及其指数级提高的能力将成为每个试图在不断变化的环境中竞争的公司的明显答案艾米Kouffman他是Knockout AI的首席执行官兼联合创始人。该公司的使命是大幅降低企业家和应用程序开发人员的进入门槛，因此这些用户可以通过软件开发工具包将机器学习直接集成到他们的代码中。“在未来5到7年内，每家公司都将拥有某种类型的智能来协助其实现日常业务目标。我们相信，建立一个易于使用的机器学习平台将为应用程序开发人员、编码人员和企业打开闸门。”

公司首席执行官兼联合创始人Sivan Metzger表示:“我们的解决方案解决了许多组织在生产中自动化和扩展机器学习服务部署和管理时遇到的问题ob欧宝娱乐app手机下载ParallelM。他继续说道:“这些机器学习问题源于组织的数据科学和运营团队在专业知识和经验方面的巨大差距。由于这两个关键部门之间的交接和正在进行的流程不成熟，他们经常共享机器学习运行时责任，这经常导致业务结果和投资回报率的延迟。”ParallelM的解决方案MCenter将机器学习管道转移到生产中，自动化编排，并实现24/7机器学习性能。ob欧宝娱乐app手机下载MCenter是一个业务分析师、数据科学家和IT运营人员通过自动化、优化和扩展来提供企业范围内机器学习的空间。

医疗保健中的机器学习

机器学习在诊断、制药、治疗、医疗实践中的关键决策、个性化治疗和自我保健方面提供了改变游戏规则的现实世界的好处。

Matthew Enevoldson是SkinVision这是一款使用算法检测皮肤癌可见迹象的手机应用程序。五分之一的人一生中会患皮肤癌，早期发现和干预是生存的关键。Enevoldson解释说:“这些算法是与皮肤科医生合作开发和测试的，用于检查病变的形状、颜色和纹理的不规则性。”对于SkinVision的用户来说，首先要下载应用程序，用自动相机拍照，确保所有照片都是一样的。专有的数学算法然后计算皮肤病变和周围组织的分形维数，以构建结构图，从而揭示相关组织的不同生长模式。该地图显示了应该长期跟踪的皮肤不规则性，并在30秒内给出了每种不规则性的低、中或高风险指示。”

创始人兼首席执行官Loubna Bouarfa秋葵欧盟人工智能高级专家组成员说:“我们认为，改变医疗保健需要一种可扩展的多学科方法。OKRA技术是一个机器学习平台，具有现实世界的实时功能。OKRA使用结构化和非结构化数据源，为医疗保健和寄养领域的人类结果预测开发人工智能软件(例如，结果预测系统、决策支持系统、预测算法和匹配算法)。OKRA与世界各地的医疗机构和消费品公司合作，为患者做出更好的决策，并取得更好的结果。我们的平台还减少了诊断疾病、识别误诊患者和实时预测治疗反应所需的时间。”

“混合健身的每一秒都很重要，”总部位于加拿大的首席算法官瓦希德·b·扎德(Vahid B. Zadeh)说推，母公司联系这是第一款可以测量运动员锻炼并量化训练的健身可穿戴设备。NEXUS自动为用户提供通常由教练手动计算的训练指标。“对运动员和他们与应用程序互动的外部干扰必须几乎为零。因此，该产品必须ob欧宝娱乐app手机下载在锻炼过程中尽可能地自主行动，并将交互限制在锻炼前后的时间内。我们正在解决的问题的一个简化版本在文献中被称为“运动检测”(ED)或“人类活动识别”(HAR)。它需要对运动进行分析，并根据从运动执行过程中收集的数据中提取的特征对运动类型进行分类。”

市场和销售中的机器学习

为了更快、更清楚地解决问题，营销人员正在使用机器学习来预测、理解问题并采取行动，以击败竞争对手。机器学习将营销自动化的准确性和速度提升到了一个新的水平，因为它为用户提供了加速的个性化、潜在客户评分、销售预测和建议。此外，机器学习可以用于欺诈检测，以保护企业及其客户免受安全攻击。聊天机器人已经形成了自己的风格，并不断发展成为一种通过自动消息传递应用程序改善客户服务沟通的方式。了解更多人工智能聊天机器人综合指南。

Alex Cardinell是Cortx是一家与内容相关的人工智能公司。该公司的WordAi是一个智能内容重写器;它的产品ob欧宝娱乐app手机下载Article Forge生成SEO内容，MicrositeMasters跟踪营销工作并提供有用的反馈。Cortx推出的最新产ob欧宝娱乐app手机下载品是由人工智能驱动的拼写和语法纠正软件Perfect Tense。“在一篇有10个错误的文章中，完美时态可能会自动纠正其中的8个错误，而无需人工干预。如果校对文本的成本过高，那么使用[完全时态]就非常划算。而且，即使你有编辑器，这也可能使编辑器的工作速度比以前快五倍。”

“在要这种，我们打造数字化员工，协助员工完成信息检索、访问和维护等日常任务。我们让企业能够以一种有意义的方式采用人工智能，并有能力开始实现员工生产力和整个组织知识共享的即时改善，”Talla and的首席执行官兼联合创始人罗布·梅(Rob May)解释说ob欧宝娱乐app手机下载BotChain。例如，如果一家公司将其产品文档存储在Talla，其销售代表可以在进行销售电话时立ob欧宝娱乐app手机下载即访问该信息。这种能够立即方便地访问准确的、经过验证的和最新的信息的能力对收入有直接影响。Talla还通过在员工需要的时候向他们提供信息，使新代表的入职和培训过程更好、更快、成本更低。”

金融中的机器学习

在搜索引擎、移动银行应用程序和聊天机器人出现之前，机器学习就被用于金融领域。由于大量精确的历史记录和金融世界的定量性质，该行业非常适合使用机器和人工学习。机器学习和人工智能可以很好地应用于金融运营的各个方面，从投资组合管理到交易再到数据安全。

“我们的合同审查自动化解决方案利用IBM沃森元素分类发现服务的强大功能，将复杂的合同分解为机器可以快速分析的更小的类别，如隐私、可交付成果、通信、付款条款、管理法律等。我们的服务都是基于自然语言分析和人工智能/机器学习(AI/ML)的‘训练’，系统已经接受了特定的合同语言，”Sharan Gurunathan，执行副总裁兼首席解决方案架构师说Coda全球。

“当涉及到金融领域时，有几个用例。例如，在零售银行业务中，银行可以使用此工具向客户突出显示长文档中的关键合同方面，从而避免歧义。这类人工智能技术的另一个潜在应用是通过聊天机器人实现客户支持的自动化，聊天机器人利用自然语言处理来解读问题，并将银行海量可用信息中的答案关联起来，从而提供电话回复。通过将客户的问题与银行的标准操作程序相匹配，机器可以处理一些前端工作量，仅在需要的基础上利用人工响应，”他强调说。

物流和运输中的机器学习

来自机器学习的知识和见解正在彻底改变供应链管理。机器学习揭示供应链数据模式，快速建立影响供应网络成功的因素。同时，机器学习不断学习和更新信息和预测。在交通领域，随着自动驾驶汽车上路，视频监控将检查交通，缓解拥堵，模拟大规模交通系统，并帮助指导包括无人机在内的所有类型的空中交通。

“AEIOU最初是一家‘服务租赁’公司，我们会创建自己的无人机，将它们与我们的人工智能相结合，然后将它们作为服务出租给那些传统上对添加无人机系统/无人机(UAS)感兴趣的公司。”五个母音字母首席执行官尼尔·麦克伦-坎贝尔解释道。“在与人工智能和无人机合作一段时间后，我们意识到人工智能为无人机操作提供的好处远远超出了我们最初的计划。机载人工智能在操作和使用的各个方面都提供了无人机的优势。我们的机载人工智能平台(称为‘黎明’)在导航、避障、目标跟踪、飞机监控以及基础设施检查和包裹递送等服务方面自主执行。”

石油和天然气中的机器学习

机器学习提高了油气行业的效率和安全性，并降低了成本。机器学习对许多石油和天然气公司的运营至关重要，它可以实时积累大量信息。它还允许将数据集转化为可操作的见解，在成本利润率往往是一个成败攸关的命题。

无线通信对于石油和天然气行业来说是一个很好的选择，因为生产设施通常是远程的，无论是陆上还是海上。ob欧宝娱乐app手机下载过去，高延迟、低带宽的通信卫星足以向生产商传输遥测数据。然而，这些卫星不足以满足需要更高速度的系统自动化控制。例如，移动或固定多业务，如许多生产商需要的语音和视频通信，需要更强大的带宽。“大多数企业或大规模的无线局域网解决方案需要由训练有素的Wi-Fi专家进行近乎持续的监控和调整，这是一种昂贵的方式，以确保网络的最佳性能，”公司销售和营销副总裁Huw Rees说KodaCloud。他补充说:“事实上，技术人员无法真正管理与每个用户和每个设备的所有Wi-Fi交互，因此网络通常运行得不太理想。我们基于云的人工智能服务全天候监控这些互动，并实时调整和警报，从而优化每台设备与Wi-Fi的连接，显著提高整体体验质量。”

机器学习在政府中的应用

美国联邦政府正在经历一场以使用云、机器学习和人工智能为中心的数字革命，以推动改善结果。这些成果包括更有效的网络防御策略，包括改进的自然语言处理，以及改善的公共卫生。政府正在转向移动和基于网络的技术，使用开源软件和开放标准，以及易于配置的计算和存储——所有这些都着眼于增强数据安全。在政府的国家安全和公共安全数字化转型战略中，一个迅速出现的特征是高等数学和人工智能的应用。美国正在利用先进的数学和人工智能来减少资源和时间的使用，以及目前处理和利用信息的不明确方法。欧宝体育app官方888

2018年的主要公司和机器学习

在未来学家扬克看来，目前机器学习的主要用例与网络安全有关:“恶意活动和漏洞检测以及对策至关重要。网络犯罪的成本一直在飙升，金融机构和大公司一直在努力保持领先地位。不幸的是，这种机器学习防御策略正在导致类似的对策。这一切都在逐渐导致数字免疫系统的出现。随着越来越多的物联网(IoT)设备上线，网络世界中潜在的安全漏洞呈指数级增长，这种(免疫系统)将变得尤为重要。最终，唯一可行的应对措施就是自动化。”

已经存在很长时间的公司仍在提出使用机器学习的新方法，以改善公司和消费者的安全、客户服务等:

脸谱网面对阻止垃圾邮件发送者、恶作剧和黑客(例如，对2016年大选的敌意干预)的需要，Facebook正在加快使用机器学习来发现恶意行为者和恶作剧文章并将其关闭。
Hubspot的该公司目前正在开发一款用于营销和销售的聊天机器人GrowthBot。机器人是一种自动化的计算机程序，旨在模拟与人类用户的对话。
IBM该公司现在提供人工智能驱动的解决方案，因此制造商可以从多个来源汇总数据。有了人工智能，这些客户可以更高效地运营并降低成本。利用机器学习和人工智能来整合大量的工厂数据，制造商可以获得一个整体的数据图，从而提高产量、质量、成本和履行。
SalesforceSalesforce的ai驱动的Einstein Bots for Service为客户提供更加无缝和直观的服务。机器人使用机器学习和自然语言处理来自动处理日常服务请求。
Yelp机器学习算法帮助公司员工更有效地对图像进行分类、编译和标记。根据DMR商业统计，考虑到每年有数百万张照片被添加到该网站，这不是一个小壮举。
字母/谷歌二十年来，b谷歌一直将人们与信息联系起来，以解决现实世界的问题。在2018年年度开发者大会上发布的公告涵盖了从地图到小企业援助再到残疾人支持等应用程序。在这次活动中，首席执行官桑达尔·皮查伊介绍了“一种深度学习模型，它可以利用图像预测患者心脏病发作或中风的风险，准确率高得惊人。”
推特这家社交网络正在寻找更多更好的方式，通过改进的机器学习时间轴来传递每日新闻。
亚马逊作为客户体验创新的领导者，亚马逊宣布将围绕人工智能和机器学习工作对公司进行重组，从而将事情提升到了一个新的水平。

“尽管这些工具很强大，但它们仍处于早期阶段。一家公司可以说他们已经围绕人工智能和机器学习进行了重组，就像亚马逊一样，但谢天谢地，这些组织仍然是以人为中心的，”扬克说。

机器学习基础

这些基于机器学习的应用实际上是如何工作的?任何简化机器学习过程的尝试都是具有挑战性的，特别是因为该领域每天都在取得进展。为了获得基本的理解，一个很好的资源是华盛顿大学佩德罗·多明戈斯的《关于机器学习的一些有用知识》Domingos使用外行的术语和清晰、有用的解释。

Domingos是一位数据科学家，他正在寻找一种可以学习任何东西的主算法。机器学习的迭代方面很重要，因为它能够独立适应，数据科学家希望有一天确实会有一种通用的算法，可以学习任何东西。与此同时，算法仍然需要训练。所有机器学习算法都依赖于三个训练元素来获得解决方案:

表示这是一系列允许系统找到可以对数据进行分类的特征的技术。表示为特定的输入生成结果。它是一组学习算法可以学习的模型。
评价一个学习算法可以创建多个模型，但它不知道一个好模型和一个坏模型之间的区别。评价函数对模型进行评分。
优化:这个训练过程搜索模型，以确定哪一个模型最能解决问题并选择它。

什么是机器学习模型?监督模型与非监督模型

机器学习模型是由训练技术产生的模型工件。一旦建立了机器学习算法的三个训练参数，您需要决定是使用有监督的还是无监督的机器学习模型。

监督式学习监督式学习方法类似于人类在老师的指导下学习的过程。该算法从标记有正确示例的示例数据中学习，因此它可以在提供新示例时预测正确的响应。监督学习区分了两种不同类型的问题:
- 分类:目标是一个定性变量，如物理特性。
- 回归:目标是一个数值，例如特定邮政编码中的房屋价格。

无监督学习:无监督学习是指算法从没有任何相关答案的例子中学习。该算法将数据组织和重组为新的分类。这种类型的学习可以提供对数据含义的有用见解。许多推荐系统都是基于无监督学习的。无监督学习依赖于聚类，其中的目标是发现数据中的固有分组，例如按购买行为分组的客户。

机器学习技术和算法示例

机器学习的引擎是算法，它是用来解决问题的程序或公式。难点在于选择正确的算法。“天下没有免费的午餐”定理，即没有算法对每个问题都是最有效的，是机器学习的核心，尤其适用于监督学习。例如，作为解决问题的工具，决策树并不比神经网络优越。想要更深入地了解技术和算法，请观看这个视频，《机器学习导论》麦吉尔大学的Doina preup说。

在算法选择中有很多因素需要考虑，比如数据集的结构和大小。机器学习算法有成千上万种，而且每天都有更多的算法被发明出来，以解决特定的挑战。例如，谷歌将其搜索引擎算法更改为每年600次。要解决的问题类型决定了(或至少提供了指导方针)需要哪种算法。

分类和回归算法示例

以下是算法(如上图机器学习图所示)如何应用于问题的基本解释:

决策树统计学家自20世纪30年代以来一直在使用决策树。1975年，悉尼大学的j·罗斯·昆兰(J. Ross Quinlan)在一本书中首次以机器学习算法的形式提出了它们。决策树用于根据对目标价值的观察结论进行预测。下面是一个用于确定信用风险的决策树的例子:

贝叶斯网络:在这个图形模型中表示了一组变量及其相关的条件依赖项。它经常被用来理解症状和疾病之间的可能关系。给定症状，该网络可用于测量各种疾病存在的几率。
支持向量机使用标记为属于两个可能类别之一的训练样例，支持向量机训练模型将新的数据样例分配到两个类别之一。它常用于图像分类。
随机森林随机森林构建多棵决策树，然后将它们合并，以获得更准确、更稳定的预测。在医学领域，该算法可以通过分析病人的医疗记录来识别疾病，或者识别药物成分的适当组合。
神经网络该算法也被称为人工神经网络(ANNs)，是基于人类大脑的生物神经网络建模的。神经网络“学习”发生在它们考虑示例后执行任务时，通常没有任何特定的任务编程规则。人工神经网络应用于许多不同的问题，包括社交网络和垃圾邮件过滤、量子化学、金融、游戏、机器翻译、医疗诊断、模式识别、序列识别和金融。

回归算法示例简介:

简单线性回归这项技术着眼于目标和预测器之间的关系。这种技术发现变量之间的因果关系，并用于预测和时间序列建模等任务。
套索回归:用于特征选择，该算法通过去除冗余变量使模型的解释更容易，并减少问题的大小，以便更快地分析。这对于大型和复杂的数据集(例如，癌症诊断)是有用的。
逻辑回归用于二元分类，这是最早为回归分析开发的算法之一。该算法用于查找成功或失败的概率。当因变量为二进制(如yes/no、true/false或0/1)时使用该算法。它很容易实现，并且在许多任务中使用，特别是用于开发性能基线。
多元回归:该算法用于更多地了解预测因子或变量与标准或因变量之间的关系。它可以用来预测行为，比如基于多种因素的购买行为。
提高:如果有很多弱分类器，增强有助于生成一个强分类器。使用训练数据构建模型，创建第二个模型来纠正第一个模型中识别的错误。重复这个过程，直到实现训练集预测，或者添加了最大数量的模型。用例包括预测在特定时间市场上有多少出租单元可用，或预测社交媒体平台上的评分。

聚类算法示例简介:

k - means:当数据没有定义的组或类别或组时，目标是在数据中定位组。在这种方法中，组的数量用K作为变量来表示。然后，该迭代算法根据识别的特征将数据分配给k组。
均值漂移此迭代算法寻找最大密度或模式。均值移位算法在图像处理和计算机视觉等领域有着广泛的应用。
高斯混合:对数据分配加权因子以标记不同的重要程度。该模型经常产生重叠的钟形曲线。它可以应用于天气观测建模或语音数据特征提取等问题。
EM-Clustering期望最大化算法的概念来源于高斯混合模型。它是一种迭代方法，用于在变量的数据集中找到最大似然。它经常用于医学成像应用。
分层聚类这个过程首先将每个观察结果视为一个单独的集群。然后，迭代地识别最接近的两个簇，并合并最相似的两个簇，直到合并所有相似的簇。端点是一组簇，可视化为一种称为树形图的树形图。这个过程经常用于风险或需求分析。

机器学习软件

对于非专业人士来说，使用基本的编程和软件设置机器学习并取得不同程度的成功是可能的。在他的文章中，b谷歌说机器学习是未来。所以，我自己尝试了一下记者亚历克斯·赫恩(Alex Hern)讲述了他和作家罗宾·斯隆(Robin Sloan)的经历，后者利用开源软件自己动手，结果喜忧参半。Hern指出，虽然他训练神经网络编写编辑内容的尝试失败了，但一个改变游戏规则的自然语言程序肯定很快就会出现。

无论你是机器学习专业人士还是新手，都有三种不同类型的机器学习软件可供选择:

免费和开源:有许多开源机器学习框架可用，为工程师提供构建、实施和维护系统、形成新项目和创建原始系统的框架。Python是卓越的开源框架，可以免费使用和分发，甚至可以用于商业用途。Python之所以受欢迎，是因为它比许多其他编程语言更直观，并且还提供了工具、一系列框架和库以及扩展，使其适合许多不同的应用程序。
专有软件这是出售的软件。机器学习专有软件是开发人员的知识产权，源代码是封闭和专有的。源代码作为内置在完整平台中的商业产品出售，并向用户付费授权。ob欧宝娱乐app手机下载专有软件功能齐全，设计为随时可以部署和使用，并提供完整的服务和支持。
专有的免费和开源版本机器学习是建立在以前的知识基础上的，这适用于改进框架的能力。具有商业支持的开源软件将可定制性和开源选项社区与商业合作伙伴的专门支持结合在一起。这些混合选项适合那些既希望获得开源软件包的灵活性，又需要为关键任务应用程序提供支持安全网的团队。

数据科学中的许多术语仍在逐渐成熟，并且经常被交替使用——而且是不正确的。例如，人们经常将机器学习这个术语与以下术语互换使用:数据科学、人工智能和深度学习。为了帮助消除困惑，以下是与机器学习相关的各个领域和技术的定义综述:

机器学习与数据科学

数据科学它使用结构化和非结构化数据，关注从数据中提取知识、数据清理和数据分析。机器学习创建了从数据中学习的系统，包括对数据科学家非常有用的技术，如决策树、算法和深度学习。

机器学习vs.神经网络

在机器学习领域，神经网络是用于识别数据集中潜在关系的众多技术之一。神经网络或人工神经网络(ANN)是一系列算法，旨在通过模仿人类大脑功能的过程来分析数据集中的潜在关系。

神经网络通过相互连接的节点层传递数据。在将结果传递给后续层的其他节点之前，网络对信息和层特征进行分类。典型的应用程序可用于解决诸如风险管理、客户研究或销售预测等业务问题。

机器学习vs深度学习

深度学习使用比基本神经网络有更多层的复杂神经网络。一个典型的神经网络可能有两到三层，而深度学习网络可能有数百层。拥有多层的优点是能够开发更大层次的抽象，这对于自动翻译和图像识别等复杂任务至关重要。

机器学习与数据挖掘

数据挖掘将统计数据与其他编程技术相结合，以发现隐藏在数据中的模式。这些模式解释了某些现象，所以你可以建立模型来预测未来的结果。机器学习结合了数据挖掘原理，但它也会自动关联，并从中学习，以创建新的算法。

机器学习与统计学习

统计学是数学的一个长期存在的分支领域，它指的是理解数据的一套庞大的工具。机器学习和统计学密切相关，以至于统计学家将机器学习称为“统计学习”或“应用统计学”。监督统计学习构建基于一个或多个输入预测输出的统计模型，而机器学习则发现模式。

机器学习与预测分析

它包含了多种技术，包括数据挖掘、预测建模和机器学习，预测分析使用历史和当前的统计数据来估计未来的结果。机器学习赋予计算机无需编程就能学习的能力。

机器学习与人工智能(AI)

人工智能旨在模仿人类的决策过程，并以越来越人性化的方式完成任务。今天，我们在许多方面使用人工智能，包括推荐产品或电影，实现自然语言处理和理解，近乎实时地利用存储的信息，以及增强机器ob欧宝娱乐app手机下载人技术。

机器学习和人工智能这两个术语经常互换使用，但机器学习并不能完全定义人工智能。机器学习离不开人工智能，而人工智能可以离开机器学习而存在。虽然机器在学习方面可以变得更高效，但这并不意味着它具有智能意识——到目前为止，没有机器可以与人类或自我意识相媲美。

上述这些领域的个人或联合实践可能会引发伦理挑战。

机器学习中的伦理问题

新技术往往也会带来挑战——例如，由于任务的机械化，大量的人失去了工作。ParallelM的Metzger说:“伦理问题在我们的整个历史中都出现过，最终当它们成为物质问题时才得到处理。我敢肯定，我们将来会发现自己站在一个十字路口，面对道德问题和其他我们现在甚至无法掌握的问题。但是，我也有信心，我们会找到方法来减轻这些问题带来的风险。”以下是一些已经浮出水面的道德问题:

负责任的数据收集当前，人类正被各种各样的实体收集的数以百万计的数据记录所定义，这些数据记录记录了人类的日常生活:他们买什么、吃什么、旅行和上网的方式和时间，以及他们的“朋友”是谁。随着信息快速收集的新现实，关于代表性、隐私和公平的观念正在发生变化，一些数据解释可能会偏袒某些群体而不是其他群体。
语言和算法偏差数据的命名、排序和训练方式反映了开发人员固有的偏见。在有偏见的数据集上训练的系统可能会“融入”与文化或种族有关的各种偏见。例如，使用来自具有仇外招聘行为的公司的招聘数据可能会导致机器学习系统重复这种偏见，因为当这些申请人的名字听起来“像外国人”时，它会给潜在的招聘人员打分。
医疗问题机器学习为医疗保健的许多领域提供了改善的可能性，从诊断、病理到治疗。训练数据总是有偏差的可能性，而且对临床决策支持系统的利润驱动设计的渴望可能会占主导地位。在临床决策中，数据的使用也可能比它应有的权力更大，因为它通过侵蚀信任、善意、保密、尊重和个人责任来改变医患关系的性质。

对于OKRA的Bouarfa来说，“在实施人工智能技术时，道德问题是一个关键的考虑因素，因为技术产生的见解可以对人类的生活、价值观和自由产生真正的影响。然而，如果监管到位，这些技术可以为决策提供更强的问责制和更多的统计证据，而这些决策最终仍掌握在医疗保健从业人员和寄养专业人员等高技能专业人员手中。通过人工智能实现人类进步的唯一途径是将正确的法规和政策应用于机器学习系统的开发和生产。ob欧宝娱乐app手机下载有了充分和智能的监督，人工智能可以有效地影响更广泛社会的健康、安全和自由。

机器学习中的挑战和限制

Talla的May指出:“其中一个挑战是将旧的、非结构化的数据格式化，以便机器可读，并为洞察力和自动化驱动的工作流程做好准备。”他继续说道:“例如，如果你把谷歌Drive中的所有文件都拿出来，并试图使用人工智能来得出结论，那么它们就不会很好，因为这些信息并不是基于机器可行性的目的而设置的。在Talla，我们强烈建议尽快开始在机器可读的知识库中创建新文档，因为在注释您创建的新内容时存在轻微的行为变化，这极大地增强了它在未来的有用性。”

这里有一些挑战和有用的建议可以考虑:

多元化团队的需求为了提供在现实世界中有意义的各种可能性和功能，让不同的团队致力于机器学习算法是至关重要的。例如，如果你只给你的面部识别算法输入白种人的脸，它就不会被训练来识别有色人种的脸。几年前，当有色人种被错误地贴上标签时，谷歌发现了这一点。结果，该公司收到了一些非常负面的宣传。
过拟合和过拟合机器学习中的一个常见问题是过度拟合，其中系统学习一个函数，该函数可以理解模型所学习的训练数据，但在面对新的测试数据时不能泛化。因此，该系统选择了不代表现实世界模式的特性。随着模型复杂性的增加，这个问题变得特别成问题。Underfitting是一个相关的问题，其中模型不够复杂，无法捕获底层数据趋势。
维数虽然有大量的数据可以处理是一件好事，但一些机器学习问题可能涉及数千甚至数百万个可能的特征，即维度，用于训练。这种现象被称为“维度的诅咒”(由数学家理查德·贝尔曼(Richard Bellman)提出)，它减缓了训练速度，使找到解决方案变得更加困难。关键是减少功能的数量，以便使流程易于管理。降维的两种主要方法是投影，将高维空间中的数据转换为更少维的数据多方面的学习一类描述高维数据的低维、光滑结构的方法。
手写识别机器学习中最大的挑战之一是使计算机能够解释人类生成的脚本(即手写文本)中无尽的变化，并将其转换为数字形式。

“与任何尖端技术一样，(机器学习)总是有改进的空间，语言和算法偏见绝对属于这一类。虽然已经有很多工具和技术可以帮助开发者减少这些挑战，但他们还不能完全避免这些挑战，”Coda Global的Sharan Gurunathan解释道。“虽然我们期望基于人工智能的系统是纯粹客观和任务驱动的，但这些系统是人类构建的，因此，机器可以反映人类开发者的偏见。”因此，使用AI/ML构建解决方案的开发人员必须研究这种现象，并从一开始就解决语言和算法偏见。”他补充道。

机器学习最佳实践

机器学习的技术挑战的答案是跟上文献，与同事分享知识，并使用新发现的知识来指导最佳实践。以下是一些最佳实践概念:

使用足够的数据拥有大量的数据永远是最好的，即使这些数据与预测的结果只有些微的关系。数据是为任何机器学习解决方案带来生命所需的氧气。
检查数据问题:抽查算法，以评估哪些需要关注，哪些需要搁置。
获取实验数据当你工作时，如果可能的话，使用一些实验数据来检验假设。
预测效果无论数据是否被标记为相关或因果关系，预测效果都很重要。
旨在你希望你选择的分类器或学习算法在新数据上表现良好，所以留出一部分训练数据集用于交叉验证。
依靠自我引导:该元算法用于统计分类和回归，是一种简单的计算机程序，用于激活更复杂的程序系统，提高机器学习算法的准确性和稳定性。它还减少了方差，有助于避免过拟合。
检查假阳性和假阴性率:一个假阳性模型预测正类误差;一个假阴性模型预测负类的误差。虽然在每种情况下消除误报和误报是一项挑战，但程序员可以选择和调整算法，以在每个用例中取得平衡。
考虑敏感性和特异性标准：灵敏度特异性评价二元分类器的预测准确性。敏感性是衡量分类器识别阳性病例的程度。特异性将真正阴性病例的比例归为阴性。
使用总工作特性和接收机工作特性方法要评估分类输出的质量，您可以使用两种图形方法。的总工作特性(TOC)表示模型的诊断能力。TOC表示前面提到的速率的分子和分母。这种方法比常用的方法提供更多的信息接收机工作特性(ROC)，它以图形方式表示当您改变判别阈值时二元分类器系统的诊断能力。

机器学习的未来

未来学家扬克认为，在不久的将来，隐私问题将成为一个令人担忧的问题:“面部识别在各个地方的使用越来越多，现在有，将来也会有许多负面影响，包括在社交媒体应用程序上。随着物联网充斥着各种各样的传感器和反馈，这一点将尤为明显。”

扬克认为，人们可以学会适应:“正如我们对隐私的看法不同于我们的祖父母，下一代对隐私的看法也会不同于我们。这可能会导致人们接受一个面部识别被广泛使用的世界，以换取它带来的许多便利和个性化。”

但扬克也提出了警告:“一些不可预见的未来事件或灾难可能会导致年轻一代集体拒绝这些技术，拥抱积极寻求超隐私的新时代。”

前方还有什么?以下是一些潜在的未来:

改进的无监督算法在构建更智能、无监督学习算法方面取得的进步将带来更快、更精确的结果，并使人工智能能够处理意外事件、创造新的行为，并在从空中交通管制到复杂的医疗分析，当然还有机器人技术等各个领域继续其过程。
协作学习随着物联网的扩展，专业人员可能会利用大量独立的计算实体来协同学习。这种方法比单独处理的学习效果更好。
认知服务机器学习应用程序编程接口(api)将在其应用程序中实现语音、面部和视觉识别、手写分析以及语音和语言理解，所有这些都将为我们带来更深层次的个性化。
更深层次的个性化在未来，用户可能会收到更精确的推荐，因为广告会变得更准确、更有效。这项技术的使用将极大地改善用户的日常体验。
欢迎来到西方世界当前位置虽然我们离制造逼真的人工智能更近了一步，但创造一个像梅芙、伯纳德或德洛丽丝这样具有自我意识、看起来完全像人类的机器人，仍然是一个巨大的挑战。像扬克这样的未来学家认为这是可能的，许多支撑这种生物的人工智能技术正在研究中，但时间框架是无法预测的——可能发生在十年或半个世纪之后。
机器学习时代的护栏如果机器学习、机器人和其他人工智能相关技术带来的未来的负面可能性让你夜不能寐，你可能想看看未来生命研究院以及它的FAQ页面。行业领导者正在合作，以填补在理解这些新技术的好处方面的空白。的人工智能合作造福人类和社会是一个建立在亚马逊、Facebook、b谷歌、微软和IBM原则基础上的组织。截至撰写本文时，苹果也在就加入该组织进行谈判。

在最近一次关于机器学习、人工智能和机器人的演讲中，扬克建议，最好的态度是，变化是不可避免的，如果你认为你的工作可能很快就会过时，那么现在就是时候做好准备了。

Cortyx的亚历克斯·卡迪内尔对此表示赞同，并警告说:“人工智能和文本生成总体上正在改进，并将继续以令人难以置信的速度改进，尤其是在未来5到10年。所以，编剧们应该有点担心了。”

可能会有道德、安全和其他挑战，但机器学习和人工智能的无处不在意味着对训练有素的专业人员的需求正在加剧。

机器学习专业人员的就业市场不断增长

寻找机器学习领域的人才正成为一项关键挑战;在本文之前引用的HFS研究中，42%的公司在从传统IT转向机器学习和数据科学技能时认识到严重的技能不足。

LinkedIn发布了一份报告2017年底列出了美国增长最快的工作，排名前两位的工作是机器学习，在过去的五年里增长了9.8倍;自2012年以来，数据科学专业增长了6.5倍。2017年报告《量化危机:对数据科学技能的需求如何扰乱就业市场发现机器学习职位列表增加了17%，平均起薪为11.4万美元。

机器学习资源欧宝体育app官方888

通过专业出版物、大学课程、词汇表和最近出版的书籍等资源，可以更容易地跟上机器学习和相关领域的快速变化。欧宝体育app官方888

以下的专业刊物介绍了最新的研究和发展:

ACMTKDD发表关于数据挖掘和知识发现的技术和逻辑基础的论文。
大数据:涵盖了收集、分析和传播大量数据的机遇和挑战。
商业、工业和政府统计案例研究:展示应用于已知或新数据的新技术的数据分析案例研究，用于教学、培训或自学。
机会:向非技术观众介绍最新的可靠统计实践。
数据科学杂志:发表有关艺术、人文、科技和科学等所有研究领域的研究数据和数据库的使用和再利用及其管理的论文。
EPJ数据科学杂志:涵盖广泛的研究领域和应用，重点是将人的数字“轨迹”视为科学调查的一级对象的技术-社会经济系统。
IEEE知识与数据工程学报:向开发人员、管理人员、研究人员、用户和战略规划者介绍数据工程和知识领域的最新实践和最先进的活动。
智能数据分析:探讨与人工智能在多学科数据分析中的研究和应用相关的问题。
国际数据挖掘与生物信息学杂志:促进数据挖掘研究人员和生物信息学家之间的合作，并为快速扩展的多学科研究领域的学生，研究人员，从业者和政策制定者提供统一的论坛。
大数据学报:发表研究论文和案例研究，涵盖与大数据应用、分析和数据密集型计算相关的广泛主题。
数据挖掘与知识发现学报发表与数据挖掘和知识发现的研究和实践相关的技术论文，调查主要领域和技术，并详细描述重要应用。
机器学习研究杂志:为与机器学习所有领域相关的高质量学术文章提供国际论坛。
知识与信息系统(KAIS):报告与先进信息和知识系统有关的新进展和新兴主题，并为专业人员和研究人员提供一个国际论坛。
机器学习发表文章，报告应用于各种学习问题的广泛学习方法的实质性结果。
预测建模新闻:涵盖了从临床、护理管理、精算、运营和技术角度广泛的医疗保健预测分析主题。
SIGKDD探索支持数据挖掘科学的采用、发展和教育，以及从存储在计算机或计算机网络中的所有数据类型中获得的知识发现。
统计分析与数据挖掘:介绍数据分析的广泛领域，包括统计方法、数据挖掘算法和实际应用，重点是解决商业、工程和科学中的实际问题。

大学正在培养下一代数据科学家、机器学习和人工智能专家，以填补当前和未来的人才缺口。以下是一些提供这些相关学科项目和课程的顶尖大学:

加州理工学院
卡耐基梅隆大学
哥伦比亚大学
康奈尔大学
佐治亚理工学院
约翰霍普金斯大学
加州大学伯克利分校
斯坦福大学
华盛顿大学
加州大学圣地亚哥分校
马萨诸塞大学阿默斯特分校
伊利诺伊大学厄巴纳香槟分校
宾夕法尼亚州立大学
北卡罗来纳大学教堂山分校
密歇根大学
威斯康星大学麦迪逊分校

这些有用的词汇表为初学者和开发人员阐明了机器学习和人工智能术语:

对于机器学习的新手来说，能够接触到长格式的、详细的信息是一个很好的起点。这里有一些最近出版的书可以帮助你:

Chollet,弗朗索瓦。Python深度学习(第1版)。庇护岛:曼宁出版社，2018。
杰龙Aurelien。使用Scikit-Learn和TensorFlow动手机器学习:构建智能系统的概念，工具和技术(第1版)。牛顿:O 'Reilly Media, 2017。
格拉汉姆·古德费勒,伊恩。深度学习。剑桥:麻省理工学院出版社，2016。
怀特，迈克尔·B。机器学习:从初学者到高级的旅程，包括深度学习，Scikit-Learn和TensorFlow(第二版)。创意空间独立出版，2018。
西奥博尔德,奥利弗。机器学习绝对初学者:简单的英语介绍(第二版)。Scatterplot出版社，2017。
礼物,诺亚。实用的人工智能:基于云的机器学习简介(第1版)。波士顿:Addison-Wesley Professional, 2018。

世界各地还举办了数百场机器学习和人工智能会议——它们的增长速度几乎和算法一样快。

未来的工作自动化与智能表

通过设计一个灵活的平台来满足你的团队的需求，并随着需求的变化而适应，从而使你的员工能够超越自己。

Smartsheet平台可以轻松地从任何地方计划、捕获、管理和报告工作，帮助您的团队更有效地完成更多工作。报告关键指标，并通过汇总报告、仪表板和自动工作流实时了解工作情况，以保持团队的联系和信息。

当团队对要完成的工作有了清晰的认识时，就不知道他们在同样的时间内能完成多少工作。今天就免费试用Smartsheet吧。

机器学习权威指南

什么是机器学习?

为什么机器学习很重要?

机器学习的历史