内容简介
微软Azure ML平台简化了使用机器学习的过程,以便于开发人员、业务分析师和数据科学家广泛、便捷地应用。
微软Azure ML提供了一种用于执行价值预测(回归)、异常检测、聚类和分类的云服务,其图形化、模块化的方法将让学习者快速了解机器学习模型。
《微软Azure机器学习实战手册》的学习,读者能轻而易举地了解如何导入数据、如何进行数据预处理、如何将数据分离用于训练模型和验证模型、如何选择算法训练模型以及如何评估模型的效果。
整个过程无须编程,完全是通过拖拽和配置完成,与Azure机器学习相关的任务不仅都可在现代web浏览器中完成,而且几乎没有任何时间和基础设施的启动成本,从而能让读者快速掌握Azure ML用法,把多的精力放在理解数据和算法上。
·本书作者千贺大司、山本和贵及大泽文孝均为数据专家,且在日经BP社主办的学习交流会“从零开始了解‘机器学习’实践讲座”中担任讲师,通过实际操作针对Azure ML进行了解说,具有丰富的实操经验。
·通过本书的学习,读者无需编程,完全是通过拖拽和配置完成,操作简单,可快速掌握Azure ML用法,从而把更多的精力放在理解数据和算法上。
大概从2014年开始,在我们周围越来越多地听到和看到“机器学习”这个词。微软公司推出的通过图形用户界面(Graphical L5ser Interface,GUI)工具就可以轻松实现机器学习的Azure ML于2014年6月首次对外发布,并于2015年2月开始提供通用版本(General Availability,GA),之后我感到“机器学习”这一概念快速传播开来。
2015年5月,在微软日本股份有限公司举办的面向日本国内技术人员的最大盛会“de:code2015”上,我们几位介绍了Azure ML成功预测出超过100万用户脱离智能手机游戏(退会)这一案例。并且于同年10月,我们在日经BP社主办的学习交流会“从零开始了解‘机器学习’实践讲座”中担任了讲师,就AzureML如何实操进行了现场解说。通过这些活动,一方面大众对我们FIXER公司有了更多的了解,另一方面FIXER公司也获得了来自日本知名企业的诸如“希望使用机器学习预测器械、机器故障并进行预防”“希望使用机器学习创造机器人人工智能”等委托项目。
本书旨在将机器学习应用到现实的商业当中,并将其转变为商品或服务,而不是单纯地将机器学习捧为流行语。换言之,我们出版本书的目的并不是追求学术价值,而是为了让大家能够使用、活用机器学习,不落后于时代变革的潮流,甚至能够引领时代潮流。希望通过本书,工程师以及商业人士能够发明出使用机器学习的新型服务,或者从数据中发现以前被忽略的新视角。
以前,一提到机器学习,就会想到是那些被称为“数据科学家”的专业人士使用的专业工具,但是如今情况会有所不同。奋战在商界的企业家们可以对数据进行直接分析,让使用数据的服务以及搭载人工智能的服务开始成为可能。可以说,企业家和数据科学家之间在认知以及理解上的障碍已经消除。初级的系统工程师和开发商很难涉足的数据分析、推荐引擎以及人工智能的开发和使用难度也会大幅下降。
“统计”一词自公元前诞生于埃及以来已经发展了3000多年,机器学习的理论基础自出现至今已经过了40多年,但在商业中的实际应用可以说依然非常受限。我们几位常年从事股票数据的分析,通过各种方式对市场动向及个别股票产品进行预测,但是仅仅依据从金融工程学以及统计学中导出的现有理论,很难获得高水平成果。
简单一提的是,过去在未来市场预测方面能够取得较高水平成果的方式,是把几十台服务器联接起来,使用计算机进行大量的运算,分析离散数据而不是分析函数数据。而现在,随着摩尔定律的不断发展,计算机的处Nt陛能以及计算资源也在不断扩大。自从进入了云端时代,即使是个人也可以在短时间内以较低成本同时使用几十台甚至几百台服务器。
与此同时,现在可以以较低的成本储存大量数据。比如,当今世界很多人都使用智能手机,谷歌、苹果公司的以及手机App开发人员每时每刻都能收到来自世界各地的几亿部智能手机中的大量数据。除此之外,每隔几分钟或者几小时,就能收到来自几百万辆、几千万辆汽车以及家电产品的注册信息。如果是在10年之前,收集、存储如此巨大的数据是不可能的。10年前,1TB容量的企业版高速存储器价格超过1亿日元,但是现在,不到1万日元的硬盘(Hard Disk Drive,HDD)的容量就已经超过了1TB。2016年4月,Azure的存储服务价格标准为:使用99.9%的服务级别协议(SLA)用三块硬盘备份的设备,1GB平均每月228日元。
作者简介
千贺大司(Hiroshi Senga)
FIXER公司总经理
微软Azure解决方案架构师、信息处理技术人员
1999年毕业于名古屋大学法学部。曾在佳能IT部门作为金融高级软件工程师致力于国内外银行及年金系统的开发。随后10余年一直在提供股票分析服务的网络风投公司担任CTO,目前担任东证一部上市企业R&D的部门负责人。擅长金融、证券分析和网络服务数据分析、市场自动化及大规模并发分散系统的体系结构。现在,一方面支持机器学习等使用Azure服务的数字市场,一方面致力于推进面向证券、金融的FinTech解决方案的研究以及由人造机器人的人工知能或者人工智能构成的呼叫中心支援系统的开发。
山本和贵(Kazuki Yamamoto)
FIXER公司数据科学家
2015年毕业于东京都立产业技术高等专业学校制造工学部的电子信息工学系。在高等专业学校的毕业论文研究中,为了预测网络辐辏同机器学习相遇,之后一直着迷于机器学习。从事于人工智能云的开发,将使用微软Azure ML的深层学习研究及通过机器学习提高服务质量的音声识别、面部识别、个性化引擎等进行组合。
大泽文孝(Fumitaka Oosawa)
科技作家程序设计师信息处理技术人员
主要面向开发人员在杂志报刊上撰写有关服务器、网络、网络编程、安全等文章。近几年,主要从事网络系统的设计及开发。著有《掌握帮神技能:掌握Java编程入门》《掌握帮神技能:网络和编程基础中的基础》《Amazon Web Services云端设计模式安装指导》等书籍
第1章 什么是机器学习
明晰机器学习
机器学习概述
机器学习流行的“原因”
将机器学习用于商业的方法
消除对机器学习的误解
机器学习通过数据进行判断
机器学习是“系统”
机器自己会变聪明吗
必须决定“特征向量”
开启机器学习之旅
机器学习专用工具
无须编程就可以使用的Azure ML
即使如此,依然想编程
通过判断目标来选择分类器
第2章 收集数据
使用公司内部数据
日志文件等历史数据
非时间类型数据
使用公开数据
DATA.GO.JP
DATA.GOV
Twitter
GitHub
第3章 通过Azure ML创建机器学习模型
Azure ML的基本操作
注册Azure ML Studio
在工作区进行操作
机器学习的方法
在Azure ML中进行机器学习的流程
创建机器学习模型时Experiment的编辑界面
机器学习模型的构成和种类
学习逻辑
计算逻辑
学习组件的种类
第4章 使用回归分析预测数据
什么是回归分析
本模拟所实现目标
本模拟所建模型
上传用于分析的数据集
下载CSV文件样本
将CSV文件作为数据集进行上传保存
新建Experiment
添加和调整所要分析的数据集对象
添加数据集
将范围缩小至使用列
修复受损数据
分离学习用数据和评价用数据
构建学习逻辑
构成回归分析的组件
使用已训练模型预测评价用数据
使用评分模型进行数据预测
确认预测值
第5章 尝试使用已建回归分析模型
使用已训练模型进行计算
上传用于计算的数据集对象
在评分模型右上方输入数据即可得出结果
保存已训练模型,使其在其他Experiment中也可以使用
保存已训练模型
使用已训练模型进行预测
新建用于预测的Experiment
创建可进行数据预测的机器学习模型
观察运行结果
以CSV形式输出
数据转换组件
第6章 提高预测精度
提高预测精度的方法
确认目前的预测精度
使用评估模型对分析结果进行评价
确认评价结果
更改参数提高精确度
更改Linear Regression的参数
优化学习组件
可用于回归分析的学习组件种类
更改为贝叶斯线性回归
使用有限的学习数据进行检验
使用“Cross Validate Model”组件
确认“Cross Validate Model”的评价结果
第7章 通过统计分类进行判断
什么是统计分类
本模拟所实现目标
本模拟所建模型
用统计分类创建分类机器学习模型
新建数据集
新建Experiment
创建数据集
构建学习逻辑
预测和评价
确认和反思学习结果
确认使用评价用数据得出的结果
评价统计分类的学习结果
使用其他统计分类学习组件
第8章 用聚类方法判别相似数据
什么是聚类
本模拟所实现目标
本模拟所建模型
创建可通过聚类分析分组的机器学习模型
新建数据集
新建 Experiment
添加数据集
构建学习逻辑
确认分组结果
将用于评价的数据加入到已训练的学习模型中
第9章 活用实验结果
Web API化
数据可视化
第10章 让机器越来越聪明
进行模型的二次学习
用Web API更新公开的分类器(模型更新)
附录 使用Azure ML的方法
创建环境
创建Microsoft账户
激活订阅
登录Azure
云优化您的业务
创建工作区
访问Azure ML Studio
关于收费
免费使用