机器学习自动化的“明星产品” TransmogrifAI有何厉害之处?
- +1 你赞过了
近日,外媒Networkworld报道,Salesforce宣布打算开源TransmogrifAI,可以让任何人在自己的数据中心使用它。对很多数据科学家和开发人员来说,这绝对是“利好消息”。因为TransmogrifAI可以帮助企业自己构建机器学习系统,这有利于降低机器学习门槛,让企业更好地利用机器学习促进业务发展。
Salesforce是全球知名的CRM服务提供商,专注CRM领域17年,不仅率先开创了SaaS的服务模式,而且成长为一家市值千亿美元的科技公司。
在2016年,这家公司推出了爱因斯坦人工智能平台。官网介绍道,因为拥有技术先进的机器学习、深度学习、预测分析、自然语言处理和智能数据挖掘能力,爱因斯坦将会为每一个客户自动定制它的模型,它会学习,会自我调整,会因为每一次互动和更多的数据变得更聪明。最重要的是,爱因斯坦的智能将会被嵌入到商业业务的范围内,自动挖掘相关的商业洞察,预测客户未来的行为,积极推荐最优的下一步行动,甚至自动执行任务。
而TransmogrifAI则是爱因斯坦人工智能平台背后的关键软件。
Salesforce爱因斯坦数据科学高级总监Shubha Nabar表示,“在过去十年中,尽管机器学习取得了巨大进步,但构建可用的机器学习系统却依然是件难事。三年前,当我们着手把机器学习功能部署到Salesforce平台时,大家才发现,原来构建企业级机器学习系统更加困难。为了解决这个问题,我们开发了TransmogrifAI(发音为trans-mog-ri-phi)——一种用于处理结构化数据的端到端自动化机器学习库,它也是现在Einstein平台优化功能的一个工具。”
一旦TransmogrifAI开源出来,数据科学家和开发人员可以用它快速大规模地构建机器学习解决方案。
Shubha Nabar在博客中指出企业面临的挑战:当数据科学家在为商业产品构建机器学习功能时,他们通常会关注易于理解的样本和数据集。相比之下,企业拥有的数据和样本是多样化的,这种多样性使构建企业级机器学习系统成了一项挑战。
“在Salesforce,我们的客户可能希望预测一系列结果——从客户流失、销售预测、潜在用户转化,到数字广告点击、网购、报价接受、设备故障和延迟付款等。”他写道。
同时,企业客户的数据是保密的、不可共享的,并且构建全局模型没有意义,因为每个企业都独一无二,它们有不同的商业模式,也有各自的经营规模和业务渠道。
他认为:为了让机器学习真正为客户服务,我们要做的就是构建和部署上千个用不同数据样本训练得到的个性化机器学习模型!而如果不想聘请大批数据科学家,实现这一目标的唯一方法就是自动化。
具体说来,TransmogrifAI是一个基于Scala和SparkML构建的库,它封装了机器学习过程的五个主要步骤,包括特征推断(Feature Inference)、自动化特征工程(Transmogrification)、自动化特征验证(Feature Validation)、自动化模型选择(Model Selection)、超参数优化(Hyperparameter Optimization)。
1. 特征推断:
TransmogrifAI允许用户为其数据指定类型,自动把原始预测变量和响应信号提取为“特征”,比如地理位置、电话号码、邮政编码……
2. 自动化特征工程:
虽然找到正确的类型有助于数据推理和减少对下游的不良影响,但最终所有特征都是要被转换成数字表示的。只有这样,机器学习算法才能寻找并利用其中的规律。这个过程被称为特征工程。
3. 自动化特征验证:
TransgmogrifAI包含执行自动特征验证的算法,可以删除几乎没有预测能力的特征——随着时间的推移而使用的特征,表现出零方差的特征,或者在训练样本中的分布与预测时的分布存在显着不同的特征。
4. 自动化模型选择:
TransmogrifAI的模型选择器可以在数据上运行多种算法,并比较它们的平均验证错误,从中挑出最佳算法。除此之外,它还能通过适当地对数据进行采样并重新校准预测以匹配真实的先验,自动处理不平衡数据的问题,进一步提高模型性能。
5. 超参数优化:
上述自动化步骤的基础都涉及超参数优化,它几乎无处不在。
目前,TransmogrifAI在Salesforce内部已经成功把训练模型所需的总时间从几周、几个月缩短到了几个小时。而封装所有这些复杂操作的代码却非常简单,只需短短几行就能搞定。
参考信息:
最新资讯
新品评测