数据科学和机器学习“利器” 揭秘英伟达RAPIDS平台
- +1 你赞过了
在近日举办的GTC China 2018上,黄仁勋重点介绍了英伟达的RAPIDS平台。这款软件面向数据科学和机器学习,是一个开源的GPU加速平台。它的第一次亮相是在10月10日举办的GTC 欧洲大会上。
用三个关键词来概括RAPIDS,是面向数据科学和机器学习、开源和软件平台。
据统计数据表明,面向数据科学和机器学习的服务器市场每年价值约为200亿美元,加上科学分析和深度学习市场,高性能计算市场总价值大约为360亿美元。
英伟达创始人兼CEO黄仁勋曾表示,“数据分析和机器学习是高性能计算市场中最大的细分市场,不过目前尚未实现加速。全球最大的行业均在海量服务器上运行机器学习算法,目的在于了解所在市场和环境中的复杂模式,同时迅速、精准地做出将直接影响其决策的预测。”
其次,是它的开源特性。RAPIDS构建于Apache Arrow、pandas和scikit-learn等流行的开源项目之上,为最流行的Python数据科学工具链带来了GPU提速。
同时,为了将更多的机器学习库和功能引入RAPIDS,NVIDIA广泛地与开源生态系统贡献者展开合作 ,其中包括Anaconda、BlazingDB等。
并且,英伟达正在把RAPIDS与Apache Spark进行整合,进一步促进RAPIDS的广泛应用。
更为重要的是,RAPIDS可以大大提高效率,节省时间。
据悉,RAPIDS首次为数据科学家提供了他们需要用来在GPU上运行整个数据科学管线的工具。最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2™ 系统上进行训练,结果表明,与仅有CPU的系统相比,其速度能加快50倍。
这可帮助数据科学家将典型训练时间从数天减少到数小时,或者从数小时减少到数分钟。
目前,英伟达云上有600个应用程序,它们都是基于GPU加速,并且加速有不同的方式。
“第一种方式,是在CUDA上对软件进行重新编程。第二种方式,则是使用CUDA软件库、CUML机器学习软件库,就是用来加速XGBOOST。而第三种方式,就是软件层面的加速,比如,使用SAP或Oracle的一些东西。” 英伟达解决方案架构与工程团队副总裁Marc Hamilton说。
在他看来,RAPIDS可以把深度学习能力扩展到其他领域。深度学习适用于非结构化数据,比如语音、视频和图片等,而机器学习则主要用于结构化的数据。
“但是RAPIDS并不是一个新算法,它不教人们怎么编译新码,而是把写好的放在CUDA上跑。因此,人们使用RAPIDS一般出于两个原因:一是数据科学家,希望自己的工作做得更快;二是不用学其他的软件,利用已有软件足矣。”他说。
并且,RAPIDS可以在任何英伟达的GPU上跑。不过,最好还是数据和GPU有很好的契合。
目前,华大基因世界上最大的基因组使用英伟达RAPIDS XGBOOST对癌症特异性肽和正常肽进行分类,比在CPU上快10倍。
Marc Hamilton介绍了平安医疗智能辅助诊断“AI Doctor”。他表示,中国医院每年就诊人次高达80亿,利用人工智能,一些简单的症状就可以被诊断。在癌症治疗方案中,需要自己的免疫力去对抗癌细胞,但是在天然的免疫系统中,需要在免疫能力上再加上一定的用药。
“这就需要利用人工智能的分类系统。即免疫系统加上疫苗,让癌症系统被你自身的免疫力所遏制。平安医疗使用XGBOOST对癌症正常度和特异性进行分类,还用它进行流行病的预测。” Marc Hamilton说。
最新资讯
热门视频
新品评测