华为AIOps服务:让智能化运维触手可及
- +1 你赞过了
【雷竞技须安全稳定 网络频道】如今,我们已经步入了由5G、云和AI驱动的智能时代,置身于一个庞大的数字世界中,运维是支撑数字世界正常运转的一大基础性技术。随着数字世界的系统越来越庞大、复杂度越来越高,运维对对智能化的要求就会越来越强烈。另一方面,随着“5G新基建”的加速实施,为数字经济的发展注入了新动能,驱动千行百业的智能升级。尤其是在电信领域,运维能力的智能演进已经成为电信网络能否持续发挥效能的关键要素。
智能世界对传统运维说“不”
业界普遍认为,智能运维将是构建数字世界的一个必选项。据 Gartner的 预测,到 2022 年,40%的大中型企业将部署AIOps平台。那么,我们首先来看下,传统的人工和工具化运维为何将被淘汰?
在信息化1.0时代,IT部门主要扮演业务部门跟随者的角色,运维主要承担封闭的IT环境中硬件和软件的日常巡检、维护和升级等工作,业务对IT的依赖程度不高,所以企业对运维效率的要求也不高。
随着数字经济的时代来临,IT部门的角色发生了巨大改变,数字化转型过程中,当云、IT等部署达到一定的规模,传统运维工具和运维方法就捉襟见肘。以电信网络为例,60%的运营商存在运维系统割裂的问题,OSS各专业系统独立、新功能应用内上线周期长;被动式运维使得故障诊断依赖经验,故障处理耗时长,准确率低;自动化程度低导致程人工参与环节多,使得人工成本居高不下;人工积累的经验难以应对网络复杂化带来的新问题,90%的时间耗费在了定位故障上。
在2016 年,Gartner提出了结合AI技术的新一代IT运维技术,起源于“Algorithmic IT Operations”算法IT运维,即AIOps(Artificial Intelligence for IT Operations)智能运维,基于已有的运维数据(日志/监控信息/应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。随后,AIOps受到了企业与运营商的追捧。据了解,目前,智能网络运维已经成为电信领域最大的AI应用场景,占有60%以上的电信AI应用市场。
AIOps不再可望不可及
虽然大家普遍认为AIOps“真香”,但可惜的是,AIOps的应用和普及仍处于早期一个阶段。相关统计显示,企业AI实际应用率远低于行业预估的增长水平,AI运维应用面临着开发门槛高、周期成等障碍,主要表现为:AI落地在实际业务中,需要业务分析师、开发工程师等人员参与,而大部分企业组织面临着缺乏AI专业知识的员工;单一的AI技术无法满足企业诉求,效果难体现,流程编排难度大,运维人员需要人工编码开发不同场景的AI应用,耗时耗力;此外,AI技术是工具,数据是灵活输入,大部分公司和组织缺乏数据采集的能力,没有大量的干净的数据积累,使得AI的处理能力大打折扣。
基于沉淀30余年的专业积累和通信领域的经验,早在2019年,华为发布了iMaster NAIE平台,AIOps服务基于iMaster NAIE平台,采用服务化架构提供AIOps平台能力,为网络智能运维提供了落地的捷径,以支持运营商、合作伙伴快速开发AI应用。
据华为NAIE AI模型与训练服务部部长杨建介绍,华为AIOps服务拥有四大核心竞争力:
首先,华为AIOps服务拥有电信领域的AIOps原子能力,提供20多个丰富的AIOps原子能力,覆盖预测,检测、定位、执行等多环节能力,轻松应对运维领域AI模型和算法开发门槛高、开发周期长等挑战;
其次,提供零编码流程编排能力,针对不同场景,可视化拖拽式编排,大幅提升运维人员AI应用开发效率;
再次,针对数据难获取,网元种类多,接口复杂不统一、数据治理时间长和数据标注成本高等挑战,AIOps提供了预制数据采集治理能力,提供一站式的数据采集、解析、治理等基础工具链,以及智能辅助数据标注能力。
最后,围绕运维全流程提供了预制典型场景组合应用,10+开箱即用的APP,ADN解决方案预集成,快速接入运维流。
华为AIOps服务在手,运维智能化更轻松
经过两年的迭代发展,据了解,华为AIOps服务目前已经实现了规模应用,支持4个业务领域、110多个现网局点、API调用达每月4.1亿次、10万个KPI、每天1000万个警告、4T条日志,为通信网络提供了坚实的运维保障,并助力运营商及企业网络打造了一系列最佳实践:
最佳实践一:核心网KPI异常检测
在电信网络中,核心网的故障对于网络质量和用户体验的影响最大,某运营商2019年发生核心网交换机软失效,导致了15万用户VoLTE业务中断10+小时,而核心网具有重复故障少,定位难、故障分析耗时长等运维调整,传统静态阀值检测无法适配业务动态变化,存在漏报、误报。华为核心网KPI异常检测APP,帮助某运营商提前5小时发现问题,实现预测性运维。第一时间上报变更异常并发送告警短信,降低了业务损失,保障5G高端用户上网体验。
最佳实践二:无线领域智能故障管理
运营商无线的基站从地理上分布非常广,面临人工成本高,告警量大,工单效率差的问题,此外,跨区域定位难,导致大量的无效单,依赖跨部门专家协同,通过AIOps来监督无线网络的告警,可以实现精准的派单。在2019年的实施效果就已达到了总体减少10%的空单数量,提升30%的运维效率。
最佳实践三:数据中心硬盘检测
依靠华为AIOps服务,可以提前14天预测数据中心的硬盘会不会出库。目前,在华为AIOps服务上,已经累计接入了全球200家以上的企业数量,累计监控的硬盘数量超过了12万台。在2020年一年之间识别出了4000块以上的故障,识别了1000个以上的数据备份场景,从而保证了数据中心的数据安全。
“数字化转型道路千万条,智能运维第一条”。华为AlOps服务作为智能运维的AI能力引擎,笔者相信,以其AI技术能力与华为在电信领域的行业能力相结合,为运维智能化的发展提供了高效便捷的高速公路,让运维彻底告别“慢”和“痛”。
最新资讯
热门视频
新品评测