取消
搜索历史
热搜词
原创
活动
创新2.0
I T
产业
当前位置:首页 >互联网•IT > 互联网+ > 互联网化 > 正文
互联网行业智能运维正当时
来源:人民邮电报  作者:刘凯铃 牛晓 2020-11-19 11:03:49
人工智能的成熟应用正在解决越来越多的工程实践难题,我国高度重视人工智能领域的产业发展,力图把握先发优势。将人工智能、大数据等技术应...

人工智能的成熟应用正在解决越来越多的工程实践难题,我国高度重视人工智能领域的产业发展,力图把握先发优势。将人工智能大数据等技术应用于IT运维领域的智能运维正在迎来重大发展机遇。根据Gartner预测,到2023年智能运维在全球企业中的使用率从2018年的5%增长至30%。

互联网行业智能运维实践现状

目前,互联网行业智能运维现状可概括为传统行业运维瓶颈问题凸显,智能运维发展稳中有进,落地成效初现。

互联网行业运维瓶颈问题凸显。第一,互联网业务与信息系统可用性高度相关,稳定性要求高。2019年8月,日本某互联网厂商云服务器出现异常,多款手游、购物平台无法正常连线,业务全面中断,上百万用户受到影响。第二,信息系统复杂且规模庞大,运行维护难度提升。随着互联网业务的发展,新旧系统交叠,业务功能往往涉及多个系统与应用,其背后的系统逻辑与架构复杂程度提升。同时,数据量呈爆发式增长,简单的手工运维难以支撑。第三,业务迭代快速频繁,IT运维管理风险剧增。当前,应用研发模式已逐步从瀑布式开发、敏捷开发向研发运营一体化(DevOps)转变,根据Puppet与DORA在2019年的调查显示,DevOps精英团队与低效团队相比,代码部署频率高208倍。频繁的部署发布为运维的变更管理、故障管理带来更多风险与挑战。可见,传统的IT运维模式已难以满足要求,亟须探索新的方式来解决运维问题。

互联网行业智能运维发展稳中有进。为应对不断增加的运维难题,互联网行业IT运维经历了从手工、脚本化、工具化到自动化、智能化的发展过程。面对互联网行业业务规模扩张、系统复杂、用户量增多以及业务形态变迁等问题,手工运维、脚本化运维等方式受到了极大挑战,运维难度大大提升。在自动化运维阶段,大量的重复性运维工作转为自动化操作,有效解决了部分人力成本和效率问题。与此同时,随着微服务、容器化等新技术的应用深入,产品迭代快速、频繁,企业开始DevOps实践,通过将软件全生命周期的工具全链路打通,结合自动化、跨团队的线上协作能力,使版本发布周期大幅缩短,效能获得提升。然而,在故障处理、变更管理、容量管理等过程中,仍需要人员按经验判断进行处理、决策,这阻碍了运维质量与效率的进一步提升。智能运维应运而生并成为必然趋势,通过对智能运维的探索应用,可以有效降低运维难度与成本,使传统运维人员专注自身的业务逻辑,提高开发和迭代效率,并且充分利用人工智能领域的技术成果,使机器能够代替人作出决策。

互联网行业智能运维落地成效初现。国际上,众多知名互联网企业正结合自身业务场景进行智能运维的成熟实践。例如,从2011年至2017年,知名视频网站Netflix与卡内基梅隆大学合作,通过人工智能的方法解决网络视频运维的各领域难题,包括视频体验问题智能分析、视频传输智能优化、资源预测与智能调度、视频用户体验改善等;2018年,微软在云服务平台Azure中集成智能运维组件,实现对硬件故障的预测、智能发布与部署等;2020年,IBM强势发布Watson AIOPs,实现对IT异常事件的主动检测、诊断和自动修复等。国内方面,从2018年开始,我国智能运维快速发展落地,目前众多大型互联网企业已具备面向多场景的智能运维综合解决方案,如百度Noah、阿里智能运维平台、腾讯蓝鲸智云、华为eService等。Gartner报告显示,2019年我国智能运维及相关分析软件市场规模为24.05亿元人民币,同比增长11.29%,超过全球相关市场规模年增长率,正处于迅猛发展之中。

互联网行业智能运维典型应用场景

智能运维主要基于实际运维场景进行实践落地,专注于解决特定几类运维问题,典型应用场景可以划分为针对历史事件的场景、针对当前事件的场景与针对未来事件的场景三大类。

第一,历史事件追踪。历史事件追踪场景主要指通过对历史数据、日志、事件的分析挖掘,智能识别历史趋势、异常事件、调用链等关联关系,从而进一步输出形成诊断规则库、故障传播图与知识图谱等。具体的应用场景主要有:瓶颈分析、故障关联关系挖掘、模块间调用链分析等。在离线状态下,针对历史事件场景的主要作用包括:基于对历史数据、日志的分析,发现制约系统软、硬件性能的瓶颈点,并进行优化;所形成的运维知识图谱、故障传播关系图,能够作为根因分析、故障定位的基础,帮助高效、准确识别故障。目前,运维知识图谱等场景的实践能够有效提升运维工作的效率与质量。例如,腾讯互娱能够通过对运维知识图谱的构建与应用,满足游戏中用户复杂查询和智能问答等多场景需求,提高故障定位的准确率。

第二,当前事件监测。当前事件监测场景主要体现在对故障与异常事件的及时、有效处理,通过机器学习、AI算法等智能化方式支撑业务的稳定运行。具体的应用场景主要包括:故障巡检、异常检测、根因分析、多维度分析、故障止损等,覆盖了问题发现、定位、分析与解决的完整流程。

针对当前事件的主要作用:在发现阶段,互联网行业通过对海量数据的统一监控与智能化异常检测,实现运维问题的及时发现与快速响应;在定位阶段,为避免在短时间内涌现大量告警,将根本问题淹没的情况,通过对告警数据进行合并收敛及根因分析,能够快速准确定位故障根源,精准施策;在分析阶段,通过对事件的智能化多维分析与关联分析,实现运维系统的智能决策,输出自动化解决方案;在解决阶段,通过成熟的智能决策配合自学习的运维工作流程和自动化等能力,实现故障止损、自愈,对运维问题进行处置解决。

目前,针对当前事件的智能运维场景已在互联网行业实践落地并取得一定成果。例如,百度在告警系统中实现智能异常检测与告警收敛的功能,已达到异常检测准确率90%、召回率99%,告警时效性为2秒,告警信息量削减85%。此外,美团针对故障诊断提供智能化运维能力,对故障进行完整的标记、运营、管理和跟踪等工作,即时物流业务IT运维的故障识别定位时间从15分钟降至5秒钟,线上故障监控覆盖率从80%提升至96%。

第三,事件预测。事件预测类场景主要通过对历史事件与当前事件的分析挖掘,训练数据模型,进而对即将发生的事件进行预测,实现运维问题解决的主动性、前瞻性,规避可能产生的风险,创造更多的业务价值。具体应用场景主要包括:容量预测、故障预测等。

针对预测事件类场景主要有以下作用:预测容量情况,通过对资源重要监控指标项的分析、预测,及时了解指标走势,提前建立准确的容量评估模型,实现容量管理的提前、合理规划;预测软硬件故障情况,提前处置,包括隔离上下层故障、维修/更新机器设备等。

在故障预测方面,阿里巴巴智能数据中心已能够提前30天根据机器设备属性的突变模式进行判断,主动维修或更新可能发生故障的机器,避免产生问题后的被动应对。目前,在误报率仅有0.08%的情况下,故障召回率相比业界平均水平提升25%以上。

互联网行业智能运维发展趋势及思考

产业融合助力智能运维实践向全行业推进。我国高度关注人工智能等新型信息技术与各产业的深度融合与发展。2019年发布的《工业和信息化部关于加快培育共享制造新模式新业态促进制造业高质量发展的指导意见》中指出,支持平台企业积极应用人工智能等技术,不断提升共享制造全流程的智能化水平。由于互联网行业业务种类多样,且与传统行业有着密切的关系,例如,电子商务对应零售行业、互联网金融对应金融行业、在线教育对应教育行业等,因此能够总结智能运维的最佳实践与通用场景,以产品或服务的形式与其他行业共享技术,带动全行业智能运维水平的共同提升。

新基建与智能运维发展协同发力。当前,我国大力发展新型基础设施建设。在《合肥市推进新型基础设施建设实施方案(2020-2022年)》中提到,应以融合基础设施培育新兴业态,赋能传统产业转型升级,发挥5G、人工智能等赋能效应,积极推广远程运维服务等智能制造新模式。一方面,5G技术助力数据的实时、海量接入,为智能运维的统一监控、机器学习算法等实现提供有力支撑。另一方面,随着新基建的发展,IT运维团队正在面临更为新型的网络环境与高扩展性的部署环境,如:云计算、容器、Serverless平台等,智能运维的成熟应用可以有效保障各类基础设施的稳定运行,为数字经济转型打下坚实基础。

智能运维生态布局逐渐完善。未来,我国将进一步推进智能运维领域的“政产学研用”结合,形成健全、多元的生态格局,打造智能运维实践创新引擎。以下是三点建议:第一,加大政策与标准规范支持力度。目前,我国已针对人工智能领域出台较多政策与规范,如《新一代人工智能发展规划》《加快培育共享制造新模式新业态促进制造业高质量发展的指导意见》等中均对人工智能应用提出明确要求。后续还应在IT运维、智能运维领域发布相关指南与标准规范,全方位针对运维服务发展进行要求、指导。第二,建立企业交流平台,合作共赢。由于智能运维发展时间较短,相关的社区组织数量较少,企业间的交流十分有限,缺乏沟通的平台与机制,因此,全行业应积极搭建交流合作平台,共享智能运维最佳实践,激发行业创新思维。第三,加强学科体系建设及人才培养。目前,清华大学、南京大学等高校已成立专门的实验室、团队,研究与智能运维相关的机器学习算法和工具,但仍只是少数,各高校、学术机构需加大对智能运维理论研究及人才培养的力度,不断向产业侧输出科研成果及高端人才,从而使智能运维实践创新升级。

从目前来看,我国智能运维实践仍具有较大发展空间,它需要多种技术与文化思想的共同发展与进步,不能一蹴而就。深入探索智能运维实践的最终目的不是取代运维人员,而是帮助运维人员提高运维工作质量、提升效率,解放双手实现突破与创新。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:宋含怡
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

Baidu
map