互联网刚兴起的时候,运维还只是一个简单的服务安装管理及监控工作, 没人会想到人类在互联网上建立了如此庞大的业务生态。从衣食住行到教育金融,服务器的规模在急剧膨胀,从简单的人力可管控,逐渐进化到依赖自动化体系来管理,但是另一-方面,仅依赖工具已经不能很好地解决运维场景的需求。阵列卡
根据正式的定义,智能运维通常用aio a it o这个专有名词来表达,是指利用大数据分析机器学习等人工智能技术来自动化管理运维事务。早期的大规模运维以服务管理及监控为目标,自动化运维工具可以满足绝大部分需求,大数据采集及分析主要应用在服务监控及分析方面。但随着服务规模的膨胀,通过人工来管理大规模服务已经力不从心,也很难达到服务可用性的要求。2017年,g 也发布了aio的市场定义,并预测到2019年, 全球25%的企业将用aio系统替代传统运维管理系统。在2017年这个比例低于5%,而到2022年将超过40%。
微博作为国内典型的互联网服务之一,在智能运维的实践方面获得了很多经验。比如每年的春晚,有大量用户在微博上进行祝福与互动,微博的f项目系统搜索等服务的自动化扩缩容,通过数据标准化算法分析出qps和慢速比,并根据实时压测反馈的数据生成水位线,结合两个指标和水位线的波动情况进行自动扩容和缩容。
在日常的运维工作中,智能运维也在多方面发挥重要作用,比如告警收敛,利用智能算法过滤,收敛大量无效重复的告警信息,通过聚类算法将大量多维度的告警聚合为少量事件,通过告警分类算法提高准确率和减少误报。另外,智能运维还被大量应用于故障定位及服务自动修复方面,基于服务运行的日志及告警数据,实现非人工干预的自动化处理,比如自动摘除重启等操作。
aio已经成为运维领域的发展趋势,但是目前可供参考的书籍较少,且大多偏理论及小规模服务,而针对真正大规模线上实操的书籍非常匮乏。微博技术团队的彭冬刘俊朱伟等同事,长期从事微博运维数据相关技术研发,对于如何将ai理论和技术应用于大规模服务管理方面颇有心得。在本书中,系统地介绍了大数据运维基础理论知识,如数据采集分布式消息队列实时计算框架时序数据库等,并结合大数据人工智能技术如tf机器学习框架趋势预测算法等,介绍了微博平台微博在aio上的具体实操。相信用心阅读的读者,可以从中深入了解到他们在这一领域的领悟。
目前aio在业界也刚刚开始,微博技术团队也乐于和广大开发人员微博在aio实践中的心得,欢迎大家关注@微博平台架构和@微博技术学院,了解后续相关的公开技术活动。