智能运维:从基于规则到基于学习
随着企业发展,其应用架构也越来越复杂,从单一的应用,到多个应用共同组合形成服务,到云计算、微服务架构,再到目前流行的容器化。除了基础的服务应用外,也出现了专门用于采集、存储与分析用户信息的大数据处理应用。云数据中心规模快速增长,运维环境的异构和复杂化,导致日常运维工作需要付出的人力、时间成本越来越高。运维的发展已经经历了脚本时代——工具时代——自动化时代(DevOps),每一次的变迁都代表了运维需求的变化,运维技术的变革和运维人员效率的提高,随着大数据、机器学习和AI技术的飞速发展,运维需求也逐渐向智能化过渡。智能运维(AIOps)是自动化运维的拓展,其目的是进一步去除自动化运维中人为干扰,最终实现运维工作的无人化,完全自动化。
智能运维的内容主要有数据采集存储、异常自动检测、异常自动处理和数据的可视化。
数据采集存储
运维系统需要支持从机房设施、物理基础设施、数据中心网络、虚拟化资源池、云服务和应用到用户端日志的统一管理,实现多对象和多维度的集中监控。对于基础架构,需要采集的可能是性能数据,除了基础的CPU利用率、负载、%iowait,内存的利用率、页扫描、交换,磁盘的利用率、响应时间外,也可以使用处理器内包含的硬件计数器采集更详细的性能指标 …