News
您的位置:
为什么每天电话邮件云会议,四处化缘各种数据报表?为什么通宵达旦整理数据,到了汇报时还是被批数据不准不全不及时?为什么运维团队逐渐庞大,各种规章制度,工作效率却止步不前?IDC运维的同学们,在披星戴月的下班路上,你是不是会思索这样的问题?
近几年来,我国数据中心机架规模持续稳步增长,大型以上数据中心规模增长迅速。截止2021年底,我国在用数据中心机架规模达到520万架,近五年年均复合增速超过30%,其中大型以上数据中心机架规模增长更为迅速,机架规模420万架, 占比达到80%。与此同时,新业务新技术给消费终端带来更好的体验感知,对数据中心网络的质量、可靠性及安全性也提出了更高的要求。国内数据中心机架规模(数据来源工信部信息通信发展司)运营商的数据中心,其建设年份较长,设备种类繁多,分布广泛。在生产工作中,对这些设备的运维监管有着不小的难度与挑战。设备复杂度高,厂商多、型号杂、采集协议多IDC设备包括物理服务器、网络设备、存储设备,此外还包括动环等。目前已投入应用的设备厂家多、型号杂、文档缺失。要做到监控指标的全面覆盖,数据采集需要适配多种协议,即使是最经常使用的SNMP也需要适配不同厂家的私有MIB库,大大增加了采集的复杂度。监控程度低,方法手段单一对于五花八门的设备厂商和型号,监控面窄,可感知指标简单,常见于执行脚本收集到例如PING网络是否连通,TELNET端口是否开放等简单的指标来监控设备有没有挂死,缺少深层次故障性能指标。自动化水平低,漏管设备多,纳管不及时传统IDC运维监管工具依赖于规章制度流程的严格执行,但在建设和割接等工程阶段,大量设备出入库和位置变更,相关流程执行不严会导致设备运维数据录入延迟。缺乏自动化感知能力,造成监管遗漏,如果发生故障,需要更高的成本解决故障。普度运维DCUCC,数据中心集中采集控制平台,聚焦于IDC机房的服务器和网络设备的运行感知和控制,是各种运维平台工具的基础数据和能力底座,是连接管理系统和网络设备的唯一纽带。浩鲸科技DCUCC的方案架构DCUCC整体采用集中化采集框架服务+分布式采集前置机的部署架构。采集框架服务在运维总部集中部署,负责配置、监控、任务调度和数据回收处理工作;前置机在各DC内就近部署,负责采集任务执行。轻量化前置部署前置节点轻量化架构,使用嵌入式的缓存和队列,不需专门资源部署PAAS组件;启动后配置数据本地化,即使与管理节点的连接中断也不影响采集任务执行;不依赖数据库运行。高容错且轻量化的前置节点,使用廉价服务器按需异地部署,实现各个数据中心设备的采集监控全面覆盖。设计态和运行态分离模式通过设计态,实现设备类型建模,接口指令设计、服务设计等准备工作。平台提供可视化采集流程设计,支持复杂任务采集编排,将采集、解析、转换、汇聚、回传、持久化等多种任务自由组合;提供API开发,能自由组合设备的各种能力,为上层运维工具赋能。浩鲸科技DCUCC的可视化采集流程编排设计完成后按设备型号输出相应业务包,业务包在各运行态实例中加载使用。运行态的工作包括任务生成、任务执行、结果回收3大步骤。任务由集中节点根据采集策略自动生成,并按前置机负责范围调度任务单。相应的前置机接收采集任务,按数据采集、测量解析、归一化、持久化、回传等步骤执行。最后,集中节点进行结果的汇聚收集。运行态采用弹性部署方案,随着采集任务量变化可进行人工和自动化的运行时动态扩缩容调整。现在,你只需通过DCUCC为每个DC部署上前置机,就可以提升你的“打怪”技能,成为运维中心最靓的仔。5大绝技多样适配网络设备和通用服务器主要以SNMP为主进行采集,因此DCUCC提供统一的OID索引库,将各类服务器和网络设备采集特征统一管理维护。为便于新指标特征的扩张,简化调整,还配套相应的一键测试,不需要做复杂的任务配置即可直接进行取值测试。某些情况下SNMP依赖的MIB库的OID是很难进行获取的,这时可通过指令控制模块使用SSH协议仿真设备OS指令模拟人工登录设备巡检查询。DCUCC集成了主流网络设备常用的指令,可快速联想检索,按白名单安全管控,对指令进行金库管理。对外物理服务器更有一种极端情况,既缺乏MIB库支持又无法像网络设备OS有成熟的操作指令,某些服务器上会安装了一个本地化运行的WEB管理页面。这种情况下,系统还提供了WEB页面报文分析工具,自动解析提取嵌入在HTML报文中的指标信息。通过SNMP或OS指令或HTML解析,采集回来的值有简单的单值型,也有复杂的TABLE型,系统支持BeanShell、Python动态脚本进行结果的解析,方便灵活扩展。IDC机房还存在少量设备断电关机脱管的情况,这种情况下我们采用IPMI协议对这些设备进行基础信息的采集。如符合运维规则,则远程控制其进行启动,再按标准化协议进行采集管控。自动发现IDC设备数量庞大,虽然大部分是按正式流程入网使用,但也存在紧急入网并投入使用的情况,这些设备在系统的网元库中没有记录,处于脱管状态。针对此类情况,系统提供自动化手段可主动发现识别新设备,自动为其配置采集策略,将其纳入管理范围。自动发现的原理是通过设备的LLDP协议自动发现周边的新邻居设备,根据LLDP属性解析识别出新设备类型和IP地址,自动生成采集策略,自动完成新设备的数据采集工作。下面是自动发现和配置的完整过程。浩鲸科技DCUCC的设备自动化发现和配置过程遍历机房内已在网被纳管的交换机和路由器。通过SNMP对网络设备的LLDP信息进行采集,解析出对端设备的MAC地址、管理IP地址、接口和设备信息描述。根据设备信息描述中的特征值,识别出对端设备的类型和厂家型号等。根据MAC地址和管理IP地址,与系统内已纳管的设备进行比对,确认是新设备后继续执行后面的自动配置动作。对于新设备自动我们可以根据步骤1识别出的信息,自动完成设备和采集源的自动创建任务,适配相应型号设备的采集模板,创建采集任务策略。对于新发现的设备是网络设备的情况,还可能存在下连有新设备的情况(如下图),需要再次以这个新网络设备为源设备,迭代步骤1再次识别,直到没有新设备才结束迭代。至此整个自动发现和配置完成。浩鲸科技DCUCC自动发多层新设备LLDP是定义在802.1ab中的二层协议,它提供了一种标准的链路层发现方式,使得接入网络的一台设备可以将其主要的能力,管理地址,设备标识,接口标识等信息发送给接入同一个局域网络的其它设备。我们不仅可以用它来发现新设备,还可以根据获取的本端的端口信息,自动完成机房局域网拓扑的自动绘制。在实际操作中,系统一般通过SNMP、SSH到新设备获取LLDP信息,从对端的角度对连接信息进行确认。此外,在网络部署和设备入网的时候,还需要遵循一些基本规则,包括:设备操作系统安装时需安装LLDPAD并默认打开LLDP服务网络设备和服务器入网时需默认打开SNMP服务,统一默认登录鉴权网络设备和服务器遵循统一的命名规范(对应LLDP信息中的SYSTEM NAME单元),新设备识别会更加简单准确离网清退对于使用年限长,效能利用率低的设备,运维部门会实施清单化的退网规划,从而释放机房机架资源,减少能耗和碳排放,降低运维工作量。离网清退工作,一般按以下步骤执行。老旧、低效、高故障率设备的筛查和上报运营运维组织内部审核设备配置数据清理设备下电、离网、报废或资源回收重利用等对于老旧、低效、高故障设备的发现,DCUCC提供了一套自动化高效的筛查手段。系统会采集设备的关键指标,并按一定的规则进行自动判别,初步整理出一份小范围清单后再由人工进行确认。设备类型场景识别规则参考服务器无用户使用CPU使用率:10天内日峰值<2%内存使用率:10天内日峰值<5%网络上下行流量:10天内日峰值<10M存储使用率:10天内波动<0.1%(1G)老旧设备入网时间:>8年主机型号、CPU型号、磁盘型号、内存型号:发布时间>10年多故障设备故障时长占比:>20%(3个月内)交换机路由器无用户使用下联端口状态:DOWN状态持续时间>10天下联邻居设备:2个月内全为空CPU使用率:10天内峰值<1%内存使用率:10天内峰值<5%网络上下行流量:10天内日峰值<10M老旧设备老旧光模块设备型号/光模块型号:发布时间>10年入网时间:>8年多故障设备老旧设备多故障端口错包率:>5%(1个月内)发送光功率:<临界值(1个月内)温度:>临界值(1个月内)网络和服务器设备在网工作期间都有大量的涉密配置数据,包括设备鉴权、网络结构、安全策略、用户业务数据等。这些清退设备并非直接销毁,可能会进入外部回收市场或者其它环境下的利旧复用,因此要在下电前完成这些涉密数据的清理销毁工作。针对不同类型和型号的设备,系统提供一键清退能力,自动安全高效地完成配置数据清理工作,完成后自动关闭设备,避免无谓能耗。浩鲸科技DCUCC的下线设备配置数据自动清除过程割接辅助数据机房不定期需要对网络、服务器、电源等进行扩容、改造、升级、迁移等变更,同时这些操作行为又发生在一个正在承载业务的上设备上,这就是割接操作。割接工作往往在晚上进行,操作时间短,对操作员的技术、技能、体力、经验等都有一定的要求。通过长期多项目经验的积累,采集系统提供割接辅助功能,一键批量导入待割接设备,按需选择割接场景,自动完成相关批量的、重复的、可操作时间短的各种设备操作。可支持的操作包括:自动暂停监控系统的采集任务,避免积压异常采集任务单如涉及设备配置变更,自动完成设备配置数据的导出和备份任务如涉及设备关机,自动完成各项关机临检,如服务器是否还有用户登录、是否还有业务进程在运行,网络上是否还有业务流量等,记录割接前的网络时延和丢包指标设备远程关机,待人工作业流程结束后,设备远程开机开机完成后自动完成网络恢复测试,检测设备到各个出口拨测点的网络通断性,时延和丢包率是否劣化等自动恢复监控系统的采集任务代理上报服务器上一般会运行操作系统外的各种软件,SNMP等设备标准协议难以采集到这些软件运行数据,又不允许开放远程模拟登录权限,这时候就用AGENT代理模式。AGENT是我们部署在采集源上的一个极轻量化的信息收集器,采用轻量脚本进行编写,或操作系统默认支持的类库语言编写,减少入侵性。目前系统提供的AGENT可以支持大多数主流操作系统,支持对常见PAAS平台日志、MYSQL等主流数据库日志。AGENT模式还可以支持自定义脚本监测器,实现对私有业务系统的监测。采集对象采集内容LINUX系统计算服务日志、对象存储服务日志、块存储服务日志、网络服务日志、认证服务日志、镜像服务日志、CEPH日志WINDOWS系统系统事件表、注册表MYSQL/MONGODB错误日志、告警日志REDIS集群状态报错、客户端连接数过大、Redis使用的内存超过maxmemory配置、客户端缓冲区异常、客户端连接超时记录、无法从连接池获取到连接记录等;ZOOKEEPER连接断开和重连日志、ZKClient反复重试连ZK服务器且秒连秒断、ZK单机Watch数超过阈值项目实战在21年某电信云运维项目中,通过DCUCC对数据中心的物理服务器、网络交换机、路由器、防火墙、存储设备都已具备采集控制能力,厂家覆盖20多家,型号覆盖200多种。采集能力覆盖全面的基础资源指标300多种、性能指标120多种、告警和日志消息,全面覆盖各级DC的设备。21年底DCUCC纳管设备范围轻量化的采集前置机易于扩展,省市机房的纳管硬件成本控制在小几万元水平,利旧低配服务器。低成本运维从另一个角度又确保了大量中小机房的管理覆盖面。原来新增100台设备的纳管,需要1个人工花2天时间完成设备录入,配置基础采集信息,采集任务验证,数据验证。现在完全释放配置人员,可实现分钟级设备接入配置,自动启动数据采集处理和上报。新一代的IDC不断引入绿色低碳技术,能效考核指标从以 PUE 为主逐步演变为 PUE、 CUE、 WUE等多指标兼顾,机房数字化智能化也对运维基础能力提出更高的要求。DCUCC提供了一个业务能力丰富且易于扩展IDC设备接入平台,在不断发展的云服务时代,会实时更新业务能力来适应不断推陈出新的新设备和新技术。
设备复杂度高,厂商多、型号杂、采集协议多
监控程度低,方法手段单一
自动化水平低,漏管设备多,纳管不及时
轻量化前置部署
设计态和运行态分离模式
多样适配
自动发现
遍历机房内已在网被纳管的交换机和路由器。
通过SNMP对网络设备的LLDP信息进行采集,解析出对端设备的MAC地址、管理IP地址、接口和设备信息描述。根据设备信息描述中的特征值,识别出对端设备的类型和厂家型号等。
根据MAC地址和管理IP地址,与系统内已纳管的设备进行比对,确认是新设备后继续执行后面的自动配置动作。
对于新设备自动我们可以根据步骤1识别出的信息,自动完成设备和采集源的自动创建任务,适配相应型号设备的采集模板,创建采集任务策略。
对于新发现的设备是网络设备的情况,还可能存在下连有新设备的情况(如下图),需要再次以这个新网络设备为源设备,迭代步骤1再次识别,直到没有新设备才结束迭代。至此整个自动发现和配置完成。
设备操作系统安装时需安装LLDPAD并默认打开LLDP服务
网络设备和服务器入网时需默认打开SNMP服务,统一默认登录鉴权
网络设备和服务器遵循统一的命名规范(对应LLDP信息中的SYSTEM NAME单元),新设备识别会更加简单准确
离网清退
老旧、低效、高故障率设备的筛查和上报
运营运维组织内部审核
设备配置数据清理
设备下电、离网、报废或资源回收重利用等
割接辅助
自动暂停监控系统的采集任务,避免积压异常采集任务单
如涉及设备配置变更,自动完成设备配置数据的导出和备份任务
如涉及设备关机,自动完成各项关机临检,如服务器是否还有用户登录、是否还有业务进程在运行,网络上是否还有业务流量等,记录割接前的网络时延和丢包指标
设备远程关机,待人工作业流程结束后,设备远程开机
开机完成后自动完成网络恢复测试,检测设备到各个出口拨测点的网络通断性,时延和丢包率是否劣化等
自动恢复监控系统的采集任务
代理上报
浩鲸云计算科技股份有限公司 版权所有 2003-2023
苏ICP备10224443号-6 苏公网安备 32011402011374号