智慧小区三大保障体系全面解决方案98页.docx
下载文档
上传人:职z****i
编号:1126950
2024-09-07
98页
3.77MB
1、目录第1章 三大保障体系设计11.1 标准与规范体系设计11.1.1 标准、规范及制度建设原则11.1.2 标准、规范及制度建设内容11.2 安全保障系体系设计41.3.1 系统概述41.3.2 需求分析51.3.3 系统结构51.3.4 系统设计61.4 运维服务体系设计201.4.1 系统概述201.4.2 需求分析201.4.3 系统架构211.4.4 系统设计271.4.5 系统优势381.4.6 系统功能41第1章 三大保障体系设计1.1 标准与规范体系设计1.1.1 标准、规范及制度建设原则本项目需要建设的标准、规范及制度主要包括总体标准规范、技术标准规范、业务标准规范、运维规范及2、制度、管理规范及制度等,为”智慧”信息化系统的合理建设和运维提供指导。1.1.2 标准、规范及制度建设内容按照前述标准规范框架分类,系统工程标准规范建设的内容分为两部分:1、 明确可以遵循执行的国家、国际和行业标准规范;2、 制定或完善仅在本项目中应用的标准规范。按照GB/T13016-2009标准体系表编制原则和要求中的有关规定,从总体、技术、业务、管理、运营等纬度制定适合本系统建设的技术标准和管理规范。1.1.2.1 总体标准规范1、 建设运行标准规范体系(或参考模型)针对建设与应用的需求,根据国家已制订的标准体系或信息系统建设标准规范参考模型的基础上,制订符合国家标准要求的项目建设和运行3、标准规范体系或参考模型。首先提出支持”智慧”信息化系统建设任务的标准规范体系。2、 建设术语规范针对”智慧”信息化系统项目建设内容,根据国家相关标准,制订覆盖项目的业务术语规范,统一规范”智慧”信息化系统项目建设和运行的信息及其管理术语。先提出覆盖本项目内容的术语规范。3、 项目建设管理办法本办法为”智慧”信息化系统项目建设实施规范化管理提供指导,通过明确项目管理的基本流程、项目建设和维护阶段基本流程,制订在立项及可行性研究阶段、招标投标阶段、设计阶段、实施阶段、测试验收阶段和运行及维护阶段的相关管理办法,明确有关方责任,确保项目建设有序推进和质量的提高。1.1.2.2 技术标准规范1、 数据4、标准本部分为”智慧”信息化系统项目涉及的基础数据的有关标准与规范。2、 网络标准为了保证系统建设和管理的规范化,需要制订系统建设规范、系统管理规范。本部分重点考虑与本系统关系密切的业务数据标准与规范。3、 安全标准本部分根据系统安全保障的要求,提供所需的信息安全管理、信息安全技术和信全评估等层面的标准与规范。1.1.2.3 业务标准规范为保障”智慧”信息化系统项目的宏观管理与业务,需要制定业务标准规范体系,主要包括业务管理组织体系保障”智慧”信息化系统项目、业务操作规程、信息管理操作规范、业务流程规范等方面的标准规范。1、 业务管理组织体系根据相关用户单位的实际组织情况,从最佳配置、最优服务角5、度出发,制定业务管理组织体系规范。2、 业务流程规范制定业务流程规范,为项目提供支撑。3、 业务操作规程制定业务操作规程,为项目提供支撑。4、 信息管理操作规范制定信息管理操作规范,确保项目信息安全、一致。1.1.2.4 管理标准规范为了保证系统建成后”智慧”信息化系统的规范化管理和运行,需要制定项目管理标准规范体系,主要包括以下内容:1、 安全管理员岗位职责2、 网络安全组织管理规范3、 网络运行安全管理及技术规范4、 计算机用户使用规则5、 信息安全人员管理制度6、 技术文档安全管理7、 帐号管理制度8、 场地设施安全管理制度9、 机房日常管理制度10、 运行维护制度11、 备份恢复制度16、2、 应急响应制度1.1.2.5 运营标准规范主要包括对系统的软硬件环境、系统设备、数据库、中间件、应用软件等的日常运行、管理和维护等方面的标准规范和规章制度。1、 信息资源评价标准主要包括信息资源开发利用评定质量的指标及评定优劣的标准规范与规章制度。2、 安全管理标准信息安全标准主要包括系统安全运行和管理等方面的标准规范与规章制度。1.1.1.1.2 安全保障系体系设计1.31.3.1 系统概述随着信息化的发展,日常业务的处理越来越离不开计算机,随着企业和机构的规模不断的发展和增大,企业内部安全上网和信息安全,以及完成数据集中和交换,已经作为一个迫切的问题摆在面前。公司业务开展,越来越依赖于7、信息化系统建设:优化网络系统结构,集中化的管理,稳定的网络,是业务开展基础;网络系统的安全,应用系统的安全,是公司业务正常开展的保障;高效的信息网络系统,可以整体提高公司办公效率。基于以上需求,科技在给单位信息化方面做了有针对性的建设,最终打造稳定、安全、可靠的公司信息化网络平台。1.3.2 需求分析结合单位的IT建设重点和当前实际网络拓扑,制定了服务器负载均衡AD+出口下一代防火墙NGAF+WEB防火墙(WAF)+移动办公SSLVPN+上网行为管理+上网日志审计+应用性能监控和分析+数据中心防火墙+企业及无线的整体建设方案。1.3.3 系统结构设备部署简单说明:1单位大楼的建设中,整个互联网8、出口需要部署一台下一代防火墙,来次互联网的数据进行网络层到应用层进行L2-L7层流量清洗,有效的解决了内网终端上网和服务器集群受到病毒木马感染以及防护来自应用层攻击的问题,防止敏感信息的泄露,全面保证了应用系统的安全。 2.在出口防火墙后面部署的上网行为管理,统一对内网用户上网行为做统一身份认证、上网权限控制和应用流量控制,保证内部员工的合规上网。3、在对外发布的DMZ出口部署的WEB防火墙,全面保证对外发布的网站安全,保护网页内容不会被篡改,以及被挂外链等攻击。4.在内网的核心交换机上分别旁挂一台SSLVPN设备。方便出差的领导和员工进行远程移动办公,实现再任何时间、任何地点只要能上网就可以9、实现安全接入办公,例如通过个人PC、iPad、iPhone、Android等平板电脑或智能手机实现远程便捷安全办公。5、内部重要应用系统,为了保证接入的安全性,通过的VPN设备,实现接入身份的认证授权,以及数据传输的加密,保证了核心业务数据的安全。6、通过上网行为审计设备AC旁挂核心交换机上,提供上网行全面的、灵活的审计功能,可以针对内网用户所有上网行为包括收发邮件、IM聊天、外发文件、网站访问等等行为和内容都可以做到详细记录。一方面满足了部和工信部对上网日志审计的要求,同时保障了企业内部的机密信息一旦泄密后做到有据可查,帮助企业规避法律风险。7、数据中心出口部署的数据中心防火墙,全面保护服务10、器和业务系统的安全,保护服务器集群受到病毒木马感染以及防护来自应用层攻击的问题,保证数据中心的稳定性和安全性。8、在企业部署的企业级无线,覆盖所有需要办公的场所,企业级无线可以在应用层的管控、无线安全、增值营销服务整套解决方案。9、服务器数据中心出口交换机上旁挂的负载均衡AD,通过AD各种服务器负载均衡算法和健康监测机制,以及服务器性能优化,保证服务器和业务稳定和高效运行,做到7*24小时业务不中断。1.3.4 系统设计1.1.1.1.2.1.2.1.1.2.2.1.2.3.1.2.4.1.3.4.1 出口下一代应用防火墙下一代防火墙做双机部署放置于内网核心交换机前面,全面保护内网的终端上网和11、服务器应用系统的安全:全面防护,标本兼治:通过下一代应用防火墙的恶意网站过滤功能,防止终端访问威胁网站和应用,同时通过漏洞防护、病毒防护、恶意控件/脚本过滤功能,切断威胁感染终端的各种技术手段,避免因为用户无意中的网络访问行为将病毒、木马引入终端,完善内容级安全防护:灰度威胁识别技术不但可以将数据包还原的内容级别进行全面的威胁检测,而且还可以针对黑客入侵过程中使用的不同攻击方法进行关联分析,从而精确定位出一个黑客的攻击行为,有效阻断威胁风险的发生。1.对服务器集群系统防护:自动检查服务器隐患:在配置完安全策略后,下一代应用防火墙可以自动进行扫描和探测,查看系统还存在哪些安全策略漏洞和隐患;防止12、黑客入侵,获取权限,窃取数据:具备L2-L7一体化安全防护功能,通过下一代应用防火墙的漏洞防护、攻击防护、病毒防护等多种应用内容防护功能,防止黑客入侵,保证服务器稳定运行;网站防篡改:对外发布的web服务器,下一代应用防火墙可以针对被篡改的静态网页进行告警、替换、还原等功能,保护网站的安全。1.3.4.2 WEB应用防火墙WEB防火墙提供对Web业务系统的三维立体防护解决方案,深入分析黑客攻击的时机和动机。从事件周期、攻击过程、防护对象三个维度出发,提供全面的安全防护手段,保护web业务系统不受来自各方的侵害。基于事件周期的设计攻击的防护不可能实现百分百的安全。Web系统的安全建设必须贯穿到整13、个Web安全事件周期中,设立事前、事中、事后三道安全防线分阶段进行防护。WEB应用防火墙提供事前策略自检、事中攻击防护、事后防止篡改的整体安全防护。事前策略自检*:在配置完安全策略后,可以自动进行扫描和探测,查看系统还存在哪些安全策略漏洞和隐患;事中攻击防护: 2-7层完整的安全防护,包括:Web攻击防护、漏洞防护、病毒防护等;事后网页篡改响应*:可以针对被篡改的静态网页进行告警、替换、还原等功能。基于攻击过程的安全防护传统的web安全防护采用的是防火墙+IPS+应用防火墙割裂式的安全防护体系,针对各类的攻击总是被动的增补相应功能的安全设备。而对于Web安全防护不是单一攻击手段的防护,而需要对14、黑客攻击动机与时机进行分析,基于黑客的攻击过程的每一个环节进行统一防护。WEB应用防火墙的设计是基于黑客攻击过程的完整Web系统安全防护,针对黑客入侵三步曲即扫描、入侵、破坏进行统一的安全防护:扫描过程:提供防端口/服务扫描、防弱口令暴力破解、关键URL防护、应用信息隐藏等攻击过程:提供强化的Web攻击防护(防SQL注入、OS命令注入、XSS攻击、CSRF攻击)、多对象漏洞利用防护等破坏过程:提供抗应用层DOS攻击、可执行程序上传过滤、上行病毒木马清洗等多维对象的全面防护安全的漏洞就像木桶的短板,任何可以被黑客利用的机会都可能导致所有的防护措施形同虚设。对众多用户网络安全现状分析后,发现安全问15、题是多角度、多方面的,在Web安全规划中,一味强调Web服务器的防护是远远不够的。面对防护全面的Web应用服务器,黑客往往以退为进采用“跳板式攻击”,先突破漏洞较多的内网终端,通过内网终端窃取密码后堂而皇之的入侵Web服务器。1.3.4.3 数据中心防火墙数据中心防火墙基于应用的深度入侵防御采用六大威胁检测机制:攻击特征检测、特殊攻击检测、威胁关联分析、异常流量检测、协议异常检测、深度内容分析能够有效的防止各类已知未知攻击,实时阻断黑客攻击。如,缓冲区溢出攻击、利用漏洞的攻击、协议异常、蠕虫、木马、后门、DoS/DDoS攻击探测、扫描、间谍软件、以及各类IPS逃逸攻击等。通过数据中心防火墙的部16、署可有效防止利用web服务器、数据库服务器、中间件服务器等网站服务器本身应用程序、操作系统、应用软件的漏洞通过缓冲区溢出、恶意蠕虫、病毒等应用层攻击,使黑客获取更高的服务器权限、使服务器瘫痪导致服务器、存储等资源被攻击的问题。1.1.1.1.1.2.1.1.3.1.1.4.1.1.4.1.1.1.4.2.1.1.4.3.1.1.1.1.1 可定义的敏感信息防泄漏,有效防止“拖库”、”暴库”数据中心防火墙提供可定义的敏感信息防泄漏功能,根据储存的数据内容可根据其特征清晰定义,通过短信、邮件报警及连接请求阻断的方式防止大量的敏感信息被窃取。敏感信息防泄漏解决方案可以自定义多种敏感信息内容进行有效识17、别、报警并阻断,防止大量敏感信息被非法泄露。邮箱账户信息MD5加密密码银行卡号身份证号码社保账号信用卡号手机号码通过深度内容检测技术的应用,下一代防火墙具备深度内容检测的能力。能够检测出通过文件、数据流、标准协议等通过网关的内容。因此具备针对敏感信息,如186、139等有特征的11位的手机号码、18位身份证号,有标准特征的邮箱等有特征数据进行识别。并通过分离平面设计的软件构架,实现控制平面与内容平面检测联动,通过控制平面向底层数据转发平面发送操作指令来阻断敏感信息的泄漏。有防护了各单位、政府、金融机构的敏感泄漏的风险。1.1.1.1.2 应用信息隐藏,使网站对黑客全面隐身数据中心防火墙可提供外18、部访问网站进行隐身,可以隐藏真实的Web服务器类型、应用服务器类型、操作系统、版本号、版本更新程度、已知安全漏洞、真实IP地址、内部工作站信息,让黑客看不见,摸不着,探测不到,自然也无从猜测分析和攻击。亦可针对主要的服务器(WEB服务器、FTP服务器、邮件服务器等)反馈信息进行了有效的隐藏。防止黑客利用服务器返回信息进行有针对性的攻击。如:HTTP出错页面隐藏、响应报头隐藏、FTP信息隐藏等。当客户端访问WEB网站的时候,服务器会通过HTTP报文头部返回客户端很多字段信息,例如Server、Via等,Via可能会泄露代理服务器的版本信息,攻击者可以利用服务器版本漏洞进行攻击。因此可以通过隐藏这19、些字段来防止攻击。网站扫描也是黑客获取网站信息关键的步骤,通常会对WEB站点进行扫描,对WEB站点的结构、漏洞进行进行扫描。数据中心防火墙设备可以检测到如爬虫、扫描软件,如appscan、等多种扫描攻击行为并进行阻断。1.3.4.4 无线通讯安全设计数字集群无线通信系统是”智慧”信息化系统中重要组成部分,担负着监控中心与一线处置现场之间进行实时沟通,上传下大的重要任务。工作人员通过移动终端所提供的话音、图像(视频)、数据等多种功能,不仅能与监控中心进行实时话音沟通,还能查询现场需要的相关数据、图片资料,回传现场数据、图片供监控中心分析。安全问题是无线网络的头号问题。事实上,无线网络对安全的要求20、性更高,如果没有部署好能够保护整个网络的分层防御方式,这种开放的网络存在严重的信息窃取、无线网络攻击、非授权访问和使用、病毒感染等,有可能危及到整个网络,导致部分或所有用户的隐私受到威胁。无线通讯安全分层防御系统,涵盖核心无线网络安全、无线通信安全、无线网络边界安全和无线终端安全四个部分,建立无线网络环境下安全连接、信息保密、威胁防御、身份辨识与访问控制,确保用户工作组安全、阻止监听、窥探和伪装和无授权访问,从而全面保障无线网络的安全性。1.3.4.5 入侵检测设计对各种事件进行分析,从中发现违反安全策略的行为是入侵检测系统的核心功能。从技术上,入侵检测分为两类:一种基于标志(signatur21、e-based),另一种基于异常情况(anomaly-based)。4对于基于标识的检测技术来说,首先要定义违背安全策略的事件的特征,如网络数据包的某些头信息。检测主要判别这类特征是否在所收集到的数据中出现。此方法非常类似杀毒软件。而基于异常的检测技术则是先定义一组系统“正常”情况的数值,如CPU利用率、内存利用率、文件校验和等(这类数据可以人为定义,也可以通过观察系统、并用统计的办法得出),然后将系统运行时的数值与所定义的“正常”情况比较,得出是否有被攻击的迹象。这种检测方式的核心在于如何定义所谓的“正常”情况。两种检测技术的方法、所得出的结论有非常大的差异。基于标志的检测技术的核心是维护一22、个知识库。对于已知的攻击,它可以详细、准确的报告出攻击类型,但是对未知攻击却效果有限,而且知识库必须不断更新。基于异常的检测技术则无法准确判别出攻击的手法,但它可以(至少在理论上可以)判别更广范、甚至未发觉的攻击。1.1.4.4.1.1.4.5.1.1.1.1.3 智能的DOS攻击防护,保证网站访问可用性数据中心防火墙采用自主研发的DOS攻击算法,可防护基于数据包的DOS攻击、IP协议报文的DOS攻击、TCP协议报文的DOS攻击、基于HTTP协议的DOS攻击等,实现对网络层、应用层的各类资源耗尽的拒绝服务攻击的防护,实现L2-L7层的异常流量清洗。1.1.1.1.4 安全风险评估与策略联动,降23、低安全维护成本数据中心防火墙基于时间周期的安全防护设计提供事前风险评估及策略联动的功能。通过端口、服务、应用扫描帮助用户及时发现端口、服务及漏洞风险,并通过模块间的智能策略联动及时更新对应的安全风险的安全防护策略。帮助用户快速1.3.4.6 服务器负载均衡服务器负载均衡设备包含了链路负载均衡、全局负载均衡和服务器负载均衡三大功能,对后续网络和应用系统的扩建、稳定性保障以及优化建设都有很好的扩展性。1、两台服务器负载均衡设备以单臂方式接入网络,在实现流量的负载均衡的同时,保证整个系统的稳定和高可用性,而且没有改变原有的网络结构。2、当用户请求到服务器负载均衡设备设备的时候,根据预先设定好负载策略24、能够合理的将每个连接快速的分配到相应的服务器。3、通过对服务器健康状况的实时监控,能够实时的发现故障服务器,及时将用户的访问请求切换到其他正常服务器之上。4、配合独特的单边加速技术,能够是现在用户端不安装任何插件和客户端的情况下提升用户的访问速度。5、通过服务器负载均衡设备设备具备的缓存、压缩、ssl卸载、连接复用等功能进一步降低服务器性能消耗。服务器负载均衡将所有真实服务器配置成虚拟服务来实现负载均衡,对外直接发布一个虚拟服务IP。同时深负载均衡设备可持续检查服务器的健康状态,一旦发现故障服务器,则将其从负载均衡组中移除。方案具体实现方式(修改源IP方式)如下:1、客户通过访问虚拟IP,发出25、服务请求到负载均衡设备设备。2、负载均衡设备接收到请求,通过预先设定好的负载均衡算法,将数据包中目的IP地址改为选中的后台服务器IP地址,然后将数据包发出到后台选定的服务器。3、后台服务器收到后,将应答包按照其路由发回负载均衡设备。4、负载均衡设备设备收到应答包后将其中的源地址改回成虚拟IP地址,发回客户端,由此就完成了一个标准的服务器负载平衡的流程。1.3.4.7 上网行为管理1. 有效的流量管理及带宽优化:上网行为管理产品可针对用户/用户组/网络应用划分不同优先级别进行流量的管理,为用户合理分配带宽。并通过动态流控和P2P双向流控等新技术实现比传统流控提升30%以上的带宽利用率。2. 全面26、的应用识别,上网管理无漏洞:内置百万级的URL库及国内最大的应用识别规则库(2473种应用动作),还能根据网页内容人工智能的自动分类未知网页(智能识别库),进而快速过滤、管控不良网站,从而有效管控员工上网行为,提升业务效率,降低业务风险。3. 多种身份认证支持,精确定位用户:支持多种用户身份认证技术,如IP、MAC、RADIUS、AD域、IMC、数据库认证、短信认证等方式,能够满足不同客户的需求;还可以与用户自身的认证系统相结合,在审计、控制、流量管理环节实现基于用户的精准、便捷定位,从而做到更好的管控4. 便捷的无线热点发现及WIFI管控:能够自动识别并管控无线热点,并能为无线接入用户提供便27、捷的实名认证5. 最安全的上网保护,让上网零风险:支持安全桌面,防火墙、网关杀毒、防DOS攻击、防ARP攻击、过滤危险脚本插件及终端安全准入等功能,降低互联网访问安全风险,保障校园网的安全6. 细致的流量分析,提供管理依据:内置灵活的互联网行为报表,便于网络管理者针对互联网使用的情况进行细致的分析,为高校的网络管理提供相应的依据7. 高性能平台,全面支持下一代互联网:第二代上网行为管理具有万兆平台设备,满足高校大流量出口的需求,并支持IPV6,满足下一代互联网的发展需求1.3.4.8 数据安全设计数据安全服务系统是整个信息安全的核心,主要对系统数据进行安全控制和保护。它依托全市网络信任基础设施28、,实现政务数字证书的加密、访问控制等应用,为数据提供加密、访问控制等安全服务功能,实现各类数据的安全。它主要具备如下功能:1)数据传输加密:主要通过密码服务器系统,来实现对数据的加密处理。密码服务包括以下服务和这些服务的组合服务: 数据加解密:提供对数据的加密和解密运算功能; 数字签名:提供对数据的签名和签名验证运算功能; 数据摘要和完整性验证:提供对数据进行摘要运算功能,并具有验证数据完整性功能;2)在接口形态上,密码服务接口至少提供 JAVA和C/C+/C#等接口。确保数据加密处理的高效性,满足大访问量、高频率的数据安全传输要求。3)数据访问的控制:实现对业务需要特殊限制区域的数据进行进行29、严格的使用授权管理,系统可以设置不同用户的访问权限,制定严格的访问流程,控制不同安全级别的用户进行特殊管线数据的访问。也就是说,用户必须经过系统的授权,才可以对数据进行访问。1.3.4.9 安全审计设计计算机网络安全审计(Audit)是指按照一定的安全策略,利用记录、系统活动和用户活动等信息,检查、审查和检验操作事件的环境及活动,从而发现系统漏洞、入侵行为或改善系统性能的过程。也是审查评估系统安全风险并采取相应措施的一个过程。在不至于混淆情况下,简称为安全审计,实际是记录与审查用户操作计算机及网络系统活动的过程,是提高系统安全性的重要举措。系统活动包括操作系统活动和应用程序进程的活动。用户活动30、包括用户在操作系统和应用程序中的活动,如用户所使用的资源、使用时间、执行的操作等。安全审计对系统记录和行为进行独立的审查和估计,其主要作用和目的包括5个方面:(1)对可能存在的潜在攻击者起到威慑和警示作用,核心是风险评估。(2)测试系统的控制情况,及时进行调整,保证与安全策略和操作规程协调一致。(3)对已出现的破坏事件,做出评估并提供有效的灾难恢复和追究责任的依据。(4)对系统控制、安全策略与规程中的变更进行评价和反馈,以便修订决策和部署。(5)协助系统管理员及时发现网络系统入侵或潜在的系统漏洞及隐患。1.3.4.10 上网日志审计由于部和工信部等的要求,一旦内部员工有任何网络违法犯罪的行为,31、单位需要有详细的上网日志记录和查询功能,做到有据可查,帮助单位规避法律风险。同时员工日常工作中涉及了大量与公司相关的机密信息,这些信息一旦公开,公司和单位将带来泄露商业机密、触犯法律风险等违规违法的麻烦。当这类事情出现的时候,组织需要在最短的时间内,通过一种最有根据的方式找到网络违法的当事人。那么上网行为审计设备提供了全面的、灵活的监控审计功能,可以针对内网用户所有上网行为包括收发邮件、IM聊天、外发文件、网站访问等等行为和内容都可以做到详细记录,包括访问人、时间日期、IP地址、部门、具体动作、访问内容等都可以准确记录下来供时候查询。独立内置和外置数据中心实现日志海量存储,而且提供了图形化的日32、志查询、统计、审计、报表中心等功能,通过统计报表功能,可以直观的获得关于流量、邮件收发、上网时间、网络行为等方面的详细的报表和图形化统计结果,并且支持导出PDF等文档、Email投递等功能,方便IT部门将统计结果向上级领导汇报。1.3.4.11 应用性能监控和分析(应用性能管理)产品聚焦用户所关注的核心应用系统,针对网络性能、应用性能进行建模实时质量监控,并提供进一步的性能分析报告,提升应用系统的稳定性和访问体验质量。应用性能管理通过主动探测+旁路被动实监测分析双重机制,针对运营商所关注的应用系统进行7*24小时的健康度、可用性监控,在故障前实现预警。此外,提供针对系统的健康度评分报告,帮助用33、户掌控系统运行状况,为优化系统提供数据支撑。应用性能管理可以直接通过TCP握手探测来判断系统是否存活,当然这还不够,仅通过TCP握手无法判断应用层的状态,可能系统存活,但是已经工作不正常了。因此应用性能管理还可以通过定义应用层交互内容,来判断系统应用层的状态。健康状态监测支持ERP、OA、HTTP、FTP、Mail、运营商BOSS等各类应用状态参数提供系统状态、可用性、响应时延、告警状态等信息探测技术支持TCP CONNECT、URL探测、自定义探测、支持正则表达式阀值告警可根据不同的健康等级定为阀值告警应用性能管理通过旁路数据包解包和协议解码技术,提供7层WEB应用的性能监控,系统页面、终端34、用户数、页面加载时间、RTT、带宽利用率、TCP/HTTP错误、网络/服务时延、吞吐率、丢包率等用户体验因素可自动关联判断。WEB性能分析可实时监视指定WEB应用的性能、页面加载时间、受影响用户数、错误数等信息分析展示能够通过曲线等图表直观展示WEB服务的页面加载时间变化趋势、HTTP/TCP错误数变化趋势、页面加载时间/网络延时变化趋势等进程监控可详细记录响应慢的页面中各子URL的详细信息,便于分析页面慢的原因用户感知支持直观展现访问该页面速度慢的用户来源区域分布、页面访问时间等信息通过应用性能分析,可还原用户访问应用系统的真实体验,譬如用户对邮件服务器加载页面的打开需要多长时间、是否较正常35、情况延时,历史HTTP错误/TCP错误数目、该延时情况对多少用户产生影响、影响的比例为多少等。性能深入分析结合应用性能管理的服务器状态监控、全网服务器交互/流量监控,可对造成应用访问效果不佳的瓶颈问题进行定位,究竟是带宽挤占、服务器本身性能、应用系统本身设计还是使用用户数据增长等问题导致用户平均访问体验下降。智能预警功能默认含线路流量异常告警、区域网络异常告警、线路网络异常告警、网络攻击告警、区域流量异常告警、系统可用性告警、系统响应缓慢告警等信息,并可根据应用性能管理设备监控、应用系统监控、流量监控等信息为特定的服务器量身定做自定义告警策略,提高管理的效率及响应及时性。当用户所关注的业务系统36、访问变慢或宕机,应用性能管理设备可以通过短信或邮件实现告警。1.4 运维服务体系设计1.4.1 系统概述加强中心信息化系统建设和进一步加强信息系统运行管理的水平,通过构建系统监控管理平台,能够及时、准确和全面反映信息系统的运行状态,保障各业务系统的正常运行,目标如下:实现网络资源、系统资源及应用系统的监控:通过实施监控系统,配合相应的选件,跨越现有的各种复杂的网络、数据库、应用程序和硬、软件平台对多种不同厂商的主机设备、数据库、中间件、存储、应用系统、安全、资源、工作流程等进行集中统一的故障监测和性能管理,从而有效地保障系统运行的可靠性和稳定性。最终整合成为一个稳定、安全的计算机资源体系,实现37、集中管理、远程控制、安全防护等目的,同时通过专业的管理报表为中心领导的决策提供数据化的支持。1.4.2 需求分析提供一个集中的监控管理平台的解决方案,完成对中心信息化系统机房内的各种应用系统用机的性能和安全性进行监控、管理,具体包括对网络设备、系统、数据库、中间件系统和机房环境的集中监控、维护与管理;提供完善的联动报警功能,引入事件管理机制;对监控系统产生的历史数据进行收集和保存,并根据数据生成各种统计分析报表,主要任务描述如下:1、实现对机房内硬件设备的监控,包括网络、服务器系统、硬件、VMWARE虚拟平台、存储设备、数据库、中间件进行集中统一的故障监测,通过报警平台及时通知维护人员,帮助解38、决实际工作中业务系统故障的定位问题。2、实现对机房内设备的性能监控,包括网络、服务器系统、硬件、VMWARE虚拟平台、存储设备、数据库、中间件使用情况,通过设立阀值报警,提前发现问题,提前采取预防性措施,从而有效地保障业务系统运行的可靠性和稳定性。3、对应用系统进行运行状态监控,能够在应用系统进程出现异常时给出告警,解决维护人员落后用户发现故障的问题,将故障对用户的影响减少到最低。4、通过实施对计算机系统的监控,整合现有计算机系统成为一个稳定、安全的计算机资源体系,实现集中管理、远程控制、安全防护等目的,同时通过专业的管理报表为管理人员提供决策支持。5. 根据中心网络情况和目前SinoNetG39、ain能监测的网络设备、服务器、应用软件,我们根据Enterprise Manager 提供的业务管理视图功能可以为中心信息化系统各业务建立不同的业务监测视图。智能运维管理系统通过引入SLA 规则和业务视图定义,将不同类型的监测器获得的管理数据进行多角度多层面的综合分析,汇总出用户关心的整体运行状况;众多单体监测器监测到的各种微观管理信息将被汇总,映射为对服务和业务造成的影响和损失;同时为用户提供实用的配置工具,能够从业务管理要求出发,主动制定各种监测和管理的规则和指标,并最终落实到不同的监测器上。1.4.3 系统架构采用监控管理设备搭建成集设备、网络、应用和服务管理功能于一体的综合运行监控管40、理平台,它的设计遵循 FCAPS、TOM、eTOM、NGOSS等国际规范,及大型软件系统设计所必须满足的模块化以及多线程的基本要求。系统架构遵循以下原则: 本系统基于JAVA的MVC多层体系架构,符合行业标准协议,支持多种API,并可针对用户提供定制化开发; 支持部署在Windows/Linux/Unix等多种操作平台; 及时性:保证告警、性能、配置信息能及时采集,实现告警信息压缩、定位、关联、等级分类,采集周期可以自定义; 准确性:保证信息采集准确可靠,采集的数据能够真实有效地反映系统本身情况; 传输安全可靠:保证采集数据和故障事件信息的准确传输; 采集方式的多样性:数据采集能够提供多样化的41、采集手段,完成对原始数据的采集,如SNMP方式、TELNET/SSH、XML、日志、文件方式等。对于配置数据的采集还可以采用手工录入、批量文件导入等方式; 松耦合:数据采集不能对被管设备的稳定运行造成影响; 最少的资源占用:保证在被管理主机上运行采集程序时,无论是硬盘占用空间、内存占用空间、网络占用带宽,还是CPU使用率都保持最小; 告警信息具备分级功能,支持驱动第三方报警平台的方式包括:电子邮件,有声报警,短信等方式通知系统管理人员的功能。 平台高可靠性与扩展性:系统必须是平台级软件,能够实现统一运维管理平台功能,为未来接入更多的监控系统提供平台保障,同时应具备平台的高扩展性,能够灵活应对未42、来的业务容量的增长需求,对于基础设施厂商、产品、型号、指标上的管理进行灵活扩展。1. 典型应用一:在企业、政府纵向网络中的应用2. 典型应用二:在企业、政府内部局域网络中的应用3. 典型应用三:在大型网络中的应用4. 典型应用四:防火墙作为负载均衡器5. 典型应用无:防火墙接口备份1.4.4 系统设计为了解决中心大楼网络以及多业务管理带来的问题,我们配置有相应的网络管理系统,部署智能管理中心。内网与外网单独进行管理。我们采用统一的管理平台,并配置有管理平台、配置中心功能组件,网络管理具有拓扑、故障、性能、配置和图形化设备管理等功能,同时,采用B/S架构,更为方便的通过远程方式对网络的状态进行监43、控和维护。1.3.1.3.1.1.3.2.1.3.3.1.3.4.1.4.4.1 资源管理资源管理与拓扑管理作为整体共同为用户提供网络资源的管理。l 网络自动发现可以通过设置种子的简易方式、路由方式、ARP方式、IPSec VPN、网段方式等五种自动发现方式自学习网络资源及网络拓扑,自动识别包括:路由器、交换机、安全网关、存储设备、监控设备、无线设备、语音设备、打印机、UPS、服务器、PC在内的多种类型网络设备;多种自动发现方式自动识别多种设备类型l 网络手工管理可以手工添加、删除网络设备,可以批量导入、导出网络设备,批量配置Telnet、SNMP参数,以及批量校验Telnet参数等辅助功能;44、l 网络视图管理支持IP视图、设备视图、自定义视图、下级网络管理视图等多种管理视图,用户可以从不同角度实现整个网络的管理;l 网络设备的管理从任何一种网络视图入口,都可以实现对网络设备的管理,包括:支持对设备的管理/去管理、接口的管理/去管理、设备的详细信息显示和接口详细信息显示、设备和接口实时告警状态、设备和接口的实时性能状态、实时检测存在故障的设备等,用户可以方便的实现所有设备的管理;l 设备及业务管理系统的集成管理支持对H3C、CISCO、3COM等主要厂家设备的管理,支持手工添加设备厂商、设备系列及设备型号;支持设备面板管理的动态注册机制,实现与各厂家设备管理系统的有效集成;支持拓扑定45、位、ACL、VLAN、QoS等业务管理系统的集成,实现设备资源的统一管理;l 设备分组权限管理支持设备分组功能,通过对设备资源进行分组管理,系统管理员方便的分配其他管理员的管理权限,便于职责分离;1.4.4.2 拓扑管理拓扑管理从网络拓扑的解决直观的提供给用户对整个网络及网络设备资源的管理。l 拓扑自动发现可以自动发现网络拓扑结构,支持全网设备的统一拓扑视图,通过视图导航树提供视图间的快速导航。通过自动发现可以发现网络中的所有设备及网络结构(具体参见资源管理),并且可以将非SNMP设备发现出来,只要设备可以ping通即可。这样就可以将所有网络设备都列入其管理范围(只要设备IP可达)。同时支持自46、动的拓扑图呈现和自定义拓扑。自动拓扑可以自动将网络中的逻辑连接关系显示出来,同时可以保存为自定义拓扑图并可根据具体情况进行修改以便于网管员对整个网络设备的监控。支持对全网设备和连接定时轮询和状态刷新,实时了解整个网络的运行情况,并且刷新周期是可定制(刷新周期:607200秒),同时也支持对多个设备的刷新周期进行批量配置的功能。l 支持自定义拓扑传统的网络管理软件大多支持自动发现网络拓扑的功能,但是自动发现后的网络拓扑往往是很多设备图标的简单排放,不能突出重点设备和网络层次,使网络管理人员感觉无从下手。针对这种情况, 拓扑功能支持灵活的自定义功能,管理人员可以根据网络的实际组网情况和设备重要性的47、不同灵活定制网络拓扑,可对拓扑图进行增、删、改等编辑操作,使网络拓扑能够清晰地呈现整个企业的网络结构以及IT资源分布。支持灵活定制拓扑图,使网络拓扑更有重点和层次感。管理员可以按照关注设备不同,管理角度不同定义多种拓扑,并可以针对拓扑不同选择不同的背景图;管理员可以根据网络设备的重要性不同,链路速率不同采用合适的图标显示。例如:对于校园网,用户可以定制校园分布图、办公楼内网络分布图、宿舍楼内网络分布图等等。l 自动识别各种网络设备和主机的类型 可以自动识别H3C、华为、Cisco、3com等厂商的设备、Windows、Solaris的PC和工作站、其他SNMP设备和ping设备,并且以树形方式48、组织,以不同的图标显示区分。在拓扑图上更可进一步对设备的类型进行区分,如区分路由器、交换机、安全网关、存储设备、监控设备、无线设备、语音设备、打印机、UPS、服务器、PC等等。l 设备状态、连接状态、告警状态等信息在拓扑图上的直观显示 拓扑功能与故障管理和性能管理紧密融合,使拓扑图能够清晰地看到企业IT资源的状态,包括运行是否正常、网络带宽、接口连通、配置变化都能一目了然。多种颜色区分不同级别故障,根据节点图标颜色反映设备状态。l 拓扑能提供设备管理便捷入口 能够提供对设备管理的便捷入口,管理员只需通过右键点击拓扑图中的设备图标即可启动设备管理各项功能,实现对设备的面板管理等各项功能配置。1.49、4.4.3 故障(告警/事件)管理故障管理,即告警/事件管理是核心模块,是智能管理平台及其他业务组件统一的告警中心。如下图所示,以故障管理流程为引导,介绍故障管理能力:l 告警发现和上报告警中心可以按收各种告警源的告警事件,包括设备告警、本级网管站及下级网管站告警、网络性能监视告警、网络配置监视告警、网络流量异常监视告警、终端安全异常告警等;同时通过支持对设备定时轮询,实现通断告警、响应时间告警等,以告警事件的方式上报给告警中心。设备告警包括电源电压、设备温度、风扇等告警事件,设备冷启动、热启动、接口linkdown等重要告警事件,路由信息事件(OSPF,BGP)变化,热备份路由(HSRP)状50、态变化等告警事件,支持对H3C、CISCO、华为、3COM等多厂商设备告警的识别和解析。网管站告警指包括本级系统集群服务器的异常告警,包括CPU利用率、内存使用率、服务程序运行状态等以及下级系统上报的告警事件。网络性能监视包括CPU利用率,内存使用率,以及RMON告警的故障管理。网络配置监视告警包括设备软件版本、配置信息变更等告警事件,并通过智能配置中心组件实现配置文件定期检查,实现配置变更告警事件。网络流量异常监视告警通过网络流量分析组件实现网络中异常流量告警,包括对设备及接口异常流量、主机IP地址异常流量和应用异常流量的告警,支持二级阈值告警定义。终端安全异常告警通过端点准入防御组件实现对51、终端用户安全异常的告警,包括ARP攻击告警、终端异常流量告警及其他终端不安全告警;定期轮询告警指通过的资源管理模块对设备接口信息定时进行轮循,并及时上报通断告警、响应时间告警等告警事件。l 告警深度关联分析与统计告警中心根据告警脚本中的告警事件定义,接收并解析上报的告警事件。对接收到的告警事件进行深度关联分析,系统缺省支持重复事件阈值告警、闪断事件阈值告警、未知事件阈值告警、未管理设备告警阈值告警,并能在故障恢复时自动确认相关告警;同时用户可以根据自己的需要确定事件的告警规则,以适应网络管理需要。重复事件阈值告警:屏蔽重复接收到的相同事件,并可在达到阈值条件时产生新告警通知用户。闪断事件阈值告52、警:分析接收到的闪断事件,并可在达到阈值条件时产生新告警通知用户。未知事件阈值告警:屏蔽接收到的未知事件,并可在达到阈值条件时产生新告警通知用户。未管理设备告警阈值告警:屏蔽接收到的未管理设备事件,并可在达到阈值条件时产生新告警通知用户。自定义事件过滤规则:用户自定义的事件过滤规则,用户可指定在什么时间范围内、对什么样的告警进行过滤。系统预定义缺省支持各类深度分析后告警事件关联升级为告警的生成规则,同时,管理员可以自定义由告警事件升级为告警的规则,可从事件、事件关键字、事件源、时间范围四个方面进行规则定义,一旦定义事件升级为告警规则后,告警中心会根据定义的规则关联分析后生成不同级别的告警(告警53、共分成紧急、重要、次要、警告、事件5个级别;在浏览数据窗口,分别以红色、橙色、黄色、蓝色、灰色五种颜色进行显示),将管理员从繁多的告警事件中解脱出来,避免产生告警风暴,让管理员能专心关注告警的根源。l 实时告警 提供多种方式将告警通知给管理员,包括:实时远程告警:通过手机短信或Email邮件的方式,将告警及时通知管理员,实现远程网络的监控和管理;分类、声光告警板,按故障类别及等级实时告警,让管理员通过告警板不但及时知道告警产生,同时可以了解产生的告警的类别和等级:实时告警浏览和确认,通过告警首页对目前故障未排除的告警实时刷新并提供故障排除确认的入口:提供系统快照,实时报告网络、下级网络及设备的54、状态:通过拓扑实现报告网络及设备状态:l 故障解决 对各种故障警均提供“修复建议”,管理员可以参考修复建议对故障进行处理。在故障得到解决后,通过对告警的确认完成故障的恢复确认。l 固化经验 提供告警知识库。告警知识是用户在维护过程中的经验总结,将这些经验输入系统,下次再出现同样的故障时,可以作为参考。用户选中一条告警记录,系统根据用户选中的告警记录,从告警知识库中查询出该条告警记录的维护经验,供用户进行告警处理进行参考。用户将自己的日常处理经验以及业务信息及时写入数据库、更新告警知识库对以后的故障诊断与排除非常有益。1.4.4.4 性能管理 网管系统提供丰富的性能管理功能,同时以直观的方式显示55、给用户。例如:可以提供折线图、方图、饼图等多种显示方式并能生成相应的报表。通过性能任务的配置,可自动获得网络的各种当前性能数据,并支持设置性能的阈值,当性能超过阈值时,网络以告警的方式通知告警中心。l 支持At a Glance、TopN功能,用户能够对CPU利用率、流量等关键指标一目了然;l 提供各类常用性能指标的缺省采集模板;l 支持实时性能监视,支持二级阈值告警设置,当链路或端口的流量超过阈值,系统将会发送性能告警,使网络管理人员可以能够及时了解网络中的隐患,及时消除隐患。同时为故障定位提供手段;l 提供基于历史数据的分析,为用户扩容网络、及早发现网络隐患提供保障;l 支持饼图、折线图、56、曲线图等多种图形方式,直观地反映性能指标的变化趋势;提供灵活的组合条件统计和查询;性能报表支持导出Html、Txt、Excel、Pdf格式文件;1.4.4.5 图形化设备管理 支持对全系列IP产品进行设备管理,提供丰富的管理功能。通过面板管理,网络管理人员可以直观地看到设备、板卡、端口的工作状态,通过设备信息浏览监视,管理人员可以了解设备的运行情况,实时监视CPU利用率、端口利用率等重要信息。同时, 提供图形化的配置方式,使设备功能配置不再复杂。向用户提供了完善的网元管理功能,通过逼真的面板图片,直观地反映了设备运行情况。l通过面板图标直观地反映设备的框、架、槽、卡、风扇、CPU、端口等关键部57、件的运行状态;l 能够查看、设置设备端口状态;l 能够查看路由、VLAN等配置信息;l 能够查看端口流量、丢包率、错包率等关键统计数据;l 支持对交换机堆叠能力的管理;l 通过Ping、Traceroute等功能测试当前网络链路的健康状况;l 支持从设备列表、设备详细信息、拓扑等多个入口打开设备面板。1.4.4.6 集中配置管理 网络配置中心主要提供设备配置文件管理、设备升级管理及统一部署任务管理。l 设备配置库管理当网络规模较大时,网络管理员的配置工作将十分繁重,如果没有好的配置系统,管理员就只能手动进行配置下发及配置备份。这样就给管理员管理、维护网络带来一定的困难,尤其是当网络瘫痪时,大量58、设备配置需要恢复,导致维护成本大大增加。组件提供配置库管理功能,帮助管理员对设备配置文件形成基线库,并进行集中管理。设备配置库包括配置文件和配置片断,配置内容可带有参数,在部署时根据设备的差异设置不同的值。系统缺省提供常用的配置片断:提供一些常用的基本的配置片断,包括删除SNMP 团体字、添加只读SNMP 团体字、删除 NTP Server、增加 NTP Server、取消本地用户服务级别、取消本地用户服务、删除本地用户密码、删除本地用户、添加本地用户、取消DLDP、修改DLDP、使能DLDP、取消dot1x端口控制、取消dot1x等三十多种配置模板,可以对其进行复制、导出及部署:管理员可以从59、指定配置文件/片断导入到配置库中进行管理,也可以从指定设备上读取当前配置并导入到配置库中进行管理。除从设备导入、从文件导入配置库功能外,管理员可以查看、增加、复制、修改、删除、导出及部署指定的配置库中任何配置文件/片断。配置文件可部署到设备的启动配置或者运行配置;配置片断只能部署到设备的运行配置。当网络部署完毕,管理员可以通过配置库管理将设备的配置信息保存下来,并进行基线化,这样当设备配置变化或者需要更新配置时,管理员可以参照基线化的配置文件进行修改。l 设备软件库管理设备软件版本同设备配置文件一样,其管理方便性直接影响网络维护的工作量。同样提供了设备软件库管理功能,解决对设备软件版本统一管理60、,并进行基线化。设备软件的统一管理,包括普通软件、ONU软件、ONU算法等。设备软件库支持设备上各种业务的软件,从而实现设备软件的统一管理。管理员可以通过设备软件库查看、从文件导入、从设备导入、修改、删除、导出、部署等操作,实现对设备软件的有效管理。统一的配置向导和部署任务管理:(1)设备软件文件及配置文件通过统一配置向导进行管理,实现软件文件和配置文件的集中部署(2)通过部署任务集中管理,可以完成任务查看、修改、复制、删除、启动、挂起、恢复等各项操作,任务包括周期性任务、一次性任务和立即任务。设备软件文件和配置文件管理:(1) 管理员可以浏览设备的配置和软件信息,支持四个厂商的设备:H3C、61、 3COM、华为和MARCONI(2) 管理员可以查看设备当前的软件版本和软件库中最新可用的软件,更新设备的软件,从而方便的对设备软件进行升级(3) 管理员可以查看设备最新备份配置的时间,手工备份设备的配置文件,方便的对指定设备进行手工备份(4) 管理员可以查看设备是否进行自动备份,增加自动备份设备,设置自动备份设备和周期,方便的将指定设备加入自动备份中,设置自动备份的设备列表以及自动备份周期(5) 管理员可以查看设备最新的启动配置文件和运行配置文件,从而判断设备的配置是否发生变化(6) 管理员可以通过设备备份配置历史一览,对设备配置文件进行查看、基线化、修改、比较、删除、恢复等操作,配置文件62、包括三种版本:基线、普通、草稿。注:配置文件的基线版本只有两个(启动配置一个、运行配置一个),普通版本可升级为基线版本;基线和普通版本配置内容修改后只能另存为草稿版本。管理员可以比较任意两个配置文件的内容,方便的查看差异部分的内容。管理员可以通过创建一个恢复任务,恢复设备的某一历史配置或设备某一更新历史的升级前软件版本。1.4.5 系统优势1.3.5.1.4.5.1 B/S架构,使用与维护简单系统全部为B/S架构,界面统一,使用门槛低,容易上手且维护简单,可以大大提高系统管理员的工作效率,降低维护工作量。通过统一的Portal界面直观地整体展现主机、网络、存储设备、数据库、中间件和应用等运行情63、况。监控的主界面能直接显示全系统的拓扑图,简明的显示各个系统的运行情况,当某个子系统出现异常情况下,该系统对应的图标显示异常报警,点击该系统图标,可显示对应的报警信息、异常情况,并预留子定义报警接口,可根据用户自行开发配置专门的监控应用监控某些特殊异常。1.4.5.2 友好的用户界面,简单易用全中文管理界面,降低管理门槛。系统响应速度快,良好的操作效率,合理的界面布局,支持自定义样式、字典样式、主题样式等多种展现方法。可以根据客户要求实现定制开发,满足客户对综合监控系统的界面需求。系统有丰富的联机帮助,功能平台直观、易操作、维护简单,并提供知识库功能。可以提供多套原型界面进行需求分析,按照客户64、对综合监控系统的界面需求最终的监控界面方案由甲方选定。1.4.5.3 单一代理,资源占用少代理软件进行系统管理时,采用单一代理程序的工作方式,只需一个代理程序即可实现多种管理,而不需要每一个管理功能运行一个代理程序。这种单一代理程序的工作模式,减少了系统管理对服务器的资源占用。n Agent 采集方式对主机和标准应用系统进行监控时对被监控设备的资源消耗分析:在生产机上只安装一个Agent 代理软件。Agent是轻型代理,在初始安装后在操作系统上大约占用5M内存,一般CPU占用低于0.5%,CPU瞬间峰值小于5。对于双CPU 2.0 G Hz的Widnows 2003操作系统,只进行操作系统的监65、控CPU占用率峰值不高于0.5%,内存低于13M。如果运行所有数据库的监控(超过30个),CPU占用率不高于5%。由此可见,Agent采集方式对于系统资源的占用是很低的。对主机和标准应用系统进行监控时对网络带宽资源消耗分析:假设每个被监控设备需要采集的性能指标有50个:平均每次采集请求/应答流量约为 1 Kbyte,经过SSH压缩后,流量约为0.5Kbyte,每5分钟采集一次,则带宽需求为:“50 * 0.5K*8 / 300 = 0.67 Kbit/s”。由此可见,Agent对网络带宽的影响有限。n AgentLess 采集方式对主机和标准应用系统进行监控时对被监控设备的资源消耗分析:由于在66、被监控设备上无需安装任何Agent软件程序,而且采集都通过业界标准协议进行,因此对被监控端的性能消耗几乎可以忽略不计。对主机和标准应用系统进行监控时对网络带宽资源消耗分析:由于监控采取了业界标准协议进行,而且并非连续采集。因此,对被对网络带宽的影响计划可以忽略不计。1.4.5.4 灵活的权限控制提供灵活、有效的权限控制,支持分级、分权的用户管理,支持设置用户角色和用户组。为不同的人员角色和管理需要提供灵活多样的展现方式。除了能够展现所管理资源的物理视图,还可以针对用户的应用架构、业务组成等信息来建立逻辑管理视图。1.4.5.5 开放体系架构灵活的管理体系,可以方便的实现与第三方管理产品的集成和67、整合。系统提供了丰富的API、Web Service开放接口,可以完全满足开发和与其它系统集成的需求。同时,提供了针对第三方产品的适配器(Adapter)可以方便的实现与其它第三方管理产品的整合,将其它管理产品的数据纳入到中来。1.4.5.6 分布式体系架构SinoNetGain具有分布式体系结构,可以将管理功能靠近被管资源,减少管理服务器通过广域网对整个网络进行轮询的检查,防止由于管理给网络造成过多的负荷,保证正常应用的运行。1.4.5.7 安全管理系统充分考虑用户在安全方面的关切,采取众多措施来保证系统的安全性,包括:登录时间、登录用户失败次数限制。管理信息在各个组件之间传输时全部采用SS68、H加密保护。对数据库中的用户名、密码等敏感信息,全部采用不可反解的MD5加密存储。采用严格的权限控制机制,细致划分了每个用户的管理范围和权限。1.4.5.8 良好的扩展性系统的模块化结构,保证了管理平台本身具有良好的功能扩展性。分布式部属架构,保证了管理平台管理节点的良好可扩展性。可以有效地容纳和支持IT规模的不断扩大和复杂、业务种类的增多。1.4.5.9 模块化结构全部采用模块化结构,从产品的功能,到整个产品的架构,到代理软件的架构。保证了具有良好的扩展性和极大的伸缩性。第1章.第2章.2.1.2.2.2.3.2.3.1.2.3.2.2.3.3.2.3.4.2.3.5.1.4.6 系统功能169、.3.6.1.4.6.1 资源管理通过SNMP和内部Agent接口自动发现开放了SNMP接口或者安装了网络节点(如路由器,交换机,服务器等)。并通过图形的方式自动生成IP拓扑视图;根据其发现的设备类型,通过SMNP Get方式采集被监测网络节点的配置信息。系统将在“设备视图”中创建相应的自动发现设备对象。这些设备对象同时成为“资源管理”的对象。安装采用Java编写绿色免安装方式实现从而减少被监控对象的影响。Agent的部署采用单一模式,即当主机服务器上的被监测应用项目发生变更或增加时,无需更换或添加额外Agent程序。在执行自动发现操作时,用户可以根据管理的需要确定资源发现的范围,如指定相关的70、IP网段或者一个具体的IP地址,从而提高自动发现过程的效率,实现有目标的管理。能够被系统自动发现的信息除了IP地址,操作系统,设备型号,软硬件配置列表等基本信息外,还包括所支持的监测器,自动扫描设备上的可监测项目,包括网络接口、系统性能(CPU、内存等)、数据库、Web服务和标准TCP/UDP端口等,自动创建默认的监测器,并自动开始监测其可用性和健康性。 提供丰富的资源查询角度。可以按照资源的网络结构,业务视图结构,以及资源的设备类型,服务类型,IP地址等不同方式从系统中查询任意被管理对象,能够满足不同管理者的需要。同时可以查询各类监测器和设备的汇总信息。提供了独特的业务视图功能,可以建立系统71、业务系统到系统网络IT元素的纵向关联,建立从业务到海量监测数据的层次关联“地图”,实现从业务角度管理IT架构的根本目标。通过业务系统的体系架构展现业务系统全面详细的运行状态,定制业务拓扑视图,直观、清晰地监控业务系统的运行情况。可以将展示视图分成多层级视图,分别展示不同的层次和范围的系统运行状态。下面以网络办公业务构成为例来说明。从下图我们可以看到:INF 业务模块是由网络层、应用层和操作系统按一定架构层次组合而成。网络设备、链路、操作系统、数据库、Web Server、中间件、OA 业务系统等所有环节共同协作才能够用户提供正常的INF服务。这些层次中任何一个IT元素是否稳定正常运行,都将直接72、影响网上办公业务的服务水平。要准确监测网上办公业务的运行状态必须全面关联各个层次的监测信息。传统的IT管理产品,都是分层、分产品对这些基础IT元素进行管理,这将导致用户不能从IT业务的角度出发,以IT业务的视点“纵观全局、统筹帷幄”。为用户提供的业务视图,将用户IT业务中所有涉及到的相关IT基础元素,进行分层,按IT业务层次进行梳理、关联。从下面左图中的杂乱无序的设备视图,按用户头脑中的业务逻辑层次视图,实现下面右图的业务视图,只需简简单单,拖、拉、拽,即可轻松实现。这样简单的操作,在用户业务系统层次发生变化后,用户在不需要厂商的支持下,就可以对业务视图的层次、结构的关联和自行调整。职能运维管73、理利用业务视图功能,可以实现对还引入SLA 规则和业务视图定义,将众多单体监测器收集到的各种微观管理信息汇总起来并映射为对相应服务和业务造成的影响和损失。将不同类型监测器获得的管理数据进行多角度多层面的综合分析,汇总出中心信息化系统关心的整体运行状况。1.4.6.2 性能监测智能运维管理能够集成包括网络资源、系统资源、应用服务到业务系统的各个层次的完整IT架构管理,全面综合的分析各个IT对象的可用性和性能数据,并最终通过SLA机制和业务视图科学的映射出用户业务的可用性和健康性。智能运维管理通过对监测器的参数进行相应的配置,可实时主动的监测IT架构中对象的各项性能指标。智能运维管理可以灵活配置性74、能监测的轮询间隔和预警的阀值。当所监测的指标违反设定的阀值时,监测器发送预警事件。智能运维管理的监测器应该具备丰富的扩展机制,能够以脚本调用(UNIX SSH,Windows WMI)、文件、http、socket等多种接口方式监测一些关键性能数据。智能运维管理在监测器配置页面中提供实时监测工具,用于监测器的实时测试和调试。实时监测工具应支持最快5秒种采集一次数据。1.4.6.3 面向业务可用性的监测用户IT架构中从网络、系统、应用到业务的每个环节,每个节点、每个应用的性能好坏都直接影响到网络和业务的正常运行。所以,采集孤立IT元素的数据并不是智能运维的目的,而是保障中心信息化系统系统业务的可75、用性。正是基于前面介绍的智能运维管理丰富灵活的监测器机制,使得智能运维能够集成包括网络、系统、应用到业务的各个层次的完整IT架构管理。而正是具备这样的统一性和完整性,才可能全面综合的分析各个IT元素的可用性和性能数据,并最终通过SLA机制和业务视图科学的映射出用户业务的可用性和健康性。1.4.6.4 业务视图管理、从基础到业务,一步到位智能运维系统管理多个IT业务系统错综复杂,如何整合和重用运维管理资源,一方面建立统一的管理平台,又能同时满足“以基础架构层次划分”、“以部门及分布区域划分”、“以业务系统纵向关联划分”等多个纬度的有序管理需求? 本系统监控管理平台可以通过独特的业务视图功能,建立76、各类管理目标到海量被监测设备和系统的纵向关联,建立从业务到海量监测数据的层次关联“地图”,为管理者展现多角度多层次的管理渠道。并结合“用户和角色管理”模块,实现不同用户从不同角度不同范围完成监控和管理。独特的业务视图工作原理本系统监控管理平台通过引入SLA 规则和业务视图定义,将众多单体监测器监测到的各种微观管理信息将被汇总,映射为对相应服务和业务造成的影响和损失。将不同类型的监测器获得的管理数据进行多角度多层面的综合分析,汇总中心信息化系统管理关心的整体运行状况。 下面举例说明本系统监控管理平台如何通过独特的“业务视图”功能,建立“从业务通向IT架构的地图”。下图为A、B、C三个业务相互交错77、的IT环境,首先对所有的IT基础架构进行全面的采集监测;此时任何一个设备或软件告警,系统并不能智能的报告对那个业务有影响。 下一步在业务视图中分别建立三个业务视图,业务视图中将每个业务纵向关联的资源和监测点关联在一起,建立业务到资源的多层次映射关系。同样的监测数据,可以映射到多个角度的不同业务视图。如上图所示,当共享资源数据库A发出报警时,系统中被关联两个业务A和B会发出业务异常的告警。同样,当业务A告警时,很容易从业务管理视图中逐层定位到根源故障点的位置。智能运维管理的IT 架构中,无论是网络故障、服务器系统故障、应用系统故障都将影响整个业务的正常运行。智能运维管理系统提供的业务视图配置功能78、,使客户的各类部门、各级管理人员都能够根据业务管理模式建立适合多角度的IT 架构管理模型,在第一时间了解IT故障对业务的影响,并在业务视图中快速定位故障所在环节。动态配置的多纬管理地图基于上述机制,系统监控管理平台可以通过业务视图配置界面,为客户配置多种管理纬度的管理视图。比如,客户业务的管理视图可以从“业务种类”和“分局”两个层面进行管理。系统监控管理平台为客户同时提供多种不同的业务层次树形视图。任何一个监测点发生的告警都能够通过各个“地图”中建立的关联关系逐层上传,同时直观的反应在各个层次和各个部门的管理视图中。能够灵活扩展新业务视图本系统为用户提供了十分方便的定制业务视图功能,从以设备为79、索引的设备视图实现为用户自己的业务视图,只需要“简简单单,拖、拉、拽”,就能够完成。 业务告警& SLA报表基于上述业务视图,系统能够直观报告由于哪个IT元素出现问题,影响IT业务系统正常运行。系统发出传统的设备原始数据告警的同时,还能够向高级管理层报告“业务告警”,指出是哪个业务系统出现异常,是由哪些IT元素引起的。基于上述业务视图,系统还能够生成面向业务、部门的SLA(服务质量水平报告)。比如,某月各业务系统的故障率、总故障时间、总有效运行时间等等。 报告使管理者直观了解业务性能瓶颈和故障高发业务,为系统升级和扩容提供量化的依据。 1.4.6.5 检测器设置智能运维管理可以对网络资源中任何80、一台设备或系统进行主动的探测,以此获取设备的可用性和性能数据。为了实时主动的监测IT架构中的各项性能指标,管理员需要对监测器的参数进行相应的配置。即通过界面配置所需监测器的参数和性能指标以及主动轮循的时间间隔等,并激活监测器的自动采集。智能运维管理 在监测器配置页面中提供实时监测工具,用于监测器的实时测试和调试。实时监测工具每五秒采集一次数据,可查看所监测性能数据的动态曲线,作为最终配置监测器参数和性能指标的参考。同时,管理员可以通过图形界面灵活配置性能监测的轮询间隔和预警的阀值。当所监测的指标违反设定的阀值时,监测器会向智能运维管理事件控制台发送预警事件。下表是智能运维管理默认支持的部分监测81、器类型,每个用户依据不同环境选择不同功能模块,更多详细信息请参考最新产品文档。网络监测器系统监测器数据库、应用监测器硬件监测可扩展的通用监测器Checkpoin防火墙平均负载数据库(JDBC)IBM服务器硬件监测自定义 Shell 脚本监测器Topsec防火墙磁盘空间Informix数据库DELL服务器硬件监测自定义 WMI 脚本监测器Nokia防火墙CPUMYSQL 数据库HP服务器硬件监测自定义 SNMP 监测器NetScreen防火墙日志文件MS-SQL数据库SUN服务器硬件监测自定义 TCP 端口监测器Cisco设备内存使用Oracle 数据库EMC存储设备监测。Nortel设备系统脚82、本Sybase 数据库NetApps存储设备监测H3C设备远程PING DB2数据库HDS存储设备监测RadWare设备IO状态TuxedoIBM存储设备监测F5 Big-IP设备NetStatWebLogicHP存储设备监测Juniper设备Paging SpaceWebsphere。NOKIA设备交换空间JBOSSVeritas设备NT服务Resin TCP端口虚拟内存ApacheRADIUS文件MS-IISPING 系统进程LDAPInterface/IP端口文件目录IBM CICSTimeWin RegistryIBM GMD DeviceDayTimeAIX系统IBM HACMPFI83、NGER。IBM TSMCharGenLotus Dnomino serverWHOISMSExchange serverEcho。1.4.6.6 检测器采集方式智能运维管理系统支持的监测器列表中,不同的监测器类型可能采用不同的监测方式,有些监测器也具备两种采集方式。如采用SNMP采集方式可以支持所有的网络设备以及支持SNMP协议的主机、应用系统、数据库等;采用Agent方式可以支持大多数主流操作系统,同时Agent也支持大量的应用软件监测;而对互联网服务,如URL、DNS、TCP端口、CharGen 等采用的特殊协议进行数据采集;对数据库都支持JDBC的数据采集方式。为了减少对被监控对象的影84、响,智能运维管理系统的Agent的安装方式采用绿色免安装方式实现。Agent的部署采用单一模式,当主机服务器上的被监测应用项目发生变更或增加时,无需更换或再添加额外Agent程序。下面简要说明SNMP数据采集方式和Agent采集方式的区别:建议采用多种监测方式相互补充建议使用SNMP方式进行监测的有: 各个网络设备,包括:Cisco网络设备、华为设备、RADWARE设备、Juniper设备、F5 Big-IP、Nortel、NOKIA设备、天融信防火墙、NetScreen防火墙、Checkpoint防火墙等;部分中心信息化系统应用系统,如Tuxedo、Oralce 、IIS、MS SQLSer85、ver数据库、IBM HACMP、MS ExChange Server、WebLogic、Lotus Domino Server等。建议用Agent或SSH方式进行监测的有:UNIX操作系统性能监测、Informix数据库、Sybase数据库、MySQL数据库、DB2数据库、Resin服务器等。为充分保障业务系统的安全和性能,本方案建议对核心的关键业务服务器如不便于安装Agent,可采用SSH方式监测;对于一般服务器采用Agent方式监测。既可以使用SNMP也可以使用Agent进行监测的有:Windows主机服务器及UNIX主机服务器(UNIX操作系统建议使用Agent方式进行监测)、Syba86、se数据库等。使用其他方式如HTTP、JDBC等进行监测的有:各种互联网服务、数据库JDBC监测、WebSphere、JBoss、Apache、LDAP等。这些被管资源的监测可以不需要安装Agent。采集的内容不同对于既可以使用SNMP也可以使用Agent方式进行监测的被管资源,使用这两种方式监测的内容所有不同:a)如对于操作系统的监测,使用SNMP可以获得CPU使用率、Memory使用情况、磁盘使用情况、NT进程等信息,而使用Agent除了获得CPU、Memory、磁盘等基本信息外,还可以获得平均负载、IO状态、NetStat结果、日志监测、虚拟内存、文件和目录的监测以及NT注册表监测等信息87、,使用Agent还可以支持自定义脚本监测器,实现对私有业务系统的监测。b)对Oralce数据库,使用SNMP和Agent方式也将获得不同的监测内容,具体见SinoNetGain监测器手册。u通讯协议不同a)使用SNMP进行数据采集,可以支持SNMP V1,V2和V3多个版本,其中V3时加密传输。b)Agent的协议内容是私有协议,而且支持SSL加密传输。c)实现方式不同。d)只要支持SNMP协议的设备或应用系统,原则上都可以用SNMP方式进行数据采集,SNMP需要在被管资源安装SNMP代理并配置SNMP访问权限。e)Agent使用加密的TCP/IP协议进行传输,Agent只是运行于操作系统之上88、负责通讯的程序,对系统影响很小监测器的时间间隔对于所有智能运维管理的监测器,用户都可自行调整每个监测器的时间间隔,支持采样范围是最少5秒的取值采样,智能运维管理提供后台定时任务自动更新被管理设备的资源信息,自动更新的时间间隔范围可以是1周1个月。建议用户根据实际需求或由我方依据项目实施经验,进行调整。监测器的阈值设置性能数据反映了系统的运行状况,是判别被管资源运行是否正常的关键数据。性能数据一旦超出预先设定的阈值时,系统将触发一个告警,该告警称为性能告警。系统应能提供设定/查询/修改/删除性能阈值的工具,可设多个阈值进行分级告警。系统也应能设置性能数据的取样时间间隔。支持对指定类型的监测器配置89、参数的统一分发,修正和更新。告警的内容应能比较全面地描述该性能数据超出阈值的情况,方便分析、排除故障。图:监测器阈值设置和轮巡间隔调整图:批量修改监测器1.4.6.7 对主机操作系统的监控对各种操作系统(Windows、Linux、Solaris、HP-UX、AIX、Sco unix、Tur64、)基本性能指标的监测。如设备硬件故障、 CPU 性能相关参数、系统iostat、系统内存性能相关管理参数、系统逻辑及物理磁盘性能相关管理参数、网卡、交换空间、文件系统、系统内核、进程、打印队列、用户对话、系统平均负载、系统vmstat 等,完全可以满足系统的监控和管理的需求。具体监测指标如下:a) A90、IX主机监控 AIX主机硬件监控:通过errlog监控硬件故障情况。 CPU监控:整个CPU占用率和按单个CPU计算占用率,USER、SYS、Idle、Wait I/O的CPU占用率、CPU 空闲率、运行状态的进程数、Block状态的进程数。 内存监控:已用物理内存数量、活动虚拟页面数、占用的物理内存数量、空闲的物理内存数量、可用虚拟内存大小及百分比、页面写入和写出的情况(包括pgspin及pgspout,pagein及pageout)、系统交换页面空间大小。 文件系统使用状况的监控:VG文件系统大小和使用百分比、文件系统节点(i-node)利用率、能监控文件系统和I-node增长是否过快以及91、VG,PV,LV状态。 磁盘性能监控:平均磁盘请求队列监控、未使用空间、使用率、等待进程数量、磁盘IO繁忙率、磁盘单位时间的IO总流量、磁盘读操作的速率、磁盘写操作的速率。 进程监控:前十名最高的CPU利用率的进程、耗用内存最大的十个进程、进程使用I/O最多的十个进程、进程相关信息等等。 文件监控:监控重要文件的名称、文件大小、文件的类型、文件所在的路径名、文件和目录的访问权限、链接名、拥有者、所属组信息,以及文件最近被访问时间,上次修改时间等。 网络监控:主机连通性、网卡流量、网络端口状态和网络连接状态。 用户监控:对当前登陆用户的监控。 Cluster状态监控:监控Hacmp运行状态。 主92、机配置情况的监控:主机名、CPU个数、CPU主频、操作系统名称、操作系统版本。 数据分析:提供实时数据和历史数据的查看、分析和统计,并能生成性能监控历史分析图和预测分析。 脚本监控:支持脚本监控方式放便以后扩展监控指标。 图:对AIX服务器的监测b) HP-UX主机监控 HP-UX主机硬件故障的监控。 CPU监控:整个CPU占用率和按单个CPU计算占用率,USER、SYS、Idle、Wait I/O的CPU占用率、CPU 空闲率、运行状态的进程数、Block状态的进程数。 内存监控:已用物理内存数量、可用虚拟内存大小及百分比、页面写入和写出的情况(包括pgspin及pgspout,pagein93、及pageout)、系统交换页面空间大小。 文件系统使用状况的监控:VG文件系统大小和使用百分比、文件系统节点(i-node)利用率、能监控文件系统和I-node增长是否过快以及VG,PV,LV状态。 磁盘性能监控:平均磁盘请求队列监控,平均磁盘访问等待时间监控,磁盘数据传输时间百分比。 进程监控:前十名最高的CPU利用率的进程、耗用内存最大的十个进程、进程使用I/O最多的十个进程、进程相关信息等。 文件监控:监控重要文件的名称、文件大小、文件的类型、文件所在的路径名、文件和目录的访问权限、链接名、拥有者、所属组信息,以及文件最近被访问时间,上次修改时间等。 网络监控:主机连通性、网卡流量、网94、络端口状态和网络连接状态。 用户监控:对当前登陆用户的监控。 Cluster状态监控:监控MC运行状态。 主机配置情况的监控:硬件制造商、硬件型号、主机名、主机序列号、CPU个数、CPU主频、操作系统名称、操作系统版本。 数据分析:提供实时数据和历史数据的查看、分析和统计,并能生成性能监控历史分析图和预测分析。 脚本监控:支持脚本监控方式方便以后扩展监控指标。 图:对HP-UX服务器的监测c) Redhat Linux主机监控 硬件监控:对Linux主机硬件故障的监控。 CPU监控:整个CPU占用率和按单个CPU计算占用率,USER、SYS、Idle、Wait I/O的CPU占用率。 内存监控95、:已用物理内存数量、可用虚拟内存大小及百分比、页面写入和写出的情况(包括pgspin及pgspout,pagein及pageout)、系统交换页面空间大小。 文件系统使用状况的监控:VG文件系统大小和使用百分比、文件系统节点(i-node)利用率、能监控文件系统和I-node增长是否过快以及VG,PV,LV状态。 磁盘性能监控:平均磁盘请求队列监控。 进程监控:前十名最高的CPU利用率的进程、耗用内存最大的十个进程、进程使用I/O最多的十个进程、进程相关信息等。 文件监控:监控重要文件的名称、文件大小、文件的类型、文件所在的路径名、文件和目录的访问权限、链接名、拥有者、所属组信息,以及文件最近96、被访问时间,上次修改时间等。 网络监控:主机连通性、网卡流量、网络端口状态和网络连接状态。 用户监控:对当前登陆用户的监控。 主机配置情况监控:主机名、CPU个数、CPU主频、操作系统名称、操作系统版本。 数据分析:提供实时数据和历史数据的查看、分析和统计,并能生成性能监控历史分析图和预测分析。脚本监控:支持脚本监控方式方便以后扩展监控指标。 图:对Linux服务器的监测d) Sco Unix主机监控 硬件故障监控:对Sco Unix主机硬件故障的监控。 CPU监控:整个CPU占用率和按单个CPU计算占用率,USER、SYS、Idle、Wait I/O的CPU占用率。 内存监控:已用物理内存数97、量、可用虚拟内存大小及百分比、页面写入和写出的情况(包括pgspin及pgspout,pagein及pageout)、系统交换页面空间大小。 磁盘性能监控:平均磁盘请求队列监控。 进程监控:前十名最高的CPU利用率的进程、耗用内存最大的十个进程、进程使用I/O最多的十个进程、进程相关信息等。 文件监控:监控重要文件的名称、文件大小、文件的类型、文件所在的路径名、文件和目录的访问权限、链接名、拥有者、所属组信息,以及文件最近被访问时间,上次修改时间等。 网络监控:主机连通性、网卡流量、网络端口状态和网络连接状态。 用户监控:对当前登陆用户的监控。 主机配置情况的监控:硬件制造商、硬件型号、主机名98、主机序列号、CPU个数、CPU主频、操作系统名称、操作系统版本。 数据分析:提供实时数据和历史数据的查看、分析和统计,并能生成性能监控历史分析图和预测分析。 脚本监控:支持脚本监控方式方便以后扩展监控指标。 图:对Sco UNIX服务器的监测e) Window主机监控 硬件故障监控:对Window主机硬件故障的监控。 系统状况的监控:系统启机时间、虚拟内存总量、等待处理器的线程个数、文件读速率、文件写速率、CPU用户时间、CPU繁忙时间、CPU Privileged时间。 CPU监控:多CPU监控,每个CPU要求监控处理器名、CPU的privileged使用率、CPU的系统使用率、CPU的用99、户使用率、CPU的Interrupts使用率、Interrupts速率。 内存监控:空闲内存空间、Cache内存总量、页面错误率、页面读操作速率、页面写操作速率、页面换进速率、页面换出速率。 物理磁盘监控:磁盘读操作百分比、磁盘写操作百分比、磁盘繁忙百分比、磁盘请求队列、磁盘读操作速率、磁盘写操作速率。 辑逻磁盘监控:磁盘读操作百分比、磁盘写操作百分比、磁盘读操作速率、磁盘写操作速率、磁盘请求队列、剩余空间百分比、空闲空间、逻辑磁盘容量。 进程监控:前十名最高的CPU利用率的进程、耗用内存最大的十个进程、进程使用I/O最多的十个进程、进程相关信息等。 服务监控:运行服务的用户名、服务名、服务的100、状态、服务的执行程序路径。 文件监控:监控目录文件名、监控文件名、文件大小变化与否、文件操作等。 网络监控:主机连通性、网卡流量、网络端口状态和网络连接状态。 用户监控:对当前登陆用户的监控。 主机配置情况的监控:硬件制造商、硬件型号、主机名、主机序列号、CPU个数、CPU主频、操作系统名称、操作系统版本。数据分析:提供实时数据和历史数据的查看、分析和统计,并能生成性能监控历史分析图和预测分析。 图:对Windows服务器的监测f) VMWARE虚拟平台监控 ESX Server主机的连通性和硬件故障监控。 集群状态的监控。 虚拟中心事件的监控。 虚拟机状态和配置情况的监控。 ESX Serv101、er主机的性能监控。 图:对Vmware的监测1.4.6.8 对服务器硬件的监控SinoNetGain能够对服务器上面的CPU、内存、磁盘阵列卡、物理磁盘、逻辑磁盘、阵列卡电池、主板CMOS电池、网卡、远程管理卡、电源、风扇、温度、电压和序列号等硬件状态、配置等信息做最全面的监测管理 图:服务器硬件监测 图:服务器硬件监测1.4.6.9 对数据库的监控智能运维管理通过JDBC、Agent、SNMP或SSH方式,支持对AIX、HPUX、SCO、Linux和Windows平台上的Oracle、SYBAS、DB2、SQLServer、Informix、MySQL等多个版本的主流数据库运行情况进行监控102、报警以及自动处理。能够完成如下功能: 监控数据库实例运行性能状况,包括数据库的设备文件、存储空间、表空间、日志的使用情况、用户联结、数据缓存失误率、CPU使用状态、DISK IO状况、死锁个数、表空间容量利用情况、Cache命中率、数据库进程运行情况、数据库进程所占用内存空间、SQL的执行效率等 具有用户级监控的能力,可以对指定用户进行监控; 同一监控进程可以对数据库多个实例进行监控,减少对主机资源的消耗; 监控数据库中用户对数据库实例的访问,能够显示当前数据库服务器的活动状态,包括查询、连接的运行情况及用户自定义脚本的执行情况; 监控当前提交的SQL语句,可对数据库的非法SQL指令进行监控103、和记录,防止非法用户利用应用的漏洞对数据库进行攻击; 监控数据库的日志文件,发现数据库SQL的错误和数据库本身的一些错误; 实现监控对象的自定义,用户可以自行添加监测参数,设置参数报警值,并能够自动执行恢复操作。当数据库某个性能和资源参数达到阀值时,系统能够自动发出警告和错误信息,并将警告或错误信息发送到控制台,并执行预定义的操作(如寻呼管理人员、调用命令和程序等)进行声、光和远程报警,以便数据库管理员及时采取措施; 具有扩展功能,提供编程接口,可以通过编写SQL脚本、定义响应动作等对告警事件进行响应,实现对数据库的自动控制; 能够记录历史数据,能够自动生成直观、易懂的性能报表,历史/趋势图表104、等,管理员可以通过对报表的分析,得出正确结论以提高性能的时机与方式。具体数据库监控得详细指标如下:a) Oracle数据库 实时监控Oracle服务器实例运行状态,包括实例的状态、监听器的状态,实例所使用的CPU百分比,连续运行时间等。 对表空间的监控,包括所有表空间的表空间名、表空间大小、剩余空间、表空间的空闲百分比、表空间状态等,能监控表空间是否增长过快。 SGA使用情况的监控。 实时监控Oracle Cache,包括数据从cache里移到硬盘的次数、Cache数据读取请求、Cache请求成功率、Cache 请求miss次数、Library Cache访问次数、Library Cache打105、中率、Redo latches当前读取次数、Redo latches当前miss次数。 事物监控,包括事务数/秒、事物回滚率等。 对Redo log的监控,包括Achchived状态、日志中最小的系统变化数、First change time、日志组编号、日志状态。 对锁的监控,包括当前锁的数量和死锁数量等。 对SQL的监控,包括SQL解析次数/秒等。 对Session的监控,包括Active的session数、用Dedicated连接的session数、Inactive的session数、Killed的session个数、Session总数、等待锁的session数、允许的最大session106、数。 对Oracle进程的监控,包括Oracle进程所占用的CPU时间、Oracle进程所分配的内存数量、最大并发进程数、Oracle占用的CPU百分比、Oracle应用进程总数。 对数据库告警日志文件Alert log的错误信息分类报警。 图:Oracle数据库监测b) Informix数据库 实时监控服务器状态是否正常,包括服务器的状态、实例所使用的CPU百分比、服务器实例运行时间。 数据库空间类型、镜像状态、恢复状态、备份状态、混杂状态、备份级别、大包数量、空间分配状态、已用空间、空间使用率 监控逻辑日志使用率:日志使用率过高时告警。 数据库空间的监控:监控数据库空间使用率。 数据库日志107、文件的监控:对数据库错误信息分类告警。 数据库性能的监控:数据库内锁的总量、死锁和timeout个数、Data Cache命中率。 Session的监控:Active的session数、Inactive的session数、Killed的session个数、Session总数、允许的最大session数。c) Sybase数据库 服务器状态监控:实时监控服务器状态是否正常。 数据库空间的监控:监控数据库空间使用率、数据库日志空间使用率、区段空间使用率。 数据库性能的监控:数据库内锁的总量、死锁和timeout个数、Data Cache命中率。 数据库日志文件的监控:数据库错误信息分类告警。 Se108、ssion的监控:Active的session数、用Dedicated连接的session数、Inactive的session数、Killed的session个数、Session总数、等待锁的session数、允许的最大session数。d) Sqlserver数据库 数据库状态:实时监控Sql Server状态。 数据库空间的监控:监控数据库空间使用率、数据库日志空间使用率。 MS-SQL Access Methods、MS-SQL Buffer、MS-SQL Cache Usage、MS-SQL Latches、MS-SQL Locks 数据库性能的监控:数据库内锁的总量、死锁和timeo109、ut个数、Data Cache命中率。 数据库日志文件的监控:对数据库错误信息分类告警。 Session的监控。e) DB2数据库 对DB2实例运行状态及数据库性能参数、及主要配置信息进行监控。 DB2 Bufferpool:缓冲池总大小、读取物理数据、物理页面读状态、读取逻辑数据、逻辑页面读状态、写数据、写索引、总读取时间、总写入时间、缓冲池使用率 日志监控:监控数据库日志(包括归档日志)使用情况;日志文件如db2diag.log等日志文件的错误信息分类报警。 表空间监控:数据库表空间使用状况,及备份情况。 锁监控:锁等待、锁超时、平均锁等待时间、死锁状况。 应用连接状况。 缓冲池命中率及各110、种活动(如数据逻辑读、数据物理读、索引逻辑读、索引物理读、缓冲池总计;异步和同步I/O活动属性,如缓冲池异步数据读、缓冲池异步数据写、缓冲池同步数据读、缓冲池同步数据写)。 数据库排序连接溢出状况,应用package及catalog缓存命中率、catalog缓存溢出、排序溢出、SQL语句执行时间长的前十位。 Sessions监控:监控实例内的所有sessions信息,报告总session数量;最大session数量和等待锁的session数量等等;具体监控内容有:活动session数量;同时间内实例可支持活动的session总数;非活动session数量;已活动的session百分比;等待锁的111、session总数;使用共享进程的session数量;实例内总session数量等信息。1.4.6.10 对中间件的监控智能运维管理提供多种模块用于对中间件系统的监控。通过配置相应的模块,可以对中心信息化系统目前使用的中间件产品Tuxedo、Weblogic、Websphere、Tomcat、CICS、IIS和MQ进行监控,主要有以下功能: 监控每台应用服务器的运行情况,收集各部件的性能数据和测量应用响应时间,包括中间件服务器端的主要进程,应用服务器占用CPU情况、占用内存情况、服务器端每秒请求数、每秒Transaction数、并发的连接数、Sockets数、宗教以数、退出交易数、提交交易数、112、客户端的请求数、队列信息等; 通过Java虚拟机参数精确测量中间件服务器的性能,并能测量连接响应时间和HTTP页面下载时间; 监控JSP/SERVERLET最大执行时间,平均执行时间,重新加载累计值,重新加载累计值比率等; 监控EJB的事务提交、回滚、事务命中等; 监控连接池的当前活动、等待回滚、活动书、等待连接最高数、等待描述最高值等; 通过字符串匹配方式监控日志,并查找关键事件; 提供多种报警方式,如短信、E-mail、声音、发光、拨号语音等。用户可设定报警条件; 自动生成直观、易懂的性能报表。各中间件具体监测指标如下:Tuxedo监控 监控Tuxedo运行状态:中间件的健康健康状态,CP113、U和内存消耗等信息。 性能监控:活动事务数、队列数、每秒消息请求数、每秒消息发送数、事务回滚数、事务回滚率、交易失败数、交易失败率。 日志监控:对ulog日志监控,对错误信息分类报警。 Tuxedo Client:Tuxedo状态、Num_tpconnects状态、Num_tpdequeue状态、Num_tpenqueue状态、Num_tppost状态、num_tpcall状态、Num_tpsubscribe状态、Num_initiated_trans状态、Num_aborted_trans状态、Num_committed_trans状态 Tuxedo WSHWeblogic监控 Weblog114、ic运行状态监控:应用服务器的健康状态、JDBC的健康状态、JMS的健康状态、Web container的健康状态。 WebLogic JTA:Committed状态、Hueristics状态、Rollbacks状态、Rollback resources状态 Rollback apps状态、Rollback systems状态、Rollback timeouts状态、Seconds Active状态 重要性能数据:JVM内存使用及可用空间、 CPU消耗等信息。 GC的监控:最近一次GC循环后的堆空闲数、一次间隔中垃圾回收总的空闲数、当前JVM进程ID、GC活动实时时间百分比。 JMS监控:每个115、请求使用JMS的平均时间、从队列浏览的消息数、每秒从 JMS 队列浏览的消息的数目、发送到队列的发布请求数、每秒发布到 JMS 的消息的数目、接收队列的消息数、每秒接收队列的消息数、放入队列的消息数、每秒放入队列的消息数、消息管理器的类型、访问队列所花费的总时间等信息。 JDBC数据库连接池的监控:应用ID号、连接池大小、平均使用时间、平均等待时间、等待连接的平均并发进程数、已分配的连接数、正在用于连接池的Managed Connection对象数、创建的连接数、关闭的连接数、所有连接的平均使用百分比、正在使用的池的百分率、使用连接的平均时间(分配和返回连接的时间差)、池中的连接超时数等信息。116、 JMS会话的监控:连接的名称、该会话的当前使用者数目、会话是否已处理等信息。 对请求分析的监控:平均请求响应时间、时间间隔期间请求的错误率、平均请求完成率等信息。 应用服务器日志监控:对错误信息分类告警。Websphere监控 Websphere运行状态:应用服务器列表及当前状态、进程号、配置路径、JVM内存使用及可用空间、平台page状况、平台CPU消耗等信息。 JVM GC次数及频率、当前使用的堆容量、当前可用的堆容量、被GC释放的堆容量等信息。 Websphere Bean:建立、移动、活动状态、缓慢处理、示例、删除、加载、存储、计数准备、并发事件、方法调用总量、方法使用平均数、平均建117、立时间、平均移动时间、活动方法数、从缓冲池取、发现创建、返回缓冲池、返回并放弃、流放入缓冲池、平均流放大小、缓冲池大小、消息数、消息拆除数、平均session等待时间、服务器session使用率、活动时间、缓慢时间、载入时间、存储时间 JDBC连接池列表及其状态、最大容量、当前使用容量及活跃容量、平均连接延时、连接创建率、当前不可用连接数、当前等待数、最高活跃连接数、最大不可用连接数、最长等待时间、重新连接失败次数、等信息。 Webcontainer线程池的连接情况,包括线程池设置的最小最大限定值以及当前连接列表、容量、使用率,连接状态有无挂起。 指定的端口状态以及http连接情况,最大、最小118、连接数包括连接的时间、源端IP地址、连接状态。 应用服务器日志监控:信息id、信息内容、进程号、严重级别、发生时间等信息。 JTA资源监控:当前活跃的transaction、当前的健康状况、丢弃的transaction及丢弃率、提交的transaction及提交率、处理的transaction及处理率、回滚的transaction及回滚率、由应用/资源/系统/超时引起的回滚数及占比等信息。 请求分析:JVM进程号、平均响应时间、最长响应时间、请求名称/类型/比率、SQL连接数量/时间/以及时间消耗占比、SQL查询数量/时间/以及时间消耗占比、SQL更新数量/时间/以及时间消耗占比等信息。 WE119、B应用监控:Web应用名称、context root路径、应用状态、当前servlet会话数、最大servlet会话数、servlet重载率、servlet打开会话数/创建率等信息。Tomcat监控 Tomcat运行状态监控:应用服务器的健康状态、JDBC的健康状态、JMS的健康状态、Web container的健康状态。 重要性能数据:JVM内存使用及可用空间、 CPU消耗等信息。 GC的监控: GC释放的对象数量、GC被移动的对象数量、当前JVM进程ID、GC活动实时时间百分比。 JDBC数据库连接池的监控:应用ID号、连接池大小、平均使用时间、平均等待时间、等待连接的平均并发进程数、已分120、配的连接数、正在用于连接池的Managed Connection对象数、创建的连接数、关闭的连接数、所有连接的平均使用百分比、正在使用的池的百分率、使用连接的平均时间(分配和返回连接的时间差)、池中的连接超时数等信息。 JMS的监控:每个请求使用JMS的平均时间、从队列浏览的消息数、每秒从 JMS 队列浏览的消息的数目、发送到队列的发布请求数、每秒发布到 JMS 的消息的数目、接收队列的消息数、每秒接收队列的消息数、放入队列的消息数、每秒放入队列的消息数、消息管理器的类型、访问队列所花费的总时间等信息。 JMS会话的监控:连接的名称、该会话的当前使用者数目、会话是否已处理等信息。 请求分析的监121、控:平均请求响应时间、时间间隔期间请求的错误率、平均请求完成率等信息。 日志监控:对错误信息分类告警。CICS监控 CICS运行状态监控,包括CICS Region Name、CICS Region状态。 CICS Client、CICS Server、CICS Server Log。IIS监控 监控IIS运行状态。 日志监控:对错误信息分类告警。 已发送低字节数、已发送高字节数、已接收高字节数、已接收低字节数、已发送的文件总数、目前不明用户数量、目前正规用户数量、正规用户总数、不明用户总数、正规用户最高数量、不明用户最高数量、目前连接数量、连接最高数量、连接尝试次数、登录尝试次数、GET操作122、总数量、POST操作总数量、HEAD操作总数量、其他操作总数量、CGI请求总数量、BGI请求总数量、OT-FOUND错误总数MQ监控 MQ运行状态监控:MQ Queue Name、Queue状态、MQ通道状态、MQ日志内容、侦听端口连接数、队列深度等信息。1.4.6.11 对存储资源的监控智能运维管理可以通过 SNMP 或 Trap,对系统架构中支持SNMP的核心智能存储设备、存储区域网、备份系统等进行监测和管理,包括NAS、包含智能磁盘子系统的SAN、双机环境中的磁盘阵列、大型磁带库、虚拟磁带库和现有备份软件等。智能存储设备和存储区域网设备,大多都支持SNMP或Trap监测,支持ADIC、A123、tempo、戴尔设备、EMC存储设备、Fujitsu、日立、IBM、NEC、NetApp、Veritas-NetBackup、TSM等存储。如EMC存储设备,支持通过SNMP查看存储设备的运行状态,通过Trap将存储设备的事件主动通知给智能运维管理。智能运维管理可以监测内容主要由存储设备厂商提供的MIB文件支持内容来决定,一般可以监测存储硬件状态,如存储阵列是否处于运行状态、磁盘是否出现物理或逻辑损坏、热备盘运行等状态。存储监控指标列表: 存储设备硬件运行状态的监控; 存储设备故障的错误信息; 存储设备事件信息的分类报警;光纤交换机监控指标列表: 提供光纤交换机设备硬件运行状态的监控; 光纤交124、换机设备故障的错误信息; 光纤交换机设备事件信息的分类报警;磁带库监控指标列表: 提供磁带库设备硬件运行状态的监控; 磁带库设备故障的错误信息; 磁带库设备事件信息的分类报警; 对EMC存储设备的状态和事件监测 在EMC存储设备配备ECC管理系统的前提下,智能运维管理系统应能够通过与ECC管理平台通过SNMP Trap接口获取EMC的设备状态和事件信息,纳入到智能运维管理系统的统一监控管理中。提供对存储性能、存储配置管理和策略管理等内容的监控; 如果EMC存储没有配备ECC 管理系统,系统能够通过SNMP获取EMC的SNMP Trap信息,并纳入到系统的统一监控管理中。 通过集中式得控制台,能125、够监控各类存储产品的容量、性能、资源定位、可用性、保存时间等信息,从而使管理员可以发现、管理、控制和预测存储的使用量,帮助管理员确定数据移动、删除、清洗(缓冲区)得时机等关键问题; 智能运维管理能够借助Veritas备份系统,通过集中式的控制台,监控备份系统运行状况、性能、故障,使管理员可以管理备份系统资源,快速定位故障,以便提前采取预防性措施; 智能运维管理能够管理多种不同操作系统的存储资源,包括AIX、HPUX、Solaris、Linux、Windows、SCO Unix等操作系统; 用户可以自定义存储资源管理阀值,当被管理的存储资源触发阀值时,系统可以通过多种方式进行告警,并且可以采取合126、适的对策提示用户处理; 在采集和汇总大量原始数据的基础上,系统能够自动生成历史存储利用率、趋势分析和故障、事件等报告,管理员可以通过对报告的分析,得出正确的有建设性的结论。 智能运维管理能够管理多种不同操作系统的存储资源,包括AIX、HPUX、Solaris、Linux、Windows、SCO Unix等操作系统; 用户可以自定义存储资源管理阀值,当被管理的存储资源触发阀值时,系统可以通过多种方式进行告警,并且可以采取合适的对策提示用户处理; 在采集和汇总大量原始数据的基础上,系统能够自动生成历史存储利用率、趋势分析和故障、事件等报告,管理员可以通过对报告的分析,得出正确的有建设性的结论。 E127、MC存储监测NETAPP存储监测1.4.6.12 对网络设备的监控智能运维管理可以自动搜索IT网络架构中所有支持SNMP协议的设备(采集方式能支持SNMP V1、V2C、V3方式的数据采集),包括交换机、路由器、服务器、防火墙、负载均衡器、数据存储设备(如NAS、磁带库产品)等各类网络设备和系统。实现跨厂商跨品牌的监控,支持的厂家如:Cisco、Juniper、华为、H3C、锐捷、港湾、天融信、F5等。智能运维管理对网络设备状态监测主要通过SNMP方式为主,可以监测的相关参数有:CPU使用率、内存使用率、端口管理和运行状态以及流入流出量、流入和流出使用率、单播接收和发送包数量、网络流量(平均流128、量和最大最小值等)和带宽、网络链路联通性等。还可以通过Syslog、Trap协议被动接收网络设备发送的告警,如安全设备一般都会主动将其受到攻击的信息通过Trap向管理平台发送。还可以通过ICMP协议检测线路的性能。通过集成SNMP Trap信息,对安全设备还可以收集到一些网络安全事件的告警信息。例如智能运维管理不仅可以监测NetScreen防火墙的CPU、内存、Interface,还可以监测NetScreen防火墙受到的Sync攻击包、Tear Drop攻击包、Source Root Option攻击包、Ping Of Death攻击包、Address Spoofing攻击包、Land攻击包、129、ICMP Flood攻击包、UDP Flood攻击包、WinNuke攻击包、端口扫描试图攻击、Address Sweep试图攻击等攻击信息。对于负载均衡设备,还支持对服务能力的监控,监控均衡交换机上配置的多个IP的连通情况、负载均衡设备HA运行状况、节点间切换状况等,记录每一次状态变更。支持安全监控,对登录负载均衡设备的用户具有鉴别能力,若某用户连续多次被拒绝登录,则系统可以锁定该用户。可以监控针对负载均衡设备的非法访问和黑客攻击,如SYN、DOS等智能运维管理对网络设备状态监测和管理包括以下重要的指标:系统提供实时的网络性能监控,包括设备的CPU、MEM、防火墙会话数查看,线路流量的实时观察130、,TOP N的性能分析,可以把负载从高到低依次排列,让用户可以迅速定位有隐患的设备和链路。网络监控管理包括:设备负载一览、线路流量一览、TOP N性能分析、端口流量分析、交换机用户连接信息、交换机VLAN分布表等。支持采集网管范围内路由器、交换机等设备的CPU、MEM、运行时间、响应时间,有端口进出流量大小、丢包率、错包率等性能数据。支持采集任意两个直接连接网络设备之间进出流量大小。支持线路流量管理。支持峰值流量对比。系统提供实时性能监视视图,将关注的IT资源各个指标以图形形式实时展示。支持拓扑图上直接显示链路实时流量信息,可以自定义流量区间、总带宽、阀值以及颜色标识。支持将CPU、内存、流量131、大小、丢包率、错包率、防火墙会话数等某一种性能指标,关联拓扑图展示,快速发现高风险点。实时性能监控包括:总流量、进/出流量、丢包速率、错包速率、进/出包速度、包转发速度、平均帧长度、CPU、内存、会话数、设备响应时间等,提供单图多节点和多图多节点实时性能信息展示。支持某个端口所连接的主机对应的IP地址和MAC物理地址等信息。提供所有连接于某个设备上的用户分布一览,提供如:MAC地址、所在VLAN信息、物理端口编号、端口描述、对应用户的IP地址等信息为管理员提供Ping、Tracert、Nslookup、snmp扫描、Ping扫描、MIB浏览器及MIB编译器等检测工具。系统提供实时性能监视视图,132、将关注的IT资源各个指标以图形形式实时展示。支持拓扑图上直接显示链路实时流量信息,可以自定义流量区间、总带宽、阀值以及颜色标识。提供网络历史性能数据的记录与分析管理,以按每分钟、每五分钟,每十分钟、每天、每周、每月等间隔时间生成历史数据分析报表,报表样式分为柱形图、线形图、面积图、仪表图等,为用户分析网络运行情况做出有力依据。 图:客户使用带宽报告 三层交换机监测 图:对交换机监测(可以看到CPU、内存、温度)图:对负载均衡器监测1.4.6.13 网络流量分析管理智能运维设备的网络流量分析功能可以帮助广州农商行的管理员深入的分析网络流量的具体使用情况,如是哪个用户占用了大量的带宽,是哪种应用或133、者协议占用了大量的带宽等问题。只要网络设备开启了流量协议,并配置好发送到SinoNetGain网络流量分析所安装的主机就可以很容易的实现网络流量的分析。智能运维管理网络流量分析目前支持以下几种网络流量协议:lNetFlow(代表厂商Cisco,主要版本包括V1、V5、V7、V8、V9)lNetStream(代表厂商华为、H3C,主要版本V5、V8、V9)lSflow(代表厂商Foundry、HP、Alcatel、NEC、Extreme等)JFLOW(代表厂商Juniper)DATAFLOW(通用镜像数据流分析)通过监控流量的大小、来源、目的、组成和分布;提供流量、传输速率、包数、连接数等数据;134、提供不同粒度、不同侧面的分析统计数据。管理员可以清晰的查看到每个用户某个时间段内流入流出的累计流量,并会按照从大到小的方式排列,使管理员清晰地看出是哪个用户占用了大量的网络流量带宽。查看到在某个时间段内是哪种协议占用了大量的网络流量带宽。通过流量分析总览可以查看探针总体流量,各接口流量及利用率。分布分析:可按任意维度(源IP、目的IP等)统计流量/包流量/会话数的TopN分布排名,并支持设置过滤条件。趋势分析:可展示用户指定的任意维度的具体对象的流量/包流量/会话数的20分钟实时数据,并支持设置过滤条件。会话分析:可展示与用户指定的IP/MAC的有会话的节点,及其节点与会话信息,并支持设置过滤135、条件。包流量分析:按用户指定的包大小以及流量由大到小排名,并支持下拽查找每个包大小的流量来源。IP地址扫描分析:IP连接数TopN分析。协议端口扫描分析:按源IP地址/目的IP地址/IP地址与会话数进行协议端口扫描分析。IP协议端口密集访问分析:按目的端点展示会话TopN排名,并支持下拽查找会话来源。当网络流量出现异常时,能够根据事件规则对网络流量进行细粒度的分析和监视,可实时监控IP连接数和会话数异常、帧流量异常等异常网络流量并告警;对于出现问题的IP地址,可以自动定位该IP所在网络设备及端口。提供数据输出功能,可以将指定的原始数据导出到EXCEL文件中;提供节点排名、协议分布报表、节点流向136、等流量分析统计报表。1.4.6.14 对应用系统监控智能运维管理提供对应用系统提供监控,能够在应用系统进程出现异常时以多种报警方式发出告警,该模块完成以下功能:监控应用进程和子进程的执行情况:状态是否正常,是否有进程异常消失;对应用系统关键进程瞬间占用系统资源情况进行监控;实时检测各跨系统通讯链路(应用层面)是否出现异常; 对应用进程的启停做出相应的记录; 对应用系统运行中生成的日志文件进行监测,从而判断应用中的重要错误、警告已经性能等问题。1.4.6.15 网络拓扑管理网络拓扑发现:智能运维管理能够快速的发现企业中二层和三层的网络设备,并根据发现设备之间的关系自动生成全局的二层或三层的网络拓137、扑结构图。网络管理人员能够看到整个运营网络系统的网络拓扑结构,包括各个分布地区的子网、各个子网之间的网络连接关系、及其每一子网上的资源。经过网络拓扑结构的生成后,可以在拓扑图上看到整个网络的拓扑结构图,并能直观地看到各个资源的状态变化。并且拓扑管理支持分层管理、子网拓扑自动发现功能,并与整体拓扑图对应关联。当网络中的结构发生变化时,自动发现引擎能够迅速的发现并及时调整网络的拓扑结构图,保证了与实际网络状态的一致。当自动发现完全网设备后,系统会自动绘制出全网的二层和三册拓扑链路,并自动根据网元类型以不同的图标展现,如下图所示: 图:拓扑网络拓扑查看和展现网络拓扑图直观的反映网络的实际组网情况,及138、各级子网中各被管对象之间的连接关系;通过颜色、设备/线路下标、提示框等多种方式实时反映被管对象、被管对象组或子网、连接线路的各种实时性能、负载或通断情况(如:设备名、IP、CPU、内存指标或链路的速率、丢包率、错包率及线路通断情况等);直观的查看设备的逻辑面板和真实物理面板。网络拓扑图通过颜色直观展现全部网络设备和线路的负载状况,设备和线路监控参数值,以最高负载值的颜色展示该设备和线路的实时运行负载状况。能智能识别多品牌和型号的网络设备真实面板图查询;能对拓扑图中设备进行Ping、TRACERT等网络测试。在网络拓扑结构中,能直观展现HSRP、NSRP、VRRP组中各设备的图形视图,清晰的展现139、同一冗余热备组中各设备的主备状态。同时管理员可以根据需要通过多种方式在拓扑图上快速定位相应的被关对象。拓扑分级管理:管理员可以根据运维需要,按照地域或者业务划分子拓扑。比如:管理员可以安照运维需要把主拓扑中任意部分设备及其线路组成子网,以云图方式显现。点击云图,可逐层进入各级子网,逐渐细化显示子网的信息、根据需要切换到不同的网络视图。子网与主拓扑图直接关联,任意设备或线路出现故障时,子网与主拓扑图同时以颜色等直观方式告警。支持自定义拓扑图。管理员可以根据运维需要手动编辑网络拓扑,手动对设备和链路进行添加、删除、修改等操作拓扑监视和告警:网络拓扑图通过对网络节点状态的轮询,可以实时监控网络中所有140、资源的状态、实时反映网络设备配置的变更情况、实时反映网络设备及逻辑功能的性能越限事件、实时反映被管系统的告警事件。管理员根据具体设备情况,设定各种性能参数的阈值。告警类别分为:网络告警、告警日志查询。一旦网络出现异常事件,将在拓扑图上实时的展现相应的告警信息。并且系统根据告警严重级别的不同,通过采用颜色变化、声音提示等方式给出告警。同时也可以通过短信、语音、邮件、消息提示框等方式将告警信息发送给管理员。IP地址管理:系统能自动发现、构造所有网络使用者的全网“IP/MAC所在设备” 等用户信息一览表。通过IP/MAC地址绑定,实时发现非法接入网络设备及用户私自更改IP地址的行为。及时告警。能直接141、或间接对不可网管的设备或交换机端口非法下联设备进行识别。支持IP地址定位终端设备,快速从庞大的网络中找到相关的设备。配置管理:针对网络设备数量众多的现状,IT运维人员必将面对众多的网络设备的配置管理等一系列难题,如果单纯地通过手工对网络进行配置变更,已经远远不能满足网络管理的需要了。一旦网络出现了任何的变动,都有可能直接影响到业务是否能够正常运转以及运转速度,智能运维通过提供强大的配置变更自动备份功能和恢复功能,能够协助客户实现网络的配置变更管理,提高企业网络管理水平和运维工作效率。当网络越来越复杂的时候,我们必须要未雨绸缪,在灾难发生之前,对整个网络设备的配置文件进行备份,这样才能达到对网络142、的可持续性管理。一旦故障发生,我们可以通过恢复备份配置文件,来快速恢复网络和业务减少经济损失MIB管理:智能运维通过MIB编译管理功能支持所有SNMP协议设备,导入任意厂商mib后,可以根据mib返回值实现监控和管理。并能对MIB监控设置相关阈值和相应告警。日志管理支持接收来自“设备”或者“第三方系统”的SYSLOG、SNMP TRAP数据,并且可以根据关键字进行过滤分析查看,按照设置的级别告警。支持用户自定义的告警方式。机房设备物理拓扑管理在日常管理中,机房中服务器的物理位置监控往往与网络拓扑脱节,针对这一问题,智能运维管理提出将机柜物理位置的监控与网络拓扑图整合的概念,直观的查看当前网络拓143、扑下机房内设备的运行状态,可以在监控报警后辅助管理员第一时间知道机器或者设备的物理位置,方便处理。提供直观的机房、机柜、设备机架布局展示,真实展现设备位置关系,通过对机房拓扑的管理,用户可以方便查询某台设备位于某个机柜以及某个位置。机柜的指示灯颜色反映了设备当前状态,设备面板图真实、实时地显示设备各端口连接状态。机房机柜图中的设备支持真实面板图、性能查询和网络测试。事件管理设计智能运维管理能够对用户网络及系统发出的预警信息和故障信息进行整合和自动化的处理。利用Syslog接收器获取相关设备转发的Syslog信息,利用SNMP Trap接收器获取设备或第三方管理工具的事件告警信息,并实现过滤和相144、关性分析的处理;利用不同类型的监测器采集系统级和应用级可用性信息,并在监测器指标测量失败时发送告警事件。智能运维管理将上述告警信息进行统一格式化后实现集中统一的监测和管理。智能运维管理向管理员提供统一的实时事件管理窗口,该窗口可以按照某个过滤规则汇集来自整个网络环境的不同类型的告警信息,使管理员可以迅速确定哪些故障会对服务的可用性构成不良影响。 图:故障处理图故障信息的采集智能运维管理具有强大的故障管理功能,其底层的事件接收器,能够收集各种管理功能产生的故障事件(例如:网络事件、主机事件、存储事件、应用事件等)。并根据需要按照事件类型,事件源对事件进行分类显示。故障管理系统主要完成事件收集,事145、件过滤,事件关联和事件处理等功能,以实现对故障的快速处理。根据不同情况设置不同报警级别、预警阈值,在系统出现临界状态,系统能自动报警。故障信息的采集包括以下几种方式:利用Syslog接收器获取相关设备或系统转发的Syslog信息。接收到的信息经过格式化转换为标准告警格式,发送给告警管理模块。利用SNMP Trap接收器获取设备或系统转发的的Trap事件信息。接收到的信息经过格式化转换为标准告警格式,发送给告警管理模块。内部监测器发出的告警,监测器将每次轮询采集到的数据与监测器中配置的阀值进行比对,当违反阀值时依据告警规则向告警模块发送告警事件。统一的事件处理平台系统具有事件统一报警处理机制,完146、整的事件管理,捕捉各种管理模块产生的管理事件,并能捕获操作系统、数据库、应用程序及网络产生的日志。不同信息源的告警经过统一的格式化进入智能运维管理告警控制台(告警格式符合国际标准的ITU X.733 格式)。告警控制台同时提供灵活的分类、过滤工具,可依据告警中的任一信息进行匹配分类。管理员可以根据设备的重要级别不同可以设置不同的监控频率、指标阈值、报警方式。可以根据不同的设备对象,或者不同的故障类型设置其对应的报警级别。管理员可以灵活定义事件关联关系,及时发现事件的根本原因。管理员通过可视化的告警规则设置界面,设置告警规则。降低开发成本及维护成本。支持丰富的事件信息,可以根据需要自定义为事件提147、供额外的信息,如联系人、联系电话等。系统同时具备良好的灵活性和可扩展性,支持与第三方管理平台的事件管理集成。系统提供多种接口,可方便接入不同管理平台和管理软件的事件信息,也可以通过多种接口,可以将事件转发给帮助台等外部系统,以满足用户未来的扩展需求。并且可以根据预先设置的流程,分配哪些事件应该由什么人处理。管理员可以从告警浏览器中选中一条或多条告警,以对其执行各种管理操作:如查看详细信息、确认告警、延后处理、添加注释、添加专家意见、取消确认、删除告警、指定负责人、创建告警过滤条件等。通过点击告警的“详细信息”可以对告警的详细信息进行查看和修改。告警的详细信息包括:发出告警的对象、重要级别、具体148、问题描述、告警发生的历史记录,附加信息(在统一告警格式时屏蔽的原始告警信息),相关告警(由当前告警引发的衍生告警,参看“相关性分析”),评注(管理处理告警时的记录),专家意见等等。事件的自动通知:当新发生的事件信息满足预先定制的分类条件时,通过调用内部或外部命令的方式实现对告警事件的自动前转。如,自动发送E-Mail、手机短信、警报声音、弹出窗口等方式将告警信息及时通知到相关的管理员。规范的告警处理机制:智能运维管理的告警管理模块提供了符合电信级规范的告警处理机制。包括:确认、反确认、清除、添加评注、告警导出等等。当管理员看到或收到告警通知以后,必须及时进行“确认”和“清除”,以确保任何告警事149、件没有被遗漏。系统记录告警被那个用户确认和清除,并记录确认和清除的准确时间。告警的责任管理员可以在告警详细信息中追加“评注”记录故障原因。清除后的告警保留在历史告警中供以后查询统计。对于当前告警和历史告警都能够依据灵活配置的分类规则分别进行统计分析报表。告警平台中的告警事件信息可以通过“导出”功能保存为Excel文件。详细功能如下:告警确认:系统应提供告警确认功能。应支持操作用户对所有告警进行单条或批量确认。未经确认的告警应保持对用户的提示,直到用户进行确认。告警清除:系统应提供告警清除功能。提供的清除手段包括人工和自动清除两种方式。清除但未确认的告警应保留在历史告警列表中,并应有相应图标显示150、。告警过滤:用户可以设定的显示过滤条件,有选择地显示当前告警事件。告警显示过滤仅是告警信息的屏幕显示过滤,在拓扑图上不再显示屏蔽后的当前告警事件,不应影响任何告警事件的上报及其存储,也不影响对告警事件的查询和统计。告警查询与统计:系统应提供对当前告警或者历史告警的查询和统计功能,并能够以表格或图形(直方图、曲线图、饼图等)方式显示。系统可提供对当前告警的实时统计功能,即按照某种条件(如告警级别、告警源、告警设备厂商等)实时统计当前告警的数目,在用户需要时可查看具体的当前告警信息。告警级别管理:告警级别管理功能可用来对上报的告警级别进行重新设置,通过该功能,可以根据实际情况灵活地改变告警的级别。151、系统应提供告警级别的设置,修改,查询等功能。基线告警:从长时间的历史记录中自动生成设备运行基线表,根据这条动态的基线数据点,按照相对应的时间形成一个动态的告警阀值。统一事件管理:事件管理通过统一数据接口收集各类基础监控子系统的事件,通过统一的数据分析、加工、归并,汇聚到网管系统数据库中;对收集到的大量事件信息,通过基于动态规则脚本的事件分析引擎,对事件进行压缩,定位到真正的告警原因。事件告警的通知告警提供告警分类以及通知规则的设置页面,告警信息将按照告警分类与规则的对应关系通过语音、Email、短信、弹出窗口等多种方式及时通知到管理员。图:告警的通知规则设置事件告警查询过滤和统计可按故障的不同152、属性(如故障时间、严重等级、故障种类等)进行统计分析,形成多种格式的报表。无论是当前告警还是历史告警,均可以提供按任意字段或属性的组合进行查询统计分析。具体表现为:n能从多种角度多种维度对数据进行分析。可以对故障事件进行过滤。对于事件的过滤条件,可以根据需要灵活定制,例如,按照事件类型进行过滤;按照设备对象进行过滤;按照事件类型和设备对象的组合进行过滤。领导或管理员可以查看每个运维人员对告警的处理时间,以便考查运维人员的工作效率。能提供实时分析、历史分析等分析手段。能对比查询统计的结果,分析数据的发展趋势。能将结果以图形方式(直方图、饼图等、柱形图)或报表方式显示、打印或转存为html、Wor153、d、Excel或其它报表方式输出。 图 1:告警查询报表1.4.6.16 权限管理设计智能运维管理系统作为IT架构的综合管理工具,为中心信息化系统提供了多层次多方位的管理功能,不同岗位的管理者所需管理的对象、以及各自的操作职权都不尽相同。智能运维管理系统采用统一的安全认证。提供不同角色的实时监控平台,完成授权的不同管理。实现网络管理员、系统管理员、运维人员等通过统一管理平台的分权管理。系统的用户管理控制,包括增加、注销、锁定、解锁用户,查询用户信息,修改用户密码等。通过权限控制功能,可以使用户更安全地使用综合网管系统,不同管理员完成自己职责范围内的工作。提供图形化方式设置或修改用户的权限。系统154、对不同权限、不同级别的用户定制不同的界面,如子网络管理员只能浏览该子网的有关信息。通过用户和角色控制每个管理员的权限,实现用户和角色的多对多管理,严格划分职责和权限。超级管理员可以创建角色和用户,并为不同的角色分配不同的功能权限和管理域权限。针对业务管理视图权限能够建立业务管理目标到被监测对象的纵向逻辑关联,建立从业务到监测数据的层次关联视图,展现多角度多层次的管理渠道;以OA管理系统为例:办公部门的相关人员只能以只读的方式根据OA管理系统业务视图监测整个OA管理系统是否正常,但是不具备OA管理系统业务视图修改的内容。用户和角色管理为保证安全性,所有登录的用户均采用统一的安全认证。通过用户和角155、色控制每个管理员的权限,实现用户和角色的多对多管理,严格划分职责和权限。超级管理员可以创建角色和用户,并为不同的角色分配不同的功能权限和管理域权限。一个角色可以包含多个用户,一个用户可以属于多个角色。角色功能权限管理功能权限是指管理员在智能运维管理Web管理页面中能进行哪些功能操作。超级管理员可以为不同的角色分配不同的功能权限,比如,可以指定业务人员只能查看系统告警但不能对告警进行任何操作,或者指定开发人员没有“资源管理”权限。不同权限的管理员通过Web登录智能运维管理系统后将看到完全不同的功能页面。角色管理域权限管理管理域权限是指管理员对树型设备视图结构和树型业务视图结构中的哪些对象和分支有156、管理的权限。超级管理员可以为不同的角色分配不同的管理域权限。管理员登录后只账号管理策略为进一步保障智能运维和用户网络环境的安全性,禁止非法访问,超级管理员还能够为每个用户配置限制策略。比如,指定登录智能运维管理的IP源地址(或者IP地址段);指定有效周期;指定非法登录多次后自动锁定账号等等。1.4.6.17 报表管理设计智能运维管理系统提供多种视图展现的信息发布方式并存储所有监测器采集的性能数据;能够随时生成任何指定时间区间的历史数据报表。系统的报表管理功能包括:定制报表、生成报表、设置/修改报表格式、打印/输出报表、取消报表生成等功能。报表包括资产报表,可以统计设备相关配置信息。报表类型主要157、包括对主机系统运行、网络、应用监控报表的分析,包括业务事件统计,生产系统主要性能指标和主机、网络、数据库、中间件等运行状态进行分析产生报表等,包括性能报表、性能对比分析报表、TopN的排名分析报表、故障事件统计分析报表、综合分析报表等,可以根据用户要求将报表以指定格式打印出来或输出到其他外围存储设备上。报表格式包括了:曲线图、直方图、线面图、数据表,仪表图等等。并提供历史数据的查询和导出。智能运维管理系统提供业务视图的配置管理,建立业务服务质量与IT架构的关联关系。并基于业务视图计算相应应用或服务的SLA报告。包括故障时间、有效率等。在进入视图页面或是状态页面后,都可以查看目前监测对象的监测报158、表,方便快捷,如下图: 图:监测信息的发布系统可以对各类信息进行灵活查询,并能将结果以文本列表、图形方式直方图、曲线图、面积图等显示、打印或转存为Excel、pdf和Doc报表方式输出;信息的查询和发布有以下几个特点:1. 针对指定监测器的历史数据生成报表。2. 能够灵活指定报表配置参数,日期范围、时间范围都是可选的,报表曲线的类型都可变化。可设置某些统计报表为成定时生成,将这些报表统一保存在Excel、pdf和Doc文件,并根据权限将相关报告发送到相应管理人员邮箱。3. 能够选择1分钟、5分钟、每小时以及日平均等报表。4. 提供线性图、直方图、面积图、数据列表等多种报表格式。5. 提供运行天159、周、月、年报表。能对运行状况进行历史统计(提供可选的一定时间进行统计),可以设置历史数据的归档,归档的数据存放在后台的数据库中。6. 报表能够导出为Excel、pdf和Doc表格文件或文本文件。 图:监测数据报表系统可以将各种系统数据,包括配置、故障、性能等信息通过Web的界面组织起来,使操作员可以在任何地点都可以通过 Web 浏览器获取这些信息。如下图: 图:从多个角度查看信息系统也提供对所有被管资源的“状态搜索”,可以用来查找不同类别的被管资源的当前状态列表。系统默认提供了基本的默认查询条件:“显示失败状态”、“只显示禁止状态”、“只显示暂时忽略状态”和“显示全部状态”,也为用户提供了“160、名称过滤”和“状态字段过滤”两项过滤条件,并且可以对结果进行选择生成历史报表。信息的统计和报表为了性能数据分析和呈现以及故障的分析,系统提供了多种角度当前数据和历史数据的分析报表。通过分析这些报表,可以提升管理层次,预测未来的发展,达到面向服务品质的管理。数据和信息的汇总统计功能包括:1.对于不同类型的设备,可以选择监测不同的性能指标,提供监测性能数据从大到小TOP N排名情况,便于及时发现系统中负荷最重的资源。2.可以选定设备,提供此设备各个资源的使用情况报表。3.可以提供端口流量统计报表。4.系统还提供针对业务分组的性能比对报表。图:丰富的报表格式图:端口流量图图:TOP N排序报表SLA161、报表:SLA报表功能,是对当前的业务视图进行监测汇总的统计生成SLA报表,用户可以选择业务来生成报表还可以将SLA报表以XML格式导出。如下图:1.4.6.18 多网段IT监控管理智能运维管理系统具备自身的硬件架构优势,轻松实现跨网段管理,达到多网段统一管理、集中监控的效果。多网段管理优势l 无需改变网络环境和网络结构。l 无需借助第三方硬件,自身硬件实现。l 部署简单,轻松实现集中管理。l 安全性高,对多段网通讯采用通讯加密技术,Linux系统下安全规则优化,保证数据安全。 多网段部署效果1.4.6.19 智能运维管理系统自身安全设计首先,智能运维管理系统采用定制的Linux操作系统内核,W162、eb管理端口支持HTTPS的加密协议。其次,智能运维管理系统 有自身的加密的功能,有效的提高了数据传输的可靠性。再次,智能运维管理系统有严谨的用户认证和角色权限管理。不同角色的管理人员具有不同的操作选项和管理范围,在严格划分职责和权限的同时也保障了系统的安全性。能够根据用户所属角色的功能权限和管理职责,自动生成相应的过滤体系,为不同的用户展示不同的管理域范围和操作权限。智能运维管理系统采用用户账号的统一集中认证,记录所有管理员的登录和退出信息(包括时间和客户端IP等),同时还记录所有认证失败的登录日志,以提高对非法用户的警觉;多次登录失败系统会自动锁定用户账号。为进一步保障智能运维管理系统和用163、户网络环境的安全性,禁止非法访问,超级管理员还能够为每个用户指定登录的限制条件。比如,指定用户登录的源IP地址(或者IP地址段);可以配置账号的有效时间等。 如果登录请求来自非法的IP地址,即使登录密码正确也不于通过。系统状态监测智能运维管理系统具备自我监测能力,利用核心进程控制的高可靠性对自身的各个系统进程进行统一管理,监视进程状态。日志管理智能运维管理宣传提供完善的内部日志管理,将所有用户操作日志和系统内部各种日志事件均记入内部数据库,并提供灵活的查询和管理机制。符合IT 管理的高可靠性要求。记录和分析相关用户的操作记录, 操作日志记录用户在系统中所执行的各种操作,可具体到对某个设备做了何164、种操作。为了防止用户的误操作,系统对各个用户在系统上执行的各种操作进行了详细的记录。1. 完善的日志内容a) 操作日志:用户登录信息;用户登录后的所有操作记录。b) 系统日志:系统后台自动操作日志。c) 任务日志:用户配置的定期任务的执行日志。d) 设备日志:被管资源的Syslog日志、DB日志、WEB日志等。e) 系统内部日志:智能运维管理系统运行时的内部日志信息,并提供远程下载,便于维护和巡查。2.完善的查询机制能够根据日期顺序在页面查询上述日志并能够灵活配置过滤条件和时间段进行查询,如下图: 图:系统操作日志的查询3、完善的日志管理机制用户可以灵活配置智能运维管理系统日志数据的“定期清除165、”任务。本方案建议智能运维管理系统日志数据至少入库保存三个月,三个月前的数据由后台自动清除。并同时提供手工清除日志的功能和权限限制。系统数据管理智能运维管理通过Web页面提供系统数据的备份和恢复功能。所有的配置信息和性能历史数据可以备份和导出。也可以在系统的“定时任务”中配置定时备份和导出的规则,包括:1.提供网管数据的备份和恢复机制。2.提供历史数据的清除机制;包括历史告警、性能数据、系统日志等。3.能够定期清除指定时间段以前的数据。4.能够定时备份系统数据。同时系统也提供“定时任务”管理,定时对系统进行数据的备份和清除。 图:数据备份任务系统监测工具智能运维管理系统的Web管理界面中提供常166、用的Ping、Nslookup、TraceRt、SNMP扫描、SNMP WALK和远程命令的配置与执行等诊断工具。远程命令:对于主机系统,能提供执行远程命令和脚本的功能。对于NT系统,能提供实用的远程管理方法,如查看、启动、停止windows服务和进程,察看系统账户等功能。对于Unix、Linux主机服务器可以远程查看日志信息等;由于此功能的提供可能涉及到安全问题,因此对于某些特殊的用户,SinoNetGain也可以提供屏蔽此功能的可能性。 调试命令:智能运维管理 提供了一些系统命令和工具的接口,如提供Telnet、ping、ssh、路由跟踪TraceRt等工具。使用监测器和ping工具,系统167、能提供ping测试工具,按预设时间(如每小时)测试点到点的延时,并生成报表。也能提供ping扫描工具,监测某一个网段中workstation的连通情况。SNMP扫描:提供SNMP扫描工具,可以检查被管资源是否开放SNMP协议。SNMP Walk工具:系统集成了SNMP WALK工具,可以方便的获取被管资源端对SNMP WALK请求的输出信息。1.4.6.20 开放的集成接口 本方案符合 ETOM 国际标准的 OSS 系统支持与第三方管理工具的集成。提供规范的北向和南向接口。支持将告警通过UDP协议(如SNMP Trap、Syslog)传送给现有监控项产生报警信息,或通过UDP协议接收现有监测平168、台的告警信息。本系统的标准告警接口能够直接集成第三方网管工具的 SNMP TRAP 信息和 SYSLOG信息,并集中展示和存储于统一的告警管理平台中。有效保护固有投资。本系统的性能监测器扩展机制,能够以脚本调用、文件、HTTP、socket等多种接口方式获取来自第三方管理工具或业务系统的关键性能数据。有效保护固有投资和内部员工累积的管理经验。本系统按照以下原则设计接口: 接口可以灵活配置,并且可扩展; 具有可靠的接口数据出错处理机制。 使用简单、快捷的方式实现与其它相关系统的接口; 接口数据操作应保证在规定的响应时间内完成,同时还要保证各相关系统的运行效率不受影响; 保证接口数据在各系统的一致性; 接口数据能够方便的形成,并能在被接口方顺利地导入; 在接口数据交互过程中,应具有数据传送和接收传送后的确认过程; 在满足要求的前提下,使接口数据量最少; 接口数据传输控制策略可靠且完善;采用开放标准;