智慧林业可行性研究报告(173页).docx
下载文档
上传人:Le****97
编号:1265978
2026-03-02
174页
8.28MB
1、智慧林业可行性研究报告目录一、 智慧林业31.1 概述31.2 现状与需求分析31.2.1 现状分析31.2.2 用户需求51.3 目标61.3.1 林业管理信息更畅通71.3.2 对工作人员监管更到位71.3.3 车辆、设备、人员调度指挥更快捷71.3.4 森林档案管理更健全81.3.5 警情定位更精确81.3.6 预案处理更专业81.4 建设方案91.4.1 总体设计方案91.4.2 详细建设方案171.4.3 业务应用1551.1 概述信息化技术取得了突飞猛进的发展,数据库、地理信息等技术已日趋成熟,为系统建设创造的良好的条件。建立林业资源信息管理系统对林业整体管理的现代化水平具有深远的2、影响。该系统的搭建,是本着坚持实用为主,适度超前的原则,把应用保障体系与应用体系放在同步规划、同步建设、同步运行的位置,加大基础平台建设力度,促进林业资源数据共享,确保了林业信息化建设的健康运行。本项目中的各个应用系统均以公共基础数据库为中心,既避免了重复投资,实现了信息的充分共享,也减少了区县林业局管理维护的难度,确保了数据的完整性、唯一性、准确性和现势性。基本实现全市林业空间地理数据入库、更新、业务应用与维护,相同比例尺之间的无缝漫游。形成信息全方位辐射、监管多方面铺开、服务各层次跟进的林业信息化格局,推动我市现代林业建设再上新台阶。1.2 现状与需求分析1.2.1 现状分析(1)信息资源3、亟待更大范围集成共享。由于业务管理的碎片化、条块化、分层级的传统局限性原因,林业信息化资源目前仍然处于粗放和分散管理状态,在主要业务流程、信息化标准和数据模型定义的标准化方面尚存不足,缺乏顶层管理,各业务之间还存在一定程度的数据壁垒,部门之间业务数据还未充分共享,数据重复存储且不一致的现象还存在;信息系统软硬件资源还未充分实现集约管控,统筹利用程度不高,资源利用率不高,运维难度和成本较大,软硬件资源优化整合工作有待加强。(2)一体化管控承载能力有待提高。全市环保尚缺乏统一的信息平台。随着信息化与业务的深度融合,将产生大量实时数据,对信息网络传输能力、数据中心存储能力和处理能力提出了更高要求;为4、支撑流程集成和业务应用的深度融合,平台的流程处理能力、消息转换处理能力以及数据交换能力需进一步提高;随着可视化技术的发展,互动化需求日益迫切,基于多维门户的信息展现能力需要进一步提高。总之,为适应信息系统的快速发展和稳定运行,需要建立统一的一体化平台,为全市环保业务管理和运营提供整体的承载能力。(3)业务应用及决策能力有待提升。局内环保体系已经建立了部分业务信息系统,满足了所属领域部分监测、监管和监督等业务需要。随着全市环保稳步推进组织架构变革,管理方式创新,业务流程不断优化,各业务应用也不断提出新要求,现有业务应用系统存在不适应、难以支撑的局面。业务应用之间需进一步按照环保业务,实现全流程深5、度集成。由于环境保护与治理业务广域性、复杂性的特征,决定其必须依赖信息技术提供的强有力的数据分析与辅助决策能力,支撑环境质量的多层次预测、推演、快速定位于溯源要求,目前的支撑能力仍处在较为初级的数据获取与查询阶段,战略层、规划层、分析决策等智能化程度还有待提升,以适应全市环保发展要求。(4)信息安全主动防御能力有待提升。随着大量信息系统投入运行,全市环保上下形成了规模大、系统复杂、业务依赖性强的业务应用环境,任何局部运行问题均有可能影响到全网,引发全市环保信息系统的应用障碍。此外,随着环保资源社会化服务建设的推进,信息化、自动化、互动化特征逐步凸显,环保系统和公众的双向互动增强,智能采集和智能6、终端设备大量使用,使得信息内网与众多智能设备间的数据通讯和安全接入成为急需解决的技术难题,大批智能终端设备需要通过无线公共网络接入,大量用户侧的接入访问对安全管理带来了更多的风险。因此,在新形势下,信息安全将会面临更多更大的挑战。(5)信息运维和管控能力有待提升。随着大量应用系统建成投运,全市环保现有信息运维和管控体系需进一步完善,能力需进一步提升。一是信息化组织体系需进一步优化完善,有效支撑信息化管理、建设、运维、服务等各项工作;二是需提升技术支撑能力,切实落实运维体系建设;三是需进一步明晰职责,建立信息职能部门和业务部门协同推进信息化的机制和体制;四是信息管控能力有待提升,需进一步加强全市7、环保架构管控,确保信息系统技术路线的一致性,实现全市林业信息化的可持续发展1.2.2 用户需求1.2.2.1 统一平台、资源共享 如果由每个乡林业监管部门都自行组建自己的运行平台,配备系统技术管理人员,会造成系统的重复建设、增加运行成本,并且由于不同营运平台的数据标准和格式不一,资源也得不到共享。因此,从社会整体利益出发,建立统一的森林防火监控运行平台很有意义。1.2.2.2 事前监督与事后核查并举智慧林业信息化应用管理系统是一种“事前监督与事后核查并举”的方式,它尽可能地做到“防范于未然”;若在全市统一的网络中实现统一的数据格式,可以向各有关部门开放监控终端窗口,分层次地进行监督管理,也便于8、政府相关主管部门宏观了解森林防火形势。在关键时刻,可以对突发森林火灾的特定作业工具进行监控(掌控),通过配套的森林防火客户端应用软件,对运行数据进行宏观分析,为政府领导决策指挥提供帮助。1.2.2.3 提升林业管理工作信息化水平建设市级智慧林业信息化应用管理统一平台,是依靠高科技手段从源头上来解决森林管理难题,增加动态监管手段,能显著提高紧急救援和应急调度指挥能力,对增加新形势下森林防火、防病虫害等工作的科技含量和提升信息化水平等具有深远意义。1.3 目标市数字林业信息化管理系统主要是综合运用“3S”、计算机、网络和数据库等技术,在全市林业基础地理数据库基础上,以全市森林资源二类调查小班数据为9、数据主体,利用外业实测、遥感影像等获取小班森林资源的变化信息,通过森林资源管理系统,实现全市森林资源小班相关数据的网络化实时在线更新与统计汇总。通过以森林防火为中心的森林防火系统、视频监控系统及相关基础设施的建设,为领导者提供防火辅助决策服务,为护林员提供保障服务,为防火资源提供管理服务,进一步提高对森林火灾等林业灾害性事故的应急管理水平。通过森保(病虫害监测调查)系统,以森林资源二类调查小班数据为基础,利用外业调查手段,获得病虫害基本信息,实现林业有害生物信息的监测与分析。通过林权管理系统,实现林权档案管理与林权证发放管理。通过林政管理系统,实现采伐证等相关审批事项的管理。通过OA办公自动化10、系统,实现自动汇总生成统计报表,实现无纸化办公,实现网络视频会议。通过整个系统的网络化运维与日志管理,实现对资源小班及各级业务工作人员的精细化管理,实现林业资源的“数据整合与共享”,为森林资源管理和森林防火提供决策依据,为各级林业生产、管理与决策服务。本系统采用GIS地理信息系统作为整个系统的展示平台,整合其它功能模块,实现森林资源统计、森林防火、病虫害监测、自然保护地管理、古树名木管理、绿化资源建设管理系统、视频监控、视频会议、通信指挥、卫星数据监测、办公自动化等功能。通过互联网,可实现林业站县级林业局市林业局三级信息上报汇总。1.3.1 林业管理信息更畅通长期以来缺乏有效统一监管平台。目前11、各地林业部门自建的监管平台标准不导致警情数据不能共享,上级领导部门无法有效监管。部门之间信息沟通缺乏渠道。即使是上下级之司也存在的信息孤岛问题。1.3.2 对工作人员监管更到位 林业系统具有从业人员多、工作内容繁琐、人员不易监管等特点,同时现场问题能否第一时间上报至后台调度中心并解决,也将会对社会正常生活秩序形成极大影响。加强人员管理、缩短问题处置时间、提高故障处置效率成为护林工作的关键。据了解,目前我国林业系统护林员队伍大多数为就近聘用的临时工或合同工,尽管各级林业主管部门已采取了各种各样的激励、奖罚措施,但由于林场地域广大,工作人员众多,在没有有效的设备设施及现代化管理工具支撑的情况下,管12、理者对这些巡检护林人员监管无法监督到位。容易造成警情不能及时发现发现警情后指挥调度无法展开等管理难题。本方案借助高科技设备更好地实现了护林员和巡查人员的巡查、管理、上报。1.3.3 车辆、设备、人员调度指挥更快捷 近年来,随着生态培育工作的推进,林地面积越来越大,随之,护林育林的工作任务也越来越重。一旦发生森林火灾等重要警情,迅速调度大批人员、车辆及相关设备设施进行救援是最为关键的工作环节。所以为保证调度指挥工作的有效性,给车辆、人员配备现代化的通信管理工具,采用信息化的手段进行管理就成为了一种必须。1.3.4 森林档案管理更健全 本系统建设后,将给市林业系统提供一套完善的、科学的、统一的森林13、档案管理软件系统,包括但不限于林地面积、育林史、主要树种、树龄、管理单位、责任人、位置信息、生态状况、历史事件等信息将形成电子信息档案,还可将森林档案管理纳入预警管理平台便于有针对性预防和警情发生后自动形成历史记录。1.3.5 警情定位更精确尽管预防预警工作做得十分周密,但自然森业病虫害及意外森林火灾等现象仍不可避免。当林业主管部门接到群众或上级单位报案后,不能对林火警情位置进行精确定位是目前面监最大难题。本系统建成后,将采用经纬度信息编码技术对全市各个林区进行准备定位,一旦警情发生,我们可以通过卫星遥感观测的经纬度数据进行搜索定位,还可以借助模糊查询及视频监控来进行准确定位。从而保理论上扑救14、工作更容易展开。1.3.6 预案处理更专业在事故状态下,如何及时获得专业解决方案,同时得到有关事故处理的资源分布和可使用情况、周边地形地貌、气象资料、历史上同类事件的处理等,以便于管理人员迅速作出决策,调集资源,第一时间作出响应。比如某林区发现美国白蛾,就需要药物库存、调集渠道、喷洒飞机的可用情况作为紧急方案自动显示,相关区域的收到警示进行调查虫害的分布范围及相关的防治措施等资料也自动进入管理人员视野。1.4 建设方案1.4.1 总体设计方案1.4.1.1 总体思路1.4.1.1.1 统一顶层设计项目建设应该参考林业数字化转型是一项复杂,庞大的系统工程,建议统一顶层设计以提高起点,以便高水平推15、进同时防止低水平重复建设。1.4.1.1.2 统一平台架构项目建设充分利用电子政务云平台,建设林业基础库和主题库等统建资源。同时做好数据共享工作,将林业信息共享给省林业厅、其他委办、企业、公众,服务于张家界市整体数字化转型工作。1.4.1.1.3 统一层级架构统分结合,实行市县“一级部署,两级应用”的模式。平台建设需要考虑市县两级应用开发和运行保障。市局主要负责建设基础性,通用性系统的建设,各区县使用统一的基础平台,在平台之上建设个性化的应用。1.4.1.2 总体架构u 基础设施层本次项目建设包括污染源在线监控综合接入系统、环境监测点位数据采集项目、感知接入平台,全面接入气象、巡林等要素的感知16、数据,为构建全市林业感知一张网提供承载基础。本项目充分依托市政府及市局统筹建设的数字化基础设施,包括基础网络、网络服务、存储服务、容灾服务、异地备份服务、物理感知等内容不在本次建设范围内。u 数据支撑平台项目需要构建全域数据的能力共享中心,提供数据采集、存储、融合、治理、服务等全链路一站式服务,构建面向业务应用的数据中台;数据中台基于面向对象数据存储方式,构建标准数据库、业务数据库、成果数据库、共享交换库,充分利用数据抽取、检验、清洗、比对、弥补、转换等数据集成手段,满足张家界市林业局横向纵向的数据交换与数据共享的需求,为体系内部业务协同、横向部门业务协同提供技术支撑。u 应用支撑平台应用支撑17、平台主要由管理域和能力域组成。管理域包括统一服务管理平台、统一服务网关平台;能力域包括支撑引擎(GIS引擎、业务引擎等)、业务模型及机器学习平台等建设内容。应用支撑平台引入了业务中台,采用微服务架构模式,将各种应用信息系统分解成一套较小的服务。基于服务引擎中的各种能力,能够快速支撑各层级、各部门、各应用的快速高效的搭建,有效降低应用构建成本,全局提高应用建设质量,打破“业务孤岛”实现跨部门的业务协同业务流转,真正实现全市林业大协同。u 业务应用层本系统采用GIS地理信息系统作为整个系统的展示平台,整合其它功能模块,实现森林资源统计、森林防火、病虫害监测、自然保护地管理、古树名木管理、绿化资源建18、设管理系统、视频监控、视频会议、通信指挥、卫星数据监测、办公自动化等功能。通过互联网,可实现林业站县级林业局市林业局三级信息上报汇总。u 信息安全保障体系根据国家对信息化安全管理要求和张家界市林业局信息化安全需求,对本项目系统安全防御策略进行详细设计,主要内容包括技术安全和管理安全。u 运行维护保障体系项目的运维内容主要包括运维体系、管理制度和数据运营。u 数据标准保障体系项目本着分阶段实施,急用先行的原则,将目前紧迫需要用的标准规范先行编制。本项目涉及数据标准化、技术标准化、管理标准化和业务标准化。1.4.1.3 关键技术路线1.4.1.3.1 以面向服务的架构(SOA)作为体系支撑采用SO19、A面向服务架构使系统具有集成性、灵活性、扩展性,不但能满足现阶段的业务要求,而且能适应未来业务的发展和新技术发展的要求,实现随需应变。SOA在数据、应用之间建立了一个独立的服务交易“市场”,便于“数据、应用”间服务交易。数据和应用都将不同粒度的服务发布到交换“市场”,使得服务的调用只需要与服务“市场”打交道,而不用直接与服务拥有者打交道。本项目采用SOA面向服务架构,将实现项目相关的各类数据与应用间灵活调用,从而使整个项目可以灵活扩展数据和新的应用。1.4.1.3.2 组件化技术,实现资源复用、快速建设组件是具有某种特定功能的软件模块,它几乎可以完成任何任务。组件以其较高的可重用性产生了一种崭20、新的软件设计思路,它把硬件以芯片为中心的工艺思想恰如其分地融合于软件的分析、设计和施工之中,使得以组件形式开发软件就像搭积木一样容易,组件技术是迄今为止最优秀也是发展最快的一种软件重用技术,它比较彻底地解决了软件开发中存在的重用性、适应性差和周期长等问题。由于政策、市场的变化,环保的业务处理必然要发生变化,而作为业务处理平台的信息系统能否灵活、低成本地随之变化,关系到环保局信息化建设能否与时俱进的问题。虽然采用“参数驱动”方法在一定程度可减少因业务需求改变而对应用软件进行的调整,但是,参数驱动也有许多局限性。例如,在系统设计和开发阶段就把将来的业务需求、业务处理规则所有的变更可能性都考虑周全,21、这既不现实,也不可能。往往在业务需求进行较大调整时,应用软件也必须进行相应的改动。另一方面,应用软件的改动又不允许对正常的业务处理活动产生影响,业务部门在考虑推出经营措施时,经常要考虑业务系统是否提供技术支持,这就是“技术导向”型业务系统的弊端。如何使应用软件能根据业务需求的变化进行调整,真正使信息系统从“技术导向”型转变为“业务导向”型,采用组件(构件)技术和软件总线技术是解决上述问题的有效手段。1.4.1.3.3 微服务技术实现快速接入、集中迭代和监测随着业务规模的扩张,为了满足业务对技术的要求,技术架构需要从单体应用架构升级到分布式服务架构,来降低技术成本,更好的适应业务的发展。为了推行22、服务化,必然需要一套易用的服务框架,来支撑业务技术架构升级。微服务技术是一项在云中部署应用和服务的新技术。围绕微服务的争论都集中在容器或其他技术是否能很好的实施微服务,而API是重点。微服务可以在“自己的程序”中运行,并通过“轻量级设备与HTTP型API进行沟通”。关键在于该服务可以在自己的程序中运行。通过这一点可以将服务公开与微服务架构(在现有系统中分布一个API)区分开来。在服务公开中,许多服务都可以被内部独立进程所限制。如果其中任何一个服务需要增加某种功能,那么就必须缩小进程范围。在微服务架构中,只需要在特定的某种服务中增加所需功能,而不影响整体进程。微服务的核心是服务调用,分布式服务架23、构中的服务分布在不同主机的不同进程上,服务的调用跟单体应用进程内方法调用的本质区别就是需要借助网络来进行通信。微服务不需要像普通服务那样成为一种独立的功能或者独立的资源。定义中称,微服务是需要与业务能力相匹配,服务粒度越粗,就越难以符合规定原则。服务粒度越细,就越能够灵活地降低变化和负载所带来的影响。然而,利弊之间的权衡过程是非常复杂的,要在配置和资金模型的基础上考虑到基础设施的成本问题。微服务技术特点:1、耦合类功能服务化微服务将各系统中的日志、统计、监测、用户、机构、消息等耦合率高的功能进行集中服务化,为各系统提供相关服务的集中调用,减少集约化进程中各系统的重复开发。2、接入和迭代敏捷化微24、服务提供与各类系统接入和迭代的标准化服务,实现各类系统在平台上统一便捷的接入、管理和迭代,从而降低接入和开发周期,提升整体集约化的建设运维能力。3、监测和运维统筹化微服务支持对已接系统间数据和业务的交换、管理、统计、调用、安防等各方面进行统筹设计规划,实现对监测和运维环节的统一管理,便于管理者及时了解集约化各系统服务的运行数据和状态。4、异构类系统集成化微服务支持对Java、.NET、Python等异构语言开发的各类异构系统进行功能集成接入,实现各系统与平台的无缝接入,降低集成开发难度,提升功能整合效率。微服务实现各类同构和异构系统的快速接入、集中迭代和集中监测,并对系统生命周期中的接入标准、25、敏捷开发、分布式部署、监测范围、安全防护等进行统一标准化管理。1.4.1.3.4 大数据数据处理技术常用的挖掘方法有分类、回归分析、聚类、关联规则、神经网络方法、Web数据挖掘等。这些方法从不同的角度对数据进行挖掘。(1)分类分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中,可以应用到涉及应用分类、趋势预测中。(2)回归分析回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。(3)聚类聚类类似于分类,但与分类的目26、的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。(4)关联规则关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二阶段为从这些高频项目组产生关联规则。(5)神经网络神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决信息挖掘的问题。典型的神经27、网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield的离散模型和连续模型为代表;第三类是用于聚类的自组织映射方法,以ART模型为代表。虽然神经网络有多种模型及算法,但在特定领域的信息挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。(6)Web信息挖掘Web信息挖掘是一项综合性技术,指Web从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P看做是输出,那么Web挖掘过程就可以看做是从输入到输出的一个映射过程。1.4.1.328、.5 5G技术提升“天空地”一体化监测5G即第五代移动电话行动通信标准,也称第五代移动通信技术,外语缩写:5G。也是4G之后的延伸,目前已经在部分国家已经有商用推广。国内预计2019年发放运营牌照。5G网络的理论下行速度为10Gb/s(相当于下载速度1.25GB/s)。利用5G的低功耗大连接场景,整合省内,涵盖空气、水、生态、土壤、近岸海域、噪声、污染源等多领域的监测网络,为环境管理提供技术支撑。利用5G的高带宽,低时延场景,提升航空感设备的实时性。对单体环境事件和地方层面、局部区域实施的几乎无延迟的航空遥感监测。同时配合卫星遥感监测和现场采样监测开展了“天空地”同步监测,为环境应急管理提供了29、重要技术支持。1.4.2 详细建设方案1.4.2.1 感知平台近年来,张家界林业局感知体系已有基础,感知手段也呈现多样化的趋势,同时,连接设备量巨大、环境复杂、用户多元等问题也更为突出。连接灵活、规模扩展、数据安全、应用开发简易、操作友好等平台能力也成为未来平台的主要发展方向。张家界林业局物联网设备管理平台是制定统一的业务管理平台规范,实现对环境感知设备的统一接入、统一管理、统一运营。本平台项目建设主要内容包括连接管理、物模型、产品管理、设备管理、应用使能、运营管理、控制台、安全感知系统等功能。针对环境监测业务多样性的特点,提供完整的设备生命周期管理功能,支持支持设备注册、功能定义、数据解析、30、数据可视化、在线调试、远程控制、固件升级、远程配置、实时监控、设备日志、设备删除、设备黑名单等功能。1.4.2.1.1 设备注册注册设备信息,包括设备名称、设备ID信息。1.4.2.1.2 数据可视化将解析后的设备上发数据以图表的方式进行可视化展现。l 支持自定义时间跨度。l 支持自定义哪些设备上报的数据进行可视化展现。l 支持多种图表展现,如:柱状、折线、饼图等。l 支持展现设备地理位置分布图。l 支持按单设备展现360视图。l 支持群组设备上报数据的聚合展现。1.4.2.1.3 远程控制基于平台的远程控制能力,对单个设备或者海量设备下发命令控制。1.4.2.1.4 固件升级当设备使用的通信31、模块或者MCU有新版本需要升级时,可通过平台上传升级文件,设置升级规则,对设备进行远程OTA升级。升级方式包括:l 手动升级:规则创建后,需要在应用升级页面中,手动点升级按钮,一台一台升级。l 强制升级:规则创建后,当前版本为待升级版本的设备,都会自动升级成最新的MCU版本。l 灰度升级:选择后会出现“升级数量”设置项,设置为n后,表示规则创建后,会在满足升级版本的设备中随机挑选n台设备进行升级,一般用来进行小批量MCU升级测试用。l 添加设备id:仅手动升级、强制升级可以设置,用来指定要升级的设备,设置后,仅添加了id的设备才能升级到新版本。1.4.2.1.5 远程配置基于平台提供的远程配置32、能力,对海量设备下发配置文件。1.4.2.1.6 实时监控通过平台查看设备连接状态和参数状态,实时知晓设备运行时数据,监控设备并排除问题。1.4.2.1.7 设备日志存储并提供设备全链路日志数据,按时间和设备ID进行查询过滤。可查询的日志信息主要包括设备运行状态、设备运行日志及设备告警日志等。1.4.2.1.8 设备删除通过平台删除注册的设备,支持单个删除或者批量删除。1.4.2.1.9 设备黑名单管理通过平台拉黑部分设备,按设备ID进行过滤。1.4.2.1.10 运维管理运维管理平台,实现对第三方运维公司的全面全过程管理,实现第三方运维单位的备案管理、运维合同管理,建立日常运维管理过程的全过33、程信息化支撑机制,包括日常运维管理、质量控制管理、故障维修管理、停运启用管理、档案管理等,实现对第三方运维公司的督办管理、考核统计分析等应用。1.4.2.2 数据支撑平台项目基于数据支撑平台构建全域数据的能力共享中心,提供数据采集、存储、融合、治理、服务等全链路一站式服务,构建面向业务应用的数据智能服务平台。本项目新建数据支撑平台,包括数据源、数据集成、数据存储、数据引擎、数据融合、数据服务以及管理&运维7部分组成,7大部分功能组件弹性组合,进而提供优质、高效的服务。1.4.2.2.1 数据支撑平台总体架构及优势本期项目的数据支撑平台由数据源、数据集成、数据存储、数据引擎、数据融合、数据服务以34、及管理&运维7部分组成。1) 数据源:根据业务需求通过多渠道采集的数据,将环保业务数据、各部门数据、互联网数据自动、及时、完整的清洗、比对按信息资源建设的要求将各库需要的数据对应分类存储。2) 数据集成层(数据资源建设):实现数据的统一汇聚集成,针对于不同的数据类型采用不同的数据集成工具(实时采集工具、离线采集工具、互联网爬虫工具等),采集的数据通过数据的检验、清洗、转换、弥补进行预处理;数据梳理和数据建库,梳理环境业务数据、各部门数据、互联网数据,并根据不同数据存储类型设置不同的数据采集方案,并建立公共基础信息库、业务信息库、成果数据库、共享交换库。3) 数据存储层:将采集的多种林业类型的数35、据分别进行存储,包括结构化数据、非结构化数据、半结构化数据;4) 数据引擎层:对于采集上来的数据,根据业务需要,统一进行分析处理,根据采集数据的频度,即实时性的要求,平台能够提供实时流分析引擎、离线处理引擎、图计算引擎、并行计算引擎、实时检索引擎等的数据计算的能力,用来满足各顶层业务的需要;5) 数据融合层:数据经过采集、清洗、过滤会形成企业的元数据库和基础数据库群;结合具体业务分析处理后,会形成数据模型库、AI算法库、各种专题库、业务库、管理库,提供给上层应用;6) 数据服务层:融合层形成的各种数据,可在系统的内外部进行数据的共享交换,业务相关的数据会通过RESTfulAPI形式提供各业务系36、统调用;7) 管理&运维:包含数据管理和数据运维两大部分: 数据管理包括:数据资产、数据目录、数据质量、数据安全、数据链路、数据存储6大功能 数据运维包括:软件管理、配置管理、故障管理、性能管理、安全管理、租户管理、备份管理7大功能1.4.2.2.2 技术架构图及技术路线1.4.2.2.2.1 分布式文件系统HDFSHDFS是Hadoop的分布式文件系统,实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个37、调用者执行读操作。1.4.2.2.2.2 统一资源管理和调度框架YARN为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。YARN分层结构的本质是ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager将各个资源部分(计算、内存、带宽等)精心安排给基础NodeManager(YARN的每节点代理)。ResourceManager还与ApplicationMaster一起分配资源,与NodeManager一起启动和监视它38、们的基础应用程序。在此上下文中,ApplicationMaster承担了以前的TaskTracker的一些角色,ResourceManager承担了JobTracker的角色。ApplicationMaster管理一个在YARN内运行的应用程序的每个实例。ApplicationMaster负责协调来自ResourceManager的资源,并通过NodeManager监视容器的执行和资源使用(CPU、内存等资源分配)。请注意,尽管目前的资源更加传统(CPU核心、内存),但未来会带来基于手头任务的新资源类型(比如图形处理单元或专用处理设备)。从YARN角度讲,ApplicationMaster是用39、户代码,因此存在潜在的安全问题。YARN假设ApplicationMaster存在错误或者甚至是恶意的,因此将它们当作无特权的代码对待。NodeManager管理一个YARN集群中的每个节点。NodeManager供针对集群中每个节点的服务,从监督对一个容器的终生管理到监视资源和跟踪节点健康。通过插槽管理Map和Reduce任务的执行,而NodeManager管理抽象容器,这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。1.4.2.2.2.3 分布式批处理引擎MapReduceMapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的40、并行运算。概念“Map(映射)”和“Reduce(化简)”,及他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。MapReduce是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的Map和Reduce函数。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键缩小键/值对列表。MapRedu41、ce起到了将大事务分散到不同设备处理的能力,这样原本必须用单台较强服务器才能运行的任务,在分布式环境下也能完成了。1.4.2.2.2.4 分布式数据库HBase数据存储使用HBase来承接,HBase是一个开源的、面向列(Column-Oriented)适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。存储在HBase中表的典型特征:1、 大表(BigTable):一个表可以有上亿行,上百万列;2、 面向列:面向列(族)的存储、检索与权限控制;3、 稀疏:表中为空(null)的列不占用存储空间。1.4.2.2.2.5 数据仓库组42、件HiveHive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取、转化、加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者开发自定义的Mapper和Reducer来处理内建的Mapper和Reducer无法完成的复杂的分析工作。Hive体系结构:l 用户接口:用户接口主要有三个:CLI、Client和WUI。其中最常用的是CLI,CLI启动的时候,会同时启动一个Hive副本。Client是Hiv43、e的客户端,用户连接至HiveServer。在启动Client模式的时候,需要指出HiveServer所在节点,并且在该节点启动HiveServer。WUI是通过浏览器访问Hivel 元数据存储:Hive将元数据存储在数据库中,如MySQL、Derby。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等1.4.2.2.2.6 分布式内存计算引擎SparkSpark是一个开源的,并行数据处理框架,能够帮助用户简单、快速地开发统一的大数据应用,对数据进行流式处理,交互式分析等。Spark具有如下特点:l 快速:数据处理能力,比MapReduce快144、0-100倍l 易用:可以通过Java、Scala、Python简单快速的编写并行应用,处理大数据量,Spark提供了超过80种高层的操作符来帮助用户组件并行程序l 普遍性:Spark提供了众多高层的工具,例如SparkSQL、MLib、GraphX、SparkStream,可以在一个应用中方便的将这些工具进行组合l 与Hadoop集成:Spark能够直接运行于Hadoop2.0集群,并且能够直接读取现存的Hadoop数据。尤其Spark和大数据平台紧密结合,可以通过软件管理部署安装SparkSpark提供了一个快速的计算、写入以及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能45、优势。Spark使用In-Memory计算方式,通过这种方式来避免一个MapReduce工作流中的多个任务对同一个数据集进行计算时的IO瓶颈。Spark利用Scala语言实现,Scala能够使得处理分布式数据集时能够像处理本地化数据一样。除了交互式的数据分析,Spark还能够支持交互式的数据挖掘,由于Spark是基于内存的计算,很方便处理迭代计算,而数据挖掘的问题通常都是对同一份数据进行迭代计算。除此之外,Spark能够运行于安装Hadoop2.0Yarn的集群。之所以Spark能够在保留MapReduce容错性、数据本地化、可扩展性等特性的同时,能够保证性能的高效,并且避免繁忙的磁盘IO,主46、要原因是Spark创建了一种叫做RDD(ResilientDistributedDataset)的内存抽象结构。原有的分布式内存抽象,例如Key-ValueStore以及数据库,支持对于可变状态的细粒度更新,这一点要求集群对数据或者日志的更新进行备份来保障容错性。这样就会给数据密集型的工作流带来大量的IO开销。而对于RDD来说,它只有一套受限制的接口,仅仅支持粗粒度的更新,例如Map,Join等。通过这种方式,Spark只需要简单的记录建立数据转换操作的日志,而不是完整的数据集,就能够提供容错性。这种数据的转换记录就是数据集的溯源。由于并行程序通常是对一个大数据集应用相同的计算过程,因此之前提47、到的粗粒度的更新限制并没有想象中的大。事实上,Spark论文中阐述了RDD完全可以作为多种不同计算框架,例如MapReduce,Pregel等的编程模型。并且Spark同时提供了操作允许用户显示将数据转换过程持久化到硬盘。对于数据本地化,是通过允许用户能够基于每条记录的键值控制数据分区实现的。(采用这种方式的一个明显好处是,能够保证两份需要进行关联的数据将会被同样的方式进行哈希)。如果内存的使用超过了物理限制,Spark将会把这些比较大的分区写入到硬盘,由此来保证可扩展性。1.4.2.2.2.7 全文检索组件SolrSolr是基于ApacheLucene独立的企业级应用搜索服务器。它对外提供了48、类似于REST的HTTP/XML和JSON的API。其主要功能包括强大的全文检索、高亮显示、层面搜索、近实时索引、动态聚类、数据库整合,丰富的文档(如Word中,PDF格式)处理和地理信息搜索等。Solr作为业界优秀的企业搜索服务器具有以下特性:l 先进的全文搜索功能l 优化的高容量网络流量l 基于标准的开放接口XML,JSON和HTTPl 综合的HTML管理界面l 采用JMX监控服务器统计信息l 线性可扩展性,自动索引复制,自动故障转移和恢复l 近实时索引l 采用XML配置达到灵活性和适配性l 可扩展的插件架构1.4.2.2.2.8 全文检索组件Elasticsearch部署Elastics49、earch后,可以进入Elasticsearch集群开始使用Elasticsearch引擎,如定义索引数据、加载数据、搜索数据等。Elasticsearch集群可以包含多个索引(indices)(数据库),一个索引包含一个类型(types)(表),每一个类型包含多个文档(documents)(行),然后每个文档包含多个字段(Fields)(列)。使用Elasticsearch服务中引擎搜索数据的基本流程如下:场景描述第一步:新建集群第二步:定义数据第三步:加载数据建立索引第四步:搜索数据第五步:删除集群1.4.2.2.2.9 流式事件处理StormApacheStorm是一个分布式、可靠、容错50、的实时流式数据处理系统。在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(masternode)分发代码,将任务分配给工作节点(workernode)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数组,对应着固定的键值对。业务处理逻辑被封装进Storm中的topology中。一个topo51、logy是由一组Spout组件(数据源)和Bolt组件(逻辑处理)通过StreamGroupings进行连接的有向无环图(DAG)。Topology里面的每一个Component(Spout/Bolt)节点都是并行运行的。在topology里面,可以指定每个节点的并行度,Storm则会在集群里面分配相应的Task来同时计算,以增强系统的处理能力。1.4.2.2.2.10 流处理引擎FlinkFlink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(52、DataProcessing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。Flink整个系统包含三个部分:n ClientFlinkClient主要给用户提供向Flink系统提交用户任务(流式作业)的能力。n TaskManagerFlink系统的业务执行节点,执行具体的用户任务。可以有多个TaskManager,各个TaskManager都平等。n JobManagerFlink系统的管理节点,管理所有的TaskManager,并决策用户任务在哪些Taskmanager执行。JobManager在HA模式下可以有多个,但只有一个主JobManager。Flink系统提供的53、关键能力如下:n 低时延提供ms级时延的处理能力。n ExactlyOnce提供异步快照机制,保证所有数据真正只处理一次。n HAJobManager支持主备模式,保证无单点故障。n 水平扩展能力TaskManager支持手动水平扩展。1.4.2.2.2.11 分布式消息队列KafkaKafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集以及其他大量数据的互联网服务的数据收集场景54、。1.4.2.2.2.12 分布式高速缓存RedisRedis(RemoteDictionaryService),是C语言编写的高性能Key-Value内存数据库,支持多种数据类型,包括string(字符串)、list(链表)、set(集合)、zset(有序集合)、hash等。Redis集群模式具有更多优点,适合生产环境使用。n 向导式创建Redis集群系统支持一主一从模式的Redis集群,系统自动计算节点上可安装的Redis实例个数并分配主从关系。n 集群扩缩容当集群需要提供大规模的处理能力时,可以一键式扩容一对或多对主从实例。在此过程中,系统会自动完成数据迁移和数据平衡,用户无需其他操作。55、n Balance出现扩容异常、部分实例掉线等异常场景时,Redis集群中的数据可能会分布不均匀,此时可以通过管理界面上提供的Balance功能,让系统自动对集群数据进行平衡,保证集群的健康运行。n 性能监控与告警系统提供Redis集群的性能监控功能,可以通过直观的曲线图方式,了解当前Redis集群、实例的TPS吞吐量情况。n 集群可靠性保证在创建Redis集群的时候,能够自动将同一组主从实例安排在不同节点上,同时在进行扩容和减容的操作时,仍然会保证该原则。这样可以保证集群内任意一节点发生故障,都能够通过主从实例倒换来保证业务不中断。n 优化集群性能内置了OS层、应用层的性能调优;比社区版性能56、更好,此调优开箱即用,不需额外开发、操作。1.4.2.2.2.13 架构优势平台提供基于分布式架构的数据抽取、数据清洗、数据转换、数据加载和数据存储能力,满足对海量异构数据采集和处理的需求,实现数据整合,成为联机分析处理、数据挖掘等大数据应用的基础,为上层环保大数据应用提供有效的数据资源支撑。数据支撑平台与周边系统关系图如下:数据支撑平台与周边系统关系图l 强大的数据源适配能力数据支撑平台基于强大的数据源适配能力,支持从关系型数据库(如MySQL、Oracle、SQLServer、PostgreSQL等)、NoSQL数据存储,如HBase、Phoenix、MongoDB、Hive等、非结构化数57、据存储,如TXT文本、FTP、ElasticSearch、HDFS等、时间序列数据库数据存储,如OpenTSDB等、接口数据(Restful、Webservice)等不同数据源抽取数据,实现对多源异构数据的汇聚融合。l 全面的数据资产管理提供数据资产管理,数据目录管理,数据质量管理,数据安全管理,数据链路管理,数据存储管理等功能实现对环保数据资产进行全面有效的管理。l 数据对内交换对外开放数据支撑平台支持环保内部进行数据交换,实现数据跨部门、跨系统的互联互通,促进数据流通。基于体系化的大数据安全管控能力,通过标准化的数据模型和开放接口使数据安全可控地对外开放,释放数据价值。1.4.2.2.3 58、数据源根据林业业务的需求,通过多渠道采集的数据,本项目把数据来源分为两类:林业内部数据;林业外部数据。1.4.2.2.3.1 林业内部数据本项目针对环境内部数据进行环境内部数据分类体系进行设计,环境内部数据来源于相关的环境管理业务,分为两大类,一类是基础业务数据,另一类是主题数据。l 基础业务数据基础业务数据一般为水环境,气环境,土壤,污染源等林业基础业务数据。数据是分散的,反映某一业务管理领域的问题,需要进行加工和整合,实现数据的标准化,解决数据统计口径不一致、一数多源、冲突和冗余问题,提高数据的准确性、可靠性、一致性和可用性,提供唯一真实可信的数据视图。l 主题数据主题数据是根据数据分析的59、需要,对基础业务数据在一定层次上进行归纳和综合而形成的。主题是一个抽象的概念,对应于业务应用中某一宏观分析领域所涉及的分析对象,它在较高层次上对分析对象的数据进行一个完整、一致的描述,定义和揭示各个分析对象所涉及的业务各项数据及数据之间的联系。1.4.2.2.3.2 林业内部数据林业外部数据包括外委办厅(局)环境相关数据以及互联网公开数据。获取的外委办厅(局)数据包括:自然资源、住房城乡建设、交通运输、工商、税务、水利、农村农业、卫生、林业、气象等部门和单位的数据。互联网数据主要包括林业相关公开数据、气象公开数据及互联网舆情数据。1.4.2.2.4 数据集成数据支撑平台立足于张家界市海量环保数60、据,从不同数据源进行数据采集,主要包括的功能模块有离线数据同步,实时数据采集,互联网数据采集等。采集完数据后,对数据进行校验,转换,清洗及弥补。同步进行数据梳理和数据建库,梳理环境业务数据、各部门数据、互联网数据,并根据不同数据存储类型设置不同的数据采集方案,并建立公共基础信息库、业务信息库、成果数据库、共享交换库,实现数据集成,形成可使用的基础数据能力。1.4.2.2.4.1 离线数据同步随着林业相关应用的复杂度不断提高,业务系统往往需要与离线终端的数据产生交互;离线数据同步能够实现各种异构数据源之间高效的数据同步功能,并可实现每接入一套新数据源,该新加入的数据源即可实现和现有的数据源互通。61、系统支持的数据源包括:1. RDBMS关系型数据库数据存储,如MySQL、Oracle、SQLServer、PostgreSQL等;2. NoSQL数据存储,如HBase、Phoenix、MongoDB、Hive等;3. 非结构化数据存储,如TXT文本、FTP、ElasticSearch、HDFS等;4. 时间序列数据库数据存储,如OpenTSDB等。离线同步数据集成工具提供对业务方数据库进行抽取监控的功能,对数据源头的数据资源能够进行统一清点,并能够在复杂网络情况下对异构的数据源进行数据同步与集成,系统支持离线数据的批量、全量、增量同步,支持分钟、天、小时、周、月来自定义同步时间。离线数据采62、集工具可以实现多种数据类型的导入导出,实现的具体流程如下图:离线数据同步工具具备如下功能:n 数据导入设置:支持多种数据源类型的导入设置,包括MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、Spark、ElasticSearch等n 数据导出设置:支持多种数据源类型的导出设置,包括MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、Spark、ElasticSearch等n 数据同步任务管控:可以提供作业全链路的流量、数据量、脏数据探测和运行时汇报n 传输加速:工具支持单通道插件性能优化,可充分63、使用单机网卡能力,并使用分布式模型架构,可保障数据吞吐量水平扩展n 同步插件:采集不同的数据时,支持以插件的方式部署采集工具至数据源端的服务器,完成数据信息的同步采集工作n 同步方式设置:工具支持批量、全量、增量等多种同步机制n 同步时间设置:工具支持按照分钟、天、小时、周、月、自定义的时间开始同步任务n 容错处理功能:发起的采集任务时,可以选择容错功能,支持线程级别、进程级别、作业级别多层次局部/全局的重跑1.4.2.2.4.2 实时数据采集实时数据采集主要用在数据流处理的业务场景,并将采集到的数据写入分布式消息系统,采集的数据格式包括文件、数据库、网络数据流等。实时数据采集的时延通常控制在64、30s以下。实时数据采集支持由客户端通过调用服务端RESTfulAPI主动推送,也支持由系统自动拉取用户指定的URI上标记的数据。系统的吞吐量的可通过简单增加服务器数量扩容,以此来应对未来业务不断增长的需要。实时数据采集和后端流计算引擎无缝对接,也可以将采集到的数据落地到离线分布式存储系统中。实时数据采集工具是一个分布式、可靠、和高可用的海量数据采集、聚合和传输的系统。支持在工具中定制各类数据发送方,用于收集数据;同时,工具支持对数据进行简单处理。实时数据采集工具运行的核心是虚框中的组件部分。虚框中的部分是一个最小的独立运行单位,也组成了一个完整的数据收集工具,系统支持伴随采集数据量的增大,形65、成由多个虚框组成的并行任务,以适应大采集量的工作需求。工具含有三个核心组件,分别是:Source、Channel、Sink。通过这三个组件,Event可以从一个地方流向另一个地方,架构如下图所示:Source捕获事件后会进行特定的格式化,然后Source会把事件推入(单个或多个)Channel中。可以把Channel看作是一个缓冲区,Channel将保存事件,直到Sink处理完该事件。Sink负责持久化数据或者把事件推向另一个Source。实时采集工具的可靠性保障:当节点出现故障时,数据能够被传送到其余节点上而不会丢失。工具提供了三种级别的可靠性保障,从强到弱依次分别为:1) end-to-e66、nd:收到数据Agent首先将Event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送;2) Storeonfailure:是Scribe采用的策略,当数据接收方Crash时,将数据写到本地,待恢复后,继续发送;3) Besteffort:数据发送到接收方后,不会进行确认。实时采集工具的可恢复性:依靠Channel,推荐使用FileChannel,事件持久化在本地文件系统里,但性能较差。1.4.2.2.4.3 互联网数据采集互联网数据采集设计使用网络爬虫工具,爬虫工具按照一定的规则从各主要信息源获取数据,支持图片、音频、视频等文件或附件的采集,形成互联网数据获取和处理能力67、,动态采集并存储至数据中心。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。基于开源爬虫,优化对开源版本数据结构的设计,优化爬取线程池、优化任务队列,能满足大多场景的互联网数据爬取。爬虫工具具备的功能点如下:n 站点管理:支持对目标站点的管理n 页面管理:支持对页面类型,如列表页、详情页的管理n 插件管理:支持自定义动态插件,并对其进行管理维护n 模板管理:可视化模板标定,标定采集页面具体的内容n 任务监控l 对采集任务执行情况进行监测l 采集任务发生异常,及68、时告警l 通过组合各种查询条件,如:任务名称、状态、采集时间等,查询采集任务1.4.2.2.4.4 数据校验数据校验包括数据采集、数据加载、数据分发等过程中的数据校验。在数据采集过程中通过对数据源与目标数据库之间的数据进行对比分析,从而进一步来分析、发现与解决在数据抽取过程可能产生的异常错误信息。数据校验功能点:n 数据校验记录文件获取与信息解析获取数据抽取过程中的记录文件,并对信息记录进行解析与提取,为后续分析提供输入数据。n 提供丰富的数据校验手段l 支持数据文件级校验l 支持数据文件分隔符校验l 支持记录级校验;包括但不限于:格式校验、类型校验、取值范围校验、长度校验、非空校验、字段关系69、校验、异常值校验、按照用户定义的逻辑规则校验等n 提供灵活的数据校验规则设置l 支持对数据校验规则进行灵活定义,可以自定义数据校验规则结构l 提供图形化数据校验规则设置功能,允许对校验规则进行维护、优化等处理n 依托数据校验提供全面的数据质量监控管理l 能够根据设置的数据校验与监控规则或算法,对需要进行校验的数据进行采集后执行相应校验检查,并依据稽核和检查过程中发现的数据质量异常情况进行告警过程数据校验从校验对象细粒度维度分析,支持文件级校验与记录级校验二大类。数据校验模块还内置了部分的数据检查功能,如数据唯一性检查、完整性检查。数据校验内容有类型、长度、是否为空、精度、范围、格式等信息。如果70、数据不符合,会进行过滤,只有正确的数据才能继续使用。对于错误的数据,可以进行输出,包括错误原因和错误字段序号等信息。相关的错误类型和数量等统计信息也会绑定到流程变量中,以便后续节点进行判断使用。1.4.2.2.4.5 数据清洗转换数据清洗转换指对前端采集的数据进行清洗与转换处理,包括数据过滤、数据剔重、类型转换、编码映射、文件拆分与合并、维度转换等功能。数据清洗转换的任务主要是进行不一致的数据转换、数据粒度的转换、数据去脏和一些转换规则的计算。其中不一致转换过程是数据整合的过程,侧重于将来源于不同业务系统的相同类型的数据进行统一处理;数据粒度转换需要对数据进行统一归整;转换规则计算按照设计的计71、算规则对数据进行重新计算。系统支持批量清洗和实时清洗,针对批量离线数据进行分布式并行清洗转换,针对实时数据进行不落地清洗转换。n 转换规则配置数据清洗系统提供数据转换规则配置,以图形化的界面来实现灵活的数据处理规则配置,主要提供的数据转换规则设置包括:对数据进行计算、合并、拆分的规则配置、对空值替换规则的配置、对数据格式化规则的配置等。n 处理过程记录数据清洗系统提供数据处理过程记录功能,支持对数据处理过程的日志进行记录,记录的信息主要包括:元数据记录、转换后数据记录、运用的转换规则、转换的时间等内容。n 数据转换组件数据清洗系统提供丰富的数据转换处理组件,主要包含如下:l 支持任意合理的数据72、格式转换,包括但不限于:时间类型的转换、字符编码转换、数据类型转换l 支持统一编码映射,为了保障数据的一致性,需要对不同来源的数据进行统一的编码,如公民唯一标识,各种纬度参数等l 支持多字段的混合运算,运算规则可灵活配置,包括但不限于:sum、max、min、avg等l 支持各种字符操作,包括但不限于:字符替换、字符截取、字符连接l 支持数据粒度的转换l 支持数据格式化,包括时间、数值、字符、计量单位等数据l 支持复杂条件过滤,过滤条件可灵活配置l 支持数据去重处理,可按照用户定义的规则自动判断重复数据,并按照用户定义的规则处理重复的数据l 支持记录间合并、支持将一条记录按照可配置的规则拆分为73、多条记录l 支持行、列变换l 支持数据清洗及标准化l 支持处理过程支持各种字符集的转换等1.4.2.2.4.6 数据弥补针对有规律采集的林业数据,根据其历史采集数据,进行数据补全,保证其数据完整性,为下阶段进行业务建模或算法计算打基础。1.4.2.2.5 数据存储1.4.2.2.5.1 结构化数据存储结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,可以通过关系型数据库进行存储和管理,也可以使用其他NoSQL数据库等存储。数据支撑平台提供结构化数据资源池,提供关系型数据库,实现对结构化数据的统一存储和管理,对外提供统一的数据视图和数据访问服务。1.4.74、2.2.5.2 半结构化数据存储和普通纯文本相比,半结构化数据具有一定的结构性,OEM(ObjectexchangeModel)是一种典型的半结构化数据模型。半结构化数据一般有两种存储方式:第一种存储方式:将半结构化数据处理成为结构化数据,然后供调用和访问。这种方式的优点为结构化数据查询比较方便,但缺点为不适应数据的扩展,不能对扩展的信息进行检索。第二种存储方式:用XML格式来存储。XML非常适合存储半结构化数据,只需要将不同类别的信息保存在XML的不同的节点中即可。这种方式的优点是能够灵活的进行扩展,缺点是查询的效率比较低。数据支撑平台提供面向列的、适合存储海量半结构化数据的、具备高可靠性、75、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统,实现对半结构化数据的统一存储和管理,对外提供统一的数据视图和数据访问服务。1.4.2.2.5.3 非结构化数据存储非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。数据支撑平台会建立非结构化数据资源池,提供面向列的,适合存储海量非结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统,实现对非结构化数据的统一存储和管理,对外提供统一的数据视图和数据访问服务。1.4.2.76、2.6 数据引擎数据是负责整合数据支撑平台内的数据进行加工,采用分析,算法等数学方式把数据以有效的方法加工并输出。1.4.2.2.6.1 离线批处理引擎离线计算,通常是指对海量数据做分析和处理。离线计算对处理的时间要求不高,但是所处理数据量较大,占用计算存储资源较多,通常通过MR或Spark或SQL作业实现。离线批处理引擎的特点:l 支持多种数据源,多种数据加载方式l 多租户(资源隔离和数据权限),避免租户间资源抢占和越权访问l 大规模集群能力l 兼容开源离线批处理引擎的功能:l 支持创建丰富的作业类型,例如Spark、Hadoop、SparkSQL和Shell等,实现用户的日志分析、数据仓库77、商业智能、机器学习和科学模拟等业务需求。用户根据实际情况选择作业类型后,可定义要执行的命令以及执行失败后的策略。同时,还可以克隆、修改和删除作业l 支持创建灵活的执行计划。执行计划是一组作业的集合,支持在一个现有的离线批处理集群上运行,也支持动态按需创建出一个临时集群来运行作业。通过配置调度策略,可以被一次性或者周期性的执行。执行计划最大的优势就是执行多少作业就用多少资源,最大化的节省资源l 提供交互式工作台。提供在管理控制台直接编写并运行Spark、SparkSQL等任务的能力,可以在工作台直接看到运行结果。交互式工作台适合处理运行时间较短、想要直接看到数据结果、调试性质的任务,对于运行时78、间很长、需要定期执行的任务应使用作业和执行计划功能l 报警管理。支持将执行计划和报警接收组进行关联。在执行计划管理页面打开“报警通知”后,当执行计划执行完成时,关联的报警接收组中的联系人,都将会接收到短信通知。短信内容包含执行计划名、作业的执行情况(成功多少、失败多少)、对应的执行集群名以及具体的执行时长信息离线批处理引擎的应用场景:l 离线数据分析l 海量数据在线分析1.4.2.2.6.2 实时流分析引擎实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。流计算79、是一种持续、低时延、事件触发的计算任务,使用流计算的顺序如下:1、 提交流计算任务;2、 等待流式数据触发流计算任务;3、 计算结果持续不断对外写出。流计算是一个实时的增量计算平台,其能提供类似SQL,通过MRM(MapReduceMerge)计算模型完成增量式计算。流计算具有比较完善的FailOver机制,能保证在各种异常情况下数据的精确性。实时流分析引擎的功能:n 数据采集和存储需要有实时的流(视频流、图片流等各种实时的流)采集进入数据中台。n 数据开发提供全托管的在线开发平台,集成多种SQL辅助功能,包括SQL语法检查、SQL智能提示和SQL语法高亮等支持SQL版本管理,包括代码辅助、代80、码版本。支持使用标准SQL进行实时数据清洗、统计汇总、数据分析,支持通用的聚合函数,支持流数据和静态数据关联查询。提供一整套数据存储管理的便捷工具,用户通过在“开发”注册数据存储,即可享受到多种遍历的数据存储服务,包括数据预览、DDL辅助生成。支持使用标准SQL进行实时数据清洗、统计汇总、数据分析,支持通用的聚合函数,支持流数据和静态数据关联查询。n 数据运维流计算提供以下运维监控功能:作业状态、数据曲线、FailOver、CheckPoints、JobManager、TaskExecutor、血缘关系和属性参数。n 监控报警了解流处理业务的运行状况和健康度,并及时收到异常报警做出反应,保证应81、用程序顺畅运行。应用场景对实时流处理引擎的要求是:l 处理速度快:流处理平台负责的数据采集和数据处理要在秒级完成l 高数据吞吐:需要在短时间内接收并处理大量数据,单节点吞吐量可达到每秒几十兆l 高可靠性:网络、软件等故障发生时,需保证每条数据不丢失,数据处理不遗漏、不重复l 高扩展性:处理能力出现瓶颈后,可通过节点的水平扩容提高处理性能l 多数据源支持:支持实时数据流、文件、数据库表、IoT等格式的数据源。对于文件数据源,可以处理增量数据的加载1.4.2.2.6.3 AI引擎数据支撑平台可以提供的AI能力如下:n 图像识别:包括人脸识别(1:1,1:N)和车牌识别n 自然语言处理(NLP):包82、括分词、文本分类、情感分析、命名实体识别可以提供的AI能力如下:n 语音识别:ASR语音转文本,TTS文本合成语音n 图像识别:身份证识别、票证识别、人体/车辆属性结构化、ReID、物体检测1.4.2.2.6.4 图计算引擎GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理。GraphX是图计算引擎,而不是一个图数据库,提供了强大的计算接口,可以很方便的处理复杂的业务逻辑。支持倒排索引,推荐系统,最短路径,群体检测等。1.4.2.2.6.5 并行关系型分析引擎并行分析83、引擎主要为分析人员提供任务级并行分析框架,对TB级的数据进行有效分析,并输出计算结果。并行化分析引擎包括数据抽取、数据分组、算法调度、资源管理、日志收集和结果管理模块。底层提供R、M/R的分析执行环境,基于分析执行环境提供并行化分析执行框架,支持分析脚本的定制化开发。并行分析引擎就是采用MPP架构的关系型数据库集群,同传统的关系型数据库一样,通过标准SQL就可以对并行分析引擎中的数据进行访问存取。并行分析引擎的组件分成三个部分Master/Segment以及Master与Segment之间的高效互联技术GNET。其中Master和Segment本身就是独立的数据库Server。不同之处在于,M84、aster只负责应用的连接,生成并拆分执行计划,把执行计划分配给Segment节点,以及返回最终结果给应用,它只存储一些数据库的元数据,不负责运算,因此不会成为系统性能的瓶颈。Segment节点存储用户的业务数据,并根据得到执行计划,负责处理业务数据。也就是用户关系表的数据会打散分布到每个Segment节点。当进行数据访问时,首先所有Segment并行处理与自己有关的数据,如果需要Segment可以通过进行Interconnect进行彼此的数据交互。Segment节点越多,数据就会打的越散,处理速度就越快。通过增加Segment节点服务器的数量,并行分析引擎的性能会成线性增长。并行关系型分析引85、擎的适用场景:适用于需要关系型数据库的业务,并要求查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,并行分析引擎主要适用于面向分析类的应用。如构建大型企业级ODS/EDW,或者数据集市等。1.4.2.2.6.6 实时搜索引擎实时搜索通常是指数据实时写入,对海量数据基于索引主键实时查询,对查询的响应要求较高,查询条件相对比较简单。查询条件复杂的可以根据关键词在全域数据中通过索引搜索主键后,通过主键查询。实时搜索的特点是:l 查询的响应时间要求较高l 查询处理的数据量大l 支持同时处理结构化和非结构化数据l 支持全文检索实时检索引擎86、的功能是:l 引擎支持分布式集群,提供运维平台页面监控集群、节点,索引的运行情况l 搜索管理:平台为搜索管理提供配置功能,包括索引配置管理、结构定义、索引重建等l 支持全文搜索,通过RESTfulAPI方式提供使用,包括搜索功能、排序功能以及统计分析功能l 支持丰富的原生数据采集接口,集成化数据导入工具l 支持服务级别的用户鉴权机制1.4.2.2.7 数据建库数据经过采集、清洗、过滤会形成企业的元数据库和基础数据库群;结合具体业务分析处理后,会形成数据模型库、AI算法库、各种专题库、业务库、管理库,提供给上层应用。1.4.2.2.7.1 林业元数据1.4.2.2.7.1.1 环境监管数据环境监87、管数据是指环保日常管理中产生的数据资源,包含林业、污染源、监管业务等相关数据各部门数据环境业务与其他机构、行业业务也存在的关联关系,因此,环境数据采集中需要考虑其他各部门相关数据的采集。并且需要做好与安徽省环境信息资源中心、张家界市大数据局数据中心的常态化对接任务。1.4.2.2.7.1.2 互联网数据互联网数据采集内容可包括:1、林业相关公开数据采集使用网络爬虫技术实现对全市的空气质量、水环境、企业自行监测等相关环境数据采集。主要包括林业部网站及周边城市林业管理部门网站公开数据。表1外部林业相关公开数据采集清单序号数据名称数据来源1空气质量小时数据林业部网站2空气质量历史数据林业部网站3空气88、质量日报林业部网站4天气历史数据林业部网站5空气质量排行小时数据林业部网站6空气质量月报林业部网站7空气质量小时数据监测总站8水质周报数据监测总站9水质实时数据监测总站2、气象公开数据采集使用网络爬虫技术实现气象公开数据采集。气象公开数据主要包括气象预报数据和气象实测数据两大类,具体包括温度场、风场、相对湿度、降水、秸秆燃烧等数据内容。整理气象公开数据的数据类型、分类、来源网站名称及地址、数据采集内容以及更新频率等,形成气象公开数据采集清单,根据数据更新频率制定数据抓取时间和周期,使用网络爬虫定时抓取。1.4.2.2.7.1.3 元数据管理元数据作为数据资源重要组成部分,是描述数据间关系的数据89、。记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据进行管理和维护,例如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。元数据管理有助于提高数据中心中数据资源仓库建库质量,促进数据加工的规范化、标准化,实现数据资源共享交换和统一管控,方便用户正确、高效地应用数据。元数据管理需要具备基本信息管理、元模型管理、元数据采集管理、元数据变更管理、元数据发布管理、元数据映射管理、元数据版本管理和元数据检索等功能。元数据的功能框架,如下图所示:1.4.2.2.7.1.4 基本信息管理基本信息管理主要包括元数据业务系统管理和数据源管理。业务系统管理,主要针对业务系统90、进行统一的注册管理,包括业务系统名称、业务描述、联系人等方面信息的维护。数据源管理实现现有数据源和新增数据源的登记和管理,包括数据源类型、数据源IP、连接用户、连接密码、连接源端口等方面信息的维护。1.4.2.2.7.1.5 元模型管理元模型是对元数据的定义,定义了描述某一模型的规范,具体来说就是组成模型的元素和元素之间的关系。元模型符合CWM(公共仓库元模型)规范,同时提供内置数据字典、代码管理等技术元数据和统计指标、业务规则、编码规范等业务元数据,符合数据仓库环境的各类元数据管理模型。元模型可由用户自定义扩展,满足客户化元数据的需求。1.4.2.2.7.1.6 元数据采集管理元数据采集即通91、过适配各类元数据采集协议,将分布在各个业务末端的元数据进行统一采集、集中管理并提供检索功能。元数据采集管理模块支持元数据适配器管理、元数据采集任务配置、调度任务管理、手动导入、采集日志查看等功能。典型的元数据采集适配器如下: Oracle-JDBC适配器:通过JDBC方式采集Oracle数据库的元数据对象。 SQLServer-JDBC适配器:通过JDBC方式采集SQLServer数据库的元数据对象。 MySQL-JDBC适配器:通过JDBC方式采集MySQL数据库的元数据对象。 PostgreSQL-JDBC适配器:通过JDBC方式采集PostgreSQL数据库的元数据对象。 DB2-JDB92、C适配器:通过JDBC方式采集DB2数据库的元数据对象。 Excel-模板适配器:采集指定Excel模板的元数据对象,例如接口对象、业务数据等。 HDFS-文件适配器:采集数据基础平台HDFS文件系统的元数据对象。1.4.2.2.7.1.7 元数据变更管理元数据变更包括技术元数据和业务元数据的变更,其中技术元数据主要是通过元数据采集任务定期的去检测、对比和记录,而业务元数据主要是根据部门管理员/系统管理员在系统中进行变更(新增/修改/删除),从而形成元数据变更记录。1.4.2.2.7.1.8 元数据发布管理元数据通过发布操作形成初始版本,之后历经多次调整变更,达到一个比较稳定的状态后,可发布为93、比较稳定的版本。或者业务系统升级改造前,对元数据的影响会比较大时,也可以批量对元数据对象统一发布新版本。1.4.2.2.7.1.9 元数据映射管理对于业务系统内部的技术元数据对象,可通过采集任务适配器自动建立映射关系,可以通过映射管理建立业务映射关系。而对于采集自各业务系统的业务元数据对象,则可通过元数据映射管理建立关系,打通业务系统之间的壁垒,将当前域中的元数据对象进行统一管理。根据元数据对象的映射关系,便于用户掌握元数据的关联情况及重要程度。1.4.2.2.7.1.10 元数据版本管理元数据通过多次发布后会形成多个版本。元数据版本管理为用户提供元数据版本查询功能,便于用户了解系统中所有已发94、布的元数据版本情况。用户可以对比同一元数据各版本之间的差异,也可以对比历史版本和当前数据的差异,便于用户了解元数据的版本变迁历史。1.4.2.2.7.1.11 元数据检索元数据检索功能为用户提供元数据快速查询以及访问的方式,通过用户输入的关键字和元数据信息进行模糊匹配,列出符合条件的元数据对象。1.4.2.2.7.2 主题库、专题库建设基础地理信息数据库为应用提供基础地理空间数据支撑,可支撑空间定位,地名检索,影像发布等服务林业资源数据库为核心数据库,是智慧林业应用体系建设的基础。林业专题数据库另一重要业务数据库,是智慧林业向互联网+林业延伸的基础。1.4.2.2.8 数据服务数据服务是服务开95、放管理的总入口,负责将中台内的数据,包括元数据库、基础数据库、数据模型库、AI算法库、专题库、业务库、管理库以及制定的数据标准等,提供给上层使用。上层应用开发团队通过数据服务接口文档可以了解平台提供的服务内容。并通过注册应用信息,获取服务访问授权。对外数据接口通常采用RESTfulAPI接口方式,也可以是HTTP、WebService等接口方式。1.4.2.2.8.1 数据API服务数据API服务将对外提供的数据进行封装后,通过统一的服务接口提供多种数据服务,包括:数据服务注册、审核、发布、使用和监控的全流程管理。数据API以标准的RESTful方式提供给业务调用,可能包括:数据应用层模型接口96、消息接口和搜索查询接口(搜索引擎、查询分析引擎)等。1.4.2.2.8.2 数据共享服务数据共享服务主要通过数据访问接口API方式实现。通过数据共享,不同业务系统从数据中台抽取数据到本地业务应用系统中使用。1.4.2.2.8.2.1 数据共享管理数据共享管理主要实现纵向和横向部门之间的数据共享服务的管理工作,主要包括共享资源发布、共享申请审核、审核规则设定、共享信息审计、数据共享门户等功能。整体业务流程,如下图所示:1.4.2.2.8.2.1.1 共享资源发布管理员基于数据资源目录发布数据资源实现共享。发布时可根据资源类型和内容确定共享类型、共享方式等。共享类型包括:完全共享、有条件共享(含97、特定范围共享),有条件共享的应能定义共享条件。共享方式包含:网页浏览、数据下载、接口调用及通过数据交换平台传输等。1.4.2.2.8.2.1.2 共享申请审核用户通过数据共享门户申请获取平台数据资源后,管理员通过平台审核通过,完成资源调度实现数据共享,并登记交换内容、交换频率、限制条件(如某区域、某时段等)等。1.4.2.2.8.2.1.3 审核规则设定用于设置共享审核时限要求及自动审核规则,如超过一定时间后自动通过审核、经多次提醒后自动通过审核、超时不操作则暂停该用户所属单位数据获取权限等。管理员还可以根据申请情况定制共享规则,在接到数据共享申请后,系统根据规则可自动执行审批。例如:对于无条98、件共享数据,则可在接到申请后自动审批。对于特定范围共享的数据,可依据申请用户的权限进行判定,符合条件的自动审批,不符合预定条件的提交管理员审批。1.4.2.2.8.2.1.4 共享信息审计对所有共享的数据进行统一的管理,记录数据基本信息、共享机构、共享时间等信息,并针对数据共享情况支持查询与统计功能。1.4.2.2.8.2.1.5 数据共享门户数据共享门户是面向区域内各级政府部门用户,基于信息资源目录实现查询、浏览以及共享信息资源的浏览、搜索、共享申请等功能。用户可通过数据共享门户进行注册,实现数据资源的申请、浏览、下载。1.4.2.2.8.3 数据交换服务数据交换的核心功能就是将属于不同所有99、者的数据进行交换,在数据大集中的基础上通过“授权”来实现,数据交换的主要逻辑为数据不搬家、敏感非敏感数据在安全可控的环境下进行交换。1.4.2.2.8.3.1 数据交换管理数据交换管理为实现各类业务信息系统互联互通提供数据交换传输通道,定位在数据搬运工,严格做到不干涉业务,与数据结构、数据类型无关。交换管理模块不限于静态数据的传输通道,实现跨区域、跨系统的数据交换及数据资源的统一调度管理,同时还能与其他机构的应用系统之间进行数据共享交换。数据交换整体业务流程,如下图所示:数据交换管理应参考国家政务信息资源交换体系标准,并结合张家界市各单位部门横纵向数据交换的需求,需要包含交换节点管理、交换通道100、申请与审核、交换规则定制、交换通道管理、交换日志管理等功能。功能结构图,如下图所示。1.4.2.2.8.3.1.1 交换节点管理交换节点(即部门前置机或平台前置机)是数据交换通道的基本组成单元,一个节点管理自己相对应的数据源信息。节点通过注册、安装、验证才能建立交换通道。节点提供不同数据源的适配器支持数据交换业务。注册内容包括:节点名称、节点编码、所属部门、节点IP、节点Mac地址、授权码等要求。节点完成注册后,系统根据节点MAC地址生成对应的授权码用于安装校验。1.4.2.2.8.3.1.2 交换通道申请和审核业务系统之间通过数据交换平台交换数据首先需要用户申请交换通道,申请内容包括:交换节101、点信息、更新频率、限制条件(如某区域、某时段等)等要求。周期性交换通道只需申请一次,临时性交换通道按需申请。1.4.2.2.8.3.1.3 交换规则定制为了实现数据交换任务的自动运行,数据交换管理员需要设置交换规则,在接收到用户提交的交换通道申请之后,管理员需要根据申请中的要求,建立数据通道,为满足业务系统多种情况的交换需求,管理员可以定制交换规则。1.4.2.2.8.3.1.4 交换通道管理交换通道创建之后,系统管理员可以对交换通道进行统一管理。可查看通道的基本信息、可用状态、当前作业任务等,也可以手工进行干预通道任务,例如启用、暂停、终止、调整优先级等。1.4.2.2.8.3.1.5 交换102、日志管理数据交换后台在执行数据交换作业时,会将任务执行日志进行统一记录管理,在前台提供了交换日志统一管理页面,方便管理员掌握各交换通道的详细执行记录,对于异常的交换日志,可以发送至系统运维人员快速定位问题原因。1.4.2.2.8.4 数据目录服务针对数据使用者,通过目录展现门户,提供统一的数据目录服务。数据目录服务分两类,一类是内部保密数据的交换共享,有专门的对内服务数据目录;另一类是可以对公众开放的数据共享(包括但不限于表格、文本、图片、多媒体等各类实时与非实时的可公开数据),通过对外的数据目录展示。数据使用者通过目录门户进行浏览查询,申请使用。用户可以按照数据所属部门、行业、主题、标签来搜103、索数据。1.4.2.2.8.4.1 数据目录管理1.4.2.2.8.4.1.1 功能概述数据资源目录是通过对数据目录和数据资源的管理,实现数据资源和数据目录的有效映射,方便用户快速定位共享交换的数据资源。1.4.2.2.8.4.1.2 功能架构1.4.2.2.8.4.1.3 功能设计1.4.2.2.8.4.1.4 数据目录管理数据目录指通过对数据表打标签,抽象标签集的名称、设置标签之间的关系来形成复杂的数据目录结构,典型的如树状或图状。如:表1-洪水传播时间表、表2-湖泊讯限水位,可对表1、表2打标签为“地表”,那么“地表”将成为数据目录树的一个节点。节点之间存在层级关系,父目录与子目录的关系104、是1:N。数据目录仅仅表达逻辑关系,按照不同的业务需求,逻辑可以有多套。数据目录形成的视图,为数据目录树。如:“按行政区”分为省、市、县等;“按机构”分为交通部、应急管理部、生态环保部等;“按业务”分为取水许可、水资源费、水资源管理考核等。数据目录树与数据目录的关系是1:N。主要功能: 对数据目录树进行新建、修改、删除。数据目录树状态可执行操作已关联目录修改未关联目录修改、删除 对数据目录进行新建、修改、删除、发布、变更、下架、查询、查看。数据目录状态可执行操作未发布查看、修改、删除、申请发布已发布查看、变更、下架运营过程中对数据目录的操作都需要走审批流程,项目实施过程中可以省略。是否忽略审批105、流程,靠系统配置开关。1.4.2.2.8.4.1.5 数据目录树新建由数据目录维护者创建数据目录树,填写目录树基础信息,包括:目录树名称、目录树描述。注:目录树名称不可重复。1.4.2.2.8.4.1.6 数据目录树修改由数据目录维护者对数据目录树进行修改,包括:目录树名称、目录树描述。1.4.2.2.8.4.1.7 数据目录树删除由数据目录维护者对未关联目录的数据目录树进行删除。当数据目录树已关联数据目录,不可删除。1.4.2.2.8.4.1.8 数据目录树查询查询数据目录树元数据,第一期只做数据目录树名称上的关键词匹配。通过目录树名称、是否已关联目录进行组合查询。1.4.2.2.8.4.1106、.9 数据目录新建由数据目录维护者创建数据目录基础信息,包括:目录名称、目录树、上级(按照依赖关系)目录、目录描述。注:同级目录下的直接子目录名称不可重复。1.4.2.2.8.4.1.10 数据目录修改由数据目录维护者对未发布的数据目录进行修改,包括:目录名称、上级(按照依赖关系)目录、目录描述。注:因权限控制复杂,一期暂不考虑在修改目录时对“目录树”作修改。1.4.2.2.8.4.1.11 数据目录删除由数据目录维护者对未发布的数据目录进行删除。1.4.2.2.8.4.1.12 数据目录发布由数据目录维护者对未发布的数据目录提交发布申请,支持批量发布数据目录,需注明:发布原因。系统自动呈现目107、录基础信息、发布原因,供数据目录管理者审批该目录发布申请。审批通过后即可发布,即该数据目录可对平台用户可见。1.4.2.2.8.4.1.13 数据目录变更由数据目录维护者对已发布的数据目录提交数据目录变更申请,需注明:变更原因。可变更内容包括:上级(按照依赖关系)目录、目录描述。(注:可根据业务需要定义不可变更项。因权限控制复杂,一期暂不考虑变更目录时对“目录树”作变更)系统自动呈现目录基础信息、目录变更前和变更后的信息、变更原因以及该目录关联的数据资源信息(若目录已关联数据资源则显示),供数据目录管理者审批该目录变更申请。审批通过后即可完成目录变更,变更后的数据目录可对平台用户可见。注:数据108、目录变更的前置条件是数据目录“已发布”“非审批中”。1.4.2.2.8.4.1.14 数据目录下架由数据目录维护者对已发布的数据目录提交下架申请,需注明:下架原因。系统自动呈现目录基础信息、下架原因以及该目录关联的数据资源信息(若目录已关联数据资源则显示),供数据目录管理者审批该目录下架申请。审批通过后即可下架,下架后的数据目录平台用户不可见。注:数据目录下架的前置条件是数据目录“已发布”“非审批中”。若被下架的目录有子目录,则该目录不可下架;若被下架的目录有关联的数据资源,则该目录下架成功,关联的数据资源自动划入目录“未分组”。1.4.2.2.8.4.1.15 数据目录查询查询数据目录元数据109、,第一期只做数据目录名称上的关键词匹配。通过目录名称、状态、是否关联资源进行组合查询。1.4.2.2.8.4.2 数据资源管理数据资源管理包括数据资源、关联目录以及加载数据的管理。当数据资源发布成功后,可对其进行关联目录发布申请和加载数据申请。具体流程如下:主要功能:对数据资源进行新建、修改、删除、发布、变更、下架、关联目录、加载数据、访问、查询、查看。数据资源状态可执行操作未发布查看、修改、删除、发布发布审批中查看已发布查看、变更、下架、关联目录、加载数据、访问变更审批中查看下架审批中查看关联目录审批中查看加载数据审批中查看数据加载中查看运营过程中对数据资源的操作都需要走审批流程,项目实施过110、程中可以省略。是否忽略审批流程,靠系统配置开关。1.4.2.2.8.4.2.1 数据资源新建由数据资源发布者创建数据资源信息,包括数据资源基础信息和表结构。数据资源基础信息指:资源名称、英文名称、责任组织、责任人、资源摘要、数据加载审批类型、是否支持交互查询。表结构指:字段名称、字段类型、描述、是否为分区字段。以下是对数据资源信息相关字段的具体说明: 资源名称:数据资源的中文名称; 英文名称:数据资源的英文名称,作为数据表存储于数据库的名称。表的英文名不能以_tmp和_qc_his结尾;注:资源名称、英文名称均不可重复。 责任组织:数据资源的责任组织单位。默认显示当前数据资源发布者所属组织,支111、持选择。如:作为张家界市林业局A科室的小王,发布张家界市林业局数据,可选择责任组织为张家界市林业局; 责任人:数据资源的责任人。默认显示当前数据资源发布者,支持选择。如:张家界市林业局A科室的小王建表,发布张家界市林业局数据,责任人应该是张家界市林业局资源负责人李总;注:责任组织与责任人必须有对应关系,不能出现李总属于张家界市林业局,他建表时填写李总-张家界市林业局。 资源摘要:对数据资源内容(或关键字段)的概要描述; 数据加载审批类型:由客户结合业务自定义数据加载的审批流程,供资源提供者选择,如:不需审批、出现数据质量问题时审批、必须走审批; 是否支持交互查询:平台的数据资源支持以API方式112、提供交互式查询,即根据查询条件平台完成对应查询条件的全部检索结果的加载统一呈现; 是否为分区字段:通过标识分区字段将不同类型的数据放到不同的目录下,旨在优化查询和数据的更新、删除,提高性能。分区字段不能包含dt_tmp和dt_qc_his分区字段的字段类型必须为string?1.4.2.2.8.4.2.2 数据资源修改由数据资源发布者对未发布的数据资源进行修改,修改内容包括:全部数据资源基础信息和表结构信息。若该数据资源已加载数据且被下架,此时,修改数据资源的表结构信息,比如删除字段、修改字段类型、修改是否为分区字段等,会造成数据资源的表结构信息与已加载数据的不一致。所以系统需给提示“修改会自113、动删除已加载的数据,是否继续?”1.4.2.2.8.4.2.3 数据资源删除由数据资源发布者对未发布的数据资源进行删除。若该数据资源已加载数据且被下架,此时,删除数据资源除了删除数据资源基础信息和表结构信息,还会删除该数据资源已加载的数据。1.4.2.2.8.4.2.4 数据资源发布由数据资源发布者对未发布的数据资源提交发布申请,支持批量发布数据资源,需注明:发布原因。系统自动呈现数据资源基础信息、表结构信息以及发布原因,供数据资源管理者审批该目录发布申请。审批通过后即可发布,且系统会自动生成如何调用该数据资源的API,当平台用户被授权即可通过该API访问数据资源。1.4.2.2.8.4.2.114、5 数据资源变更由数据资源发布者对已发布的数据资源提交变更申请,需注明:变更原因。可变更内容为数据资源基础信息(除英文名称,因变更英文名称会重新生成API,对已被授权的资源消费者使用资源产生影响),不可变更表结构信息。(注:可根据业务需要定义不可变更项)。系统自动呈现数据资源基础信息、表结构信息、数据资源变更前和变更后的信息、变更原因以及关联目录信息、加载数据详情、授权明细(若数据资源已关联目录、已加载数据、已授权),供数据资源管理者审批该数据资源变更申请。审批通过后即可完成数据资源变更,变更后的数据资源可对平台用户可见。注:数据资源变更的前置条件为数据资源“已发布”“非审批中”、关联目录“非115、审批中”,加载数据“非加载中”“非审批中”。1.4.2.2.8.4.2.6 数据资源下架由数据资源发布者对已发布的数据资源提交下架申请,需注明:下架原因。系统自动呈现数据资源基础信息、表结构信息、下架原因以及关联目录信息、加载数据详情、授权明细(若数据资源已关联目录、已加载数据、已授权),供数据资源管理者审批该数据资源下架申请。审批通过后即可完成数据资源的下架,即下架后的数据资源平台用户不可见。注:1、数据资源已关联目录、已加载数据、已授权,若该数据资源下架成功,则数据资源进入“未分组”目录、已加载的数据不作删除但不可访问、被授权的用户不能再访问该数据资源。至此,数据资源状态变为“未发布”、“116、是否关联目录”为“否”,“是否加载数据”为“是”。2、数据资源下架的前置条件是数据资源“已发布”“非审批中”、关联目录“非审批中”、加载数据“非加载中”“非审批中”。1.4.2.2.8.4.2.7 数据资源关联目录由数据资源发布者对已发布的数据资源提交关联目录申请,支持跨目录树关联多个目录。系统自动呈现目录基础信息、申请关联数据资源信息,供目录管理者审批该数据资源关联目录的申请。审批通过后即可发布,数据资源与之关联的目录均对平台用户可见。注:当资源发布者申请数据资源跨目录树关联5个目录,会生成5个资源关联目录的申请给对应的数据目录管理者,此时数据资源为“关联目录审批中”。当全部申请审批完成,不117、论通过与否,数据资源状态更新为“已发布”。1.4.2.2.8.4.2.8 数据资源加载数据由数据资源发布者对已发布的数据资源提交加载数据申请,通过配置数据加载服务,按既定流程启动数据加载。系统自动呈现数据资源基础信息、数据资源访问说明、加载数据质检报告、数据资源授权明细,供数据资源管理者审批该数据资源申请加载的数据。审批通过数据即可加载入库,供资源消费者通过已授权的API访问使用。注:数据资源加载数据的前置条件为数据资源“已发布”“非审批中”、关联目录“非审批中”、加载数据“非审批中”“非加载中”。1.4.2.2.8.4.2.9 数据资源授权由数据资源消费者对已发布的数据资源提交访问申请,需注118、明:访问原因。系统自动呈现数据资源基础信息、数据资源访问说明、数据资源申请访问明细(申请访问组织、访问原因),供数据资源发布者(管理者)审批该资源访问申请。审批通过后则访问授权成功,即数据资源消费者可正常访问该数据资源。注:数据资源申请访问的前置条件为数据资源“已发布”、数据资源访问“未申请”“申请访问审批未通过”。1.4.2.2.8.4.2.10 数据资源授权回收由数据资源发布者(管理者)对已授权访问的数据资源进行授权回收,需注明:授权回收原因。注:数据资源授权回收的前置条件为数据资源“已授权”。一期暂不涉及该功能的建设。1.4.2.2.8.4.2.11 数据资源查询通过各种查询条件组合对数119、据资源进行查询。包括:资源名称、英文名称、状态、是否关联目录、是否加载数据。1.4.2.2.8.4.2.12 内置资源目录为了方便管理,除了用户创建的资源目录外,我们会内置两类目录:1. 基于树状组织模型的资源目录,主要用于分配数据资源的初始管理员权限。2. 基于密级的资源目录,主要用于支撑LabelSecurity。(ptinal)1.4.2.2.9 数据BI展现基于探索式分析,支持智能推荐图形、图表协同过滤、全维度数据钻取,帮助用户快速定位并发现问题。具备丰富的数据分析展示能力,用户可以不断地与数据对话,深入分析信息,直到得到满意的答案。支持多类型数据的接入,通过可视化画布中组件将数据更直120、观的展现出来,其中除基础图表外,产品还提供地理图表,三维图表等炫丽的图表。图表组件可在画布上对其渲染、编排、设置主题等操作。对完成的可视化作品支持权限分享,同时支持不同分辨率及多端展示。采用开放架构,提供可视化组件,可实现快速的PC端、移动端和大屏端可视化页面设计和实现。也可按需融合D3、Polymaps等图表组件及GIS地图工具。l 数据层:主要负责对各种数据源的接入,包含数据库、文本以及实时的数据接口数据等。l 应用层:功能强大的可视化引擎让用户通过简单的拖拽和配置,直观、生动的完成可视化设计,10分钟实现数据可视化展现。可视化产品还可以按照预设置,周期性的读取数据源,实现数据动态刷新。l121、 表现层:灵活适配不同分辨率,不同终端,其中包含大屏端、投影仪、PC端、移动端等。1.4.2.2.9.1 数据源诊断(探索认知)数据探索DEP(DataExplore&Profiling),是集数据探索、认知和画像的通用化的系统,适用于任何数据驱动的项目(Data-DrivenProjects),尤其在数据采集、清洗、整合、治理、分析建模、可视化等方面。DEP可以读取各种数据源的数据,它就像爬虫那样浏览爬取任何指定的数据全集或者数据样本,探索并提取各个数据字段的内容分布、统计、概貌、层次结构、空值率、密度等信息,并将这些信息记录下来,以可视化的视图和表格自动展现出来,从而让用户获取数据的全面认122、知。1.4.2.2.9.1.1 基本探索探索发现每个数据表字段的数据类型,空值率,密度,存储空间长度和实际长度,最小值,最大值等等。1.4.2.2.9.1.1.1 基本数据探索基本数据探索统计能力,主要是通过任务id,探索出某张表中的记录数、字段数以及结果综述。基本数据统计示例,如下图所示:1.4.2.2.9.1.1.2 值分布探索值分布统计探索能力,主要是探索某一表中字段值的分布情况。包括某个表中指定字段记录数最多的值、对应字段的主要内容和稀疏内容(出现频次最高和最低的字段内容)的分布状况等。值分布统计示例,如下图所示:1.4.2.2.9.1.1.3 数值探索探索发现每个数据表字段的更多信息123、,包括但不限于数据类型、空值率(空值的记录数除以整个表的记录数)、密度(不同值的个数除以整个表的记录数)、存储空间长度和实际长度、最小值、最大值等。这些细节信息能提供给用户参考,是否可作为数据挖掘或机器学习的特征变量。数值统计示例,如下图所示:1.4.2.2.9.1.2 层次关系任何两个表字段之间的层次(Hierarchy)关系有一对多、一对一等,如果存在的话,也会被探索计算出来,以图表形式展示出来。举例来说,国家对省、省对市都是一对多的关系,这是基于我们的常识。可是有时候我们获取的数据违背这个常识,例如同一个省属于不同的国家,这就是存在异常数据。这个时候如果我们根据常识创建OLAP(多维在线124、分析)层次结构国家-省-市,必然会造成OLAPCube(多维在线立方体)处理时出错。DEP在对付这一场景时,对国家、省、市是没有概念的,也就是逾越了常识所产生的潜在误导,不被常识牵着鼻子走。它把国家、省、市抽象化,如同数学中的变量X,Y,Z。它深入到X,Y,Z背后的数据内容,真正的拿数据说话来告诉我们XYZ到底存在什么关系。关联和层次关系(一对多)示例,如下图所示:关联和层次关系(一对一)示例,如下图所示:层次关系示例,如下图所示:1.4.2.2.9.1.3 影响力对于一个数据表,选择任何一个目标字段,DEP可以计算出所有其他字段对这个目标字段的影响力(InfluenceLevel),并通过图125、形展示出影响力的对比。影响力是通过一种严密的算法而计算出来的,并且计算是不依赖于数据所代表的业务含义。对每个字段的质量和影响力有个事先的全面认知,在数据挖掘、机器学习的特征变量(Attribute)的筛选上尤其重要。假设目标字段是预测顾客是否购买一个新推出的产品,或者是这个顾客的购买意愿,有几百个特征变量可供筛选。这个时候,在进行数据挖掘建模之前,我们很有必要事先知道每个特征变量对目标字段的影响力,以便筛选出最有影响力的特征变量。1.4.2.2.10 管理与运维随着环保业务的深度发展,数据量及复杂度逐步增大。基于此情况,在数据支撑平台上提供数据管理与运维模块。图:整体功能架构1.4.2.2.1126、0.1 数据管理1.4.2.2.10.2 数据资产管理数据资产管理的作用是以资产的角度开展数据管理工作,有助于多角度、全方位开展数据的管理,落地数据标准,完善数据定义,明确数据安全级别,落实资产责任管理,是实现数据变现的必要前提。数据资产化包含了数据资产梳理盘点和数据价值评估的过程。包括:n 注册管理:支持多种方式注册数据资产,并提供审核及版本控制等功能n 变更管理:支持已注册数据资产信息的变更、审核和更新功能n 审计管理:支持对数据资产的盘点,以及对数据资产使用记录的审计n 数据管理:支持对数据信息进行管控,包括元数据信息的标准补入、数据表的生命周期、新的数据表标准化建设n 类目管理:对数据127、资产进行标准化目录建设,为信息共享、业务系统和数据开放建立基础等功能。数据资产管理会以数据视图的方式展示给使用者,一般用于宏观层面组织信息,以全局视角对信息进行归并、整理,展现数据量、数据变化情况、数据存储情况、整体数据质量等信息,为数据资源管理提供有效支撑。上图就是一个数据资产视图的示例,展示了从源数据库中统计的文件、表、字段数据的总数,并分类别进行统计,展示模型总数、存储总量、记录总数、字段数等关键指标。还可以分类别实现层层下钻,从宏观到微观各个层次的展示数据资产的基本信息,如存储周期、字段数、数据量、热度、数据来源占比和变化趋势等。还能展现各个数据环节数据加工处理流程,通过可视化视图实时128、反映当前各个环节数据处理任务完成情况。1.4.2.2.10.2.1 数据目录管理数据资源目录,能够实现企业数据资源的统一管理和导航,为数据资源服务提供快速便捷的手段和途径。其核心是将数据资源根据语法、语义和语用等规则对信息进行组织,以方便信息的检索。数据资源目录通过编制多种目录种类,形成相互补充、相互联系的有机整体,使用户能够对信息进行方便、准确的检索。数据目录包括对元数据进行:l 分类组织l 分类浏览l 按照层级结构折叠l 提供目录导航方便查询人员搜索l 提供关键词模糊查询,直接定位目标元数据数据资源目录是建立在元数据、数据建模(结构)、数据标准规范的基础之上的。数据目录管理主要功能包括:l129、 收集数据中台内所有可见的数据,按照关联关系、分类组织成目录结构l 提供图形化的目录资源管理器进行数据的统一维护和查询操作l 以数据目录形式,提供在线服务查询索引、服务展示及数据调用功能另外,数据目录可按照不同的分类标准,组织不同的目录结构,同一数据源可属于不同的目录。数据的收集及关联,主要是按不同的数据种类和来源,进一步进行梳理和筛选,按照数据之间的关联关系,生成具体的数据目录信息,包括分类、属性、标签、管理功能集成等。元数据目录收集:收集平台内的元数据条目,以供生成数据目录的基本信息条目和属性。数据标准信息关联:关联元数据引用的数据标准信息,以供生成数据目录的标准关联属性。对数据的来源进行130、梳理和分类之后,就可以进行目录组织和管理操作。在数据目录管理层实现数据目录的如下功能:l 分类组织l 分类浏览l 模糊查询l 统计数据目录的功能说明如下:(1)分类组织管控平台内的元数据和数据目录间可以是多对多的关系,即当目录生成后,与元数据的关联关系,一个目录可以关联一个元数据,也可以关联元数据集,任何元数据都可以被多个目录关联。用户在使用目录时,通过关联的元数据即可查询到对应的数据资源。(2)分类浏览实现数据目录浏览器功能,主要实现按分类和属性的各种维度进行浏览已生成的数据目录。可以按照多个维度进行数据目录浏览(多种维度可以分层组合一起实现多层的目录浏览功能)。(3)模糊查询实现目录查询功131、能,包括多维度目录查询,列表查询,关键词查询。l 多维度目录查询:根据数据资源目录分类的不同维度进行资源目录的查询。按目录分类进行快速检索l 列表查询:通过列表的方式进行资源目录查询l 关键词查询:根据用户输入的关键词、自定义条件,对整个目录进行检索,按匹配程度排序显示查询结果(4)统计实现中台数据目录操作的日志功能,以及数据目录的统计功能,具体包括:l 数据目录总体情况:对各系统、各类别、各数据主题的数据目录数据的总体情况进行统计,包括目录条数、数据量等l 访问数量统计:对各用户、各类别、各数据主题的数据目录被浏览的次数进行统计l 下载数量统计:对各用户、各类别、各数据主题的数据目录被下载的132、次数进行统计1.4.2.2.10.2.2 数据质量管理数据质量管理是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、告警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理是在数据标准和业务规则规定的范围内,依据定义的数据质量标准对数据进行质量检查的过程。依据数据在数据生命周期的各个阶段的特性,建立数据质量控制机制,及时发现并分析数据质量问题,不断改善数据的使用质量,从而提升数据的可用性,实现数据更大的价值。数据质量管理包括如下功能:n 规则配置数据质量模块支持灵活的规则配置,会形成基于133、企业应用的业务模板,拥有完整的数据质量度量标准。模板中提供了波动阈值比较、固定值比较两种度量方式,覆盖字段级、表级规则,包含空值、唯一值、离散值、最大值、最小值、平均值、汇总值等采集方法,且提供了自定义规则适配多样化业务需求。n 自定义规则自定义编写规则表达式。支持标准SQL形式的自定义规则,任意复杂度。规则强弱分类、红橙等级预警。服务将规则按照重要程度划分成强、弱两种,按照偏离预期程度划分成红、橙阈值。当重要的规则严重偏离期望值时能够阻塞数据生产链路,防止脏数据污染下游,保障生产链路的数据正确性。n 数据核查实时数据质量核查根据用户预先配置的核查规则、算法和质量检查度量,对数据的准确性、合理134、性等多角度进行检查,及时发现问题,解决问题。比如:指定取值范围,核查极值异常;指定单调性列,核查单调性异常等等。离线数据质量核查方面,提供RESTful接口,供用户或应用对核查结果进行多维度查询,帮助用户感知数据质量问题。对于核查结果,进行统计分析,形成结果报告,为以后的数据中心建设、实施和维护的改进打下坚实的基础。n 质量告警当出现质量问题触发规则时,对应负责人会收到相应的报警提示,及时对数据质量进行处理优化。n 质量总览为数据质量管理人员提供监控总览情况,用户可展现目前数据质量总体/个人所监控的表的总数、配置的规则总数和今日运行任务情况的统计信息。1.4.2.2.10.2.3 数据安全管理135、数据安全管理功能可对用户行为进行监控,记录行为日志,支持数据溯源和安全审计,记录应用系统重要安全事件,包括事件的日期、时间、发起者等。n 数据权限平台提供专用的登录控制模块对登录用户进行身份标识和鉴别,提供数据权限管理,允许管理员对用户的数据访问权限,如读,写权限进行设置。提供用户访问控制功能,当用户请求数据访问时,对用户身份进行鉴别,并根据其身份和数据访问权限,对其数据访问操作进行限制。n 数据审计数据审计用于监视并记录对数据的各类操作行为,记录数据审计日志,可以快速定位系统是否遭受恶意的操作和攻击,同时便于日后进行查询、分析、过滤,实现对目标数据用户操作的监控和审计。n 安全打标安全打标能136、够实现数据分级分类管理,提升数据安全管理效率。打标工具根据数据类型、安全等级进行标识化,通过预设判定规则实现数据表字段级别的自动化识别和打标。n 数据脱敏企业在使用数据的过程中会产生一部分敏感数据,从保护数据机密性的角度出发,在进行数据展示时需要对敏感数据及逆行模糊化处理。数据脱敏可将这些敏感信息根据脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。1.4.2.2.10.2.4 数据链路管理在数据集成环节,可以通过数据链路管理实现如下功能:l 数据链路各节点设备是否正常l 数据链路网络是否正常l 数据采集作业是否正常执行,有无报错,时延是否正常1.4.2.2.10.2.5 数据存储管理通过对137、服务器、存储、网络的池化和有效管理,为整个平台提供按需获得、即时可取的计算、存储、网络、操作系统及基础应用软件等资源。可实现云平台网络资源的综合监控、管理,实现对外提供虚拟主机资源、存储资源,达到提高服务器存储利用率、运行维护效率和业务系统可靠性,降低整体建设与整合成本。资源池采用统一计算资源、存储资源、数据库集群资源、负载均衡资源进行支撑,后续扩展方案变得非常简单,只需要根据需要向对应的资源区增加硬件即可。管理数据中心资源池,提供虚拟主机资源、存储资源,配置虚拟化软件及结构化和非结构化存储系统,同时存储可以提供结构化(数据块级)和非结构化(应用级)数据的支持,并充分考虑IO压力、存储容量。1138、.4.2.2.10.3 数据运维1.4.2.2.10.3.1 软件管理支持大规模集群软件的快速部署安装/升级/补丁。支持集群部署规划工具,可自动生成安装模板和扩容模板。支持文件分发多点续传,软件包下发给集群中各节点时采用多点续传机制,传输效率不再依赖节点规模。1.4.2.2.10.3.2 配置管理以数据库、作业、算法、质量、变管理为作业主体内容,通过平台搭建实现作业的可视化、规范化、流程化、工具化,具体功能包括:数据抽取清洗算法设置、作业运维和数据质量管理、元数据管理、变更管理、运维工单管理和数据标准化等功能。1.4.2.2.10.3.3 故障管理告警包含故障告警和事件告警:故障告警是指对系统139、正常运行状态的偏离;事件告警指系统运行过程中的通知。事件告警只能被确认,没有清除状态。当被管理的资源池中的资源有故障发生,资源池中的资源将产生活动告警,主动上报管理平台。管理平台接收到告警信息后,会实时展示在管理平台GUI界面上。对于某个资源池中的资源上的同一故障,管理平台将丢弃重复的告警。当管理的资源池中的资源故障恢复后,将实时更新原活动告警的状态为已清除,展示在管理平台GUI界面上。故障管理包含了确认与反确认、清除、过滤、重定义告警级别、统计告警数量的功能。告警信息保存在数据库中,包括:实时展示告警和查询历史告警。当一条故障告警被确认又被清除后,它就会自动被移入历史故障库中。用户可以通过历140、史故障告警查询窗口,来查询这些信息。l 清除告警3GPP定义了两种类型告警,这两种告警的清除方式如下:ADAC告警,系统能够自动检测到该故障的发生,也能自动检测到该故障的修复。对于ADAC告警,资源池中的资源故障恢复之后会主动上报清除告警给管理平台。ADMC告警,系统能够自动检测到该故障的发生,但是当该故障修复后,需要人工清除。对这类故障必须通过手工干预,否则系统无法自行清除。通过此功能,用户可以让ADMC故障变成已清除状态。l 过滤告警日常操作维护人员希望过滤不关心或者不重要的告警,或者被管理业务系统升级、割接时希望过滤一些已知的告警,所以管理平台提供了告警过滤功能。告警网管过滤功能支持在网141、管上过滤告警。当资源池中的资源上报符合过滤条件的告警时。l 用户可以设置告警过滤规则告警过滤规则是如下字段的灵活组合:可设置的过滤条件包括:告警级别、告警确认状态、告警清除状态、告警类型、告警发生时间区间。l 告警远程通知系统可将告警和事件通过北向接口SNMP/Syslog实时上报给上层网管系统。在网管上可配置的远程通知,维护人员不在机房也能够实时了解全网告警情况。1.4.2.2.10.3.4 性能管理对计算资源,系统提供如下性能监控信息:l CPU利用率均值及峰值l 内存容量及其利用率l 物理机磁盘利用率l 磁盘IO吞吐量及利用率l 物理网络流量统计1.4.2.2.10.3.5 安全管理云粒142、数据中台具备高安全性。主要从以下几个方面保障用户的数据和业务运行安全:n 网络隔离整个系统网络划分为2个平面,即业务平面和管理平面。两个平面采用物理隔离的方式进行部署,保证业务、管理各自网络的安全性。n 主机安全用户可以根据自己业务的需要部署第三方的防病毒软件。针对操作系统和端口部分,可提供:l 操作系统内核安全加固l 更新操作系统最新补丁l 操作系统权限控制l 操作系统端口管理l 操作系统协议与端口防攻击n 应用安全通过如下措施保证数据中台的正常运行:l 身份鉴别和认证:所有人员凭借有效的帐号和正确的密码登录。系统管理员可以为每个帐号设置有效期;所有人员在进行对作业的各种操作时,进行认证鉴权143、是否有相应的操作权限;系统管理员可以根据维护人员的职能划分不同的角色,为不同角色的用户设置不同级别的访问权限,包括分配其可以访问的元数据、数据源、指定其可以执行的具体操作。用户只能对自己的权限和职能范围内的数据进行使用和管理l Web应用安全l 访问控制l 审计安全l 密码安全:系统管理员可以设置密码策略,包括:密码有效期、密码最小长度、密码的复杂度(比如:最少大写字母个数、最少小写字母个数、最少数字个数、最少特殊字符数)、密码到期前的提前多少天提示等n 数据安全针对海量用户数据,提供如下措施保障客户数据的机密性、完整性和可用性。l 容灾:通过配置主、备集群关系和需要同步的数据表,提供异地实时144、容灾功能。当主集群数据遭到破坏,备集群可以立即接管业务l 备份:支持针对库表的元数据备份和对HDFS、HBase、Hive的业务数据备份n 数据完整性通过数据校验,保证数据在存储、传输过程中的数据完整性。l 用户数据保存在HDFS上,HDFS默认采用CRC32C校验数据的正确性l HDFS的DataNode节点负责存储校验数据,如果发现客户端传递过来的数据有异常(不完整)就上报异常给客户端,让客户端重新写入数据l 客户端从DataNode读数据的时候同会检查数据是否完整,如果发现数据不完整,尝试从其他的DataNode节点上读取数据n 数据保密性分布式文件系统提供对文件内容的加密存储功能,避免145、敏感数据明文存储,提升数据安全性。业务应用只需对指定的敏感数据进行加密,加解密过程业务完全不感知。另外,在创建表时指定采用的加密算法,即可实现对敏感数据的加密存储。从数据的存储加密、访问控制来保障用户数据的保密性。l 支持将业务数据存储到HDFS前进行压缩处理,且用户可以配置算法加密存储l 各组件支持本地数据目录访问权限设置,无权限用户禁止访问数据l 所有集群内部用户信息提供密文存储。1.4.2.2.10.3.6 租户管理多租户将大数据集群的资源隔离成一个个资源集合,彼此互不干扰,用户通过“租用”需要的资源集合,来运行应用和作业并存放数据。在大数据集群上可以存在多个资源集合来支持多个用户的不同146、需求。支持层级式的租户模型,支持动态添加和删除租户,实现资源的隔离,可以对租户的计算资源和存储资源进行动态配置和管理。实现多租户的优势如下:n 合理配置和隔离资源租户之间的资源是隔离的,一个租户对资源的使用不影响其它租户,保证了每个租户根据业务需求去配置相关的资源,可提高资源利用效率。n 测量和统计资源消费系统资源以租户为单位进行计划和分配,租户是系统资源的申请者和消费者,其资源消费能够被测量和统计。n 保证数据安全和访问安全多租户场景下,分开存放不同租户的数据,以保证数据安全;控制用户对租户资源的访问权限,以保证访问安全。1.4.2.2.10.3.7 备份管理为应对数据丢失或损坏对用户业务造147、成不利影响,在异常情况下快速恢复系统,根据用户业务的需要提供全量备份、增量备份和恢复功能。n 自动备份对集群管理系统上的数据提供自动备份功能,根据制定的备份策略可自动备份集群上的数据,包括库表的数据等。n 手动备份在系统进行扩容、升级、打补丁等重大操作前,需要通过手动备份集群管理系统的数据,以便在系统故障时,恢复集群管理系统功能。为进一步提供系统的可靠性,将库表中的数据备份到第三方服务器时,也需要通过手动备份。1.4.2.3 应用支撑平台1.4.2.3.1 业务支撑平台总体架构及优势1.4.2.3.1.1 总体架构业务支撑平台主要由管理域(微服务)和能力域组成。管理域(微服务)包括统一服务管理148、平台、统一服务网关平台;能力域包括地图引擎、业务引擎及人工智能引擎三个部分。统一服务管理平台。统一服务管理平台是业务支撑平台的控制核心平台,服务网关平台的管理、各种能力引擎的注册、监控、日志等功能都集中在统一服务管理平台中。统一服务管理平台对外提供服务注册能力,从而有效保障了业务支撑平台能力的不断扩展。统一服务网关平台。统一服务网关平台将多种能力引擎所提供的服务统一进行汇聚后,以标准的服务方式对外提供服务,包括接口服务及应用服务两种形式。同时在对外提供服务的过程中,统一服务网关平台还提供了安全认证、流量控制、负载均衡等多种增值服务,即有效保障了全局服务的统一与一致,又保障了服务的安全与管控。业149、务引擎。基础服务引擎包括了业务支撑平台内置的通用服务能力,包括多媒体引擎、工作流引擎、任务调度引擎、表单自定义引擎、用户中心引擎等。基于基础服务引擎中的各种能力,能够快速支撑各层级、各部门、各应用的快速高效的搭建,有效降低应用构建成本,全局提高应用建设质量。人工智能引擎。扩展服务引擎主要由外部平台提供,如数据支撑平台能力、人工智能等场景相关的第三方算法能力等。外部平台通过服务管理平台进行服务能力注册后,服务能力统一通过服务网关平台对外提供。地图引擎。本项目秉着利旧原则,不再对GIS引擎进行重复建设,主要依托张家界市自然资源规划局统建的智慧张家界信息云平台搭建本项目的GIS环境,建设成果包括地名150、地址引擎、业务建模引擎、知识服务引擎等模块。1.4.2.3.1.2 架构优势随着信息技术的不断发展,我国政府政务信息化水平的不断提高。我国政府对信息化系统建设也不断提出新的需求,单独的信息化系统越来越难以满足客户多方面的需求。单体服务架构:传统的信息化系统建设方式传统的单体服务架构模式的核心是由模块实现的业务逻辑,它在一个单体的应用中不仅实现了全部业务逻辑,掌握着数据,定义了对象和所有业务逻辑所涉及的事件等等内容。形成了一个大而全的逻辑模块化的结构,作为一个整体应用程序进行打包和部署。但随着业务系统的功能需求越来越多,涉及到的数据越来越庞大,导致单体服务架构信息化系统变得异常庞大。随着时间推移151、而变得越来越臃肿,逐渐带来了难以维护、资源消耗巨大、难以升级更新、可靠性变差等一系列的问题。微服务架构:多、快、好、省的新型建设模式为解决单体架构所带来的问题,逐步引入了微服务架构模式。微服务架构模式的思路是将各种应用信息系统分解成一套较小的服务。一个服务通常实现了一组不同的特性或者功能,例如订单管理、客户管理等。每一个服务都是一个特定用途的应用,而最终为用户提供服务的信息化系统,本身仅仅是多种专业服务的聚合,以及依据用户具体需求进行定制化的功能。其结构如下图所示:通过微服务架构模式进行业务应用系统的搭建,有效的解决了传统单体服务架构所带来的多方面问题,其具有多方面的优势:多:众多的服务资源能152、够有效减少单体服务的复杂度。它把可能会变得庞大的单体应用程序分解成一套服务。虽然功能数量不变,但是应用程序已经被分解成可管理的服务。每个服务都有一个以远程过程调用(RPC)驱动或者消息驱动的API明确定义的边界。微服务架构模式强制一定程度的模块化,实际上,使用单体基础代码来实现是极其困难的。因此,个体服务能被更快地开发,并更容易理解与维护。快:充分利用每种服务,避免重复制造轮子。由于各种信息系统中普遍存在大量的通用功能,如用户管理、权限管理、工作流、报表等常见功能,因此将这些常见功能模块抽取成为通用的服务,使得信息系统在开发过程中不再选择自主研发,而是选择更为快速的使用外部服务能力,开发团队只153、需要关注核心的业务逻辑,从而极大提高信息系统的开发速度。好:每个服务都可以由一个团队独立专注开发。每个服务都可以有专门开发团队来开发。服务的逻辑独立,功能专一,因此开发团队在功能设计及实施的过程中能够极大的保障服务质量。且当服务出现问题时,可以在保障服务接口一致的情况下,轻松使用不同开发商、不同版本的服务引擎对上层提供相同的服务能力。省:每个服务能够独立的按需扩展。可以仅部署满足每个服务的容量和可用性约束的实例数目。因此部分应用性能要求较高的服务,可以协调更多的资源进行部署,提供多个实例的服务能力;而对于使用频率较低、性能要求不高的模块,可以按需减少模块所占用的资源。通过这种部署方式,可以有效154、的节省底层资源的使用,提高整体资源的利用效率。微服务架构相对于单体服务架构来说,采用了更为细致的功能拆分,通过统一的服务管理平台将多种服务能力进行管理,通过统一的服务网关平台对外提供标准的服务,从而减少了信息化系统建设的成本,降低了信息化系统的开发周期,提升了系统建设整体效能。1.4.2.3.2 微服务管理1.4.2.3.2.1 统一服务管理平台1.4.2.3.2.1.1 功能概述面向服务的信息化系统建设模式虽然实现了内部功能的解耦,带来了多快好省的优势,但于此同时带来了对多种服务统一进行管理、监控、记录、告知的新的任务。统一服务管理平台能够有效的通过服务管理、日志管理、业务监控、远程监控的能155、力,实现对多个离散的服务能力引擎进行统一的全局管理,有效解决微服务架构模式所带来的管理问题。1.4.2.3.2.1.2 功能架构统一服务管理平台功能架构如下图所示:1.4.2.3.2.1.3 功能设计1.4.2.3.2.1.3.1 服务管理1.4.2.3.2.1.3.1.1 功能概述服务的管理主要是为多个服务引擎提供服务注册、服务查询的管理。在服务引擎服务的过程中,包含三类角色:服务提供者,服务注册中心,服务消费者。服务提供者:即服务引擎,作为服务的提供方将自身的服务信息注册到服务注册中心,信息包含:隶属于哪个系统、服务的IP/端、服务的请求URL、服务的权重等等。服务注册中心:服务注册中心主156、要提供所有服务注册信息的中心存储,同时负责将服务注册信息的更新通知实时的Push给服务消费者。也支持服务的停用。服务消费者:服务消费者主要职责包括1、从服务注册中心获取需要的服务注册信息;2、将服务注册信息缓存在本地;3、监听服务注册信息的变更,如接收到服务注册中心的服务变更通知,则在本地缓存中更新服务的注册信息;4、根据本地缓存中的服务注册信息构建服务调用请求,并根据负载均衡策略来转发请求;5、对服务提供方的存活进行检测,如果出现服务不可用的服务提供方,将其从本地缓存中剔除,服务消费者只在自己初始化以及服务变更时会依赖服务注册中心。在整个服务调用过程中,服务消费者不依赖于任何第三方服务。1.157、4.2.3.2.1.3.1.2 功能架构1.4.2.3.2.1.3.1.3 服务注册服务注册功能为各个外部服务引擎提供服务注册的能力,服务注册功能将所有服务的服务信息进行记录后,形成一张服务清单。同时各个注册服务会向服务注册中心定时发送心跳。当某个服务引擎发生异常时,服务注册中心会将该服务从可用服务列表中去掉,以保证所有服务列表中的服务可用。服务注册分为以下步骤:1. 服务注册,服务引擎将自己的服务能力提交给注册中心,注册中心进行记录。2. 心跳保持,服务引擎定期发送心跳消息至服务中心,服务中心依据心跳消息随时跟踪服务能力的可用性。1.4.2.3.2.1.3.1.4 服务发现当各种服务能力引擎158、在服务管理平台中完成注册后,服务发现功能实现了将这些服务能力对外发布的能力。当各种信息化系统建设的过程中,需要使用到各种服务引擎的服务能力时,需要先在服务管理平台中查询服务能力列表,并申请获取服务能力地址,之后才能够使用该服务引擎提供的服务能力。这个过程称为服务发现。所有注册在服务管理平台中的服务引擎,都需要通过服务发现功能才能对外提供服务。当某个信息系统需要使用某种服务时,通过服务发现功能查询具体服务的地址信息,之后才能对相应服务进行调用。1.4.2.3.2.1.3.2 日志管理1.4.2.3.2.1.3.2.1 功能概述日志管理功能是统一服务管理平台的重要组成部分,它能够对各服务引擎的日志159、进行采集,存储,分析(找出异常的请求、统计报错情况、统计QPS、统计系统功能的使用情况、超负荷预警等)。同时,对系统资源的监控信息也可以以日志的形式,由日志分析系统分析。日志分析系统主要功能包括日志的采集、存储、分析三方面的能力。1.4.2.3.2.1.3.2.2 功能架构1.4.2.3.2.1.3.2.3 日志采集日志采集常见的场景如:对某个服务的日志文件进行监控,发现有变动时,采集变动的信息;对网络的某个端口监控,当此端口出现数据流时,采集数据流;监控程序定时的获取系统资源信息(同理,也适用于对JVM,tmcat的监控);采集Http请求和响应(同理适用于RPC远程调用)。1.4.2.3.160、2.1.3.2.4 日志存储日志的存储使用大数据平台。根据日志的类型,可以以非结构化或者结构化数据存储,也可以使用图数据库存储。1.4.2.3.2.1.3.2.5 日志分析日志分析包括日志的离线和在线分析。离线分析借助相应的日志分析脚本对日志数据库中的数据进行统计分析,适合于统计QPS,系统功能使用情况。在线分析(实时分析)处理即时产生的日志信息,适合于预警,异常请求的监控。1.4.2.3.2.1.3.3 业务监控1.4.2.3.2.1.3.3.1 功能概述微服务的特点决定了功能模块的部署是分布式的,大部分功能模块都是单独部署运行的,彼此通过统一服务网关平台交互,相互提供无状态的服务。这种架构161、下,一个完整的调用周期中涉及到的业务流程会经过多台服务器和很多服务进行处理、调用和传递,因此在整个业务过程中会遇到极大的挑战。为保障整个微服务架构的可用性,统一服务管理平台通过业务监控功能,实现对分散的服务引擎所提供的服务能力进行统一监控。为实现业务监控能力,统一服务管理平台通过与统一服务网关平台进行对接,获取所有的服务运行情况信息,为业务监控提供基础监控依据。指标类型服务监控指标业务监控指标指标类型可用性注册量异常登录量响应时间服务请求数量请求量响应时间日志大小服务调用次数访问量服务可用比例1.4.2.3.2.1.3.3.2 功能架构1.4.2.3.2.1.3.3.3 响应时间监控响应时间指162、标是指从网关平台将请求转发给相应服务引擎,到服务引擎将服务结果回复给网关平台中间所经历的时长信息。响应时长信息是相应服务引擎服务性能的重要指标。1.4.2.3.2.1.3.3.4 流量监控对于各个服务引擎在提供服务过程中所接收及发送的数据流量进行监控。为保障各服务引擎的实时可用,向多个同类服务分发的流量不应出现较大的差异,因此流量监控在进行负载均衡时是重要的参考指标。1.4.2.3.2.1.3.3.5 失败数监控对于某些基于HTTP等标准协议进行通信的服务引擎,业务监控可以基于HTTP返回状态码对服务进行监控,统计服务失败次数。1.4.2.3.2.1.3.3.6 异常日志监控通过与日志管理模块163、对接,实现对日志信息的监控能力。通过设置关键字等方式,对日志中的异常内容实时监控,如设置“errr”、“warning”等关键字是,当各服务引擎出现问题时,业务监控能力能够及时进行告警,从而在信息系统发生故障前发现问题、解决问题。1.4.2.3.2.1.3.3.7 服务拓扑关系监控各种信息系统在使用微服务所提供的服务引擎能力,实现更丰富的应用功能,满足更多业务需求的同时,又会将自己的服务能力作为一种新的服务引擎能力向其他信息系统提供出来,从而成为新的服务引擎能力。服务拓扑关系监控示意图经过不断的服务能力的应用、服务能力的提供的循环,各个服务之间逐步形成了多层调用-服务的关系。这种该调用关系带来164、了新的服务管理问题:当某个基础服务发生问题时,将对一系列的上层服务造成影响。服务拓扑关系监控,通过对服务调用过程进行分析,自动的发现各种服务之间的依赖关系,从而在某个服务发生故障时能够及时预知其故障可能影响的服务范围。1.4.2.3.2.1.3.4 远程监控1.4.2.3.2.1.3.4.1 功能概述随着服务管理平台中注册的服务能力的不断增多,数据量逐渐庞大,业务系统逻辑也越来越复杂,仅仅通过网关及日志对各个服务进行业务级监控很难有效的定位故障发生原因,保障业务系统可用性。因此统一服务管理平台为各个服务引擎提供了通用的基础服务监控能力。包括网络监控、系统监控、数据库监控、应用软件监控及自定义监165、控等多个监控指标。基于远程监控能力,一方面统一了多个服务引擎部署在不同的运行环境中所带来的监控难度,实现了更细粒度的平台监控,在故障发生前将风险解除;另一方面当故障发生后能够更加快速的定位故障发生原因,从而极大缩短故障对业务的影响时间与范围。远程监控功能对业务监控范围包括如下指标内容:指标类型系统监控指标监控指标单位指标类型CPU百分比内存MB存储GB流量mb/s数据库可用性应用软件-自定义脚本-1.4.2.3.2.1.3.4.2 功能架构1.4.2.3.2.1.3.4.3 CPU监控基于远程监控能力,对于提供了服务器接入方式及有关权限的,远程监控将定期获取服务器CPU使用情况,对CPU使用情166、况进行监控。配合进程监控,可以及时发现应用程序计算性能瓶颈,有效提前预防故障发生。1.4.2.3.2.1.3.4.4 内存监控基于远程监控能力,对于提供了服务器接入方式及有关权限的,远程监控将定期获取服务器的内存使用情况,对内存使用情况进行监控。当服务器性能达到瓶颈,内存不足,或某些进程发生内存泄漏等问题时,内存监控能够方便有效的发现问题、定位问题。1.4.2.3.2.1.3.4.5 存储监控基于远程监控能力,对于提供了服务器接入方式及有关权限的,远程监控将定期获取服务器的存储使用情况,对存储使用情况进行监控。尤其是当某些保存有日志记录、数据库的服务器,内存会随着系统运行时间的增加而不断增长,167、因此存储的使用需要长期进行监控,一旦存储不足,需要进行数据备份或清理操作。1.4.2.3.2.1.3.4.6 流量监控通过对服务器网卡进行监控,实现对出向流量、入向流量进行双向监控。服务出现故障时,迅速诊断是否由于出入向流量不足导致问题,或是否由于外部攻击导致网络入口堵塞原因导致的服务故障。1.4.2.3.2.1.3.4.7 数据库监控对于常用数据库如MySQL、racle等数据库的服务能力进行监控。当相关服务发生故障,无法正常对外提供服务的,能够快速定位及诊断数据库导致的故障。1.4.2.3.2.1.3.4.8 应用软件监控对tmcat、apache、jbss、weblgic常用中间件,可以168、直接通过应用软件监控功能直接进行监控。1.4.2.3.2.1.3.4.9 自定义监控可以通过自定义脚本进行监控,如关键文件、文件内容、组合指标监控等自定义监控需求,可以通过使用shell脚本等方式进行自定义指标提取,并对相关指标设置阈值,达到自定义监控的目标。1.4.2.3.2.2 统一服务网关平台1.4.2.3.2.2.1 功能概述伴随着多种通用服务能力从单体信息化系统中剥离,形成能够独立提供服务的服务引擎,如何保障多种服务引擎能够有效的对信息化系统提供服务成为一个核心问题。统一服务网关平台能够将多种类型的服务形式封装成为统一的服务以供上层应用使用。同时,通过权限控制保证所有的服务能力只能被169、具备授权的应用调用,通过流量控制、响应统计、容错保护功能保障底层服务的可用性。1.4.2.3.2.2.2 功能架构统一服务网关平台功能架构如下图所示1.4.2.3.2.2.3 功能设计1.4.2.3.2.2.3.1 API服务在各服务引擎在统一服务管理平台中完成注册后,将提供服务的类型、服务IP及端口号进行发布,统一服务网关平台对各个服务的能力进行封装及适配,形成标准的服务接口后,向上层信息系统提供统一一致的服务能力。通过统一服务网关平台的功能,各个信息系统在建设过程中不会再陷入与多个应用、多种类型的服务、不同形式的接口进行对接的问题,只要保证与统一服务网关平台保持对接,即可调用多样的服务引擎170、能力。1.4.2.3.2.2.3.2 应用代理服务对于某些服务引擎,在提供服务接口能力的同时,也提供基于页面或直接能够面向最终用户的应用服务能力,因此统一服务网关在提供API服务整合的同时,也提供应用代理服务。通过应用代理服务,各种后端服务引擎的嵌套页面、后台管理能力页面均可通过统一服务网关平台对外发布服务。通过应用代理服务代理后,各个信息系统能够统一使用各服务引擎的页面嵌套能力与后端管理能力,从而有效解决与多个后端服务能力对接所产生的巨大工作量与维护难度。1.4.2.3.2.2.3.3 负载均衡对于存在多个服务实例的服务引擎,统一服务网关平台能够依据轮训、权重、最近使用等等多种轮询算法对服务171、进行1.4.2.3.2.2.3.4 容错保护在微服务架构中,由于将单体应用进行服务拆分,各服务之间功能尽可能保持单一职责,然而在响应用户请求结果时,常常是通过众多服务互相调用形成的,由于每个单元都运行在不同的进程中(不同的微服务),服务依赖之间通过远程调用方式进行,这样很有可能因为网络原因或者微服务本身故障出现调用延迟,而这又会导致调用方出现延迟,此时,如果用户请求不断增加,极有可能出现过多的服务调用放等待,一个服务占用一个线程,线程过多可能导致服务器奔溃,造成严重的后果。我们常把因服务容错性不好,由于某一服务出现问题引起大量用户请求等待,导致服务器宕机的情况称为“雪崩效应”。比如:单点登录服172、务调用用户信息服务查询用户信息,由于用户信息服务无法提供服务导致单点登录服务一直等待,从而导致用户登录、用户退出功能无法使用,像这样由一个服务所引起的一连串的多个服务无法提供服务即是微服务的雪崩效应。为了防止“雪崩效应”,我们必须提供一个容错机制,当调用延迟超过一定时间时,可以采取一定措施处理,而不是让其一直处于等待状态,简单来说,该机制主要实现点如下:为网络请求设置超时时间,主要是防止因服务故障或网络延迟导致请求堆积,占用服务器资源;使用断路器模式,当调用出错或者超时,服务可以将此请求标记为失败,给调用方返回信息提示,即调用失败处理方法。熔断机制可以很好理解,与家里的电路熔断器类似,一旦电路173、发生短路,立即切断电路,保护系统安全。1.4.2.3.2.2.3.5 访问鉴权访问鉴权功能为接口及应用的调用提供了鉴权的能力。只有具备权限的用户及信息系统才能有效调用接口及应用。访问鉴权一方面保障了接口的安全使用,另一方面由于各应用系统使用自有tken对接口进行调用,因此访问鉴权也是访问统计及基于用户进行访问控制的基础手段。1.4.2.3.2.2.3.6 响应统计统一服务网关平台通过对外提供接口访问能力时,在应用调用接口时,会将接口的调用次数、响应时延等数据进行记录,之后发送给统一服务管理平台,以便进行服务引擎的监控。1.4.2.3.2.2.3.7 参数核验在一般的接口函数开发中,为了安全性,174、都需要对传入的参数进行验证,确保参数按照所希望的范围输入,如果在范围之外,如空值,不符合的类型等等,都应该给出异常或错误提示信息。这个参数的验证处理有多种方式,最为简单的方式就是使用条件语句对参数进行判断。参数验证是一个常见的问题,无论是前端还是后台,都需对用户输入进行验证,以此来保证系统数据的正确性。对于web来说,有些人可能理所当然的想在前端验证就行了,但这样是非常错误的做法。无论是前端网页提交的接口,还是提供给外部的接口,参数验证随处可见,必不可少,因为一切用户或系统的输入都是不可信的。1.4.2.3.3 GIS引擎本项目秉着利旧原则,不再对GIS引擎进行重复建设,主要依托张家界市自然资175、源规划局统建的智慧张家界信息云平台搭建本项目的GIS环境,建设成果包括地名地址引擎、业务建模引擎、知识服务引擎等模块。1.4.2.3.3.1 功能概述基于GIS引擎为张家界市智慧城市的建设提供一套标准的地图搜索、地图服务、成果积累的GIS平台,面向开发者及各业务部门提供二次开发的GIS环境。形成一套提供了驱动和管理地理数据,实现渲染、查询等功能的一套函数库,所有的应用层软件只需要调用地图引擎提供的功能接口就能较容易的完成其功能。1.4.2.3.3.2 功能架构GIS引擎功能架构如下图所示:1.4.2.3.3.3 功能设计1.4.2.3.3.3.1 地名地址引擎地名地址引擎是空间信息与其他信息之176、间的桥梁,能够实现大数据在全空间信息模型上的精确定位,基于地名地址实现空间定位和空间信息整合,引入引擎机器学习技术,提供智能分析扩充地名地址匹配搜索的同音字和同义词,并返回最佳的匹配结果,利用知识引擎智能学习技术,提供基于模糊神经网络预测分析模型。能够对样本进行积累及训练,提高预测精度。地址地名引擎主要包括正向匹配、反向匹配、地址标准化等功能。1.4.2.3.3.3.2 业务建模引擎基于业务建模引擎提供GIS业务的数据交换、数据汇集等流程的定制服务,包括算法模型、流程管理、业务流程定制等功能,可实现实时空气质量数据汇集、企业地址变更、人口数据同步等30个流程的定制。1.4.2.3.3.3.3 177、知识服务引擎知识服务引擎提供智慧环保时空大数据存储、查询、分析、挖掘能力,构建模型,从海量数据信息中挖掘数据价值,沉淀为知识服务,为各方面的城市决策提供支撑。主要包括重点选址模型、土地存量监测模型、PM2.5月度分布模型、空气质量潜在人口暴露水平分析模型、出行推荐模型等19个模型。1.4.2.3.4 业务引擎1.4.2.3.4.1 工作流引擎1.4.2.3.4.1.1 功能概述工作流的概念起源于生产和办公自动化领域,是针对日常工作中具有固定流程的业务活动提出的一个概念。工作流管理联盟(WFMC)给出的工作流定义是:工作流是一类能够完全或者部分自动执行的经营过程,它根据一系列过程规则、文档、信息178、或任务能够在不同的执行者之间进行传递与执行。该技术的目的是通过将工作分解成定义良好的任务、角色,按照一定的规则和过程来执行这些任务并对它们进行监控,达到提高工作效率、降低生产成本、提高企业生产经营管理水平和企业竞争力的目标。工作流管理系统的核心部分是工作流引擎,引擎是驱动流程流动的主要部件,它负责解释工作流流程定义,创建并初始化流程实例,控制流程流动的路径,记录流程运行状态,挂起或唤醒流程,终止正在运行的流程,与其他引擎之间通讯等等工作。提供标准化的工作流引擎,实现各种业务工作流程的界面化配置和管理,包括流程的节点管理、流向管理、流程样例管理等重要功能。根据用户角色、分工和条件的不同,细粒度的179、调控信息传递路由、信息等级等内容。通过图形化界面和便捷的参数配置,让业务和系统维护人员可以自行按需定义工作流程。1.4.2.3.4.1.2 功能架构工作流引擎功能架构如图所示1.4.2.3.4.1.3 功能设计1.4.2.3.4.1.3.1 流程定义1.4.2.3.4.1.3.1.1 流程图流程图是由所定义的节点、节点属性、流向、电子表单、参与人员等信息组成的一个工作流流转可视化图例,以便于用户直观的了解工作流的流转逻辑。1.4.2.3.4.1.3.1.2 定义节点定义节点就是将工作流中涉及的任务节点进行设置,目前工作流支持内部节点、开始节点、结束节点、条件节点。节点属性包括节点名称、表单类型180、表单ID、执行方式、是否定时发起、执行权限等。1.4.2.3.4.1.3.1.3 定义流向节点到节点之间的流转关系需要靠流向来控制逻辑,若一个节点A指向下一个节点B,意味着节点A执行完毕,节点B就会变成待处理,且将工作流信息赋予B。1.4.2.3.4.1.3.1.4 定义表单每个工作流或者内部的节点都可以关联一个电子表单。电子表单的具体内容和实际的业务息息相关,因此多数情况下工作流定义表单ID,具体表单需要业务端赋予。1.4.2.3.4.1.3.1.5 参与人员定义参与工作流的人员分为人员或人员组(如部门、角色),除了支持选择组织结构中的实际人员外,还支持根据工作流中各节点的逻辑,灵活配置人181、员,如某个节点的直接上级、同级、直接下级、实际执行人等1.4.2.3.4.1.3.1.6 删除流程对于一些不再使用的流程模板,可以使用删除流程功能移除该流程。一旦移除,业务端将不能再调用该流程。1.4.2.3.4.1.3.2 流程控制1.4.2.3.4.1.3.2.1 流程启动流程启动就是将已经创建完毕的流程模板发起流转,工作流根据模板中的设定,完成表单调用、数据加载、表单渲染等工作。1.4.2.3.4.1.3.2.2 流程结束流程根据已经设定的规则会自动结束流程实例的流转。流程结束由两个入口,一个是流程实例根据流程模板一次执行完毕后,自动结束;另外一种是具有终止权限节点的对应人员,执行了终止182、操作。1.4.2.3.4.1.3.2.3 挂起流程实例挂起流程是指将整个流程实例置为暂停状态。流程实例被挂起后,所有节点都不能被操作如提交、加签等,但是流程实例仍然存在,所有相关人员也能查看。1.4.2.3.4.1.3.2.4 激活流程实例激活流程实例和挂起流程实例相对应,流程实例被挂起后,只有使用激活流程实例API才能将继续流转,待办人员也可以填写响应的电子表单、加签人员等。1.4.2.3.4.1.3.2.5 流程实例运行轨迹流程实例运行轨迹,是指在已经运行的流程实例中,记录了已完成的流程节点,并根据时间顺序,将所有节点(包含临时加签的节点)属性、内容,记载下来,供应用端随时查询,并支持图形183、化展示。1.4.2.3.4.1.3.3 任务实例管理1.4.2.3.4.1.3.3.1 流程任务服务流程任务服务是指工作流引擎可以提供的对外服务统称,包含的流程任务服务有查询任务状态、查询任务节点属性、查询任务进度等。1.4.2.3.4.1.3.3.2 查询加签待办任务查询加签待办任务是指查询所有流程实例中,被加签的任务节点,以便于前段对加签任务进行特殊处理。1.4.2.3.4.1.3.3.3 查询用户待办任务列表这是一个非常常用的接口,用户进入工作台后,大概率是处理某个待办任务。通过这个接口,可以精确地查询某个流程实例的待办节点,并返回给调用方。1.4.2.3.4.1.3.3.4 领取任务通184、常任务是指派型的,因此不会用到领取任务,但是对于领取型任务,如客服电话接入系统,就是领取型任务。这种任务的特点是任务会以广播的形式发出,所有接口节点都必须在领取后才能处理此任务。领取任务支持单人领取和指定人数领取。1.4.2.3.4.1.3.3.5 加签加签在工作流中非常常见,也经常被用到。某个节点加签时,首先需要有加签权限、加签的组织结构,然后根据此组织结构选择人员或人员组,最后系统根据选择的结果,将流程下一个节点更改为被加签人员。1.4.2.3.4.1.3.3.6 减签减签的服务对象是被加签人员或者实施加签的人员。这些人员执行减签操作仅限于针对被加签人员,不包含流程中默认的人员。执行完毕后185、,对应人员就会从工作流中剔除。1.4.2.3.4.1.3.3.7 任务处理任务处理就是任务执行人根据要求将电子表单填写完毕并提交。提交完毕后,系统会自动记录时间、电子表单所有内容、操作人,并根据已订好的流转逻辑,将流程实例流转到下一个节点。1.4.2.3.4.1.3.3.8 转办任务转办任务是指执行人无法完成此任务,需要其他人员协助完成此任务。发起任务转办时,需要提被转办人员的ID,被转办人员可以是一个也可以是多个,这些节点的属性和转办人的节点属性一致。1.4.2.3.4.1.3.3.9 流程回退流程回退是根据流程的内定逻辑,将流程实例由当前节点,回退到上一个节点,所有和当前任务并行的节点都会186、被收回(无论是否执行完毕),当上一个节点再次执行完毕后,此节点及并行节点重新置为待办状态。1.4.2.3.4.1.3.3.10 动态任务加签动态任务加签和加签任务API比较类似,但是有一个本质的区别,就是“加签”是加签的人员节点,节点属性和当前节点的属性一致,但动态任务加签,是加签任务节点,可以是人员也可以不是人员,任务属性也可以和当前节点不一致。1.4.2.3.4.1.3.3.11 撤销任务撤销任务是指将任务消除,撤销的任务无法再继续执行,也不能重新激活。撤销的任务也属于任务完成的一种,因此可以在已完成的任务列表中查看。1.4.2.3.4.1.3.4 流程任务查询1.4.2.3.4.1.3.187、4.1 流程历史服务利用流程历史服务API可以获取已完成流程实例的所有信息,如完成时间、任务类型、执行人员。流程历史服务包含已完结的流程实例,也包含未完成但,某个节点已经完成的流程实例。1.4.2.3.4.1.3.4.2 获取所有任务运行情况所有任务运行情况API顾名思义就是将所有流程实例的运行状态,返回给调用方,以便于调用方进行统计等操作。1.4.2.3.4.1.3.4.3 获取历史加签任务针对被加签的任务一般需要特殊对待,因此需要历史加签任务API。通过此API,可以在将已完成的任务节点中,将被加签的任务单独筛选出来,并进行下一步处理。1.4.2.3.4.1.3.4.4 获取历史加签任务树188、任务流程经常会被加签很多次,执行人A加签给人员B,人员B又加签给人员C,因此增加了历史加签任务树API,通过此API可以根据加签时间、加签逻辑,将所有加签人员通过树状形式返回。1.4.2.3.4.1.3.4.5 获取下级节点任务列表流程实例进行中,有时候需要根据下级节点的属性,如接收人、节点名称等,判断当前节点的一些事件是否执行。通过获取下级节点任务列表,可以将下级节点已经确定的属性返回给调用方,以便于其判断外部事件是否执行。1.4.2.3.4.1.3.4.6 获取上级任务节点列表和获取下级节点任务列表相对应,流程实例执行中,经常会根据上级节点的属性,判断当前节点的执行人是谁,或者是否调用外部189、事件。1.4.2.3.4.2 表单自定义引擎1.4.2.3.4.2.1 功能概述表单自定义引擎起源于流行的工作流引擎的原理、报表格式的定义、报表内容的各种算法,产生表单自定义引擎的思想。它主要是引用工作流引擎的流程运转原理,在原始数据的基础上,定义报表的格式、报表的算法,根据定义的算法自动执行计算,并输出计算后的结果,再根据定义的报表格式显示报表的内容。表单自定义引擎根据定义的报表主题及它的算法,在人工或日程安排的触发下,自动运行。表单自定义引擎根据报表主题,从数据库的原始数据的基础上,提取原始的数据,依据定义的报表算法,进行自动计算;在提取报表主题及算法运算的过程中,表单自定义引擎依据定义各190、种参数,实现所需的运算。表单自定义引擎输出的数据信息,经报表解释接口实现它的解释。并生成相应的报表展示给用户。用户也可以根据实际需求,随时调整报表主题及算法的定义语言,再重新运行表单自定义引擎时,表单自定义引擎立即根据定义后的内容进行处理,产生经过改变后的报表数据。这样,表单自定义引擎可以跟随用户的需求变化,而所需求的维护量非常少,也非常简单灵活。对于报表的输出格式,在表单自定义引擎的输出接口中,定义要求的报表格式;当用户打印报表时,表单自定义引擎根据定义的格式打印所需的报表;同时,如果用户需要改变报表的样式时,可以非常即时、灵活的重新定义,以满足用户的各种需求。提供一整套表单自定义引擎,主要191、包括报表数据的管理、报表定义管理、报表样式管理等。报表数据管理:支持用户根据系统内、外数据库信息,自定义提取原始的数据范围。报表定义管理根据需求的变化,随时调整报表主题及算法的定义语言,实现所需运算。报表样式管理:提供丰富的报表样式,界面化的样式细节配置,极大地丰富了报表展示的多样性,通过预览让业务人员直接看到定义报表的呈现效果。1.4.2.3.4.2.2 功能架构表单自定义引擎功能架构如图所示:1.4.2.3.4.2.3 功能设计1.4.2.3.4.2.3.1 报表查看1.4.2.3.4.2.3.1.1 报表总览通过报表总览可以浏览所有已经建立的报表,包含报表编号、报表名称、报表类型、创建人192、员,而且可以通过报表总览对接查询、新增、删除和修改等操作接口。1.4.2.3.4.2.3.1.2 报表检索系统提供报表检索功能,既根据报表名称进行关键词检索。检索支持前后模糊搜索。搜索完成后,系统会返回给调用方所有中标的报表信息。1.4.2.3.4.2.3.1.3 报表图例为了方便用户便捷的查看报表信息,系统提供了报表图例查看的API。通过此API,可以查看报表的样式、图标缩略图等信息,同时在图例上面还能和实际图例一样,进行一些交互。1.4.2.3.4.2.3.1.4 报表代码为了给一些高级用户提供便利,将报表的代码直接开放给适用方,以便于用户根据这些代码,调用更高级的功能或者开发一些更高级的193、应用。1.4.2.3.4.2.3.1.5 报表图片下载报表图片下载功能顾名思义,可以将报表的图例进行下载,对应业务端的功能就是“导出”功能。当业务端导出统计报表时,可以将图例一并导出,已提供直观的查看数据结果。1.4.2.3.4.2.3.2 报表编辑1.4.2.3.4.2.3.2.1 编辑数据一个报表完成后,如果相对数据进行修改,则需要用到这个功能。和创建报表一样,编辑数据支持对所有数据参数进行修改,修改完成后,报表ID不变,业务端直接刷新页面即可完成数据更新,为定制化开发提供了便利。1.4.2.3.4.2.3.2.2 基础属性基础属性提供了基本数据的参数修改入口,包含数据表、字段、字段条件,194、具体为从内部数据源或者外部数据源中,选择某一个数据表,然后选择该表的指定字段进行筛选,筛选方式由等于、大于、大于等于、小于、小于等于、开始是、开始不是、结尾是、结尾不是、包含、不包含等1.4.2.3.4.2.3.2.3 报表设置报表设置主要设置报表的基本信息,如报表名称、备注。报表名称需要为2到20之间的字符,备注需要为2到50个之间的字符。1.4.2.3.4.2.3.2.4 图例设置图例设置是指设置报表类型,系统支持的报表类型有饼状图、柱状图、条形图、折线图、面积图、玫瑰图、环形图、雷达图、漏斗图、扇形图、仪表图、二维饼图、双Y轴柱线图和表格图等。报表类型,只能修改为同类型的。1.4.2.3195、.4.2.3.2.5 标签设置标签设置就是对报表的X轴字段、X轴坐标合并、Y轴字段、Y轴聚合方式进行修改。X轴坐标数据合并,支持数据型和时间型,合并完成后,X坐标轴就会采用新的数组。Y轴的聚合方式支持求和、平均值、最大值、最小值、计数。Y轴还支持别名操作。1.4.2.3.4.2.3.2.6 编辑样式编辑样式功能支持对报表的样式进行详细更改,包含基础属性、报表设置、X轴设置、Y轴设置、图例设置、标签设置、滑块设置1.4.2.3.4.2.3.2.7 基础属性基础属性包含容器设置、报表整体设置、背景色设置等。其中容器设置包含容器宽度、容器宽度是否自适应、容器背景色,容器背景色支持全色设置。报表设置包196、含报表宽度、报表宽度是否自适应、报表高度、报表的左边距。背景色设置包含背景色样式和透明度,背景色支持全色设置。1.4.2.3.4.2.3.2.8 报表设置不同的报表设置不同,可以设报表的整体样式,以柱状图为例,可以设置的有报表类型、图形格式、坐标系类型、柱子宽度、柱子间距、旋转角度等。其中报表类型包含堆叠和分组;图形格式包含矩形、空心、钩子、圆形;坐标系包含矩形、环形、两极和螺旋。1.4.2.3.4.2.3.2.9 X轴设置对于具有X轴的报表,可以在此设置X轴,以柱状图为例,可以设置的有是否显示X轴、X轴颜色、文本颜色、是否自动旋转、旋转角度、刻度个数、透明度、X轴粗细、文字的X轴距离、文字的197、x偏移量、文字的y偏移量、文字大小对齐方式等1.4.2.3.4.2.3.2.10 Y轴设置Y轴设置和X轴设置类似,但内容有很大的不同,以柱状图为例,可以设置的有是否显示Y轴、Y轴颜色、是否显示网格线、线型、网格线粗细、像素、颜色、间隔、是否显示轴标题以及轴标题的相关参数。1.4.2.3.4.2.3.2.11 图例设置不同的报表图例设置基本类似,包含的内容有是否显示图例、图例x偏移量、图例的y偏移量、文字大小、文字颜色、文字位置等。文字位置支持左上、左中、左下等,左、中、右、上、下十二种组合位置。1.4.2.3.4.2.3.2.12 标签设置不同报表的标签设置也基本类似,包含是否显示标签、标签偏198、移量、旋转角度、是否自动旋转、文字颜色、文字大小等。1.4.2.3.4.2.3.2.13 滑块设置滑块设置用于时间型报表,用户可以通过滑块选择图表中展示数据的开始时间和结束时间,以此来展示不同时间范围内的数据。滑块设置包含是否显示滑块、滑块颜色、滑块类型和选中样式。1.4.2.3.4.2.3.2.14 报表新增报表被调用前,首先要新增报表。新增的报表支持外部数据源和内部数据源两种,其中外部数据源的数据需要根据系统要求,进行标准化处理。新增报表时的参数和编辑报表一致。1.4.2.3.4.2.3.2.15 报表删除删除报表前,需要确认业务端已经将相关应用关闭,否则删除某一个报表后,业务端刷新或者重199、新加载时会报错。1.4.2.3.4.3 任务调度引擎1.4.2.3.4.3.1 功能概述用户可以通过任务引擎,便捷的创建定时任务,灵活调整任务循环周期,实时查看任务执行结果。通过任务引擎可以实现用户和任务的灵活匹配,为业务协同开展、应急指挥调度、任务全过程监管提供支撑和保障。1.4.2.3.4.3.2 功能架构任务调度引擎功能架构如图所示:1.4.2.3.4.3.3 功能设计1.4.2.3.4.3.3.1 任务查看1.4.2.3.4.3.3.1.1 任务列表任务列表展示了任务的主要信息,比如任务ID、任务名称、任务描述、最新任务执行结果、任务状态,另外还提供了编辑、查看lg、删除和新增等功能的200、入口。1.4.2.3.4.3.3.1.2 任务日志查看通过“查看lg”入口,可以查看任务每次被执行的日志,日志包含开始执行时间、执行结束时间、执行结果以及详细的lg日志。1.4.2.3.4.3.3.1.3 检索一般系统都会有很多任务同时在执行,为了方便寻找指定的任务,系统增加了下旬入口,用户可以通过关键词,查询任务名称。关键词查询支持前后模糊查询。1.4.2.3.4.3.3.2 任务编辑1.4.2.3.4.3.3.2.1 删除对于不在使用的任务,可以将其从系统中删除。如果任务被删除了,任务产生的对应日志将不再能被查看到,也无法重新恢复次任务。1.4.2.3.4.3.3.2.2 任务启动任务只有201、在启动状态下,系统才会根据既定的规则执行这些任务。任务被启动后,系统后台便开始监听任务参数,一旦满足要求便依据任务参数和任务代码执行任务。1.4.2.3.4.3.3.2.3 任务关闭任务关闭和任务启动相对应,任务关闭后,系统会将此任务挂起,也不再监听任务参数。关闭的任务可以通过任务启动,将任务变更为可执行状态。1.4.2.3.4.3.3.2.4 任务编辑对于已经创建的任务可以更改其相关参数,参数更改后,对于已执行或者正在执行的任务没有影响,新任务会按照新的参数执行。可以更改的参数包含任务名称、任务依赖关系、执行时间、重复周期、任务状态、备注和任务代码。1.4.2.3.4.3.3.2.5 任务接202、口添加所有任务的任务代码都通过此功能,将任务代码添加到系统中,系统会将所有任务代码保存在既定位置,并展示出来,一般与用户确认任务代码。1.4.2.3.4.4 用户中心引擎1.4.2.3.4.4.1 功能概述通过用户中心引擎可实现对用户、用户关系、安全认证以及用户全生命周期的管理,具体功能特性如下:1、为用户提供个人信息管理、认证、权限、电子信息安全以及用户关系服务;2、为管理人员提供跨层级、跨部门的全局用户管理能力,基于统一的用户中心引擎进行用户体系开发的系统及部门,可以直接被管理人员进行纳管。3、节省各信息系统的建设成本,各信息系统在实施开发过程中,无需重复进行用户管理体系的研发,可以直接将203、成熟的用户中心引擎纳入到信息系统中,降低工作量的同时,提升功能的可靠性与可用性。1.4.2.3.4.4.2 功能架构用户中心引擎的功能架构如图所示:1.4.2.3.4.4.3 功能设计1.4.2.3.4.4.3.1 部门管理用户中心引擎通过维护部门相关信息,实现对部门的统一管理,同时支持管理人员对部门进行全局管理,以适应不同用户的定制化需求。部门管理功能对应的信息如下图所示:名字:部门信息别名:部门信息描述:记录部门的相关信息。实例:部门信息表=部门编号+部门名称+部门主管+上级部门+部门级别+部门地址+部门电话+部门开业时间1.4.2.3.4.4.3.1.1 部门新增最终用户可以依据实际部门204、设置情况需要,通过管理平台新增各个层级的部门,并设置部门所包含的信息内容。1.4.2.3.4.4.3.1.2 部门删除管理人员可以通过后台管理能力对某个部门进行删除操作。删除后的部门无法再配置任何的用户。1.4.2.3.4.4.3.1.3 部门修改对于已经设置好的部门信息,部门管理员可以通过部门信息修改功能,调整部门名称,部门描述等相关属性。1.4.2.3.4.4.3.1.4 部门扩展属性字段维护对于某些特定行业、特定场景,最终用户对部门的设置可能存在特殊的需求,尤其对于政府部门,各个部门的权责、范围各不相同,因此部门的设置存在极大的定制化需求。部门扩展属性字段维护功能正式满足了各个行业、各个205、层级客户的定制化的需要,通过对部门信息进行属性字段的扩展,从而衍生出能够满足各个行业的部门管理能力。1.4.2.3.4.4.3.1.5 部门检索可以通过管理平台对所有部门信息进行检索,包括全部部门信息的检索,也包括对某个部门信息详情的检索功能。1.4.2.3.4.4.3.2 岗位管理当具有了部门信息后,还需要在各个部门中设置相应的岗位,从而能够支撑最终用户的创建。岗位角色信息维护的样本表单如下所示:名字:岗位信息表别名:岗位信息描述:记录用户岗位相关信息。定义:敢为编号+岗位员工编号+部门编号+原岗位+岗位描述+岗位职责1.4.2.3.4.4.3.2.1 岗位新增管理人员可以通过岗位新增功能在206、已经创建的部门中新增一个具体的岗位,典型的岗位为部门负责人。只有创建了具体的岗位后,才能够创建岗位相应的用户。1.4.2.3.4.4.3.2.2 岗位删除管理人员可以通过删除功能删除某个具体的岗位。当仍然有用户在某个岗位上时,该岗位不可删除。只有当前所有用户都不属于某个岗位,管理员才能将该岗位删除。1.4.2.3.4.4.3.2.3 岗位修改对于已经创建的岗位,管理员可以通过岗位修改对岗位名称、所属部门等信息进行修改,从而适应实际环境的变化调整。1.4.2.3.4.4.3.2.4 岗位扩展属性字段维护对于某些特定行业、特定场景,最终用户对岗位的设置可能存在特殊的需求,尤其对于政府部门,各个岗位207、的权责、范围各不相同,因此岗位的设置存在极大的定制化需求。岗位扩展属性字段维护功能正式满足了各个行业、各个层级客户的定制化的需要,通过对岗位信息进行属性字段的扩展,从而衍生出能够满足各个行业的岗位管理能力。1.4.2.3.4.4.3.2.5 岗位检索可以通过管理平台对所有岗位信息进行检索,包括全部岗位信息清单的检索,也包括对某个岗位信息详情的检索功能。1.4.2.3.4.4.3.3 人员管理人员管理功能是用户管理引擎的核心能力。所有组织的管理最终都要落实在相关人员的管理上。因此人员管理功能为用户提供了人员新增、人员删除、人员修改、扩展属性字段管理、人员检索等功能。能够满足最终用户入职、变动、离208、职等多种应用场景的需求。人员管理能力会维护一张人员信息表,其示例格式如下所示:名字:人员信息表别名:人员信息描述:记录人员的基本信息定义:人员信息表=人员编号+人员姓名+1级部门+2级部门+性别+岗位+电子邮件+身份证号+出生日期+民族+户籍所在地+婚姻情况+毕业学校+专业+学历+毕业时间+入职时间+联系电话+家庭住址+紧急联系人+紧急联系电话1.4.2.3.4.4.3.3.1 人员新增管理人员可以通过人员新增功能在已经创建的部门中相应的岗位上新增一个具体的人员,如部门负责人、普通员工等。当部门有新员工入职,管理员需要使用人员新增功能添加一个对应的人员信息,用户管理平台将在后台的人员信息表中添209、加该人员的相应信息,从而逐步积累整个企业的人员信息清单。1.4.2.3.4.4.3.3.2 人员删除管理人员可以通过删除功能删除某个具体的人员。1.4.2.3.4.4.3.3.3 人员修改对于已经创建了信息的人员,管理员可以通过人员修改对人员姓名、所属部门、所属岗位等信息进行修改,从而满足各种场景的实际需求。1.4.2.3.4.4.3.3.4 人员扩展属性字段维护对于某些特定行业、特定场景,最终用户对人员的设置可能存在特殊的需求,尤其对于政府部门,各个部门的权责、范围各不相同,因此对人员信息的管理同时也存在着多种需求。人员扩展属性字段维护功能正式满足了各个行业、各个层级客户的定制化的需要,通过210、对人员信息进行属性字段的扩展,从而衍生出能够满足各个行业的岗位管理能力。1.4.2.3.4.4.3.3.5 人员检索可以通过管理平台对所有人员信息进行检索,包括全部人员信息清单的检索,对某个部门的所有人员进行检索,对某个岗位上的所有人员进行检索,也包括对某个人员信息详情的检索功能。1.4.2.3.4.4.3.4 权限管理对于不同岗位、不同角色的用户,用户管理引擎可以配置不同的权限,不同的权限对应着对不同功能、资源的调用能力。用户管理引擎提供权限新增、权限删除、权限修改相关功能,满足用户对权限设置的需求。权限信息字段样例如下所示:名字:权限信息别名:描述:标识某种具体权限的详细信息定义:权限信息211、=权限名称+对应岗位列表+对应用户列表+创建时间+创建人员+权限详情列表1.4.2.3.4.4.3.4.1 权限新增管理人员可以通过权限新增功能新增一个具体的权限,如部门管理员、普通员工等。权限通常与某个岗位对应,即具体的岗位有具体的权限,因此在新建权限的过程中可以直接将权限与岗位关联。1.4.2.3.4.4.3.4.2 权限删除可以将某个已经创建的权限进行删除。权限删除与岗位的删除不同,权限的删除不需要该权限下未绑定任何用户。当某个权限被删除时,对应权限下的用户将失去相应权限。1.4.2.3.4.4.3.4.3 权限修改对于已经创建了的权限,管理员可以通过权限修改对权限姓名、绑定岗位等信息进212、行修改,从而满足各种场景的实际需求。1.4.2.3.4.4.3.4.4 权限扩展属性字段维护对于某些特定行业、特定场景,最终用户对权限的设置可能存在特殊的需求,尤其对于政府部门,各个部门的权责、范围各不相同,因此对权限信息的管理同时也存在着多种需求。权限扩展属性字段维护功能正是满足了各个行业、各个层级客户的定制化的需要。1.4.2.3.4.4.3.4.5 权限检索可以通过管理平台对所有权限信息进行检索,包括全部权限信息清单的检索,对某个岗位对应权限进行检索,也包括对某个权限信息详情的检索功能。1.4.2.3.4.4.3.5 其他1.4.2.3.4.4.3.5.1 登录用户管理引擎提供最基础的用213、户登录功能。信息系统通过调用用户登录功能接口,可以直接在系统中引入用户管理体系,集成用户登录页面,从而极大的减少了信息系统建设复杂程度,降低了系统实施工作量1.4.2.3.4.4.3.5.2 登出提供用户登出功能,当用户不在使用系统,或超时等场景下,信息系统可以通过调用登出功能实现对用户鉴权信息的回收,保障系统在安全可靠的环境下进行使用。1.4.2.3.4.4.3.5.3 验证码引擎具有验证码功能,为了防止非法软件对系统的安全认证体系进行暴力破解,用户管理引擎提供验证码功能,对于每一次的用户登录认证过程,不止要求用户提交相应鉴权信息,同时要求用户填写验证码。1.4.2.3.5 人工智能引擎1.214、4.2.3.5.1 语音识别引擎1.4.2.3.5.1.1 功能概述语音识别引擎提供了将录音文件或者实时音频流转成文字的服务,能够支持中文、英文等语种,支持噪音环境下和带背景音的语音识别,支持机器自动分离不同人声,支持快速定制识别中的热词以提升准确度。语音识别服务分为录音文件识别、实时语音识别、一句话识别三个子服务,提供了RESTfulAPI/SDK等多样化调用方式,能够在各种不同实际使用场景中做适配。支持水平扩展,扩展能力受限于前端负载均衡。ASR转写服务不作音频存储及转写后的文本存储。可以使用两台ASR转写服务以做服务互备。1.4.2.3.5.1.2 功能架构语音识别引擎功能架构如下图所示215、:1.4.2.3.5.1.3 功能设计1.4.2.3.5.1.3.1 实时语音识别对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。1.4.2.3.5.1.3.2 录音文件识别对用户上传的录音文件进行识别,上传完之后24小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。1.4.2.3.5.1.3.3 一句话识别对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在216、各类App、智能家电、智能助手等产品中。1.4.2.3.5.1.3.4 多语种支持支持普通话、粤语、四川话、河南话、东北话、英文的自动识别,直接转换成为文本信息,实现语音到文本的自动转换能力。1.4.2.3.5.1.3.5 篇章级文本顺滑由于口语具有不规范的特点,直接进行语音转写的可阅读性往往存在较大的问题,所以凸显了语音转写后处理的重要性,即对口语化的文本进行分句、加标点,并对文本内容的流利性进行处理,甚至进行内容的摘要,以利于更好的阅读与编辑。文本顺滑功能就是要对文本中的不流利性进行检测,具体来说,就是要删除转写结果中的停顿词、语气词、语义重复词等,从而使顺滑后的文本更易于阅读。例如,对于217、语音转写结果“我们在正心楼嗯不还是在主楼见面吧”,其中的“在正心楼嗯不还是”属于不流畅的词,除了包括语气词“嗯”之外,还包括语义上被修复的词语“在正心楼不还是”等,它们在语音转写后处理阶段都需要被文本顺滑模型删除掉。这样在保留说话人真实意图的基础上,不但可以提高句子的可读性,而且为后面的诸如摘要、翻译等任务带来便利。1.4.2.3.5.1.3.6 雷音功能在多种远程通话场景中,经常出现混响、传音、噪音、语音抖动等情况,雷音功能通过混响处理、多麦防串音、背景音降噪、语音防抖等多种技术处理会议场景的复杂语音环境。通过雷音功能处理,能够有效屏蔽语音录制环境中所带来的多种噪音,从而提高语音处理的准确性218、。1.4.2.3.5.1.3.7 语音识别知识图谱横跨互联网民生知识、金融科技知识、医疗医学知识、交通、司法、经济学科等多种领域的知识图谱。知识图谱功能通过分词处理、上下文分析、语义分析,能够对语音识别分析后的文本结果进行核验及修正,进一步提升语音识别的准确性。1.4.2.3.5.1.3.8 知识库形成语音识别知识库,一方面为语音识别能力提供训练样本,另一方面对识别后的内容进行合理性分析提供依据。1.1.1.1 图像识别引擎1.1.1.1.1 功能概述图像识别服务(ImageRecognition)基于大数据和深度学习实现,可精准识别图像中的视觉内容,包括上千种物体标签、数十种常见场景等,包含219、图像打标、场景分类、预警等在线API服务模块,应用于智能相册管理、图片分类和检索、图片安全监控等场景。1.1.1.1.2 功能架构1.1.1.1.3 功能设计1.1.1.1.3.1 图像打标图像打标可识别上千种标签,可以将违法麦秆焚烧、违法倾倒等环境违法行为进行打标签标记,同时,相册图片可以根据智能标签进行分类。1.1.1.1.3.2 场景识别用深度学习算法训练,自动识别图像中的数十种常见的场景,如黑烟、火点、堆场等等,这样就可以对视频进行全自动且准确的快速识别,提高检索效率精度和播放量,节省人力成本,并实现自动化的视频内容检索服务、个性化推荐、内容检索服务、审查和分发。1.1.1.1.3.3220、 目标图像预警为图像预警提供全面支持,对涉嫌违法行为,包括超标排放黑烟、非法麦秆焚烧、违法倾倒等,节省大量审核人力,为林业局业务提供一定的保障。1.4.2.3.5.2 规则引擎1.4.2.3.5.2.1 功能概述随着经济社会发展,如何适应快速变革成为社会难题,无论政府还是企业,都面对更快速的政策变化和业务需求变化。传统信息化采用硬编码的方式,实现业务流程与表单的电子化,对于快速需求变化,只能通过业务人员提交变更需求,通过变更流程后再由IT人员更改编码实现,变更时间长,并且业务人员与IT人员存在较高的沟通成本。采用规则引擎,业务人员可以直接参与规则定义,审核规则实现情况,确保规则变更的快速准确实221、现;并且大幅降低IT人员工作量,直接通过规则引擎进行规则变更,降低了对代码可读性及原编写人员的依赖。对于复杂业务规则,传统解决方式编码时间长且容易出错,形成代码的可读性要求高,后期维护难,一旦代码实现人员流失,容易造成信息资产损失。应用规则引擎,可以实现复杂业务逻辑的可视化配置,大幅提高编码效率,理解业务逻辑的人员都可进行后期维护,提升信息资产沉淀率,使企业信息化一步一个脚印走向智能化与智慧化。规则引擎一方面为用户提供可视化的规则配置能力,另一方面对外提供接口能力,可以让应用系统顺畅的将规则引擎相关能力进行集成,为具体的应用系统场景提供服务。1.4.2.3.5.2.2 功能架构规则引擎功能架构222、如下图所示:1.4.2.3.5.2.3 功能设计1.4.2.3.5.2.3.1 规则定义1.4.2.3.5.2.3.1.1 新增规则增加规则主要用于增加一个规则,在新增规则中输入规则显示名,规则执行名称,输入规则库名称,提交即可在相应的规则库中生成规则,但具体的规则配置需要在“修改规则”功能中去修改。1.4.2.3.5.2.3.1.2 锁定规则锁定规则主要目的就只为了控制规则的使用权限,锁定规则后就不能对规则进行修改,审核,发布,以及执行。当规则被锁定后,其“规则状态”栏中的状态也会变成“锁定”。1.4.2.3.5.2.3.1.3 解除锁定即锁定的逆向操作。这样就可以对规则进行修改,测试,发布223、。规则包的“规则状态”也将变为可修改。1.4.2.3.5.2.3.1.4 查看规则可在规则列表中看到上传所有规则信息,以及规则名称、所属规则库、创建时间等规则信息。1.4.2.3.5.2.3.1.5 修改规则在规则修改中,提供了网页版本的规则配置器用来修改规则。在规则列表中每个规则后都有“修改”的链接。点击进入后,会出现规则配置器。修改完成后点击保存按键即可。1.4.2.3.5.2.3.1.6 废除规则对于不再使用的规则,可以进行废除操作。废除规则后就不能对规则进行任何处理。废除规则后,“规则状态”也将变为“被废除”。1.4.2.3.5.2.3.1.7 规则搜索为了快速寻找所需的规则,可以通过224、查询功能来快速找到。通过规则搜索功能能够在大量的规则中快速定位到所需的规则条目信息,从而快速实现对规则的查找、修改等操作。1.4.2.3.5.2.3.2 规则运行1.4.2.3.5.2.3.2.1 修改运行参数对于同一个规则,在规则执行的过程中,针对不同的部门、不同的用户,能够存在着需要输入不同参数的情况。针对这种情况,可以在规则运行前对规则运行参数进行修改,从而实现不修改规则内容的前提下,满足规则定制化运行的目标,满足客户更多样的需求。1.4.2.3.5.2.3.2.2 编辑在规则运行前,可以通过对规则运行进行修改,从而调整规则是否独占、计划类型、运行间隔时间等等运行相关的参数。1.4.2.225、3.5.2.3.2.3 启动对于设置了运行参数、且明确了运行参数的规则,可以通过启动功能启动规则的正常运行,对上层应用提供规则相关服务。1.4.2.3.5.2.3.2.4 停止可以通过停止功能对某条单独的规则进行停止操作。相应规则被停止后,将无法继续对上层应用提供服务。1.4.2.3.5.2.3.2.5 全部停止全部停止功能可以将当前全部正在运行的规则进行停止。全部停止操作需要进行二次确认。1.4.2.3.5.2.3.3 规则监控通过规则监控功能能够看到相关规则运行的统计情况,包括规则启动时间、运行时长等多种运行相关数据。为用户提供完整的规则运行情况监测能力,实现对规则运行状态的实时掌握。1.226、4.2.3.5.2.3.4 规则库管理1.4.2.3.5.2.3.4.1 新增规则库对于具体的规则可以通过添加规则标签的方式将相关规则添加至某个规则库中,从而实现对某规则的批量操作。1.4.2.3.5.2.3.4.2 查看规则库可以通过规则库查看功能查看到规则库列表,包括规则库名称、规则库创建时间、规则库所包含规则条数等等规则库相关信息。1.4.2.3.5.2.3.4.3 查询规则库可以通过检索功能,通过输入规则库名称的方式实现对具体规则库进行检索的目的。1.4.2.3.5.2.3.4.4 启动规则库通过启动规则库的方法实现对某一个规则库中所有规则进行启动的目的。通过启动规则库,可以将某些存在227、逻辑关系的规则同时启动,从而实现通过规则库代替复杂规则的目标,使用同属于一个规则库的一组规则,代替复杂规则。达到规则的分层分模块的设置与编辑。1.4.2.3.5.2.3.4.5 停止规则库可以通过停止规则库操作实现对某个规则库中所有规则同时停止运行的目的。1.4.2.3.5.2.3.4.6 删除规则库可以对规则库进行删除操作。删除规则库之前需要停止规则库中所有规则的运行。规则库的删除不会将规则库中的具体规则同时删除掉。1.4.2.3.5.3 算法能力引擎1.4.2.3.5.3.1 功能概述算法能力引擎包含了案件分类算法、地址识别算法、相似文本发现算法及关键字分析算法等,为上层应用提供了基础的算228、法能力支持。随着业务支撑平台的不断发展与演进,算法能力引擎中的各种算法将极大的支撑上层应用建设的自动化与智慧化,通过算法能力引擎,能够有效解决各种应用场景中需要大量人工处理的信息。从而解决传统方法无法解决的多种复杂问题,或将复杂问题进行简化,变为工作人员能够处理的问题。1.4.2.3.5.3.2 功能架构算法能力引擎功能架构如下:1.4.2.3.5.3.3 功能设计1.4.2.3.5.3.3.1 事件分类算法基于历史沉淀的文本数据以及对应的事件统一分类类别,通过数据挖掘技术,结合一个上报事件的具体描述信息,采用决策树分析方法,实现对一段上报信息描述进行分析后,自动对其进行分类。事件分类算法在多229、种应用场景中得到高效应用。如在指挥中心场景下,在接收到热线、部门等多种来源的事件通知后,传统的处置方式是通过人工的手段进行案件分析、分类,并就分类情况进行自动指派,从而有效减少指挥中心人工调度成本,有效减少事件处置时长。1.4.2.3.5.3.3.2 地址识别算法通过数据挖掘技术,结合一个上报事件的具体描述信息,自动分析出事件描述中包含的地址信息。基于地址识别算法能够高效补充事件属性信息,一方面降低多种上报来源的事件上报难度,另一方面能够极大的节省热线服务人员、转接人员、指挥中心派单工作人员的工作难度及工作量。1.4.2.3.5.3.3.3 相似文本发现相似文本发现算法能够基于文本相似度把当前230、文本和历史文本进行相似度分析,发现多段文字描述是否在描述同样一个问题。通过相似文本发现算法可以实现对多种场景下的上报事件进行分析,从而支持热点上报事件识别、突发事件识别、多案合一等应用场景。1.4.2.3.5.3.3.4 关键词分析算法关键词是代表文章重要内容多一组词,对文本聚类、分类、自动摘要等起重要的作用。现实中大量文本不包含关键词,如果可以准确的将所有文档都用几个简单的关键词描述出来,就能使人们便捷地浏览和获取信息。关键词提取算法一般也可以分为有监督和无监督两类。有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后通过判断每个文档和词表中每个词都匹配程度231、,以类似打标签的方式,达到关键词提取的效果。这种方法精度较高,但是需要大批量的标注数据。另外,每天都有大量新的信息出现,人工维护词表需要很高的人力成本。相对于有监督的方法,无监督的方法既不需要维护词表,也不需要人工标准语料辅助训练,因此这类算法在工程中应用较广。通过关键词分析算法,可以大大节省人工阅读上报事件描述信息所带来的巨大工作量,从而有效降低政府工作人员工作量,提升各类事件处理过程中的信息阅读工作量,提高工作效率,减少事件处理时长。1.4.2.3.5.4 智能分析引擎1.1.1.1.4 自助分析1.4.2.3.5.4.1.1 分析字段选择平台支持从分析数据中选择待分析和显示字段,对于数字232、类型的字段还支持是否进行汇总计算设置,汇总方式包括计数、最大、最小、平均、合计等多种计算方式。平台还支持对数值类型字段进行高亮运算设置,比如某些数值大于40的字段进行高亮标记,高亮字体和背景颜色可自定义设置。1.4.2.3.5.4.1.2 条件设置用户可对自助分析的条件进行设置,包含条件选择、局部过滤器管理、条件关系、条件布局等设置。 条件选择:设置组合查询字段及条件过滤器。 局部过滤器:用于管理仅属于当前组合分析的局部过滤器。 条件关系:选择字段条件和过滤器条件。 条件布局:设置条件过滤器在自助分析界面上的放置位置。1.4.2.3.5.4.2 多维分析多维分析专门设计用于支持复杂的分析操作,233、侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,了解对象的需求,制定正确的方案。1.4.2.3.5.4.3 数据预警数据预警是指一定时间范围内,通过特定的规则,在庞大的数据中定时的寻找超出预警阈值的业务数据,并第一时间告知相关人员。数据预警特性支持以下功能:1.4.2.3.5.4.3.1 预警规则管理制定规则的管理库,方便用户重复利用。1.4.2.3.5.4.3.2 预警策略管理在预警规则管理配置完成的前提下,用户选择指定的数据来源,进行预警规则的组合,并根据业务需求设置相应的阈值。1.4234、.2.3.5.4.3.3 预警任务调度用户可设置数据预警校验调度任务,任务可关联数据预警策略和待告知用户。1.4.2.3.5.4.3.4 邮件预警预警校验任务执行后,对于命中预警策略的数据,以邮件方式第一时间发送给相关人员。1.4.2.3.5.4.4 数据挖掘数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。1.4.2.3.5.5 其他外部服务能力对于第三方开发的服务引擎及信息系统所提供的能力,业务支撑平台能够充分的利用,与平台进行对接后,再通过网235、关平台对外提供统一的服务。1.4.3 业务应用1.4.3.1 森林防火1.4.3.1.1 系统概述森林防火系统综合利用无线通信、数据库管理、辅助决策模型等手段,使之在日常防火监测工作中能够及时准确地监测林火的发生,在火灾发生时能够快速进行林火定位以及林火蔓延趋势分析,并有效地提供各项相关信息,同时能够提供林火扑救指挥,以及灾后快速评估,及时、快速、准确的完成林火扑救和尽快掌握火灾经济损失情况。系统主要功能包括:防火资源管理、林火扑救指挥、灾后评估、护林员定位管理以及预留视频监控几部分。防火资源管理主要是对各类防火资源,如扑火队伍、防火设施、物资等的查询、更新与浏览,以快速、直观的方式为扑火指挥236、提供参考。林火扑救指挥包括林火热点标绘、扑火路线标绘、划定隔离带以及扑火队伍及物资调配情况标绘。灾后评估主要是在林火扑灭后自动计算过火面积并在地图上显示。护林员定位管理包括GPS终端报位以及终端通信功能。GPS终端报位功能是可以随时定位护林员和火灾现场的指挥员;终端通信功能可以通过系统直接呼叫相关人员,进行远程指挥调度。预留视频监控包括实时视频监控、烟火识别分析以及报警火点定位。实时视频监控可以通过视频设备实时观察视域范围内情况,便于及时发现情况,组织救援;烟火识别分析是利用烟火、烟雾特点,对即将发生或者已经发生的火情进行合理的预判和辨别,并能够及时进行火警预报;报警火点定位是在地图上将报警火237、点信息进行定位显示。 林业部门可以轻易实现通过联网的计算机进行远程监控及直接调看前端图像或录像资料。系统能实现对所管辖林区的各个监控点全方位实时监控,并且运用经纬度信息定位技术,可将国家相关部门通报的火灾经纬度信息直接输入市管理平台,从而快捷地对警情地点进行定位,提高应急指挥效率。1.4.3.1.2 系统拓扑图采用最易实现的客户端服务器模式。林场作为服务端,对外提供视频服务,报警服务,数据上报服务等。上级单位作为客户端,享受下级单位提供的数据服务。上级单位可以通过下级单位部署的流媒体服务,查看林场的营林,防火,生产,存储,运输等情况。 不同级别单位的区别是,高级别单位能访问更多的监控域,并且享238、有优先访问权。 监控域(林场)向远程域(上级单位)上报警情。支持只上报直接上级单位,也支持上报给全部上级单位。由火警自动识别系统或人工发现的报警,都需要先经过核实过程,核实确认后,有权限的工作人员可以做警情上报操作。警情上报的目的是,让上级单位的系统(比如监控中心子系统)自动弹出报警,显示报警相关的文字,图片,视频信息1.4.3.1.3 系统功能 森林防火视频监控预报子系统有视频图像采集、云台码流采集、林火图像识别、林火报警和交互确认、云台模拟、云台控制、林火定位、云台姿态校正等功能。 详细功能如下: 数字视频解码:采集来自林火监测子系统传来的视频信息,通过视频采集驱动将视频信息转换成指定的图239、像,以便进行林火图像的识别。云台码流采集:云台码流采集模块是系统的接口模块之一,负责接受来自林火监测子系统传送来的云台码流。云台码流是通过主控室Pc机的串口设备管理器接入端(Rs 232)传入的,云台码流采集模块依据事先约定的码流编码规则,对云台当前的动作信息进行解析,判断云台当前的水平旋转方向、垂直旋转方向以及预制位的信息。林火图像识别:林火图像识别模块是林火识别报警系统实现火灾探测的关键,它充分利用森林背景图像与火灾、烟雾图像在光谱特征、空间几何特征上的差异,运用通用的图像处理方法和识别技术,对林区图像进行分析,并根据火灾蔓延面积、相似度等的变化来判断林区图像上是否有疑似火点。云台模拟:云240、台模拟模块处理的数据来自云台码流采集模块,根据码流采集模块解析云台的动作以及预置位的信息,计算当前云台的水平旋转角度和垂直旋转角度,建立“软云台”来实时的模拟实际云台的运动状态。林火报警和交互确认:一旦林火图像识别模块判断出图像上有疑似火点,林火报警模块会立即发出声光报警信息以唤醒监测人员,监测人员通过目视辨别有疑似火点的图像,确认该区域是否发生了森林火灾,如果确认有火灾,系统发出正式的林火报警信息,并向云台控制模块发送锁定云台的指令;如果没有火灾,系统解除报警。1.4.3.1.4 系统优势和特点自动预警 林火图像识别模块判断出图像上有疑似火点,林火报警模块会立即发出声光报警信息以唤醒监测人员241、,达到自动预警的目的。火灾现场定位利用前端采集系统中的数字云台,在地理信息系统里将每一个监控点进行地址编码,同时将每一个监控点的坐标直接落实在电子地图上,这样地理信息系统一旦接收到特定编码的数字云台回传的位置数据,通过建立特定的位置转换数学模型,实现定位功能。同时,系统具备实现人工定位功能。火灾日志管理系统运行时,系统自动记录何地、何时发生过何种火灾,并可以查询,便于进行森林火灾历史数据的管理。系统特点1) 远程视频监控以直观,真实,有效而被广泛应用在许多重点防范地区。远程视频监控能在森林发生火灾前及时发现火情,从而起到预防火灾的目的;2) 远程视频监控能在森林发生火灾时把现场的图像传回指挥中242、心,指挥中心通过监视前端摄像机图像指挥调度救火,最大限度的能减小火灾造成的损失,3) 远程视频监控能真实记录火灾发生前救火过程中以及救火以后现场的真实情况从而对火灾进行处理,提供有效真实的资料,4) 在林区各消防晾望塔制高点架设红外低照度全天候摄像机各一台,覆盖半径2公里,观测方圆12平方公里森林火情。对初发火情,做到及时发现,及时救护。使火灾隐患消亡在萌芽状态,5) 从消防晾望塔至林区管理指挥中心通过无线传输,不受距离限制,可以把前端图像传输至监控管理中心。森林防火消防中心可对火情及现场情况进行实时观察,以便及时了解现场情况协调调度指挥,6) 林区监控管理指挥中心通过无线远程对前端设备进行长243、焦,短焦控制,对云台进行上下,左右控制,7) 林区监控管理指挥中心能记录火情发生,发展和消灭的整个过程,对以后的火情的预防,治理提供真实有效的直观资料。1.4.3.1.5 前端配置及功能前端采用双波段远距离热成像监控摄像机,该摄像机内部采用长焦高清镜头配合44万130万,200万可见光高清彩转黑摄像机与320X240640x480大口径非制冷热成像摄像机,并辅以重载:360度全方位耐低温特种云台、防护罩及云台控制器,通过远程智能控制设备、烟火智能分析处理设备,实现2km 10km以上昼夜全天时视频监控。(安装于前端的烟火智能分析处理设备可在视频码流未进行压缩编码前的高清析状态下进行智能分析并通244、过安装于前端的远程智能控制设备将预警信息传送至远程监控预警管理中心)。内部工业级嵌入式控制电子系统,实现对高清可见光与红外双波段摄像机的变倍、聚焦、视频切换、云台俯仰旋转高稳定性控制,整体外壳采用超强铝合金达到了IP66防护等级,保证设备在野外恶劣环镜中长期运转。 双波段远距离热成像监控摄像机用于采集森林附近的实时状况视频信号,可自动探测出远距离火焰、车辆、人员等热源目标,实时告警。1.4.3.2 森林资源管理1.4.3.2.1 森林资源档案森林资源档案是林业生产中的重要数据资料,是生产单位林业经营管理活动和各级资源管理部门决策的重要依据,是实施天然林保护工程和森林资源管护经营责任制的基础数据245、。森林资源档案管理系统可以提高资源管理水平,提高劳动生产率。森林资源档案系统为领导决策提供快速、准确的信息服务。对林地面积、林种、树种、林相、立木蓄积、幼林株数、种植年份等信息实现录入、查询、统计功能,并能自动更新森林火灾档案,能自动生成火灾档案记录并支持在线打印,为研究分析森林火灾发生的季节、原因、掌握森林火灾发生规律等提供依据。同时支持经纬度信息定位,输入经纬度信息,能实时将位置显示在地图上,便于确认位置。系统支持对林区水源、上山道路等详细录入、查询,便于在灾情发生救援人员能第一时间找到水源和灾情地点,及时扑救。将灾害造成的损失降低到最小。1.4.3.2.2 系统功能森林资源管理系统的建设246、是在林业基础数据库建设的基础之上,结合最新的信息化和数据库管理技术,采用一体化、集中式的方式,在统一空间参考下分层分类对多源、异构、多尺度、林业资源信息数据进行管理。系统主要功能包括:工程管理、数据浏览、数据查询、数据检查、数据编辑、专题信息维护、森林分类经营区划以及森林城市成果展现。工程管理包括工程设置、工程保存、图层加载、图层过滤、图层元数据编辑、图层输出、图层位置管理、打印预览、打印输出、工程图片输出。数据浏览包括空间图形数据的展示、放大、缩小、书签、漫游、图幅计算、图副定位、政区范围数据展示、视图鹰眼、图层属性表浏览、图层属性设置。数据查询包括空间查询、缓冲区查询、属性查询、小班查询。247、数据检查:拓扑检查、图形检查、属性检查、逻辑关系检查、错误提示、错误跟踪等。数据编辑:启动编辑、保存编辑、停止编辑、切换编辑图层、回退、前进、选择、删除要素、创建要素、编辑选项设置、节点编辑、面编辑、线裁剪、面裁剪、属性编辑。专题信息维护:小班因子信息录入、修改与删除。森林分类经营区划:根据森林的功能区分,进行森林区划经营成果的可视化展现,并可以将区划成果输出。森林城市成果展现:通过显示现有森林资源情况,时时展现国家森林城市创建成果与进展。1.4.3.3 自然保护地管理1.4.3.3.1 基本监测数据展示针对全市大尺度宏观的生态相关评价与管理对于基础空间数据的要求,负责专题图层的周期性创建、分248、类、建库、关联、管理任务,形成长时空序列的高质量的专题遥感影像数据集。基础遥感数据的反演内容包括:植被初级净生产力(NPP)数据、数字高程(DEM)数据、植被覆盖度指数(NDVI)数据、增强型植被指数(EVI)数据、土地利用覆被状况(LUCC)数据等。1.4.3.3.2 生态遥感特征专题图针对其他业务处室需要用到的生态状况专项监管内容,为其提供符合要求的专项范围内的遥感图层与简单专题图层,便于对应业务处室的使用与二次加工。主要专项监测包括生态红线区域年度监测、自然保护地等重点区域年度监测、河流定期监测、矿产开发区生态破坏定期监测、工业企业集中区动态定期监测等。1.4.3.3.3 自然保护地管理249、展示实现自然保护地内基于遥感监测、反演、解译后的实时生态状况结果、人类活动监控结果、保护区面积等结果领导呈现,为综合研判区域内质量变化情况提供宏观支持。自然保护地一张图针对保护区边界、设施等自定义选项信息的提供简单统计分析图层呈现。此外,可实现巡查执法时巡查人员的GPS导航以及管理人员对巡查人员的实时定位。1.4.3.3.4 决策服务综合展示全市自然保护地底数情况、生态红线监管问题、国家重点生态功能区转移支付绩效评估年度考核任务执行情况。基于GIS专题直观反映自然保护地基本情况,为领导决策支撑提供依据。1.4.3.4 古树名木管理1.4.3.4.1 建立古树名木档案全面系统地查清古树名木的资源250、分布和生长状况,对确认的古树名木,要设置保护标志,划定保护范围,制定保护措施。对古树的生态环境、生长发育状况和保护现状进行动态监测和管理。1.4.3.4.2 加强地方立法,依法保护古树名木目前,我国古树名木保护还没有一部专门的法律规则,地方各级政府应根据中华人民共和国森林法和中华人民共和国环境保护法制定保护古树名木的地方性条例,实行专业养护部门和单位、个人共同保护管理的措施。1.4.3.4.3 广开渠道,加大对古树名木保护的资金投入当前,古树名木的保护资金尚未纳入各级政府的财政预算,资金的不足使古树的日常管理、防虫、施肥等措施不能及时实施。古树名木保护是公益性事业,必须依靠全社会的力量。1.4251、.3.4.4 加强宣传教育,提高全民保护的意识古树名木保护是一项社会性很强的工作,只有增强全民的保护意识,让公民了解古树名木的科学价值和文化价值,调动全社会力量,参与古树名木的保护工作,才能使古树得到有效的保护。1.4.3.5 森林病虫害管理1.4.3.5.1 系统概述病虫害监测调查系统主要包括病虫害普查信息维护、病虫害分析、数据上传下载和移动信息采集(外业调查)几部分内容。病虫害普查信息维护主要是对病虫害普查登记详细信息进行维护管理,包括对普查信息的新增、修改、查询和删除。病虫害普查登记详细信息包括病虫害的基本属性、生物学属性、防治技术、测报技术、建议技术、生活史、多媒体信息(图片)、寄主关252、系等。病虫害信息统计主要是对病虫害普查登记信息逐级按政区进行统计。病虫害分析主要是实时分析出相应的专题图、作业资源图。包括区域统计图、年度趋势图、病虫害份额图和专题分析图。数据上传下发包括数据上传和数据下发功能。数据下发是指通过任务下发的方式将林业资源、地理数据、监测调查数据和任务信息打包下载到移动采集设备中,便于野外采集调查;数据上传是指将通过移动信息采集设备获得的病虫害信息数据以任务的方式上传到后台系统中,并对系统中的相关数据进行更新。移动信息采集是在移动端进行病虫害监测信息采集,信息采集内容与病虫害普查信息维护内容一致,并支持根据当前位置,拍摄照片的功能。1.4.3.5.2 系统架构森林253、病虫害预警管理系统由“嵌入式的工业级GPS手持智能终端+专业森防护调查软件+森林病虫害预警管理软件”构成。适用于林业有害生物调查工作,它以数字化的地图(栅格或矢量)作为调查底图,利用内置的GPs设备进行空间定位和导航,通过可视化的界面进行数据的记录,并实现与Pc机的无缝连接,调查结果直接进入本级森林病虫害防治系统数据库,本级森林病虫害防治系统数据库可与上级及市数据库同步接收。简化基层调查数据的处理程序,提高汇总精度与工作效率。1.4.3.5.2.1 工业级卫星定位手持智能终端该手持终端是一款运用卫星定位技术,专门应用于林业人员管理的移动计算终端。基于WINDOWSMOBILE(1 5操作系统,254、它具备3 5寸480X320像素的高分辨触摸屏,具备无线局域网和2 75G广域网通讯及数据传输,支持GPS,320万自动对焦拍照和录像,支持一、二维激光或影像扫描识读,支持1356MhZRFID读写,支持蓝 20近距离数据传输,是一款理想的、高性价比的移动计算终端,除了上述高集成的功能应用,它还是严格按照工业IP54封装标准设计,满足1 2米水泥地面跌落测试。配备3400MAh锂聚合物安全电池,可以满足设备超长时间工作!该设备是为实现林区、景区信息化、智能化而开发的专业产品,是林业工作者的智能移动工作终端,是智能手机、卫星定位手持机等多种设备的完美集成,一机在手随时无忧。随时随地通讯无阻、精准255、定位、采集同步数据,是护林员日常工作、巡护管理、森林资源普查等的全能助手。1.4.3.5.2.2 林业警情上报软件GAKES林业警情上报软件是专门为智慧林业系统开发的一款PDA端应用软件,它可将警情种类(林病、林虫、森林火灾可选)、林场编号、林场警情照片、警情位置描述、警情危害程度描述,警情处置建议等信息以及自动匹配的位置信息、报告人信息一并实时上传至后台管理软件。后台管理软件依据警情种类自动分配到相应的管理子系统数据库。并形成电子档案。1.4.3.5.3 森林病虫害预警管理软件功能森林病虫害预警管理软件是森林病虫害预警管理子系统的核心模块,也是智慧林业信息化应用管理系统平台软件的主要组成部分256、。它是实现林业病虫害问题预警预防、早期处理、集中统计、对比分析、档案记录、经验存储的载体和信息化组织过程资产仓库。主要包含以下功能:1.4.3.5.3.1 警情实时报警功能当前端森林巡防员通过GAKES手持智能终端或下级林业主管部门通过wEB上报森林病虫害情报时,系统软件可在主页面显示出报警信息,出现弹出窗口并启动系统声光报警器提醒值班人员进行处理。未经处理的警情,系统将一直保持报警提醒状态,经处理后,值班人员可手工解除警情。1.4.3.5.3.2 档案记录功能系统接收到前端森林巡防人员上报的警情后,系统能够自动生成林业病虫害警情登记数据库,详细记录有关警情的上报人、上报时间、上报地点、警情图257、片、危害成度、林区位置、林区编号、林区名称等信息,以及有关值班人、任务接收人、处理要求、处理结果回馈等警情处理信息。1.4.3.5.3.3 警情上报功能当值班人员获取较为严重的森林病虫害警情时,可通过系统软件的“警情上报”功能,一键上报给上级主管部门的森林病虫害预警管理系统,同时可自动生成“WORD文档”格式的报告,邮件发送至主管单位领导邮箱,或书面呈送给主管单位领导。1.4.3.5.3.4 报表统计功能根据业务、工作需要,可使用系统的报表统计功能,按行政单位(市、区县各级园林局)、林业工作站、林区、林场、人员、或病虫害种类、危害成度级别以及处理状态等属性分别统计一周、一月、一季度、半年、年度258、报表。并可一键导入Excel表格,便于工作人员进行数据对比与分析。1.4.3.5.3.5 通知下发功能各级林业主管部门可根据阶段性的工作安排,使用本系统向下级部门、下属单位、指定林业工作站、指定林区、指定林场或指定林业部门工作人员下达森林病虫害普查、生态调研、林业状况调查、警情处置等任务信息,任务信息接收部门系统客户端或个人的GAKES智能手持终端接收到任务信息后,会弹出新任务信息提醒,并启动系统客户端或智能手持终端上的声光报警装置,至到接收人接受该信息。接收人接受任务后,系统会自动生成接收人接受了任务的档案记录。接 收人接受任务后,系统客户端或智能手持终端会一直保留一个任务未回馈提醒待接受人259、完在工作任务后,按系统软件提醒回复任务回馈信息,案件方为完结。1.4.3.6 林地资源动态监测平台1.4.3.6.1 系统概述林地资源动态监测平台应用GIS技术,将下达采伐限额指标与图形数据相结合,借助GIS分析其相关的地理属性之间的相互关系,从而分析采伐量决策在空间上的合理性,分析采伐进程和空间配置方案与保护生物多样性的影响。包括采伐小班上图、采伐量决策分析、生物多样性影响分析。1.4.3.6.2 系统架构采伐小班上图:是将采伐预定量落实到空间采伐小班,以展现不同的采伐方式和采伐量在空间分析情况。采伐量决策分析:借助GIS,分析采伐量与地理属性之间的相互关系,从而分析采伐量决策在空间上的合理260、性。生物多样性影响分析:根据采伐进程情况以及空间配置方案,分析对保护生物多样性的影响。1.4.3.7 绿化资源建设管理系统1.4.3.7.1 系统概述为了全面的提升园林绿化管理部门的工作效率,实现园林绿化资源信息的开放性、共享性和时效性,必须及时确定系统功能定位。数字化园林绿化设计系统的功能定位比较特殊,涉及到管理决策、管理手段等,因此必须结合具体情况,在第一时间确定系统的功能定位。管理模式要具备全面化、动态化和超前化的特点,以实现资源共享为目标,按照系统功能机制的具体要求,保证监督模式的有效性,实现各项管理体系的透明化。1.4.3.7.2 确定系统的基本结构数字化园林管理系统以3S技术为基础261、的,为了提升决策管理的有效性,在实践过程中必须从实际情况入手,对系统的基本框架结构引起重视,按照设计要求进行。首先是基础层,基础层是管理的关键所在,涉及到网络设备、服务器、存储设备以及操作系统等,由于软件类型比较多,因此必须提供多种服务形式,使其应用于服务系统。采用可视化操作系统,能实现信息的有效采集和处理,用户可以借助接口,对各项业务进行处理。其次是业务层,业务层是业务进行规划的重要部分,可以将正规的过程和业务纳入到现有管理阶段,实现信息的分析和利用。最后是数据层,也是数据的存放地,能实现信息的存放和管理,进而保证空间数据的完整性。1.4.3.7.3 建立地理信息系统(1)信息源。城市园林绿262、化信息涉及面比较广,其中比较重要的是和园林绿地相关的基础地理信息,信息源的收集工作起到重要的作用,由于数量比较大,变化也很明显,会增加采集难度。在后续管理中要对基础信息形式和指标进行解析,管理文档起到重要的作用,涉及到工程设计、招投标文件以及竣工验收等。(2)图形数据处理。数据资源量本身比较大,在处理阶段,能提供大量的空间数据,便于图形数据的查询、检索和处理。图形输入、编辑以及图形输出等方式比较特殊,必须实现数据的有效转换,适应管理趋势要求。(3)专题数据库。园林专题数据的录入以及编辑工作起到重要的作用,系统本身能提供丰富、便捷的工具类型,因此在信息资料处理的阶段,要保证数据的针对性和准确性。1.4.3.7.4 系统用户管理系统用户分为内部用户和外部用户等,不同用户对信息资源的掌握度有不同的要求。内部用户指的是内部工作人员,维修人员和管理人员等,是依靠现有系统完成日常处理工作,提升工作效率。外部用户则是以相关企业和个人为主。系统分析和用户需求存在差异性,需要结合职能属性,对信息可视化内容进行划分,兼顾到内外用户的需求,实现数字化发展。174