智慧城市政务大数据治理产品体系项目可行性研究报告114页.pdf
下载文档
上传人:职z****i
编号:1170096
2024-09-13
114页
4.35MB
1、 项目编号:智慧城市政务大数据治理产品体系智慧城市政务大数据治理产品体系项目可行性项目可行性 研 究 报 告 目录 1.项目概况.1 1.1.项目名称.1 1.2.项目周期.1 1.3.项目投资.1 1.4.项目概述.1 1.4.1.项目背景.1 1.4.2.立项依据.3 1.4.3.建设必要性.4 2.可行性分析.5 2.1.政策可行性.5 2.2.技术可行性.7 2.3.竞品分析.10 3.建设目标.12 4.建设内容.16 4.1.政务大数据治理体系顶层设计.16 4.2.政务大数据采集平台.16 4.3.政务大数据接入平台.17 4.4.政务大数据融合平台.18 4.5.政务大数据资源2、管理平台.19 4.6.政务大数据应用体系.19 4.6.1.政务大数据共享交换平台.20 4.6.2.政务大数据开放平台.20 4.6.3.政务大数据知识服务平台.21 4.7.政务大数据治理工具集.22 4.7.1.互联网政府主题数据采集工具.22 4.7.2.政务数据分类分级工具.22 4.7.3.政务数据开放沙箱工具.22 4.7.4.政务数据共享开放考核工具.23 4.8.政务大数据治理产品体系应用示范.23 4.8.1.基于知识图谱的政策公文智能服务平台.24 4.8.2.智慧督查督办系统.24 4.8.3.“一网通办”政务服务平台.25 5.建设方案.27 5.1.政务大数据治理3、体系顶层设计.27 5.1.1.政务大数据治理体系核心概念.27 5.1.2.政务大数据治理数据体系.28 5.1.3.政务大数据治理安全体系.29 5.1.4.政务大数据治理法律法规体系.29 5.1.5.政务大数据治理标准体系.30 5.2.政务大数据采集平台.32 5.2.1.总体架构.32 2 5.2.2.功能架构.33 5.2.3.技术架构.37 5.2.4.关键技术.41 5.2.5.技术路线.42 5.3.政务大数据接入平台.43 5.3.1.总体架构.43 5.3.2.功能架构.44 5.3.3.技术架构.45 5.3.4.关键技术.46 5.3.5.技术路线.47 5.4.政4、务大数据融合平台.48 5.4.1.总体架构.48 5.4.2.功能架构.49 5.4.3.技术架构.52 5.4.4.关键技术.53 5.4.5.技术路线.58 5.5.政务大数据资源管理平台.60 5.5.1.总体架构.60 5.5.2.功能架构.61 5.5.3.技术架构.63 5.5.4.关键技术.65 5.5.5.技术路线.67 5.6.政务大数据应用体系.68 5.6.1.政务大数据共享交换平台.68 5.6.2.政务大数据开放平台.74 5.6.3.政务大数据知识服务平台.79 5.7.政务大数据治理工具集.84 5.7.1.互联网政府主题数据采集工具.84 5.7.2.政务数据5、分类分级工具.88 5.7.3.政务数据开放沙箱工具.91 5.7.4.政务数据共享开放考核工具.94 6.实施方案.98 6.1.实施原则.98 6.2.进度计划.99 7.项目投资预算与资金来源.101 7.1.投估算依据.101 7.2.项目总投资估算.102 7.3.资金筹措方案.109 7.4.资金使用方案.109 8.预期社会效益和经济效益.110 8.1.经济效益.110 8.2.社会效益.110 1 1.项目概况 1.1.项目名称 智慧城市-政务大数据治理产品体系项目 1.2.项目周期 3031 万元 1.4.2018 年 9 月-2020 年 9 月1.3.项目投资项目概述 6、1.4.1.项目背景 随着数据时代的到来,全球数据规模呈现爆发式增长,据国际数据公司(IDC)监测,全球数据量大约每两年翻一番,预计 2020 年有望达到 35ZB。数据蕴含巨大价值,世界各国政府和组织对此有高度认识,纷纷将开发利用数据作为夺取新一轮竞争制高点的重要抓手,积极推动实施数据技术的研发和应用落实。党的十八大以来,以习近平同志为核心的党中央在全面深化改革的历史伟业进程中,高度聚焦“国家治理”问题,着力突出“现代化”引领,更加彰显“时代性”特征,不断加快推进国家治理体系和治理能力现代化建设。以大数据为代表的新一轮科技与产业革命浪潮澎湃,引发了全球治理体系的深刻变革。大数据发展日新月异,7、对国家治理体系和治理能力现代化产生深远影响。习近平高度重视大数据的发展及其在国家治理体系与治理能力现代化建设中的重要作用。2015 年 6 月,习近平考察贵州时高度肯定贵州发展大数据确实有道理。2016 年 10 月,习近平在主持中央政治局第三十六次集体学2 习时指出,要建设全国一体化的国家大数据中心,推进数据融合。2017年 12 月,习近平在中央政治局第二次集体学习时强调,要运用大数据提升国家治理现代化水平。2018 年 5 月,习近平向中国国际大数据产业博览会致贺信,习近平强调,中国高度重视大数据发展,全面实施国家大数据战略。在政策引导和市场驱动下,国内数据建设快速发展。但总体上,在推动8、数据建设应用中,还存在不少问题,数据治理“难”就是其中之一。数据治理“难”主要表现在:对数据治理目标、内容和场景把握不准,缺乏统一标准规范,技术手段单一,数据治理成效达不到预期等。2018 年 5 月中国国际大数据博览会开幕式上,中国科学院院士梅宏就推动大数据治理体系建设,营造大数据产业发展环境发表演讲中表示,大数据治理体系建设是我们国家实施大数据战略的重要保障,是发挥大数据作用,做大做强大数据产业的重要因素,也是关键基础,大数据治理体系建设已经成为发展的重点。2019 年 3 月全国大数据标准化工作会议暨全国信标委大数据标准工作组第六次全会上,梅宏院士再次呼吁,“大数据治理问题必须提上日程”9、。梅宏院士称,围绕大数据治理,国际上虽然已有不少成功的实践和研究探索,但仍然存在一些问题。梅宏院士说,目前,大数据治理已有不少可用技术与产品,但缺乏多层次管理体制和高效管理机制。因此,探索大数据环境下的数据治理体系构建,对解决数据治理难题,落实国家大数据战略具有重要的实践意义。目前,我国政府信息化和电子政务系统已经实施多年,各政府部3 门积累了大量关系国计民生的数据,但政府部门在决策的过程中往往还是“经验主义”主导,甚至不少领导干部不知道本部门有哪些数据,数据放在哪里。因此,迫切需要了解本部门的数据状况,这些数据目前有哪些主要的应用场景,已经为本部门管理水平和公共服务能力的提升发挥了哪些作用,10、是否曾经共享给其他兄弟部门以发挥更大的价值等基本问题。同时,政府部门众多,且存在跨部门、跨系统的数据交换,各系统建设难免出现异构现象,数据格式、类型不一致,数据质量问题突出。统一数据标准是各局点之间互联互通、信息共享、业务协同的基础,结合电子政务建设的实践体会,运用先进适用的信息技术进行数据治理,通过顶层设计和统筹规划,建立针对政府的数据标准体系,从根本上解决各部门各系统数据存在的不标准、不完整、重复、错误、不一致等数据质量问题,实现信息共享、信息交换、信息关联的目的。1.4.2.立项依据 促进大数据发展行动纲要国发201550 号 “十三五”国家政务信息化工程建设规划发改高技2017144911、 号 国务院办公厅关于印发政务信息系统整合共享实施方案的通知国办发201739 号 大数据产业发展规划(2016-2020 年)工信部规2016412 号 贵州政府数据“聚通用”攻坚会战实施方案 黔数据领 20161 号 4 贵州省大数据战略行动 2019 年工作要点黔数据领20191号 1.4.3.建设必要性 数据治理是指对数据资产管理活动行使权力和控制的活动集合,通过优化数据架构,保证和提升数据在整个生命周期中的质量,保障数据挖掘的应用价值,使数据资源可知、数据资源架构合理、数据质量可控、数据脉络清晰。数据治理是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工12、具、数据标准、数据质量、影响度分析、作业流程、监督及考核等内容。政府需要能“了解数据、管理数据、治理数据”的政务数据治理解决方案,帮助政府实现“用数据说话、用数据决策、用数据管理、用数据创新”。本项目建设必要性包括四个方面:(1)数据治理能够让政府部门清楚掌握数据资源情况 由于大部分政府信息化建设缺乏总体规划,信息系统建设情况复杂、传统信息系统建设形成大量数据孤岛,政府部门需要对所属数据资源一站式全景化的了解掌控。(2)数据治理能够帮助政府部门形成统一的数据资源层 已建成信息系统的数据分散,数据不同步,升级改造难,需要整合形成统一的数据资源层,包含主数据、元数据管理,形成基础库和数据标准,方便13、信息系统的集成整合、升级替换和大数据应用的开发。(3)数据治理能够持续提升政务数据质量 大数据的根基是数据,而数据质量是数据的生命,若数据质量出5 了问题,即使分析挖掘数据的工具再先进,在充满“垃圾”的大数据环境中也只能提取出毫无意义的“垃圾”信息。建成统一的数据资源层后,政府部门还需要持续不断的提升数据的质量,保证数据的准确性、真实性、一致性、完整性、时效性。(4)数据治理能够保障政务数据管理和流通服务安全 建成统一的数据资源层后,政府部门需要方便的管理数据,对外提供数据服务,推动数据的共享与开放,推动数据的价值实现。2.可行性分析 2.1.政策可行性 “十三五”国家政务信息化工程建设规划(14、以下简称 规划)提出了构建形成大平台共享、大数据慧治、大系统共治的顶层设计,建成全国一体化的国家大数据中心,有利促进网络强国建设的一体化设想,这是我国政务信息化发展的必然要求。规划突出了基于政务信息资源目录、共享开放和服务平台,有效推进政务数据共享开放和服务的客观需求。规划提出,构建以跨部门、跨地区协同治理的执政能力、民主法治、综合调控、市场监管、公共服务、公共安全等 6 个大系统工程的部门数据目录,人口、法人、空间地理和社会信用的基础数据目录,以及公共服务主题数据目录,形成国家政务信息资源目录体系,是实现国家政务数据共享开放和服务的重要基础。规划还提到,统筹构建一体整合大平台、共享开放大数据15、协同联动大系统,将“大平台、大数据、大系统”作为较长一个时期指导我国政务信息化建设的发展蓝图。这就为我国政务信息资源的共享开放和6 服务提出了一个大的框架。充分利用国家政务数据中心的资源目录和共享、开放、服务大平台,开展政务信息资源的共享、开放和服务,是规划的重要内容。2018 年 6 月 7 日,国家市场监督管理总局和国家标准化管理委员会发布中华人民共和国国家标准公告(2018 年第 9 号),批准信息技术服务 治理 第 5 部分:数据治理规范(以下称数据治理规范)国家标准发布实施,标准号为 GB/T 34960.5-2018,实施日期为 2019 年 1 月 1 日。数据治理规范是我国信16、息技术服务标准(ITSS)体系中的“服务管控”领域标准,属于信息技术服务 治理的第 5 部分。该标准根据 GB/T 34960.1-2017信息技术服务 治理 第 1 部分:通用要求中的治理理念,在数据治理领域进行了细化,提出了数据治理的总则、框架,明确了数据治理的顶层设计、数据治理环境、数据治理域以及数据治理的过程,可对组织数据治理现状进行评估,指导组织建立数据治理体系,并监督其运行和完善。贵州政府数据“聚通用”攻坚会战实施方案提出政府数据聚通用,实现该目标主要存在三个问题:数据聚集速度不够快,迁入的系统大多数是门户网站和小型应用系统,对于人口、法人、自然资源和空间地理、宏观经济四大基础数据17、库等不少数据量大、服务公众面广、实时数据更新快的应用系统尚未迁入平台。各部门、各市州对政府数据聚集共享的应用系统迁入速度缓慢,甚至出现了市州政府自建政府数据中心和异构云平台的苗头;数据共享交换水平不高,一是数据交换共享面窄量少,目前只有工商、税务、质监等少数部门开展数7 据交换,其他部门的数据交换仍然具有很大的拓展空间;二是数据烟囱普遍存在,条块分割的体制成为数据互通的重要障碍,中央垂直管理的部门条数据难以与各级政府块数据实现共享。有的部委下发的应用系统,省级部门无法整合,数据难以导出;三是共享技术有待提升,数据分级分类、数据目录梳理等标准和规范相对滞后,导致跨部门、跨领域共享难以实现;三是数18、据应用质量不高,不少部门应用系统仍属孤立的信息化应用,数据整合应用水平不高,主要停留在行政审批流程简化等公共服务方面,在宏观经济决策、经济运行分析等方面跨部门业务协同应用较少,政府数据共享价值尚未得到充分发掘。综上所述,无论是国家层面的政策文件和国家标准,还是贵州省等地方政府政策文件都对数据采集汇聚、数据融合分析、数据质量管理、数据共享开放等数据治理的过程提出要求,因此从政策角度政务构建大数据治理产品体系具有可行性。2.2.技术可行性 数据治理无论从理论还是技术上都是一个体系化、综合性的问题,特别是数据采集、数据接入、数据融合、数据管理等数据治理关键过程中所使用的技术栈都经过互联网和大数据发展19、浪潮的打磨而逐渐成熟,本项目从四个角度论述技术可行性。(1)多源异构数据接入技术 目前,无论是开源框架还是华为、阿里等大型厂商都具备多源异构数据接入的能力,支持物联网、数据库等异构数据源的接入。在性8 能上,支持单日 GB 级别的数据吞吐量。在安全上,支持 HTTPS 加密传输,租户间资源及操作隔离,实现租户访问权限控制,保护系统和用户的隐私及数据安全。针对市县级或单个委办局的数据治理,当前多源异构数据接入技术完全能够支撑需求,针对省部级甚至国家级的数据治理,可通过分布式架构,通过增加计算和存储资源来支撑超大型多源异构数据的接入。(2)网页数据采集和无头浏览器等数据采集技术 网页数据采集即网络20、爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,是大数据发展中必不可少的一大基础技术。本项目使用的网页数据采集工具为 Scrapy,Scrapy 是 Python 开发的一个快速、高层次的屏幕抓取和 web 抓取框架,Python 语言有强大的字符串处理功能,极为适合处理网页结构数据,Scrapy 的特点任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如 BaseSpider、Sitemap 爬虫等,最新版本又提供了 web2.0 爬虫的支持,配合 Scrapyd 可以实现网页数据采集工程的上传及调度,是一款性能强大的网页数据采集工具。无头浏览器(Headlese21、 Brower)是没有图形用户界面(GUI)的 web 浏览器,具有普通浏览器的所有功能。它的许多用处之一是自动化可用性测试或测试浏览器交互,本项目着重使用其交互功能,打造可视化网页数据采集系统,使用到的无头浏览器为 Splash,使用 Twisted 和 QT5 在 Python 3 中进行实现,可以有效的与 Scrapy 进行结合,通过可视化编辑直接生成网页数据采集脚本。9 (3)脱敏脱密等数据安全技术 个人隐私泄露和涉密数据处理一直是数据治理、数据使用阶段无法避免的问题。在敏感信息识别中,目前基于正则表达式和语义理解的敏感信息识别技术已经被广泛应用,支持信用卡号、手机号、电子邮箱、IP 22、地址、住址等敏感信息的识别。脱敏脱密方法目前主流的包括 k-匿名,L 多样性,数据抑制,数据扰动,差分隐私等,均能够支撑政务大数据治理中的脱敏脱密需求。(4)跨媒体多模态政务数据融合技术 政务大数据治理产品体系下的政务大数据融合平台和政务数据知识服务平台的建设依托现有技术以及公司已有项目的支撑。政务大数据融合平台利用数据模型构建技术和跨媒体数据融合技术,旨在解决多源异构、跨媒体数据的关联融合难题。目前数据模型和多源数据融合算法在医疗、交通等领域已有了一些成熟的应用,对支撑政务大数据融合平台的建设有重要的指导作用。政务数据知识服务平台主要利用文本数据的语义理解和跨媒体知识库构建技术,目前基于注意23、力机制和深度学习的文本分类、情感分析的准确率已经达到了 92%,在结构化、半结构化和非结构化数据的知识抽取方面均有成熟的算法和工具。另外,公司在智慧施政二期和天津跨媒体政务知识引擎构建关键技术研究项目中对政务文本语义理解和跨媒体政务知识库构建技术有了一定的研究基础。综上,通过现有项目的基础和已有技术的支撑,整个政务大数据治理产品体系在政务大数据融合和政务数据知识库构建方面具有可行性。10 (5)国家信息共享交换模型(NIEM)国家信息共享交换数据模型是为跨领域数据共享交换提供参考,需要兼顾规范性和扩展性,允许所有领域的开发者参与到数据模型的设计的同时,不会带来数据语义的混乱。国家信息共享交换模24、型为各领域和各领域之间的信息共享交换提供指导,以实现信息共享、业务协同、公共服务、辅助决策,不同行业、不同业务领域、不同组织机构信息系统之间,信息和信息产品的交流与共用。因此,国家信息共享交换模型定义为不同行业、不同业务领域、不同组织机构之间的信息共享,在特定的范围内,着力解决信息共享问题,并对解决方法和措施不断进行论证和完善,最终实现信息的共享和无缝流动。国际上知名的国家信息共享交换模型是美国的国家信息交换模型(NIEM),对推动中国国家信息共享交换模型理论研究与工程实践具有重要的参考和借鉴作用,也对政务大数据治理的推进具有重要的参考。综上所述,政务大数据治理产品体系在技术上具备可行性。2.25、3.竞品分析 目前,市场上主流的轻量级数据治理平台有四方伟业、华傲等厂商,本项目对两款数据治理平台的试用和调研。11 图 1 四方伟业数据治理平台产品功能架构 四方伟业数据治理平台以元数据为核心展开数据治理的相关功能设计和开发。功能比较齐全、可视化效果突出。图 2 华傲数据治理平台产品功能架构 华傲数据治理平台特点:界面设计较为简约、可视化功能具备;有表目录、元数据目录、数据源目录的编目功能且结构层次较为清晰;可以给表关联多样的数据质量规则;用户可以关联相应的组织架构;全文检索标准规范体系安全保障体系大数据大数据接口接口大数据大数据接口接口集体集体服务服务集体集体服务服务请求请求代理代理请求请26、求代理代理消息消息中心中心消息消息中心中心应用层标准体系数据源参考数据标准数据命名标准标准文件目录标准数据标准自动稽查标准分发标准订阅可视化服务配置共享服务授权零编码服务生成结构化、非结构化Restful接口Webservice接口共享服务数据融合可视化配置跨实体跨表图形化统计衍生字段配置数据脱敏异构数据源内置脱敏政策敏感数据识别可视数据脱敏自定义脱敏脱敏算法主数据异构数据源主数据整合自动整合数据主数据分发异构数据源可视化治理流程定时调度数据质量数据增量治理自定义治理规则问题数据修复脚本剖析智能治理智能治理算法支撑可视化建模表结构自动获取建模设计表关系自动关联逆向生成智能建模算法工具建模设计异27、构数据源定时调度映射关系解析自动映射元数据版本元数据分析支撑层采集层ETL过程数据源数据源OracleMySQLDB2DGSQLServerHIVEHBASEHDFS建模工具文本文件12 有元数据采集日志管理功能;有数据安全管理模块(水印管理、数据溯源)。产品功能比较:表 1 竞品功能比较 功能项 华傲 四方伟业 主机管理 无 数据源管理 数据分类 数据分层 ETL 工具 无 元数据管理 数据标准管理 数据质量管理 数据清洗 非结构化数据管理 无 数据脱敏脱密 数据订阅与发布 无 数据检索功能 数据融合 数据模型管理 主流产品功能结构分析如上表所示,代表该功能具有一定特点,是其它产品不具备的产28、品,代表该功能完善,代表该功能与其它产品相比有一定不足,无代表无该功能。3.建设目标 政务大数据治理产品体系项目建设目标是针对政务场景的打造集顶层设计、数据采集、数据接入、数据融合、数据资源管理、数据应用于一体的高效、安全、全周期、全方位的大数据治理产品体系,为政府提供一站式政务数据治理解决方案,在继续推进政务数据“聚通用”的同时,将政务数据从“重汇聚”向“强治理”阶段进行过渡,13 综合大数据采集技术、大数据治理技术和大数据应用技术,全面提升政府治理能力。政务大数据治理产品体系主体架构为“1+4+3”体系,1 是一个顶层设计,4 是四个技术平台,3 是三个基础应用服务。顶层设计数据采集平台技29、术平台数据接入平台数据融合平台数据资源管理平台数据开放平台数据共享平台数据知识服务平台基础应用服务核心概念数据体系安全体系标准规范法律法规工具集知文智用智慧督查督办一网通办应用示范 图 3 政务大数据治理产品体系总体架构 顶层设计是政务大数据治理产品体系的大脑,它定义政务大数据治理的核心理念和目标,分析政务大数据治理体系中的核心元素之间的关系,界定政务大数据治理的数据对象的范围,梳理政务大数据安全的技术手段和保障制度,归纳政务大数据治理所需的法律法规和标准规范。技术平台是政务大数据治理产品体系的骨干,它包含数据采集平台、数据接入平台、数据融合平台、数据资源管理平台,为数据治理提供全周期和全方位30、技术支撑。基础应用服务是政务大数据治理产品体系的外沿,它包含数据开放平台、数据共享平台和数据知识服务平台,是数据治理体现其作用和价值的窗口,也是支撑上层应用的基础服务。14 在主体架构以外,政务大数据治理产品体系还包括基于技术平台形成的工具集,为政务大数据治理的关键过程提供高可用的工具组件,支撑政务数治理的关键环节。本项目还结合实验室的技术积累和科研成果,在知文智用、一网通办、督查督办三个应用场景中分阶段引入政务大数据治理平台产品,验证产品体系的性能和功能。政务大数据治理产品体系技术视图如图 4 所示,整个产品体系的输入为外部数据源、互联网数据和行业数据等数据资源,输出为共享开放数据资源、数据31、应用和数据知识服务。政务大数据采集平台采集互联网、行业等数据资源后进行存储,政务大数据接入平台不仅需要接入外部的数据源,还需要接入政务大数据采集平台的数据源。政务大数据融合平台对接入平台和采集平台的数据进行融合分析,形成融合库(主题库、行业库、业务库等),政务大数据资源管理平台对政务大数据接入平台(原始库)、政务大数据融合平台(融合库)和政务大数据共享交换平台(融合库)的数据进行管理,同时支持逻辑集中和物理集中两种管理模式。在政务大数据资源管理平台进行质量提升、分类分级、脱敏脱密等治理过程后,形成数据资源和数据目录,提供给政务大数据共享交换平台、政务大数据开放平台、政务大数据知识服务平台。1532、 政务大数据接入平台政务大数据资源管理平台政务大数据开放平台政务大数据共享交换平台政务大数据知识服务平台基础应用技术平台原始库数据索引外部数据源互联网数据行业数据可共享数据资源知识服务可开放数据资源数据知识服务数据可视化服务数据应用超市数据知识服务数据可视化服务算法模型服务政务大数据治理产品体系政务数据资产梳理政务数据共享开放政务数据挖掘分析政务数据标准化政务数据采集融合共享库数据索引政务大数据采集平台数据资源数据索引政务大数据融合平台数据目录数据资源数据资源融合库数据索引应用场景解决方案&图 4 政务大数据治理产品体系技术视图 16 4.建设内容 4.1.政务大数据治理体系顶层设计 政务大数33、据治理体系顶层设计是一个理论问题,是根据执行政府职能和提升政府能力为需求导向,以数据治理为核心的理论体系。建设内容包括定义政务大数据治理的核心理念和目标,分析政务大数据治理体系中的核心元素之间的关系,界定政务大数据治理的数据对象的范围,梳理政务大数据安全的技术手段和保障制度,归纳政务大数据治理所需的法律法规和标准规范。4.2.政务大数据采集平台 由于各政府机构具有不同的行政职能及权力范围,在不同的时间段产生了诸多的自建电子政务系统。缺乏特定机构对所有行政单位的电子政务系统做统一建设,造成系统差异程度大、系统之间数据无法共享交换,形成“数据孤岛”。在实现政务数据“聚通用”的过程中难以打破“数据壁34、垒”,带来了较高的数据汇集难度及汇集成本。同时,政务数据无法与互联网数据、行业数据等其他数据融合,政府无法掌握社会行业发展现状、了解大众舆情信息。针对政务数据海量、无序、多源异构的特点,以支撑大数据技术在政府廉洁高效运行、科学决策、社会管理、公共服务等领域的应用为牵引,以实现异构政务数据资源的整合分析为目标,构建政务大数据采集平台,打破政府内部数据孤岛。同时提供行业数据、互联网数据的采集和装载能力,实现政府数据与行业数据、互联网数据的深度融合。针对不同的政务数据采集场景,建立相对通用的采集系统,实17 现多元异构数据的抽取与装载。对于源数据库开放的政务系统,使用可视化 ETL 系统配置数据库连35、接选项,通过可视化拖拽式操作,快速生成 ETL 任务;对于互联网数据及源数据库不开放的政务系统,使用可视化网页数据采集系统,对需要采集的数据进行简单的点击配置操作,生成网页数据获取脚本;同时,由统一的任务调度中心对 ETL 任务及网页数据获取任务进行调度,并实时监控任务运行情况、统计数据采集量,实现数据采集、接入、装载的全生命周期管理。4.3.政务大数据接入平台 政务大数据接入平台是一种分布式的异构数据源接入解决方案,支持逻辑接入和物理接入。基于 Hadoop 平台有效的处理非结构化和半结构化的数据,并由用户来指定数据属性和预制的数据处理组件,对各种类型的海量政务数据进行处理。基于数据库适配技36、术支持异构数据源接入,包括关系型数据库和非关系型数据库,提供数据库连接、数据库信息获取、数据查询、数据操作等功能。政务大数据接入平台建设内容主要包括存储层和接入适配层。存储层能充分利用分布式高冗余架构特点,存储结构化、NoSQL 数据,并提供高可靠的、安全的数据提取和访问服务。接入适配层支持主流数据库数据协议,采集非结构化文件和处理特定业务协议数据,并能编程定制特殊通信数据接入协议。适配的协议包括 MySql、Oracle、FTP、HBASE 等。18 4.4.政务大数据融合平台 数据融合是大数据的价值所在,数据的割裂性导致对业务的认识比较片面,可能做出错误的决策,不同行业数据的融合,具有互补37、性和完整性,将有效提升数据内涵价值,因此应大力推动大数据与产业融合,充分挖掘大数据的融合分析价值,促进业务流程优化。数据融合的方式从交互程度来讲,可分为数据组合、数据整合和数据聚合三个层次,由低到高,逐步实现数据之间的深度交互。数据组合由多源数据的简单组合形成,该数据融合方式产生的是物理反应,数据属性本质没有改变;数据整合由多方的数据共同存在才能够实现产品价值,该数据的融合产生的是化学反应,有价值产生;数据聚合由双方数据聚合孵化产生出新的产品。面向当前政务数据应用数据碎片化、数据割裂、数据标准不一等问题,政务大数据融合平台旨在解决多源异构、跨媒体数据的关联融合难题,重塑数据集成模式,打造面向领38、域的多源异构数据语义融合分析平台,构建面向领域的跨媒体数据统一表示与挖掘分析模型,通过全面梳理业务系统和流程、数据的来源单位和存储位置、数据库类型、数据格式、数据模型、数据标准、数据更新频率以及数据接口等元信息,实现非结构化政务数据的语义融合,构建统一、灵活可扩展的政务数据通用域、公共域、结构域和领域数据模型,汇聚散落的碎片数据形成统一的政务融合数据库,支撑政务数据融合分析应用。19 4.5.政务大数据资源管理平台 数据资源管理平台以数据为核心,主要包括元数据管理、数据资源分析、数据资源治理、数据资源运维四大功能。1)元数据管理:完成用户所关注的各类元数据的获取,提供元数据变更、统计、自身质量39、稽查、使用情况分析、版本和生命周期管理等功能。2)数据资源分析:提供资源成本评估分析,主要包括资源盘点和资源成本评估两大类功能。3)数据资源治理:为数据化运营提供高质量的数据环境,具体包括数据标准管理、数据模型管理、数据质量管理、数据资源目录管理、数据分类分级等功能。4)数据资源运维:具体包括数据资源生命周期管理、数据资源安全管理等功能。4.6.政务大数据应用体系 遵循“数据不为我所有,但为我所用”设计理念,突破传统大数据集中共享模式,打通“数据壁垒”、“信息孤岛”等障碍,基于政务大数据建立政务大数据应用体系,面向国家安全、社会治理、民生服务、经济发展等方面,实现跨领域、跨层级政务大数据的安全40、高效共享流通与综合应用,并基于当前主流的知识图谱等技术全方位提高数据应用能力,从而提升国家社会治理能力。该政务大数据应用体系主要由三个部分组成:政务大数据共享交换平台、政务大数据开发平台、政务大数据知识服务平台。20 4.6.1.政务大数据共享交换平台 政务大数据共享交换平台主要为了打破政府部门间的信息壁垒,实现政务数据跨层级、跨地区、跨领域的高效安全共享交换,根据国家标准电子政务模型,综合考虑存量、条线业务对接、数据安全共享交换等问题,采用 DaaS(数据即服务)模式,构建统一、高效、互联互通、安全可靠的共享交换平台,实现跨部门、跨层级、跨领域、跨地区的政务数据共享交换,推动信息的高效利用。41、政务大数据共享交换平台主要由三个部分组成:公用数据资源库、数据共享交换系统、数据管理平台组成,并提供共享交换门户网站与数据 API 服务等应用功能。该平台可提供数据源管理、数据资源管理、数据编目管理、数据质量管理、数据标准管理等模块,针对所建立的公共数据资源库中的基础库和主题库,对数据进行高效全局管理,用户可以通过该平台对数据编目进行编目维护,对数据进行分类分级,并利用数据共享交换平台核心功能的交换桥接、前置交换、交换传输、交换管理等技术模块所提供的数据 API 服务,在共享交换门户网站上,对数据进行实时、安全、可靠的政务大数据共享交换,从而从根本上打破数据信息壁垒,实现数据的高效利用。4.642、.2.政务大数据开放平台 政务大数据开放平台旨在通过门户网站实现政府公共数据的开放,满足各类用户群体的数据需求,促成政府数据的增值利用和创新应用,服务国计民生,从而释放政府数据潜在的巨大价值。21 政务大数据的开放是通过以机器可读的形式,根据国家信息共享开放实施办法等相关政务数据开放政策,对政务数据进行脱敏、脱密、清洗、抽取等处理后,形成政务数据公共开放资源库,在政务大数据门户网站上发布数据集、提供 API 与应用商店等服务,实现政务大数据开放。4.6.3.政务大数据知识服务平台 针对当前政务数据存在的分散孤立与肤浅片面、挖掘分析工具缺乏、语义认知不足、知识服务欠缺等问题,政务大数据知识服务平43、台对多源化、碎片化的政务数据进行统一整理和深度整合,实现由数据库向知识库的转变,从而为政府办公人员和公众提供精准、个性化知识服务解决方案。面向政务应用的数据分析与知识推理需求,政务大数据知识服务平台旨在提供通用与领域政务知识服务与知识计算能力,通过从海量的政务数据中采集聚合多源异构、跨媒体的政务数据,利用跨媒体数据内容挖掘分析与知识抽取等技术,实现政务通用和特定领域政务知识抽取、语义融合分析,构建形成大规模的跨媒体政务知识库,提供跨媒体实体关联、跨媒体知识存储与计算、跨媒体知识补全与校验以及跨媒体知识融合与推理等政务知识服务功能,进而根据实际的政务情景将知识有效的服务于企业、公众和政府,打破阻44、碍政务数据挖掘分析与知识服务的壁垒,支撑智能辅助决策、政务场景下的智能问答与知识搜索等政务应用,提高政府的科学决策、精准化服务和跨部门政务协同水平。22 4.7.政务大数据治理工具集 4.7.1.互联网政府主题数据采集工具 互联网政务主题数据采集是大数据治理产品体系重要数据来源。主要功能包括实时流数据采集,时刻掌控局势,让决策不再迟钝;互联网数据采集,收集舆论情报,了解天下大小事;物联网数据采集,装配千里眼与顺风耳;应用数据采集,无感部署数据采集接口,不忽略任何一个细节。4.7.2.政务数据分类分级工具 按照国家政务信息资源目录编制要求和贵州省政务数据资源目录编制要求,政务数据分类分级工具帮助45、政府部门梳理本部门掌握的政府数据资源,明确数据的元数据、业务来源、类别、共享开放属性、级别、使用要求、更新周期等内容,智能编制部门的数据资源目录、共享目录和开放目录,实现根据输入数据自动给出数据的类别、共享与开放级别划分建议,并给出判断所参考的相关国家法律法规或专家案例,帮助政府人员高效解读政务数据分类分级的规则和依据,使公务员从繁重的政务数据分类分级政策查阅中解放出来,提高办事效率。4.7.3.政务数据开放沙箱工具 在大数据领域,数据沙箱技术(Data Sandbox)是一种大数据分析应用手段。政务数据开放沙箱工具针对大数据分析的需要,构建数据沙箱,基于数据的访问控制策略(即提供数据供算法训46、练成最终模型,23 但不允许带走本地数据),要求在满足数据保密的同时又能提供一定的分析价值。4.7.4.政务数据共享开放考核工具 针对政务数据共享开放的人工考核机制存在着以人工评估为主,工作量大、效率低、评价客观性不足、评估体系及评估工作不依托于信息化平台进行管理,信息化较弱等问题,提出采用政务数据共享开放考核工具克服以上的弊端,科学的考核评估规范及标准,让考核有据可依,有效量化指标和提高考核的可操作性和客观性,实现政府数据共享开放的规范化、制度化和科学化,推动政务数据共享开放工作的开展。4.8.政务大数据治理产品体系应用示范 政务大数据治理产品体系在整个政务大数据场景中处于中后台的位置,为各47、类政务应用提供全方位的数据支撑服务和算法支撑服务,因此政务大数据治理产品体系的落地是随着各类应用的落地而体现其价值的,体系中的各个平台可以根据实际需求进行自由组合,满足不同的业务场景,结合实验室的产品研发和战略布局,政务大数据治理产品体系将在知文智用、智慧督查督办系统、一网通办三个方向重点落实应用示范落地。24 4.8.1.基于知识图谱的政策公文智能服务平台 基于知识图谱的政策公文智能服务平台(以下简称知文智用)是一个基于人工智能技术的政策法规智能服务平台。政策法规关系工作生活方方面面,但是有时难以查阅、分析和理解,知文智用就相当于给每个人配了一个政策法规领域的智能“专家”。它以全国各级政府海48、量政策法规数据为基础,综合利用大数据技术、自然语言处理技术、人工智能知识图谱技术,在分布式存储与计算引擎架构上所构建的,集政策法规语义搜索、可视化图谱交互分析、专家智能问答、政策发布热点、发布区域和发布机构统计于一体的,通过手机、电脑、智能机器人等多元化形式承载,面向政府公务人员、企业战略决策者、普通民众的综合性政策法规智能服务平台。知文智用目前已完成 1.0 版本的研发和上线,已经支持政府公开公文的智能检索,政务大数据治理产品体系目前已经支撑知文智用的数据采集。政务大数据治理产品体系计划在知文智用预期版本中,与该产品深度融合,除了扩大数据采集范围以外,还包括数据融合、数据质量提升阶段,为知文49、智用提供全方位的数据支持。4.8.2.智慧督查督办系统 智慧政务督查督办系统是新一代的督促信息化、智慧化系统。它基于政府数据共享交换平台,融合大数据、人工智能等新兴信息技术,打破了业务部门之间信息孤岛的问题,实现以数据为驱动的阳光办公,达到提高领导全局把控力、提高部门工作执行力、提升权责分离、增25 强公平公正考核的目的,从而解决办事办文低效、行政管理不透明、工作态度不积极、部门协作不顺畅等问题。最终实现信息化、智慧化的政务督查工作模式,“横到边、纵到底”的系统化督办管理体系,“件件有着落,事事有回音”的工作格局。拟实现“项目态势”、“督查人员态势”、“党中央国务院政策”、“政府工作报告”、“50、重大专题活动”、“重要会议督办”、“重大工程管理”、“民生工程办理”、“重要文件办理”、“领导交办事项”、“提案议案督办”11 个模块,46 个主要功能点,其中包含督办事项风险自动关联提示、项目进度实时追踪自动验证、项目里程碑落实情况监督预警、项目落实延误智能预警、领导驾驶舱 5 个核心创新功能点。截至目前,系统开发工作已基本完成,18 年底已在实验室内部上线使用。在智慧督查督办二期建设中,将推进督查督办与大数据、人工智能的深度融合,并且期望能够将智慧督查督办系统走出实验室,争取更多的项目和合作,在智慧督查督办系统推广过程中,政务大数据治理产品体系为其提供全方位的数据治理的支撑和算法服务支撑。51、4.8.3.“一网通办”政务服务平台 中共中央办公厅、国务院办公厅印发 国家信息化发展战略纲要的进一步规范和指导未来 10 年国家信息化发展,纲要要求持续深化电子政务应用,着力解决信息碎片化、应用条块化、服务割裂化等问题,以信息化推进国家治理体系和治理能力现代化。开展“互联网+”政务服务,构建一体化公共服务体系是推进“放、管、服”改革向26 纵深发展的重要措施。目前北京、上海、贵州等地区分别上线“一网通办”政务服务平台,截至 2018 年 10 月,全省各级政务中心办件量为 1347 万件,接受群众咨询 19757 次。省级零跑腿事项为 551 项,占比达80.7%,最多跑一次事项132项。省52、级事项“一网通办”率达53%,市、县级分别达 36%和 29%。省直进驻部门窗口工作人员主动为办事企业和群众提供延时预约服务 735 次,共计 245 小时,各窗口共获企业群众感谢信 512 封,锦旗 45 面,群众办事满意度达 99.99%。未来很长一段时间,“一网通办”政务服务平台的建设和优化升级将会达到一个新的高度,“一网通办”的重要支撑是数据“通”,而这个“通”并不是数据进行简单的交换,而是按照质量要求和接口标准要求交换政务数据,无论是数据质量提升、数据标准化、数据交换阶段,都是政务大数据治理的关键过程,因此,政务大数据治理产品体系的需求来源包括“一网通办”建设,同时计划 3 年内政务53、大数据治理产品体系能够支撑区县级“一网通办”项目建设,10 年内能够支撑省市级“一网通办”项目建设。27 5.建设方案 5.1.政务大数据治理体系顶层设计 5.1.1.政务大数据治理体系核心概念 5.1.1.1.目的 政务大数据治理的目的包括改善决策支持、降低数据风险、提升数据价值、推进数据有效流通、推动数据共享开放四个方面。5.1.1.2.定义 目前,业界并没有对数据治理有统一的定义,多家国际组织和知名 IT 企业都阐述了对数据治理的定义,国内多个国家标准中也阐述了对数据治理的定义。表 2 国内外权威机构对数据治理的定义 机构 定义 DAMA(国际数据管理协会)数据治理是对数据资产行使权力和54、控制的活动集合,包括计划、监控和执行等 DGI(国际数据治理研究所)数据治理是包含信息相关过程的决策权及责任制的体系,根据基于共识的模型执行,描述谁在何时何种情况下采取什么样的行动、使用什么样的方法 IBM 数据治理是组织管理其信息知识并回答问题的能力,如数据来自哪里?数据是否符合公司政策及规则?数据治理实践提供了一个全面的方法来管理、改进和利用信息,以帮助决策者建立对业务决策和运营的信心 ISO/IEC 38505-2 信息技术-信息技术治理-数据治理-第 2 部分:对数据管理的影响 治理团队对数据产生价值过程中的评价、指导、控制,是数据治理的最基本概念 GB/T34960.5-2018 信55、息技术服务 治理 第5 部分:数据治理规范 数据资源及其应用过程中相关管控活动、绩效和风险管理的集合 银行业金融机构数据治理指引(银保监发201822 号)数据治理是指银行业金融机构通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程 28 综合权威机构对数据治理的阐述,结合政务场景,政务大数据中心治理体系对数据治理的定义是:数据治理是对组织的数据管理和利用进行评估、指导和监督的体系框架。通过制定战略方针、建立组织结构、明确职责分工并实施治理等,实现数据的风险可控、安全合规、绩56、效提升和价值创造,并持续提供创新的数据服务。5.1.2.政务大数据治理数据体系 图 5 政务大数据治理数据体系 政务大数据治理数据体系包含从数据来源、数据生命周期和数据等级三个维度。数据来源是对数据治理对象的范围界定,主要包括政府部门数据以及行业、互联网和物联网中与政务相关的数据。数据生命周期是指政务大数据治理体系中数据所处不同阶段的划分,包含原始库、资源库、主题库、知识库和业务库五个阶段。数据等级是指根据数据内容对数据密级的划分,可分为非密数据、秘密数据和机密数据三大类和对应的七小类。29 5.1.3.政务大数据治理安全体系 图 6 政务大数据治理安全体系 政务大数据治理安全体系由安全规范标57、准、安全技术保障体系、安全运维保障体系、安全管理保障体系组成,规范标准用以指导整个安全体系的构建。具体来讲,安全运行保障体系保障数据治理平台建设开发、运维过程中的安全,安全技术保障体系从技术的维度对政府数据治理平台进行全方位的安全防护,安全管理保障体系从制度、人员和机构设置的角度来对信息系统进行保障。5.1.4.政务大数据治理法律法规体系 政务大数据治理法律法规体系包含三大类,分别是可参考法律法规、可参考政策文件和亟待出台法律法规。可参考法律法规是指目前国家已经出台具有法律效力的法律法规,政务大数据治理产品体系必须符合相关法律法规规定;可参考政策文件是指目前国家已经出台的政策文件,相关政策文件58、能够引导政务大数据治理产品体系的需求分析和功能设计;亟待出台法律法规是指国家还未出台相关法律法规,但是政务大数据治理所需的法律法规,主要是在数据确权、数据安全安全技术保障体系安全数据治理基础安全技术平台安全数据共享安全安全监管数据存储安全数据发布安全安全标准规范标准引入实体接入安全数据传输安全数据内容安全安全运行保障体系开发测试安全运维安全规范标准设计30 隐私保护方面。表 3 政务大数据治理法律法规体系 类别 名称 可参考法律法规 2016 年 11 月,全国人民代表大会常务委员会发布了 中华人民共和国网络安全法 2012 年 7 月,国务院颁布关于大力推进信息化发展和切实保障信息安全的若干59、意见 2012 年 12 月,全国人大常委会通过 关于加强网络信息保护的决定 2013 年 7 月,工业和信息化部颁布电信和互联网用户个人信息保护规定(中华人民共和国工业和信息化部令第 24 号)国务院颁布中华人民共和国政府信息公开条例(国务院令第 492 号)国务院颁布政务信息资源共享管理暂行办法(国发201651 号)国家发展改革委政务信息资源目录编制指南(试行)(发改高技20171272 号)可参考政策文件 2015 年 8 月,国务院印发促进大数据发展行动纲要(国发201550 号)2016 年 1 月,国家发改委印发关于组织实施促进大数据发展重大工程的通知(发改高技201642 号)60、2016 年 7 月,中共中央办公厅印发国家信息化发展战略纲要(中办发201648 号)2016 年 9 月,国务院印发政府信息资源共享管理暂行办法(国发201651 号)2017 年 5 月,国务院办公厅印发政务信息系统整合共享实施方案(国办发201739 号)2017 年 7 月,国家发改委印发“十三五”国家政务信息化工程建设规划 2018 年 7 月,国务院印发关于加快推进全国一体化在线政务服务平台建设的指导意见(国发201827 号)亟待出台法律法规 政务数据资源管理办法 数据权属划定管理办法 数据资产管理登记办法 数据流通交易管理实施办法 政务数据共享开放考核评估办法 政务数据资源个61、人隐私保护管理办法 政务数据安全应急预案管理办法 5.1.5.政务大数据治理标准体系 政务大数据治理标准体系的建设对于推动政府信息资源整合、体31 制机制的建立、制度标准规范的制定乃至于保障数据治理体系的稳定运行,都有着不可或缺的指导意义,也是推进政府数据治理工程的基础性和保障性工作。标准规范建设包括制定数据接口类标准、元数据标准、数据交换流程规范、信息管理类标准、信息安全规范。图 7 政务大数据治理标准体系 政务大数据治理体系标准体系数据接口类标准共享交换平台服务接口规范元数据标准基础库数据元参考目录主题库数据元参考目录行业库数据元参考目录数据交换流程规范政府信息资源标识规范政府信息资源分类62、标准政府信息资源目录编制指南信息管理类标准政务信息资源治理实施办法政务数据治理平台运行管理办法政府信息资源管理办法政务数据治理平台运维管理制度信息安全规范政府数据资源商业秘密保护管理办法政府数据资源个人隐私保护管理办法网络与信息安全应急管理办法32 5.2.政务大数据采集平台 5.2.1.总体架构 政务数据采集平台总体架构如图 8 所示,数据采集平台包含可视化 ETL 系统、可视化网页数据采集系统、任务调度中心三部分组成。针对不同数据源类型,使用数据库接入的方式接入可视化 ETL 系统或使用 URL 访问的方式接入可视化网页数据采集系统。通过便捷的可视化配置操作,生成 ETL 配置项及网页数据63、获取脚本。建立任务调度中心,用于解析、调度、运行 ETL、网页数据采集脚本,同时对采集任务进行监控,可视化调度任务、数据获取统计,最终将采集数据装载到对应的数据存储载体。图 8 政务大数据采集平台总体架构 33 5.2.2.功能架构 政务大数据采集平台融合可视化 ETL 系统、可视化网页数据采集系统以及采集调度系统,均采用前后端分离思想。可视化 ETL 系统主要负责 ETL 配置参数库获取以及持久化工作,为后续的 ETL 调度任务奠定参数基础,如元数据信息配置:源数据、目标数据库以及可以用于抽取的表、字段、转换规则、清洗规则、抽取规则等信息以及相关函数的定义等等;可视化网页数据采集系统主要功能64、是提供前端的交互式网页信息标注,后端解析标注并生成网页数据采集脚本,为采集调度系统中网页数据采集调度模块提供任务函数;采集调度系统实现ETL 与网页数据采集任务的调度管理,如数据的抽取、清洗、加载、存储、爬取等核心功能以及数据监控展示等功能。5.2.2.1.可视化 ETL 系统 数据导出配置 信息存储 清洗规则配置 数据源配置 数据库表 信息配置 连接状态测试交互层服务层 数据样例展示 转换规则配置 表字段 信息配置配置参数持久化可视化ETL系统 表备注说明 字段备注说明 配置参数获取 图 9 政务大数据采集平台可视化 ETL 系统功能架构 34 可视化 ETL 系统功能架构如图 9 所示,其65、核心功能是提供 ETL参数配置的 WEB 界面操作,给用户提供操作的入口,主要包含以下模块:元数据管理:主要是向配置数据库定义数据源和目标数据源的相关信息,例如:数据源的 url,用户名,密码,相关的表以及表字段信息等。ETL 任务的配置信息:即定义 ETL 的抽取过程,如抽取的数据源、表字段及其备注、数据转化、清洗规则、目标数据源等。参数持久化及查询:主要对前端交互层的参数规则化以及持久化,便于任务调度系统的获取。5.2.2.2.可视化网页数据采集系统 用户标注 数据样例展示交互层服务层分布式网页数据采集脚本生成可视化网页数据采集系统 配置参数获取 脚本上传 新建脚本项目 删除/编辑脚本 脚66、本参数配置 数据持久化配置 图 10 政务大数据采集平台可视化网页数据采集系统功能架构 可视化网页数据采集系统功能架构如图 10 所示,为网页数据采集提供可视化编辑器,生成网页数据采集脚本,主要包含以下功能:35 用户标注:为创建工程提供可视化的编辑器,用户可在界面使用鼠标行为配置网页数据采集爬取规则,如网页的信息的提取规则、网页翻页规则等。项目管理:包括项目工程创建、重命名、删除、脚本上传等,其中,脚本上传指项目工程经过并依据用户标注、参数配置等信息配置后生成的分布式网页数据采集脚本。参数配置:主要包括脚本参数配置,数据持久化配置。脚本参数配置主要是指网页数据采集脚本项目自身的参数配置,如请67、求头设置、中间件设置以及 IP 代理接口设置等。数据持久化配置指对脚本采集的数据进行本地存储而进行的参数设置,如表、字段、储存类型、存储地址、数据库类型等。样例展示:依据定义的参数配置生成数据存储的样例预览。36 5.2.2.3.采集调度系统 交互层服务层采集调度系统ETL调度网页数据采集调度 单次调度 周期调度 数据抽取 数据清洗 数据转换 数据加载 单次调度 周期调度 分布式部署 网页解析 数据爬取 数据存储 单次调度 数据监控展示 周期调度 日志监控展示 数据采集 数据存储 数据清洗 爬虫分布式部署数据监控展示 ETL数据 网页采集数据 ETL日志 网页采集 脚本日志 图 11 政务大数68、据采集平台采集调度系统功能架构 采集调度功能架构如图 11 所示,主要包括任务调度模块与数据监控展示模块,其中任务调度模块包含 ETL 调度与网页数据采集调度。ETL 调度:获取可视化 ETL 系统生成的项目配置参数,构建 ETL任务与调度模型,实现数据的抽取、转换、清洗以及装载。调度方式支持单次调度和周期调度。网页数据采集调度:将可视化网页数据采集系统生成的数据采集脚本作为调度任务函数,构建网页数据采集调度任务,实现采集脚本37 的分布式部署和数据的分布式采集、存储。数据监控展示:包括采集数据监控展示与日志数据监控展示。采集数据监控展示包含 ETL 采集数据与网页数据采集数据展示,便于实时了69、解数据资产情况,如日数据获取量、月数据获取量、脚本分布时间热力图、项目工程数据获取量等信息。由于 ETL 任务与网页数据采集耗时长久,任务的日志监控对于了解各个任务的运行状态非常重要,可以尽快发现问题,解决问题。5.2.3.技术架构 政务大数据采集平台的技术架构主要从交互层、服务层分别描述可视化 ETL 系统、可视化网页数据采集系统、采集调度系统所涉及的技术框架。整个采集平台技术包括前端开发框架 Vue、后端开发框架Flask/Django、ETL 工具、网页数据采集框架 Scrapy、任务调度框架APScheduler 等技术。38 5.2.3.1.可视化 ETL 系统 图 12 政务大数据70、采集平台可视化 ETL 系统技术架构 可视化 ETL 系统通过拖拽式操作,配置连接数据源和目标数据源,通过数据源和目标数据源的 ETL 匹配,得到数据抽取、转换、装载的配置 JSON 文件。其主要实现的技术架构如图 12 所示:前端的开发主要采用 Vue 框架,后端开发以 Flask 框架为主,搭配 Python 其他相关模块实现 ETL 配置信息的持久化。39 5.2.3.2.可视化网页数据采集系统 图 13 政务大数据采集平台可视化网页数据采集系统技术架构 可视化网页数据采集系统基于 Scrapy、Django 框架,实现可视化网页数据采集脚本生成。该系统包括 3 个子模块:1)交互式网页71、结构标注模块 该模块基于 Vue.js 的前端标注组件,在 Splash 无头浏览器引擎中运行,实现用户标注功能。2)Django 整个系统服务端基于 Django 实现,持久化前端定义的各种网页数据采集配置;3)Scrapy+Scrapely 该模块基于 Scrapy 实现了可视化网页数据采集脚本的生成,获40 取 Web 页面后,调用 Scrapely 库找出用户标注区域并提取用户标注信息。5.2.3.3.采集调度系统 图 14 政务大数据采集平台采集调度系统技术架构 采集调度系统集成了 ETL 工具 Kettle 与网页数据采集框架Scrapy 等技术,通过 APScheduler 模块72、实现各类 Kettle 和 Scrapy脚本的定时调度任务。1)系统日志采集技术 利用 Logstash 或 Flume 工具对系统日志数据进行数据抽取,将系统日志批量、异步的发送到 Kafka 集群中,然后将抽取到 Kafka 的数据通过 Spark Streaming 或者 Flink 构建实时的数据通道,在不同的存储之间搬运和转换数据,最后将数据装载到相应的数据库中。41 2)接口数据与数据库数据采集技术 平台主要采用 Kettle、Sqoop、Talend 等工具,解析配置项数据并调度,实现结构化数据的抽取、转换与装载。3)网页数据采集技术 网页数据的采集主要通过 APSchedule73、r 定时调度 Scrapy 项目脚本文件,实现增量、全量数据的采集,并将采集数据持久化到对应数据库。5.2.4.关键技术(1)交互式 ETL 及网页数据采集配置项生成技术 基于无头浏览器技术,以主流的前后端分离模式构建应用,结合前端 MVVM 框架及组件化开发模式;以数据流方式实时改变页面结构信息,结合拖拽、点击等交互式操作,快速智能生成 ETL 配置数据及网页采集脚本配置项。(2)智能网页采集脚本生成技术 通过接收前端提供的网页采集脚本配置项,探究网页数据采集工具 Scrapy 深层技术实现原理,通过 JSON 格式数据生成对应的网页数据采集脚本,采用基于示例的学习方法,自动找出相似结构的模74、块、列表、页面并提取数据。(3)分布式采集任务调度技术 结合 Redis 队列、基于通用定时调度库编写定时调度组件,实现主从架构分布式任务调度,并使用双 Master 策略,增强系统鲁棒性,42 保障系统长时间的稳定运行。通过分布式架构提高系统的任务负载能力,实现采集脚本并行批量执行,提高数据采集速度。5.2.5.技术路线 技术路线如图所示。MVVM前端框架选型MVVM前端架构设计拖拽式ETL组件网页采集配置组件路由组件数据流组件界面UI设计ETL后端框架选型基础界面搭建无头浏览器前端交互组件ETL后端架构制定网页数据采集后端框架选型网页数据采集后端框架制定ETL配置项解析模块微服务架构设计E75、TL任务生成模块网页数据采集脚本生成模块数据库ORM模块网页数据采集脚本配置项解析模块分布式架构设计微服务架构设计网页数据采集脚本部署模型设计任务调度模型设计分布式任务调度模块调度任务参数配置模块分布式网页数据采集模块采集数据监控日志数据监控调度信息可视化采集数据可视化 图 15 政务大数据采集平台技术路线 43 5.3.政务大数据接入平台 5.3.1.总体架构 政务大数据接入平台总体架构自底向上依次为数据层、支撑层、接入适配层、交互层。除此之外还包括标准规范、安全保障两个理论支撑体系。总体架构如图 16 所示。图 16 政务大数据接入平台总体架构 交互层:主要为用户和管理者提供政务大数据接入76、可视化交互页面。接入适配层:支持主流数据库数据协议,采集非结构化文件和处理特定业务协议数据,并能编程定制特殊通信数据接入协议。支撑层:为政务大数据接入运营提供高质量的服务环境,具体包括支撑软件、硬件环境层面。安全保障体系标准规范体系数据层半结构化数据非结构化数据结构化数据接入适配层业务WebservicAPIHDFS Client 业务REST API关系数据库JDBCClient文件Reader Client通用业务接口调ClientFTP Client政务大数据接入平台门户交互层政务大数据采集平台支撑层硬件环境支撑软件身份认证消息服务流管理服务器网络环境存储设备政务大数据接入平台44 数据77、层:数据层主要为政务大数据采集平台以及各委办局提供的各类结构化、半结构化、非结构化数据。5.3.2.功能架构 政务大数据接入平台功能架构主要包括应用层、接入适配层、通道层、存储适配层。功能架构如图 17 所示。政务大数据接入平台存储适配层STREAM存储Adapter消息MQ存储Adapter HDFS存储Adapter文件数据库AdapterEMC存储AdapterOSS存储Adapter关系数据库AdapterMQ通道层接入适配层业务WebservicAPIHDFS Client 业务REST API关系数据库JDBCClient文件Reader Client通用业务接口调用ClientF78、TP Client应用层安全管理组件配置日志管理开放数据库直连FTP Server开放文件接口业务接口改造(PUSH增量数据)业务应用开放接口(PULL)图 17 政务大数据接入平台功能架构 应用层:主要包括业务应用开发接口、FTP Server、开放文件接口、业务接口改造、开放数据库直连、安全管理、组件管理、日志管理等。45 接入适配层:支持主流数据库数据协议,采集非结构化文件和处理特定业务协议数据,并能编程定制特殊通信数据接入协议。适配的协议包括 MySql、Oracle、FTP、HBASE 等。通道层:MQ 作为消息传输中间件产品,具有独特的安全机制、简便快速的编程风格、卓越不凡的稳定性79、可扩展性和跨平台性。对消息的传输,做到不丢失、不复传。存储适配层:对所存储的结构化、NoSQL 数据提供高可靠的、安全的数据提取和访问服务。5.3.3.技术架构 政务大数据接入平台采用 Web 服务模式,技术架构包括交互层、服务层、平台层和数据层。政务大数据接入平台技术架构如图 18 所示。API网关统一服务Zuul授权证书服务(JWT)数据库(MySQL、Oracle、HDFS、Redis、NoSQL)微服务集群管理工具(SpringCloud)前端框架React请求消息队列ActiveMQ持久化(Mybatis)后台服务(SpringBoot)数据抽取加载工具(Kettle)容器化工具(80、Docker)数据层平台层服务层交互层 46 图 18 政务大数据接入平台技术架构 交互层:为用户和管理者提供可视化交互页面。政务大数据接入平台采用前后端分离的架构,前端采用 React 框架,该框架是一个构建数据驱动的 Web 界面的渐进式框架。服务层:是接收交互层和数据请求的统一处理模块。API 网关是微服务架构标准化服务的模式,实现对政务大数据接入平台系统众多服务接口管控,对访问服务的身份认证、防报文重放、防数据篡改、业务鉴权、响应数据脱敏、流量与并发控制。由于政务大数据接入平台在提供服务时,可能会出现请求时间较长的情况,因此引入消息队列机制来控制高并发的请求。平台层:政务大数据接入平台81、后台服务基于 SpringBoot 微服务架构,采用 Mybatis 进行数据持久化。授权证书服务是基于 JWT 的密钥管理和签名验证模块。后台服务基于 SpringCloud 实现微服务管理。基于 ETL 的数据抽取和转换工具支撑平台的所有数据和数据集操作功能。平台的数据库进程、服务进程都是基于 Docker 进行容器化。数据层:数据层主要为采集平台以及各委办局提供的各类结构化、半结构化、非结构化数据。5.3.4.关键技术(1)数据获取性能的灵活扩展技术 数据规模大频度高存在短期峰涌现象,对平台组件冲击较大,由于分布式消息队列采用集群方式部署,可根据需求横向扩展硬件资源,因此通过应用分布式消82、息队列可有效屏蔽冲击。47 (2)分布式消息队列主题创建及调优技术 为达到对海量高频数据进行实时接入的目的,需要根据时序数据产生频率、采集周期、测点规模,针对性设计数据分布策略;将监测数据按数据分类分发到分布式消息队列中;依据系统负载调整不同类别数据的分区数量、复制因子、主题分布等参数;设置时序数据在分布式消息队列中的存储结构,实现高速写入,并降低转换开销;同时需实现基于分布式消息队列的故障恢复机制,以确保数据不丢失。5.3.5.技术路线 政务大数据接入平台技术路线图如图 19 所示:政务大数据接入平台总体设计国内外大数据接入平台现状调研已有项目基础政务大数据接入平台规划需求国内外现有大数据接83、入平台机理研究数据资源编目业务应用开放FTP 服务业务接口改造政务大数据资源管理平台试制安全管理日志管理组件管理.图 19 政务大数据接入平台技术路线 48 5.4.政务大数据融合平台 5.4.1.总体架构 如图 20 所示为政务大数据融合平台总体架构图,通过全面梳理政务大数据业务场景,构建通用域数据模型、公共域数据模型、结构域数据模型和领域数据模型,针对采集汇聚的多源异构政务数据,采用数据融合算法,形成政务大数据融合数据库,如基础库、主题库和业务库,支撑政务大数据融合分析应用。政务大数据融合平台数据采集接入平台数据模型融合算法融合数据库基础库主题库业务库数据资源管理平台 图 20 政务大数据84、融合平台总体架构 数据采集接入平台为数据融合提供多源异构数据接入,包括结构化数据库表以及非结构化文本、图像、语音和视频数据等。针对政务大数据业务逻辑,构建形成政务数据模型标准,采用加权平均、高斯滤波、D-S 证据理论、逻辑模糊理论、贝叶斯估计等算法实现结构化数据的融合分析,以及典型相关分析(CCA)、核相关分析(KCCA)、非负矩阵分解和基于深度学习的跨媒体关联等方法实现非结构化的关联融合。政务大数据融合平台通过数据模型与融合算法两大核心模块,构建输出融合政务数据库,包括基础库、主题库和业务库。49 5.4.2.功能架构 政务大数据融合平台系统包括数据模型、融合算法和融合数据库三个核心模块,如85、图 21 所示,数据模型包括通用域数据模型、结构域数据模型、公共域数据模型和领域数据模型;融合算法模块包括结构化和非结构化数据融合挖掘分析基本算法;融合数据库提供了政务应用所需的基础库、主题库和业务库。政务大数据融合平台数据采集接入平台模型算法通用域数据模型D-S证据卡尔曼滤波逻辑模糊算法结构域数据模型公共域数据模型领域数据模型加权平均卡尔曼滤波贝叶斯估计算法融合数据库基础库主题库业务库实体抽取关系抽取事件抽取图像描述场景识别关键帧识别数据资产管理平台 图 21 政务大数据融合平台功能架构(1)数据模型 核心数据模型由三部分组成:通用域数据模型、公共域数据模型和结构域数据模型。通用域数据模型定86、义的是在所有领域内具有普遍意义,并在语义上具有高度一致性和稳定性的数据类型,如时间与日期、地址、组织机构、活动与事件、人员和物体等等;公共域数据模50 型定义的是在多数领域中使用比较广泛,并得到一致认同的数据类型;结构域数据模型是所有其他域数据模型定义的基础,它是对 XML 模式语言中的基本数据类型的扩充,增加了元数据定义等内容。业务领域数据模型定义的是特定领域的数据类型,由各业务领域根据自身业务信息交换需求,在核心数据模型的基础上进行继承和扩展而形成的,如精准扶贫数据模型、生态数据模型、应急管理数据模型等。(2)融合算法 结构化数据融合算法:加权平均法是最简单、最直观方法数据级融合方法,该方87、法将多源数据进行加权平均,结果作为融合值,该方法是一种直接对数据源进行操作的方法。卡尔曼滤波算法主要用于融合低层次实时动态多源时序数据。贝叶斯估计是在最大似然概率上做进一步拓展,不直接估计参数的值,而是允许参数服从一定概率分布。D-S 理论是对贝叶斯推理方法推广,主要是利用概率论中贝叶斯条件概率来进行的,需要知道先验概率。适用于:信息融合、专家系统、情报分析、法律案件分析、多属性决策分析。非结构化数据融合算法:典型相关分析法(CCA)是跨媒体数据关联分析的典型方法,它在计算生物学、金融分析和信息检索等领域有着广泛的应用。基于任务的共享子空间学习方法同时学习多个相关的任务,通过提取不同任务中不同88、模态间的共享子空间,以提高各个任务的总体泛化性能。基51 于深度学习的跨媒体数据融合方法是当前的主流方法,通过深度网络的非线性建模能力来分析不同媒体类型数据间的复杂关联关系。这类方法的特征表达能力强,可以抽取出高层的语义信息,能够解决复杂的非线性问题。(3)融合数据库 融合数据库包括基础库、主题库和业务库。基础库是包括人口、法人、电子证照、地理空间与宏观经济等基础数据库;主题数据库是面向业务主题的数据组织存储,包括政务事项库、信用库等;业务库包括城市态势库、安全业务库、交通业务库。人口基础信息库是指围绕自然人形成的有关基础信息、婚姻信息、医疗健康信息、社保保险信息、驾驶人信息的数据集合。人口基89、础信息库是经济社会发展中支撑各部门应用系统的重要基础,对劳动就业、税收征管、个人信用、社会保障、人口普查、计划生育、打击犯罪等信息系统的建设具有非常重要的意义。法人基础信息库是标识法人不可缺少的基本元素,是使用最频繁、最基础、最重要的信息,主要包括法人基础信息数据、主要人员信息、自然人出资信息、法人扩展信息数据、非自然人出资信息。电子证照基础信息库的建设有利于通过电子证照共享平台,将电子证照与电子批文等应用到行政审批流程中。企业、民众在申报行政审批事项无需提供前置证照的纸质材料,而由受理部门窗口通过电子证照共享平台查验。宏观经济是反映经济状态的主要数据,对指导经济政策、调节经52 济指标有着至90、关重要的作用。宏观经济从宏观上理解社会经济活动的总体情况,依赖于各统计部门的统计数据。宏观经济基础信息库需要根据宏观经济关注的重点,设计了接口良好的数据模型,方便统计部门快速上报数据。宏观经济基础信息库包括了经济发展、社会就业、公共事业、科技创新、可持续发展、重大投资项目。自然资源和地理空间基础信息库项目是“十五”期间国家电子政务重点建设的四个基础信息库之一。自然资源和地理空间基础信息库是我国规模宏大的地理空间信息资源建设项目,是我国国家地理空间信息基础设施的重要组成部分,其建设对于加强和完善我国高层地理空间信息基础设施具有重要的作用。5.4.3.技术架构 政务大数据融合平台技术架构主要由数据91、模型、融合算法与融合数据库部分构成。数 据 模 型:利 用 数 据 采 集 接 入 平 台 获 取 的 数 据,通 过PowerDesigner,Open ModelSphere 等数据建模工具,构建政务应用业务数据模型,用于支撑数据融合。融合算法:基于已构建的政务数据模型和多源异构政务数据,利用 Tesorflow、Guetzli 等算法工具实现加权平均、高斯滤波、非矩阵分解、贝叶斯估计等数据融合算法,实现结构化与非结构化数据的融合关联。融合数据库:基于政务数据模型和融合算法,形成融合政务数据集,同时对融合数据集进行分类别、分主题、分业务的归类存53 储。融合数据库包括基础库、主题库与业务库92、,根据不同数据类型、数据格式,采用 MongoDB、Oracle、MySql 等数据库进行存储,为政务大数据资源管理平台提供数据资源支持。图 22 政务大数据融合平台技术架构 5.4.4.关键技术(1)政务数据模型构建技术 面向政务大数据应用中存在的跨领域之间的数据模型不统一问题,针对政务服务、公共安全等领域的数据融合分析需求,研究数据模型的标准化描述和一致性模型管理框架,研究构建政务大数据核心数据模型和业务领域数据模型,为各级政府人员和决策者在预测、预54 防和应对重大事件提供准确实时信息。1)数据模型标准化描述框架 数据模型标准化描述框架三要素包括:数据语境、数据描述、数据共享。数据共享数93、据共享查询点和交换查询点和交换数据描述数据描述数据和数据资产数据和数据资产数据语境数据语境分类分类 图 23 数据模型描述基本框架 数据语境就是按照某种分类学方法进行数据分类,并通过这种数据的分类促进数据的发现。通俗地说,数据语境就是对于信息所处的环境和上下文的确定。相同的数据在不同的环境中可能反映出不同的涵义。数据语境就是提供一种思路和方法尽快发现数据及其所代表的意义。所有者所有者信息资源信息资源主题主题关系关系分类体系分类体系包括包括相关相关参与参与分类分类管理管理 图 24 数据语境的抽象模型 数据描述提供了一种统一的数据描述方法,以此来支持数据的发现和共享。数据是信息的载体,如何组织数94、据来表达信息是数据模型的基本要素。人类语言通过词法和语法将词汇组织起来,就能表达千变万化的思想。这里的信息表示的关键就是统一的词法和语法。对于数据描述,信息表示的关键是采用具有一致性的元数据模型。元数据55 是关于数据的数据,通过对于信息资源本身的描述和规范,元数据能够为信息的表示提供一个框架和工具,同时也能够实现信息资源的统一管理和检索。另外,一致化的逻辑数据模型也是数据描述模型的重要组成部分。如下图所示为数据描述的抽象模型。实体实体属性属性关系关系数据类型数据类型数据类型数据类型结构化信结构化信息资源息资源半结构化半结构化信息资源信息资源非结构化非结构化信息资源信息资源信息资源信息资源相关95、相关参与参与包含包含被约束被约束引用引用定义定义是一种是一种是一种是一种是一种是一种包含包含包含包含 图 25 数据描述的抽象模型 数据共享支持数据的访问和共享,数据访问是指某些特别的请求(例如查询一个数据集),而共享是指两个部分之间固定的、不断发生的事务处理。对于数据模型,信息共享的实现是通过标准化的数据交换模型来完成的。数据共享可以是一定格式的数据交换包或数据访问接口,一个典型实现就是基于 XML 的 SOAP 协议。如下图所示为数据共享的抽象模型。实体实体数据交换包数据交换包数据访问接口数据访问接口数据提供者数据提供者数据接收者数据接收者引用引用查询查询返回返回结果结果传播传播产生产生 96、图 26 数据共享的抽象模型 56 2)核心数据模型 核心数据模型描述所有业务领域的公共数据类型,如人员、位置、事件和组织机构,以及在大多数业务领域中使用的比较广发的数据类型;业务领域数据模型是指由各业务领域自身特有的数据类型组成的数据模型,如司法大数据领域的案件、司法流程;文化大数据领域的文物、遗址等。核心数据模型和业务领域数据模型关系如下图所示。通用域公共域结构域司法情报生态文化教育城市基础设施旅游代码集 图 27 政务大数据应用的数据模型组成 核心数据模型由三部分组成:通用域数据模型、公共域数据模型和结构域数据模型。通用域数据模型定义的是在所有领域内具有普遍意义,并在语义上具有高度一致性97、和稳定性的数据类型,如时间与日期、地址、组织机构、活动与事件、人员和物体等等;公共域数据模型定义的是在多数领域中使用比较广泛,并得到一致认同的数据类型;结构域数据模型是所有其他域数据模型定义的基础,它是对 XML 模式57 语言中的基本数据类型的扩充,增加了元数据定义等内容。业务领域数据模型定义的是特定领域的数据类型,由各业务领域根据自身业务信息交换需求,在核心数据模型的基础上进行继承和扩展而形成的,如精准扶贫数据模型、生态数据模型。(2)跨媒体政务数据融合技术 当前政务数据形式多元化、不同的媒体数据存在的“异构鸿沟”问题,导致不同媒体数据之间的相关性无法度量,政务大数据融合平台在实现结构化数98、据融合算法的基础上,重点突破跨媒体政务数据融合技术。当前,跨媒体数据融合算法主要分为多元统计方法、主题模型方法和基于深度学习的方法。1)多元统计方法:是一种基于双线性特征学习模型,分别学习各媒体的空间映射矩阵,这类方法存在的缺点是特征提取方法严重依赖于人工特征设计,特征表达的能力弱,缺乏相关的语义特征,而且难以解决复杂的非线性问题 2)主题模型的方法:从不同媒体数据中挖掘具有相同语义信息的潜在主题,这类方法存在的缺点是模型中主题数目选择主观性强,主题粒度划分不明确,而且模型中的参数过多,推断过程较复杂。3)深度学习方法:是当前的主流方法,这类方法的特征表达能力强,可以抽取出高层的语义信息,能够99、解决复杂的非线性问题,但现有的深度学习方法对于处理跨媒体数据大多采用的是各媒体数据单独学习,忽略了媒体间的互补、交叉信息。58 图 28 基于深度学习的跨媒体数据融合算法 基于深度学习的跨媒体数据融合算法包括两个阶段:单媒体增强型学习阶段和多媒体联合学习阶段。单媒体增强型学习阶段是各媒体数据在其他媒体数据的指导下,通过卷积网络或长短时记忆网络进行各自语义特征的学习,得到增强型单媒体数据的特征。多媒体联合学习阶段是将前一阶段得到的增强型单媒体特征进行拼接,再通过全连接层映射到公共空间,这样跨媒体数据间关联性可被计算。该网络能够充分挖掘跨媒体间互补和丰富的语义关联信息。5.4.5.技术路线 如图 100、29 所示,政务大数据融合平台的开发技术路线分为三个阶段:政务数据模型构建、政务数据融合算法研究与政务大数据融合平台集成。政务数据模型构建阶段通过全面梳理业务系统和流程、数据来源和存储位置、数据库类型、数据格式、数据标准、数据更新频率以及数据接口等元信息,形成支撑政务大数据应用的通用域数据模型、公59 共域数据模型、结构域数据模型和领域数据模型。政务数据融合算法研究阶段针对结构化和非结构化数据融合分析需求,研究加权平均法、卡尔曼滤波算法、贝叶斯估计、D-S 理论等结构化数据融合算法,以及 CCA、KCCA、非负矩阵分解和基于深度学习的跨媒体关联等方法实现非结构化的关联融合。政务大数据融合平台集101、成阶段重点实现融合数据存储管理与平台整体集成。政务大数据融合平台技术路线研究任务分解政务数据模型构建政务数据融合算法研究政务大数据融合平台集成数据模型通用域数据模型结构域数据模型公共域数据模型领域数据模型模型融合算法逻辑模糊算法卡尔曼滤波算法.跨媒体数据关联算法融合数据库结构化存储半结构化存储非结构化存储融合数据第一阶段第二阶段第三阶段第三阶段 图 29 政务大数据融合平台技术路线 60 5.5.政务大数据资源管理平台 5.5.1.总体架构 政务大数据资源管理平台以数据为核心,主要提供数据资源从分析、治理、应用到运维管理等不同阶段的能力。总体架构设计如图 30图 30 所示。安全保障体系标准规102、范体系数据资源层支撑层功能层交互层政务大数据接入平台硬件环境结构化数据半结构化数据非结构化数据支撑软件身份认证消息服务流管理服务器网络环境存储设备数据资源分析数据资源治理元数据管理政务大数据资源管理门户数据资源运维政务大数据资源管理平台 图 30 政务大数据资源管理平台总体架构 交互层:为用户和管理者提供政务大数据资源管理平台可视化交互页面。功能层:包括元数据管理、数据资源分析、数据资源治理和数据资源运维等服务。支撑层:为数据资源化运营提供高质量的服务环境,包括支撑软61 件、硬件环境。数据资源层:数据层主要为政务大数据接入平台提供的各委办局的结构化、半结构化、非结构化数据。5.5.2.功能架103、构 政务大数据资源管理平台主要包括元数据管理、数据资源分析、数据资源治理、数据资源运维等功能,功能架构设计如图 31 所示。政务大数据资源管理平台元数据管理血缘分析元数据采集 数据资源治理元数据分类元数据稽查影响域分析元数据服务数据资源分析资源地图标签分类管理资源标签分类资源类目管理全局资源成本评估数据架构管理数据标准化指标标准化基线管理模型评审模型稽查质量规则管理资源质量核查资源质量监控数据标准管理数据建模管理数据质量管理 数据资源运维资源发布资源全链管理资源下线安全策略管理数据脱敏资源安全审计资源使用评估资源价值评估敏感数据评估资源生命周期资源安全管理资源评估应用 图 31 政务大数据资源104、管理平台功能架构 元数据管理:为数据资源管理的重要基础,其通过人工采集方式62 或从已有信息系统中提取方式,完成用户所关注的各类元数据的获取,提供元数据变更、统计、自身质量稽查、使用情况分析、版本和生命周期管理等基本功能。同时提供血缘分析、影响分析、实体关联分析、指标一致性分析等元数据分析功能。数据资源分析:提供资源成本评估分析,主要包括资源盘点和资源成本评估两大类功能。其中,资源盘点实现标签类别管理,支撑资源标签和业务分类、数据分类关联等功能,最终生成全局的数据资源概览和资源地图;数据资源成本评估通过评估分析模型,提供数据资源构成分析、资源活性分析和分布情况分析功能,持续沉淀核心数据资源。数105、据资源治理:为数据化运营提供高质量的数据环境,具体包括数据标准管理、数据模型管理、数据质量管理三大功能。其中,数据标准管理实现数据资源格式、命名的准确性和口径一致性,提供数据标准维护与发布管理功能,支持数据标准与数据间的关系维护,具体包括数据架构规划、数据标准化和指标标准化等功能;数据建模管理提供数据模型管理、比对、分析、展示等功能,具体包括数据模型基线管理、模型变更评审、模型稽核等功能;数据质量管理提供自动化、智能化质量核查工具,能够实现从数据分析到现状分析、问题诊断、优化、处理管理优化,一直到效果反馈全过程质量管理,形成质量治理闭环。数据资源运维:数据资源应用具体包括资源生命周期管理、资源106、安全管理和资源评估应用等功能。其中,资源生命周期管理实现数据63 从产生、应用、归档到销毁的整个生命周期全过程自动化管理,具体包括资源发布变更管理、数据全链管理和资源下线等功能;资源安全管理保证数据资源使用和交换共享过程中的安全,对数据和信息进行适当的认证、授权、访问和审计,具体包括安全策略管理、数据脱敏、数据安全审计等功能;资源评估应用实现全链路的数据资源监管和价值追踪,具体包括资源使用评估、资源价值评估和敏感数据评估等功能。5.5.3.技术架构 政务大数据资源管理平台采用 Web 服务模式对外提供数据服务,技术架构包括交互层、服务层、技术组件层、数据持久层和数据存储层。政务大数据资源管理平107、台技术架构如图 32 所示。64 API网关统一服务Zuul授权证书服务(JWT)数据库(MySQL、Oracle、HDFS、Redis、NoSQL)微服务集群管理工具(SpringCloud)前端框架React请求消息队列ActiveMQ后台服务(SpringBoot)数据抽取加载工具(Kettle)容器化工具(Docker)数据存储层支撑层服务层交互层Hibernate数据持久层IbatisJDBCHDFS算法服务(Flask)数据质量管理工具(griffin)数据加密(SM)流数据处理(Spark-Streaming)统一登录认证(cas)搜索引擎(elastic search)sql注108、入监测(sqlmap)数据审计策略(Apache Atlas)数据脱敏(AWS Encryption SDK).数据可视化Echarts 图 32 政务大数据资源管理平台技术架构 交互层:为用户和管理者提供可视化交互页面。政务大数据资源管理平台采用前后端分离的架构,前端采用 React 框架,该框架是一个构建数据驱动的 web 界面的渐进式框架。服务层:是接收交互层和数据请求的统一处理模块。API 网关是微服务架构标准化服务的模式,实现对政务大数据接入平台系统众多服务接口管控,对访问服务的身份认证、防报文重放、防数据篡改、65 业务鉴权、响应数据脱敏、流量与并发控制。由于政务大数据接入平台在提109、供服务时,可能会出现请求时间较长的情况,因此引入消息队列机制来控制高并发的请求。支撑层:政务大数据资源管理平台后台服务基于 SpringBoot 微服务架构,采用 Mybatis 进行数据持久化。授权证书服务是基于 JWT的密钥管理和签名验证模块。后台服务基于 SpringCloud 实现微服务管理。基于 ETL 的数据抽取和转换工具支撑平台的所有数据和数据集操作功能。平台的数据库进程、服务进程都是基于 Docker 进行容器化。数据持久层:采用 Hibernate、iBatis 和 JDBC 相结合的方式,对于量不大且结构比较严谨的数据,Hibernate、iBatis 是一种比较实用的存取110、方案。对于量大且性能要求高的批量元数据存取,由于Hibernate、iBatis 性能上无法保障,因此,采用 JDBC 直接读写方式。另外,针对文件类数据提供单独的文件访问组件。数据存储:主要是对平台资源模型、元数据、采集配置数据、及平台支撑数据的存储。5.5.4.关键技术(1)非结构化数据的智能识别与脱敏技术研究 大数据时代各类数据的存储方式从传统的纸质存储变为信息系统存储,数据的种类也变得更加复杂,包括结构化数据、半结构化数据、非结构化数据。而政务领域数据往往包含大量的国家机密和个人隐私数据,一旦被窃取或泄露将严重扰乱社会秩序,甚至危及国家安66 全。数据安全与隐私保护问题正成为制约政务数111、据融合、共享、开放、流通的瓶颈。目前数据加密技术、数据失真技术、差分隐私技术、匿名技术等都在特定领域用于对数据进行隐私保护,但单一的技术不能完全解决隐私泄露问题,很多领域的隐私保护必须将多种技术结合起来。尤其是针对海量的政务数据,对数据的处理能力要求很高,因此结合人工智能和语义分析等方法,实现政务文本数据的敏感数据自动识别;研究非结构化的图像数据,实现图像中的敏感数据自动识别;研制基于大数据分析技术的静态与动态数据脱敏工具,实现政务数据共享交换过程中的敏感数据去隐私化。(2)基于深度学习的数据资源价值分析模型研究 数据资源作为资产,其价值不再等同于数据作为一种资源、产品或服务时的价值,其价值具112、有更丰富的涵义。数据资源在帮助政府进行战略决策时,体现它的内在价值;在作为产品进行交易时,体现它的外在价值。由于数据资源价值体现形式具有多样性,现有传统价值分析方法难以全面、客观衡量数据资源的价值,具有局限性。因此,需要研究使用新的数据技术来解决数据资源价值的分析及量化问题,这是研究数据资源价值的关键问题。数据资源的价值在一定程度上由数据规模、数据的鲜活程度、数据采集、数据分析和数据处理的能力所决定。可以说,随着人工智能、机器学习、大数据、物联网和云计算等数据技术的不断成熟,研究数据资源的价值才成为可能,只有借助这些数据技术,才能挖掘出海量数据所蕴藏的巨大价值。为此,研究提出基于深度学习技术的113、数据资源价值分析模型(Data Resource 67 Value Analysis Model,DRVAM)。5.5.5.技术路线 政务大数据资源管理平台技术路线如图 33 所示:政务大数据资源管理平台总体设计国内外数据资源管理平台现状调研已有研究基础政务大数据资源管理规划需求国内外现有数据资源管理机理研究元数据管理数据资源分析数据资源治理数据资源运维元数据管理元数据分类元数据稽查.资源标签分类元数据分类资源地图.数据标准管理数据建模管理数据质量管理.数据生命周期数据安全管理数据评估应用.政务大数据资源管理平台试制 图 33 政务大数据资源管理平台技术路线 68 5.6.政务大数据应用体系 114、5.6.1.政务大数据共享交换平台 5.6.1.1.总体架构 图 34 政务大数据共享交换平台总体架构 政务大数据共享交换平台遵循面向服务体系结构(SOA)进行框架设计,基于国家标准电子政务模型,结合政务大数据应用体系实际需求,综合考虑存量、条线业务对接等问题,实现数据实时快速传输、交换、编目、管理等要点,依据国家相关数据共享交换政策法规与数据标准,进行总体设计。69 5.6.1.2.功能架构 图 35 政务大数据共享交换平台功能架构 政务大数据共享交换平台系统由以下三个部分组成:政务公用数据资源库:政务公用数据资源库主要由元数据库、基础库、主题库构成。元数据库主要包含数据库定义、标准规范、数115、据处理过程定义等基础配置信息,为基础库和主题库提供数据标准化支70 撑服务。基础库主要用于存放国家标准及各地方标准制定的自然人、法人、地理信息、宏观经济等数据信息。主题库主要针对特定领域、特定行业进行业务分析,通过动态数据抽取,完成数据从基础库到主题库的重组工作,将数据根据各个主体进行分类存储。数据共享交换系统:数据共享交换系统是数据共享交换平台的核心组件,将数据经过数据管理后形成的数据资源库,通过数据目录查询数据,利用 Web Service 接口、前置库接口等技术手段,实现数据的实时共享交换。从而保证数据共享交换的完整性、时效性、准确性和可用性。共享交换平台门户:共享交换平台门户是基于以上116、三个部分,面向用户提供数据共享交换 API 服务与相关数据可视化统计服务的网络平台,用户可通过该门户查询数据、申请获取 API,从而实现数据的共享交换。5.6.1.3.技术架构 图 36 政务大数据共享交换平台技术架构 政务大数据共享交换平台是基于 SOA(面向服务体系)搭建体系框架,利用 ESB(服务总线技术)、前置库交换技术等,采用松散耦合的方式构建政务大数据共享交换平台。在数据的传输与转换过程中,71 提供集中统一的控制和管理。(1)数据层:主要用于数据存储、数据备份与数据安全保障,为数据共享交换提供数据基础。(2)连接层:提供丰富的数据连接器、适配器,根据一定的数据抽取策略,对需要共享117、交换的数据进行数据抽取,为数据传输做准备。(3)传输层:将连接层抽取的数据,发布在信息总线上,在所有系统之间传输路由和消息,实现数据上传和下达。(4)转换层:将通过信息总线传输的数据,进行数据获取、数据处理,对异构数据进行转换、有效性检验和分析,并利用数据资源编目对数据进行数据的分类分级,完成数据的转换。(5)应用层:将转换完成的数据,通过 API 接口进行共享开放,供用户进行调用获取数据集。(6)监控管理层:针对数据共享交换技术流程体系,进行统一管理、调度、安全保障、维护和控制。5.6.1.4.关键技术(1)分布式异构数据组织与管理技术 为实现大数据的共享与开放,满足广域网环境下海量、多源、118、异构数据的快速发现、准确定位的需求,开展针对分布式异构数据的虚拟化组织、统一化管理等方面的技术研究,重点突破基于数据语义特征的元数据自动抽取、分布式数据资源虚拟化组织、分布式数据资源联合检索、基于元数据的无中心资源目录同步等关键技术,制定多维72 数据分级分类标准,支持海量分布式数据的快速定位,迅速地发现与需求匹配的数据资源,建立具有明确层次结构的数据体系、全局资源视图、数据资源目录体系,明确政府部门向社会公开数据的内容、格式和途径,形成政府部门和事业单位等公共机构数据资源开放清单,为数据共享与开放提供技术支撑。(2)面向跨域共享交换的数据服务技术 面向数据提供方和使用方之间跨地域、跨部门、跨119、系统的数据共享交换需求,开展面向服务的跨域共享、数据开放、访问控制等领域研究,重点突破分布式数据服务注册发布、数据目录同步、数据服务接口自动构建、基于细粒度访问控制的数据服务访问、基于发布订阅机制的数据智能分发推送等关键技术,制定面向服务的数据共享规则、数据开放规则和相关的接口规范,提供数据访问接口调用、订阅分发、内容主动推送、按需下载等数据服务,解耦数据供需关系,实现全局数据资源的发布和授权访问。(4)微服务技术 微服务作为一种新兴的软件架构,把一个大型的单个应用程序和服务拆分为数十个微服务,系统中的各个微服务可被独立部署,各个微服务之间是松耦合的。每个微服务仅关注于完成一件任务并能很好地完120、成该任务。在政务大数据共享交换应用场景中,以微服务技术为支撑的数据服务体系,通过微服务总线技术模式,实现数据共享交换服务。满足调度中心对数据调度过程的可控、可溯,对经由微服务总线的所有数73 据接口、数据流进行全程监控,并能够对整体流程进行审计。5.6.1.5.技术路线 图 37 数据共享交换平台技术路线 政务大数据共享交换平台搭建任务主要分为三个阶段。第一阶段为多源异构数据组织管理技术的研究工作与工程实现,将多源异构数据进行组织管理,并利用数据编目进行数据分类分级,实现跨层级、跨领域、跨地区数据的整合管理。第二阶段为跨域交换共享服务技术研究与实现,该阶段将政务大数据资源库中数据根据需求进行数121、据抽取,并研究利用共享交换的前置交换、交换桥接等技术方式,对数据跨域共享交换进行分配与调度,构建相关 API 接口,为平台最终建设做好技术支撑工作。第三阶段为平台搭建与功能集成阶段,该阶段将政务大数据资源库中数据进行数据分类分级、目录管理,利用共享交换技术,设计高性能实时数据传输 API 接口与相关应用体系,搭建政务大数据共享交换平台。74 5.6.2.政务大数据开放平台 5.6.2.1.总体架构 图 38 数据开放平台总体架构 政务大数据开放平台的搭建是为了能够将政务数据经过脱敏脱密后,面向公众进行数据开放,公众可通过调用平台设计提供的 API接口服务获取政务大数据公开数据集,也可下载已使用122、本平台 API 接口的应用,同时本平台鼓励开发者进行数据 API 接口申请与调用,更大限度的提高政务大数据的利用效率,并开发数据背后的潜在价值。该平台遵循 SOA 模式进行框架设计,结合实际设计需求,综合考虑实时数据传输效率、数据传输容量、高性能 API 设计等问题,基于脱敏脱密后获得的政务大数据开放资源库,构建政务大数据开放平台,最终面向用户提供政务大数据开放平台门户,主要包含数据接口服务、应用市场服务和开发者服务等。75 5.6.2.2.功能架构 图 39 数据开放平台功能架构 政务大数据开放平台主要依据互联网架构体系与政府数据开放五级技术成熟度模型进行平台构建。其系统主要分为以下六个方面123、:(1)数据信息采集阶段:在该阶段针对政务大数据进行实时或非实时数据采集,并利用 ETL 技术进行数据采集处理。(2)数据信息处理阶段:在该阶段针对采集后的数据,基于元数据库中数据策略与指标,进行统计、分析,并针对于政务大数据进行数据的脱敏、脱密,将处理后的数据进行数据同步,存储于政务大数据开放资源库中。(3)数据应用设计阶段:是根据实际平台设计需求,结合已获76 取数据,利用 URI 定位等技术,进行数据深层次分析,获得数据间关系,同时设计高性能 API 接口,用以支撑上层应用。(4)数据信息开放应用阶段:该阶段主要利用下层提供的技术支持,将平台所需功能集成于 web 平台,通过 Web S124、ervice 模式,使用户可以在该门户平台通过调用 API 等方式,灵活利用公开政务数据,高效率深度挖掘数据的深层价值。(5)数据生态构建阶段:该阶段是基于政务大数据开放平台,综合跨层级、跨地区、跨领域数据,搭建大数据开放生态体系。(6)数据信息服务阶段:该阶段贯穿整个系统流程,为政务数据开放提供服务支持,流量监控,安全保障等系统,全方位监督数据的开放流程,并保障数据的安全可靠性。5.6.2.3.技术架构 图 40 数据开放平台技术架构 政务大数据开放平台技术架构参考互联网架构进行设计,用以支撑政务数据准实时开放。(1)数据采集层:通过多种渠道采集政务大数据,并对数据进行脱敏脱密等处理,获得可125、供开放的政务大数据资源库。(2)数据管理层:该层在安全标准管理下,利用统一协调调度77 平台,对多源异构数据进行集中管理、集中处理,利用 URI 等技术获得数据定位,并对数据间关系进行分析整理。(3)数据服务层:该层利用 nodejs 等方式对服务进行封装处理。(4)数据应用层:该层通过服务层,将数据管理层数据获取,并进行 URI 定位与数据间关系分析,将各项功能集成于 web 平台,让用户可以通过该平台门户进行交互,从而获取相应的数据信息或相关的数据应用、数据分析结果。5.6.2.4.关键技术(1)非结构化数据的智能识别与脱敏技术研究 大数据时代各类数据的存储方式从传统的纸质存储变为信息系统126、存储,数据的种类也变得更加复杂,包括结构化数据、半结构化数据、非结构化数据及各种视频影像。而政务领域数据往往包含大量的国家机密和个人/企业隐私数据,一旦被窃取或泄露将严重扰乱社会秩序,甚至危及国家安全。数据安全与隐私保护问题正成为制约政务、企业数据融合、共享、开放、交易流通的瓶颈。目前数据加密技术、数据失真技术、差分隐私技术、匿名技术等都在特定领域用于对数据进行隐私保护,但单一的技术不能完全解决隐私泄露问题,很多领域的隐私保护必须将多种技术结合起来。尤其是针对海量的政务、企业数据,对数据的处理能力要求很高,因此需要在快速处理数据的大数据平台上结合多种隐私保护技术,使得政务、企业隐私信息得到更好127、的保护。针对政务、企业非结构化数据并结合此需求,将重点开展以下四个方面的研究:78 1)结合人工智能和语义分析等方法,实现政务文本数据的敏感数据自动识别;2)研究非结构化的图像数据,实现图像中的敏感数据自动识别;3)研究非结构化的音频数据,实现音频中的敏感数据自动识别;4)研制基于大数据分析技术的静态与动态数据脱敏工具,实现政务数据共享交换过程中的敏感数据脱敏。5.6.2.5.技术路线 图 41 数据开放平台技术路线 政务大数据开放平台搭建技术路线分为两个阶段,第一为关键技术研究与实现阶段,针对于多源异构政务数据,进行数据清洗与脱敏脱密技术研究,面对结构化数据、非结构化数据(视频、音频等类型数128、据),利用人工智能、语义分析、图像处理、音频处理等技术,对数据进行脱敏脱密,构建政务大数据公共资源库。第二阶段为平台构建阶段,将数据 URI 定位技术、数据间关系分析技术、网站平台构建技术进行结合,搭建政务大数据开放平台门户网站,为用户提供政务大数据开放 API 接口与相关应用服务。79 5.6.3.政务大数据知识服务平台 5.6.3.1.总体架构 为满足公众、企业以及政府对于政务知识服务日趋多样化的需求,消除信息孤岛和业务孤岛,实现精准化与跨部门的协同服务,设计和构建政务知识服务平台。技术平台政务数据知识服务平台应用示范标准规范与管理体系安全与运维保障体系支撑知识库构建知识抽取知识表示与建模129、知识存储知识演化与推理知识计算支撑政务知识服务总线知识库通用知识库领域知识库 图 42 政务大数据知识服务平台总体架构 该平台以政务大数据融合平台、政务大数据资源管理平台等技术平台为支撑,并支撑上层的政务应用示范。政务知识服务平台主要包含政务知识库构建、政务知识服务总线。政务知识库构建模块利用多源异构的政务数据通过知识抽取、知识表示与建模、知识存储和计算以及知识的演化和推理技术,构建大规模的政务通用知识库和领域知识库,并向外提供政务知识服务总线。另外,标准规范与管理体系主要定义了平台规划、开发、运营和维护各阶段的标准规范;安全与运80 维保障体系主要包括资源管理与信息安全等,以确保平台提供服务130、的可靠性、安全性与高效性,为平台的正常运行提供保障。5.6.3.2.功能架构 政务大数据知识服务平台的功能架构如下图所示,借助政务大数据采集平台,为政务大数据知识服务平台提供数据支撑,并采用知识表示与建模、知识抽取技术实现政务知识抽取、构建形成大规模政务通用知识库与领域知识库,实现知识存储与计算、知识演化与推理等功能,向上提供知识服务总线接口,支撑上层的政策法规个性化推荐、智能问答、智能决策支持以及政策公文的语义检索等政务示范应用。政务应用知识决策支持演化分析知识问答个性化推荐关系分析预测语义检索政务大数据采集平台提供政务数据知识服务平台知识库构建知识抽取知识表示与建模知识存储知识演化与推理知131、识计算政务知识服务总线知识库通用知识库领域知识库支撑提供 81 图 43 政务大数据知识服务平台功能架构 5.6.3.3.技术架构 政务大数据知识服务平台采用开源知识服务系统开发工具实现,技术架构如下图所示,主要包括知识表示与抽取、知识存储与计算、知识库和知识服务总线模块。采用 Deepdive/OLLIE 实现政务知识的半自动化抽取,基于 openKE 与 RapidMinerKE 完成知识表示与建模,构建形成大规模政务通用知识库与领域知识库,采用 Neo4j/GraphDB等工具实现多元化的知识存储,同时提供知识演化推理与知识链接等功能,并通过统一的 RESTful 接口提供政务知识服务。132、技术平台政务数据知识服务平台应用示范支撑知识库构建知识抽取(DeepDive/OLLIE)知识表示与建模(openKE/RapidMinerKE)知识存储(Neo4j/GraphDB)知识演化与推理(RDFox/SparkSRE)知识链接(Limes)支撑政务知识服务总线知识库通用知识库领域知识库(RESTful)图 44 政务大数据知识服务平台技术架构图 82 5.6.3.4.关键技术 针对政务知识的服务能力薄弱和面向公众的个性化与精准化服务质量低等问题,研究政务文本数据的语义理解和跨媒体政务知识库构建的关键技术。(1)政务文本数据语义理解 政务文本数据语义理解研究主要面对文本语义理解中存在133、的语言模型、语义表示学习和场景依赖问题,着重开展基于注意力机制的语义表示方法研究、基于深度学习的政务文本语义分析研究。基于注意力机制的语义表示方法:语义表示研究是语义理解的核心问题,当前大多数语义表示方法存在依赖大量标注数据、对语言场景变化的泛化能力差等问题,本项目将研究基于注意力机制的深度学习语义表示方法,提供统一的语义表示模型,支撑政务文本数据中的词汇、句子、句群、篇章理解。基于深度学习的政务文本语义分析:政务文本分析技术包括分词、词性标注、命名实体识别及词义消除等,采用深度学习、条件随机场、主题模型、注意力机制、seq2seq 等当前主流方法,实现政府公文公告中关键词提取、机器翻译、自动134、摘要提取与生成、情感分析、意图识别等语义分析功能。(2)跨媒体政务知识库构建技术 在跨媒体政务知识库构建中,着重研究支持大规模综合性复杂推理的知识表示与建模、跨媒体政务数据统一表征模型、跨媒体政务知识库构建技术、大规模政务知识演化与推理方法,形成涵盖数十亿实83 体规模的多源、多领域和多数据类型的跨媒体政务知识库,提供政务知识服务,支撑政府治理辅助决策、智能问答与知识搜索等应用。知识抽取:研究面向多源异构政务数据的知识抽取方法。文本数据的知识抽取包括实体识别、关系抽取与属性抽取等;图像数据的知识抽取包括目标检测、物体识别、关系识别与属性抽取等;视频数据的知识抽取包括场景识别、物体识别和事件抽取135、等;音频数据的知识抽取包括语音识别、声纹识别、场景识别等。跨媒体政务数据统一表征:目前,跨媒体数据统一表征方法包含多元统计方法、主题模型方法和深度学习方法三大类。其中,多元统计方法是一种基于双线性特征学习线性映射矩阵,这类方法存在的缺点是特征提取方法严重依赖于人工特征设计,特征表达的能力弱,缺乏相关的语义特征,而且难以解决复杂的非线性问题;主题模型的方法是从不同模态数据中挖掘具有相同语义信息的潜在主题,这类方法存在的主要缺点是模型中主题数目选择主观性强,主题粒度划分不明确,而且模型中的参数过多,推断过程较复杂;深度学习方法是当前的主流方法,通过深度网络的非线性建模能力来分析不同媒体类型数据间的136、复杂关联关系。这类方法的特征表达能力强,可以抽取出高层的语义信息,能够解决复杂的非线性问题。跨媒体政务知识演化与推理:针对当前基于符号的推理与基于统计的推理方法在知识演化推理中的不足,研究基于关系网络的知识推理框架、逻辑规则与统计推理相结合的知识演化推理技术。84 5.6.3.5.技术路线 政务大数据知识服务平台的开发分为三个阶段,第一阶段主要基于多源异构数据的政务知识库构建,提供政务知识服务总线;第二阶段研究基于政务知识库的算法服务研发,提供相应的 API 接口;第三阶段主要是各功能模块的集成,形成政务大数据知识服务平台。平台搭建任务分解政务服务知识库构建政务示范应用研究与实现政务数据知识服137、务平台搭建集成政务多源异构数据知识抽取知识表示与建模知识存储与计算知识演化与推理政务数据知识库政务知识服务总线智能问答个性化推荐关系分析预测第三阶段第二阶段政务数据知识服务平台API设计其他相关功能设计第一阶段各功能模块集成测试 图 45 政务大数据知识服务平台技术路线 5.7.政务大数据治理工具集 5.7.1.互联网政府主题数据采集工具 互联网政务主题数据采集工具是对分散在互联网中的政务主题数据进行 ETL 操作,通过对数据进行提取、转换、加载,最终挖掘数据潜在价值,然后提供给政府解决方案或决策参考。数据来源于互联网、物联网的结构化、半结构化以及非结构化海量数据。由于采集的数据种类错综复杂,138、对于不同种类的数据,需要通过数据提取技术,将格式复杂的数据转换为统一格式的数据,丢弃一些不必要的字段;对于转换后的“脏”数据,需要进一步的数据清洗,对不准确的数据进行过滤、剔除;针对不同的应用场景,需要对数据进行数据转换操85 作,将数据转换成不同的数据格式,加载(load)到数据仓库中去,为其他的平台提供数据的支持。5.7.1.1.技术架构 互联网政务主题数据采集工具的功能架构图如图 46 所示。数据源政府数据行业数据互联网数据.数据采集Web数据采集ETL工具集数据实时同步任务调度任务监控采集数据存储结构化存储非结构化存储分布式存储存储互联网政务主题数据采集工具脚本管理调度可视化.受控 图139、 46 互联网政府主题数据采集工具功能架构 互联网政府主题数据采集工具的功能模块主要分为数据采集、任务调度和数据存储三大模块,数据来源于分散在互联网中的政务主题相关的数据,实现这些功能模块的技术架构图如图 47 所示。86 系统架构客户层应用层数据层控制层业务层基础服务层数据访问层数据存储层实现方式HtmlCSSJavaScriptAjaxSpringBootRestful服务ServletSpring技术SpringBootKafkaETL工具SpringBootRedisSlf4jLombokMybatisMybatis PlusDynamicDataSourceDB2MySQLOracl140、eSQL ServerMongoDBHBase用户Servlet参数解析分布式SessionWeb数据采集ETL工具集任务调度.数据实时同步缓存服务队列服务数据服务日志服务.通用工具集数据访问驱动控制读写分离MySQLMongoDBHBase客户端执行架构PC端/Windows系统应用层执行架构SpringBoot/MVC模式/Linux系统数据库执行架构数据库服务器/Linux系统 图 47 互联网政府主题数据采集工具技术架构 Web 数据采集:提供定制化互联网政务主题的网页数据采集、下载以及 IP 资源池的管理,对接公用的数据资源库,为数据资源库提供数据接入服务。ETL 工具集:提供对采集141、数据的处理功能,包括数据的提取、转换和存储等加工操作。任务调度:提供了对互联网政府主题数据采集的任务监控与可视化操作,实现对网页数据采集脚本的上传、解析和运行,实现数据获取的可视化,提供 ELK 日志处理工具,记录互联网政府主题数据采集工具的运行状态。数据访问:提供了多种数据库资源的访问,包括结构化、半结构化和非结构化数据库资源,能够支持多种数据信息的存储和处理。87 5.7.1.2.技术路线 互联网政府政务主题数据采集工具采用软件工程瀑布模型进行开发,总共分为三个阶段,第一阶段开发基于交互式操作生成 ETL 及网页数据采集脚本的数据采集工具,第二阶段展开智能网页采集脚本生成技术的研究,第三阶142、段展开对分布式采集任务调度技术的研究。互联网政务主题数据采集工具及方法研究研究任务分解互联网政务主题数据采集研究数据采集架构ETL工具分析网页数据存储第一阶段智能网页采集脚本生成技术网页脚本配置Scrapy技术基于示例的学习方法第二阶段分布式采集任务调度技术定时调度组件分布式任务调度双Master策略第三阶段 图 48 互联网政府主题数据采集工具技术路线 交互式 ETL 及网页数据采集配置项生成技术:基于无头浏览器技术,以主流的前后端分离模式构建应用,结合前端 MVVM 框架及组件化开发模式;以数据流方式实时改变页面结构信息,结合拖拽、点击等交互式操作,快速智能生成 ETL 配置数据及网页采集143、脚本配置项。智能网页采集脚本生成技术:通过接收前端提供的网页采集脚本配置项,探究网页数据采集工具 Scrapy 深层技术实现原理,通过 JSON格式数据生成对应的网页数据采集脚本,采用基于示例的学习方法,自动找出相似结构的模块、列表、页面并提取数据。分布式采集任务调度技术:结合 Redis 队列、基于通用定时调度库编写定时调度组件,实现主从架构分布式任务调度,并使用双88 Master 策略,增强系统鲁棒性,保障系统长时间的稳定运行。通过分布式架构提高系统的任务负载能力,实现采集脚本并行批量执行,提高数据采集速度。5.7.2.政务数据分类分级工具 数据资源是大数据产业发展的关键基础,作为大数据144、时代重要的生产要素和战略资产,其价值体现以数据开放和流通为前提。然而,目前数据资源在流通过程中遇到的权益体系与监管体系不完善、分级分类机制缺失、以及安全可靠保障体系不健全等问题,制约了大数据产业的健康发展。实行数据分级分类管理,不仅有助于从国家层面加强对政府部门数据的统筹管理,提升政府数据共享、开放的标准化程度,更快地推进政府数据共享开放,有助于数据管理机构或平台制定数据流通规则,促进各行业数据的交易与交换。5.7.2.1.技术架构 政务数据分类分级工具对已收集得到的政府数据集进行语义层面的加工,并进行数据融合分析;使用目前最前沿的知识图谱构建技术,实现了政务领域的知识图谱的自动构建,形成政策145、法规库、专家案例库、政务知识图谱等一系列针对特定政务应用场景的知识库;基于政府领域的知识库,借助各类分类、分级、机器学习算法模型,充分挖掘政务数据分类分级潜力,实现根据输入数据自动给出数据的类别、共享与开放级别划分建议,并给出判断所参考的相关国家法律法规或专家案例,帮助政府人员高效解读政务数据分类分级的规则和依据,使公务员从繁重的政务数据分类分级政策查阅中解放出来,提高89 办事效率。政务数据分类分级工具功能架构图如图 49 所示。数据源政府组织机构职能权责清单贵阳市全量数据目录互联网数据.数据存储MySQLNeo4j.互联网数据采集基础能力图谱构建专家案例库政策法规库政务知识图谱算法模型分类146、分级Jena推理引擎机器学习用户操作结果展示接口调用.政务数据分类分级工具 图 49 政务数据分类分级工具功能架构 政务数据分类分级工具的技术架构图如图 50 所示。90 系统架构客户层应用层数据层控制层业务层基础服务层数据访问层数据存储层实现方式HtmlCSSJavaScriptAjaxSpringBootRestful服务ServletSpring技术SpringBootKafkaETL工具SpringBootRedisSlf4jLombokMybatisMybatis PlusDynamicDataSourceDB2MySQLOracleSQL ServerMongoDBHBase用户S147、ervlet参数解析分布式Session专家案例库政策法规库知识图谱算法模型.智能推理缓存服务队列服务数据服务日志服务.通用工具集数据访问驱动控制读写分离MySQLMongoDBNeo4j客户端执行架构PC端/Windows系统应用层执行架构SpringBoot/MVC模式/Linux系统数据库执行架构数据库服务器/Linux系统 图 50 政务数据分类分级工具技术架构 专家案例库:收集、整理已有的专家裁断的数据分类分级的案例标准,形成一个数据体量较大的专家案例库,当需要对类似进行数据分类分级时,做到专家级别的评判水准。政策法规库:针对目前已有的大量政策法规整理成相应的数据库,做到对政策法规的148、分类分级的标准模板,提供对政策法规的正确分类分级。知识图谱:根据已有的数据集,采用知识图谱相关的算法,形成各类数据实体、实体属性和实体之间的分类、分级的关系,并提供对知识的推理和知识质量的评估改进功能,促进分类分级知识图谱的自我优化。算法模型:主要提供数据的分类、分级、Jena 推理引擎和机器学习算法,根据数据分类分级的需求,参考专家案例库、政策法规库和91 知识图谱进行算法层面的处理,给出数据分类分级的最终结果。5.7.2.2.技术路线 政务数据分类分级工具开发过程遵循软件工程的瀑布模型,开发阶段分为两个阶段,第一阶段:收集并整理已有的高质量政务分类分级数据,形成专家案例库、政策法规库和知识149、图谱,知识图谱的构建是这一阶段中的难点,需要攻坚克难;第二阶段:针对已经建成的基础能力库,采用合适的分类、分级、Jena 推理引擎和机器学习算法,给出用户输入的政务数据的分类分级结果。具体的研究任务分解和进度安排如图 51 所示。政务数据分类分级工具及方法研究研究任务分解政务数据分类分级工具基础能力已有的高质量政务分类分级数据不同的筛选需求和知识图谱技术第一阶段政务数据分类分级算法算法模型选择分类分类分级专家案例库政策法规库知识图谱分级Jena推理引擎机器学习第二阶段 图 51 政务数据分类分级工具技术路线 5.7.3.政务数据开放沙箱工具 政务数据开放沙箱工具着力解决政府部门之间数据共享开放150、和交易流通过程中的隐藏的数据安全问题,它能够在不改变数据所有权的前提下,做到“数据授权使用不带走”、“可用不可见”、“用后即焚”92 的使用规则,保证了数据的安全性,打破数据共享开放的壁垒,变隐私外泄为可信共享,解决了部门政务数据权责不清、难保安全、难全面归集、难有质量、难共享、难开放、难追溯等痛点。5.7.3.1.技术架构 政务数据开放沙箱工具作为一个逻辑独立的存储和计算空间,集数据的存储与计算于一身,自动适配计算所需环境,将政务开放数据的应用和存储区域与用户的应用和存储划分开来,提供安全容器,限制两方面数据的互相通讯,让数据、算法进“屋”操作,只输出相应的脱敏脱密的数据分析结果或人工智能算151、法模型,屏蔽具体的数据细节,全方位加固了政务大数据治理产品体系的数据安全,在应用和体系结构方面上保证了数据的安全性。政务数据开放沙箱工具的逻辑流程如图 52 所示。1、数据目录放入沙箱3、分发加密密钥3、分发解密密钥2、签订合约4、上传加密数据5、上传模型,解密使用数据训练模型7、销毁6、取回模型安全策略访问控制策略部门A部门B沙箱 图 52 政务数据开放沙箱工具逻辑流程 93 政务数据开放沙箱工具使用步骤如下:a.创建具有安全策略及访问控制策略的沙箱,沙箱允许指定的机构部门访问,数据拥有者(部门 A)将数据目录上传沙箱;b.数据使用者(部门 B)访问沙箱,根据数据目录筛选需要的数据并与数据拥152、有者(部门 A)签订合约;c.签订合约后沙箱分发加密密钥给数据拥有者(部门 A),分发解密密钥给数据使用者(部门 B);d.数据拥有者(部门 A)上传加密数据至沙箱;e.数据使用者(部门 B)上传模型至沙箱,使用密钥解密数据并训练模型;f.沙箱配置数据使用者(部门 B)训练模型所需要的环境,模型训练完成后,数据使用者(部门 B)取回训练成功的模型;g.取回模型后沙箱自动销毁,确保数据拥有者(部门 A)的数据不会外泄。5.7.3.2.技术路线 政务数据开放沙箱工具可为用户提供封闭、安全、自由的计算环境,政务数据开放沙箱工具的主要构成包括:安全云主机、安全网络-VPC、安全堡垒机、安全防火墙。数据153、使用方只能通过堡垒机访问沙箱,在沙箱内根据需求配置计算环境,进行自由计算。并且通过网络隔离技术,对沙箱与外网进行了隔离,以保障数据安全。此外,基于Web VNC 体系,政务数据开放沙箱工具还可提供针对算法分析方操作行为的实时监控和历史回放,数据源方可以实时中断可能存在风险的94 操作行为。具体的政务数据开放沙箱工具技术路线如图 53 所示。政务数据开放沙箱工具及方法研究研究任务分解政务数据开放沙箱工具的环境搭建数据资源池安全云主机第一阶段政务数据开放沙箱工具的应用搭建构建堡垒机操作记录用户访问审计录像账号管控权限管理第二阶段安全防火墙网络VPC 图 53 政务数据开放沙箱工具技术路线 安全云主154、机:主要是构建安全云主机的硬件资源,包括 CPU、内存、磁盘、GPU、网络等基础的组件构成,为沙箱的运行提供一个云平台。网络 VPC:主要由云平台、私有网络、安全组、网络 ACL 等组件构成,保护网络的安全性,防止数据的泄密和外部的网络攻击。安全防火墙:主要由 Docker 安全机制和 Linux 安全策略组成,在系统和运维的层面上保证了数据的传输、运算安全。堡垒机:为数据的提供方和使用方提供了一个与沙箱交互的接口,数据的提供方和使用方都需要使用堡垒机登录到沙箱中,堡垒机保存了双方的操作记录、审计录像,提供账号管控和权限管理。5.7.4.政务数据共享开放考核工具 政务数据共享开放考核工具根据考155、核细则的具体内容,实现对考95 核指标的管理,包括录入、编辑、删除等,之后按需通过指标建立考核模板,最终通过模板实现考核评估。5.7.4.1.技术架构 政务数据共享开放考核工具的系统框架图如图 54 所示。考核数据来源共享开放平台考核部门上传数据考核机构抽查数据.考核指标体系基础保障数据共享数据开放数据应用上传组织管理考核功能数据统计考核智能推送考核评估结果分析结果查询问题反馈可视化展示动态建模考核数据管理考核材料管理考核材料审核考核材料记录.上传政务数据共享开放考核工具 图 54 政务数据共享开放考核工具功能架构 政务数据共享开放考核工具根据共享开放平台、考核部门上传的或是考核机构抽查的数据156、作为考核的数据来源;使用该工具进行考核材料的管理、考核材料的审核、考核材料的记录,使得考核有理可依、有据可查,解决了考核平台与政府部门间不必要的纠纷;依托五大考核体系:基础保障体系、数据共享体系、数据开放体系、数据应用体系和组织管理体系,对考核的材料进行评估,建立动态指标得分算法库,对各得分指标按需计分,保证评分科学客观;在考核功能模块中,支持对最终考核结果的处理和深层次的数据挖掘分析,最终生成考核96 报告,为考核对象提供针对性改进建议,可视化界面的展示提供了政务数据共享开放的整体运转情况,包括考核排名、指标完成度、重点工程完成度、以及各项指标的得分趋势,促使政务数据共享开放的良性循环发展。157、政务数据共享开放平台的考核工具的技术架构如图所示。系统架构客户层应用层数据层控制层业务层基础服务层数据访问层数据存储层实现方式HtmlCSSJavaScriptAjaxSpringBootRestful服务ServletSpring技术SpringBootKafkaETL工具SpringBootRedisSlf4jLombokMybatisMybatis PlusDynamicDataSourceDB2MySQLOracleSQL ServerMongoDBHBase用户Servlet参数解析分布式Session考核数据管理考核指标体系.考核功能缓存服务队列服务数据服务日志服务.通用工具集数据158、访问驱动控制读写分离MySQLMongoDBHBase客户端执行架构PC端/Windows系统应用层执行架构SpringBoot/MVC模式/Linux系统数据库执行架构数据库服务器/Linux系统 图 55 政务数据共享开放考核工具技术架构 5.7.4.2.技术路线 政务数据共享开放平台的考核工具首先要确立政务数据共享开放考核指标体系,然后根据考核指标体系和考核数据进行必要的算法处理,得出最终的考核分数,实现对考核结果的统计和可视化的展示,从中发现问题,给出相应的考核反馈。政务数据共享开放平台考核工具的技术路线如图 56 所示。97 政务数据共享开放考核平台及方法研究研究任务分解政务数据共享159、开放考核指标体系确定政务数据共享开放考核指标体系第一阶段政务数据共享开放考核功能动态建模考核数据统计可视化展示考核评估智能推送问题反馈第二阶段基础保障考核数据采集数据共享数据开放数据应用组织管理考核数据管理 图 56 政务数据共享开放考核工具技术路线 数据统计:政务数据共享开放平台考核工具提供对每一次考核结果及历史考核结果的数据分析。考核评估:政务数据共享开放平台考核工具能够根据最终的考核得分给出相应的评估,督促相关部门进行改进。可视化展示:政务数据共享开放平台考核工具以可视化的形式展示统计分析结果,包括考核排名趋势、考核指标完成度、考核指标得分趋势。问题反馈:政务数据共享开放平台考核工具对考160、核结果进行深层次数据挖掘分析,最终生成结果报告,为考核对象提供针对性改进建议。98 6.实施方案 6.1.实施原则(1)顶层设计,快速迭代 政务大数据治理产品体系采用顶层设计与快速迭代相结合的方式推进,顶层设计对产品的需求、概要设计、产品边界进行规定,在产品研发过程中,根据走访客户、调查调研、项目驱动的方式对产品进行快速更新和迭代,保证产品能够满足大部分政务场景。(2)数据安全第一 政务数据中存在大量隐私、涉密数据,因此在产品研发过程中需要在论证、设计、开发、测试等各种阶段重点考虑数据安全问题,针对个人隐私数据、涉密数据设计不同的操作规范和流程,数据流通时必须进行脱敏脱密,同时也可以引入区块链161、非对称加密、同态加密等手段保证数据安全。(3)风险可控 产品研发过程中,可能存在需求变更频繁、成本不可控、组织管理等风险,因此需要在产品论证、设计、架构设计上充分考虑未来潜在的风险,对各类风险的应对方案就是反复论证和演练,保证产品研发团队对潜在风险的可预期和可掌控。(4)技术先进 互联网技术发展迅速,在进行产品论证、设计和研发过程中,需要深入研究现有技术成果和技术方向,使所应用的技术能在系统开发成功并应用后一段时间内,可以与主流技术保持一致,避免因技术落后导致系统的二次开发。99 6.2.进度计划 政务大数据治理平台产品体系的建设工作是从2018年9月开始,并同步启动市场推广落地工作,到 2162、019 年 12 月 31 日完成平台产品的试运行和至少 3 处的落地试点,到 2020 年 9 月 1 日持续优化平台产品功能并完成工程结项工作,实施时间划分和主要工作任务大致如下:(一)项目需求调研及可行性论证阶段 2018 年 9 月至 2018 年 11 月,完成不低于 10 个政府行政的机构的需求调研分析,完成政务大数据治理平台产品体系的前期领域调研、竞品分析、用户分析、需求分析、技术选型与论证、可行性分析工作。(二)项目软件产品设计阶段 2018 年 11 月至 2019 年 2 月,完成项目软件政务大数据治理平台产品体系的功能设计、架构设计、交互原型设计工作。(三)项目软件开发建163、设阶段 2019 年 2 月 15 日至 2019 年 5 月 20 日,完成项目软件产品的政务大数据采集平台开发,完成硬件支撑体系安装方案设计,同步开展产业化推广;2019 年 3 月 1 日至 6 月 30 日,完成政务大数据接入平台主体功能开发及调试工作;2019 年 3 月 15 日至 2019 年 8 月 15 日,完成政务大数据融合平台开发;2019 年 3 月 30 日至 2019 年 5 月 31 日,完成政务大数据资产管100 理平台开发;2019 年 3 月 30 日至 2019 年 5 月 31 日,完成政务大数据开发平台开发;2019 年 5 月 10 日至 2019 164、年 7 月 31 日,完成政务大数据共享交换平台开发;2019 年 6 月 1 日至 2019 年 8 月 31 日,完成政务大数据知识服务平台开发;2019 年 6 月 15 日至 2019 年 8 月 31 日,完成政务大数据治理工具集开发;2019 年 9 月 15 日至 2019 年 11 月 30 日,完成项目软件平台的集成和系统测试;(四)项目软件产品上线试运行阶段 2019 年 12 月 1 日至 2020 年 6 月 31 日,在国内至少 3 处政府部门开展数据治理服务试点,持续完善治理平台产品体系的支撑功能及应用功能,逐步打通试点单位与各级政府的共享交换平台,完成平台产品的各165、项功能性能测试及功能验收。(五)项目完善提升阶段 2020 年 1 月至 2020 年 9 月,持续拓展项目软件产品的落地应用场景,持续收集用户需求并持续打造和完善需求功能。101 阶段 事项 时间 论证 认知分析(领域调研、竞品分析、用户分析、需求分析)2018 年 9 月-2018 年 11 月 技术选型与论证 2018 年 10 月-2018 年 11 月 可行性分析 2018 年 11 月-2018 年 12 月 设计 功能设计 2018 年 11 月-2019 年 1 月 架构设计 2019 年 1 月-2019 年 2 月 交互原型设计 2019 年 1 月-2019 年 2 月 166、研发及上线试运行 政务大数据采集平台 2019 年 2 月-2019 年 5 月 政务大数据接入平台 2019 年 3 月-2019 年 6 月 政务大数据融合平台 2019 年 3 月-2019 年 8 月 政务大数据资产管理平台 2019 年 3 月-2019 年 5 月 政务大数据开发平台 2019 年 3 月-2019 年 5 月 政务大数据共享交换平台 2019 年 5 月-2019 年 7 月 政务大数据知识服务平台 2019 年 6 月-2019 年 8 月 政务大数据治理工具集 2019 年 6 月-2019 年 8 月 集成和系统测试 2019 年 9 月-2019 年 11167、 月 上线试运行与服务试点 2019 年 12 月-2020 年 6 月 完善提升 根据使用反馈提升产品功能 2020 年 1 月-2020 年 9 月 7.项目投资预算与资金来源 7.1.投估算依据 1.投资估算依据国家有关规定进行编制,遵循“符合规范、结合实际、经济合理、不重不漏、计算正确”的指导原则。2.本项目建设投资包括政务大数据采集平台、接入平台、融合平台以及资产管理等平台和其他工程费用。3.建设管理费根据工程费按基本建设项目建设成本管理规定102 (财建2016504 号)计算。7.2.项目总投资估算 本项目投资总额预算 3031 万元,其中工程费为 1173 万元,其他建设费用为168、 1858 万元,项目预备费用为 60 万元。(1)工程建设投资 表 4 计算机硬件设备一览表 序号 类别 性能指标 数量 单位 单价 总价 一一 硬件设备购置费硬件设备购置费 1.11.1 服务器服务器 1.1.1 高性能服务器 2*E7-4850 v4-16Core;16*DDR4 RDIMM-16GB;2*600GB 15k/s 硬盘;2 块16G FC 单端口 HBA 卡;2*2端口 10Gb 网卡;12Gb SAS 1GB FBWC 控制器;5 台 20 100 1.1.2 中配服务器 2*E5-2683 v3-14Cor;2 块16Gb 单通道 FC HBA卡(含 2 个多模光模块169、);10*DDR4 16GB;配置1 块 SAS RAID 卡;支持12Gb/s SAS 磁盘阵列控制器;标配 2GB 缓存,支持RAID 0/1/5/6/60 和 RAID 1,2*600GB 15k/s 硬盘;8 台 15 120 1.1.3 深度学习服务器 2*Xeon E7-4850 v4-16Core;16*DDR4 RDIMM-2 台 50 100 103 16GB;2*600GB 15k/s 硬盘;4*NVIDIA Tesla M40 24GB;2*万兆网卡;2 块16G FC 单端口 HBA 卡;2*GE;2*1400W 交流电源 小 计 15 320 1.21.2 网络设备网170、络设备 1.2.1 路由器 交换容量48Tbps,转发性能10000Mpps 2 台 10 20 1.2.2 核心交换机 交换带宽160Tbps,包转发率30000Mbps,主控模块2,40G 以太网光接口48,10G 以太网光接口24,1G 以太网光接口24,双电源,1 台 40 40 1.2.3 万兆接入交换机 交换带宽2Tbps,包转发率1000Mbps,10G 接口48,40GE 接口4;双电源。1 台 20 20 1.2.4 汇聚交换机 交换带宽1000Gbps/11Tbps,包转发率720Mpps,10G 接口24,40GE 接口4 4 台 12 48 1.2.5 千兆接入交换机 171、交换带宽500Gbps,包转发率300Mbps,1GE 接口48,10GE 接口2,4 台 6 24 1.2.6 16GE FC 光模块 16GB,光纤模块 10 台 0.6 6 1.2.7 10GE 光纤模块 10GE,光纤模块 10 台 0.5 5 104 1.2.8 网管系统 提供存储、服务器、应用、交换机、路由器、防火墙、WLAN、机房设施、PON 网络、无线宽带集群设备、视频监控、IP 话机、视讯设备等多种设备的统一管理,支持多厂商设备统一视图、资源,拓扑、故障、性能以及智能配置功能,同时为客户提供第三方设备的定制能力与告警北向接口,帮助客户打造专属的统一管理系统,降低运维成本,提升172、运维效率。1 台 15 15 小小 计计 33 178 1.31.3 存储设备存储设备 1.3.1 主存储阵列 4 个控制器,200TB 存储空间,单控制器内存256GB,20%SSD,50%SAS 15K,50%SATA.1 套 100 100 1.3.2 备份存储阵列 4 个控制器,200TB 存储空间,单控制器内存256GB,20%SSD,50%SAS 15K,50%SATA.1 套 100 100 小小 计计 2 200 1.41.4 安全系统安全系统 1.4.1 边界防火墙 16 千兆电口,8 千兆光口,2 万兆光口,支持硬盘2 台 22 44 105 和扩展卡,配置含双电源;1.4173、.2 漏洞扫描 4 个 1000M 自适应网口、1 个控制口 1 台 18 18 1.4.3 入侵检测 IDS 吞吐率2Gbps,最大并发 TCP 会话数100 万,物理端口数2 个 1 台 28 28 1.4.4 入侵防护 1 个管理口,6 个10/100/1000M Base-TX;吞吐量 2Gbps,并发连接200 万 1 台 18 18 1.4.5 网络安全审计 具备详细的记录网络行为,支持实时动态监测通信内容、网络行为和网络流量 1 台 15 15 1.4.6 日志审计 日志审计系统软件,提供主机操作系统、网络设备、安全设备日志收集、查询、告警、审计、报表等功能 1 台 17 17 174、1.4.7 防病毒网关 1U 机架式,6 个千兆电口,12 个 combo 接口。最大整机吞吐量 3.5G,最大并发连接 260 万 1 台 16 16 1.4.8 网络防病毒系统 支持用户数500 1 台 18 18 1.4.9 主机监控与审计 存储能力1T、采集性能4Gbps 1 台 14 14 1.4.10 用户认证 支持用户数500 1 台 17 17 小小 计计 7 205 106 二二 软件设备购置费软件设备购置费 2.12.1 管理配置软件管理配置软件 2.1.1 云(虚拟化)平台 提供计算、存储、网络资源的虚拟化;提供虚拟化资源一体化综合配置与管理 1 套 40 40 2.1.175、2 系统管理平台 实现对硬件资源的整合和虚拟化,对功能服务器的模板制作与部署,对资源进行启动、停止、删除、回收等,对整个共用支撑平台运行性能进行实时监控和日志报告等功能,同时还实现用户交换接口,用户可以方便地登录到共用支撑平台,申请各种硬件资源和中间件资源,启动、停止自己功能服务器功能。1 套 40 40 2.1.3 数据库软件 支持 TB 及的大数据存储和管理;支持大规模并发连接用户(=500 并发用户),具有大量用户的并发查询处理能力.1 套 50 50 小小 计计 3 130 2.22.2 数据管理专用软数据管理专用软件件 2.2.1 数据标准管理模块 支持数据标准浏览查看、数据标准管理176、数据标准1 套 40 40 107 分析等功能 2.2.2 数据质量管理模块 支持对数据从计划、获取、存储、共享、维护、应用、消亡生命周期可能引发的各类数据质量问题,进行识别、度量、监控、预警等功能 1 套 40 40 2.2.3 数据挖掘分析模块 支持通用文本、通用视频等分析、语义提取、话题识别等分析功能 1 套 60 60 小计 3 140 总总 计计 63 1173(2)工程建设其他费用 1)技术开发费 表 5 技术开发费估算表 序号 预算科目名称 合 计 1 材料费 20 2 差旅费 40 3 会议费 3 4 宽带租赁费 10 6 人工费 1200 7 专家咨询费 2 技术开发经费支177、出合计 1275 2)产业化推广费:主要包括市场宣传及推广费用,包括线上线下市场活动等,该部分预计费用 200 万元;108 3)建设管理费:按照基本建设项目建设成本管理规定(财建2016504 号)计算,工程建设费用 1000 万以下按照 2%计算,工程建设费用 1000 万-5000 万部分按照 1.5%计算。4)铺底流动资金:铺底流动资金是保证项目投产后,能进行正常生产经营所需要的最基本的周转资金数额,铺底流动资金=流动资金*30%,结合行业特点,项目投产后生产经营流动资金按照 1000 万元计算,铺底流动资金=1000*30%=300 万元。5)基于预备费:按照项目总投资 2%预备,费178、用为 3000*2%=60(万元)。本项目总投资 3031 万元,工程建设投资 1173 万元,工程建设其它费用 1858 万元。表 6 项目投资估算 单位:万元 序号 项目名称 费用 1 工程建设费用 1173 1.1 硬件设备购置费 903 1.2 软件设备购置费 270 2 工程建设其它费用 1858 2.1 技术开发费 1275 2.2 产业化推广费 200 2.3 建设管理费 23 2.4 铺底流动资金 300 2.5 基本预备费(2%)60 109 合计 3031 7.3.资金筹措方案 项目投资 3031 万元,申请大数据产业发展专项补助资金 1000 万元,其余 2031 万元自179、筹,如不能取得专项补助资金,项目总建设投资 3031 万元全部由本项目建设单位自筹解决。7.4.资金使用方案 表 7 项目资金使用方案 单位:万元 序号 项目名称 费用 第一年 第二年 1 工程建设费用 1173 938 235 1.1 硬件设备购置费 903 722 181 1.2 软件设备购置费 270 216 54 2 工程建设其它费用 1858 936 922 2.1 技术开发费 1275 638 638 2.2 产业化推广费 200 100 100 2.3 建设管理费 23 18 5 2.4 铺底流动资金 300 150 150 2.5 基本预备费(2%)60 30 30 合计 30180、31 1874 1157 110 8.预期社会效益和经济效益 8.1.经济效益 项目执行期内开发建设政务数据治理平台 1 套,包括政务大数据采集融合、资产管理平台以及政务大数据治理工具集,基于平台开发建设知文智用(基于知识图谱的政策公文智能服务平台)、“一网通办”大数据政务服务平台等大数据软件产品。项目建成后具备为各级政府大数据管理部门、数据资源管理部门以及垂直部门提供数据治理全套解决方案及配套工具系统、技术开发及咨询服务能力。项目执行期为 2018 年 9 月-2020 年 9 月,项目执行期内为国内3 个以上政府部门提供数据治理服务,实现软件及技术开发咨询服务收入 2000 万元。项目开发181、建设完成后,面向全国政务信息化市场开展大范围推广,预计实现年产值超过 5000 万元。8.2.社会效益(一)释放政府数据价值,盘活信息资源,推动数据共享 数据已成为国家基础性战略资源,大数据正日益对全球经济运行机制、社会生活方式和国家治理能力产生重要影响。项目实施有助于提升政府治理的数据收集、数据分析、数据储存、数据挖掘的能力,提高对政务数据利用和管理能力,进而发挥数据资源价值。为解决政务数据资源开放共享的难点和痛点,重点开发了数据资产管理平台、数据治理工具等内容,对推进政务数据资源开放共享,提高政务数据资源开发利用水平具有重要的支撑作用,有效助力政务信息资源共享111 在深化改革、转变职能、182、创新管理中的重要作用。以数据集中和共享为途径,推动技术融合、业务融合、数据融合,打通信息壁垒,形成覆盖全国、统筹利用、统一接入的数据共享大平台,构建全国信息资源共享体系,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。(二)提升政府治理决策科学化水平 缺乏数据支撑的决策特别是凭经验作出的决策,往往“顾此失彼”,科学性、前瞻性不够。借助数据治理平台及工具,利用数据仿真建模、人工智能等技术,在基于广泛、大量数据的基础上进行模块化分析和政策模拟,为决策提供更为系统、准确、科学的参考依据,为决策实施提供更为全面、可靠的实时跟踪,有助于充分挖掘资产数据价值,更好地为预算编制提供基础支撑和决策辅助,促进政府资产的合理配置和高效使用。推动政府决策由过去的经验型、估计型向数据分析型转变,最终实现政府决策机制再造。(三)推动政府治理能力提升 借助大数据打造整体政府、开放政府、协同政府、智慧政府,提高政府治理能力。加快推进政府治理数字化转型,初步形成“用数据决策、用数据管理、用数据服务”的公共管理与服务机制,有力推动治理体系和治理能力的现代化。构建起一套“用数据说话、用数据决策、用数据管理、用数据创新”的全新机制。以大数据助推权力制约无缝化、以大数据助推政务管理精准化、以大数据助推公共服务多样化、以大数据助推治理模式多元化。