社会科学文献大数据可行性研究报告(145页).doc
下载文档
上传人:地**
编号:1253108
2024-10-19
145页
7.53MB
该文档所属资源包:
智慧城市大数据项目可行性研究报告合集
1、XX社会科学文献大数据建设项目可行性研究报告XX社会科学文献大数据建设项目可行性研究报告XXX社会科学界联合会2018年10月 XX社会科学文献大数据建设项目可行性研究报告编制人员一览表 XXX 高级工程师 咨询工程师XXX 高级工程师 咨询工程师XXX 高级工程师 咨询工程师XXX 工程师 咨询工程师XXX 工程师 咨询工程师XXX 工程师XXX 工程师XXX 工程师 XXX 工程师编制单位一览表一、技术负责人XXX: 高级会计师 咨询工程师 二、项目负责人XXX: 高级工程师 咨询工程师三、编制单位单位名称:XXXX有限公司通讯地址:XXXX联系电话:传 真:电子信箱: 目 录1项目简介12、1.1项目名称11.2项目建设单位及负责人11.3可行性研究报告编制依据11.3.1指导性文件11.3.2标准规范31.4建设目标、规模、内容、周期41.4.1建设目标41.4.2建设内容41.4.3建设规模51.4.4建设期51.5总投资及资金来源51.6预期效益分析61.7主要结论与建议72项目建设单位概况82.1项目建设单位与职能82.2项目实施机构与职责93需求分析和项目建设的必要性113.1项目提出的背景和依据113.2与政务职能相关的社会问题和政务目标分析113.3业务功能、业务流程和业务量分析133.3.1业务功能分析133.3.2业务流程分析163.3.3业务量分析173.4信3、息量分析与预测223.5系统功能和性能需求分析233.5.1功能需求分析233.5.2性能需求分析263.6现有信息系统装备和信息化应用状况283.7信息系统装备和应用目前存在的主要问题和差距303.8项目建设的意义和必要性304总体建设方案344.1建设原则344.2总体目标与分期目标364.3总体建设任务与分期建设任务384.4总体设计方案394.4.1系统总体框架394.4.2应用体系架构414.4.3总体业务流程434.4.4技术架构445本期项目建设方案485.1本期建设内容485.2应用支撑平台和应用系统建设485.2.1社科文献大数据门户子系统485.2.2社会科学文献数据资源库4、535.2.3统一检索子系统575.2.4“全科博士”子系统605.2.5数字资源加工及本期加工内容635.3XXX社科文献加工及存储标准制定685.4信息资源规划和数据库建设705.5安全体系建设方案715.6网络系统建设方案795.7数据处理和存储系统建设方案815.8终端系统及接口建设825.8.1用户接口825.8.2外部接口835.8.3内部接口855.9项目标准规范建设内容865.10运行维护系统建设方案875.10.1服务运行监控885.10.2平台故障处理885.11主要软硬件选型原则和详细软硬件配置清单895.11.1软硬件选型原则895.11.2硬件配置清单905.11.35、软件购置清单935.12机房及配套工程建设945.13数据云备份946项目招标方案966.1招标组织形式966.2投标、开标、评标和中标程序976.3评标委员会的人员组成和资质要求987环保、消防、职业安全卫生和节能措施的设计1007.1环境影响和环保措施1007.2消防措施1017.3职业安全和卫生措施1018节能分析1028.1用能标准及节能设计规范1028.2项目所在地能源分析1038.2.1电源系统1038.2.2空调系统1058.3节能措施1079项目组织机构及人员培训1099.1领导和管理机构1099.2项目实施机构1109.3运行维护机构1129.3.1基本要求1129.3.2服6、务队伍要求1149.3.3服务响应要求1159.3.4服务报告要求1169.3.5运维保障资源库建设要求1179.3.6项目管理要求1189.3.7质量管理要求1189.4项目组织管理1189.5技术力量和人员配置1199.6人员培训方案1199.6.1现场培训1199.6.2年度培训12010项目实施进度12110.1项目建设期12110.2实施进度安排12111项目投资估算12311.1投资估算的有关说明12311.2项目投资估算书12311.3资金筹措及资金使用计划12511.4项目运行维护经费估算12512效益分析12612.1经济效益分析12612.2社会效益分析12713项目风险与7、风险管理12913.1项目风险12913.2风险对策130附表132应用软件定制开发工作量测算表1321361 项目简介1.1 项目名称XX社会科学文献大数据建设项目1.2 项目建设单位及负责人项目建设牵头单位:XXX社会科学界联合会建设单位负责人: XXX建设单位联系电话:1.3 可行性研究报告编制依据本次XX社会科学文献大数据建设项目可行性研究报告编制依据主要参考国家社会科学管理工作和信息化建设的相关法律法规、部门规章、标准规范和指导性文件,以及XXX有关政策文件,主要包括有如下:1.3.1 指导性文件1、习近平总书记在哲学社会科学工作座谈会上的重要讲话;2、国务院关于印发新一代人工智能发8、展规划的通知(国发201735号);3、国务院关于印发促进大数据发展行动纲要的通知(国发201550号);4、国务院办公厅关于印发政府网站发展指引的通知(国办发201747号);5、国家发展改革委关于印发“十三五”国家政务信息化工程建设规划的通知(发改高技20171449号);6、国务院办公厅关于印发国家标准化体系建设发展规划(2016-2020年)的通知(国办发201589号);7、国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见(国办发201551号);8、国务院关于积极推进“互联网+”行动的指导意见(国发 201540号);9、XX党委、政府关于大力推进信息化的决定(内党发29、0042号);10、XXX促进大数据发展应用的若干政策(内政发2016123号);11、关于加强国家电子政务工程建设项目信息安全风险评估工作的通知(发改高技20082071号);12、中共中央办公厅关于推进国家电子政务网络建设的意见(中办发200618号);1.3.2 标准规范1、国家电子政务工程建设项目管理暂行办法 (发展改革委令第55号);2、20062020年国家信息化发展战略中办发200611号;3、中华人民共和国网络安全法(2016年11月7日);4、电子政务标准化指南(GBT 30850.1-2014);5、国务院办公厅关于促进电子政务协调发展的指导意见(国办发201466号);610、信息系统安全等级保护评测准则(GB/T 28448-2012);7、信息与文献图书馆统计(GB/T 13191-2009);8、信息安全技术 基于互联网电子政务信息安全实施指南(GB/Z 24294-2009);9、关于转发的通知(中办200327号文件);10、信息系统等级保护安全设计技术要求(GB/T 25070-2010);11、计算机信息系统安全保护等级划分准则(GB 17859-1999);12、中华人民共和国计算机信息系统安全保护条例(国务院147号令);12、信息系统安全等级保护基本要求(GB/T 22239-2008);14、关于进一步推进全国政府系统办公自动化建设和应用的通11、知(国办发200036号);15、中华人民共和国政府信息公开条例(国务院令第492号)。1.4 建设目标、规模、内容、周期1.4.1 建设目标XX社会科学文献大数据建设项目分为两期建设,其中一期以建设平台和试点加工为主,二期建设以全量加工、推广及完善为主。项目的总体目标为:以“习近平总书记2016年5月17日在哲学社会科学工作座谈会上提出的构建中国特色哲学社会科学顶层设计及运用互联网和大数据技术实施哲学社会科学创新工程的相关要求”为纲领,结合XXX建设国家大数据综合试验区的战略部署,坚持“公益、开放、协同、权威”的定位,按照“一网一中心五大库”的整体架构,实现XX社会科学成果历史存量资源(建国12、以来)的电子化保存和对古籍、非遗保护性开发,实现文献的数字化、信息化和文献资源的共享,使之重新激发学术价值,满足国内外研究人员对XX社会科学成果的查询、检索、比较、分析和智能化应用,推动XX社会科学的发展。1.4.2 建设内容构筑“一网一中心五大库”的社科文献大数据平台,其中一网是指编织一张社科知识高效的分享网络,一中心是指“社科文献、知识、价值”三位一体的大数据中心,五大库是指“期刊文献库、古籍文献库、学术成果库、社科名家库、音像制品库”。通过项目的建设,最终促进XX社科专著、外文译著、教材、古籍、地方志、工具书、音像制品、科普读物、论文和非物质文化遗产资料等相关社科文献的数字化存档、公益性13、传播和专业化研究辅助。1.4.3 建设规模XX社会科学文献大数据建设将支撑百万级数据资源的汇聚和检索查阅,为全区10万余社科工作者和广大人民群众提供社科文献大数据服务。社科文献规模覆盖20所高等院校,153家社团,40家科普基地,31家主要智库,千名社科名家,10家社科期刊及10万余册古籍。为建设具有中国特色、XX特点的哲学社会科学服务,为XX哲学社会科学更好走向全国、全世界服务。1.4.4 建设期本项目建设期三年,包括可研及立项阶段、设计阶段、采购阶段、开发建设阶段、试运行及验收阶段、推广及终验阶段等,于2020年2月底前完成项目建设的整体验收工作。1.5 总投资及资金来源本次项目建设资金由14、XXX发改委基本建设资金提供支持,总投资额1989.10万元,投资估算表如下:表1.1投资估算表及说明序号费用名称投资估算(万元)说明(一)建筑工程费0本次项目建设租赁标准机房,不涉及相关费用(二)硬件购置费0(三)软件购置费1042.79包括软件定制开发费779.40万元和商业软件购置费296.60万元。(四)数字资源加工费320XXX哲学社会科学优秀成果奖相关文献,本期加工达到100万页内容(五)其它工程和费用554.10包括项目管理、设计、测试、标准制定、工程监理、云租赁费用等。(六)不可预见费39.00按(一)(二)(三)+(四)+(五)2进行计算总计:1989.10项目投资估算详细描15、述见“项目投资估算”章节。1.6 预期效益分析通过XX社科文献大数据建设,将解决XX地区现有社会科学文献零散分布、综合利用率低、传播普及面窄、珍贵资料孤本无法有效保存等现状问题。构建了方便快捷、资源共享的哲学社会科学研究信息化平台,集成社科各学科最新研究成果,深度发掘收集XX社会科学史料典籍、历年成果,使之重新激发学术价值。全面支撑习总书记关于构建中国特色哲学社会科学“继承性、民族性、原创性、时代性、系统性、专业性”的发展要求。1.7 主要结论与建议本项目适应XXX社会科学发展的需要,也是坚持和发展中国特色社会主义的必然要求。项目建设从XXX社科文献综合管理与研究应用迫切需要出发,以自治区信息16、化设施为基础,将打造具有北疆特色的哲学社会科学文献大数据保存、应用与研究体系,对推动自治区社会科学发展和繁荣具有重要意义。综上,XX社会科学文献大数据建设项目需求紧迫、目标明确、技术可行,投资适度,建议尽快批复立项建设。2 项目建设单位概况2.1 项目建设单位与职能本项目建设单位为XXX社会科学界联合会,简称XX社科联。XX社科联的主要职责是履行社科学术团体、民办社科研究机构业务主管单位的职责,指导盟市、高校、企业的社科联工作;组织社会科学界开展学术研究,为各级党委、政府科学决策及社会各界现实需求提供咨询服务,着力打造“北疆智库”;组织和推动社会科学知识的普及工作,促进社会科学研究成果的社会化17、;受自治区党委、政府委托,组织全区哲学社会科学优秀成果政府奖的评选工作;促进社会科学学术团体之间、理论工作部门与实际工作部门之间、社会科学界与自然科学界之间的联系与协作,加强与兄弟省、自治区、直辖市社会科学界的联系,组织开展国内外学术交流与合作;促进社会科学学科建设和人才队伍建设,表彰先进集体和先进个人;收集、编辑、出版北疆系列社会科学类图书、刊物,管理XXX社会科学馆;维护社会科学工作者的合法权益,反映社会科学界的意见和要求;承担自治区党委、政府交办的其他事项。主要职能包括:(一)履行社科学术团体、民办社科研究机构业务主管单位的职责,指导盟市、高校、企业的社科联工作;(二)组织社会科学界开展18、学术研究,为各级党委、政府的决策提供咨询服务,着力打造“北疆智库”;(三)组织和推动社会科学知识的普及工作,促进社会科学研究成果的社会化;(四)受自治区党委、政府的委托,组织全区哲学社会科学优秀成果政府奖的评选工作;(五)促进社会科学学术团体之间、理论工作部门与实际工作部门之间、社会科学界与自然科学界之间的联系与协作,加强与兄弟省、自治区、直辖市社会科学界的联系,组织开展国内外学术交流与合作;(六)促进社会科学学科建设和人才队伍建设,表彰先进集体和先进个人;(七)收集、编辑、出版北疆系列社会科学类图书、刊物,管理社会科学馆;(八)维护社会科学工作者的合法权益,反映社会科学界的意见和要求;(九)19、承担自治区党委、政府交办的其他事项。2.2 项目实施机构与职责该项目实施牵头机构为XXX社会科学界联合会社会科学文献信息中心,部门职责为:(一)综合管理职责1、负责XX社会科学界研究信息收集、整理、保存、应用支撑工作;2、负责组织拟制单位信息化中长期战略发展规划、年度计划;3、制定网络管理相关规章制度;4、负责本单位软件正版化的监督、管理,确保社科联各机关及直属事业单位软件正版化。(二)网络管理职责1、负责以系统设备为主,保证服务器、交换机、路由器等网络设备的安全、稳定、顺畅运行及维护工作;2、负责公司网络安全管理;3、掌握单位网络发展情况,及时提出升级改造方案。(三)信息管理职责1、负责建设20、单位互联网主页,做好主页的维护工作;2、负责单位管理平台的运行管理、维护及信息的及时更新;3、实施信息系统集成管理:负责集成信息系统总体构架,结合项目管理实施企业集成信息系统管理;4、负责推广高效工作技术及新软件。3 需求分析和项目建设的必要性3.1 项目提出的背景和依据2016年5月17日,习近平总书记在哲学社会科学工作座谈会上发表重要讲话,强调要加快构建中国特色哲学社会科学。要求运用互联网和大数据技术,加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设,加快国家哲学社会科学文献中心建设,构建方便快捷、资源共享的哲学社会科学研究信息化平台。习近平总书记的“517”重要讲话,在我国哲21、学社会科学发展史上具有里程碑标志的重大意义。新中国成立六十多年来,党和国家最高领导人专门就哲学社会科学工作发表重要讲话,作出重大指示,这在我党历史上还是第一次。这也说明了在当前形势下,高度重视构建哲学社会科学研究与应用体系对于坚持和发展中国特色社会主义的重要性和急迫性。本项目将围绕党中央关于发展中国特色社会科学的战略部署,针对XX社科研究与应用现状与问题,以社科文献大数据整合、共享、研究为核心,全面打造具有北疆特色的社会学科研究信息化平台,服务广大社科专家、学者和人民群众,构建方便快捷、资源共享、智能科学的社会科学文献大数据研究与应用体系。3.2 与政务职能相关的社会问题和政务目标分析习近平总22、书记在哲学社会科学工作座谈会上的讲话中指出:“这是一个需要理论而且一定能够产生理论的时代,这是一个需要思想而且一定能够产生思想的时代”。新形势下,我国哲学社会科学地位更加重要、任务更加繁重。面对社会思想观念和价值取向日趋活跃、主流和非主流同时并存、社会思潮纷纭激荡的新形势,如何巩固马克思主义在意识形态领域的指导地位,培育和践行社会主义核心价值观,巩固全党全国各族人民团结奋斗的共同思想基础,迫切需要哲学社会科学更好发挥作用。面对我国经济发展进入新常态、国际发展环境深刻变化的新形势,如何贯彻落实新发展理念、加快转变经济发展方式、提高发展质量和效益,如何更好保障和改善民生、促进社会公平正义,迫切需要23、哲学社会科学更好发挥作用。面对改革进入攻坚期和深水区、各种深层次矛盾和问题不断呈现、各类风险和挑战不断增多的新形势,如何提高改革决策水平、推进国家治理体系和治理能力现代化,迫切需要哲学社会科学更好发挥作用。面对世界范围内各种思想文化交流交融交锋的新形势,如何加快建设社会主义文化强国、增强文化软实力、提高我国在国际上的话语权,迫切需要哲学社会科学更好发挥作用。面对全面从严治党进入重要阶段、党面临的风险和考验集中显现的新形势,如何不断提高党的领导水平和执政水平、增强拒腐防变和抵御风险能力,使党始终成为中国特色社会主义事业的坚强领导核心,迫切需要哲学社会科学更好发挥作用。面对新形势新要求,XX社会科24、学领域还存在一些亟待解决的问题。比如,社科专著、外文译著、教材、古籍、地方志、工具书、音像制品、科普读物、论文和非物质文化遗产资料等各时期、各渠道和各主体形成的社科研究成果以不同形式分散于社会各界,还无法实现统一的数字化采集与存储,更没有综合性的检索与利用渠道。资源综合利用率较低,较大程度影响了社科工作的发展;社会科学学科体系、学术体系、话语体系建设水平总体不高,学术原创能力还不强等等。XXX社会科学界联合会作为党和政府联系全区社会科学工作者的桥梁和纽带,在新时代和形势下需要按总书记要求为全区各类社科学会、协会、研究会、民办社科研究机构和社科普及基地、社会智库和广大群众提供便捷、高效、共享的社25、会科学研究与创新平台,以社科文献大数据系统为载体,加速实现XXX社会科学事业和先进文化繁荣发展。具体政务目标为:(1)建立XX全区范围内各类社科文献保护、电子化存档、主题分类、资源目录维护和文献管理的相关机制与平台;(2)为全区社科工作者和人民群众提供统一的社科文献检索、获取、研究和应用等智能化服务;(3)掌握全区社科研究热点与动态,分析相关趋势,辅助管理决策。3.3 业务功能、业务流程和业务量分析3.3.1 业务功能分析XX社会科学文献大数据建设业务功能主要实现全区范围内社科文献大数据管理与应用推广。具体分析如下:1、业务描述社科文献信息管理与应用业务设想依托信息化渠道,通过数字化技术将将自26、治区重点、冷门学科,重要社会科学文献成果等实现集中存储与社会化应用。2、业务分析文献整合需求:社科文献是指全区社科工作开展积累的社科专著、译著、教材、古籍整理、地方志、工具书、音像制品、科普读物、论文、非物质文化遗产资料等相关社科文献,目前各种文献无统一管理,散落在各社科机构及个人手中。根据前期对内蒙社科联百余社科单位包括高校社科著作、科研院所著作、社团文献及古籍善本等的调研,得出涵盖各高校、社科组织的文献整合需求如下表所示。表3.1 XXX社科文献汇总表类型数量备注学术论文社科文献四百万余篇XX大学社科联、XX农业大学社科联等20家高校社科联组织期刊论文、社科研究、社科成果等100余万篇XX27、哲学学会等129个XX社科联所属的学会、协会及研究会社科古籍8万余册各社科组织及民间非遗珍贵文献、图片、音像资料10万余份各社科组织及民间社科名家1400400余名二级教授以上社科名家;千余名研究员级名家;5万余名社科普及专家文献便捷获取需求:希望通过一个平台,方便获取XX相关的所有社科文献,不好找寻的文献还可以通过系统的引导查询。意识形态追踪分析需求:通过对大用户检索词、关注对象的大数据综合分析,来帮助分析研判社会意识形态的变化。3、业务功能需求为满足XX社科文献大数据管理与应用推广的业务需求,主要需要实现如下业务功能:(1)XX社科文献大数据需具有全区社科文献收集与集中电子化存储的功能;(28、2)XX社科文献大数据系统需为全区社科工作者提供统一的文献大数据服务窗口,并开辟多种服务渠道与形态,满足用户不同场景的服务需求;(3)XX社科文献大数据系统需满足社科工作者在大量社科文献中多维度便捷寻找和获取资料的需求;(4)XX社科文献大数据系统需逐步提供引导辅助社科工作者与人民群众进行社科学习研究的智能化服务;(5)XX社科文献大数据系统需具有统计分析中心运营过程中发现的社科文献研究热点与趋势的功能;(6)XX社科文献大数据系统需具有整体运营状况监控、管理和展示的功能。3.3.2 业务流程分析XX社科文献大数据系统文献管理与应用流程如下:图1XX社科文献大数据建设业务流程图XX社会科学文献29、大数据将在全区范围内收集社科专著、外文译著、教材、古籍、地方志、工具书、音像制品、科普读物论文和非物质文化遗产资料等社科相关文献。将收集到的各种格式的文献资料包括电子格式、视频、图片、纸质资料等通过扫描、OCR识别、校验、标引等加工服务,将加工好的元数据及文献资源原文批量分类导入XX社会科学文献数据库。广大社科工作者和人民群众可通过门户和移动APP等方式便捷的检索、阅读、下载和订阅相关文献资源。同时通过科技文献的“全科博士”可智能引导用户查看相关资源并回答相关问题。3.3.3 业务量分析XX社会科学文献大数据建设涉及区直社会科学类学会、协会、研究会、民办社科机构149家、会员10万余人。预计注30、册用户数大于10万人,日均访问量大于5000次。本项目目标用户详见下表:表3.2 社科机构表序号单位名称挂靠单位1XX哲学学会XX党校2XX审计学会XX审计厅3XX乌兰夫研究会XX档案局4XX鄂温克族研究会鄂温克旗人民政府5XX朝鲜族研究会XX建筑职业技术学院6XX影视人类学学会XX电视台7XX社会保障协会XX财政厅8XX昭君文化研究会XX文化厅9XX语言学会XX大学汉语系10XX教育学会XX教育厅11XX文艺理论研究会XX大学汉语系12XX考古博物馆学会XX文物考古研究所13XX监察学会XX纪委监察厅14XX党的建设研究会XX党校15XX档案学会XX档案局16XX鄂尔多斯学研究会无17XX蒙31、古语文翻译研究会XX民族青少年杂志社18XX科学社会主义学会XX党校19XX写作学会XX师范大学20XX思想政治工作研究会XX党委宣传部21XX青年研究会XXX团校22XX民族理论学会XX党校23XX草原文化学会XX社科院24XX妇女儿童研究会XX妇联25XX行政管理学会XXX政府办公厅26XX地方志学会自治区地方志编委会27XX公共关系协会28XX图书馆学会XX图书馆29XX工商行政管理学会XX工商行政管理局30XX蒙古学学会筹备委员会XX社会科学院31XX现代教育研究会XX教育厅32XX老科学技术工作者协会XX科协33XX领导学学会XX党校34XX城市发展研究会XX师范大学35XX企业文化32、建设协会XX党委宣传部36XX土默特文化研究会XX历史研究所37XX国史学会XX党委宣传部38XX社会科学体制改革研究会XX社科联学会部39XX政治学会包头师范学院40XX报纸理论宣传研究会XX日报社41中国蒙古国研究会XX大学蒙古学院周边国家研究所42XX翻译工作者协会XX大学外语学院43XX中共党史学会XX党委党史研究室44XX文学研究会XX社科院文学所45XX卫生经济学会XX卫生厅46XX粮食经济学会XXX粮食局47XX畜牧业经济学会XX畜牧厅48XX市场经济研究会XX大学49XX金融会计学会人民银行呼和浩特中心支行50XX金融学会人民银行呼和浩特中心支行51XX法学会XX政法委52达斡33、尔历史语言学会53XX工人运动研究会XX总工会54XX农牧金融学会农业银行XX分行55XX民族贸易经济研究会XX民委、XX供销合作社、原商业厅、粮食厅56XX煤炭经济研究会57XX宏观经济学会XX经济社会发展研究中心58XX财政学会XX财政科研所59XX农村牧区财政研究会XX财政农牧业处60XX税务学会XX国税局61XX监狱学会XXX监狱管理局62XX城市金融学会工商银行XX分行63XX钱币学会人民银行内蒙分行64XX国际税收研究会XX地税局65XX会计学会XX财政厅66XX预算会计学会XX财政厅67XX市场营销学会XX财院工商管理学院68少先队工作学会XX少工委69XX黄河文化经济发展研究会34、XX生态建设研究会XX水利厅、XX人大农牧委员会70XX民族建筑研究会XX文化厅71XX终身教育研究会XX师大学术期刊社72XX精神文明建设研究会73XX国土经济学研究会74中国国宾馆协会75XX世界语协会无76XX鄂伦春民族研究会旗委宣传部77XX统计学会XX统计局78XX高等教育学会XX教育厅79XX人口学会XX人口计划生育委员会80XX群众文化学会XX群众艺术81XX广播电视学会XX广播电影电视局82少数民族经济研究会XX师范大学经济学院83XX物资流通产业协会XX物资集团总公司84XX生态经济学会XX财经学院85XX蒙古族哲学及思想史研究会XX社会科学院哲学研究所86XX诚信联盟促进35、会XX社科联87XX俄罗斯民族研究会额尔古纳市委宣传部88XX管理学会XX工业大学89XX东北亚经济研究会XX财经学院90XX史学基础教育研究会XX师范大学历史文化学院91XX和谐文化建设交流协会XX呼和浩特富邦集团有限公司92XX农业经济学会XX农牧业主管部门93XX股份制企业管理协会94农牧民工研究会95XX岩画保护与研究学会、XX河套文化研究会96XX延安精神研究会XX老干部局97XX国有资产管理学会资产管理处98XX电力会计学会99XX红山文化研究会100XX蒙元文化研究会XX大学蒙古学研究中心101XX社会心理学会102XX成功人士协会103XX民俗学会104XX市场发展研究会10536、XX政协企业家联谊会106XX保险学会107XX检查官协会108XX投资促进会109XX民政及社会保障学会XX民政厅110XX文艺人才研究会111XX史学会112XX机关建设研究会113中国特色社会主义理论体系研究会114XX乡镇经济研究会115XX领导科学研究会116XX茶叶之路研究会XX中华文化学院117XX幼儿教育研究会118XX北方民族文化遗产研究会 119XX中小学蒙汉文教材研究会120统战理论研究会121草原民俗文化研究院122草原文化研究所123长城文化研究中心124现代经济发展研究院125新锐教育资源开展研究院126草原文化艺术服务中心127XX新素质教育协会128XX绿野民族37、文化研究院129XX蒙古学经济研究院130XX大学社科联XX大学131XX农业大学社科联XX农业大学132XX师范大学社科联XX师范大学133XX科技大学社科联XX科技大学134XX民族大学社科联XX民族大学135XX财经大学社科联XX财经大学136XX工业大学社科联XX工业大学137呼伦贝尔学院社科联呼伦贝尔学院138赤峰学院社科联赤峰学院139河套学院社科联河套学院140满洲里学院社科联满洲里学院141XX广播电视大学系统社科联XX广播电视大学系统142呼和浩特民族学院社科联呼和浩特民族学院143XX医科大学社科联XX医科大学144包头师范学院社科联包头师范学院145呼和浩特职业学院社科联38、呼和浩特职业学院146XX艺术学院社科联XX艺术学院147集宁师范学院社科联集宁师范学院148包头医学院社科联包头医学院149XX师范大学鸿德学院社科联XX师范大学3.4 信息量分析与预测系统数据可分为社科文献和业务数据两大类,信息量分析与预测分别如下:1、社科文献XX社科文献大数据建设信息量汇总及预测表如下:表3.3 XXX信息量分析表序号类型保有量年度增长量单位平均单个存储(M)存量(T)3年增长后总量(T)1社科文献1454650500篇34.164.172特色古籍8138020篇503.883.883期刊文献2400001000篇30.680.704学术论文44870003000篇1539、64.1964.325音像制品153100200份50073.0073.30合计146.35一期项目中,主要完成XXX哲学社会科学优秀成果奖相关的文献加工入库,按照整体存量的10%估算,大约需要14.6T的硬盘。2、业务数据业务数据是指XX社科文献大数据系统通过门户为广大社科工作者和人民群众提供文献服务过程中积累的日常数据。按月均新增数据200M计算,持续保存3年,共计占用200M*12*3=7G。故三年总计需有效存储空间约13.6T。3.5 系统功能和性能需求分析3.5.1 功能需求分析根据社科联对社科文献及相关功能的描述及分析,通过问题识别和业务抽象,经过综合分析,提出如下系统功能需求:表40、3.4 系统功能需求分析表序号业务类型功能模块功能需求描述1XXX社科文献加工及存储标准制定XXX社科文献加工及存储标准制定能够制定XXX社科文献加工及存储标准,旨在迅速提高知识组织能力,改进信息组织方式,解决知识获取难题。2社科文献大数据门户前台门户网站社科文献大数据门户系统,能够做到美观、简明、易用,通过导览能够快速查找相关资源。具有登录、个人中心、分类导航、服务中心、特色资源推荐、网站公告及友情链接等服务。3后台信息发布及管理提供网站栏目的管理功能及栏目下文章的发布、修改等基本功能。具有对用户、日志、系统的管理功能,相关的统计分析功能。能够实现全部系统的统一认证访问。4社会科学文献数据资41、源库资源库功能建设能够实现社科文档的科学存储及管理,具有精细化的文献输出方式,具有精准的主动检索词识别、知识聚类及筛选。具有科学的数据库导航系统,提供按学科、刊名、收录机构、出版地等多维度筛选方式和刊内浏览体验。可以运用云计算与大数据技术,从学科、主题、人物、机构等多个要素对元数据仓储进行深度挖掘分析,如主题趋势分析、人物科研合作关系分析、学科发展成熟度分析、机构科研能力变化趋势等,从情报分析角度运用数据,用数据和图形说话。5元数据仓储库建设能够按照制定的XXX社科文献加工及存储标准进行元数据的仓储管理、元数据收割及更新、自动分类标引等功能。6统一检索功能分布式并行计算希望系统能够提升硬件资源42、的利用率,缩短数据检索耗费的时间。7自动化维护与管理能够实现对于云计算集群的自动维护管理功能。8数据高效检索能够支持单库检索、跨库检索、字段限定检索、高级组合搜索、聚类检索、相似性检索、检索结果相关度排序等功能,能够满足针对大量科技文献数据进行学术搜索和知识挖掘分析的应用需求。9高扩展性与大并发量支持希望能够根据性能与负载进行节点或者集群的扩展,从而满足大用户量、大并发量的检索访问支持。10智能化检索希望采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位43、词,帮助用户判断结果的相关度,并进行进一步的查询;支持完善的信息分类体系,对检索结果自动分类或者信息聚类;提供智能化的概念扩展查询等。11数据处理能够不仅提供快速检索功能(在千万级数据下,检索能在1秒钟之内完成),同时也要有高效的大量数据处理能力。每小时能处理百万的数据库数据,或是几十万篇的文档。包括中文的分词和建立数据索引。12中文分词技术能够通过中文分词技术使搜索结果更加符合使用习惯,可以根据自己的需要和行业特色来添加和维护词库。13搜索结果多样化展现无论是数据来源于数据库中,或者是各类文件,对于搜索的展示结果,具有个性化、多样化的展现,也可以类似数据库那样,对于数据字段进行自由调用查询和44、展现。14资源权限管理特定的用户才能查看相关数据库的数据资源。15操作方便希望所有配置和操作都可以通过IE访问产品后台进行,操作简易,维护方便,同时也不影响服务器的安全性。16社科文献大数据“全科博士”前端交互功能具有智能问答功能,要体现机器人的智能性、人性化体验及交互流畅性等特点,在社科文献领域范围内实现语义理解和准确回答等。17人工智能服务引擎具有强大的文本处理、句法分析、语义分析、对话管理、句子匹配、答案谊染、知识管理等功能,为前台的智能人机交互提供强大的技术支撑。18管理后台对社会科学文献大数据系统数据库分类结构,对文献知识归纳、梳理及总结。同时,通过知识本体来关联业务知识和词类、语义45、规则模板等语言知识,通过人工智能技术实现新的业务知识快速构建,具有可视化的操作界面和标准的分类标识,方便使用者对知识本体的积累。3.5.2 性能需求分析为了保证系统能够长期、安全、稳定、可靠、高效的运行,本平台应该满足以下的性能需求:1、高可用性系统724 小时持续可用,可在每日特定时间段内对系统进行维护。要求数据存取服务准确,不能丢失数据。2、可扩展性系统功能扩充或使用单位增加时应不影响现有系统功能和结构,能够方便后续其他系统模块的扩展。系统建设要求能够保护投资,当系统数据量和访问量增大而导致系统配置不能满足要求时,可以通过仅增加服务器等硬件进行解决,而不是在软件上做修改。3、响应性能一般W46、eb查询的响应时间2秒以内,带有复杂的图表的查询,响应时间在3秒以内。门户平均用户响应时间3s;一般查询最大用户响应时间=1000。服务器CPU平均负荷率60%。4、可管理性用户角色与权限设置至上向下逐级授权管理。能够对数据的取值范围进行设定,可对数据进行校验和审计。5、可恢复性WEB查询、报表、统计分析、挖掘分析服务等恢复在4小时内。门户故障恢复时间(自动)=2小时,故障恢复时间(手动)=4小时。实时数据采集服务恢复在8小时内。3.6 现有信息系统装备和信息化应用状况XXX社会科学界联合会信息化建设起步较晚,目前信息化建设成果仅为门户网站、官方微博和微信公众号。建设与应用情况分别如下:1、门47、户网站XXX社会科学界联合会门户网站“XX社会科学网”改版于2015年3月,网址:。网站设有社科动态、社团建设、社科普及、社科研究、社科文库、北疆品牌、社科评奖、学人风采、社科智库、机构概况等板块。访问量共计32万余次。图2XX社科联门户网站2、官方微博2014年11月开通官方微博,拓展宣传渠道。拥有7千余用户。图3XX社科联官方微博3、微信公众号2014年12月开通微信公众号,扩大覆盖面。设有社科在线、北疆品牌和社科橱窗等栏目。图4XX社科联微信公众号3.7 信息系统装备和应用目前存在的主要问题和差距XX社科联目前的信息化建设仍属于起步阶段,仅能满足全区社科管理工作的对外宣传和通知等功能,社48、科文献管理与研究应用信息化领域仍为空白。主要问题与差距如下:1、社科研究成果无法高效保存、传播与转化社科研究成果是社科工作的宝贵财富,也是社科普及和社科研究工作的基础。目前自治区各时期、各渠道和各主体形成的社科研究成果以不同形式分散于社会各界,还无法实现统一的数字化采集与存储,更没有综合性的检索与利用渠道。资源综合利用率较低,较大程度影响了社科工作的发展。2、与国家要求存在显著差距XX社科文献综合应用现状与习总书记关于社会科学领域发展的顶层设计与运用互联网和大数据技术助推社会科学事业科学发展的相关要求存在较大差距。3、在习总书记号召下已有先进地区启动建设在细总书记“5.17”重要讲话指导下,中49、国社会科学院已完成国家哲学社会科学文献中心一期建设。山东、重庆等省市也已启动相关建设。3.8 项目建设的意义和必要性从科学研究的具体过程讲,要使研究工作取得有创造性价值的成果和有突破性的重大进展,就不能不通过文献检索,了解、掌握前人和今人在某一领域内所进行的探索、所取得的成果和所发生的失误,因为这是科学发展和科学研究内容的历史继承性的需要。XX社会科学文献大数据建设是构建中国特色哲学社会科学的国家要求,更是新时代下社会科学工作的客观需求,也是社会科学发展迎接新挑战、实现新突破的必然选择。1、促进社会科学繁荣发展、建设具有XX特点的哲学社会科学的需要文献是记录人类知识的物质载体,是认识和改造世界50、的重要资源,是进行科学交流、获取情报、传授知识的重要工具,是某一学科、某一组织、某一国家和整个世界学术水平、科研成果的重要标志,所以,没有对已有文献的继承和借鉴的科学研究,就不能称之为真正意义上的科学研究,也不可能取得有价值的创造性成果。XX社会科学文献大数据建设项目是在国家社科工作顶层设计框架下XX社会科学文献综合管理和应用推广的体系建设,是贯彻响应党中央关于进一步繁荣发展哲学社会科学决定的重要举措,是建设具有XX特点的哲学社会科学的需要。是一项关系全面建设小康社会,开创中国特色社会主义事业新局面,促进中华民族伟大复兴的重要支撑。2、保护社科成果扩大利用率的需要社科成果的保护和再利用一直是社51、科管理界的难题,目前自治区社科资料与成果管理与应用缺乏统一规划,造成了离散分布、总量不清、无法便捷应用等问题,传统文献的保存和保护问题日益突出。XX社会科学文献大数据建设可以充分运用数字化技术对于社科成果进行电子化加工处理,对加工处理后的电子文献可进行永久保存、分类管理。3、提升社科研究工作效率的需要由于传统文献主要是靠纸质记录的,由纸质记录的文献往往是相互独立的,且不易获得,另外,由于历史上遗留下来的文献资料浩如烟海,难以穷尽性搜索和占有。传统的研究方式基本上是经验性的,科学性大打折扣。电子文献的出现为社会科学研究中文献资料的收集提供了便利。电子文献资料库的建立为社会科学研究收集资料提供了平52、台,随着对历史文献的不断整理,文献语料库内容的不断充实,通过文献数据中心的建设,许多只能在索引目录上看到的文献资料可以轻松获取,乃至于为普通研究者接触珍贵文献大开方便之门,大大的提高了古籍文献的利用率,推动科研的发展。XX社会科学文献大数据建设本着从社科文献管理与应用工作实际需求出发的原则,可在文献收集、存储、检索、传播、研究等多个环节借助大数据与互联网技术辅助大幅提升工作效率,帮助用户更好的进行科学探索。4、创新管理模式科学辅助决策的需要未来XX社会科学文献大数据相关平台使用形成的社科文献检索、下载、研究记录,还可以让社科界管理人员从数据中掌控学界热点动态,从数据中发现学界发展规律,从数据中53、知晓公众社科需求,这些信息可有效的支撑社科学界管理方向制定、政策调整和辅助决策形成。5、面向全国全世界传播文献传播是指在一定的社会条件下产生于群众及所有人与人之间的一种文献互动过程,同时也是使文献信息活化、实现文献资料共享的过程。XX社科文献大数据的建设将XX相关的社科文献进行电子化处理,永久保存、分类管理,极大程度上激活了XX境内已经积累及正在进行的社科研究成果,通过社科文献的大数据平台将相关的成果面向全国乃至全世界开放,将XX的先进社科研究成果展示给全世界,促进世界社科研究的进步及快速发展。同时通过文献的传播也让全世界进一步了解XX的社科研究,提升XX的文化影响力。4 总体建设方案4.1 54、建设原则本项目的建设原则将突出顶层设计与统筹协调、加强管理与注重实效等原则,具体分如下:1、顶层设计与统筹协调原则XX社科文献大数据建设要按照国家及XX信息化建设的总体部署和要求,结合内蒙的实际情况,进行信息资源统筹规划,遵循统一的建设规范、标准,成立XX社科文献大数据项目工作领导小组,下设领导小组办公室,加强顶层设计,制定实施方案,整合各方资源,因地制宜、分类指导、分步推进。2、加强管理与注重实效原则 注重实用性,着眼于解决“加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设”进行总体设计,充分考虑每一个细节;注重亲和力,着眼于大多数人的参与,界面一定要友好,操作一定要简便,功能一55、定要完善,让绝大多数人所能够理解接受并参与;注重安全性,保证技术安全、信息安全。3、先进性与实用性原则系统技术水平在保证其成熟性的前提下,充分考虑到其先进性。宜采用业界先进系统架构理念和技术,为方案升级打下扎实基础。平台各系统供应商应有能力进行该项产品的持续性开发,可以保证该项技术不断地更新并可顺利升级以维持系统的先进性。4、开放性与扩充性原则XX社科文献大数据建设是一个系统工程,除了与国家级社科文献数据平台互联互通外,有很多基础数据还需要从地方社科机构的信息系统中获取,与这些系统均需要保持双向的信息交互能力,因此系统设计必须保持开放性、具有良好的互连、互操作能力,必须遵循最新的国际标准、国家56、标准和行业标准,必须遵循开放的原则。在平台实际使用过程中,用户的需求是会不断变化的,因此平台应当具有良好的可扩充性,便于用户根据自己的需要进行二次开发来满足用户不断变化的实际需要,使应用可以根据业务的发展和变化而平滑扩展。5、可靠性和安全性原则平台建设涉及多部门、多机构的业务信息,应符合国家有关信息安全的法律法规的要求,一方面要保障网络安全,另一方面要保障信息安全,还应保障系统可靠地运行。设计应从系统架构和网络结构上首先考虑安全性,并充分考虑大规模并发、长期运行条件下系统的可靠性。在平台中,应保证数据的原始性和完整性,以及数据访问和修改的可追踪性,系统设计时,既要考虑系统级的安全性、又要考虑应57、用级的安全性,采用多级用户认证、数据加密、灾容备份等多种手段保证数据安全,同时应综合运用技术、制度、法律等手段,强化网络和数据的安全管理。6、规范化和标准性原则XX社科文献大数据建设应考虑其完整性和对全省的普适性,须在全面了解需求的前提下,进行整体规划,按照“统一规范、统一代码、统一接口”的要求,加强指导和组织协调。4.2 总体目标与分期目标XX社会科学文献大数据建设项目分为两期建设,其中一期以建设平台和试点加工为主,二期建设以全量加工、推广及完善为主。项目的总体目标为:以“习近平总书记2016年5月17日在哲学社会科学工作座谈会上提出的构建中国特色哲学社会科学顶层设计及运用互联网和大数据技术58、实施哲学社会科学创新工程的相关要求”为纲领,结合XXX建设国家大数据综合试验区的战略部署,坚持“公益、开放、协同、权威”的定位,按照“一网一中心五大库”的整体架构,实现XX社会科学成果历史存量资源(建国以来)的电子化保存和对古籍、非遗保护性开发,实现文献的数字化、信息化和文献资源的共享,使之重新激发学术价值,满足国内外研究人员对XX社会科学成果的查询、检索、比较、分析和智能化应用,推动XX社会科学的发展。一期建设目标:(1) 标准制定目标:建立科学完善的XXX社科文献加工及存储标准体系,能够满足本项目的数据加工及存储需求。(2) 平台建设目标:搭建完整的社会科学学术期刊数据库功能体系,形成“一59、网一中心五大库”的平台基础架构,对平台中的文献具有方便检索的功能,基于大数据及人工智能技术体系,构建社会科学文献的“全科博士”,智能回答读者的问题并推荐相关资源。(3) 数据初步加工入库目标:实现100万页的XXX哲学社会科学优秀成果奖相关的文献加工入库二期建设目标:(1)社科成果保存、保护目标。实现145万余万篇社科文献如草原文化、少数民族经济、民族区域自制政策研究、蒙古学、地方学等冷门、绝学的资料汇集与保存、传播,8万余本特色古籍、24万期刊文献、400余万学术论文及15万份音像制品的保存。(2)社科研究支持目标。满足国内外研究人员对XX社会科学成果的查询、检索、比较、分析和智能化应用;实60、现少数民族典籍资料的在线查询;满足比较分析研究需要;与国家级、其他省区社科成果库的横向共享;与各盟市、旗县社科信息库的纵向连接,为各盟市、旗县社科组织开放文献上传账号,共用平台;运用人工智能技术实现人机对话、互动交流、个性化服务、科研辅助、深度科研开发等功能。(3)古籍、非遗保护性开发目标。对XX散落于科研机构、图书馆藏单位、民间的8万余册珍贵社会科学古籍、少数民族典籍进行抢救性保存及数字化加工,使之焕发新的活力和价值;对非遗成果进行保护性开发、抢救性保存,以音像资料等方式保存。(4)社科名家库建设目标。针对400余名二级教授以上社科名家及千余名研究员级名家、5万余名社科普及专家完善社科名家库61、的专家人员信息。4.3 总体建设任务与分期建设任务总体建设任务:构筑“一网一中心五大库”的社科文献大数据平台,其中一网是指编织一张社科知识高效的分享网络,一中心是指“社科文献、知识、价值”三位一体的大数据中心,五大库是指“期刊文献库、古籍文献库、学术成果库、社科名家库、音像制品库”。通过项目的建设,最终促进XX社科专著、外文译著、教材、古籍、地方志、工具书、音像制品、科普读物、论文和非物质文化遗产资料等相关社科文献的数字化存档、公益性传播和专业化研究辅助。一期建设内容:1、制定科学完善的XXX社科文献加工及存储标准,迅速提高知识组织能力,改进信息组织方式,解决知识获取难题;2、建设XX社会科学62、文献大数据门户系统,包括前台门户网站、后台信息发布及管理等功能;3、建设具有XX特色的哲学社会科学学术期刊数据库平台,构成覆盖全面、类型丰富的大量社会科学文献文档库及元数据仓储平台(包括期刊文献库、古籍文献库、学术成果库、社科名家库及音像制品库),系统支持以学科、主题、人物、机构等多维度进行数据抽取和深度标引,并利用数据的挖掘分析结果帮助用户开展更高质量和高效率的科研工作;4、建设对数字资源的统一检索子系统,采用最新的搜索引擎技术,提供面向大用户量、大并发量应用环境的数据检索和知识挖掘分析服务;5、基于大数据及人工智能技术体系,构建哲学社会科学文献的“全科博士”,智能回答使用者的相关问题,引导63、查询相关文献资源,实现机器人式的智能交互。6、将XXX哲学社会科学优秀成果奖相关的文献加工入库,加工页数达到100万页。二期建设内容:二期主要建设内容为全量的数字资源加工,将实现145万余万篇社科文献如草原文化、少数民族经济、民族区域自制政策研究、蒙古学、地方学等冷门、绝学的资料汇集与保存、传播,8万余本特色古籍、24万期刊文献、400余万学术论文及15万份音像制品的加工入库,进一步完善大数据的挖掘分析,通过平台增加对意识形态的把控,添加触摸屏等显示设备,通过可视化的界面对外展示内部数据资源、建设情况、用户分布等情况等。4.4 总体设计方案4.4.1 系统总体框架XX社会科学文献大数据项目架构64、设计借鉴业界成熟的信息化架构模型,以XXX基础网络、城市4G和云平台为基础设施平台,以XX和社会科学文献数据库建设为切入点,充分运用云计算、人工智能等先进技术,为全区社会科学工作者提供优质的文献服务。系统建设总体框架如下图所示:图5总体建设内容框架图XX社会科学文献大数据的总体系统框架如上图所示,采用“五横四纵”结构设计。“五横”是指系统建设的基础设施、数据架构层、云计算/人工智能平台台层、应用架构层以及门户中心层共同构成。基础设施是以IAAS的理念实现一体化的IT基础架构管理,使得上层应用服务的实现与基础设备无关,实现数据中心内部在网络、存储和计算资源上的虚拟化;数据架构层主要包括期刊文献库65、古籍文献库、学术成果库、社科名家库及音像制品库等;云计算/人工智能平台层包括人工智能、自然语言处理、统一搜索及分布式计算等技术;应用架构层是采用SOA技术建设本项目各业务应用系统;门户中心层是面向全区社会工作者的统一操作平台,采用统一门户、统一身份/授权/认证的业务平台。“四纵”是指信息化项目的相关体系标准,主要包括标准规范体系、安全保障体系、运维管理体系和工程管理体系等四部分构成。4.4.2 应用体系架构图6应用体系框架图本方案总体架构概括为“五层架构,两大体系”。其中,五层架构从上至下指的是:门户层、应用层、支撑层、数据层、基础设施层,两大体系指的是:安全保障体系、标准规范体系。总体架构66、图如上图所示。4.4.2.1 门户层门户层以社科文献大数据门户为主门户,提供菜单导航、个性化服务以及界面定制等功能,是应用系统层的前台表现,整合接入应用系统,为系统各级用户提供统一、集成、个性化的访问窗口。4.4.2.2 业务逻辑层应用层包含社会科学文献数据资源库、统一检索子系统、“全科博士”子系统,在对每一个应用系统详细介绍时,将逐项展开。4.4.2.3 应用支撑层应用支撑层是业务系统的核心支撑部分,确保业务应用系统的快速开发,稳定可靠运行。应用支撑层包括工作流引擎、大数据融合分析、权限管理、分布式计算、人工智能、自然语言处理、人器交互、统一搜索、数据处理等功能。4.4.2.4 数据层数据层67、是整个架构的核心部分,为应用层、门户层的合理运行提供数据支撑。数据层为数据交互、检索查询、统计分析提供数据支持。数据层主要由元数据仓储数据库、文献资源数据库、非结构化数据库构成。具体数据库为期刊文献库、古籍文献库、学术成果库、社科名家库及音像制品库。五数据层数据库涵盖XXX社会科学相关期刊、书籍等所有资源。4.4.2.5 基础设施层基础设施层是本项目的基础运行平台,本项目将部署在XXX的云平台。其中利用3/4G网络和XXX城市云计算平台等设施将极大降低成本并提高信息的及时性,能更好的实施资源管理与监控调度。4.4.2.6 信息安全保障体系本项目系统通过身份认证机制和信息安全技术保障体系,为网络68、设备、安全设备、应用及业务系统提供统一的身份认证服务,建立信息安全保障体系。同时建设应用安全体系,保障数据的安全运行与存储。4.4.2.7 标准规范体系以上各个层面和支撑体系的建设,需要依托于现有的标准规范才可成功运行。制定具有XX特色的社会科学文献加工及存储的标准。4.4.3 总体业务流程XX社会科学文献大数据建设项目总体业务流程如下图所示:图7XX社科文献大数据业务流程图将搜集到的各种格式的文献资料包括电子格式、视频、图片、纸质资料等通过扫描、OCR识别、校验、标引等加工服务,将加工好的元数据及文献资源原文批量导入到XX社会科学文献数据库,或直接将杂志社的电子资源直接导入文献库。通过门户的69、统一检索可以搜索查看相关文献资源。同时通过科技文献的“全科博士”可引导用户查看相关资源及回答相关问题。4.4.4 技术架构XX社会科学文献大数据建设具有大量数据运行,需要具有大数据平台的技术架构来实现。项目的建设核心在数据资源的检索功能,其技术框架如下图所示:图8技术架构图技术结构及模块组成主要包括: API接口:主要提供对于RMS全文索引的检索、聚类、统计等API接口。 传输协议支撑模块:主要提供搜索服务集群系统之间的数据传输和交换,包括Thrift、Mencached、Http等数据传输交换协议支持。 Java Netty框架:提供异步的、事件驱动的网络应用程序框架和工具,为快速开发高性能70、高可靠性的网络服务器和客户端程序提供支持。 监控模块:主要提供云搜索服务集群各节点全文索引与搜索服务的状态监控接口。 RMS中文智能分词模块:实现对于中文文本智能分词,为全文索引构建及检索语句解析提供中文分词支持。 第三方插件支持模块:主要提供对于第三方如分词插件、排序插件等插件和模块的接入支持。 云集群通信模块:主要提供云搜索服务集群节点发现、节点间分片、副本之间的传输与同步支持。 脚本解析引擎:提供对于Js、mvel等脚本的解析支持,从而可以支持各种脚本的嵌入和解析。 RMS全文索引模块:主要提供对于各种数据源的基于词表和RMS中文智能分词的全文索引构建、索引更新等功能。 RMS全文检索71、模块:主要提供对于各种索引的检索、检索结果的聚类、统计、检索结果排序输出等功能支持。 映射配置模块:主要提供各种数据库字段与索引之间的映射和对应关系的配置和维护管理等功能。 数据源模块:主要提供各种数据源的数据获取与索引构建、更新等任务调度支持。 分布式RMS索引目录支持模块:主要提供对于分布式RMS索引文件目录的读取和写入等控制管理。 文件系统网关:主要提供对于RMS全文索引数据的持久化存储支持,可以支持本地文件系统、共享文件系统、Hadoop HDFS、Amazon S3等索引数据存储方式。5 本期项目建设方案5.1 本期建设内容针对项目建设需求,XX社会科学文献大数据在业务方面的总体规划72、图如下图所示:图9XX社会科学文献大数据业务功能规划包括门户中心、社会科学文献数据资源库、统一检索及XX社会科学文献大数据 “全科博士”共4个子系统。5.2 应用支撑平台和应用系统建设5.2.1 社科文献大数据门户子系统社科文献大数据门户包括前台门户网站及后台信息发布及管理两个模块。5.2.1.1 前台门户网站1、整体设计社科文献大数据门户系统,要求美观、简洁、易用,通过导览能够快速查找相关资源。设置一个蒙语转换按钮,支持将前台门户展现转换成蒙语版本。2、前台登录提供注册及登录窗口,用户可以通过网站上设置的前台登录模块登录到自己的账户中,实现对自己账户的管理。普通用户登录后可下载相关资源、增删73、改自己的基本信息等。支持将相关文献分享到主流的社交软件,如微信、QQ及微博等。3、分类导航分类导航对XX社会科学文献大数据相关内容如资源(期刊文献库、古籍文献库、学术成果库、社科名家库及音像制品库)、专题、服务等内容提供方便有效的导航管理,通过导航使用户能够清晰的找到资源所属位置。4、服务中心包括系统及相关文献搜索的使用指南,相关问题、意见建议、在线咨询回答问题、“全科博士”智能机器人回答问题等功能。5、特色资源推荐特色资源推荐栏目将向用户推荐一些特色资源及特色图书,使用户对重点资源、特色资源能及时发现、阅读等。同时用户可以关注及订阅门户发布的相关主题资源,方便用户及时发现资源。6、网站公告资74、源公告栏目下将向用户发布最新的咨询及相关公告信息。7、友情链接 链接一些重要的资源网站,如国家哲学与社会科学文献中心、XX相关社科组织等。5.2.1.2 后台信息发布及管理1、栏目及发布管理提供网站栏目的管理功能及栏目下文章的发布、修改等基本功能。2、用户管理用户是指前台注册及系统批量注册的用户,其可根据用户类别、用户名等关键字查询每个用户注册的信息资料,管理员对使用本系统的用户基本信息的维护和管理。3、日志管理日志管理模块提供授权范围内的操作日志的查询、删除等功能。4、统计分析用户注册情况、网站访问情况、文献资源浏览及下载等情况的统计及分析。5、系统管理前台用户提出的消息回答及管理,前台用户75、留言回复及管理,前台显示的相关设置及管理等。6、统一认证访问通过建立一个独立的、高安全性和可靠性的身份认证及用户权限管理系统,完成对门户网站及数据库资源等系统用户的账号控制和IP控制等。5.2.1.3 大数据挖掘应用大数据挖掘应用面向学科服务、科研管理、科研咨询进行大数据的信息挖掘和分析,通过该应用,可轻松了解所关注主题的研究状况、学科领域专家与研究机构、科研项目课题成果与进展、科研机构科研能力统计与分析,为科研决策提供可量化的分析服务。1、智能推送建设信息的“智能推送”模块,依据用户行为数据进行训练,做出较为精准的文献推荐提供信息服务,通过主动检索和被动推送两种信息服务模式,全面、立体满足群76、众的信息需求。2、用户聚类分析聚类分析是通过数据建模简化数据的一种方法,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析变量选择的原则是:在哪些变量组合的前提,使得类别内部的差异尽可能的小,即同质性高,类别间的差异尽可能的大,即同质性低,并且变量之间不能存在高度相关。按照一定的用户特征变量进行用户的聚类分析一般包括: 人口学变量:如年龄、性别、婚姻、教育程度、职业、收入等。 用户目标:如用户为什么下载这篇文献?了解不同检索目的的用户的各自特征,从而查看各类目标用户的需求。 用户使用场景:用户在什么时候,什么情况下需要这篇文献?了解用户在各类场景77、下的偏好/行为差异。 用户行为数据:如检索频率,平台使用时长,检索关键词等。划分用户活跃等级,用户价值等级等。3、主题服务基于平台积累的社科文献,提供“全景式”科研课题研究状况分析报告。帮助社科研究学者快速获取研究方向相关的机构、专家、成果,和最新进展。4、专家关联分析在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。通过关联分析挖掘,追踪平台中的社科名家科研产出及成长轨迹,协助科研人员搜集和整理关注专家的学术成果和最新78、动向。5、学科创新分析 预测技术(forecasting techniques)指人们运用现代科学技术手段,事先依据一定方法,对自己的活动可能产生的后果及客观事物的发展趋势作出的科学分析。通过分类预测技术,来追踪学科科研产出分布,了解学科发展状况。6、机构画像分析机构科研能力,快速搜集和整理机构学术产出和学术特点。7、意识形态风险掌控基于用户通过平台的检索内容,分析研判意识形态变化。5.2.2 社会科学文献数据资源库社会科学文献数据库将加工后的社科专著、外文译著、教材、古籍、地方志、工具书等相关内容及元数据入库,构成覆盖全面、类型丰富的社会科学文献文档库及元数据仓储,并以学科(马克思主义、哲学79、政治学、文学、语言学、新闻学与传播学、艺术学、历史学、考古学、法学、社会学、民族学、经济学、统计学 、管理学、图书馆、情报与文献学、教育学、蒙古学、民族理论、草原文化等学科)、文献类型(期刊、学位、会议、成果、专利、标准、法律、古籍、地方志等类型)、时间、主题、作者、机构等多维度进行数据抽取和深度标引,通过构建的元数据库实现学术文献统一检索、文献揭示及各类社会科学文献资源的整合、调度与原文定位,并利用数据的挖掘分析结果帮助用户开展更高质量和高效率的科研工作。本期建设的社科文献库初步分为:期刊文献库、古籍文献库、学术成果库、社科名家库和音像制品库。5.2.2.1 社会科学文献数据资源库总体框架80、图10XXX社科文献数据资源库总体框架5.2.2.2 资源库功能设计1、科学的文档存储及管理充分考虑到数据的增长性,按照制定的XXX社科文献加工及存储标准进行科学合理的文献存储及管理。支持社科联及下属二级单位将符合要求的文献批量及单篇方式导入数据库。2、精细化的文献知识输出系统按照不同文献类型的需求组织内容,能更精确引导用户访问,提供更快捷的信息访问通道。资源导航页能按多种方式对资源进行筛选。3、主动检索词识别系统提供智能检索词识别算法,根据不同输入,主动输出用户关注的核心内容。4、精准的知识聚类与筛选机制系统自动聚类检索结果,实现按收录分布、作者遴选、机构筛选、期刊排名等多维度的分面整合与快81、递推送。5、科学的知识库导航结合XXX资源的实际情况,制定科学的数据库导航系统,初步包括期刊文献库、古籍文献库、学术成果库、社科名家库及音像制品库。在此基础上提供按学科、刊名、收录机构、出版地等多维度筛选方式和刊内浏览体验。其中:期刊文献库:以期刊文献为主的文献库。古籍文献库:以古籍文献为主的为主的文献库。学术成果库:以学术成果为主的知识库。社科名家库:涵盖XX社科名家的专家库。音像制品库:以音频、视频为主的XX社科文献知识库。6、更深层次的知识分析充分运用云计算与大数据技术,从学科、主题、人物、机构等多个要素对元数据仓储进行深度挖掘分析,如主题趋势分析、人物科研合作关系分析、学科发展成熟度分82、析、机构科研能力变化趋势等,从情报分析角度运用数据,用数据和图形说话。7、多源的资源定位方式通过多途径原文资源调度,实现覆盖全面的文献原文获取途径的揭示。 8、多维度统计分析后台实现对文献浏览、下载数量的多维度统计,包括按数据库、时间段、IP等多维度是资源使用统计功能。 9、资源使用权限管理考虑到部分资源的保密性,将对部分资源库做单独加密处理,后台可配置具有查看权限的人员。 同时,对于底层数据保护,使用AES高级加密算法进行加密。5.2.2.3 元数据仓储系统元数据又称中介数据、中继数据,是为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。83、通过在元数据基础上进行数据的深度挖掘和提取,整理高频词、词共现统计分析、学科热点统计、作者关系、机构关系等,为XX社会科学文献大数据提供更多知识服务。元数据仓储包括对元数据的仓储管理、元数据的收割与在线更新、自动分类标引与元数据质量检查等功能。1、元数据仓储管理按照制定的XXX社科文献加工及存储标准进行元数据的仓储管理。2、元数据收割与在线更新基于OAI元数据收割协议,实现对于OAI元数据收割支持,并提供批量数据导入工具,支持元数据批量收割与在线更新。3、自动分类标引与元数据质量检查提供自动分类标引能力,实现对于元数据学科分类、主题的自动分类标引,并提供对于元数据的基于知识获取的相关要素,即学84、科、主题、组织机构、人物等的元数据标引质量检查。5.2.3 统一检索子系统采用分布式并行计算、中文分词等技术,提供面向大用户量、大并发量应用环境的数据检索和知识挖掘分析服务。5.2.3.1 分布式并行计算 随着元数据仓储资源量的不断增加,现有单服务器顺序执行的检索技术和业务逻辑,已经不能满足数据高速检索的需求,各类业务应用系统均要求能够快速活动最满足用户需求的科技文献数据,通过分布式并行计算技术,将极大提高硬件资源的利用率,缩短数据检索耗费的时间。5.2.3.2 自动化维护与管理搜索引擎将基于分布式计算模式,支持节点自动发现、节点扩展,数据自动重新分布、索引自动持久化存储等能力,可以实现对于云85、计算集群的自动维护管理功能。5.2.3.3 数据高效检索搜索引擎通过集群及索引分片技术,利用多服务器的并行计算,实现对于数据的高效检索功能,支持单库检索、跨库检索、字段限定检索、高级组合搜索、聚类检索、相似性检索、检索结果相关度排序等常用检索技术,可以满足针对科技文献数据进行学术搜索和知识挖掘分析的应用需求。5.2.3.4 高扩展性与大用户量大并发量检索访问支持搜索引擎基于分布式并行计算技术,支持索引分片、分布、副本与多节点集群,节点自动发现,无主从分布式部署与并行检索支持,可以方便地实现检索节点的扩展,可以根据性能与负载进行节点或者集群的扩展,从而满足大用户量、大并发量的检索访问支持。5.286、.3.5 智能化的检索服务搜索引擎在统一检索过程中采用相关智能技术以达到迅速、准确、全面定位目标信息。例如采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进一步的查询;支持完善的信息分类体系,对检索结果自动分类或者信息聚类;提供智能化的概念扩展查询等。通过这些技术,能够满足大多数智能化搜索需求。5.2.3.6 数据高效处理搜索引擎不仅提供快速检索功能(在千万级数据下,统一检索能在1秒钟之内完成),同时也要有高效的大量87、数据处理能力。每小时能处理百万的数据库数据,或是几十万篇的文档。包括中文的分词和建立数据索引。5.2.3.7 中文分词技术中文分词是搜索引擎必须具备的技术之一,应用中文分词技术才能使搜索结果更加符合用户习惯,更加接近用户的期望结果,用户也可以根据自己的需要和行业特色来添加和维护词库。5.2.3.8 搜索结果多样化展现方式无论是数据来源于数据库中,或者是各类文件,对于搜索的展示结果,具有个性化、多样化的展现,也可以类似数据库那样,对于数据字段进行自由调用查询和展现。5.2.3.9 操作简易、维护方便统一检索子系统提供完整的后台界面,所有配置和操作都可以通过IE访问产品后台进行,操作简易,维护方便88、,同时也不影响服务器的安全性。5.2.4 “全科博士”子系统通过建设XX社会科学文献大数据“全科博士”子系统, 充分运用云计算、人工智能等先进技术,智能回答使用者的相关问题,引导查询相关文献资源,实现机器人式的智能交互。通过系统的建设,针对用户行为,通过大数据建模分析挖掘方式,实现对用户的智能管理。5.2.4.1 前端交互平台智能问答功能,要充分体现出“全科博士”的智能性、人性化体验及交互流畅性性,具体设计如下: “全科博士”交互界面包括输入区、信息输出显示区,右侧多媒体辅助显示区。右侧多媒体辅助显示区可配合左侧输入动态显示相关内容,具有文献推荐链接、建立留言等功能。 智能一问一答功能:在领域89、范围内实现语义理解和准确回答。 系统要支持日常聊天内容识别回复。 系统支持上下文语义分析,主语或宾语或谓语缺失情况都能处理。 支持基于场景的个性化推荐服务功能,能够结合文献的种类、学科等引导用户查找相关的资源。 支持繁体字和拼音纠错识别,例如用户输入基金的拼音: jijing,机器人将纠错识别为标准拼音jijin, 模糊问题引导,对于用户输入的问题比较模糊或只有单个的字词等情况,系统会启动模糊问题引导功能,尽量引导用户提问业务相关问题并推荐给用户最可能相关的答案内容,当专业业务知识库中有多个可能的对应条目时,机器人能向用户提出反问,最终引导用户得到想要的解决方案。 支持相关问题推荐,当用户输入90、某个问题后,机器人在回复答案的同时,将把与问题词汇相关联的问题显示给用户,提供用户相关问题的快速定位。 支持问答服务过程中不同维度知识分布加载,机器人会按维度的不同,回复不同的内容。 支持敏感词汇识别,敏感词指避免回复内容中包含非法的、含义敏感的、容易造成误解的、对客户产生不良情绪反映的词汇,支持敏感词汇定义和过滤功能。5.2.4.2 人工智能服务引擎平台 文本处理:具有中文分词、词性标注和命名实体识别等文本处理功能,文本处理是后续各项处理的基础。 句法分析:根据给定的语法,自动地推导出句子的语法结构,即句子所包含的句法单位和这些句法单位之间的关系。 语义分析:即通过文本分类、特征抽取、自动推91、理及多种分析结果的融合等技术确定句子中相对通用的语义信息。 对话管理:包括对话过程中的对话进程树和动作树的管理。 句子匹配:利用语义分析结果,通过模板匹配和向量空间的相似度计算来确定目标知识库中备选一条或多条知识条目。 答案谊染:通过答案过滤模块和智能化答案组织,将答案内容组织成更加人性化的回答,改善用户体验。 知识管理:知识管理是针对智能客服机器人应用的需要,在计算机存储器中存储、组织、管理和使用的互相联系的各知识条目集合。这些知识条目主要包括与各领域相关知识库、用户的个性化信息,对话管理人工干预模板,以及常识性知识等。本项目需要搭建XX社会科学文献大数据的智能回答知识系统。5.2.4.3 92、统一管理后台 目录树管理:源于对社会科学文献大数据建设数据库分类结构,对文献知识归纳、梳理及总结,根据使用者相关问题需求,可引导相关文献。 “全科博士”大脑知识管理:支持使用者通过知识采编、更新、删除、发布等操作对业务知识结构进行管理。知识包括但不限于文本、视频、FLASH、图片等内容。 知识本体管理:具备一定的本体知识库,通过知识本体来关联业务知识和词类、语义规则模板等语言知识,通过人工智能技术实现新的业务知识快速构建,具有可视化的操作界面和标准的分类标识,方便使用者对知识本体的积累。 知识版本管理:支持版本的增量管理,知识每一次更新都要形成一个新的版本,记录知识历史版本,支持前台对历史版本93、进行查看权限控制。 维度管理:将知识进行多维度分类管理,使知识可以按照不同的逻辑和视角进行组织分类。方便交互查询。 服务管理:管理和维护“全科博士”的运行,可根据实际情况设置“全科博士”提供的服务。 日志管理:具有对“全科博士”产生的日志文件管理查看的功能,提供对日志文件的分类查询、统计、导出和备份等功能。 权限管理:可授权系统管理员,增删改查平台用户及角色,设置各个功能模块的资源路径等。5.2.5 数字资源加工及本期加工内容数字内容加工为整个系统提供分析和统计的数据来源,实现多种数据源的对接,将不同来源、不同格式的结构化数据和非结构化数据通过各种方式采集进来,并进行处理入库,最终实现纸质文献94、数字化、电子文档资源化、音视频存储标准化等,加工完成后的文档资源主要以PDF形式导入文档资源库及元数据库。本项目加工的数字资源将充分体现具有内蒙特色的社科文献、学术成果及古籍善本等国家社科文献未做加工及入库的各类文献,通过本项目的建设和国家社科文献库形成互补。图11社科资源加工入库示意图因涉及到大量文献的加工制作,且具有较多的高价值的古籍,所以文献的加工服务由专业的加工制作团队完成。本期的加工将由建设单位完成,并提供加工的全称培训服务,为项目的二期大批量的加工入库提供基础。5.2.5.1 加工内容数字内容加工作为本项目二期的主要建设内容,在本期的建设内容中,数据内容加工将提供XXX哲学社会科学95、优秀成果奖相关的文献加工入库,具体内容包括: 一、历届获奖情况第一届获奖成果共358项,其中论文及调研报告243项,著作115项。第二届获奖成果共363项,其中论文及调研报告227项,著作136项。第三届获奖成果共373项,其中论文及调研报告212项,著作161项。第四届获奖成果共363项,其中论文及调研报告209项,著作154项。第五届获奖成果共366项,其中论文及调研报告167项,著作199项。第六届获奖成果共330项,其中论文及调研报告122项,著作208项。二、获奖成果估测总字数获奖成果中论文共计1180项,著作共计973项。论文按每篇5000字计算,共590万字;著作按每部20万字计96、算,共19460万字,以上合计字数为20050万字。5.2.5.2 加工服务实施流程图12社科资源加工服务流程图5.2.5.3 文档加工处理流程图13文档加工流程图5.3 XXX社科文献加工及存储标准制定知识获取,又称知识采集、知识发现,是指从单个或多个信息源中通过发现、汲取、构造、组织、挖掘等一系列工作后,使信息形成知识的演化过程。简单讲,就是从信息中捕获知识。然而随着现代信息技术的发展,人类产生、收集信息的能力远远超过了人类组织、管理和有效利用信息的能力,一方面信息资源量以指数增长速度持续猛增,另一方面信息资源本身的多样性、复杂性也制造了混乱。本项目将在国家相关标准的基础上,根据XX的特色97、,制定出符合XX特色的社科文献加工及存储标准,旨在迅速提高知识组织能力,改进信息组织方式,解决知识获取难题。图14XXX社科文献加工及存储标准检索系统是知识获取与知识组织之间的桥梁,古人早在汉代就已开创书目学(又称目录学)来管理、利用文献,现代随着互联网技术的发展和普及,搜索引擎的应用已经非常普及。由此可见检索系统是从古至今人类获取知识时最常用的工具,本项目通过研究及制定知识获取的关键信息,如学科、主题、人物、机构等要素信息,为相关文献的统一检索提供支持。 学科:是用户获取专业知识的基础限定条件,是知识的一种专业分类; 主题:用以表达文献主题(知识)的规范化的词或词组; 人物:直观的学科带头人98、同行等,是专业知识的研究或传播主体; 机构:与学科、主题、人物紧密关联的研究、教学、企业等团体;上述标准多为国家各大机构沿用下来的通用标准,在上述标准的基础上,重点研究XX社科文献的类型、研究蒙文资料的特点,针对XX的实际情况,突出XXX的文字特色,制定完善的XX社科文献的的加工及存储标准。围绕分类构建XX社会科学文献数据库,以学科为纽带,研究组成各个要素之间的相互关联关系,构成知识关联网络;同时各个文献详细描述各个要素的信息,形成知识节点,最终通过大量的数据文献形成“以点带面”的社会科学文献大数据数据库。为优化用户体验、增强系统普适性,在原始文献数据加工时采用数据格式的标准化,即同类资源在99、存储时尽可能统一数据格式针对文献的保持格式:影印文献、图片类资源统一用.pdf格式,视频类资源统一用.rm格式进行保存。5.4 信息资源规划和数据库建设XX社会科学文献大数据建设涉及全区社科文献诸如社科专著、外文译著、教材、古籍、地方志、工具书、音像制品、科普读物、论文和非物质文化遗产资料等,初步划分为期刊文献库、古籍文献库、学术成果库、社科名家库及音像制品库。数据库将本着数据详实、高效、准确、完整的原则进行设计,充分支持结构化数据和非结构化数据的查询、浏览和统计分析等。具体如下:1、结构化数据库和非结构化数据库设计并存对于通过各种方式采集获取的数字资源,经过智能处理后,将统一由关系数据库进行100、存储管理,主要用于数据分析、二次标引加工和发布。2、数据准确性准确的数据是科学决策支持的根本。本系统设计将并采用多种数据统计分析及其他质量控制方法,结合人工审查,确保数据库中信息的准确性。3、数据完整性本系统设计将采用多种数据统计分析技术,对数据的完整性进行量化评估,对于数据的缺损丢失等问题,及时产生预警统计信息,提醒管理人员注意,确保数据库中系统的准确性。4、系统容错性由于该系统涉及多个数据源,多种数据格式,数据处理流程相对复杂,包括数据采集、过滤、整合、索引、分析、转换、共享等,异常情形可能会出现在每个步骤。在系统设计时,将充分考虑系统的容错性,确保一个数据处理任务的出错不会影响其他系统的101、正常运行。5、系统灵活性由于数据源多样并不断增加、数据格式多样可变、采集属性多样可变,在数据库的结构设计和系统的设计时,严格遵循可扩展性原则,保证数据源的添加、数据格式变化、采集属性的更改可以在不需要系统代码修改或少量代码修改的前提下,由系统管理人员直接完成。6、易管理、易维护性系统操作简便、高效。结构清晰,模块化、参数化程度高,可灵活设置,自动适应,方便维护和管理。规范化,具备查错能力,方便维护和管理。5.5 安全体系建设方案安全系统建设要按照国家有关电子政务安全策略、法规、标准和管理要求进行,以风险评估和需求分析为基础,坚持适度安全、技术与管理并重、分级与多层保护和动态发展等原则,保证网络102、与信息安全和政府监管与服务的有效性。安全系统建设内容包括信息安全管理规章制度、资源安全、应用安全、系统安全、网络安全和物理安全等方面。安全系统设计按照基础设施层、数据访问层、信息交换层、应用层划分层次。如下图所示。图15安全体系框架图1、信息安全管理规章制度管理是信息安全得到保证的重要组成部分,是防止来自内、外入侵必须的部分。责权不明、管理混乱、安全管理制度不健全及缺乏可操作性等都可能引起管理安全的风险。因此,除了从技术上下功夫外,还要依靠安全管理来实现信息的安全,使工作人员在授权的工作范围内正确使用网络系统的资源,胜任信息管理与应用工作。2、应用安全数据中心的安全主要为物理安全、主机安全。为103、更好的确保信息的完整性、可用性和抗抵赖以及保密性,对应用系统进行安全防护,包括Web安全扫描、Web安全防护、网页防篡改、异常流量清洗、云数据库审计等功能,应用安全部分购买市场上成熟软件模式。1)Web安全扫描从文献中心安全的根源考虑,对Web安全漏洞扫描。周期性检测应用服务安全性,并提供详尽的报表,使得用户在漏洞或隐患被利用前就及时发现并采取相应的补救措施,防患于未然。2)Web应用安全防护(WAF)提供应用层攻击防护,可有效应对OWASP TOP 10、恶意扫描、注入攻击、跨站攻击、非法上传/下载等高级威胁进行有效防护。表5.1 WAF包含功能列表功能名称功能说明系统信息设备基础信息CPU104、内存、硬盘利用率网络管理模块管理设备接口、链路聚合、路由策略、trunk链路服务器管理模块配置防护Web服务器相关IP地址、域名等信息Web安全模块自定义Web防护策略透明检测流过滤Web应用防护 主动防御体系智能对攻击流量进行分析,降低误判率访问控制体系防火墙基础功能,可以限制URL访问、IP地址访问、访问时间等扫描器模块对网站代码漏洞进行扫描DDoS防护体系畸形数据包、针对CC攻击、SYN洪水攻击进行防护日志系统对访问、攻击进行审计分析系统汇总访问、攻击等数据进行报表呈现系统诊断内置ping、URL访问等诊断工具3)网页防篡改集中管理控制各个网页防篡改端点,并提供监控、同步、发布功能。表105、5.2 网页防篡改包含功能列表功能名称功能说明网页防篡改网页防篡改系统综合支持Windows、linux等通用系统网站防篡改网页防篡改客户端在卸载时,需要有验证才可以卸载,保证客户端自身安全性支持对网页防篡改客户端和的自动探测功能采用基于文件过滤驱动保护技术、事件触发机制相结合方式支持文件多线程同步,并可以设置文件同步时间周期、发布时间周期等时间设置异地备份,两台服务器之间文件同步时,需要使用专用端口进行加密传输支持IIS、Weblogic、Websphere、Apache、Tomcat等应支持支持超过40GB以上网页防篡改保护和恢复功能,以适应客户业务发展需要支持内核控制、本地备份、异地备份106、多种安全网页防篡改组合模式系统可以从本地或异地备份文件夹自动同步到监测目录中系统支持主/备目录和主/备服务器两种备份模式提供网页防篡改的发布模式,能和主流的CMS系统集成进行内容发布,提供32、64位系统集成支持对网站服务器的CPU、内存、收包量、发包量等信息进行实施监控日志筛选和导出支持对日志类型进行筛选查看;可对本地日志导出为excel文件进行查看或备份系统审计对与系统自身安全相关的下列事件产生审计记录:管理员登陆后进行的操作行为;对安全策略进行添加、修改、删除等操作行为;对管理角色进行增加、删除和属性修改等操作行为;对其他配置参数的设置或更新等行为支持对网页篡改、添加、删除进行日志记录,107、并针对文件、进程、攻击类型进行详细记录多种告警方式支持本地报警、邮件的告警方式,可定制其他报警方式4)异常流量清洗有效防护洪水攻击,cc攻击,慢速攻击等多种DDoS攻击行为,保障业务的连续性。异常流量检测类型如下图所示。表5.3 异常流量检测类型攻击类型描述flood攻击syn_flood利用TCP协议缺陷,发送大量伪造的TCP连接请求,从而使得被攻击方资源耗尽(CPU满负荷或内存不足)tcp_flood针对目标服务器地址发送大量的TCP流量和数据包,导致对方资源耗尽死机udp_flood由于UDP协议是一种无连接的服务,在UDPFLOOD攻击中,攻击者可发送大量伪造源IP地址的小UDP包,造108、成服务器瘫痪icmp_flood攻击者向目标计算机发送大量的ICMP ECHO报文(产生ICMP洪水),则目标计算机会忙于处理这些ECHO报文,而无法继续处理其它的网络数据报文ip_fragmentation_floodIP首部有两个字节表示数据包的大小,所以IP数据包最长只能为65535字节。通过发送总长度超过65535字节的IP碎片,造成系统内核在处理的时候就会出现问题,导致崩溃或拒绝服务dns_flood向被攻击的服务器发送大量的域名解析请求,通常请求解析的域名是随机生成或者是网络上根本不存在的域名,被攻击的DNS 服务器在接收到域名解析请求的时候首先会在服务器上查找是否有对应的缓存,如109、果查找不到并且该域名无法直接由服务器解析的时候,DNS 服务器会向其上层DNS服务器递归查询域名信息。域名解析的过程给服务器带来了很大的负载,每秒钟域名解析请求超过一定的数量就会造成DNS服务器解析域名超时snmp_floodSNMP flood攻击,攻击者发出了一大批具有伪造IP地址的SNMP查询(受害者的)众多的连接设备,答复是伪造的地址。随着攻击量的增加,更多的设备继续回复,直到目标网络被大量的SNMP响应耗尽资源http get_flood主要针对存在ASP、JSP、PHP、CGI等脚本程序,并调用MSSQLServer、MySQLServer、Oracle等数据库的网站系统而设计的。110、通过和服务器建立正常的TCP连接,并不断的向脚本程序提交查询、列表等大量耗费数据库资源的调用, 提交一个GET或POST指令对客户端的耗费和带宽的占用是几乎可以忽略,而服务器为处理此请求却可能要从上万条记录中去查出某个记录,这种处理过程对 资源的耗费是很大的,而这对于客户端来说却是轻而易举的。因此攻击者只需通过Proxy代理向主机服务器大量递交查询指令,短时间内将服务器资源消耗掉而导致拒绝服务http post_flood攻击者只需通过Proxy代理向主机服务器大量post递交查询指令,短时间内将服务器资源消耗掉而导致拒绝服务非法包攻击tear_drop对于一些大的IP数据包,往往需要对其进行111、拆分传送,这是为了迎合链路层的MTU(最大传输单元)的要求。在IP报头中有一个偏移字段和一个拆分标志(MF)。如果MF标志设置为1,则表面这个IP包是一个大IP包的片断,其中偏移字段指出了这个片断在整个IP包中的位置。例如,对一个6000字节的IP包进行拆分(MTU为2000),则三个片断中偏移字段的值依次为:0,2000,4000。这样接收端在全部接收完IP数据包后,就可以根据这些信息重新组装 没正确的值,这样接收端在收后这些分拆的数据包后就不能按数据包中的偏移字段值正确重合这些拆分的数据包,但接收端会不断偿试,这样就可能致使目标计算朵操作系统因资源耗尽而崩溃。泪滴攻击利用修改在TCP/IP112、堆栈实现中信任IP碎片中的包的标题头所包含的信息来实现自己的攻击tcp land这类攻击中的数据包源地址和目标地址是相同的,当操作系统接收到这类数据包时,不知道该如何处理,或者循环发送和接收该数据包,以此来消耗大量的系统资源,从而有可能造成系统崩溃或死机等现象tcp winnuke利用WINDOWS操作系统的一个漏洞,向这个139端口发送一些携带TCP带外(OOB)数据报文,但这些攻击报文与正常携带OOB数据报文不同的是,其指针字段与数据的实际位置不符,(带URG标记位的数据包)即存在重合,这样WINDOWS操作系统在处理这些数据的时候,就会崩溃ping of death由于在早期的阶段,路由113、器对包的最大大小是有限制的,许多操作系统TCP/IP栈规定ICMP包的大小限制在64KB以内。在对ICMP数据包的标题头进行读取之后,是根据该标题头里包含的信息来为有效载荷生成缓冲区。当大小超过64KB的ICMP包,就会出现内存分配错误,导致TCP/IP堆栈崩溃,从而使接受方计算机宕机。这就是这种“死亡之Ping”攻击的原理所在。根据这一攻击原理,黑客们只需不断地通过Ping命令向攻击目标发送超过64KB的数据包,就可使目标计算机的TCP/IP堆栈崩溃,致使接受方宕机icmp smurfSmurf攻击利用多数路由器中具有同时向许多计算机广播请求的功能。攻击者伪造一个合法的IP地址,然后由网络上114、所有的路由器广播要求向受攻击计算机地址做出回答的请求。由于这些数据包表面上看是来自已知地址的合法请求,因此网络中的所有系统向这个地址做出回答,最终结果可导致该网络的所有主机都对此ICMP应答请求作出答复,导致网络阻塞。udp fraggle类似于Smurf,使用UDP应答消息而非ICMP。UDP端口7(ECHO)和端口19(Chargen)在收到UDP报文后,都会产生回应。攻击者可以向子网广播地址发送源地址为受害网络或受害主机的UDP包,端口号用7或19.子网络启用了此功能的每个系统都会向受害者的主机做出响应,从而引发大量的包,导致受害网络的阻塞或受害主机的崩溃;子网上没有启动这些功能的系统将115、产生一个ICMP不可达的消息,因而仍然消耗带宽。也可将源端口改为Chargen。目的端口为ECHO,这样会自动不停地产生回应报文,其危害性更大5)云数据库审计围绕数据库弱点扫描、攻击检测、操作审计、风险控制四个方面建立一套严密的数据库安全体系,系统采用深度包检测、动态建模、智能风控等核心技术,解决数据库资源面临的“越权使用、权限滥用、权限盗用”等安全威胁,实现数据库系统的风险可视化、日常操作可审计、危险操作可控制、安全事件可追溯。6)云堡垒机提供专业的访问控制审计功能。包括集中管理、访问控制、权限控制及操作审计等功能。集中管理:集中管理用户、虚机及设备、系统账号;集中管理用户、系统账号的密码;116、所有用户集中登录、集中认证;集中配置账号密码策略、访问控制策略;集中管理所有用户操作记录。访问控制:根据用户角色设置分组访问控制策略;实现“用户系统系统账号”的对应关系;实现实体级的访问控制授权。权限控制:可设置以命令为基础的权限控制策略;实现命令级别的实体内授权。操作审计:以用户身份为依据,真实完整的记录每个用户的所有操作行为;精确到命令的审计机制;对用户的操作进行仿真回放;记录加密维护协议SSH数据。3、系统安全所谓系统安全通常是指网络操作系统、数据库系统的安全。(1)操作系统安全通过配备操作系统安全扫描系统对操作系统进行安全性扫描,发现其中存在的安全漏洞,并有针对性地进行对网络设备重新配117、置或升级。对有涉及秘密信息的用户主机,使用者在应用过程中应该做到尽量少开放一些不常用的网络服务。(2)数据库安全对数据库服务器中的数据库必须做安全备份。备份手段是确保数据库安全最有效的防范措施之一。通过网络备份系统,把重要数据信息通过网络备份到远程存储设备上,使得备份数据与运行数据分开存放,假使发生意外事故,不至于所有的数据都遭受破坏。同时,利用灾难恢复系统可以对数据库以及操作系统做整体的备份,一旦系统受到毁灭性破坏时,通过系统恢复盘可以做到快速恢复。5.6 网络系统建设方案本系统网络建设将依托于呼和浩特云数据中心机房的基础网络设施,总体网络拓扑图如图所示:图16系统网络拓扑图XX社会科学文献118、大数据中心的业务应用系统部署在呼和浩特云数据中心的云资源池,采用计算存储一体化的超融合服务器,业务应用系统使用分布式存储保障数据的连续可靠性,服务器通过万兆业务链路上连至核心交换区,通过网络出口区对外提供公网访问。本次方案分为两个网络平面,分为别业务平面、管理平面业务平面,采用万兆组网方式,由四台服务器通过两台业务接入交换连接形成,再通过业务接入交换机上联至现网出口路由器连接到互联网,用于业务数据的流通。存储网络采用万兆Server-San方式部署。管理平面,采用千兆组网方式,由四台服务器通过两台管理交换机连接形成,用于资源池管理维护。5.7 数据处理和存储系统建设方案XX社会科学文献大数据中119、心的业务应用系统部署在呼和浩特云数据中心的云资源池,采用计算存储一体化的超融合服务器,资源池分布式存储采用三副本方式设计。数据中心为本项目中的每台超融合服务器配置一定数量的硬盘,能够满足本项目业务系统存储空间需求及用户业务增长性的需要。在未来数据量发生增长时,可通过增加服务器及交换机数量,横向扩展存储系统规模,保证用户业务稳定运行。其中XX社会科学相关文献资料包括结构化数据、半结构化数据,非结构化数据。数据保存于Mysql、MogondB、Hbase、Hdfs等介质,并提供对于数据的查询、添加、编辑和删除功能的响应接口。 结构化数据存储结构化数据是指具有固定字段格式和类型定义并可用二维表结构逻120、辑表达的规整数据,其特点是价值密度高,使用频繁。XX社会科学文献大数据采用分布式数据库集群的架构来存储大量的结构化数据,充分满足不同业务的需求。 非结构化数据存储非结构化数据主要指文献原文件、图像、音视频、古籍等资料,其特点是数量巨大,保存时间长,XX社会科学文献大数据建设采用Hadoop分布式文件系统(HDFS)以及HBase等主流文档数据库来保存大量的非结构化及半结构化数据。5.8 终端系统及接口建设XX社会科学文献大数据与其他外部应用系统的数据交互提供访问接口等功能。本项目的建设和国家社科文献库形成互补,通过开放的接口,为国家哲学社会科学文献中心及各省级的社科文献组织、著名学术机构之间预121、留开放的接口,通过接口,可为第三方平台开放部分或者全部的文献,便于其他社科类等系统共享,挖掘分析。系统接口设计包括:用户接口设计、外部接口设计和内部接口设计三个部分。5.8.1 用户接口用户界面处理需要用户直接参与的输入和输出,侧重于被称为人机交互即用户与计算机的交互。采用面向对象语言编写,程序的界面不再是采用常用的页面结构,而是采用windows常用的MDI的窗体结构,用户一般需要通过终端进行操作,进入主界面后点击相应的窗口,分别进入相应的界面,用户输入方便,语法简单。5.8.1.1 用户接口设计用户操作过程设计一般包括以下内容:1、用户对话过程设计(包括功能键定义,菜单条、屏幕按钮等设计)122、;2、APP移动端程序设计(包括功能键定义,菜单条、屏幕按钮等设计);3、操作提示和错误提示信息设计。5.8.1.2 显示画面设计显示画面设计包括:1、屏幕划分,窗口设计;2、 显示参数格式、状态、颜色定义显示信息格式、状态、颜色定义等。5.8.1.3 打印信息接口设计打印信息接口设计包括:1、打印驱动方式(定时、随机、事件驱动等);2、打印页面设计,如表头内容、表格行数、内容等;3、表格打印参数格式,如长度、小数位数等;4、信息打印格式,如信息内容、变量格式等。5.8.2 外部接口外部接口设计包括外部硬件接口和外部软件接口设计,包括:通讯接口、直接硬件接口、支撑软件接口以及与其它软件模块间的123、接口设计。5.8.2.1 外部网络通讯接口设计外部网络通讯接口设计是指系统范围外的网络接口,包括:上层管理网等的接口和协议、信息流向、信息、长度和通讯周期等。XX社会科学文献大数据系统具有兼容性强的特点,运行稳定,数据的传输支持TCP/IP协议,允许批量数据传输。为确保网络中数据安全传输,保证数据的完整性,用户对系统的访问都采用https协议。系统跟外部接口进行数据通信,内容用DES加密,防止数据被非授权者阅读。Web Service接口方式是在Internet上进行分布式计算的基本构造块,用来构造Internet/Intranet应用和其它分布式构件应用。基于Web Service 方式,主124、要是利用Internet技术在分布环境下进行消息交换,这种方式采用Simple Object Access Protocol(SOAP)规范, 能够以一种开放统一的方式进行集成和交互,为分布式计算提供了很好的支持。接口数据以XML Schema格式的文件形式进行交互。封装成XML Schema格式的数据信息在系统之间的传递通过SOAP协议实现。这种方式的好处就是当业务交互的接口内容改变时,传输管理的程序也就是Web Service传输和管理的过程不需要改变,只需要更改XML的解析和封装协议就可以了。接口改变比较灵活。APP客户端接口设计,选择效率高的,以PHP扩展形式提供的YAF(Yet An125、other Framework)框架,采用SON(JavaScript Object Notation) 数据交换格式,APP客户端和服务器通过约定的算法,对传递的参数值进行验证匹配。5.8.2.2 外部串行口通讯接口设计外部串行口通讯接口设计是系统范围外的其它系统采用串行口通讯时的接口关系,包括通讯协议(握手方式、波特率、校验方式等)、信息流向、信息长度和通讯周期等。以及当通讯过于频繁或超时时的措施。5.8.2.3 与各支持软件的接口设计支持软件的接口设计包括:数据库管理服务接口、画面信息库、控制算法、接口设计等。5.8.2.4 外部软件模块通讯接口设计其他子系统通讯时,应定义平台与其它软件126、模块间的接口关系,包括启动、被启动方式、输入和输出信息的介质及其格式。5.8.3 内部接口内部接口设计包括功能模块(任务)间的驱动关系、公用服务模块间的调用关系以及局部网络应用层的通讯协议等的设计。 5.8.3.1 基于Socket方式的接口设计该模式使用客户端连接服务器端的通信模式, 完成整个通信的过程, 实现数据传输模式。5.8.3.2 基于数据库方式的接口设计所谓数据库接口, 主要是通过数据库完成系统间的数据交互过程。一般为了保障双方系统的安全, 经常采用中间库的方式来存放接口数据。在中间库中建立接口表来存放交互信息。两个系统定期对接口表进行轮询, 读取对端系统的提交数据, 并提交本端系127、统的发送数据。接口表的具体格式需要互连的系统协商实现。5.8.3.3 基于消息中间件的接口设计消息中间件一般支持异步/同步传输、多节点广播、消息路由、优先级消息队列、先进先出消息队列等通讯方式。提供断点续传、数据压缩等机制, 适应复杂网络环境, 能够进行数据的缓冲和传输。使用符合国际标准的认证和加密技术保障传输安全。同时需要具有友好的管理界面, 能够实时地进行网络监控和管理。通过对现有系统进行适当的改造, 多种方式通过如数据库方式、API方式或Web Services方式实现系统间的消息的可靠传递。5.9 项目标准规范建设内容为加强XX社会科学文献大数据建设统一标准管理,保证项目建设推进的有效128、性和规范性,依照现行有关法律、法规,制定本标准规范体系。本次标准规范建设是项目系统建设的基本准则,可确保各系统建设的互联互通的技术支撑,贯穿于项目的规划设计、建设管理、运行维护、绩效评估等全过程。XX社会科学文献大数据标准规范体系由信息技术标准规范、业务应用标准规范和管理标准规范三个部分组成,如下图所示。图17项目标准规范体系设计框图5.10 运行维护系统建设方案对平台中各子系统以及各功能模块提供统一的运行监控服务,包括服务的提供状态监控、服务的使用状态监控、系统的运行状态监控等。运维监控系统的设计基于ISO/IEC20000和ITIL v3理论,遵循ITSS、GB/T 28827-2012系129、列运行维护服务国家标准,有效支持运行维护能力相关的人员、流程、技术和资源四要素管理。建立集成化的资源运行状态监控管理系统,实现平台运行状态和信息化资源的统一化、可视化、可控化管理。基于资源的统一化管理,实现监控子系统和故障处理流程子系统的一体化部署,全面支撑信息技术服务管理,实现面向基础资源和面向业务应用两个层面的监控,遵循ITIL实践标准对运维管理流程进行优化再造,全面展示所有服务的运行状况和处理性能。5.10.1 服务运行监控对系统所涉及的所有服务和数据资源进行实时不间断的7x24小时的监控和管理,合理设定资源状态的预警阈值,确保任何资源状态异常的及时通报和展示,通过声光报警、短信、邮件的130、及时通知,确保管理人员及时的发现和处理问题。5.10.2 平台故障处理因数据资源的逐渐积累,涉及的数据量也是非常大,故障信息分析是运维工程师面临的难题,而云计算、虚拟化、人工智能等新技术的广泛采用进一步加剧了运维管理的复杂度。需要对运维流程进行梳理,将技术人员从繁重的运维工作中解脱出来,实现运维作业的标准化、自动化,缩短业务响应时间,提高服务质量。平台的各类故障和告警处理的管理主要针对平台运行期间所有异常事件的统一管理,确保所有异常事件都被处理的管理功能。借助国家标准和ITIL的SLA模型,需要建立一套完备的故障事件、问题、变更和发布等的标准化故障处理流程,规范故障处理的过程,做到故障的及时处131、理、追踪、统计,确保每一个问题和故障都能被及时的处理。提供页面/邮件/短信/声音/光/消息客户端/WebService接口及时通过责任人进行告警处理。系统日常管理工作中有很多是标准化的工作,如巡检、值班等工作。这些工作会占用大量的时间,将人工的操作、管理转变为系统自动化的操作和管理,可以节省时间,将精力投入到更紧急、更重要的工作中。 自动巡检功能平台的监控管理系统自动将需要巡检的设备状态发送到系统中,自动进行设备运行状态和重要指标性能数据的收集汇总形成自动巡检结果,同时巡检过程全程记录,通过巡检工单,能够跟踪巡检的执行情况。 人工巡检功能针对非监控资源的巡检,仍可通过系统内提供的人工巡检功能完132、成巡检结果的记录,为巡检任务执行的计划、监督和结果的电子化管理提供了有效的手段。5.11 主要软硬件选型原则和详细软硬件配置清单5.11.1 软硬件选型原则XX社会科学文献大数据建设,在软硬件选型方面采用如下的原则:统一规划、高可用性、高扩展性、高安全性、高可维护性和合适性价比。统一规划:在明确应用系统在规划期内的规模,对整个应用系统的模块、用户、流程进行分析后确定总体需求,从而定义出其硬件平台对应的架构和配置。高可用性:要求硬件平台具有单点失效保护,能够实现故障预警、报警,具有良好的故障应急处理能力。高扩展性:由于应用系统建设是一个长期持续的过程,日后随着系统规模扩大和数据业务量的增长,当硬133、件平台的处理能力不够时,要求可以在原有架构的基础上实现灵活扩展。高安全性:能够实现良好的信息安全能力,能够应用灵活的安全策略,如对不同用途的服务器进行安全分区以实现不同程度的隔离等。高可维护性:维护便捷简单,尽量减少宕机时间,特别是减少进行故障修复、系统扩展和变更时的宕机时间,能够提供友好、全面的监控工具。合适性价比:在满足需求并符合上述原则的前提下,良好的性价比是关键。各家硬件各有所长,关键是需要关注满足应用系统需求的技术,而不是一味追求先进技术,只要能解决主要问题,满足需求和原则,有合适的价格,就可以着重考虑。5.11.2 硬件配置清单硬件服务器、存储、网络、数据库等设备不需单独购买,整体134、租赁呼和浩特云数据中心机房相关服务器资源,在满足总体设计的情况下,清单如下。数据中心在提供上述服务的同时,需具有可扩展功能,以应对社科文献的爆发式增长。表5.4 总体硬件租赁清单设备类型设备名称数量参考配置云服务器“全科博士”智能接入服务器44核CPU,16GB内存, 500GB硬盘可用“全科博士”智能引擎服务器44核CPU,16GB内存,、500GB硬盘可用数据库服务器44核CPU,16GB内存,4TGB硬盘可用;存储可扩展WEB服务器44核CPU,16GB内存,1TB硬盘可用搜索引擎服务器44核CPU,16GB内存,500GB硬盘可用 搜索索引服务器44核CPU,16GB内存,500GB硬135、盘可用 负载均衡服务器2100M固定带宽安全服务器54核CPU,16GB内存,500GB硬盘可用 对于某一功能的多台服务器,通过集群设置一起分担同样的应用和数据库计算任务。同时,每台服务器还承担一些容错任务,一旦某台服务器出现故障时,系统可以在系统软件的支持下,将这台服务器与系统隔离,并通过各服务器的负载转嫁机制完成新的负载分配。 根据上述配置清单,计算方案设计如下:1、采用虚拟化方案部署。按照当前31台虚拟机需求,共需要116核CPU、464G内存。2、其中一体机物理节点配置为:2*12核,192G内存,共计4台物理节点。3、2*12个物理CPU,按照双线程计算,可以需要2*12*4=48个136、vCPU,减去系统损耗4vCPU左右,共可需要44vCPU资源,四台物理节点共需要176个vCPU。4、四台物理节点共可需要192*4=768G内存。可以满足31台虚拟机需求。5、虚拟化软件采用按照物理CPU数量计算licesne,共需要4*2=8个license。存储方案如下:1、采用分布式存储方案部署。按照当前31台虚拟机需求,共需要30.5T存储容量。2、一体机物理节点配置为:6*4T存储空间,共四台,一共可以提供96T的存储容量。因为分布式存储方案采用三副本方式部署,可用容量为96/3=32T,可以满足31台虚拟机存储需求。3、分布式存储软件采用分布式存储软件,按照总容量计算licen137、se,共需要96Tlicense。根据上述清单及计算,得出硬件租赁服务费用为133万/年,故三年租赁服务费测算为133*3=399万。表5.5 租赁服务费用估算表服务名称规格数量价格/万/年云主机服务 4核16G3126云存储服务/100GB30522云备份服务后端容量/100GB32024云安全服务(防火墙)套210负载均衡套29200M主互联网专线条112200M负载互联网专线条112鄂尔多斯异地容灾备份(含10M长途专线及14T备份空间)套17机架个211合计1335.11.3 软件购置清单XX社会科学文献大数据建设软件定制开发清单详见附件:应用系统定制开发工作量测算表。XX社会科学文献138、大数据建设安全软件采购费用详见下表:表5.6 安全产品采购清单序号产品名称简介参考价格(万元)1Web安全扫描从文献中心安全的根源考虑,对Web安全漏洞扫描。周期性检测应用服务安全性,并提供详尽的报表,使得用户在漏洞或隐患被利用前就及时发现并采取相应的补救措施,防患于未然。352Web安全防护提供应用层攻击防护,可有效应对OWASP TOP 10、恶意扫描、注入攻击、跨站攻击、非法上传/下载等高级威胁进行有效防护。703网页防篡改集中管理控制各个网页防篡改端点,并提供监控、同步、发布功能。104异常流量清洗有效防护洪水攻击,cc攻击,慢速攻击等多种DDoS攻击行为,保障业务的连续性。1005云139、数据库审计采用深度包检测、动态建模、智能风控等核心技术,解决数据库资源面临的“越权使用、权限滥用、权限盗用”等安全威胁,实现数据库系统的风险可视化、日常操作可审计、危险操作可控制、安全事件可追溯。436云堡垒机提供专业的访问控制审计功能。包括集中管理、访问控制、权限控制及操作审计等功能。24合计2825.12 机房及配套工程建设本项目部署在呼和浩特云数据中心机房,无机房及配套工程的建设部分内容。5.13 数据云备份随着文献存储系统的层次化、大容量化,存储的管理就显得尤为重要。一个系统的数据存储系统是必不可少的,但仅有存储又是远远不够,还需要有数据的备份措施作为存储的有效补充。数据备份是数据高可140、用的一道重要防线,其目的不仅是为了在系统数据崩溃时能够快速的恢复数据,还能在一定程度上解决由人为错误造成的数据丢失。为了确保XX社会科学文献大数据能够规范有序的备份数据,必须制定相应的备份策略。数据备份主要工作是将XX社会科学文献的相关数据在其他数据中心实现集中备份。同时对关键的业务数据库采用在线备份的方式。备份系统要具备高性能、高可靠性、先进的管理技术,广泛的操作系统和数据库支持以及高可扩展性,可以定期、定时、定量的对大量的文献数据进行备份。备份具体方案为:采用备份一体机方式部署,将备份一体机部署在远端数据中心机房(鄂尔多斯),通过万兆组网与生产系统相连。采用每月一次全备,每天一次增备的备份141、策略。6 项目招标方案6.1 招标组织形式1. 招标范围本项目的招标范围,包括建筑工程、设备采购、系统集成、工程监理、设计等项内容。其中: l建筑工程指本项目涉及的机房改造。 l设备采购包括本项目所需要的各类网络设备、计算存储设备的租赁,安全设备、系统软件、定制开发软件等的开发等。 l工程监理指本项目涉及的信息系统监理。 l设计包括本项目的前期工作费用及初步设计方案编制。2. 招标组织形式项目招标组织形式拟采用委托招标的组织形式,由具备相应资质的专业招标代理机构进行招标。项目的招标基本情况见下表。表6.1项目招标方案招标内容招标范围招标组织形式招标方式备注全部招标部分招标自行招标委托招标公开招142、标邀请招标建筑工程本期不涉及机房等建筑工程改造设备采购 工程监理 设 计 3. 投标人资格投标人必须具有独立法人资格;具有相应的资质和业绩;项目主要管理人员具有项目管理资格、经验及能力。4. 招标流程通过正式的招投标程序,分别进行资格预审-投标邀请-招标文件-现场踏勘-标前预备会-正式开标-综合评标等,确定中标单位。5. 招标备案招标文件发售之日5日前,报主管部门备案,确定中标人之日其15日内即向主管部门提交招标情况的书面报告,接受行政主管监督部门对招投标活动的监督,确定中标人后,中标通知书与签订合同报主管部门备案。6.2 投标、开标、评标和中标程序根据建设规模和建设要求,在招投标过程中必须遵143、守如下程序:1、 项目经上级部门批复同意后,项目承办单位在指定的媒体上发布招标公告。2、 在招标文件开始发出之日起30日内,具有承担投标项目能力的法人或者其它组织都可以投标。投标人少于3个时,应当重新进行招标。投标文件应当对招标文件提出的实质性要求和条件做出响应。3、 开标时委托招标单位主持,邀请所有投标人参加,由招标人委托公正机构检查并公证。投标人的投标要求应当符合下列条件之一:能够最大限度的满足招标文件中规定的各项综合评价标准;能够满足招标文件的实质性要求,并且经评审的价格合理。4、 评标按照中华人民共和国招投标管理法的规定和程序进行。5、 中标人确定后,招标人向中标人发出中标通知书,该通144、知书具有法律效力,若中标人放弃中标项目,应当承担法律责任。自中标通知书发出30日之内,按照招标文件,项目承办单位和中标人签订书面合同。6.3 评标委员会的人员组成和资质要求项目全部采用公开招标的方式,因此,在招投标过程中,为保证项目的公开,对评标委员会的组成和资质有如下要求:1. 评标委员会人员组成评标委员会有项目承办单位的代表和有关技术、经济等方面的专家组成。根据本方案在项目开标当天从专家库中随机抽取,评标委员会主任由资深的专家担任,评标委员会采用单数制,单最低不少于5人,并且技术、社科文献等方面的专家不得少于成员总数的三分之二;评标委员会要严格按照招标文件确定的评标标准和方法,对投标文件进145、行评审和比较。投标采用打分制,以得分高者中标。2. 评标委员会成员的资格要求评委会成员职称要求在副高(副教授)级以上,从事本专业至少在8年以上,对工程项目有较深入的研究,并且职业道德良好,与投标单位无任何厉害关系。评标委员会成员应当客观公正的履行职务,遵守职业道德,对所提出的评审意见承担个人责任。7 环保、消防、职业安全卫生和节能措施的设计7.1 环境影响和环保措施本项目属于信息化工程,属于无污染建设项目;系统建设及运行过程中不会产生任何有害废气、废水、废渣等物质;设备电磁辐射值在国家规范允许范围,不会对环境造成污染。1.废气本项目在系统建设及运行过程中没有有害气体排放。2.废水本项目无生产废146、水排放,所排放废水均为生活污水,其中不含任何有毒、有害物质。3.噪音本项目在系统建设及运行过程中无强噪声源,所用设备均采用低噪声空调,以降低噪声。4.电磁辐射本项目采用的设备电磁辐射值在国家规范允许范围,不会对环境造成污染。本项目影响环境的因素主要有:噪音、电磁辐射、计算机及服务器放出的有害气体、温度升高。针对上述影响环境的因素,必须考虑使用符合国家环保要求的设备和技术,保护系统使用人员的身体健康。计算机、网络及相关硬件设备要满足TCO99和FCC-B低电磁辐射标准认证,设备外壳采用绿色阻燃可回收环保材料。7.2 消防措施本项目遵循以下有关的消防设计规范进行,以保证设备与设施的消防安全,避免财147、产受到不必要的损失。消防设计规范包括:安全防范工程技术规范GB50348-2004火灾自动报警系统设计规范GB5011698自动喷水灭火系统设计规范GB50084-2001建筑灭火器配置设计规范GBJ14090 7.3 职业安全和卫生措施为系统建成投入使用安全起见,项目实施组根据国家和有关部门规范和标准,采取了必要的安全卫生措施。主要包括:在机房内注重各类设备有充足的安装空间、使用空间和维修空间;设备的布置注重有利于操作、管理、维护,符合安全要求;机房内的温度、湿度、通风、洁净度等环境因素以及供电、照明等均满足设备运行要求;同时为给系统操作人员创造一个健康、安全卫生的工作环境,机房保持良好的通148、风、采光、色彩等空间环境。电气线路均采用铜芯电缆并穿管保护、同时设有可靠的接地、接零以及自动开关保护。为防止雷击酿成火灾,用电设备的金属外壳、配电箱、金属电缆桥架、金属构件、保护钢管、金属接线盒等与配电系统的保护线(PE线)可靠连接。8 节能分析8.1 用能标准及节能设计规范(1)中华人民共和国节约能源法 (2)中华人民共和国可再生能源法。 (3)中华人民共和国电力法。 (4)中华人民共和国建筑法。 (5)中华人民共和国清洁生产促进法。 (6)清洁生产审核暂行办法(国家发展改革委、国家环保总局令第16号)。 (7)重点用能单位节能管理办法(原国家经贸委令第7号)(8)能源中长期发展规划纲要(2149、0042020年)(国务院常务会议2010年6月30通过) (9)国务院关于发布促进产业结构调整暂行规定的通知(国发200540号)。 (10)产业结构调整指导目录(2005年本) (国家发改委令 第40号)。 (11)国家鼓励发展的资源节约综合利用和环境保护技术(国家发改委2005第65号)。 (12)国务院关于加强节能工作的决定国发(2006)28号8.2 项目所在地能源分析本项目部署在呼和浩特云数据中心机房,云数据中心的电源系统和空调系统将是能耗的主要组成部分。 8.2.1 电源系统(1)外市电引电设施呼和浩特云数据中心外市电按照一类市电供电标准进行规划、建设。一类市电供电为从两个可靠的150、独立电源各自引入一路供电线。两路供电线配置备用市电电源自动投入装置。同时根据基地的建筑规模、负荷需求情况采取统一规划,分区分期的建设方式。自建的 110kV 变电站从两个不同 220kV 变电站引入电源,确保外市电引入达到一类市电供电标准,且各个单体建筑配置的每套高压配电系统均采用双回路供电,保证高可靠性供电。防雷系统:合理设置IDC机房地网和接地系统达到站内均压,减小设备间电位差;通过设置电源系统过压保护设施对雷电过压逐级限压。SPD防雷浪涌保护器在接地、连接等方面均需要满足国家标准。接地电阻不大于1欧姆。(2)交流供电每套高低压变配电系统由两路10kV高压市电电源、两路10KV油机电源、高151、压配电设备、变压器、低压配电设备组成,供机房内的通信及工艺用电负荷。市电正常情况下,由市电供电。两路市电高压侧设母联开关,当其中一路市电故障或检修停电时,由另一路市电负担全部负荷。当两路市电均停电时,则由柴油发电机组保证通信及其他需保证负荷的供电。在柴油发电机组尚未启动之前,由蓄电池放电保证通信负荷的供电。变压器及低压配电设备设置在通信机房各楼层的电力室内,变压器及低压配电设备深入负荷中心,为通信电源设备和其它各类工艺设备进行供配电。高压操作电源设备配置:高压开关的合、分闸及控制回路操作电源按DC220V设计。无功功率补偿方式:采用低压集中补偿方式,补偿后的功率因数要求不低于0.9。备用电源(152、柴油发电机组):备用电源设备的配置10kV大容量通信专用自动化柴油发电机组,采用并联运行方式,油机电源与10kV市电电源在高压配电设备进线端进行切换,通信机房配置的每套油机系统均按照N+1原则配置。油机储油采用日用燃油箱和地下油库相结合的方式。总储油量按照满足主用油机满载运行不低于8小时储备,同时和供油商签订供油协议,满足不低于24小时用油要求。备用电源配置27台(5套)2000KW的10kV柴油发电机组,并配置5套机组配电设备。(3)UPS通信设备主要采用交流电源设备供电,数据中心主要配置UPS电源设备对通信设备供电。UPS供电系统采用高频UPS电源设备组成双母线和三母线M(N+1)系统配置153、,三母线系统由三套完全独立的2+1并联冗余UPS系统组成。每套UPS系统电池后备时间按照0.5小时考虑。(4)直流供电系统数据中心通信机房楼配置直流供电系统供传输等需要直流用电设备使用。直流供电基础电压为-48V。每个直流供电系统均由交流配电、直流配电、高频开关电源、蓄电池组等组成。每个直流供电系统可接二组或多组蓄电池。系统采用微处理机控制,自动实现对电池的均、浮充转换,对系统能实现远端遥信、遥测、遥控等功能。(5)高压直流供电系统预留高压直流系统供电的机房和相应的电力室,输入端使用双路电源引入,电池后备时间按照0.5小时考虑。供电可靠性有所提高、工作效率提高、系统可维护性增强、模块化扩容更加154、便捷。8.2.2 空调系统保证通信设备正常工作所需要的环境温、湿度,在数据机房及配套通信、电力机房设置的工艺性空调系统,全年供冷。数据机房采用节能型好的水冷集中式空调系统,对水敏感性安全要求高的电力机房等采用分散式空调系统,充分利用机房废热,降低空调能耗,其他非机房使用舒适性空调,采用水环热泵VRV空调系统。(1)空调冷源:冷水主机采用变频离心式冷水机组,以提高空调系统部分负荷时的能效。各单体建筑单独设置冷冻站及空调蓄冷设施。集中空调冷冻水由冷冻站提供,冷冻水供水/回水温度7/12。(2)空调系统:机房空调采用下送风冷冻水型机房专用集中空调系统,每个机房按N+1冗余配置。平时由离心式冷水机组供155、冷;冬季室外温度低时,停止冷水机组运行,由冷却塔供冷。l 水冷式中央空调系统1)冷源采用大制冷量、高能效比的离心式冷水主机,COP高达6.0,其规模节能效应十分显著。2)配有相应的冷冻水泵、冷却水泵、补水泵、冷却塔、水处理设备等,其中冷却塔放置在屋面,其他设备放置在一楼的冷冻站内3)空调冷冻水系统采用一次泵变流量机械循环式系统,在部分负荷时达到节能目的。由屋面的高位膨胀水箱进行系统定压。4)冷冻水和冷却水的主干管按2N结构,在每层空调机房采用环网方式,避免单点故障。5)冷水主机、空调水泵等均采用变频技术,可以将设计安装的富裕量进行有效调节,改善运行工况,提高空调工作效率,达到节能目的。恒温恒湿156、要求的通信机房室内空调设计温湿度:夏季:室内空调设计温度 23-26,相对湿度 40-70%;冬季:室内空调设计温度 18-26,相对湿度 40-70%。其它机房的空调设计温度:26。l 自由冷却系统利用呼和浩特的自然气候条件,采用自由冷却(冷却塔冬季供冷)节能技术,可在冬季及过渡季不开或少开冷水主机的情况下进行供冷,年节电达到30以上。配有相应的板换、冷却塔、一次水侧循环泵、二次水侧循环泵及相应的切换控制系统自由冷却系统与制冷系统并联,便于控制、维修、切换,功能划分清晰l 空调末端空调末端选用冷冻水型下送风机房专用空调机,按N1台设置。空调机内部采用节能的EC风机,该风机具有效率高、无级调速157、节能等优点。空调机放置在独立的空调机房内,空调机房采用良好的防水措施。采用空调群控系统,可自动控制空调温、湿度数据的设置值,自动优化空调工作性能和状态,控制空调群的组合使用效率,减少空调不合理的耗电量,达到节能目的。8.3 节能措施能够自动形成能源计划,对能源设备运转状况进行实时监控,对能源消耗进行实时采集,从而实现对能源使用可控并达到节能的效果。自动形成能源计划,信息系统能够根据单位自身情况自动制定出水、电、燃气、气等能源的计划,实现基础信息自动采集,自动更新,能源计划的自动变更等,并能对能源事故应急处置。能源设备运转状况实时监控,针对单位内的所有涉及水、电、燃气、气的设备,都配备有信息化158、监控,包括设备基础数据信息,设备运行状态实时信息,设备故障判断等,能实现在线根据预案对设备进行处置。能源消耗实时采集,系统能够实时采集到单位内能源消耗情况,如:每分钟消耗情况,增长关系,当前消耗情况下储备能源可维持的时间等。能源在线实时监控管理:是指系统对能源储备、实时消耗等数据的采集,实现自动上传,系统能根据实时情况做出判断和调整。出现非正常消耗时能够预警提醒,并可根据预案进行初步的在线处置等。9 项目组织机构及人员培训9.1 领导和管理机构为保证项目建设的顺利进行,XXX社会和科学界联合会成立项目领导小组和项目办公室。领导小组由社科院主管领导及部门负责人组成,负责宏观管理,协调地方各部门关159、系,合理调动施工力量及投入资金,确保项目按时完成和工程质量。领导小组下设办公室,办公室设于社科联,负责对XX社科文献大数据建设的领导、协调、指导、检查和督促等工作,领导小组及办公室成员名单如下。组 长:杭栓柱副组长:胡益华朱晓俊乌 兰 张忠良成 员:杨 亮 朱 浪 张贵有 李爱仙 田 伟赵 杰9.2 项目实施机构本项目的主要内容是保证本项目的顺利实施,与此相关的工作有各个应用软件系统的需求分析、客户化开发、系统实施、用户培训、售后技术支持服务等工作,项目范围较大、内容较多,因此本项目工程的工作量相对较大。根据本项目各部分工作内容性质,具体分为四个部分:规划小组、实施小组、质量控制小组以及服务小160、组,各小组安排相应的组长来管理和领导,并对项目经理负责。在项目验收后,将设立针对本项目的服务小组,负责本系统建成后的维护和与专业公司人员联系,及时解决系统问题。本项目组织结构如下图所示:图18组织机构及功能图项目组各机构的任务分工与职责如下表所示:表9.1 组织机构及职责表机构与功能任务与职责项目领导小组管理项目组各个机构,制定项目目标和计划,监督项目进度,协调各种资源,处理和决策重大事件和问题,保证项目的顺利实施规 划 组总体规划负责系统总体结构和基本框架的规划设计、制定项目规范数据库规划负责数据库的规划设计应用软件规划负责应用软件系统的规划设计,其中也可以根据情况按各个分系统分为不同的小组161、进行规划设计业务系统规划负责在业务调研和分析的基础上,根据各个业务系统及相关系统的需求,设计标准规范的信息结构体系、业务流程及统一标准的数据接口等系统安全规则负责系统安全的规划设计,制定安全策略和安全方案维护组负责系统的维护工作实 施 组应用开发、资源服务按照软件工程规范开发应用软件系统,安装调试应用软件,编写开发文档,并负责系统的数据移植。测试制定测试计划、进行测试,完成测试报告质 量 控 制 组审查依照项目规范,对系统设计,开发,工程等各个阶段任务进行全面评审验收负责组织进行项目的初验和终验,包括系统设备、应用软件和项目文档,编写验收报告质量管理制定质量保证计划,在项目组各个机构落实质量保162、证措施,并负责项目文档的管理与维护服 务 组培训编写用户手册和操作手册,对用户进行技术培训外部协调由业务处室同志负责对各相关单位的联系、沟通、协调,保证数据文献大数据建设的顺利开发、运行、推广技术支持负责用户和开发者之间的技术交流,进行技术咨询资源调度由业务处室同志负责对数字资源的调度9.3 运行维护机构由专业公司负责中心整体运行维护技术工作,XXX社会科学界联合会社会科学文献信息中心负责协调管理。运维公司需按照ISO9001质量保证体系,建立了完善的技术支持和售后服务体系,向用户提供优质的规范化和标准化服务,并根据具体内容,定制服务计划。 9.3.1 基本要求9.3.1.1 日常运维服务针对163、社科联及其各级下属机构的不定时工作日制度,运维机构需为客户提供系统级的日常维护、定期巡检、性能测试、故障排查等服务。具体内容包括:1、工作日服务主要指现场值守服务,维护团队需要指派1-3名资深服务技术服务工程师长期值守在社科联现场,负责对整个系统的运行状态进行监视、管理和维护以及工作终端的管理和维护,通过对系统运行日志的分析提前发现并排除可能发生的潜在故障,并在全部维护服务团队支持下,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。2、故障响应服务除了现场值守服务方式外,同时,提供724小时故障响应服务具体包括: 维护期内提供电话、传真、电子邮件等方164、式的咨询和支持服务。 主要系统设备出现故障时,15分钟内响应,当现场维护工程师或节假日值班维护工程师无法排除故障时, 1小时内派专业工程师赶赴现场进行故障诊断及处理,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。 一般故障,正常工作日内响应。9.3.1.2 其他时间及夜间服务当系统在非工作日出现异常时,维护团队现场人员将在1小时内赶赴现场并排除系统普通故障,特大故障将在24小时内处理完毕。具体联系方式包括:通过维护团队提供的724小时响应服务热线;现场维护人员通过移动通信网络(当运维管理系统具备短信故障报警通知功能时)接收到系统报警信息;或维护人员165、接到服务请求电话时。9.3.1.3 临时保障服务当遇到重大活动需要提供临时保障服务时,维护团队须在需要保障服务的前三天进驻现场,并对所有设备进行临时性安全检查,排除安全隐患,以做到万无一失。9.3.1.4 月度检查每月对各系统及设备进行检查,进行安全系统、防病毒系统检查,并对检查中存在的故障及安全隐患进行处理。每月第一周向用户单位提交上月的月度巡检报告,报请用户单位审批签署。9.3.1.5 季度检查每季度对由维护团队的专业维护队伍对所有设备进行安全评估和风险分析,提交完整的安全状况评估报告,分析存在的安全漏洞情况,提出整改方案和建议。9.3.1.6 年度检查每年由维护团队组织相关的专家对整个系166、统进行安全检查,对每个硬件设备使用状态进行风险评估,并对下一年可能存在的问题进行风险预测,对每个设备的状态出具使用报告。9.3.2 服务队伍要求要求维护团队拥有强大的技术支持力量,拥有稳定的专业化的技术支持服务队伍,完善的技术支持服务体系。现场服务人员负责网络的监控、简单故障的解决,接听技术热线。技术专家负责重大故障的处理,定期对运行情况进行分析,并提出整改或优化方案和建议。9.3.3 服务响应要求9.3.3.1 日常服务响应时间由于针对本项目采用的驻留现场服务方式,维护团队需指派驻1-3名资深工程师采取同步的作息时间,因此,现场服务的响应时间为及时响应。9.3.3.2 事故分级响应服务时间各167、级故障事件的最晚响应时间为:确认时间一级故障事件二级故障事件三级故障事件四级故障事件1小时技术服务人员4小时专业工程师技术服务人员24小时技术支持专家专业工程师技术服务人员48小时服务项目经理服务项目经理专业工程师技术服务人员故障事件等级划分如下: 一级故障事件:现有的网络或系统停机,或遭到严重攻击行为或安全事件,对信息系统的业务运作有重大影响; 二级故障事件:现有网络或系统的操作性能严重降级,或由于网络性能失常或安全事件严重影响信息系统用户业务运作; 三级故障事件:网络或系统的操作性能受损,安全事件(例如病毒在小范围内发作),但大部分业务运作仍可正常工作; 四级故障事件:在网络、服务器、存储168、安全设备功能、安装或配置方面需要调整或优化。本级故障事件对信息系统的业务运作几乎无影响,或影响很小。依据事故重要性和紧急性的原则,每一级事故严格定义升级时间为2小时,其中在二级事故和一级事故应急处理过程中,要及时考虑替代恢复方案,尽可能在最短的时间内恢复业务系统。其中三级事故的处理,驻场服务人员在事故响应1个小时内,如果不能快速判断问题所在,可以寻求整个服务团队的支持。在一、二级事故判断中,服务人员在监控中发现问题,一方面应迅速将问题向部门领导进行反应,一方面须快速判断问题和收集事故信息,涉及到具体产品提供商或服务商内,及时告知客户协调相关厂商现场支持。为保障业务平台的正常运行,除对突发故障169、的应急支持外,要充分保障日常对业务系统软硬件的应急灾备恢复预案,并通过定期的演练加强应对突发事故的意识和流程。9.3.4 服务报告要求维护团队定期提供服务报告,服务期结束前应提供服务年报,并对每一次重大故障和问题的原因、解决方法、完成情况等形成专门报告,及时报送用户部门和服务管理部门。在运维服务过程中将产生不限于以下的记录和报告: 日常维护报告 系统巡检日志 系统维护记录 系统优化记录 各类优化的管理制度 故障分析处理记录 故障整改方案和建议 交接班登记表 重大故障记录报告9.3.5 运维保障资源库建设要求在运维工作开展前期,把有助于用户运维的相关资料进行收集整理,以确保在实际运维过程中不会由170、于缺少沟通或者遗漏部分环节导致的问题处理延迟,具体保障资源如下: 机房设备相关资料收集:整理各设备相关管理人员联系方式、设备物理位置等,书面文档与电子文档相结合,以确保出现设备故障或需要远程支持时能在第一时间联系到具体负责人,及早完成设备故障处理工作。 设备操作文档收集:整理设备有关的操作文档,并整理成册,书面文档与电子文档相结合,辅助工程师处理相关问题。 设备配置库整理汇总:整理所有设备原始配置资料,整理入库,且在修改设备配置后及时对录入的数据进行更新,以确保设备配置的准确性及安全性。 运维知识库的建立和维护:收集维护过程中出现的各类资料,进行分类整理入库,为维护工作提供知识库。9.3.6 171、项目管理要求维护团队应派遣一名具有专业知识的资深管理人员负责本项目的运维管理,统筹相关工作,运维监督与情况汇报,控制工作质量和预算,执行变更和应急情况管理,并根据实际状况调整运维人员安排,以保证此项目的正常高效运作。9.3.7 质量管理要求维护团队应根据本项目要求提出服务质量管理及监控具体措施,并对所提供的服务质量和标准做出明确可量化的承诺。9.4 项目组织管理任何一个项目的成功建设,项目组织机构的保障是至关重要的,本项目也不例外。针对存在的协调联系多、管理层次结构复杂、工作人员数目较大等现状,考虑在项目启动时,首先成立相应的项目领导、管理和技术等方面的项目组织,明确各工作小组的负责人和具体联172、系人员,以保证充分沟通、有效协调、综合管理和项目的持续运行。9.5 技术力量和人员配置从现有的技术人员和管理人员中抽取合适的人选构成本项目管理团队,并将通过对整个工程开发实施的具体要求及相关人员的安排,能使参与工程开发实施的专业公司人员理解该项目的目标,明确各自的责任,从而降低计划延期和预算超支的风险。9.6 人员培训方案无论是对各级领导还是对参与系统建设的技术人员以及系统实施后的使用维护人员都是极其重要的,对于普通操作用户来说就更加重要了。为保证本系统能够顺利进行,确保XX社科联综合业务管理平台建设得以顺利实施、正常运行和使用,建议考虑分阶段让社科联各处室的人员参加不同的培训课程,培训形式可173、分为现场操作培训、年度培训两种。9.6.1 现场培训现场培训包括两个方面:1、系统管理员培训主要针对系统管理员和XXX社会科学界联合会社会科学文献信息中心有关技术人员,内容为XX社科文献大数据建设所涉及的系统安装配置,有关硬件的配置驱动,系统各模块的安装、设置和管理方法以及典型维护案例的分析处理。目的是使系统员能达到独立维护系统,解决一般技术问题的水平。系统员的培训穿插于系统上点过程中,同时在系统全部安装调试完成后集中对系统员进行系统全面的培训。此外,在系统工程完成一年内安排系统员集中脱产培训一次,以进一步提高档案管理系统的应用和维护水平,互相交流经验。2、操作员培训主要针对业务操作员,内容包174、括硬件操作及简单维护,培训操作员和办公人员对XX社科文献大数据系统的操作。其中操作员的培训在完成系统软件的安装和调试之后进行。 9.6.2 年度培训要求专业公司根据XX社科文献大数据对系统的使用情况,举办培训班,针对用户使用XX社科文献大数据系统一段时间内所遇到的问题进行培训。同时需要专业公司听取社科联办公人员对本系统的意见和建议。培训中专业公司要提供方案分析、经验交流等有关材料。10 项目实施进度10.1 项目建设期在项目实施过程中,对时间计划、进度安排、资源调配、设备采购和安装、测试、验收等多项工作均需要进行仔细、合理的计划和严格管理,保证项目在符合监管机构的要求下,达到XX社会科学文献大175、数据的建设目标并依照业内最佳实践顺利完成实施。本项目建设期三年,包括可研及立项阶段、设计阶段、采购阶段、开发建设阶段、试运行及验收阶段、推广及终验阶段等。10.2 实施进度安排第一阶段:可研及立项阶段(2017年3月12月),基于对XX社会科学界联合会及各社科组织调研的基础上,编制项目可行性研究报告,落实项目建设资金并按相关程序进行项目申报。第二阶段:设计阶段(2018年1月2月),基于前期调研及可行性研究报告的基础上,编制实施方案。第三阶段:采购阶段(2018年35月),通过公开招投标程序选定项目承建单位。第四阶段:开发建设阶段(2018年5月11月),完成XX社会科学文献大数据建设项目的开176、发、集成部署,配合一期数据资源入库等建设工作。第五阶段:初验及试运行阶段(2018年12月2019年2月),启动软件系统上线试运行及项目初步验收工作,试运行期间对系统进行调试、完善。 第六阶段:推广及终验阶段(2019年2月2020年2月),对全省社科组织推广平台,到2020年2月完成本项目的终验。 11 项目投资估算11.1 投资估算的有关说明项目投资估算编制的有关说明如下:1、投资估算编制根据有关电子政务建设项目投资估算编制办法及国家有关政策法规与规定办法。2、项目投资估算书的内容依据发改委55号令,包括建筑工程费、硬件设备购置费、软件购置费、系统集成费、其它工程和费用及项目预备费六大类。177、3、硬件设备购置在同等性能基础上优先采购国产设备,设备采购地点在国内,设备价格参照厂商报价和政府采购实际成交价综合计算,硬件的询价已考虑了运杂费、备品、备件费,不另单列。如有国外设备则价格按人民币计算,包括设备到岸价及其它一切税费。4、软件购置费参考XX软件开发项目实际造价测算标准。5、系统集成费按照软/硬件采购费用的5%估算。6、其他工程和费用主要包括有咨询费、设计费、工程监理费等。11.2 项目投资估算书表11.1投资概预算表序号费用名称投资估算金额(万元)说明*总计:1,989.10(一)建筑工程费无0.00本次项目建设租赁标准机房,不涉及相关费用小计:0.00(二)硬件购置费0.00小178、计:0.00(三)软件购置费软件定制开发费1社科文献大数据门户子系统140.562社会科学文献数据资源库263.803统一检索子系统42.244全科博士子系统332.80商业软件购置费5服务运行监控14.606应用安全282.00包括Web安全扫描、WAF、网页防篡改、异常流量清洗、数据库审计、堡垒机等功能小计:1076.00(四)数字资源加工费用320.00XXX哲学社会科学优秀成果奖相关文献,本期加工达到100万页内容小计:320.00(五)其它工程和费用1项目管理费34.90包括建设单位管理费、工程质量监督费、招标代理费、差旅费、印刷费、应用推广费等。按(一)(二)(三)+(四)2.5进179、行计算2设计费32.28可研及初步设计费:(一)(二)(三) 33测试费27.92测试费用分为系统测试费和安全测试费,按(一)(二)(三)+(四)2进行计算4XXX社科文献加工及存储标准制定费用30.00对标准要素的分析、标准的研究及标准的制定5工程监理费30.00施工监理服务收费基价表 6云租赁费399.00小计:554.10(六)预备费39.00按(一)(二)(三)+(四)+(五)2进行计算小计:1,989.1011.3 资金筹措及资金使用计划本次项目建设资金由XXX发改委基本建设资金提供支持。11.4 项目运行维护经费估算根据方案中运行维护方案的设计,建议每年的运维费用为总体建设费用的1180、0%。12 效益分析XX社会科学文献大数据建设满足构建中国特色哲学社会科学的国家要求,是支撑新时代下社会科学工作的利器,能为社会科学发展迎接新挑战、实现新突破提供平台和载体。对于实现习总书记提出的中国特色哲学社会科学体系建设有着重要的意义!12.1 经济效益分析XX社会科学文献大数据中心将构建方便快捷、资源共享的哲学社会科学研究信息化平台,集成社科各学科最新研究成果,深度发掘收集XX社会科学史料典籍、历年成果,使之重新激发学术价值。XX社会科学文献大数据建设本着从社科文献管理与应用工作实际需求出发的原则,可在文献收集、存储、检索、传播、研究等多个环节借助大数据与互联网技术辅助大幅提升工作效率,181、从而创造经济价值。(1)成果保存、保护效益。通过平台的建设,最终实现145万余万篇社科文献如草原文化、少数民族经济、民族区域自制政策研究、蒙古学、地方学等冷门、绝学的资料汇集与保存、传播,8万余本特色古籍、24万期刊文献、四百余万学术论文及15万余份音像制品的保存,具有显著的成果保存效益。(2)社科研究支持。通过项目的建设,能够满足国内外研究人员对XX社会科学成果的查询、检索、比较、分析和智能化应用;实现少数民族典籍资料的在线查询;满足比较分析研究需要;与国家级、其他省区社科成果库的横向共享;与各盟市、旗县社科信息库的纵向连接;运用人工智能技术实现人机对话、互动交流、个性化服务、科研辅助、深度182、科研开发等功能。(3)古籍、非遗保护性开发效益。通过项目的建设,实现对XX散落于科研机构、图书馆藏单位、民间的8万余册珍贵社会科学古籍、少数民族典籍进行抢救性保存,使之焕发新的活力和价值;对非遗成果进行保护性开发、抢救性保存,以音像资料等方式保存。(4)推出社科名家,推动地方学发展。针对400余名二级教授以上社科名家;千余名研究员级名家;5万余名社科普及专家开发建设“社科名家库”,将汇集XX当代社科名家成果,极大的推动XX社会科学的发展。12.2 社会效益分析1、有利于促进社会科学繁荣发展XX社会科学文献大数据建设项目是在国家社科工作顶层设计框架下XX社会科学文献综合管理和应用推广的体系建设,183、是贯彻响应党中央关于进一步繁荣发展哲学社会科学决定的重要举措。是一项关系全面建设小康社会,开创中国特色社会主义事业新局面,促进中华民族伟大复兴的重要支撑。2、有利于保护社科成果扩大利用率社科成果的保护和再利用一直是社科管理界的难题,目前自治区社科资料与成果管理与应用缺乏统一规划,造成了离散分布、总量不清、无法便捷应用等问题。XX社会科学文献大数据可以运用数字化技术对于社科成果进行永久保存、分类管理、利用渠道开拓和利用模式创新。3、有利于创新管理模式科学辅助决策XX社会科学文献大数据建设使用形成的社科文献检索、下载、研究记录,可以让社科界管理人员从数据中掌控学界热点动态,从数据中发现学界发展规律184、,从数据中知晓公众社科需求,这些信息可有效的支撑社科学界管理方向制定、政策调整和辅助决策形成13 项目风险与风险管理13.1 项目风险XX社会科学文献大数据建设风险,包括项目风险、技术风险和管理风险。1、项目风险在项目实施方案的编写时进行了反复论证,做到对各个子项目建设方案的细化。通过聘请国内业界权威进行本次项目建设方案的论证。同时,参加项目建设的各单位都在不断的完善自己的建设方案,确保设计方案的准确与全面。2、技术风险本次项目建设涉及文献资源库建设、互联网文献服务应用、人工智能社科研究辅助和社科行为大数据分析等核心技术,需要在建设方案编制、承建单位选择和项目实施质量控制等环节注重技术风险控制185、,确保项目建设达到预期目标。3、管理风险由于本次项目涉及社科文献资源相关的配合单位众多,所以在项目建设过程中存在组织管理的风险。项目建设单位为此专门成立了项目建设组,由相关主管领导统一指挥,同时制定了一系列的管理制度,包括项目管理制度、技术管理制度和安全管理制度等等,确保了项目建设整体有序的进行。13.2 风险对策本次项目建设的风险对策包括:1、思想上必须高度重视。XX社会科学文献大数据建设,是社科研究与服务的创新和变革,是一项自上而下的社科大数据重点工程。加快推进XX社会科学文献大数据建设,必须牢固树立如下意识:XX社会科学文献大数据建设是创新社科研究与服务工作的时代要求。加快XX社会科学文186、献大数据建设,既是社科工作顺应时代要求的现实选择,也是我们党与时俱进的具体体现;既是创新社科文献管理工作的重要手段,更是提高社科研究工作效率的有效载体。2、推进上必须统筹规划。XX社会科学文献大数据建设,是XX大数据产业发展的重要组成部分,也是社会科学研究工作的先导性、基础性工程,必须强化顶层设计和统筹规划,坚决防止和杜绝各自为阵、重复建设、分散建设。要建立全区统一领导、统一规划、统一建设和分级管理、分级维护的建设管理工作机制,促进社科文献管理与应用的协调发展,充分发挥其巨大的社会效益和经济效益。3、加快推进北疆特色资源库建设。XX社会科学文献大数据建设,文献资源库建设是核心,门户建设是载体,187、功能建设是关键,服务提供是根本。要在全国社科文献管理与应用的建设格局中,紧抓XX社科工作特点与区域特色,形成具有北疆特色的社会科学文献资源库。4、加强社科文献大数据人才培养。加强XX社会科学文献大数据管理与应用,技术是工具,关键在于“人”的组织、创新与推广。一是建立完善社科文献大数据人才培训机制,不断提高XX社会科学工作大数据意识和应用水平。二是建立完善的大数据人才管理办法。培养一批“既熟悉社科工作、又熟悉大数据技术”的专业人才。 附表应用软件定制开发工作量测算表序号系统功能模块类别高级工程师软件工程师测试工程师系统联调工程师模块小计(万元)模块合计(万元)单价(万元/天)0.080.070.188、050.051社科文献大数据门户子系统前台门户网站整体设计工作量估算3020003.8140.56前台登录工作量估算5151082.35分类导航工作量估算105018206.2服务中心工作量估算106018206.9特色资源推荐工作量估算106018106.4网站公告工作量估算106018206.9友情链接工作量估算04016104.1后台信息发布及管理栏目及发布管理工作量估算106018206.9用户管理工作量估算108018208.3日志管理工作量估算108018208.3统计分析工作量估算108018208.3系统管理工作量估算106018206.9统一认证访问工作量估算10160202189、014大数据挖掘分析智能推送工作量估算205028157.25用户聚类分析工作量估算205528157.6主题服务工作量估算204828157.11专家关联分析工作量估算203028155.85学科创新分析工作量估算205028157.25机构画像工作量估算204028156.55意识形态风险掌控工作量估算304028609.62社会科学文献数据资源库元数据仓库元数据仓储管理工作量估算301001009018.9263.8元数据收割与在线更新工作量估算30801009017.5自动分类标引工作量估算301801009024.5元数据质量检查工作量估算301801009024.5资源库文档存储及190、管理工作量估算302201009027.3文献知识输出工作量估算201001006016.6主动检索词识别工作量估算301801001620.8知识聚类与筛选工作量估算301801009024.5知识库导航工作量估算201201006018深层次知识分析工作量估算301901009025.2多源资源定位工作量估算301901009025.2资源权限管理工作量估算301801001620.83统一检索子系统分布式并行计算工作量估算64010164.5842.24 自动化维护与管理工作量估算64510164.93数据高效检索工作量估算65510165.63高扩展性与大用户量大并发量检索访问支持工作191、量估算65210165.42智能化检索服务工作量估算64810165.14数据高效处理工作量估算65010165.28中文分词技术工作量估算66010165.98搜索结果多样化展现工作量估算65010165.284“全科博士”子系统前端交互平台交互界面工作量估算20110403012.8332.80 智能问答工作量估算20110403012.8聊天内容识别工作量估算20110403012.8上下文语义分析工作量估算20110403012.8个性化推荐服务工作量估算20110403012.8繁体字和拼音纠错识别工作量估算20110403012.8模糊问题引导工作量估算20110403012.8相192、关问题推荐工作量估算20110403012.8不同维度知识分布加载工作量估算20110403012.8敏感词汇识别工作量估算20110403012.8人工智能服务引擎平台文本处理工作量估算20110403012.8句法分析工作量估算20110403012.8语义分析工作量估算20110403012.8对话管理工作量估算20110403012.8句子匹配工作量估算20110403012.8答案谊染工作量估算20110403012.8知识管理工作量估算20110403012.8行为记录工作量估算20110403012.8管理后台目录树管理工作量估算20110403012.8全科博士大脑知识管理工作量估算20110403012.8知识本体管理工作量估算20110403012.8知识版本管理工作量估算20110403012.8维度管理工作量估算20110403012.8服务管理工作量估算20110403012.8日志管理工作量估算20110403012.8权限管理工作量估算20110403012.8