个人中心
个人中心
添加客服WX
客服
添加客服WX
添加客服WX
关注微信公众号
公众号
关注微信公众号
关注微信公众号
升级会员
升级会员
返回顶部
通信公司大数据技术方案建议书(318页)
通信公司大数据技术方案建议书(318页).doc
下载文档 下载文档
其他可研
上传人:正*** 编号:812402 2023-11-17 313页 22.90MB
1、通信公司大数据技术方案建议书XX工程咨询有限公司二零XX年XX月XX项目可行性研究报告建设单位:XX建筑工程有限公司建设地点:XX省XX市编制单位:XX工程咨询有限公司20XX年XX月58可行性研究报告编制单位及编制人员名单项目编制单位:XX工程咨询有限公司资格等级: 级证书编号:(发证机关:中华人民共和国住房和城乡建设部制)编制人员: XXX高级工程师XXX高级工程师XXX高级工程师XXXX有限公司二XX年XX月XX日 目 录1项目背景72总体建设方案82.1项目定位分析82.2技术架构选型分析92.3本期技术架构建议113系统部署架构143.1硬件处理能力配算143.1.1现网情况143.2、1.2存储能力计算143.1.3数据库服务器性能计算153.1.4应用服务器性能计算163.1.5采集服务器性能计算173.1.6系统带宽计算173.2软硬件部署及组网183.2.1部署方案183.2.2组网方案193.3系统可靠性设计203.4系统安全性设计213.4.1话单安全机制213.4.2软硬件安全防护213.4.3内部数据安全机制223.4.4安全访问控制223.5系统性能设计224系统概要设计244.1系统建设目标244.1.1建设目标244.2系统总体设计254.2.1整体框架254.2.2功能描述264.3数据结构设计264.3.1数据逻辑结构及分布264.3.2接口、安全体3、系设计分析284.4开发及运行环境285系统详细设计305.1大数据整合平台305.1.1系统接口设计305.1.2数据处理和存储365.1.3数据采集交换395.1.4数据解析475.1.5数据整合615.2服务能力支撑平台665.2.1数据探索分析引擎665.2.2数据分析构造器695.2.3数据透视分析引擎725.2.4自定义分析报告855.2.5应用共享能力905.2.6应用定制能力945.2.7预警监控能力955.2.8移动终端接入955.2.9数据共享服务965.2.10智能分析管理能力965.2.11知识共享能力985.2.12挖掘模型支撑995.3数据管控平台1335.3.1数4、据质量管理1335.3.2数据采集1405.3.3元数据管理1495.3.4ETL处理1585.3.5数据核查工具1645.3.6数据安全管理1665.4应用服务支撑平台1685.4.1生产能力提升类应用1685.4.2数据变“现”类应用1966系统接口方案2046.1数据源接口描述2046.2安全管理接口描述2056.3外部接口2057扩展能力说明2087.1管理范围扩展2087.2管理性能扩展2088风险分析及控制方法2108.1整体安全风险管理控制措施2108.1.1风险分析2108.1.2风险确定2108.1.3降低风险2118.1.4风险降低控制2128.2针对本次工程的项目风险与规5、避分析2129特点与优势2149.1领跑市场的专业团队2149.2遵从国内外技术标准2149.3成熟稳定的系统平台2149.4持续优质的技术服务2159.5成功案例介绍21510图表目录2161 项目背景随着移动互联网飞速发展,催生“大数据时代”的到来。各种新型智能移动设备的迅速普及,带来海量数据的爆炸式增长。在大数据时代,数据管理和应用能力成为企业的核心竞争力,需要将数据应用融入到企业运营体系,通过大数据分析支撑企业管理和业务运营。XX常小兵董事长在2012年信息化工作会上就指示:信息化要紧紧围绕“加快实现原始数据的公共管理,加快驱动市场导向的能力提升,牢牢抓住大数据时代的服务商机”深入推进6、企业各个领域的新变化,助推企业整体工作再上新台阶。集团总部关于“大数据规划与应用”的意见:以拳头应用为抓手,牢牢把握业务顶层设计和系统架构顶层设计的主动权;在数据整合、数据服务、数据共享方面要坚持走“平台+应用”的道路;大数据与电子渠道相结合。江苏XX着力建设大数据平台,打造大数据时代的企业核心竞争力:l 目标一:短期针对内面向营销、服务、网络建设等方面的部分突出矛盾,利用大数据提出应用解决方案,切实提升公司的运营效益。 l 目标二:长期着眼于对外提供有高价值的面向公众和行业数据服务,建立较完善的数据挖掘、应用生态圈体系,建立有行业影响力的数据服务品牌。 目标三:建设领先的大数据通用平台,打造7、较强的人才队伍,建设领先的数据服务体系。2 总体建设方案2.1 项目定位分析1. 大数据应用l 对内数据应用分析挖掘提供面向企业内部的客户行为和消费特征的掘,实现精确营销、精准维系、效益评价等数据应用业务需求 l 对外数据运营通过数据出售、数据咨询、数据能力和数据解决方案四种业务形态实现XX数据资产的运营能力,最终实现XX数据资产的价值。2. 大数据能力l 应用服务支撑以自助定制或第三方应用集成页面等方式,直接提供基于数据的应用,在统一的应用平台上实现应用间的分享传递。l 数据服务支撑提供加工后的数据服务,以消息推送等方式为第三方应用提供数据接口能力。l 能力服务支撑提供数据挖掘分析能力的管理8、平台,以便捷直观方式为使用者提供数据挖掘技术的使用,降低培训成本,充分发挥大数据分析挖掘能力。3. 统一数据整合服务1. 利用数据采集技术实现多点数据的高效抽取,结合Hadoop处理技术的天然优势,高效存储大量的结构化及非结构化数据,运用先进的云化数据整合技术为数据加工提供高效的处理环境,用数据服务为大数据应用提供统一的提供方式,并且在端到端的全过程处理环节中,运用元数据、数据质量、数据安全等技术,提供必要的支撑手段。2.2 技术架构选型分析首先数据层需要存放结构化/半结构化原始数据,包括原始话单、日志、信令等数据量非常大的原始数据 。这就要求采用的数据库具备以下能力:表格1. 数据层数据库能9、力实现需求能力特性特性描述存储管理能力PB级结构化数据管理能力线性扩展数据管理能力具备在线扩展能力,扩展时不影响应用操作容错能力数据容错性、安全性加载能力原始文件,存储清洗转换后的基础细节数据,准实时加载TB级数据能力汇总能力对原始各类数据进行数据清洗、关联转换(低时延)并发查询并发加载、并发查询能力SQL查询支持SQL、对基础数据层部分可以进行准实时响应查询(秒级响应、亿级记录数处理和导出)关联分析分析能够灵活关联,能够大数据在较少时延得到结果(小时级响应、十亿级记录数)将Share Disk、Share Nothing、NoSQL数据库应用要求实现对比:表格2. 数据库应用要求实现对比事务10、型数据库(Share Disk)分析型数据库(Share Nothing)Hadoop(NoSQL数据库)数据管理规模TB级数据管理规模PB级数据管理规模PB级数据管理规模线性扩展不支持线性扩展 实现近似线性的扩展,扩展操作会有数据重分布,影响应用完全线性扩展,扩展操作不停机,不停业务容错能力集中存储模式,一旦出现故障系统整体故障具备容错能力具备容错能力,不影响业务正常运行加载能力关系型数据库未实现并行处理,数据量达到百TB级后,性能下降明显大规模并行处理架构,保障高速高效数据并行加载方式,高速高效汇总能力行存储方式,及数据高可靠性要求,数据库在大数据量汇总时IO瓶颈比较突出,性能不佳标准SQ11、L方式处理数据库,灵活高速实现数据汇总,可以支持Hive SQL查询方式, 组件转换SQL方式,因而执行SQL的效率不一定最优。以固化汇总方式,将常用的汇总、清洗方式封装,转换为MapReduce方式。并发查询并发能力强,需要大量优化工作,较强的并发读写能力,但需要大量的维护和调优工作较好的整体优化,具备一定的实时能力,需要预先考虑数据的合理分布,对于OLAP应用而言,支持灵活(Ad-Hoc)查询的成本极高,需要预先对数据进行转换和汇总等预处理HBase查询按照Row key来查询,实现互联网级的高并发读写,但需要预先考虑数据的合理分布,需要预先对数据进行转换和汇总等预处理SQL实时查询实时性12、高,很强的结构化查询与复杂查询能力较好的整体优化,实时性高,适合在线,对复杂的SQL查询的全面支持通过Hive组件支持SQL查询,通过HBase组件支持实时查询,但只支持简单类SQL查询,实时查询需要预先分析好数据关联分析通过索引、分区键等保障性能,可以实现复杂业务逻辑,标准SQL易于使用数据库整体较好优化,数据结果强关联性,具备检索复杂性,标准sql支持数据关联分析通过Hive组件和MapReduce框架均可支持关联分析。具备索引和二级索引功能。可以实现复杂查询和多维度模糊查询价格高性能存储价格昂贵采用X86部署,但软件采购价格较高。采用X86部署,开源软件。综合上述比较,从性能、价格等方面13、考虑考虑,Hadoop是最佳选择,我方选择商业化Hadoop,Cloudera的CDH4。并且随着Impala和Spark的成熟化,CDH5将会得到更加普及。选择使用Hadoop技术,需要对Nosql数据库技术进行选型。Nosql数据库主要分为如下几类:列或列族数据库(Wide Column Store / Column Families),主要以HBase和Cassandra为典型代表。HBase是用Java开发的,常常与Hadoop一起应用,副本利用HDFS Replication,需要指定Rowkey做主键,应用最为广泛,社区和学习资料最为详尽。Cassandra也是用Java开发的,无14、Master,属于全共享模式,无单点故障问题,支持CQL查询,点对点备份。其实二者在应用场景上是有所区别的,HBase适合于数据仓库、大型数据的处理和分析,而Cassandra则更适合于实时事务处理和提供交互型数据。所以存储详单,对外提供详单查询,以及利用MapReduce进行分布式计算,选择HBase是非常合适的。我们采用与Hadoop CDH4版本匹配适度的HBase 0.92版。2.3 本期技术架构建议附图1. 解决方案架构数据分析应用软件由部分构成主要为分别是采集层、数据层、接口层和共享层、应用层。 采集层:数据源主要提供文件接口,文件接口专指批量采集XDR等海量数据送入Hadoop集15、群,该接口需要具备针对小文件合并录入的能力,并且具备直接操作HDFS的能力,以达到补采、重采的功能。而常规Probe接口也是采集数据源的文件接口,将文件采集到数据库服务器进行批量录入,避免直接调用JDBC或ODBC效率差的接口入库。 数据层:数据层主要由Hadoop离线分析和数据仓库。Hadoop离线分析主要采用Hadoop存储CDR等大数据,并采用MapReduce分布式计算进行关联、统计,并将明细数据同步到Nosql数据库中,实现低时延的详单查询接口需求,同时采用mahout等机器学习组件可以对Hadoop中的数据进行数据挖掘计算。实时流计算计算的结果也会从内存数据库同步到Hadoop集群16、。而数据仓库主要处理除信令数据意外的传统结构化数据,以及从Hadoop集群计算完的粗粒度统计数据,合并后采用ETL规则进行各维度统计至DW层。同时,静态数据根据需要会同步到Hadoop集群中参与关联分析。整体上来说,流计算可以提供实时计算能力,Nosql数据库可以提供低时延的高并发详单查询能力,而数据仓库可以提供传统的统计分析能力。 接口层:接口层是将数据层提供的原生API进行封装适配,对共享提供统一的访问方式,主要包括实时计算接口、详单查询接口和统计查询接口三类。 共享层:该层是直接面向应用的服务层,除了能对访问请求进行权限管控外,还可以管理自己订阅的接口。共享层主要包括认证鉴权、同步API17、异步API、数据订阅和共享组件。认证鉴权主要解决实时验证用户访问API的请求合法性,与4A的集成关系为本地鉴权、账号统一管理,为了避免每次请求都需要用户名和密码进行合法性验证,特借鉴OAuth的授权思想,采用一次认证、多次鉴权的交互模式,即首先通过认证平台进行用户名和密码的合法性认证,认证成功的直接返回一个令牌token,开发者需将token作为调用API的请求参数,请求处理模块将验证token的合法性以及该用户访问API的权限,认证平台调用4A进行用户名和密码的合法性验证,具体如下图所示:附图2. 认证鉴权同步API是指及时将结果返回给查询请求的API接口,该类API接口具有高并发实时性的18、特点,所以需要具备负载均衡的能力。异步API是专门用于满足下载等非实时返回结果的查询请求,必须支持被动查询完成进度的响应模式。数据订阅专指通过周期性任务将数据平台的数据定期发送到共享文件服务器上,需要支持订阅接口复用,即多个用户可以共享同一个订阅任务。API接口和数据订阅都需要提供定制化页面,便于管理员根据用户需求快速定制个性化接口,减少二次开发接口带来的时间消耗。共享组件是数据平台提供的公共分析组件,开发者可以配置组件参数,将该组件集成到应用系统中,快速形成分析专题和应用页面。 应用层:指数据共享平台提供上层应用所具备的软件能力提供及自身具备的一些分析能力。3 系统部署架构3.1 硬件处理能19、力配算3.1.1 现网情况截止到2014年4月,江苏XX现网用户为1500万-1700万,相关接口和系统历史数据统计如下:江苏XX现网数据量序号项目单位现有数据量预估增长率2016年底预估1移动互联网数据TB/天2.5035%6.12业务平台数据GB/天5025%543经分数据GB/天40025%1.04其他数据GB/天15025%153.1.2 存储能力计算原始话单存储30天,每天20G左右,也就是600G空间。聚合后小时粒度话单,每天14G,预计存储30天,需要420G。聚合后日粒度话单,每天10G,预计存储365天,需要3650G。聚合后月粒度话单,每月5G,预计存储3年(36个月),需20、要180G。TG/GSM性能数据每天500M,预计存储3年(1095天),需要18G。WLAN性能数据每天500M,预计存储3年(1095天)。需要18G。资源配置数据及相关临时数据保留15G空间。数据库系统自身占用空间,需要400G。合计:140+120+5*36+0.5*1095+0.5*1095+15 =5301G,预留30%。(1550)*1.3 =6.9T。3.1.3 数据库服务器性能计算表格3. 数据库服务器性能计算表前端用户操作所需TPC-C系统并发用户数F150系统平均用户请求响应时间(秒)F20.5系统发出的业务请求中,更新比重F31系统发出的业务请求中,查询比重F45系统发21、出的业务请求中,统计比重F510平均每次更新业务产生事务个数F63平均每次查询业务产生事务个数F710平均每次统计业务产生事务个数F820服务器保留的冗余;F930%服务器需要的处理能力为:TPCC=F1*(F6*F3+F7*F4+F8*F5)/(F3+F4+F5)/F2*60/(1-F9)135536接口数据处理所需TPC-C系统并发接口连接数F1100系统平均接口响应时间(秒)F20.2系统发出的业务请求中,更新比重F35系统发出的业务请求中,查询比重F41系统发出的业务请求中,统计比重F51平均每次更新业务产生事务个数F63平均每次查询业务产生事务个数F710平均每次统计业务产生事务个数22、F820服务器保留的冗余;F930%服务器需要的处理能力为:TPCC=F1*(F6*F3+F7*F4+F8*F5)/(F3+F4+F5)/F2*60/(1-F9)275510合计4110463.1.4 应用服务器性能计算表格4. 应用服务器性能计算表并发连接请求峰值F120平均每个连接业务逻辑处理单元数F28平均每个连接业务逻辑响应时间F30.1平均每个连接数据持久化处理单元数F45平均每个连接数据持久化响应时间F50.3服务器保留的冗余;F630%服务器需要的处理能力为:TPCC=(F1*F2/F3+F1*F4/F5)*60/(1-F6)1657143.1.5 采集服务器性能计算表格5. 采23、集服务器性能计算表并发连接请求峰值F130平均每个连接业务逻辑处理单元数F26平均每个连接业务逻辑响应时间F30.1平均每个连接数据持久化处理单元数F43平均每个连接数据持久化响应时间F50.1服务器保留的冗余;F630%服务器需要的处理能力为:TPCC=(F1*F2/F3+F1*F4/F5)*60/(1-F6)2314283.1.6 系统带宽计算表格6. 系统带宽计算表数据流方向1天内流量(MB)2G/TD话单WLAN话单话单平台ftp服务器20000.00 500.00 合计带宽要求(Mbps)4一天2G/TD话单文件为20GB,WLAN话单为0.5GB,合计约21GB,折算到带宽为:2124、GB10248/(243600)=2Mbps。 考虑到传输一般在夜间非忙时进行,所以建议带宽为4Mbps以上。3.2 软硬件部署及组网3.2.1 部署方案3.2.1.1 硬件配置需求采用应用软件、硬件、第三方软件全部新购的方式进行。新建数据库服务器2台、采集服务器4台、应用服务器2台、ORACLE数据库企业版2套、带路由功能的局域网交换机8台、hadoop集群服务器14台、Storm集群服务器6台。应用服务器用于统计分析、前台应用发布等;数据库服务器应用于存储用户传统数据和相关分析结论。具体配置如下表。表格7. 硬件能力清单表序号用途配置操作系统数量备注1采集机CPU 8C, 内存32GB,225、块300GB硬盘,2张千M以太网卡. Red Hat Enterprise Linux Server4新购2Hadoop集群CPU 8C, 内存32GB,2块300GB硬盘,2张千M以太网卡。Red Hat Enterprise Linux Server14新购3Storm集群四个四核AMD 8300 系列处理器, 内存128GB,2块Qlogic PCIe FC1242SR 4Gb Dual Channel HBA光纤通道卡,4块300GB硬盘,2张千M以太网卡Red Hat Enterprise Linux Server6新购4应用服务器CPU 8C, 内存32GB,2块300GB硬盘,226、张千M以太网卡。Red Hat Enterprise Linux Server2新购5DB服务器CPU 8C, 内存32GB,2块300GB硬盘,2张千M以太网卡。Red Hat Enterprise Linux Server2新购6存储采用RAID 5方式,有效存储需求为7T新购7局域网交换机CISCO 35508新购表格8. 第三方软件清单表序号用途配置数量备注1数据库Oracle 11g 20 user2新购2操作系统Red Hat Enterprise Linux Server28新购3.2.1.2 软件部署需求我方将在以上硬件设备上部署数据分析系统系统相关系统软件和应用软件,具体参见27、下表:表格9. 软件模块部署表编号硬件设备软件模块数量备注1.1.应用服务器Ultra-MNCA1.0 服务端1套主用1.2.数据库服务器Ultra-MNCA1.0 后台1套主用1.3采集服务器Ultra-MNCA1.0 采集程序1套3.2.2 组网方案我方主要基于以下思路进行部署与组网方案设计:从软硬件设备选择、配置和部署方式方面在成本可控的前提下提高整个系统系统的稳定性、可靠性和安全性。本着节约投资的思路,充分利用现有网络设备和网络线路,通过带内传输实现系统的管理数据交换,同时为留出了后续带外管理相关扩展能力。尽量采用双链路连接等方式提高网络连接的可靠性,避免出现网络连接的单点故障,提高系28、统的可靠性。充分考虑组网过程中网络安全因素,尽量减少对既有安全防护体系和安全防护策略的影响。在组网时充分考虑利用现有网络安全防护设备,为系统提供一定的安全保障。附图3. 全新建设硬件组网图3.3 系统可靠性设计我方解决方案从如下几个方面保障宁夏移动四网协同分析系统系统的可靠性:我方解决方案均采用国际国内领先的电信级监控管理软硬件产品、国际主流基础软件平台和国际主流服务器和存储备份设备,从产品选型来说就能够提供较强的系统稳定性。我方解决方案软硬件部署设计的一个重要原则是“就近采集”,这样能够保证当广域网出现问题时不会造成系统的故障。我方产品提供了可靠性保证相关功能,例如当出现数据采集错误时,提供29、了数据补采重采机制;例如采集模块提供了数据缓存,当网络出现中断时采集的数据会自动进行缓存,并在网络连接恢复后自动上传。我方推荐的服务器设备都采用了冗余电源配置,减少了电源损坏造成系统问题的可能性,提高了系统的可靠性。我方解决方案中传统数据采用了磁盘RAID和热备盘技术:服务器内置硬盘采用镜像配置,磁盘阵列硬盘采用了RAID5配置,磁盘阵列中配置了热备盘。从磁盘存储的角度屏蔽了磁盘损坏对系统可靠性的影响,保证系统的稳定性。Hadoop环境下服务器不使用RAID,Hadoop环境对数据自备份N份,这里我们采用业界标准,数据备份三份。Hadoop集群中服务器同时2台宕机数据不丢失,系统可稳定运行。330、.4 系统安全性设计3.4.1 话单安全机制传输文件加密:基于openssl网络通信安全及数据完整性协议,实现基本的传输层资料加密功能。把明码的话单文件用加密算法转换成加密的文件以实现数据的保密,加密的过程需要用到密钥来加密数据然后再解密。没有密钥,就无法解开加密的数据。数据在入库处理前不能进行解密。话单文件入库时,实时进行解密,对于解密的明码话单文件没有保留,立即删除。话单入库后,用户MSISDN、IMSI进行加密存储。应用部分通过权限管理,没有权限和资格的用户无法访问需要分流的用户、营销用户功能模块或查询到用户MSISDN、IMSI是加密后的结果。具备资格的用户可以查询并导出用户清单给市场31、部门进行针对性营销。3.4.2 软硬件安全防护我方推荐的硬件设备、操作系统、数据库系统等基础软硬件架构平台的安全性,都达到了美国国家安全局(NSA)的国家计算机安全中心(NCSC)B2级安全级别,能够对系统提供一定的软硬件安全保障。我方将在项目实施过程中对本项目涉及的服务器设备进行安全加固,从而在一定程度上提高系统的整体安全性。3.4.3 内部数据安全机制我方解决方案中的各种管理数据传输都提供了一定的数据安全保障机制。例如监控代理与分布式数据采集模块间的数据通信通过加密的私有协议实现;分布式数据采集模块与核心数据处理模块间的通信则通过二进制码流实现。我方解决方案中数据存储基于统一的内置关系型数32、据库实现,数据库自身提供了一定的数据安全保护机制,例如数据库回滚段,归档日志等。我方在进行硬件基础平台设计时,服务器内置和磁盘阵列磁盘采用了RAID技术。一定范围内的磁盘损坏不会造成数据的丢失,从而保证了数据存储的安全。3.4.4 安全访问控制我方推荐的解决方案提供了完备的用户管理和授权机制,能够提供面向角色的用户操作行为授权和管理范围授权。且我方解决方案中的用户管理和授权模块统一,不会出现交叉授权或授权死角。我方解决方案提供了用户日志记录功能。从用户登录系统至用户退出系统中的所有操作内容、操作时间、登录终端地址等都会被详细记录。系统还提供了日志查询统计功能,以便在必要时及时搜索到有用的审计信33、息。除了应用软件层面的安全访问控制外,我方系统还可以借助成熟的操作系统和数据库系统安全访问控制机制保证所有对操作系统和数据库的访问和操作都是得到授权的。3.5 系统性能设计我方推荐的解决方案最终用户使用界面为全中文B/S架构。下面我方将就这类用户使用界面的访问性能进行介绍。我方推荐的B/S架构采用标准的HTML方式进行浏览,只要运维人员桌面PC上安装了网页浏览器(如IE),就可以进行系统访问。B/S架构的客户端在每次访问时会实时访问服务器,保证用户每次访问的系统都是最新版本。该系统对用户PC资源要求较低,只要能够安装网页浏览器即可访问。该B/S架构系统后台数据库采用了数据库索引、数据聚合、中间34、表/视图等技术,能够大幅度提高前端B/S架构客户端的数据展现效率,除部分报表数据量巨大外,系统访问响应时间在3秒以内。客户端的访问基于HTTP协议完成,B/S架构的客户端则直接访问即可。B/S架构的客户端资源占用较低,在用户PC上只需要安装了网页浏览器即可,无需安装任何专门的软件。B/S架构的客户端与服务器端间通过标准的HTML协议传输数据,保证了系统的高稳定性和可靠性,同时也支持了开发性和标准化原则。B/S架构便于系统版本升级和系统的备份和还原,这些操作都是在服务器端完成,而客户端的维护量为零。系统概要设计3.6 系统建设目标3.6.1 建设目标3.7 系统总体设计3.7.1 整体框架附图435、. 系统框架3.7.2 功能描述。3.8 数据结构设计3.8.1 数据逻辑结构及分布粗粒度汇总数据、用户类明细数据所有数据分布在Oracle库中,依据oracle特性通过分区和所引来保证数据的访问效率。附图5. 数据框架系统在建模上分为:STG层、ODM层、DW层和ADS层。以下是各层建设方案和原则。附图6. 系统各层建设方案和原则系统分层分域建设特点:STG层:为模型统一、DN统一(数据归一化处理),缓冲源端数据,降低ETL抽取对源端应用系统的影响,数据粒度和源端一致,保持最低细粒度。STG不设主外间约束,STG层保留1个月的有效数据;ODM层:根据“SCID”模型划分出的客户、资源、企业管36、理、服务、产品、公共域,属于归一化数据。ODM模型满足三范式要求,ODM数据量大可不做主外建约束,数据存储3年。 在数据采集中,如有质量问题的数据存储在质量管理库DQM中。提供给准时性报表查询和明细下钻分析,模型按范式存储,资源和性能独立存储在相关两类表中,建模指导原则,三范式建模。DW按照主题存储数据,数据相对稳定。DW存储模型要求满足星型和雪花型结构最细粒度到小时。采集实时性T+1, 支撑OLAP分析的主要数据源,建模指导原则,维度建模。ADS完全根据应用建模,提高应用访问性能,不同的应用专题,冗余存储,通过“存储换时间“方式提高效率,应用建模尽量减少表之间的关联。主题的分析结果数据数据长37、期保留;模型遵循反范式原则,建模方法:实体建模和反范式建模。3.8.2 接口、安全体系设计分析数据安全模式适用方案1和方案21)系统安全权限设计前台应用web框架,是模块化开发模式,插卡式功能扩展,能灵活扩展功能的同时,web框架本添有用户名密码、域认证等安全认证机制,在可以按用户角色分菜单、目录进行收放权限,同时对数据层面的访问权限在数据库模型设计阶段都每个业务数据表都有相应的数据可访问权限属性,前台web框架结合数据库表模型中的权限字段,可以很好的控制数据可呈现范围2)业务数据安全模式在严密控制数据访问权限的同时,对一些客户敏感信息 客户的手机号码等敏感信息,在Oracle的传数据库中是以38、暗码存放,且以暗码形式呈现到页面。在对市场及相关部门提供支撑过程中,有单独的敏感信息解码模块,供数据消费方,单独导出通过这个单独的功能模块进行解密使用。3.9 开发及运行环境神州泰岳提供的解决方案充分考虑到各种软件在整体架构中的位置及特点,分析它们所应该发挥出的作用,并进行深入细致的研究,确保产品选型的科学合理。我方提供的所有产品基于微软平台技术开发,之所以选择微软平台,主要原因就是可扩展性和可伸缩性,实施、开发速度快,有整套端到端的解决方案,节约IT的软硬件采购成本,达到高性价比的投资回报,这点和Java方案中,复杂部署、开发周期长、可维护性差、软硬件投资昂贵形成对比。附图7. 技术架构4 39、系统详细设计4.1 大数据整合平台4.1.1 系统接口设计4.1.1.1 接口要求4.1.1.1.1 接口原则大数据中心需要从现有的经分和多个业务系统抽取数据,并根据需要对部分分析结果进行反馈,业务覆盖面广,数据交互多,这就要求大数据中心的数据接口必须遵守以下原则:n 开放性数据接口应符合开放系统互联标准和协议,方便系统间的互联。n 可靠性:数据接口应保证所有的数据传送可靠,能够对交互的过程和状态进行监控,支持交互失败时的恢复。n 安全性数据接口连接必须具有多级别的安全控制机制,同外部系统连接或广域网连接时应通过有安全控制的网关设备或防火墙进行连接,不允许直接联网。灵活性:数据接口应该能够方便40、的与各业务系统交换数据,当数据量增加或外围系统发生改变时,能够平滑地进行扩充,包括处理能力、处理节点、业务功能的扩充。n 规范性数据接口的数据交换格式要明确一致,符合通用标准,方便利用成熟的技术进行处理。n 有效性数据接口的交换数据要既要保证数据质量,避免在后续的处理中引入数据失真,又要保证数据时效,及时传送数据,避免引起处理延迟。n 稳定性数据接口的定义应保持稳定,生产系统的变动应尽量避免改变其提供给数据分析系统的数据格式。4.1.1.1.2 数据采集接口为了保证系统的完整性和健壮性,系统接口满足下列基本要求:接口实现对外部系统的接入提供企业级的支持,在系统的高并发和大容量的基础上提供安全可41、靠的接入。提供完善的信息安全机制,以实现对信息的全面保护,保证系统的正常运行,防止大量访问,以及大量占用资源的情况发生,保证系统的健壮性。提供有效的系统的可监控机制,使得接口的运行情况可监控,便于及时发现错误及排除故障。保证在充分利用系统资源的前提下,实现系统平滑的移植和扩展,同时在系统并发增加时提供系统资源的动态扩展,以保证系统的稳定性。在进行扩容、新业务扩展时,提供快速、方便和准确的实现方式。4.1.1.1.3 接口通讯方式接口基本采用了同步请求/应答方式、异步请求/应答方式、会话方式、广播通知方式、事件订阅方式、可靠消息传输方式、文件传输等通讯方式:同步请求/应答方式:客户端向服务器端发42、送服务请求,客户端阻塞等待服务器端返回处理结果。异步请求/应答方式:客户端向服务器端发送服务请求,与同步方式不同的是,在此方式下,服务器端处理请求时,客户端继续运行;当服务器端处理结束时返回处理结果。会话方式:客户端与服务器端建立连接后,可以多次发送或接收数据,同时存储信息的上下文关系。广播通知方式:由服务器端主动向客户端以单个或批量方式发出未经客户端请求的广播或通知消息,客户端可在适当的时候检查是否收到消息并定义收到消息后所采取的动作。事件订阅方式:客户端可事先向服务器端订阅自定义的事件,当这些事件发生时,服务器端通知客户端事件发生,客户端可采取相应处理。事件订阅方式使客户端拥有了个性化的事43、件触发功能,极大方便了客户端及时响应所订阅的事件。文件传输:客户端和服务器端通过文件的方式来传输消息,并采取相应处理。可靠消息传输:在接口通讯中,基于消息的传输处理方式,除了可采用以上几种通讯方式外,还可采用可靠消息传输方式,即通过存储队列方式,客户端和服务器端来传输消息,采取相应处理。4.1.1.1.4 接口内容要求接口内容方面,接口双方会对接口内容做数据检查,保证数据的合法性、完整性;对于传输大文件的业务,压缩后传输,减少对网络的压力;保证交易的完整性。4.1.1.1.5 数据检查接口提供数据检查功能,即对接收的数据进行合法性检查,对非法数据和错误数据则拒绝接收,以防止外来数据非法入侵,减44、轻系统主机处理负荷。数据检查的主要内容应包括以下几方面:数据格式:如接收到非预期的数据长度,类型,开始结束标志等。数据来源:如接收到非授权接口的数据。业务类型:如接收到接口指定业务类型外的接入请求。对于数据检查中解析出非法数据应提供以下几种处理方式:事件报警:在出现异常情况时自动报警,以便系统管理员及时进行处理。分析原因:在出现异常情况时,可自动分析其出错原因。如是数据来源非法和业务类型非法,本地记录并做后续管理;如是数据格式非法,分析网络传输原因或对端数据处理原因,并做相应处理。统计分析:定期对所有的非法记录做统计分析,分析非法数据的各种来源是否具有恶意,并做相应处理。4.1.1.1.6 数45、据压缩/解压接口根据具体的需求提供数据压缩/解压功能,以减轻网络传输压力,提高传输效率,从而使整个系统能够快速响应并发请求,高效率运行。在使用数据压缩/解压功能时,应具体分析每一类业务的传输过程、处理过程、传输的网络介质、处理的主机系统和该类业务的并发量、峰值等,从而确定该类业务是否需要压缩/解压处理。对于传输文件的业务,可采用压缩后传输的方式,以减轻网络压力,提高传输速度。在接口中所使用的压缩工具基于通用无损压缩技术,压缩算法的模型和编码符合标准且高效,并能提供校验检查功能。4.1.1.1.7 完整性要求完整性要求主要包括两方面内容,数据的完整性和交易的完整性。数据的完整性指数据传输要完整的46、达到接口的另一端,不能有缺失;交易的完整性指接口双方的处理要作为一个事务,不能有部分成功的情况出现。根据业务处理和接口服务的特点,应用系统的所有业务可以分为两类:实时交易业务和批量传输业务。实时交易业务采用基于交易的事务处理机制实现;业务传输以数据包的方式进行;对传输和处理的实时性要求很高;对数据的一致性和完整性有很高的要求;应保证高效地处理大量并发的请求。批量传输业务主要是以数据文件的形式传输数据;业务接收点需要能够并发处理大量传输,适应高峰期的传输和处理;要求传输的可靠性高。根据上述特点,完整性管理对于实时交易业务,保证交易的完整性;对于批量传输业务,保证数据传输的完整性。4.1.1.1.47、8 接口安全可靠性要求4.1.1.1.8.1 接口安全为了保证系统的安全运行,各种接口方式都保证其接入的安全性。接口的安全是系统安全的一个重要组成部分。保证接口的自身安全,通过接口实现技术上的安全控制,做到对安全事件的“可知、可控、可预测”,是实现系统安全的一个重要基础。根据接口连接特点与业务特色,制定专门的安全技术实施策略,保证接口的数据传输和数据处理的安全性。系统应在接入点的网络边界实施接口安全控制。接口的安全控制在逻辑上包括:安全评估、访问控制、入侵检测、口令认证、安全审计、防恶意代码、加密等内容。4.1.1.1.8.2 传输控制传输控制利用高速数据通道技术实现把前端的大数据量并发请求分48、发到后端,从而保证应用系统在大量客户端同时请求服务时,能够保持快速、稳定的工作状态。系统应采用传输控制手段降低接口网络负担,提高接口吞吐能力,保证系统的整体处理能力。具体手段包括负载均衡、伸缩性与动态配置管理、网络调度等功能:负载均衡:为了确保接口服务吞吐量最大,接口应自动地在系统中完成动态负载均衡调度。伸缩性与动态配置管理:由系统自动伸缩管理方式或动态配置管理方式实现队列管理、存取资源管理,以及接口应用的恢复处理等。网络调度:在双方接口之间设置多个网络通道,实现接口的多数据通道和容错性,保证当有一网络通道通讯失败时,进行自动的切换,实现接口连接的自动恢复。4.1.1.2 接口内容4.1.1.49、2.1 业务平台数据 增值业务平台:各类增值业务使用信息,访问内容等。MMSC、SMSC:短信使用、彩信使用等 WAP:通过WAP方式上网时长、流量、目标访问地址和内容等信息 炫铃:炫铃内容、炫铃设置等信息 4.1.1.2.2 移动互联网数据 电路域:通话记录CDR、短信CDR、用户开关机、漫游等信息 。分组域:业务识别、上网时长、上网流量等信息 4.1.1.2.3 经分数据 客户属性类信息:客户品牌、客户年龄、客户类型、入网时间等 价值贡献类信息:客户消费、客户增值业务消费、客户缴费等语音使用类信息:客户使用行为,位置、频率时长等信息合作伙伴类数据:合作伙伴产品、合作伙伴的业务及其使用信息等50、4.1.1.2.4 其他数据 VAC平台:增值业务订购信息,增值业务使用信息。客户接触:市场营销活动接触、客户投诉、客户咨询等客户终端:客户终端变更情况、终端品牌、终端能力等4.1.1.3 预留对外接口系统预留与营业厅、电子渠道、10010号等渠的接口,具备通过WEB Service实时接口的方式对这些渠道输出数据,提供对外接口支撑。4.1.2 数据处理和存储4.1.2.1 HADOOP大数据处理技术4.1.2.1.1 大数据处理和存储技术选型用户每次上网,频繁的网页链接、程序切换都会造成数十到百条上网纪录,平均每省(以四川为例)每月整理后的上网记录已达到150亿条,且为非结构化数据,基于传统51、关系型数据库的用户纪录的查询分析面临海量大数据处理的技术挑战。附图8. Hadoop和传统数据库对比因此选择一个高效的分布式处理系统架构是处理海量数据的必要选择,而hadoop架构作为海量数据处理的代表,技术成熟,选其作为此次流量详单查询和上网数据部分处理的技术构架完全符合本次项目的整体要求和设计。4.1.2.1.2 Hadoop技术特点4.1.2.1.2.1 Hadoop介绍Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distrib52、uted File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。总体来说hadoop可以归结为4点Apache软件基金会下面的一个开源项目一个分布式文件系统和并行执行环境用户便捷地处理海量数据部署在低廉的硬件环境上4.1.2.1.2.2 Hadoop的核心Hadoop Common:是Hadoop核心部分,用来支撑其他hadoop子项目HDFS: 一个给应用提供高吞吐量的分布式文件系统Map53、Reduce: 用于在集群上分布式处理大数据集的软件架构4.1.2.1.2.3 Hadoop各节点作用附图9. Hadoop节点介绍4.1.2.1.2.4 特点扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。 可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重54、新部署(redeploy)计算任务。4.1.2.1.2.5 实现机制v 数据分布存储(分布式文件系统) v 本地计算,移动计算而不移动数据 v 执行流程 FileSplit / Map / Combine(Partition) Copy / Sort / Reducev 分布式计算 作业和任务调度和执行(map/reduce slots) 推测式执行 故障处理 针对不同应用环境的优化 v 多种应用共用一个Hadoop平台 生产性应用:数据加载,统计值计算,垃圾数据分析等 批作业:机器学习等 交互式作业:SQL查询、样本采集等 v 不同应用对硬件资源要求不同 I/O密集型作业,如:机器学习算法 55、CPU密集型作业:如:过滤,统计值计算 v Hadoop也非万能,它采用Java实现,Java的IO处理虽然没有性能瓶颈,但是对于CPU密集型的任务是一个麻烦, 因此,有些算法效率不会提高很多。4.1.3 数据采集交换4.1.3.1 定时采集定时采集一般采集文件接口和数据库接口,通常采用ftp或者dblink方式进行传输。【文件接口】文件接口:数据提供方通过提供数据文件将数据提供给数据接收方;流行的文件传输接口一般使用文件传输协议(FTP:File Transfer Protocol),使得系统间可以共享文件。 FTP 使用 TCP 生成一个虚拟连接用于控制信息,然后再生成一个单独的 TCP 56、连接用于数据传输。控制连接使用类似 TELNET 协议在主机间交换命令和消息。文件传输协议是TCP/IP网络上两台计算机传送文件的协议,FTP是在TCP/IP网络和INTERNET上最早使用的协议之一,它属于网络协议组的应用层,它基于传输层,为用户服务,它们负责进行文件的传输。FTP是一个8位的客户端-服务器协议,能操作任何类型的文件而不需要进一步处理,就像MIME或Unicode一样。FTP服务一般运行在20和21两个端口。端口20用于在客户端和服务器之间传输数据流,而端口21用于传输控制流,并且是命令通向FTP服务器的进口。FTP有两种使用模式:主动和被动。主动模式要求客户端和服务器端同时57、打开并且监听一个端口以创建连接。在这种情况下,客户端由于安装了防火墙会产 生一些问题。所以,创立了被动模式。被动模式只要求服务器端产生一个监听相应端口的进程,这样就可以绕过客户端安装了防火墙的问题。主动模式的FTP连接创建要遵循以下步骤:客户端打开一个随机的端口(端口号大于1024,在这里,我们称它为x),同时一个FTP进程连接至服务器的21号命令端口。此时,该tcp连接的来源地端口为客户端指定的随机端口x,目的地端口(远程端口)为服务器上的21号端口。1) 客户端开始监听端口(x+1),同时向服务器发送一个端口命令(通过服务器的21号命令端口),此命令告诉服务器客户端正在监听的端口号并且已准58、备好从此端口接收数据。这个端口就是我们所知的数据端口。2) 服务器打开20号源端口并且创建和客户端数据端口的连接。此时,来源地的端口为20,远程数据(目的地)端口为(x+1)。3) 客户端通过本地的数据端口创建一个和服务器20号端口的连接,然后向服务器发送一个应答,告诉服务器它已经创建好了一个连接。4) 文件接口须采用HTTP、FTP等标准传输协议。须支持csv/txt/xml等多种文件格式,传送的频率需要满足月、日、小时、分钟等多种频率。【数据库接口】l 数据库接口:数据提供方通过开放数据库的表或视图的访问权限将数据提供给数据接收方。l 对于相同数据库系统之间表或视图的抽取,数据接收方通过D59、BMS在数据库之间建立直接链接关系进行抽取。对于不同数据库系统之间表或视图的抽取,应通过ODBC/JDBC建立链接进行抽取。4.1.3.2 实时采集4.1.3.2.1 消息接口l 消息接口主要用于传输数据提供方与数据消费方间建立通信的相关信息。l 消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上,队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行-它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。l 在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息,对应用提60、供公共的信息交换机制是重要的。l 设计分布式应用的方法主要有:远程过程调用(PRC)-分布式计算环境(DCE)的基础标准成分之一;对象事务监控(OTM)-基于CORBA的面向对象工业标准与事务处理(TP)监控技术的组合;消息队列(MessageQueue)-构造分布式应用的松耦合方法。l 消息接口的实现应支持Web Service技术、支持MQ标准的消息队列技术、支持socket技术等。4.1.3.2.2 实时通信接口l SDTP实时通信接口:SDTP为实时数据共享传输协议。该协议是信令采集网关(SCG)与信令共享平台之间的接口传输协议,也是信令共享平台和应用层(AD)中部分应用系统之间的接口61、传输协议。其传输特点是数据传输量大,实时性要求高,过程简单,不需要握手鉴权过程。4.1.3.2.3 STORM实时流处理4.1.3.2.3.1 实时处理技术选型自 2004 年推出 MapReduce 范式的大数据解决方案以来,大数据解决方案分为传统的批处理和流式处理技术。批处理和流处理大数据方式有根本性区别,以Hadoop为代表的批处理系统将数据引入HDFS 并分发到各个节点进行处理。当处理完成时,结果数据返回到 HDFS 供始发者使用。流处理大数据解决方案支持创建拓扑结构来转换没有终点的数据流。不同于 Hadoop 作业,这些转换从不停止,它们会持续处理到达的数据。表格10. 解决方案列表62、解决方案开发商类型描述StormTwitter流式处理Twitter流式大数据分析解决方案S4Yahoo流式处理Yahoo的分布式流计算平台HadoopApache批处理MapReduce范式的开源实现HPCCLexisNexis批处理HPC大数据集群DiscoNokia批处理分布式处理框架如表所示,基于流处理大数据解决方案目前比较成熟的有Storm和S4。下面对Storm和S4进行详细对比。Storm 与 S4 之间的一个重要区别在于,Storm 在面对故障时提供了有保障的消息处理,而 S4 可能丢失消息。Storm提供了一个高性能计算 (HPC) 平台,向应用程序开发人员隐藏了并行处理的复63、杂性。S4 实现了一个可扩展的、分散化的集群架构,并纳入了部分容错功能。Storm 实现的一些特征决定了它的性能和可靠性的。Storm 使用 ZeroMQ 传送消息,这就消除了中间的排队过程,使得消息能够直接在任务自身之间流动。在消息的背后,是一种用于序列化和反序列化 Storm 的原语类型的自动化且高效的机制。表格11. 解决方案对比表解决方案Yahoos4Storm开发语言JavaClojure,Java,Clojure编写了核心代码结构去中心化的对等结构有中心节点nimbus,但非关键可靠处理可能会丢失事件提供对事件处理的可靠保证路由内置count,join和aggregate标准任务S64、huffle,Fields,All,Global,None,Direct非常灵活的路由方式多语言支持暂时只支持Java多语言支持良好,本身支持Java,Clojure,其他非JVM语言通过thrift和进程间通讯Failover部分支持,数据无法failover部分支持,数据同样无法failoverLoad Balance不支持不支持并行处理取决于节点数目,不可调节可配置worker和task数目,storm会尽量将worker和task均匀分布动态增删节点不支持支持动态部署不支持支持web管理不支持支持代码成熟度半成品成熟编程编程 + XML配置纯编程如图所示,Storm与S4比较,Stor65、m更成熟稳定、高扩展性、易于维护。因此本次采用Storm作为流处理解决方案。4.1.3.2.3.2 Storm技术特点对比Hadoop的批处理,Storm是个实时的、分布式以及具备高容错的计算系统。同Hadoop一样Storm也可以处理大批量的数据,然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时;也就是说,所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性,这就让Storm可以扩展到不同的机器上进行大批量的数据处理。他同样还有以下的这些特性:l 易于扩展。对于扩展,你只需要添加机器和改变对应的topology(拓扑)设置。l 数据安全。每条信息的处理都可以得到保证66、。l Storm集群管理简易。l 高容错机能。一旦topology递交,Storm会一直运行它直到topology被废除或者被关闭。而在执行中出现错误时,也会由Storm重新分配任务。l 多语言设计。Storm中的topology可以用任何语言设计。技术优缺点:l 优点l 基本内存处理,速度快l 可并行,可扩展l 编程方式灵活,可以处理复杂结构数据l 缺点l 不保证事务完整l 难以处理某些大数据类型,比如需要查表之类的4.1.3.2.3.3 Storm 拓扑结构的概念性架构附图10. Strom结构图Storm集群主要由一个主节点和一群工作节点(worker node)组成,通过 Zookee67、per进行协调。主节点:主节点通常运行一个后台程序 Nimbus,用于响应分布在集群中的节点,分配任务和监测故障。这个很类似于Hadoop中的Job Tracker。工作节点:工作节点同样会运行一个后台程序 Supervisor,用于收听工作指派并基于要求运行工作进程。每个工作节点都是topology中一个子集的实现。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。Zookeeper:Zookeeper是完成Supervisor和Nimbus之间协调的服务。Spout:Spout从来源处读取数据并放入topology。Bolt:Topology中所有的处理都68、由Bolt完成。Stream Groupings:Stream Grouping定义了一个流在Bolt任务间该如何被切分。4.1.3.2.3.4 辅助软件Storm作为流数据处理平台具有很高安全性和健壮的稳定性。为了Storm能够专一解决数据流。实时营销平台引入其他技术平台解决数据缓存和数据采集功能。l FlumeFlume解决数据拉取问题。Flume提供了一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume支持在日志系统中定制各类数据69、发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。l RedisRedis解决数据缓存问题。它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set -有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remo70、ve及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。Redis 是一个高性能的key-value数据库。 redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。它提供了Python,Ruby,Erlang,PHP客户端,使用很方便。4.1.3.3 数据检校l 检校原则和内容数据校验是指对采集的数据进行完整性和准确性的校验。 1. 对采集数据文件的大小、记录数、字节数等进行校验;2. 对采集数据文件序号的连续性进行校验;3. 对采集数据生成时间进行校验;4. 提供71、根据编码规则对数据的有效性进行判断,对于异常数据进行记录。l 检校监控数据检校将提供监控功能,可通过web方式实时监控和查看数据检校的情况,如发现检校错误或检校异常,可及时通过技术人员处理恢复。4.1.3.4 数据交换在整个大数据处理架构中,需要进行大量的数据交换,既有内部之间的交换也有对外的交换,因此本系统在设计上充分考虑到数据交换的情况,能够完全满足以下几种数据交换:l 异构数据的转换与交互;l 多系统间数据转换与交互;l 多数据层级间数据转换与交互;l 外部合作、数据交换的海量数据的一点共享,异构数据的一点交换。4.1.4 数据解析4.1.4.1 URL库4.1.4.1.1 URL分类体72、系系统通量分析手段,提供互联网分类收敛的解决方案。将互联网门户、导航站点、自有业务门户的分类进行汇总统计,通过各分类在门户网站上出现的相同/相似频道次数占比(x)及用户PV占比(y)两个维度加权(),综合得出各分类得分(p)及排名。p= 1*x+2*y根据马斯洛需求层次理论,对排名的分类进行对比,完成分类收敛。附图11. Maslos需求模型4.1.4.1.2 URL分类更新分类库随着社会用户偏好关注度及本地运营需求而动态调整。具体更新触发源包括互联网新分类出现、已有分类的认知度下降、本地提出的分类。通过分类的重新判断完成分类的更新。具体更新流程如下图所示:附图12. URL分类更新流程图4.73、1.4.1.3 URL库更新URL地址库更新包括本地人员采集入库、定期从数据库同步、网络蜘蛛自动爬取等方式。1)本地支撑人员采集入库根据西藏业务需求,对需要解析但地址库里没有的内容,通过支撑人员现场采集和更新入库。2)更新机制URL地址库数据源定期进行更新的更新分为四个方面进行更新,具体如下:未收录的高频站点定期更新识别设定更新预警值,当用户访问的地址/域名未解析数量达到预警值时,触发更新URL动作。按天更新,对单日访问量超过100次的站点进行分类更新;按周更新,对周累计访问量超过1000次的站点进行分类更新;按月更新,对月累计访问量超过10000次的站点进行分类更新;注:未识别的站点,首先在74、历史删除的备份地址库中匹配,若存在有效地址规则,则直接恢复至生产地址库。A) 已收录高频站点定期校对与更新;设定更新机制,触发高频站点更新动作;对排名前1000的域名,按周校队和更新;对排名前5000的域名,按月校对和更新。B) 主流站点定期精度爬虫;根据业务及运营特定需要,将频道按日、周两种频率进行精度地址库抓取更新。日更新频道的四个考虑因素:l 频道内容的更新频率:如新闻等更新频率较快的频道;l 频道的访问量:日均访问量较高的频道;l 频道在该分类中的排名:在单一分类中排名靠前的网站;l 频道的重要性:访问量不高、但对用户刻画有意义或短期重点关注的分类,需要对相应的频道进行重点更新。C) 75、过期及低频站点定期删除.设置预警值,当地址库内容连续两个月使用率低于预警值时,将此地址移到备份地址库,减少在地址库无效量。l 首次使用率低于预警值时,将对应的地址库内容标记为“低”l 当次月使用率重新回到预警值之上时,删除“低”的标记D) 和集团URL分类库高效互联.通过互传更新以及字段映射,能够将本地URL库和集团URL库进行高效互联,当集团URL库中有更新或集团统一要求部署某些地址,则本地可以直接通过接口互传,将集团需要更新的数据导入本地,并进行本地化适配及字段映射,在符合本地的URL记录入库规则之后进行统一入库更新。4.1.4.2 APP库应用地址库主要通过数据源采集完成建设和日常更新,76、对本地业务特殊需要的APP,通过人员测试方案,实现精准数据提取并更新到APP地址库。应用地址库分为应用下载地址库与应用使用地址库;l 应用下载地址库的更新从主流的应用市场获取应用下载地址、名称,并更新到本地APP地址库;如:定期更新安智、机锋等其它应用市场的下载地址;对本地址库连续两个月未匹配到的应用下载地址做删除操作,维护下载库有效性。l 应用使用地址库的更新每周,根据各应用市场的应用下载量排名,对TOP应用中未解析部分进行解析;删除连续两个月未匹配到的应用使用地址库内容,维护应用使用地址库的有效性。对市场上最常用的5万余款主流客户端应用软件的解析、识别、分类,达到覆盖移动用户手机桌面大多数77、的应用软件分类库。4.1.4.3 用户移动互联网行为分析实现对采集各个数据源进行解析和结构化处理,使解析结果满足用户建模、智能推荐和管理平台的使用。其中对移动用户上网日志的解析可以以高准确率、高解析率识别APP行为和URL行为,充分挖掘用户的主动行为特征,以便更好的发挥数据价值4.1.4.3.1 移动互联网分析能力技术构架将用户上网日志、URL库、APP库、互联网分类加载到HDFS,采用M/R实现海量数据快速高效匹配,解析出用户上网具体URL行为、APP行为。附图13. 用户上网行为分析技术架构4.1.4.3.2 互联网分析能力业务流程APP行为匹配与URL行为匹配并行处理。附图14. 数据处78、理流程4.1.4.3.3 数据清洗对移动用户上网日志中的脏数据、噪声数据等干扰信息识别和处理,清洗外省漫游用户数据。4.1.4.3.3.1 噪声定义噪声包括异常数据、非用户主动点击操作产生的数据,具体如下:1)异常数据五元组出现空值;HTTP/WAP协议数据中的URL和域名不符合规则;2)非用户主动点击操作产生的数据站内或弹出WSF等广告地址;JS、CSS等脚本文件地址;图标/图片、声音、视频本身产生的文件地址;手机自带的OEM厂家服务连网记录;注:以上描述对应的URL包括有扩展名、没有扩展名形式的地址数据。4.1.4.3.3.2 噪声处理按照噪声定义识别噪声,其中:1)具有明确扩展名的,可通79、过扩展名进行处理(如.jpg图片);2)没有扩展名的地址,按地址数据进行识别,如微信图片通常都是无扩展名。4.1.4.3.3.3 漫游用户清洗根据本省号段表,与上网日志中的手机号码对比,过滤非本地号码段中的记录数据,完成漫游用户清洗。4.1.4.3.4 上网日志解析实现对采集各个数据源进行解析和结构化处理,使解析结果满足用户建模、智能推荐和管理平台的使用。其中对移动用户上网日志的解析可以以高准确率、高解析率识别APP行为和URL行为,充分挖掘用户的主动行为特征,以便更好的发挥数据价值。4.1.4.3.4.1 站点访问行为识别平台以URL地址库为基础,对用户上网的网站品牌进行分析,解析定位各客户80、群之间的网站品牌的偏好关系。如腾讯网、凤凰网。4.1.4.3.4.2 内容分类行为识别平台以URL地下库为基础数据,对GN客户访问的上网访问数据,对不包括App应用的浏览部分进行深度匹配,准确分析用户各网页分类行为。其中网页分类体系采集目前互联网常见分类以及移动自有业务分类为基础通过马斯洛需求模型建立的分类分析结果,通过地址库进行精确、精细的分类识别,数据的分类识别率达90%以上。例1:用户通过淘宝购买某商品,通过URL地址库准确定位到用户本次购买的是手机、还是服饰等。例2:用户访问凤凰网,通过URL地址库可以准确定位到用户本次访问的是游戏新闻、还是军事新闻等。采集方式:网络蜘蛛,采集原则:广81、度优先;1)从知名导航网站、alexa等获取最流行的站点URL,作为初始种子。2)分别下载这些初始种子,提取所有URL,设定规则从这些URL中识别出二级站点URL、目录URL等;3)站点分类规则1.导航网站本身具备一定的分类信息,此作为参考项,映射到系统设定的分类;2.收集完成需要的站点、二级站点、目录URL后,对站点url进行爬虫,得到站点的标题,描述,页面内容;3. 使用分类词库(每个分类都有一些分类识别词),对2中得到的爬虫数据进行规则匹配,聚类计算确认URL的分类归属;具体流程图如下:附图15. URL解析分类过程4)url解析和分类示例附图16. URL解析分类示例5)URL网页信息82、稽核稽核方式:人工真实感知对网站URL分析库进行人工核对,确保地址库数据准确性。附图17. 人工校对4.1.4.3.4.3 应用行为识别平台以APP地址库为基础,对用户的APP行为进行分析,准确刻画用户下载/使用的应用名称、应用分类,定位用户的APP偏好。对于目前互联网上流行的Top 1000应用能准确识别,全部可识别的应用及其对应流量占总App应用流量达80%以上。如手机卫士、腾讯手机管家、GO主题壁纸。应用解析过程附图18. 应用解析过程1)从上网日志中获取用户上使用手机应用的域名、URL、目标IP及端口等相关信息;2)通过用户的上网访问信息与app库进行比对匹配;3)如示例中,对用户下载83、行为解析,通过域名和URL即可识别为“淘宝”客户端,分类为购物;4)如示例中,对用户使用行为解析,包括公有和私有协议两种情况分别解析出APP“开心网”和“手机电视。应用解析结果校验应用解析后,需根据实际情况,完成应用测试校验工作:应用解析的准确性;应用解析的完备性;提交测试报告。4.1.4.3.4.4 流量行为识别基于上网内容分类行为和应用行为的识别基础上,分析各分类和应用行为产生的流量价值。通过流量行为分析,辅导支撑流量经营的分析和策划。流量分析分为应用行为流量分析、分类行为流量分析1)应用TOP点击量(或TOP用户)下的流量消耗排名和占比;2)分类行为TOP点击量的流量消耗排名和占比。4.84、1.4.4 用户偏好分析模型根据移动互联网用户行为分析结果,判断用户的分类行为、APP行为偏好,建立用户偏好分析模型。【维度说明】按照统计的时间周期维度,分为当月和最近三个月时间范围;按照统计方向维度,分为偏好强度和偏好黏度指标1)时间周期为当月的偏好强度的定义:在当月已解析的记录中,根据某互联网分类/应用分类的访问次数,评价偏好强度DPi(degree of preference)i为某分类/应用Ri为折算系数,为当月有此偏好的用户的偏好次数的中位数的倒数2)时间周期为最近三个月的偏好强度的定义:在最近三个出账月已解析的记录中,根据某互联网分类/应用分类的访问次数,评价偏好强度DPi(deg85、ree of preference)i为某分类/应用,j为某月份f(PVij)为访问次数PVij的折算值Rij为折算系数,为j月有此偏好的用户的偏好次数的中位数的倒数Wj为权值,表示月份对偏好强度的影响,往前推最近一个出账月为1/2,往前推倒数第二个出账月为1/4,往前推倒数第三个出账月为1/8。其它说明:入网一个月的用户,按上个出账月系数为1计算入网两个月的用户,按上个出账月系数为2/3,大上个出账月系数为1/3计算3)时间周期为当月的偏好黏度的定义当月的活跃天数4)时间周期为最近三个月的偏好黏度的定义:最近三个出账月的活跃天数【用户偏好指标定义】按照上述定义计算,一个用户可以有多个偏好,指86、标判断标准为:最近三个月的偏好强度:低于0.44时,不算是偏好最近三个月的偏好黏度:低于5天时,不算是偏好当月的偏好强度:低于0.50时,不算是偏好当月的偏好黏度:低于2天时,不算是偏好每个维度下,只取TOP5,维护一定的优先性和有效性。4.1.5 数据整合4.1.5.1 数据处理4.1.5.1.1 处理规则配置对数据处理需要的规则进行配置,包括对采集的数据进行格式化处理、分拣过滤、排重、核查与异常数据的处理等信息配置的能力。具体处理功能包括:1)格式化处理:设置具体表、具体字段是否需要格式化,对需要格式化的字段,选择格式标准;2)分拣过滤:设置具体表、具体字段是否需要过滤,对需要过滤的字段,87、选择分拣标准;3)排重:设置具体表、具体字段是否需要排重,对需要排重的字段,选择排重标签;4)核查与异常处理:具体表或者具体字段是否需要有异常处理核对过滤,对需要核和异常处理的表或者具体字段,选择处理标准。4.1.5.1.2 格式化根据数据采集、数据处理的格式定义,对采集的原始数据进行标准/统一格式转换等处理,为省分平台其他模块提供标准格式的数据。此功能可以定义多个格式化标准,在规则配置中,可直接选择合适的格式化标准。每条格式化标准需要配置以下内容:l 设置空值处前理后的默认值l 设置格式化前数据类型l 设置格式化前数据最大长度l 设置格式化前数据最小长度l 设置格式化后数据类型l 设置格式化88、后数据最大长度,超出部分将直接去掉。4.1.5.1.3 分拣过滤根据业务营销数据支撑需求,将各种业务的原始数据拆分、合并和关联、过滤。本功能按数据拆分、合并、关联、过滤四种类型的分别定义成执行标准,具体定义方式如下:【数据拆分】l 拆分前字段l 拆分后数据个数l 拆分转换规则l 拆份后字段命名规则【数据合并】l 合并字段数量l 合并连接符l 合并后字段命名规则【数据关联】l 关联数据表l 关联字段l 关联获取字段l 关联获取字段命令规则【数据过滤】l 数据列表过滤还是数据表过滤l 数据列表值l 数据表-数据字段4.1.5.1.4 核查及异常处理核查是指对数据处理过程中服务使用记录的完整性、有效89、性和准确性进行校验,并形成错误记录。异常数据处理是指对错误记录进行存储、分析、修正、重新处理的功能。l 查询数据集涵盖所有指标。l 可以自定义查询数据采集日志记录。l 可以对单个或多个数据集以列表形式输出呈现源数据的性能监控范围。l 可多维度自定义查询。包括自定义网元、时间粒度等。l 对自定义查询模板提供数据查询模板的创建和管理功能。4.1.5.2 数据分发4.1.5.2.1 分发规则配置对数据分发的规则进行配置,包括分发目标对象、数据格式、分发方式、分发频度等信息。本功能配置数据分析的处理规则,具体设计参数如下:l 目标选择,支持多个目标同时分发设置,对每个目标设置单独的接口环境;l 数据文90、件格式设置,支持文本文件、xml格式化文件等;l 数据分发方式设置,支持FTP、DBLink、消息队列等实时分发方式;l 颁发频度设置,支持按分钟、小时、日、周、月、实时的分析频率设置。4.1.5.2.2 数据生成根据数据分发的规则,针对不同的目标对象,按照已配置的数据格式生成分发数据为其它模块提供数据源信息。数据生成时,需要读取的分发规则字段包括:目标、数据文件格式、数据分发方式、频度。4.1.5.2.3 数据发送将处理后的标准服务使用记录,根据数据分发规则配置,将数据完整、正确的送给目标系统。数据分发包括主动分发和被动分发两种。l 主动分发需要读取分发规则中的数据频度、数据文本格式,以及分91、发目标的接口环境参数;l 补动分发表示数据自动后,保存在本地固定环境,分发目标按照需要定期连接本地环境并获取数据。4.1.5.2.4 核查及异常处理核查是指对数据处理过程中服务使用记录的完整性、有效性和准确性进行校验,并形成错误记录。异常数据处理是指对错误记录进行存储、分析、修正、重新处理的功能。l 查询数据集涵盖所有指标。l 可以自定义数据分发日志查询。l 可以对单个或多个数据集以列表形式输出呈现源数据的性能监控范围。l 可多维度自定义查询。包括自定义网元、时间粒度等。l 对自定义查询模板提供数据查询模板的创建和管理功能。4.1.5.3 数据源工具通常情况,数据源并不统一,以各种形式独自存在92、于各个系统,且各地和各厂家之间均存在差异化,因此在做数据源汇总统一时经常存在困难,无法高效便捷的将数据源完整的整合为目标系统所需要的数据源。为解决此问题,本系统将提供建立映射和映射组件的工具,这样便可以指定如何在源和目标之间移动和转换数据,此工具定义为数据源设计器,在数据源设计器中可以创建源定义、目标定义和转换以建立映射。数据源设计器可以同时使用多个工具,以及同时在多个文件夹或资料库中工作。工具带有窗口,可以方便的查看文件夹、资料库对象以及任务。数据源设计器工作流程:标准化目标系统输入数据源字段是否可以映射目标系统数据源丢弃获取数据源逐一字段和目标系统数据源比对空白字段填补4.1.5.4 工作93、流除常见的按周期调度外,工作流调度还与消息与事件服务紧密集成,允许工作流调度与其他应用服务交互。另外可以通过定义工作流生产数据集、消费数据集的方式,能够自动按照依赖关系调度工作流,并在发生数据重传等异常情况时自动的进行工作流取消补偿与工作流重新调度。运行工作流、监控工作流和数据流,生成工作日志和报告。在工作流监控中,用户可以查看正在运行或已运行完成的工作流的详细信息。用户也可以在这里启动、暂停、继续、取消工作流。4.1.5.5 异构数据源支撑由于平台采用了分布式处理hadoop和传统数据库oracle,具备非结构化和结构化数据的协同处理能力,能够处理异构数据,满足海量数据抽取的高性能要求,具有94、良好的兼容性。将多源数据的操作集中到hadoop中进行,保证多源的集中操作,提高数据处理效率。4.2 服务能力支撑平台4.2.1 数据探索分析引擎4.2.1.1 应用场景在日常分析过程中,并不是所有人员都对SQL语句及数据结构,当有突发需要、临时性的、时间要求急迫的数据提取分析手段时,无法及时的提取数据。需要系统提供指标查询页面,并可针对指标即席查询出相应数据,并同时支持数据的二次分析。4.2.1.2 特色亮点数据探索分析引擎是一个可为报表与数据分析提供方便快速的数据查询条件设置的应用组件,提供了易用、可视化的查询条件定义界面,灵活的多查询条件组合关系设置,方便的查询条件输入控件,可自由拖动排95、列的查询条件布局,以及丰富的辅助功能,最终目的是让用户即使是不懂SQL也能为报表快速地定义出所需的数据查询过滤条件。4.2.1.3 功能介绍可以灵活定制和查看业务数据,显示各指标按时间、地域等维度统计情况。模块功能可分为即席查询定义、即席查询报表设置、个性化模板管理三个模块。1、 即席查询定义在条件设置区查询定义以元数据为依托,通过拖拽的方式定义即席生成指标报表,同维度的指标可以进行拼接成一张组合报表,查询的结果可以打印和导出。附图19. 数据指标导航2、 即席查询报表设置实现报表输出编辑定义的功能,工具栏提供的功能包括自定义指标、指标过滤、预警分析、TOPN分析、图表定制、SQL查看、同维度96、指标筛选、网元属性、列管理、结果导出等; 自定义指标:通过加、减、乘、除等重新计算组合指标。 指标过滤:提供二次分析功能,为指标设置阀值过滤显示结果。 预警分析:为指标设置不同预警阀值,达到阀值的数据在结果中以不同的颜色填充差异显示。 TOPN查询:提供二次分析功能,在指标结果列表中,只显示TOPN的子集。 图表定制:将统计结果显示为饼图、条形图或走势图等。 查看SQL:显示数据集的查询SQL,用户可以修改查询条件,深入统计分析。 同维度指标:同维度指标可以在一个结果集中显示,进行综合比较分析。 列管理:对结果的显示列顺序、显示标题等进行设置。 结果导出:查询结果可导出文本、Excel格式文档97、。附图20. 多维度报表3、 个性化设置对已经创建的即席查询结果,通过重新设置条件和定义新的指标输出字段,满足个性化查询需求;可将查询结果保存为个人或公共模板,方便以后即时调出使用。附图21. 气泡图报表附图22. 折线图报表4.2.2 数据分析构造器4.2.2.1 应用场景服务能力支撑平台需要支撑上层应用的分析需求,每个应用的分析需求均不同,导致分析思路也完全不同,这就要求数据分析平台需要具备数据分析过程快速定制的能力,满足上层应用的分析需求。同时由于分析思路会经过经验的累积,不断完善,还要具备分析思路快速修改的能力。4.2.2.2 特色亮点数据分析人员通过数据分析构造器功能对基础数据和指标98、数据进行分析和统计整理,定义业务分析思路,通过数据分类计算发现业务问题,进而推导出业务处理意见。数据分析构造器为业务分析人员提供图形化的分析工具,可以固化用户日常中形成的业务分析过程或思路,并根据该流程实现向导式分析和自动分析。将这些分析模式以流程图的方式按步骤展现出来。通过查看流程节点的最终状态,得出最终结论。通过将业务流程IT化,能够有效支撑业务分析人员的日常工作,固化分析流程,总结业务规律,提高工作效率。4.2.2.3 功能介绍数据分析构造器分为流程池管理、流程图形化设计、流程分析运行三个模块。1、 自定义流程池管理提供已定义流程列表,用户可以通过流程列表新增自定义流程、浏览运行结果,修99、改和删除自定义流程。附图23. 自定义流程池管理2、 流程图形化设计 流程设计通过可视化界面对分析流程进行定义,流程节点包括开始、结束、判断、处理等节点类型,通过对流程节点的添加、删除、节点间的流转关系定义流程图,节点的位置可以任意调整。附图24. 自定义流程流程设计 流程节点设置流程节点可以组合设置多条分析指标、分析规则,以便对数据进行合理计算。3、 流程分析运行自定义流程运行,可以通过节点查看符合条件的记录集,最终的叶节点显示通过流程分析的结论。 条件查询:对分析的数据的时间、区域、场景可以自定义条件筛选。 执行方式设置,可以手动或自动执行自定义流程,自动执行可以设置执行时间。附图25. 100、自定义流程分析执行参数设置4、 自定义流程配置完成的显示效果附图26. 自定义流程网络均衡分析样例4.2.3 数据透视分析引擎4.2.3.1 应用场景在日常分析过程中当前对于领导提出或突发需要、临时性的、时间要求急迫的数据提取分析手段目前只能通过人工查表的方式去做,对于简单的单一字段不涉及计算的指标,可以很快给予响应;但是对于涉及多表查询或逻辑复杂的指标,往往无法及时给出结果。而在发现指标异常需要进行详细分析时,又无法对指标从多个维度进行查看和钻取。4.2.3.2 特色亮点数据透视分析引擎为自主研发报表功能,定位为通过配置报表数据,为软件厂商现场人员或最终用户高级IT人员提供的一个免开发的报表101、模型生成平台,操作便捷、简单易用。可同时支持临时性的数据检索、固定的考核报表和从不同的视角评估统计结果三个方面。此功能可以极大的提升现场对报表需求响应的时间和速度。面向业务人员,可根据日常工作需求快速创建分析报表,提供灵活的过滤、筛选、分组及钻取能力,适用于个性化主题分析的快速创建。面向系统维护人员,直接编辑SQL语句进行报表创建,提供强大的报表页面布局与样式编辑功能,适用于专题分析设计应用。使数据分析人员、企业管理人员通过多种可能的观察角度进行快速、一致和交互性存取,来获得对信息的深入理解。支持灵活的上钻/下钻,实现灵活数据探查;支持数据切片,灵活转换数据分析视角;支持多种分析方法:对比分析102、分布分析、趋势分析、同比分析、环比分析、象限分析、雷达分析;4.2.3.3 功能介绍用户可以灵活选取业务模型中的指标和维度集合,设置报表过滤条件,设计报表、指标和维度的展现样式和格式,生成报表模板,进而显示、导出和打印。可以灵活按不同维度、阀值进行指标配置,能以柱图、饼图、折线图、仪表盘、雷达图等几十种类型图表和表格形式输出数据,输出结果支持文本,Excel等多种格式导出,满足Web报表的多种展现需求。功能分为报表池管理、报表设计、报表环境设置三个模块。1、 报表池管理报表池管理显示已定义报表列表,用户可以通过列表新增报表、浏览结果,修改和删除已定义报表。2、 报表设计报表设计器支持以鼠标拖103、拽的方式定义报表或字段的输出,提供帮助向导指导用户方便、高效地进行报表设计,实现轻松、快捷制作报表。附图27. 自定义报表设置 属性管理:设置报表唯一标识、报表名称、自动运行、打开缓存、权限设置等参数信息。附图28. 自定义报表属性设置2 结果导出:自定义报表查询结果导出文本、Excel格式文档。 结果订阅:用户可以订阅自定义报表,系统定期将统计结果推送到订阅人邮箱。 自定义指标,提供可视化的公式向导界面,指标定义公式的常用写法都可以简单地通过鼠标点击输出。 高级查询,自定义报表提供在当前结果集上重新定义条件二次查询。 TOPN查询:在指标结果表中,显示TOPN子集。附图29. 自定义报表TO104、PN查询 查看SQL:显示数据集的查询SQL,用户可以修改查询条件,深入统计分析。 报表显示样式设置灵活,可进行列样式设置,钻取配置、阈值配置、列头分组、工具栏管理等。3、 报表环境参数设置设置自定义报表运行环境,包括公共环境变量、数据适配器、数据源、数据集,字符集等参数设置,数据适配器和数据源设置数据库连接参数,数据集定义系统可以公共使用的数据集。附图30. 自定义报表数据源设置4.2.4 自定义报表4.2.4.1 模块描述自定义报表使用户可以灵活选取业务模型中的指标和维度集合,设置报表过滤条件,设计报表、指标和维度的展现样式和格式,生成报表模板,进而显示、导出和打印。本项目采用神州泰岳自主105、研发迅捷报表产品(Ultra-DataVision)实现自定义报表功能,迅捷报表可以灵活按不同维度、阀值进行指标配置,能以柱图、饼图、折线图、仪表盘、雷达图等几十种类型图表和表格形式输出数据,输出结果支持文本,Excel等多种格式导出,满足Web报表的多种展现需求。自定义报表模块功能分为报表池管理、报表设计、报表环境设置三个模块。附图31. 自定义报表模块功能结构图4.2.4.2 功能介绍自定义报表提供以下功能:1、 报表池管理报表池管理显示已定义报表列表,用户可以通过列表新增报表、浏览结果,修改和删除已定义报表。附图32. 自定义报表池管理2、 报表设计报表设计器支持以鼠标拖拽的方式定义报表106、或字段的输出,提供帮助向导指导用户方便、高效地进行报表设计,实现轻松、快捷制作报表。附图33. 自定义报表设置 属性管理:设置报表唯一标识、报表名称、自动运行、打开缓存、权限设置等参数信息。附图34. 自定义报表属性设置1附图35. 自定义报表属性设置2 结果导出:自定义报表查询结果导出文本、Excel格式文档。附图36. 自定义报表结果导出 结果订阅:用户可以订阅自定义报表,系统定期将统计结果推送到订阅人邮箱。附图37. 自定义报表订阅设置 自定义指标,提供可视化的公式向导界面,指标定义公式的常用写法都可以简单地通过鼠标点击输出。附图38. 自定义报表定义指标 高级查询,自定义报表提供在当前107、结果集上重新定义条件二次查询。附图39. 自定义报表高级查询 TOPN查询:在指标结果表中,显示TOPN子集。附图40. 自定义报表TOPN查询 查看SQL:显示数据集的查询SQL,用户可以修改查询条件,深入统计分析。附图41. 自定义报表查看SQL 报表显示样式设置灵活,可进行列样式设置,钻取配置、阈值配置、列头分组、工具栏管理等。附图42. 自定义报表样式基本设置附图43. 自定义报表钻取设置附图44. 自定义报表阈值显示设置3、 报表环境参数设置设置自定义报表运行环境,包括公共环境变量、数据适配器、数据源、数据集,字符集等参数设置,数据适配器和数据源设置数据库连接参数,数据集定义系统可以108、公共使用的数据集。附图45. 自定义报表环境参数设置附图46. 自定义报表数据源设置4、 自定义报表配置完成的显示效果附图47. 自定义报表配置完成显示效果4.2.5 自定义分析报告作为系统数据采集和指标评估的的一种重要手段,在日常维护总结工作中具有重要意义。因其具有阶段性,报告内容相对固定的特点,在系统中通过模板定制、指标定制、编辑发布等功能实现自动报告生成,提高分析人员的工作效率。4.2.5.1 建设思路自动日报由若干关注内容组成,包括平台业务数据、移动互联网数据、经分数据、其他数据、重大事件,关注内容可由用户根据需要自行增加、修改、删除。l 定制功能:模板定制自行设定关注内容和报告标题自109、行选定时间,空间维度,从指标池中选择指标生成图表报告提供模板定制、删除、修改等编辑操作。指标定制从同一指标分类等级下的指标池选择指标相同指标池下若干指标组成单一模块数据集图表呈现l 编辑发布编辑功能:报告的主体由系统根据模板自动生成初稿,根据需要由人工编辑加工后,形成正式报告发布功能:编辑生成后的报告仅管理人员自己可见,发布后才能被全体员工浏览、下载支持报告模板的分类管理、维护;支持对模板编辑、保存、预览、删除等模板管理功能;支持对模板进行复制再编辑,提高效率;支持模板上传功能,可以将选中的模板传到模板服务器的指定路径上,服务器程序调度并执行该模板的作业,;l 呈现方式:网页浏览Word、Ex110、cel、PPT等多种报告格式导出浏览报告指定目录存放,定时生成邮件订阅,发布给相关管理人员和维护人员。4.2.5.2 分析方法自定义分析模板:从指标池选择分析指标,从分析方法中选择分析方法,根据需要自定义关注指标、分析主题、主题组织方式和呈现方式,并保存为模板,系统根据模板生成相应分析结果。模板支持删除、修改等编辑操作。预警分析:根据预先定义的阈值,或根据前期指标的平均值为阈值判断依据,当关注指标超过阈值时,系统及时产生预警;对比分析:以表格和曲线图的形式直观呈现在相等时间间隔下不同数据的趋势对比。分布分析:以表格、柱图、饼图的形式直观呈现在相同时间点或时间段内多种数据的绝对比较或相对比较。同111、比分析:以表格和曲线图的形式直观呈现所选性能指标相对于上个周期同一个时间点的比较情况。环比分析:以表格和曲线图的形式直观呈现所选指标相对于上一个时间的变化情况。4.2.5.3 功能介绍指标池是指标的维度、门限、数据存储等信息的描述,用于指导前端系统对指标数据的访问。指标池能够对指标的相关数据进行统一管理、统一配置模块。指标有如下特点:1.使产品有独立清晰的指标数据管理;2.指标的维护性更加简洁,快速,只需要配置指标池就能实现更改。本模块提供的主要功能如下:1.指标数据管理:管理指标的各类数据信息(包括指标名称,编号,单位,计算公式,支持的维度,数据存储的表和列),可选取基础指标及对应的分析方法112、呈现方式;呈现各项指标情况和预警情况2自动生成日、周、月报,报告的主体由系统根据模板自动生成初稿,根据需要由人工编辑加工后,形成正式报告。并可通过彩信、邮件及信息发布窗口发布给相关管理人员和维护人员。设定关注内容标题;3.辅以文字描述生成。自动报告包括模板定制,制作报告,报告编辑与发布,报告的浏览与订阅。报告格式支持Word、Excel、PowerPoint等多种格式;支持在报告中嵌入对象,包括:Word、Excel;4.2.5.3.1 模板定制模板定制如下图:附图48. 自定义分析报告模板定制示例4.2.5.3.2 报告制作报告制作如下图:附图49. 自定义分析报告制作示例4.2.5.3.113、3 报告的编辑与发布报告的编辑与发布如下图:附图50. 自定义报告的编辑与发布示例4.2.5.3.4 报告的浏览与预订报告的浏览与订阅如下图:附图51. 自定义报告的浏览与预订示例4.2.6 应用共享能力4.2.6.1 共享能力作用:实现应用的群组共享发布以及每个系统用户的个性化展现。基于应用商店机制实现应用的上架申请、审批、权限、预览、下载选择等应用,实现统一开发的应用、用户自行开发的应用可统一管理、统一共享,实现应用的价值最大化和零成本推广。【功能定义】系统根据需求设置不同的频道功能,然后根据群组的定义封装成应用进行共享,用户也可进行频道的自行设置,实现个性化管理。封装完成的应用在应用商店114、进行审批、发布。【功能要求】频道主要包括:资讯、活动、应用、游戏、图集、阅读、视频、音乐、365成长营。在主页类别选项中点击“资讯”进入资讯频道,进入后显示信息滚动条,滚动条内容源在后台滚动界面管控中可控。缩略图下方添加黑色半透明条,上面的文字为该条信息的标题。该标题下的副题信息内容默认展示十条,每条点击“点击加载更多”按钮则继续加载10条信息。其他频道内容均类似。将应用频道进行封装,实现可以进行使用的应用,将其发布到应用商店进行审核。4.2.6.2 审批管理作用:应用的共享从申请、审批、下载选择等有不同的管理流程,系统管理可控。【功能定义】 系统将封装好的应用上传至应用商店后,应用商店执行审115、批流程;系统管理员根据发布的应用进行测试,确认发布的应用是否符合政策的要求,内容是否具备先进性,用户体验是否具有优越性等。管理员将审核通过的应用正式发布至应用商店,供相关人员进行下载使用。【功能要求】系统将封装完好的应用进行逐级进行审批,审批通过后进行发布至应用商店供用户进行使用。4.2.6.3 单点登陆作用:在集成多个企业应用系统时,有效的实现用户的统一身份管理,简化应用认证用户身份的流程,所有系统共享一个中央身份认证系统,用户只需登录一次就可以访问所有相互信任的应用系统。【功能定义】统一用户管理平台,能够实现以下主要功能:统一单点登陆、统一帐号管理。统一用户管理平台采用安全级别较高的CAS116、协义认证方式。【功能要求】采用中心认证的方式,主要用于对J2EE应用的单点认证集成,对于其它平台的WEB应用(如PHP),也提供有客户端实现。CAS Client 以 Filter 方式保护 Web 应用的受保护资源,过滤从客户端过来的每一个 Web 请求,同时, CAS Client 会分析 HTTP 请求中是否包请求 Service Ticket( 上图中的 Ticket) ,如果没有,则说明该用户是没有经过认证的,于是, CAS Client 会重定向用户请求到 CAS Server ( Step 2 )。 Step 3 是用户认证过程,如果用户提供了正确的 Credentials , 117、CAS Server 会产生一个随机的 Service Ticket ,然后,缓存该 Ticket ,并且重定向用户到 CAS Client (附带刚才产生的 Service Ticket ), Service Ticket 是不可以伪造的,最后, Step 5 和 Step6 是 CAS Client 和 CAS Server 之间完成了一个对用户的身份核实,用 Ticket 查到 Username ,因为 Ticket 是 CAS Server 产生的,因此,所以 CAS Server 的判断是毋庸置疑。图 单点登录认证流程4.2.6.4 应用维护作用:集成各种应用,并可定制。各种企业资源118、整合(应用资源、信息资源、分析成果、知识库、第三方资源等)。图 应用系统接入统一管理流程【功能定义】统一用户管理平台,能够实现以下主要功能:统一单点登陆、统一帐号管理。统一用户管理平台采用安全级别较高的CAS协义认证方式。【功能要求】1. 应用开发商向管理信息系统部提交接入申请;2. 应用开发商阅读统一用户管理接入规范,可以跟统一用户管理平台集成商进行技术交流;3. 应用开发商确定最终的接入方案后,形成文档,提交管理信息系统部审批;4. 管理信息系统部审批通过后,依据接入方案,应用开发商开发接口程序,统一用户管理平台集成商做相关配置;5. 以上工作完成后,进行联调测试工作,管理信息系统部确认联119、调结果后,确定上线日期;6. 应用开发商和统一用户管理平台集成商进行上线工作,上线后要做好各自的日常维护。4.2.7 应用定制能力作用:要求定制能力可以通过拖拽表格、图形和查询条件等组件来构建分析页面,从而组成分析应用;同时提供丰富的编程接口,支持二次开发,确保应用页面风格一致。 【功能定义】实现以鼠标拖放式操作、类office软件操作、数据计算函数的自动提示等操作,满足不同技术层面人员的应用界面配置;实现应用配置结果随时预览,随时保存,随需共享。【功能要求】基础类元素:查询条件、表格、选项卡、文本、嵌入和地图等。布局:设置表格的高度、宽度。表格样式:可以根据自己的需要,选择自己需要或者喜欢的120、表格样式。表格设置:具备分页、导出、排序、定制表头、锁定表头、同值合并等功能。扩展设置:包括不扩展、从左到右、从上到下三个选项。单元格条件样式:阈值预警、图标样式、字体样式、文本值、图标集、反转图标次序。逻辑类元素:迭代、判断等。支持柱状图、折线图、条形图、面积图、饼图、散点图、气泡图、雷达图等丰富的图形展示。4.2.8 预警监控能力作用:对运营关键业务指标设定预警阀值,指标达到阀值之内进行预警,并提示责任部门和负责人进行相关处理和反馈,启动业务分析或工作调整流程,并记录最终处理结果。【功能定义】预警监控是对运营关键业务指标设定预警阀值,指标到达阀值之内进行预警,并提示责任部门和负责人进行相关121、处理和反馈,启动业务分析或工作调整流程,并记录最终处理结果。在预警监控系统中引入产品级规则引擎整合到产品平台,灵活的对业务规则进行配置处理,满足业务对规则灵活多变的需求。使用自然语言进行规则定义,使业务人员能够进行规则定义和修改;引入规则库,可以对规则进行本版管理,将业务过程中的业务规则知识进行沉淀、积累和分享。【功能要求】系统设置指标库,同时针对此指标设置规则库,根据在实际的应用过程中进行对此规则进行定义,对指标设置阀值,包括阀值上限及下限值。当在运营过程中系统指标值达到阀值的预警区间内容,则进行告警通知。相关人员根据规则库进行分析,进行各方面测试,确认规则库中参数准确性,对各规则进行修改,122、通过实践应用,达到理想效果后,对此指标及规则进行沉淀;然后对此进行积累分享,供其他相应业务人员进行使用。4.2.9 移动终端接入作用:用户可通过多种常用的终端设备与数据门户系统进行交互。【功能定义】终端接入指各种常用终端设备主动访问数据门户系统,信息推送指数据门户系统主动向终端设备发送信息。移动终端接入主要包括iPhone手机接入、WAP手机接入等;信息推送主要包括手机彩信、手机短信、电子邮件方式发送信息 【功能要求】系统根据客户需求,开发三种访问数据门户系统的终端,PC端、IPhone手机端、WAP手机端。针对不同的终端的样式,开发不同展示功能界面,实现用户感知提升,全面覆盖各用户群体。针对123、不同的用户群体,根据终端的不同,系统进行信息推送的模式也不一样。信息推送的模式主要包括手机彩信,手机短信、电子邮件。当有新的消息需要告知各种用户群里,系统将信息内容制作成手机彩信、短信、电子邮件模式内容,然后根据各用户群体的属性特征,对不同的用户使用不同的信息推送方式。4.2.10 数据共享服务实现数据质量对外提供统一的数据质量信息查询接口的能力,此接口应能接受指定类型的参数并返回相应的结果,建议采用WebService方式提供查询接口。返回结果建议以XML形式给出。 数据共享服务有两个最为关键的亮点:订阅式数据共享,不依赖客户端的共享接口。数据共享平台向用户提供数据查询界面,查询到目标数据后124、,可以进一步定制成共享任务,共享任务可以通过两种接口提供服务:FTP、Restful,并且Restful接口支持实时查询和离线查询,当通过Restful接口查询的数据较大时,会出现不同程度的延迟,用户可以通过Restful接口查询任务执行的进度,任务执行完成后可以离线下载。数据共享平台的共享接口都不依赖用户的技术平台,可以通过业务元数据查询任意的指标数据。内置丰富的统计分析方法,提升数据探索效率。平台除了提供友好的交互界面,还内置了各种统计分析算法,可以供数据分析人员直接调用。尤其是提供真实的训练样本和测试样本,供分析人员验证机器学习的算法。数据共享主要是面向数据分析人员和分析专题系统的,面向125、数据分析人员的功能模块要具备人性化的交互界面和丰富的统计分析方法,而面向分析专题的功能模块要具备标准的接口和扩展能力。4.2.11 智能分析管理能力智能分析管理提供一个贯串模型全生命周期支撑企业级数据挖掘的管理能力。包括数据挖掘算法管理能力、模型全生命周期管理能力和模型运行管理能力。【功能定义】系统从算法创建、实现、上线、变更到算法下线、还原这几个流程来实现算法全生命周期管理。不仅为其他系统提供调用接口,支撑元数据要求,流程管理要求、ESB要求等,还具备智能化搜索、精准匹配、完善的算法优化变更机制,满足对各类模型的全面支撑,充分保证对于各种类型数据的深度分析。【功能要求】【功能要素】图 数据挖126、掘算法图图 模型生命周期管理图4.2.12 知识共享能力基于模型和算法知识,通过知识发现、知识使用、知识贡献过程为各级用户提供知识共享能力。【功能定义】知识共享能够快速为具体的分析应用推荐相匹配的模型,使江苏XX各个级别的分公司能够有效地接触和应用相关的模型信息,实现模型的智能化、自动化推荐。知识共享为市场人员、业务分析人员、数据处理人员、数据挖掘人员和模型管理人员提供了模型和算法知识的共享生态圈:模型和算法的知识发现、模型和算法的知识贡献、模型和算法的知识使用。【功能要求】知识发现包括提供多种手段,供用户在知识库中检索到需要的知识。知识使用包括将系统中现有模型推荐给其他地市分公司使用,或者直127、接推荐给省公司进行推广。知识贡献包括用户各自进行信息积累,逐步形成各种知识,并贡献出来和大家分享。系统将各种知识进行分类、知识标题、知识内容介绍、知识使用范围、知识营销效果,知识针对对象等内容,将此内容按照规则维护进知识库,用户可以对知识进行检索,查询适合的知识库内容。地市分公司可以根据各知识的运营效果进行查阅,确认知识是否符合本地市的实际需求,然后进行是否要推广;若知识在地市推广效果比较好,可以进行分享至知识库,省公司统一进行分享推广,促使知识库内容效果最大化。4.2.13 挖掘模型支撑4.2.13.1 用户交往圈模型客户在日常生活中, 客户身边的会存在稳定的交往人群,客户群中通过语音通信和128、短信手段进行联系,本模型将设计算法对客户之间联系的相互影响进行评价,构建客户交往圈,对客户在自己的交往圈中所处的地位进行评估,发现交往圈中的核心客户和从属客户;4.2.13.1.1 模交往圈构建交往圈的形成有很多平台,本次主要选用语音交往圈和短信交往圈,为主要的交往平台,以此为基础构建交往圈模型。设计整体流程图(以单业务为例):4.2.13.1.1.1 语音平台交往圈首先选取客户月通话详单,选取与用户发生通话行为的所有的对端号码集合,计算出客户与对端号码的通话频度(主要衡量指标)、平均通话时长、平均通话次数等属性。属性解释及计算方法如下l 通话频次通话频度:衡量一定时间内(一般以月为单位)某个129、号码的每个对端号码在该号码交往圈中出现的交往频率,计算此频度时综合考虑对端号码出现的天数、周数、旬数,可以降低一些临时性突发通话号码的干扰,确保通话比较有规律的号码通话频度高,提高频率计算的精确性。综合考虑日、周、旬出现的通话频度计算方法如下: Freq=(Dn+Wn+Pn)/C C:常量,表示某客户连续的一个时间段内的天数 Dn:某交往对象在C天内与该客户有交往行为的天数 Wn:某交往对象在C天内与该客户有交往行为的周数 Pn:某交往对象在C天内与该客户有交往行为的旬数例如:某号码与A和B在30天内的通话次数都是6次,但与A的通话集中在2周内,并且在同1个旬度内,而与B的通话分散在5周内,并130、且分散在3个旬度内,相比之下,该号码与B的交往更加有规律和稳定,与B的通话频度FreqB就高于与A的通话频度FreqA;从与C和B通话对比看,与C的通话次数10次,高于与B的通话次数,但由于与C的通话非常集中,C的通话频度FreqC低于更有规律性的B。l 通话次数通话次数:衡量一定时间内(一般以月为单位)某个号码的每个对端号码在该号码交往圈中通话的次数的量化指标。通话的次数多少,在一定程度上表示关系紧密程度。计算方法:平均通话次数=总通话次数/有效通话天数.l 通话时长通话时长:衡量一定时间内(一般以月为单位)某个号码的每个对端号码在该号码交往圈中通话的时间的量化指标。通话的时间长短,在一定程131、度上表示关系紧密程度。计算方法:平均通话时长=总通话时长/有效通话天数.交往指数计算交往指数:衡量一个移动号码的交往号码与其交往程度的量化指标,以通话频度、通话时长、通话次数加权计算,以通话频度占主要权重,通话时长、通话次数占次要权重,具体权重各省可以通过测试后确定。模型算法:第一步:首先将属性值进行归一化处理,目的是将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量,避免具有不同物理意义和量纲的输入变量不能平等使用。为保持数据之间的大小关系性,本次采用线性归一化。线性归一化公式Y=(X-MinValue)/(MaxValue-MinValue)说明:x、y分别为转换前、后的值,MaxV132、alue、MinValue分别为样本的最大值和最小值。第二步:各属性乘以权值后,整体相加得出交往指数。其中,为属性归一化后的量值;为相应属性权重。计算公式:=(call_freq,call_dura,call_counts)为语音交往圈的交往指数。4.2.13.1.1.2 短信平台交往圈短信平台交往圈算法实现过程同语音交往圈实现过程相同,区别在于属性选取的不同,短信交往圈选取短信月数据中短信频次、短息条数两个属性。其他计算方法相同,最终计算出计算公式:=(mes_freq,mes _counts)为短信平台交往圈的交往指数。4.2.13.1.2 交往圈多平台融合客户之间能够实现通信和联系的平台133、很多,我们最终希望得到的是多平台统一后的交往圈,所以要对交往圈进行融合。计算公式如下: 其中,Vi为平台权重,且Vi=1,i(1M),M为平台数量;为交往指数。最终得到的权值为客户最终的交往圈模型。本模型平台选取语音平台和短信平台,语音平台为主,所以相对的阀值应偏大。4.2.13.1.3 去除干扰号码干扰号码:非客户的特定交往圈的公共号码(如10086)或在系统全集中为非唯一的号码(如VPN短号)为干扰号码,这些号码的存在会干扰交往圈识别的准确性,需要对这些干扰号码进行排除,干扰号码提取有如下几种参考:单位总机号码、市政特服号、运营商特服号、VPN短号等均可判定为干扰号码。4.2.13.1.4134、 交往圈大小选定我们知道每个人交往圈的大小是不固定的,下面解决在交往圈中提取有效交往圈的方法,有效交往圈的确定:根据计算出来的交往指数大小对全集交往圈中的交往号码进行排序,提取交往指数高的号码建立有效交往圈,具体提取的号码数量根据客户的消费层次确定,不同消费层次的客户段(可以根据客户的ARPU分段)所具有的交往圈大小不同,需要提取的有效交往号码个数也不同,消费层次越高有效交往圈的交往号码取数范围越大,具体取值各省可以根据测试结果或经验值进行识别(例如经验值为分10个消费层次,有效交往圈交往号码取数范围为10-16之间,实际各消费层次取得的有效交往圈大小均值在6-15之间)。利用客户的消费金额,135、将消费金额和参数配置表中的消费层次作对比,提取对应的有效客户的个数。利用查询到的有效客户的个数和排名信息提取客户和不同对端号码通话的信息。例如,确定的提取有效联系人个数信息如下表:下限上限有效联系人说明0506总费用大于0小于50元的客户取前6个通话号码50808总费用大于50小于80元的客户取前8个通话号码8012010总费用大于80小于120元的客户取前10个通话号码12020012总费用大于120小于200元的客户取前12个通话号码20030014总费用大于200小于300元的客户取前14个通话号码30050016总费用大于300小于500元的客户取前16个通话号码50080018总费用136、大于500小于800元的客户取前18个通话号码800100020总费用大于800小于1000元的客户取前20个通话号码1000150024总费用大于1000小于1500元的客户取前24个通话号码15005000030总费用大于1500以上取前30个通话号码4.2.13.2 信用度模型在电信企业中,客户信用度是用于评价客户欠费风险的指标,通过评估客户的信用度,可以合理地确定客户信用额度,及时发现并控制恶意欠费的行为,减少话费流失比例。从传统的电信客户信用度评估来看,很多都是利用线性公式对相关客户属性的权值简单的相加,计算出信用度分值,但是通过大量应用来看,客户信用度与各相关属性之间并不是简单的线137、性关系,而是非线性关系,因此本模型设计采取神经网络算法对信用度进行拟合、评估。4.2.13.2.1 属性选取在客户的众多属性中,选取合适属性对神经网络的准确率是至关重要的。本次模型选取的属性为:在网时长、平均月消费、业务订购数目、是否参加集团网、是否实现业务捆绑、在有效交往圈中XX用户所占比例等属性。相关属性解释:l 在网时长:以用户入网时间为起点,到统计日期为终点的有效时段。l 平均月消费:在一段时间内(选取最近3个月)的平均月消费。l 业务订购数目:选取当前时段客户订购的多种类业务,订购的业务种类越多,信用度相对越高。l 是否参见集团网:是否是集团网成员、亲情网成员、情侣号等。l 是否实现138、业务捆绑:如参与合约购机、固网绑定等。l 有效交往圈中XX客户所占比例:身边的交往圈人群中是XX客户占总交往圈人数的比例。4.2.13.2.2 神经网络算法以上选的属性值之间没有线性关系,但都是影响、评价一个客户的信用度的重要属性。故采用神经网络算法对数据进行拟合处理。并且神经网络有很好的数据承载能力,对离散型数据有很好的拟合效果。4.2.13.2.2.1 数据归一化处理 因为选取的属性为不同量纲,对于连续型的属性进行归一化处理,线性归一化公式Y=(X-MinValue)/(MaxValue-MinValue)说明:X、Y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大139、值和最小值。离散型数据可以不用处理。4.2.13.2.2.2 样本选取在客户中选取在网时间长和相对稳定的客户群,在其中随机选取一部分人作为正样本,同时选取当月恶意欠费用户,随意其中部分用户为负样本。4.2.13.2.2.3 整体算法流程图样本训练流程图 客户群计算信用度流程图从上图可知,首先对样本数据进行训练,得出训练规则,第二步对待检测用户,运用训练规则,得出我们想要结果信用度。这个算法的核心就是神经网络算法,他在整体上对样本数据进行属性上的数据拟合。其流程图如下: 神经网络流程图4.2.13.2.3 模型算法分析通过以上算法,可以构建出用户的信用度,对信用度过低用户可以实现及时的重点监控和140、挽留等营销措施。对于后期模型优化,我们采取定期检查适配准确率,如果发现准确率下降,则更换样本重新进行规则挖掘。4.2.13.3 用户偏好识别模型基于对用户偏好的分析,挖掘单产品市场发展潜在机会,提升产品价值;利用用户偏好的关联,结合业务本身特性,设计数据业务产品包,为内容精确营销提供支撑。4.2.13.3.1 偏好标签类别4.2.13.3.1.1 内容偏好用户偏好最直观和有效的数据体现在用户上网行为上,所以我们对用户的基本信息与账单信息以及互联网解析数据综合进行考虑,主要以上网数据为基础,识别用户偏好。我们首先提取互联网解析中的内容解析数据,如下所示:军事娱乐新闻游戏影视上网次数上网天数我们选141、取部分用户,提取上述信息。对每种内容偏好一个月使用5天以上、次数在20次以上的视为有粘度偏好,记录为1,否则为0。我们分析每个用户的有粘度偏好。如下所示某些用户的互联网内容偏好数据如下:军事娱乐新闻游戏影视用户111001用户201010用户301100用户411010用户510100用户601100用户710100用户811101用户9111004.2.13.3.1.2 增值业务偏好l 客户增值业务偏好标签的数据来源是客户基础画像及客户业务画像,及网络层、经分侧所获取的CMNET/CMWAP网关日志数据、URL分类数据等;重点根据客户对各项业务、产品及数字内容的使用行为,确定客户对具体增值业142、务的偏好情况;l 客户增值业务偏好标签以单个客户为最细颗粒度,用简明扼要的自然语言描述客户是否对某项业务、产品或数字内容具有偏好;l 根据具体运营需要,客户增值业务偏好可分为客户业务偏好、客户产品偏好及客户数字内容偏好,分别描述客户对具体业务、产品及数字内容的偏好情况;l 客户增值业务偏好标签需根据运营需要,进行周期性的调整、更新;如以下增值业务:标签示例标签内容参考构建方法飞信爱好者表述客户对飞信业务具有偏好根据客户登录飞信的频次及登录QQ等其他第三方平台的频次进行分析,构建偏好标签。彩铃爱好者表述客户对彩铃业务具有偏好根据客户使用彩铃业务的情况以及使用其他第三方提供音乐服务业务的情况进行分143、析,构建偏好标签。4.2.13.3.2 营销模型算法一个人的偏好会有很多,而且在众多偏好中,偏好之间在默写方面是有关联关系的,我们从上面知道的是用户已知的偏好,只要找到和用户现有偏好有关联规则的,向其推荐有关联规则关系的偏好产品。我们采用Apriori算法计算每种内容之间的关联规则,选取支持度在20%,置信度在60%以上的关联规则。如上述用户偏好记录,利用Apriori算法寻找所的频繁项集的过程如下:详细介绍下候选3项集的集合C3的产生过程:从连接步,首先C3=(军事, 娱乐,新闻),(军事, 娱乐, 影视),(军事,新闻,影视),(娱乐, 新闻, 游戏) ,(影视,娱乐, 新闻),(娱乐,游144、戏,影视)(C3是由L2与自身连接产生)。根据Apriori性质,频繁项集的所有子集也必须频繁的,可以确定有4个候选集(军事,新闻,影视),(娱乐, 新闻, 游戏),(影视,娱乐, 新闻),(娱乐,游戏,影视)不可能是频繁的,因为它们存在子集不属于频繁集,因此将它们从C3中删除。注意,由于Apriori算法使用逐层搜索技术,给定候选k项集后,只需检查它们的(k-1)个子集是否频繁。Apriori算法流程图如下:根据关联规则得出用户未经常访问但接受概率较大的互联网内容,然后向用户推荐这些内容的自有业务或是制定相应的营销策略。对于后期模型优化,我们采取定期检查适配准确率,如果发现准确率下降,则更换145、样本重新进行规则挖掘。4.2.13.4 用户理财模型我们对用户的基本信息与账单信息以及互联网解析数据综合进行考虑,进行自有业务的适配,将用户与自有业务进行搭配。4.2.13.4.1 属性选取我们选取一定数量的自有业务使用用户,提取这些用户的如下数据:用户级别入网时间性别年龄费用合计本地通话费国内长途费漫游通话费短信费互联网使用行为4.2.13.4.2 模型算法对于自由业务推荐的物品,首先我们选用的是协同过滤算法,推荐系统应用数据分析技术,找出用户最可能喜欢的东西推荐给用户,现在很多电子商务网站都有这个算法。目前用的比较多、比较成熟的推荐算法是协同过滤推荐算法,它的基本思想是根据用户之前的喜好以146、及其他兴趣相近的用户的选择来给用户推荐物品。我们选择其中的User-based算法。User-based的基本思想是如果用户A喜欢物品a,用户B喜欢物品a、b、c,用户C喜欢a和c,那么认为用户A与用户B和C相似,因为他们都喜欢a,而喜欢a的用户同时也喜欢c,所以把c推荐给用户A。该算法用最近邻居(nearest-neighbor)算法找出一个用户的邻居集合,该集合的用户和该用户有相似的喜好,算法根据邻居的偏好对该用户进行预测。我们基于这些用户选取每个用户相似度最高的前20名用户进行相关自有业务的推荐,即相似用户推荐原则。用户的相似度计算方法如下:其中示用户打分的平均值。4.2.13.4.3 147、算法流程图过程如下所示:自有业务使用用户自有业务相似业务最相似用户4.2.13.4.4 输出数据算法实施后,下面举例说明我们选择A用户为要推荐用户,用A用户分别和B、C用户求相似度,得出推荐的业务为业务3。用户自有业务1自有业务2自有业务3推荐业务要推荐用户A喜欢3相似度比较用户B喜欢喜欢喜欢相似度比较用户C喜欢喜欢同时也可以按用户使用应用对应自有业务推荐场景名称对应自有业务场景应用使用QQ客户端客户QQ针对使用QQ客户端的客户推荐使用飞信使用起点中文网客户端或访问起点中文网客户手机阅读针对使用起点中文网客户端或访问起点中文网客户推荐使用手机阅读使用kugoo音乐客户端客户无线音乐针对使用ku148、goo音乐客户端客户推荐使用无线音乐使用土豆网客户端客户手机视频针对使用土豆网客户端客户推荐使用手机视频使用新浪微博客户端客户139微博针对使用新浪微博客户端客户推荐使用139微博使用访问人人网的客户139社区针对访问人人网的客户推荐访问139社区使用百度地图或google地图的客户手机地图针对使用百度地图或google地图的客户推荐使用手机地图4.2.13.5 合约用户管控模型4.2.13.5.1 应用目标:电信运营商在日常运营中经常采取合约营销策略,这种策略在一定程度上加大了客户对运行商的业务的粘性,但是也出现了户合约期内恶意欠费现象,本模型找出具体KPI指标,并及时监控。为运行商提供数据149、支撑,对到期用户及时续约。4.2.13.5.2 流程概述整体监控流程图4.2.13.5.3 基础数据本次主要以以存费送费、存费送机、购机送费三类用户为基础数据,对用户群的套餐使用、合约情况等数据及时监控。套餐流量运营需要的基础信息如表所示:数据内容字段信息客户基本信息客户号码、地域、品牌、性别、年龄层次、消费层次、IMEI流量套餐信息套餐名称、套餐类型、套餐流量、套餐月租客户流量套餐订购信息客户号码、流量套餐名称客户流量使用信息客户号码、网络类型、使用流量、流量费用终端信息TAC、型号、操作系统、网络制式终端参数配置方法TAC、终端参数配置方法4.2.13.5.4 监控分析本模型的重点就是对以150、上用户群的关键KPI指标及时监控,一下是需要监控的指标。合约捆绑客户总数在统计周期内,办理合约计划的核心客户总数。合约捆绑率(%)合约捆绑客户总数在核心客户数中的占比。计算公式:合约捆绑率 = 合约捆绑客户数 / 核心客户数 x 100%。硬捆绑客户数在统计周期内,参与签约类活动的客户数,如存费赠费、存费赠终端等。软捆绑客户数在统计周期内,有粘性业务的客户数,如农村V网、集团V网、家庭亲情网等。本月新增合约捆绑客户数在统计周期内,新增的合约捆绑客户数。本年累计新增合约捆绑客户数当年累计增加的合约捆绑客户数。终端补贴(元)终端营销案中使用的补贴,如话费补贴、成本补贴。话费补贴(元)终端营销案中使151、用的话费补贴。ARPU分档平均每客户业务收入的分档。 ARPU排名分档平均每客户业务收入排名的分档。 在网时长层次客户自入网之日起,连续使用运营商通信服务累计时长的分档。 VIP等级VIP客户的分类。包括以下分类: 非VIP客户 贵宾卡客户 金卡客户 银卡客户 钻石卡客户合约捆绑类型合约计划的分类。包括以下类型: 软捆绑 有粘性业务,如家庭套餐、V网等。 硬捆绑 参与签约类活动,如终端合约计划等。合约捆绑到期时间分档核心客户合约捆绑到期时间的分档。 合约捆绑周期分档核心客户合约捆绑周期的分档。 合约捆绑终端品牌核心客户合约捆绑终端的品牌。 合约捆绑终端型号核心客户合约捆绑终端的型号。 4.2.152、13.5.5 服务策略根据KPI的重点指标,选择营销策略,如指标“合约捆绑到期时间分档”,在这个里面可以选择需要的档位,然后在这些用户中,如果可以提前续约,则可以返话费活动等等。4.2.13.6 客户价值细分模型客户的价值体现在很多方面,本次将以客户在稳定度、客户流失、客户贡献等级三个角度建立客户价值模型。4.2.13.6.1 稳定度和忠诚度分析4.2.13.6.1.1 属性选取在客户的众多属性中,选取合适属性对神经网络的准确率是至关重要的。本次模型选取的属性为:在网时长、平均月消费、业务订购数目、是否参加集团网、是否实现业务捆绑、在有效交往圈中XX用户所占比例等属性。相关属性解释:l 在网时153、长:以用户入网时间为起点,到统计日期为终点的有效时段。l 平均月消费:在一段时间内(选取最近3个月)的平均月消费。l 业务订购数目:选取当前时段客户订购的多种类业务,订购的业务种类越多,信用度相对越高。l 是否参见集团网:是否是集团网成员、亲情网成员、情侣号等。l 是否实现业务捆绑:如参与合约购机、固网绑定等。l 有效交往圈中XX客户所占比例:身边的交往圈人群中是XX客户占总交往圈人数的比例。神经网络算法以上选的属性值之间没有线性关系,但都是影响、评价一个客户的稳定度的重要属性。故采用神经网络算法对数据进行拟合处理。并且神经网络有很好的数据承载能力,对离散型数据有很好的拟合效果。数据归一化处理154、 因为选取的属性为不同量纲,对于连续型的属性进行归一化处理,线性归一化公式Y=(X-MinValue)/(MaxValue-MinValue)说明:X、Y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。离散型数据可以不用处理。样本选取在客户中选取在网时间长和相对稳定的客户群,在其中随机选取一部分人作为正样本,同时选取当月恶意欠费和离网用户,随意其中部分用户为负样本。模型算法神经网络算法如下所示: 神经网络流程图4.2.13.6.1.2 客户流失客户流失分为两种,一种是价值流失,如核心客户流失为普通用户等,第二种是离网流失,本次将建立价值用户流失模型和离网预警155、模型。价值流失预警分析价值用户识别因为本次设计是根据价值流失用户,所以下列给出参考的价值用户。模型名称数据输入计算模型高数据ARPU用户近2个月数据ARPU连续2个月数据ARPU平均值大于25元(参考值,建议该阈值通过整体客户的前20%取值)高数据流量用户近2个月手机上网流量连续2个月手机上网流量平均值大于60MB(参考值,建议该阈值通过整体客户的前20%取值)高短信流量用户近2个月短信条数连续2个月短信流量平均值大于60条(参考值,建议该阈值通过整体客户的前20%取值)高价值客户预警及原因定位流失原因口径双卡用户通过双卡模型识别是否为新增双卡用户总ARPU下降总ARPU值下降幅度大于数据AR156、PU下降幅度数据业务退订付费型数据业务退订短信套餐变更 短信套餐包退订或降级数据流量套餐变更数据流量套餐包退订或降级终端变更本期新换机短信业务分流短信量下降流量上升其它非以上原因均归为其它通过提取以上情况数据信息,标注价值流失用户。离网流失预警属性选取选取用户的ARPU环比、流量使用环比、交往圈中其他网络运行商用户占比,是否退订业务、外网通话次数占总通话次数占比。l ARPU环比:本月ARPU/上月ARPU。l 流量使用环比:本月流量使用/上月流量使用。l 交往圈中其他网络运行商用户占比:交往圈中外网用户/交往圈总人数。l 是否退订业务:最近一个月发生了退订了相关业务行为。l 外网通话次数占总157、通话次数占比:客户与网外用户通话次数/全部通话次数。模型算法 采用神经网络算法,具体算法如标题1.2.3所示。4.2.13.6.1.3 客户贡献等级用户的贡献取决于用户在运行商消费的净利润。计算公式:用户净利润=用户消费总额-运行商成本l 用户消费总额:用户的消费的ARPU(实际贡献)=用户消费金额优惠金额。l 运行商成本:由运行商山给出。根据公式计算出每个用户的用户净利润,并且计算连续3个月用户净利润的平均值,根据用户3个月净利润平均值,将用户划分档次。并将利润标准进行归一化处理。例如用户净利润等级贡献划分标准用户等级用户人数所占比例一等0.91.0核心客户如 10%二等0.60.9高价值客158、户如 40%三等0.20.6普通客户如 45%四等0.00.2沉默客户如 5%4.2.13.6.1.4 客户价值细分营销通过上述步骤可以实现用户的价值细分,如用户稳定度价值等级是否价值流失是否离网倾向用户10.7高价值00用户20.9核心00用户30.8高价值10用户40.8普通户用01用户50.3普通户用11如上图所示,用户1和用户2稳定,并且没有价值流失和离网倾向,属于忠诚用户,可以向其推荐新产品和新业务。用户3属于价值流失客户,应采取价值维稳策略,使其回到高价值用户档位。针对2.1.2价值客户流失预警采取维挽措施举例:流失原因挽留措施双卡用户用户特征:存在离网倾向挽留措施:纳入核心客户保159、有系统,由客户经理实施一对一监控、服务总ARPU下降用户特征:存在离网倾向挽留措施:纳入核心客户保有系统,由客户经理实施一对一监控、服务;数据业务退订用户特征:退订的数据业务不感兴趣挽留措施:数据业务专属优惠:设计高价值专属打折优惠包(半年包、一年包),利用更低的优惠政策和一定的优惠时限达到保有效果。短信套餐变更用户特征:短信需求下降挽留措施:引导客户纳入短彩会员俱乐部,赠送精品会员内容,进行积分兑换回馈等。数据流量套餐包退订用户特征:流量需求变化挽留措施:根据用户内容、业务偏好,进行常态化营销活动,近期热门内容推荐以达到保有效果。终端变更用户特征:终端需求变化挽留措施:智能机变更为功能机,推160、低端合约机;智能机更换,根据智能机型号,推荐匹配智能机型号的业务产品短信业务分流用户特征:使用手机QQ、飞信等即时聊天工具挽留措施:推荐短信套餐包,纳入短彩会员俱乐部,赠送精品会员内容,进行积分兑换回馈,其它包含主动、被动原因导致高价值用户发生预警流失,可通过市场调研了解用户流失原因用户5则是高危离网用户,建议采取合约绑定、套餐捆绑等措施,对其进行保有优惠政策。4.2.13.7 客户终端偏好模型潜在用户与终端匹配模型建立潜在用户与定制终端的适配关系,为帮助业务人员向潜在用户推荐合适的终端提供支撑,提高定制终端营销的成功率。4.2.13.7.1 属性选取换机次数、近3个月平均ARPU、使用过的终161、端型号、换机周期、订购业务,终端持有时长、交往圈中智能终端比例等;4.2.13.7.2 分类方向将潜在用户分为换机发烧类、价值导向类、业务捆绑类、品牌忠诚类,如表所示:潜在用户类别业务界定终端匹配思路换机发烧类换机次数大于X,X根据历史数据确定;换机周期小于Y,Y根据历史数据确定;结合用户消费能力、业务捆绑、品牌忠诚等,着重向用户推荐新上市机型用户。价值导向类用户平均消费大于Z,Z根据历史数据确定;结合用户消费能力,推荐符合用户消费能力价位的机型,再结合业务捆绑、品牌忠诚、换机周期等筛选机型。业务捆绑类用户对某类业务的使用量大于M,M根据历史数据确定;结合用户价值、品牌忠诚、换机周期等,根据重162、点业务的偏好程度向用户推荐支持该业务的手机。品牌忠诚类用户使用某品牌手机、操作系统次数或时间占比大于N,N根据历史数据确定;结合用户价值、业务捆绑、换机周期等,着重向用户推荐用户忠诚品牌手机。4.2.13.7.3 模型算法4.2.13.7.3.1 合约平移对合约即将到期用户,实现终端相应价位和终端档次的推荐,使到期用户能够继续续约,不会出现离网等现象。4.2.13.7.3.2 分类方向划分算法换机发烧类、价值导向类、业务捆绑类、品牌忠诚类分类规则如下:将潜在用户换机频率、平均消费、粘性业务、终端品牌进行量化。例如,某个潜在用户换机频率大于X,确定该用户为换机发烧类用户,X由各省公司自行设定;用163、户平均消费大于Z,确定该用户为价值导向类用户;用户对某项粘性业务(手机邮箱、手机证券等)的使用量大于M,确定该用户为业务捆绑类用户,具体的业务类型由各省根据情况确定;用户使用某手机品牌次数或时间大于N,确定该用户为该品牌忠诚类用户,N根据经验值进行确定。终端偏好类型主要按照上市时间、销售价格、支持粘性业务情况、品牌进行分类,并与潜在用户的分类进行对应。4.2.13.7.4 数据输出用户姓名、手机号码、年龄、性别、入网时间、所在区域、品牌、用户等级、ARPU、当前终端使用起始时间、当前使用终端型号、推荐终端品牌、推荐终端机型、推荐终端价格等。4.2.13.8 产品健康度评估模型4.2.13.8.164、1 业务背景构建产品健康度评估模型,客观评估产品发展情况,以辅助建立对高价值核心产品的重点扶持和低价值末端产品的淘汰机制,提升产品的积极性。通过对流量套餐的使用、成本和收益情况进行监控,评估套餐的效益,为业务人员进行套餐资费设计提供依据。4.2.13.8.2 设计流程整体设计流程图4.2.13.8.3 基础数据所需基础数据如下: 数据内容字段信息客户基本信息客户号码、地域、品牌、性别、年龄层次、消费层次、IMEI流量套餐信息套餐名称、套餐类型、套餐月租客户套餐订购信息客户号码、套餐名称客户套餐使用信息客户号码、网络类型、使用套餐、套餐费用终端信息TAC、型号、操作系统、网络制式终端参数配置方法165、TAC、终端参数配置方法4.2.13.8.4 监控分析指标从时间、地域、套餐类型、套餐月租档次、套餐档次等维度,展现套餐活跃率、套餐使用率、套餐收入、套餐收入贡献率、套餐实际单价、套餐实际收益等指标。具体指标解释如下:l 套餐类型:套餐种类划分;l 套餐月租档次:如0元、1-2元、5元、10元、20元、50元、100元、200元,可按实际情况自行定义l 套餐档次:如流量套餐,如0M、0-30M、30-60M、60-100M、100-150M、150-200M、200-500M、500M-1G、1G-2G、2G-5G、5G以上,可按实际情况自行定义。l 套餐活跃率:套餐使用用户数/套餐订购用户数166、;l 套餐使用率:套餐实际使用/套餐内包含;l 套餐收入:套餐收入,融合套餐可按财务分摊比例计算收入;l 套餐收入贡献率:套餐收入/总收入;l 套餐名义单价:套餐分摊收入/套餐内包含档次;l 套餐实际单价:套餐分摊收入/套餐实际作用产生费用;l 套餐实际收益:如流量套餐,计算公式套餐实际流量单价-单位流量成本,单位:元/MB;l 单位成本:可按实际情况自行定义。4.2.13.8.5 模型算法根据产品的不同,在上述指标中选取的重点指标也有所不同,因为产品较多,根据实际情况而定。4.2.13.8.5.1 求均值求均值公式:第个指标。:指标数。:个指标的平均数。:第个指标值。4.2.13.8.5.2167、 标准化数据标准化公式Y=(X-MinValue)/(MaxValue-MinValue)说明:X、Y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。4.2.13.8.5.3 求产品健康度得分公式:i:第i个指标 。 n:指标数。 score(n):通过n个指标算出的价值得分index(i):第i个指标值。 weitht(i):第i个指标值的权重。例子:三个指标求健康度的得分score(3)=index(1)*weight(1)+index(2)*weight(2)+index(3)*weight(3)index(1): 第一个指标值。weight(1): 168、第一个指标值的权重。index(2): 第二个指标值。weight(2): 第二个指标值的权重。index(3): 第三个指标值。weight(3): 第三个指标值的权重。4.2.13.8.6 评估决策 运营人员对每项产品的得分,有实际决策权,可以综合考虑是否下线得分低的产品,或者增加得分高产品的营销活动力度。4.2.13.9 流动人口识别模型外来人口流动已经很频繁,对运行商贡献的潜力越来越大。流动人口识别分为两种,一种是外来人口未换卡。第二种是外来人口使用本地卡。第一种情况容易识别,主要是第二种情况,针对第二种情况采取决策树算法来识别外来用户使用本地卡人群。4.2.13.9.1 外来人口未换169、卡识别在客户群中匹配外地手机号码段,匹配出来号码后,提取停驻本省时长,对于停留时长大于某一段时间的用户推荐相应的优惠业务。(时间根据业务的要求进行提出)。4.2.13.9.2 外来人口换用本地卡识别4.2.13.9.2.1 属性选取在客户的众多属性中,选取合适属性对决策树的准确率是至关重要的。本次模型选取的属性为:在网时长、平均月消费、长途费中是否办理长度优惠套餐、有效交往圈中外地号码比例等属性。相关属性解释:l 在网时长:以用户入网时间为起点,到统计日期为终点的有效时段。l 平均月消费:在一段时间内(选取最近3个月)的平均月消费。l 长途费中是否办理长度优惠套餐:业务订购是否办理优惠套餐。l170、 是否实现业务捆绑:如参与合约购机、固网绑定等。l 有效交往圈中外地号码比例:身边的交往圈人群中是外地号码占总交往圈人数的比例。4.2.13.9.3 决策树算法以上选的属性值之间没有线性关系,但都是影响、识别外来客户的信重要属性。考虑到外来人口的停留时长不同,故采用决策树算法,决策树算法对数据处理较快,能够快速识别我们所需的用户群。4.2.13.9.3.1 数据归一化处理 因为选取的属性为不同量纲,对于连续型的属性进行归一化处理,线性归一化公式Y=(X-MinValue)/(MaxValue-MinValue)说明:X、Y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大171、值和最小值。离散型数据可以不用处理。4.2.13.9.3.2 样本选取在客户中选取在外来人口的客户群,在其中随机选取一部分人作为正样本,同时本地人群中,随意其中部分用户为负样本。4.2.13.9.3.3 整体算法流程图算法整体流程图从上图可知,首先对样本数据进行训练,得出训练规则,第二步对待检测用户,运用训练规则,得出我们想要结果分类人群。这个算法的核心就是决策树算法,下面介绍决策树算法。决策树算法是一个分类算法,他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策172、树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测分类。决策树算法主要包括:ID3、CART、C4.5等。其流程图如下:决策树流程图4.2.13.9.4 模型算法分析通过以上算法,可以构建出外来用户识别过程,最终找出外来人口,并且可以对外来人口实现及时的重点监控和保有、价值挖掘等营销措施。对于后期模型优化,我们采取定期检查适配准确率,如果发现准确率下降,则更换样本重新进行规则挖掘。4.3 数据管控平台4.3.1 数据质量管理随着企业信息化建设的全面展开,企业对数据的依赖程度也在加大,数据质量的好坏173、直接关系到信息的准确程度,也影响了企业的生存和竞争能力。为了及时定位和解决系统各环节的数据质量问题,保证数据质量的稳定可靠,迫切需要对数据质量进行管理,从完整性、及时性、有效性、准确性、一致性五个方面保障系统数据质量。4.3.1.1 应用场景在保障数据质量过程中面临的应用场景包括:1、 数据质量监控对数据处理流程的重要环节设置监控点,监控该环节的数据质量情况,如果不在阈值范围,给出告警。2、 数据质量评估对系统运行一段时间的历史数据的质量情况进行评估,分析其数据质量变化趋势,优化当前数据处理流程。3、 关键指标核查系统工具自动生成关键指标核查报告,展现每天的关键指标的数据质量。4.3.1.2 174、特色亮点1、数据处理流程拓扑化数据处理拓扑图是由数据管控平台和源系统接口之间的数据处理各环节组成,图形化呈现整个数据处理流程,能直观展示各监控环节的数据质量情况,方便数据质量问题的溯源分析。附图52. 数据处理流程-示意图2、灵活的规则配置管理数据质量核查规则可配置,用户可以根据业务不同和对数据质量的要求,设置数据处理流程中的监控点、合规值、权重,突出主次。4.3.1.3 功能介绍数据质量功能模块包括:数据质量监控、数据质量评估、关键指标核查、数据质量规则配置、系统自监控等功能模块。其中,l 数据质量监控:实时监控当前作业和任务采集数据质量,当发现不合规数据时,发出告警,并提供告警溯源分析;l175、 数据质量评估:展现系统历史数据的数据质量变化趋势,为数据处理的优化提供理论依据;l 关键指标核查:系统每日自动生成报告,提供用户查看关键指标的数据质量,及时发现网络隐患;l 数据质量规则配置:提供数据质量监控点的配置,利于及时发现问题环节;提供告警规则配置,满足不同业务具有不同数据质量要求的需求。l 系统自监控:提供数据质量任务的自监控,排除由于数据质量任务未按时执行或执行出错而影响业务系统数据质量结果的输出。4.3.1.3.1 数据质量监控数据质量监控为应用系统的数据处理流程提供实时监控,监控所有处理流程在完整性、及时性、一致性、有效性、准确性是否超出阈值范围,如果超出,发出告警,并提供告176、警溯源分析,追溯数据质量问题发生的原因。同时,以告警横轴方式呈现当前发生的数据质量告警数量和最大告警值的差距,让数据质量管理员在第一时间掌握系统当前的数据质量告警情况。例如,当前有采集任务MUTISMSG60,负责短信网关性能数据的采集,采集粒度是5分钟。配置该任务的完整性合格范围为780,800条,如果某次采集性能数据为753条,不在合格范围内,那么判定此次采集的数据不完整,发出一条该任务的完整性告警。附图53. 数据质量管理-数据质量监控如果用户想知道此次数据不完整的原因,则点击该告警流水号,进入告警溯源分析页面。用户可查看该采集任务的数据处理流程拓扑图及质量监控点,查看数据质量监控点上的177、质量详情,分析各环节的质量指标,最终找到质量告警发生的环节和原因。4.3.1.3.2 数据质量评估数据质量评估是对历史时期数据处理流程采集的数据质量进行统计,从时间、数据质量特性、任务等维度去分析某段时期内系统采集的数据质量水平。通过从系统到任务逐层分析数据质量的变化情况,评估数据处理流程存在的问题和隐患,不断优化数据处理流程,使得“数据质量监控-数据质量评估-优化数据处理流程-数据质量监控”成为一个良性运行的闭环。质量评估主要包括告警数量统计、任务构成分析、QoE分析三部分。下图是告警数量统计模块,它从告警维度呈现了昨日完整性、及时性、有效性告警数量,分析了近一个月内告警数和任务数的变化趋势178、。通过统计告警数量,用户可轻松获得昨日系统的质量告警,掌握告警数量是在上升还是下降,任务数和告警数联动变化情况。附图54. 数据质量评估-告警数量统计任务构成分析是从任务的角度观察系统的数据质量波动,统计出告警任务的比重,并呈现告警数量排名前十的任务,用户可重点考察频繁发生数据质量告警的任务,支持采集任务下钻查看,进一步分析其采集数据质量不好的原因,优化数据处理流程或重新配置告警规则。附图55. 数据质量评估-任务构成分析QoE分析模块是从系统级角度查看昨日系统的DQ健康度及QoE水平,对比分析上月和本月QoE差距,并呈现近一个月的QoE水平变化趋势,让用户从系统整体角度把握数据质量。附图56179、. 数据质量评估-QoE分析4.3.1.3.3 关键指标核查在获取业务系统数据过程中,每个专业都有一些关键指标,这些指标直接反映了本专业的业务情况。用户特别是领导尤其关注此类指标,每日必看,需要对关键指标的数据质量提供核查报告。关键指标核查报告每日定时自动生成,包括了全网重点关注指标、各专业重点关注指标、区域重点关注指标的数据核查结果,并给出核查结论。实际操作时,可根据各省用户关注点的不同,内容可相应做出调整。由于工作日和节假日(分为普通节假日即周末和国家法定节假日)的指标值差异明显,故关键指标核查报告分为工作日和节假日两种。系统会根据系统时间判断当天是工作日、普通节假日还是法定节假日,并按各180、自的指标动态门限范围算法生成相应的关键指标核查报告。指标的动态门限范围算法建议参考如下:工作日:低门限值= min(每天小时粒度指标值)/90,(统计最近90个工作日)高门限值=max(每天小时粒度指标值)/90,(统计最近90个工作日)普通节假日:是指周末低门限值= avgmin(每天小时粒度指标值),(统计最近12个月的周六日)高门限值= avgmax(每天小时粒度指标值),(统计最近12个月的周六日)国家法定节假日:低门限值= avgmin(每天小时粒度指标值),(统计最近5年的国家法定节假日+每个节假日前后一天)高门限值=avgmax(每天小时粒度指标值),(统计最近5年的国家法定节假181、日+每个节假日前后一天)4.3.1.3.4 数据质量规则配置数据质量可支持核查规则配置,灵活地根据业务的变动和对数据质量的要求来调整数据质量核查的规则。核查规则主要是对每个数据处理流程设置合规值范围,以对采集结果是否发出质量告警做出判断。比如,核查某采集任务及时性的规则设置如下图,当延迟时间在0-120分钟以内,则及时性取值在90%-100%之间线性计算得到,及时性在此区间范围内,质量得分为5分。附图57. 数据质量规则配置-及时性附图58. 数据质量规则配置-一致性附图59. 数据质量规则配置-完整性附图60. 数据质量规则配置-准确性4.3.1.3.5 系统自监控系统自监控模块的功能是对数182、据质量核查任务进行监控和管理,避免由于数据质量核查任务未正常运行而导致应用系统采集任务数据质量告警的情况。系统自监控提供今天、最近3天、最近7天、最近30天的数据质量核查任务的执行情况,执行状态分为运行完成、运行中、ERROR、未定义、运行完成(有告警)五种状态,含义如下:l 运行完成:是数据质量核查任务的采集过程正常执行完成,采集到应用系统采集任务上的数据质量指标,且数据质量合格未发出告警;l 运行中:表示数据质量核查任务正在执行;l ERROR:表示数据质量核查任务执行出错;l 未定义:表示应用系统采集任务不进行数据质量监控,这时数据质量核查任务的状态为未定义;l 运行完成(有告警):是数183、据质量核查任务的采集过程正常执行完成,采集到应用系统采集任务上的数据质量指标,但由于数据质量不合格会发出告警,这时可链接详情查看对应的采集任务,跳转至告警溯源分析页面。4.3.2 数据采集4.3.2.1 统一采集任务管理采集任务统一管控;分接口分业务类型地呈现不同的数据采集任务;界面操作方便,向导式的数据采集任务定制,一站式的数据采集配置窗口界面,让使用者轻松操作;该功能模块主要是FILE、DB、SNMP、SOCKET、WEBSERVICE、IBMMQ、ACTIVEMQ、CORBA、TL1等8种接口的数据采集任务管理,其中SOCKET包括了SOCKET SERVER和SOCKET CLIENT184、,任务的创建、修改、删除、同步、采集机分配(动态或指定)等等相关步骤,这类任务包括从数据获取、数据解析、格式转换归一化、指标计算处理、数据输出处理、处理完成通知消息等一系列工作;且在所有接口的数据采集任务列表功能在保持现有功能基础上,增加数据采集任务一页显示功能;可以对数据采集任务里的元数据的进行修改;l 处理流程1、 在界面上创建或修改通用数据采集任务信息(接口元数据、环境元数据、输出元数据、调度规则等),且验证数据正确性;2、 如果验证正确,数据采集任务信息存入采集任务数据库表;指定采集机后,将采集任务消息下发到MQ;3、 采集机将接收到属于自己的采集任务消息分析,将采集任务消息存入到HS185、QLDB,并执行该任务;4、 如果是IBMMQ、ACTIVEMQ、CORBA的消息监听类的采集任务,该任务在侧一在运行,只有收到Server侧的任务停止消息后才停止监听采集;如是一次性任务,则数据采集任务结束;5、 该采集任务在采集机侧接收到数据消息体后,如果消息体是标准的XML格式,可以调用标准的XML解析器进行数据解析工作;如消息体是标准的文本格式,可以调用配置好的标准文本格式进行数据解析工作;如果消息体是比较个性化的格式,就需要调用特殊的解析器来处理数据解析工作;6、 执行完本次数据采集工作之后,给Server返回一条数据采集结果状态消息,给数据核查提供基础数据,如果采集任务是周期性任务186、,等待下一次调度;如果是一次性的采集任务,则采集任务结束;附图61. 采集任务管理流程l 约束已经下发或已经在服务端运行的数据采集通用任务,任务里所包含的元数据,在元数据管理模块是不能进行删除的;4.3.2.1.1 主动检测主动检测为主动采集的发起方。检测数据源端数据完整性,检测到数据完整后主动发送触发采集的消息。主动检测需要具有较高效率,最大限度降低由于检测造成的数据源侧负荷。检测功能主要包括检测任务生成和检测任务执行。检测任务生成需提供配置功能,可对检测对象、检测周期、理论数据条数、经验时间点等参数进行配置。各个数据源应当优先提供数据库接口,对于数据库接口可以根据设定的某测量当前时间的理论187、数据条数、该测量最近一段时间的平均数据条数和指标检查规则来检查数据源侧数据的完整性。对于其他接口方式可以根据具体的接口特性进行检测规则的设置。考虑到当前数据源侧的数据质量的不稳定因素,主动检测模块能够对数据源侧的数据入库时间戳进行识别,对于变化的数据应当具备重新采集的能力。也可以通过对数据源侧的数据库日志进行跟踪,感知数据变化从而触发采集。4.3.2.1.2 触发消息接收提供消息接收能力,即能够接收各业务系统发送的数据准备好通知消息,及时进行数据的采集,当业务系统进行数据补采后,也能及时触发进行数据补采,最大限度保持数据完整性。4.3.2.2 消息管理上层应用的数据订阅消息、采集平台反馈给上层188、应用数据准备完成的通知消息、采集平台服务侧与采集侧的任务下发消息、调度消息、采集状态反馈消息、各种采集侧的监控消息、采集机向服务侧的注册消息、应答消息、采集机的心跳消息等各种各样的消息,量大,这就促使了采集平台有一个消息管理功能,分门别类管理这些消息,让维护人员很清晰谁发了什么消息,谁应答了什么消息,一目了然;在界面能一目了然地看到,各个组件的的发送、接收消息的情况,如下:1、 上层应用发送到数据订阅消息、采集平台发送给上层应用的数据通知消息;2、 采集服务侧的各种接收和发送消息;3、 采集机侧的各种接收和发送消息;能够清楚管理各个组件所涉及到的消息,分门别类地呈现相应的消息;1、 按组件、按189、时间等条件查询相应的消息;2、 可以导出或删除这些消息数据;3、 消息呈现界面比较人性化,具备相应翻页、查询、导出等功能;4、 消息以日志方式呈现。附图62. 消息管理界面4.3.2.3 采集监控数据采集在项目中已经是一个非常普通的功能,而且根据接口方式可以轻松地开发接口程序,采集到数据;现在的项目中,不仅仅要采集到数据,还要监控采集适配接口、数据采集的过程、采集机的进程异常等;l 厂商数据源的接口信息发生变更时当厂家接口信息发生变更,能在监控周期内通过接口适配监控,并将监控结果反馈。根据监控的反馈结果,通知邮件或短信或报表的形式,通知或呈现给维护人员,及时手工修改采集适配接口信息参数,重新采190、集数据;l 采集机资源出现压力时可以对采集机进程所占资源进行监控,如采集机进程占用的CPU、内存,在采集任务下发时可以根据各采集机的资源占用负荷进行负载均衡;对采集机所在机器的资源进行监控,如采集机所在机器的内存量、磁盘空间等资源,及时让维护人员清楚服务器的资源情况;l 当某一个采集告警的接口10分钟没有接收到告警时某一个OMC告警量每分钟都不少时,如果这个告警接口在一定时间一条告警都没有收到,那说明是OMC不发告警或告警接口不正常;根据这个现场促使现场维护人员,及时手工干涉接口进行处理或通知厂家维护人员进行处理;l 丰富的监控手段保证采集稳定数据采集不仅能采集,而且能采集稳定,这就需要丰富的191、监控手段保证采集的稳定性和连续性。l 灵活的规则设置系统提供灵活的规则配置界面,让监控手段的配置更加人性化。产品从接口适配监控、数据上传监控、采集任务监控、采集机/消息中间件/采集服务等相应进程监控等方面监控,使得数据采集工作的稳定性、连续性、高效性。从而让数据采集变得可控。l 接口适配监控FILE接口适配监控DB接口适配监控SNMP接口适配监控SOCKET接口适配监控CORBA接口适配监控WEBSERVICE接口适配监控TL1接口适配监控l 数据上传监控监控采集任务的每次周期性的数据采集是否采集到了数据,数据输出的数据与采集到的数据一致,数据采集到数据与本次采集应该要采集到数据一致;如果监控192、到数据上传的异常,就能及时通知维护人员进行手工干涉。l 采集任务监控对采集任务采集数据是否正常,如长时间没有进行数据采集、采集任务没有按期启动或结束,等等相关异常情况进行监控,并输出该类型的监控事件,根据采集任务的告警策略,在监控事件中输出该类型的告警。l 采集机进程监控对采集机进程监控,及时发现采集机因为服务器的资源问题而导致的进程宕、僵死等现象发生,从而保证采集机进程健康地运行。l 消息中间件进程监控对消息中间件进程监控,能及时地发现由消息中间件产生的问题,从而导致采集机与采集机服务之间的消息数据传递通道不畅,从而影响采集任务的下发、采集任务运行状态上报等功能。l 采集服务进程监控对采集服193、务进程进行监控,让维护人员清楚地知道采集服务进程所占用的资源,如CPU、内存大少,从而清楚地知道随着数据采集的工作增多,是否需要增加硬件资源。l 告警展示不同的监控手段,会产生一定的监控事件,对产生的监控事件配置相应的触发告警的策略,当事件。附图63. 采集任务监控界面4.3.2.4 数据获取解析数据采集适配器负责按照接口类型、特性从不同的数据源通过文件接口、指令接口、数据库接口等方式从网元、OMC侧或其他网管侧获取基础数据,然后对获取到的原始数据进行格式标准化,写入数据缓冲区。采集适配器应当为支持二次开发的程序或组件,对于同一种接口类型、接口特性的多个数据源应当作为同一个程序的多个实例存在,194、而只针对不同的接口类型设定不同的适配器。采集适配器应当具备可视化的配置管理能力,即可以通过图形化界面对不同的数据源选择不同的采集适配器进行数据采集,并对不同的数据源根据实际需要,可视化的配置需要采集的数据范围和相应的约束条件。对于数据源侧的数据配置信息应当从元数据库中获取被采集侧元数据,并在采集模块的配置界面中通过可视化界面进行采集范围的选取。对于数据的格式标准化,遵照ODM-A相应模型的约定,尽量保持原有数据源侧的模型结构。4.3.2.5 数据智能补采根据数据的完整性情况,和数据补采策略,能够自动重新发起采集任务,把数据重新进行采集,保证数据的完整性,最大限度和数据源侧保持一致。4.3.2.195、6 任务调度由于数据采集模块需要发起大量的数据采集、转换、加载等任务,所以要求该模块具备完备的任务调度管理能力,能够对各类任务进行配置、启动、跟踪。并具备任务联动能力,即可以将多个任务通过流程组装成一个联合任务,各任务之间存在相互制约关系,任务调度管理能够根据各任务的执行状态、结果来自动的启动后续任务,任务间允许并发及串行两种模式。要求各任务的配置应当为可视化的配置。对于任务启动至少包括定时启动和条件启动两种模式。同时允许管理员进行任务的手动执行。4.3.2.7 数据可用性检查l 完整性采集前检测来源数据完整性,检测达标后自动触发采集运算;采集过程中分别对采集进程及采集数据进行监控,保障数据完196、整采集;核查来源数据缺失情况,输出核查报告。l 准确性建设内部数据核查流程,完善内部考核机制,保证接入数据准确性;建设数据异常判定流程,对数据异常能定位数据异常点,要求数据异常定位相对准确。明确区分是来源数据问题还是采集处理问题。l 及时性提高数据的及时性,能够响应优化人员快速发现问题的需求,使得优化与用户感知同步,使得数据更具时效性,分析更有针对性。4.3.3 元数据管理4.3.3.1 模块描述在数据共享中心系统中,根据不断的业务增长需要,需要从众多的异构且不断扩展的数据源中,获取相应的指标数据,在众多数据源的指标中,缺少统一的业务、技术术语的描述,造成指标解释不一致、统计口径存在差异等混乱197、的情况。同时,由于没有对数据依赖性进行管理,业务与技术人员对数据无法全面整体的管控,在业务变更时,对数据的依赖性评估不准确,造成变更后被依赖的数据缺失或不准确等情况。所以需要一套标准的元数据来支撑业务系统,为业务人员与技术人员提供统一标准。 元模型统一管理,对不同的业务建立可管理的元模型,并对元模型之间的关系进行维护,方便扩展,提供相应的服务接口; 能够方便快捷的管理元数据,能够元模型的定义,编辑业务元数据与技术元数据,可以维护元数据之间存的关联关系; 能够对数据的关联关系进行分析,从某一条元数据出发,可以分析出该元数据从哪里来,到哪去;对于相似的元数据,能够分析其中的差异,方便业务和技术人员198、进行比较,更加清晰的了解元数据真正的信息。数据共享平台全程元数据驱动,包括: 业务指标的统一口径定义,涵盖业务指标基本定义,包括指标名称、别名、代码,并可灵活自定义分类,满足多种业务需求。附图64. 元数据管理-业务指标分类图 数据库、数据库仓库的元数据定义,包括:接口层、STG、ODM、DW、ADS。各层数据仓库参照下图的元模型存储技术元数据。业务指标与维度关联,与相关层中的列元数据建立映射关系,应用可通过映射来实现数据呈现的逻辑。附图65. 数据仓库元模型 ETL任务流程定义,ETL引擎通过调度元数据,可以通过定时或消息通知等方式启动ETL任务,每个任务中包含多个执行步骤,在步骤中定义的数199、据从源到目标的转换、清洗和汇聚的过程。附图66. ETL元模型 数据质量元模型,通过对ETL任务设置监控点,监控每个步骤,收集指标的门限值定义,数据质量计算引擎通过扫描任务的输出字段,计算出DQI(数据质量指标),并统计出该ETL任务的整体质量情况。附图67. 数据质量元模型 数据代理元模型,定义了数据代理查询的参数,通过传入多个指标与维度(空间维度、时间维度和业务维度等),查找到该维度的指标存在数据仓库的位置,再通知查询引擎,返回查询结果。附图68. 数据代理元模型 建立多个维度的指标地图用户可选择多种维度快速定位到指标,对不熟悉的指标,用户可以根据关键字检索。指标的收集和整理也在根据用户的200、需求或者业务人员的需要不断的完善。附图69. 数据地图呈现 支持多维数据模型,为报表等提供多种数据分析的能力,通过建立不同维度元数据,如:网元维度、地理维度、业务维度和时间维度等,可以在不同的维度层级(Level)上进行数据钻取、旋转、切片等操作,达到可以从不同角度观察数据。附图70. 多维数据元模型附图71. 维度元数据示例4.3.3.2 功能描述1、 元模型管理元模型是用来存储元数据的模型,将元模型抽象成模型、属性与关系三种类型,元模型管理功能主要就是通过对这三种类型的编辑,自动创建元数据存储模型,方便自动扩展,可满足更多的业务场景。附图72. 元模型管理2、 元数据管理对树型结构呈现元数201、据分类信息,使业务和技术人员更加快速方便查询元数据信息,提供全文检索功能,提供图型化的关系维护。附图73. 元数据管理附图74. 元数据检索功能附图75. 元数据图型化的关系维护3、 元数据导入导出根据元模型导出Excel、XMI格式文件,方便数据备份附图76. 元数据导出将Excel、XMI格式文件导入,方便数据迁移附图77. 元数据导入4、 元数据显示通过指标导航等查看元数据基本信息,显示元数据属性。附图78. 元数据显示5、 元数据分析血统分析:查看数据从哪里来,即数据的加工过程,了解数据的来龙去脉,如某个指标是否来自详单数据,增加用户对数据的信任度,更好地使用数据,如业务指标附图79.202、 元数据血统分析影响分析:预览元数据对全局的影响,有助于执行变更前充分评估,及与相关人员事前沟通,如接口文件、库表、Tcl程序、报表、指标等对其他数据或程序的影响。元数据影响分析4.3.4 ETL处理适用于所有的数据采集任务,先设置数据源元数据(数据连接方式),数据输出元数据(数据输出格式及目标地址),数据采集适配,数据采集,数据转换成目标值及格式,将采集数据装载至目标库或目标文件。数据采集流程化,数据流程松耦合,保障每步采集程序独立化,同时根据需要,可将采集服务器与数据库服务器分开,减少了采集服务队数据库的压力,保障了数据采集的稳定性和高效性。4.3.4.1 功能介绍ETL处理实际是数据处理203、任务的封装,支持采集任务的前置后导,处理将各数据层的任务处理组合起来,每层的采集程序发生变动都不会影响其他层的采集处理程序。一个完整的数据采集流程包括任务调度,数据适配,数据清洗,数据转换,数据装载,任务监控,任务日志。包括两方面应用,一方面是基本的数据处理操作,另一方面是二次开发,基本数据处理操作主要针对源端数据的正常采集和入库,针对应用简单,二次开发主要针对数据源端的探查(周期探查源端数据情况,如果在给点的周期范围内如:相邻10分钟数据条数或者文件保持不变,证明源端数据已经稳定,可以做增量采集),数据采集的质量管理。数据探查综合分析支持trigger on time 和 Data avai204、lability 两种方式,前一种方式使用时间轮询,后一种方式采用探查比较。对数据抽取包括:全量抽取、增量抽取;数据采集包括:补采和重采;ETL前台界面Webservice/ftp布局管理器 BPM管理器 属性管理器 统计分析管理控制关系管理 数据校验管理 Etl中间层逻辑处理接口API中间层接口层DwrXml数据 对象 消息类日志类 数据类 控制类 接口处理 中间层处理 应用处理层展现层统计监控 控制 总体界面 BPMN元数据类ETL底层业支数据经分数据互联网数据其他数据ETL的调度和管理使用的是全程任务调度工具SQLAgent。负责任务的启动、执行、重新执行,它的执行日志委托数据质量做监控205、和管理。l 全量抽取:全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的 ETL 工具可以识别的格式。全量抽取比较简单,一般小区资源信息,使用全量抽取方式抽取昨日的全量信息。l 增量抽取:增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在 ETL 使用过程中,增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;性能,不能对业务系统造成太大的压力,影响现有业务。目前增量数据抽取中常用的捕获变化数据的方法有:触发器方式、时间戳方206、式、全表删除插入方式、全表比对方式、日志表方式、CDC方式。综合分析考虑源端系统负荷和采集效率,一部分性能数据采用时间戳方式(比较源端的InsertTime字段,当某一个已经采集的业务时间有新的InsertTime,证明源端数据已经增加或者修改,需要增量采集此部分数据源数据),一部分投诉数据(数据记录少)采用全表删除插入方式。l 数据补采:数据补采是源端数据未及时送达导致的数据滞后问题,补采机制包括定时补采和条件补采。定时补采即时间轮询,条件补采即采集完数据后,对数据的质量状态检查,异常的数据质量(数据缺失)进行条件补采。l 数据重采:数据重采一般针对源端数据异常较多(数据质量波动分析探查到数207、据错误较多)的一种数据采集机制,数据的重采耗费资源较多,一般通过配置和干预方式做数据的重采。l 任务调度:采集使用SQL Agent实现数据的自动任务调度,调度任务包括并行的数据采集,多线程,并发的数据计算。附图80. ETL功能涉及4.3.4.2 处理流程以下是综合分析ETL处理的整个通讯机制,流程如下:附图81. ETL处理流程所有的采集任务都由统一采集调度任务管理完成(使用SQL Agent服务处理trigger on time的机制完成任务的启动、管理)。为了使统一采集平台的采集流程更加流程化,使数据处理过程各步松耦合,保障数据处理的稳定性、高效性及可视性,要求采集平台具有ETL数据处208、理能力。4.3.4.3 数据抽取从ODM-DB中获取数据,加载到数据缓冲区。数据缓冲区可以采取文件方式或者数据库方式;如果采用数据库方式则需要对临时数据和正式数据分开存储。4.3.4.4 数据清洗数据清洗负责对“脏数据”进行剔除,消除数据的不一致。“脏数据”包括不规则数据、不符合事实数据,如:取值范围、完整性规则、拼写检查等。对于数据清洗过程要求具备完善的日志功能,日志内容需要记录数据清洗的原因,被清洗的数据存放到哪里和被清洗的记录数。在元数据管理中已经对数据的基础值域范围进行了描述,数据清洗模块可以从元数据管理系统中获取相关信息进行数据处理。4.3.4.5 数据转换数据转换主要包括如下三个方209、面:l 统一网元数据编码,将不同数据源的同一网元的数据集中转换成统一格式编码;l 转换数据类型,对与目标数据类型不一致的数据进行转换;l 转换数据格式,对与目标数据格式不一致的数据进行转换。在该模块的程序日志中,需要记录数据转换的原因和记录数。数据转换算法应当可被元数据管理系统识别并采集。4.3.4.6 数据装载直接加载数据缓冲区中无需另外处理的“干净”数据;加载经过清洗和转换后的符合目标数据模型的数据;加载成功后,删除缓冲区中相应数据,并写进日志文件;加载日志包括加载记录数和加载时间戳。4.3.4.7 调度产品特点序号特点名称特点描述1模块横向化各模块的关注点、处理机制、技术重点都有不同,可210、以有针对性地对各模块进行性能优化,从而提高整体数据处理性能。各模块之间依靠接口文件进行通信,简单可靠。2调度引擎跨平台支持调度引擎支持多种平台3全Web页面操作客户端程序web编写,无需安装客户端。4支持多种数据源文件(指定分隔符或定长)和数据库,本地和远程;数据库类型支持Oracle,Sybase,DB2。5调度规则灵活支持多种调度方式(实时、定时、和条件触发),满足现有电信行业需求。 6高端并行处理不同模块启用不同的进程,不同的进程按需动态启动多进程。这样的方式能充分利用系统资源,以及系统多CPU的并行处理能力,提高运行效率。7所见即所得完全可视化的配置、运行监控环境,图形化操作模式,方便211、用户配置、操作与维护。且配置的过程就是数据流的处理过程,方便易懂。8良好的扩展性当出现特殊的需求而目前的工具平台无法满足的时候,可以通过开发出新的模块并纳入整个工具,来满足客户的新需求。4.3.5 数据核查工具4.3.5.1 系统常用表核查关键指标检查,有利于在数据流的最末端发现数据质量问题。性能管理系统关键指标种类很多,需要根据指标检查规则,在指标数据生成后自动对指标进行检查。在业务运行过程中,每个专业都有一些关键指标,这些指标直接反映了本专业的业务情况。用户特别是领导尤其关注此类指标,每日必看,需要对关键指标的数据质量提供核查报告。对核查界面要求有以下几点: 按照性能、资源、上层汇总等类型212、分别呈现出相应表。 可以自由选择某一时间进行核查和历史查询。 核查和历史查询结果可以直接进行EXCEL呈现。(具体呈现内容待定) 历史查询结果可以将进行查询的当天结果进行呈现。(具体呈现内容待定)4.3.5.2 数据完整性监控对采集数据涉及到的上、中、下三层数据处理流程中涉及的重要数据表进行监控。监控每个表0点到23点,每个小时数据采集情况,统计采集数量。对数据异常的以红色进行标注。对数据异常的判断以为0、为空、超过或低于阀值范围计算得出。数据完整性监控还包括以下功能:1. 自由选择时间窗口进行查询,时间以天粒度查询;2. 表按照不同处理层进行分类,并分类展示。(具体展示内容待定);3. 可以213、显示0点到23点每个时间点的完整率;4. 可以进行EXCEL导出。4.3.5.3 采集过程监控采集接口监控主要监控采集任务执行的实时情况,包括是否按时调度,是否成功,是否发布状态消息。l 采集过程监控内容:l 采集任务调度成功率l 采集任务调度及时率采集报告发送成功率,采集报告是指整体采集任务的执行情况的汇总报告,包括各个采集任务是否成功等相应信息,供分析人员分析此次数据质量的整体情况。可以用直观图形描述采集进程状况和采集报告。对系统在采集处理过程中的日志进行异常统计、呈现。通过对异常日志的收集方便定位异常原因,优化采集过程。采集过程监控还包括以下功能:l 自由选择时间窗口进行查询,时间以小时214、粒度查询;l 可以按照采集过程中不同模块进行分类查询。(具体分类内容待定)4.3.5.4 DB健康检查对传统数据库进行健康检查,检查建表是否缺失、字段是否缺失、索引是否缺失、分片是否缺失、表空间大于90%、统计更新异常、unl异常等。DB健康检查还包括以下功能:1. 按照不同的检查内容进行分类展现。(具体展示内容待定);2. 根据检查内容不同分类展现的内容也要有侧重。(具体展示内容待定);3. 可以进行EXCEL导出。4.3.5.5 数据体检对系统核查工具中的核查内容,包括:系统常用表检查、数据完整性监控、采集过程监控、DB健康检查。对其中重点关注的指标进行统一展现,同时通过一定算法最终统计出215、当前时间的健康体检得分。以上列举内容为例,健康检查得分算法为:分数基数100,检查的14项,每项个位数扣2分,2位数扣5分,3位及以上扣10分,异常数为0不扣分。最终得分63分。同时在体检得分下方呈现近三天的各项数据表缺失情况(具体呈现内容待定)。在点击立即体检后,呈现当前14项指标得分情况,同时统计最近3天内的体检14项指标的对比情况。4.3.6 数据安全管理4.3.6.1 认证管理系统支持外部第三方认证,诸如可以通过LDAP进行用户认证。这对于某些已经建立了企业用户帐号认证系统的用户显得尤为重要,这样企业员工就能够使用同一套帐号密码访问所有获得授权的资源。4.3.6.2 角色管理管理用户角216、色信息,为不同用户定义不同的系统操作权限。管理员可根据实际需要灵活创建角色信息,如安全管理员、省级管理员等。角色管理完成角色的增加、删除和修改,以及每个角色安全对象的管理,即角色授权管理。系统提供了基于角色的用户授权管理功能。安全管理员可以设定多个系统角色,分别从资源和操作两个层面针对每个角色进行授权。确保每个角色都仅能够对特定的资源进行特定的操作。4.3.6.3 账号管理账号管理创建和维护登录使用系统的员工工号。账号管理支撑单个添加或批量导入方式添加。系统账号管理模块提供了用户帐号管理,用户帐号管理:安全管理员可以创建组织机构和用户帐号,并按照实际的组织机构结构将用户帐号组织起来。组织机构和217、用户帐号都可以嵌套,以体现真实的用户组织机构关系。用户账号信息中包含手机号码、电子邮件、固定电话等信息。4.3.6.4 日志管理系统提供了三类审计系统安全日志的记录能力:l 登录日志:能够自动记录每次用户帐号登录信息,包括用户帐号、登录客户端的主机名和IP地址、登录的时间,对应还能自动记录用户帐号退出系统的信息,日志内容同登录信息。l 授权日志:能够自动记录针对用户的授权信息,除了包括用户帐号登录信息外,还能够记录每次功能权限和内容权限设定的具体细节。操作日志:能够自动记录系统中的每个具体管理操作,除了提供登录信息的记录外,还会自动记录每个管理操作涉及的功能模块,以及管理操作的具体内容。4.3218、.6.5 权限管理当需要进行权限调整或者新增权限时,需要人工进行权限变更申请,对于在指标地图中看到的报表,业务人员可通过点击权限申请按钮,点击后就发起了一个权限申请流程,对应上级领导就会收到员工的变更申请,领导审批完成后就分配相应权限。4.4 应用服务支撑平台4.4.1 生产能力提升类应用4.4.1.1 存量经营针对不同用户的特性,研究各种既有用户的通信消费行为对目标产品选购可能产生的量化影响,设计量化分析模型,形成直观的指数型用户和产品匹配度模型,基于用户产品适配度开展量化营销工作以及内容营销和位置营销工作。为了提升用户满意度和品牌认知,必须加强营销策略与用户行为匹配度,创造更大的客户价值空219、间。实现覆盖用户全生命周期的碎片化营销组织形式,保障多渠道协同的统一营销政策,实现基于用户产品适配度的量化营销,实现基于用户兴趣爱好的内容营销,实现基于用户行为轨迹的位置营销。4.4.1.1.1 老用户续约大数据平台将老用户的消费记录、账单、上网搜索等数据整合分析后形成用户画像,结合产品自身特点得出最佳续约方案,最后通过各类电子渠道主动向用户推送续约提醒及续约方案推荐,提升用户续约率。4.4.1.1.1.1 需求目标大数据平台通过渠道主动向用户推送续约提醒以及续约方案,维系客户,减少客户流失率。4.4.1.1.1.2 需求说明对用户信息按月汇总,实现用户基础信息展示,包括用户号码(加密)、手机220、型号、操作系统、用户归属地市、用户年龄、入网时间、客户品牌、套餐名称、语音信息、短信信息、流量信息、协议开始及到期时间、订购增值业务(如:流量包)开始及到期时间,结合用户上网行为日志分析出的用户偏好,刻画完整的用户画像。实现对用户套餐、增值业务订购关系到期前的续约回访,并根据分析结果为用户续约或推荐符合度最高的套餐或产品。4.4.1.1.1.3 分析模型在储备用户基础数据以及订购数据的前提下,对用户进行全方位刻画,搭建用户订购使用模型,实现用户订购内容更新延续。附图1 用户全息视图处理流程图4.4.1.1.1.4 功能描述输入要素:用户号码(加密)、营销日期、用户偏好(可选)、品牌名称(可选)221、套餐名称(可选)、增值业务名称(可选)、产品信息、优惠信息。输出要素:用户号码(加密)、套餐名称、协议到期时间、协议到期内容、推荐营销时间、续约内容或推荐营销内容。分析描述:根据用户协议到期时间、用户通话、短信、流量使用情况分析用户续约或可升档内容,并结合当前产品优惠信息为用户推送产品续约优惠内容;根据订购的增值业务包含内容、使用情况、到期时间分析用户可调整的同类增值业务信息,并结合当前业务的优惠信息为用户推送优惠产品。4.4.1.1.2 保障多渠道协同的整体营销通过多个营销接触点的一点控制,根据客户的渠道偏好特征,选择用户适合的接触面,提升客户服务感知。借助不同营销服务场景进行多渠道协同营222、销服务。通过目标客户特殊名单以及自定义名单过滤、接触频次控制、防打扰控制等接触管理,降低用户投诉风险。4.4.1.1.2.1 需求目标在系统中设置,通过目标客户特殊名单以及自定义名单过滤、接触频次控制、防打扰控制等接触管理,减少客户投诉,促进品牌形象提升。4.4.1.1.2.2 需求说明通过多个营销接触点的一点控制,根据客户的渠道偏好特征,选择用户适合的接触面,提升客户服务感知。借助不同营销服务场景进行多渠道协同营销服务。通过目标客户特殊名单以及自定义名单过滤、接触频次控制、防打扰控制等接触管理,降低用户投诉风险。4.4.1.1.2.3 分析模型用户入网生命周期中,会出现多个营销触点,分析用户223、对渠道的偏好,在某渠道的停留时间,搭建用户触点模型。下方为用户触点渠道:附图2 用户接触渠道4.4.1.1.2.4 功能描述1、 渠道协同建立统一的营销资源池,并分析用户匹配最高的营销渠道。输入要素:用户号码、用户上网行为偏好(网掌厅偏好)、用户缴费渠道及时间、用户业务办理渠道及时间为各渠道提供统一的营销资源来源,某一渠道对用户进行营销之后系统自动记录用户营销信息,并根据业务规则在一定时间内过滤该用户的营销信息,避免多渠道打扰用户。如:经分析,用户18612341234适合推荐5元流量包,该信息在一个大的数据营销资源池中,所有营销信息均来着该资源池,如果用户在网厅选择订购了该业务,则在用户订购224、成功后资源池删除该用户的5元流量包推荐资源信息,这时所有渠道不再对用户对5元流量包进行打扰。输入要素:用户号码、用户同意/拒绝订购某业务信息、用户。输出要是:多渠道屏蔽用户2、 免打扰管理免打扰管理经过模型分析,通过后台程序控制,客户订购信息内容提醒机制。输入要素:用户号码、上网日期、营销日期、用户偏好(可选)、品牌名称(可选)、套餐名称(可选)、增值业务名称(可选)、产品信息、优惠信息。模型输出:用户号码、套餐名称、协议到期时间、协议到期内容、推荐营销时间、续约内容或推荐营销内容。模型算法描述:根据用户协议到期时间、用户通话、短信、流量使用情况分析用户续约或可升档内容,并结合当前产品优惠信息225、为用户推送产品续约优惠内容;根据订购的增值业务包含内容、使用情况、到期时间分析用户可调整的同类增值业务信息,并结合当前业务的优惠信息为用户推送优惠产品。4.4.1.2 流量经营通过分析用户流量消费行为和内容偏好,找出刺激用户流量消费的关键时刻、关注内容,推动流量收入增长。当前流量经营手段不足,传统的流量赠送等经营模式很难对流量收入带来增长,反而降低流量单价。通过对用户流量消费行为和内容偏好分析,在用户即将超套包而减少使用等关键时刻进行流量叠加包提前推荐,对用户关注的热点内容进行精准推荐,刺激流量消费。4.4.1.2.1 实现基于用户兴趣爱好的内容营销通过用户兴趣爱好相关数据的分析和画像,实现将226、最合适用户的视频、音频、APP等有价值的互联网内容封装成产品推送给用户,实现用户流量使用习惯的培养和固化。4.4.1.2.1.1 需求目标研究客户在不同内容的使用习惯和偏好,从而开展针对性营销工作,进一步强化客户使用习惯,提升使用流量。4.4.1.2.1.2 需求说明通过对网页URL爬取网页内容,进行分词并建立全文索引,根据网址分类规则体系更新网址分类库与内容分类库,建立用户上网内容偏好模型,针对不同内容偏好的用户推荐相应的内容型自有业务,提升户均流量与自有业务渗透率。4.4.1.2.1.3 建设思路通过用户上网日志,匹配与后台app库、url地址库、关键词库,根据对应规则完善网址分类库以及内227、容分类库,并且整合经分数据,建立用户与内容需求的偏好试图,将用户进行需求分类,实现用户分群,配合具体的营销活动或者与该用户群匹配的内容需求,实现精准营销,拉动流量使用。4.4.1.2.1.4 分析方法初次解析用户上网内容分类如下:附图3 用户上网内容解析在此基础上通过用户上网内容偏好模型,分析出用户对内容需求强度。4.4.1.2.1.5 功能描述从时间、地域、品牌、内容等维度,展现上网用户的偏好用户数、偏好用户占比、访问用户数、访问次数、流量、访问次数、访问流量等指标。维度:时间(月份)、地域、品牌、内容分类。指标:偏好用户数、偏好用户占比、访问用户数、访问次数、流量、平均访问次数、平均访问流228、量。指标解释:l 平均访问次数:访问次数/访问用户数;l 平均访问流量:流量/访问用户数。l 统计周期:可提供以月或日为周期的查询;l 支持分析结果的导出和图形化支持等功能;提供指标和维度的灵活设置及组合查询,可对各指标进行升、降序排序、筛选。4.4.1.2.2 结合精准画像的精准营销推广将基于用户兴趣爱好和需求取向的数据画像结果形成产品,通过合作推广向第三方企业收费,第三方支付的推广费用用于奖励用户流量使用等通信支出,构成三方得益的生态圈,实现后向收费的创新。基于对流量使用的深入剖析,对有需求、有市场但受制于流量使用顾虑瓶颈的应用,与第三方服务提供者进行谈判,促使第三方批量购买流量推动用户使229、用。向充分竞争的互联网服务提供商提供差异化用户转平台策略,通过精准定位吸收行业内的其他用户转平台,并使第三方支付对等资源使XX用户获得进一步实惠。4.4.1.2.2.1 第三方应用推荐4.4.1.2.2.1.1 需求目标根据用户上网日志内容分析,解析出用户使用应用、下载应用以及应用分类情况,分析用户使用应用喜好,通过合作推广向第三方企业收费,有针对性的向用户推荐第三方应用,第三方支付的推广费用用于奖励用户流量使用等通信支出,构成三方得益的生态圈,实现提升客户使用流量以及上网普及率。4.4.1.2.2.1.2 需求说明第三方应用作为流量业务发展的重要资源,越来越成为数据业务网络的重点支撑内容,同230、时第三方应用是在互联网模式下发展起来,存在种类偏多良莠不齐等诸多问题。所以推荐优秀应用提前预装到手机客户端,既有利于提升客户感知也有利于数据业务的健康发展。4.4.1.2.2.1.3 需求分析累计分析用户在一定时间范围内,使用过的第三方应用信息,分析出用户的应用偏好,并且定义该用户属于何种群体,并且结合该应用在热门下载网站的排名信息以及产品的关联营销向用户推荐相对需要的第三方应用。4.4.1.2.2.1.4 功能描述从时间、地域、品牌、应用商城类型、业务应用类型、等维度,分析应用下载次数、下载用户数、业务流量、业务流量收入等指标。l 维度:时间、地域、品牌、应用商城类型、业务应用类型。l 指标231、:应用下载次数、下载用户数、业务流量、业务流量收入。指标解释:l 应用商城类型:安卓、苹果等。l 统计周期:可提供以月或日为周期的查询;l 支持分析结果的导出和图形化支持等功能;l 提供指标和维度的灵活设置及组合查询,可对各指标进行升、降序排序、筛选。附图82. 用户偏好图4.4.1.2.2.2 第三方内容推荐4.4.1.2.2.2.1 需求目标分析用户使用应用下的内容信息,建立用户内容喜好业务模型,根据用户内容喜好实现内容的及时推荐,拉升用户使用流量。4.4.1.2.2.2.2 需求说明数据业务内容是用户互联网访问的重要组成部分,而不同用户又存在巨大的偏好差异,通过第三方应用内容推荐,将用户232、最喜欢的第三方内容及时的推荐给用户,既有利于提升客户感知也有利于流量价值的提升。4.4.1.2.2.2.3 需求分析通过深入分析用户的上网行为特征,建立用户内容偏好模型,实现用户的内容偏好识别。内容分析模型依据手机上网用户访问WAP日志清单,利用URL内容解析规则,得出用户在各类内容的偏好系数。通过内容偏好系数与内容偏好阀值比较,获取手机上网用户的内容偏好。再建立内容分类与互联网产品的对应,形成用户-内容-产品三者的适配关系。基于对用户内容偏好的分析,并且结合优秀第三方资源,与第三方服务提供者进行谈判,促使第三方批量购买流量推动用户使用。向充分竞争的互联网服务提供商提供差异化用户转平台策略,通233、过精准定位吸收行业内的其他用户转平台,并使第三方支付对等资源使XX用户获得进一步实惠。【模型描述】本模型依据手机上网用户访问WAP日志清单,利用URL内容解析规则,得出用户在各类内容的偏好系数。通过应用内容偏好系数与内容偏好阈值比较,获取手机上网用户的内容偏好。再建立内容分类与互联网产品的对应,最终形成用户-内容-产品三者的适配关系。以某个月的用户WAP访问日志清单为基础,汇总每个用户在每个应用内容分类上的访问次数、访问天数。根据汇总清单计算用户每类内容的内容偏好系数,该算法可采用分权重参数方式,具体示例如下:内容偏好系数= 0.4*(某内容分类上网天数/当月天数)+0.6*(内容子类分网PV234、数/总PV数,PV数即页面浏览量,是英文PAGE VIEW的缩写)。对用户的所有访问内容分类进行排序,取排名*%(该阈值可自定义)前的内容分类作为用户的偏好分类,同时输出信息也包括该分类的偏好系数。用户应用内容喜好模型输入输出表格12. 用户内容偏好模型输入要素表输入要素要素说明预处理后WAP日志清单经过预处理的Wap访问日志清单URL解析规则经过域名分析和网页文本挖掘分析生成的URL与访问内容分类关系产品与内容分类对应规则根据业务经验将产品与内容分类建立对应关系用户资料用户基础资料信息产品的内容分类可参考下表, 各省根据实际情况收集整理自有产品内容分类情况:表格13. 用户内容偏好模型内容分235、类示例表内容大类内容子类业务分类业务名称子业务名称业务特征分类沟通交流即时通信沟通微信微信基础业务应用型娱乐新闻类娱乐网易新闻软件类-生活应用型体育新闻类体育网易新闻软件类-新闻应用型模型输出有以下信息: 表格14. 用户内容偏好模型输出要素表输出要素要素说明用户标识用户标识内容偏好分类是否偏好、偏好系数适合推荐产品推荐产品列表4.4.1.2.2.2.4 功能描述访问内容分类流量监控:通过对用户访问的流量内容的类型进行跟踪监控,掌握监控流量去向和客户互联网访问内容类型偏好,为业务人员进行产品管理和客户业务偏好分析提供依据。功能描述:从时间、时段、地域、内容类型、访问方式等维度,展现内容分类访问236、用户数、流量、访问频次等指标。l 维度:时间、时段、地域、内容类型、访问方式、接入点类型。l 指标:访问用户数、流量、户均流量、访问次数、户均次数、访问天数、户均天数。l 内容类型:视频类、音乐类、阅读类、游戏类、证券类、资讯类、即时通讯类、BBS类、生活类、搜索类、商务类、浏览器类、应用下载类,各省可在此基础上根据实际情况自行拓展;l 访问方式:网页浏览、客户端软件方式。l 统计周期:可提供以日、月为周期的查询;l 支持通过时间、时段、地域、内容类型、访问方式等条件进行灵活组合查询;l 支持分析结果的导出和图形化支持等功能;l 实现点击字段排序和按字段筛选功能;l 根据经营分析系统权限,各级237、管理人员可以查看该级及其以下区域的指标情况。用户内容偏好分析:通过内容流量流向,分析用户偏好行为,深层次的了解用户的偏好习惯。为业务人员产品设计优化和营销服务提供支撑。功能描述:从时间、地域、品牌、内容等维度,展现上网用户的偏好用户数、偏好用户占比、访问用户数、访问次数、流量、访问次数、访问流量等指标。l 维度:时间(月份)、地域、品牌、内容分类。l 指标:偏好用户数、偏好用户占比、访问用户数、访问次数、流量、平均访问次数、平均访问流量。l 平均访问次数:访问次数/访问用户数;l 平均访问流量:流量/访问用户数。l 统计周期:可提供以月或日为周期的查询;l 支持分析结果的导出和图形化支持等功能238、;l 提供指标和维度的灵活设置及组合查询,可对各指标进行升、降序排序、筛选。4.4.1.2.3 增值业务精准营销推广通过对用户的流量去向分析,发现用户流量主要消耗于某些应用类别(比如视频类),并进一步细分这些应用的类别(比如主要消耗与 “无线江苏”节目视频)。因此筛选出用户清单,开展针对性应用的业务营销。4.4.1.2.3.1 需求目标研究客户在不同增值业务的使用习惯和偏好,从而开展针对性营销工作,进一步强化客户使用习惯,开展针对性营销,提升使用流量。4.4.1.2.3.2 需求说明基于客户上网数据,识别客户对于不同业务的偏好特征,结合不同互联网数据业务的客户分群,通过自有业务潜在客户挖掘模型239、,挖掘潜在客户,支撑自有业务营销。4.4.1.2.3.3 分析思路分析用户的上网日志信息,并且加入用户基础信息数据,进行数据建模,充分体现出用户在互联网数据业务的标签喜好,对客户进行分群操作,结合自有业务分析模型,配合自有业务自身特点,实现自有业务与客户群体的匹配,达到有针对性的营销,进一步强化客户使用习惯,提升使用流量。l 业务偏好营销视图功能元素(1)具备功能:号码输入、时间筛选(2)展示因素:用户号码、上网偏好汇总、兴趣点标签、分类次数(3)呈现方式:网页浏览Word、Excel、PPT等多种格式导出浏览资源指定目录存放,定时生成4.4.1.2.3.4 业务分析方法步骤一:分析各类业务使240、用的需求用户 不同地区、不同类型业务的使用时长和流量定义的阀值不同,建议可按时长和流量的TOPN来筛查用户。N的取值取决于此次营销的力度。步骤二:寻找各类用户中未使用移动自有业务的用户确定目标用户,建立潜在用户模型如用户使用的是自有业务,可不包含在此次营销活动内步骤三:根据自有业务与同类各种业务的用户数、流量对比衡量目前该类推广情况 因地区差异不同业务使用的情况各异,可采用占比排名的方式,确定需重点推广的自有业务 步骤四:分析自有业务与同类型各类业务的感知测试情况,掌握自有业务特征:内容、功能、操作、界面、收费、广告、亮点、流量、稳定性、实时性。 内容:评测应用种类是否多样,资源是否丰富,更新241、速度是否较快功能:评测应用基本使用、管理、搜索等功能是否齐全,用户使用感知度如何操作:评测应用是否步骤简洁,操作简单易做,符合用户行为习惯界面:评测界面是否美观大方、分类清晰、内容排列合理、设计出色速度:评测各类速度,包括启动软件客户端速度、应用下载速度、缓冲速度等收费:评测应用的免费服务的数量,收费项目价格等广告:评测使用过程中是否有页面广告和弹出广告等稳定性:评测应用的适配性,是否有BUG或扣分项等亮点:评测应用的加分项,(例如离线应用、软件更新提醒等)流量:评测相同使用情况下的流量运行状况实时性:评测应用收发的实时性不同类的软件根据其特点选择最能体现用户感知的维度测试。如果省内有进一步的242、网络侧业务监测和质量分析手段,以上速度和稳定性维度也可加入网络侧对业务的质量分析评分内容。如业务速率、业务成功率等。步骤五:针对目标用户,结合自有业务占用度、业务特征确定有效的推广方案 通过各类业务的感知评测情况以及优势与缺陷,设定有针对性的推广方案。优先考虑占有率业务使用需求高的用户,针对不同业务特征有针对性的制定度营销策略, 凸显优势,弥补劣 (1)分析结果应用建议表格15. 分析结果应用建议输出输出结果相关部门工作建议1业务优化建议 数据部业务在内容、功能、界面、收费等方面需要提升优化2业务资费与套餐捆绑市场部门对于业务需求大的精确定位用户可制定对应的自有业务特惠套餐 3精确营销用户市场243、部门请市场部联合客户服务部对精确定位的用户用户开展外呼、短信等营销。推广移动自有业务4用户转化率业支部门针对精确营销的用户,统计其使用自有业务的情况,分析用户转化率(2)效果评估指标和方法【目标群体的用户数及转化率】请经分部门,针对精确营销的用户,统计其一个周期内,使用自用业务的情况,分析用户转化率用户转化率=成功使用自有业务用户数/营销用户数*100%【目标自有业务流量、用户数增长率】环比流量增长率=(本月流量-上月流量)/上月流量*100%环比用户占比增长率=(本月自有业务用户/本月同类自有和非自有业务用户-上月自有业务用户/上月同类自有和非自有业务用户)/上月自有业务用户/上月同类自有和244、非自有业务用户*100%。4.4.1.2.3.5 功能描述输入:用户号码、时间间隔输入:用户兴趣点、可推荐业务附图83. 业务偏好图 营销策略关联营销、圈子营销。4.4.1.3 价值提升4.4.1.3.1 用户交互过程精准化基于CPCT理论,在客户、产品、渠道匹配的基础上,增加营销时机管理,构建可以持续循环优化的精准触发营销模型。CPCT = 客户Customer+产品Product+渠道Channel +时机Time。4.4.1.3.1.1 需求目标在用户入网后,与用户的交往过程中,逐步构建可持续优化的精准出发营销模型。4.4.1.3.1.2 需求说明。4.4.1.3.1.3 需求分析。4.245、4.1.3.1.4 功能描述选4.4.1.3.2 3G流量包精准推荐区别于传统广而告之式的推荐, 采取“看人下菜,定向爆破”模式主动服务:根据用户流量使用情况,通过电子渠道主动向用户推荐恰当档位的3G流量包,在用户得实惠的同时保证ARPU值的提升。通过深入分析流量加油包订购用户特点,对比订购用户与未订购用户各方面的属性,发现用户订购叠加包的驱动因素,挖掘叠加包的潜在订购用户,为叠加包业务的的推广、营销等市场活动提供数据支撑,辅助业务人员对提升流量采取针对性的措施。4.4.1.3.2.1 需求目标以客户信息为基础,实现对客户使用流量套餐、普通套餐中的流量部分情况的分析展示。监控用户流量阀值,根据246、用户流量消耗与阀值对比,进行阶梯性推荐3G流量包。4.4.1.3.2.2 需求说明集中展示客户使用流量套餐、普通套餐中的流量部分的情况。并根据客户实际使用流量与套餐中包含流量的比较,确定客户对套餐中流量使用的饱和程度。4.4.1.3.2.3 分析模型4.4.1.3.2.3.1 维度时间、地域、客户号码、品牌、客户等级、客户类型、通话区域、通话时段、套餐、套餐内流量、流量消耗;4.4.1.3.2.3.2 指标订购套餐数量、套餐包含数据流量、套餐包含GPRS流量、套餐包含WLAN流量、客户实际使用数据流量、客户实际使用GPRS流量;4.4.1.3.2.3.3 指标解释客户类型:流量日套餐客户、流量247、月套餐客户、普通套餐客户;客户等级:金卡客户、银卡客户、钻卡客户;通话区域:按基站位置划分;通话时段:全天24时段;4.4.1.3.2.4 功能描述l 对比展示客户实际使用流量情况与其订购套餐情况;l 支持根据客户订购套餐中所包含的流量设定流量最大阈值和最小阈值,并按照客户实际使用流量情况与最大阈值和最小阈值进行对比,设定实际使用流量小于最小阈值的客户为套餐不饱和客户,超过最大阈值的客户为套餐过饱和客户;l 按照阈值比较结果,输出客户使用套餐的饱和情况;4.4.1.3.2.5 适用范围按照阈值比较结果,对套餐过饱和客户推荐3G流量包;4.4.1.3.2.6 营销效果评估通过3G流量包编码、目标248、客户数、接触客户数、响应客户数、成功客户数等指标进行服务效果评估。4.4.1.3.2.7 应用案例基于流量区隔的兴趣点分析,支撑流量维系、流量加油包营销等流量价值提升附图1 流量区间偏好分析4.4.1.3.3 365手机上网辅导计划针对不同阶段的上网用户,分析用户特点,结合用户画像,推送不同的推荐内容,达到培养用户上网习惯,提升用户流量消费的目的。4.4.1.3.3.1 需求目标跟踪用户入网生命周期中的用户使用偏好的变化,针对不同阶段向客户展开针对性的营销,提高用户对产品的依赖以及流量消耗。4.4.1.3.3.2 需求说明基于客户使用记录、互联网访问日志等相关数据进行客户分群,分析用户在业务使249、用、上网流量去向、识别客户在入网生命周期中的不同特征阶段,用以支撑精确营销。4.4.1.3.3.3 建设思路将生命周期营销分为首次入网、激活期、提升期、关怀期四部分,分别展现用户上网情况,对用户进行标签分类,展示出不同时期客户的群体标签。通过不同时期用户群体实现由针对性的营销或者用于营销支撑输出资源,达到辅助用户学习上网、有兴趣上网、自主上网习惯。4.4.1.3.3.4 分析方法首次入网期:用户入网当月时间激活期:自用户入网后次月至第3个月提升期:自用户入网后第4至第6个月关怀期:自用户入网后第7个月至未来通过收敛用户上网使用解析记录以及用户上网日志,定义用户群体,分析该用户群体特征,并且配合250、上网日志内容,结合生命周期中不同阶段的业务喜好,建立客户挖掘模型,分析出同批客户在下一阶段的上网内容需求趋势,展开有针对性的营销。4.4.1.3.3.5 功能描述l 用户生命周期图功能元素(1)具备功能:查询、时间筛选、业务筛选(2)展示因素:用户号码、生命周期阶段、上网网址、客户群体标签(3)呈现方式:网页浏览Word、Excel、PPT等多种格式导出浏览资源指定目录存放,定时生成附图5 用户上网生命周期营销图4.4.1.4 服务提升对客户来电意图进行预判,强化客服系统自动应答和精准推介,助推呼叫中心由成本中心向利润中心转变。建立用户接触喜好模型、完善用户生命周期分析、纳入营销时机的管理。完251、善信用体系,实现灵活的信用控制,判断用户正在使用的行为,进行差异化的控制和计费。为了提升服务水平,需要从四个方面入手,完成用户智能接触,实现智能营销,根据用户的消费及使用行为建立智能信控模型,提升智能客服能力和智能管道能力。通过分析模型对精细化营销平台标签进行整合优化,进行从碎片化维系到系统性综合研究治理,并重点做好智能客服、智能信控、智能接触、智能管道等数据应用。4.4.1.4.1 智能客服深度挖掘客服语音数据价值,支撑服务和营销。通过语音分析技术,可以自动的从服务质量角度对语音进行关键字分析和情绪分析,找出服务不规范的语音文件,供管理人员对话务员的服务质量进行考核,从而提升质检效率,并大幅252、提升语音文件使用率。营销智能推介:打通客服系统与大数据平台通道,有效整合并利大数据平台数据推送给客服代表,辅助其对来电诉求快速响应,跟进客户潜在业务需求,并向用户实现业务服务推介。智能预判系统:为高效并针对性的解决来电客户诉求,强化客服系统预判功能,通过客户属性信息,判断来电原因,预测客户最有可能需要解决的问题,推荐客户最需要的服务,第一时间解决客户问题,快速办理业务,提高业务代表工时利用率,改善服务水平,提高工作效率。4.4.1.4.1.1 需求目标根据用户上网日志内容分析,解析出用户使用应用、下载应用以及应用分类情况,分析用户使用应用喜好,有针对性的向用户推荐第三方应用,实现提升客户使用流253、量以及上网普及率。4.4.1.4.1.2 需求说明第三方应用作为流量业务发展的重要资源,越来越成为数据业务网络的重点支撑内容,同时第三方应用是在互联网模式下发展起来,存在种类偏多良莠不齐等诸多问题。所以推荐优秀应用提前预装到手机客户端,既有利于提升客户感知也有利于数据业务的健康发展。4.4.1.4.1.3 需求分析4.4.1.4.1.4 时机选择数据需求详细需求数据需求明细数据来源(接口)业务分类(必选)根据营销案例对应的业务分类,确定案例的业务分类属性案例的业务分类属性人工确定用户位置信息(可选)识别客户位置变换,明确其常驻、非常驻区域用户特定小区进入行为(手机号ISDN,进入的Cell类型254、CellID,WLANID、进入时间)小区短信平台特定区域覆盖定义信息(区域编号、区域名称、行政区域、地址、区域分类、操作类型)小区短信平台特定区域与Cell小区及WLAN的映射关系(区域编号、CellID、WLAN编号、操作类型)小区短信平台用户业务使用时机(可选)自有业务订购状态用户业务订购关系数据CRM自有业务使用状态用户行为数据(登录、查询、下载等)一类业务:一级VGOP其他:业务平台用户换机行为手机号、IMEI号、首次使用时间、末次使用时间BI第三方业务使用状态用户与特定号码的通话行为(用户手机号、拨打时间、特殊号码、用户是主叫还是被叫、CellID)小区短信平台用户与特定短信服务255、号码的短信行为(用户手机号、发送时间、特服号码、用户是主叫还是被叫、CellID)小区短信平台客户网络访问数据信息GN接口数据CMNET/CMWAP网关日志数据GN口,经营分析系统4.4.1.4.1.5 渠道规则4.4.1.4.1.5.1 主动营销方式下的渠道筛选字段名称字段说明数据来源手机号用户手机号营销管理平台/营销案例主动接触历史记录接触时间该次接触时间营销管理平台/营销案例主动接触历史记录接触渠道接触渠道,短信/彩信/WAP PUSH营销管理平台/营销案例主动接触历史记录接触产品所接触产品名营销管理平台/营销案例主动接触历史记录响应结果响应结果,响应/无响应营销管理平台/营销案例主动接256、触历史记录4.4.1.4.2 智能信控根据用户的消费及使用行为建立智能信控模型,完善信用体系,实现灵活的信用控制,提升用户体验并减少用户欠费。4.4.1.4.2.1 需求目标通过用户的每个月的ARPU值均值,设置定义阀值,制定不同阶段对应的信用度,并且提供一定的透支机制,加强用户体验,并且及时向用户提供提醒减少用户欠费。4.4.1.4.2.2 需求说明根据用户消费程度以及用户业务使用行为组建信控模型,为用户提供灵活的信控机制,方便用户体验。4.4.1.4.2.3 需求分析基础数据分析:用户信息、客户信息、用户套餐订购信息、用户业务信息、用户ARPU值信息、红名单信息、客户等级信息、缴费信息上网257、信息:用户流量使用信息、用户访问网站信息位置信息:用户位置轨迹信息圈子信息:用户朋友圈信息、用户短信交互记录投诉信息:客户投诉记录基于以上数据,搭建信控模型,通过时间的积累,汇总出用户消费级别(定义消费级别等级),分析出用户朋友圈、消费档次、流量消耗、缴费习惯等多维参数,定义详细的消费阀值,配置对应的信用度体系,形成用户-体验-提醒-缴费-二次体验的模式。4.4.1.4.2.4 功能描述l 输入维度:用户号码l 输出维度:用户号码、月均消费、信用额度、短信提醒、欠费次数、缴费次数。4.4.1.4.3 智能接触建立用户接触喜好模型、完善用户生命周期分析、纳入营销时机的管理,完成用户智能接触,实现258、智能营销。可以通过数据挖掘手段分析不同渠道偏好客户的客户行为特征差异因素,建立渠道偏好预测模型,对接触客户的渠道偏好度进行预测评分。4.4.1.4.3.1 需求目标根据用户生命周期中与渠道接触情况,形成渠道类别客户群体的客户行为特征,搭建群岛偏好预测模型。4.4.1.4.3.2 需求说明为了完善用户在不同方向的喜好模型,根据用户与渠道接触习惯,分析用户在其他领域的特征,寻求用户渠道偏好预测。4.4.1.4.3.3 需求分析客户自入网后在不同阶段的体现的渠道偏好特征是不同的。随着学习业务、使用业务的数量程度逐渐的接触不同的渠道,因此有必要针对不用的用户在不同阶段的渠道接触数据来进行汇总,搭建用户259、渠道偏好模型。分析思路:寻找多批用户群体,将其生命周期分为刚入网、入网3个月、入网6个月、入网12个月四个阶段,分析群体批次分别在这四个阶段的渠道接触行为进行分类,寻找多批群体的的渠道类型分类,按照渠道类型进行二次分类,找到属于同一渠道偏好的目标用户群体,反向分析用户群体的用户基本特征、消费特征、缴费特征、使用习惯、上网偏好,形成群体多维喜好的模型。每当有新用户入网后,可根据模型对用户进行预测。老用户:根据渠道偏好,寻找合适的机会进行营销。新用户:在入网时根据模型预测,根据渠道评分机制,体现渠道偏好评分。4.4.1.4.3.4 功能描述输入维度:用户号码、时间输出维度:用户号码、时间、渠道偏好260、评分4.4.1.4.4 智能管道通过智能管道了解你的用户,了解用户除了通信需求外,用户在使用那些应用。从而了解用户偏好,从而为客户提供精确的营销和更适合的服务。通过应用的使用情况,了解合作伙伴和竞争对手,从而了解产业生态和竞争格局,为产业竟合策略提供基于数据的科学决策依据。4.4.1.4.4.1 需求目标。4.4.1.4.4.2 需求说明第三方应用作为流量业务发展的重要资源,越来越成为数据业务网络的重点支撑内容,同时第三方应用是在互联网模式下发展起来,存在种类偏多良莠不齐等诸多问题。所以推荐优秀应用提前预装到手机客户端,既有利于提升客户感知也有利于数据业务的健康发展。4.4.1.4.4.3 需261、求分析累计分析用户在一定时间范围内,使用过的第三方应用信息,分析出用户的应用偏好,并且定义该用户属于何种群体,并且结合该应用在热门下载网站的排名信息以及产品的关联营销向用户推荐相对需要的第三方应用。4.4.1.4.4.4 功能描述从时间、地域、品牌、应用商城类型、业务应用类型、等维度,分析应用下载次数、下载用户数、业务流量、业务流量收入等指标。l 维度:时间、地域、品牌、应用商城类型、业务应用类型。l 指标:应用下载次数、下载用户数、业务流量、业务流量收入。指标解释:l 应用商城类型:安卓、苹果等。l 统计周期:可提供以月或日为周期的查询;l 支持分析结果的导出和图形化支持等功能;提供指标和维262、度的灵活设置及组合查询,可对各指标进行升、降序排序、筛选4.4.1.4.5 垃圾短信过滤针对垃圾短信“频次+关键字”一次过滤不够准确,带来投诉居高不下的问题,拟通过用户基本信息和历史交往信息对垃圾短信发送用户进行预判,以缩小客服人工审核范围,增强垃圾短信判断精度和屏蔽效率。进而,通过垃圾短信用户判别模型对现网用户进行预判,提前发现垃圾短信用户,进行事前控制。4.4.1.4.5.1 需求目标。4.4.1.4.5.2 需求说明。4.4.1.4.5.3 需求分析。4.4.1.4.5.4 功能描述选4.4.1.5 用户发展提供异网策划与用户理财应用,全面扩大用户发展范围在现有交往圈模型的基础上,进行能263、力提升,识别竞争对手客户,并进行相关价值评估,为业务部门相关营销策反活动提供全面支撑。对新入网用户进行理财测算,对存量用户进行产品理财,模型化得出适合用户的产品。4.4.1.5.1 需求目标。4.4.1.5.2 需求说明。4.4.1.5.3 需求分析用。4.4.1.5.4 功能描述选4.4.2 数据变“现”类应用4.4.2.1 跨界应用作用:扩大合作伙伴入库,支持跨业务合作营销,将大数据价值和能力以服务形式整合输出。【功能定义】利用XX的智能管道汇聚的海量数据,综合分析用户的偏好特征,通过大数据分析服务参与移动互联网的运营模式。如下举例与汽车之家合作方式。针对汽车专题解析,建立覆盖网页(wap264、)的url地址库,建立针对所有主流搜索引擎及垂直门户的搜索关键词解析,建立针对汽车专题APP的解析,不同的app应用url特征也不同,且app类别不同,关注点也不同。针对汽车专题app解析,可以提供用户top X 应用、用户top x 搜索词和应用协同推荐,可以提供用户的长期喜好、短期场景、购物风格的标签和产品的协同推荐。形成用户全息视图画像,包括互联网使用情况,搜索行为,应用使用行为,微博等使用行为,常驻位置信息等。【功能要求】合作目的是提高移动用户对汽车之家手机版的使用率,提高活跃度,吸引新用户下载。在活动期间针对汽车之家手机用户,下载并首次注册的新用户就赠送相关产品,同时还赠送全网流量包265、。XX利用数据分析平台对曾经使用过相关汽车类软件的用户进行精准的数据,提取用户号码进行线上、线下推送活动。在汽车之家赠送流量包的基础上,针对每个用户赠送流量投放推广资源。应用场景1:利用A口数据和GN口数据综合分析不同4s店的用户到达数情况,通过热力图的方式再地图上进行展现,便于整体把握目标用户分布情况并制定针对性营销策略。应用场景2:用户位置轨迹判定;根据用户位置轨迹分析结果,对用户进行精准匹配推送。应用场景3:在A口数据和GN口数据挖掘分析的基础上,根据用户兴趣点和最近关注提取目标用户,通过第三方外呼的方式和目标用户进行细致沟通,提高用户到店率。应用场景4:客户分流,通过用户位置轨迹分析,266、分析用户生活圈、工作圈位置,判断用户到底店是否在本区域内,将高密度店用户合理向工作圈和生活圈归属于本区域内的其他店进行疏导。【功能要素】:用户行为特征,位置轨迹分析,用户生活圈、用户工作圈。4.4.2.2 广告投放作用:提供广告精准投放功能,实现电子账单广告营销及互联网精准广告营销能力。【功能定义】如下为与电商合作方式,实现广告投放过程。l 数据采集1)数据采集通过移动互联网行为分析,将电商网站、电商客户端用户行为数据进行专门采集提取,采集主流电商数据包含淘宝、天猫、京东、易讯、凡客、当当、国美、聚美优品等。从经分系统采集用户套餐、终端、消费ARPU值的基础信息;通过互联网,使用爬虫技术爬取电267、商行为地址及分类,包括购买、评论、搜索、加入购物车、查看商品图片、查看商品明细、分享等。通过互联网,使用爬虫技术爬取电商行为中的商品信息,包括商品名称、品牌、价格、具体分类。2)数据清洗从电商行为数据中,将图片、脚本、字段不完整等无效数据进行清洗去除;3)加载入库将电商用户行为日志、爬虫数据加载到地址库,将用户套餐、终端、消费ARPU值信息加载到数据库。l 数据行为分析1) 建立电商行为地址库为电商用户日志建立完善的地址库,用于匹配分析用户电商行为。2) 电商网站行为分析:将用户电商行为日志与网页地址库匹配,完成用户电商分类行为标签、商品行为标签。3) 电网客户端行为分析:将用户电商行为日志与268、客户端地址库匹配,识别并标识用户对电商客户端操作动作。l 用户挖掘模型1)用户需要分析平台结合采集的电商行为标签、用户终端、消费ARPU值等用户基本资料信息,建立电商专项数据挖掘模型,实现对用户购物需求定位,发现用户潜在的购物需求。例如精确定位在某高档红酒的消费需要、以及确定用户是否已完成此需求。消费分析模型:结合对用户的消费ARPU值习惯,确定客户分群,通过不同的客户群以及电商行为进行关联推荐分析。终端分析模型:结合对用户的终端偏好,确定客户分群,通过不同的客户群以及电商行为进行关联推荐分析。套餐分析模型:结合对用户的套餐,确定客户分群,通过不同的客户群以及电商行为进行关联推荐分析。再营销分269、析模型:对用户历史营销日志进行分析,关联分析出用户潜在的购物需求。电商商品专项分析模型:结合用户套餐、终端、套餐、电商标签,建立电商商品的专项数据挖掘模型,定位用户购物需求。2)模型优化通过营销结果反馈数据,对挖掘模型进行反向验证,调整模型参数、逐步优先模型,达到不断提供营销成功率的精细化营销目标。l 营销策划制定营销计划和营销活动的内容,包括商品推送营销、导购抽奖等交互活动营销,营销策划功能实现对活动的名称、描述、活动时间、目标用户量、选择目标用户群、短/彩信内容、业务目标、执行渠道/方式等参数录入和保存。营销策划制定后,需要审批后才能执行。营销策划提交后,对未审批的申请支持修改、删除操作。270、对已审批的申请,只支持查询,不支持修改和删除操作。查询操作可以查看审批状态、活动进行状态、完成情况。l 营销执行平台执行渠道包括短/彩信空中渠道或网站电子渠道两种执行路径。1)短/彩信空中渠道:当审批通过的策划活动,系统直接将目标用户群以及对应的短/彩信内容通过短/彩信PUSH接口推送到执行平台,完成对用户的推送动作。2)网站电子渠道:对于网站电子渠道活动,主要是指在用户购物导购网站,设计专题的活动主题,如抽奖、积分兑换等,此时的营销策划中目标用户群为主动访问本导购网页的用户,在用户登录网站时,主动弹出活动消息,提醒用户参与活动。l 营销反馈数据收集建立及时的营销数据收集能力,达到对所有营销计271、划执行清单准确跟踪和结果明细数据收集,提供营销结果统计查询/明细查询功能,支持对营销过程的监控。短/彩信渠道反馈数据收集:通过短/彩信渠道营销的目标用户群,反馈数据包括发送状态、用户点击访问日志、用户购物点击日志数据。网站电子渠道营销数据收集:通过网站电子渠道的营销活动,反馈数据为用户的访问日志、活动参与操作日志。l 营销反馈数据分析针对短/彩信渠道营销反馈结果数据、网站电子渠道营销结果数据,分别分析用户群的特征、营销效果,并以报表形式展示。1)短彩信渠道营销报表元素包括:营销活动、目标用户量、发送成功量、用户点击量。2)网站渠道营销报表元素包括:营销活动、访问用户量、点击购物用户量。4.4.272、2.3 对外合作作用:通过指数分析、用户行为分析等报告,对外发布,提高XX的社会影响力。【功能定义】系统针对电商的相关信息,分析用户的行为分析行为,然后根据用户行为有针对性推送电商产品。4.4.2.3.1 合作厂家管理合作厂家管理用于管理与本平台合作的电商(第三方厂家)信息。录入信息包括合作厂家名称、购物网站、合作计费方式、计费比例/计费金额。功能支持添加、查询、有效设置、内容修改操作,已添加完成的信息不可删除,只能进行注销操作。4.4.2.3.2 合作商品采集策略管理本功能实现对每个合作厂家的合作商品进行采集和录入功能,包括商品分类、商品名称、商品描述、有效时间、商品价格、图片、导购地址、所273、属城市等信息。功能支持对已录入的信息进行查询、修改、下线设置等操作。4.4.2.3.3 商品分类管理商品分类管理用于定义和管理购物商品的分类信息,商品分类分为二级结构,一级团购、优惠打折、美食、数码等,二级分类如电影票、优惠券、火锅、手机配件等。商品分类管理支持添加、修改、删除操作。当一级分类下存在二级分类时,一级分类不可删除。4.4.2.3.4 用户接触界面管理用户接触界面管理,用于配置整个页面的风格,包括配置展示的导航分类、登录主页面显示的商品信息,具体商品分类下每页显示的商品个数,排名展示的数量等。对于专题活动,需要单独实现,具体活动需要根据专题进行定制开发4.4.2.3.5 导购统计导274、购统计包含商品访问/收藏等统计,为营销人员提供活动策划指导,此功能向营销人员开放。4.4.2.4 金融证信作用:利用现有客户信息和消费记录、以及用户的社交圈,将这些数据经过交叉分析和索引处理后,可以推断某人能否支付账单、预测某人的支付意向等,提供金融证信服务能力。【功能定义】“物以类聚,人以群分”,通过一个人的交际圈,即可看出用户的信用情况。通过对用户的社交圈分析,可以看出用户的信用情况,结合用户的消费情况,及用户的通信账单、缴费记录、欠费逾期等记录情况,可以推断用户能否支付账单、预测某人的支付意向,为XX提供金融证信服务能力。图 金融证信分析图【功能要求】通过用户的行为属性及客户信息,区分出275、用户的相关属性是否与支付能力与信誉度相关,通过此类相关参数,通过相关算法进行计算,确认用户的支付账单能力及支付意向。【功能要素】:支付账单能力、信誉度评级、性别、婚姻状况、职业、年龄、地址、缴费记录、欠费逾期记录、社交圈。5 系统接口方案系统与外部接口包括数据源接口、安全管理接口。l 数据源接口:系统从外部系统获取数据信息的接口;l 安全管理接口:系统与4A管理平台的接口和信息推送接口等。5.1 数据源接口描述数据源接口分为三大类: l 文件接口:数据提供方通过提供数据文件将数据提供给数据接收方;l 数据库接口:数据提供方通过开放数据库的表或视图的访问权限将数据提供给数据接收方。l 消息接口:276、消息接口主要用于传输数据提供方与数据消费方间建立通信的相关信息l SDTP实时通信接口:SDTP为实时数据共享传输协议。该协议是信令采集网关(SCG)与信令共享平台之间的接口传输协议,也是信令和应用层(AD)中部分应用系统之间的接口传输协议。其传输特点是数据传输量大,实时性要求高,过程简单,不需要握手鉴权过程。文件接口文件接口须采用HTTP、FTP等标准传输协议。须支持csv/txt/xml等多种文件格式,传送的频率需要满足月、日、小时、分钟等多种频率。数据库接口对于相同数据库系统之间表或视图的抽取,数据接收方通过DBMS在数据库之间建立直接链接关系进行抽取。对于不同数据库系统之间表或视图的抽277、取,应通过ODBC/JDBC建立链接进行抽取。消息接口消息接口的实现应支持Web Service技术、支持MQ标准的消息队列技术、支持socket技术等。所有接口均须保证与ESB集成总线的无缝对接,能够满足通过ESB服务订阅消费系统数据的要求。5.2 安全管理接口描述4A接口接口内容系统数据安全管理模块与4A管理平台的接口有从帐号登录接口、帐号/角色管理接口、审计日志传送接口、系统日志和用户的数据同步接口等接口方式由于此类接口数据量小,实时性高,采用webservice接口方式;5.3 外部接口附图84. 外部接口示意图l 话务网管系统:提供GSM、TD网络性能和动态资源数据。l 数据网管系统278、:提供WLAN网络性能和动态资源数据。l 经分系统:提供终端、套餐信息l BOSS系统:提供GPRS、WLAN话单数据l 网优平台:提供邻区数据l 综合资源:提供静态资源数据各接口之间数据流向图如下:附图85. 各接口之间数据流向图根据数据的完整性情况,和数据补采策略,能够自动重新发起采集任务,把数据重新进行采集,保证数据的完整性,最大限度和数据源侧保持一致。6 扩展能力说明我方提供的解决方案具有非常好的扩展性,具体体现在以下几个方面:6.1 管理范围扩展随着未来宁夏移动移动业务的扩展,必然需要将本项目的管理范围进行扩展或调整。由于我方解决方案提供了核心应用负载分担、分布式数据采集等相关技术支279、持,因此完全可以在本期系统上进行无缝的管理范围扩展。具体方式包括: 在新增的被管理网络环境中部署分布式采集服务器和四网协同分析系统分布式数据采集模块,直接接入到本期项目系统中。无需停止本期系统,也不会对本期系统的管理策略造成影响。 若管理范围扩展造成核心服务器处理能力不足,可以通过增加核心服务器硬件配置或增配核心服务器数量的方式进行处理能力的扩展。扩展过程中不会对既有管理策略和管理数据造成影响,仅需要对硬件平台和基础系统软件(诸如操作系统、HA软件、数据库软件等)进行调整。6.2 管理性能扩展在本技术方案建议书中我方推荐的硬件设备均能够满足本期项目对于硬件设备的性能要求,且预留了一定的数据处理280、和数据存储能力。本方案中我方推荐使用的服务器,均预留了30%-50%的服务器数据处理扩展能力,未来可以通过增配CPU、内存的方式提高服务器的处理能力。本方案中我方推荐使用的数据存储磁盘阵列也预留了足够的存储容量扩展能力。完全可以满足宁夏移动四网协同分析系统系统长期的数据存储需求。我方解决方案中推荐使用的四网协同分析系统支持多台服务器负载均衡模式,如果必要还可以通过增配核心服务器和Web服务器的方式进行管理性能的扩展对于接口服务器虽然采用CPU满配的配置方式,但可以通过增加接口服务器,并与现有接口服务器构成负载均衡模式的方式实现接口数据交换能力的扩展。需要注意的是未来若需要对硬件平台处理能力进行281、扩展,则需要增配相应的软件模块或软件使用许可证。如若增加核心服务器的CPU数量,需要增配相应的HA软件和数据库软件的用户许可证;若增配分布式数据采集服务器,需要增配对应数量的四网协同分析系统分布式数据采集模块。7 风险分析及控制方法7.1 整体安全风险管理控制措施风险管理计划是项目管理计划的组成部分之一,基于项目启动前的风险评估、分析和减负而产生。风险管理是一个重复的过程,从项目开始时贯穿整个项目生命周期。以下几个部分构成风险管理过程:l 在项目开始时,神州泰岳和用户必须对项目组中参与风险管理的人员和责任达到共识。我们将确定何时和如何重新评估风险及报告风险管理状态。l 通常风险评估是根据每周的282、项目组进展报告会议的议程来进行的,但必要时要召开专门会议评估和管理风险。l 服务经理总结项目组的风险评估并向项目发起人报告风险发现情况。7.1.1 风险分析风险分析是一个持续实施的过程。在一个项目从始到终,任何新的或变更的风险应重新进行风险分析。对每一个风险确认应完成以下的风险列表和评估表:l 风险描述l 风险影响类型和可能影响的日期l 风险告警标记l 风险可能性l 潜在的和可能的风险成本l 风险优先级7.1.2 风险确定确定项目中潜在负面结果的不确定性。在项目生命周期中尽可能早的确定风险并存放在风险评估报表中,同时风险确定要在项目生命周期中持续进行。在开始项目风险确定时,所有项目组成员有责任283、去发现自己负责部分工作中的潜在风险,并在每周的项目组例会上提交,或者在风险比较紧急的情况下直接提交给项目经理。通过实现软件和技术结构的经验,神州泰岳设计了一个风险评估报表由以下几类构成:l 与运行支持相关的风险。l 与应用操作相关的风险。l 与人力资源成本相关的风险。l 与项目实施时间相关的风险。l 与技术使用相关的风险。每一类列出可能的风险项目,并询问客户此项风险在项目中作为低中高风险考虑。这个评估或者由几个关键小组成员进行并交给项目组讨论,或者由关键的项目组成员在会议上讨论并记录下共同的评估结果。在这些评估会议中,新的风险项目要加到风险评估报表中。7.1.3 降低风险降低风险即采取行动去除284、减少、最小化项目风险的影响。通过风险分析,形成一个风险降低计划,形式为风险降低策略表,其中包括一系列为项目成功而采取的最小化风险影响的行动,针对每一个风险都指定一个负责人,由负责人负责跟踪风险状态并随时更新风险降低计划。对于那些影响低、可能性低的风险一般不需要制定风险降低计划,但是这些风险必须要监控,避免发展或转化为高风险。对于需要降低的风险,有两个降低策略需要考虑:l 预前处理策略:通过清除、减少或避免风险来最小化风险带来的威胁。l 意外处理策略:在情况发生时采用一个意外处理计划可以最小化风险的影响。7.1.4 风险降低控制在整个项目过程中,为了有效的管理风险,如果需要,项目经理需执行下面285、的活动:l 实施风险降低计划,如果通过发现风险告警标记为正面,那么可采用预前处理策略,执行风险降低计划。l 评估风险降低计划的效率l 再评估:针对项目中动态变化的风险,每周要再评估这些风险的状态7.2 针对本次工程的项目风险与规避分析本次安全工程的开展过程中,主要产生以下几类风险,需要双方紧密协作,采取必要手段规避各类风险。l 信息泄密类风险l 业务连续性类风险l 项目管理类风险信息泄密类风险如下所示:编号风险描述规避措施1项目实施过程中,将企业安全环节的薄弱点暴露给非企业用户,造成信息泄漏。签订保密协议建立长期合作,促进互信与共识业务连续性类风险如下所示:编号风险描述规避措施1技术服务实施过286、程中,发生意外,造成原业务系统无法正常提供正常服务;所有的技术服务均事先进行详细的调研分析;所有具有高危风险的技术服务均事先进行模拟环境测试,确保能够在业务系统中正常运行,发挥正常安全功效;所有操作均事先进行可恢复性考虑,进行必要的系统或数据备份,以便发生意外时进行恢复;项目管理类风险如下所示:编号风险描述规避措施1项目实施过程中,第三方的产品原厂商人员无法很好的配合项目实施,打算正常的项目实施和项目管理秩序;神州泰岳公司将详细了解和选择第三方的人员协助进行项目实施,并且参加统一的项目实施培训,进行统一要求,并提请各第三方厂商的管理层给予支持和考核;8 特点与优势8.1 领跑市场的专业团队根据287、IDC中国业务服务管理解决方案市场研究报告显示,2004年、2005年、2006年连续三年神州泰岳在中国IT服务管理领域市场占有率排名第一。IDC报告同时指出:“在目前大多数解决方案提供商严重依赖于国际厂商产品的背景下,神州泰岳通过自主研发产品建立了核心竞争力,已经步入自主创新的良性循环。”“神州泰岳为客户提供了更加全面、统一和集成的有效解决方案,在众多竞争者中差异化特性显著,并获得市场的认可。”神州泰岳目前拥有国内规模最大、技术水平最高的运维管理专业技术团队,依托国内最大的市场份额,能够为某某移动提供专业、高效、持续的技术服务。我方热切期盼能够成为某某移动在运维管理领域长期的合作伙伴,助力某288、某移动不断提升运维管理能力和水平。8.2 遵从国内外技术标准我方在设计宁夏移动四网协同分析系统解决方案时,遵从了国内外主流的技术规范和标准。如我方在进行技术框架设计时参考了TMF的eTOM模型,在进行功能架构设计时参考了ITU-T TMN模型等。这使得整个解决方案能够匹配国际国内的相关技术规范和标准,确保了宁夏移动四网协同分析系统解决方案的先进性。此外,我方在整个技术方案设计和编写过程中,严格遵从了电信行业相关行业规范标准和XX相关企业规范标准。确保宁夏移动四网协同分析系统系统能够匹配行业和企业相关要求。8.3 成熟稳定的系统平台我方在本项目中推荐使用的系统是一种成熟稳定的产品。具有如下特点与289、优势:基于面向对象技术,建立了统一资源管理模型,实现动态更新、统一精确的资源管理,能够提供完善的配置服务。具有良好的扩展性,能够灵活的管理管理新增的被管理对象和新增的业务;具有良好的可定制性,能够满足客户的各种需求。提供了横向划分的功能层次,即数据采集、数据处理、数据展现。能够灵活的进行分布式部署和负载分担配置。是一种高可伸缩性的系统平台。全中文化的系统平台,提供中文数据查看和配置界面、中文数据报表、中文在线帮助,操作模式符合国内用户使用习惯,便于使用推广。8.4 持续优质的技术服务神州泰岳作为业内规模最大的运维管理专业公司,拥有数百人的专业技术团队。神州泰岳在全国建立有多个分支机构和技术服务290、中心。因此神州泰岳能够为宁夏移动四网协同分析系统系统提供本地化的专业技术支持服务,如有必要还可以快速调派高级技术人员对宁夏移动四网协同分析系统系统提供及时、有效的技术服务响应。值得注意的是,由于神州泰岳连续多年市场份额保持第一,有足够的资源支撑公司持续高速发展,因而其提供技术服务的持续性和稳定性是值得信赖的。9 成功案例介绍9.1 中国电信重庆公司 流量经营IT支撑系统r 项目背景随着中国电信移动互联网业务的发展,客户数量稳步增长,截至2011年11月底,CDMA用户总数达1.23亿(其中3G用户3335万),但受限于业务内容匮乏等原因,造成移动互联网数据流量多数被第三方占用,出现“增量不增收291、”尴尬局面。随着3G网络的运营和智能移动终端的普及,企业逐渐从单纯的追求数量、容量向追求投入产出比和网络使用效率的方向发展,促进产业、企业的可持续发展。一方面,通过对自身资源、用户进行整合挖潜,不断的推出新的无线数据业务,提高单位用户ARPU值来实现整体收入的增加,另一方面向用户提供更具个性化的增值业务产品满足客户多样化的需求来降低客户流失率。挖掘存量市场,提供多样化、多层次的新业务和建立更完善的销售服务体系成为运营商在竞争中提升企业的市场竞争力的重要手段。移动互联网作为3G时代三大运营商发展的焦点,如何指导用户使用流量与吸引用户使用流量,产生用户黏性,是运营商面临的直观问题,如何将运营商的流292、量使用数据转化为生产力,迫切需要寻求解决方案。流量经营分析工作正是基于以上需求,针对庞大的电信用户群和海量的用户接入数据进行分析,为移动业务的发展和服务质量的提高提供强有力的技术数据支持,并且通过各种维度和用户业务数据,使用短信推送、彩信推送、门户推送多种方式进行精确推送营销,实现“管道变渠道、渠道变平台、平台带业务”。为有效推进重庆电信流量经营分析工作的开展,中国电信股份有限公司重庆信息化部组织、增值业务中心牵头启动了本期流量经营IT支撑项目。r 项目目标本项目重点对天翼移动用户的终端类型、用户分群、内容喜好等多个角度进行数据分析和数据挖掘,为精细化运营支撑提供动态数据,并将目标数据发送至多293、渠道(短信、彩信、网厅、掌厅等)开展针对性营销工作;同时支撑流量经营量收指标展示及经营分析决策,解决公司各个层面看数、用数需求。r 总体方案描述附图86. 方案架构附图87. 技术架构r 案例成果说明u 通过构建底层hadoop架构,实现大数据模式分析,将用户上网日志数据和传统ODS数据进行整合分析,刻画全息用户画像。附图88. 全息视图u 实现了URL和APP解析识别,进而刻画用户上网偏好。附图89. URL解析附图90. APP解析附图91. 用户兴趣点统计u 对终端进行全面使用和维度分析附图92. 终端分析u 实现了内容管理,包括热点资讯、小说、新闻和视频等。附图93. 热点管理u 对热294、门应用进行统一管理,并提供接口进行前台推送。附图94. 应用管理r 业务创新点u 数据融合:首次将传统B域数据和O域用户上网数据结合分析;u 客户画像:用户各种维度的全息画像刻画;u 热点内容集中管理和发送:从用户访问海量互联网内容中抓取热点内容进行集中管理,并可根据热点情况进行相关推送;u 应用管理一体化:系统可支持用户自定义各种应用的管理,将所需要的各类应用集约化管理,并可以和前台对接实现一键推送;9.2 中国移动辽宁公司 移动互联网用户分析系统r 项目背景全球互联网正在由PC-Internet向Mobile-Internet转变,手机及移动终端在某种意义上已经主导着互联网的发展。移动互联295、网的发展给电信产业带来深刻影响,移动运营商面临巨大的机遇。3G业务发展脚步的逐渐加快,更多的、新兴的3G业务及需求的出现对已有的业务形成刺激,产生互相推动、牵引的上升态势。大数据性质的专题分析,已经成为行业发展趋势,因此辽宁移动设计建立移动互联网用户行为分析系统,在数据共享中心的基础上实现对用户移动互联网行为分析,从而实现掌握用户使用习惯喜好,准确定位用户移动互联网需求,帮助辽宁移动进行大数据专题性分析,挖掘数据价值,提升企业能力。r 项目目标1. 搭建基于大数据的能力处理平台2. 完成GN口与A口非结构化数据的处理能力3. 形成结构化与非结构化数据的整合能力4. 探索移动互联网相关数据的应用296、方向r 总体方案描述附图95. 总体方案描述r 案例成果说明u 社交媒体计算方式:通过对重点媒体、论坛、博客、微博等网站舆情信息进行监测。利用爬虫、中文分词技术等自然语言处理技术和中文信息处理技术,对信息进行垃圾过滤、去重、相似性聚类、情感分析、提取摘要、自动聚类等处理,及时掌握微博用户、重要社交媒体对中国移动整体评价,从而可以针对一些负面的评论及时采取措施,减少社会影响。附图96. 社交媒体计算方式u 用户位置信息计算方式:系统通过对A口日志中用户位置更新事件、小区切换事件相关数据,判断用户语音、短信、开关机、位置更新等动作的小区基站位置变化轨迹,从而计算用户行为轨迹附图97. 用户位置计算297、方式u 企业选址分析能力:利用企业需求进行拆分,形成移动互联网化客户需求,进而寻找潜在客户,关联不同时间段客户行为轨迹,寻找潜在客户密集区;调用BAIDU地图,形成图形化地域展现与周边信息展现。附图98. 企业选址u 用户互联网分群分析能力按照正负样本、数据模型、统计分析等方式计算样本数据的分群规则;目前系统根据互联网分析原则,构架36个用户分群逻辑模型,实现用户互联网群体消费分析能力附图99. 用户移动互联网分群r 业务创新点u 互联网数据解析能力:搭建覆盖近30万频道和27亿网页(含WAP)的URL地址库和海量关键词库,完成应用市场上常用5万款主流客户端应用软件的解析、识别、分类,实现覆盖298、移动用户手机桌面90%以上的应用软件分类库,按用户偏好建立2763个兴趣点维度标签,实现用户网页访问和APP使用行为融合分析附图100. 移动互联网数据解析u 互联网关键词分析方式:系统建立关键词库,通过分词技术,实现对页面内容爬取后的数据分析。搭建语义分析模型,实现页面有效词汇的意义分析,根据有价值词汇出现频率,从而判断页面关键词;附图101. 互联网关键词分析9.3 中国电信北京公司 互联网行为标签系统r 项目背景在全网运营和移动互联网时代,传统语音业务收入下滑已经成为了不可阻挡的趋势,数据业务成为了运营商新的利润增长点,尤其是随着智能手机的不断普及,移动数据流量在未来几年将实现成倍增长。299、为应对移动互联网带来的挑战,中国电信提出了从话务量经营转向流量经营的战略目标,从传统的注重用户规模转变为注重流量发展。r 项目目标北京电信互联网行为标签系统是汇聚电信用户通信、终端等上网数据,解析用户移动互联网流量行为,全角度刻画用户,为用户画像,细分客户群的分析系统。此系统输入数据为北京电信用户DPI上网基础数据,输出为用户用户行为分析统计报表。2.1 业务目标集用户移动互联网上网信息,进一步完善用户行为数据,提高数据支撑能力,满足流量经营等平台的数据支撑需求。业务目标包括:1. 补充互联网行为数据,完善客户统一视图,增强客户洞察能力;2. 增强主题营销活动的策划支撑能力;3. 增强流量经营300、和流量类针对性营销的支持能力。2.2 技术目标针对移动互联网数据的特点,通过协议类型来进行数据采集、解析和识别,并输出移动互联网标签数据。技术目标包括:1. 实现大数据集的采集、处理能力;2. 实现对用户移动互联网行为的识别能力;3. 实现每天6点前完成对用户移动互联网四级标签输出能力;4. 实现专题活动中的指定网址记录识别能力,并按用户每天汇总输出;5. 实现搜索关键字匹配智能机行为能力,并按用户每天汇总输出。r 总体方案描述建设原则:1. 规范性:严格遵循北京电信的相关技术规范和业务规范的要求。2. 开放性:系统遵循开放性架构,采用开放的接口协议与开发平台,为用户提供统一的、开放的能力调用301、;业务维护和发展不依赖与设备厂商,能够保证业务的持续升级和发展;3. 安全性:系统安装电信级的应用进行设计,系统软硬件架构充分考虑整个系统运行的安全策略和机制;4. 成熟性:采用成熟稳定并且有电信级运营实例的软件设计架构。5. 高可靠性/稳定性:采用故障检查、告警和处理机制,保证数据不因意外情况丢失或损坏;采用灵活的任务调度机制实现负载均衡,防止“瓶颈”产生。6. 采用国际、国内的标准技术,采用规范的接口和协议,保证系统各组成部分的协同一致,构成可兼容、易移植的系统平台;附图102. 互联网行为标签系统架构图r 案例成果说明每日上网记录数据解析率达到89.46%数据清洗过程数据情况(条)第一轮302、数据清洗后的数据918112891系统识别数据解析的网页条数295264042解析的APP使用/下载条数246450790解析的其他数据条数279655880未识别数据96742179解析率89.46%9.4 中国电信天津公司 2012年流量经营平台扩容改造工程r 项目背景2012年中国电信企业发展战略定位为“顺势而为,务实推进新三者。“智能管道的主导者”寓意着实现高带宽、固网移动网络融合;“综合平台的提供者”寓意着实现集约化运营及能力开放;“内容和应用的参与者”寓意着聚合合作伙伴,合作共赢,做精做深八大基地等自营业务,力争进入业界前3。2012年中国电信重点目标主要聚焦于“规模发展”、“创新303、突破”、“服务领先”和“全网运营”四点上。近年来,随着移动通信行业的高速发展,其竞争日趋白热化,各大通讯运营商面临投资边际效益递减、增量不增收的尴尬局面。电信企业除了积极寻求创新外,还亟须引导“消费升级”,使用户逐步向高端转化。从单纯的追求数量、容量向追求投入产出比和网络使用效率的方向发展,促进产业、企业的可持续发展。各运营商对自身资源、用户进行整合挖潜,通过不断的推出新的移动增值业务,提高单位用户ARPU值来实现整体收入的增加,另一方面向用户提供更具个性化的增值业务产品满足客户多样化的需求来降低客户流失率。挖掘存量市场,提供多样化、多层次的新业务和建立更完善的销售服务体系成为运营商在竞争中提304、升企业的市场竞争力的重要手段。移动互联网作为3G时代三大运营商发展的焦点,如何指导用户使用流量与吸引用户使用流量,产生用户黏性,是运营商面临的直观问题,如何将运营商的流量使用数据转化为生产力,迫切需要寻求解决方案。综上所述,进行天津电信分公司2012年流量经营平台扩容改造工程的建设是十分必要的。r 项目目标本期工程流量经营平台扩容改造工程,建设主要目的为按照天津电信业务需求,在原有流量经营平台-体验卡系统上进一步完善和提升天津电信流量经营系统的基础服务能力,用户挖掘能力,扩展平台功能。主要建设目标如下:1)调测平台接口,搭建数据集市,建设流量经营平台-助营分析支撑系统;2)建设流量经营平台-U305、RL解析系统。r 整体方案描述附图103. 总体方案描述r 案例成果说明u 分类统计:使用人员可根据自己的需求提出想要提取哪类流量用户,如 提取新闻标签用户:用户连续3天有新闻行为,且每天的新闻访问次数达到人均新闻访问量的30%,且终端支撑彩信的用户。使用人员给通过邮件发给信合现场人员,待信合分析完成后将分析结果通过邮件发送给需求人员。附图104. 分类统计报表u 终端统计报表:查询各机型 、支持能力下的用户量,方便营销人员制定营销活动附图105. 终端统计报表r 业务创新点u 互联网数据解析能力:搭建覆盖近30万频道和27亿网页(含WAP)的URL地址库和海量关键词库,实现覆盖移动用户手机桌306、面90%以上的应用软件分类库,按用户偏好建立2763个兴趣点维度标签,实现用户网页访问和APP使用行为融合分析附图106. 移动互联网数据解析9.5 中国电信广东公司 移动互联网精细化运营系统r 项目背景移动通信技术从2G发展到3G,用户在通信方面的需求方式、手段选择、使用习惯等都随着发生明显变化。在移动互联网时代,话音和短信已经远不能满足用户的通信需求,流量成为新的需求爆发点,在这个阶段,流量不可避免的被运营商视之为继话音和短信之后可挖掘的第三波增长机遇。流量经营精细化运营系统是综合用户的传统增值业务行为数据,并结合通过互联网解析获取到的用户互联网行为进行数据分析,提取用户潜在的3G增值业务307、需求。通过数据分析,建立客户视图,对重点产品进行专题数据挖掘,提供日常应用支撑。根据社会属性挖掘出学生、外来工、都市白领用户群体,并且在itv业务群体基础上进行用户群体划分,为营销活动提供了充足的数据基础。 “流量经营精细化运营系统”项目是中国电信广东分公司、中国电信股份有限公司广东研究院共同整理细化需求,北京信合运通科技有限公司完成的业务开发项目。r 项目目标 建立移动互联网网站分类规范; 建立移动互联网URL分析库; 建立移动互联网APP分析库; 建立用户分群特征库; 建立用户互联网行为分析能力支撑平台,进行用户访问互联网行为分析,准确掌握用户上网行为数据; 生成用户关于移动互联网上网行为308、画像,输出用户上网行为TOP喜好; 进行用户上网行为综合分析,输出基于用户移动互联网的使用行为分析报表; 结合用户基础话费、套餐、增值业务等日常消费信息数据,参照用户分群特征库,输出用户分群属性信息。r 总体方案描述附图107. 总体方案描述r 案例成果说明1、建立客户视图:根据用户的行为数据以及基础数据,对客户进行标签。客户的标签至少包含(但不限于)内容偏好分类(例如:体育、音乐等)、移动位置轨迹、社会属性(用户基础属性描述,例如:白领、学生;语音活跃、上网活跃等等)。2、重点产品专题数据挖掘:针对天翼火车通、天翼客运通、翼TV、红微博营销活动、189邮箱、翼分享、天翼空间、天翼阅读八个业务开展专题数据挖掘(后期会增加一到两个业务分析需求)。3、日常应用支撑:对客户视图和重点产品的营销应用需求,提供目标用户清单统计和提取等日常支撑。从系统目前运行状态看,流量经营精细化运营系统业务上线以来,系统稳定运行,配合营销活动扩大标签用户群并且针对不同的业务响应效果有一定的提升。名称营销类型营销人数
会员尊享权益 会员尊享权益 会员尊享权益
500万份文档
500万份文档 免费下载
10万资源包
10万资源包 一键下载
4万份资料
4万份资料 打包下载
24小时客服
24小时客服 会员专属
开通 VIP
升级会员
  • 周热门排行

  • 月热门排行

  • 季热门排行

  1. 2025商场地产夏日啤酒龙虾音乐嘉年华(吃货的夏天主题)活动策划方案-47页.pptx
  2. 2022城区自来水提质改造智慧水务建设项目设计方案(199页).pdf
  3. 小区人员配置档案建立保洁绿化物业管理服务投标方案(593页).docx
  4. 陕西化学工业公司招聘管理与职业发展管理手册30页.doc
  5. 动火作业安全告知卡(1页).docx
  6. 高处作业安全告知卡(1页).docx
  7. 广场工程建设项目施工招标评标报告表格(24页).pdf
  8. 原油码头消防工程维保方案(39页).docx
  9. 建筑工程外脚手架专项施工方案(悬挑式脚手架、落地式脚手架)(25页).doc
  10. 2020柏向堂房地产公司材料标准化手册3.0(143页).pdf
  11. 2021柏向堂房地产公司材料标准化手册4.0(108页).pdf
  12. 土建、装饰、维修改造等零星工程施工组织设计方案(187页).doc
  13. 深圳装饰公司施工图纸会审及设计交底管理制度【13页】.doc
  14. 新规下的户型增值秘籍.ppt(22页)
  15. 房地产开发贷款实操指南(5页).pdf
  16. 鄂尔多斯空港物流园区总体规划方案(2017-2030)环境影响评价报告书(23页).doc
  17. 规划兰园西路道路工程环境方案环境影响评价报告书(89页).pdf
  18. 屋面圆弧形穹顶结构高支模施工方案(40米)(47页).doc
  19. 埋石混凝土挡土墙施工方案(23页).doc
  20. 重庆市五小水利工程建设规划报告(64页).doc
  21. 厂区至矿区管网蒸汽管道系统扩容改造工程施工组织设计方案(105页).doc
  22. 超高纯氦气厂建设项目办公楼、变电站、水泵房及消防水池、门卫、厂房、仓库、配套工程施工组织设计方案(140页).doc
  1. 房地产交易环节契税减征申报表(首套填写)(2页).doc
  2. 2025商场地产夏日啤酒龙虾音乐嘉年华(吃货的夏天主题)活动策划方案-47页.pptx
  3. 2024大楼室内精装修工程专业分包投标文件(393页).docx
  4. 苏州水秀天地商业项目购物中心100%室内设计方案(158页).pptx
  5. 2022城区自来水提质改造智慧水务建设项目设计方案(199页).pdf
  6. 小区人员配置档案建立保洁绿化物业管理服务投标方案(593页).docx
  7. 室内移动式操作平台工程施工方案(19页).doc
  8. 地铁6号线区间盾构下穿管线专项施工方案(30页).doc
  9. 矿山治理工程施工组织设计方案(240页).docx
  10. 老旧小区改造工程施工方案及技术措施(364页).doc
  11. 北京科技园公寓建设项目整体报告方案.ppt
  12. 建筑工程三级安全教育内容(24页).doc
  13. 新疆风电十三间房二期工程49.5mw风电项目可行性研究报告(附表)(239页).pdf
  14. 土建、装饰、维修改造等零星工程施工组织设计方案(187页).doc
  15. 四川凉山攀西灵山国际度假区小镇活力中心商业业态规划方案建议书(33页).pdf
  16. 埋石混凝土挡土墙施工方案(23页).doc
  17. 地下停车场环氧地坪漆施工方案(45页).doc
  18. 深圳装饰公司施工图纸会审及设计交底管理制度【13页】.doc
  19. 地铁深基坑及钢筋笼吊装安全专项施工方案【98页】.doc
  20. 住宅定价策略及价格表制定培训课件.ppt
  21. 西安名京九合院商业项目招商手册(28页).pdf
  22. 2010-2030年湖北咸宁市城市总体规划(32页).doc
  1. 建筑工程夜间施工专项施工方案(18页).doc
  2. 赣州无动力亲子乐园景观设计方案(111页).pdf
  3. 2016泰安乡村旅游规划建设示范案例(165页).pdf
  4. 房地产交易环节契税减征申报表(首套填写)(2页).doc
  5. 龙山县里耶文化生态景区里耶古城片区旅游修建性详细规划2015奇创.pdf
  6. 连云港市土地利用总体规划2006-2020年调整方案文本图集(78页).pdf
  7. 850亩项目塑钢门窗工程施工组织设计方案(34页).doc
  8. 老旧小区改造工程施工方案及技术措施(364页).doc
  9. 城市更新项目地价公式测算表.xlsx
  10. 房地产项目规划前期投资收益测算模板带公式.xls
  11. 存储器基地项目及配套设施建筑工程临时用水施工方案(40页).docx
  12. 铁路客运枢纽项目站前框构中桥工程路基注浆加固专项施工方案(19页).doc
  13. 室内移动式操作平台工程施工方案(19页).doc
  14. 装配式结构工业厂房基础、主体结构、门窗及装饰工程施工方案(83页).doc
  15. 地铁6号线区间盾构下穿管线专项施工方案(30页).doc
  16. 施工工程安全教育培训技术交底(13页).doc
  17. 老旧小区改造施工方案及技术措施(365页).doc
  18. 新建贵广铁路线下工程沉降变形观测及评估监理实施细则(126页).doc
  19. 消防火灾应急疏散演练预案(12页).doc
  20. 矿山治理工程施工组织设计方案(240页).docx
  21. 崖城站悬臂式挡墙施工方案(92页).doc
  22. 北京科技园公寓建设项目整体报告方案.ppt