2018年通信业务公司软件研究院大数据技术概览培训课件.pdf
下载文档
上传人:地**
编号:1266402
2024-12-16
41页
2.09MB
该文档所属资源包:
通信业务公司软件研究院大数据技术信息安全IT总体规划培训课件资料
1、大数据技术概览目录1 1大数据背景大数据背景2 2大数据面临挑战大数据面临挑战3 3大数据典型应用场景大数据典型应用场景4 4运营商大数据特征与优势运营商大数据特征与优势5 5大数据与大数据与HadoopHadoop技术技术6 6大数据技术趋势大数据技术趋势大数据背景何为大数据?与传统数据的区别?自然(Nature)杂志专刊The next google 第一次提出“大数据”概念2008年9月2011年2月科学(Science)杂志专刊Dealing with data,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响。2011年5月麦肯锡研究院发布报告Big data,the 2、next frontier of innovation,competition,and productivity第一次给大数据做出相对清晰的定义:大数据是指其大小超出了常规数据库工具获取、存储、管理和分析能力的数据集。大数据(BIG DATA)是可以被记录、采集和开发利用的海量、实时、多样化的数据集、数据流和数据体。何为大数据?与传统数据的区别?01020304多样性种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。容量大数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少3、是P(1000个T)、E(100万个T)或Z(10亿个T)价值密度低随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。速度快数据增长速度快,处理速度也快,时效性要求高。比如个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。4VVolumeVelocityVarietyValue不论大数据还是小数据,能起到作用,就是好数据。何为大数据?与传统数据的区别?维度传统数据数据量多样性增长速度分析方法GB-TBTB-PB以上价值体现结构化数据结构化、非结构化、多维、音视4、频数据数据量稳定增长不快持续实时产生数据要求即时处理单一业务,抽样数据非实时分析,注重结果全业务,全量数据实时分析,由果及因报表和统计数据挖掘预测性分析大数据大数据技术的软件栈现状分布式存储引擎资源管理框架通用计算引擎领域级引擎分析管理工具短时任务资源管理框架YARN长时任务资源管理框架Mesos资源隔离调度管理框架Kubernetes批处理框架Map/Reduce2,Tez高性能处理框架Spark向量处理框架TensorFlow分布式文件系统HDFS搜索引擎Elastic Search分布式大表HBase分布式缓存Redis消息队列Kafka分布式协作服务Zookeeper流处理引擎Stre5、amingProcessingSQL批处理BatchProcessing数据挖掘机器学习算法库框架MachineLearning交互式分析OLAPAnalysis实时数据库OLTPTransactionalProcessing图分析引擎GraphAnalysis深度学习DeepLearningETL数据装载工具Workflow工作流开发工具数据质量管理工具统计挖掘开发工具资源管理工具机器学习建模工具可视化报表工具进展1:分布式计算已逐渐成为主流计算方式TransactionRelational DatabaseBatchDataWarehouseAnalyzeClusterUnstructur6、ed StreamingDevicesAnalyze(MapReduce)OrganizeTraditional Data AnalysisBig Data Analysis0500100015002000250030001TB10TB30TB100TBSQL Engines PerformanceTPC-DS Execution Time for 99 Queries(in minutes)Test environment:29 worker nodes2 CPUs,12 Cores,E5-2620 v2 64 GB memoryNetwork:2 X 1GbpsDisks:12 X 3TB7、Hadoop大数据集群已经可以在生产环境中处理PB级数据SQLOnHadoop引擎已能够高效处理百TB级数据复杂分析进展2:交互式分析技术和工程化套件日益成熟Spark SQL Execution Engine交互式数据探索HBase明细查询、影像检索、文档检索Based on HDFS数据关联挖掘RstudioR语言Web IDE分布式内存/SSD列式存储HUE/Zeppelin图形化数据分析查看智能索引技术全局索引全文索引数据稽核元数据管理数据处理工作流调度分布式统计算法库分布式挖掘算法库SQL EditorSQL开发工具ODS 贴源层 文本文件DWD 基础明细层 Hive事务表公共主题模8、型层主流报表工具Data Mining图形化挖掘工具Cube Designer工具进展3:数据分析算法逐渐丰富,工具普及化通过R可以连接数据仓库中数据表,做数据预览可以对列做tag/feature的管理通过内置的分布式统计算法完成相关的预处理与数据分析支持标准化,归一化,正则化,缺失值填充,数据分箱等支持集成组件进行数据ETL处理用户通过GUI选择算法开发训练模型模型编译成为DAG,由组件来调度任务支持单机R算法和分布式算法训练模型导出模型模型可以转换成生产系统的代码,部署到实际业务中结合业务领域专家知识,及相关算法降维,选择特征指标与维度利用深度学习网络算法,通过升维降低特征工程维度选取难度9、AI模型可视化Deep Learning深度学习模型上生产模型训练特征工程预处理数据预览DimensionReduction主成分分析Linear Regression线性回归AI模型训练套件Python/R/SparkMLLIB 语言开发=算法工程师,数据科学家交互式挖掘=业务分析师,数据科学家进展4:大数据正驱动AI引领新一代机器智能革命理论、数据、硬件的突破:CNN RNN LSTM GAN、ImageNet、CUDA GPU图像识别/计算机视觉语音/个人助手/翻译/智能对话无人驾驶/无人XXXXXX图片标注/看图说话自动游戏/增强学习目标检测/对抗网络/物体识别大数据面临挑战大数据时代10、企业面临的挑战:深度分析、机器学习和人工智能竞争优势分析成熟度原始数据清洗后数据常规报表领域经验多维分析大数据分析优化感知&响应已经发生了什么?(史实)已经发生的为何发生?(经验决策)预测&行动即将发生什么?(前瞻)怎样于预测到的未来,为企业寻求利益最大化?(以数据为依据的前瞻性决策,将引领企业)企业建设大数据体系面临诸多挑战在数据中挖据价值:Value=F(Data,Time)数据采集数据安全数据存储空间成本时间成本分布式-网络-云计算机器智能&人工智能图数据库&知识图谱机器学习&深度学习软硬协同数据管理分析演进计算优化传统BI&新型AI数据治理企业建设大数据体系面临诸多挑战在数据中挖据价值11、:Value=F(Data,Time)数据采集数据安全数据存储空间成本时间成本分布式-网格-云计算机器智能知识图谱深度学习软硬协同数据管理分析演进计算优化BI-AI数据治理企业内部:传统IT系统集成ERPCRMSCM互联网:网络爬虫、反爬虫电商、垂直站点IOT物联网:可穿戴式设备工业4.0平台制造实时流采集企业建设大数据体系面临诸多挑战在数据中挖据价值:Value=F(Data,Time)数据采集数据安全数据存储空间成本时间成本分布式-并行-云计算机器智能知识图谱深度学习软硬协同数据管理分析演进计算优化BI-AI数据治理企业建设大数据体系面临诸多挑战在数据中挖据价值:Value=F(Data,12、Time)数据采集数据安全数据存储空间成本时间成本分布式-网格-云计算机器智能&人工智能图数据库&知识图谱机器学习&深度学习软硬协同数据管理分析演进计算优化传统BI&新型AI数据治理大数据典型应用场景用途1:实现企业级数据整合,消除数据割裂,提供综合分析能力以前的信息状况:没有统一数据分析中心,数据割裂、不一致企业级大数据平台业务系统用户建立企业级大数据分析平台之后:消除数据割裂、数据统一、分析更全面数据大量重复存储数据口径的不一致,数据可信度较差只侧重某方面分析,缺乏综合分析高昂的成本(系统成本、人力成本)数据统一整合存储保证了数据的一致性、完整性,数据可信度高提供综合分能能力,支撑更全面更13、及时地决策整体成本更低业务系统用户数据集市统计报表数据集市用途2:从小型机SAN存储高成本模式转变为X86+Hadoop低成本模式以前的系统架构小型机SAN存储的模式,造价高,难扩展现在的系统架构X86+Hadoop/Spark架构成本低,易扩展数据量越来越大,小型机SAN存储的建设模式造价高昂,难以承受;计算、存储需求迅速膨胀,原有服务器达到性能瓶颈,不能横向扩展,只能采用更高端服务器对非结构化数据难以存储和管理系统采购成本大大降低,可为原有的1/41/8;系统可以方便地添加节点进行横向扩展,可以满足PB级数据存储和计算需求对结构化、非结构化数据都能很好地支撑X86服务器Hadoop/Spa14、rk分布式计算框架用途3:多租户/跨部门用户共享使用大数据平台资源HadoopHadoop集群集群关系型数据库关系型数据库流处理流处理MPPMPP集群集群DB2/Oracle/Teradata根据不同需求场景对基础设施进行合理划分合部署,为多应用提供租户模式,实现资源共享联通大数据产品体系中国联通在大数据对外近2年的运营过程中,形成了较完善的产品体系,归纳为8大类产品。标签体系能力开放平台基础产品标准产品平台级解决方案风控平台数字营销沃指数智慧足迹旅游大数据政务大数据运营商大数据特征与优势运营商大数据现状:拥有的数据具备典型大数据特征数据量巨大(Volume)海量信令信息(位置更新开关机网络质15、量)海量互联网行为数据(DPIURLAPP社交媒体关键词)海量话单信息(语音话单短信话单CDMA话单)M2M(Machine to Machine)数据速度快(Volume)产生速度快:互联网信令数据秒级到毫秒级的生成记录交互速度快:业务上需要能够对数据实时访问和处理数据结构多样(Variety)文本信息:互联网网页、投诉文本、短信文本WAP日志/WEB日志用户行为内容客户语音营业厅影像票据等传统结构化数据分析复杂度(Complexity)大数据交互式分析移动互联网背景下的客户行为分析复杂结构数据的关联整合复杂负载类型的管理运营商大数据驱动力:数据运营商 实现企业转型大数据平台数据运营商构建平16、台转变思路网络运营商智能管道业务应用服务数据资源渠道资源租售数据模式租售信息模式数字媒体模式数据使能模式数据空间运营模式大数据技术提供商政府企业广告商供应商个人用户开拓市场电商舆情政府SPCP更多行为数据外部数据产业数据扩大来源数据挖掘算法数据分析应用投资机构研究机构工程师学者发现价值运营商大数据价值变现的能力框架通讯运营商生态系统大数据大数据时代的BI能力运营商大数据价值趋向全企业内外部整合的数据智能数据可视化能力跨行业数据服务能力海量舆情分析能力社交网络分析能力地理位置分析能力多结构数据处理能力数据驱动营销深度洞察客户行为和客户在多渠道和网络上的交互业务服务创新基于对产品偏好和使用模式的分17、析,创造新的服务和产品商业模式变革利用现有的基础设施和数据资产来创造新的服务,获取新价值交易数据交易数据交互数据交互数据流程数据流程数据I.新型的新型的产品及服品及服务II.新一代新一代客客户体体验管理管理III.数据与基数据与基础建建设货币化化IV.提升提升CAPEX/OPEX效益效益提升股东回报在不牺牲现有运营能力和效率的前提下,使运营成本和投资成本的绩效最大化优势:运营商具备前所未有的深度洞察能力/大数据与Hadoop技术 Hadoop是Apache基金会的一个项目总称,主要由HDFS、MapReduce和HBase等组成 HDFS是对Google GFS的开源实现,MapReduce是18、对Google MapReduce的开源实现,HBase是Google BigTable的开源实现 Hadoop 来源于其创始人Doug Cutting的儿子给一头黄色大象取的名字 Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台HadoopHadoop架构体系1.分布式存储层HDFS2.资源管理层YARN/Mesos3.数据处理层MapReduce/Tez/Spark等4.数据存储交互层HBase/Hive/Cassandra等什么是半结构化/非结构化数据Social MediaMachine/SensorDOC/MediaWeb ClickstreamAppsCall L19、ogLog来源于Google,在类似搜索引擎的查询并行化分析处理领域取得极大成功针对大规模数据密集型应用的编程范式(programming paradigm)所基于的BigTable和HDFS 是非常质朴的数据模型和存储系统适用领域有限,为大数据研究打开了思路,但绝不代表大数据技术全部回到起点来重新审视数据管理之目的回到起点来重新审视数据管理之目的大数据技术就是Hadoop+M/R?数据库界从一开始就探索过,但还是过于保守忘不掉ACID,舍不得Relation,忽视实际应用沉浸在自己的世界里空值理论(Null Value),泛关系(Universal Relation)数据库设计的范式理论(F20、D,MVD,4NF,5NF,)潜意识地奉行“一招鲜”(One Size Fits All,OSFA)Hadoop+Map/Reduce+Bigtable+HDFS响亮一击回到起点来考虑数据管理问题,豁然开朗大数据是数据库的自然延伸大数据是数据库的自然延伸大数据和数据库的关系 High performance 高并发读写的需求高并发、实时动态获取和更新数据 Huge Storage 海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询 High Scalability&High Availability 高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*221、4小时不间断服务大数据的系统需求高并发读写大数据存储的核心需求高效率存储和访问高可扩展性和高可用性低成本建设运维 保证一致性的开销过大,难以实现高并发 存储性能受限于控制器,性能难以保证 关系型表单存储难以适应不同数据类型 上亿行数据的超级达标效率极低 传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高 许可和维护花费高昂 无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展 数据库升级需要停机维护和数据迁移,导致服务中断 不保证遵循ACID原则,提高并发读写性能 Schema-Free存储适应不同数据类型舍弃SQL标准功能,尽量简化数据操作,提22、升效率MapReduce实现高效访问 基于X86设备,价格低廉开源系统,节省许可费用 支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续RDMSNoSQL数据处理技术分布式演进趋势:Hadoop成为开发的事实标准Why Hadoop?1.扩展:Hadoop在集群中并行处理,集群可以方便扩展到数以千(万)计节点。2.可靠:Hadoop的分布式文件系统以及任务管理,资源调度机制。3.高效:Hadoop海量集群并行处理带来极致性能。4.经济:Hadoop可以运行在普通服务器上,且并不依赖某个节点。大数据技术趋势大数据的技术趋势SQL on Hadoop Hadoo23、p as service云计算、微服务容器化与大数据的融合SSD,Flash,Spark,TachyonMemory Computing Machine Learning/Deep Learning探索与发现更好的分析和利用我们的数据平台技术需要持续关注开源社区的发展Hadoop 3.0新的大数据存储技术(KUDU,对象存储和新的非结构化数据存储技术),提升平台的吞吐,降低存储成本Docker技术,实现按照需求创建计算节点(Kubernets),提升计算集群弹性新的任务调度机制,实现细粒度的任务调度(Mesos,Yarn/docker)分布式虚拟文件系统,实现混合云或多数据中心的数据高效访问(Hadoop 3.0 ViewFS 和Alluxio)实时数据处理技术,框架(Samza/Lambda/Flink等),实时可视化(StreamSets)支持物联网的超大吞吐率实时解决方案,甚至没有像样的开源项目在做大数据安全没有整体解决方案,各种证书和认证体系,导致数据安全导入和管理困难重重GPU对于大数据计算引擎的持续加速,利用GPU内存加速复杂查询R和Python在大数据平台的深度整合和优化高可用的大数据平台,免维护可以自动长时运行,达到99.9%的可用性TensorflowTHANKS