TipDM大数据云服务实验室建设方案.pdf
下载文档
上传人:地**
编号:1231938
2024-10-11
9页
366.55KB
1、 TipDM 大数据云服务实验室建设方案 广州泰迪智能科技有限公司 2016 年 4 月 1 一、背景一、背景 1.1 1.1 大数据挖掘行业背景和发展趋势大数据挖掘行业背景和发展趋势 移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。根据 IDC 数字宇宙(Digital Universe)研究报告显示,2020 年全球新建和复制的信息量已经超过 40ZB,是 2012 年的 12 倍;而中国的数据量则会在 2020 年超过 8ZB,比 2012 年增长 22 倍。数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。IDC 亚太区(不含日本)最新关于大数据和分析2、(BDA)领域的市场研究表明,大数据技术和服务市场规模将会从 2012 年的 5.48 亿美元增加到 2017 年的 23.8 亿美元,未来 5 年的复合增长率达到 34.1%。该市场涵盖了存储、服务器、网络、软件以及服务市场。数据量的增长是一种非线性的增长速度。据 IDC 分析报道,最近一年来,亚太区出现了越来越广泛的大数据和分析领域的应用案例。在中国,从互联网企业,到电信、金融、政府这样的传统行业,都开始采用各种大数据和分析技术,开始了自己的大数据实践之旅;应用场景也在逐渐拓展,从结构化数据的分析,发展到半结构化、非结构化数据的分析,尤其是社交媒体信息分析受到用户的更多关注。用户们开始评估3、以 Hadoop、数据库一体机以及内存计算技术为代表的大数据相关新型技术。最新调研结果显示,提高竞争优势,降低成本以及吸引新的客户是中国用户对大数据项目最期望的三大回报。目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。IDC 发现很多用户希望大数据能够为企业带来业务创新,并且开始使用高级分析的解决方案以管理复杂的数据环境。过去一年中用户对社交数据的收集和分析应用的关注度增加明显。未来,地理位置信息分析将会增长迅速,这也会推动用户对大数据安全和隐私管理的关注。在亚太区,澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面,更关注如何根据新的最佳实践需求设计和实施方案4、。中国和印度在大数据领域的硬件投资则非常明显,更倾向于数据中心相关的基础架构的投资。在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。也就是任务 20%的用户提供了 80%的价值,因此利用优势资源用户对于少数用户的服务。随着 2 互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。并且由于计算技术的发展,对于大数据的分析也成为了可能。1.21.2 大数据大数据挖掘实验室建设的必要性挖掘实验室建设的必要性 数据挖掘与大数据分析是5、以计算机基础为基础,以挖掘算法为核心,紧密面向行业应用的一门综合性学科。其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该学科对于实验室具有较高的专业要求。实验室不仅要提供基础的开发环境,还要提供大数据的运算环境以及用于实验的实战大数据案例。这些实验素材的准备均需专业的大数据实验室作为支撑。目前,在我国高校的专业设置上与数据挖掘与大数据分析实验相关的学科专业包括:计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息以及公共卫生等。这些专业的学生需要分别从原理、技术与应用等不同的角度掌握大数据分析的理论与分析方法。学生要很好地6、掌握这些课程,除了课堂学习,通过实验来加深理解和提高实际应用操作能力也是主要途径。调查表明,数据挖掘与大数据分析实验所需要的算法、计算环境以及数据等,都无法在我国高校现有的实验室中完成。因此,建设专门的数据挖掘与大数据分析实验室就显得非常重要。二二.实验室设计理念实验室设计理念 数据挖掘与大数据分析实验室的设计全面落实“产、学、研”一体化的思想和模式,从教学、实践、科研和使用多方面注重专业人才和特色人才的培养。本实验室建设方案融合数据挖掘与大数据分析专业教学、实训、实战等各层次实践教学,能够从面向大数据分析行业需求和促进学生职业发展的角度规划和建设数据挖掘与大数据分析实验室,真正在产业、学校、7、科研及实际项目中相互配合,发挥优势,形成生产、学习、科学研究、实践运用的系统运作模式,从而建设大数据挖掘特色专业。将云存储资源、服务器资源和网络资源整合,然后通过 Vmware 等虚拟化搭建 3 私有云平台,在私有云平台上搭建统一的数据挖掘平台和基于 Hadoop 的大数据分析平台。大数据分析教学平台的建设能让学生既掌握必要的理论基础,又能将大数据分析理论和方法用于解决实际问题。该大数据教学平台也能解决教学过程中实验环节非常薄弱,造成学生缺少数据挖掘实践经验、缺乏实践应用能力等问题。基于 Hadoop实战项目,在大数据实战环境中,通过动手实操,让学员在短时间内掌握使用平台开发 Hadoop 程8、序,以完成高效的大数据存储、清洗和分析。同时,通过专业的大数据分析计算资源搭建的开放式大数据分析平台,可以充分的融合教师的科研需求,教师可以在开放的平台环境下开展大数据科研工作,提升教师的科研创新能力,充分提高“研”的成效。三三、实验室建设实验室建设 实验室建设包括实验室硬件设备,大数据挖掘案例沙盘模型、大数据挖掘平台以及相关案例资料。该实验室方案按照数据挖掘、大数据平台与算法、行业实战数据分析三个层次来搭建。通过典型的算法展示、算法实现结合大数据分析的应用场景与案例对学生进行数据分析方面的综合训练,从而实现专业实验教学的由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新的多层次实验9、体系。1)基础环境建设 包括学生电脑,服务器资源以及投影等整套实验室设备。详见详见商务报价商务报价 2)顶尖数据挖掘教学沙盘(TipDM-SP)包括智能交通仿真沙盘、窃漏电用户自动识别模拟沙盘、管网漏损自动分析模拟沙盘、菜品推荐 PAD 四个沙盘模型。详见顶尖数据挖掘教学沙盘(详见顶尖数据挖掘教学沙盘(TipDMTipDM-SPSP)产品白皮书产品白皮书。3)顶尖数据整合工具(TipDM-I2,简称 I2)以 ODS/DW 的实施过程为基础,工具平台集成了十多年在 BI 行业 ETL 领域的实施经验与深厚的积累,尤其是在 ETL 领域的数据整合和优化方面的丰富经验,4 从实施的角度对实施流程的10、规范化,实施过程工具化,减少人为的出错因素,进一步提高了系统的可维护性,不需维护系统中的代码,只需维护映射规则文档。平台各个工具组件可以单独进行使用,但是也可以相互结合,从而进一步提高开发效率,使开发过程并行化。详见顶尖数据整合工具(详见顶尖数据整合工具(TipDMTipDM-I2I2)产品白皮书。)产品白皮书。4)顶尖数据挖掘教学实训平台(TipDM-T6,简称 T6)顶尖数据挖掘辅助教学套件(TipDM-T6,简称 T6)是专门针对高校数据挖掘课程教学的实际情况,针对实践环节薄弱,学员实际应用能力差这一教学弱点设计开发的一系列教学组件。能够让老师在讲解数据挖掘算法理论的同时,通过实用的建模11、工具来模拟实际应用案例,在实验室环境下体验实际应用,由此弥补学员实践经验的不足。在教学过程中,强化应用和实验,做到理论与实践的有机结合,使学生受益,老师授课方便。详见详见顶尖数据挖掘教学实训平台顶尖数据挖掘教学实训平台(TipDMTipDM-T6T6)产品白皮书)产品白皮书 5)顶尖大数据工程教学实训平台(TipDM-H8,简称 H8)顶尖大数据工程实训平台又称大数据挖掘实战中心(TipDM-H8,简称 H8),将云存储资源、服务器资源和网络资源整合,然后通过 Vmware 等虚拟化 搭建私有云平台,在私有云平台上搭建统一的数据挖掘平台和基于 Hadoop 的大数据分析平台。大数据工程实训平台12、的建设能让学生既掌握必要的理论基础,又能将大数据分析理论和方法用于解决实际问题。该大数据教学平台也能解决教学过程中实验环节非常薄弱,造成学生缺少数据挖掘实践经验、缺乏实践应用能力等问题。基于 Hadoop实战项目,在大数据实战环境中,通过动手实操,让学员在短时间内掌握使用平台开发 Hadoop 程序,以完成高效的大数据存储、清洗和分析。详见详见顶尖顶尖大数据工程大数据工程实训平台实训平台(TiTipDMpDM-H8H8)产品白皮书)产品白皮书 四、实践教学应用实践教学应用 下面以韩山师范学院使用 H8 套件为例,介绍泰迪大数据实验室在高校教学实践中的应用。4 4.1.1 课程安排课程安排 韩山13、师范学院,于 2014 年在应用数学及统计学中联合广州泰迪智能科技有限 5 公司给学生加入大数据挖掘相关课程的学习,引入泰迪科技的 H8 套件。大数据建模与挖掘课程安排如下:课时安排:35 学时理论教学+35 学时随堂实验+5 天项目实训,理论学时及案例实验由高校老师授课,项目实训由公司指派大数据分析工程到学校进行统一指导。学生人数:48 人。教师:1 人,负责理论课的教授。助教:1 人,负责实验课的辅导。使用教材:hadoop 大数据分析与挖掘实战 考核指标:模块 评分标准 占比 随堂实验 掌握大数据挖掘基本工作的应用,并且在完成相关理论知识的学习之后,对课堂讲授的5个项目案例,利用教材中配14、套的原始数据,通过大数据挖掘开发实训平台完成模型的构建,并且对相对应的模型进行分析。40%项目实训 针对一个类似的课堂授课案例,利用大数据挖掘开发实训平台,选择合适的模型对数据进行建模,并完成一份分析报告。报告主要从思路清晰程度;正确分析和理解相关领域背景问题,正确合理地使用模型、算法;客观地评价所得的建模结果;创新性等方面进行评价。40%平时考核 从学生课程及实训时的表现,教师给出的平时成绩 20%注:课程安排由泰迪科技专家组与韩山师范学院教师代表一起探讨制定,并且为理论课上课老师提供企业应用案例培训(如有需要,理论课的教学也可以由公司安排)。6 4 4.2.2 平台引入平台引入 学校使用广15、州泰迪智能科技有限公司 H8 套件进行学生的实践教学,搭建大数据实验室(大数据挖掘建模平台、大数据开发实训平台),在该实验室内进行程案例实验教学及后期实训工作。4 4.3.3 随堂实验随堂实验 在实际的教学中,在完成基础工具的实验任务之后,任课老师还可以将书中案例分别给学生做教学演示并且让学生动手实际操作,完成案例中的一部分内容,H8套件中附带有所有案例的源数据、过程数据以及 Hadoop 环境下程序/模型。解决了在教学中没有相关数据来源以及真实程序/模型的难题。学生通过多次试验,对所学理论知识及相关工具有了直观的理解,并且亲自动手得出的实验结果也让学生对理论教学产生了更加浓厚的兴趣,达到教学16、上良性循环的目的。4 4.4.4 项目实训项目实训 在完成70课时的理论加实验课时之后,由泰迪科技指派资深工程师到学校指导学生进行为期5天的全真项目案例实训。学生自由组队,共分为8个小组,选取“航空公司客户价值分析”作为实训题目进行完整的项目实训。要求:利用从航空公司取得的原始数据,通过大数据挖掘开发实训平台完成基于分布式聚类算法的客户分群,同时基于分群结果对航空公司的客户价值进行分析,并且能够解释模型反映的业务指标,对航空公司接下来的精准营销提出建设性的意见。在通过的 8 个小组作业中,经过工程师的评估,有 2 份作业可以达到企业初步应用级别。这 2 份作业的完成者也获得了直接进入泰迪科技实17、习的机会,在实习中进一步学习大数据挖掘在企业项目中的应用。4 4.5 5 使用反馈使用反馈 在学校的角度 1)合格的教师团队。H8 的引入帮助高校培养起专业的师资团队,经过实践,7 能够很好的胜任所安排课程的教学工作。2)专业的教学材料和合理的课程安排。在企业与实践的角度,利用泰迪科技多年产学研的经验,帮助高校设计出更加符合业界需求的课程设置。充分保证学生由浅到深,深入浅出的学习大数据分析的知识和技能。保证理论与实践相结合,学以致用。3)帮助学校搭建起大数据实践平台,并协助维护,给大数据挖掘的实践教学创造一个良好的环境。在学生的角度 1)能够在案例中学习实践。真实的企业案例让学生在大数据分析学18、习的过程中收到事半功倍的效果,只有在案例中学生才可能理解理论知识的运用方式。2)获得深入企业实践的机会。泰迪科技本身从事大数据挖掘的项目,与一批优秀的企业建立了合作关系。作为 H8 套件的一部分,学生可以在课程完成后获得企业实习机会,在项目中继续磨练自己的技能。让企业作为学习成果的验收方,优秀的实习生可以直接留在企业工作。4 4.6.6 教学成果教学成果 在 2015 年第三届“泰迪杯”数据挖掘竞赛中,韩山师范学院学生取得不俗的成绩。其中一组队伍的作品“基于电商平台家电设备的消费者需求及产品数据挖掘分析”获得广东美的厨卫电器制造有限公司数据中心负责人郑秋先生的高度认可,认为他们的作品很好的将理19、论应用到了企业项目中,能够为电商平台的建设及产品营销提供建设性的指导意见。五、建设建议建设建议 T6 跟 H8 均为高解决高校教学中实践环节薄弱,学生实际应用能力差这一教学弱点设计开发。能够让老师在讲解数据挖掘算法理论的同时,通过实用的建模工具来模拟实际应用案例,在实验室环境下体验实际应用,由此弥补学员实践经验的不足。在教学过程中,强化应用和实验,做到理论与实践的有机结合,使学生受益,老师授课方便。8 两个套件中 T6 主要针对数据挖掘模型的构建,不需要太多的计算机开发基础,比较适合与数学、统计等计算机学生,但是对大数据的处理能力上会有所欠缺。而 H8 将云存储资源、服务器资源和网络资源整合,然后通过 Vmware 等虚拟化搭建私有云平台,在私有云平台上搭建统一的数据挖掘平台和基于 Hadoop 的大数据分析平台,利用分布式的存储及运算方式更适合于数据量较大时的分析与处理。基于 Hadoop 实战项目,在大数据实战环境中,通过动手实操,让学生在短时间内掌握使用平台开发 Hadoop 程序,以完成高效的大数据存储、清洗和分析。相比之下,H8 需要更好的计算机编程基础。学校在进行实验室建设时,可以在实验室基础环境建设、案例沙盘、数据整合工具的基础上根据学生情况有针对性对 T6 及 H8 的建设进行选择。