曙海教育集团
全国报名免费热线:4008699035 微信:shuhaipeixun
或15921673576(微信同号) QQ:1299983702
首页 课程表 在线聊 报名 讲师 品牌 QQ聊 活动 就业
 
Spark大数据处理案例分析与实践课程

 
  班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)
      每个班级的人数限3到5人,互动授课, 保障效果,小班授课。
  上间和地点
上部份地点:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】:北京中山学院/福鑫大楼【南京分部】:金港大厦(和燕路)【武汉分部】:佳源大厦(高新二路)【成都分部】:领馆区1号(中和大道)【沈阳分部】:沈阳理工大学/六宅臻品【郑州分部】:郑州大学/锦华大厦【石家庄分部】:河北科技大学/瑞景大厦
最近开间(周末班/连续班/晚班):2019年1月26日
  实验设备
    ◆小班教学,教学效果好
       
       ☆注重质量☆边讲边练

       ☆合格学员免费推荐工作
       ★实验设备请点击这儿查看★
  质量保障

       1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
       2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。
       3、培训合格学员可享受免费推荐就业机会。☆合格学员免费颁发相关工程师等资格证书,提升职业资质。专注高端技术培训15年,曙海学员的能力得到大家的认同,受到用人单位的广泛赞誉,曙海的证书受到广泛认可。

部份程大纲
 
  • 培训特色
    Spark已经被不少互联网公司采用,大部分数据挖掘算法和迭代式算法在逐步MapReduce平台迁移到Spark平台中,包括阿里巴巴(广告系统),腾讯(广点通精准推荐),百度,优酷土豆,360,支付宝等互联网公司已经在线上产品中使用spark,且取得了令人满意的效果,另外,部分省份的运营商也正在尝试使用spark解决数据挖掘和分析问题,部分银行,如工商银行,也正在尝试spark平台。
  • 目标收益
    本课程将为大家全面而又深入的介绍Spark平台的构建流程,涉及Spark系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。
    通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark系统适用的场景;掌握Spark等初中级应用开发技能;搭建稳定可靠的Spark集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,腾讯,百度等互联网行业,中国移动和联通等运营商。
  • 培训对象
  • 各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。
  • 学员基础
  • 1) 了解Java语言(Scala语言会作为课程内容进行介绍);
    2) 了解Linux系统;
  • 课程大纲
  • 主题 内容
    Spark大数据架构概述及案例简介
  • 1. 1介绍Spark大数据层级架构及各层软件设计要求,包括数据收集,大数据存储,大数据计算框架,大数据应用等
    1.2. Hadoop与Spark区别与关系
    1.3. Spark生态系统概述以及版本演化,并给出spark版本选择建议
    1.4. Spark典型案例简介(简要介绍案例,具体在后面各节会详细介绍)
    Spark商品推荐系统、用户标签系统
  • Spark产生动机与基本概念
  • 2.1 Spark产生背景,与MapReduce对比,其优缺点是什么
    2.2 Spark核心概念
    (1)RDD
    (2)基本操作:transformation与 action
    2.2 Spark程序架构
    (1)Driver/executor
    (2)容错机制
  • Spark安装部署
  • 3.1 Spark运行模式简介、standlone模式、Spark on yarn模式
    3.2 搭建一个spark on yarn集群、搭建yarn集群、运行第一个spark程序
  • Spark程序设计实例
  • 4.1 Scala语言基础,常用语法以及库函数
    4.2 Spark程序设计方法
    1.Spark程序基本构成,SparkContext,RDD,transformation/action
    2.Spark API介绍
    (1) 如何创建RDD(scala集合,HDFS文件,HBase文件等)
    (2)如何基于RDD进行数据处理,介绍常见的分布式算子
    (3)如何保存处理结果(返回到driver端,写入hdfs等)
    (4)广播变量与累加器
    4.3 Spark程序设计实例
    (1)分布式Pi估算程序
    (2)K-means分类算法实现
    (3)逻辑回归算法实现
  • Spark内部原理
  • 5.1 Spark程序运行流程概述
    介绍Spark从提交,到调度,到最后执行完成整个过程
    5.2 Spark内部执行流程
    介绍Spark程序内部的逻辑查询计划,物理查询计划,调度等几个环节
    5.3 Spark shuffle实现
    介绍Spark shuffle发展史及实现逻辑
    5.4 Spark算子的内部机制
    以reduce By Key和group By Key为例介绍spark算子的内部实现原理
  • Spark与外部系统整合
  • 6.1 Spark与Kafka和flume结合
    介绍如何使用kafka和flume将数据导入hadoop中,以便使用spark处理
    6.2 Spark与Storm结合
    介绍如何使用spark实时处理数据
    6.3 Spark与HBase和HDFS结合
    介绍Spark如何与HBase和HDFS实现数据的读写交互
    6.4 Spark与关系型数据库和hive结合
    介绍如何使用spark与关系型数据库和hive结合
  • Spark调优方法
  • Spark调优思想、方法
  • Spark案例分析
  • 基于Spark的商品推荐系统,包括:项目背景、项目架构、项目实施
  • Spark Streaming应用及案例分析
  • 8.1 Spark Streaming产生动机
    8.2 Spark Streaming程序设计
    (1)创建DStream
    (2)基于DStream进行流式处理
    8.3 Spark Streaming容错与性能优化
    (1)Spark Streaming容错机制
    (2)如何对spark Streaming进行优化
    8.4 Spark Streaming案例分析
    基于Spark Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法
  • Spark SQL
  • 9.1 Spark SQL定位
    9.2 如何使用SparkSQL处理数据
    (1)使用SparkSQL处理HDFS上数据
    (2)使用SparkSQL处理Hive中的数据
    9.3 Spark SQL与Spark及Spark Streaming结合
  • MLlib
  • 10. 介绍Spark的数据挖掘库MLlib,重点介绍其内部的几个分类算法,聚类算法和推荐算法,包括逻辑回归,K-Means,协同过滤等
  • GraphX
  • 11. 介绍Spark内部的图计算框架GraphX,重点介绍它的基本原理及使用方法
 

-

 

  备案号:沪ICP备08026168号 .(2014年7月11)..............