曙海教育集团
全国报名免费热线:4008699035 微信:shuhaipeixun
或15921673576(微信同号) QQ:1299983702
首页 课程表 在线聊 报名 讲师 品牌 QQ聊 活动 就业
 
Spark项目实战课程培训
 
   班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)
       坚持小班授课,为保证培训效果,增加互动环节,每期人数限3到5人。
   上课时间和地点
开课地址:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站) 【武汉分部】:佳源大厦【成都分部】:领馆区1号【沈阳分部】:沈阳理工大学【郑州分部】:锦华大厦【石家庄分部】:瑞景大厦【北京分部】:北京中山学院 【南京分部】:金港大厦
最新开班 (连续班 、周末班、晚班):即将开课,详情请咨询客服!
   实验设备
     ☆资深工程师授课
        
        ☆注重质量 ☆边讲边练

        ☆合格学员免费推荐工作
        ★实验设备请点击这儿查看★
   质量保障

        1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
        2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。
        3、培训合格学员可享受免费推荐就业机会。

课程大纲
 
  • 第1章Spark中决策树相关算法
    1-1回顾决策树
    1-2信息增益的计算
    1-3参数maxBins含义
    1-4其他重要参数讲解
    1-5类别值转换处理
    1-6构建决策树分类模型
    1-7模型训练以及debug
    1-8构建决策树回归模型
    1-9Spark中的梯度提升树
    1-10性能提升参数
    1-11Spark中的随机森林模型实现
    第2章运动数据分类
    2-1业务场景定义
    2-2加载数据
    2-3探索每一种活动类型数据分布情况
    2-4计算每一行的NAN个数
    2-5计算NAN的占比
    2-6找出NAN值太多的无效行
    2-7每一列缺失值的探索
    2-8心率缺失值的处理
    2-9其他字段缺失值的处理
    2-10统一数据
    2-11对activityId进行索引标记
    2-12特征值中类别值的索引标记
    2-13模型训练
    2-14模型的debug
    2-15模型评估
    2-16混淆矩阵
    2-17计算正确率
    2-18混淆矩阵的label
    2-19计算精确率和召回率
    2-20模型部署
 
  备案号:沪ICP备08026168号 .(2014年7月11)...................