烟台大数据平台搭建培训班(9月17-20)

  • 营业执照
  • 办学资质
  • 售后服务
+收藏

求学价: ¥5800 发布用户:zpeduzbo

发布时间:2019-06-05 已有11人浏览报名

课程介绍

 

中培教育于2019年在全国部分城市举办大数据平台搭建与高性能计算培训班。聘请行业内大数据专家:蒋老师、张老师实战讲解业界蕞流行、应用蕞广泛的Hadoop与Spark大数据技术体系。强化大数据平台的分布式集群架构和核心关键技术实现、大数据应用项目开发和大数据集群运维实践、以及Hadoop与Spark大数据项目应用开发与调优的全过程沙盘模拟实战。

 

2019年培训地点、时间:

珠海:03月26-29  武汉:05月17-20

烟台:07月23-26  郑州:09月17-20

贵阳:11月15-18......全国巡回开班,此课程亦可定制内训

 

大数据培训费用:

培训费5800元/人(含培训费、场地费、资料费、学习期间午餐),食宿可统一安排,费用自理。本课程由中国信息化培训中心颁发《大数据平台搭建与高性能计算高级工程师》证书。

 

大数据培训课程:

日程  培训模块  培训内容

第1天上午

大数据技术基础

1. 大数据的产生背景与发展历程

2. 大数据的4V特征,以及与云计算的关系

3. 大数据应用需求以及潜在价值分析

4. 业界蕞新的大数据技术发展态势与应用趋势

5. 大数据思维的转变

6. 大数据项目的系统与技术选型,及落地实施的挑战

7. “互联网+”时代下的电子商务、制造业、交通行业、电信运营商、银行金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍

业界主流的大数据技术方案

1. 大数据软硬件系统全栈与关键技术介绍

2. 大数据生态系统全景图

3. 主流的大数据解决方案介绍

4. Apache大数据平台方案剖析

5. CDH大数据平台方案剖析

6. HDP大数据平台方案剖析

7. 基于云的大数据平台方案剖析

8. 大数据解决方案与传统数据库方案比较

9. 国内外大数据平台方案与厂商对比

大数据计算模型(一)——批处理MapReduce

1. MapReduce产生背景与适用场景

2. MapReduce计算模型的基本原理

3. MapReduce作业执行流程

4. MapReduce编程模型: Map处理和Reduce处理

5. MapReduce处理流程:数据读取collect、中间数据sort、中间数据spill、中间数据shuffle、聚合分析reduce

6. MapReduce开发高级应用:Combiner技术与应用场景、Partitioner技术与应用场景、多Reducers应用

7. MapReduce开发与应用实战:Hadoop平台搭建与运行;MapReduce安装与部署;

8. 应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行

9. MapReduce参数调优与性能优化技巧

第1天下午

大数据存储系统与应用实践

1. 分布式文件系统HDFS产生背景与适用场景

2. HDFS master-slave系统架构与读写工作原理

3. HDFS核心组件技术讲解,NameNode与fsimage、editslog,DataNode与数据块

4. HDFS Federation机制,viewfs机制,使用场景讲解

5. HDFS高可用保证机制,SecondaryNameNode,NFS冷备份,基于zookeeper的HA方案

6. HDFS参数调优与性能优化

大数据实战练习一

1. Hadoop平台搭建、部署与应用实践,包含HDFS分布式文件系统,YARN资源管理软件,MapReduce计算框架软件

2. HDFS 文件、目录创建、上传、下载等命令操作,HDFS合并、归档操作,HDFS监控平台使用

3. MapReduce程序在YARN上运行,YARN监控平台使用

 

第二天上午

Hadoop框架与生态发展,以及应用实践操作

1. Hadoop的发展历程

2. Hadoop 1.0的核心组件JobTracker,TaskTracker,以及适用范围

3. Hadoop 2.0的核心组件YARN工作原理,以及与Hadoop 1.0的联系与区别

4. Hadoop关键机制:任务推测执行,任务容错,任务选择执行,心跳机制

5. Hadoop YARN的资源管理与作业调度机制:FIFO调度,Capacity调度器,Fair调度器

6. Hadoop 常用参数调优与性能优化技术

大数据计算模型(二)——实时处理/内存计算 Spark

 

1. MapReduce计算模型的瓶颈

2. Spark产生动机、基本概念与适用场景

3. Spark编程模型与RDD弹性分布式数据集的工作原理与机制

4. Spark实时处理平台运行架构与核心组件

5. Spark RDD主要Transformation:map, flatMap, filter, union, sample, join, reduceByKey, groupByKey

6. Spark RDD主要action:count,collect,reduce,saveAsTextFile

7. Spark宽、窄依赖关系与DAG图分析

8. Spark容错机制

9. Spark作业调度机制

10. Spark缓存机制:Cache操作,Persist操作与存储级别

11. Spark作业执行机制:执行DAG图、任务集、executor执行模型、 BlockManager管理

12. Spark standardalone,Spark on YARN运行模式

13. Scala开发介绍与Spark常用Transformation函数介绍

14. Spark调优:序列化机制、RDD复用、Broadcast机制、高性能算子、资源参数调优

 

第二天下午

大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践

1. 基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景

2. Hive数据仓库的平台架构与核心技术剖析

3. Hive metastore的工作机制与应用

4. Hive内部表和外部表

5. Hive 分区、分桶机制

6. Hive行、列存储格式

7. 基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景

8. Spark SQL实时数据仓库的实现原理与工作机制

9. SparkSQL数据模型DataFrame

10. SparkSQL程序开发与

11. SparkSQL数据读取与结果保存:json,Hive table,Parquet file,RDD

12. SparkSQL和Hive的区别与联系

13. SparkSQL操作实战

14. 基于MPP的大型分布式数据仓库Impala基础知识与应用场景

15. Impala实时查询系统平台架构、关键技术介绍,以及与Hive,SparkSQL的对比

Hadoop集群运维监控工具

1. Hadoop运维管理监控系统Ambari工具介绍

2. 第三方运维系统与工具Ganglia, Nagios

大数据实战练习二

1. 基于 Hadoop平台搭建、部署与配置Spark集群,Spark shell环境实践操作,Spark案例程序分析

2. 基于sbt的Spark程序编译、开发与提交运行

3. 应用案例一:基于Spark的服务器运行日志TopN分析、程序实例开发

4. 应用案例二: 基于Spark的搜索引擎日志热词与用户分析、程序实例开发

5. 基于MapReduce的Hive数据仓库实践,Hive集群安装部署,基于文件的Hive数据仓库表导入导出与分区操作,Hive SQL操作,Hive客户端操作

6. SparkSQL shell实践操作:数据表读取、查询与结果保存

 

第三天上午

大数据计算模型(三)——流处理Storm, SparkStreaming

1. 流数据处理应用场景与流数据处理的特点

2. 流数据处理工具Storm的平台架构与集群工作原理

3. Storm关键技术与并发机制

4. Storm编程模型与基本开发模式

5. Storm数据流分组

6. Storm可靠性保证与Acker机制

7. Storm应用案例分析

8. 流数据处理工具Spark Streaming基本概念与数据模型

9. SparkStreaming工作机制

10. SparkStreaming程序开发介绍

11. SparkStreaming的全局统计和窗口函数

12. Storm与SparkStreaming的对比

13. SparkStreaming开发案例:基于文件流的SparkStreaming程序开发;基于socket消息的SparkStreaming程序开发

大数据与机器学习技术

1. 机器学习发展历程

2. 机器学习与大数据关联与区别

3. 数据挖掘经典算法

4. 预测算法:线性回归与应用场景,非线性回归与应用场景

5. 分类算法:逻辑回归与应用场景,决策树与应用场景,朴素贝叶斯算法与应用场景,支持向量机算法与应用场景

6. 聚类算法; k-means与应用场景

7. 基于Hadoop的大数据机器学习技术

8. 基于MapReduce的机器学习库Mahout

9. Mahout支持的数据挖掘算法

10. Mahout编程模型与发

11. 基于Spark的机器学习库Spark MLlib

12. Spark MLlib支持的数据挖掘算法

13. Spark MLlib编程模型与开发:基于Spark MLlib的文本分类,基于Spark MLlib的聚类

 

第三天下午

大数据ETL操作工具,与大数据分布式采集系统

1. Hadoop与DBMS之间数据交互工具的应用

2. Sqoop导入导出数据的工作原理

3. Flume-NG数据采集系统的数据流模型与系统架构

4. Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式

面向OLTP型应用的NoSQL数据库及应用实践

1. 关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围

2. 列存储NoSQL数据库HBase简介与数据模型剖析

3. HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用

4. HBase表设计模式与primary key设计规范

5. 文档NoSQL数据库MongoDB简介与数据模型剖析

6. MongoDB集群模式、读写机制与常用API操作

8.键值型NoSQL数据库Redis简介与数据模型剖析

9.Redis多实例集群架构与关键技术

10.NewSQL数据库技术简介及其适用场景

大数据实战练习三

1.Sqoop安装、部署与配置,基于Sqoop、MySQL与Hive操作MySQL数据库与Hive数据仓库数据导入导出

2.Kafka安装、部署与配置,基于Kafka创建和消费topic实践操作

3.Flume+HDFS+MapReduce/Spark大数据采集、存储与分析实践操作

大数据项目选型、实施、优化等问题交流讨论

大数据项目的需求分析、应用实施、系统优化,以及解决方案等咨询与交流讨论

 

第四天学习考核与业内经验交流

标签:

烟台大数据培训大数据工程师

显示全部

学校介绍

中培教育

认证机构

黄金会员5年

查看信用档案

学校人气度:14621

中国信息化培训中心(简称中培)致力于为我国提供较高端的IT咨询与培训服务。公司成立十年来一直秉持“顾客满意度第几、利润第二”的理念,努力达到中国IT咨询与培训服务的第几品牌。中培伟业当前主要服务范畴涵盖IT管理与IT技术两大范畴。

中培是由北京中培伟业管理咨询有限公司发展壮大而来,目前中培拥有国内较知名的技术、管理专家组成的讲师和咨询顾问团队,同时拥有一批国内外知名企业的高层经理和资深专家。中国信息化培训中心提供的所有培训课程均由具有丰富教学和实战经验的业内名师开发,既保证了课程知识体系架构的完整性,又能确保课程与企业实际紧密结合,极具可操作性和实用价值。

中培伟业严格按照ISO9001国际质量管理体系标准及咨询服务业标准规范,建立标准化的服务流程,对我们的培训、咨询服务实施全过程质量控制,与顾客充分沟通,关注顾客反馈,保证客户需求的完美实现。

中培以推进中国信息化发展为使命,客户的良好评价是对我们较好的褒奖。专业的技术、先进的理念、规范的管理,是我们为企业服务的有力保障。

课程规模:每年超过100场不同的公开课程;每年企业内训至少120次以上。

第四季度公开课.png



进入学校主页

相关课程

加载更多

热门推荐

新闻资讯

加载更多

QQ咨询

微信咨询