大数据培训视频百度云频

大数据入门至精通视频集,包含Scala、Hadoop、Spark、docker等
王家林免费视频百度云地址:
1 《大数据不眠夜:Spark内核天机解密(共140讲)》:&&&&&&&&&
51CTO在线观看(支持手机、平板、PC): &&&
百度云下载: &&
2 《Hadoop深入浅出实战经典》
3 《Spark纯实战公益大讲坛》
4 《Scala深入浅出实战经典》
5 《Docker公益大讲坛》
6 《Spark亚太研究院Spark公益大讲堂》
7 &DT大数据梦工厂Spark、Scala、Hadoop的所有视频、PPT和代码在百度云网盘的链接:
王家林在51CTO发布的1000集合免费大数据视频地址:
1 《Scala深入浅出实战初级入门经典视频课程》
2 《Scala深入浅出实战中级进阶经典视频课程》
3 《Akka深入浅出实战经典视频课程》
4 《Spark亚太研究院决胜大数据时代公益大讲堂》
5 《云计算Docker虚拟化公益大讲坛 》
6 《Spark 大讲堂(纯实战手动操作)》
7 《Hadoop深入浅出实战经典视频课程-集群、HDFS、Yarn、MapReduce》
8 《从技术角度思考Hadoop到底是什么》
阅读(...) 评论()当前位置:&&/&&&&/&&Hadoop就业特训营
Hadoop就业特训营
技术大牛组团授课,专讲Hadoop核心知识和大型项目实战,多台物理服务器数十个节点现场直播演示!企业级实战项目让你三个月掌握2年的项目经验!
市场价&&?10800
特惠价&&?9800
试学价&&?99
时长&&&&16周
开班时间&&&1707HT(7月27日)
1708HT(8月22日)
当前学习人数
技术大牛组团授课,专讲Hadoop核心知识和大型项目实战,多台物理服务器数十个节点现场直播演示!企业级实战项目让你三个月掌握2年的项目经验!
某权威机构广电收视率系统(Hadoop)
某移动大型电商网站数据分析系统
某大型传媒公司视频网站爬虫系统
某淘OpenTSDB时间序列分析项目
某婚恋网站后台日志实时分析系统(Storm)
金融实时数据动态指标计算平台
猎聘网 Hadoop职位搜索
Hadoop工程师月薪:15k-30k
职位诱惑:大数据、正规福利、开放平台
拉钩网 Hadoop职位搜索
Hadoop工程师月薪:15k-25k
职位诱惑:五险一金、弹性工作、期权
中华英才Hadoop职位搜索
Hadoop开发工程师月薪:18k-35k
职位诱惑:大数据、高成长性、期权
51Job Hadoop职位搜索
Hadoop研发工程师月薪:15k-30k
职位诱惑:知名互联网金融平台、待遇优厚、发展空间大
一般需要Hadoop公司基本上都是大公司,所以学习Hadoop技术也是进大公司的捷径!
在线课程这么多,为什么要来大讲台?
主讲老师牛X
课程含金量超高
混合式自适应学习
0基础也能100%学会
保就业,签协议
只有线下同类课程的30%
任务化游戏化
让你无痛,愉快学习
学完大讲台
[ Hadoop就业特训营 ]你可以
全面掌握Hadoop的架构原理和使用场景,
熟练使用Hadoop进行程序开发
掌握Hadoop基本运维思路和方法,
对Hadoop集群进行管理和优化
深入理解Hadoop技术架构,
可以独立规划及部署生产环境的Hadoop集群
系统学习现代大数据工具和架构,
有能力设计、实现和交流典型的大数据项目
大讲台Hadoop特聘讲师
北京某移动应用平台大数据高级架构师
北京某移动应用平台大数据高级架构师
8年一线开发及项目管理经验,4年以上大数据系统架构及分析处理经验,骨灰级大数据玩家。曾就职于国内某TOP5的电信相关业务公司,负责对手机信息收集处理工作,对于Hadoop、Storm、Spark有较深研究。搭建、维护过上百节点集群,处理过PB级数据。 因技术出色,多次在知名企业内部进行大数据技能培训,对一线企业大数据方面的技能需求非常了解。 热爱分享,喜欢结合切身经历的大型项目经验来授课,用血淋淋的一线案例、真刀真枪的现场演示、实时的回馈指导赢得了很多学员的仰慕和好评。
大讲台Hadoop高级讲师
原某广电数据咨询公司大数据高级架构师
原某广电数据咨询公司大数据高级架构师
资深Java玩家,大数据技术狂热者。曾在北京某广电数据咨询公司担任大数据高级架构师,6年以上大数据实操经验, 经历过10个以上的重量级大数据项目。Hadoop源码级技术大咖,熟练使用Hadoop、Hive、HBase等各大主流组件。谦虚亲和,崇尚实操至上的教学理念。受到学员一致好评。
大讲台Hadoop特聘讲师
国内TOP5的视频网站大数据资深工程师
资深全栈工程师,从业时间6年,先后服务于三家国内外上市公司,目前在国内TOP5的视频网站任大数据小组Leader。参与或负责过大型CDN文件传输系统,电信计费系统、大数据分析系统、中间件等多个重量级项目。精通Java、Python、Shell,熟悉Web应用开发。专注于大数据产品的研发和设计,能够熟练使用Hadoop、Hive、SQL来分析海量数据为决策提供依据。 技术狂,崇尚解决问题是开发人员的使命。
学习模式和上课安排
在线IT就业课程
混合式自适应学习
不用东奔西跑
在家在校在咖啡馆都能学习
学习任务每日推送
有效避免贪多嚼不烂
预科课程随报随学
正式课程每月定时直播
每天自主学习2小时
3个半月可学完就业
五大承诺,让你无后顾之忧
一次不过瘾
不就业退全款
即送Spark快速提升课
无后顾之忧
Hadoop课程大纲
一、Linux基础课程
1.Vmware虚拟机的介绍
2.Vmware虚拟机的安装
3.Vmware虚拟机的配置
4.CentOS6.5版本下载
5.CentOS6.5系统安装
6.虚拟机通信配置
7.Linux连接工具-Xshell简介
8.系统常用配置讲解
9.Linux系统简介
10.目录简介
11.帮助文档操作
12.文件目录操作
13.用户和组管理
14.文件权限管理
15.软件包管理
16.系统命令管理
17.VI-VIM编辑
18.备份压缩
19.SSH详解
20.如何复制我的操作系统
21.Mac地址冲突怎么解决
22.软件包哪里下载
23.如何有效的制作快照及恢复
24.Linux密码忘记如何处理
25.如何打开及关闭图形界面
二、Java 基础课程
1.Java 变量 & 运算
2.Java 控制语句
3.Java 数组及字符操作
4.Java 面向对象程序设计
5.Java 异常处理
7.Java常用工具类
8.Java多线程
三、Hadoop集群及开发环境搭建
1.Linux虚拟机安装配置
2.Linux网络配置和系统配置
3.搭建Hadoop 伪分布实验环境
4.搭建Hadoop(Apache 版本) 分布式生产环境
5.搭建Hadoop(CHD 版本) 分布式生产环境
6.搭建Eclipse开发环境,构建企业级MapReduce项目(Maven)
7.MapReduce单元测试及DeBug调试
四、HDFS分布式文件系统
1.HDFS 体系结构详解
2.HDFS 运行原理详解
3.HDFS 读数据流程
4.HDFS 写数据流程
5.HDFS 副本策略
6.HDFS2.0 的HA机制(高可用)
7.HDFS2.0 的Federation机制
8.Shell 命令操作HDFS
9.Java API操作HDFS
五、MapReduce分布式计算框架
1.MapReduce 架构原理详解
2.MapReduce数据本地性
3.MapReduce的运行机制
4.Hadoop文件的序列化
5.MapReduce输入格式
6.MapReduce输出格式
7.MapReduce内置的Combiner与Partitioner
8.MapReduce 数据倾斜与优化
9.MapReduce 编程之Join算法
10.MapReduce 二次排序
11.MapReduce 读写数据库
12.Hadoop 各种压缩及企业应用
13.Hadoop源码编译及Snappy压缩
14.Hadoop 计数器
15.Hadoop Streaming 实现多语言编程
六、YARN 资源管理器
1.YARN 产生背景
2.YARN 基本概念
3.YARN 基本架构
4.YARN 的工作原理
5.MapReduce ON YARN
6.YARN HA 高可用
七、Zookeeper 分布式协调服务
1.ZooKeeper 产生背景
2.ZooKeeper 基本原理
3.ZooKeeper 应用场景
4.Zookeeper 分布式集群的安装部署
5.Zookeeper API 操作实践
6.Zookeeper 配置管理Hadoop集群
八、Flume 日志收集系统
1.Flume应用场景
2.Flume基本原理
3.Flume基本架构
4.Flume 环境安装部署
5.Flume 的Agent配置信息详解
6.Flume 动态监控日志目录
7.Flume 采用日志文件
8.Flume 将采集数据导入HDFS
九、Hive 数据仓库
1.Hive 基本概念
2.Hive 架构原理详解
3.Hive 支持的数据类型
4.Hive SQL基本操作详解
5.Hive 数据查询
6.Hive 内置函数与自定义函数
7.Hive 文件格式
8.Hive 性能调优
9.项目实战:从金融历史数据中分析提取逆回购信息
十、Sqoop 数据导入导出工具
1.Sqoop 基本架构
2.Sqoop 架构原理
3.Sqoop 环境安装部署
4.Sqoop与HDFS结合导入导出数据
5.Sqoop与Hive结合导入导出数据
6.Sqoop与HBase结合导入导出数据
十一、HBase 分布式数据库
1.HBase 基本架构与运行原理
2.HBase 数据读写流程
3.HBase 数据模型
4.HBase 负载均衡
5.HBase 伪分布实验环境
6.HBase 分布式生产环境
7.HBase 集群管理与维护
8.HBase 的Shell操作
9.HBase 的Java API操作
10.MapReduce 读写HBase数据库
11.HBase 性能调优一:RowKey 设计技巧(解决热点问题)
12.HBase 性能调优二:预分区(解决热点问题)
13.HBase 性能调优三:宽表和高表设计技巧
十二、Azkaban Hadoop工作流引擎
工作流概述
1.1.工作流之JBPM
1.2.工作流之Activiti
Hadoop内置工作流
2.1.Hadoop工作流--ChainMapper/ChainReducer
2.2.Hadoop工作流--JobControl
2.3.Hadoop内置工作流的不足
第三方框架Azkaban
3.1.Azkaban是什么
3.2.Azkaban的功能特点
3.3.Azkaban的架构
3.4.Azkaban三种运行模式
3.5.Azkaban 安装部署
3.5.1安装配置Mysql
3.5.2安装配置Azkaban Web Server
3.5.3安装配置Azkaban Executor Server
Azkaban Web Server插件安装
4.1.安装HDFS Viewer插件
4.2.安装Job Summary插件
4.3.安装Reportal插件
4.4.Azkaban Executor Server 插件安装
4.5.安装Hive插件
4.6.安装Reportalhive插件
4.7.效果监测
十三、Redis 基于内存的键值数据库
1.Redis特性
2.Redis各种常见数据类型详解
3.Redis 安装部署
4.Redis 主从安装部署
5.Redis 集群安装部署
6.Redis Client操作
7.Redis API操作
十四、 Solr 搜索引擎
1.Solr简介
2.Solr与Lucene对比
3.Solr安装部署
4.Solr主从结构部署
5.SolrCloud集群安装部署
6.Solr 相关配置文件详解
7.使用Solrj实现Java操作Solr
8.Solr 查询详解
9.Solr优化
十五、ElasticSearch 搜索引擎
1.ElasticSearch简介
2.ElasticSearch和Solr、Lucene的对比
3.ElasticSearch配置文件详解
4.ElasticSearch安装部署
5.Java API操作ElasticSearch
6.使用CURL操作ElasticSearch索引库
7.ElasticSearch DSL查询
8.ElasticSearch批量查询meet和批量操作bulk
9.ElasticSearch的分页查询
10.ElasticSearch中文分词工具的集成
11.ElasticSearch优化
12.ElasticSearch插件介绍
十六、Kafka 分布式消息系统
数据采集阶段技术对比
1.数据采集技术
2.Kafka简介
3.Flume对比
4.Sqoop对比
数据采集技术Kafka
1.Kafka原理
2.Kafka架构分析
3.Zookeeper集群相关
Kafka安装及基本操作
1.Kafka部署及操作
2.Kafka Topic操作及分析
3.Partition 操作及分析
Kafka的API操作及项目中应用
1.Kafka API 介绍及项目中应用
2.Producer 讲解及代码演示
3.Customer 讲解代码演示
十七、Storm 分布式流式计算框架
实时流式计算介绍
1.实时流式计算是什么
2.实时流式计算的特点
3.实时流式计算使用场景分析
4.Queue+Worker,S4, Storm,Spark简单介绍
1.Storm介绍
2.Storm特点
3.Storm优势
Storm使用场景
1.新浪的实时分析平台
2.腾讯的实时计算平台
3.奇虎360的实时平台
4.百度的实时系统
5.阿里的Jstorm
Storm的系统架构
1.主节点(Nimbus)
2.从节点(Supervisor)
3.Web节点(Storm UI)
4.协调节点(Zookeeper)
Storm的工作流
1.作业单元(Topology)
2.数据源编程单元(Spout)
3.数据处理编程单元(Bolt)
Storm的并发机制
1.服务器(Nodes)
2.JVM虚拟机(Worker)
3.线程(Executor)
4.Spout/Bolt实例(Task)
Storm的数据流
1.Stream讲解(Tuple)
2.Storm的数据模型
3.Stream Grouping
Storm的保障机制
1.功能性保障:多粒度的并行化
2.非功能性保障:多级别的可靠性
1.Storm版本发展历史
2.本地模式
3.分布式模式
4.主节点Nimbus
5.工作节点Supervisor
6.Storm UI
7.Storm配置项
项目如何在Storm集群下运行
1.Storm Java API
2.Topology创建与提交
3.实例操作
1.Kafka介绍
2.Kafka的消息持久化和顺序读写
3.Kafka的应用
4.Kafka的客户端
5.Storm和Kafka的对接:KafkaSpout
Storm集群的监控与管理
1.主机信息监控
2.日志监控
3.Storm UI
十八、大数据项目实战
企业级项目实战一:某权威机构广电收视率系统(Hadoop)
(一)项目总体需求分析
1.项目背景
《中国好声音》、《快乐男声》、《最美和声》、《中国梦之声》……今年夏天,各种音乐选秀节目竞争激烈。哪个节目更受观众欢迎?节目中的“笑点”和 “尿点”又藏在哪儿?歌华有线的“北京大样本收视数据研究中心”给出了答案。这个去年初才筹建的机构,掌握着最热门的“大数据”计算模式,如今正充当起各个电视节目的幕后“军师”。
2.项目需求
为了便于我们掌握哪个节目更受观众欢迎以及节目中的“笑点”和 “尿点”,我们可以通过一些用户的收视指标进行监测,比如收视人数、平均收视人数、收视率、市场份额、平均到达人数、到达率以及人均收视时长等等,我们可以将这些指标按天统计,可以得出每个节目收视排名,从而知道那个节目更受欢迎;我们也可以将这些指标按小时、甚至按分钟进行统计,可以精确的知道某个节目在那哪一分钟或者某一段时间收视最高,从而知道某个节目的最精彩的部分,甚至还可以推断出节目中收视率高是由哪个明星带来的。 当然我们可以通过用户的数据,还可以掌握其它维度的收视情况,比如频道、频道类别、栏目、栏目类别、节目、节目类别、具体频道具体节目等等。
3.系统功能
主要包括收视概况浏览、收视率走势分析、收视指标对比、收视数据对比查看。
4.项目难点分析
项目需求的维度和指标比较多而且比较复杂,这里我们抽出一个维度的几个指标来进行分析,本项目我们从节目的维度,统计每个节目的平均收视人数、平均到达人数、收视率、到达率和市场份额。我们根据每天抽样用户的收视数据,统计出每个节目按天、按小时、按分钟的上述5个收视指标。
(二)项目架构设计及技术选型
1.项目整体架构设计
2.软件选型
(三)项目生产环境规划及部署
1.机器选型、节点规划、目录规划等。
2.分布式集群环境搭建
(四)项目开发流程
1.使用Flume监控数据目录,将数据收集到HDFS分布式文件系统
2.编写MapReduce解析数据、清洗数据.统计分析数据,结果存储HDFS
3.使用Hive对每小时、每天、每月收视率数据进行统计
4.使用Sqoop 将Hive的分析结果数据导入MySQL数据库
5.打通项目的各个环节,整体联调
6.开发Web项目实现收视率查询、展示系统
企业级项目实战二:某移动大型电商网站数据分析系统
(一)总体需求分析
1.项目背景
2.项目价值
3.项目需求
4.项目难点分析
(二)数据采集实战
1.数据采集流程概览
2.埋点脚本执行
3.数据收集脚本执行
4.后端脚本之Lua语言详解
5.后端脚本之OpenResty详解
6.后端脚本解读
(三)架构设计和方案部署
1.HDFS 设计前提和目标
2.HDFS 适用场景
3.HDFS异构层级存储结构
4.HDFS数据压缩与IO
5.数据接入
6.Flume 数据收集
7.同类产品介绍
8.系统总体架构设计
9.大数据集群整体部署方案
10.日志收集与处理模块设计
11.数据跨小时.跨天解决方案
12.构建目标Web应用
(四)CDH5开发环境搭建
1.数据前端埋点
2.采集服务器部署
3.实现采集服务器负载均衡
4.部署HDFS集群环境(HA)
5.部署数据管道(Flume)
6.打通采集服务器到HDFS的管道
7.Flume实现按小时/天滚动日志
8.部署Yarn分布式集群(HA)
(五)分析模块实现
1.MapReduce能够解决项目中的哪些问题
2.MapReduce实现1-页面访问热度统计(pv、uv等)
3.MapReduce实现2-电影评分数据分析(join)
4.MR单元测试与集成测试
5.Azkaban 实现作业的调度与运行
(六)系统总体联调和数据可视化
1.Jmeter模拟访问产生用户日志
2.系统总体联调
3.Hadoop 性能调优
4.数据可视化
5.简历修改和面试指导
企业级项目实战三:某大型传媒公司视频网站爬虫系统
1.了解传统广电收视率项目背景
2.用户数据有哪些价值点
3.哪些机构掌握这些数据
4.爬虫目标:互联网各大视频网站
项目总体需求
1.多维度统计:总播放指数、每日播放增量、评论数、收藏数、赞、踩
2.数据可视化:节目收视排行榜、多维度指标趋势图
1.网站采取反爬策略
2.网站模板定期变动
3.网站URL抓取失败
4.网站频繁抓取IP被封
系统架构设计
1.总体架构解析
2.数据流向
3.功能模块划分
4.各个模块详细解读
1.数据采集层
2.数据存储层
3.数据处理层
4.数据展示层
1.爬虫项目:分布式集群
2.爬虫定时项目:一台服务器
3.爬虫项目监控:一台服务器
4.爬虫可视化:多台服务器
5.Hbase数据库:分布式集群
6.Redis数据库:分布式集群
7.Solr 全文检索:分布式集群
8.Zookeeper 监控:分布式集群
9.Solr 建立索引:一台服务器
10.邮件提醒:一台服务器
爬虫代码详尽实现
1.下载、解析视频网站详情页面url,提取关键字段数据
2.抽取视频网站解析规则模板,优化解析代码
3.打通数据爬虫的下载、解析、存储流程
4.采用Hbase存储爬虫数据,详解Hbase宽表和窄表设计以及爬虫项目表的详细设计,包含rowKey设计、列簇设计、历史版本
5.解析视频网站所有分页url并优化解析实现类
6.使用Queue队列存储视频网站所有url,实现视频网站url循环抓取
7.采用高、低优先级队列循环抓取视频网站url
8.采用Redis数据库实现url抓取优先级,并支持分布式爬虫
9.采用多线程爬虫,加快爬虫效率
10.定时启动爬虫项目
11.完善爬虫项目、补充抓取关键字段数据
1.Lucene.Solr.ElasticSearch简介
2.全文检索过程:索引创建和搜索索引
3.解决全文检索的核心问题
4.Solr+Hbase组合提升检索效率
5.Solr 配置详解
6.Solr 安装部署
7.Solr 建立索引
8.Solr 检索视频网站数据
数据可视化
1.采用SpringMVC框架编写爬虫Web项目
2.编写Hbase工具类查询Hbase数据
3.编写Solr工具类检索爬虫数据
4.采用Freemarker或者jsp展示页面
5.采用Highcharts插件展示收视指数曲线图
6.打通爬虫整个项目流程,实时查看收视排行榜以及收视指数曲线图
项目优化一
1.设置合理的抓取时间间隔,模拟正常用户访问,降低IP被封概率
2.采用Redis 动态IP库,随机获取IP,随机抓取不同网站数据,降低同一IP对统一网站的访问频率
3.实现分布式爬虫,提高爬虫效率
项目优化二
1.Ganglia.Zookeeper简介
2.详解Zookeeper特性监控爬虫项目
3.完善爬虫项目注册Zookeeper集群
4.编写Watcher监视器监控爬虫项目生命周期
5.集群监控的整体联调
项目优化三
1.监控器监控爬虫项目异常,异常数据插入数据库
2.编写邮件Mail项目扫描爬虫项目异常信息,通知运维人员
3.编写定时器定时执行Mail项目
企业级项目实战四:某淘OpenTSDB时间序列分析项目
1.结合企业应用介绍SAAS、PAAS、IAAS
2.通过Ganglia熟悉SAAS产品
3.OpenTSDB 项目需求介绍
4.HBase 测试环境安装
5.HBase 基础知识回顾
6.HBase在各种场景如何保证区分新旧数据
7.Hbase 访问方式
8.Hbase 编程
9.HBase数据接入
10.HBase性能优化
11.OpenTSDB 安装搭建
12.SAAS产品的架构详细讲解
13.OpenTSDB tcollector(自带的探针)采集数据
14.用Tcollector来监控HBase或者Zookeeper
15.Grafana来监控Flume
16.Kafka 消息队列缓存数据
17.数据接入
18.写性能优化
19.HBase 性能调优
20.HBase在资源紧张时降低IO的手段
21.HBase 冷热数据处理
22.大数据系统维护方案
企业级项目实战五:某婚恋网站后台日志实时分析系统(Storm)
(一)业务背景
1.项目背景
网站是个交友平台,每个用户的操作包含登陆、发信、收信、看信、删信以及推荐的用户展示记录等等;网站后台会记录每个用户的操作,这些操作日志被存储到Kafka。需要对发信、收信、读信和推荐用户数分时段(每半个小时)进行统计。
2.设计目标
功能目标:实时数据收集和数据计算
性能目标:可用性、扩展性
3.分析需求
对网站的数据进行实时分析,统计出每半个小时内的用户收信、发信、看信、展示数据情况, 展示的纬度包含地区、性别、算法、平台。方便对业务数据进行对比、改进、提升
(二)系统架构与模块设计
1.整体架构
a.构建Kafka集群
b.构建Storm集群
c.构建Mysql集群
d.搭建Web服务器
数据源来自于社交网站,每个用户的登录、发信、收信、看信、删信以及推荐用户展示的记录等等
3.数据存储与处理
a.Kafka Spout 负责从kafka队列中提取日志;
b.ParseAndFilter Bolt 负责从所有日志中提取出需要处理的日志(这里提取的日志类型是读信、发信和推荐日志)
c.ExtractReadmsg Bolt 负责从读信日志中提取出时间、性别、平台、展位、用户类别、用户uid
d.ExtractRecommendmsg Bolt 负责从推荐日志中提取出时间、性别、平台、展位、用户类别
e.ExtractSendmsg Bolt 负责从发信日志中提取出时间、发信用户性别、平台、展位、发信用户类别、发信用户uid、收信用户类别、收信用户uid
f.ExtractSendmsg Bolt 负责从发信日志中提取出时间、发信用户性别、平台、展位、发信用户类别、发信用户uid、收信用户类别、收信用户uid
g.AnalysisReadmsg Bolt负责对提取出的读信信息进行统计,并存储到数据库
h.AnalysisRecommendmsg Bolt负责对提取出的推荐信息进行统计,并存储到数据库
i.AnalysisSendmsg Bolt负责对提取出的收信和发信信息进行统计,并存储到数据库
j.StoreSignal Spout 每隔半个小时发送存储信号,当AnalysisReadmsg, AnalysisSendmsg和AnalysisRecommendmsg收到信号时,会将统计信息存储到数据库
(三)核心模块实现
1.模拟数据实现
通过python脚本,根据社交网站后台产生的真实数据格式,模拟产生用户的收、发信等数据
2.日志采集和存储实现
a.使用Kafka进行日志采集和数据存储,它是我们storm处理数据的来源
b.使用Mysql存储处理后的数据,它是后续Web展示的数据来源
3.数据处理实现
a.storm读取kafka集群数据
b.解析并过滤kafka集群数据
c.提取不同业务数据
d.统计分析业务数据
e.数据结果入库
f.发送定时信号,flush所有数据
g.构建Storm项目Topology
h.数据可视化
(四)项目部署上线
1.上线大致流程
a.申请机器
b.搭建集群
c.部署软件
d.线下测试
e.正式上线
2.注意事项
a.Java参数优化
b.设置合理的worker数
3.项目监控
a.机器监控
b.集群监控
c.性能监控
企业级项目实战六: 某视频网站大数据平台离线计算项目
项目介绍:
企业内部通常会有多个业务系统,数据也会分布在不同的数据库或不同的服务器上,那么这就形成了数据孤岛,比如有网站数据、手机客户端数据等,这样高层决策人员就不能从整体上观察数据,数据挖掘人员也不能利用多方面的数据进行用户画像、产品人员也不能查看本业务的全局数据来更好的了解产品的情况、市场人员也不能查看活动的整体效果来确定后续的销售方向等等。所以说企业通常会构建一个大数据平台,来满足企业各个部门对数据各种各样的需求。本项目就通过一个大数据平台离线计算的项目,使学员们从总体到细节了解大数据平台的方方面面。
实训内容:
(一)项目总体需求分析
1.企业各个业务系统的数据及全公司的数据都要流入大数据平台
2.数据尽量要实现统一化数据采集
3.需要统一的调度系统
4.需要满足各方人员数据临时查询需求但不能影响正常作业的计算
(二)项目难点分析
1.企业数据大而且多种多样,比如有多个业务系统,每个业务系统有数据库数据和日志文件等,日志文件中又有tsv、csv文件以及nginx访问文件等;
2.数据质量的保证,流水日志还好,从DB获取业务系统数据要有一定程度的完善才行,不然获取不到准确的增量数据
3.计算资源控制是难点,一般来说一个大数据集群可以跑线上作业,还要满足测试人员或者产品人员的日常查询,那么如何要做好资源管理就很重要了
(三)解决问题的思路
1.需求分析并找出实现难点
2.设计每个难点的详细解决方案
3.程序或者脚本编码
4.项目测试
5.项目部署
6.项目交付
(四)项目技术难点攻克
1.难点攻克一:数据采集
1.1.每个业务系统都有自己的数据库,我们需要从数据库中获取全量或者增量数据,数据库表结构可能发生变化,比如删除字段或者调整了字段的顺序
1.2.多个业务系统,每个业务系统会有多个日志机器,那么如何统一采集呢?
2.难点攻克二:资源管理
2.1.一般来说一个大数据集群可以跑多个线上作业,还要满足测试人员或者产品人员的日常查询,那么如何做好资源管理呢?
3.难点攻克三:交互式查询
3.1.产品人员、开发人员、测试人员要做临时查询,除了资源管理外还需要做到数据隐密性和安全性,那么如何做权限管理呢?
(五)解决方案设计
1.技术选型:HDFS+MapReduce+YARN+Flume+Hive+Sqoop+Oozie+Hue+Mysql
2.架构设计
构架分层设计:
2.1.数据采集层
2.2.数据存储层
2.3.数据处理层
2.4.数据集市层
(六)项目实战
1.大数据平台构架设计
1.1.总计构架设计
1.2.数据采集规范制定
1.3.数据处理层
1.4.数据集市层
2.Hadoop YARN高可用搭建
2.1.YARN高可用配置
2.2.基于队列的FIFO(先进先出)
2.3.计算能力调度器Capacity Scheduler
2.4.公平调度器Fair Scheduler
3.MapReduce分布式计算模型
3.1.mapreduce整体流程
3.2.map数和reduce数如何确定
3.3.二次排序
4.Flume日志收集系统
4.1.Flume拓扑结构
4.2.Agent/source/channel/sink等组件的使用
5.数据采集实战
5.1.采集日志文件
5.2.采集数据库数据
6.MapReduce复杂日志格式代码实战
6.1.拆分不同业务日志
6.2.清洗复杂的日志数据
6.3.按约定生成固定格式的数据
7.Hive建模、HQL实战
7.1.Hive环境部署及使用
7.2.建立外部表、内部表、分区
7.3.维度表建立
7.4.数据处理表建立
7.5.数据集市表建立
8.作业调度系统Oozie实战
8.1.编写脚本配置统一的作业调度
9.sqoop导入mysql实战
9.1.将hive的计算结果导入mysql
10.项目总结
10.1.大数据项目需要综合运用的各种技术
10.2.介绍实际生产环境的注意事项
10.3.谈谈项目需要改进的地方
10.4.谈谈各个项目中遇到的坑及解决方法
企业级项目实战七:金融实时数据动态指标计算平台
项目背景:
本项目主要针对用户充值,金币消耗,钻石消耗等数据,进行实时计算分析,统计出来最近一段时间内用户的消费情况,为运营部门提供运营决策依据。
项目技术选型:Java(1.7) + Log4j + Zookeeper(3.4.6) + Flume(1.7.0) + Kafka(0.9.0.1) + Storm(0.9.6)
项目解决的问题:
1.实时计算平台架构的部署
2.使用Zookeeper实现分布式共享锁,保证分布式架构下多线程处理数据的安全性
3.Flume拦截器的使用以及使用自定义拦截器的实现
4.如何实现Flume进程的监控,以及进程挂掉之后如何自动重启
5.调整Flume进程内存避免频繁GC
6.针对Kafka集群频繁发生副本丢失导致频繁进行副本复制,进而导致集群压力过大
7.针对Kafka消费者经常超时导致数据消费失败问题
8.如何实现Kafka集群平滑升级(不影响线上业务的情况下)
9.如何定位Storm任务的计算瓶颈
10.如何实现Strom任务资源动态调配
实训内容:
(一)项目核心组件实例剖析之Zookeeper
1.介绍Zookeeper的基本使用
2.介绍Zookeeper中的临时节点和Watcher监视器
(二) 项目核心组件实例剖析之Flume
1.Flume Agent(Source Channel Sink)的选择及配置
2.Flume拦截器的使用
3.Flume参数调优、Flume进程监控实现以及进程挂掉之后自动重启
(三) 项目核心组件实例剖析之 Kafka
1.Kafka中topic的partition和replication的设计
2.Kafka集群平滑升级
3.Kafka集群参数调忧
(四)项目核心组件实例剖析之Storm
1.Storm核心内容-并行度的分析以及调整
2.Storm UI界面关键指标分析
3.Strom实现动态资源调整
(五)项目实战
1.项目架构分析
2.项目技术选型
3.项目生产环境机器配置及部署
4.利用Log4j+Flume+Kafka+Storm或者(前端埋点+Kafka+Storm)等架构实现实时数据处理需求
5.项目具体代码实现
6.项目相关指标统计分析
7.项目的流分组实现
8.项目的可靠性实现
9.项目的定时任务实现
10.项目整体流程跑通
11.项目整体优化及性能调优
大数据可视化就业特训营
试学价:?99
和大讲台广受欢迎的Hadoop课程一样,这门Spark志在就业,剑指高薪。不玩多而全的碎碎念,而是专注于把核心组件讲透讲深入;不玩小儿科demo ,而是拿企业级项目带教实战;不局限于Spark本身,而是经常稍带一些大型项目经验及最新的NB技术,在帮你拓展视野的同时也能顺道装逼。
Spark高薪就业课
试学价:?99
JQuery — web前端开发的利器,本课程将从理论基础+实战演练两方面对JQuery基础应用进行全面讲解,让你轻松搞定JQuery 。
jQuery从入门到巅峰实战
这是一套 系统且具有很强实战性 的Storm课程,从实时流计算及其在新浪、腾讯、360、百度等公司应用分析,到Storm的架构、工作流、机制,再到Storm集群的部署、运行、监控,最后以某上市婚恋网站的真实项目做为案例来详细讲解并带领大家完成从理论到实战的进阶!
Storm实战课程
试学价:?9
关注微信@大讲台
来微博关注我 @大讲台科技

我要回帖

更多关于 达内大数据培训视频 的文章

 

随机推荐