离线和实时大数据开发实战的实战视频谁有？

来源：蜘蛛抓取(WebSpider) 时间：2017-08-22 01:02 标签：离线和实时大数据开发实战

0

: 课程简介课程分为四部分：第一部分集群安装：里面详细介绍了集群安装知识及大数据组件如何实现整合的。大数据组件包括：hadoop、flume、kafka、spark。第二部分... ...( 00:00:00)

: 摘要：Gartner认为全球经济正在更大范围内复苏，2013年会出现IT的新增量，2014年大数据将成为必要投资。与此同时，摩根斯坦利预测了大数据中“十大最快增速领域”。而在美国资深技术派眼中，更为看重的是“实时分析和批量处理与分析”背后的技术。全球经济环境的不景气直接影响了IT系统建设 ...( 15:23:45)

: 生活中无论有什么闪失，统统是自己的错，与人无尤，从错处学习改过，精益求精，直至不犯同一错误，从不把过失推诿到他人肩膀上去，免得失去学乖的机会。——《阿修罗》

第三章：把别处的数据搞到Hadoop上
第四章：把Hadoop上的数据搞到别处去
第五章：快一点吧，我的SQL
第七章：越来越多的分析任务
第八章：我的数据要实时
第九章：我的数据要对外
第十章：牛逼高大上的机器学习

经常有初学者在博客和QQ问我，自己想往方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。。

其实这就是想告诉你的大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。

先扯一下大数据的4V特征：

数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等；
商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；
处理时效性高，海量数据的处理需求不再局限在离线计算当中。

现如今，正式为了应对大数据的这几个特点，开源的越来越多，越来越强，先列举一些常见的：

眼花了吧，上面的有30多种吧，别说精通了，全部都会使用的，估计也没几个。

就我个人而言，主要经验是在第二个方向（开发/设计/架构），且听听我的建议吧。

如果你认真完成了上面的学习和实践，此时，你的”大数据平台”应该是这样的：

请不要被这个名字所诱惑。其实我想说的是数据的一次采集、多次消费。

在实际业务场景下，特别是对于一些监控日志，想即时的从日志中了解一些指标（关于实时计算，后面章节会有介绍），这时候，从HDFS上分析就太慢了，尽管是通过Flume采集的，但Flume也不能间隔很短就往HDFS上滚动文件，这样会导致小文件特别多。

为了满足数据的一次采集、多次消费的需求，这里要说的便是Kafka。

另外，我这边是之前单独开发的任务调度与监控系统，具体请参考《大数据平台任务调度与监控系统》.

如果你认真完成了上面的学习和实践，此时，你的”大数据平台”应该是这样的：

第八章：我的数据要实时

在第六章介绍Kafka的时候提到了一些需要实时指标的业务场景，实时基本可以分为绝对实时和准实时，绝对实时的延迟要求一般在毫秒级，准实时的延迟要求一般在秒、分钟级。对于需要绝对实时的业务场景，用的比较多的是Storm，对于其他准实时的业务场景，可以是Storm，也可以是Spark Streaming。当然，如果可以的话，也可以自己写程序来做。

1. 什么是Storm？有哪些可能的应用场景？
2. Storm由哪些核心组件构成，各自担任什么角色？
3. Storm的简单安装和部署。
4. 自己编写Demo程序，使用Storm完成实时数据流计算。

如果你认真完成了上面的学习和实践，此时，你的”大数据平台”应该是这样的：

至此，你的大数据平台底层架构已经成型了，其中包括了数据采集、数据存储与计算（离线和实时）、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。

第九章：我的数据要对外

通常对外（业务）提供数据访问，大体上包含以下方面：

离线：比如，每天将前一天的数据提供到指定的数据源（DB、FILE、FTP）等；离线数据的提供可以采用Sqoop、DataX等离线数据交换工具。

实时：比如，在线网站的推荐系统，需要实时从数据平台中获取给用户的推荐数据，这种要求延时非常低（50毫秒以内）。

OLAP分析：OLAP除了要求底层的数据模型比较规范，另外，对查询的响应速度要求也越来越高，可能的方案有：Impala、Presto、SparkSQL、Kylin。如果你的数据模型比较规模，那么Kylin是最好的选择。

即席查询：即席查询的数据比较随意，一般很难建立通用的数据模型，因此可能的方案有：Impala、Presto、SparkSQL。

这么多比较成熟的框架和方案，需要结合自己的业务需求及数据平台技术架构，选择合适的。原则只有一个：越简单越稳定的，就是最好的。

如果你已经掌握了如何很好的对外（业务）提供数据，那么你的“大数据平台”应该是这样的：

第十章：牛逼高大上的机器学习

关于这块，我这个门外汉也只能是简单介绍一下了。数学专业毕业的我非常惭愧，很后悔当时没有好好学数学。

在我们的业务中，遇到的能用机器学习解决的问题大概这么三类：

分类问题：包括二分类和多分类，二分类就是解决了预测的问题，就像预测一封邮件是否垃圾邮件；多分类解决的是文本的分类；
聚类问题：从用户搜索过的关键词，对用户进行大概的归类。
推荐问题：根据用户的历史浏览和点击行为进行相关推荐。

大多数行业，使用机器学习解决的，也就是这几类问题。

SparkMlLib提供了一些封装好的算法，以及特征处理、特征选择的方法。

机器学习确实牛逼高大上，也是我学习的目标。

那么，可以把机器学习部分也加进你的“大数据平台”了。

云计算大数据就业班课程大纲

运用常用的网页开发技术设计网页；掌握WEB系统交互原理；掌握JavaWeb开发核心技术；运用JavaWeb核心技术完成简单功能实现；掌握JavaWeb高级技术，创建更好的Web应用程序；具备B/S结构软件开发能力。具备能力及市场价值：能够完成B/S结构网站开发，具备了真实环境的项目部署能力；能够完成中小型企业管理系统等传统项目的开发。市场价值：继续努力学习。



多线程入门、网络编程入门、反射、动态代理、注解
	Maven项目构建、管理、编译、仓库配置，SVN服务器部署、 SVN客户端、自动化部署	掌握SSM框架，使用SSH框架开发出结构清晰、可复用性好、维护方便的Web应用程序；掌握如何使用Maven管理项目工程；掌握数据库的相关技术；掌握系统开发中的性能、可扩展性及维护性的提升；通过项目实战熟练掌握SSM框架的使用。具备能力及市场价值：能够使用SSM框架完成传统企业级项目开发，熟悉多种业务流程，丰富项目开发经验。




	VMware虚拟机安装、linux常用命令、linux用户权限与网络安全	掌握大数据爬虫技术开发；掌握大数据搜索引擎技术开发；掌握大数据消息队列使用及调优；掌握Storm实时数据分析；掌握互联网用户日志分析。具备能力及市场价值：能够独立开发爬虫系统；能够独立开发搜索系统；能够完成实时数据采集、存储、计算及商业应用。

大数据娱乐头条-项目整体介绍
大数据娱乐头条-爬虫基础、Http协议、HttpClient网络请求、 Jsoup网页解析、黑客行为之后台登录
大数据娱乐头条-Java并发、多线程、阻塞队列、网易娱乐爬虫开发实战
大数据娱乐头条-Redis基础、Redis集群、Redis常用API、购物车、排行榜、Redis持久化
大数据娱乐头条-分布式爬虫、代理IP、爬虫攻防技术、分布式爬虫开发实战

大数据娱乐头条-solr基础、solr在Linux部署、solr管理界面、 solr创建索引、solr查询索引、solr高亮、solrj客户端管理
大数据娱乐头条-SSM搜索服务、搜索引擎界面、搜索分页、搜索高亮、搜索热词联想

大数据娱乐头条-Kafka基础、Kafka集群、生产分发策略、消息不丢失、存储机制、消费者负责均衡、Kafka配置文件详解
大数据娱乐头条-爬虫集成Kafka、爬虫创建索引、 FreeMarker热门搜索结果静态化

大数据娱乐头条-nginx+lua基础、点击流日志收集系统部署
大数据娱乐头条-Storm基础、Storm架构、Storm编程模型、 Storm实时看板、Storm消息不丢失
大数据娱乐头条-Storm热词统计，提供实时热词静态化
大数据娱乐头条-Storm爬虫日志监控项目实战
大数据娱乐头条-Storm日志分析项目实战
JVM虚拟机基础与性能调优

	掌握离线数据收集、数据存储、数据计算、任务调度、数据导入导出、数据报表开发技术；掌握用户日志分析系统（业务分析、编码实现、调度配置、数据导出、数据可视化）；掌握数据仓库管理、元数据管理、数据稽查等常见处理技术掌握Hadoop高可用配置及管理。具备能力及市场价值：能够胜任离线相关工作，包括ETL工程师、任务调度工程师、Hive工程师、数据仓库工程师等。




数据仓库特征、数据仓库架构、Hive的概念、Hive架构、Hive部署及使用、 HiveDDL、HiveDML、Hive命令行、Hive参数配置、Hive内置函数、 HiveUDF开发、Hive的数据压缩、Hive的文件格式、Hive调优、 Hive语句综合练习
网站流量日志采集、数据分析系统介绍、系统开发架构、Flume实现数据采集、数据预处理、数据仓库设计、ETL、统计分析、Sqoop结果导出、工作流调度azkaban、数据可视化


	掌握互联网电商用户画像建模、开发、可视化（业务知识、技术开发、架构）；掌握数据数据存储及存储（Hbase+Phoenix）。具备能力及市场价值：能够胜任Spark相关工作，包括ETL工程师、Spark工程师、Hbase工程师、用户画像系统工程师、大数据反欺诈工程师。目前企业急缺Spark相关人才。




互联网电商用户画像建模、开发、数据导入、数据存储（Hbase+Phoenix）、可视化
大数据反欺诈系统、航空领域反爬虫项目实战、系统架构、防爬规则、 Nginx+lua+kafak整合、高频IP检测、SparkStreaming规则引擎开发、数据可视化

	1.基本概念：属性、属性的度量、属性类型、数据集类型、数据集的特性、训练集、测试集、特征值、监督学习、非监督学习、半监督学习等概念 2.数据的预处理：聚集、抽样、维度规约、特征子集选择、特征创建、离散化和二元化、变量变换 3.模型的评估：模型的过分拟合(过拟合)，欠拟合，评估分类器的性能(交叉验证和自助法)，模型评估方法、损失函数和风险函数、参数优化等，模型复杂度(奥卡姆剃刀)4.机器学习处理的一般流程分析	掌握机器学习算法理论基础；熟悉Python语言基础及数据科学库；熟悉机器学习应用场景；掌握Spark机器学习框架、能使用scikit-learn机器学习库结合Python完成全栈机器学习建模；熟悉深度基本概念、流程、常见算法、能够使用算法解决简单的业务问题（图像识别等）；掌握用户标签预测全流程；掌握互联网行业推荐业务开发；掌握点击率预估使用场景及项目全流程开发。具备能力及市场价值：能够胜任机器学习、数据挖掘等相关工作，包括推荐算法工程师、数据挖掘工程师、机器学习工程师，填补人工智能领域人才急剧增长缺口。
初等数学基础、函数求导以及链式求导法则、方向导数、梯度、泰勒级数、拉格朗日乘子法、线性代数与矩阵、特征值与特征向量、概率分析、极大似然估计、梯度下降法代码实践、牛顿法代码实战、矩阵分解实战(SVD,PCA,QR)
机器学习语言基础之Python语言	基础数据类型、list/tuple/dict/set、列表推导式、生成器推导式、 lambda函数、控制语句、文件读写、异常处理分析、面向对象编程、 GUI编程、Python基础项目实践
Python数据分析库实战	Numpy矩阵运算库基础及实战、Scipy数值运算库基础及实战、 Matplotlib绘图库基础及实战、Seaborn绘图库基础及实战、 Pandas数据分析库基础及实战
Spark机器学习库实战
机器学习算法之用户标签预测项目实战
机器学习算法之推荐系统实战	基于记忆的CF实战(Surprise库实战)、基于模型的CF实战(SparkALS实战)、基于Native-Bayes分类算法实战、基于内容推荐(jieba分词、提取词向量、文本分类、特征聚类)、关联挖掘算法实战(基于Spark的FP-Growth算法实战)、推荐项目实战
机器学习算法之CTR点击率预估实战	特征工程实战、CTR点击率预估应用场景分析、逻辑斯特回归算法理论基础推导及项目实战、推荐系统指标分析、推荐系统架构分析、基于Wideanddeep模型理论及实战(学会读学术Paper)
机器学习算法之深度学习基础及图片分类实战	神经网络和深度学习基础、MP神经元模型、感知机模型、BPNN模型实战、 CNN模型实战图像识别、Tensorflow基础、电影评论文本分析、 RNN文本情感分析实战
机器学习算法串讲、机器学习面试题目详解，剖析结合人工智能实际场景、机器学习或人工智能类岗位核心技能需求、所需知识和技能、主流机器学习工具和框架的使用方法、开放式问题和系统设计问题，融汇贯通整个课程知识点、大数据和机器学习部分项目衔接