企肖邦大数据收集分析公司采集系统咋样,说下?


本文围绕数据采集为讨论主题,从三个方面——业务流程梳理、原型注意点、项目上线后复盘总结进行了分享。
随着数据量的不断增速,数据价值也逐渐被很多公司所关注,尤其是偏重于业务型的企业,大量数据的产生,在未被挖掘整合的过程中通常被看作是一堆无效且占用资源的;但一旦被发掘,数据的价值将无可估量。尤其像电商,银行,服务行业等等。近段时间有幸参与负责了一个大数据项目,今天主要对采集系统做一次简单的复盘:数据采集系统故名思意就是将数据从数据源采集到能够支撑大数据架构环境中,从而实现数据的采集以便后期对数据的二次加工建立数据仓库。一、业务流程梳理在业务流程梳理的过程中,我们先预设个场景,如:当公司运营人员提出一个订单转化率的需求,作为产品人员,首先要确定分析订单转化率与哪些因素有关,最终确定从用户下单,支付这两个环节中分析,如当月有多少用户提交了订单,之后有多少用户确认了订单,有多少用户最终支付订单等;最终呈现了漏斗形的分析主题;因此分析时就需要确定所需要的这些数据要从哪些表获取,都需要获取哪些数据,获取到后要采集存储到哪个数据仓库的表中,最终被使用到。因此从上面的例子中我们可以从以下几点思考业务流程:确定主题,确定主题模型;确定表和数据口径;确定需要与目标的映射关系;确定表与口径需要从哪些源下获取,以及如何数据更新的频率等;从以上几点我们可以看出,第一点主题模型我们今天不做过多的介绍,着重从2~4点分析可以将采集系统划分为数据源配置、表结构的管理、源表管理、映射配置和采集任务管理几大模块。数据源管理包括新增,编辑,删除等;表结构管理包括表结构的批量导入,查看等;因为采集过程中表是要参与映射的,结构一旦导入是不允许修改的,以免影响后面的采集配置文件的输出。映射配置主要是配置表与表,字段与字段的映射关系,过滤条件与增量的设置。作为采集的配置模板使用;为什么不是在之前就与数据源关联的目的是因为解耦表与数据源的关系,方便于后期的扩展和用户易用性。采集任务管理主要是建立源与源之间采集过程以及任务的执行情况。二、原型注意点1. 数据源管理数据源一般会分为很多种类型,因此,我们需要建立数据源类型;如ORECAL、mysql、hive等。添加数据源时,对于所填写内容的校验一般会根据需要来决定,需要填写的字段大致包括源名称,服务器,端口,用户名,密码等。2. 表管理表结构的获取一般会有两种方式,一种是通过连接数据库获取,一种是本地保存,直接从本地获取。具体使用哪种方式根据实际情况来决定。如果是用的第二种,则需要将表结构整理预先导入系统,以便后期使用。hive的表结构有一些特殊,比一般数据库的表结构多几列,如:分列名称,分区值等。3. 映射配置映射配置主要是确定源表和目标表,同时建立字段映射关系;亦可设置过滤条件,数据采集的周期配置设置等。4. 任务管理主要是建立源与表,源与源的关系;同时可以对任务的执行周期来进行设置;任务配置的过程中,可以是以目标源为维度,亦可以以目标表为维度建立任务,同时可对历史任务进行监测。三、项目上线后复盘总结1. 需求方面采集系统在理解前期,产品和研发考虑的点有所不同,导致原型、规则在评审后的开发初期有一些小的改动,不过整体需求上还算可以接受。2. 交互方面由于是B端的后台系统,一般会选用一套共用的的系统框架,因此在出具需求的过程中,只着重说明了需要注意的交互方式,一些共用的交互方式并未做过多的说明;因此在交互这多了很多的沟通成本。3. 项目执行整体进度还好,不过由于一些组件的提前打包定义,导致在开发过程中有些不能满足需求,耽搁了一些进度。4. 个人方面对数据仓库的了解和认识上有所提升,对SQL的学习也算是一次巩固,同时在做的过程中对自己以前遇到过的数据需求也有了一些新的思考思路和总结复盘。总之是收获满满。#专栏作家#简之箐(微信公众号:简之箐),人人都是产品经理专栏作家,5年互联网产品经理,曾担任医药产品经理和电商产品经理,经历主导过电商平台的系统整合规划。本文原创发布于人人都是产品经理。未经许可,禁止转载。题图来自 Pexels,基于 CC0 协议
大数据采集可以细分为数据抽取、数据清洗、数据集成、数据转换等过程,将分散、零乱、不统一的数据整合到一起,以一种结构化、可分析的形态加载到数据仓库中,从而为后续的数据使用奠定坚实基础。数据采集可以分为内部采集与外部采集两个方面。(1)离线数据采集技术,首先要是基于文件的数据采集系统、日志收集系统等,代表性的工具有Facebook公司开发的Scribe、Cloudera公司开发的Flume和Apache基金会支持的Chukwa等;其次是基于数据库和表的数据采集技术,基于数据库的数据采集系统中代表性工具有GoldenGate 公司的TMD、迪思杰公司而数据采集软件、IBM公司的CDC、MySQL支持的Binlog 采集工具等;在基于表的批量抽取软件中,广泛应用的是Sqoop和其他ETL工具。(2)开放API类,即数据源提供者开放的数据采集接口,可以用来软取限定的数据。在外部数据中,除了互联网数据采集技术,也有基于传感器应用的采集技术,这种技术在物联网中用得较多。此外,还有电信公司特有的探针技术,例如,我们在打电话、利用手机上网时,电信公司的路由器、交换机等设备中都会有数据交换,探针就是从这些设备上采集数据的技术。目前,数据抽取、清洗、转换面临的挑战在于∶数据源的多样性问题、数据的实时性问题、数据采集的可靠性问题、数据的杂乱性问题。这里要特别指出的是,通过采集系统得到的原始数据并不是干净的数据,大部分的数据都是带有重复、错误、缺失的所谓脏数据。实际上,数据科学家几乎80%的工作都是处理这些脏数据,可见由数据的杂乱性带来的麻烦是非常大的。因此,如何高效精准地处理好这些原始数据,也是大数据采集技术研究面临的重大挑战。以下我们来介绍两种数据采集工具。一、结构化数据采集工具在Hadoop大数据应用生态系统中,Sqoop作为Apache的顶级项目,主要用来在Hadoop和关系数据库之间传递数据。通过Sqoop可以方便地将数据从关系数据库导入HDFS、HBase或Hive中,或者将数据从HDFS 导出到关系数据库中。下图是Sqoop系统架构示意图。Sqoop系统架构示意图从理论上讲,支持JDBC的数据库都可以使用Sqoop和HDFS进行数据交互。Sqoop系统数据具有以下特点∶支持多种文件类型,支持数据追加、可以数据选取和压缩,支持Map数定制,支持将关系数据库中的数据导入Hive和HBase中。二、日志收集工具与技术企业每天都会产生大量的数据,这些数据将会被用来进行分析使用,我知道日志收集是大数据的基石,日志收集系统的最主要的特征是高可用、高扩展。1.日志收集日志收集模块需要使用一个分布式的、具有高可靠性和高可用性、能够处理海量日志数据的框架,并且应该能够支持多源采集和集中存储。Flume、Scribe使用比较广泛的日志收集系统。Flume是由Cloudera开发的一个分布式、高可靠性和高可用性的海量日志收集系统,支持在系统中定制各类数据发送方,用于收集数据;Flume的工作流程是先收集数据源的数据,再将数据发送到接收方。为了保证这个过程的可靠性,在发送到接收方之前,会先对数据进行缓存,等到数据真正到达接收方后,才会删除缓存的数据。2.数据分发工具KafkaFlume收集的数据和进行日志处理的系统之间可能存在多对多的关系,为了解耦和保证数据的传输延迟,可以选用Kafka作为消息中间层进行日志中转分发。Flume发送源数据流的速度不太稳定,有时快有时慢,当Flume 的数据流发送速度过快时,会导致下游的消费系统来不及处理,这样可能会丢弃一部分数据。Kafka在这两者之间可以扮演一个缓存的角色,而且数据是写入到磁盘上的,可保证在系统正常启动/关闭时不会丢失数据。Kafka是Apache开发的一个开源分布式消息订阅系统,该系统的设计目标是给实时数据处理提供一个统一、高吞吐量、低等待的平台。Kafka 提供了实时发布订阅的解决方案,克服了实时数据消费和更大数量级的数据量增长的问题,Kafka也支持Hadoop中的并行数据加载。下图是Kafka 的架构图。Kafka 的架构图 Kafka需要使用ZooKeeper(分布式应用管理框架)进行协调,从而保证系统的可用性,以及保存一些元数据ZooKeeper与Broker、Producer、Consumer之间是通过TCP协议进行通信的。Kafka的典型使用场景如下。(1)消息系统常规的消息系统,Kafka 是个不错的选择。分区、多复本和容错等机制可以使Kafka具有良好的扩展性和性能优势。Kafka只能作为常规的消息系统使用,并不能确保消息发送与接收绝对可靠。(2)网站活性跟踪Kafka可以将网页/用户操作等信息进行实时监控或者分析等。例如,各种形式的Web活动产生的大量数据,用户活动事件(如登录、访问页面、单击链接),社交网络活动(如喜欢、分享、评论),以及系统运行日志等,由于这些数据的高吞吐量(每秒百万级的消息),因此通常由日志收集系统和日志聚合系统来处理。这些传统方案可将日志数据传输给Hadoop来进行离线分析。但是,对于需要实时处理的系统,就需要其他工具的支持。(3)日志聚合系统Kafka的特性使它非常适合作为日志聚合系统,可以将操作日志批量、异步地发送到Kafka 集群中,而不是保存在本地或者数据库中。总之,Kafka是一个非常通用的系统,允许多个Producer和Consumer共享多个Topic。Flume发送数据、优化数据、集成Hadoop的安全特性。如果数据被多个系统消费,则建议使用Kafka;如果向Hadoop发送数据,则建议使用Flume。
一、电商大数据采集与监控系统适用于什么场景电商大数据采集与监控系统主要适用场景:电商低价监测、同行竞品监测、品牌商渠道价格管理等需求,通过系统进行:数据采集、数据清洗、数据分析、数据报表、数据通知等多项数据处理,从而实现自动化数据监测。电商数据采集与监控二、电商大数据采集与监控系统架构1、数据采集/数据抓取①采集平台电商平台:淘宝、天猫、拼多多、京东、苏宁易购、闲鱼、1688、叮咚买菜、每日优鲜等等药品线上平台:药师帮、药房网等②采集方式:指定品牌采集、关键词采集、指定链接,店铺采集③采集内容:商品分类、标题、品牌名、SKU、电脑端(PC)价、移动端(APP)价、促销活动、库存、销量、评价、商品主图、券后价、到手价等多个字段2、数据清洗①数据筛选:通过对采集数据的价格、销量、评论数等参数的设定,进行升序或降序排列分类②数据标签:对监控链接数据系统定义标签分类或甲方自定义标签分类③数据二次筛选:对采集错误的品牌数据信息,自定义辅助清洗3、数据分析①变动提示:对商品链接中的活动、主图、标题变化实时监控分析,生成异动报表②达到设定值分析:通过商品:价格、销量、评价、收藏等数据分析,对达到设定值的数据生成报表③价格异动:记录链接每次采集的价格,生成价格数据表,对异动价格进行报表记录4、数据报表①报表:通过链接中的SKU生成低价报表,异动通知三、电商大数据采集与监控系统适用场景1、在电商渠道秩序管理过程中,经常遇到如下问题:卖家经常低于价限定价格销售,影响其它卖家正常销售?卖家低价调整频繁,常常在下班或周未无人时低价,取证困难?卖家相互跟价严重,无法判断谁先低价?通知卖家低价调整后,卖家很快又改回去了,无法实时监测?卖家经常通过图片、描述变项低价?卖家经常把多个产品、通过款式区隔放在一个链中销售,变项低价,人工查看工作量巨大?2、系统解决方案可监测价格类型:PC价、APP价、满减赠券折后价、主图描述价等监测频次:24小时均可监测、最小时间段为每小时。可以单次监测,或以月度、周度周期性设置监测低价提值设置:限价设置:各SKU限价,促销期间的限价5.低价报表:分为及时报和系统报表,及时报为达到设定值系统,立即发送报表提醒;团队共享报表:可100人共享及时报表;四、电商大数据采集与监控系统展示电商数据采集电商数据监控数据采集数据采集系统

我要回帖

更多关于 大数据收集分析公司 的文章