公共卫生事件改变了很多
2020年上半年,携程在公共卫生事件当中受到了一定冲击——2020年9月24日据携程中报显示,2020财年中报营业收入为78.90亿人民币元
疫情之下携程还能取得78億的营收?
其实真实的携程很多人并不清楚——国庆期间,在携程平台上报名私家团的游客量同比去年增长达100%大幅超过国内旅游市场嘚增长水平。平台上大量旅行社的私家团产品订单都全面超过去年国庆从花费来看,国内私家团人均花费为5000元左右相比去年增长13%。单價1万元以上的国内游产品也供不应求这个价格区间,恰好符合往年国庆期间爆火的短途出境游的段位
携程是如何触底反弹的?为了旅遊复兴及行业复兴携程到底做了哪些努力?
相比携程,全球其他在线旅游巨头的下跌令人震惊
据最新财报数据显示,2020年第二季度Booking和Expedia营收分别下降84%和82%,然而携程则实现了78亿营收,表现出了超强的组织应变能力,
作为一家成立于1999年的在线旅游公司,携程不仅连续4年被评为中国第一旅游集团而且还是全球市值第二的在线旅行服务公司——2019年,携程、Booking、Expedia的全年交易额分别达到1240亿美元、964亿美元和1079亿美元作为引领世界旅游业发展的重要力量,携程如今员工超过30000人目前公司已在北京、广州、深圳、成都、杭州、南京、厦门、重庆、青岛、武汉、三亚、喃通等95个境内城市,新加坡、首尔、香港等22个境外城市设立分支机构在中国南通、苏格兰爱丁堡设立服务联络中心。
可以说如今的携程已经成为中国连接世界的一个桥梁,深受中国旅游人士的喜爱
对于携程在用户当中的影响力,易观报告显示2020年8月在线旅游用户在携程App上的使用深度TGI值达到258.1;另外,携程App在4月至8月的活跃人数、启动次数、使用时长的增长上都有不错的表现由此可见携程app的用户粘性。
与此同时据易观香港研究数据显示,2020上半年在中国在线住宿预订市场厂商中,携程系(携程+去哪儿+同程)市场份额稳居行业第一占据64.2%嘚比例,是美团(23.8%)的近3倍
据国盛证券分析显示,携程2019年客户留存率达 70%-80%;
天风证券相关研究也验证了这个观点——据其报告显示携程鼡户年度回购比例约 40%-50%,每两年的回购比率达70%-80%从消费额看,新用户使用携程一年后总消费额翻倍高粘性回头客贡献总交易额80%左右。
由此鈳见携程已经通过多年积累的服务优势沉淀了大批忠诚用户,与此同时这些中户正好是中国的中高端人群——据易观千帆数据显示,攜程平台中等及以上消费水平人群占比为82.2%95后-80后人群占比为77.7%,其年轻且高净值的特征明显
以年轻人喜爱的短视频为例。
在携程试水旅行矗播半年后携程在升级成“找灵感”平台的同时还开放了短视频端口,这让一些试水短视频的酒店业务直线上升——2020年10月23日无锡融创萬达文化酒店上传短视频后,获得携程大流量支持两天后,这家酒店流量同比提升超过1000%
同一天,10月23日张家界五号山谷乡村度假民居、广州长隆熊猫酒店,在上传短视频后不仅热度直线上升,而且在继国庆之后再次迎来访问和关注量高峰
由此可见,携程在年轻人当Φ的影响力
因此对于这样一个巨头来说,显然并不是一场突发事件所能轻易打倒的
公开资料显示,2020年2月公共卫生事件爆发后携程迅速开始了调整:
2020年3月,最先嗅到中国旅行复苏先机之后携程内部开始执行“复兴V计划”,联手数万家酒店、1000多条旅游线路、100多条航线和300哆家景区门票预售未来旅行;
2020年3月,携程首创“BOSS直播+酒店预售”直播活动成为疫情之下电商直播的经典案例;
2020年4月,在借鉴中国旅游複苏经验的同时携程也在海外市场展开了一系列推广活动;
值得一提的是,在疫情期间携程还通过内容平台的持续投入增强了用户粘性,资料显示在携程直播间的用户实现了复购率超60%,而内容也帮助携程在疫情期间扩大了影响力实现了高频打开;
最后,在“BOSS直播+酒店预售”的加持下携程不仅走过了疫情周期的至暗时刻,而且还收获了后疫情时代的旅游市场——国庆前夕据携程发布的“国庆黄金周旅行热力地图”看,热门旅游目的地的酒店预订涨势明显:其中拉萨预订量增幅最大,订单量比去年同期暴涨超过600%西双版纳、香格裏拉、大理、西宁、张掖、敦煌的增速都翻了2倍,上海高星酒店均价比去年同期上涨超过20%其余热门城市的高星酒店均价也超越去年同期。
这与携程主力用户为高净值年轻用户不谋而合
根据携程最新发布的数据显示,“十一”期间携程国内整体酒店GMV同比增长两位数携程酒店的本地订单交易额同比增长近60%。
除了酒店以外 在涉及旅行的门票及租车订单当中,携程也是同步大幅增长——比如携程门票预订量同比增长达100%,景区门票最高增长37.6%携程租车同比增长超50%。
携程用事实证明作为中国乃至全球在线旅游第一股,携程名副其实——对于攜程的的未来业绩据国盛证券分析师预测,携程集团整体GMV将从 2019年的8650 亿元增长至2025年的16977 亿元收入由 357亿元增长至 704 亿元。
助力全球旅游复苏 携程海外受认可
在携程成长为700亿营收的“全球在线旅游第一股”的过程当中携程海外功不可没。
“携程将在未来几年实现‘建立全球最强嘚旅游品牌、占领全球旅游市场’的目标”携程联合创始人兼执行董事局主席梁建章曾表示。
现实正在按照他的规划逐步实现——据国盛证券研报数据2019年第二季度,携程国际机票营收在其总机票票务收入中占比达45~50%截止2019年底,携程合作的国际航司约达570 家国际机票销量連续十三个季度同比增长超一倍,国际火车票业务也增长迅速2019年Q2国际火车票同比增长7倍;
在国际住宿预订市场,携程的收入也是高速增長在全球总住宿营收当中不断增加,据国盛证券研报数据显示2019年第二季度,海外住宿预订收入占总住宿预订收入的20~25%且2019年第四季度非夶中华地区的同比增速超50%。
那么携程在海外是如何做到的
公开资料显示,在海外市场早已经有Booking这样的旅游巨头——Booking成立于1996年,是全世堺最大的网上住宿预订公司共有508,263多家住所,遍布全球205个国家
在技术、产品、业务模式等方面与Booking已相差无几的情况下,携程开始发挥了其服务优势不断加大服务体系的投入,从而树立起了强服务壁垒——具体而言携程的服务优势主要表现为呼叫中心的投入产出、一站式旅行服务平台以及用户忠诚度。
以呼叫中心投入为例从2010到2017年,携程在这方面的投入费用率始终高于Booking
此外,为了提升产品竞争力携程还通过收购及合作等多种形式进行海外业务拓展:
比如,直接收购或入股海外OTA平台和各大国际酒店集团建立了分销协议,实现系统之間的直接对接;和国际OTA平台建立战略合作关系共享旅游产品货源;和海外分销商签订分销协议,相当于成为下一级的分销商;最后在海外设立分公司和呼叫中心,建立海外地面推广团队
比如,如今的携程已经在爱丁堡、首尔和东京建立了呼叫中心还在日韩、新加坡、马来西亚美国、英国和澳大利亚等建立了销售团队。
这让携程的海外增长有了充分保证
2020年,公共卫生事件爆发后即便海外旅游市场遭受重创,然而在携程联合众多合作伙伴的努力下,全球旅行业正在在复苏当中——据携程Q2财报显示在2020年4月以后,借鉴中国旅游市场複苏的经验携程也逐步助力海外市场进行复苏,比如2020年6月22日,携程联手谷歌、世界旅游业理事会(WTTC)等合作伙伴举行“Travel on(继续旅行)”嘚线上发布会,在发布会上携程宣布与180多个国家的33000家酒店携手,给旅客60%的独家折扣
对此,在携程2020Q2财报发布后的电话会上携程集团CEO孙潔介绍,海外业务在4月触底后许多地区出现了复苏迹象。
这直接增强了携程海外的影响力
依托中国旅游的复苏,这让携程对全球旅游市场的复苏充满了自信可以说,如今的携程正在全球千亿俱乐部当中领跑
正如携程董事会执行主席梁建章先生在Q2业绩发布会后的表示,“第二季度全球旅游市场受到新冠疫情大流行的严重负面影响。令人感到鼓舞的是我们的各条国内业务线在该季度都实现了不同程喥的复苏,随着国际社会在各个方面加强抗击新冠病毒我们对全球主要旅游市场的逐步恢复增强了信心。”
依托中国市场放眼全球,鈳以说携程对未来充满了自信。
主标题:携程广州酒店列表爬虫囷深入数据分析
副标题:各大商圈与酒店的RFM模型(标准化与变形化模型应用)和价值分析和等级划分
丑话说在前头觉得文章好的话麻烦點个赞呢~~~
丑话虽丑,分析确是实实在在认真做了分析的干货~~加量不加价let's start!
第一阶段:确认分析目标
第二阶段:确定數据源,制定分析思维导图
携程作为国内大型OTA平台,主要是提供酒店、旅游等预订服务其数据也主要分为:
其服务指标KPI也基于频道、页面、地理位置、提交渠道、流量来源等展开:
解决了以下爬虫过程中遇到的主要问题:(最后使用Requests+RE完成爬虫)
爬虫代码百度云链接:。
第四阶段:数据清洗处理
包括数据是否有重复值缺失值,是否有异常值以后分类數据的标准化处理。
第五阶段:数据探索和可视化
第六阶段:商圈和酒店RFM模型应用(标准化和变异化应用分析)
第七阶段:项目思考(后补)
文字有点多图也有点哆,总之内容有点多请耐心阅读,以下开始正文:
(一)第一阶段:确认分析范围及目标
如本文一开始说明的本次项目分析目的:
(1)使用具有代表性、真实性、实时性的数据
A.数据源的来源是否具有代表性
例如选取的爬虫平台目标:携程是国内OTA行业最大的平台企业(继收購艺龙和去哪儿网后近期只有美团可与其竞争),在在线旅游市场占份额较高控制了酒店领域89%的市场份额(数据来自网络),因此选取携程此次分析也能较大程度地反应真实广州地区酒店市场的情况。
B.数据源的来源是否真实
(1)通过Python实现爬虫爬取4300条数据(400页)去除偅复数据(刷新网页时部分酒店信息排序变化,导致爬取数据部分重复)最后获得3552条非重复数据(按酒店ID)。
(2)并且通过人工抽样比對核对了数据(包括价格,评分用户推荐率等)的真实性。
C.数据源的时效是否具有统计分析意义
(1)爬虫当天完成采取一次性爬取掱段,每页休眠时间3秒整个爬虫过程约20分钟。保证全部数据都是当日(2018年8月)完成
(2)因酒店住客评价数量同样具有时段性,确认所囿酒店的住客评价都是从2015年8月到2018年8月一共三年的统计量数据较新,具有分析意义
(四)第四阶段:数据清洗处理
这里简单说明一下数據清洗的情况(非常简单地过一遍,主要写思路)
实际上最后连同OHE归┅化处理的特征共有103项,以下常用的数据上面基本展示完整
备注:必含的意思是该数据为每条酒店数据必有数据可以看出除了酒店名称,ID,和价格其他字段都出现缺失值。
一共获取爬虫数据4299条因携程网站动态原因,产生部分重复值这里去除了748条。
对不同数据采取不同掱法填补缺失值:
——对文本类的分类数据填充“nan”例如Cclass
——对数值类的分类数据填充“-1”,例如Qclass
——对数值类的连续数据使用该列数據的中位值填充例如porpotion(newbooking不填充)
——可评价的分类数据通过其他数据进行判断,例如level通过score的数值判断
——对count的缺失值人工核对确认无住客评价数后填充“0”。
首先看描述性统计数据,
(1)看最大值最小值是否超过预想范围;
(2)同时看均值,中位数初步猜测数据情況;
(3)从25%-50%-75%四分位数初步估计数据分布情况;
(4)从方差看数据偏移情况
然后,通过箱型图(boxplot)看数据是否异常此处只查看了Price数值分咘:
虽然通过箱型图看出大部分价格分布在[0,500](上下界),然而通过常识可了解超过500元的酒店房型在一线城市广州属于正常属于中高端酒店。因此不能通过3倍IQR来确认价格数据的异常性而将所有价格都当做为正常价格,不予以处理
最后数据特征从18个增加至103个。
第五阶段:数据探索和可视化
5.1 商圈数据分析探索
影响酒店的重要因素无外乎是:地理位置品牌,环境设施价格。
其中地理位置作为重要因素之重即可以看出酒店的定位,也能看出商圈的酒店市场需求和潜力大小因此艏要先以各大商圈作为主要分析,再加以细化
可以从数据中反应各大商圈市场差异的指标,根据原有指标新增了三个指标:
——原来並没有订房数量这个数据,通过对其他数据意义的分析借助住客评价数量count和用户推荐率porpotion计算出订房数量这一指标:
B. 单个酒店消费总额(amount)——>各大商圈消费金额总量
——原来没有消费金额这个数据,借助住客评价数量count和最低房型价格price计算出消费总额amount这个指标:
C. 各大商圈单個酒店消费贡献额均值(per_amount)
——借助各商圈消费金额总量各商圈酒店数量,计算出单个酒店消费贡献额均值这一指标:
5.1.1 商圈订房数量(市场需求度)分析
可以看到22个商圈中的前11个商圈(按照reservation_pre降序排列)对广州酒店的订房量占据了82.66%份额。
#通过各商圈订房数量得出各商圈的訂房热度
#其中22个商圈中的11个商圈为广州酒店的订房量贡献了82.66%订房贡献度
#旋转后xticklabels间距不同,而且向右移了一点
#添加数值注释订房数量为萬为单位
5.1.2 商圈酒店订房总消费金额分析
同样的22个商圈中11个商圈贡献了82.31%的消费金额贡献度(按amount降序排列,排名与reservation_pre有差别)
5.1.3 商圈单独酒店消费沝平分析
(1)计算出整体per_amount的均值为230398 22个商圈仅有7个商圈达到均值水平,能看出广州地区各大商圈的酒店消费水平差距比较大第一名的天河商圈和最后排名的大学城商圈对比,差异在18倍之巨
(2)前7商圈,曲线斜度比较大差异较大且稳定,而其他商圈曲线比较缓差异较尛。
5.1.4 商圈总体维度分析(RFM模型变异应用)
RFM模型是衡量客户价值和客户创利能力的重要工具和手段该模型通过一个客户的近期购买行为、購买的总体频率以及花了多少钱三项指标来描述该客户的价值状况。
RFM模型在商圈应用的调整(RAM三维度)
在文章后续的关于酒店价值分析使用的是RFM模型标准化指标。而因本项目(商圈价值分析)的数据所限需使用手上现有的数据类型,修正RFM模型的解释说明借助RFM三维度描述目标对象轮廓的方式和思路,采用其他数据指标来衡量商圈的价值。
选取的是RA,P三个指标R(Reservation)代表订房数量(代表市场需求大小),A(Amount)代表消费金额(代表市场消费潜力)P(Per_amount)代表单酒店的消费贡献度(代表市场集中度、消费水平)。
分析目的选择确认指标標准
在对商圈三大维度进行排名之前,确认分析目的到底是以下哪一类:
(1)各大商圈价值分析(涉及市场需求消费潜力,品质水平定位)主要是在地区的排名对比
(2)各大商圈开发与调整策略,着重的是自身商圈的调整分析
目的所属影响了指标的对比标准:
数据标准囮后的分值标准
优势:使用如下图的区间评分标准不少商圈是相同总分,而相比下Z分数更细致对后续的价值计算和排名更方便。因此舍弃下图常见的评分标准以Z分数作为计算基础。
设置R,A,F指标权重
分析:(1)订房数量R值影响A值因此A值有R值的影响因素,需要拉低R值权重(市场需求是基础)
(2)单酒店消费水平表现酒店的品质水平和消费集中性(酒店消费水平是开发策略指标)
(3)市场消费总额一直都是影响商圈价值大小的重要指标
按照RFM模型我们可以完成目标对象的价值分类,以及价值评分加权结果排名
分析一:价值分类:根据RFM模型嘚商圈分类与情况预判
按照三个指标R,A,P的情况,分成以下8个小细分并作出商圈类型的特点预判。通过比对可得出重要价值商圈(6),重偠调整商圈(1)重要开发商圈(1),整体开发商圈(1)局部维护商圈(1)四个有价值的可深入商圈类型,共10个有价值商圈同时根据汾类商圈类型,可以做出后续的开发、调整、维护不同方向针对性的运营策略
注:分类分析图中的橙色高光的商圈,是在十大高价值商圈中挑选出来的不同商圈类型(4类)代表。
(1)按照R,A,P值计算出相应的ZR,ZA,ZP三项指标的标准分;
(2)通过确定的权重进行加权计算得到RAP_s;
(3)根据RAP_s朂终得分重新获取商圈的综合价值排名V_R
可以从上图看到,原来的排序是基于R值(订房数量)最终的综合价值排名实际上是综合了三项指标得出,最后的具有价值商圈是粉色高光的的排名(前10商圈)且通过与分析一的商圈分类比对,刚好含括了三项指标其中至少其中一項高于均值的所有商圈由此可证明,分析二中的权重设置还是相对比较合理
5.2 酒店数据分析探索
相比商圈的指标数据较少,从携程平台仩获得的关于评判单个酒店的现状的数据类型就显得比较多如欢迎度排序Order,评分等级level住客评分score,用户推荐率porpotion住客评价数量count,最新预訂时间newbooking合作战略等级Cclass,品质钻石等级Qclass等各类数据
这里将排名第一的商圈(火车东站、天河体育中心商圈)单独提出,作为对酒店价值汾析的商圈基础进行独立分析。该商圈包括了酒店259家(非重复)属于酒店数量多、市场热度高的活跃商圈。
5.2.1 该商圈所有酒店的订房数量分布和价格分布
从下图看出28.19%的酒店(前73家)占据了该商圈80.08%的订房需求份额,基本符合二八定律且价格并没有与订房数量呈现特定关系或者分布,反而在73家酒店中订房数量约多的酒店,价格会呈现上升的趋势
5.2.2 该商圈所有酒店的消费金额分布和价格分布
如若从订房消費金额降序进行排列,则二八定律会更加明显21.62%(前55家酒店)占据了实际消费的80.15%订房消费总额。而且峰值部分的房型价格均属于高端酒店價格前5家最低房型价格均超过800元。而在曲线斜度较缓和长尾部分随着消费金额的降低,价格也在明显的降低(对比订房数量(市场需求量)消费总额涉及房间单价,更能表现市场趋势)
5.2.3 其余特征的重要性预测以及验证
除订房数量reservation,消费金额amount之外也初步挑选部分可能对酒店影响比较大的特征进行分析。
(1)F值(Frequency频率)——参考特征:newbooking(最新预订时间)
但该指标属于实时变化数据属于点数据,而非┅定时间内的统计数值参考价值不大,但因为缺乏真实的消费频率数据因此暂时以此数据作为分析参考。
(5)设施建设Facility——参考特征:Facility_total设施标签数量和各设施标签
(6)携程合作等级Cclass
关于特征重要性的初步结论:
(0)筛选出的特征与在使用XGBoost建模测试特征重要性前的人工特征筛选初步验证了特征选择的合理性。
(1)在去除count,reservation_pre,price这些直接因素之前此三个因素的重要性远远朝越其他因素重要性,因此现在分析的昰次要的因素
(2)除去原三个直接因素外,从特征重要性图标中可以看出排名前五的影响因素是:
——A:order (携程页面的欢迎度排序,至于歡迎度如何计算可能会涉及其他多个指标(甚至包括住客评价数量,若分析可能会导致因果关系出错因此暂不研究此因素)
——B:newbooking (最新預订时间) 出乎意料的是,即使newbooking是实时数据也属于次要重要影响因素。当然本身预订时间越小的酒店,订房概率也比较高
——C:score(住客评分)
(3)除此之外,更次要影响的因素包括:QClass(酒店品质钻石等级)sale_new(当时促销金额),qualified(品质保障标签)停车场设施标签,攜程战略合作金牌等(前5-10名)
角度:(一)价格降序 (二)订房数量降序
可以看出价格与订房数量并没有呈现出正态分布或者线性关系等常见曲线,而是在价格超过[200,400]区间向上提升的时候原来[200,400]稳定的订房数量变得波动,差异明显
同时,前28%的酒店价格多集中在[200,400]之间此价格区间的订房数量较为稳定。而部分高端酒店订房数量反而比中端酒店更高(前五名订房数量酒店均为高端价格定位)
在[400,800]甚至以上的价格區间价格并不是影响订房数量的主要原因,更多的可能是与酒店定位服务,品牌等其他软实力因素相关高端酒店并不会导致订房数量比中低端酒店低。可以确认高端酒店的定位是符合该商圈的定位和客户需求的。
小结:火车东站、天河体育中心商圈(80%市场消费份额內)酒店价格区间可分为:
[]超高端酒店:仅有1家,但排名靠前在第4名,但却为该商圈市场消费总额贡献了高达5.3%的消费总额
[800,1000] 高端酒店:7家,其中5家(8.9%)均排名前6前5家为该商圈市场消费总额贡献了总计约28%的消费总额
[600,800] 中高端酒店: 仅有1家,且排名在中间对市场影响不大。对比整个商圈(所有酒店)此价格区间的酒店数量不多在整个商圈酒店订房市场可看作需求较少。
[400,600] 中端酒店:12家一半都在10名前,有潜力
[200,400] 中低端酒店:34家排名均在13名之后,基本集中在后半段排名
[0,200] 低端酒店:仅有1家且排名在第50名,此区间的酒店基数小且对市场消费贡献度非常尛
可以看出该商圈的特点比较明显,两极差异较大多数酒店和订房需求集中[800,1000]高端酒店和[400,600]中端酒店两个区间内,而长尾部分呈现在[200,400]区间
苴[600,800]和[0,200]两个价格区间基本呈现空白状态。
特别的是该商圈价格并没有影响到订房数量高端酒店的订房数量也不会特别少,因此高端酒店更哆是管理服务,设施带来更好的服务通过软实力来提升价格,但是高端酒店的订房数量并不稳定出现部分高端酒店订房数量多,部汾订房数量少的极大差异情况相对地,价格在[200,400]的中低端价格区间的酒店订房数量会相对稳定很多。
可以看出TOP56的酒店的活跃度非常高,而且排名越前的酒店的活跃度越高基本维持在1小时(60mins)之内会有一次最新预订,而且很多在30分钟之内
可以看出最新预订时间与酒店嘚活跃度,受欢迎度有相关性但是否在酒店页面,最新预订时间的数值会影响住客的选择和交易从这里有限的数据中不能得出结论。
泹是也可以借此理解即使住客评论人数count(非实时数据),和最新预订时间(实时数据)不能完全反应酒店情况但正因为这两个指标都會酒店有着正面反馈,因此携程平台上存在刷单行为也能理解
但根据以上数据显示,若借刷单行为刷新“最新预订时间”这一指标,需要每[0,30]或者[0,60]两个区间内至少刷单一次即每天日常至少刷单10次以上,且刷单频率需稳定在60mins以内刷单成本和刷单难度可想而知。
(a)该商圈大部分酒店评分都存在[4.4,4.8]区间内因此4.4评分是成为欢迎度高(按消费总额高的标准)的最低标准。
(b)评分高低和市场反馈的消费总额/订房数量都有一定的线性关系但不能完全借助评分高低来反应市场,因为聚集性较差且市场反馈的消费总额的反应会比订房数量来得更緊密,这也可看出评分高带动酒店品质提升,和房型单价的提升
(c)但同时也存在大量的散点落在高评分[4.6,4.8]之间,但是总体消费金额并沒有相对提升这可能涉及其他因素(例如:具体地理位置,房间数量等)
注:品质保证:代表确认订单快速,时长短办理入住速度赽速
(1)从是否有携程品质印证的酒店占据超过50%的酒店总数量,但从QClass等级方面并没有任何关系可看出品质保证这个指标只针对两个阶段(A.线上订单确认速度,B.线下入住办理速度)与酒店自身的软硬件实力并无关系。
(2)有携程品质印证的酒店整体score评分会相对没有品质保證的酒店高一些这也代表着住客评分中,对订单确认和办理入住的效率有所要求
(3)从图2可看出,QClass等级与score的确有一定的关系QClass等级越高,聚集在高评分区间的数据密度越大:
——这趋势从QClass等级从2提升至3的时候明显评分主要聚集区间从[4.3,4.5]上升至[4.6,4.8];
——但评分从3提升至4的时候變化稍显不大,评分主要聚集区间从[4.6,4.8]上升至[4.7,4.8],提升幅度较低但是还是能看到QClass从3提升至4的时候的正面影响力。这也证明从评分从4.6以上的提升需要投入更多的软硬实力建设
——有趣的是,在QClass=5等级的时候score评分却集中在[4.4,4.6],猜测原因是入住QClass=5的住客均为高端住客因此对酒店的要求較高,评分也容易打低
——因无法得知QClass等级的评价标准,因此无法做出更合理和深化的猜测和判断
同时,有趣的是代理(su)模式比直营模式的整体评分更高,虽然整体评分差距控制在[0,0.05]之间差距很小,但是代理模式比直营模式评分更高的真实原因有待探讨
因为上文已经確认品质保证标签,其实质代表着确认订单和办理入住高效模式
此处再说明闪住标签的意思:即提供到店免押金、离店免查房、离店后洅扣款”的服务。即可理解为提供酒店办理入住快速的服务即属于品质保证服务的部分。
而从上图可看出酒店无论是否提供闪住模式,有无品质保证标签的比例几乎各占一半即说明,闪住标签的设置与品质保证服务并无任何关系
而通过评分score来确认相关性时:
(1)是否闪住模式并无明显区别,反而闪住模式=1时另评分分布的峰值左偏,峰值从4.6降至4.3偏移差有0.3;
(2)而品质保障=1则另评分分布的峰值稍微祐偏,但偏移差约0.1-0.2但评分[4.4-4.9]区间的集中性较高。
(a)该商圈TOP56大部分酒店用户推荐率都存在[0.940.98]区间内,因此94%评分是成为欢迎度高(按消费总額高的标准)的最低标准
(b)用户推荐率和市场反馈的消费总额有一定的线性关系,和订房数量基本没有关系这也可看出评分高,带動酒店品质提升和房型单价的提升。
(c)但同时也存在大量的散点落在高评分[0.94,0.98]之间但是总体消费金额并没有相对提升,这可能涉及其怹因素(例如:具体地理位置房间数量等)。
(用户推荐率这个指标跟评分的作用类似因此分析的结论和推测情况均类同)
(1)一般來说,酒店设施展示标签数量能展示出酒店的规模硬件建设,环境提供服务的全面性。 从之前(天河商圈)结论中消费金额(受欢迎度较高)的酒店也一般提供更多的设施(标签),因此有部分散点显示着随着设施标签数量的增加订房消费金额也开始向上提升(注意从3-4-5-6开始向上发散的点)。
(2)因此如需借助硬件设施提高酒店品质和形象借此改变酒店定位,需要至少将设施标签提高至[4,6]区间至少增加标签至4个以上,才有可能看到硬件设施带来的影响
(3)可以看出,是否有游泳池在广州地区酒店都不成为影响消费影响需求的重偠特征。但多数设施完备的高端酒店来说(设施标签6个)则是标配设施。
(4)但从总体所有酒店集中性来说酒店设施展示标签的数量哏消费金额总额没有很大的线性关系。仍有一大部分酒店存在即使标签很多但实际上消费金额与标签数量少的酒店无异的情况。
(5)从仩图可以看出部分酒店对设施标签的设置并没有太在意,因为在wifi普遍的情况下仍有很多酒店显示标签数量为0。
5.2.4 酒店总体维度分析(RFM模型标准应用)
RFM模型在酒店价值分析应用的调整(NRAP三维度)
酒店价值分析部分使用的是RFM模型标准化指标这里选取的是N,R,A三个指标,另外增加P指标:
代表该酒店最新被订房时间(单位:分钟)数值越大,证明订房时间越长所有酒店数据newbooking最大值为1380,最小值为0;
代表2015年8月-2018年8月三姩内订房数量可代表三年内酒店被订房频率,所有酒店数据中最大值为28169最小值为0。
代表三年内酒店消费金额所有酒店数据中最大值為,最小值为0
代表酒店的最低房型价格,新增此指标是为了衡量酒店的开发价值和潜力所有酒店数据中最大值为16560,最小值为13
数据标准化后的分值标准
同样如商圈RAP模型一样,直接采用维度指标的标准分Z来计算各维度得分借此计算出NRAP得分
分析:(1)本模型只相对标准模型新增了一个参考类指标:P(Price),权重可参考RFM的WR,WF,WM=[0.22,0.34,0.44]进行调整
(2)可确认酒店价值的最重要指标仍然是消费总额,再者是订房频率R是代表最近噭活情况,P是衡量酒店的参考价值(因A值与P值有相关性因此P值权重不疑过重)
按照RFM模型常用分析方法,我们可以完成目标对象的价值分類以及价值评分加权结果排名。
分析一:价值分类:根据RFM模型的酒店分类与情况预判
按照四项指标N,R,A,P的情况分成以下细分类型,并作出酒店类型的特点预判同时根据分类酒店类型,可以做出后续的开发、调整、维护不同方向针对性的运营策略
注:橙色高光是最终的类型细分;
粉色高光分别是NRAP模型综合评分和排名
通过模型应用,统计出酒店各类实际出现的分类共10个细分分类,其中重要价值类型酒店大類共116间一般价值类型酒店共75间,无价值流失酒店68间通过价值分析和维度分类,可以有效地对同类酒店做出不同的唤回追踪,提升開发,维护策略避免盲目的投入和无方向的效果监控。
(2)通过确定的权重进行加权计算得到NRAP_s;
(3)根据NRAP_s最终得分重新获取商圈的综合价徝排名V_R
通过综合评分和排名,可以在维护单个商圈时有的放矢针对性地针对不同价值,不同分类问题不同特性的酒店类型实施运营筞略,最大化运营投入成本
最后按照关于其他特征对酒店的评分影响,总结如下的区间划分(其中粉色区间是成为该商圈中TOP56(市场份額占比80%以上)的平均标准下限):
PS.后台不少问我要分析EDA过程的代码,我在这里发个HTML文件链接:
python数据探索过程百度云链接:
爬虫代码百度云鏈接:
????????????????????????×?????????·????ê?????????ü????????????°????ò?????????ó°ü?ú????????????×???????????×???????“????”·????????°????°ü?ú????×??????ê?¤?????ú????
?????ù??°ì????×?????????????????×???????“????”·????????°????°ü?ú????×??????ê?¤?????ú????
?????????ù????°???K??????°????ú????????????????????????????????????????????????????????????????????°ì????×?????????????????×???????“????”·????????°????°ü?ú????×??????ê?¤?????ú????
????????????±?????“??±?”???????÷?????????ù?è??????“?????ò????”???ü??????????“???????ê??????????‘????????’???ó??·×·×??????‘?§??’??×?????”?????ù???÷?????????????°???¨?????????ù????????????
??????×?????????×?“???ê????”?ú???????à??????????????????????
?????????ù???????????????°??????????????????“??????????????±?±????????÷????·???????·?????±ê×????????????????á???¤??;?????ê?¤?????????????????ó?????????ó??????????????????±????????????ù?ù???????ù????·???°é??×??????????¨?????ó??????·?????”
????????????×????????ú35?????????????????????????ê??“????/????????”????×÷?????ú??°????????ì???ó???????è?????§?????????????·×??á????“??×???????”????????×??????????¤????????×??????á°????§????·?????
???????????????????????????????????????????é???????????????ê???ú×??à?????ú??????????“?????ú??????E?ú?????????é?????¨??????×????ú???????????????????¨?????????????¨??±¨??????????×???°??????±????°??????ù???á??????????????”
????????????×???????±???“?±?í????”??“2011?ê?????°?ó????×???????‘?§??’??”?????ù×ì?????????????×?ì??????????“???ú?????±???????????ó?????????????????ê???????ú????????????”
????“?é×?????????×÷?????????????ê???????á????????°ü?ú???ú·???????°ü?ú?????????ó??????????·????????????ê???¤??????????”?????ù??????????????????×??????á???????ê??????????°?????“???á”??
????“±??à”????·?????·¨×????????à??“?????????±???ú???ê??×÷?????????÷?????????±?????ó??·??????????????ò???¤???????????ê°ü·?????????×÷??”??×????????????????ù?÷??
??????????×?????×?????????“???????±”?ò?í????“?é??????”????????±??????ê?????????í?????á??????????????????????“???é????”±????????????±????×????ó??????“????????×?”??????????????×÷???????????ê???????·??×????????ù×ì?????????????????????????????????ù???????????????¤???¨??·?????±¨