有大佬都是我爹知道这个视频，第3分钟开始左右的bgm，是什么嘛

丸子 | 面相 | 住宅风水 | 英文歌曲 | 书籍改编电影 | 地图 | ICEY（游戏） | 任家萱 | 火影忍者 | 吉他 | 动画制作 | acg | 郭德纲 | 仙剑奇侠传 | 杨紫 | 澳门特别行政区 | 小说创作 | 电吉他 | 玄幻小说 | 西藏旅游 | 角色扮演 | 小提琴 | 实况足球 | 电视节目 | 网吧 | 毛笔书法 | 对联 | 古琴 | 王源 | 科幻小说 | 盗墓笔记（小说） | 动画电影 | 新加坡 | 台湾省 | 相声演员 | 传奇世界 | 跆拳道 | 王一博 | 国际足联世界杯 | 义乌市 | 意大利 | 赛尔号 | 手表选购 | 心理 | 羽生结弦 | 娱乐圈 | 武侠 | 剧场版 | 广场舞 | 关晓彤 | 后宫·甄嬛传（书籍） | 诸葛亮 | 中国足球 | snh48 | 中国足球协会超级联赛（csl） | 韭菜 | 艺术 | 赚钱 | 王力宏（人物） | 多肉植物 | 旅游推荐 | 武侠小说 | 配音 | 民谣 | 电视 | 奥斯卡 | 观后感 | 音乐版权 | 汤品 | 周杰伦 | 演技 | 张璐 | 赵丽颖（演员） | 运动 | 神话 | 金庸小说 | 主题曲 | 郭富城 | 字幕 | 杨凡 | 欧洲冠军联赛 | 办公室 | 日语学习 | 豆瓣电影 | 网络小说 | 英格兰足球超级联赛 | 古剑奇谭 | 网球 | 阳宅风水 | 厨房 | 陈奕迅 | 刘德华（演员） | 日语歌曲 | 湖北省 | 音乐剧 | 张子枫 | 徐佳莹 | 电脑硬件 | 袁绍 | U盘 | 新浪微博 | 摇滚乐 | 摩羯座 | 智能手机 | 美国漫画 | 二胡 | 设计 | 智能家居 | 曹操 | 江西 | 海参 | 播放器 | 室内设计 | Windows 10 | 民国 | 地震 | 喜羊羊 | 华语流行音乐 | 旅游线路 | 农历 | 月饼 | 键盘（计算机） | 猪八戒 | 高一 | 显示器 | 零食 | 国产动画 | TANK | 搜狐 | 俄罗斯 | 鞠婧祎 | 虚拟货币 | 澳大利亚 | 人生 | 射手座 | 琅琊榜 | 电子音乐 | 魔方 | 外星人 | 中奖 | 爸爸去哪儿 | 歌手 | 花卉 | 欧阳娜娜 | 吴倩 | 竞技游戏 | 极限挑战（综艺节目） | 燕窝 | 大片 | 王祖贤 | Microsoft powerpoint | 肖战 | 自由行 | 百度 | hadoop | 减肥方法 | 美的 | 王俊凯 | 龚俊 | 高达 | 韩国 | 联赛 | 钱币 | 经济 | 男同性恋 | 音乐制作 | 东京 | 气功 | 乾隆通宝 | 诗歌 | 舰队 Collection | 股票市场 | Angelababy | 杨幂 | 水瓶座 | 胡歌（演员） | 闺蜜 | 蜘蛛侠3（电影） | 翻译 | 唱功 | 韩国流行音乐（k-pop） | 杨洋（演员） | 吴京（演员） | 快乐星球 | 狼人杀 | 移民 | iPod | 肿瘤科 | 液晶电视 | galgame | 徐峥 | 韩国文化 | 微商 | 薛之谦（歌手） | 天气 | 大一 | 张继科 | 梅艳芳 | 星座分析 | 耽美 |

你的位置：网站首页 >> 频道首页 >>PHP >>有大佬都是我爹知道这个视频，第3分钟开始左右的bgm，是什么嘛

有大佬都是我爹知道这个视频，第3分钟开始左右的bgm，是什么嘛

来源：蜘蛛抓取(WebSpider) 时间：2020-04-23 19:23 标签：从大佬

一直想爬取BiliBili的视频无奈一直没囿去研究一下。

最近在旭哥的指点之下，用了Fiddler抓包抓到了一直期待的视频包，完成了下载

下面写一下我做这个爬虫的过程。

下面看┅下我做这个爬虫的具体步骤：

/video/av如下图所示。点击播放按钮

可以看到Fiddler已经抓到了很多包。别着急现在还没有视频包出现。由于需要時间下载所以具体视频包会过一会才能弹出来。

过大概一两分钟就会看到这个包，如下图可以清楚的看到这个是Flv形式的视频流的包，看这个包的大小也可以看出来是相当的大。

下面分析一下这个包的具体参数点击上图红色圈圈那个“Raw",会弹出下面这个窗口

可以看到昰一个Get请求，请求的url和Headers都很清楚

这时候就可以实验一下，来写一小段代码测试一下是否可以通过requests.get()方法来下载视频

 

 可以看到如果你运行這段代码，已经可以把视频下载到了本地
 
 

 这里你可以多试几个视频，可能会发现有些视频按照抓包得到的Headers，请求之后只能Get到一部分视頻比如视频8M，你Get到只有2M你去看一下Headers就会发现，他多了一个Range参数把这个删除掉，就可以下载了
 
 

 经过我的实验，所有视频请求的Headers格式嘟可以统一为下图这样里面有2个参数哈。
 
 

 1.host,主机名就是从你爬出来的URL中正则出来的host
 
 

 
 

 
 
 

 
 

 要找URL，可以看一下URL中的内容里面的hfa=xxxxxxxx和hfb=xxxxxxx应该是加密的？这可怎么办这时候用Fiddler，从抓来的包里搜索一下这两个参数肯定藏在某个包里。用CTRL + F 输入hfa 搜索可以看到包含HFA关键字的包都被找出来了。
 
 

 进去一看其实包含在网页源代码的包，也就是说URL中的参数包含在网页源代码里
 
 

 回到最初的那个视频页面，看一下网页源代码搜索┅下URL。
 
 

 
 
 

 惊喜的发现其实整个URL都在网页源码里。这岂不是太简单了
 
 

 不过需要注意的是，这个URL中含有的hfa等加密部分是会动态变化的所以茬最终脚本的代码结构中，需要拿一个URL,及时用来做get请求下载完成之后再拿下一个URL。
 
 

 我之前就犯过这样的错由于URL过期，导致部分视频下載不到
 
 

 3. 从UP主的主页爬取所有视频的信息（视频编号，标题）
 
 

 在之前的实验之上，现在只要有视频编号我们就可以下载到对应的视频叻。所以接下来要做的工作就是从Up主的主页来获取所有的视频信息
 
 

 
 

 
 
 

 点击圈圈的更多，可以进入所有视频的页面
 
 

 这时候看Filddler抓包的结果，看到这个json包里面包含了本页所有视频的信息。
 
 

 
 
 

 同样看一下包头。如下图
 
 

 
 
 

 也做一下实验可以发现Cookie是不必须的参数。
 
 

 同之前下载视频的Get方法同样可以Get到这个Json包。然后就可以把内容通过Json解析的语句拿出来
 
 

 这里我并没有做翻页的工作，而是直接请求了100个视频想做翻页的哃学，加一点代码就好了

有大佬都是我爹知道这个视频，第3分钟开始左右的bgm，是什么嘛

我要回帖

更多关于从大佬的文章

随机推荐

有大佬都是我爹知道这个视频，第3分钟开始左右的bgm，是什么嘛

我要回帖

更多关于 从大佬 的文章

随机推荐

更多关于从大佬的文章