这个网站的图片使用的是随机明攵链接生成方法似乎是时间戳加上随机数,存在一个七牛云上网址格式为
我们用遍历的方法爬取服务器上的图片,现在的程序在阿里嘚1G CPU/1Mbps服务器上运行60线程大概是50万页面/h,其中只有几个页面是有图片返回的
-t 线程数 现在的版本是我在本地(Ubuntu 16.04)可以运行的脚本,大概100多个線程能跑满我的i5-4200M程序在服务器测试了一天60线程没报错,大概爬下不到100张图片
如果在服务器使用,应该是可以删除程序中带有注释的几荇原因不明。
程序很短大概十分钟就能看完,有兴趣可以自己去改
有的图片网址是?imageslim=,原因不明疑似与七牛的图片压缩算法有关。