如何确实判断一个人是不是渣男gay呢?比如一个段子或者是一些手势之类的!比如 糗事百科 一说 天王盖地虎

已收藏本页面
刚看到一个段子:一人约女神出来啪啪啪,完事后问女神怎样?女神只说了句“赵子龙”,他一直不明白什么意思?LZ忽然就想起了赵子龙七进七出的故事,立刻就创造了一个歇后语:赵子龙七进七出一一稀快。你们说对吗?
你可能喜欢的图片笑话
最受欢迎的爆笑笑话
扫码下载糗事百科app已收藏本页面
看到一个段子,说一个人去KTV,叫陪酒的,并且说~会喝酒的出去,老子买的酒还不够给你们喝的!”今天lz去酒吧,来个几个妹子,也脑残的说了句,会喝酒的可以走了!结果都走了,是几个意思!不怎么不按套路出牌啊…
你可能喜欢的图片笑话
最受欢迎的爆笑笑话
扫码下载糗事百科app已收藏本页面
为毛啥都能过,浪费流量!有些段子根本就不是什么段子,晒个脸晒个钞票晒个娃晒个车啥就过了……糗百已经不是我心中的那个糗百了,同意的举手
你是哪里的?
回复 31楼:我不是邹城的
大美女邹城哪的,认识一下
单肩的诱惑
棺材第一次看到你发帖,必须顶一个
对滴!在龙湾
回复 26楼:所以才能通过啊,这不就说明了我说的对吗
你不也一样在晒!
回复 24楼:你也温州的吗?
撸主温州哪里的?
我去,双飞的节奏啊!叫上我4P吧!
好吧!好吧!(∩_∩)
回复 15楼:答对
回复 17楼:就一个肩膀而已
回复 16楼:不是啊,可是就是通过了啊,被我说中了
呵呵,特意翻看了楼主的糗事,难道楼主没发现你说的就是自己吗?
你确定你这晒身子晒脸过的也叫段子??说别人之前先想想自己吧
你这叫段子
目测体重比我重
那是国庆期间拍的
回复10L:好吧,虽然照片里还是艳阳高照,但是现在我看着也感觉好冷啊
回复 5楼:只能顺应民意了,这就是赤裸裸的现实
回复 5楼:我造次你怎么看到呢,怎么会通过呢
回复 9楼:我喜欢,那衣服款式就是露一边肩膀的
为何要把肩膀露出来
回复 7楼:顶起
回复 1楼:遮了一大半啦,哈哈哈
同意你的观点,但是你也在造次!
挺好的妹子
怎么什么都能过
那你不也在晒脸?
你可能喜欢的图片笑话
最受欢迎的爆笑笑话
扫码下载糗事百科app3692人阅读
network(5)
在网络上看到有介绍python爬虫爬去糗事百科段子的文章,觉得还挺好玩的,所以照着文章的思路自己重新实现了代码,完成了一个小小的爬虫爬取数据的例子。
1.抓取页面的源码
首先我们确定好页面的URL是 ,其中最后一个数字1代表页数,我们可以传入不同的值来获得某一页的段子内容。
首先来一段基本的页面抓取代码
def base_test():
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
request = urllib2.Request(url)
response = urllib2.urlopen(request)
except urllib2.URLError,e:
if hasattr(e, "code"):
print e.code
if hasattr(e,"reason"):
print e.reason
base_test()
运行以后,代码坑坑报了一堆错:
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/httplib.py", line 453, in begin
version, status, reason = self._read_status()
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/httplib.py", line 417, in _read_status
raise BadStatusLine(line)
httplib.BadStatusLine: ''
根据上面报的错,应该是header的原因。把header加上吧:
def base_test():
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 ( MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(url,headers=headers)
response = urllib2.urlopen(request)
print response.read()
except urllib2.URLError,e:
if hasattr(e, "code"):
print e.code
if hasattr(e,"reason"):
print e.reason
base_test()
运行代码,这次OK了,成功显示出来第一页的html代码,如下:
&!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"&
xmlns="http://www.w3.org/1999/xhtml"&
http-equiv="Content-Type" content="text/ charset=utf-8"/&
http-equiv="X-UA-Compatible" content="chrome=1,IE=edge"&
name="renderer" content="webkit"/&
name="applicable-device" content="pc"&
后面还有很多内容,就不全贴了。
3.提取段子
为了方便查看网页的html代码,我们在页面任意位置右击,选择查看源代码,然后以某一个段子为例,看看他的html结构:
假设我们的目的是提取:1.段子的作者;2.段子的内容; 3.段子的点评数。对于第一个目的,被h2标签包围的就是作者,被div class=”content”包围的是具体内容,被i class=”number”包围的是点评数量。
采用正则的方式,可以分别将以上我们感兴趣的内容提取出来:
def parse_html():
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 ( MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read().decode('utf-8')
pattern_author = re.compile(u'&h2&(.*?)&/h2&',re.S)
pattern_content = re.compile(u'&div class="content"&(.*?)&/div&',re.S)
pattern_comment = re.compile(u'&i class="number"&(\d*)&/i&\s*评论',re.S)
find_author = re.findall(pattern_author,content)
find_content = re.findall(pattern_content,content)
find_comment = re.findall(pattern_comment,content)
if find_author:
for i in xrange(len(find_author)):
result = str(i)+" "+find_author[i]+" "+find_content[i]+" "+str(find_comment[i])
print result
except urllib2.URLError, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
parse_html()
如果对正则不是很熟的同学,可以参考以下:
1. “.”是通配符,”*”表示匹配0次或任意次,”?”表示非贪婪匹配,.*?组合在一起则表示尽可能短地做匹配。
2. (.*?)代表一个分组,或者说一个捕获组。
3. re.S 标志代表在匹配时为点任意匹配模式,点 . 也可以代表换行符。
上面我们通过三个正则表达式分别找出了发帖人,内容以及点评数。
让代码运行起来:
真事!昨天公司组织开会。领导说带好你们吃饭的家伙到办公室集合。结果到办公室一看同事们都带着笔记本。而我特么却拿了一个碗。
不愧是母女仨儿
2 onepiece美凌格
最近好多人来这个贴左下,为了方便大家我再发一次&br/&专捉小人,速速左下让小人远离你!
4.修改正则,使结果更美观
观察上面结果,再结合之前的html源码,发现结果不是很美观,主要是由于空格与换行符引起的。为此,我们修改一下代码:
def parse_html():
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 ( MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read().decode('utf-8')
pattern_author = re.compile(u'&h2&(.*?)\s*&/h2&',re.S)
pattern_content = re.compile(u'&div class="content"&\s*(.*?)\s*&/div&',re.S)
pattern_comment = re.compile(u'&i class="number"&(\d*)&/i&\s*评论',re.S)
find_author = re.findall(pattern_author,content)
find_content = re.findall(pattern_content,content)
find_comment = re.findall(pattern_comment,content)
if find_author:
for i in xrange(len(find_author)):
content= find_content[i].replace("&br/&",",")
result = str(i)+" "+find_author[i]+" "++" "+str(find_comment[i])
print result
except urllib2.URLError, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
parse_html()
改动主要有两处:
1.将匹配处的空格去除,不在捕获组里。
2.将内容中的br换行标签去除。
最后的结果:
这样就比较清晰了。怎么样,很酷吧!
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:1383422次
积分:13090
积分:13090
排名:第1209名
原创:310篇
转载:98篇
评论:150条
(7)(16)(10)(5)(13)(12)(5)(6)(16)(9)(24)(11)(5)(9)(20)(14)(9)(21)(38)(25)(37)(46)(51)

我要回帖

更多关于 是不是一个人太久了 的文章

 

随机推荐