爬虫获取CSDN用户的排名

http://30daydo.com/article/185
 
这个是很简单的一个爬虫脚本。 我设置成每周运行一次,这样就可以监测自己的账号每周的排名情况。 还可以绘制成曲线图标,很直观的可以看出每周的排名变化: 
具体的python代码如下:
#Get your range of csdn
'''
http://30daydo.com
contact: weigesysu@qq.com
'''
import urllib2,re
import time
link='http://blog.csdn.net/[b]用户名[/b]/article/details/52858314'
user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"
header = {"User-Agent": user_agent}
req = urllib2.Request(link, headers=header)
resp = urllib2.urlopen(req)
content = resp.read()
#print content
p=re.compile(r'<li>排名:<span>第(\d+)名</span></li>')
result=p.findall(content)
print result[0]

today=time.strftime("%Y-%m-%d")
print today

f=open("data/csdn_range.txt",'a')
contents=today+'\t'+result[0]+'\n'
f.write(contents)
f.close()

只要把代码中的用户名改成你的csdn的用户名就可以了。
然后在linux或者windows设置每周一心一次,程序自动记录到csdn.txt这个文件里头。

5 个评论

楼主可以尝试用scrapy的xpath看看效果的差异
这么小的case需用动用scrapy么。。。。
哈哈哈,是我前期写scrapy的时候被Xpath搞得晕头转向,想看看有人具体使用xpath好学习一下
xpath你可以去学lxml, 这个是专门学xpath的,学会这个再去弄scrapy就容易懂很多。
OK。等我抽时间去吧这块学习一下。

要回复文章请先登录注册