当前位置:首页 > 在线留言 >

python网络爬虫入门(一)——简单的博客爬虫

作者:曲靖市宁江木业有限公司 来源:www.ynnjmy.com 发布时间:2017-09-09 10:17:14

python网络爬虫入门(一)——简单的博客爬虫

最近,为了微信公众号的图文,采集软件,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去。但感觉一篇一篇的看实在是麻烦死了。想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选。不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的。


先把完整的代码贴上来,如果朋友们需要试验下,请先安装python相关环境,然后在复制粘贴保存,再按F5运行。

#导入urllib库,python访问网页必须库 import urllib #时间类库 import time #定义一个URL数组用来存放捕获的URL地址,也就是需要爬的文字地址路径 url = [''] * 50 #定义link变量,用来记录第几个URL地址 link = 1 #循环捕获博客目录第一页所有的文章链接,并下载 #定义con变量来存储urllib.urlopen打开韩寒博客的目录地址,特别注意下'+str(page)+',用来变化每一页目录地址的 con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read() #变量title用来存储con变量中找到

企业建站2800元起,携手武汉肥猫科技,做一个有见地的颜值派!更多优惠请戳:武汉网站优化 https://www.feimao666.com

  • 上一篇:PHP连接MYSQL数据库通用类
  • 下一篇:最后一页