python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python的Scrapy框架

Python的Scrapy框架基本使用详解

作者:凌冰_

这篇文章主要介绍了Python的Scrapy框架基本使用详解,Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据,Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试,需要的朋友可以参考下

一、Scrapy框架使用

1. 创建scrapy项目

(不能有汉字,不能数字开头)

scrapy startproject Baidu

2. 创建爬虫文件

cd Baidu
scrapy  genspider wenda www.baidu.com

注意: parse()是执行了start_url之后要执行的方法,方法中的response就是返回的对象。相当于response = requests.get或requests.post

3. 运行爬虫代码

scrapy crawl wenda

在parse()函数打印一句话,运行后发现没有打印结果,原因是被一个叫robots.txt的文件给阻止了。

解决:大平台的君子协议,只需在settings里将ROBOTSTXT_OBEY = True注释掉即可。

再次运行 

 4. scrapy文档

scrapy官网:https://scrapy.org/ 

scrapy文档:https://doc.scrapy.org/en/latest/intro/tutorial.html 

scrapy日志:https://docs.scrapy.org/en/latest/news.html

 二、scrapy项目的结构

四、response的属性和方法

五、scrapy工作原理

  1. 引擎向spiders要url
  2. 引擎将要爬取的url给调度器
  3. 调度器会将url生成请求对象放入到指定的队列中
  4. 从队列中出队一个请求
  5. 引擎将请求交给下载器处理
  6. 下载器发送请求获取互联网数据
  7. 下载器将数据返回给引擎
  8. 引擎将数据再次给spiders
  9. spiders通过xpath解析该数据,得到数据或url
  10. spiders将数据或url给到引擎
  11. 引擎判断是数据还是url,若是数据,交给管道处理;若是url,交给调度器处理

到此这篇关于Python的Scrapy框架基本使用详解的文章就介绍到这了,更多相关Python的Scrapy框架内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
阅读全文