博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy框架的每个模块的用途
阅读量:5369 次
发布时间:2019-06-15

本文共 508 字,大约阅读时间需要 1 分钟。

## 一、scrapy框架的每个模块的用途

1、spiders:
自定义爬虫
定义允许爬取的范围
定义开始爬取的url
parse:一定要重写
start_request:一般不需要重写,可以通过重写start_request进行模拟登陆
2、items
1)定义爬取的items域,是一个类字典的一个对象
如果在爬虫中定义了其他其他的键,即超过item的爬取范围,那么就会报错
2)其实可以通过在spider中定义一个空的字典来存储爬取的信息
3、middlewares:
主要是对请求request进行处理:process_request
如:添加随机user-agent,添加代理ip
注意:要在setting里面打开middlewares,否则无法调用其中的函数
4、pipeline:
主要功能是对Items进行存储
如:可存储在磁盘或者数据库
5、settings:
主要是定义一些全局变量或者公共变量,
可以在其他模块中获取所需要的settings变量

 

各个模块间参数的传递如下:

 

 

转载于:https://www.cnblogs.com/Dark-fire-liehuo/p/10078656.html

你可能感兴趣的文章
zabbix端口监控
查看>>
算法笔记_152:算法提高 扶老奶奶过街(Java)
查看>>
Android-NDK处理用户交互事件
查看>>
python lession 5 -- exception --
查看>>
Modelsim SE 仿真 ALTERA FPGA IP
查看>>
个人中心标签页导航
查看>>
HTTP_CLIENT_IP、HTTP_X_FORWARDED_FOR、REMOTE_ADDR
查看>>
概率统计:数学期望、方差、协方差、相关系数、矩
查看>>
WPF入门教程系列十一——依赖属性(一)
查看>>
新写了XmlFile类
查看>>
微信小程序跳转navigateTo与redirectTo
查看>>
一个大坑
查看>>
Java + Selenium + Appium手机自动化测试
查看>>
UITextView (转)
查看>>
工厂模式
查看>>
[机器学习]-[数据预处理]-中心化 缩放 KNN(二)
查看>>
iPhone 6和iPhone 6 plus的AV Foundation框架特性
查看>>
Yii2 配置发送邮件
查看>>
javabean
查看>>
constraint的一些用法总结
查看>>