安装
pip install scrapy
基本启动命令
# 创建爬虫项目名称
scrapy startproject 项目名称
# 创建爬虫的名字
scrapy genspider 爬虫名字 域名
# 运行爬虫
scrapy crawl 爬虫名字
scrapy项目结构

全局配置文件settings.py详解
- 定义User-Agent
USER_AGENT = ‘Mozilla/5.0’
- 是否遵循robots协议,一定要设置为False
ROBOTSTXT_OBEY = False
- 最大并发量,默认为16
CONCURRENT_REQUESTS = 32
- 下载延迟时间
DOWNLOAD_DELAY = 1
- 请求头,此处也可以添加User-Agent
DEFAULT_REQUEST_HEADERS={}
- 项目管道,运行管道函数
ITEM_PIPELINES={
’项目目录名.pipelines.类名’:300
}
创建爬虫项目步骤
- 新建项目 :scrapy startproject 项目名
- cd 项目文件夹
- 新建爬虫文件 :scrapy genspider 文件名 域名
- 明确目标(items.py)
- 写爬虫程序(文件名.py)
- 管道文件(pipelines.py)
- 全局配置(settings.py)
- 运行爬虫 :scrapy crawl 爬虫名

