Scrapy学习笔记

安装

pip install scrapy

基本启动命令

# 创建爬虫项目名称
scrapy startproject 项目名称
# 创建爬虫的名字
scrapy genspider 爬虫名字 域名
# 运行爬虫
scrapy crawl 爬虫名字

scrapy项目结构

项目结构

全局配置文件settings.py详解

  • 定义User-Agent

  USER_AGENT = ‘Mozilla/5.0’

  • 是否遵循robots协议,一定要设置为False

  ROBOTSTXT_OBEY = False

  • 最大并发量,默认为16

  CONCURRENT_REQUESTS = 32

  • 下载延迟时间

  DOWNLOAD_DELAY = 1

  • 请求头,此处也可以添加User-Agent

  DEFAULT_REQUEST_HEADERS={}

  • 项目管道,运行管道函数

  ITEM_PIPELINES={

  ’项目目录名.pipelines.类名’:300

}

创建爬虫项目步骤

  1. 新建项目 :scrapy startproject 项目名
  2. cd 项目文件夹
  3. 新建爬虫文件 :scrapy genspider 文件名 域名
  4. 明确目标(items.py)
  5. 写爬虫程序(文件名.py)
  6. 管道文件(pipelines.py)
  7. 全局配置(settings.py)
  8. 运行爬虫 :scrapy crawl 爬虫名
上一篇
下一篇