一 配置文件scrapy.cfg
1 全局配置文件路径 盘符: ... \scrapy\scrapy
2 项目配置文件
配置文件的优先级别: 用户定义的配置文件优先级别高于系统范围的默认值.
二 创建醒目的基本命令
scrapy startproject myproject #创建项目cd myproject #进入项目根目录scrapy genspider mydomain mydomain.com #创建爬虫文件scrapy crawl mydomain #启动爬虫文件
三 命令分类
全局命令
#创建项目
#创建爬虫文件
#查看配置信息
#启动某爬虫文件
#启动爬虫shell交互界面
#爬取某网页
#网页查看爬取数据
#查看爬虫版本
仅限项目的命令:
#启动爬虫文件
#爬虫语法检测
#查看爬虫列表
#编辑爬虫文件
#解析某网页
四 用法示例
$ scrapy list #查看爬虫列表spider1spider2$ scrapy edit spider1 #编辑爬虫文件$ scrapy view http://www.example.com/some/page.html #网页打开请求页面源码$ scrapy shell [url] #启动shell$ scrapy parse http://www.example.com/ -c parse_item$ scrapy settings --get DOWNLOAD_DELAY$ scrapy runspider myspider.py #启动指定爬虫文件$ scrapy version [-v] #查看爬虫版本