前言
一直想学习scrapy这个爬虫框架,上学期实在很忙,寒假来临,终于有时间学习一下scrapy,第一次先介绍一下scrapy的简介和安装吧。
scrapy简介
Scrapy是一个使用Python语言(基于Twisted框架)编写的开源网络爬虫框架,目前由Scrapinghub Ltd维护。Scrapy简单易用、灵活易扩展、开发社区活跃,并且是跨平台的。在Linux、MaxOS以及Windows平台都可以使用。Scrapy应用程序也使用Python进行开发,目前可以支持Python2.7以及Python3.4+版本。
Scrapy安装
在任意操作系统下,可以使用pip安装Scrapy:
pip install scrapy
运行截图:
为了确保Scrapy已成功安装,在Python中测试是否能导入Scrapy模块:
然后在cmd或者shell中看是否能够执行scrapy这条命令:
如果通过了以上两项检测,说明Scrapy安装成功了。
Scrapy项目创建
方式一:cmd命令行或者shell创建
使用scrapy startproject 项目名命令:
在cmd窗口我们可以看到项目的地址,打开创建好的项目文件夹,可以看到下图的文件结构:
文件/文件夹名称 | 作用 |
---|---|
spiders | 存放爬虫代码的目录 |
items.py | 存放Item类的文件,Item类可以理解为数据的中转类 |
middlewares.py | 中间层文件 |
piplines.py | 处理保存数据的模块 |
settings.py | scrapy项目的配置文件,对整个项目进行设置 |
方式二:使用pycharm创建scrapy项目
新创建一个Python项目:
配置项目Interpreter,选择python安装目录下的系统Interpreter:
点击页面右侧的+号,搜索并添加scrapy的包:
等待一会即可添加成功。然后打开pycharm的terminal:
输入scrapy startproject 目录名称就能创建scrapy项目目录: