前言

一直想学习scrapy这个爬虫框架,上学期实在很忙,寒假来临,终于有时间学习一下scrapy,第一次先介绍一下scrapy的简介和安装吧。

scrapy简介

Scrapy是一个使用Python语言(基于Twisted框架)编写的开源网络爬虫框架,目前由Scrapinghub Ltd维护。Scrapy简单易用、灵活易扩展、开发社区活跃,并且是跨平台的。在Linux、MaxOS以及Windows平台都可以使用。Scrapy应用程序也使用Python进行开发,目前可以支持Python2.7以及Python3.4+版本。

Scrapy安装

在任意操作系统下,可以使用pip安装Scrapy:

pip install scrapy

运行截图:
运行截图
为了确保Scrapy已成功安装,在Python中测试是否能导入Scrapy模块:
scrapy
然后在cmd或者shell中看是否能够执行scrapy这条命令:
scrapy2
如果通过了以上两项检测,说明Scrapy安装成功了。

Scrapy项目创建

方式一:cmd命令行或者shell创建
使用scrapy startproject 项目名命令:
通过cmd或者shell创价scrapy项目
在cmd窗口我们可以看到项目的地址,打开创建好的项目文件夹,可以看到下图的文件结构:
scrapy项目结构

文件/文件夹名称作用
spiders存放爬虫代码的目录
items.py存放Item类的文件,Item类可以理解为数据的中转类
middlewares.py中间层文件
piplines.py处理保存数据的模块
settings.pyscrapy项目的配置文件,对整个项目进行设置

方式二:使用pycharm创建scrapy项目
新创建一个Python项目:
新建python项目
配置项目Interpreter,选择python安装目录下的系统Interpreter:
配置项目
点击页面右侧的+号,搜索并添加scrapy的包:
搜索添加scrapy包
等待一会即可添加成功。然后打开pycharm的terminal:
terminal
输入scrapy startproject 目录名称就能创建scrapy项目目录:
创建scrapy项目

最后修改:2020 年 01 月 14 日
如果觉得我的文章对你有用,请随意赞赏