目录

win10-python安装及环境配置scrapy框架安装及PyCharm集成

win10 python安装及环境配置、scrapy框架安装及PyCharm集成

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的Python应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

Scrapy安装环境必备项:python、pip工具、wheel模块、lxml模块、twisted模块、pyOpenSSL模块(需要OpenSSL)、scrapy模块

1、pip是一个安装和管理 Python 包的工具

2、wheel本质上是一个 zip 包格式,用于 python 模块的安装、模块的发布

3、lxml是python中处理xml的一个非常强大的库,可以非常方便的解析和生成xml文件

4、twisted是用Python实现的基于事件驱动的网络引擎框架。

5、pyOpenSSL是python的密码库(OpenSSL 是一个安全套接字层密码库)

接下来我们看看这些工具如何安装。

一、基础安装

1、python开发环境搭建

1)python安装

python编译工具官网的地址为: ,下载好工具点击运行安装即可。

2)python环境配置

安装成功后在 “环境变量”-》“path”中将python安装目录和安装目录下的Scripts文件夹放入即可(如:在path环境变量中设置如下内容:C:\Program Files (x86)\Python36-32\Scripts;C:\Program Files (x86)\Python36-32\)

3)python开发工具安装及配置

python 常用的IDE开发工具是PyCharm,其下载网址是: ,在改地址下载安装即可。

安装好后,PyCharm工具的python环境配置如下,File-》settings打开配置窗口,按如下图配置即可

https://i-blog.csdnimg.cn/blog_migrate/56533efa79a1c92344310d3ec95c4309.png

2、pip工具

python安装包里默认包含了pip工具。

由于本人使用的python版本是3.6的,其pip工具的版本是9.0.3,使用时会提示需要更新pip(如下图)

https://i-blog.csdnimg.cn/blog_migrate/4e14d7b64fe588c4d2eb76669cbb46ea.png

所以输入提示更新命令

python -m pip install -upgrade pip

输出如下:

https://i-blog.csdnimg.cn/blog_migrate/9e95e2a07c6dd0b0bbecc2b30e62c095.jpeg

3、wheel模块

wheel模块安装,使用指令

pip3 install wheel

输出如下:

https://i-blog.csdnimg.cn/blog_migrate/f9628f00e2287e109f97371b8498a677.jpeg

4、lxml模块

lxml模块,用命令 pip3 install lxml 安装,会提示缺少包的错误,因此该模块安装需要采取使用本地.whl文件,安装,该文件可以在 下载。本人python版本是V3.6.5 32位的,因此选择了 lxml‑4.2.1‑cp36‑cp36m‑win32.whl,如下图

https://i-blog.csdnimg.cn/blog_migrate/b95e1299fd18521fc928b04136a4e9c2.png

执行如下命令,安装lxml模块

pip3 install lxml-4.2.1-cp36-cp36m-win32.whl

命令执行结果如下:

https://i-blog.csdnimg.cn/blog_migrate/05eca0afceac95c0bb66567b23cb1b0b.jpeg

5、pyOpenSSL模块

pyOpenSSL安装前需要先安装了OpenSSL库,window未集成OpenSSL库,所以需要下载并且安装。

1)OpenSSL安装

下载地址: ,本人下载的是 Win32 OpenSSL v1.1.0h该版本(如下图)

https://i-blog.csdnimg.cn/blog_migrate/3e62dba27074a0c553ea33c718d67dff.png

该安装包需要VC2008以上的库支持,本人有vs2017,可以通过vs2017安装包,自选如下组件,

https://i-blog.csdnimg.cn/blog_migrate/3d05708aa2263831a1bc9edcdc191c2a.png

2)pyOpenSSL安装

输入命令进行安装

pip3 install pyOpenSSL

安装结果如下图:

https://i-blog.csdnimg.cn/blog_migrate/4da184f2fc50af52b8d3889f804103c6.jpeg

安装完成后,进入python,import OpenSSL没错误报错误,则成功。如下图验证

https://i-blog.csdnimg.cn/blog_migrate/acfd8b5b39bc8fba57380f4bc6889b55.jpeg

6、twisted安装

twisted模块依赖PyOpenSSL、Zope.Interface、PyWin32,使用pip命令安装即可

#安装Zope.Interface
pip3 install zope.interface
#安装PyWin32
pip3 install PyWin32
#安装twisted
pip3 install twisted

命令运行结果如下:

https://i-blog.csdnimg.cn/blog_migrate/d554f396a3435330cf1c12856fee5b7e.jpeg

https://i-blog.csdnimg.cn/blog_migrate/3d922347d123827f262efcfd8276bd1d.jpeg

https://i-blog.csdnimg.cn/blog_migrate/753998ee6b32d6a4d54f433de5050992.jpeg

7、安装scrapy

scrapy所依赖的环境在上面6个步骤中已经安装完成,下面使用pip命令安装scrapy即可

pip3 install scrapy

命令执行结果如下:

https://i-blog.csdnimg.cn/blog_migrate/25a487929ab17ec071849eb05820c181.jpeg

通过上述步骤,即将scrapy开发环境搭建完成。

二、PyChram安装python模块

1、python模块通用安装手法

在上述 基础安装->python开发环境搭建中已经讲到PyChram的安装和在PyCharm中的python库的设置,在此将介绍,PyChram中如何添加如pyOpenSSL、lxml等模块的方式。

通过File -> Settings,在Settings弹出框左侧找到 Project Interpreter,点击 Project Interpreter,在右侧找到 ”+“进行模块的添加即可,如下图

https://i-blog.csdnimg.cn/blog_migrate/854d1cce992e6573c8a1c798f31b99be.png

2、PyChram集成Scrapy框架

1)在工程根目录找到 init .py,填入如下程序

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from scrapy import cmdline
#scrapy crawl itcast (house为爬虫名)
#此处的语句即是采用的twisted框架库
cmdline.execute("sscrapy crawl house".split())
  1. 在 Run -> Edit Configurations…工具中创建python运行设置,如下图

https://i-blog.csdnimg.cn/blog_migrate/eef1e6adf953a1f96e5c189a62e358fe.png

创建好后,OK保存,点击运行即可

https://i-blog.csdnimg.cn/blog_migrate/0ad305a17414aea4896f8ff0db8d8cef.png