当前位置：首页 > news >正文

丰台网站制作百度指数总结

news 2026/1/16 9:21:41

丰台网站制作,百度指数总结,青岛的网站建设公司哪家好,wordpress教程付费一、scrapy简介 scrapy的概念 Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。 Scrapy 使用了Twisted异步网络框架，可以加快我们的下载速度。 Scrapy文档地址：http://scrapy-chs.readthedocs.io/z…

一、scrapy简介

scrapy的概念
Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。

Scrapy 使用了Twisted异步网络框架，可以加快我们的下载速度。
- Scrapy文档地址：http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

工作流程

传统的爬虫流程
scrapy的流程

在这里插入图片描述

描述

爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送请求，获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据

在这里插入图片描述

二、关于中间件

爬虫中间件（Spider Middleware）

作用：爬虫中间件主要负责处理从引擎发送到爬虫的请求和从爬虫返回到引擎的响应。这些中间件在请求发送给爬虫之前或响应返回给引擎之前可以对它们进行处理。

功能：

修改请求或响应。
在请求被发送到爬虫之前进行预处理。
在响应返回给引擎之前进行后处理。
过滤或修改爬虫产生的请求和响应。

常见的爬虫中间件：

HttpErrorMiddleware：处理 HTTP 错误。
OffsiteMiddleware：过滤掉不在指定域名内的请求。
RefererMiddleware：添加请求的 Referer 头。
UserAgentMiddleware：添加请求的
User-Agent 头。
DepthMiddleware：限制爬取深度。

下载中间件（Downloader Middleware）

作用：下载中间件主要负责处理引擎发送到下载器的请求和从下载器返回到引擎的响应。这些中间件在请求发送给下载器之前或响应返回给引擎之前可以对它们进行处理。
功能：

修改请求或响应。
在请求被发送到下载器之前进行预处理。
在响应返回给引擎之前进行后处理。
对请求进行代理、设置代理认证等。

常见的下载中间件：

HttpProxyMiddleware：处理 HTTP 代理。
UserAgentMiddleware：添加请求的 User-Agent头。
RetryMiddleware：处理请求重试。
HttpCompressionMiddleware：处理 HTTP 压缩。
CookiesMiddleware：管理请求的 Cookies。

三、scrapy的三个内置对象

scrapy.Item：

作用： scrapy.Item 是一个简单的容器对象，用于封装存储爬取到的数据。每个 scrapy.Item 对象都代表了网站上的一个特定数据项。
使用：在 Scrapy 爬虫中，你可以定义一个继承自 scrapy.Item 的类，定义这个类的属性来表示要提取的字段。这样，当你从页面中提取数据时，可以将提取到的数据存储在 scrapy.Item 对象中。
示例：

import scrapyclass MyItem(scrapy.Item):title = scrapy.Field()url = scrapy.Field()

scrapy.Request：

作用： scrapy.Request 对象用于指示 Scrapy 下载某个URL，并在下载完成后返回一个 scrapy.Response 对象。
使用：在爬虫中，你可以创建 scrapy.Request 对象，指定要访问的URL、回调函数、请求方法、请求头等信息，然后通过调用这个对象，将请求添加到爬虫的调度队列中。
示例：

import scrapy
class MySpider(scrapy.Spider):name = 'myspider'def start_requests(self):urls = ['http://example.com/page1', 'http://example.com/page2']for url in urls:yield scrapy.Request(url=url, callback=self.parse)def parse(self, response):# 处理响应的逻辑pass

scrapy.Response：

作用： scrapy.Response 对象表示从服务器接收到的响应，它包含了网页的内容以及一些有关响应的元数据。
使用：在爬虫的回调函数中，你将接收到的响应作为参数，通过对 scrapy.Response 对象的操作，提取数据或者进一步跟踪其他URL。
示例：

import scrapyclass MySpider(scrapy.Spider):name = 'myspider'def start_requests(self):urls = ['http://example.com/page1']for url in urls:yield scrapy.Request(url=url, callback=self.parse)def parse(self, response):# 使用 response.xpath 或 response.css 提取数据title = response.xpath('//h1/text()').get()

这三个内置对象是构建 Scrapy 爬虫时非常重要的组件。scrapy.Item 用于封装爬取到的数据，scrapy.Request 用于定义要爬取的URL和请求参数，scrapy.Response 用于处理从服务器返回的响应。通过巧妙地使用这些对象，你可以有效地构建和组织你的爬虫逻辑。

四、scrapy的入门使用

安装

pip/pip3 install scrapy

scrapy项目开发流程

创建项目:
scrapy startproject mySpider

创建一个爬虫:
1.进入刚才的项目路径
2.执行生成命令：scrapy genspider <爬虫名字> <允许爬取的域名>
例如:scrapy genspider baidui baidu.com
3.执行后就会在myspider/spider下，生成一个baidu.py，这就是我们的爬虫文件

提取数据:
根据网站结构在spider中(即baidu.py文件)实现数据采集相关内容
保存数据:
使用pipeline进行数据后续处理和保存

定义一个管道类
重写管道类的process_item方法
process_item方法处理完item之后必须返回给引擎
在setting文件中启用管道

管道文件

import jsonclass ItcastPipeline():# 爬虫文件中提取数据的方法每yield一次item，就会运行一次# 该方法为固定名称函数def process_item(self, item, spider):print(item)return item

配置文件

#值越小越先运行
ITEM_PIPELINES = {'myspider.pipelines.ItcastPipeline': 400
}

运行爬虫项目

scrapy crawl baidu

查看全文

http://www.ds6.com.cn/news/50106.html

东莞网站优化关键词排名爱网站关键词挖掘工具

网站链接结构今天新闻联播

买产品做企业网站还是博客常见的网站推广方式有哪些

php动态网站设计与开发百度站长平台电脑版

自己买服务器做视频网站下载百度app到手机上

网站开发未来发展趋势免费广州seo

东莞企业公司网站建设现在有哪些网址

wordpress 摘要不显示seo前线

网站建设与规划实验心得体会网络推广seo怎么弄

专业建设特色宜昌seo

手机电脑网站排名百度seo优化公司

dede网站禁止ip访问免费发帖推广的平台

北京网站制作外包已矣seo排名点击软件

专业的网站设计网络广州百度seo代理

网站建设中需求分析说明书seozou是什么意思

网站做系统做排名靠谱吗bing搜索引擎国内版

动漫制作专业学校前十名seo公司推荐推广平台

惠州做网站公司哪家好seo顾问是什么职业

一、scrapy简介

二、关于中间件

三、scrapy的三个内置对象

四、scrapy的入门使用

相关文章：