当前位置: 首页 > news >正文

口碑好的无锡网站建设赣州网站建设

口碑好的无锡网站建设,赣州网站建设,山西网站制作公司哪家好,科技袁人文章目录前言一、需求二、分析三、处理四、运行结果前言 本系列文章来源于真实的需求本系列文章你来提我来做本系列文章仅供学习参考阅读人群:有Python基础、Scrapy框架基础 一、需求 全站爬取游戏卡牌信息 二、分析 查看网页源代码,图片资源是否存在…

在这里插入图片描述

文章目录

  • 前言
  • 一、需求
  • 二、分析
  • 三、处理
  • 四、运行结果

前言

  1. 本系列文章来源于真实的需求
  2. 本系列文章你来提我来做
  3. 本系列文章仅供学习参考
  4. 阅读人群:有Python基础、Scrapy框架基础

一、需求

  • 全站爬取游戏卡牌信息

在这里插入图片描述

二、分析

  • 查看网页源代码,图片资源是否存在

在这里插入图片描述

  • 网页源码中,定位下一页url路径

在这里插入图片描述

整体思路
1、通过Scrapy框架(中间件随机UA、代理)
2、通过Xpath构造单页爬取
3、通过Xpath定位下一页实现翻页功能

三、处理

初始化Scrapy框架

  1. Pycharm创建项目
  2. 安装Scrapy第三方库 pip install scrapy==2.5.1
  3. 创建项目 scrapy startproject card
  4. 进入card目录 cd card
  5. 创建爬虫 scrapy genspider get_card shadowverse-portal.com
  6. 修改start_urls
    在这里插入图片描述

编写get_card 文件
1、获取标题和图片url
2、翻页功能

    def parse(self, response):# 获取标题和图片urldisplay = response.xpath("//div[@id='displayVisual']")for d in display:img_url = d.xpath("//img[@class='el-card-visual-image js-card-image lazyload']/@data-src").extract()title = d.xpath("//img[@class='el-card-visual-image js-card-image lazyload']/@alt").extract()img_url_dict = dict(zip(title, img_url))for name, url in img_url_dict.items():yield {"url":url}# 翻页功能page = response.xpath("//div[@class='cards-footer']")for p in page:page_url = p.xpath("//span[@class='bl-pagination-item is-next']/a/@href").extract_first()# print(page_url)yield scrapy.Request(url=f"https://shadowverse-portal.com{page_url}",method="get",callback=self.parse)

通过管道保存资源,这里自定义方法通过ImagePIPline管道进行保存
1、安装模块 pip install pillow
2、settings配置管道、中间件
3、管道自定义图片下载方法
4、通过中间件实现UA随机

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

# 管道文件 pipelines.py
import scrapy
from scrapy.pipelines.images import ImagesPipelineclass MyTuPipeline(ImagesPipeline):# 1. 发送请求def get_media_requests(self, item, info):url = item['url']yield scrapy.Request(url=url, meta={"url": url})  # 直接返回一个请求对象即可# 2. 图片的存储路径def file_path(self, request, response=None, info=None, *, item=None):# 可以准备文件夹img_path = "card/"# 剔除file_path = item['url'].split("?")[0]file_name = file_path.split("/")[-1]  # 用item拿到urlprint("item:", file_name)real_path = img_path + "/" + file_name  # 文件夹路径拼接return real_path  # 返回文件存储路径即可# 3. 可能需要对item进行更新def item_completed(self, results, item, info):for r in results:print(r[1]['path'])return item  # 一定要return item 把数据传递给下一个管道
# setting.py文件
# UA随机
USER_AGENT_LIST = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','Mozilla/5.0 (X11; Ubuntu; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2919.83 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2866.71 Safari/537.36','Mozilla/5.0 (X11; Ubuntu; Linux i686 on x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2820.59 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2762.73 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2656.18 Safari/537.36','Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/44.0.2403.155 Safari/537.36','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36','Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36','Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36','Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.124 Safari/537.36','Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36','Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36',
]
# 中间件 middlewares.py
import random
from .settings import USER_AGENT_LIST.....def process_request(self, request, spider):ua = random.choice(USER_AGENT_LIST)request.headers["User-Agent"] = ua
.....

在这里插入图片描述

四、运行结果

在这里插入图片描述

源码下载方式:
知识星球Python 网络爬虫模块
我正在「Print(“Hello Python”)」和朋友们讨论有趣的话题,你⼀起来吧?
https://t.zsxq.com/086uG3kOn

请添加图片描述

http://www.ds6.com.cn/news/67432.html

相关文章:

  • 专业网网站建设seo关键词挖掘
  • 免费ppt模板下载完整版免费外贸建站seo
  • 上海网站制作公司的排名想学销售去哪培训
  • wordpress怎样设置导航栏北京网站快速优化排名
  • 权威的公司网站制作营销软件
  • 网站开发语言有几种优化设计电子版在哪找
  • 电脑主机做网站服务器自己建网站的详细步骤
  • 政府网站建设栏目内容爱站网seo工具
  • 铜煤建设网站武汉seo和网络推广
  • 山东金城建设网站太原网站seo
  • 受欢迎自适应网站建设地址临沂google推广
  • 百度怎么建立网站2022年最火的电商平台
  • 南通网站seo报价福州关键词排名软件
  • 在线网站制作百度网站怎么提升排名
  • 学做川菜最好的网站朝阳区seo
  • 旅游网站建设分析 需求青岛seo网络推广
  • 重庆专业做网站的公司网站关键词排名
  • wordpress的方法seo网络营销公司
  • 制作网站的手机软件中文域名注册官网入口
  • wordpress百度结构化数据插件众志seo
  • 网站怎么做关键词库绍兴百度seo排名
  • 湖南网站建站系统平台百度搜索热词查询
  • 银行网站建设方案汉中网络推广
  • 做纺织都有那些好网站企业营销推广策划
  • php电商网站开发流程图长春网站建设策划方案
  • 网站开发图片多打开速度慢微信社群营销怎么做
  • 望野王绩朗诵旺道seo优化
  • 购物网站开发问题seo自学教程推荐
  • 外贸网站建设价格武汉疫情最新情况
  • 网站建设学习心得江苏seo排名