当前位置: 首页 > news >正文

discuz 网站风格网络销售的方法和技巧

discuz 网站风格,网络销售的方法和技巧,沈阳网站建设服务器,网站建设方案书一定要有吗目标 在实际开发过程中,我们所需要的数据往往需要通过多个页面的数据汇总得到,通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看,实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及…

目标

        在实际开发过程中,我们所需要的数据往往需要通过多个页面的数据汇总得到,通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看,实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及手游详情为学习案例来解决这个问题。


版本

        Scrapy 2.12.0


实战

第一步:搭建Scrapy框架。略过,如果不会搭建的通过可以看我之前的Scrapy入门文章。

第二步:通过打开目标网页,查看网页代码,我们可以的到手游排行榜的基础信息,这里我们只获取标题。

import scrapyclass SytopSpider(scrapy.Spider):name = "sytop"allowed_domains = ["sy.yzz.cn"]start_urls = ["http://sy.yzz.cn/news/14324-1.shtml"]def parse(self, response):a_list = response.xpath("//ul[@class='item-pt-list']/li/div[1]/a")for a in a_list:# 标题alt = a.xpath("./img/@alt").get()print(alt)

第三步:进入二级页面,获取描述信息。此时日志打印可以看到,单个游戏的信息并没有组合起来。

import scrapyclass SytopSpider(scrapy.Spider):name = "sytop"allowed_domains = ["sy.yzz.cn"]start_urls = ["http://sy.yzz.cn/news/14324-1.shtml"]def parse(self, response):a_list = response.xpath("//ul[@class='item-pt-list']/li/div[1]/a")for a in a_list:# 标题alt = a.xpath("./img/@alt").get()print(alt)# 二级页面的urlinfo_url = a.xpath("./@href").get()print(f'二级页面的url是:{info_url}')meta = {"alt": alt}yield scrapy.Request(url=info_url, callback=self.parse_info)def parse_info(self, response):p_list = response.xpath("//div[@class='content']//p")for p in p_list:content=p.xpath("string(.)").get()print(content)

第四步:组合item数据。scrapy.Request方法中的meta参数很重要,它实现了深度爬取。比如:在爬取多层级页面时,使用 meta 参数传递父页面的信息到子页面。

import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name = "sytop"allowed_domains = ["sy.yzz.cn"]start_urls = ["http://sy.yzz.cn/news/14324-1.shtml"]def parse(self, response):a_list = response.xpath("//ul[@class='item-pt-list']/li/div[1]/a")for a in a_list:# 标题alt = a.xpath("./img/@alt").get()# 二级页面的urlinfo_url = a.xpath("./@href").get()meta = {"alt": alt}yield scrapy.Request(url=info_url, callback=self.parse_info,meta=meta)def parse_info(self, response):p_list = response.xpath("//div[@class='content']//p")print("==============start================")alt = response.meta["alt"]print(alt)content=""for p in p_list:content=content+"\n"+p.xpath("string(.)").get()print(content)

第五步:创建item属性。

class YezizhuItem(scrapy.Item):alt = scrapy.Field()content = scrapy.Field()

第六步:传递item属性值,并将item对象传递给管道。

import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name = "sytop"allowed_domains = ["sy.yzz.cn"]start_urls = ["http://sy.yzz.cn/news/14324-1.shtml"]def parse(self, response):a_list = response.xpath("//ul[@class='item-pt-list']/li/div[1]/a")for a in a_list:# 标题alt = a.xpath("./img/@alt").get()# 二级页面的urlinfo_url = a.xpath("./@href").get()meta = {"alt": alt}yield scrapy.Request(url=info_url, callback=self.parse_info,meta=meta)def parse_info(self, response):p_list = response.xpath("//div[@class='content']//p")print("==============start================")alt = response.meta["alt"]print(alt)content=""for p in p_list:content=content+"\n"+p.xpath("string(.)").get()print(content)top_content=YezizhuItem(alt=alt, content=content)yield top_content

第七步:在settings.py文件中开启管道。

ITEM_PIPELINES = {"yezizhu.pipelines.YezizhuPipeline": 300,
}

第八步:在管道中设置下载数据并启动项目。

import jsonclass YezizhuPipeline:# 在爬虫文件开始之前就执行的方法def open_spider(self, spider):self.fp = open("C:\\Users\\Administrator\\Desktop\\test\\a.json", "w", encoding="utf-8")self.fp.write("[")def process_item(self, item, spider):line = json.dumps(dict(item), ensure_ascii=False) + ",\n"self.fp.write(line)return item# 在爬虫文件执行之后再执行的方法def close_spider(self, spider):# 删除最后一个多余的逗号,并关闭 JSON 数组self.fp.seek(self.fp.tell() - 3, 0)self.fp.write("\n]")self.fp.close()

http://www.ds6.com.cn/news/36757.html

相关文章:

  • 洛阳网络公司排名seo站群优化
  • 湘潭做网站 联系磐石网络重庆企业seo
  • 公司网站建设佛山哪家盐城seo推广
  • 响应式网站模板百度云世界十大搜索引擎排名
  • 做网站毕业论文的参考文献智能网站排名优化
  • 12个 网站模板 管理办法营销网站的建造步骤
  • 更新网站 seo关键词点击工具
  • 网络设计方案的组成部分seo平台有哪些
  • xp系统中做网站服务器吗站长之家ping检测
  • zblog做单页网站培训心得体会范文
  • 中央人民政府网站搜索碳中和四期百度关键词搜索指数查询
  • 怎么仿制别人的网站站长工具查询seo
  • 建设flash网站百度推广登录入口
  • 微信公众号开发用什么语言seo网络推广是什么意思
  • 阿里云需要网站建设方案书全国疫情排行榜最新情况列表
  • 秦皇岛吧贴吧重庆seo全网营销
  • 肖港网站开发怎么推广网址
  • 怎样才能创建网站百度网盘官方网站
  • 政府网站集约化建设的调研报告深圳网站建设找哪家公司好
  • 提高网站用户体验衡水今日头条新闻
  • 呼和浩特北京网站建设青岛关键词优化seo
  • 合肥建设网站获客系统谷歌外贸seo
  • led视频网站建设百度爱采购
  • 网站备案审核搜索引擎分类
  • 网站设计开发文档模板下载赣州seo顾问
  • 做网站到八方资源网怎么样鸿科经纬教网店运营推广
  • 编写这个网站模板要多少钱百度软件下载
  • 网站正在升级建设中源码保定百度seo排名
  • 黄冈网站建设设计seo点击排名
  • 深圳网站制作公司讯网络营销策划师