当前位置: 首页 > news >正文

如何介绍自己的网站做百度网站一年多少钱

如何介绍自己的网站,做百度网站一年多少钱,海城市建设局网站,wordpress数据库修改后台网址1基本理论 1.1概念体系 网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以按照我们设置的规则自动化爬取网络上的信息,这些规则被称为爬虫算法。是一种自动化程序,用于从互联网上抓取数据。爬虫通过模拟浏览器的行为,访问网页并…

1基本理论

1.1概念体系

        网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以按照我们设置的规则自动化爬取网络上的信息,这些规则被称为爬虫算法。是一种自动化程序,用于从互联网上抓取数据。爬虫通过模拟浏览器的行为,访问网页并提取信息。这些信息可以是结构化的数据(如表格数据),也可以是非结构化的文本。爬虫任务的执行流程通常包括发送HTTP请求、解析HTML文档、提取所需数据等步骤。

1.2技术体系

1请求库:用于向目标网站发送HTTP请求。常用的请求库包括requests、httplib、urllib等。这些库可以帮助我们模拟浏览器行为,发送GET、POST等请求,并处理响应内容。

2.解析库:用于解析HTML或XML文档,提取出我们需要的数据。常用的解析库包括BeautifulSoup、lxml、pyquery等。这些库可以帮助我们根据HTML文档的结构和标签,提取出我们需要的数据。

3.存储库:用于将爬取到的数据存储到本地或数据库中。常用的存储库包括sqlite3、mysql-connector-python、pymongo等。这些库可以帮助我们将数据存储到关系型数据库或非关系型数据库中,以便后续分析和利用。

2.代码编写流程

代码编写流程

代码共分为4部分,1网页数据抓包。2json数据地址规律,3json数据解析,数据存储。

2.1.网页抓包与地址规律

 通过网页抓包,解析到json数据。

加入该网页,红色线框中的数据,是要爬取的数据

网页地址https://app.zhuanzhuan.com/zzopen/sellbook/pcHomePageList?pageNum=1&pageSize=20&cateId2=100&cateId3=100

对网页刷新,发现抓包的数据增加,如下图

Json数据如下

网页地址 https://app.zhuanzhuan.com/zzopen/sellbook/pcHomePageList?pageNum=2&pageSize=20&cateId2=100&cateId3=100

对上面地址分析,发现地址中pageNum数值发生改变,第一页位数为1,第二页位数为2

依次类推。

编写翻页函数

函数中为中pageNum页面地址位数

2.2.页面解析

2.3.网页数据保存

·

3.应用举例

 

输出结果

通过上面代码测试,输出结果为每本书的相关数据,利用json查找语法解析json数据,将书籍书籍写入excel数据表中

4.编写代码

import requests
from openpyxl import Workbook,load_workbook
import os
import jsonpath  
import json
def wy_text(x):res=requests.get(url='https://app.zhuanzhuan.com/zzopen/sellbook/pcHomePageList?pageNum={}&pageSize=20&cateId2=100&cateId3=100'.format(x))sss=json.loads(res.text)return sss
class Excel_write():def __init__(self):self.excel_file = "转转图书信息.xlsx"if not os.path.exists(self.excel_file):self.wk = Workbook();#创建excel工作薄self.wk.create_sheet("图书信息",0);#sheet表名,位置(从0开始)# 默认选择当前活跃选项卡self.wb =self.wk['图书信息']self.wb.append(["书名",'出版社','出版日期','价格']);#横向插入数据self.wk.save(self.excel_file)self.wk_load = load_workbook(filename=self.excel_file)self.wb_load = self.wk_load['图书信息']def nr1(self,text):nr_text=[]p1=jsonpath.jsonpath(text,"$.respData..title")p3=jsonpath.jsonpath(text,"$.respData..publisher")p4=jsonpath.jsonpath(text,"$.respData..pubdate")p5=jsonpath.jsonpath(text,"$.respData")for i in range(len(p1)):nr_text.append([p1[i],p3[i],p4[i],p5[0][i]['sellPrice']/100])return nr_textdef nr_write(self):for i in range(1,40):s=wy_text(i)#类中调用外部函数list=Excel_write().nr1(s)#类中函数相互调用,注意外部或内部self参数都不用加for k in range(len(list)):self.wb_load.append(list[k])self.wk_load.save(filename=self.excel_file)
if __name__=="__main__":
Excel_write().nr_write()

 运行结果

http://www.ds6.com.cn/news/60623.html

相关文章:

  • 免费推广网站平台黄色手机系统优化软件哪个好
  • 云南哪里有给做网站的怎么进行网站关键词优化
  • 网站备案幕布怎么做怎样开网站
  • 乌克兰网站建设网络营销与直播电商专业
  • 医院网站建设策划方案查销售数据的网站
  • 网站seo排名阿里网站seo
  • 网页设计制作导航栏seo推广任务小结
  • 时事新闻专业seo网站优化推广排名教程
  • 网站目录字典yandere搜索引擎入口
  • 郑州企业微网站建设cms网站模板
  • 菜鸟学做网站的步骤注册域名要钱吗
  • 邯郸企业网站制作建设链接优化方法
  • 做网站地图的步骤域名注册平台哪个好
  • 小程序开发源码网站seo哪家做的好
  • 国家电力安全网站两学一做济南做seo排名
  • wordpress电子书下载地址怎么优化网站性能
  • 网站备案后 如何建设外链群发
  • 网站请人做的 域名自己注册的 知道网站后台 怎么挂自己的服务器二十条优化措施原文
  • 微信网站应用开发做seo有什么好处
  • 帮人做彩票网站支付接口整站seo教程
  • 找人做短视频网站蚂蚁链接bt链接
  • 有哪些品牌做打底衫的网站百度下载正版
  • 门户网站设计沧州网站建设
  • 小企业来说 电子商务网站服务器的建设方案培训机构招生方案范文
  • 在哪里可以做网站公司网络营销推广软件
  • 网站建设实践论文简单的个人网页制作html
  • 如何制作网站视频教程企业策划书
  • 上海网站建设的企百度网址大全官方下载
  • 北京建网站公司价格上海热点新闻
  • 培训网站制作网站百度推广开户费