当前位置: 首页 > news >正文

珠海网站建设培训学校友情链接交易

珠海网站建设培训学校,友情链接交易,西安观止软件科技有限公司,山西常见网站建设推荐优化定义 Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。 robots.txt文件的样例 对有所爬虫均生效&#…

定义

Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。

robots.txt文件的样例

  • 对有所爬虫均生效,只能爬取public目录
User-agent:*
Disallow:/
Allow:/public/
  • 禁止所有爬虫访问所有目录
User-agent:*
Disallow:/
  • 允许所有爬虫访问所有目录
User-agent:*
Disallow:
  • 禁止所有爬虫访问网站某些目录也可以写做
User-agent:*
Disallow:/private/
Disallow:/tmp/
  • 只允许某一个爬虫访问所有目录
User-agent:WebCrawler
Disallow:
User-agent:*
Disallow:/

一些常见的爬虫名称

在这里插入图片描述

robotparser使用

该模块提供了一个类:RobotFileParser,它可以根据某网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页。

RobotFileParser类的常用方法

  • set_url:用来设置robots.txt文件的链接。
  • read:读取robots.txt文件进行分析。
  • parse:用来解析robots.txt文件
  • can_fetch:该方法有两个参数,第一个是User-Agent,第二个是要抓取的URL。返回结果是True或者False,表示User-Agent指示的搜索引擎是否可以抓取这个URL。
  • mtime:返回上次抓取和分析robots.txt文件的时间。
  • modified:它对长时间分析和抓取的搜索爬虫很有帮助,可以将当前时间设置为上次抓取和分析robots.txt文件的时间

代码示例

from urllib.robotparser import RobotFileParserrp = RobotFileParser()
rp.set_url("http://www.baidu.com/robots.txt")
rp.read()print(rp.can_fetch("Baiduspider", "http://www.baidu.com"))
print(rp.can_fetch("Baiduspider", "http://www.baidu.com/homepage/"))
print(rp.can_fetch("Googlebot", "http://www.baidu.com/homepage/"))

在这里插入图片描述

  • 这里能看到,Googlebot是被严格禁止了的,所以为false
    在这里插入图片描述

以上,便是robots协议的学习笔记整理,来源于当前正在看的一本书–《Python3网络爬虫开发实战》。后面会持续学习并整理的。
感谢阅读~

http://www.ds6.com.cn/news/26950.html

相关文章:

  • 网站运营托管方案seo变现培训
  • 做网站哪些好免费获客软件
  • wordpress导航栏不见了百度爱采购优化排名软件
  • 网站建设丶金手指下拉十五南宁seo外包平台
  • 网站建设及推广套餐百度竞价推广登录入口
  • 西藏建设工程消防备案网站青岛seo软件
  • 建设银行网站安全性分析百度搜索广告价格
  • 深圳画册设计网站一个新手怎么做推广
  • 重庆观音桥介绍seo公司彼亿营销
  • 外贸网站源码php百度竞价推广教程
  • 西平网站建设数据分析培训班
  • python做软件的网站百度地图排名怎么优化
  • 如何做网站上抓视频网站代搭建维护
  • 信息技术课做网站东莞网站自动化推广
  • php动态网站开发 pdf北京seoqq群
  • 公司网站建设方案详细方案模板河北网站推广
  • 遨游建设网站谷歌海外广告投放
  • wordpress 选择题杭州网站推广优化
  • 唐河企业网站制作怎么样东莞百度seo推广公司
  • 做任务分享赚钱的网站广州各区最新动态
  • 计算机编程是做网站站长收录平台
  • 红河北京网站建设链爱生态怎么交易
  • 网站建设招标文件范本品牌推广的渠道有哪些
  • 网站建设参考网站的说明书方象科技的企业愿景
  • 网页制作什么软件好搜索引擎优化的内部优化
  • 湖南正规竞价优化服务seo搜外
  • 做企业网站哪家强沈阳cms模板建站
  • 什么网站做简历最好个人外包接单平台
  • 做一份网站的步zou某网站seo策划方案
  • 动漫网站html温州seo优化