当前位置: 首页 > news >正文

门店管理系统推荐seo优化视频教程

门店管理系统推荐,seo优化视频教程,广告机 东莞网站建设,马可波罗网站如何做产品推广一、PDF文件介绍 PDF是英文Portable Document Format缩写,就是可移植的意思,它是以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,PostScript咱也不懂,估计和SVG的原理差不多吧…

一、PDF文件介绍

PDF是英文Portable Document Format缩写,就是可移植的意思,它是以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,PostScript咱也不懂,估计和SVG的原理差不多吧。

二、PDF文件格式

PDF文件是二进制数据,可以用Sublime的HexViewer打开。

1、首部

指明文件PDF版本号,%PDF-1.4 其中最后一位 4就是文件格式的版本号。

2、文件体

PDF文件主要部分,由一系列obj对象组成,类似如下格式

3 0 obj <<........>>endobj# 3 对象编号 0 修改次数

3、交叉引用表

用于索引各个obj 对象在文档中的位置,以实现随机访问

xref.0 180000000000 65535 f0000010112 00000 n.....# 0000000000 第一对象起始地址,修改次数 65535#(最大修改次数,表示不可再改, f 表示free # 这里可以看成文件头)# 0000010112 第二对象超始地址,n表示对象正在使用

4、尾部

指明文件体根对象和交叉引用表地址

trailer.<</Info 17 0 R/ID [<df2c5533d0ab7c62ee7732a5e375592a><b07f35295e287c0a5febcad25060ccbf>]/Root 16 0 R/Size 18>>.startxref.83511.%%EOF.# trailer 说明文件尾 trailer对象的开始# Size 18 该PDF文件的对象数目# Root 16 根对象的对象号为16# startxref.83511 交叉引用表地f址

三、解析PDF文件

Java PdfBox、Python的Pdfminer都可以解析出PDF中的文本,但无论哪个工具都只能把PDF文本一行行打印出来,具体的字段解析还是要自己用正则去匹配。

下面介绍一下Python3的pdfminer3k

1、安装 pip install pdfminer3k

2、pdfminer3k几个主要类介绍

PDFParser:从PDF文件中提取数据PDFDocument:PDF文档对象PDFPageInterpreter:处理页面内容

下面是解析简历PDF数据,需要把关键信息提取出来,刚从网上找了些代码简单实现了一下,代码还没有做任何异常处理,先能跑通再说。

注:这代码对扫描版本的PDF是没有办法解析出来的。

 

http://www.ds6.com.cn/news/98345.html

相关文章:

  • 邢台做网站推广服务怎么开发自己的网站
  • 怎么做电脑网站后台怎么投放网络广告
  • wordpress网址更换排名优化百度
  • 百度可以做网站吗超级优化大师下载
  • 拉企业做网站好干吗长沙网络推广只选智投未来
  • 网站制作不用备案网络推广员好做吗
  • 济南哪家公司做网站好深圳百度推广电话
  • 做网站页面文件关于搜索引擎的搜索技巧
  • wordpress 整站加密crm网站
  • 网站规划网站建设报价表百度竞价最低点击一次多少钱
  • 做景观素材有哪几个网站有没有推广app的平台
  • 网站小编可以在家做吗关键词自助优化
  • 网站跳出率高线上营销怎么做
  • 中国建造师官方网站软文推广做得比较好的推广平台
  • 领卷网站如何做代理网络推广服务
  • 上海企业服务云官网seo网络优化招聘信息
  • wordpress软件下载插件seo基础培训教程
  • 目前最火的互联网项目重庆网站seo外包
  • 广州做蛋糕的网站网站开发流程图
  • 进一步加强政府网站内容建设百度营稍
  • app下载平台有哪些东莞seo培训
  • 重庆网站租赁空间万网官网登录
  • 惠水县政府网站建设电商平台营销策划方案
  • 重庆优化网站推广seo研究中心vip课程
  • 猎头公司招聘可靠吗百度seo工具
  • php 微信 网站建设网络营销策划书步骤
  • 贵阳专业做网站的公司有哪些百度竞价推广账户优化
  • 日本樱花服务器兰州搜索引擎优化
  • 设计装修的软件青岛招聘seo
  • 诸城网页制作公司淮北seo排名