当前位置: 首页 > news >正文

大城县企业网站建设电商怎么做推广

大城县企业网站建设,电商怎么做推广,网站交互功能,风中有朵雨做的云在线网站针对不同类型的文件,需要采取特定的访问与解析策略来有效获取其中蕴含的知识。下面我们将介绍对于不同数据源数据的获取方式。 1 解析Docx文档 1.1 获取Docx文档中文本 from docx import Document # pip install python-docx # python-docx 0.8.11 filename xx…

针对不同类型的文件,需要采取特定的访问与解析策略来有效获取其中蕴含的知识。下面我们将介绍对于不同数据源数据的获取方式。

1 解析Docx文档

1.1 获取Docx文档中文本

from docx import Document
# pip install python-docx
# python-docx == 0.8.11
filename = 'xxx.docx'
doc = Document(filename)
for para in doc.paragraphs:print(para.text)

1.2 获取Docx文档中表格

from docx import Document
filename = r'sample.docx'
doc = Document(filename)
print(f"\n 便利文档中表格:")
print(f"\n 方法一:")
for table in doc.tables:row_count = len(table.rows)col_count = len(table.columns)for i in range(row_count):row = table.rows[i].cellsprint(f"row : {row}")
print(f"\n 方法二:")
for table in doc.tables:row_count = len(table.rows)col_count = len(table.columns)for i in range(row_count):for j in range(col_count):print(table.cell(i,j).text)

2 解析txt文件

2.1 读取富文本txt

  • read() —— 读取所有文本
with open('sample.txt','r+',encoding='utf-8') as f:data = f.read()print(data)
  • readline() —— 读取第一行的内容
with open('sample.txt','r+',encoding='utf-8') as f:data = f.readline()print(data)
  • readlines() —— 读取全部内容,以数列的形式返回结果
with open('sample.txt','r+',encoding='utf-8') as f:data = f.readlines()print(data)
with open('sample.txt','r+',encoding='utf-8') as f:for ann in f.readlines()ann = ann.strip('\n') # 去除文本中的换行符print(ann)
# 简单版本
for i in open(file='sample.txt',encoding='utf-8').readlines():ann = i.strip('\n')print(ann)

3 解析PDF

3.1 PDF解析神器——pdfplumber

3.1.1 安装
pip install pdfplumber
3.1.2 提取pdf中的纯文本
import pdfplumber
file_name = r'sample.pdf' # 需要解析的pdf文件
output_file = 'sample.txt' # pdf解析后的内容
with pdfplumber.open(file_name) as p:page_count = len(p.pages)for i in range(0,page_count):page = p.pages[i]text_data = page.extract_text()data = open(output_file,'a',encoding='utf-8')data.write(text_data)
3.1.3 提取pdf中的表格
import pdfplumber
from openpyxl import Workbook # 保存表格
file_name = r'sample.pdf'
output_file = 'sample.xlsx'
with pdfplumber.open(file_name) as pdf:page = pdf.pages[0]table = page.extract_table()workbook = Workbook()sheet = workbook.activefor row in table:sheet.append(row)workbook.save(filename=output_file)
  • extract_tables()方法——输出文档所有表格,返回一个嵌套列表。
#extract_tables()法
with pdfplumber.open(r'exm.pdf') as pdf:  # 打开pdfpage_one = pdf.pages[0]  page_one_table =page_one.extract_tables()  # 获取pdf第一页的所有表格数据for row in page_one_table:print('第一页的表格数据:', row)
  • extact_table()方法——不会返回文档的所有表格,仅返回行数最多的表格数据。如存在多个行数相等的表格,则默认输出顶部表格数据。表格的每一行都为一个单独的列表,列表中的元素即为原表格的各个单元格的数据。
# extract_table()法
with pdfplumber.open(r'exm.pdf') as pdf_info:  # 打开pdfpage_one = pdf_info.pages[0]  page_one_table = page_one.extract_table()for row in page_one_table:print(row)

http://www.ds6.com.cn/news/32913.html

相关文章:

  • 辽宁pc网站建设开发app推广公司
  • 公司企业官网福州网站seo
  • 中国正规官方网站有哪些最新百度快速排名技术
  • 网站版面做的很好的公司怎样做网络销售平台
  • 备案 网站负责人网页设计大作业
  • 网站上传文件 ftp网站快速上排名方法
  • 邢台网站建设制作营销策划案ppt优秀案例
  • 企业网站建设与实施调研报告基本情况网坛最新排名
  • 做1个自己的贷款网站头条新闻今日头条
  • 塘坑网站建设百度推广优化是什么?
  • 做网站可以用ai做关键词查找
  • 沙河口网站建设常用的搜索引擎
  • 微网站定制多久网络营销课程总结与心得体会
  • 网站宣传海报西安seo网站关键词优化
  • 东莞企业网站建设设计百度地图导航手机版免费下载
  • 网站公告栏怎么做汕头网站建设开发
  • 企业建设网站能否报销商务软文写作
  • 企业所得税税率2022年最新税率表谷歌seo是指什么意思
  • 免费做电子请柬的网站郑州seo技术顾问
  • 我的网站为什么打不开怎么回事seo网站排名优化公司哪家好
  • 衡水哪儿做wap网站成品短视频app下载有哪些软件
  • 网站开发需求分析报告网站注册域名
  • 营销型网站建设概述网站交易平台
  • 成都网站建设科技公司谷歌chrome安卓版
  • 做博客网站怎么赚钱海洋seo
  • 深圳汇网网站建设二级域名注册
  • 外包网站该怎么做帐新闻发布会新闻通稿
  • 网站页面怎么做识别二维码竞价排名推广
  • 东莞网站建设兼职seo优化技术
  • wordpress 本地上传服务器seo优化工具有哪些