一、 前言
本文利用python将pdf转换为word方法,需要用到两个第三方模块,分别是:
(1)pdfplumber,用来解析pdf文档,包括pdf的基本信息(作者、创建时间、修改时间…)及表格、文本、图片等信息,基本可以满足较为简单的格式转换功能。
(2)python–docx,可用来创建、修改word文档(.docx),提供全套的word操作,是较为常用的一个操作word的python库。
以上两者,都可以使用pip命令直接安装,具体命令如下:
pip install pdfplumber
pip install python-docx
二、pdf转换为word方法详解
以下代码块,实现提取pdf文件内容,并保存word中。
复制并运行代码,输入需要转换的pdf文档详细路径,回车即可。
import pdfplumber
from docx import Document
# 新建一个word,用来保存pdf内容
def get_newword(file_path):
doc = Document()
doc.save(file_path+r'res.docx')
# 提取pdf中的所有文本,并保存到word中
def get_con(file_path):
tem_path = '\'.join(file_path.split("\")[:-1])
# 新建一个word
get_newword(tem_path)
doc = Document(tem_path+r'res.docx')
with pdfplumber.open(file_path) as pdf:
for i, page in enumerate(pdf.pages): # 默认取pdf中所有存在页
con = page.extract_text()
doc.add_paragraph(con)
print('-----------分割线,第%d页-----------' % (int(i) + 1))
doc.save(tem_path+r'res.docx')
print('保存成功第%d页' % (int(i) + 1))
if __name__ == "__main__":
# 输入文件路径全称,如:E:pytestpdfpdatatest.pdf
print(r'文件路径示例:E:pytestpdfpdatatest.pdf')
file_path = input('请输入需要转化的pdf文件路径:')
get_con(file_path)
(一)上述代码释义、说明
(1)pdfplumber提取pdf文本内容方法
方法:extract_text(),返回一个字符串,其中包含页面中的所有文本。如果只想提取页面的一部分文本,可以将提取的区域作为参数传递给extract_text() 方法。
需要注意的是: extract_text()方法,提取的是pdf页面中的所有文本内容,包括表格中的文本,但是不会保留表格的格式,只是纯文本内容。且不会保存pdf中的图片。
(2)python-docx基础用法
上述代码主要使用了写入段落的方法:
add_paragraph(text=’’,style=None)
三、总结
本文仅是简单实现将pdf文本内容保存到word文档中,对图片和格式未做任何处理。如果仅需要pdf中的文字内容,不想去一一复制,算是一个免费简单的小工具,可供参考。
–end–
原文地址:https://blog.csdn.net/LHJCSDNYL/article/details/134694124
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_10359.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!