代码如下:
缺点:只适用于PDF文档中的表格格式较为规范的情况,对于复杂的表格格式可能无法正确处理。
import PyPDF2
def convert_pdf_to_excel(pdf_path, excel_path):
pdf_file = open(pdf_path, 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)
excel_file = open(excel_path, 'w')
for page_num in range(len(pdf_reader.pages)):
page = pdf_reader.pages[page_num]
text = page.extract_text().encode('cp950', errors='ignore').decode('cp950')
excel_file.write(text)
pdf_file.close()
excel_file.close()
# 使用示例
pdf_path = 'example.pdf' # 替换成你的PDF文件路径
excel_path = 'output.xlsx' # 替换成输出Excel文件路径
convert_pdf_to_excel(pdf_path, excel_path)