python 解析pdf

作者：狂暴的酷发布日期:2025-09-17 浏览:299

# 使用 PyMuPDF (fitz) 解析 PDF 文件的示例代码

import fitz  # PyMuPDF

def extract_text_from_pdf(pdf_path):
    # 打开 PDF 文件
    pdf_document = fitz.open(pdf_path)
    text = ""

    # 遍历每一页并提取文本
    for page_num in range(len(pdf_document)):
        page = pdf_document.load_page(page_num)
        text += page.get_text()

    return text

# 示例用法
pdf_path = "example.pdf"  # 替换为你的 PDF 文件路径
extracted_text = extract_text_from_pdf(pdf_path)
print(extracted_text)

解释说明：

导入库：我们使用 fitz，这是 PyMuPDF 库的一部分，用于处理 PDF 文件。
定义函数 extract_text_from_pdf：该函数接受一个 PDF 文件路径作为参数，并返回提取的文本内容。
打开 PDF 文件：使用 fitz.open(pdf_path) 打开指定路径的 PDF 文件。
遍历每一页：通过 for 循环遍历 PDF 文件中的每一页。
提取文本：使用 page.get_text() 提取每一页的文本内容，并将其添加到 text 变量中。
返回结果：最终返回包含所有页面文本的字符串。

你可以根据需要修改和扩展此代码。

上一篇：input在python中用法

下一篇：python 子字符串