Laravel  
laravel
文档
数据库
架构
入门
php技术
    
Laravelphp
laravel / php / java / vue / mysql / linux / python / javascript / html / css / c++ / c#

python读取pdf

作者:偶然\寥寂り   发布日期:2025-10-14   浏览:61

# 导入PyPDF2库用于处理PDF文件
import PyPDF2

def read_pdf(file_path):
    # 打开PDF文件
    with open(file_path, 'rb') as file:
        # 创建一个PDF阅读器对象
        pdf_reader = PyPDF2.PdfReader(file)

        # 获取PDF文件中的页数
        num_pages = len(pdf_reader.pages)
        print(f"该PDF文件共有 {num_pages} 页")

        # 初始化一个空字符串来存储所有页面的文本
        text = ""

        # 遍历每一页并提取文本
        for page_num in range(num_pages):
            page = pdf_reader.pages[page_num]
            text += page.extract_text()

        return text

# 示例用法
file_path = 'example.pdf'  # 将此路径替换为你的PDF文件路径
pdf_text = read_pdf(file_path)
print(pdf_text)

解释说明:

  1. 导入库:使用 PyPDF2 库来读取和处理 PDF 文件。
  2. 打开文件:以二进制模式 ('rb') 打开 PDF 文件。
  3. 创建阅读器对象:使用 PdfReader 类创建一个 PDF 阅读器对象。
  4. 获取页数:通过 len(pdf_reader.pages) 获取 PDF 文件的总页数。
  5. 提取文本:遍历每一页,使用 extract_text() 方法提取文本内容,并将其添加到一个字符串中。
  6. 返回结果:将提取的所有文本作为字符串返回。

请确保你已经安装了 PyPDF2 库,可以使用以下命令进行安装:

pip install PyPDF2

上一篇:python lambda表达式

下一篇:python 多行字符串

大家都在看

python时间格式

python读取文件路径

staticmethod在python中有

python开发windows应用程序

python中len是什么意思

python ord和chr

python中的yield

python自定义异常

python判断路径是否存在

python list.pop

Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3

Laravel 中文站