# 导入PyPDF2库用于处理PDF文件
import PyPDF2
def read_pdf(file_path):
# 打开PDF文件
with open(file_path, 'rb') as file:
# 创建一个PDF阅读器对象
pdf_reader = PyPDF2.PdfReader(file)
# 获取PDF文件中的页数
num_pages = len(pdf_reader.pages)
print(f"该PDF文件共有 {num_pages} 页")
# 初始化一个空字符串来存储所有页面的文本
text = ""
# 遍历每一页并提取文本
for page_num in range(num_pages):
page = pdf_reader.pages[page_num]
text += page.extract_text()
return text
# 示例用法
file_path = 'example.pdf' # 将此路径替换为你的PDF文件路径
pdf_text = read_pdf(file_path)
print(pdf_text)
PyPDF2
库来读取和处理 PDF 文件。'rb'
) 打开 PDF 文件。PdfReader
类创建一个 PDF 阅读器对象。len(pdf_reader.pages)
获取 PDF 文件的总页数。extract_text()
方法提取文本内容,并将其添加到一个字符串中。请确保你已经安装了 PyPDF2
库,可以使用以下命令进行安装:
pip install PyPDF2
上一篇:python lambda表达式
下一篇:python 多行字符串
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站