import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFReader {
public static void main(String[] args) {
// 指定PDF文件路径
String pdfPath = "example.pdf";
// 创建PDDocument对象,读取PDF文件
try (PDDocument document = PDDocument.load(new File(pdfPath))) {
// 使用PDFTextStripper类提取文本内容
PDFTextStripper pdfStripper = new PDFTextStripper();
// 获取PDF文件中的文本内容
String text = pdfStripper.getText(document);
// 输出提取的文本内容
System.out.println(text);
} catch (IOException e) {
e.printStackTrace();
}
}
}
org.apache.pdfbox.pdmodel.PDDocument和org.apache.pdfbox.text.PDFTextStripper来处理PDF文件。String pdfPath变量指定要读取的PDF文件路径。PDDocument.load()方法加载PDF文件。PDFTextStripper类用于从PDF中提取文本内容。pdfStripper.getText(document)方法获取PDF中的文本,并打印到控制台。确保你已经在项目中添加了Apache PDFBox库,可以通过Maven或手动下载JAR文件来引入该库。
上一篇:java解压zip
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站