import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JavaCrawler {
public static void main(String[] args) {
// 定义要爬取的网页URL
String url = "https://example.com";
try {
// 使用Jsoup连接并获取网页内容
Document document = Jsoup.connect(url).get();
// 打印网页标题
String title = document.title();
System.out.println("网页标题: " + title);
// 获取所有链接
Elements links = document.select("a[href]");
System.out.println("网页中的链接:");
for (Element link : links) {
// 输出链接文本和链接地址
System.out.println(link.text() + " - " + link.attr("href"));
}
} catch (IOException e) {
// 捕获异常并打印错误信息
System.out.println("抓取网页时出错: " + e.getMessage());
}
}
}
Jsoup 库来处理 HTML 文档。你需要确保项目中已经引入了 Jsoup 依赖。Jsoup.connect(url).get() 方法连接到指定的 URL 并获取网页内容,返回一个 Document 对象。document.title() 获取网页的标题。document.select("a[href]") 获取所有的超链接,并遍历这些链接,输出它们的文本和 URL。IOException 异常,并打印错误信息。这个简单的例子展示了如何使用 Java 和 Jsoup 库进行基本的网页爬取操作。
上一篇:java 生成pdf
下一篇:java17新特性
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站