java 爬虫

作者：你忘我亡发布日期:2026-03-09 浏览:143

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JavaCrawler {

    public static void main(String[] args) {
        // 定义要爬取的网页URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接并获取网页内容
            Document document = Jsoup.connect(url).get();

            // 打印网页标题
            String title = document.title();
            System.out.println("网页标题: " + title);

            // 获取所有链接
            Elements links = document.select("a[href]");
            System.out.println("网页中的链接:");
            for (Element link : links) {
                // 输出链接文本和链接地址
                System.out.println(link.text() + " - " + link.attr("href"));
            }

        } catch (IOException e) {
            // 捕获异常并打印错误信息
            System.out.println("抓取网页时出错: " + e.getMessage());
        }
    }
}

解释说明：

导入库：我们使用了 Jsoup 库来处理 HTML 文档。你需要确保项目中已经引入了 Jsoup 依赖。
定义 URL：指定要爬取的网页 URL。
连接网页：使用 Jsoup.connect(url).get() 方法连接到指定的 URL 并获取网页内容，返回一个 Document 对象。
提取信息：
- 使用 document.title() 获取网页的标题。
- 使用 document.select("a[href]") 获取所有的超链接，并遍历这些链接，输出它们的文本和 URL。
异常处理：捕获可能发生的 IOException 异常，并打印错误信息。

这个简单的例子展示了如何使用 Java 和 Jsoup 库进行基本的网页爬取操作。

上一篇：java 生成pdf

下一篇：java17新特性