java爬取网页数据

作者：岁月凉茶发布日期:2025-02-25 浏览:127

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class WebScraper {
    public static void main(String[] args) {
        // 目标网页URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接并获取网页内容
            Document doc = Jsoup.connect(url).get();

            // 选择所有具有特定类名的元素（例如，类名为"content"）
            Elements elements = doc.getElementsByClass("content");

            // 遍历并打印每个元素的文本内容
            for (org.jsoup.nodes.Element element : elements) {
                System.out.println(element.text());
            }
        } catch (IOException e) {
            // 捕获并打印异常信息
            e.printStackTrace();
        }
    }
}

解释说明：

导入库：我们使用了Jsoup库来处理HTML文档。你需要确保在项目中添加了Jsoup依赖。
目标网页URL：定义了一个字符串变量url，用于存储要爬取的网页地址。
连接并获取网页内容：通过Jsoup.connect(url).get()方法连接到指定的URL，并获取网页的HTML内容。
选择元素：使用doc.getElementsByClass("content")选择所有具有类名为content的HTML元素。
遍历并打印：遍历选中的元素，并打印它们的文本内容。
异常处理：捕获并打印可能发生的IOException异常。

如果你需要更复杂的爬虫功能，可以进一步扩展代码，比如处理分页、登录验证等。

上一篇：string在java中代表什么

下一篇：java 网络编程