java爬虫

作者：独夜无伴发布日期:2026-05-21 浏览:175

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JavaCrawler {
    public static void main(String[] args) {
        // 定义要爬取的网页URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接到网页并获取HTML文档
            Document document = Jsoup.connect(url).get();

            // 打印网页标题
            System.out.println("网页标题: " + document.title());

            // 选择所有带有特定类名的元素（例如，假设我们要抓取所有的文章标题）
            Elements articleTitles = document.getElementsByClass("article-title");

            // 遍历这些元素并打印它们的文本内容
            for (Element title : articleTitles) {
                System.out.println("文章标题: " + title.text());
            }
        } catch (IOException e) {
            // 捕获并处理异常
            e.printStackTrace();
        }
    }
}

解释说明：

导入必要的库：
- Jsoup 是一个用于解析HTML文档的Java库，支持从URL、文件或字符串中提取和操作数据。
定义URL：
- String url = "https://example.com"; 定义了要爬取的网页地址。
连接到网页并获取HTML文档：
- Document document = Jsoup.connect(url).get(); 使用Jsoup连接到指定的URL，并获取整个HTML文档。
获取网页标题：
- document.title() 获取并打印网页的标题。
选择特定元素：
- Elements articleTitles = document.getElementsByClass("article-title"); 使用CSS选择器获取所有带有特定类名（如article-title）的元素。
遍历并打印元素内容：
- 使用for循环遍历这些元素，并通过title.text()获取并打印每个元素的文本内容。
异常处理：
- 使用try-catch块捕获并处理可能发生的IO异常。

上一篇：java反射机制原理

下一篇：java.net.unknownhostexception