java爬虫代码示例

作者：浪子罢了发布日期:2025-05-30 浏览:105

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class SimpleJavaCrawler {

    public static void main(String[] args) {
        // 爬取目标网页的URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接并获取网页内容
            Document document = Jsoup.connect(url).get();

            // 打印网页标题
            String title = document.title();
            System.out.println("网页标题: " + title);

            // 获取所有<a>标签元素
            Elements links = document.select("a[href]");

            // 遍历并打印所有链接
            for (Element link : links) {
                System.out.println("链接: " + link.attr("href"));
                System.out.println("文本: " + link.text());
            }
        } catch (IOException e) {
            // 捕获异常并打印错误信息
            e.printStackTrace();
        }
    }
}

代码解释说明：

导入必要的库：
- org.jsoup.Jsoup：用于解析HTML文档。
- org.jsoup.nodes.Document 和 org.jsoup.nodes.Element：用于表示HTML文档和HTML元素。
- org.jsoup.select.Elements：用于表示一组HTML元素。
定义主类和方法：
- SimpleJavaCrawler 是一个简单的Java爬虫类。
- main 方法是程序的入口点。
设置爬取的目标URL：
- String url = "https://example.com"; 设置要爬取的网页URL。
使用Jsoup连接并获取网页内容：
- Document document = Jsoup.connect(url).get(); 使用Jsoup库连接到指定的URL，并获取整个HTML文档。
提取并打印网页标题：
- String title = document.title(); 获取网页的标题。
- System.out.println("网页标题: " + title); 打印网页标题。
提取并遍历所有链接：
- Elements links = document.select("a[href]"); 使用CSS选择器提取所有带有href属性的<a>标签。
- for (Element link : links) 遍历所有提取到的链接，并打印每个链接的URL和文本内容。
异常处理：
- catch (IOException e) 捕获可能出现的IO异常，并打印堆栈跟踪信息。

上一篇：java中的数据类型

下一篇：javaservlet编程