Laravel  
laravel
文档
数据库
架构
入门
php技术
    
Laravelphp
laravel / php / java / vue / mysql / linux / python / javascript / html / css / c++ / c#

java 爬虫

作者:你忘我亡   发布日期:2026-03-09   浏览:100

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JavaCrawler {

    public static void main(String[] args) {
        // 定义要爬取的网页URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接并获取网页内容
            Document document = Jsoup.connect(url).get();

            // 打印网页标题
            String title = document.title();
            System.out.println("网页标题: " + title);

            // 获取所有链接
            Elements links = document.select("a[href]");
            System.out.println("网页中的链接:");
            for (Element link : links) {
                // 输出链接文本和链接地址
                System.out.println(link.text() + " - " + link.attr("href"));
            }

        } catch (IOException e) {
            // 捕获异常并打印错误信息
            System.out.println("抓取网页时出错: " + e.getMessage());
        }
    }
}

解释说明:

  1. 导入库:我们使用了 Jsoup 库来处理 HTML 文档。你需要确保项目中已经引入了 Jsoup 依赖。
  2. 定义 URL:指定要爬取的网页 URL。
  3. 连接网页:使用 Jsoup.connect(url).get() 方法连接到指定的 URL 并获取网页内容,返回一个 Document 对象。
  4. 提取信息
    • 使用 document.title() 获取网页的标题。
    • 使用 document.select("a[href]") 获取所有的超链接,并遍历这些链接,输出它们的文本和 URL。
  5. 异常处理:捕获可能发生的 IOException 异常,并打印错误信息。

这个简单的例子展示了如何使用 Java 和 Jsoup 库进行基本的网页爬取操作。

上一篇:java 生成pdf

下一篇:java17新特性

大家都在看

java url decode

java判断是windows还是linux

java连接数据库的代码

java date类型比较大小

java djl

ubuntu 卸载java

es java api

java list 查找

java 解压rar

java读取excel中的图片

Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3

Laravel 中文站