Laravel  
laravel
文档
数据库
架构
入门
php技术
    
Laravelphp
laravel / php / java / vue / mysql / linux / python / javascript / html / css / c++ / c#

java爬虫代码示例

作者:浪子罢了   发布日期:2025-05-30   浏览:74

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class SimpleJavaCrawler {

    public static void main(String[] args) {
        // 爬取目标网页的URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接并获取网页内容
            Document document = Jsoup.connect(url).get();

            // 打印网页标题
            String title = document.title();
            System.out.println("网页标题: " + title);

            // 获取所有<a>标签元素
            Elements links = document.select("a[href]");

            // 遍历并打印所有链接
            for (Element link : links) {
                System.out.println("链接: " + link.attr("href"));
                System.out.println("文本: " + link.text());
            }
        } catch (IOException e) {
            // 捕获异常并打印错误信息
            e.printStackTrace();
        }
    }
}

代码解释说明:

  1. 导入必要的库

    • org.jsoup.Jsoup:用于解析HTML文档。
    • org.jsoup.nodes.Documentorg.jsoup.nodes.Element:用于表示HTML文档和HTML元素。
    • org.jsoup.select.Elements:用于表示一组HTML元素。
  2. 定义主类和方法

    • SimpleJavaCrawler 是一个简单的Java爬虫类。
    • main 方法是程序的入口点。
  3. 设置爬取的目标URL

    • String url = "https://example.com"; 设置要爬取的网页URL。
  4. 使用Jsoup连接并获取网页内容

    • Document document = Jsoup.connect(url).get(); 使用Jsoup库连接到指定的URL,并获取整个HTML文档。
  5. 提取并打印网页标题

    • String title = document.title(); 获取网页的标题。
    • System.out.println("网页标题: " + title); 打印网页标题。
  6. 提取并遍历所有链接

    • Elements links = document.select("a[href]"); 使用CSS选择器提取所有带有href属性的<a>标签。
    • for (Element link : links) 遍历所有提取到的链接,并打印每个链接的URL和文本内容。
  7. 异常处理

    • catch (IOException e) 捕获可能出现的IO异常,并打印堆栈跟踪信息。

上一篇:java中的数据类型

下一篇:javaservlet编程

大家都在看

java连接数据库的代码

ubuntu 卸载java

java sort用法

java collections.sort

java file类的方法

java 判断

java时间数据类型

java 时间加一天

java demo

java 截取

Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3

Laravel 中文站