Laravel  
laravel
文档
数据库
架构
入门
php技术
    
Laravelphp
laravel / php / java / vue / mysql / linux / python / javascript / html / css / c++ / c#

java爬虫

作者:独夜无伴   发布日期:2026-05-21   浏览:117

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JavaCrawler {
    public static void main(String[] args) {
        // 定义要爬取的网页URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接到网页并获取HTML文档
            Document document = Jsoup.connect(url).get();

            // 打印网页标题
            System.out.println("网页标题: " + document.title());

            // 选择所有带有特定类名的元素(例如,假设我们要抓取所有的文章标题)
            Elements articleTitles = document.getElementsByClass("article-title");

            // 遍历这些元素并打印它们的文本内容
            for (Element title : articleTitles) {
                System.out.println("文章标题: " + title.text());
            }
        } catch (IOException e) {
            // 捕获并处理异常
            e.printStackTrace();
        }
    }
}

解释说明:

  1. 导入必要的库

    • Jsoup 是一个用于解析HTML文档的Java库,支持从URL、文件或字符串中提取和操作数据。
  2. 定义URL

    • String url = "https://example.com"; 定义了要爬取的网页地址。
  3. 连接到网页并获取HTML文档

    • Document document = Jsoup.connect(url).get(); 使用Jsoup连接到指定的URL,并获取整个HTML文档。
  4. 获取网页标题

    • document.title() 获取并打印网页的标题。
  5. 选择特定元素

    • Elements articleTitles = document.getElementsByClass("article-title"); 使用CSS选择器获取所有带有特定类名(如article-title)的元素。
  6. 遍历并打印元素内容

    • 使用for循环遍历这些元素,并通过title.text()获取并打印每个元素的文本内容。
  7. 异常处理

    • 使用try-catch块捕获并处理可能发生的IO异常。

上一篇:java反射机制原理

下一篇:java.net.unknownhostexception

大家都在看

java url decode

java判断是windows还是linux

java连接数据库的代码

java date类型比较大小

java djl

ubuntu 卸载java

es java api

java list 查找

java 解压rar

jsonobject.tojavaobje

Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3

Laravel 中文站