Laravel  
laravel
文档
数据库
架构
入门
php技术
    
Laravelphp
laravel / php / java / vue / mysql / linux / python / javascript / html / css / c++ / c#

java爬取网页数据

作者:岁月凉茶   发布日期:2025-02-25   浏览:103

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class WebScraper {
    public static void main(String[] args) {
        // 目标网页URL
        String url = "https://example.com";

        try {
            // 使用Jsoup连接并获取网页内容
            Document doc = Jsoup.connect(url).get();

            // 选择所有具有特定类名的元素(例如,类名为"content")
            Elements elements = doc.getElementsByClass("content");

            // 遍历并打印每个元素的文本内容
            for (org.jsoup.nodes.Element element : elements) {
                System.out.println(element.text());
            }
        } catch (IOException e) {
            // 捕获并打印异常信息
            e.printStackTrace();
        }
    }
}

解释说明:

  1. 导入库:我们使用了Jsoup库来处理HTML文档。你需要确保在项目中添加了Jsoup依赖。
  2. 目标网页URL:定义了一个字符串变量url,用于存储要爬取的网页地址。
  3. 连接并获取网页内容:通过Jsoup.connect(url).get()方法连接到指定的URL,并获取网页的HTML内容。
  4. 选择元素:使用doc.getElementsByClass("content")选择所有具有类名为content的HTML元素。
  5. 遍历并打印:遍历选中的元素,并打印它们的文本内容。
  6. 异常处理:捕获并打印可能发生的IOException异常。

如果你需要更复杂的爬虫功能,可以进一步扩展代码,比如处理分页、登录验证等。

上一篇:string在java中代表什么

下一篇:java completefuture

大家都在看

java连接数据库的代码

ubuntu 卸载java

java sort用法

java collections.sort

java file类的方法

java 判断

java时间数据类型

java 时间加一天

java demo

java 截取

Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3

Laravel 中文站