import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class WebScraper {
public static void main(String[] args) {
// 目标网页URL
String url = "https://example.com";
try {
// 使用Jsoup连接并获取网页内容
Document doc = Jsoup.connect(url).get();
// 选择所有具有特定类名的元素(例如,类名为"content")
Elements elements = doc.getElementsByClass("content");
// 遍历并打印每个元素的文本内容
for (org.jsoup.nodes.Element element : elements) {
System.out.println(element.text());
}
} catch (IOException e) {
// 捕获并打印异常信息
e.printStackTrace();
}
}
}
Jsoup
库来处理HTML文档。你需要确保在项目中添加了Jsoup
依赖。url
,用于存储要爬取的网页地址。Jsoup.connect(url).get()
方法连接到指定的URL,并获取网页的HTML内容。doc.getElementsByClass("content")
选择所有具有类名为content
的HTML元素。IOException
异常。如果你需要更复杂的爬虫功能,可以进一步扩展代码,比如处理分页、登录验证等。
上一篇:string在java中代表什么
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站