import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JavaCrawler {
public static void main(String[] args) {
// 定义要爬取的网页URL
String url = "https://example.com";
try {
// 使用Jsoup连接到网页并获取HTML文档
Document document = Jsoup.connect(url).get();
// 打印网页标题
System.out.println("网页标题: " + document.title());
// 选择所有带有特定类名的元素(例如,假设我们要抓取所有的文章标题)
Elements articleTitles = document.getElementsByClass("article-title");
// 遍历这些元素并打印它们的文本内容
for (Element title : articleTitles) {
System.out.println("文章标题: " + title.text());
}
} catch (IOException e) {
// 捕获并处理异常
e.printStackTrace();
}
}
}
导入必要的库:
Jsoup 是一个用于解析HTML文档的Java库,支持从URL、文件或字符串中提取和操作数据。定义URL:
String url = "https://example.com"; 定义了要爬取的网页地址。连接到网页并获取HTML文档:
Document document = Jsoup.connect(url).get(); 使用Jsoup连接到指定的URL,并获取整个HTML文档。获取网页标题:
document.title() 获取并打印网页的标题。选择特定元素:
Elements articleTitles = document.getElementsByClass("article-title"); 使用CSS选择器获取所有带有特定类名(如article-title)的元素。遍历并打印元素内容:
for循环遍历这些元素,并通过title.text()获取并打印每个元素的文本内容。异常处理:
try-catch块捕获并处理可能发生的IO异常。上一篇:java反射机制原理
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站