import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class JsoupExample {
public static void main(String[] args) {
// 定义要抓取的URL
String url = "https://example.com";
try {
// 使用Jsoup连接到URL并获取HTML文档
Document document = Jsoup.connect(url).get();
// 打印页面标题
String title = document.title();
System.out.println("页面标题: " + title);
// 选择所有带有特定类名的元素
Elements elementsWithClass = document.getElementsByClass("example-class");
for (Element element : elementsWithClass) {
System.out.println("元素内容: " + element.text());
}
// 选择所有<a>标签并打印链接
Elements links = document.select("a[href]");
for (Element link : links) {
System.out.println("链接: " + link.attr("href"));
System.out.println("链接文本: " + link.text());
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
Jsoup
库中的相关类,包括Document
、Element
和Elements
。url
,表示要抓取的网页地址。Jsoup.connect(url).get()
方法连接到指定的URL,并获取其HTML文档内容。document.title()
方法获取并打印页面的标题。document.getElementsByClass("example-class")
选择所有带有特定类名的元素,并遍历这些元素打印它们的内容。document.select("a[href]")
选择所有带有href
属性的<a>
标签,并遍历这些标签打印链接及其文本内容。try-catch
块捕获可能发生的IOException
异常。上一篇:java map根据key排序
下一篇:java void
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站