import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class SimpleJavaCrawler {
public static void main(String[] args) {
// 爬取目标网页的URL
String url = "https://example.com";
try {
// 使用Jsoup连接并获取网页内容
Document document = Jsoup.connect(url).get();
// 打印网页标题
String title = document.title();
System.out.println("网页标题: " + title);
// 获取所有<a>标签元素
Elements links = document.select("a[href]");
// 遍历并打印所有链接
for (Element link : links) {
System.out.println("链接: " + link.attr("href"));
System.out.println("文本: " + link.text());
}
} catch (IOException e) {
// 捕获异常并打印错误信息
e.printStackTrace();
}
}
}
导入必要的库:
org.jsoup.Jsoup
:用于解析HTML文档。org.jsoup.nodes.Document
和 org.jsoup.nodes.Element
:用于表示HTML文档和HTML元素。org.jsoup.select.Elements
:用于表示一组HTML元素。定义主类和方法:
SimpleJavaCrawler
是一个简单的Java爬虫类。main
方法是程序的入口点。设置爬取的目标URL:
String url = "https://example.com";
设置要爬取的网页URL。使用Jsoup连接并获取网页内容:
Document document = Jsoup.connect(url).get();
使用Jsoup库连接到指定的URL,并获取整个HTML文档。提取并打印网页标题:
String title = document.title();
获取网页的标题。System.out.println("网页标题: " + title);
打印网页标题。提取并遍历所有链接:
Elements links = document.select("a[href]");
使用CSS选择器提取所有带有href
属性的<a>
标签。for (Element link : links)
遍历所有提取到的链接,并打印每个链接的URL和文本内容。异常处理:
catch (IOException e)
捕获可能出现的IO异常,并打印堆栈跟踪信息。上一篇:java中的数据类型
下一篇:javaservlet编程
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站