python 解析html

作者：热血震荡发布日期:2025-10-13 浏览:300

# 导入BeautifulSoup库，用于解析HTML
from bs4 import BeautifulSoup
import requests

# 示例HTML内容，实际使用时可以从网页获取
html_content = """
<html>
<head><title>示例页面</title></head>
<body>
<p>这是一个段落。</p>
<a href="https://example.com">点击这里</a>
</body>
</html>
"""

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 查找并打印标题
title = soup.find('title').text
print(f"页面标题: {title}")

# 查找并打印所有链接
for link in soup.find_all('a'):
    href = link.get('href')
    text = link.text
    print(f"链接文本: {text}, 链接地址: {href}")

解释说明：

导入库：我们首先导入了BeautifulSoup库，它是一个非常流行的HTML和XML解析库。此外，还导入了requests库（虽然在这个例子中没有用到，但在实际应用中可以用来获取网页内容）。
HTML内容：定义了一个简单的HTML字符串html_content，用于演示解析过程。在实际应用中，你可以通过requests.get(url).content从网页获取HTML内容。
解析HTML：使用BeautifulSoup对象来解析HTML内容，并指定解析器为html.parser。
查找标题：使用soup.find('title')查找HTML中的<title>标签，并提取其文本内容。
查找链接：使用soup.find_all('a')查找所有的<a>标签，并提取每个链接的href属性和文本内容。

这个示例展示了如何使用Python解析HTML并提取所需信息。

上一篇：python __main__

下一篇：python list操作方法汇总