用python爬虫爬取网页信息

作者：余烬已熄发布日期:2026-05-31 浏览:156

# 导入所需的库
import requests
from bs4 import BeautifulSoup

# 定义一个函数来爬取网页信息
def fetch_webpage(url):
    # 发送HTTP请求获取网页内容
    response = requests.get(url)

    # 检查请求是否成功
    if response.status_code == 200:
        # 使用BeautifulSoup解析HTML内容
        soup = BeautifulSoup(response.text, 'html.parser')

        # 示例：提取所有的标题标签<h1>
        titles = soup.find_all('h1')
        for title in titles:
            print(title.get_text())
    else:
        print("请求失败，状态码:", response.status_code)

# 调用函数并传入目标URL
if __name__ == "__main__":
    url = "https://example.com"  # 替换为你要爬取的网址
    fetch_webpage(url)

解释说明：

导入库：使用 requests 库发送HTTP请求，BeautifulSoup 用于解析HTML内容。
定义函数：fetch_webpage 函数接收一个URL作为参数。
发送请求：使用 requests.get() 方法获取网页内容。
检查状态码：确保请求成功（状态码为200）。
解析HTML：使用 BeautifulSoup 解析HTML，并提取所有 <h1> 标签的内容。
输出结果：打印提取到的标题文本。

如果你需要爬取其他特定的信息，可以根据需求修改 soup.find_all() 的参数。

上一篇：c++与python的区别

下一篇：python json 转字符串