python爬虫爬取网页数据

作者：／神經病／发布日期:2025-09-06 浏览:293

# Python爬虫爬取网页数据示例代码

# 导入所需的库
import requests
from bs4 import BeautifulSoup

# 目标URL
url = 'https://example.com'

# 发送HTTP请求获取网页内容
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析网页内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 查找并提取所需的数据，例如所有标题标签<h1>
    titles = soup.find_all('h1')

    # 打印提取到的标题
    for title in titles:
        print(title.get_text())
else:
    print("请求失败，状态码：", response.status_code)

解释说明：

导入库：我们使用requests库来发送HTTP请求，并使用BeautifulSoup库来解析HTML内容。
目标URL：设置要爬取的网页URL。
发送请求：使用requests.get()方法发送GET请求，获取网页内容。
检查请求状态：通过检查响应的状态码（status_code）来确认请求是否成功。如果状态码为200，表示请求成功。
解析网页：使用BeautifulSoup解析网页内容，将HTML文档转换成一个树形结构，便于查找和提取数据。
提取数据：使用find_all()方法查找所有的<h1>标签，并打印它们的文本内容。

希望这段代码和解释对你有帮助！

上一篇：python在线编辑器

下一篇：def在python中的用法