python爬虫框架

作者：—只賣身不賣藝发布日期:2025-07-02 浏览:302

# 导入所需的库
import requests
from bs4 import BeautifulSoup

# 定义一个简单的爬虫函数
def simple_spider(url):
    # 发送HTTP请求获取网页内容
    response = requests.get(url)

    # 检查请求是否成功
    if response.status_code == 200:
        # 使用BeautifulSoup解析HTML内容
        soup = BeautifulSoup(response.text, 'html.parser')

        # 提取页面标题
        title = soup.title.string

        # 返回页面标题
        return title
    else:
        return "请求失败"

# 示例URL
url = "https://www.example.com"

# 调用爬虫函数并打印结果
print(simple_spider(url))

解释说明：

导入库：我们使用了requests库来发送HTTP请求，以及BeautifulSoup库来解析HTML内容。
定义爬虫函数：simple_spider函数接受一个URL作为参数，并返回该页面的标题。
发送请求：使用requests.get(url)发送GET请求，获取网页内容。
检查请求状态：通过检查response.status_code是否为200来确认请求是否成功。
解析HTML：使用BeautifulSoup解析响应的HTML内容，并提取页面的标题。
返回结果：如果请求成功，则返回页面标题；否则返回"请求失败"。

这个示例代码展示了如何使用Python编写一个简单的爬虫框架。

上一篇：python ping

下一篇：python中format