python爬虫代码完整版

作者：°妮可罗宾发布日期:2025-06-28 浏览:44

# Python爬虫代码完整版

import requests
from bs4 import BeautifulSoup

# 定义一个函数，用于获取网页内容
def get_html(url):
    try:
        # 发送HTTP请求
        response = requests.get(url)
        # 检查请求是否成功
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败，状态码: {response.status_code}")
            return None
    except Exception as e:
        print(f"请求过程中出现错误: {e}")
        return None

# 定义一个函数，用于解析网页内容
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 假设我们要提取所有的标题标签<h1>
    titles = soup.find_all('h1')
    for title in titles:
        print(title.get_text())

# 主函数
def main():
    url = 'https://example.com'  # 替换为你想要爬取的网址
    html = get_html(url)
    if html:
        parse_html(html)

if __name__ == '__main__':
    main()

解释说明：

导入库：
- requests：用于发送HTTP请求。
- BeautifulSoup：用于解析HTML内容。
get_html 函数：
- 发送HTTP GET请求到指定URL。
- 检查响应状态码，如果是200则返回HTML内容，否则打印错误信息并返回None。
- 捕获可能的异常并打印错误信息。
parse_html 函数：
- 使用BeautifulSoup解析HTML内容。
- 提取所有的<h1>标签，并打印其文本内容。
main 函数：
- 定义要爬取的URL。
- 调用get_html函数获取HTML内容。
- 如果获取成功，则调用parse_html函数解析并处理HTML内容。
程序入口：
- 当脚本作为主程序运行时，调用main函数执行爬虫任务。

上一篇：python break

下一篇：args在python中的含义