Laravel  
laravel
文档
数据库
架构
入门
php技术
    
Laravelphp
laravel / php / java / vue / mysql / linux / python / javascript / html / css / c++ / c#

python爬虫代码完整版

作者:°妮可罗宾   发布日期:2025-06-28   浏览:44

# Python爬虫代码完整版

import requests
from bs4 import BeautifulSoup

# 定义一个函数,用于获取网页内容
def get_html(url):
    try:
        # 发送HTTP请求
        response = requests.get(url)
        # 检查请求是否成功
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败,状态码: {response.status_code}")
            return None
    except Exception as e:
        print(f"请求过程中出现错误: {e}")
        return None

# 定义一个函数,用于解析网页内容
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 假设我们要提取所有的标题标签<h1>
    titles = soup.find_all('h1')
    for title in titles:
        print(title.get_text())

# 主函数
def main():
    url = 'https://example.com'  # 替换为你想要爬取的网址
    html = get_html(url)
    if html:
        parse_html(html)

if __name__ == '__main__':
    main()

解释说明:

  1. 导入库

    • requests:用于发送HTTP请求。
    • BeautifulSoup:用于解析HTML内容。
  2. get_html 函数

    • 发送HTTP GET请求到指定URL。
    • 检查响应状态码,如果是200则返回HTML内容,否则打印错误信息并返回None
    • 捕获可能的异常并打印错误信息。
  3. parse_html 函数

    • 使用BeautifulSoup解析HTML内容。
    • 提取所有的<h1>标签,并打印其文本内容。
  4. main 函数

    • 定义要爬取的URL。
    • 调用get_html函数获取HTML内容。
    • 如果获取成功,则调用parse_html函数解析并处理HTML内容。
  5. 程序入口

    • 当脚本作为主程序运行时,调用main函数执行爬虫任务。

上一篇:python break

下一篇:args在python中的含义

大家都在看

python时间格式

python ord和chr

python中的yield

python自定义异常

python list.pop

python的for i in range

npm config set python

python代码简单

python读取文件夹

python中turtle

Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3

Laravel 中文站