Laravel  
laravel
文档
数据库
架构
入门
php技术
    
Laravelphp
laravel / php / java / vue / mysql / linux / python / javascript / html / css / c++ / c#

python爬虫入门

作者:嗜神魔影   发布日期:2025-08-09   浏览:38

# Python爬虫入门示例代码

import requests
from bs4 import BeautifulSoup

# 发送HTTP请求获取网页内容
url = 'https://example.com'  # 替换为你要爬取的网址
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 找到所有标题标签<h1>
    titles = soup.find_all('h1')

    # 打印所有标题文本
    for title in titles:
        print(title.get_text())
else:
    print("请求失败,状态码:", response.status_code)

解释说明:

  1. 导入库

    • requests:用于发送HTTP请求并获取网页内容。
    • BeautifulSoup(来自bs4库):用于解析HTML文档。
  2. 发送HTTP请求

    • 使用requests.get(url)发送GET请求,获取指定URL的网页内容。url变量需要替换为你实际要爬取的网址。
  3. 检查请求是否成功

    • 通过检查response.status_code是否等于200来确认请求是否成功。200表示请求成功。
  4. 解析HTML内容

    • 使用BeautifulSoup解析返回的HTML内容,并指定解析器为html.parser
  5. 提取数据

    • 使用soup.find_all('h1')找到所有的<h1>标签,并打印它们的文本内容。
  6. 错误处理

    • 如果请求失败,打印出失败的状态码。

这个简单的爬虫程序展示了如何使用Python抓取网页内容并提取特定信息。你可以根据需要修改和扩展它,例如添加更多的解析逻辑或处理不同的HTML标签。

上一篇:pythonprint用法

下一篇:python入门学习

大家都在看

python时间格式

python开发windows应用程序

python中len是什么意思

python ord和chr

python中的yield

python自定义异常

python判断路径是否存在

python list.pop

python的for i in range

npm config set python

Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3

Laravel 中文站