# Python爬虫入门示例代码
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求获取网页内容
url = 'https://example.com' # 替换为你要爬取的网址
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有标题标签<h1>
titles = soup.find_all('h1')
# 打印所有标题文本
for title in titles:
print(title.get_text())
else:
print("请求失败,状态码:", response.status_code)
导入库:
requests
:用于发送HTTP请求并获取网页内容。BeautifulSoup
(来自bs4
库):用于解析HTML文档。发送HTTP请求:
requests.get(url)
发送GET请求,获取指定URL的网页内容。url
变量需要替换为你实际要爬取的网址。检查请求是否成功:
response.status_code
是否等于200来确认请求是否成功。200表示请求成功。解析HTML内容:
BeautifulSoup
解析返回的HTML内容,并指定解析器为html.parser
。提取数据:
soup.find_all('h1')
找到所有的<h1>
标签,并打印它们的文本内容。错误处理:
这个简单的爬虫程序展示了如何使用Python抓取网页内容并提取特定信息。你可以根据需要修改和扩展它,例如添加更多的解析逻辑或处理不同的HTML标签。
上一篇:pythonprint用法
下一篇:python入门学习
Laravel PHP 深圳智简公司。版权所有©2023-2043 LaravelPHP 粤ICP备2021048745号-3
Laravel 中文站