python爬虫框架scrapy

作者：稍纵即逝发布日期:2026-02-22 浏览:181

# 导入Scrapy所需的库
import scrapy

# 定义一个爬虫类，继承自scrapy.Spider
class ExampleSpider(scrapy.Spider):
    # 爬虫的名称，必须唯一
    name = 'example'

    # 允许爬取的域名列表
    allowed_domains = ['example.com']

    # 初始请求的URL列表
    start_urls = ['http://example.com']

    # 解析函数，处理响应内容
    def parse(self, response):
        # 使用XPath或CSS选择器提取数据
        for title in response.css('h1::text').getall():
            yield {'title': title}

        # 如果需要跟进链接，可以在这里生成新的请求
        for next_page in response.css('a::attr(href)').getall():
            yield response.follow(next_page, self.parse)

解释说明：

导入库：import scrapy 导入了Scrapy库。
定义爬虫类：创建了一个名为 ExampleSpider 的类，继承自 scrapy.Spider。
爬虫名称：name = 'example' 定义了爬虫的名称，必须是唯一的。
允许的域名：allowed_domains = ['example.com'] 限制了爬虫只能访问指定的域名。
初始URL：start_urls = ['http://example.com'] 指定了爬虫启动时访问的URL。
解析函数：parse 方法用于处理从网页获取的响应内容。这里使用了CSS选择器来提取页面中的标题，并通过 yield 返回提取到的数据。
跟进链接：如果页面中有其他链接，可以通过 response.follow 方法生成新的请求，继续爬取。

如果你需要更复杂的功能，比如处理登录、表单提交等，可以在Scrapy中使用更高级的功能和中间件。

上一篇：python查看库版本

下一篇：python 启动