• 2022-06-03
    Python爬虫架构主要由五个部分组成,分别是搜索引擎、调度器、URL管理器、网页下载器和网页解析器。( )
  • 内容

    • 0

      以下关于搜索引擎的描述中,错误的是()。 A: 搜索引擎一般由搜索器、索引器、检索器与用户接口四个部分组成。 B: 搜索器遍历指定的Web空间,不断地将采集到的网页信息添加到网页数据库中。 C: 索引器的功能是理解搜索器获取的信息,进行分类并建立索引。 D: 检索器用于输入用户查询要求,显示查询结果,提供用户反馈意见。

    • 1

      CrawlSpider整体爬取流程: a).爬虫文件首先根据起始url,获取该url的网页内容 b).链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取 c).规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析 d).将解析数据封装到item中,然后提交给管道进行持久化存储

    • 2

      在搜索引擎中,网页排序和关键词的相关度评价工作由哪一部分来完成?() A: 搜索器 B: 索引器 C: 检索器 D: 用户接口

    • 3

      网络全文搜索引擎的基本组成部分是搜索器、检索器、索引器和( )。 A: 用户接口 B: 爬虫 C: 后台数据库 D: 蜘蛛

    • 4

      以下哪个不是Scrapy体系架构的组成部分:( ) A: Scrapy引擎(Engine) B: 爬虫(Spiders) C: 支持者(Support) D: 下载器(Downloader)