关于各种网络爬虫,以下说法不正确的是()。
A: 通用网络爬虫通常采用并行工作方式,但需要较长时间才能刷新一次页面。
B: 通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。
C: 聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。
D: 增量式爬虫在需要的时候爬行新产生或发生更新的页面,并重新下载所有页面
A: 通用网络爬虫通常采用并行工作方式,但需要较长时间才能刷新一次页面。
B: 通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。
C: 聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。
D: 增量式爬虫在需要的时候爬行新产生或发生更新的页面,并重新下载所有页面
举一反三
- ()是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。 A: 聚焦网络爬虫 B: 增量式网络爬虫 C: 通用网络爬虫 D: 深层网络爬虫
- 关于聚焦爬虫的工作原理,下列描述正确的是( )。 A: 聚焦爬虫会根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接 B: 有用的链接会放入等待抓取的URL队列 C: 根据一定的搜索策略,从URL队列中选择下一步要抓取的网页URL D: 我们需要根据爬取需求定义聚焦爬虫的爬取目标,并进行相关的描述。
- 下列选项中,被称为主题网络爬虫的是()。 A: 增量式网络爬虫 B: 通用网络爬虫 C: 深层爬虫 D: 聚焦网络爬虫
- 【名词解释】搜索引擎蜘蛛、通用网络爬虫、聚焦网络爬虫、增量式网络爬虫
- 网络爬虫按照系统结构和实现技术,大致可以分为()等 A: 通用网络爬虫 B: 聚焦网络爬虫 C: 增量式网络爬虫 D: 深层页面爬虫