以下关于网络爬虫的描述中,错误的一项是()。
A: 在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置
B: 根据某种抓取策略爬行新发现的URL,如此重复下去
C: 爬虫程序会抓取所有网页,以保证搜索正确性
D: 对于商业搜索引擎来说,分布式爬虫是必须采用的技术
A: 在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置
B: 根据某种抓取策略爬行新发现的URL,如此重复下去
C: 爬虫程序会抓取所有网页,以保证搜索正确性
D: 对于商业搜索引擎来说,分布式爬虫是必须采用的技术
举一反三
- 对于爬虫描述错误的是 A: 分布式爬虫和对等式分布爬虫主要是存储物理位置有区别 B: 对于主从式分布爬虫,不同的服务器承担不同的角色分工 C: 对于对等式分布爬虫,每台服务器承担相同的功能 D: 一个大型分布式爬虫的3个等级:分布式数据中心、分布式抓取服务器、分布式爬虫程序
- 网络爬虫(又称为网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。一般爬虫分为() A: 通用网络爬虫 B: 聚焦网络爬虫 C: 增量式网络爬虫 D: 深层网络爬虫
- 关于各种网络爬虫,以下说法不正确的是()。 A: 通用网络爬虫通常采用并行工作方式,但需要较长时间才能刷新一次页面。 B: 通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。 C: 聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。 D: 增量式爬虫在需要的时候爬行新产生或发生更新的页面,并重新下载所有页面
- 下面关于网络爬虫的描述错误的是:( ) A: 网络爬虫是一个自动提取网页的程序 B: 为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分 C: 爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件 D: 网络爬虫的行为和人们访问网站的行为是完全不同的
- 已抓取URL队列记载了爬虫系统已经下载过的网页URL,能够避免网页的重复抓取。