下面关于网络爬虫的描述错误的是:( )
A: 网络爬虫是一个自动提取网页的程序
B: 为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分
C: 爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件
D: 网络爬虫的行为和人们访问网站的行为是完全不同的
A: 网络爬虫是一个自动提取网页的程序
B: 为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分
C: 爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件
D: 网络爬虫的行为和人们访问网站的行为是完全不同的
举一反三
- 以下关于网络爬虫的说法,不正确的是( ) A: 网络爬虫实际上是一种“自动化浏览网络”的程序,或者说是一种网络机器人 B: 网络爬虫被广泛用于互联网搜索引擎或其他类似网站 C: 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件 D: 目前互联网上的信息分类大多数都是人工完成的
- 网络爬虫是一个自动获取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。
- 中国大学MOOC: 网络爬虫是一个自动获取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。
- 以下关于网络爬虫的描述中,错误的一项是()。 A: 在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置 B: 根据某种抓取策略爬行新发现的URL,如此重复下去 C: 爬虫程序会抓取所有网页,以保证搜索正确性 D: 对于商业搜索引擎来说,分布式爬虫是必须采用的技术
- 已抓取URL队列记载了爬虫系统已经下载过的网页URL,能够避免网页的重复抓取。