网站通过robots.txt文件可以限定网络爬虫的访问范围。
举一反三
- 关于网络爬虫协议文件robots.txt,说法错误的是() A: 一个网站可以放多个不同robots文件 B: robots文件不可以用xml格式命名 C: disallow用来描述不希望被访问到的一个URL D: robots文件可以放在任何位置
- 关于网络爬虫协议文件robots.txt,说法错误的是:
- 如果一个网站的根目录下没有robots.txt文件,下面哪个说法是不正确的? A: 网络爬虫可以肆意爬取该网站内容。 B: 网络爬虫可以不受限制的爬取该网站内容并进行商业使用。 C: 网络爬虫应该以不对服务器造成性能骚扰的方式爬取内容。 D: 网络爬虫的不当爬取行为仍然具有法律风险。
- 网站的robots.txt的作用是什么 A: 告知用户本网站有robots.txt中列出的子站点 B: 方便网络爬虫爬取本站数据 C: 供开发者查阅,方便网站开发 D: 告知爬虫robots.txt中列出的子站点不要爬取
- 网站 robots.txt 的作用是? A: 表明该网站有多少个机器人守护 B: 记录了所有爬虫访问的记录 C: 表明了哪些页面可以爬取哪些不能