• 2021-04-14
    URL去重是大规模网络爬虫必要组成,URL去重方法包括( )。
  • 将URL保存到数据库进行去重;将URL直接存放到HashSet或Set中去重;将URL经过MD5之后保存到HashSet或Set;使用Bitmap方法去重使用Bitmap方法;

    内容

    • 0

      URL的组成包括_____

    • 1

      【单选题】关于数据清洗,下列说法正确的是( ) A. 去重、补漏、计算 B. 去重、补漏、纠错 C. 补漏、纠错、计算 D. 去重、计算、纠错

    • 2

      以下关于网络爬虫的描述中,错误的一项是()。 A: 在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置 B: 根据某种抓取策略爬行新发现的URL,如此重复下去 C: 爬虫程序会抓取所有网页,以保证搜索正确性 D: 对于商业搜索引擎来说,分布式爬虫是必须采用的技术

    • 3

      网络爬虫爬取的过程为()1选取一部分种子URL;2将这些URL放到待抓取URL中;3从待抓取URL队列中取出待抓取的URL,解析DNS,得到主机的IP地址,并将URL对应的网页下载下来,存储到已下载网页库中。此外,将这些URL放进已抓取URL队列;4分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放入待抓取URL队列,从而进入下一个循环。 A: ①②③④ B: ①②④③ C: ④①③② D: ②③①④

    • 4

      以下关于网络爬虫的说法,不正确的是( ) A: 网络爬虫实际上是一种“自动化浏览网络”的程序,或者说是一种网络机器人 B: 网络爬虫被广泛用于互联网搜索引擎或其他类似网站 C: 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件 D: 目前互联网上的信息分类大多数都是人工完成的