抓取是指使用爬虫程序抓取网络上的数十亿个网页。 爬虫程序叫Googlebot(也称为漫游器或“蜘蛛”程序)。Googlebot使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。 爬取过程中比较重要的有两个文档:robots.txt爬行许可证和sitemap.xml站点地图。 robots.txt定义了爬虫程序不可抓取的路径和限制的抓取频率等信息,sitemap.xml是描述网站的网页间的关系,告诉Google哪些页面对网站是重要的。