天翼云代理,天翼云代理商,北京代理商
天翼云2.5折专线:18510009100/18510009200(全国市话)

浅谈Google蜘蛛抓取的工作原理(01)

2021-11-24 09:08:33

什么是爬行器?


爬行器(也称搜索机器人,蜘蛛)是谷歌和其他搜索引擎用来扫描网页的软件。简单地说,它"爬"网页从一页到另一页,寻找谷歌还没有在其数据库新增或修改的内容。


任何搜索引擎都有自己的爬行器。至于谷歌,有超过15种不同类型的爬行器,谷歌的主要爬行器被称为Googlebot。Googlebot同时执行爬行和索引,下面我们将仔细看看它是如何工作的。


爬行器如何工作?


这里没有URL的中央注册表,每当创建新页面时都会更新。这意味着谷歌不会自动"提醒"他们,但必须在网上找到它们。Googlebot 不断在互联网上徘徊,搜索新页面,并将它们添加到谷歌现有页面的数据库中。




一旦 Googlebot 发现新页面,它将在浏览器中呈现(可视化)页面,加载所有 HTML、第三方代码、JavaScript 和 CSS。此信息存储在搜索引擎的数据库中,然后用于索引和对页面进行排名。如果一个页面已被索引,它被添加到谷歌索引—— 一个超级巨大的谷歌数据库。


image.png


爬行器如何查看页面?


爬行器在最新版本的Google浏览器中呈现一个页面。在完美的场景中,爬行者会以您设计和组装页面的方式"展示"页面。在真实的情况下,事情可能会更加复杂。


移动和桌面渲染


Googlebot可以"看到"你的页面与两个子类型的爬行者:桌面Googlebot和智能手机Googlebot。需要此部门为桌面和移动 SERP 索引页面。


几年前,谷歌使用桌面爬行器访问并渲染了大部分页面。但随着移动第一概念的引入,情况发生了变化。谷歌认为,世界变得足够对移动友好,并开始使用智能手机Googlebot来抓取、索引和排名移动和桌面SERP网站的移动版本。


尽管如此,实施移动先发制人索引结果却比预期的要困难。互联网是巨大的,大多数网站似乎对移动设备的优化不佳。这使得谷歌使用移动第一的概念来爬行和索引新网站和那些老网站,成为完全优化的移动。如果一个网站不方便移动,它是由桌面Googlebot第一手抓取和渲染。


即使您的网站已转换为移动先索引,您仍将有一些页面由 Googlebot 桌面抓取,因为 Google 希望检查您的网站在桌面上的表现。谷歌没有直接说,如果与手机版本有很大不同,它将为您的桌面版本提供索引。不过,假设这一点是合乎逻辑的,因为谷歌的主要目标是为用户提供最有用的信息。谷歌几乎不想盲目地遵循移动第一的概念来失去这些信息。


注意:在任何情况下,您的网站将被移动Googlebot和桌面Googlebot访问。因此,重要的是要照顾你的网站的两个版本,并考虑使用响应式布局,如果你还没有这样做。


如何知道谷歌是否以移动第一的概念抓取和索引您的网站?您将在谷歌搜索控制台收到特别通知。

image.png


HTML 和 JavaScript 渲染


Googlebot 在处理和渲染笨重代码方面可能会遇到一些问题。如果您的页面代码混乱,爬网程序可能无法正确呈现它并考虑您的页面为空。


至于JavaScript渲染,你应该记住,JavaScript是一种快速发展的语言,Googlebot 有时可能无法支持最新的版本。确保您的JS与Googlebot 兼容,否则您的页面可能会呈现错误。


注意您的JS加载时间。如果脚本加载需要超过 5 秒,Googlebot 将不会渲染和索引该脚本生成的内容。


注意:如果你的网站充满了大量的JS元素,并且你不能没有它们,谷歌建议 server-side rendering(服务器侧渲染)。这将使您的网站加载速度更快,并防止 JavaScript 错误。

要查看页面上的哪些资源会导致渲染问题(并实际查看您是否有任何问题),请登录 Google Search Console帐户,转到URL 检查,输入要检查的 URL,单击测试实时 URL按钮,然后单击"View Tested Page"。


image.png


然后转到"More Info"部分,单击页面资源和JavaScript 控制台消息文件夹,查看 Googlebot 未能呈现的资源列表。


image.png


现在,您可以向网站管理员显示问题列表,并要求他们调查和修复错误。


什么影响爬行者的行为?


Googlebot 的行为并不混乱——它是由复杂的算法决定的,这些算法可以帮助爬行者浏览网络并设定信息处理规则。


然而,算法的行为不是你什么也做不了,希望得到最好的结果。让我们仔细看看什么影响爬行者的行为,以及如何优化页面的爬行。


内部链接和反向链接


如果Google已经知道您的网站,则Googlebot会不时检查您的主页上是否有更新。 因此,将指向新页面的链接放置在网站的权威页面上至关重要。 理想情况下,在首页上。


您可以用一个块来丰富您的主页,该块将具有最新的新闻或博客文章,即使你有单独的新闻页面和博客。这将使Googlebot找到你的新页面更快。这个建议可能看起来相当明显,尽管如此,许多网站所有者仍然忽视它,这导致了糟糕的索引和低仓位。


在爬行方面,反向链接的工作相同。所以,如果你添加了一个新的页面,不要忘记外部促销。您可以尝试客人发帖、发起广告活动或尝试任何其他方式,让 Googlebot 查看新页面的 URL。


注意:链接应该遵循,让Googlebot 跟随他们。虽然谷歌最近表示,没有跟随链接也可以用作爬行和索引的提示,我们仍然建议使用dofollow。只是为了确保爬行者确实看到页面。

单击深度


单击深度显示页面离主页有多远。理想情况下,网站的任何页面应在 3 次点击内到达。更大的点击深度会减慢爬行速度,并且几乎不会使用户体验受益。


您可以使用Web 网站审核员检查您的网站是否与点击深度有关。启动该工具,然后转到站点结构>页面,并注意点击深度列。

image.png


如果您看到某些重要页面离主页太远,请重新考虑网站结构的安排。良好的结构应该是简单和可扩展的,所以你可以添加尽可能多的新页面,你需要没有负面影响的简单性。


image.png

12年经验 · 提供上云保障

服务热线:132-6161-6125(手机) 400-150-1900(全国市话)

站内导航: 天翼云服务器价格| 天翼云购买流程| 天翼云代理| 北京天翼云代理商| 杭州天翼云代理| 深圳天翼云代理商| 钉钉代理商| 阿里云代理| 公司官网

我公司收款账号| 天翼云备案系统

CopyRight © 2019 天翼云代理商. All Rights Reserved 京ICP备2024071855号-7 管理-北京优胜智连科技有限公司